LO6: Τεχνολογίες Omics και Βιολογία Συστημάτων

ΣΥΓΚΡΙΤΙΚΗ ΓΟΝΙΔΙΩΜΑΤΙΚΗ ΑΝΑΛΥΣΗ

Οι πρώτες πλήρεις αλληλουχίες γονιδιώματος του ζωντανού οργανισμού έχουν γίνει διαθέσιμες εδώ και πολύ καιρό. Το 1995, αναφέρθηκαν τα γονιδιώματα των πρώτων δύο βακτηρίων, Haemophilus influenzae και Mycoplasma genitalium. Ένα χρόνο αργότερα, αναλύθηκαν πλήρως τα πρώτα γονιδιώματα από αρχαία (Methanococcus jannaschii) και ευκαρυώτη (ζυμομύκητας Saccharomyces cerevisiae). Στη συνέχεια, το 1997 έγινε η αλληλούχιση των γονιδιωμάτων των δύο καλύτερα μελετώντων βακτηρίων, Escherichia coli και Bacillus subtilis. Από τότε έχουν αλληλουχηθεί πολλά περισσότερα γονιδιώματα βακτηρίων και αρχαίων, καθώς και τα γονιδιώματα πολυκύτταρων ευκαρυωτών, όπως το νηματώδες Caenorhabiditis elegans.

Ένα εξαιρετικό αποτέλεσμα αυτών των πρώτων μελετών του γονιδιώματος είναι ότι τουλάχιστον το ένα τρίτο των γονιδίων που κωδικοποιούνται σε κάθε γονιδίωμα δεν είχε γνωστή ή προβλέψιμη λειτουργία. Η πρόβλεψη της γενικής λειτουργίας πολλών από τα υπόλοιπα γονίδια φαίνεται πιθανή. Το μέγεθος της άγνοιάς μας γίνεται ιδιαίτερα προφανές κατά την εξέταση του γονιδιώματος του Escherichia coli Κ12, που είναι αμφισβητήσιμα ο περισσότερο εκτετενώς μελετημένος οργανισμό τόσο μεταξύ των προκαρυωτών όσο και των ευκαρυωτών. Ακόμη και σε αυτόν τον πολύ γνωστό οργανισμό-μοντέλο για τους μοριακούς βιολόγους, τουλάχιστον το 40% των γονιδίων του έχει άγνωστη λειτουργία. Από την άλλη πλευρά, αποδείχθηκε ότι το επίπεδο της εξελικτικής διατήρησης των μικροβιακών πρωτεϊνών είναι μάλλον ομοιόμορφο, με το ~70% των γονιδιακών προϊόντων από καθένα από τα γονιδιώματα που αλληλουχίθηκαν να έχουν ορθόλογα σε απομακρυσμένα γονιδιώματα. Έτσι, οι λειτουργίες πολλών από αυτά τα γονίδια μπορούν να προβλεφθούν απλά συγκρίνοντας τα διαφορετικά γονιδιώματα και μεταφέροντας το λειτουργικό σχολιασμό των πρωτεϊνών από τους καλύτερα μελετούμενους οργανισμούς στους ορθολόγους τους από τους λιγότερο μελετημένους οργανισμούς. Αυτό καθιστά τη συγκριτική γονιδιωματική ένα ισχυρό εργαλείο για την καλύτερη κατανόηση των γονιδιωμάτων και, στη συνέχεια, της βιολογίας των αντίστοιχων οργανισμών.

ΠΡΟΟΔΟΣ ΣΤΗΝ ΑΛΛΗΛΟΥΧΙΣΗ ΤΟΥ ΓΟΝΙΔΙΩΜΑΤΟΣ

Στις αρχές του 2000, τα γονιδιώματα 23 διαφορετικών μονοκύτταρων οργανισμών (5 αρχαία, 17 βακτήρια και 1 ευκαρυώτης) είχαν αναλυθεί πλήρως. Μέχρι 2018 χιλιάδες μικροβιακά και ευκαρυωτικά γονιδιώματα ήταν σε διαφορετικά στάδια ολοκλήρωσης της αλληλούχισης. Στην GenBank Entrez Genomes είναι διαθέσιμοι οι σποραδικά επικαιροποιημένοι κατάλογοι των τελικών και των ημιτελών προγραμμάτων αλληλούχισης του γονιδιώματος που χρηματοδοτούνται από το δημόσιο. Ένας πλήρης κατάλογος κέντρων αλληλούχισης παγκοσμίως μπορεί να βρεθεί στην ιστοσελίδα του NHGRI Web site. Κάποιος μπορεί να ανακτήσει τα πραγματικά δεδομένα αλληλουχίας από την τοποθεσία FTP του NCBI ή από τις τοποθεσίες FTP κάθε επιμέρους κέντρου αλληλούχισης. Ένα πρακτικό σύστημα ανάκτησης αλληλουχίας διατηρείται επίσης στην DNA Data Bank of Japan. Στο πλαίσιο του έργου Reference Sequences (RefSeq), η NCBI άρχισε να αυξάνει τους καταλόγους των γονιδιακών προϊόντων με κάποιες πολύτιμες πληροφορίες ανάλυσης της αλληλουχίας, όπως οι λίστες των καλύτερων hits σε διαφορετικά είδη, τις προβλέψεις λειτουργιών για μη χαρακτηρισμένα γονιδιακά προϊόντα, πρωτεΐνες κλπ. Από την άλλη πλευρά, τα κέντρα αλληλούχισης όπως το TIGR ενημερώνουν τακτικά τα δεδομένα αλληλουχίας τους, διορθώνουν ορισμένα από τα σφάλματα αλληλούχισης και, κατά συνέπεια, περιέχουν πιο πρόσφατα δεδομένα για τις ημιτελείς αλληλουχίες του γονιδιώματος.

Γενικές Βάσεις Δεδομένων για τη Συγκριτική Γονιδιωματική

Επειδή ο Ιστός καθιστά διαθέσιμες τις αλληλουχίες του γονιδιώματος σε οποιονδήποτε έχει πρόσβαση στο Διαδίκτυο, υπάρχει μια ποικιλία βάσεων δεδομένων που προσφέρουν μια περισσότερο ή λιγότερο εύκολη πρόσβαση στα βασικά ίδια δεδομένα αλληλουχίας. Ωστόσο, αρκετές ερευνητικές ομάδες, που ειδικεύονται στην ανάλυση του γονιδιώματος, διατηρούν βάσεις δεδομένων που παρέχουν σημαντικές πρόσθετες πληροφορίες, όπως οργάνωση οπερών, προβλέψεις λειτουργίας, τρισδιάστατη δομή και ανακατασκευή μεταβολικού δικτύου.

PEDANT

Αυτή η χρήσιμη πηγή Ιστού παρέχει απαντήσεις σε περισσότερες τυποποιημένες ερωτήσεις για τη σύγκριση του γονιδιώματος. Η PEDANT παρέχει έναν εύκολο τρόπο για να κάνετε απλές ερωτήσεις, όπως να μάθετε πόσες πρωτεΐνες στον Η. Pylori έχουν γνωστές (ή έχουν προβλεφθεί) τρισδιάστατες δομές ή πόσες NAD+-εξαρτώμενες αλκοολικές αφυδρογονάσες (EC 1.1.1.1) κωδικοποιούνται στο γονιδίωμα του C. elegans. Ο κατάλογος των τυποποιημένων ερωτημάτων PEDANT περιλαμβάνει τους αριθμούς EC, τα πρότυπα PROSITE, τους τομείς Pfam, τη BLOCKS και τους τομείς SCOP, καθώς και τις PIR λέξεις-κλειδιά και τις υπερ-οικογένειες PIR (Εικόνα 1). Παρόλο που η PEDANT δεν επιτρέπει στους χρήστες να εισάγουν τα δικά τους ερωτήματα, η ποικιλία των δεδομένων που είναι διαθέσιμα σε αυτή τη βάση δεδομένων το καθιστά ένα πρακτικό σημείο εισόδου στο πεδίο της συγκριτικής γονιδιωματικής ανάλυσης

Εικόνα 1. Helicobacter pylori P12 στην βάση δεδομένων PENDANT

Εικόνα 1. Helicobacter pylori P12 στην βάση δεδομένων PENDANT

COGs

Η βάση δεδομένων των Ομάδων Ορθολόγων (COGs) έχει σκοπό να απλοποιήσει τις εξελικτικές μελέτες των πλήρων γονιδιωμάτων και να βελτιώσει τις μελέτες της λειτουργίας μεμονωμένων πρωτεϊνών. Αποτελείται από περισσότερες από 4.800 συντηρημένες οικογένειες πρωτεϊνών (COGs) από κάθε ένα από τα γονιδιώματα που έχουν υποβληθεί σε πλήρη αλληλούχιση. Κάθε COG περιέχει σύνολα ορθόλογων πρωτεϊνών από τουλάχιστον τρεις φυλογενετικές σειρές, οι οποίες υποτίθεται ότι έχουν εξελιχθεί από μια μεμονωμένη προγονική πρωτεΐνη. Εξ ορισμού, οι ορθόλογα είναι τα γονίδια που συνδέονται με κατακόρυφη εξελικτική κάθοδο (το ίδιο γονίδιο σε διαφορετικά είδη) σε αντίθεση με τα παράλογα-γονίδια που σχετίζονται με τις επαναλήψεις σε ένα γονιδίωμα. Επειδή τα ορθόλογα τυπικά πραγματοποιούν την ίδια λειτουργία σε όλους τους οργανισμούς, ο προσδιορισμός των ορθόλογων οικογενειών από διαφορετικά είδη επιτρέπει τη μεταφορά του σχολιασμού της λειτουργίας από τους καλύτερα μελετημένους οργανισμούς σε λιγότερο μελετημένους οργανισμούς. Οι οικογένειες πρωτεϊνών στη βάση δεδομένων COG διαχωρίζονται σε 25 λειτουργικές ομάδες που περιλαμβάνουν μια ομάδα μη χαρακτηρισμένων αλλά διατηρημένων πρωτεϊνών, καθώς και μια ομάδα πρωτεϊνών για τις οποίες έχει πραγματοποιηθεί μόνο μία πρόβλεψη της γενικής λειτουργίας (Εικόνα 2). Αυτή η περιοχή είναι ιδιαίτερα χρήσιμη για προβλέψεις λειτουργιών σε αμφισβητούμενες περιπτώσεις, όπου τα επίπεδα πρωτεϊνικής ομοιότητας είναι αρκετά χαμηλά. Λόγω της ποικιλομορφίας των πρωτεϊνών στην COG, οι αναζητήσεις ομοιότητας της αλληλουχίας στη βάση δεδομένων COG μπορούν συχνά να προτείνουν μια πιθανή λειτουργία για μια πρωτεΐνη που διαφορετικά δεν έχει σαφή database hits.

Εικόνα 2. Λειτουργικές κατηγορίες του Bacteroides thetaiotaomicron VPI-5482στη GOG

Εικόνα 2. Λειτουργικές κατηγορίες του Bacteroides thetaiotaomicron VPI-5482 στη GOG

KEGG

Η βάση δεδομένων KEGG (Kyoto Encyclopedia of Genes and Genomes) επικεντρώνεται στον κυτταρικό μεταβολισμό. Αυτή η βάση δεδομένων παρουσιάζει ένα πλήρες σύνολο διαγραμμάτων των μεταβολικών μονοπατιών, γενικών και ειδικών, για κάθε ένα από τα γονιδιώματα με πλήρη αλληλούχιση, καθώς και για τον Schizosaccharomyces pombe, Arabidopsis thaliana, Drosophila melanogaster, ποντίκι και άνθρωπο. Τα ένζυμα που έχουν ήδη ταυτοποιηθεί σε έναν συγκεκριμένο οργανισμό είναι σημειωμένα με χρώμα, έτσι ώστε να μπορεί κανείς εύκολα να εντοπίσει τα μονοπάτια που είναι πιθανό να υπάρχουν ή να λείπουν σε έναν δεδομένο οργανισμό (Εικόνα 3). Για τις μεταβολικές οδούς που καλύπτονται από τη KEGG παρέχονται επίσης κατάλογοι ορθόλογων γονιδίων που κωδικοποιούν για τα ένζυμα που συμμετέχουν σε αυτές τις οδούς. Επίσης, όταν αυτά τα γονίδια είναι γειτονικά, υποδεικνύεται ότι σχηματίζουν πιθανά οπερόνια. Ένα πολύ χρήσιμο εργαλείο αναζήτησης επιτρέπει στον χρήστη να συγκρίνει δύο πλήρη γονιδιώματα και να εντοπίσει όλες τις περιπτώσεις στις οποίες τα συντηρημένα γονίδια και στους δύο οργανισμούς είναι γειτονικά ή τοποθετούνται σχετικά κοντά (εντός 5 γονιδίων) μεταξύ τους. Η τοποθεσία του KEGG ενημερώνεται συνεχώς και χρησιμεύει ως τελική πηγή δεδομένων για την ανάλυση του μεταβολισμού σε διάφορους οργανισμούς.

Εικόνα 3. Διάγραμμα της μεταβολικής οδού του μεταβολισμού τωνγλυκεροφωσφολιπιδίων

Εικόνα 3. Διάγραμμα της μεταβολικής οδού του μεταβολισμού των γλυκεροφωσφολιπιδίων

MBGD

Η βάση δεδομένων MBGD (Microbial Genome Database) προσφέρει ένα άλλο χρήσιμο εργαλείο για τη συγκριτική ανάλυση των μικροβιακών γονιδιωμάτων με πλήρη αλληλούχιση, ο αριθμός των οποίων αυξάνεται ταχέως (Εικόνα 4). Εδώ, οι σχέσεις ομολογίας βασίζονται μόνο στην ομοιότητα της αλληλουχίας (τιμές BLASTP 10-2 ή λιγότερο). Η MBGD επιτρέπει την υποβολή αρκετών αλληλουχιών ταυτόχρονα (έως 2.000 κατάλοιπα) για την αναζήτηση όλων των γονιδιωμάτων με πλήρη αλληλούχιση. Το αποτέλεσμα εμφανίζεται ως σημασμένες με χρώμα τις λειτουργίες των ανιχνευθέντων ομολόγων, και δείχνει τη θέση τους στον κυκλικό γενετικό χάρτη. Το αποτέλεσμα της αναζήτησης στο BLAST του MBGD δείχνει επίσης τον βαθμό αλληλεπικάλυψης μεταξύ της επερώτησης και των αλληλουχιών-στόχων. Για κάθε γονιδίωμα που έχει υποβληθεί σε αλληλούχιση, η MBGD παρέχει τους κατάλληλους καταλόγους όλων των αναγνωρισμένων γονιδίων που εμπλέκονται σε μια συγκεκριμένη λειτουργία, π.χ. τη βιοσύνθεση αμινοξέων διακλαδισμένης αλυσίδας ή την αποικοδόμηση αρωματικών υδρογονανθράκων.

Εικόνα 4. Βάση δεδομένων MBGD

Εικόνα 4. Βάση δεδομένων MBGD

Βάσεις δεδομένων ειδικές για οργανισμούς

Εκτός από τις γενικές βάσεις δεδομένων χαρτογράφησης γονιδιώματος, υπάρχουν διάφορες βάσεις δεδομένων για συγκεκριμένο οργανισμό ή ομάδα οργανισμών. Αν και όλα αυτές είναι χρήσιμες για ειδικούς σκοπούς, αυτές που αφορούν τους οργανισμούς E. coli, B. subtilis και yeast είναι ίσως αυτές που χρησιμοποιούνται ευρύτερα για τις λειτουργικές αναθέσεις σε άλλους λιγότερο μελετημένους οργανισμούς.

Escherichia coli. Η σημασία του Ε. coli για τη μοριακή βιολογία αντικατοπτρίζεται στον μεγάλο αριθμό βάσεων δεδομένων που αφιερώνεται σε αυτόν τον οργανισμό. Μία από αυτές διατηρείται στο University of Wisconsin-Madison, όπου οι ερευνητικές ομάδες πραγματοποίησαν την πραγματική αλληλούχιση του γονιδιώματος του Ε. coli (Εικόνα 5). Η ομάδα Wisconsin εμπλέκεται επίσης στην αλληλούχιση του εντεροπαθογόνου Ε. coli Ο157: Η7 και άλλων εντεροβακτηρίων, επομένως η βάση δεδομένων αυτών είναι επίσης πολύ χρήσιμη για την ανάλυση εντερικών παθογόνων. Μια άλλη χρήσιμη βάση δεδομένων για το Ε. coli είναι η EcoCyc. Περιέχει όλα τα πειραματικά μελετημένα γονίδια του Ε. coli και παρέχει πλήρη κάλυψη των μεταβολικών μονοπατιών που ταυτοποιήθηκαν στο Ε. coli. Ο στόχος μιας άλλης βάσης δεδομένων του Ε. coli, η Bacteriome, είναι η παροχή μιας ολοκληρωμένης βάσης δεδομένων αλληλεπιδράσεων των πρωτεϊνών για ένα σύνολο υψηλής ποιότητας δεδομένων λειτουργικής αλληλεπίδρασης των πρωτεϊνών του Ε. coli μαζί με πειραματικά σύνολα δεδομένων που παράγονται μέσω συγγένειας διπλού καθαρισµού TAP. Τέλος, η Colibri και η GenExpDB είναι βάσεις δεδομένων επιλογής για όσους ενδιαφέρονται για τα ρυθμιστικά δίκτυα του Ε. coli. Επίσης, η ιστοσελίδα του E. coli Genetic Stock Center (CGSC) παρέχει πληροφορίες γονιδίων και λειτουργιών.

Εικόνα 5. Πρόγραμμα χαρτογράφισης γονιδιώματος του E.coli

Εικόνα 5. Πρόγραμμα χαρτογράφισης γονιδιώματος του E.coli

Mycoplasma genitalium. Το μυκοπλάσμα έχει το μικρότερο γονιδίωμα όλων των γνωστών κυτταρικών μορφών ζωής, το οποίο προσφέρει κάποια στοιχεία για το ποιό είναι το κατώτερο όριο των γονιδίων που είναι απαραίτητα για τη διατήρηση της ζωής (το «ελάχιστο γονιδίωμα»). Η σύγκρισή του με το δεύτερο μικρότερο γνωστό γονιδίωμα, αυτό του Mycoplasma pneumoniae, διατίθεται στο διαδίκτυο. Πρόσφατα δεδομένα από τη VFDB παρέχουν πληροφορίες για το εύρος των γονιδίων Mycoplasma που μπορούν να μεταλλαχθούν χωρίς την απώλεια της βιωσιμότητας (Εικόνα 6). Από μελέτες υπολογιστικής ανάλυσης και μεταλλαξιογένεσης, φαίνεται ότι τα 250-300 γονίδια είναι απολύτως απαραίτητα για την επιβίωση των μυκοπλασμάτων.

Εικόνα 6. Βάση δεδομένων VFDB του γονιδιώματος του μυκοπλάσματος

Εικόνα 6. Βάση δεδομένων VFDB του γονιδιώματος του μυκοπλάσματος

Bacillus subtilis. Το γονιδίωμα του B. subtilis προσελκύει επίσης σημαντική προσοχή από τους βιολόγους και, όπως και το γονιδίωμα του E. coli, μελετάται ενεργά από τη λειτουργική προοπτική. Ο SubtiList World Wide Web Server, που διατηρείται στο Ινστιτούτο Pasteur, ενημερώνεται διαρκώς για να συμπεριλάβει τις πιο πρόσφατες πληροφορίες σχετικά με τις λειτουργίες των νέων γονιδίων του B. subtilis. Επιπλέον, το DBTBS περιέχει περιεκτική βάση δεδομένων της μεταγραφικής ρύθμισης στον Bacillus subtilis και περιέχει upstream διαγονιδιακές πληροφορίες συντήρησης.

Saccharomyces cerevisiae. Οι κύριες βάσεις δεδομένων που αφορούν ειδικά στη λειτουργική ανάλυση του γονιδιώματος του ζυμομύκητα S. cerevisiae είναι η βάση δεδομένων Saccharomyces Genome Database (SGD) (Εικόνα 7). Παρέχει περιοδικά ενημερωμένους καταλόγους των πρωτεϊνών της ζύμης με γνωστές ή προβλεπόμενες λειτουργίες, κατάλληλες αναφορές, και μεταλλαγμένους φαινοτύπους, και αντικατοπτρίζει τις σε εξέλιξη προσπάθειες που αποσκοπούν στον πλήρη χαρακτηρισμό όλων των πρωτεϊνών της ζύμης. Η βάση δεδομένων SGD είναι πιθανώς η μεγαλύτερη και πληρέστερη πηγή πληροφοριών σχετικά με την τρέχουσα κατάσταση της ανάλυσης του γονιδιώματος της ζύμης και περιλαμβάνει το αρχείο γονιδίων του Saccharomyces.

Άλλες χρήσιμες τοποθεσίες για την ανάλυση του γονιδιώματος της ζύμης περιλαμβάνουν τη βάση δεδομένων Saccharomyces cerevisiae Promoter, που απαριθμεί γνωστά ρυθμιστικά στοιχεία και μεταγραφικούς παράγοντες σε ζυμομύκητες και τη βάση δεδομένων Saccharomyces Cell Cycle Expression, που παρουσιάζει τα πρώτα αποτελέσματα σε μεταβολές στα επίπεδα μεταγράφων του mRNA κατά τη διάρκεια του κυτταρικού κύκλου της ζύμης.

Εικόνα 7. Βάση δεδομένων του γονιδιώματος του Saccharomyces

Εικόνα 7. Βάση δεδομένων του γονιδιώματος του Saccharomyces

Εικόνα 7. Βάση δεδομένων του γονιδιώματος του Saccharomyces

ΓΕΝΙΚΗ ΑΝΑΛΥΣΗ ΚΑΙ ΣΧΟΛΙΑΣΜΟΣ (ΕΠΙΣΗΜΕΙΩΣΗ)

Ένα από τα περιοριστικά βήματα στη μελέτη των περισσότερων γονιδιωμάτων είναι η ανάλυση της αλληλουχίας και ο σχολιασμός των πλήρων γονιδιωμάτων. Αυτό είναι ιδιαίτερα αποθαρρυντικό δεδομένης της έλλειψης λειτουργικών πληροφοριών για μεγάλο αριθμό γονιδίων ακόμη και στους πιο κατανοητούς οργανισμούς-μοντέλα. Τα πρότυπα στάδια που εμπλέκονται στον διαρθρωτικό-λειτουργικό σχολιασμό των μη χαρακτηρισμένων πρωτεϊνών περιλαμβάνουν:

  • αναζητήσεις ομοιότητας αλληλουχίας χρησιμοποιώντας προγράμματα όπως το BLAST, FASTA ή τον αλγόριθμο Smith-Waterman,
  • ταυτοποίηση λειτουργικών μοτίβων και δομικών τομέων με σύγκριση της αλληλουχίας της πρωτεΐνης με PROSITE, BLOCKS, SMART ή Pfam,
  • πρόβλεψη των δομικών χαρακτηριστικών της πρωτεΐνης, όπως πιθανή σηματοδοτική αλληλουχία, διαμεμβρανικά τμήματα, περιοχές με σπειροειδές σπείραμα, και άλλες περιοχές χαμηλής πολυπλοκότητας της αλληλουχίας, και
  • δημιουργία πρόβλεψης της δευτεροταγούς δομής (και, εάν είναι δυνατόν, τριτοταγούς).

Όλα αυτά τα βήματα έχουν αυτοματοποιηθεί σε διάφορα πακέτα λογισμικού, όπως το GeneQuiz01510-8.pdf?code=cell-site), το MAGPIE, το PEDANT, το Imagene, και άλλα. Από αυτά, ωστόσο, τα MAGPIE και PEDANT δεν επιτρέπουν στους εξωτερικούς χρήστες να υποβάλλουν τις δικές τους αλληλουχίες για ανάλυση και παρουσιάζουν μόνο τα ίδια τα αποτελέσματα των δημιουργών. Το GeneQuiz προσφέρει έναν περιορισμένο αριθμό αναζητήσεων (μέχρι 100 την ημέρα) στους γενικούς χρήστες, αλλά εξακολουθεί να αποτελεί ένα καλό σημείο εισόδου για τη συγκριτική γονιδιωματική ανάλυση. Βασίζεται σε μη ρεαλιστικά υψηλές τιμές αποκοπής για την εξαγωγή της ομολογίας, η οποία έχει ως αποτέλεσμα την σχετικά χαμηλή ευαισθησία. Ένα τέτοιο πακέτο που είναι επί του παρόντος διαθέσιμο για δωρεάν λήψη είναι το SEALS, το οποίο αναπτύχθηκε στο NCBI. Αποτελείται από πολλά εργαλεία βασισμένα σε UNIX για την ανάκτηση αλληλουχιών από την GenBank, την εκτέλεση προγραμμάτων αναζήτησης βάσεων δεδομένων όπως το BLAST, την προβολή και ανάλυση αποτελεσμάτων αναζήτησης, την αναζήτηση μοτίβων αλληλουχίας και την πρόβλεψη δομικών χαρακτηριστικών των πρωτεϊνών. Ένα παρόμοιο πακέτο, που ονομάζεται Imagene, έχει αναπτυχθεί στο Universite´ Paris VI.

Σύγκριση Γονιδιώματος για Πρόβλεψη πρωτεϊνικών Λειτουργιών

Η ανάλυση των πρώτων γονιδιωμάτων από βακτήρια, αρχαία και ευκαρυώτες που έχουν υποβληθεί σε αλληλούχιση, χρησιμοποιώντας τις μεθόδους σύγκρισης των αλληλουχιών, απέτυχε να προβλέψει την λειτουργία των πρωτεϊνών για τουλάχιστον το ένα τρίτο των γονιδιακών προϊόντων σε οποιοδήποτε δεδομένο γονιδίωμα. Σε αυτές τις περιπτώσεις, μπορούν να χρησιμοποιηθούν και άλλες προσεγγίσεις που λαμβάνουν υπόψη όλα τα υπόλοιπα διαθέσιμα δεδομένα, τοποθετώντάς τα σε «γονιδιωματικό πλαίσιο». Αυτές οι προσεγγίσεις βασίζονται στην ίδια βασική αρχή, ότι η οργάνωση της γενετικής πληροφορίας σε κάθε συγκεκριμένο γονιδίωμα αντικατοπτρίζει ένα μεγάλο ιστορικό μεταλλάξεων, διπλασιασμών γονιδίων, αναδιάταξης γονιδίων, απόκλισης της γονιδιακής λειτουργίας, και απόκτησης και απώλειας γονιδίου που έχει παραχθεί σε οργανισμούς μοναδικά προσαρμοσμένους στο περιβάλλον και ικανούς να ρυθμίζουν το μεταβολισμό τους σύμφωνα με τις περιβαλλοντικές συνθήκες. Από αυτή την άποψη, οι διαγονιδιακές ομοιότητες μπορούν να θεωρηθούν σημαντικές για την εξελικτική έννοια και έτσι είναι δυνητικά χρήσιμες για την ανάλυση της λειτουργίας. Οι πιο εφαρμόσιμες συγκριτικές μέθοδοι χρησιμοποιούν ειδικά πληροφορίες που προέρχονται από πολλαπλά γονιδιώματα, επιτυγχάνοντας έτσι αξιοπιστία και ευαισθησία που δεν είναι εύκολο να επιτευχθούν με τα τυποποιημένα εργαλεία. Ορισμένες από αυτές τις νέες προσεγγίσεις εξετάζονται περιληπτικά παρακάτω.

Μεταφορά πληροφοριών λειτουργίας

Ο απλούστερος και ο πιο συνηθισμένος τρόπος αξιοποίησης των πληροφοριών που εισάγονται σε πολλαπλά γονιδιώματα είναι η μεταφορά των λειτουργικών πληροφοριών από τα σαφώς χαρακτηρισμένα γονιδιώματα σε εκείνα που είναι μερικώς μελετημένα. Έμμεσα, αυτό γίνεται κάνοντας μια πρόβλεψη για ένα προσφάτως αλληλουχημένο γονίδιο βάσει του database hit(s). Υπάρχουν, ωστόσο, πολλές παγίδες που τείνουν να εμποδίζουν την ακριβή πρόβλεψη της λειτουργίας με βάση τέτοια hits. Οι σημαντικότερες αφορούν την έλλειψη επαρκούς ευαισθησίας, που οδηγεί στη δημιουργία σφάλματος. Οι κυριότεροι λόγοι οφείλονται στην εξάρτηση από εσφαλμένους ή ασαφείς σχολιασμούς που υπάρχουν ήδη στις βάσεις δεδομένων, και στη δυσκολία διάκρισης των ορθόλογων από τα παράλογα. Το ζήτημα των ορθόλογων έναντι των παράλογων είναι σημαντικό, επειδή η μεταφορά των πληροφοριών λειτουργίας μπορεί να θεωρηθεί αξιόπιστη για τα ορθόλογα, αλλά μπορεί να μην είναι αρκετά σύμφωνα για τα παράλογια (προϊόντα διπλασιασμού γονιδίων). Όλα αυτά τα προβλήματα αποφεύγονται εν μέρει στο σύστημα COG, το οποίο αποτελείται από προσεκτικά σχολιασμένα σύνολα πιθανών ορθόλογων και δεν βασίζεται σε αυθαίρετες αποκοπές για την ανάθεση νέων πρωτεϊνών σε αυτά.

Τα COGs μπορούν να χρησιμοποιηθούν για τον σχολιασμό των προσφάτως αλληλουχημένων γονιδιωμάτων χρησιμοποιώντας το πρόγραμμα COGNITOR. Αυτό το πρόγραμμα τοποθετεί νέες πρωτεΐνες σε COGs, συγκρίνοντάς τες με αλληλουχίες πρωτεϊνών από όλα τα γονιδιώματα που περιλαμβάνονται στη βάση δεδομένων COG και ανιχνεύοντας τις καλύτερες επιτυχίες (BeTs) που σχετίζονται με το γονιδίωμα. Όταν τρία ή περισσότερα BeTs εμπίπτουν στο ίδιο COG, η πρωτεΐνη επερώτησης θεωρείται πιθανό νέο μέλος του COG. Η απαίτηση πολλαπλών BeTs για μια πρωτεΐνη που θα εκχωρηθεί σε ένα COG χρησιμεύει, ως ένα βαθμό, ως εγγύηση κατά της διάδοσης των σφαλμάτων που μπορεί να υπάρχουν στην ίδια τη βάση δεδομένων COG. Πράγματι, αν ένα COG περιέχει ένα ή δύο ψευδώς θετικά, αυτό δεν θα οδηγήσει σε μια ψευδή εκχώρηση από το COGNITOR σύμφωνα με τον κανόνα three-BeT cutoff.

Φυλογενετικά Μοτίβα (Προφίλ)

Η ανάλυση τύπου COG που εφαρμόζεται σε πολλαπλά γονιδιώματα παρέχει τη ρίζα των φυλογενετικών μοτίβων, τα οποία είναι δυνητικά χρήσιμα σε πολλές πτυχές της ανάλυσης και της επισηεμείωσης του γονιδιώματος. Το φυλογενετικό πρότυπο για κάθε οικογένεια πρωτεϊνών (COG) ορίζεται ως το σύνολο των γονιδιωμάτων στα οποία αντιπροσωπεύεται η οικογένεια. Η βάση δεδομένων COG συνοδεύεται από ένα εργαλείο αναζήτησης προτύπων που επιτρέπει στοn χρήστη να επιλέξει τα COGs με ένα συγκεκριμένο μοτίβο. Σε αυτή τη βάση, θεωρείται ότι τα γονίδια που σχετίζονται λειτουργικά πιθανότατα έχουν το ίδιο φυλογενετικό πρότυπο. Λόγω αυτών των χαρακτηριστικών, τα φυλογενετικά μοτίβα μπορούν να χρησιμοποιηθούν για τη βελτίωση των προβλέψεων της λειτουργίας σε πλήρη γονιδιώματα. Όταν ένα συγκεκριμένο γονιδίωμα αντιπροσωπεύεται στα COGs για ένα υποσύνολο συστατικών ενός συγκεκριμένου συμπλέγματος ή μονοπατιού, αλλά απουσιάζει από τα COGs για άλλα συστατικά, είναι δικαιολογημένη η αναζήτηση του τελευταίου. Το ίδιο ισχύει και για περιπτώσεις στις οποίες ένα γονίδιο βρίσκεται σε ένα από τα δύο στενά συνδεδεμένα γονιδιώματα, αλλά όχι στο άλλο.

Χρήση Φυλογενετικών Μοτίβων για Διαφορική Σύγκριση Γονιδιώματος

Η προσέγγιση των φυλογενετικών μοτίβων και ειδικότερα το εργαλείο αναζήτησης προτύπων που σχετίζεται με τα COGs μπορούν να χρησιμοποιηθούν για τη διεξαγωγή συστηματικών λογικών διαδικασιών (AND, OR, NOT) σε σύνολα γονιδίων - μια προσέγγιση που ονομάζεται ''διαφορική σύγκριση γονιδιώματος'' (differential genome display). Αυτός ο τύπος σύγκρισης του γονιδιώματος επιτρέπει να οριοθετούνται υποσύνολα γονιδιακών προϊόντων που είναι πιθανό να συνεισφέρουν στα ειδικά χαρακτηριστικά των υπό μελέτη οργανισμών, για παράδειγμα, τη θερμοφιλία. Η χρήση αυτής της προσέγγισης έχει ιδιαίτερο ενδιαφέρον όταν εντοπίζονται υποψήφιοι στόχοι φαρμάκων σε παθογόνα βακτήρια. Φαίνεται λογική η αναζήτηση τέτοιων στόχων μεταξύ των γονιδίων που εμφανίζονται με διάφορους παθογόνους οργανισμούς, αλλά απουσιάζουν από τους ευκαρυώτες. Από την άλλη πλευρά, είναι ενδιαφερον να υποδείξουμε ότι οι καλύτεροι στόχοι για νέους αντιμικροβιακούς παράγοντες ευρέος φάσματος θα μπορούσαν να είναι γονίδια που εμφανίζονται σε όλα τα παθογόνα μικρόβια, αλλά όχι σε άλλους οργανισμούς. Ωστόσο, τέτοια γονίδια δεν φαίνεται να υπάρχουν. Από την άποψη αυτή, φαίνεται ότι η καλύτερη λύση κατά την αναζήτηση τέτοιων ενδεχομένως καθολικών αντιμικροβιακών παραγόντων είναι η απομόνωση των γονιδίων που υπάρχουν στα περισσότερα παθογόνα, αλλά όχι στα ευκαρυωτικά.

Μελέτη της Σύντηξης Γονιδίων

Μια άλλη πρόσφατα αναπτυχθείσα προσέγγιση συγκριτικής γονιδιωματικής περιλαμβάνει τη συστηματική ανάλυση της πρωτεϊνικής σύντηξης και της σύντηξης δομικών ενοτήτων (και της σχάσης). Η βασική υπόθεση είναι ότι η σύντηξη θα διατηρείται από επιλογή μόνο όταν διευκολύνει τη λειτουργική αλληλεπίδραση μεταξύ πρωτεϊνών, για παράδειγμα, την κινητική σύζευξη των διαδοχικών ενζύμων σε ένα μονοπάτι. Έτσι, οι πρωτεΐνες που συντήκονται σε ορισμένα είδη μπορεί να αναμένεται να αλληλεπιδρούν, ίσως φυσικά ή τουλάχιστον λειτουργικά, σε άλλους οργανισμούς. Ένα απλό παράδειγμα λειτουργικών συμπερασμάτων που μπορούν να αντληθούν από την σύντηξη δομικών ενοτήτων παρατηρείται στο μονοπάτι βιοσύνθεσης της ιστιδίνης, η οποία στα E. coli και H. influenzae περιλαμβάνει δύο πρωτεΐνες δύο περιοχών, HisI και HisB. Οι δύο περιοχές της HisI καταλύουν δύο διαδοχικά στάδια στη βιοσύνθεση της ιστιδίνης και έτσι αντιπροσωπεύουν υπομονάδες που είναι πιθανόν να αλληλεπιδρούν φυσικά ακόμη και όταν παράγονται ως ξεχωριστές πρωτεΐνες. Αντίθετα, οι δύο περιοχές της HisB καταλύουν το έβδομο και ένατο στάδιο του μονοπατιού και επομένως δεν είναι πιθανό να αλληλεπιδρούν φυσικά. Η βάση δεδομένων COG περιλαμβάνει περίπου 700 ξεχωριστές αρχιτεκτονικές πολλών τομέων. Έτσι, η χρήση της σύντηξης ενοτήτων για τη πρόβλεψη λειτουργίας έχει σημαντικό εμπειρικό δυναμικό, αν και αυτή η προσέγγιση δεν θα λειτουργήσει για «ετερόκλητες» περιοχές όπως, για παράδειγμα, η περιοχή δέσμευσης του DNA με μοτίβο έλικας-έλικας-έλικας, που μπορεί να βρεθεί σε συνδυασμό με μια ευρεία ποικιλία άλλων περιοχών.

Επιπλέον, αναπτύχθηκαν πρόσφατα αρκετές βάσεις δεδομένων για την ανίχνευση περιοχών και την εξερεύνηση των αρχιτεκτονικών των πρωτεϊνών πολλαπλών τομέων: Pfam, ProDom και SMART.

Από όλα αυτά, το SMART φαίνεται να είναι το πιο προηγμένο, συνδυάζοντας την υψηλή ευαισθησία της ανίχνευσης περιοχής με την ακρίβεια, την υψηλή ταχύτητα και την άκρως ενημερωτική παρουσίαση των αρχιτεκτονικών δομών. Οι γρήγορες αναζητήσεις για περιοχές πρωτεϊνών, με βάση μια τροποποίηση του προγράμματος PSI-BLAST, είναι πλέον διαθέσιμες και μέσω της Βάσης Δεδομένων των Συντηρημένων Περιοχών (Conserved Domains Database, CDD) στο NCBI.

Ανάλυση των Οπερονίων

Μια προσέγγιση που είναι εννοιολογικά παρόμοια με την ανάλυση των γονιδιακών συντήξεων, αλλά είναι γενικότερη, περιλαμβάνει την συστηματική ανάλυση γονιδιακών «γειτονιών» στα γονιδιώματα. Επειδή λειτουργικά συνδεδεμένα γονίδια συχνά σχηματίζουν οπερόνια στα βακτήρια και τα αρχαία, η γειτνίαση γονιδίων μπορεί να προσφέρει σημαντικές λειτουργικές προτάσεις. Ωστόσο, πολλά λειτουργικά συγγενή γονίδια δεν σχηματίζουν ποτέ οπερόνια και, σε πολλές περιπτώσεις, γειτονικά γονίδια δεν συνδέονται με κανέναν τρόπο. Λόγω της έλλειψης γενικής διατήρησης της γονιδιακής τάξης σε προκαρυωτικά, η παρουσία ενός ζεύγους γειτονικών ορθόλογων γονιδίων σε τρία ή περισσότερα γονιδιώματα ή η παρουσία τριών ορθόλογων σε σειρά σε δύο γονιδιώματα μπορεί να θεωρηθεί στατιστικά σημαντικό γεγονός και μπορεί να χρησιμοποιηθεί για να συναγάγουμε πιθανή λειτουργική αλληλεπίδραση για τα προϊόντα αυτών των γονιδίων. Το πιο απλό εργαλείο για την ταυτοποίηση των συντηρημένων συμβολοσειρών των γονιδίων σε οποιαδήποτε δύο γονιδιώματα είναι διαθέσιμο ως μέρος του KEGG. Επιτρέπει στον χρήστη να επιλέξει οποιαδήποτε δύο πλήρη γονιδιώματα (π.χ. B. burgdorferi και R. prowazekii) και να αναζητήσει όλα τα γονίδια των οποίων τα προϊόντα είναι παρόμοια μεταξύ τους και βρίσκονται σε κάποια απόσταση μεταξύ τους (για παράδειγμα διαχωρίζονται με 0-5 γονίδια). Τα αποτελέσματα παρουσιάζονται με γραφική αναπαράσταση που απεικονίζει τη σειρά των γονιδίων και τις υποθετικές λειτουργίες των γονιδιακών προϊόντων. Η διατήρηση της γονιδιακής θέσης σε φυλογενετικά απομακρυσμένα βακτήρια προτείνει μία λειτουργική σύνδεση.

ΕΦΑΡΜΟΓΗ ΣΥΓΚΡΙΤΙΚΗΣ ΓΟΝΙΔΙΩΜΑΤΙΚΗΣ-ΑΝΑΣΥΓΚΡΟΤΗΣΗ ΜΕΤΑΒΟΛΙΚΩΝ ΜΟΝΟΠΑΤΙΩΝ

Για την απεικόνιση των εργαλείων ανάλυσης γονιδιώματος που αναφέρθηκαν παραπάνω, παρουσιάζεται μια ανακατασκευή της γλυκολυτικής οδού στο αρχαίο Methanococcus jannaschii. Η μεταβολική ανασυγκρότηση είναι ένα από τα σημαντικά τελικά βήματα όλων των αναλύσεων του γονιδιώματος και ένα σημείο σύγκλισης για τα δεδομένα που παράγονται με διαφορετικές μεθόδους. Η γλυκόλυση είναι ένα από τα κεντρικά μονοπάτια της κυτταρικής βιοχημείας καθώς είναι προφανής από μια γρήγορη έρευνα του γενικού σχήματος των βιοχημικών μονοπατιών, διαθέσιμη σε διαδραστική μορφή στην ιστοσελίδα του KEGG (Εικόνα 8).

Εικόνα 8. Γλυκόλυση στο KEGG

Εικόνα 8. Γλυκόλυση στο KEGG

Τα ονόματα όλων των ενζύμων και των μεταβολιτών σε αυτόν τον χάρτη έχουν υπερσύνδεσμους και μπορούν να αναζητηθούν. Τα ονόματα των ενζύμων συνδέονται με υπερσύνδεσμους για τις πληροφορίες των ενζύμων. Περιέχει τα ονόματα και τις καταλυόμενες αντιδράσεις, τους επίσημους αριθμούς της Επιτροπής Ενζύμων (EC), ανεξάρτητα από το αν είναι γνωστές ή όχι οι πρωτεϊνικές αλληλουχίες τους. Έτσι, κάνοντας κλικ στο όνομα ''hexokinase'' θα εμφανιστεί η αντίστοιχη σελίδα (Εικόνα 9).

Εικόνα 9. Πληροφορίες για την εξοκινάση

Εικόνα 9. Πληροφορίες για την εξοκινάση

Διάδοση Σφάλματος και Ελλιπείς Πληροφορίες σε Βάσεις Δεδομένων

Οι βάσεις δεδομένων αλληλουχίας έχουν την προδιάθεση για διάδοση σφαλμάτων, όπου η λάθος επισημείωση μιας πρωτεΐνης προκαλεί πολλαπλά σφάλματα καθώς χρησιμοποιείται για επισημείωση νέων γονιδιωμάτων. Επιπλέον, οι αναζητήσεις σε βάσεις δεδομένων έχουν τη δυνατότητα ενίσχυσης του “θορύβου”, έτσι ώστε η αρχική επισημείωση θα μπορούσε να έχει ως αποτέλεσμα μια μικρή ανακρίβεια ή έλλειψη πληρότητας, αλλά η μεταφορά της με βάση την ομοιότητα των αλληλουχιών επιδεινώνει το πρόβλημα και τελικά οδηγεί σε απόλυτα ψευδείς λειτουργικές τοποθετήσεις. Αυτές οι πτυχές των βάσεων δεδομένων αλληλουχίας καθιστούν την κοινή πρακτική εκχώρησης της γονιδιακής λειτουργίας βάσει του σχολιασμού του καλύτερου database hit (ή ακόμη και μιας ομάδας hits με συμβατούς σχολιασμούς), ιδιαίτερα επιρρεπής σε σφάλματα. Παρόλο που καταναλώνεται χρόνος και εργασία, ο κατάλληλος σχολιασμός του γονιδιώματος απαιτεί να εξετάζεται κάθε γονίδιο στο πλαίσιο τόσο των φυλογενετικών σχέσεών του όσο και της βιολογίας του αντίστοιχου οργανισμού, εξού και η μάλλον απογοητευτική απόδοση των αυτοματοποιημένων συστημάτων επισημείωσης του γονιδιώματος. Υπάρχουν πολλοί λόγοι για τους οποίους η λειτουργική επισημείωση μπορεί να είναι λάθος, αλλά δύο κύριες ομάδες προβλημάτων οφείλονται στις μεθόδους αναζήτησης στη βάση δεδομένων και στην πολυπλοκότητα και ποικιλομορφία των γονιδιωμάτων.

Ψευδώς Θετικά και Ψευδώς Αρνητικά σε Αναζητήσεις Βάσεων Δεδομένων

Είναι συνηθισμένο στο σχολιασμό του γονιδιώματος να χρησιμοποιείτε ένα όριο αποκοπής (cutoff) για “στατιστικά σημαντικά” δεδομένα της βάσης δεδομένων. Μπορεί να εκφραστεί με βάση την ψευδώς θετική αναμενόμενη τιμή (E-value) για τις αναζητήσεις σε BLAST και ρυθμίζεται τακτικά σε τιμές όπως E = 0.001 ή E = 10-5. Το πρόβλημα με αυτή την προσέγγιση είναι ότι η κατανομή των τιμών ομοιότητας για εξελικτικά και λειτουργικά συναφείς στοιχίσεις αλληλουχιών είναι πολύ ευρεία και ότι ένα σημαντικό κλάσμα αυτών αποτυγχάνει στο όριο αποκοπής της τιμής Ε, με αποτέλεσμα τις μη ανιχνευμένες σχέσεις και χαμένες ευκαιρίες για πρόβλεψη της λειτουργίας (ψευδώς αρνητικά). Αντίθετα, οι ψευδείς τιμές μπορεί να έχουν τιμές Ε χαμηλότερες από το όριο αποκοπή, με αποτέλεσμα να προκύψουν ως ψευδώς θετικά. Αυτό προκαλείται συχνότερα από μεροληψία σύνθεσης (περιοχές χαμηλής πολυπλοκότητας) στην αλληλουχία επερώτησης και στις βάσεις δεδομένων αλληλουχιών. Είναι σαφές ότι υπάρχει συμβιβασμός μεταξύ της ευαισθησίας (ψευδώς αρνητικό ποσοστό) και της επιλεκτικότητας (ψευδώς θετικό ποσοστό) σε όλες τις αναζητήσεις σε βάσεις δεδομένων, και είναι ιδιαίτερα δύσκολο να βελτιστοποιηθεί η διαδικασία σε γενικές αναλύσεις γονιδιώματος. Δεν υπάρχει μια απλή απόφαση να παρακάμψετε αυτά τα προβλήματα. Για να ελαχιστοποιηθεί το ψευδώς θετικό ποσοστό, είναι σημαντικές οι κατάλληλες διαδικασίες φιλτραρίσματος των αλληλουχιών χαμηλής πολυπλοκότητας. Το φιλτράρισμα με χρήση του προγράμματος SEG είναι η προεπιλογή για τις αναζητήσεις Web-based BLAST, αλλά το επιπρόσθετο φιλτράρισμα δικαιολογείται για ορισμένους τύπους πρωτεϊνών. Για παράδειγμα, το φιλτράρισμα των προβλεπόμενων μη σφαιρικών περιοχών χρησιμοποιώντας το SEG με ειδικά προσαρμοσμένες παραμέτρους και το φιλτράρισμα για υπερελικωμένες περιοχές χρησιμοποιώντας το πρόγραμμα COILS2 είναι ένας τρόπος ελαχιστοποίησης του ψευδώς θετικού ποσοστού. Η ελαχιστοποίηση του ψευδώς αρνητικού ποσοστού (το οποίο μεγιστοποιεί τη ευαισθησία) είναι ένα “ανοιχτό” πρόβλημα. Θα πρέπει να έχουμε κατά νου ότι μια τυποποιημένη αναζήτηση βάσης δεδομένων (π.χ., χρησιμοποιώντας το BLAST) με τις πρωτεϊνικές αλληλουχίες που κωδικοποιούνται στο δεδομένο γονιδίωμα ως ερωτήματα είναι ανεπαρκής για μια επαρκή επισημείωση. Για να αυξηθεί η ευαισθησία της ανάλυσης του γονιδιώματος, θα πρέπει να ενισχυθεί με άλλες, ισχυρότερες μεθόδους όπως η ανίχνευση του συνόλου των πρωτεϊνικών αλληλουχιών από το δεδομένο γονιδίωμα με βιβλιοθήκες του προφίλ.

Γονιδιωματικό, Πρωτεϊνικό και Οργανικό Πλαίσιο ως Πηγή Σφαλμάτων

Όπως αναφέρθηκε παραπάνω, η αρχιτεκτονική των πρωτεϊνικών περιοχών, το γονιδιωματικό πλαίσιο και η βιολογία του οργανισμού μπορούν να χρησιμεύσουν ως πηγές σημαντικών, έστω και έμμεσων, λειτουργικών πληροφοριών. Ωστόσο, αυτά τα ίδια χαρακτηριστικά πλαισίου, εάν παρερμηνευθούν, μπορεί να γίνουν μια από τις σημαντικότερες πηγές σφαλμάτων και σύγχυσης στον σχολιασμό του γονιδιώματος. Τα πρότυπα προγράμματα αναζήτησης βάσεων δεδομένων δεν είναι εξοπλισμένα με τα μέσα για να αντιμετωπίσουν με σαφήνεια τις συνέπειες της πολυεπίπεδης οργάνωσης των πρωτεϊνών. Συνεπώς, εκτός εάν χρησιμοποιούνται εξειδικευμένα εργαλεία όπως SMART ή COG και / ή η απόδοση της αναζήτησης εξετάζεται προσεκτικά, η ανάθεση της λειτουργίας μίας πρωτεΐνης με μία μόνο περιοχή σε ένα ομόλογο με πολλές δομικές περιοχές και αντιστρόφως γίνεται συχνή επισημείωση του γονιδιώματος. Για παράδειγμα, οι κινητές περιοχές θα μπορούσαν να προκαλέσουν χάος στη διαδικασία της επισημείωσης, όπως αποδεικνύεται, για παράδειγμα, από τον πολλαπλασιασμό των πρωτεϊνών σχετιζόμενων με την ΙΜΡ-αφυδρογονάση σε διάφορα γονιδιώματα. Στην πραγματικότητα, οι περισσότερες ή όλες αυτές οι πρωτεΐνες (ανάλογα με το γονιδίωμα) μοιράζονται με την IMP αφυδρογονάση την κινητή περιοχή CBS αλλά όχι το ενζυμικό μέρος.

Όπως αναφέρθηκε παραπάνω, είναι επίσης σημαντικό για την αξιόπιστη επισημείωση του γονιδιώματος ότι λαμβάνεται υπόψη το βιολογικό πλαίσιο του δεδομένου οργανισμού. Για παράδειγμα, είναι μη επιθύμητο να σχολιάζουμε προϊόντα από αρχαϊκό γονίδιο ως πυρηνικές πρωτεΐνες, ακόμη και αν τα ευκαρυωτικά ομόλογά τους περιγράφονται ορθά ως τέτοια. Ως γενικός οδηγός για τον λειτουργικό σχολιασμό, θα πρέπει να έχουμε κατά νου ότι οι τρέχουσες μέθοδοι ανάλυσης του γονιδιώματος, ακόμα και οι πιο ισχυρές και εξελιγμένες, διευκολύνουν, αλλά δεν αντικαθιστούν το έργο ενός ειδικού.

ΤΕΛΙΚΕΣ ΠΑΡΑΤΗΡΗΣΕΙΣ

Με την αύξηση του αριθμού των ολοκληρωμένων αλληλουχιών γονιδιώματος και την ανάπτυξη εξειδικευμένων εργαλείων για τη σύγκριση του γονιδιώματος, η συγκριτική προσέγγιση γίνεται η πιο ισχυρή στρατηγική για την ανάλυση γονιδιώματος. Φαίνεται ότι το μέλλον πρέπει να ανήκει στις βάσεις δεδομένων και τα εργαλεία που οργανώνουν συστηματικά τα γονιδιωματικά δεδομένα σύμφωνα με τις φυλογενετικές, λειτουργικές ή διαρθρωτικές αρχές και εκμεταλλεύονται την ποικιλομορφία των γονιδιωμάτων για να αυξήσουν τη δύναμη της ανάλυσης και την ευρωστία της ανάλυσης. Πολλά σημεία στην ανάλυση του γονιδιώματος μπορούν να αυτοματοποιηθούν και, δεδομένης της ταχέως αυξανόμενης ποσότητας των δεδομένων, ο αυτοματισμός είναι σημαντικός για την εξέλιξη της γονιδιωματικής. Αναφερόμενοι σε αυτό, η τελική επιτυχία της ανάλυσης της συγκριτικής γονιδιωματικής και της επισημείωσης εξαρτάται καθοριστικά από πολύπλοκες αποφάσεις που βασίζονται σε μια ποικιλία εισροών, συμπεριλαμβανομένης της μοναδικής βιολογίας του κάθε οργανισμού. Ως εκ τούτου, η διαδικασία ανάλυσης του γονιδιώματος και της επισημείωσης στο σύνολό τους δεν είναι, τουλάχιστον αυτή τη στιγμή, αυτοματοποιημένη και η ανθρώπινη τεχνογνωσία είναι απαραίτητη για την αποφυγή σφαλμάτων και την εξαγωγή της μέγιστης δυνατής πληροφορίας από τις αλληλουχίες του γονιδιώματος.

Funding

Disclaimer

The European Commission support for the production of this publication does not constitute endorsement of the contents which reflects the views only of the authors, and the Commission cannot be held responsi-ble for any use which may be made of the information contained therein.