LO4: Βιολογία, βιολογικές βάσεις δεδομένων και πηγές δεδομένων υψηλής απόδοσης

Το Διαδίκτυο έχει αλλάξει εντελώς τον τρόπο με τον οποίο οι επιστήμονες αναζητούν και ανταλλάσσουν πληροφορίες. Τα δεδομένα που κάποτε έπρεπε να κοινοποιηθούν σε χαρτί έχουν πλέον ψηφιοποιηθεί και διανέμονται από τις κεντρικές βάσεις δεδομένων. Στο διαδίκτυο είναι διαθέσιμα άρθρα περιοδικών. Και σχεδόν κάθε ερευνητική ομάδα έχει μια ιστοσελίδα που προσφέρει τα πάντα, από τις ανατυπώσεις άρθρων έως τη λήψη λογισμικού, δεδομένων, και αυτοματοποιημένες υπηρεσίες επεξεργασίας των δεδομένων.

Μηχανές Αναζήτησης και Αναζήτηση Boolean

Οι AltaVista, Mozilla, Google, Internet Explorer, Safari και δεκάδες άλλες μηχανές αναζήτησης υπάρχουν για να σας βοηθήσουν να βρείτε τα δισεκατομμύρια ή περισσότερες σελίδες που ανταποκρίνονται στην αναζήτησή σας. Ωστόσο, συχνά οι επιστήμονες αναζητούν ίσως “βελόνες στα άχυρα”. Η γνώση του τρόπου δόμησης ενός ερωτήματος για τον περιορισμό της πλειοψηφίας των άχρηστων πληροφοριών που θα προκύψουν σε μια αναζήτηση είναι πολύ χρήσιμη, τόσο στην αναζήτηση ιστού όσο και στην αναζήτηση σε βάσεις δεδομένων με βάση τις λέξεις-κλειδιά. Η κατανόηση του τρόπου διατύπωσης των boolean ερωτημάτων που περιορίζουν το πεδίο αναζήτησης είναι μια σημαντική δυνατότητα στην έρευνα.

Οι περισσότεροι χρήστες του διαδικτύου προσεγγίζουν την αναζήτηση τυχαία. Αλλά κάθε μηχανή αναζήτησης κάνει διαφορετικές προκαθορισμένες υποθέσεις, οπότε αν εισαγάγετε την πρωτεϊνική δομή στο πεδίο ερωτήματος της μηχανής αναζήτησης Excite, ζητάτε μια εντελώς διαφορετική αναζήτηση απ' ότι αν εισάγετε την πρωτεϊνική δομή στο πεδίο των ερωτημάτων της Google. Για να αναζητήσετε αποτελεσματικά, πρέπει να χρησιμοποιήσετε τη λογική των τελεστών (boolean logic), η οποία είναι ένας εξαιρετικά απλός τρόπος για να δηλώσετε πώς μια ομάδα πραγμάτων πρέπει να χωριστεί ή να συνδυαστεί σε σύνολα.

Οι μηχανές αναζήτησης και οι δημόσιες βιολογικές βάσεις δεδομένων χρησιμοποιούν κάποια μορφή της boolean logic. Τα Boolean ερωτήματα περιορίζουν τα αποτελέσματα που επιστρέφονται από μια βάση δεδομένων συνδέοντας μια σειρά όρων αναζήτησης με τους τελεστές AND, OR, και NOT. Για παράδειγμα: η ένωση δύο όρων-κλειδιά με το AND βρίσκει έγγραφα που περιέχουν μόνο τον όρο-κλειδί1 και τον όρο-κλειδί2 χρησιμοποιώντας το OR βρίσκει έγγραφα που περιέχουν είτε τον όρο-κλειδί1 είτε τον όρο-κλειδί2 (ή και τα δύο) και χρησιμοποιώντας το NOT εντοπίζει τα έγγραφα που περιέχουν τον όρο-κλειδί1 αλλά όχι τον όρο-κλειδί2.

Ωστόσο, οι μηχανές αναζήτησης διαφέρουν ως προς το πώς ερμηνεύουν ένα πεδίο. Μερικές από αυτές θεωρούν ένα πεδίο ως OR, έτσι όταν πληκτρολογείται η πρωτεϊνική δομή, η μηχανή αναζήτησης αναζητά τον όρο πρωτεΐνη ή δομή. Ως αποτέλεσμα, εμφανίζονται πολλές διαφημίσεις για “ανορθόδοξες” δίαιτες (μόδας) και συμπληρώματα πρωτεϊνών πριν την αναζήτηση σε επιστημονικές ιστοσελίδες ενδιαφέροντος. Από την άλλη πλευρά, στο χώρο της Google η αναζήτηση γίνεται με το AND, επομένως οι μόνες αναφορές που πρέπει να βρεθούν είναι αυτές που περιέχουν τους όρους πρωτεΐνη και δομή.

Τα Boolean ερωτήματα διαβάζονται από αριστερά προς τα δεξιά, ακριβώς όπως το κείμενο. Οι παρενθέσεις μπορούν να δομήσουν πιο περίπλοκα boolean ερωτήματα. Για παράδειγμα, εάν αναζητάτε έγγραφα που περιέχουν τον όρο-κλειδί1 και έναν από τους δύο όρους όρος-κλειδί2 ή τον όρο-κλειδί3, αλλά όχι τον όρο-κλειδί4, το ερώτημά σας θα μοιάζει με αυτό: (όρος-κλειδί1 AND (όρος-κλειδί2 OR όρος-κλειδί3)) NOT όρος-κλειδί4.

Πολλές μηχανές αναζήτησης επιτρέπουν τη χρήση εισαγωγικών για να καθορίσετε μια φράση. Προκειμένου να βρεθούν μόνο τα έγγραφα στα οποία εμφανίζεται μαζί ο όρος-κλειδί ενζυμική δραστικότητα σε μια πρόταση, η αναζήτηση για την "ενζυμική δραστικότητα" είναι ένας τρόπος για να περιοριστούν τα αποτελέσματα.

Υπάρχουν πολλά άριστα διαδικτυακά μαθήματα διαθέσιμα για την αναζήτηση boolean. Δοκιμάστε μια αναζήτηση με τη φράση boolean searching in Google, και δείτε τι εμφανίζεται.

Εύρεση επιστημονικών άρθρων

Μια εξαιρετική πηγή αναζήτησης επιστημονικής βιβλιογραφίας στις βιολογικές επιστήμες, είναι ο δωρεάν διακομιστής που χρηματοδοτείται από το Εθνικό Κέντρο Πληροφοριών Βιοτεχνολογίας (NCBI) στην Εθνική Ιατρική Βιβλιοθήκη των ΗΠΑ. Αυτός ο διακομιστής επιτρέπει σε οποιονδήποτε να αναζητήσει στον περιηγητή ιστού τη βάση δεδομένων Medline. Υπάρχουν άλλες βάσεις δεδομένων βιβλιογραφίας συγκρίσιμης ποιότητας, αλλά οι περισσότερες από αυτές δεν είναι δωρεάν. Εκτός από τις έγκριτες πηγές, ωστόσο, ο καθένας μπορεί να δημοσιεύσει πληροφορίες στον Ιστοχώρο. Συχνά ερευνητικές ομάδες έχουν τα έγγραφα διαθέσιμα ως τεχνικές αναφορές στις ιστοσελίδες τους. Αυτές οι τεχνικές αναφορές δεν πρέπει ποτέ να αξιολογηθούν από ομότιμους αξιολογητές ή να δημοσιευτούν εκτός της οργάνωσης της ερευνητικής ομάδας, και η μόνη απόδειξη για την ποιότητά τους είναι η φήμη και η τεχνογνωσία των δημιουργών-συγγραφέων. Αυτό δεν σημαίνει ότι δεν πρέπει να εμπιστεύεστε ή να αναζητάτε αυτές τις πηγές. Πολλές κυβερνητικές οργανώσεις και ομάδες ακαδημαϊκών ερευνητών έχουν υλικό αναφοράς στις ιστοσελίδες τους που πλησιάζει ποιοτικά τα βιβλία. Για παράδειγμα, το Κέντρο Γονιδιωματικής στο Πανεπιστήμιο της Ουάσινγκτον έχει ένα εξαιρετικό διδακτικό υλικό για την αλληλούχιση του γονιδιώματος, και το NCBI έχει ένα καλό πρακτικό εκπαιδευτικό υλικό για τη χρήση του προγράμματος στοίχισης αλληλουχιών BLAST και των παραλλαγών του.

Χρησιμοποιώντας αποτελεσματικά το PubMed

Το PubMed είναι μια από τις πιο πολύτιμες διαδικτυακές πηγές που διατίθενται στους βιολόγους. Πάνω από 4.000 περιοδικά είναι ευρετηριάσμένα στο PubMed, συμπεριλαμβανομένων των περισσότερων από τα αξιόλογα περιοδικά στη κυτταρική και μοριακή βιολογία, τη βιοχημεία, τη γενετική και τους συναφείς τομείς, καθώς και πολλές κλινικές εκδόσεις που ενδιαφέρουν τους επαγγελματίες του τομέα της ιατρικής. Το PubMed χρησιμοποιεί μια στρατηγική αναζήτησης βασισμένη σε λέξεις-κλειδιά και επιτρέπει τους boolean τελεστές AND, OR, και NOT στην κατάθεση ερωτήματος. Οι χρήστες μπορούν να καθορίσουν ποια πεδία της βάσης δεδομένων ελέγχουν για κάθε όρο αναζήτησης ακολουθώντας τον όρο αναζήτησης με ένα όνομα πεδίου που εσωκλείεται σε αγκύλες. Επιπρόσθετα, οι χρήστες μπορούν να αναζητήσουν στο PubMed χρησιμοποιώντας όρους του Θεματικού Ιατρικού Κεφαλαιοκαταλόγου (MeSH). Οι όροι MeSH είναι μια βιβλιοθήκη προκαθορισμένων όρων που μπορεί να βοηθήσει στον εντοπισμό χειρόγραφων που χρησιμοποιούν εναλλακτικούς όρους για να αναφερθούν στην ίδια έννοια. Το πρόγραμμα περιήγησης MeSH επιτρέπει στους χρήστες να εισάγουν μία λέξη ή τμήμα λέξης και να βρουν σχετικές λέξεις-κλειδιά στη βιβλιοθήκη MeSH. Το PubMed βρίσκει αυτόματα τους όρους MeSH που σχετίζονται με τους όρους του ερωτήματος και τους χρησιμοποιεί για να ενισχύσει τα ερωτήματα.

Για παράδειγμα, αναζητήσαμε για "πρωτεϊνική δομή" στο PubMed. Οι όροι πρωτεϊνική και δομή συνδέονται αυτόματα με ένα AND εκτός αν ορίζεται διαφορετικά. Η προκύπτουσα δήλωση του boolean ερωτήματος που υποβλήθηκε στο PubMed στην πραγματικότητα είναι:

("πρωτεϊνική"[Όροι MeSH] OR "πρωτεϊνική"[Όλα τα πεδία] OR "πρωτεϊνική"[Όλα τα πεδία]) AND ("δομή"[Περιοδικό] OR "δομή"[Όλα τα πεδία])

Τα αποτελέσματα της αναζήτησης φαίνονται στην ΕΙκόνα 1.

Εικόνα 1. Αποτελέσματα από μια αναζήτηση PubMed

Εικόνα 1. Αποτελέσματα από μια αναζήτηση PubMed

Όπως μπορείτε να δείτε στην Εικόνα 2, το PubMed σας επιτρέπει επίσης να χρησιμοποιήσετε μια διεπαφή ιστού (web interface) για να περιορίσετε την αναζήτησή σας.

Ο σύνδεσμος για προχωρημένη αναζήτηση (Advanced link) αμέσως κάτω από το πλαίσιο ερωτήματος στην κεντρική σελίδα PubMed θα σας μεταφέρει σε αυτήν την φόρμα ιστού.

Εικόνα 2. Περιορισμός μιας στρατηγικής αναζήτησης χρησιμοποιώντας το μενού "Προχωρημένης αναζήτησης" στο PubMed

Εικόνα 2. Περιορισμός μιας στρατηγικής αναζήτησης χρησιμοποιώντας το μενού "Προχωρημένης αναζήτησης" στο PubMed

Η φόρμα "Προχωρημένης αναζήτησης" σας επιτρέπει να προσθέσετε ειδικότητα στο ερώτημά σας. Μπορείτε να περιορίσετε την αναζήτησή σας σε συγκεκριμένα πεδία στο αρχείο βάσης δεδομένων του PubMed, όπως το Όνομα Συντάκτη ή το MeSH Major Topic. Οι αναζητήσεις μπορούν επίσης να περιορίζονται βάσει γλώσσας, περιεχόμενου (π.χ., αναζήτηση μόνο για ανασκοπήσεις ή κλινικές δοκιμές) και ημερομηνίας.

Οι Δημόσιες Βιολογικές Βάσεις Δεδομένων

Το πρόβλημα της ονοματολογίας στη βιολογία σε μοριακό επίπεδο είναι τεράστιο. Τα γονίδια είναι συνήθως γνωστά με μη συστηματικά ονόματα. Αυτά μπορεί να προέρχονται από μελέτες αναπτυξιακής βιολογίας σε συστήματα μοντέλων, έτσι ώστε ορισμένα γονίδια να έχουν ονόματα όπως flightless, shaker και antennapedia λόγω των αναπτυξιακών επιδράσεων που προκαλούν σε ένα συγκεκριμένο ζώο. Άλλα ονόματα επιλέγονται από τους κυτταρικούς βιολόγους και αντιπροσωπεύουν τη λειτουργία των γονιδίων σε κυτταρικό επίπεδο, όπως το homeobox. Ακόμα, άλλα ονόματα επιλέγονται από βιοχημικούς και δομικούς βιολόγους και αναφέρονται σε μια πρωτεΐνη που πιθανώς απομονώθηκε και μελετήθηκε πριν βρεθεί το γονίδιο.

Αν και οι πρωτεΐνες είναι τα άμεσα προϊόντα των γονιδίων, δεν αναφέρονται πάντοτε με τα ίδια ονόματα ή κωδικούς όπως τα γονίδια που τα κωδικοποιούν. Αυτό το είδος σύγχυσης της ονοματολογίας σημαίνει γενικά ότι μόνο ένας επιστήμονας που μελετά ένα συγκεκριμένο γονίδιο, γονιδιακό προϊόν ή βιοχημική διαδικασία μπορεί να αναγνωρίσει αμέσως σε τι αναφέρεται το κοινό όνομα του γονιδίου. Η βιοχημεία ενός οργανισμού είναι ένα πιο περίπλοκο σύνολο πληροφοριών από την ταξινόμηση των ζωντανών ειδών στην εποχή του Λινναίου, οπότε δεν αναμένεται να οδηγηθούμε εύκολα ένα σαφές και ολοκληρωμένο σύστημα ονοματολογίας. Υπάρχουν πολλά πράγματα που πρέπει να γνωρίζουμε για ένα συγκεκριμένο γονίδιο: την προέλευση του οργανισμό, τη θέση του στο χρωμόσωμα, και τη θέση των αλληλουχιών ενεργοποίησης και των ταυτοτήτων των πρωτεϊνών που ρυθμίζουντην έκφρασή του. Τα γονίδια μπορούν επίσης να κατηγοριοποιηθούν βάσει της χρονικής στιγμής που εκφράζονται κατά τη διάρκεια της ανάπτυξης του οργανισμού, και σε ποιους ιστούς εκφράζονται. Μπορούν να χαρακτηριστούν από τη λειτουργία του προϊόντος τους, είτε είναι δομική πρωτεΐνη, ένζυμο ή λειτουργικό RNA. Μπορούν να προσδιοριστούν από το μεταβολικό μονοπάτι στο οποίο εντάσσεται το προϊόν τους, από το υπόστρωμα που τροποποιούν ή από το προϊόν που παράγουν. Επιπλέον, μπορούν να κατηγοριοποιηθούν από τα δομικά χαρακτηριστικά των πρωτεϊνικών τους προϊόντων. Η Εικόνα 3 δείχνει μερικές από τις πληροφορίες που μπορεί να σχετίζονται με ένα μόνο γονίδιο.

Εικόνα 3. Μέρος των πληροφοριών που σχετίζονται με ένα μόνο γονίδιο

Εικόνα 3. Μέρος των πληροφοριών που σχετίζονται με ένα μόνο γονίδιο

Το πρόβλημα για τους συντηρητές των βιολογικών βάσεων δεδομένων αποτελεί ένα κύριο θέμα σχολιασμού. Ο σωστός σχολιασμός των γονιδιωματικών δεδομένων μπορεί να επιτευχθεί μέσω της τοποθέτησης επαρκών πληροφοριών στη βάση δεδομένων, ώστε να μην τίθεται ερώτημα για το γονίδιο, ακόμη και αν έχει μια κωδικοποιημένη κοινή ονομασία, και μέσω της δημιουργίας των κατάλληλων διασυνδέσεων μεταξύ αυτών των πληροφοριών και της αλληλουχίας του γονιδίων και του σειριακού αριθμού. Η αποθήκευση μακρομοριακών δεδομένων σε ηλεκτρονικές βάσεις δεδομένων οδήγησε σε έναν τρόπο αντιμετώπισης του προβλήματος της ονοματολογίας. Η λύση ήταν να δωθεί ένας σειριακός αριθμός κάθε νέα εγγραφή στη βάση δεδομένων και στη συνέχεια να αποθηκευθεί σε μια σχεσιακή βάση δεδομένων που γνωρίζει τις σωστές συνδέσεις μεταξύ αυτού του σειριακού αριθμού, οποιουδήποτε αριθμού ονομάτων για το γονίδιο ή το γονιδιακό προϊόν που αντιπροσωπεύει και των άλλων πληροφοριών σχετικά με το γονίδιο. Αυτή είναι η στρατηγική που χρησιμοποιείται σήμερα στις μεγάλες βιολογικές βάσεις δεδομένων.

Επισημείωση Δεδομένων και Μορφές Δεδομένων

Η παρουσίαση και η διανομή των βιολογικών δεδομένων εξακολουθεί να αποτελεί “ανοιχτό” πρόβλημα στη βιοπληροφορική. Οι νουκλεοτιδικές αλληλουχίες του DNA και του RNA και οι αμινοξικές αλληλουχίες των πρωτεϊνών μειώνονται εξαιρετικά σε σειρές χαρακτήρων στις οποίες ένα μόνο γράμμα αντιπροσωπεύει ένα μόνο νουκλεοτίδιο ή αμινοξύ. Οι εναπομείνασες προκλήσεις στην αναπαράσταση των δεδομένων αλληλουχίας είναι η επαλήθευση της ορθότητας των δεδομένων, ο λεπτομερής σχολιασμός των δεδομένων και ο χειρισμός των δεδομένων που αυξάνονται όλο και περισσότερο, όπως οι αλληλουχίες των χρωμοσωμάτων και ολόκληρα γονιδιώματα.

Η τυπική αναπαράσταση της 3D δομής του βιομορίου αποτελείται από τις καρτεσιανές συντεταγμένες των ατόμων στο μόριο. Αυτή η άποψη της αναπαράστασης του μορίου είναι απλή. Από την άλλη πλευρά, υπάρχουν πολλά σύνθετα ζητήματα για βάσεις δεδομένων δομών που δεν έχουν επιλυθεί πλήρως. Ο σχολιασμός (επισημείωση) εξακολουθεί να είναι ένα ζήτημα για τα δομικά δεδομένα, αν και η επιστημονική κοινότητα της βιολογίας προσπάθησε να διαμορφώσει μια κοινή άποψη ως προς το ποιός σχολιασμός της δομής απαιτείται σήμερα. Τα τελευταία 15 χρόνια, διάφοροι ερευνητές έχουν αναπτύξει τα δικά τους στυλ και μορφές για την αναφορά των βιολογικών δεδομένων. Οι βάσεις δεδομένων βιολογικών αλληλουχιών και δομών αναπτύχθηκαν παράλληλα στις Ηνωμένες Πολιτείες και στην Ευρώπη. Η χρήση ιδιωτικού λογισμικού για την ανάλυση των δεδομένων συνέβαλε στη σύνθεση ενός συνόλου ιδιωτικών μορφών δεδομένων. Παρόλο που υπάρχουν πολλές εξειδικευμένες βάσεις δεδομένων, εδώ εστιάζουμε στους τομείς στους οποίους καταβάλλεται προσπάθεια να διατηρηθεί μια ολοκληρωμένη βάση δεδομένων για μια ολόκληρη κατηγορία δεδομένων.

Δεδομένα 3D Μοριακής Δομής

Αν και η αλληλουχία του DNA, η αλληλουχία της πρωτεΐνης και η δομή της πρωτεΐνης είναι κατά κάποιον τρόπο απλώς διαφορετικοί τρόποι αναπαράστασης του ίδιου γονιδιακού προϊόντος, οι συγκεκριμένοι τύποι δεδομένων διατηρούνται επί του παρόντος ως ξεχωριστά έργα βάσεων δεδομένων και σε μη συνδεδεμένα μορφότυπα δεδομένων. Αυτό συμβαίνει κυρίως επειδή οι μέθοδοι προσδιορισμού της αλληλουχίας και της δομής έχουν ξεχωριστές ιστορίες ανάπτυξης.

Η πρώτη δημόσια βάση δεδομένων μοριακής βιολογίας, που δημιουργήθηκε περίπου 10 χρόνια πριν από τις δημόσιες βάσεις δεδομένων αλληλουχιών DNA, ήταν η Protein Data Bank (PDB). Αντιπροσωπεύει το κεντρικό αποθετήριο κρυσταλλικών δομών ακτίνων Χ των πρωτεϊνικών μορίων. Ενώ η πρώτη ολοκληρωμένη πρωτεϊνική δομή παρουσιάστηκε στη δεκαετία του 1950, δεν υπήρχε αξιοσημείωτος αριθμός προσιτών πρωτεϊνικών δομών μέχρι τα τέλη της δεκαετίας του '70. Οι υπολογιστές δεν είχαν δημιουργηθεί μέχρι το σημείο όπου ήταν δυνατή η γραφική αναπαράσταση των πληροφοριών δομής συντεταγμένων πρωτεϊνών, τουλάχιστον σε χρήσιμες ταχύτητες. Ωστόσο, το 1971, η PDB δημιουργήθηκε στο Εθνικό Εργαστήριο Brookhaven, για να αποθηκεύσει τις πληροφορίες για την δομή των πρωτεϊνών σε ένα ηλεκτρονικό αρχείο. Δημιουργήθηκε ένα μορφότυπο δεδομένων, το οποίο οφείλει πολλά για το σχεδιασμό του στις προϋποθέσεις της πρόωρης τεχνολογίας των υπολογιστών. Σε όλη τη δεκαετία του 1980, η PDB αναπτύχθηκε. Από 15 ομάδες εγγραφών το 1973, αυξήθηκαν σε 69 καταχωρήσεις το 1976. Ο αριθμός των συνόλων που κατατίθενται κάθε χρόνο παρέμεινε κάτω από τις 100 έως το 1988, που μέχρι τότε υπήρχαν ακόμη λιγότερες από 400 εγγραφές στην PDB.

Κοντά στο 1988 και το 1992, η PDB έφτασε το σημείο καμπής σε εκθετική καμπύλη ανάπτυξης. Μέχρι τον Ιανουάριο του 1994, στη PDB υπήρχαν 2.143 εγγραφές και αυτή τη στιγμή η PDB έχει περισσότερες από 14.000 εγγραφές. Η διοίκηση της PDB έχει αλλαχθεί και η Research Collaboratory for Structural Bioinformatics είναι υπεύθυνη για τη διαχείρισής της, και έχει εισαχθεί ένα νέο σχήμα για την καταγραφή των κρυσταλλογραφικών δεδομένων, το Macromolecular Crystallographic Information File (mmCIF) για την αντικατάσταση της ξεπερασμένης PDB μορφής. Τα περιοδικά που δημοσιεύουν κρυσταλλογραφικά αποτελέσματα απαιτούν την υποβολή στην PDB ως προϋπόθεση δημοσίευσης, πράγμα που σημαίνει ότι σχεδόν όλα τα δεδομένα για τις δομές πρωτεϊνών που λαμβάνονται από ακαδημαϊκούς ερευνητές καθίστανται διαθέσιμα στην PDB.

Ένα τυπικό ζήτημα για διερευνητικές έρευνες σχετικά με την πρωτεϊνική δομή είναι η περίσσεια και η απουσία αρτιότητας της PDB. Υπάρχουν πολλές πρωτεΐνες για τις οποίες έχουν υποβληθεί διάφορες κρυσταλλικές δομές στη βάση δεδομένων. Η επιλογή των υποσυνόλων των πληροφοριών της PDB με τις οποίες θα εργαστεί κάποιος αποτελεί ένα κρίσιμο βήμα σε οποιαδήποτε στατιστική έρευνα της πρωτεϊνικής δομής. Πολλές στατιστικές μελέτες της πρωτεϊνικής δομής εξαρτώνται από σύνολα πρωτεϊνικών αλυσίδων οι οποίες έχουν κοινή αλληλουχία κοντά στο 25% εάν χρησιμοποιηθεί αυτό το παράδειγμα, υπάρχουν ακόμα περίπου 1.000 μοναδικές αναδιπλώσεις πρωτεϊνών που απεικονίζονται στην PDB. Καθώς έχει αυξηθεί η ποσότητα των διαθέσιμων δεδομένων βιολογικής αλληλουχίας, η PDB τώρα παρεμένει πίσω από τις βάσεις δεδομένων γονιδιακής αλληλουχία.

Δεδομένα αλληλουχίας DNA, RNA, και Πρωτεϊνών

Οι βάσεις δεδομένων αλληλουχίας γενικά ειδικεύονται σε έναν τύπο δεδομένων αλληλουχίας: DNA, RNA ή πρωτεΐνη. Υπάρχουν σημαντικές συλλογές δεδομένων και τοποθεσίες εναπόθεσης σε Ευρώπη, Ιαπωνία και Ηνωμένες Πολιτείες, και υπάρχουν ανεξάρτητες ομάδες που αντικατοπτρίζουν όλα τα δεδομένα που συλλέγονται στις μεγάλες δημόσιες βάσεις δεδομένων, συχνά προσφέροντας κάποιο λογισμικό που προσθέτει αξία στα δεδομένα.

Το 1970, ο Ray Wu αλληλούχισε το πρώτο τμήμα του DNA δώδεκα βάσεις που προέκυψαν ως ένας μονός κλώνος στο τέλος ενός κυκλικού DNA που ανοίχθηκε χρησιμοποιώντας ένα ένζυμο διάσπασης. Σε κάθε περίπτωση, η αλληλούχιση του DNA υπήρξε σημαντικά πιο προβληματική από την αλληλούχιση των πρωτεϊνών, με το σκεπτικό ότι δεν υπάρχει καμία χημική διεργασία που να διασπά ειδικά το πρώτο νουκλεοτίδιο από μια αλυσίδα νουκλεϊκού οξέος. Στο σημείο όπου ο Robert Holley ανακοίνωσε την αλληλούχιση ενός μορίου RNA 76 νουκλεοτιδίων, ακολούθησαν επτά χρόνια εργασίας. Μετά την δημοσίευση της αλληλουχίας του Holley, διάφορες ομάδες επεξεργάστηκαν τα πρωτόκολλα αλληλούχισης, επιτυγχάνοντας ακόμη και με επιτυχία ένα γονιδίωμα βακτηριοφάγου 3,200 βάσεων. Η πρόοδος στην αλληλούχιση του DNA επήλθε μετά το 1975, με τη μέθοδο χημικής διάσπασης που διατυπώθηκε από τους Allan Maxam και Walter Gilbert, και με τη μέθοδο τερματισμού αλυσίδας του Frederick Sanger.

Η πρώτη βάση δεδομένων αλληλουχίας DNA, που δημιουργήθηκε το 1979, ήταν η Gene Sequence Database (GSDB) στο Los Alamos National Lab. Ενώ η GSDB έχει αντικατασταθεί από τότε από την παγκόσμια συνεργασία που είναι η σύγχρονη GenBank, ενημερωμένες πληροφορίες γονιδιακής αλληλουχίας εξακολουθούν να είναι διαθέσιμες από την GSDB μέσω του National Center for Genome Resources.

Το European Molecular Biology Laboratory, η DNA Database of Japan, και τα National Institutes of Health συνεργάζονται για να κάνουν όλα τα δεδομένα αλληλουχίας ελεύθερα προσβάσιμα μέσω της GenBank. Το NCBI έχει δημιουργήσει μια τυποποιημένη μορφή σχεσιακής βάσης δεδομένων για την παρουσίαση και την αποθήκευση πληροφοριών αλληλουχίας, γνωστή ως ASN.1 μορφή. Παρόλο που αυτή η μορφή εγγυάται τον απλούστερο εντοπισμό των σωστών αλληλουχιών του σωστού είδους στην GenBank, υπάρχουν και διάφορες υπηρεσίες που παρέχουν πρόσβαση σε μη επαναλαμβανόμενες εκδόσεις της βάσης δεδομένων. Η βάση δεδομένων νουκλεοτιδικών (DNA) αλληλουχιών αναπτύχθηκε σταδιακά κατά την πρώτη δεκαετία. Το 1992, η GenBank περιείχε μόλις 78.000 αλληλουχίες DNA - λίγο περισσότερο από 100 εκατομμύρια ζεύγη DNA. Το 1995, το Πρόγραμμα χαρτογράφησης του Ανθρώπινου Γονιδιώματος και η πρόοδος στην καινοτομία της αλληλούχισης, συνέβαλαν στην ταχεία εξέλιξη της GenBank. Η GenBank σήμερα διπλασιάζεται σε μέγεθος κάθε 6 έως 8 μήνες και ο ρυθμός αύξησής της αυξάνεται διαρκώς.

Γονιδιωματικά δεδομένα

Εκτός από το Πρόγραμμα χαρτογράφησης του Ανθρώπινου Γονιδιώματος, υπάρχουν τώρα ξεχωριστές βάσεις δεδομένων γονιδιώματος για μεγάλο αριθμό οργανισμών-μοντέλων. Το περιεχόμενο αλληλουχίας των βάσεων δεδομένων του γονιδιώματος εκπροσωπείται στη GenBank, αλλά οι θέσεις του προγράμματος του γονιδιώματος παρέχουν επίσης οτιδήποτε από χάρτες γονιδιώματος έως συμπληρωματικέςς πηγές για ερευνητές που εργάζονται σε αυτόν τον οργανισμό. Από τον Οκτώβριο του 2000, η βάση δεδομένων Entrez Genome του NCBI περιείχε τα μερικά ή πλήρη γονιδιώματα για άνω των 900 ειδών. Πολλά από αυτά είναι ιοί. Τα υπόλοιπα περιλαμβάνουν βακτήρια, αρχαία, ζύμες, ευρέως μελετημένα συστήματα φυτικών μοντέλων όπως το Α. thaliana, το ρύζι και ο αραβόσιτος, συστήματα ζωικών μοντέλων όπως το C. elegans, μύγες φρούτων, ποντίκια, αρουραίοι και ψάρια puffer, καθώς και τα γονιδιώματα των οργανιδίων. Τα εργαλεία λογισμικού του NCBI για την πρόσβαση σε αυτές τις βάσεις δεδομένων εξελίσσονται συνεχώς και γίνονται πιο προηγμένα.

Δεδομένα Βιοχημικών Μονοπατιών

Οι πιο σημαντικές βιολογικές δραστηριότητες δεν προκύπτουν από τη δράση ενός μορίου, ωστόσο από ενορχηστρωμένες δραστηριότητες πολλαπλών μορίων. Από τα μέσα του εικοστού αιώνα, οι βιοχημικοί έχουν αναλύσει αυτά τα λειτουργικά σύνολα των ενζύμων και των υποστρωμάτων τους. Ορισμένες ερευνητικές ομάδες έχουν αρχίσει να εργάζονται για την έξυπνη οργάνωση και αποθήκευση αυτών των μονοπατιών σε βάσεις δεδομένων. Βασικό παράδειγμα βάσης δεδομένων βιολογικών μονοπατιών είναι η KEGG. Η Εγκυκλοπαίδεια Γονιδίων και Γονιδιωμάτων του Κιότο (KEGG) αποθηκεύει συγκριτικές πληροφορίες σχετικά με τις βάσεις δεδομένων αλληλουχίας, δομής και γενετικής σύνδεσης. Αυτή η βάση δεδομένων διερευνάται μέσω διεπαφών ιστού και επιμελείται από ένα συνδυασμό αυτοματοποίησης και ανθρώπινης τεχνογνωσίας. Εκτός από αυτούς τους "καταλόγους" ολικού γονιδιώματος, έχουν αναπτυχθεί και άλλες, πιο εξειδικευμένες βάσεις δεδομένων που επικεντρώνονται σε συγκεκριμένες οδούς (όπως η ενδοκυτταρική σηματοδότηση ή η αποδόμηση χημικών ενώσεων από μικρόβια).

Δεδομένα έκφρασης γονιδίων

Οι μικροσυστοιχίες DNA (ή τα γονιδιακά τσιπ) είναι μικροσκοπικά “εργαστήρια” για τη μελέτη της γονιδιακής έκφρασης. Κάθε τσιπ περιέχει μια προμελετημένα σχεδιασμένη σειρά από ακινητοποιημένα μόρια που μπορούν να δεσμεύσουν επιλεκτικά συγκεκριμένα τμήματα DNA ή mRNA. Η σήμανση του DNA ή του RNA με φθορίζοντα μόρια επιτρέπει την ποσοτικοποίηση του επιπέδου έκφρασης οποιουδήποτε γονιδίου σε ένα κυτταρικό παρασκεύασμα. Οι μικροσυστοιχίες έχουν επίσης άλλες εφαρμογές στη μοριακή βιολογία, αλλά η χρήση τους στη μελέτη της γονιδιακής έκφρασης έχει ανοίξει έναν νέο τρόπο καταγραφής των λειτουργιών του γονιδιώματος.

Από την πρόοδο της τεχνολογίας των μικροσυστοιχιών DNA στα τέλη της δεκαετίας του 1990, έχει αποδειχθεί ότι η αύξηση των διαθέσιμων δεδομένων γονιδιακής έκφρασης τελικά θα ακολουθήσει την ανάπτυξη των βάσεων δεδομένων αλληλουχίας και δομής. Οι ακατέργαστες πληροφορίες μικροσυστοιχιών έχουν αρχίσει να καθίστανται προσβάσιμες στο γενικό κοινό σε συγκεκριμένες βάσεις δεδομένων, και η δημιουργία ενός κεντρικού χώρου αποθήκευσης δεδομένων για τέτοια δεδομένα πραγματοποιείται (Gene Expression Omnibus).

Δεδομένου ότι ένας σημαντικός αριθμός των αρχικών πειραμάτων μικροσυστοιχίας εκτελέστηκαν στο Stanford, οι πηγές του γονιδιώματός τους συνδέεται με τις πρώτες πληροφορίες και βάσεις δεδομένων όπου μπορούν να αναζητηθούν χρησιμοποιώντας ονόματα γονιδίων ή περιγραφές λειτουργίας. Επιπλέον, το Ευρωπαϊκό Ινστιτούτο Βιοπληροφορικής έχει συμβάλει αποφασιστικά στη θέσπιση προτύπων για την εναπόθεση δεδομένων μικροσυστοιχίας σε βάσεις δεδομένων. Υπάρχουν επιπλέον βάσεις δεδομένων για την εναπόθεση των αποτελεσμάτων ηλεκτροφόρησης δύο διαστέσεων (2D), συμπεριλαμβανομένων των SWISS-2DPAGE και HSC-2DPAGE. Η 2D-PAGE είναι μια καινοτομία που επιτρέπει την ποσοτική διερεύνηση των συγκεντρώσεων των πρωτεϊνών στο κύτταρο, για πολλές πρωτεΐνες την ίδια στιγμή. Ο συνδυασμός αυτών των δύο συστημάτων είναι ένα δυνατό εργαλείο για την κατανόηση του τρόπου λειτουργίας των γονιδιωμάτων.

Ο Πίνακας 1 συνοψίζει πηγές στον Ιστό για ορισμένες από τις σημαντικότερες βάσεις δεδομένων που έχουμε συζητήσει σε αυτή την ενότητα.

Πίνακας 1. Σημαντικά Βιολογικά Δεδομένα και Πηγές Πληροφοριών

Θέμα Πηγή Σύνδεσμος
Βιοϊατρική βιβλιογραφία PubMed http://www.ncbi.nlm.nih.gov/entrez/query.fcgi
Αλληλουχία νουκλεϊκού οξέως GenBank http://www.ncbi.nlm.nih.gov:80/entrez/query.fcgi?db=Nucleotide
SRS at EMBL/EBI http://srs.ebi.ac.uk
Αλληλουχία γονιδιώματος Entrez Genome http://www.ncbi.nlm.nih.gov:80/entrez/query.fcgi?db=Genome
TIGR databases http://www.tigr.org/tdb/
Πρωτεϊνική αλληλουχία GenBank http://www.ncbi.nlm.nih.gov:80/entrez/query.fcgi?db=Protein
SWISS-PROT at ExPASy http://www.expasy.ch/spro/
PIR http://www-nbrf.georgetown.edu
Πρωτεϊνική δομή Protein Data Bank http://www.rcsb.org/pdb/
Entrez Structure DB Protein and peptide mass spectroscopy PROWL http://prowl.rockefeller.edu
Μετα-μεταφραστικές τροποποιήσεις RESID http://www-nbrf.georgetown.edu/pirwww/search/textresid.html
Βιοχημικές και βιοφυσικές πληροφορίες ENZYME http://www.expasy.ch/enzyme/
BIND http://www.ncbi.nlm.nih.gov:80/entrez/query.fcgi?db=Structure
Βιοχημικά μονοπάτια PathDB http://www.ncgr.org/software/pathdb/
KEGG http://www.genome.ad.jp/kegg/
WIT http://wit.mcs.anl.gov/WIT2/
Μικροσυστοιχία Gene Expression Links http://industry.ebi.ac.uk/\~alan/MicroArray/
2D-PAGE SWISS-2DPAGE http://www.expasy.ch/ch2d/ch2d-top.html
Διαδικτυακές πηγές The EBI Biocatalog http://www.ebi.ac.uk/biocat/
IUBio Archive http://iubio.bio.indiana.edu

Αναζήτηση Βιολογικών Βάσεων δεδομένων

Υπάρχουν πολλές βιολογικές βάσεις δεδομένων, και πολλές εναλλακτικές διεπαφές ιστού που παρέχουν πρόσβαση στα ίδια σύνολα δεδομένων. Ποιά από αυτές πρέπει να χρησιμοποιηθεί εξαρτάται από τις προσωπικές ανάγκες, αλλά είναι απαραίτητο να γνωρίζουμε τι είδους δεδομένα είναι τα κεντρικά αποθετήρια δεδομένων, και πόσο συχνά οι περιφερειακές βάσεις δεδομένων συγχρονίζονται με τις κεντρικές πηγές δεδομένων.

Οι δύο πιο καθιερωμένες βάσεις δεδομένων είναι η GenBank του NCBI, για αλληλουχίες DNA και η Protein Data Bank (PDB), για δεδομένα μοριακής δομής. Κάθε βάση δεδομένων έχει τις δικές της διαδικασίες εναπόθεσης. Ωστόσο, τόσο η NCBI όσο και η PDB διαθέτουν καλά αναπτυγμένα, αυτοματοποιημένα, web-based συστήματα εναπόθεσης που δεν αλλάζουν συχνά με την πάροδο του χρόνου.

GenBank

Το NCBI, σε συνεργασία με το EMBL και άλλους διεθνείς οργανισμούς, παρέχει την πληρέστερη συλλογή των δεδομένων αλληλουχίας DNA στον κόσμο - τη βάση δεδομένων, γνωστή ως GenBank.

Το NCBI διατηρεί τα δεδομένα αλληλουχίας από κάθε οργανισμό, κάθε πηγή, κάθε είδος DNA - από το mRNA έως κλώνους cDNA, έως τις ετικέτες αλληλουχιών έκφρασης (ESTs), έως τα δεδομένα αλληλούχισης γονιδιώματος μεγάλης-κλίμακας και πληροφορίες σχετικά με πολυμορφισμούς. Οι χρήστες της βάσης δεδομένων του NCBI πρέπει να γνωρίζουν τις διαφορές μεταξύ αυτών των τύπων δεδομένων ώστε να μπορούν να αναζητήσουν το σύνολο δεδομένων που είναι πιο κατάλληλο για την εργασία που κάνουν. Οι κύριοι τύποι αλληλουχιών που θα συναντήσετε σε μια πλήρη αναζήτηση στην GenBank περιλαμβάνουν:

mRNA

Αγγελιοφόρο RNA, το προϊόν της μεταγραφής του γενωμικού DNA. Το mRNA μπορεί να επεξεργαστεί από το κύτταρο για να απομακρύνει τα ιντρόνια (σε ευκαρυώτες) ή με άλλους τρόπους που οδηγούν σε διαφορές από το μεταγραφόμενο γονιδιωματικό DNA. Μπορεί να είναι "μερικό" ή "πλήρες" ένα mRNA μπορεί να μην καλύπτει την πλήρη κωδικοποιούσα αλληλουχία ενός γονιδίου.

cDNA

Μία αλληλουχία DNA που παράγεται τεχνητά με αντίστροφη μεταγραφή του mRNA. Το cDNA αντιπροσωπεύει τα κωδικοποιητικά στοιχεία της περιοχής του γενωμικού DNA που παρήγαγε το mRNA. Μπορεί να είναι "μερικό" ή "πλήρες".

Γενωμικό DNA

Μία αλληλουχία DNA μετά από αλληλούχιση του γονιδιώματος που περιέχει τόσο κωδικοποιούσες αλληλουχίες όσο και μη κωδικοποιούσες DNA αλληλουχίες. Μπορεί να περιέχει ιντρόνια, επαναλήψεις και άλλα. Το γενωμικό DNA γενικά είναι "πλήρες" είναι αποτέλεσμα πολλαπλών πειραμάτων αλληλούχισης σε ένα μόνο τμήμα ενός γονιδιώματος, και μπορεί γενικά να βασίζεται σε μια αρκετά καλή αναπαράσταση της πραγματικής αλληλουχίας DNA αυτής της περιοχής.

EST

Σύντομες αλληλουχίες cDNA που παρασκευάζονται από mRNA που εξάγεται από ένα κύτταρο υπό συγκεκριμένες συνθήκες ή σε ειδικές φάσεις ανάπτυξης. Οι αλληλουχίες ESTs χρησιμοποιούνται για τη γρήγορη ταυτοποίηση των γονιδίων και δεν καλύπτουν ολόκληρη την κωδικοποιούσα αλληλουχία ενός γονιδίου.

GSS

Genome survey sequence. Τμήμα DNA, μετά από αλληλούχιση, που προέκυψε απευθείας από γονιδιωματικές μελέτες. Καλύπτει κάθε περιοχή της αλληλουχίας μόνο μία φορά και μπορεί να περιέχει σχετικά μεγάλο ποσοστό σφαλμάτων προσδιορισμού της αλληλουχίας. Η αλληλουχία GSS περιλαμβάνεται σε μια έρευνα μόνο όταν αναζητά πολύ νέα υποθετικά σχόλια γονιδίων σε ένα πρόγραμμα γονιδιώματος που βρίσκεται ακόμα σε εξέλιξη.

Υπάρχουν δύο τρόποι αναζήτησης στην GenBank. Ο πρώτος είναι να χρησιμοποιήσετε ένα ερώτημα βασισμένο σε κείμενο για να αναζητήσετε τους σχολιασμούς που σχετίζονται με κάθε καταχώρηση αλληλουχίας DNA στη βάση δεδομένων. Ο δεύτερος είναι να χρησιμοποιήσετε μια μέθοδο που ονομάζεται BLAST για να συγκρίνετε μια υπό μελέτη αλληλουχία DNA (ή πρωτεΐνης) σε μια βάση δεδομένων αλληλουχίας. Ακολουθεί ένα δείγμα GenBank αρχείου. Κάθε καταχώριση στη GenBank περιέχει σχολιασμούς - πληροφορίες σχετικά με την ταυτότητα του γονιδίου, τις συνθήκες υπό τις οποίες χαρακτηρίστηκε κλπ. - εκτός από την αλληλουχία (Εικόνα 4).

Εικόνα 4. GeneBank αρχείο του γονιδίου υπεροξειδίου δισμουτάσης της Listeriamonocytogenes

Εικόνα 4. GeneBank αρχείο του γονιδίου υπεροξειδίου δισμουτάσης της Listeria monocytogenes

Αυτό το δείγμα του GenBank αρχείου δείχνει τους τύπους των πεδίων που μπορούν να βρεθούν σε ένα αρχείο από τη νουκλεοτιδική βάση δεδομένων GenBank. Στο αρχείο θα μπορούσαν να βρεθούν οι σχετικές πληροφορίες για την ταυτότητα του πρωτεϊνικού προϊόντος, την αλληλουχία του πρωτεϊνικού προϊόντος, και το σημείο έναρξης και λήξης στο γονίδιο, έως τους συγγραφείς που καταχώρησαν το αρχείο και τις αναφορές περιοδικών στις οποίες περιγράφεται το πείραμα. Η διεπαφή αναζήτησης της GenBank είναι σχεδόν ίδια με τη διεπαφή αναζήτησης του PubMed. Οι προηγμένες λειτουργίες αναζήτησης λειτουργούν με τον ίδιο τρόπο στις Πρωτεϊνικές, Νουκελοτιδικές και Γενετικές βάσεις δεδομένων όπως και για το PubMed, αν και τα συγκεκριμένα πεδία που μπορούν να αναζητηθούν και τα όρια που μπορούν να καθοριστούν είναι λίγο πολύ διαφορετικά.

Αποθήκευση αποτελεσμάτων αναζήτησης

Οι αλληλουχίες μπορούν να ληφθούν από το NCBI σε διάφορες μορφές αρχείων: η απλή μορφή FASTA, η οποία είναι αναγνώσιμη από πολλά προγράμματα ανάλυσης αλληλουχίας αλλά περιέχει λίγες πληροφορίες εκτός από την αλληλουχία η flat file μορφή αρχείου της GenBank, η οποία είναι μια μορφή αρχείου επίπεδης οργάνωσης που χρησιμοποιήθηκε στην GenBank και η σύγχρονη μορφή ASN.1 (Abstract Syntax Notation One). Η ASN.1 είναι μια γενική προδιαγραφή δεδομένων, που έχει σχεδιαστεί για την προώθηση της διαλειτουργικότητας της βάσης δεδομένων, η οποία χρησιμοποιείται τώρα για την αποθήκευση και την ανάκτηση όλων των τύπων των δεδομένων – αλληλουχιών, γονιδιωμάτων, δομής και της βιβλιογραφίας - στο NCBI. Το NCBI Toolkit, μια βιβλιοθήκη κωδικών για την ανάπτυξη λογισμικού μοριακής βιολογίας, βασίζεται στην προδιαγραφή ASN.1. Το NCBI, και όλο και περισσότερες, άλλες οργανώσεις, βασίζονται στο NCBI Toolkit για την ανάπτυξη λογισμικού.

Ο περιστασιακός χρήστης της βάσης δεδομένων ή ο καταθέτης δεν χρειάζεται να σκεφτεί πάρα πολύ για τις μορφές των αρχείων, εκτός εάν τα αρχεία της βάσης δεδομένων πρόκειται να εξαγχθούν και διαβαστούν από άλλο λογισμικό. Οι διεπαφές βασισμένες σε φόρμες του NCBI μετατρέπουν τα δεδομένα που εισάγονται από τον χρήστη στην κατάλληλη μορφή για την απόθεση, και η διαθεσιμότητα των GenBank αρχείων σε μορφή FASTA σημαίνει ότι το μεγαλύτερο μέρος του λογισμικού ανάλυσης αλληλουχίας μπορεί να χειριστεί αρχεία αλληλουχίας που κατεβάζονται από το NCBI χωρίς πολύπλοκες μετατροπές.

Κατά την αποθήκευση των αποτελεσμάτων μιας αναζήτησης στην GenBank, μπορεί εύκολα να επιλεγεί η μορφή στην οποία μπορείτε να τα αποθηκεύσετε. Μια ιδιαίτερα εύχρηστη μορφή στην οποία μπορείτε να αποθηκεύσετε τα αρχεία αλληλουχίας αν πρόκειται να τα επεξεργαστείτε με άλλο λογισμικό είναι η μορφή FASTA. Τα αρχεία FASTA έχουν απλή μορφή, μία γραμμή σχολίων που ξεκινάει με ένα χαρακτήρα >, ακολουθούμενη από μία μονή αλληλουχία DNA σε όσες γραμμές χρειάζεται για να διατηρηθεί η αλληλουχία, χωρίς κενά. Φυσικά, ορισμένες πληροφορίες που σχετίζονται με το γονίδιο χάνονται όταν αποθηκεύετε τα δεδομένα σε μορφή FASTA, αλλά εάν το πρόγραμμα δεν μπορεί να διαβάσει αυτά τα επιπλέον δεδομένα, δεν θα είναι χρήσιμο να το έχετε ούτως ή άλλως.

Ακολουθεί ένα παράδειγμα δεδομένων σε μορφή FASTA:

> gene identifier και σχόλια εδώ
MATVQEIRNAQRADGPATVLAIGTATPAHSVNQADYPDYY
FRITKSEHMTELKEKFKRMCDKSMIKKRYMYLTEEILKEN
PNMCAYMAPSLDARQDIVVVEVPKLGKEAATKAIKEWGQP
KSKITHLIFCTTSGVDMPGADYQLTKLIGLRPSVKRFMMY
QQGCFAGGTVLRLAKDLAENNKGARVLVVCSEITAVTFRG
PADTHLDSLVGQALFGDGAAAVIVGADPDTSVERPLYQLV
STSQTILPDSDGAIDGHLREVGLTFHLLKDVPGLISKNIE
KSLSEAFAPLGISDWNSIFWIAHPGGPAILDQVESKLGLK
GEKLKATRQVLSEYGNMSSACVLFILDEMRKKSVEEAKAT
TGEGLDWGVLFGFGPGLTVETVVLHSVPIKA

Για να αποθηκεύσετε τα αρχεία σας σε μορφή FASTA, απλά χρησιμοποιήστε το pulldown μενού στην κορυφή της σελίδας των αποτελεσμάτων. Όταν το δείτε για πρώτη φορά, θα γράφει "Περίληψη", αλλά μπορείτε να το αλλάξετε σε FASTA, ASN.1 και σε άλλες μορφές. Μόλις επιλέξετε τη μορφή που επιθυμείτε, μπορείτε να κάνετε κλικ στο κουμπί Αποθήκευση για να αποθηκεύσετε όλες τις αλληλουχίες σας σε ένα μεγάλο αρχείο μορφής FASTA. Η Εικόνα 5 δείχνει πώς μπορείτε να αλλάξετε τις μορφές αρχείων κατά την αναζήτηση στην GenBank.

Εικόνα 5. Επιλογή της μορφής αρχείου για να καταγράψετε ένα αποτέλεσμααναζήτησης στην GenBank.

Εικόνα 5. Επιλογή της μορφής αρχείου για να καταγράψετε ένα αποτέλεσμα αναζήτησης στην GenBank.

Αποθήκευση μεγάλων συνόλων αποτελεσμάτων

Οι σύγχρονες μελέτες βιοπληροφορικής αντιμετωπίζουν τις ολοένα και ανξανόμενες μεγάλες ποσότητες δεδομένων αλληλουχίας. Για παράδειγμα, τα προγράμματα αναζήτησης γονιδίων επαληθεύονται σε εκατοντάδες ή χιλιάδες αλληλουχίες DNA οι γενικές μελέτες των οικογενειών πρωτεϊνών μπορούν να περιλαμβάνουν την ανάλυση έως και χιλιάδων πρωτεϊνικών αλληλουχιών. Σε τέτοιες περιπτώσεις θα ήταν καλύτερο να χρησιμοποιήσετε ένα αυτοματοποιημένο εργαλείο που μπορεί να δώσει ένα μεγάλο αριθμό αλληλουχιών με βάση τα κριτήρια που καθορίζετε.

Το NCBI παρέχει ακριβώς ένα τέτοιο εργαλείο με τη μορφή Batch Entrez. Το Batch Entrez είναι ένα από τα εργαλεία που επιτρέπει στον χρήστη να επιλέξει αλληλουχίες από τον οργανισμό προέλευσης, από ένα ερώτημα Entrez (χρησιμοποιώντας τη δομή ερωτήματος που περιγράφεται στην ενότητα PubMed), ή από μια λίστα με κωδικούς πρόσβασης (που παρέχονται από τον χρήστη στη φόρμα ενός αρχείου κειμένου). Τα αποτελέσματα μιας αναζήτησης Batch Entrez στη συνέχεια “ενσωματόνονται” σε ένα αρχείο που μεταφορτώνεται στον υπολογιστή του χρήστη, όπου το πλήρες σύνολο αποτελεσμάτων μπορεί να επεξεργαστεί χειροκίνητα ή χρησιμοποιώντας ένα κείμενο.

Αυτή τη στιγμή, όλες οι δημόσιες βάσεις δεδομένων έχουν τουλάχιστον ιστότοπους FTP που επιτρέπουν τη λήψη ολόκληρης της βάσης δεδομένων στον υπολογιστή. Αυτό μπορεί να πάρει πολύ χώρο στον σκληρό δίσκο, αλλά είναι ευκολότερη η διαχείριση ενός μεγάλου συνόλου αποτελεσμάτων σε σύγκριση με το διαδραστικό web site. Όταν έχετε ένα τοπικό αντίγραφο των μεγάλων βάσεων δεδομένων που σας ενδιαφέρουν, μπορεί να γραφτεί ένα κείμενο που μπορεί να επεξεργαστεί τη βάση δεδομένων, αναζητώντας μια συγκεκριμένη λέξη-κλειδί της επιλογής, και να γράφοντας τις επιθυμητές πληροφορίες από ένα αρχείο.

PDB

Σε αντίθεση με το NCBI, η Protein Data Bank (PDB) περιέχει μόνο ένα τύπο μοριακών δεδομένων: μοριακές δομές των μορίων και, σε αυξανόμενο βαθμό, τα υποκείμενα σύνολα ακατέργαστων δεδομένων από τα οποία έγινε μοντελοποίηση των μοριακών δομών. Προσφέρει πολλές υπηρεσίες για την υποβολή και την ανάκτηση δεδομένων τρισδιάστατης δομής. Η αρχική σελίδα του ιστότοπου RCSB παρέχει συνδέσεις με υπηρεσίες για την κατάθεση τρισδιάστατων δομών, πληροφορίες σχετικά με τον τρόπο απόκτησης της κατάστασης των δομών που υπόκεινται σε επεξεργασία για υποβολή, τρόπους λήψης της PDB βάσης δεδομένων, και συνδέσμους με άλλους συναφείς ιστότοπους και λογισμικό.

Εικόνα 6. Χαρακτηριστικά της PDB

Εικόνα 6. Χαρακτηριστικά της PDB

Οι βασικές πληροφορίες που είναι αποθηκευμένες στην PDB συνίστανται από αρχεία για τα βιολογικά μόρια. Αυτά τα αρχεία απαριθμούν τα άτομα σε κάθε πρωτεΐνη και την τρισδιάστατη θέση τους στο χώρο. Διατίθενται σε διάφορες μορφές (PDB, mmCIF, XML). Ένα τυπικό αρχείο PDB περιέχει ένα κείμενο που περιγράφει την πρωτεΐνη, τις πληροφορίες παραπομπής, και τις λεπτομέρειες της δομής, ακολουθούμενη από την αλληλουχία και μια λίστα με τα άτομα και τις συντεταγμένες τους. Τα αρχεία PDB μπορούν να προβληθούν απευθείας χρησιμοποιώντας έναν επεξεργαστή κειμένου. Τα ηλεκτρονικά εργαλεία, όπως αυτά του RCSB PDB ιστοτόπου, επιτρέπουν την αναζήτηση και διερεύνηση των πληροφοριών που περιέχονται στο PDB header, συμπεριλαμβανομένων των πληροφοριών για τις πειραματικές μεθόδους και τη χημεία και τη βιολογία της πρωτεΐνης (Εικόνα 7).

Εικόνα 7. Αποτελέσματα ερωτήματος στην PDB

Εικόνα 7. Αποτελέσματα ερωτήματος στην PDB

Τα αρχεία δομής μπορούν να προβληθούν χρησιμοποιώντας ένα από τα πολλά ελεύθερα και ανοικτά προγράμματα ηλεκτρονικών υπολογιστών, συμπεριλαμβανομένων των Jmol, Pymol, VMD και Rasmol. Άλλα μη δωρεάν προγράμματα shareware περιλαμβάνουν το ICM-Browser, το MDL Chime, το UCSF Chimera, το Swiss-PDB Viewer, το StarBiochem (διαδραστικό μοριακό πρόγραμμα προβολής με βάση την Java με ολοκληρωμένη αναζήτηση στη βάση δεδομένων πρωτεϊνών), το Sirius και το VisProt3DS (εργαλείο 3D στερεοσκοπικής προβολής πρωτεϊνών σε αναγλύφο και σε άλλους τρόπους), και το Discovery Studio. Ο RCSB PDB δικτυακός τόπος περιέχει έναν εκτεταμένο κατάλογο τόσο ελέθερων όσο και εμπορικών προγραμμάτων απεικόνισης μορίων και web browser plugins, όπως φαίνεται στην Εικόνα 8.

Εικόνα 8. Προβολή αρχείου PDB χρησιμοποιώντας έναν browser plug-in

Εικόνα 8. Προβολή αρχείου PDB χρησιμοποιώντας έναν browser plug-in

Καταχώρηση Δεδομένων στις Δημόσιες Βάσεις Δεδομένων

Εκτός από τη λήψη πληροφοριών από τις δημόσιες βάσεις δεδομένων, μπορείτε επίσης να υποβάλετε τα δικά σας αποτελέσματα.

Καταχώρηση στην GenBank

Η καταχώρηση αλληλουχιών στη GenBank έγινε εξαιρετικά απλή από το NCBI. Οι χρήστες που καταθέτουν μόνο μερικές αλληλουχίες μπορούν να χρησιμοποιήσουν το web-based BankIt tool, το οποίο είναι μια αυτοεξηγηματική διεπαφή βασισμένη σε φόρμα που είναι προσβάσιμη από την κεντρική σελίδα του GenBank στο NCBI. Το NCBI δημιούργησε πρόσφατα δύο ειδικές διαδρομές υποβολής: Οι αλληλουχίες EST πρέπει να υποβάλλονται μέσω του dbEST, αντί της GenBank, και οι αλληλουχίες του γονιδιώματος μέσω του dbGSS.

Καταχώρηση στην PDB

Η καταχώρηση των δομών στην PDB γίνεται με το wwPDB OneDep System, το οποίο ενσωματώνει το λογισμικό επικύρωσης δεδομένων με τη διαδικασία καταχώρησης έτσι ώστε ο χρήστης να μπορεί να λαμβάνει feedback σχετικά με την ποιότητα των δεδομένων κατά τη διάρκεια της διαδικασίας εναπόθεσης. Το wwPDB OneDep System συνδέεται με τα curation tools που χρησιμοποιεί η PDB για την προετοιμασία δεδομένων δομής για ενσωμάτωση στην τράπεζα δεδομένων.

Εύρεση λογισμικού

Η βιοπληροφορική είναι ένας ευρύς τομέας, που προσελκύει ερευνητές από πολλούς κλάδους, και άρθρα σχετικά με τις νέες ερευνητικές εξελίξεις στη βιοπληροφορική διανέμονται ευρέως στη βιβλιογραφία. Αν ψάχνετε για πρωτοποριακές εξελίξεις, περιοδικά όπως Bioinformatics, Nucleic Acids Research, Journal of Molecular Biology, και Protein Science δημοσιεύουν συχνά άρθρα που περιγράφουν καινοτομίες στις μεθόδους της υπολογιστικής βιολογίας.

Αν ψάχνετε για αποδεδειγμένο λογισμικό για μια συγκεκριμένη εφαρμογή, υπάρχουν αρκετοί αξιόπιστοι κατάλογοι στον ιστό που συνδέονται με ιστότοπους λογισμικού της υπολογιστικής βιολογίας. Οι περισσότερες από τις σημαντικότερες βιολογικές βάσεις δεδομένων διαθέτουν λίστες πηγών λογισμικού και τα απαραίτητα κίνητρα για την ενημέρωση των καταλόγων τους. Η PDB συνδέεται με τα καλύτερα πακέτα ελεύθερου λογισμικού για τη βελτίωση, την οπτικοποίηση και τη δυναμική της μακρομοριακής δομής. Τα portals ExPASy και NCBI παρέχουν συνδέσμους σε πολλά εργαλεία για την ανάλυση πρωτεϊνικών και νουκλεοτιδικών αλληλουχιών.

Κρίνοντας την ποιότητα των Πληροφοριών

Η ικανότητα εκτίμησης της ποιότητας των πληροφοριών και του λογισμικού θα βελτιωθεί καθώς συνεχίζετε να μαθαίνετε το πεδίο. Ένα από τα πρώτα πράγματα που πρέπει να λάβετε υπόψη κατά την αξιολόγηση λογισμικού, δεδομένων ή πληροφοριών που βρίσκονται στο Διαδίκτυο είναι η πηγή. Εάν δεν γνωρίζετε τους συγγραφείς που παρουσιάζουν τις πληροφορίες, αναζητήστε πληροφορίες σχετικά με την ακαδημαϊκή τους σύνδεση και τα διαπιστευτήρια που είναι διαθέσιμα στον ιστότοπο. Η τεχνογνωσία τους σχετικά με το θέμα ή το σκοπό της ιστοσελίδας είναι επίσης σημαντική. Ο ιστότοπος ενός μεμονωμένου ακαδημαϊκού ερευνητή δεν είναι απαραίτητο να είναι all-inclusive, όπως μια δημόσια βάση δεδομένων. Δεν υπάρχει τίποτα εγγενώς λανθασμένο με αυτές τις προσφορές, αλλά θα πρέπει να γνωρίζετε εάν είναι ολοκληρωμένες ή όχι, αν όλες οι λειτουργίες τους είναι διαθέσιμες στον απλό χρήστη, και γιατί.

Ακόμα και τα δεδομένα και το λογισμικό από εθνικούς ή διεθνείς δημόσιους ιστότοπους δεν είναι απαραίτητα εντελώς σωστά. Έχει υπολογιστεί ότι οποιαδήποτε δεδομένη αλληλουχία στην GenBank είναι πιθανό να περιέχει τουλάχιστον ένα σφάλμα. Ενώ αυτά τα σφάλματα γενικά δεν καθιστούν τα δεδομένα άχρηστα, είναι πάντα καλύτερο να γνωρίζετε τέτοια θέματα ακόμη και όταν χρησιμοποιείτε τους δημοφιλέστερες πηγές κορυφαίας κατηγορίας. Όπως κάθε άλλο λογισμικό που βρίσκετε στον Ιστό, το λογισμικό που προσφέρεται από δημόσιους οργανισμούς, όπως το NCBI και την PDB, μπορεί να βρίσκεται ακόμα υπό εξέλιξη. Μπορείτε να χρησιμοποιήσετε αυτό το λογισμικό, και μεγάλο μέρος αυτού είναι καλής ποιότητας. Εάν βασίζετε την έρευνά σας σε μια έκδοση beta (μια έκδοση που βρίσκεται ακόμη υπό εξέλιξη) ενός πακέτου λογισμικού, διαβάστε προσεκτικά τις οδηγίες, ώστε να γνωρίζετε ποια προβλήματα εξακολουθούν να υπάρχουν.

Funding

Disclaimer

The European Commission support for the production of this publication does not constitute endorsement of the contents which reflects the views only of the authors, and the Commission cannot be held responsi-ble for any use which may be made of the information contained therein.