LO1: Βιολογία, βιολογικές βάσεις δεδομένων και πηγές δεδομένων υψηλής απόδοσης

  1. Η Βιολογία στην εποχή των Υπολογιστών
  2. Πώς η Πληροφορική αλλάζει τη Βιολογία;
  3. Βιοπληροφορική και Δημιουργία Βάσεων Δεδομένων
  4. Πληροφορική και Βιολόγοι
  5. Δεξιότητες των Βιοπληροφορικών;
  6. Βιολόγοι και υπολογιστές
  7. Χρήση πληροφοριών Ιστού
  8. Κατανόηση των Δεδομένων Στοίχισης Αλληλουχιών
  9. Πρόβλεψη της Πρωτεϊνικής Δομής από την Αλληλουχία
  10. Ερωτήματα στα οποία μπορεί να απαντήσει η Βιοπληροφορική
  11. Υπολογιστικές Προσεγγίσεις σε Βιολογικά Ερωτήματα
  12. Το Κεντρικό Δόγμα της Μοριακής Βιολογίας
  13. Αντιγραφή του DNA
    1. Γονιδιώματα και Γονίδια
    2. Μεταγραφή του DNA
    3. Μετάφραση του mRNA
  14. Μοριακή Εξέλιξη
  15. Βιολογικά Μοντέλα
    1. Πρόσβαση σε τρισδιάστατα Μόρια μέσω της δευτεροταγούς δομής
    2. Αναπαραστάσεις για Μοντελοποίηση της Πρωτεϊνικής Δομής
    3. Μαθηματική Μοντελοποίηση των Βιοχημικών Συστημάτων
  16. Προσεγγίσεις Βιοπληροφορικής
    1. Χρήση δημόσιων βάσεων δεδομένων και μορφών δεδομένων
    2. Στοίχιση αλληλουχίας και αναζήτηση αλληλουχίας
    3. Πρόβλεψη γονιδίων
    4. Στοίχιση πολλαπλών αλληλουχιών
    5. Φυλογενετική ανάλυση
    6. Εξαγωγή προτύπων και προφίλ από δεδομένα αλληλουχίας
    7. Ανάλυση αλληλουχίας πρωτεϊνών
    8. Πρόβλεψη πρωτεϊνικής δομής
    9. Ανάλυση των ιδιοτήτων της πρωτεϊνικής δομής
    10. Στοίχιση πρωτεϊνικής δομής και σύγκριση
    11. Βιοχημική προσομοίωση
    12. Ανάλυση ολόκληρου του γονιδιώματος
    13. Σχεδιασμός Εκκινητών
    14. Ανάλυση της μικροσυστοιχίας DNA
    15. Πρωτεωμική ανάλυση
  17. Οι Δημόσιες Βιολογικές Βάσεις Δεδομένων
    1. Επισημείωση δεδομένων και μορφές δεδομένων
    2. Δεδομένα τρισδιάστατης Μοριακής Δομής
    3. Δεδομένα DNA, RNA και πρωτεϊνικής αλληλουχίας
    4. Γονιδιωματικά δεδομένα
    5. Δεδομένα για Βιοχημικά Μονοπάτια
    6. Δεδομένα Γονιδιακής Έκφρασης

Η Βιολογία στην εποχή των Υπολογιστών

Η Βιοπληροφορική είναι η επιστήμη που συνδυάζει τη χρήση των υπολογιστών και των βιολογικών δεδομένων. Είναι το μέσο που μπορούμε να χρησιμοποιήσουμε για να κατανοήσουμε τις βιολογικές διεργασίες και να απαντήσουμε σε πολλά άλλα ερωτήματα. Ειδικότερα, η βιοπληροφορική είναι ένα υποσύνολο του μεγαλύτερου πεδίου της υπολογιστικής επιστήμης, η χρήση επιστημονικών ποσοτικών στρατηγικών για την μοντελοποίηση των βιολογικών συστημάτων. Ο τομέας της βιοπληροφορικής εξαρτάται έντονα από την εργασία των ειδικών με στατιστικές μεθόδους και την αναγνώριση προτύπων. Οι επιστήμονες μεταβαίνουν στη βιοπληροφορική από πολλούς τομείς, συμπεριλαμβανομένης της αριθμητικής, της τεχνολογίας λογισμικού και της σημασιολογίας. Δυστυχώς, η βιολογία αποτελεί ένα μέρος του συγκεκριμένου τομέα και επιπλέον του γενικού πεδίου της βιοπληροφορικής. Η βιοπληροφορική είναι γεμάτη “παγίδες” για όσους αναζητούν παραδείγματα και έχουν προσδοκίες χωρίς να έχουν κατανοήσει πλήρως την προέλευση των βιολογικών δεδομένων, και τι συνεπάγεται αυτό. Η βιοπληροφορική, παρέχοντας υπολογισμούς, βάσεις δεδομένων, UIs και συσκευές μετρήσεων, καθιστά εφικτό να πραγματοποιηθούν εργασίες όπως η σύγκριση αλληλουχιών DNA και η λήψη αποτελεσμάτων που είναι δυνητικά σημαντικά. “Αυτές οι νέες προσεγγίσεις δίνουν επιπλέον την ευκαιρία να ερμηνευφθεί η πληροφορία και να αποδοθεί νόημα όπου δεν υπάρχει”. Επίσης, σημαντική είναι η κατανόηση των περιορισμών αυτών των εργαλείων. Σε κάθε περίπτωση, μόλις αποκτήσετε γνώση και έπειτα χρησιμοποιήσετε τις στρατηγικές της βιοπληροφορικής, μπορεί να είναι πραγματικά εκπληκτική η ταχύτητα με την οποία εξελίσσεται η έρευνά σας.

Η βιοπληροφορική ασχολείται με κάθε τύπο δεδομένων που ενδιαφέρει τους βιολόγους

  • Νουκλεοτιδικές (DNA) και πρωτεϊνικές αλληλουχίες
  • Γονιδιακή έκφραση (μικροσυστοιχία)
  • Άρθρα από τη βιβλιογραφία, και βάσεις δεδομένων από τις αναφορές
  • Εικόνες
  • Τα ακατέργαστα δεδομένα που συλλέγονται από κάθε είδος πεδίου ή εργαστηριακό πείραμα
  • Λογισμικό

Πώς η Πληροφορική αλλάζει τη Βιολογία;

Τα βιολογικά γενετικά και λειτουργικά δεδομένα αποθηκεύονται ως DNA, RNA και πρωτεΐνες, τα οποία είναι γραμμικές αλυσίδες που αποτελούνται από μικρότερα μόρια. Αυτά τα μακρομόρια αποτελούνται από ένα καθορισμένο “αλφάβητο” χημικών μορίων που έχουν εκτενώς μελετηθεί: το DNA αποτελείται από τέσσερα δεοξυριβονουκλεοτίδια (αδενίνη, θυμίνη, κυτοσίνη και γουανίνη), το RNA αποτελείται από τα τέσσερα ριβονουκλεοτίδια (αδενίνη, ουρακίλη, κυτοσίνη και γουανίνη) και οι πρωτεΐνες συντίθενται από 20 αμινοξέα. Δεδομένου ότι αυτά τα μακρομόρια είναι γραμμικές αλυσίδες χαρακτηρισμένων τμημάτων, μπορούν να αναπαρασταθούν ως αλληλουχίες συμβόλων. Αυτές οι αλληλουχίες μπορούν στη συνέχεια να συγκριθούν για την εύρεση ομοιοτήτων οι οποίες υποδηλώνουν ότι τα μόρια σχετίζονται στη μορφή ή τη λειτουργία τους. Η μελέτη των αλληλουχιών είναι πιθανώς το πιο πολύτιμο υπολογιστικό εργαλείο που εμφανίστηκε για τους μοριακούς βιολόγους. Ο Παγκόσμιος Ιστός έχει καταστήσει δυνατή μια ενιαία δημόσια βάση δεδομένων αλληλουχίας του γονιδιώματος, που μέσω μιας ομοιόμορφης διασύνδεσης προσφέρει παροχές σε μια μεγάλη ομάδα χρηστών. Με ένα πρόγραμμα υπολογιστών που ονομάζεται fsBLAST, οι μοριακοί βιολόγοι μπορούν να συγκρίνουν ένα μη χαρακτηρισμένο DNA με όλες τις διαθέσιμες συλλογές αλληλουχιών DNA.

Βιοπληροφορική και Δημιουργία Βάσεων Δεδομένων

Πολλά από αυτά που θεωρούμε σήμερα ως κύρια πτυχή της βιοπληροφορικής - σύγκριση αλληλουχιών, αναζήτηση σε βάσεις δεδομένων αλληλουχιών, ανάλυση αλληλουχίας - είναι πιο περίπλοκα απ’ όσο απλά περιγράφουν και ορίζουν οι δημόσιες βάσεις δεδομένων. Οι επιστήμονες που ασχολούνται με τη βιοπληροφορική (ή την υπολογιστική επιστήμη) πηγαίνουν πέρα από την απλή λήψη, τη διαχείριση και την εισαγωγή πληροφοριών, αντλώντας κίνητρα από μια μεγάλη ποικιλία πεδίων ποσοτικής έρευνας, συμπεριλαμβανομένων της στατιστικής, της φυσικής, της επιστήμης των υλικών, και της μηχανικής λογισμικού. Η Εικόνα 1 δείχνει πώς η ποσοτική επιστήμη διασταυρώνεται με τη βιολογία σε κάθε επίπεδο, από τη διερεύνηση των πληροφοριών της αλληλουχίας και της δομής των μακρομορίων, μέχρι τη μεταβολική μοντελοποίηση, και την ποσοτική μελέτη των πληθυσμών και της οικολογίας.

Εικόνα 1. Πώς η τεχνολογία διασταυρώνεται με τη βιολογία

Εικόνα 1. Πώς η τεχνολογία διασταυρώνεται με τη βιολογία

Η βιοπληροφορική είναι πάνω απ’ όλα ένα τμήμα των βιολογικών επιστημών. Ο βασικός στόχος της βιοπληροφορικής δεν είναι η δημιουργία των πιο περίπλοκων αλγορίθμων, αλλά η ανακάλυψη του τρόπου λειτουργίας ενός ζωντανού οργανισμού. Όπως οι στρατηγικές της επιστήμης της μοριακής βιολογίας διευρύνουν εξαιρετικά την ερευνητική δυνατότητα του ερευνητή, η βιοπληροφορική είναι μια προσέγγιση και όχι αυτοσκοπός. Οι επιστήμονες της βιοπληροφορικής είναι οι υπεύθυνοι ανάπτυξης εργαλείων και είναι σημαντικό να κατανοούν τα φυσικά ζητήματα και τις υπολογιστικές ρυθμίσεις, ώστε να δημιουργούν πολύτιμα εργαλεία. Η έρευνα στη βιοπληροφορική και στην υπολογιστική επιστήμη μπορεί να ενσωματώσει τις ιδιότητες ενός βιολογικού συστήματος σε ένα μαθηματικό ή φυσικό μοντέλο, να εκτέλεσει νέους υπολογισμούς για την έρευνα πληροφοριών, να βελτιώσει τις βάσεις δεδομένων και των εργαλείων ιστού για την εκτίμησή τους.

Πληροφορική και Βιολόγοι

Η επιστήμη της πληροφορικής επικεντρώνεται στην αναπαράσταση, οργάνωση, χειραγώγηση, διανομή, συντήρηση και χρήση δεδομένων, ειδικά σε ηλεκτρονικό πλαίσιο. Το λειτουργικό μέρος της βιοπληροφορικής είναι η αναπαράσταση, η αποθήκευση και η διανομή δεδομένων. Η “έξυπνη” περιγραφή των διαμορφώσεων των πληροφοριών και των βάσεων δεδομένων, η δημιουργία εργαλείων αναζήτησης σε αυτές τις βάσεις δεδομένων, και η προώθηση των UIs που ενώνουν ποικίλες συσκευές ώστε να μπορούν οι χρήστες να κάνουν περίπλοκες έρευνες σχετικά με τις πληροφορίες, αποτελούν γενικά μέρη της βελτίωσης της βάσης της βιοπληροφορικής.

Η δημιουργία αναλυτικών εργαλείων για την εύρεση πληροφοριών είναι το δεύτερο και πιο λογικό τμήμα της βιοπληροφορικής. Υπάρχουν πολλά επίπεδα στα οποία χρησιμοποιούμε τα βιολογικά δεδομένα, ανεξάρτητα από το αν συγκρίνουμε αλληλουχίες για να δημιουργήσουμε μια θεωρία σχετικά με τη λειτουργία ενός γονιδίου που ανακαλύφθηκε, εξετάζοντας γνωστές τρισδιάστατες δομές πρωτεϊνών για να ανακαλύψουμε πρότυπα που μπορούν να βοηθήσουν να προβλεφθεί ο τρόπος με τον οποίο αναδιπλώνεται η πρωτεΐνη, ή παρουσιάζοντας πώς οι πρωτεΐνες και οι μεταβολίτες αλληλεπιδρούν σε ένα κύτταρο για να λειτουργήσει το κύτταρο. Ένας από τους απώτερους στόχους των αναλυτικών βιοπληροφορικών είναι να δημιουργήσουν πρότυπες τεχνικές που θα επιτρέψουν στους ερευνητές να παρουσιάσουν τη λειτουργία και τον φαινότυπο ενός ζωντανού οργανισμού βασισμένοι μόνο στην αλληλουχία γονιδιώματός του.

Δεξιότητες των Βιοπληροφορικών;

Υπάρχει μια μεγάλη ποικιλία σημείων που είναι χρήσιμα σε περίπτωση που ενδιαφέρεστε για τη βιοπληροφορική, όμως δεν είναι εφικτό να τα γνωρίζετε όλα. Ωστόσο, θα μπορούσαν να τονιστούν οι ακόλουθες "βασικές απαιτήσεις" για τους βιοπληροφορικούς:

  • Θα πρέπει να έχετε ένα πραγματικά σημαντικό υπόβαθρο σε κάποιο κλάδο της μοριακής βιολογίας, όπως: βιοχημεία, μοριακή βιολογία, μοριακή βιοφυσική, ή ακόμα τη μοριακή μοντελοποίηση.
  • Θα πρέπει να έχετε κατανοήσει πλήρως το «κεντρικό δόγμα» της μοριακής βιολογίας. Είναι σημαντική η κατανόηση του τρόπου και του λόγου για τον οποίο η αλληλουχία του DNA μεταγράφεται σε RNA και στη συνέχεια μεταφράζεται σε πρωτεΐνη.
  • Θα πρέπει να έχετε σημαντική εμπειρία σε τουλάχιστον ένα ή δύο κύρια πακέτα λογισμικού της μοριακής βιολογίας, είτε για την ανάλυση της αλληλουχίας είτε για τη μοριακή μοντελοποίηση. Η εμπειρία από την εκμάθηση ενός από αυτά τα λογισμικά καθιστά ουσιαστικά πολύ πιο εύκολη την κατανόηση τον τρόπου χρήσης των άλλων διαθέσιμων προγραμμάτων.
  • Θα πρέπει να είστε “πρόθυμοι” να εργαστείτε σε περιβάλλον υπολογιστικής γραμμής εντολών.
  • Θα πρέπει να έχετε εμπειρία στον προγραμματισμό σε μια γλώσσα προγραμματισμού, για παράδειγμα, C/C++, καθώς και σε μια γλώσσα σεναρίων, για παράδειγμα, Perl ή Python.

Βιολόγοι και υπολογιστές

Οι υπολογιστές είναι ισχυρές συσκευές για τη μελέτη κάθε συστήματος που μπορεί να περιγραφεί με μαθηματικό τρόπο. Καθώς έχει αναπτυχθεί και επεκταθεί η έρευνα για την κατανόηση των βιολογικών διεργασιών, η υπολογιστική βιολογία και η βιοπληροφορική έχουν εξελιχθεί μέσα από τη σύγκλιση της παραδοσιακής βιολογίας, των μαθηματικών και της επιστήμης των υπολογιστών.

Η επέκταση της αυτοματοποίησης της πειραματικής μοριακής βιολογίας και η χρήση των αυξανόμενων δεδομένων στις βιολογικές επιστήμες, έχουν προκαλέσει σημαντική αλλαγή στον τρόπο με τον οποίο διεξάγεται η έρευνα στη βιολογία. Παρά την έρευνα που διενεργείται για την εύρεση και την λεπτομερή μελέτη ενός μόνο γονιδίου κάθε φορά, προς το παρόν ταξινομούμε όλες τις πληροφορίες που είναι προσβάσιμες, κατασκευάζοντας ολοκληρωμένους χάρτες στους οποίους μπορούμε αργότερα να επιστρέψουμε και να επισημάνουμε τα σημεία ενδιαφέροντος. Αυτό συμβαίνει στους τομείς της αλληλουχίας και της δομής, και επίσης είναι ο τρόπος αντιμετώπισης των διαφορετικών ειδών πληροφοριών. Τάση είναι η αποθήκευση σειράς βιολογικών πληροφοριών σε πολλές δημόσιες βάσεις δεδομένων με ελέυθερη πρόσβαση. Αντί να πραγματοποιούνται προκαταρκτικές έρευνες στο εργαστήριο, οι ερευνητές αρχικά απευθύνονται στις βάσεις δεδομένων για να εξοικονομήσουν χρόνο και χρήματα.

Χρήση πληροφοριών Ιστού

Παρόλο που μπορείτε να εντοπίσετε γρήγορα ένα αρχείο πρωτεϊνικής δομής ή ένα αρχείο αλληλουχίας DNA συμπληρώνοντας μια φόρμα ιστού και κάνοντας αναζήτηση σε μια δημόσια βάση δεδομένων, εν τέλει θα χρειαστεί να εργαστείτε με περισσότερες από μία πληροφορίες. Μπορείτε να συγκεντρώσετε και να αρχειοθετήσετε τις δικές σας πληροφορίες, καθώς ίσως χρειαστεί οι πληροφορίες αυτές να γίνουν προσβάσιμες σε μια ευρύτερη ερευνητική κοινότητα. Για να συμβεί αυτό αποτελεσματικά, θα πρέπει αρχικά να αποθηκεύσετε τις πληροφορίες στον υπολογιστή σας. Σε περίπτωση που χρειαστεί να επεξεργαστείτε τα δεδομένα σας χρησιμοποιώντας ένα πρόγραμμα υπολογιστή, θα πρέπει να οργανώσετε τις πληροφορίες σας. Η κατανόηση της αντίθεσης μεταξύ των οργανωμένων και αδόμητων πληροφοριών, και η περιγραφή των ρυθμίσεων πληροφόρησης που ταιριάζει στις ανάγκες σας για την αποθήκευση των δεδομένων, είναι ο τρόπος για να κάνετε τις πληροφορίες σας πολύτιμες και προσβάσιμες.

Υπάρχουν πολλές προσεγγίσεις για τη διαλογή των πληροφοριών. Ενώ τα περισσότερα βιολογικά δεδομένα αποθηκεύονται σε επίπεδες βάσεις δεδομένων, αυτό το είδος βάσης δεδομένων καθίσταται αναποτελεσματικό όταν η ποσότητα των αποθηκευμένων δεδομένων γίνεται εξαιρετικά μεγάλη. Περισσότερες πληροφορίες σχετικά με τις διαφορές μεταξύ των επίπεδων βάσεων δεδομένων και των σχεσιακών βάσεων δεδομένων, παρουσιάζουν τα καλύτερα εργαλεία δημόσιας διαχείρισης για τη διαχείριση των βάσεων δεδομένων, και σας δείχνουν πώς μπορείτε να τα χρησιμοποιήσετε για να αποθηκεύσετε και να αποκτήσετε πρόσβαση στα δεδομένα που μπορείτε να βρείτε στο επίπεδο GM2 (επίπεδο Advance).

Κατανόηση των Δεδομένων Στοίχισης Αλληλουχιών

Είναι δύσκολο να κατανοήσετε τα δεδομένα σας, ή να τα επισημάνετε, χωρίς εργαλεία οπτικοποίησης. Για την κατανόηση των βιολογικών πληροφοριών απαιτείται τακτικά η εξαγωγή διατομών ή υποσυνόλων σύνθετων δεδομένων πολλών μεταβλητών. Μόλις αποθηκεύσετε τα δεδομένα σε μια ανοιχτή, ευέλικτη μορφή, το επόμενο στάδιο είναι να εξαγάγετε όσα είναι απαραίτητα για εσάς και να τα οπτικοποιήσετε. Πρέπει να δημιουργήσετε ένα ιστόγραμμα των πληροφοριών σας ή να παρουσιάσετε μια τρισδιάστατη μοριακή δομή, και να παρακολουθήσετε την κίνηση σε πραγματικό χρόνο χρησιμοποιώντας συγκεκριμένα μέσα απεικόνισης.

Πρόβλεψη της Πρωτεϊνικής Δομής από την Αλληλουχία

Υπάρχουν μερικά ερωτήματα που η Βιοπληροφορική δεν μπορεί να απαντήσει, και αυτό είναι ένα από αυτά. Πράγματι, είναι ένα από τα μεγαλύτερα “ανοιχτά” ερευνητικά ερωτήματα στην υπολογιστική επιστήμη. Αυτό που εναι πιθανό είναι να δοθούν τα μέσα για την ανακάλυψη δεδομένων σχετικά με αυτά τα θέματα και σε διαφορετικούς συγγραφείς που τα διερευνούν. Η βιοπληροφορική, όπως και άλλες επιστήμες, γενικά δεν δίνει γρήγορες και απλές απαντήσεις σε όλα τα ζητήματα.

Ερωτήματα στα οποία μπορεί να απαντήσει η Βιοπληροφορική

Τα ερωτήματα που οδηγούν στην ανάπτυξη της βιοπληροφορικής είναι παρόμοια με εκείνα που υπάρχουν στην εφαρμοσμένη βιολογία τα τελευταία διακόσια χρόνια. Πώς μπορούμε να θεραπεύσουμε τους ασθένειες; Πώς μπορούμε να αποτρέψουμε τη μόλυνση; Πώς μπορούμε να παράγουμε αρκετό φαγητό για να συντηρούμε όλη την ανθρωπότητα; Οι εταιρίες που δραστηριοποιούνται στον τομέα της ανάπτυξης φαρμάκων, των γεωργικών χημικών προϊόντων, των υβριδικών φυτών, των πλαστικών και άλλων παραγώγων του πετρελαίου, και των βιολογικών προσεγγίσεων για την περιβαλλοντική αποκατάσταση, μεταξύ άλλων, δημιουργούν τμήματα βιοπληροφορικής και αναζητούν τη βιοπληροφορική για να δώσουν νέους στόχους και να βοηθήσουν στην αντικατάσταση των σπάνιων φυσικών πόρων.

Η διενέργεια εργασιών που αφορούν το γονιδίωμα συνάγει τον στόχο μας να αξιοποιήσουμε τις πληροφορίες που δημιουργούν. Οι σημαντικοί στόχοι της σύγχρονης μοριακής βιολογίας είναι η ανάγνωση ολόκληρου του γονιδιώματος των ζωντανών οργανισμών, η ταυτοποίηση κάθε γονιδίου, η αντιστοίχιση κάθε γονιδίου με την πρωτεΐνη που κωδικοποιεί, και ο προσδιορισμός της δομής και της λειτουργίας κάθε πρωτεΐνης. Η λεπτομερής γνώση της αλληλουχίας γονιδίου, της δομής και της λειτουργίας της πρωτεΐνης και των μοτίβων γονιδιακής έκφρασης αναμένεται να μας δώσει τη δυνατότητα να δούμε πώς λειτουργεί η ζωή. Με αυτόν τον τρόπο η ικανότητα χειρισμού των ζωντανών οργανισμών θα πραγματοποιείται με ακρίβεια.

Υπολογιστικές Προσεγγίσεις σε Βιολογικά Ερωτήματα

Υπάρχει ένα μέσο εύρος προσεγγίσεων που εφαρμόζονται στη βιοπληροφορική. Επί του παρόντος, το μεγαλύτερο μέρος των σημαντικών μεθόδων εξαρτάται από μία βασική αρχή: ότι η ομολογία αλληλουχίας και η δομική ομολογία (ή ομοιότητα) μεταξύ των μορίων μπορούν να χρησιμοποιηθούν για τον καθορισμό της βασικής και λειτουργικής ομοιότητας. Εδώ συνοψίζονται τα τυπικά εργαλεία ηλεκτρονικών υπολογιστών που είναι προσβάσιμα στους ερευνητές. Στο GM2 πώς εξετάζονται συγκεκριμένα πακέτα λογισμικού για την εφαρμογή αυτών των στρατηγικών και πώς πρέπει να τα αξιοποιήσει ένας ερευνητής.

Το Κεντρικό Δόγμα της Μοριακής Βιολογίας

Το κεντρικό δόγμα της μοριακής βιολογίας δηλώνει ότι:

  • Το DNA αποτελεί πρότυπο για την αναπαραγωγή του,
  • Το DNA μεταγράφεται σε RNA, και
  • Το RNA μεταφράζεται σε πρωτεΐνες.

Εν συντομία, το γονιδιωματικό DNA περιέχει όλες τις απαραίτητες πληροφορίες για τη λειτουργία ενός καθορισμένου ζωντανού οργανισμού. Χωρίς το DNA, οι οργανισμοί δεν θα μπορούσαν να αναπαραχθούν. Η ακατέργαστη "μονοδιάστατη" αλληλουχία του DNA, ωστόσο, δεν κάνει τίποτα βιοχημικά. Περιέχει μόνο αποθηκευμένες πληροφορίες, οι οποίες αναγνωρίζονται από το μηχανισμό σύνθεσης των πρωτεϊνών του κυττάρου. Οι αλληλουχίες DNA είναι οι “διάτρητες κάρτες” και τα κύτταρα είναι οι “υπολογιστές”.

Αντιγραφή του DNA

Η ειδική δομή των μορίων του DNA εξασφαλίζει τις ιδιαίτερες ιδιότητές του. Αυτές οι ιδιότητες επιτρέπουν τη διατήρηση των πληροφοριών που αποθηκεύονται στο DNA και τη μεταφορά τους από ένα κύτταρο σε άλλο, και επομένως από τους γονείς στους απογόνους τους.

Εικόνα 2. Σχηματική αναπαράσταση της αντιγραφής της έλικας του DNA

Εικόνα 2. Σχηματική αναπαράσταση της αντιγραφής της έλικας του DNA

Γονιδιώματα και Γονίδια

Το γονιδίωμα αποτελείται από μεμονωμένα γονίδια. Υπάρχουν τρεις κατηγορίες γονιδίων: τα γονίδια που κωδικοποιούν πρωτεΐνες, τα γονίδια που καθορίζουν το RNA, και τα μη μεταγραφόμενα γονίδια.

Μεταγραφή του DNA

Το DNA φέρει τις πληροφορίες (λειτουργεί ως “σχέδιο”) για τη σύνθεση του ριβονουκλεϊκού οξέος (RNA).

Εικόνα 3. Σχηματική αναπαράσταση της μεταγραφής του DNA σε RNA

Εικόνα 3. Σχηματική αναπαράσταση της μεταγραφής του DNA σε RNA

Μετάφραση του mRNA

Η μετάφραση του mRNA σε πρωτεΐνες είναι το τελικό βασικό βήμα ώστε η πληροφορία του γονιδίωματος να δράσει μέσα στο κύτταρο.

Εικόνα 4. Ο γενετικός κώδικας

Εικόνα 4. Ο γενετικός κώδικας

Μοριακή Εξέλιξη

Τα σφάλματα στην αντιγραφή και τη μεταγραφή του DNA είναι σχετικά κοινά. Αν αυτά τα σφάλματα προκύψουν κατά τη διαίρεση των κυττάρων, μπορούν να μεταβιβαστούν στους απογόνους τους. Οι τροποποιήσεις στην αλληλουχία του DNA μπορούν να έχουν βλαβερές συνέπειες, μπορούν επίσης να έχουν ευεργετική επίδραση ή να είναι ουδέτερες. Εάν μια μετάλλαξη δεν “σκοτώνει” τον οργανισμό πριν αναπαραχθεί, η μετάλλαξη αυτή μπορεί να σταθεροποιηθεί στον πληθυσμό για πολλές γενιές. Η αργή συσσώρευση τέτοιων μεταλλάξεων αποτελούν το υπόβαθρο της εξέλιξης. Έτσι, η γνώση των αλληλουχιών του DNA μας παρέχει μια πιο ακριβή κατανόηση της εξέλιξης. Γνωρίζοντας τον μοριακό μηχανισμό της εξέλιξης ως διαδικασία σταδιακής συσσώρευσης μεταλλάξεων στην αλληλουχία του DNA είναι ο λόγος για τη δημιουργία θεωριών βασισμένων στη σύγκριση αλληλουχιών DNA και πρωτεϊνών.

Βιολογικά Μοντέλα

Μία από τις σημαντικότερες διεργασίες στη βιολογία και στη βιοπληροφορική είναι η μοντελοποίηση. Ένα μοντέλο είναι ένας συνοπτικός τρόπος περιγραφής ενός περίπλοκου συστήματος. Το να μετατρέψεις κάτι τόσο περίπλοκο (και δυσνόητο) όπως το χρωμόσωμα, ή τον κύκλο της κυτταρικής διαίρεσης, σε μια απλοποιημένη αναπαράσταση που αποτυπώνει όλα τα υπό μελέτη χαρακτηριστικά, μπορεί να είναι εξαιρετικά δύσκολο. Ένα μοντέλο μας βοηθά να δούμε τη μεγαλύτερη εικόνα. Ένα χαρακτηριστικό ενός καλού μοντέλου είναι ότι καθιστά ευκολότερο να αναλύονται συστήματα, που διαφορετικά ήταν δύσκολο να μελετηθούν, χρησιμοποιώντας ποσοτικές προσεγγίσεις. Τα εργαλεία βιοπληροφορικής βασίζονται στην ικανότητά μας να εξαγάγουμε σχετικές παραμέτρους από ένα βιολογικό σύστημα (είτε πρόκειται για ένα μόνο μόριο ή κάτι τόσο περίπλοκο όσο ένα κύτταρο), να τις περιγράψουμε ποσοτικά, και στη συνέχεια να αναπτύξουμε υπολογιστικές μεθόδους που χρησιμοποιούν αυτές τις παραμέτρους για τον υπολογισμό των ιδιοτήτων ενός συστήματος ή να προβλέπουν τη συμπεριφορά του.

Πρόσβαση σε τρισδιάστατα Μόρια μέσω της δευτεροταγούς δομής

Στην πραγματικότητα, το DNA και οι πρωτεΐνες είναι περίπλοκα τρισδιάστατα μόρια, που αποτελούνται από χιλιάδες ή ακόμα και εκατομμύρια άτομα που συνδέονται μεταξύ τους. Ωστόσο, το DNA και οι πρωτεΐνες είναι και τα δύο πολυμερή, αλυσίδες επαναλαμβανόμενων μονομερών. Λίγο καιρό μετά την κατανόηση της χημικής φύσης του DNA και των πρωτεϊνών, οι ερευνητές αναγνώρισαν ότι ήταν πρακτικό να τα αναπαραστήσουν με σειρές απλών γραμμάτων. Αντί να αναπαραστάται κάθε νουκλεϊνικό οξύ σε μια αλληλουχία DNA ως μια λεπτομερή χημική οντότητα, θα μπορούσαν να απεικονίζονται απλώς ως Α, Τ, C και G. Έτσι, ένα μικρό τμήμα DNA που περιέχει χιλιάδες μεμονωμένα άτομα μπορεί να αναπαραστάται με μια ακολουθία μερικών εκατοντάδων γραμμάτων.

Με αυτό τον τρόπο εξοικονομείται χώρος αποθήκευσης και παρέχεται μια βολική φόρμα για την ανταλλαγή πληροφοριών αλληλουχίας, αναπαριστά τη φύση ενός μορίου μοναδικά και σωστά, και αγνοεί τα επίπεδα λεπτομέρειας (όπως η ατομική δομή του DNA και πολλών πρωτεϊνών) τα οποία είναι πειραματικά απρόσιτα. Πολλές μέθοδοι της υπολογιστικής βιολογίας εκμεταλλεύονται αυτή την δευτεροταγή δομή των τρισδιάστατων βιολογικών μακρομορίων.

Η αναπαράσταση των αλληλουχιών των νουκλεϊκών οξέων και των πρωτεϊνών σε δευτεροταγή δομή (1D) υπήρξε μία από τις πιο καρποφόρες στρατηγικές μοντελοποίησης στην υπολογιστική μοριακή βιολογία, και η ανάλυση των χαρακτήρων είναι ένας τομέας έρευνας στην επιστήμη των υπολογιστών που υπάρχει εδώ και χρόνια. Ένα από τα στοιχειώδη ερωτήματα που μπορείτε να τεθεί σχετικά με τις σειρές γραμμάτων είναι: "Ταιριάζουν;". Υπάρχουν καθιερωμένοι αλγόριθμοι στην επιστήμη των υπολογιστών για την εύρεση ακριβών και ανακριβών αντιστοιχιών σε ζεύγη αλληλουχιών. Αυτοί οι αλγόριθμοι εφαρμόζονται για την εύρεση αντιστοιχιών δύο αλληλουχιών μεταξύ των βιολογικών αλληλουχιών και για την αναζήτηση βάσεων δεδομένων αλληλουχιών χρησιμοποιώντας μία υπό μελέτη αλληλουχία.

Εκτός από την αντιστοίχιση των μεμονωμένων αλληλουχιών, μέθοδοι που βασίζονται σε σειρές συμβόλων που προέκυψαν από την επιστήμη των υπολογιστών, εφαρμόστηκαν με επιτυχία σε πολλά άλλα προβλήματα στη μοριακή βιολογία. Για παράδειγμα, οι αλγόριθμοι για την ανασυγκρότηση μιας σειράς συμβόλων από ένα σύνολο βραχύτερων υποσυμβολοσειρών μπορούν να συναρμολογήσουν αλληλουχίες DNA από επικαλυπτόμενα θραύσματα αλληλουχίας. Τεχνικές για την αναγνώριση επαναλαμβανόμενων μοτίβων σε μεμονωμένες αλληλουχίες ή διατηρημένων μοτίβων σε πολλαπλές αλληλουχίες, επιτρέπουν στους ερευνητές να αναγνωρίζουν “υπογραφές” που σχετίζονται με βιολογικές δομές ή λειτουργίες. Τέλος, οι τεχνικές πολλαπλής στοίχισης αλληλουχιών επιτρέπουν την ταυτόχρονη σύγκριση διαφόρων μορίων που μπορούν να συνάγουν εξελικτικές σχέσεις μεταξύ των αλληλουχιών.

Αυτή η απλοποίηση της αλληλουχίας DNA και της πρωτεϊνικής αλληλουχίας φαίνεται να αγνοεί τη βιολογία. Το κυτταρικό πλαίσιο στο οποίο υπάρχουν τα βιομόρια αγνοείται εντελώς, όπως και οι αλληλεπιδράσεις τους με άλλα μόρια καθώς και η μοριακή τους δομή. Και όμως, έχει αποδειχθεί επανηλημμένα ότι οι αντιστοιχίες μεταξύ των βιολογικών αλληλουχιών μπορούν να έχουν βιολογική σημασία.

Αναπαραστάσεις για Μοντελοποίηση της Πρωτεϊνικής Δομής

Υπάρχουν περισσότερα δεδομένα στη βιολογία από τις αλληλουχίες. Επίσης, οι πρωτεΐνες και τα νουκλεϊνικά οξέα έχουν πολύπλοκες τρισδιάστατες δομές που παρέχουν πληροφορίες για την λειτουργία τους στον ζωντανό οργανισμό. Η δομική ανάλυση μπορεί να πραγματοποιηθεί σε στατικές δομές, ή οι κινήσεις και οι αλληλεπιδράσεις στα μόρια μπορούν να μελετηθούν με μεθόδους μοριακής προσομοίωσης.

Η τυπική μοριακή προσομοίωση προσεγγίζει τα μοντέλα πρωτεϊνών ως μια συλλογή σημείων μαζών (ατόμων) που συνδέονται με δεσμούς. Ο δεσμός μεταξύ δύο ατόμων έχει ένα τυπικό μήκος, που προέρχεται από την πειραματική χημεία, και μια συνδεδεμένη εφαρμοζόμενη δύναμη που περιορίζει τον δεσμό σε αυτό το μήκος. Η γωνία μεταξύ τριών παρακείμενων ατόμων έχει μια τυπική τιμή και μια εφαρμοζόμενη δύναμη που περιορίζει τη γωνία δεσμού γύρω από την τιμή αυτή. Το ίδιο ισχύει και για την δίεδρη γωνία που σχηματίζεται από τέσσερα γειτονικά άτομα. Σε μια προσομοίωση μοριακής δυναμικής, η ενέργεια προστίθεται στο μοριακό σύστημα ως "θερμότητα". Σύμφωνα με τους απλούς νόμους του Νεύτωνα, τα άτομα που σχηματίζουν το μόριο κινούνται. Η ενέργεια που προστίθεται στο σύστημα παρέχει μια αντίθετη δύναμη που κινεί τα άτομα στο μόριο από τις τυπικές τους διατάξεις. Οι δράσεις και οι αντιδράσεις εκατοντάδων ατόμων σε ένα μοριακό σύστημα μπορούν να προσομοιωθούν χρησιμοποιώντας αυτήν την αναπαράσταση.

Σε κάθε περίπτωση, τα υπολογιστικά αιτήματα για τις μοριακές προσομοιώσεις είναι τεράστια, και υπάρχει κάποια αδυναμία τόσο στο πεδίο της δύναμης - η συσσώρευση τυπικών δυνάμεων που μοντελοποιούν το μόριο - όσο και στην εμφάνιση μη δεσμευμένων αλληλεπιδράσεων - αλληλεπιδράσεις μεταξύ μη γειτονικών ατόμων. Με τον τρόπο αυτό, δεν έχει αποδειχθεί ότι μπορεί να γίνει πρόβλεψη της πρωτεϊνικής δομής χρησιμοποιώντας την προσέγγιση μοντελοποίησης όλων των ατόμων.

Μερικοί ερευνητές έχουν πρόσφατα μέτρια επιτυχία στην πρόβλεψη της τοπολογίας των πρωτεϊνών για μικρές πρωτεΐνες χρησιμοποιώντας ένα μέτριο επίπεδο αναπαράστασης –περισσότερο από μια γραμμική αλληλουχία, αλλά λιγότερο από ένα μοντέλο που περιέχει όλα τα άτομα. Για αυτή την κατάσταση, η πρωτεΐνη αντιμετωπίζεται ως μια εξέλιξη των σφαιρών (μιλώντας για μεμονωμένα αμινοξέα) σε μια συμβολοσειρά (μιλώντας για τη ραχοκοκαλιά της δομής). Τα σφαιρίδια μπορεί να έχουν διακριτούς χαρακτήρες για να αντιπροσωπεύουν τις διαφορές στις πλευρικές αλυσίδες των αμινοξέων. Αυτές μπορεί να είναι θετικά ή αρνητικά φορτισμένες, πολικές ή μη πολικές, μικρές ή μεγάλες. Υπάρχουν κανόνες που εποπτεύουν τα σφαιρίδια που θα προσελκύουν το ένα το άλλο. Οι πολικές ομάδες συσσωρεύονται με άλλες πολικές ομάδες, και οι μη πολικές με μη πολικές. Επίσης, υπάρχουν κανόνες σχετικά με τη συμβολοσειρά, ότι ουσιαστικά δεν μπορεί να περάσει μέσα από την πορεία της προσομοίωσης. Η μοντελοποίηση της αναδίπλωσης της πρωτεΐνης κατευθύνεται μέσω διαδοχικών ή ταυτόχρονων διαταραχών της θέσης κάθε σφαιρικού στοιχείου.

Μαθηματική Μοντελοποίηση των Βιοχημικών Συστημάτων

Η χρήση των θεωρητικών μοντέλων στη βιολογία υπερβαίνει κατά πολύ το επίπεδο ενός μορίου. Για χρόνια, οι οικολόγοι χρησιμοποιούν μαθηματικά μοντέλα για να τους βοηθήσουν να κατανοήσουν τη δυναμική των αλλαγών στους αλληλένδετους πληθυσμούς. Ποιες είναι οι συνέπειες της μείωσης του πληθυσμού ενός είδους θηρευτών στον πληθυσμό του θήρατός του; Τι αποτέλεσμα έχουν οι αλλαγές στο περιβάλλον στον πληθυσμό; Οι απαντήσεις σε αυτές τις ερωτήσεις είναι θεωρητικά προβλέψιμες, δεδομένου του κατάλληλου μαθηματικού μοντέλου και της γνώσης των μεγεθών των πληθυσμών και των τυπικών ρυθμών μεταβολής τους, λόγω διαφόρων παραγόντων.

Στη μοριακή βιολογία, μια παρόμοια προσέγγιση, που ονομάζεται ανάλυση μεταβολικού ελέγχου, εφαρμόζεται σε βιοχημικές αντιδράσεις που περιλαμβάνουν πολλά μόρια και χημικά είδη. Ενώ τα κύτταρα περιέχουν εκατοντάδες ή χιλιάδες πρωτεΐνες που αλληλεπιδρούν, μικρά μόρια, και ιόντα, είναι δυνατό να δημιουργηθεί ένα μοντέλο που περιγράφει και προβλέπει μια μικρή γωνία αυτού του περίπλοκου μεταβολισμού. Για παράδειγμα, εάν ενδιαφέρεστε για τις βιολογικές διεργασίες που διατηρούν τις διαφορετικές συγκεντρώσεις ιόντων υδρογόνου και στις δύο πλευρές της εσωτερικής μιτοχονδριακής μεμβράνης στα ευκαρυωτικά κύτταρα, πιθανώς δεν είναι απαραίτητο το μοντέλο να συμπεριλάβει μεταβολικά μονοπάτια που εμπλέκονται στη βιοσύνθεση της δομής της αίμης.

Τα μεταβολικά μοντέλα απεικονίζουν μια βιοχημική διεργασία σε σχέση με τις συγκεντρώσεις των χημικών ουσιών που εμπλέκονται σε ένα μονοπάτι, και τις αντιδράσεις και τις ροές που επηρεάζουν αυτές τις συγκεντρώσεις. Οι αντιδράσεις και οι ροές μπορούν να αναγνωριστούν με διαφορικές εξισώσεις. Βασικά, είναι οι τιμές μεταβολής της συγκέντρωσης.

Αυτό που καθιστά ενδιαφέρουσα τη μεταβολική μοντελοποίηση είναι η δυνατότητα ταυτόχρονης απεικόνισης πολλών αντιδράσεων για να αντιληφθεί κανείς τι επιπτώσεις έχουν στη συγκέντρωση της συγκεκριμένης χημικής ένωσης. Χρησιμοποιώντας ένα σωστά κατασκευασμένο μεταβολικό μοντέλο, μπορείτε να δοκιμάσετε διαφορετικές υποθέσεις σχετικά με τις κυτταρικές συνθήκες και να τελειοποιήσετε το μοντέλο ώστε να προσομοιώσετε τις πειραματικές δοκιμές. Αυτό, με τη σειρά του, μπορεί να προτείνει αξιόπιστες υποθέσεις για την περαιτέρω έρευνα.

Προσεγγίσεις Βιοπληροφορικής

Η έρευνα στη μοριακή βιολογία είναι ένα πεδίο που αναπτύσσεται γρήγορα. Η ποσότητα και ο τύπος των δεδομένων που μπορούν να συγκεντρωθούν είναι εκπληκτικός, και η τάση για αποθήκευση αυτών των δεδομένων σε δημόσιες βάσεις δεδομένων εξαπλώνεται από την αλληλουχία του γονιδιώματος σε όλα τα άλλα είδη βιολογικών δεδομένων. Το τοπίο πληροφόρησης για τους βιολόγους αλλάζει τόσο γρήγορα ώστε συχνά περισσότερες από τις παρεχόμενες πληροφορίες είναι κάπως πίσω από την εποχή.

Ωστόσο, από την έναρξη του Προγράμματος χαρτογράφισης του Ανθρώπινου Γονιδιώματος, προέκυψε ένα βασικό σύνολο υπολογιστικών προσεγγίσεων αναφορικά με τα είδη των δεδομένων που μοιράζονται σήμερα σε δημόσιες βάσεις δεδομένων - αλληλουχία DNA, πρωτεϊνική αλληλουχία και πρωτεϊνική δομή. Παρόλο που οι βάσεις δεδομένων που περιέχουν αποτελέσματα από τις νέες υψηλής απόδοσης μεθόδους μοριακής βιολογίας δεν έχουν ακόμη αυξηθεί στο βαθμό που αυξήθηκαν οι βάσεις δεδομένων των αλληλουχιών, έχουν αρχίσει να εμφανίζονται μέθοδοι για την ανάλυση αυτών των δεδομένων.

Η παρακάτω λίστα παρέχει μια επισκόπηση των βασικών υπολογιστικών μεθόδων:

Χρήση δημόσιων βάσεων δεδομένων και μορφών δεδομένων

Η πρώτη βασική δεξιότητα για τους βιολόγους είναι να μάθουν να χρησιμοποιούν ηλεκτρονικά εργαλεία αναζήτησης για να βρουν πληροφορίες. Η αναζήτηση βιβλιογραφίας δεν είναι πλέον θέμα αναζήτησης αναφορών σε έντυπο ευρετήριο. Μπορείτε να βρείτε συνδέσμους με τις περισσότερες επιστημονικές εκδόσεις που χρειάζεστε online. Υπάρχουν κεντρικές βάσεις δεδομένων που συλλέγουν πληροφορίες αναφοράς, ώστε να μπορείτε να αναζητήσετε δεκάδες περιοδικά ταυτόχρονα. Μπορείτε ακόμη να δημιουργήσετε "πράκτορες" που να σας ενημερώνουν όταν δημοσιεύονται νέα άρθρα σε ένα χώρο ενδιαφέροντος. Η αναζήτηση στις δημόσιες βάσεις δεδομένων μοριακής βιολογίας απαιτεί τις ίδιες δεξιότητες με την αναζήτηση βιβλιογραφικών αναφορών: πρέπει να ξέρετε πώς να κατασκευάσετε ένα ερώτημα.

Στοίχιση αλληλουχίας και αναζήτηση αλληλουχίας

Έχοντας την ικανότητα να αναλυθούν ζεύγη αλληλουχιών DNA ή πρωτεϊνών και να προκύψουν μερικές αντιστοιχίες, είναι πλέον δυνατό να χρησιμοποιηθεί μια βιολογική αλληλουχία ως μια υπό μελέτη βάση δεδομένων. Η αναζήτηση με βάση την αλληλουχία είναι μια άλλη βασική τεχνογνωσία για τους βιολόγους. Μια μικρή έρευνα στις βιολογικές βάσεις δεδομένων στην αρχή ενός επιστημονικού έργου συχνά εξοικονομεί πολύτιμο χρόνο στο εργαστήριο. Η αναγνώριση των ομόλογων αλληλουχιών αποτελεί μια βάση για τη φυλογενετική εξέταση και την αναγνώριση των μοτίβων αλληλουχίας. Η αναζήτηση βάσει αλληλουχίας θα πρέπει να είναι δυνατή μέσω διαδικτυακών πλατφορμών, επομένως δεν απαιτεί εξαιρετικές ικανότητες πληροφορικής, ωστόσο για να κρίνετε την ποιότητα των αποτελεσμάτων αναζήτησης, ή πρέπει να κατανοήσετε πώς λειτουργεί η μέθοδος στοίχισης της αλληλουχίας και πώς να προχωρήσετε πέρα από τα διαφορετικά είδη της περαιτέρω έρευνας.

Πρόβλεψη γονιδίων

Η πρόβλεψη των γονιδίων είναι μόνο μια όμαδα τεχνικών για την αναγνώριση σημαντικών σημάτων σε μη χαρακτηρισμένες αλληλουχίες DNA. Μέχρι τώρα, οι περισσότερες αλληλουχίες που κατατέθηκαν στην GenBank είχαν ήδη χαρακτηριστεί κατά τη στιγμή της εναπόθεσής τους. Δηλαδή, κάποιος είχε εισέλθει στη βάση δεδομένων και χρησιμοποιώντας τη μοριακή βιολογία, τις γενετικές ή τις βιοχημικές προσεγγίσεις, κατανόησε τη λειτουργία του γονιδίου. Παρ’ όλα αυτά, τώρα που όλες οι μελέτες γονιδιώματος εξελίσσονται, υπάρχει μια σειρά αλληλουχιών DNA που δεν χαρακτηρίζονται.

Ο προγραμματισμός για την πρόβλεψη των ανοιχτών πλαισίων ανάγνωσης, των γονιδίων, των θέσεων ματίσματος των εξωνίων, των θέσεων πρόσδεσης του υποκινητή, των επαναλαμβανόμενων αλληλουχιών, και των tRNA γονιδίων επιτρέπει στους ερευνητές να κατανοήσουν αυτό το αχαρτογράφητο DNA.

Στοίχιση πολλαπλών αλληλουχιών

Οι τεχνικές στοίχισης πολλαπλών αλληλουχιών πραγματοποιούν στοιχίση της αλληλουχίας κατά ζεύγη για ορισμένες σχετικές αλληλουχίες και συγκεντρώνουν σε μία εικόνα της ομολογίας αλληλουχίας μεταξύ όλων των “μελών” μιας οικογένειας γονιδίων. Οι στοιχίσεις πολλαπλών αλληλουχιών συμβάλλουν στον εμφανή διαχωρισμό των θέσεων σε μια αλληλουχία DNA ή πρωτεΐνης που μπορεί να είναι λειτουργικά σημαντική. Τέτοιες θέσεις γενικά διατηρούνται, δηλαδή το ίδιο αμινοξύ διατηρείται σε αυτή τη θέση σε καθεμία αλληλουχία από μια ομάδα συγγενών αλληλουχιών. Επίσης, οι στοιχίσεις πολλαπλών αλληλουχιών μπορούν να ποσοτικοποιηθούν για να ληφθούν δεδομένα σχετικά με μια οικογένεια γονιδίων. Αυτή η τεχνική αποτελεί μια σημαντική πρόοδο στη φυλογενετική έρευνα μιας ομάδας συγγενών αλληλουχιών, και επιπλέον παρέχει τη βάση για την ταυτοποίηση μοτίβων αλληλουχιών που περιγράφουν συγκεκριμένες οικογένειες πρωτεϊνών.

Φυλογενετική ανάλυση

Η φυλογενετική ανάλυση προσπαθεί να απεικονίσει την εξελικτική συγγένεια μιας ομάδας αλληλουχιών. Ένα παραδοσιακό φυλογενετικό δέντρο ή κλαδόγραμμα ομαδοποιεί τα είδη σε ένα διάγραμμα που παρουσιάζει τη σχετική εξελικτική ομοιότητα / απόκλιση. Η διακλάδωση του δέντρου που εμφανίζεται από τη ρίζα απομονώνει μεμονωμένα είδη. Οι διακλαδώσεις που εμφανίζονται κοντά στη ρίζα συγκεντρώνουν τα είδη σε βασίλεια, φυλά, τάξεις, οικογένειες, γένη κ.α.

Οι πληροφορίες που λαμβάνουμε κατά τη μοριακή στοίχιση της αλληλουχίας, μπορούν να χρησιμοποιηθούν για τη δημιουργία ενός φυλογενετικού δένδρου για μια συγκεκριμένη οικογένεια αλληλουχιών γονιδίων. Η διακλάδωση στα φυλογενετικά δέντρα αντιπροσωπεύει την εξελικτική απόσταση, η οποία βασίζεται σε βαθμολογίες ομοιότητας της αλληλουχίας ή στην πληροφορική-θεωρητική μοντελοποίηση του αριθμού των μεταλλακτικών βημάτων που απαιτούνται για την αλλαγή μιας αλληλουχίας σε μία άλλη. Οι φυλογενετικές αναλύσεις των οικογενειών πρωτεϊνικών αλληλουχιών δεν αφορούν την εξέλιξη ολόκληρου του οργανισμού, αλλά την εξελικτική αλλαγή σε συγκεκριμένες κωδικοποιούσες περιοχές, παρόλο που η ικανότητά μας να δημιουργούμε ευρύτερα μοντέλα εξέλιξης βασισμένα σε μοριακές πληροφορίες θα επεκταθεί καθώς η γονιδιωματική έρευνα παρέχει περισσότερα δεδομένα για μελέτη.

Εξαγωγή προτύπων και προφίλ από δεδομένα αλληλουχίας

Ένα μοτίβο είναι μια αλληλουχία αμινοξέων που ορίζει μια σημαντική υποδομή σε μια πρωτεΐνη, η οποία μπορεί να συνδεθεί με τη λειτουργία ή με τη δομική της σταθερότητα. Σε μια ομάδα εξελικτικά συγγενών αλληλουχιών γονιδίων, τα μοτίβα εμφανίζονται ως συντηρημένες θέσεις. Οι θέσεις σε μια αλληλουχία γονιδίου τείνουν να διατηρούνται - για να παραμείνουν οι ίδιες σε όλους ή σε περισσότερους εκπροσώπους μιας οικογένειας αλληλουχιών - όταν υπάρχει φυσική επιλογή έναντι των αντιγράφων του γονιδίου που έχουν μεταλλάξεις σε αυτή τη θέση. Τα όχι τόσο απαραίτητα τμήματα της αλληλουχίας γονιδίου θα αποκλίνουν το ένα από το άλλο κατά τη διάρκεια της εξέλιξης, έτσι ώστε οι συντηρημένες περιοχές να εμφανίζονται ως ένα σημάδι σε μια θάλασσα “μεταλλακτικού θορύβου”. Τα προφίλ των αλληλουχιών είναι στατιστικές περιγραφές αυτών των σημάτων. Τα προφίλ μπορούν να βοηθήσουν στον εντοπισμό απομακρυσμένων συγγενικά πρωτεϊνών επιλέγοντας ένα σήμα μοτίβου ακόμη και σε μια αλληλουχία που έχει αποκλίνει ριζικά από άλλα μέλη της ίδιας οικογένειας.

Ανάλυση αλληλουχίας πρωτεϊνών

Το αμινοξικό περιεχόμενο μιας πρωτεϊνικής αλληλουχίας μπορεί να χρησιμοποιηθεί ως βάση για πολλές αναλύσεις, από τον υπολογισμό του ισοηλεκτρικού σημείου και του μοριακού βάρους της πρωτεΐνης, και την χαρακτηριστική αποτύπωση πεπτιδικής μάζας που θα σχηματιστεί όταν γίνει πέψη με μια συγκεκριμένη πρωτεάση, έως την πρόβλεψη των χαρακτηριστικών της δευτερογενούς δομής και των θέσεων μετα-μεταφραστικής τροποποίησης.

Πρόβλεψη πρωτεϊνικής δομής

Είναι πολύ πιο δύσκολο να προσδιοριστεί πειραματικά η δομή μιας πρωτεΐνης από ότι είναι να ληφθούν δεδομένα αλληλουχίας του DNA. Ένας πολύ ενεργός τομέας της βιοπληροφορικής και της έρευνας της υπολογιστικής βιολογίας είναι η ανάπτυξη μεθόδων για την πρόβλεψη της πρωτεϊνικής δομής από την αλληλουχία των πρωτεϊνών. Μέθοδοι όπως η πρόβλεψη δευτερογενούς δομής και η αναγνώριση μοτίβων αναδίπλωσης, μπορούν να βοηθήσουν στον προσδιορισμό του τρόπου με τον οποίο μια πρωτεΐνη μπορεί να αναδιπλώνεται, ταξινομώντας την με άλλες πρωτεΐνες που έχουν παρόμοια τοπολογία, αλλά δεν παρέχουν λεπτομερές δομικό μοντέλο. Η πιο αποτελεσματική και πρακτική μέθοδος για την πρόβλεψη των πρωτεϊνικών δομών είναι η προσομοίωση μέσω ομολογίας χρησιμοποιώντας μια γνωστή δομή ως πρότυπο για να γίνει η προσομοίωση μιας δομής με παρόμοια αλληλουχία. Ελλείψει ομολογίας, δεν υπάρχει τρόπος να προβλεφθεί μια ολοκληρωμένη τρισδιάστατη δομή για μια πρωτεΐνη.

Ανάλυση των ιδιοτήτων της πρωτεϊνικής δομής

Οι πρωτεϊνικές δομές έχουν πολλές ποσοτικές ιδιότητες που είναι σημαντικές για τους κρυσταλλογράφους και τους δομικούς βιολόγους. Οι συσκευές επικύρωσης της πρωτεϊνικής δομής χρησιμοποιούνται από τους κρυσταλλογράφους για να υπολογίσουν πόσο καλά ταιριάζει ένα μοντέλο δομής με τα βοηθητικά πρότυπα που εξαιρούνται από υπάρχουσες δομές ή ενώσεις χημικού μοντέλου. Αυτά τα εργαλεία μπορούν επίσης να εξετάσουν την «καταλληλότητα» κάθε αμινοξέος σε ένα μοντέλο δομής για το περιβάλλον του, καλώντας τέτοιες ιδιαιτερότητες όπως τα κρυμμένα φορτία χωρίς αντιστάθμιση ή μεγάλες περιοχές με υδρόφοβα αμινοξέα που βρίσκονται πάνω στην πρωτεϊνική επιφάνεια. Τα εργαλεία αυτά είναι πολύτιμα για την εκτίμηση τόσο των πειραματικών όσο και των υποθετικών μοντέλων δομής.

Μια άλλη κατηγορία μεθόδων μπορεί να υπολογίσει την εσωτερική γεωμετρία και τις φυσικοχημικές ιδιότητες των πρωτεϊνών. Αυτά τα εργαλεία γενικά χρησιμοποιούνται για τη δημιουργία μοντέλων του καταλυτικού μηχανισμού της πρωτεΐνης ή άλλων χημικών χαρακτηριστικών. Πιθανώς οι πιο συναρπαστικές ιδιότητες των πρωτεϊνικών δομών είναι οι θέσεις των βαθιά κοίλων επιφανειακών σχισμών και των εσωτερικών κοιλοτήτων, και οι δύο από τις οποίες μπορεί να υποδεκνύουν την περιοχή μίας θέσης πρόσδεσης συμπαράγοντα ή ενός ενεργού κέντρου. Διαφορετικά εργαλεία καταγράφουν μοτίβα δεσμών υδρογόνου ή διερευνούν ενδομοριακές αλληλεπιδράσεις. Μία ιδιαιτέρως ενδιαφέρουσα ιδιότητα είναι το δυναμικό ηλεκτροστατικού πεδίου που περιλαμβάνει την πρωτεΐνη και άλλες ηλεκτροστατικά ελεγχόμενες παραμέτρους, για παράδειγμα, pKa μεμονωμένων αμινοξέων, ενεργότητες διαλυτοποίησης των πρωτεϊνών, και σταθερές δέσμευσης.

Στοίχιση πρωτεϊνικής δομής και σύγκριση

Όταν δύο αλληλουχίες γονιδίων δεν είναι εμφανώς ομόλογες, οι πρωτεϊνικές τους δομές που κωδικοποιούν μπορεί να είναι παρόμοιες. Τα νέα μέσα για τον υπολογισμό της δομικής ομοιότητας καθιστούν εφικτή την αναγνώριση απομακρυσμένων ομολογιών μέσω της σύγκρισης των δομών, ακόμη και χωρίς να έχουν μεγάλη ομοιότητα αλληλουχίας. Αυτά τα εργαλεία είναι επίσης χρήσιμα για τη σύγκριση μοντέλων ομολογίας με τις γνωστές πρωτεϊνικές δομές στις οποίες βασίζονται.

Βιοχημική προσομοίωση

Η βιοχημική προσομοίωση χρησιμοποιεί τα εργαλεία των δυναμικών συστημάτων μοντελοποίησης για να μιμηθούν τις χημικές αντιδράσεις που εμπλέκονται στον μεταβολισμό. Οι προσομοιώσεις μπορούν να φθάσουν από τα μεμονωμένα μεταβολικά μονοπάτια μέχρι τη διαδικασία διαμεμβρανικής μεταφοράς, και ακόμη και τις ιδιότητες ολόκληρων κυττάρων ή ιστών. Οι βιοχημικές και κυτταρικές προσομοιώσεις γενικά εξαρτώνται από την ικανότητα του ερευνητή να περιγράψει μαθηματικά ένα σύστημα, δημιουργώντας μία διάταξη διαφορετικών συνθηκών που αντιπροσωπεύουν τις διαφορετικές αντιδράσεις και ροές που συμβαίνουν στο σύστημα. Σε κάθε περίπτωση, τα νέα εργαλεία λογισμικού μπορούν να αναπτύξουν αυτόματα το μαθηματικό πλαίσιο μιας προσομοίωσης από μια περιγραφή που δίνεται διαδραστικά από το χρήστη. Αυτό καθιστά τη μαθηματική μοντελοποίηση προσβάσιμη σε κάθε βιολόγο που ξέρει αρκετά για ένα σύστημα για να το περιγράψει σύμφωνα με τους κανόνες των δυναμικών συστημάτων μοντελοποίησης.

Ανάλυση ολόκληρου του γονιδιώματος

Καθώς όλο και περισσότερα γονιδιώματα υποβάλλονται σε πλήρη ανάλυση, η ανάλυση των δεδομένων του ακατέργαστου γονιδιώματος έχει καταστεί μια πιο σημαντική εργασία. Υπάρχουν διάφορες οπτικές από τις οποίες μπορεί κανείς να δει τα δεδομένα του γονιδιώματος: για παράδειγμα, μπορεί να αντιμετωπιστεί ως μια μεγάλη γραμμική αλληλουχία, αλλά είναι συχνά πιο χρήσιμο να ενσωματωθούν οι πληροφορίες αλληλουχίας DNA με τα υπάρχοντα δεδομένα γενετικού και φυσικού χάρτη. Αυτό σας επιτρέπει να πλοηγηθείτε σε ένα πολύ μεγάλο γονιδίωμα και να βρείτε αυτό που επιθυμείτε. Το Εθνικό Κέντρο Πληροφοριών Βιοτεχνολογίας (NCBI) και άλλοι οργανισμοί καταβάλλουν συντονισμένη προσπάθεια για την παροχή χρήσιμων διαδικτυακών διασυνδέσεων με δεδομένα γονιδιώματος, έτσι ώστε οι χρήστες να μπορούν να ξεκινούν από έναν χάρτη υψηλού επιπέδου και να περιηγούνται στη θέση μιας συγκεκριμένης αλληλουχίας γονιδίου.

Η “πλοήγηση” στο γονιδίωμα απέχει πολύ από το μοναδικό ζήτημα της ανάλυσης της γονιδιωματικής αλληλουχίας. Τα πλαίσια επισημείωσης, τα οποία ενσωματώνουν την αλληλουχία του γονιδιώματος με τα αποτελέσματα της ανάλυσης της εύρεσης γονιδίου και των πληροφοριών ομολογίας της αλληλουχίας, γίνονται όλο και πιο συνηθισμένα, και αρχίζει να αντιμετωπίζεται η πρόκληση να γίνουν και να αναλυθούν οι πλήρεις συγκρίσεις κατά ζεύγη μεταξύ των γονιδιωμάτων.

Σχεδιασμός Εκκινητών

Πολλά πρωτόκολλα μοριακής βιολογίας απαιτούν τον σχεδιασμό ολιγονουκλεοτιδίων εκκινητών. Ο κατάλληλος σχεδιασμός εκκινητών είναι κρίσιμος για την επιτυχία της αλυσωτής αντίδρασης πολυμεράσης (PCR), την υβριδοποίηση των ολιγονουκλεοτιδίων, την αλληλούχηση του DNA και των πειραμάτων μικροσυστοιχίας. Οι εκκινητές πρέπει να υβριδοποιούνται με το DNA-στόχο για να δώσουν μια σαφή απάντηση στο ερώτημα που τίθεται, αλλά πρέπει επίσης να έχουν τις κατάλληλες φυσικοχημικές ιδιότητες. Δεν πρέπει να γίνεται υβριδοποίηση των εκκινητών ή να διμερίζονται, και δεν πρέπει να έχουν πολλαπλούς στόχους εντός της υπό μελέτη αλληλουχίας. Υπάρχουν αρκετές διαδικτυακές υπηρεσίες που επιτρέπουν στους χρήστες να υποβάλλουν μια αλληλουχία DNA και να ανιχνεύουν αυτόματα τους κατάλληλους εκκινητές, ή να υπολογίζουν τις ιδιότητες της αλληλουχίας DNA ενός εκκινητή που επιθυμούν.

Ανάλυση της μικροσυστοιχίας DNA

Η ανάλυση μικροσυστοιχιών DNA είναι μια σχετικά νέα μέθοδος μοριακής βιολογίας που επεκτείνεται στις κλασικές μεθόδους υβριδισμού με ανιχνευτή για να παρέχει πρόσβαση σε χιλιάδες γονίδια ταυτόχρονα. Τα πειράματα μικροσυστοιχιών υποβάλλονται σε υπολογιστική ανάλυση λόγω των ομοιόμορφων, τυποποιημένων αποτελεσμάτων τους - ένα πλέγμα σημείων ίσου μεγέθους, το καθένα από τα οποία μπορεί να αναγνωριστεί από μια συγκεκριμένη αλληλουχία DNA. Απαιτούνται υπολογιστικά εργαλεία για την ανάλυση μεγαλύτερων μικροσυστοιχιών, επειδή οι εικόνες που προκύπτουν είναι τόσο πολύπλοκες οπτικά ώστε η απλή σύγκριση δεν είναι πλέον εφικτή.

Οι βασικές εργασίες στην ανάλυση μικροσυστοιχιών, όπως πραγματοποιούνται αυτή τη στιγμή, είναι ένα βήμα ανάλυσης της εικόνας, στο οποίο αναγνωρίζονται μεμονωμένες κηλίδες (σημεία) στην εικόνα της συστοιχίας και προσδιορίζεται η ένταση του σήματος, και ένα στάδιο ομαδοποίησης, κατά το οποίο εντοπίζονται οι κηλίδες με τις παρόμοιες εντάσεις σήματος. Υπολογιστική υποστήριξη απαιτείται επίσης για τη φάση σχεδιασμού του τσιπ ενός πειράματος μικροσυστοιχιών για τον εντοπισμό των κατάλληλων ολιγονουκλεοτιδικών αλληλουχιών των ανιχνευτών για ένα συγκεκριμένο σύνολο γονιδίων, και για τη διατήρηση μιας καταγραφής της ταυτότητας κάθε κηλίδας σε ένα πλέγμα που μπορεί να περιέχει χιλιάδες μεμονωμένα πειράματα.

Πρωτεωμική ανάλυση

Πριν την κρυσταλλοποίηση και τον βιοχημικό χαρακτηρισμό, οι πρωτεΐνες συχνά αναλύονται χρησιμοποιώντας έναν συνδυασμό ηλεκτροφόρησης σε πηκτή, μερικής αλληλούχισης και φασματοσκοπίας μάζας. Η ηλεκτροφόρηση δυο διαστάσεων σε πηκτή μπορεί να διαχωρίσει ένα μείγμα χιλιάδων πρωτεϊνών σε συγκεκριμένα τμήματα. Οι ζώνες που προκύπτουν μπορούν να αποτυπωθούν ή να κοπούν από το πήκτωμα και να εξεταστούν. Τα απλά υπολογιστικά εργαλεία μπορούν να δώσουν κάποια στοιχεία για να βοηθήσουν στη διαδικασία ανάλυσης των μιγμάτων των πρωτεϊνών. Είναι ευκολότερο να υπολογιστεί το μοριακό βάρος και το ισοηλεκτρικό σημείο (pI) μιας πρωτεϊνικής αλληλουχίας. Με τη χρήση αυτών των τιμών, μπορούν να ταυτοποιηθούν ομάδες πρωτεϊνών για κάθε ζώνη σε ένα πήκτωμα. Είναι επίσης πιθανό να υπολογιστεί, από μια πρωτεϊνική αλληλουχία, το πεπτιδικό αποτύπωμα που προκύπτει όταν αυτή η πρωτεΐνη διασπάται σε θραύσματα από ένζυμα με ειδικές θέσεις πέψης πρωτεϊνών. Οι έρευνες φασματομετρίας μάζας των πρωτεϊνικών θραυσμάτων μπορούν να συγκριθούν με τα επεξεργασμένα πεπτιδικά αποτυπώματα για περαιτέρω περιορισμό της αναζήτησης.

Οι Δημόσιες Βιολογικές Βάσεις Δεδομένων

Το πρόβλημα της ορολογίας στη βιολογία σε μοριακό επίπεδο είναι τεράστιο. Τα γονίδια είναι συνήθως γνωστά με μη συστηματικά ονόματα. Αυτά μπορεί να προέρχονται από μελέτες αναπτυξιακής βιολογίας σε συστήματα μοντέλων, έτσι ώστε ορισμένα γονίδια να έχουν ονόματα όπως flightless, shaker και antennapedia λόγω των αναπτυξιακών επιδράσεων που προκαλούν σε ένα συγκεκριμένο ζώο. Άλλα ονόματα επιλέγονται από τους κυτταρικούς βιολόγους και αντιπροσωπεύουν τη λειτουργία των γονιδίων σε κυτταρικό επίπεδο, όπως το homeobox. Ακόμα, άλλα ονόματα επιλέγονται από βιοχημικούς και δομικούς βιολόγους, και αναφέρονται σε μια πρωτεΐνη που πιθανώς απομονώθηκε και μελετήθηκε πριν βρεθεί το γονίδιο.

Αν και οι πρωτεΐνες αποτελούν άμεσα προϊόντα των γονιδίων, δεν αναφέρονται πάντοτε με τα ίδια ονόματα ή τους ίδιους κωδικούς με τα γονίδια που τα κωδικοποιούν. Αυτό το είδος σύγχυσης της ορολογίας σημαίνει γενικά ότι μόνο ένας επιστήμονας που διερευνά ένα συγκεκριμένο γονίδιο, γονιδιακό προϊόν ή τη βιοχημική διαδικασία, μπορεί να αναγνωρίσει αμέσως σε τι αναφέρεται η κοινή ονομασία του γονιδίου. Η βιοχημεία ενός οργανισμού είναι ένα πιο πολύπλοκο σύνολο πληροφοριών σε σχέση με την ταξινόμηση των ζωντανών ειδών την εποχή του Λινναίου, γι’ αυτό δεν αναμένεται εύκολα ένα σαφές και περιεκτικό σύστημα ονοματολογίας. Υπάρχουν πολλά στοιχεία που πρέπει να γνωρίζουμε για ένα συγκεκριμένο γονίδιο: τον οργανισμό προέλευσης, τη θέση του στο χρωμόσωμα, και τη θέση των αλληλουχιών ενεργοποίησης και την ταυτοποίηση των ρυθμιστικών πρωτεϊνών που το ενεργοποιούν και το αποσιωπούν. Τα γονίδια μπορούν επίσης να κατηγοριοποιηθούν από το χρόνο ενεργοποίησής τους κατά τη διάρκεια της ανάπτυξης του οργανισμού, και σε ποιούς ιστούς εκφράζονται. Επίσης, μπορούν να κατηγοριοποιηθούν βάσει της λειτουργίας του προϊόντος τους, είτε είναι μια δομική πρωτεΐνη, ένα ένζυμο ή ένα λειτουργικό RNA. Μπορούν να κατηγοριοποιηθούν βάσει της “ταυτότητας” του μεταβολικού μονοπατιού στο οποίο συμμετέχει το προϊόν τους, και βάσει του υποστρώματος που τροποποιεί ή του προϊόντος που παράγει. Μπορούν να κατηγοριοποιηθούν βάσει της δομής των πρωτεϊνικών τους προϊόντων. Είναι σαφές ότι πρόκειται για πληθώρα πληροφοριών που πρέπει να συμπεριληφθούν για να προκύψει μια λογική ονοματολογία. Η Εικόνα 5 δείχνει ένα τμήμα της πληροφορίας που μπορεί να σχετίζεται με ένα μόνο γονίδιο.

Εικόνα 5. Πληροφορίες που σχετίζονται με ένα μόνο γονίδιο

Εικόνα 5. Πληροφορίες που σχετίζονται με ένα μόνο γονίδιο

Το ζήτημα για τους προγραμματιστές των βιολογικών βάσεων δεδομένων αποδεικνύεται ως επί το πλείστον ότι είναι η επισημείωση (σχολιασμός). Δηλαδή, η καταχώρηση στην βάση δεδομένων με επαρκή δεδομένα ώστε να μην υπάρχουν αμφιβολίες για το γονίδιο, ανεξάρτητα από το αν έχει ένα κωδικοποιημένο κοινό όνομα, και η δημιουργία της καλύτερης δυνατής σύνδεσης μεταξύ αυτών των δεδομένων και της αλληλουχίας γονιδίου και του σειριακού αριθμού. Ο σωστός σχολιασμός των γονιδιωματικών δεδομένων είναι ένας τομέας δυναμικής έρευνας, διότι οι επιστήμονες προσπαθούν να ανακαλύψουν προσεγγίσεις για την διασταυρούμενη ανταλλαγή δεδομένων με γονιδιώματα χωρίς σφάλμα. Η αποθήκευση μακρομοριακών πληροφοριών σε ηλεκτρονικές βάσεις δεδομένων έχει συμβάλλει στην εξέλιξη μιας μεθόδου για την επεξεργασία του ζητήματος της ταξινόμησης. Η λύση ήταν να δωθεί σε κάθε νέα καταχώρηση στη βάση δεδομένων ένας σειριακός αριθμός και στη συνέχεια να αποθηκευθεί σε μια σχετική βάση δεδομένων που γνωρίζει τις σωστές συνδέσεις μεταξύ αυτού του σειριακού αριθμού, οποιουδήποτε αριθμού των ονομάτων για το γονίδιο ή το γονιδιακό προϊόν που κωδικοποιεί, και με κάθε άλλη πληροφορία σχετικά με το γονίδιο. Αυτή η τεχνική είναι αυτή που χρησιμοποιείται σήμερα στις μεγάλες βιολογικές βάσεις δεδομένων.

Οι βάσεις δεδομένων για την επίλυση ερωτημάτων είναι ουσιαστικά τα ίδια ερωτήματα που προκύπτουν κατά την ανάπτυξη μιας ονοματολογίας (ορολογίας). Ωστόσο, χρησιμοποιώντας σχετικές βάσεις δεδομένων και πολύπλοκες στρατηγικές αναζήτησης, αποφεύγουν να βρουν έναν συνοπτικό τρόπο για τους επιστήμονες να γνωστοποιούν την ταυτότητα των γονιδίων σε μη ψηφιακό επίπεδο.

Επισημείωση δεδομένων και μορφές δεδομένων

Η παρουσίαση και η διανομή των βιολογικών δεδομένων εξακολουθεί να αποτελεί πρόβλημα στη βιοπληροφορική. Οι νουκλεοτιδικές αλληλουχίες του DNA και του RNA, και οι αμινοξικές αλληλουχίες των πρωτεϊνών περιορίζονται προσεκτικά σε σειρές χαρακτήρων στις οποίες ένα μόνο γράμμα αντιπροσωπεύει ένα μόνο νουκλεοτίδιο ή αμινοξύ. Οι εναπομείνασες προκλήσεις στην αναπαράσταση των δεδομένων αλληλουχίας είναι η επαλήθευση της ορθότητας των δεδομένων, η λεπτομερής επισημείωση των δεδομένων, και ο χειρισμός των δεδομένων που έρχονται σε όλο και μεγαλύτερα τμήματα, όπως οι αλληλουχίες των χρωμοσωμάτων και τα ολόκληρα γονιδιώματα.

Η τυπικά συμπυκνωμένη αναπαράσταση της τρισδιάστατης δομής του βιομορίου αποτελείται από τις καρτεσιανές συντεταγμένες των ατόμων στο μόριο. Αυτή η άποψη της αναπαράστασης του μορίου είναι απλή. Από την άλλη πλευρά, υπάρχουν πολλά σύνθετα ζητήματα για τις δομικές βάσεις δεδομένων που δεν έχουν επιλυθεί πλήρως. Η επισημείωση εξακολουθεί να είναι ένα ζήτημα για τα δομικά δεδομένα, αν και η κοινότητα της βιολογίας προσπάθησε να διαμορφώσει μια κοινή άποψη ως προς το ποια επισημείωση μιας δομής απαιτείται σήμερα. Τα τελευταία 15 χρόνια, διάφοροι ερευνητές έχουν αναπτύξει το δικό τους στυλ και μορφές για την αναφορά βιολογικών δεδομένων. Οι βάσεις δεδομένων που αφορούν τη βιολογική αλληλουχία και τη δομή αναπτύχθηκαν παράλληλα στις Ηνωμένες Πολιτείες και στην Ευρώπη. Η χρήση του ιδιωτικού λογισμικού για την ανάλυση δεδομένων συνέβαλε στη σύνθεση ενός συνόλου ιδιωτικών μορφών δεδομένων. Παρόλο που υπάρχουν πολλές εξειδικευμένες βάσεις δεδομένων, εδώ εστιάζουμε στους τομείς στους οποίους καταβάλλεται προσπάθεια να διατηρηθεί μια ολοκληρωμένη βάση δεδομένων για μια ολόκληρη κατηγορία δεδομένων.

Δεδομένα τρισδιάστατης Μοριακής Δομής

Αν και η αλληλουχία του DNA, η πρωτεϊνική αλληλουχία και η δομή της πρωτεΐνης είναι κατά κάποιον τρόπο απλώς διαφορετικοί τρόποι αντιπροσώπευσης του ίδιου γονιδιακού προϊόντος, οι συγκεκριμένοι τύποι δεδομένων διατηρούνται επί του παρόντος ως ξεχωριστές μελέτες βάσεων δεδομένων και σε μη συνδεδεμένες μορφές δεδομένων. Αυτό συμβαίνει κυρίως επειδή οι μέθοδοι προσδιορισμού της αλληλουχίας και της δομής έχουν ξεχωριστές ιστορίες ανάπτυξης.

Η πρώτη δημόσια βάση δεδομένων μοριακής βιολογίας, που δημιουργήθηκε περίπου 10 χρόνια πριν από τις δημόσιες βάσεις δεδομένων αλληλουχιών DNA, ήταν η Τράπεζα Πρωτεϊνικών Δεδομένων (PDB). Αντιπροσωπεύει τη κεντρική διαδικτυακή βάση δεδομένων των κρυσταλλικών δομών με ακτίνες Χ των πρωτεϊνικών μορίων. Ενώ η πρώτη ολοκληρωμένη πρωτεϊνική δομή παρουσιάστηκε στη δεκαετία του 1950, δεν υπήρχε αξιοσημείωτος αριθμός προσβάσιμων πρωτεϊνικών δομών μέχρι τα τέλη της δεκαετίας του '70. Οι υπολογιστές δεν είχαν δημιουργηθεί μέχρι το σημείο όπου ήταν δυνατή η γραφική αναπαράσταση των πληροφοριών πρωτεϊνικής δομής, τουλάχιστον σε χρήσιμες ταχύτητες. Ωστόσο, το 1971, η PDB δημιουργήθηκε στο Εθνικό Εργαστήριο του Brookhaven, για να αποθηκεύσει τις πληροφορίες σχετικά με την δομή των πρωτεϊνών σε ένα ηλεκτρονικό αρχείο. Δημιουργήθηκε μια μορφή δεδομένων, η οποία οφείλει πολλά χαρακτηριστικά της στη πρώιμη τεχνολογία των υπολογιστών. Η PDB αναπτύχθηκε κατά τη δεκαετία του 1980. Ξεκινώντας από 15 ομάδες καταχωρήσεων το 1973, αυξήθηκαν σε 69 καταχωρήσεις το 1976. Ο αριθμός των συνόλων που κατατίθενται κάθε χρόνο παρέμεινε κάτω από 100 έως το 1988, οπότε υπήρχαν ακόμη λιγότερες από 400 καταχωρήσεις στην PDB.

Κοντά στο 1988 και το 1992, η PDB πέτυχε το σημείο καμπής στην εκθετική καμπύλη ανάπτυξής της. Μέχρι τον Ιανουάριο του 1994, στην PDB υπήρχαν 2.143 καταχωρήσεις, και αυτή τη στιγμή η PDB έχει περισσότερες από 14.000 βιολογικές δομές μακρομορίων. Το 1988 υπεύθυνη για τη διαχείρηση της PDB έγινε η Research Collaboratory for Structural Bioinformatics (RCSB), μια βάση κρυσταλλογραφικών δεδομένων των πρωτεϊνών, και έχει εισαχθεί ένα νέο αρχείο για την καταγραφή των κρυσταλλογραφικών δεδομένων, το Κρυσταλλογραφικό Αρχείο Πληροφοριών των Μακρομορίων (mmCIF) για την αντικατάσταση του παλαιού αρχείου PDB. Τα περιοδικά που δημοσιεύουν κρυσταλλογραφικά αποτελέσματα απαιτούν υποβολή στην PDB ως προϋπόθεση δημοσίευσης, πράγμα που σημαίνει ότι σχεδόν όλα τα δεδομένα για τις πρωτεϊνικές δομές που λαμβάνονται από ακαδημαϊκούς ερευνητές καθίστανται διαθέσιμα στην PDB.

Ένα τυπικό ζήτημα για τη διερεύνηση της πρωτεϊνικής δομής είναι η περίσσεια και η απουσία επιμέλειας της PDB. Υπάρχουν πολλές πρωτεΐνες για τις οποίες έχουν υποβληθεί διάφορες κρυσταλλικές δομές στη βάση δεδομένων. Η επιλογή υποσυνόλων των πληροφοριών της PDB για διερεύνηση, αποτελεί ένα κρίσιμο βήμα σε οποιαδήποτε στατιστική έρευνα στην πρωτεϊνική δομή. Πολλές στατιστικές μελέτες της πρωτεϊνικής δομής εξαρτώνται από σύνολα πρωτεϊνικών αλυσίδων οι οποίες έχουν κοινές αλληλουχίες κοντά στο 25% της αλληλουχίας τους. Εάν αυτό το παράδειγμα χρησιμοποιηθεί, υπάρχουν ακόμα περίπου 1.000 μοναδικές αναδιπλώσεις πρωτεϊνών που απεικονίζονται στην PDB. Καθώς έχει αυξηθεί η ποσότητα των διαθέσιμων δεδομένων βιολογικής αλληλουχίας, η PDB τώρα παραμένει πίσω από τις βάσεις δεδομένων της αλληλουχίας γονιδίου.

Δεδομένα DNA, RNA και πρωτεϊνικής αλληλουχίας

Οι βάσεις δεδομένων αλληλουχίας γενικά ειδικεύονται σε έναν τύπο δεδομένων αλληλουχίας: DNA, RNA ή πρωτεΐνη. Υπάρχουν σημαντικές συλλογές δεδομένων και περιοχές εναπόθεσης σε Ευρώπη, Ιαπωνία και Ηνωμένες Πολιτείες, και υπάρχουν ανεξάρτητες ομάδες που αντικατοπτρίζουν όλα τα δεδομένα που συλλέγονται στις μεγάλες δημόσιες βάσεις δεδομένων, προσφέροντας συχνά κάποιο λογισμικό βαθμονόμησης που αξιολογεί τα δεδομένα.

Το 1970, ο Ray Wu αλληλούχισε το πρώτο τμήμα του DNA. Προέκυψαν δώδεκα βάσεις ως ένας μονός κλώνος στο τέλος ενός κυκλικού DNA το οποίο “κόπηκε” χρησιμοποιώντας ένα πρωτεολυτικό ένζυμο. Σε κάθε περίπτωση, η αλληλούχιση του DNA είναι σημαντικά πιο απαιτητική από την αλληλούχιση των πρωτεϊνών, με το σκεπτικό ότι δεν υπάρχει καμία χημική διεργασία που να διασπά επιλεκτικά το πρώτο νουκλεοτίδιο από μια αλυσίδα νουκλεϊκού οξέος. Όταν ο Robert Holley ανακοίνωσε την αλληλούχιση ενός μορίου RNA 76 νουκλεοτιδίων από το ζυμομύκητα, ακολούθησαν επτά χρόνια μελέτης. Μετά την δημοσίευση της αλληλουχίας του Holley, διάφορες ομάδες επεξεργάστηκαν τα πρωτόκολλα αλληλούχισης, επιτυγχάνοντας ακόμη και την αλληλούχιση γονιδιώματος 3.200 βάσεων ενός βακτηριοφάγου. Σημαντική πρόοδος για την αλληλούχιση του DNA επήλθε μετά το 1975, με τη μέθοδο χημικής διάσπασης που δημιουργήθηκε από τους Allan Maxam και Walter Gilbert, και με τη μέθοδο τερματισμού αλυσίδας για τον προσδιορισμό αλληλουχίας DNA που είναι γνωστή ως «μέθοδος Σάνγκερ» του Frederick Sanger.

Η πρώτη βάση δεδομένων αλληλουχίας DNA, που δημιουργήθηκε το 1979, ήταν η Gene Sequence Database (GSDB) στο Los Alamos National Lab. Ενώ η GSDB έχει αντικατασταθεί από την παγκόσμια συνεργασία που είναι η σύγχρονη GenBank, ενημερωμένες πληροφορίες γονιδιακής αλληλουχίας εξακολουθούν να είναι διαθέσιμες από την GSDB μέσω του National Center for Genome Resources.

Το Ευρωπαϊκό Εργαστήριο Μοριακής Βιολογίας (EMBL), η Τράπεζα Δεδομένων DNA της Ιαπωνίας, και τα Εθνικά Ινστιτούτα Υγείας (NIH) συνεργάζονται για να γίνουν όλα τα δεδομένα αλληλουχίας με ελεύθερη πρόσβαση μέσω της GenBank. Το NCBI έχει δημιουργήσει μια τυπική μορφή σχετικής βάσης δεδομένων για την παρουσίαση και την αποθήκευση των πληροφοριών αλληλουχίας, γνωστή ως ASN.1. Παρόλο που αυτή η μορφή εγγυάται τον απλούστερο εντοπισμό των σωστών αλληλουχιών του σωστού είδους στην GenBank, υπάρχουν διάφορες υπηρεσίες που παρέχουν πρόσβαση σε μη επαναλαμβανόμενες εκδόσεις της βάσης δεδομένων. Η βάση δεδομένων αλληλουχιών DNA αναπτύχθηκε σταδιακά κατά την πρώτη δεκαετία. Το 1992, η GenBank περιείχε μόλις 78.000 ακολουθίες DNA - λίγο περισσότερο από 100 εκατομμύρια ζεύγη DNA. Το 1995, το Πρόγραμμα χαρτογράφισης του Ανθρώπινου Γονιδιώματος και η πρόοδος στην διαδικασία της αλληλούχισης, συνέβαλλαν στην ταχύτερη εξέλιξη της GenBank. Η GenBank σήμερα διπλασιάζεται σε μέγεθος κάθε 6 έως 8 μήνες και ο ρυθμός αύξησής της αυξάνεται διαρκώς.

Γονιδιωματικά δεδομένα

Εκτός από το Πρόγραμμα χαρτογράφισης του Ανθρώπινου Γονιδιώματος, υπάρχουν τώρα ξεχωριστές βάσεις δεδομένων του γονιδιώματος για μεγάλο αριθμό οργανισμών μοντέλων. Το περιεχόμενο της αλληλουχίας των βάσεων δεδομένων του γονιδιώματος εκπροσωπείται στη GenBank, αλλά οι θέσεις του προγράμματος γονιδιώματος παρέχουν επίσης οτιδήποτε από χάρτες γονιδιώματος έως συμπληρωματικούς πηγές για τους ερευνητές που εργάζονται σε αυτόν τον οργανισμό. Από τον Οκτώβριο του 2000, η βάση δεδομένων Entrez Genome του NCBI περιείχε τα μερικά ή πλήρη γονιδιώματα για πάνω από 900 είδη. Πολλά εκ των οποίων είναι ιοί. Τα υπόλοιπα περιλαμβάνουν βακτήρια, αρχαία, ζύμες, κοινώς μελετημένα συστήματα φυτικών μοντέλων όπως το Α. thaliana, το ρύζι και ο αραβόσιτος, συστήματα ζωικών μοντέλων όπως το C. elegans, οι μύγες φρούτων, τα ποντίκια, οι αρουραίοι και τα διαβολόψαρα, καθώς και τα γονιδιώματα των οργανιδίων. Τα ηλεκτρονικά εργαλεία λογισμικού του NCBI για την πρόσβαση σε αυτές τις βάσεις δεδομένων εξελίσσονται συνεχώς και γίνονται πιο εξελιγμένα.

Δεδομένα για Βιοχημικά Μονοπάτια

Οι πιο σημαντικές βιολογικές δραστηριότητες δεν πραγματοποιούνται με τη δράση ενός μόνο μορίου, αλλά ως ενορχηστρωμένες διεργασίες πολλαπλών μορίων. Από τα μέσα του εικοστού αιώνα, οι βιοχημικοί έχουν αναλύσει αυτά τα λειτουργικά σύνολα ενζύμων και των υποστρωμάτων τους. Ορισμένες ερευνητικές ομάδες έχουν αρχίσει να εργάζονται για την οργάνωση και αποθήκευση αυτών των μονοπατιών σε βάσεις δεδομένων. Βασικό παράδειγμα βάσης δεδομένων βιοχημικών μονοπατιών είναι η KEGG. Η Kyoto Encyclopedia of Genes and Genomes (KEGG) αποθηκεύει συγκριτικές πληροφορίες σχετικά με τις βάσεις δεδομένων αλληλουχίας, δομής και γενετικής σύνδεσης. Αυτή η βάση δεδομένων διερευνάται μέσω διεπαφών ιστού, και επιμελείται από ένα συνδυασμό αυτοματοποίησης και ανθρώπινης τεχνογνωσίας. Εκτός από αυτούς τους "καταλόγους" ολόκληρου του γονιδιώματος, έχουν αναπτυχθεί και άλλες πιο εξειδικευμένες βάσεις δεδομένων που επικεντρώνονται σε συγκεκριμένα μονοπάτια (όπως, η ενδοκυτταρική σηματοδότηση ή η αποικοδόμιση χημικών ενώσεων από μικρόβια).

Δεδομένα Γονιδιακής Έκφρασης

Οι μικροσυστοιχίες DNA (ή, γονιδιακό ή γενωμικό τσιπ) αποτελούν “μικροσκοπικά εργαστήρια” για τη μελέτη της γονιδιακής έκφρασης. Κάθε τσιπ περιέχει μια ειδικά σχεδιασμένη σειρά από μόρια ανιχνευτές που μπορούν να υβριδοποιήσουν συγκεκριμένα τμήματα DNA ή mRNA. Η σήμανση του DNA ή του RNA με φθορίζοντα μόρια επιτρέπει την ποσοτικοποίηση του επιπέδου έκφρασης οποιουδήποτε γονιδίου σε ένα κυτταρικό παρασκεύασμα. Οι μικροσυστοιχίες έχουν επίσης άλλες εφαρμογές στη μοριακή βιολογία, αλλά η χρήση τους για τη μελέτη της γονιδιακής έκφρασης έχει οδηγήσει σε έναν νέο τρόπο καταγραφής των λειτουργιών του γονιδιώματος.

Από την πρόοδο της τεχνολογίας των μικροσυστοιχιών DNA στα τέλη της δεκαετίας του 1990, έχει αποδειχθεί ότι η αύξηση των διαθέσιμων δεδομένων γονιδιακής έκφρασης τελικά θα ακολουθήσει την ανάπτυξη των βάσεων δεδομένων της αλληλουχίας και της δομής. Οι ακατέργαστες πληροφορίες μικροσυστοιχιών έχουν αρχίσει να καθίστανται προσβάσιμες στο γενικό κοινό σε συγκεκριμένες βάσεις δεδομένων, και ολοκληρώθηκε η δημιουργία ενός κεντρικού χώρου αποθήκευσης δεδομένων για τέτοια δεδομένα (Gene Expression Omnibus).

Δεδομένου ότι ένας σημαντικός αριθμός των πρώιμων πειραμάτων μικροσυστοιχίας πραγματοποιήθηκαν στο Stanford, ο ιστότοπός τους με βάσεις δεδομένων του γονιδιώματος έχει συνδέσεις με τις πρώτες πληροφορίες και τις βάσεις δεδομένων που μπορούν να αναζητηθούν χρησιμοποιώντας ονόματα γονιδίων ή περιγραφές της λειτουργίας τους. Επιπλέον, το Ευρωπαϊκό Ινστιτούτο Βιοπληροφορικής έχει συμβάλει αποφασιστικά στη θέσπιση προτύπων για την εναπόθεση δεδομένων μικροσυστοιχίας σε βάσεις δεδομένων. Υπάρχουν αρκετές βάσεις δεδομένων για την εναπόθεση αποτελεσμάτων ηλεκτροφόρησης 2D σε πηκτή, συμπεριλαμβανομένων των SWISS-2DPAGE και HSC-2DPAGE. Η 2D-PAGE είναι μια καινοτομία που επιτρέπει την ποσοτική διερεύνηση των συγκεντρώσεων των πρωτεϊνών στο κύτταρο, για πολλές πρωτεΐνες την ίδια στιγμή. Ο συνδυασμός αυτών των δύο συστημάτων είναι ένα σημαντικό εργαλείο για την κατανόηση του τρόπου λειτουργίας των γονιδιωμάτων.

Ο Πίνακας 1 συνοψίζει τις πηγές στον Ιστό για ορισμένες από τις σημαντικότερες βάσεις δεδομένων που έχουμε συζητήσει σε αυτή την ενότητα.

Πίνακας 1. Σημαντικά Βιολογικά Δεδομένα και Πηγές Πληροφοριών

Θέμα Βάση Δεδομένων Σύνδεσμος
Βιοϊατρική βιβλιογραφία PubMed http://www.ncbi.nlm.nih.gov/entrez/query.fcgi
Νουκλεοτιδική αλληλουχία GenBank http://www.ncbi.nlm.nih.gov:80/entrez/query.fcgi?db=Nucleotide
SRS at EMBL/EBI http://srs.ebi.ac.uk
Αλληλουχία του γονιδιώματος Entrez Genome http://www.ncbi.nlm.nih.gov:80/entrez/query.fcgi?db=Genome
TIGR databases http://www.tigr.org/tdb/
Πρωτεϊνική αλληλουχία GenBank http://www.ncbi.nlm.nih.gov:80/entrez/query.fcgi?db=Protein
SWISS-PROT at ExPASy http://www.expasy.ch/spro/
PIR http://www-nbrf.georgetown.edu
Πρωτεϊνική δομή Protein Data Bank http://www.rcsb.org/pdb/
Entrez Structure DB Protein and peptide mass spectroscopy PROWL http://prowl.rockefeller.edu
Μετα-μεταφραστικές τροποποιήσεις RESID http://www-nbrf.georgetown.edu/pirwww/search/textresid.html
Βιοχημικές και βιοφυσικές πληροφορίες ENZYME http://www.expasy.ch/enzyme/
BIND http://www.ncbi.nlm.nih.gov:80/entrez/query.fcgi?db=Structure
Βιοχημικά μονοπάτια PathDB http://www.ncgr.org/software/pathdb/
KEGG http://www.genome.ad.jp/kegg/
WIT http://wit.mcs.anl.gov/WIT2/
Μικροσυστοιχίες Gene Expression Links http://industry.ebi.ac.uk/\~alan/MicroArray/
2D-PAGE SWISS-2DPAGE http://www.expasy.ch/ch2d/ch2d-top.html
Διαδικτυακές πηγές The EBI Biocatalog http://www.ebi.ac.uk/biocat/
IUBio Archive http://iubio.bio.indiana.edu

Funding

Disclaimer

The European Commission support for the production of this publication does not constitute endorsement of the contents which reflects the views only of the authors, and the Commission cannot be held responsi-ble for any use which may be made of the information contained therein.