LO1: Биология, биологични бази данни и високо ефективни източници на данни

  1. Биология в ерата на компютрите
  2. Как компютрите променят представите за биологията?
  3. Биоинформатика и създаване на бази данни
  4. Информатика и биология
  5. Какви умения трябва да притежават биоинформатиците?
  6. Биолозите и компютрите
  7. Използване на уеб-информация
  8. Интерпретиране на данни от сравняване на секвенции
  9. Предсказване на белтъчната структура въз основа на аминокиселинна последователност
  10. Въпроси, на които биоинформатиката може да отговори
  11. Компютърни подходи към биологични въпроси
  12. Централна "догма" на молекулярната биология
  13. ДНК репликация
    1. Геноми и гени
    2. ДНК транскрипция
    3. Транслация на иРНК
  14. Молекулярна еволюция
  15. Биологични модели
    1. Получаване на 3D молекулни модели чрез 1D представяне
    2. Абстракции при моделиране на белтъчната структура
    3. Математическо моделиране на биохимични системи
  16. Биоинформационни подходи
    1. Използване на публични база данни и различните формати от данни
    2. Търсене и сравняване на секвенции
    3. Откриване на гени
    4. Сравняване на множество ДНК и белтъчни последователности
    5. Филогенетичен анализ
    6. Определяне на мотиви и профили от секвенционни данни
    7. Белтъчно секвениране
    8. Моделиране на вторична структура на белтъци
    9. Структурно характеризиране на белтъците
    10. Подравняване и сравняване на белтъчни структури
    11. Биохимично симулиране
    12. Анализ на целия геном
    13. Дизайн на праймери
    14. ДНК микроарей анализ
    15. Протеомен анализ
  17. Публични биологични бази данни
    1. Анотация и формати от данни
    2. 3D структурно-молекулни данни
    3. ДНК, РНК и белтъчни секвенционни данни
    4. Геномни данни
    5. Данни за биохимични пътища
    6. Данни за генната експресия

Биология в ерата на компютрите

Биоинформатиката е наука, обединяваща използването на компютърни и биологични данни. Тя е инструмент, който ни позволява да разберем биологичните процеси и да си отговорим на множество други въпроси. Строго погледнато, биоинформатиката е част на по-голямата област на изчислителната биология, която прилага количествени аналитични техники за моделиране на биологични системи. За работа в областта на биоинформатиката изключително се разчита на познания по статистически анализ и разпознаване на модели. Изследователите, които ползват биоинформатичните подходи работят в различни области на науката, включително математика, компютърни науки, и лингвистика. За съжаление, биологията е наука, която е пълна с капани за тези, които търсят модели и правят прогнози, без напълно да разбират биологичните данни и тяхното значение. Чрез предоставяне на алгоритми, бази данни, потребителски интерфейси, и статистически инструменти, биоинформатиката прави възможно осъществяването на различни ценни изследвания, като например сравнение на ДНК секвенции и генериране на резултати, които са потенциално значими. "Потенциално значими" е може би най-важната фраза. Тези инструменти дават възможност наново да се интерпретират вече получени данни и да се установи тяхната значимост само тогава когато, тя наистина съществува. Разбира се, не можем да преувеличаваме значението на биоинформатиката, тъй като тя, като всяка наука, има своите ограничения. Но след като един изследовател стане интелигентен потребител на биоинформатичните методи, скоростта, с която неговите изследвания могат да прогресират може да бъде наистина невероятна. Биоинформатика основно се занимава с всякакъв вид данни, които са от интерес за биолози:

  • ДНК и белтъчни последователности
  • генна експресия (микроарей)
  • бази данни за научни статии и цитати
  • изображения
  • необработените данни, събрани от всякакъв вид научни изследвания
  • софтуер.

Как компютрите променят представите за биологията?

Наследствената и функционална информация за даден организъм се съхранява в ДНК, РНК и белтъчните молекули, всяка от които е линейна верига, съставени от мономерни единици. Тези макромолекули са изградени от добре познати химични съединения: ДНК се състои от четири дезоксирибонуклеотида (аденин, тимин, цитозин и гуанин), РНК е съставена от четирите рибонуклеотиди (аденин, урацил, цитозин и гуанин), а белтъците са изградени от 20 аминокиселини. Тъй като тези макромолекули са линейни вериги от определени мономерни компоненти, те могат да бъдат представени като последователност от символи. Това символно означаване позволява тяхното сравняване и намиране на сходства по форма или функция. Изследването на последователности е един от най-полезните компютърни инструменти за молекулярните биолози. Създаването на Световната информационна мрежа (Интернет) позволи сравняването на дадена структура с данните от генома на различни биологични обекти чрез използването на един и същ интерфейс. Често затова се използва компютърна програма, наречена BLAST, с помощта на която може да се сравни непозната ДНК последователност с всички публично налични ДНК секвенции.

Биоинформатика и създаване на бази данни

Голяма част от това, което в момента се възприема като част от биоинформатиката – сравняване на нуклеинови и аминокиселинни последователности, търсене на гени в база данни, анализ на секвенции – е доста по-сложно, отколкото е проектирането на база данни. Работата на биоинформатиците (или изчислителните биолози) надхвърля обикновеното управление и представяне на данни, черпейки вдъхновение от широк спектър от точни науки, включително статистика, физика, компютърни и инженерни науки. Фигура 1 показва как различните технологии се пресичат с биологията на всяко едно ниво, от анализа на секвенционните данни и белтъчните структури, до метаболитното моделиране, количествения анализ на популациите и екологията.

Фигура 1. Взаимодействие на различните технологии с биологията

Фигура 1. Взаимодействие на различните технологии с биологията

Биоинформатиката е важен компонент на биологичните науки. Нейната основна цел е да създаде най-подходящите алгоритми или да извършва най-пълните анализи, които да спомогнат при установяването на това как функционират живите системи. Подобно на молекулярно-биологичните методи, които значително разширяват кръгозора на биолозите, биоинформатиката е инструмент, а не самоцел. Биоинформатиците са създателите на тези подходи и затова е много важно както те да разбират биологичните проблеми, така и да имат математически познания. Научните изследвания в областта на биоинформатиката и изчислителната биология обхващат всичко - от описване на свойствата на биологичната система в математически или физически модел, с прилагането на нови алгоритми за анализ на данни, до развитието на бази данни и уеб инструменти за достъп до тях.

Информатика и биология

Науката информатика се занимава с представянето, организацията, управлението, разпространението, поддръжката и използването на информация, представена в цифрова форма. Биоинформатика от своя страна извършва представяне, съхранение и разпространение на биологични данни. Подходящият дизайн на формата от данни и самите бази данни, създаването на инструменти за търсене из тези бази данни, както и разработването на потребителски интерфейси, които обединяват различните инструменти, позволява на потребителя да задава и решава сложни въпроси във всички аспекти на развитието на инфраструктурата на биоинформатиката.

Разработването на аналитични инструменти, откриващи информация в наличните данни, е вторият, и по-научен аспект на биоинформатиката. Има много нива, на които може да бъде използвана биологичната информация: сравняване на последователности с цел да се създаде хипотеза за функцията на новооткрит ген, изследване на известни 3D белтъчни структури с цел създаване на модели за нагъване на белтъчните молекули, или анализиране на взаимодействията между белтъци и метаболити в клетка с цел тяхното функционално охарактеризиране. Крайната цел на аналитичните биоинформатици е да разработят прогностични методи, които позволяват на учените да моделират функцията и фенотипа на даден организъм само въз основа на познанията върху генома.

Какви умения трябва да притежават биоинформатиците?

Има широк спектър от умения, които са полезни, ако проявявате интерес към биоинформатиката, но научаването на всички тях е невъзможно. Въпреки това, могат да се подчертаят следните "основни изисквания" за един биоинформатик:

  • Той трябва да има доста задълбочени познания в областта на биологията. Те могат да бъдат по биохимия, молекулярна биология, молекулярна биофизика, или дори молекулно моделиране.
  • Биоинформатикът трябва на всяка цена да е наясно с централната догма на молекулярната биология. Разбирането за това как и защо ДНК се транскрибира в РНК, а последната се транслира в белтък е от особено значение.
  • Биоинформатикът трябва да има значителен опит с най-малко един или два основни молекулярно-биологични софтуерни пакета, или такива за анализ на секвенции или молекулно моделиране. Изучаването на един от тези пакети прави много по-лесно разбирането и използването на други подобни софтуера.
  • Трябва да може да работи в интерфейс с команден ред (текстов интерфейс).
  • Плюс е, ако има опит с програмиране на компютърен език, такъв като C / C + + („си-плюс-плюс“), както и в скриптов език като Perl или Python.

Биолозите и компютрите

Компютрите са мощни инструменти, спомагащи за изучаването на всяка система, която може да бъде описана математически. Тъй като нашето разбиране на биологичните процеси се разраства и задълбочава, не е изненадващо, че изчислителната биология, и по-специално, биоинформатиката, е създадена от пресечната точка на класическата биология, математиката и компютърните науки.

Увеличаващата се автоматизация на експерименталната молекулярна биология и прилагането на информационни технологии в биологичните науки доведе до фундаментална промяна в начина, по който се извършват биологичните изследвания. В допълнение към изследванията, свързани с намиране и изучаване в детайли на един-единствен ген, сега могат да се каталогизират всички данни, които са на разположение, създавайки пълни геномни карти, които да се анализират по-късно и да се установят специфичните интересуващи ни елементи. Този напредък е силно изразен при секвениране на нуклеинови и аминокиселинни последователност, както и при 3D моделирането. Тенденцията е към съхраняване на всички видове първоначални биологични данни в публични база данни със свободен достъп за изследователската общност. Вместо да се правят предварителни изследвания в лаборатория, учените ще могат да анализират наличната до момента информация, като по този начин ще се пести време и ресурси.

Използване на уеб-информация

Намирането в мрежата на един файл на белтъчна структура или нуклеинова последователност е лесна задача, изпълнима само с попълването на уеб-форма и търсене в публичната база данни. Най-често, обаче в биоинформатиката се работи с повече от един файл данни. Може дори да се налага събиране и архивиране на получените данни, или създаване на нов тип данни, които да са достъпни за по-широка изследователска общност. За да може ефективно да се осъществяват тези операции, трябва събраните данни да се съхраняват на собствен компютър. Ако е необходимо съхранените данни да бъдат обработени с помощта на компютърна програма, те трябва да са правилно структурирани. Разбирането на разликата между структурирани и неструктурирани данни и проектирането на формат, който да е подходящ за съхранение и лесен достъп до тях е ключът към постигане на ефективни резултати .

Съществуват различни начини за организиране на данните. Повечето биологични данни все още се съхраняват в плоски база данни (текстов файл), но този тип е неефективен, тъй като количеството на данните, които се съхраняват става изключително голямо. Повече информация относно разликите между плоските бази данни и релационните база данни, предоставящи най-добрите инструменти за управление на публичните база данни, и начините за тяхното приложение за съхранение и достъп, можете да намерите в GM2 (Ниво за напреднали).

Интерпретиране на данни от сравняване на секвенции

Интерпретацията на данни, без подходящи инструменти за визуализация, е трудна задача. Често, за да се придаде смисъл на биологичните данни се налага извличане на сечения или анализиране на сложни многомерни масиви от данни. След като работните данни са съхранени в достъпен и гъвкав формат, следващата стъпка е да се извлече това, което е важно и то да бъде визуализирано. В зависимост от това дали трябва да се направи хистограма или да се покаже триизмерна молекулярна структура, която да се движи в реално време, могат да се използват различни инструменти за визуализация.

Предсказване на белтъчната структура въз основа на аминокиселинна последователност

Има някои въпроси, на които биоинформатиката не може да отговори и това е един от тях. В действителност, това е един от най-големите отворени изследователски въпроси в изчислителната биология. Това, което е възможно, е да се предоставят инструменти, които да помогнат при намирането на информация за такива проблеми, публикувана от други автори. Биоинформатика, както и всяка друга наука, не винаги предоставя бързи и лесни отговори на всички проблеми.

Въпроси, на които биоинформатиката може да отговори

Въпросите, които стимулират биоинформатичните изследвания са същите, които са занимавали биолозите през последните няколко столетия. Как може да се лекува дадена болест? Как може да се предотврати инфекция? Как може да се произвежда достатъчно храна, за да се нахрани цялото човечество? Компании, разработващи лекарства, селскостопански химикали, хибридни растения, пластмаси и други петролни деривати, търсещи биологични подходи за възстановяване на околната среда и др., наред със специфичните си направления, провеждат и биоинформатични изследвания.

Съществуването на геномни проекти предполага използването на данните, които те генерират. Специфичните цели на съвременната молекулярна биология са свързани с възможността да бъдат прочетени изцяло геномите на живите организми, да се идентифицира всеки ген, на който да съответства даден протеин, да се определи неговата структура и функция. Задълбоченото познаване на последователността на всички гени, структурата и функцията на белтъците, които кодират, както и моделите на генната експресия дава възможност да се разкрие детайлно механизмът, по който функционират живите системи. Това от своя страна ще позволи манипулирането на живите организми с голяма прецизност и точност.

Компютърни подходи към биологични въпроси

Съществува стандартен набор от методи, които се преподават в курсовете по биоинформатика. В момента разработването на повечето от най-важните техники се основава на един основен принцип: нуклеотидната (аминокислеинната) последователност и структурната хомология (или подобие) между молекулите могат да бъдат използвани, за да се определи евентуално структурно и функционално сходство.

Тук са представени стандартните компютърни инструменти, достъпни за изследователите; в GM2 са разгледани начините, по които специфичните софтуерни пакети, прилагат тези стратегии и как изследователите трябва да ги използват.

Централна "догма" на молекулярната биология

Централната догма на молекулярни биология гласи:

  • ДНК молекулата служи като матрица за собственото си възпроизводство,
  • ДНК се транскрибират в РНК,
  • РНК се транслира в белтък.

Казано по друг начин, геномната ДНК съдържа генералния план за изграждането и функционирането на живите организми. Без ДНК, те не биха били в състояние да се възпроизвеждат. На практика обаче, едноверижната последователност на ДНК, представлява само информация (план), който се прочита от клетъчната система за синтез на белтъци. С други думи, ДНК секвенциите са перфокартите, а клетките са компютрите.

ДНК репликация

Необикновената структура на ДНК е причина за нейните специфични характеристики. Тези особености позволяват на информацията, съхранена в молекулата, да бъде запазена и предадена от една клетка на друга, от родителите на тяхното поколение.

Фигура 2. Схематично представяне на ДНК репликация

Фигура 2. Схематично представяне на ДНК репликация

Геноми и гени

Геномът на всеки организъм е изграден от отделни гени. Съществуват три основни класа гени: белтък-кодиращи, рибозомни и нетранскрибируеми гени.

ДНК транскрипция

ДНК служи като матрица за синтез на РНК.

Фигура 3. Схематично представяне на ДНК транскрипция

Фигура 3. Схематично представяне на ДНК транскрипция

Транслация на иРНК

Транслацията на иРНК в белтък е крайната основна стъпка в процеса на превръщане на информацията съхранена в ДНК в клетъчна функция.

Фигура 4. Генетичен код

Фигура 4. Генетичен код

Молекулярна еволюция

В процеса на репликация и транскрипция на ДНК често могат да настъпят грешки. Ако това стане в репродуктивната фаза на един организъм, тези грешки могат да бъдат прехвърлени в неговото потомство. Промените в последователността на ДНК могат да имат както негативен, така и позитивен ефект, или могат да бъдат неутрални. Ако възникналата мутация не убие организма, тя може да се закрепи в популацията в продължение на много поколения. Бавното натрупване на такива промени е процесът, отговорен за еволюцията. По този начин разчитането на ДНК секвенциите ни дава възможност за по-точно разбиране на еволюционните процеси. Познаването на молекулярния механизъм на еволюцията като постепенен процес на натрупване на мутации в ДНК секвенциите, е причината за създаването на теории, основани на сравнението на ДНК и протеиновите последователности.

Биологични модели

Една от основните биологични задачи на биоинформатиката е моделирането. Моделът представляват абстрактен начин за описване на сложна система. Анализът на обект, толкова сложен и объркващ като хромозома, или цикъла на делене на клетката, и представянето му в опростен вид, който да обхваща всички негови функции, може да бъде изключително трудно. Именно затова създаването на модели ни помага да видим по-голямата картина. Една от основните характеристики на добрия модел е, че той прави системите, които иначе трудно се изучават, достъпни за анализиране с помощта на количествени подходи. Биоинформатичните инструменти разчитат на способността ни да определим съответните параметри на една биологична система (било то една-единствена молекула или нещо толкова сложно, колкото е една клетка), да ги опишем количествено, и след разработване на изчислителни методи, които използват тези параметри, да предскажем поведението й.

Получаване на 3D молекулни модели чрез 1D представяне

В действителност, ДНК и белтъците са сложни 3D молекули, съставени от хиляди или дори милиони атоми, свързани заедно. Въпреки че ДНК и белтъчните молекули са полимерни молекули, техните вериги са изградени от повтарящи се мономерни единици. Скоро след установяването на химичната природа на ДНК и белтъците се възприема, че вместо със сложни химични формули, тяхното представяне като верига от единични букви е много по-удобно. Така например, ДНК секвенциите, вместо да бъдат представени като съвкупност от нуклеинови киселини, те могат да бъдат представени просто като последователност от A, T, C, и G. По този начин къси фрагменти от ДНК, които съдържат хиляди отделни атоми могат да бъдат представени чрез поредица на няколкостотин символа.

Възприемането на тази абстракция не само спестява място за съхранение, но и осигурява удобна форма за обмен на информация. Тя представя естеството на молекулата уникално и правилно, като игнорира редица детайли (като молекулната структура на ДНК и белтъците), които са трудно определими експериментално. Много от методите на изчислителната биология се възползват от тази 1D абстракция на 3D биологичните макромолекули.

Представянето на нуклеотидните и белтъчни последователности в 1D вериги е една от най-успешните стратегии за моделиране в изчислителната молекулярна биология, като анализът на символни низове се практикува от десетилетия в компютърните науки. Един от елементарните въпроси, на който може да се отговори по отношение на този тип абстракция е: "Дали последователностите във веригите си съответстват?". Създадени са утвърдени алгоритми за установяване на точни и неточни съответствия по дължината на секвенциите. Тези алгоритми се прилагат, за да се намерят двойки съответствия между различен брой биологични секвенции, както и за да се търси опредена секвенция в базата данни чрез подадена заявка за тази секвенция.

В допълнение към сравняването на отделни последователности, са разработени и други методи за анализ на низове, които могат успешно да се приложат за разрешаването на редица проблеми в областта на молекулярната биология. Такива са например, алгоритми за реконструкция на ДНК верига въз основа на набор от къси припокриващи се ДНК фрагменти. Техниките за разпознаване на повтарящи се мотиви в дадена секвенция или откриването на консервативни участъци в множество последователности дава възможност на изследователите да откриват последователности, свързани със специфични структури или функции. Освен това са създадени подходи за анализ на няколко секвенции, които позволяват едновременното сравнение на няколко молекули, като получените резултати предоставят ценна информация относно еволюционните връзки между изследваните организми.

Това опростяване на ДНК и белтъчните молекули изглежда, че в известна степен пренебрегва тяхната биология. Наистина, клетъчната среда, в която съществуват биомолекулите е напълно игнорирана, както са пренебрегнати и техните взаимодействия с други молекули и тяхната молекулярна структура. И въпреки, това многократно е доказано, че анализът на съответствията между различните нуклетотидни и аминокиселинни секвенции може да доведе до получаването на биологично значими резултати.

Абстракции при моделиране на белтъчната структура

Освен нуклеотидната и аминокиселинна последователност, белтъците и нуклеиновите киселини притежават сложна 3D структура, която дава информация за техните функции в живия организъм. Структурен анализ може да се извърши както на статични структури, така и на движенията и взаимодействията в молекулите посредством молекулни симулационни методи.

Стандартната молекулна симулация моделира белтъка като съвкупност от точкови маси (атоми) свързани с химични връзки. Връзката между два атома има стандартна дължина установена от експерименталната химия, и приложени сили, които ограничават дължината на тази връзка. Ъгълът между три съседни атома има стандартна стойност и приложена сила, които ограничават ъгъла на свързване между тях. Същото важи и за двустранният ъгъл между четири съседни свързани атома. При молекулните динамични симулации, чрез симулиране на "нагряване" се добавя енергията към системата. Съгласно Нютоновите закони, атомите в молекулите са в непрекъснато движение. Енергията, добавена към системата, осигурява противоположна сила, която движи атомите в молекулите извън техните стандартни конформации. Посредством тази абстракция могат да бъдат симулирани действията и реакциите на стотици атоми в молекулната система.

Във всеки случай, за създаването на молекулна симулация са необходими голям брой изчисления и има недостатъци както в силовото поле (натрупване на стандартни сили, които моделират молекулата), така и в представянето на несвързани взаимодействия (взаимодействия между несъседни атоми). По този начин се доказва, че е невъзможно да се предвиди белтъчната структура, като се използва подхода за моделиране чрез използването на всички атоми в молекулата.

Наскоро някои изследователи имат относителен успех при предсказването на протеиновата топология за малки белтъци чрез използването на умерени нива на абстракция – модел, представляващ повече от линейна последователност, но по-малко от модел на всички атоми. В този случай, белтъкът се разглежда като нарастване на редица (верига) от топчета (индивидуални аминокиселини). Топчетата могат да имат отличителни белези, които да представляват различията в страничните вериги на аминокиселините. Те могат да бъдат положително или отрицателно заредени, полярни или неполярни, малки или големи. Има правила, които контролират кои топчета ще се привличат взаимно. Полярните групи се групират с други полярни групи, а неполярните се групират с други неполярни. Съществуват правила и относно редицата. Моделирането на вторичната структура на белтъчната молекула се определя от аминокиселинната последователност и от промените в позицията на всяко топче (аминокиселина).

Математическо моделиране на биохимични системи

Използването на теоретични модели в биологията се прилага не само на молекулно, но и на клетъчно и популационно ниво. В продължение на много години, еколозите използват математически модели, за да описват динамиката и зависимостите в популациите. Какво влияние оказва намалението на популацията на даден вид хищник върху популацията на неговата жертва? Какъв ефект имат промените в околната среда върху популацията на даден организъм? Отговорите на тези въпроси са теоретично предвидими, чрез прилагането на подходящ математически модел и познанията върху размера на популациите и техните стандартни темповете на изменение.

В молекулярната биология, подобен подход, наречен анализ на метаболитния контрол, се прилага и за анализ на биохимични реакции, включващи множество молекули. Тъй като клетките съдържат стотици и хиляди взаимодействащи си белтъци, малки молекули и йони, е възможно да се създаде модел, който описва и предсказва само малка част от тази сложна метаболитна система. Например, ако се интересувате от биологичните процеси, отговорни за поддържането на концентрацията на водородни йони от двете страни на митохондриалната вътрешна мембрана в еукариотните клетки, вашият модел не е необходимо да включва метаболитните пътища, свързани с биосинтезата на хем.

Метаболитните модели описват биохимичните процеси по отношение на концентрацията на химичните съединения, участващи в даден метаболитен път, както и спрямо метаболитните реакциите и потоци, които оказват влияние върху тези концентрации. Последните могат да бъдат представени с помощта на диференциални уравнения, описващи наблюдаваните промени в концентрацията.

Това, което прави метаболитните симулации интересни, е възможността за моделиране на десетки реакции едновременно, с цел установяване на тяхното влияние върху концентрацията на специфично химично съединение. Използвайки правилно конструиран метаболитен модел, може да се тестват различни условия и да се осъществи фина настройка на модела, така че да се улеснят последващите експериментални наблюдения.

Биоинформационни подходи

Молекулярната биология е бързо развиваща се област. Количеството и типа на данните, които са събрани нараства лавинообразно, включително геномни секвенции и всякакъв друг тип биологични данни, като се затвърждава тенденцията за тяхното съхранение в публични база данни. Информацията се променя толкова бързо, че често пъти публикуваната информация е вече остаряла.

От самото начало на стартирането на проекта за секвениране на човешкия геном, беше разработен основен набор от изчислителни подходи за анализ на получените данни, които понастоящем са представени в публичните бази данни – ДНК, белтъчни секвенции и белтъчна структура. Въпреки че базите данни, с резултати получени чрез последните методи на молекулярната биология, не са достигнали още размерите на базите данни за секвенции, започват да се почват да се появяват стандартни методи за тяхното анализиране.

Основните методи за анализ на получените данни са следните:

Използване на публични база данни и различните формати от данни

Първото ключово умение за биолозите, е да се научат как да използват онлайн инструментите за търсене на информация. Намирането на конкретна литература вече не е въпрос на търсене на препратки в конкретна библиография. Можете да намерите линкове към повечето научни публикации, които се намират онлайн. Съществуват централни бази данни, които съдържат справочна информация, така че можете да търсите в десетки издания наведнъж. Можете дори да настроите "филтри", които ви уведомяват, когато членовете на даден колектив публикуват нова статия в интересуващата ви научна област. Търсене в публичните молекулярно-биологични бази данни изисква същите умения като търсене на литературни източници. За целта трябва да знаете как да зададете параметрите за търсене, така че да откриете желаната информация сред огромното налично количество данни.

Търсене и сравняване на секвенции

Сравняването на двойки ДНК или белтъчни секвенции и установяването на частични съответствия, направи възможно използването на биологичните последователности като заявки към базата данни. Търсенето на конкретни нуклеотидни или аминокиселинни секвенции е друго ключово умение за биолозите, което ако се извърши в началото на проекта често спестява много ценно време в лабораторията. Идентифицирането на хомоложни последователности предоставя основа за провеждане на филогенетични анализи и откриване на специфични мотиви. Търсенето на секвенции може да се извършва онлайн чрез уеб-форми, така че не изисква специални компютърни умения, но за да се анализира качеството на получените резултатите от търсенето, изследователят трябва да има познания за това как работят основните методи за сравнение на секвенции и как да използва получените резултати в своите бъдещи изследвания.

Откриване на гени

Откриването на гени е само един от множеството методи за опит за детекция на значими сигнали в нехарактеризирана ДНК последователност. До скоро, повечето последователности, включени в GenBank, бяха предварително характеризирани по време на тяхното депозиране. С други думи, някой, използвайки молекулярно-биологични, генетични или биохимични методи, е установил функцията на дадения ген. Понастоящем обаче, поради появата на все нови и нови геномни проекти, съществуват множество ДНК последователности, които не са характеризирани.

Разработването на софтуерни програми за прогнозиране на отворени рамки за четене, гени, сайтове за сплайсинг на екзони, места за свързване с промотора, повтарящи се последователности и тРНК гени, има важно значение за картиране на тези новосеквенирани ДНК молекули.

Сравняване на множество ДНК и белтъчни последователности

Сравняването на множество ДНК и белтъчни последователности дава възможност за намиране на двойки съответствия между сходни последователности и получаването на цялостна картина относно хомологията между всички членове на дадено генно семейство. То улеснява визуалната идентификация на участъци в ДНК или белтъчните секвенции, които могат да имат функционално значение. Такива участъци обикновено са консервативни, като една и съща последователност от аминокиселини се установява във всяка една група от секвенции. Данните от сравняването на множество ДНК и белтъчни последователности могат да бъдат анализирани и количествено, с цел да се извлече информация относно генното семейство. Сравняването на множество секвенции е основна стъпка във филогенетичните анализи, както и предоставя основа за идентифициране на секвенционни мотиви, които характеризират дадено белтъчно семейство.

Филогенетичен анализ

Филогенетичният анализ се опитва да опише еволюционните връзки между група организми. Традиционното филогенетично дърво или калдограма представя относителното еволюционно сходство/дивергенция между изследваните видове. Разклоненията на дървото, които се разполагат най-далече от основата му, представляват различните изследвани видове, а тези които са в близост до основата съответно групират видовете в царства, отдели, класове, семейства, родове, и т.н.

Информацията, получена от сравняването на нуклеотидните или аминокиселинни секвенции може да се използва за построяване на филогенетично дърво за дадено генно семейство. Разклоненията в калдограмата представят еволюционните разстояния, определени въз основа на резултатите от сходството между сравняваните последователности или на базата на теоретичната информация от анализа на възможния брой мутационни стъпки, необходими за промяна на една последователност в друга. Филогенетичният анализ на определени белтъчни семейства обаче не дава информация за еволюцията на целия организъм, а само за настъпилите еволюционни изменения в специфични кодиращи региони. В бъдеще, възможностите ни за създаване на по-големи еволюционни модели на базата на молекулярните данни ще бъдат разширени, тъй като геномните проекти предоставят повече данни, с които да работим.

Определяне на мотиви и профили от секвенционни данни

Мотивът е последователност от аминокиселини, която може да се използва както за определяне функцията на белтъка, така и за характеризиране на неговата структурна стабилност. В дадена група от еволюционно свързани генни последователности, мотивите се появяват като консервативни участъци. Даден участък се приема за консервативен ако се запазва идентичен във всички или в повечето представители на дадено секвенционно семейство. От друга страна структурно и функционално неопределящите участъци от секвенцията на гена могат да са претърпели значителна дивергенция в хода на еволюцията. Секвенционните профили са статистически описания на тези сигнални мотиви. Анализът на профилите се използва при идентифицирането на далечнородствени белтъци, чрез детекция на сигнален мотив в секвенция, която е коренно променена в сравнение с другите членове на същото генно семейство.

Белтъчно секвениране

Аминокиселината последователност на белтъците може да се използва като основа за много анализи, от изчисляване на изоелектричната точка и молекулното тегло на белтъка, получаването на специфични пептидни профили след срязване с протеази, до моделиране на вторичната им структура и установяване на възможните пост-транслационни модификации.

Моделиране на вторична структура на белтъци

Експерименталното определяне на вторичната структура на даден белтък е много по-трудна задача в сравнение с получаването на данни за ДНК последователността на гена, който го кодира. Важна област в биоинформатиката и изчислителната биология е разработването на методи за предсказване на белтъчната структура на основата на тяхната аминокиселинна последователност. Методите, като предсказване на вторична структура и пространствена конформация, могат успешно да се използват за моделиране на специфичното нагъване на дадена белтъчна молекула, която впоследствие да бъде отнесена към групата на други белтъци, които имат сходна топология. Тези методи обаче не могат да предоставят подробен устройствен модел. Най-ефективният и практичен метод за предсказване на структурата на белтъците е хомоложното моделиране. При него известна белтъчна структура, имаща сходна аминокиселинна секвенция, се използва като шаблон. При отсъствието на такава хомология, няма начин да се предвиди напълно 3D структурата на даден белтък.

Структурно характеризиране на белтъците

Всяка белтъчна структура има множество измерими свойства, които са от интерес за кристалографите и структурните биолози. Инструментите за валидиране на дадена белтъчна структура се използват с цел да се установи колко добре създаденият структурен модел съответства на правилата, установени на базата на вече съществуващи структури или модели на химични съединения. Тези методи могат да се използват и за анализиране на "подходящото позициониране" на всяка аминокиселина в структурния модел в зависимост от средата, установяване на специфични особености, като скрити заряди във вътрешността на молекулата или големи участъци от хидрофобни аминокиселини, намиращи се на повърхността на белтъка. Тези инструменти са полезни за оценка както на експериментални, така и на теоретични структурни модели.

Друга група подходи позволяват да се изчисли вътрешната геометрия и физикохимичните свойства на белтъците. Тези инструменти обикновено се прилагат при разработването на модели на каталитичния механизъм на белтъка или на други негови химически характеристики. Някои от най-интересните особености на белтъчните структури са разположението на големи повърхностни вгъвания и образуването на вътрешни кухини. Тяхното определяне дава възможност да се посочи мястото за свързване на ко-фактора или активния център на белтъка. Други инструменти позволяват създаването на модели на водородните връзки или анализират междумолекулните връзки. Особено интересен набор от свойства, които могат да се изследват компютърно, са: потенциала на електростатичното поле, заобикалящо белтъка, както и други електростатични и параметри като индивидуалните pKas (отрицателен десетичен логаритъм от стойността на константата на киселинна дисоциация Ka) на аминокиселините, енергията на Гибс при разтваряне на белтъка и свързващата равновесна константа.

Подравняване и сравняване на белтъчни структури

Дори когато последователностите на два гена не са очевидно хомоложни, то това не означава, че структурите на белтъците, които кодират, не могат да бъдат подобни. Разработени са нови биоинформатични инструменти, които позволяват установяването на структурна прилика и правят възможно откриването на далечна хомология чрез сравняване на аминокиселинни секвенции, дори и в отсъствието на голяма прилика между тях. Тези методи са подходящи и за сравняване на построените модели с известни белтъчни структури.

Биохимично симулиране

Биохимичните симулация се основават на динамичното системно моделиране, като се симулират химични реакции, участващи в метаболизма. Симулациите могат да се простират от индивидуални метаболитни пътища, до процесите за трансмембранен транспорт, включително дори и характеризиране на свойствата на цели клетки или тъкани. Биохимичните и клетъчни симулации традиционно разчитат на способността на учения да опише системата математически, чрез разработване на система от диференциални уравнения, които представят различните реакции и потоци в системата. Въпреки това, новите софтуерни инструменти могат да изградят математическите рамките на симулацията автоматично въз основа на интерактивното описание на потребителя. Математическо моделиране е достъпно за всеки биолог, който притежава достатъчно познания за една система, така че да може да я опише в съответствие с изискванията на динамичното системно моделиране.

Анализ на целия геном

Тъй като все повече и повече геноми са напълно секвенирани, анализът на първичните данни става изключително важна задача. Съществуват няколко перспективи, от които геномните данни могат да се разглеждат: например, могат да се третират като дълга линейна последователност, но често е по-полезно към тази информация да се интегрират и познанията за съществуващите генетични и физични ДНК карти. Това позволява да се анализира много голям геном и да открие необходимата информация. Националният център по биотехнологична информация (NCBI) и други организации полагат съвместни усилия, за да предоставят полезни уеб-интерфейси за работа с геномни данни. По този начин потребителите могат да започнат своята работа на ниво специфични геномни карти, достигайки накрая до местоположението на желаната генна секвенция.

Геномната навигация далеч не е обаче единственият въпрос при анализ на генни секвенции. Все по-голямо внимание се обръща на анотацията на гените, която интегрира информация за нуклеотидната последователност с резултатите от идентифицирането на гени и анализа на тяхната хомология. Започва работата и по предизвикателството за анализиране на резултатите от сравненията на двойки геноми.

Дизайн на праймери

Много молекулярно-биологични протоколи изискват дизайн на олигонуклеотидни праймери. Правилният дизайн на двойка праймери е от решаващо значение за успеха на полимеразната верижна реакция (PCR), олигохибридизацията, ДНК секвенирането, и микроарей експериментите. Праймерите трябва да хибридизират с целевата ДНК, така че да се даде ясен отговор на интересуващия ни въпроса, но също трябва да имат и съответните физико-химични свойства. Те не трябва да хибридизират или да димеризират помежду си, не трябва да имат повече от едно място за свързване с изследваната ДНК последователност. Има няколко уеб-базирани програми, които позволяват на потребителите, след предоставяне на конкретна ДНК последователност, автоматично да открият подходящите праймери, или да характеризират свойствата на определена двойка праймери.

ДНК микроарей анализ

ДНК микроарей анализът е сравнително нов молекулярно-биологичен метод, който се основава на класическите методи за хибридизация със сонди, като се осигурява достъп до хиляди гени едновременно. Микроарей експериментите подлежат на изчислителен анализ, тъй като получените резултати са стандартизирани - представляват мрежа от еднакво големи петна, всяко едно от които се идентифицира с определена последователност на ДНК. Компютърните инструменти са необходими за анализа на по-големите микрочипове, защото получените изображения са толкова визуално сложни, че сравнението на ръка е невъзможно.

Основните задачи в микроарей анализа са: образен анализ, при който се идентифицират отделните места на масива на изображението и количествено се характеризира интензитета на сигнала; и клъстерен анализ, при който се идентифицират местата с подобен интензитет на сигнала. Използването на компютър е необходимо също и за фазата на проектиране на чиповете за един микроарей експеримент - да се определят подходящите олигонуклеотидни последователности на сондатите, хомоложни на набора от гени и да се осигури съхранението на данните за идентичността на всяко петно в мрежа, съдържаща хиляди индивидуални експерименти.

Протеомен анализ

Преди един белтък да се кристализира и характеризира биохимично, често той се изследва с помощта на комбинация от гел електрофореза, частично секвениране и масспектроскопия. Чрез 2D гел електрофореза, например може да раздели смес от хиляди белтъци в отделни сегменти. Индивидуалните белтъчни петна могат да бъдат изследвани с Western блот или дори изрязани от гела и анализирани в последствие. Съществуват прости изчислителни инструменти, които могат да улеснят процеса на анализ на протеиновите смеси. Молекулното тегло и изоелектричната точка нa даден белтък лесно може да се изчисли на базата на неговата аминокиселинна последователност. С помощта на комбинацията от тези стойности може да се определи предполагаемата идентичност на всяко петно от 2D гела. Въз основа на белтъчната секвенция може да се предвиди и пептидния профил, който се получава, когато този белтък се хидролизира на фрагменти, с помощта на специфични протеазни ензими. За да се ограничи допълнително търсенето, данните, получени от мас-спектрометричен анализ на белтъчните фрагменти, могат да бъдат сравнени с предвидените пептидни профили.

Публични биологични бази данни

Проблемът с биологичната номенклатура на молекулярно ниво е огромен. Гените, обикновено са известни със своите несистемни имена. Последните те получават от проучванията в областта на биологията на развитието, като например flightless, shaker и antennapedia, където наименованията са свързани с ефектите, които упражняват върху развитието на определен жив организъм. Други имена са избрани от клетъчни биолози и представляват функцията, която изпълняват гените на клетъчно ниво, например homeobox. Има имена, които са избрани от биохимици и структурни биолози и се отнасят до белтъка, който вероятно е бил изолиран и проучен преди гена.

Въпреки, че белтъците са преки продукти на гените, те не винаги са обозначени с едни и същи имена или кодове. Този вид объркваща номенклатура обикновено означава, че само учен, който пряко работи с определен ген, неговия продукт или биохимичния процес, в който участва, ще бъде в състояние незабавно да разпознае тривиалното наименование. Биохимията на един организъм е по-сложен набор от информация в сравнение с таксономията на живите същества от времето на Линей, така че не може да се очаква, че лесно ще се стигне до ясна и цялостна номенклатурна система. Има много неща, които трябва да се знаят за даден ген: организма, в който функционира, неговото хромозомно място, местоположението на секвенцията на активатора и вида на регулаторните белтъци, които го включват и изключват. Гените също могат да бъдат категоризирани в зависимост от това: кога по време на развитието на организма те са включени, и в кои тъкани те се експресират. Те могат да бъдат категоризирани по функцията на техния продукт, независимо дали е структурен белтък, ензим, или функционална РНК. Могат да бъдат класифицирани въз основа на това към кой метаболитен път принадлежи техния продукт, от субстрата, с който взаимодейства или продукта, който произвежда. Могат да бъдат разделени на базата на структурната архитектура на техните белтъчни продукти. Очевидно това изобилие от информация трудно може да се кондензира в разумна номенклатура.

Фигура 5 показва част от информацията, която може да се асоциира с един-единствен ген.

Фигура 5. Информация, отнасяща се за даден ген

Фигура 5. Информация, отнасяща се за даден ген

Проблемът за поддържането на биологичните бази данни се дължи главно на анотацията. Това е свързано не толкова с предоставянето на достатъчно информация за името на гена, дори той да има неясно такова, а създаването на подходящи връзки между наличната информация за него, неговата секвенция и сериен номер. Коректното анотиране на геномните данни е активна област на научни изследвания, тъй като изследователите се опитват да намерят начини за предаване на информация между различните геноми с минимално количество грешки. Съхранението на данни за макромолекули в електронни бази данни е довело до разрешаване в известна степен на проблема с номенклатурата. Възприето е на всеки нов запис в базата данни да се дава сериен номер и след това той да се съхранява в релационна база данни. Последната съдържа правилните връзки между този сериен номер, произволен брой имена за него или неговия продукт, и всякаква друга информация отнасяща се до него. Това е стратегията, която в момента се използва в по-големите биологични бази данни.

Въпросите, които трябва да се разрешат при създаването на бази данни, са същите, които възникват при развитието на номенклатурата. Въпреки това, с помощта на релационни бази данни и сложни стратегии за търсене, се пренебрегва (за съжаление) въпросът за намиране на кратък и лесен начин за наименуване на гените на недигитално ниво.

Анотация и формати от данни

Представянето и разпространението на биологични данни все още е открит проблем в биоинформатиката. Нуклеотидните последователности на ДНК и РНК, и аминокиселинните последователности на белтъците се опростяват и свеждат до символни низове, където една буква представлява един нуклеотид или аминокиселина. Предизвикателство в представянето на секвенциите е проверката на коректността на данните, задълбочената анотация и обработка на информацията на по-дълги последователности, като например хромозоми и цели геноми.

Стандартната опростена представа за 3D структурата на биомолекулите се състои от Картеизански координати на атомите в молекулата. Този способ за представяне на молекулата е прост и ясен. От друга страна, има множество сложни въпроси за структурните бази данни, които не са напълно решени. Анотацията все още е проблем за структурни данни, въпреки че биологичната общност се е опитва да постигне консенсус по въпроса как да се анотират структури. През последните 15 години различни изследователи са разработили свои собствени стилове и формати за отчитане на биологични данни. Базите данни за биологични секвенции и структури са разработени паралелно в САЩ и Европа. Използването на собствен софтуер за анализ на данни доприне за създаването на редица утвърдени формати на използваните данни. Въпреки че съществуват множество специализирани бази данни, усилията на учените са насочени към поддържане на цялостна обширна база данни.

3D структурно-молекулни данни

Въпреки, че ДНК последователността, аминокиселинната последователност на белтъка, и структурата на белтъка са в известен смисъл просто различни начини за представяне на един и същ продукт на даден ген, тези типове данни понастоящем се поддържат като отделни проекти за бази данни и като формати, които не са свързани помежду си. Това се дължи главно на факта, че методите за определяне на секвенцията и структурата са се развивали независимо един от друг в исторически план.

Първата публична молекулярно-биологична база данни, създадената почти 10 години преди базата данни за ДНК, е Protein Data Bank (PDB). Тя представлява централно хранилище за рентгенови кристални структури на белтъчни молекули. Независимо, че първата цялостна белтъчна структура е публикувана през 1950 г., до края на 1970 не е имало голям брой структури на разположение. В този период компютрите не са били достатъчно добре развити, така че да могат да създадат графично представяне на структурата на белтъчната молекула, или поне не с достатъчно бърза скорост. През 1971 г., PDB е създадена в Brookhaven National Laboratory, с цел съхраняване на данни за структурата на белтъци в компютърно-базиран архив. Създаден е формат за бази данни, който носи белезите на ранните компютърни технологии. През 1970-те и 1980-те години, PDB нараства. От 15 белтъчни структури през 1973 г., през 1976 година вписванията нарастват до 69. Броят на структурите депозирани всяка година остава под 100 до 1988 г., по което време все още има по-малко от 400 PDB вписвания.

Между 1988 г. и 1992 г., PDB прави повратна точка в своя растеж. До януари 1994 г. се наблюдават 2 143 нови вписвания, като по това време в PDB вече се съхраняват 14 000 белтъчни структури. Управлението на PDB се прехвърля на консорциум от университети и обществени агенции, наречен Research Collaboratory for Structural Bioinformatics и се въвежда нов формат за запис на кристалографски данни - макромолекулни файлове за кристалографски информация (mmCIF). Той постепенно започва да заменя остарелия PDB формат. Понастоящем списанията, които публикуват кристалографски резултати, изискват предварително включване на установената белтъчна структура в PDB формат, което означава, че почти всички структурни данни стават достъпни за академичното общество.

Често срещан проблем при проучванията, базирани на данни от белтъчна структура, е спецификата на използваните съкращения и липсата на всеобхватност на PDB. Има много белтъци, за които в базата данни са били подадени множество кристални структури. Ето защо, изборът на подгрупи данни от PDB е важна стъпка във всяко статистическо проучване на дадена белтъчна структура. Много статистически проучвания на белтъчната структура се основават на набор от протеинови вериги, които имат не повече от 25% хомология в тяхната последователност. Ако се използва този критерий, в PDB има представени само около 1000 уникални белтъчни структури. Тъй като количеството на данни за биологичните секвенции постоянно расте, PDB като база данни за белтъчни секвенции се нарежда вече след базите данни за генни секвенции.

ДНК, РНК и белтъчни секвенционни данни

Секвенционните бази данни обикновено са специализирани в съхранението на един вид последователности: ДНК, РНК, или белтъчни. Съществуват редица колекции от секвенционни данни в Европа, Япония и Съединените щати, а има и независими групи, които отразяват всички данни, събрани в най-големите публични бази данни, предлагайки ги заедно със специфичен софтуер, което допълнително добавя стойност към тези данни.

През 1970 г. Рей Ву секвенира първия сегмент от ДНК - дванадесет бази, които представляват едноверижен фрагмент в края на кръгова ДНК, отворена с помощта на ензим. Въпреки това, ДНК секвенирането се оказа много по-трудно отколкото белтъчното, тъй като не съществува химичен процес, който избирателно да откъсва първия нуклеотид от веригата на нуклеиновата киселина. Когато Робърт Холи съобщава за 76 - нуклеотидна последователност от дрождева РНК молекула, това е резултат от седемгодишна усилена работа. След публикуването на резултатите от Холи, други изследователски групи, усъвършенстват протоколите за секвениране и дори успешно се разчита последователността от 3 200 нуклеотидни бази на бактериофагов геном. Истинският напредък с ДНК секвенирането настъпва след 1975 г., след откриването на химическия метод за разграждане на ДНК, разработен от Алън Максам и Уолтър Гилбърт и процедурата за верижно терминиране на Фредерик Сангър.

Първата ДНК база данни, създадена през 1979 г., е Gene Sequence Database (GSDB) в националната лаборатория на Лос Аламос. Независимо, че GSDB бяха изместени от световното сътрудничество, което доведе до формирането на най-модерната GenBank, актуална информация за секвенцията на различни гени, все още може да се намери в GSDB чрез Националния Център за Геномни Ресурси (NCGR).

Европейската лаборатория по молекулярна биология (EMBL), ДНК базата данни на Япония, и Националния институт за здравеопазване (NCBI) си сътрудничат, за да направят всички ДНК секвенции обществено достъпни посредством GenBank. NCBI е разработил стандартен формат за релационна база данни за секвенционни данни, известна като формат ASN.1. Докато този формат обещава да направи намирането на правилните последователности в подходящ вид в GenBank по-лесно, все още има редица услуги, които предоставят достъп до не толкова обхватни версии на базата данни. ДНК базата данни, нараства бавно през 1990-те. През 1992 г. GenBank съдържа само 78 000 ДНК секвенции или малко над 100 милиона базови двойки. През 1995 г. Проектът за секвениране на човешкия геном и напредъкът в технологията за секвениране, доведе да бързото нарастване на GenBank. В момента броят на секвенциитре се удвоява на всеки 6 до 8 месеца и темпът на нарастване непрекъснато се увеличава.

Геномни данни

В допълнение към Проекта за секвениране на човешкия геном, сега има отделни бази данни за геномни проекти на голям брой моделни организми. Всички известни до този момент последователности са представени в GenBank, но в сайтовете на проектите за секвениране на съответния геном могат да се намерят карти на генома, както и допълнителни ресурси за изследователите, които работят с този организъм. През октомври 2000 г., NCBI Entrez геномната база данни съдържа частични или цялостни геноми на над 900 вида. Много от тях са вируси. Останалите включват бактерии, археи, дрожди, растителни моделни организми като А. thaliana, ориз и царевица, а от животинските модели - C. elegans, винена мушица, мишка, плъх и риба-балон, както и органелни геноми. NCBI уеб-базираните софтуерни инструменти за достъп до тези бази данни непрекъснато се развиват и стават все по-сложни.

Данни за биохимични пътища

Най-важните биологични дейности не са резултат от действието на единични молекули, а са следствие от взаимодействието на множество такива. От средата на 20-ти век, биохимици усилено изучават тези функционални ансамбли от ензими и техните субстрати. Няколко изследователски групи са започнали работа по интерактивното организиране и съхраняване на тези пътища в бази данни. Такава е например базата данни KEGG (Kyoto Encyclopedia of Genes and Genomes). В KEGG се съхраняват подобни данни, но тук е осигурена и връзка със секвенциите, структурата, и генетичните бази данни. Тази бази данни позволяват търсене чрез специфичен уеб-интерфейс, като се обновяват и коригират посредством комбинация от автоматизация и човешки опит. В допълнение към тези пълни геномни бази данни, съдържащи “каталози за участъци“ от геноми, съществуват и специализирани бази данни, които се фокусират върху конкретни метаболитни пътища (като междуклетъчна сигнализация или разграждане на химически съединения от микроорганизми).

Данни за генната експресия

ДНК микроарей (или генните чипове) са миниатюрни лаборатории за изследване на генната експресия. Всеки чип съдържа предварително проектирана матрица от молекули сонди, които могат да се свързват със специфични части от ДНК или иРНК. ДНК или РНК са белязани с флуоресцентни маркери, което позволява количествено отчитане на нивото на експресия на всеки интересуващ ни ген. ДНК микроарей анализът има и други приложения в областта на молекулярната биология, но използването му при изучаването на генната експресия предоставя нов начин за изследване на функционирането на генома.

С развитието на ДНК микроарей технологията в края на 1990-те години стана ясно, че увеличаването на наличните данни за генната експресия трябва да бъде успоредно с натрупването на секвенционни и структурни данни, тъй като това е друг вид информация, към която има голям обществен интерес. Първичните микроарей данни наскоро започнаха да се предоставят на разположение на обществеността в избрани бази данни, като е в ход проект за създаване на централно хранилище (Gene Expression Omnibus).

Тъй като много от ранните микроарей експерименти са извършени в Станфорд, техният сайта за геномни ресурси има линкове към двете съществуващи бази данни, като в някои случаи информацията може да бъде извлечена чрез използването на имената на гените или посредством функционални описания. Наскоро Европейският институт по Биоинформатика разработи набор от стандарти за депозиране на микроарей данни в базите данни. Съществуват и няколко бази данни за съхраняване на резултати от 2D гел електрофорези, включително SWISS-2DPAGE и HSC-2DPAGE. 2D-ПААГЕ е технология, която позволява количествено проучване на белтъчните концентрации в клетката за много белтъци едновременно. Комбинацията от тези две техники е мощен инструмент за разбиране как функционира генома.

Таблица 1 обобщава източниците на информация в Интернет за някои от най-важните бази данни, които бяха споменати в този раздел.

Таблица 1. Основни биологични база данни и информационни източници

Област Източник Връзка
Биомедицинска литература PubMed http://www.ncbi.nlm.nih.gov/entrez/query.fcgi
Секвениране на нуклеинови киселини GenBank http://www.ncbi.nlm.nih.gov:80/entrez/query.fcgi?db=Nucleotide
SRS at EMBL/EBI http://srs.ebi.ac.uk
Геномно секвениране Entrez Genome http://www.ncbi.nlm.nih.gov:80/entrez/query.fcgi?db=Genome
TIGR databases http://www.tigr.org/tdb/
Белтъчно секвениране GenBank http://www.ncbi.nlm.nih.gov:80/entrez/query.fcgi?db=Protein
SWISS-PROT at ExPASy http://www.expasy.ch/spro/
PIR http://www-nbrf.georgetown.edu
Белтъчна структура Protein Data Bank http://www.rcsb.org/pdb/
Entrez Structure DB Protein and peptide mass spectroscopy PROWL http://prowl.rockefeller.edu
Пост-транслационни модификации RESID http://www-nbrf.georgetown.edu/pirwww/search/textresid.html
Биохимична и биофизична информация ENZYME http://www.expasy.ch/enzyme/
BIND http://www.ncbi.nlm.nih.gov:80/entrez/query.fcgi?db=Structure
Биохимични пътища PathDB http://www.ncgr.org/software/pathdb/
KEGG http://www.genome.ad.jp/kegg/
WIT http://wit.mcs.anl.gov/WIT2/
Микроарей Gene Expression Links http://industry.ebi.ac.uk/\~alan/MicroArray/
2D-ПААГЕ SWISS-2DPAGE http://www.expasy.ch/ch2d/ch2d-top.html
Уеб-ресурси The EBI Biocatalog http://www.ebi.ac.uk/biocat/
IUBio Archive http://iubio.bio.indiana.edu

Funding

Disclaimer

The European Commission support for the production of this publication does not constitute endorsement of the contents which reflects the views only of the authors, and the Commission cannot be held responsi-ble for any use which may be made of the information contained therein.