LO6: Омикси и системна биология

СРАВНИТЕЛЕН ГЕНОМЕН АНАЛИЗ

Първото цялостно секвениране на генома на жив организъм е завършено не много отдавна. През 1995 година са докладвани резултатите от секвенирането на геноми на първите две бактерии - Haemophilus influenzae и Mycoplasma genitalium. Едно година по-късно, напълно са секвенирани и геномите на първия представител на царство Archea - Methanococcus jannaschii и първия еукариотен организъм – дрождите Saccharomyces cerevisiae. През 1997 година са секвенирани и геномите на двете най-усилено изучавани бактерии - Escherichia coli и Bacillus subtilis. По-късно са секвенирани и геномите на много други представители на археите и бактериите, както и геномите на множество многоклетъчни еукариотни видове, такива като нематода Caenorhabiditis elegans.

Като резултат от тези първи геномни проекти станало ясно, че за поне една трета от кодиращите гени не може да бъда установена или предсказана тяхната функция. Предсказването на функцията на голяма част от останалите гени било възможно. Това станало очевидно при изследване генома на един от най-интензивно изучаваните сред прокариотните и еукариотните видове – генома на Escherichia coli K12. Дори при този добре изучен от молекулярните биолози моделен организъм, поне около 40% от гените са с неизвестна функция. От друга страна, стана ясно, че нивото на еволюционна консервативност на микробните белтъци е относително постоянно, като около 70% от генните продукти на секвенираните вече геноми имат съответните ортолози в други геноми. Това дава възможност да бъде предсказана функцията на гени чрез сравняване на различни геноми и прехвърляне на анотацията за белтъци от по-добре изучени организми към техните ортолози в по-малко изучени организми. По този начин сравнителната геномика става мощен инструмент за по-пълното изучаване на геномите и, впоследствие, на биологията на съответните организми.

НАПРЕДЪК В СЕКВЕНИРАНЕТО НА ГЕНОМИ

В началото на 2000 година са напълно секвенирани геномите на 23 различни едноклетъчни организми (5 археи, 17 бактериални и 1 еукариотен вид). До началото на 2018 година, няколко хиляди микробиални и еукаритни генома се намират в различен стадий на секвениране. Периодично, на страницата на GenBank Entrez Genomes, се актуализират списъците на завършените и незавършените публично-финансирани проекти за секвениране на геноми. Пълният списък на световните центрове, занимаващи се със секвениране на геноми, може да бъде намерен на уеб-сайта на NHGRI. Актуални секвенционни данни могат да бъдат получени от сайта на NCBI FTP или от FTP сайтове на други центрове за секвениране. Добра система за предоставяне на секвенционни данни се поддържа и от японската DNA Data Bank of Japan. В рамките на проект Reference Sequences (RefSeq), NCBI започна да допълва списъка на генните продукти с ценна информация, получена от анализа на секвенциите, данни за най-добри попадения в различни таксони, вероятни функции на нехарактеризирани генни продукти, белтъци с изместена рамка и др. От друга страна, секвенционни центрове, като TIGR, също периодично актуализират своите секвенционни данни, поправят някои от грешките допуснати при секвениране, и съответно, техните сайтове да съдържат най-новата информация относно все още незавършени геномни секвенции.

Бази данни с общо предназначение използвани при сравнителната геномика

Развитието на уеб-пространството направи достъпът до геномни секвенции възможен за всеки потребител с интернет връзка, както и обособяваното на множество бази данни, които предоставят повече или по-малко удобен достъп до тази информация. Освен това, съществуват няколко изследователски колективи, специализирани в анализ на геноми, и поддържащи бази данни, които предоставят важна допълнителна информация, такава като организация на оперона, прогнозиране на функциите, триизмерни структури и реконскруиране на метаболитни пътища.

PEDANT

Този полезен уеб-ресурс дава отговори на повечето от стандартните въпроси, касаещи сравняването на геноми. PEDANT предлага лесен начин за задаване на прости въпроси от типа на колко белтъка в H. pylori имат известна (или прогнозирана с голяма вероятност) триизмерна структура или колко NAD+-зависими алкохолдехидрогенази (EC 1.1.1.1) са кодирани в генома на C. elegans. Списъкът на стандартните PEDANT търсения включва ЕС номера, PROSITE модели, Pfam домейни, BLOCKS и SCOP домайни, както и PIR ключови думи и PIR суперсемейства (Фиг.1). Въпреки че PEDANT не позволява потребителят да зададе собствено търсене, разнообразието от данни, налични в тази база данни го прави удобна отправна точка в областта на сравнителния геномен анализ.

Фиг. 1. Helicobacter pylori P12 в базата данни PENDANT

Фиг. 1. Helicobacter pylori P12 в базата данни PENDANT

COGs

Основната цел на базата данни за Клъстери от ортоложни групи (COGs) е да опрости еволюционните изследвания на цели геноми и да подпомогне проектите за прогнозиране на функцията на белтъци. Тази база данни съдържа повече от 4800 консервативни семейства белтъци (COGs) от всеки от напълно секвенираните геноми. Всеки клъстер от ортоложна група (COG) съдържа ортоложен набор от белтъци от поне три филогенетични линии, за които се предполага че са се развили от един общ предшестващ белтък. По определение, ортолозите са гени, имащи вертикален еволюционен произход („същият“ ген в различни видове), докато паралозите са гени, получени в резултат на дуплициране в рамките на генома. Тъй като ортолозите обикновено изпълняват една и съща функция във всички организми, обособяването на семейства от гени ортолози позволява прехвърлянето на анотации за функциите на гени от добре изучени организми към по-слабо изучени такива. Белтъчните семейства в COG базата данни са разделени на 25 функционални групи, които включват както групи на все още не характеризирани консервативни белтъци, така и групи белтъци, на които е прогнозирана само основната функция (Фиг.2). Този сайт е особено полезен за предсказване на функциите на белтъци в случаите, когато двата белтъка имат ниска степен на сходство. Поради голямото разнообразие на белтъци в COG базата данни, търсенето за сравняване на секвенции спрямо тези поместени в COG базата данни, често подпомага прогнозирането на функцията на даден белтък, за който няма достатъчно информация в други бази данни.

Фиг. 2. Функционални категории на Bacteroides thetaiotaomicron VPI-5482 в СOG

Фиг. 2. Функционални категории на Bacteroides thetaiotaomicron VPI-5482 в СOG

KEGG

Информацията в Kyoto Encyclopedia of Genes and Genomes (KEGG) базата данни е насочена към клетъчния метаболизъм. Тя представлява изчерпателен набор от данни за метаболитните пътища, главни и специфични, на всеки от изцяло секвенираните геноми, както и за тези на Schizosaccharomyces pombe, Arabidopsis thaliana, Drosophila melanogaster, мишка и човек. Ензимите, които са били вече идентифицирани в един организъм са цветно кодирани, така че пътищата, които присъстват или липсват в даден организъм да могат да бъдат лесно проследени (Фиг. 3). В KEGG, освен информация за метаболитните пътища, е е достъпна и информация за ортоложните гени, кодиращи ензимите, участващи в тях. Посочено е също така дали тези гени са съседни и образуват вероятни оперони. Много удобен инструмент за търсене позволява на потребителя да сравнява два пълни генома и да идентифицира всички случаи, в които консервативните гени в двата организма са съседни или са разположени относително близо (в рамките на 5 гена). Уеб-сайта на KEGG се обновява непрекъснато и служи като основен източник на информация при анализа на метаболизма на различни организми.

Фиг. 3. Метаболитни пътища на глицерофосфолипидния метаболизъм

Фиг. 3. Метаболитни пътища на глицерофосфолипидния метаболизъм

MBGD

Микробиалната Геномна база данни (MBGD) предоставя друг удобен инструмент за сравнителен анализ на изцяло секвенирани микробиални геноми, чиито брой бързо нараства през последните години (Фиг. 4). В тази база данни, хомоложните взаимоотношения се основават само на сходство в секвенциите (BLASTP стойности от 10-2 или по-малко). MBGD позволява да се въведат няколко секвенции наведнъж (до 2000 остатъка) и да се проведе търсене срещу всички напълно секвенирани геноми. Резултатът се представя като цветно-кодирани функции на намерените хомолози и показва тяхното местоположение на кръгова геномна карта. Резултатите от BLAST търсенето на MBGD базата данни също показва степента на припокриване между подадената заявка и целевите секвенции. За всеки секвениран геном, MBGD базата данни предоставя удобни списъци на всички установени гени, които участват в определена функция, например биосинтеза на аминокиселини с разклонена верига или разграждане на ароматни въглеводороди.

Фиг. 4. Главна страница на MBGD базата данни

Фиг. 4. Главна страница на MBGD базата данни

Организмово-специфични бази дани

В допълнение към геномните бази данни, съществуват и множество бази данни за конкретен организъм или групи от организми. Въпреки че всички те се използват за конкретни цели, тези, касаещи E. coli, B. subtilis и дрожди са вероятно едни от най-широко използваните за прогнозиране на функции при други, по-слабо изучени организми.

Escherichia coli. Значението на E. coli за молекулярната биология е свързано с голямото количество данни, които са натрупани за този организъм. Част от тях се поддържат в Университета на Уисконсин-Медисън от изследователски групи, които са извършили секвениране на генома на Е. coli (Фиг. 5). Колективът в Уисконсин участва също в секвенирането на генома на ентеропатогенния щам E. coli O157:H7 и други ентеробактерии, така че тяхната база данни е много полезна при провеждането на анализи на ентиропатогени. Друга добра база данни за E. coli е EcoCyc. Тя съдържа всички експериментално установени гени на E. coli и предлага информация за характеризираните метаболитните пътища при нея. Целта на друга база данни за E. coli, Bacteriome, е да предоставя данни за интегрирани белтъчни взаимодействия като част от функционалните такива в E. coli, заедно с експериментални данни получени чрез техниката за откриване на тандемни повтори. Накрая, Colibri и GenExpDB са бази данни, съдържащи информация за регулаторните мрежи при E. coli. Уеб-сайтът на E. coli Genetic Stock Center (CGSC) също предлага информация за гените и тяхната функция.

Фиг. 5. Геномен проект на E.coli

Фиг. 5. Геномен проект на E.coli

Mycoplasma genitalium. Mycoplasma притежава най-малкия геном от всички известни клетъчни форми на живот, който дава възможност да се правят предположения за най-малкия брой гени необходими за поддържане на живота (“минимален геном”). Неговото сравнение с втория най-малък геном, тази на Mycoplasma pneumoniae, е достъпно онлайн. Последните данни от VFDB базата данни дават възможност за задълбочено проучване на гените на Mycoplasma, които могат да мутират без загуба на жизнеспособността на организма (Фиг. 6). Резултатите получени от изчислителния анализ и изследванията на мутагенезата, показват че за поддържане на жизнеспособността на микоплазмите са необходимите само 250-300 гена.

Фиг. 6. VFDB геномна база данни за Mycoplasma

Фиг. 6. VFDB геномна база данни за Mycoplasma

Bacillus subtilis. Геномът на B. subtilis също представлява огромен интерес за биолозите, и подобно на този на E. coli, е активно изучаван от гледна точка на неговата функция. Световният уеб-сървър SubtiList, поддържан от Института „Пастьор“, е постоянно актуализиран с най-новата информация за функцията на гените при B. subtilis. В допълнение, базата данни DBTBS съдържа изчерпателна информация за регулацията на транскрипцията при Bacillus subtilis и интегрирана информация за неговата консервативност.

Saccharomyces cerevisiae. Най-голямата база данни, специализирана във функционален анализ на генома на дрожди S. cerevisiae е Saccharomyces Genome Database (SGD) (Фиг. 7). Тя предоставя актуализирана информация за дрождеви белтъци с известни или прогнозирани функции, съответните връзки и мутантни финотипи, и отразява непрекъснатите усилия за пълното охарактеризиране на всички дрождеви белтъци. SGD базата данни е вероятно най-големият и най-пълен източник на информация за текущото състояние на дрождевия геном и включва Регистър на гените на Saccharomyces.

Други полезни сайтове за анализ на дрождевия геном са Saccharomyces cerevisiae Promoter Database, предоставяща информация за регулаторните елементи и транскрипционните фактори при дрожди, както и Saccharomyces Cell Cycle Expression Database, представяща първите резултати за настъпващи по време на жизнения цикъл на Saccharomyces промени в иРНК на транскрипционно ниво.

Фиг. 7. Геномна база данни за Saccharomyces

Фиг. 7. Геномна база данни за Saccharomyces

Фиг. 7. Геномна база данни за Saccharomyces

ГЕНОМЕН АНАЛИЗ И АНОТИРАНЕ

Една от ограничителните стъпки в повечето геномни проекти е секвенционния анализ и анотирането на целия геном. Тази задача е особено трудна като се има предвид липсата на информация за функцията на голям брой от гените, дори и при най-добре проучените организми. Структурно-функционалното анотиране на нехарактеризирани белтъци включва следните стандартни етапи:

  • Откриване на сходство в секвенциите чрез използването на програми като BLAST, FASTA или алгоритъма на Смит-Уотърман;
  • Идентифициране на функционални мотиви и структурни домейни чрез сравняване на белтъчната секвенция сред базите данни PROSITE, BLOCKS, SMART или Pfam;
  • Прогнозиране на структурните особености на белтъка, такива като сигнални пептиди, трансмембранни сегменти, мотиви на „усукана спирала“ (coiled-coil) и други области с ниска степен на сложност; и
  • Прогнозиране на вторичната (и, ако е възможно третичната) структура.

    Всички тези стъпки са автоматизирани от няколко софтуерни пакета, такива като GeneQuiz, MAGPIE, PEDANT, Imagene и други. От тях обаче, MAGPIE и PEDANT не позволяват на потребителите да подадат свои собствени секвенции за анализ и показват само заложените в програмата резултати. GeneQuiz дава възможност само за ограничен брой търсения (до 100 на ден) на обикновените потребители, но все пак е добра отправна точка при сравнителния геномен анализ. Този софтуерен пакет се основава на множество допускания при откриване на хомология между секвенциите, поради което неговите резултати са с ниска чувствителност. SEALS пакета, разработен от NCBI понастоящем е безплатен за свободно изтегляне от сайта. Той се състой от редица UNIX-базирани инструменти за извличане на секвенции от GenBank, стартиране на програми за търсене сред базите данни, такива като BLAST, визуализиране и анализиране на получените от търсенето резултати, търсене на секвенционни мотиви и прогнозиране на особеностите на белтъчната структура. Подобен пакет, наречен Imagene, е разработен от Universite´ Paris VI.

Геномни сравнения за предсказване на функцията на белтъците

Резултатите от сравнителния анализ на първите секвенирани геноми от бактерии, археи и еукариотни организми не успяха да предскажат функцията на белтъците на около една трета от продуктите на гените в никой от изследваните геноми. В този случай могат да бъдат приложени и подходи, използващи всички други налични данни и разглеждайки ги в „контекста“ на генома. Тези подходи се основават на принципа, че организацията на генетичната информация във всеки отделен геном отразява дългата еволюционна история на мутации, дуплициране на гени, пренареждане на гени, дивергенция на функцията на гените, придобиване и загуба на гени, определящи адаптивния отговор на организма към условията на околната среда и регулирането на метаболизма в съответствие с тях. В този смисъл, наличието на кръстосано-геномни сходства между изследваните геноми могат да бъдат разглеждани в техния еволюционен смисъл и така да бъдат използвани при извършването на функционален анализ. Най-разпространените методи за сравнение използват информация получена от множество геноми, като по този начин се постига висока надеждност и чувствителност, които не могат да бъдат лесно достигнати чрез стандартните инструменти. Някои от тези нови подходи са разгледани накратко по-долу.

Пренос на функционална информация

Най-лесният и най-често прилаган подход за използване на данни, получени от множество геноми, е преносът на информация за функцията на генома от добре характеризиран геном към друг по-слабо проучен. Казано по друг начин, това означава правене на предположения относно функционалността на новосеквенирания ген въз основа на получени резултати от базите данни. При прилагането на този подход обаче съществуват много възможности за грешки. Най-важната от тях е свързана с липсата на достатъчна чувствителност. Основните причини са неправилните или неточни анотации в базите данни и трудностите при разграничаването на ортолози от паралози. Определянето на едни гени като паралози или ортолози е от важно значение, тъй като преносът на функционална информация може да бъде надежден само при ортолози (преки еволюционни копия) и не толкова достоверна при паралози (продукти на генна дупликация). Всички тези проблеми са разрешени отчасти от системата COG, която се състои от прецизно анотирани групи от вероятни ортолози и не разчита на вероятностни допускания за причисляването на нови белтъци към тях.

Клъстерите от ортоложни групи (COGs) могат да бъдат използвани за анотирането на новосеквенирани геноми чрез прилагането на програмата COGNITOR. Тази програма разпределя новите белтъци като сравнява техните последователности с тези на всички геноми включени в COG базата данни и определя най-добрите геномно-специфични съвпадения (BeTs). Когато три или повече такива съвпадения BeTs попаднат в един и същи клъстер COG, се приема, че подаденият нов белтък вероятно принадлежи към този COG. Изискването за множество съвпадения, за да попадне даден белтък в даден клъстер COG е необходимо за да се избегне натрупването на грешки, които могат да съществуват в самата база данни COG. Всъщност, ако COG има един или дори два фалшиво положителни резултата, това не би довело до погрешно причисляване от COGNITOR, тъй като при неговото опериране се спазва правилото за три или повече BeT съвпадения.

Филогенетични модели (профили)

Прилагането на COG анализа на множество геноми се използва за определяне на корена при филогенетичните модели, които в много аспекти са важни за геномния анализ и анотирането. Филогенетичният модел на всяко белтъчно семейство (COG) се определя като набор от геноми, в които е представено даденото семейство. Базата данни COG е придружена от набор от инструменти, които позволяват на потребителя да избере клъстер от ортоложни групи (COG) с конкретен модел. Въз основа на това се приема, че гени, които са функционално свързани, вероятно имат един и същ филогенетичен модел. По този начин, филогенетичните модели могат да бъдат използвани за подобряване на функционалното прогнозиране на цели геноми. Когато конкретен геном е представен в определен COG като подгрупа на компоненти, но липсва друга група компоненти, то е необходимо по-задълбочено изучаване на липсващите елементи. Същият подход се прилага и в случаите, когато даден ген е открит в един от два близко свързани генома, но не и в другия.

Използване на филогенетичните модели за откриване на конкретен геном

Подходът на филогенетичните модели, и по-специално, подходът за търсене, свързан с клъстера на ортоложни групи (COG), може да бъде използван за извършване на систематични логични операции (И, ИЛИ, НЕ) при набор от гени – или така нареченият подход „откриване на определен геном“. Този тип на геномно сравняване позволява да се очертаят подгрупи от генни продукти, които вероятно определят специфични характеристики на изучаваните организми, например при термофили. Прилагането на този подход представлява особен интерес при определянето на възможните мишени на лекарствени препарати при патогенни бактерии. Ето защо изглежда напълно логично търсенето на такива мишени сред гени, които се срещат при различни патогенни организми, но не се откриват при еукариотни организми. Освен това се предполага, че най-добрите мишени за новите антимикробни широкоспектърни агенти биха били гени, които са срещат във всички патогенни микроорганизми, но не и в други организми. Въпреки това, такива гени изглежда не съществуват. Във връзка с това, най-доброто решение при търсенето на възможни универсални антимикробни агенти е да се изолират гени, които се срещат в повечето от патогените, но не и в еукариотните организми.

Изучаване на свързването на гени (домейни)

Друг наскоро развит подход за сравняване на геноми включва системен анализ на белтъци и свързването (и разделянето) на домейни. Основната хипотеза при този подход, е че свързването ще се запази в хода на еволюцията само когато улеснява функционалните връзки между белтъците, например кинетичното свързване на последователни ензими в даден метаболитен път. По този начин белтъци, които са свързани в дадени организми, се очаква да взаимодействат, вероятно физически или поне функционално, и в други организми. Такива функционални връзки могат да бъдат описани при свързването на домейни в хистидиновия биосинтетичен път, който при E. coli и H. influenza включва два двудомейни белтъка, HisI и HisB. Двата домейна на HisI катализират две последователни стъпки от биосинтезата на хистидин и представляват физически взаимодействащи си субединици, дори когато се синтезират като отделни белтъци. Обратно, двата домейна на HisB катализират седмата и деветата стъпка от метаболитния път и изглежда е малко вероятно да си взаимодействат физически. Базата данни COG включва около 700 отделни многодомейнни структури. По този начин, използването на домейнното свързване за функционално предсказване притежава значителен емпиричен потенциал, въпреки че този подход не би бил приложим за „смесени“ домейни, какъвто е ДНК-свързващия мотив спирала–завивка-спирала, който може да бъде открит в комбинация с множество други домейни.

Освен това наскоро бяха разработени няколко бази данни за откриване на домейни и изучаване на архитектурата на многодомейни белтъци: Pfam, ProDom и SMART.

От всички тях, SMART базата данни е най-добре развитата и съчетава висока чувствителност и точност при определянето на домейни, висока скорост и добра информативност при представяне на архитектурата на домейна. Понастоящем, бързо търсене на белтъчни домейни, базиращо се на модификации на програмата PSI-BLAST е достъпно и чрез базата данни Conserved Domains Database (CDD) на NCBI.

Анализ на оперони

Подход, подобен на анализа на генните свързвания, но по-общ, включва системен анализ на гените „съседи“ в генома. Тъй като функционално свързаните гени често образуват оперони в бактериите и археите, генното „съседство“ може да предостави ценна информация за прогнозирането на тяхната функционалност. Често обаче, много функционално свързани гени никога не образуват оперони, и в много случаи, съседните гени не са свързани функционално. Поради липса на пълна консервативност на реда на гените при прокариотите, наличието на два съседни ортоложни гена в три или повече генома или наличието на три съседни ортолози в два генома, може да се счита за статистически значимо и да бъде използвано, за да се определи възможната функционална връзка между продуктите на тези гени. Най-лесният инструмент за определяне на консервативни гени в които и да е два генома е достъпен като част от KEGG. Той позволява на потребителя да избере които и да са два пълни генома (напр., B. burgdorferi и R. prowazekii) и да търси всички гени, чиито продукти са подобни едни на други и са разположени на определено разстояние един от друг (например, на разстояние от 0 - 5 гена). Резултатът се представя в графичен формат и показва реда на гените и предполагаемите функции на техните продукти. Запазването на позицията на гените във филогенетично отдалечени бактерии позволява да се правят предположения за функционалните връзки между тях.

ПРИЛОЖЕНИЕ НА СРАВНИТЕЛНАТА ГЕНОМИКА – РЕКОНСРУИРАНЕ НА МЕТАБОЛИТНИ ПЪТИЩА

За онагледяване на описания по-горе геномен анализ е представена реконструкция на гликолитичния метаболитен път при археята Methanococcus jannaschii. Метаболитната реконструкция е един от най-важните крайни етапи на всички геномни анализи и обединява данни получени чрез различни методи. Както става ясно от общата схема на биохимичните пътища, представена в интерактивна форма на уеб-сайта на KEGG (Фиг. 8), гликолизата е един от централните пътища на клетъчния метаболизъм.

Фиг. 8. Гликолиза в KEGG базата данни

Фиг. 8. Гликолиза в KEGG базата данни

Имената на всички ензими и метаболити на тази карта притежават хиперлинк и по този начин могат да бъдат търсени в уеб-пространството. Имената на ензимите са свързани с информация за тях. Тя включва имената на ензима и съответната реакция, която катализира, официалните ЕС номера според Международната класификацията на ензимите, независимо дали са известни или не техните белтъчни последователности. Така например, кликването върху „хексокиназа“ ще отвори съответната страница (Фиг. 9).

Фиг. 9. Информация за хексокиназата

Фиг. 9. Информация за хексокиназата

Натрупване на грешки и непълна информация в базите данни

Базите данни за секвенции могат да доведат до натрупването на грешки, тъй като грешната анотация на един белтък води до множество нови грешки при използването й за анотирането на нов геном. Освен това, търсенето в базите данни също води до увеличаване на грешките, тъй като, макар първоначалната анотация да е имала малки неточности и непълноти, последващото й прехвърляне към други геноми въз основа на сходство в последователностите води до нарастване на неточностите и съответно, получените резултати са погрешни по отношение на геномната функционалност. Тези проблеми при секвенционните бази данни утвърждават практиката за прогнозиране на функциите на генните въз основа на най-добрите резултати за анотации в базите данни (или дори групи от резултати за съответните анотации). Коректното геномно анотиране е трудоемък и времеемък процес, които изисква всеки ген да бъде разглеждан по отношение на неговите филогенетични връзки и биологията на съответния организъм. Това води до погрешно геномно анотиране от различните автоматизирани системи. Съществуват многобройни причини, поради които функционалната геномна анотация да не бъде точна, но двете най-големи групи са свързани с методите за търсене в базите данни и със сложността и многообразието на самите геноми.

Фалшиво положителни и фалшиво отрицателни резултати при търсенето в базите данни

Обикновено, при геномното анотиране, се използва ограничаване на т. нар. „статистически значими“ резултати от търсенето в базите данни. Тези изключвания обикновено касаят вероятни фалшиво-положителни стойности (E) за търсения чрез BLAST, като най-често задаваните стойности са E = 0.001 или E = 10-5. Проблемът при този подход е, че резултатите за еволюционно и функционално сходство при подравняване на секвенции са много и често пъти налагането на такива ограничения по отношение на Е-стойностите е трудно, което води до затруднения при откриване на вероятни връзки и функционално прогнозиране (фалшиво отрицателни). От друга страна, фалшивите резултати от търсенето могат да имат по-ниски от зададените ограничителни Е-стойности, което определя полученият резултат като фалшиво положителен. Фалшиво положителни резултати се получават най-често при наличието на композиционни отклонения (ниско-комплексни области) при зададената секвенция и на секвенциите в базите данни. Ето защо трябва да се търси компромис между чувствителност (фалшиво отрицателни) и селективност (фалшиво положителни) при търсенето в базите данни, което е трудно да бъде оптимизирано при анализ на цели геноми. Не съществува просто решение на този проблем.

За да се сведе до минимум наличието на фалшиво положителните резултати, прилагането на подходящи процедури за ограничаване на ниско-комплексните области при търсенето на секвенции е от важно значение. Това ограничение може да бъде постигнато чрез използването на програмата SEG, която е заложена по подразбиране за уеб-базираните BLAST търсения, но за някои видове белтъци е оправдано и залагането на допълнителни ограничения. Така например, един от начините за намаляване на фалшиво положителните резултати е чрез използването на програмата SEG със заложени специфични параметри за ограничаване за прогнозни неглобуларни домейни и чрез програмата COILS2 за ограничаване за домейни на „усукана спирала“. Намаляването на фалшиво отрицателните резултати (т.е., увеличаване на чувствителността) е проблем, който все още не е разрешен. Трябва да се има предвид, че стандартните търсения в базите данни с белтъчни секвенции (напр., използването на BLAST), кодирани в дадения геном като заявка, е недостатъчно за правилното анотиране. За повишаване на чувствителността на геномния анализ, той трябва да бъде допълнен с други методи като скриининг на набор от белтъчни секвенции на дадения геном с предварително обособени библиотеки от профили.

Контекстът на генома, белтъка и организма като източник на грешки

Както бе описано по-горе, архитектурата на белтъчните домейни, геномът и биологията на организма могат да бъдат източник на важна, дори и индиректна, функционална информация. Въпреки това, те притежават някои особености в контекста, които ако бъдат разтълкувани погрешно, могат да доведат до възникването на грешки и неясноти в геномната анотация. Стандартните програми за търсене в базите данни не притежават способност ясно да определят следствията от многодомейната структура на белтъците. Следователно, при анотирането на геноми, прехвърлянето на функции от белтък с един домейн към негов хомолог с много домейни е коректно само ако бъдат използвани специализирани инструменти, такива като SMART или COGs и/или получените резултати бъдат внимателно анализирани. Например, подвижните домейни могат да предизвикат хаос при процеса на анотиране, както е наблюдавано например при пролиферацията на ‘‘IMP-дехидрогеназо-свързани белтъци“ в някои геноми. В действителност, повечето от тези белтъци (в зависимост от генома) споделят с IMP дехидрогеназата мобилен CBS домейн, но не и обща ензимна част.

Както беше дискутирано преди, от съществено значение за правилното анотиране на генома е да бъде взета под внимание и биологията на организма. Например, не е желателно да бъдат анотирани продукти на гени от архей, такива като нуклеоларни белтъци, дори ако техните еукариотни хомолози са коректно описани като такива. Като общо правило при функционалното анотиране трябва да се има предвид, че съвременните методи за геномен анализ, дори най-мощните и прецизни, улесняват, но не заместват работата на експерта изследовател.

ЗАКЮЧИТЕЛНИ БЕЛЕЖКИ

С нарастване броя на изцяло секвенираните геноми и развитието на специализирани инструменти за геномно сравняване, сравнителният подход се превръща в най-мощната стратегия за геномен анализ. Изглежда, че в бъдеще ще бъдат развити разнообразни бази данни и инструменти, които да организират геномните данни според филогенетични, функционални или структурни принципи и да използват многообразието на геномите, за да увеличат значимостта на този тип анализи. Много етапи от геномния анализ могат да бъдат автоматизирани, и предвид бързо нарастващия обем от данни, автоматизацията е от съществено значение за напредъка на геномиката. Крайният успех на геномния анализ и анотирането зависят съществено от комплексни решения, базирани на разнообразие от данни, включващи и биологията на организма. Следователно, геномния анализ и анотирането разглеждани като едно цяло, поне за сега, не е напълно автоматизиран процес, и е необходим човешки опит за избягването на грешки и извличането на възможно максимална информация от геномните секвенции.

Funding

Disclaimer

The European Commission support for the production of this publication does not constitute endorsement of the contents which reflects the views only of the authors, and the Commission cannot be held responsi-ble for any use which may be made of the information contained therein.