LO2: Сравнявания и филогенетични дървета

Биоинформатични подходи

Съществуват редица инструменти и приложения, с помощта на които се изучават белтъчните и ДНК последователности, най-богатия тип биологични данни, достъпни по електронен път. Тяхното значение за биологията е водещо, тъй като сравняването на двойки последователности е най-често използваната техника в изчислителната биология. Тя позволява създаването на хомоложни модели въз основа на построени еволюционни дървета и идентифицирани характерни особености на белтъчни семейства. Тя е от ключово значение и за по-големи проекти, сравняващи геноми, с цел определяне на връзките между геномната информация и наличните експресионни данни.

Типът анализи, които могат да се извършват на базата на секвенционните данни, са:

  • Анализ на едноверижни секвенции и тяхното характеризиране
  • Сравняване на двойки севенции и търсене на специфични ДНК и/или белтъчни последователности
  • Сравняване на множество секвенции
  • Откриване на секвенционни мотиви при сравняване на множество секвенции
  • Филогенетични анализи

Сравняването на двойки последователности е основното средство за свързване на данните от генома с тяхната вероятна биологична функция, както и за релация на получената информация от един геном на друг. Техниките за анализ на биологични последователности е един от най-значимите подходи за оценка на данни от различни секвенции. Понастоящем съществуват няколко софтуерни инструменти за сравняване на двойки последователности. Някои от тях са представени в таблица 1.

Таблица 1. Инструменти и техники за секвенционен анализ

Какво мога да правя? Защо да го правя? Какъв инструмент да използвам?
Откриване на гени Идентифициране на вероятни кодиращи региони в геномна ДНК GENSCAN, GeneWise, PROCRUSTES, GRAIL
Детекция на специфични ДНК характеристики Локализиране на сайтове за сплайсинг, промотори и секвенции, отговорни за регулацията на генната експресия CBS Prediction Server
ДНК транслация и обратна транслация Превръщане на ДНК последователност в белтъчна или обратното "Protein machine" server at EBI
Сравняване на двойка секвенции (локално) Локализиране на къси хомоложни региони в двойка дълги секвенции BLAST, FASTA
Сравняване на двойка секвенции (глобално) Откриване на най-доброто съответствие между две секвенции ALIGN
Търсене в базата данни, използвайки сравняването на двойка секвенции Откриване на съответствия в секвенции, които не са открити чрез търсене с ключови думи; откриване само на тези съответствия, които имат хомология в секвенциите BLAST, FASTA, SSEARCH

Механизми на молекулярната еволюция

Откриването на ДНК като молекулярна основа на наследствеността прави възможно разбирането на процеса на еволюция по един изцяло нов начин. Известно е, че мутациите възникват най-често в различни части на организмовата ДНК: в гени, кодиращи белтъци или функционални молекули РНК, или в регулаторни последователности, които определят дали даден ген ще се експресира или не, или в “нищото“, т.е. в некодиращи участъци, разположени между генните последователност. Мутации могат да доведат до значителни изменения във фенотипа на организма, както и да нямат видим ефект. С течение на времето, хиляди или милиони години, мутации, които са полезни или най-малкото не са вредни за дадения вид, се фиксират в популацията.

Чрез сравнително изследване на ДНК последователности, и в по-голям мащаб на цели геноми, е възможно да се разработят количествени методи, определящи кога и как дадено мутационно събитие е настъпило, както и как и защо то се е запазило в генома на изследваните видове и популации. Геномиката и биоинформатиката правят възможно изучаването на еволюционната история - еволюционните връзки, съществуващи между различните видове. Промяната на нуклеотидния или аминокиселинен остатък в дадена позиция се оценява като се използва т. нар. понятие „резултат“ (“score”) (например положителен „резултат“ се отчита при съвпадение на нуклеотидния или аминокиселинен остатък, отрицателен - при разминаване). Наличието на инсерции и делеции води до намаляване стойността на „резултата“, поради поява или разширяване на участъци / разриви с липса на каквото и да е съответствие („gaps”).

Детекция на гени и характерни особености на ДНК

След като даден голям участък от ДНК е бил картографиран и секвениран, следва установяването на неговата функция. Анализът на единични ДНК последователности с цел установяване на специфични функции е бързо развиваща се област в биоинформатиката. Съществуват две основни причини, поради които детекцията на гени и установяването на специфични функционални особености на ДНК е особено трудно. На първо място, съществуват голям брой белтък-ДНК взаимодействия, много от които все още не са експериментално характеризирани, а някои се различават от организъм до организъм. Допълнително, не винаги е известна нуклеотидната последователност, която е отговорна за свързване с белтъка. Наличните алгоритми за откриване на промотори дават около 20-40 неверни положителни резултати на всеки реално идентифициран промотор. Някои белтъци се свързват със специфични последователности, други са по-гъвкави по отношение на сайтовете за свързване. За да се усложнят нещата още повече, белтъците могат да се свързват в една част от дадена хромозома, но да повлияват процесите на транскрипция в съвсем различен регион, разположен на стотици или хиляди базови двойки разстояние един от друг.

Програмите за детекция на гени „Genefinder” идентифицират (или се опитват да идентифицират) всички отворени рамки за четене в неанотирана ДНК. Те използват различни подходи за откриване на гени, но най-успешните са тези, които комбинират наличието на конкретна базова последователност и модел. Методите, базирани на наличието на конкретни базови последователности, се основават на изчисляване на вероятността разпределението на нуклеотидите в даден ген да е различено в сравнение с други, некодиращи участъци. От друга страна, методите за разпознаване на модели търсят характерни нуклеотидни последователности, свързани с наличието на ген (старт и стоп кодони, промотори, сплайс сайтове). Понастоящем новите поколения програми за откриване на гени комбинират и двата подхода, използвайки и допълнителна информация от типа като генна структура или последователности от други, известни гени.

Някои програми за откриване на гени са достъпни само чрез уеб-интерфейс, което улеснява работата с тях: последователността, която трябва да се изследва за наличието на структурни гени се въвежда в програмата, информацията се обработва и крайния резултат се връща обратно за относително кратко време. От една страна, това елиминира нуждата за инсталиране и поддръжка на такава програма на вашата компютърна система и осигурява относително единен интерфейс за различните изследвания. От друга страна, ако имате намерение да се позовете на резултатите от такава програма, вие трябва да отделите време да разберете основната на алгоритъма, дали моделът е специфичен за даден вид или семейство от гени, и в случай на модели, базирани на конкретни базови последователности, трябва да се знае кои са те.

Някои често използвани програми при откриването на структурни гени са разработената в националните лаборатории на Оак Ридж програма GRAIL, GENSCAN, PROCRUSTES и GeneWise. GRAIL извършва обработката на информация от различни модели и дадена налична нуклеотидна последователност с помощта на невронни мрежи. Genscan осъществява статистическа обработка на дадени налични нуклеотиди съчетано с вероятностен модел на генната структура. PROCRUSTES и GeneWise намират отворени рамки за четене като превръщат ДНК последователността в белтъчна и сравняват получените данни с известни белтъчни последователности. PROCRUSTES сравнява потенциални ORFs с близки хомолози, докато GeneWise сравнява даден ген срещу една последователност или модел на цяло семейство белтъци.

Детекция на специфични особености

В допълнение към тяхната роля за откриване на структурни гени, горепосочените алгоритми могат да се използват и за установяване на модели в ДНК последователностите. Често, тези програми помагат и при характеризиране на току-що секвенирана ДНК, за избор на PCR праймери или за конструиране на микрочип олигомери. Такива са например Центъра за анализ на биологични секвенции в Дания (Center for Biological Sequence Analysis at the Technical University of Denmark), CodeHop сървара на Центъра за изследване на рака “Фред Хътчинсон“ (CodeHop server at the Fred Hutchinson Cancer Research Center), и Колекцията от приложения на Европейският биоинформатичен институт (Tools collection at the European Bioinformatics Institute). В допълнение към тях, друг популярен подход е използването на програми, откриващи мотиви, така че автоматично да бъдат установени общи модели в изследваните ДНК последователности.

ДНК транслация

Преди да се синтезира даден белтък, неговата последователност трябва да бъде получена от тази на ДНК. Всяка ДНК последователност може да бъде преведена по шест различни възможни начина. Последователността може да се преведе назад и напред. Тъй като всяка аминокиселина в белтъка се определя от три базови двойки в ДНК последователността, има три възможни превода на всяка ДНК последователност във всяка посока: един започваща с първия знак в последователността, като се започне от втората база, или от третия знак.

Фигура 1 показва “обратен превод” на белтъчна последователност (показан в горния ред) в ДНК, като се използва бактериален и пластиден генетичен код. Въпреки това, природата е групирала кодоните повече или по-малко "разумно". Например, аланина ( А ) е определен винаги от "GCX" кодон, аргинина ( R ) - или чрез "CGX" кодон или чрез "AG - пиримидин" кодон, и т.н. Това намалява броя на потенциалните последователности, които трябва да бъдат проверени, ако например сте се опитали да напишете програма за сравнение на белтъчни последователности към ДНК база данни.

Най-ефективното решение на този проблем от компютърна гледна точка е просто да се преведат данните за ДНК последователността във всичките шест четящи рамки.

Фигура 1. Обратен превод на белтъчна последователност в ДНК

Фигура 1. Обратен превод на белтъчна последователност в ДНК

Не са открити маркери в ДНК последователността, които да показват, къде един кодон свършва и започва следващия. Следователно, ако местоположението на стартовия кодон е известно предварително, двойно-верижната ДНК последователност може да се тълкува по някой от шестте начина: отворената рамка за четене може да започне при нуклеотид i, в позиция i+1 или в позиция i+2 на изследваната или на комплементарната й верига. За да се отчетат различните възможности, когато белтък се сравнява с набор от ДНК последователности, последните се транслират във всичките възможни шест аминокиселинни последователности, и въпросната белтъчна последователност се сравнява с всички тях. Този превод се означава като "шест-транслационна рамка" и е показан на Фигура 2.

Фигура 2. ДНК последователност и нейното транслиране в три от възможните шест
рамки за четене

Фигура 2. ДНК последователност и нейното транслиране в три от възможните шест рамки за четене

Поради големия брой възможни кодони за дадена аминокиселина, обратната транслацията на белтък в ДНК последователност може да доведе до изключително голям брой възможни последователности. Въпреки това, наличието на голямо количество статистически данни за използването на различни видове кодони при дадени видове организми позволява да се предложи най-вероятната обратна транслация на дадена белтъчна последователност. В случай, че има нужда, за да се направи шест-рамков превод на дадена ДНК последователност или да се преведе даден белтък във всички възможни ДНК последователности, по-удачно е да се използва сървъра Protein Machine към Европейския Биоинформатичен Институт (ИБЕ).

Сравняване на двойки последователности

Сравняването на белтъчни и ДНК последователности е една от основите задачи на биоинформатиката. Възможността да се изпълняват бързи автоматизирани сравнения на секвенции улеснява всичко: от установяване на функцията на новосеквенирана последователност, през предвиждане и изграждане на модел на белтъчната структура, до проектиране и анализ на експерименти за генна експресия. В резултат на акумулирането на множество данни за биологични последователности стана ясно, че природата е консервативна. Не се създава нова биохимия за всеки нов вид и не се появява нова функционалност в резултат от внезапната поява на цели клъстери от нови гени. Вместо това, появата на модификации във вече съществуващи гени води до генетично разнообразие и нови функции. Така откриването на сходство между две последователности позволява, макар и не винаги цялостно, да се прехвърля наличната информация от една последователност върху други, подобни на нея.

За да могат да се характеризират дадени нуклеотидни или белтъчни секвенции, първо е необходимо да се направи сравняване на техните последователности. Основната концепция за избор на оптимално сравняване на последователности е проста. Двете последователности се припокриват по произволен начин. Качеството на съвпаденията се оценява. Тогава едната последователност се премества по отношение на другата и броят на съвпаденията се оценява отново. Действието се повтаря дотогава, докато се намери най-добрият резултат („score”).

Въпреки че принципът изглежда прост, на практика това не е толкова лесно. Изборът на добро сравняване е възможно чрез използването на автоматизиран метод за намиране на оптимално сравняване. От друга страна, трябва да се отговори и на някои основни въпроса: Как трябва да бъдат оценени резултатите от сравненията? Една схема за точкуване може да бъде проста като съответствието се отбелязва с +1, а несъответствието с -1. Но трябва ли да се допускат обаче разриви в сравняването („gaps“), за да се получат по-добри резултати на друго място? Ако са позволени разриви, как трябва да бъдат отбелязани? Какъв е най-добрия алгоритъм за намиране на оптимално сравняване на две последователности? И когато сравнението е проведено, трябва ли то непременно да е значително? Може ли да се извърши сравняване на две произволни секвенции?

Фигура 3 показва три примери на сравняване. Във всяко подравняване на секвенциите, които се сравняват, те са показани една над друга, така че аминокиселинните остатъци, които съвпадат са подравнени. Подобните участъци са отбелязани с плюс (+). Информация за проведеното сравнение е представена в горната част на фигурата, включително процента на идентичност (броя идентични аминокиселинни остатъци, разделено на дължината на секвенцията) и получения резултат. Пропуските в едната секвенция отнесени към другата са представени с тире (-) за всяка позиция, при която е наблюдаван такъв пропуск.

Фигура 3. Три сравнявания: с висока скорост; с ниска скорост, но смислено; и
случайно

Фигура 3. Три сравнявания: с висока скорост; с ниска скорост, но смислено; и случайно

Първото сравняване е случайно, между две несвързанни последователности. В този случай, в допълнение към няколкото съвпадения и консервативни мутации са отворени големи разриви и в двете последователности. Второто сравняване е с най-висока скорост: то показва сравняване на два тясно свързани белтъка. При съпоставяне на този резултат с третия, получен от сравнението на два далечно свързани белтъка, се вижда, че при подравняването с ниска скорост са споделени повече идентични остатъци в сравнение със секвенциите от подравняването с висока скорост. Все пак, има няколко прилики или консервативни промени.

При сравняването на последователности, често се използват няколко различни термина. Три от най-важните са идентичност на последователностите, сходство на последователностите и хомоложнност на последователностите. Сходството на последователностите е смислено само ако възможните замествания са отбелязани в съответствие с вероятността, с която те се случват. Например, в белтъчните секвенции, аминокиселини с подобни химични свойства могат да се заместят една друга много по- лесно в сравнение с аминокиселини с различни свойства. Хомоложна последователност е по-общ термин, който показва еволюционна свързаност между две секвенции. Прието е да се говори за процент на хомология между две последователности, въпреки че този процент може да включва както еднакви, така и сходни аминокиселинни последователности. Накрая, хомоложната последователност се отнася до еволюционната свързаност между последователностите. Две последователности се казва че са хомоложни, ако те са получени от обща наследствена последователност. Термините сходство и хомология често се използват взаимозаменяемо, за да опишат дадени секвенции, но строго погледнато, те означават различни неща. Сходството се отнася до наличието на идентични и подобни аминокиселинни остатъка в двете последователности, докато хомологията отразява претенцията, че двете последователности споделят общ предшественик.

Матрици за оценяване

Най-важният резултат при сравняването на две последователности е дали приликата между тях е случайна, или смислена. Ако подравняването е смислено трябва да се прецени колко смислено е то. Това се постига чрез изграждане на матрица за оценяване. Матрицата за оценяване е таблица на стойности, които описват вероятността даден остатък (аминокиселинен или нуклеотиден) да се появи на определено място в сравнението. Стойностите в една матрица са логаритми от съотношението на две вероятности. Едната от тях е вероятността за поява на случайна аминокиселина при сравнението на последователности. Тази стойност е резултат от независимите вероятности за поява на коя да е от аминокиселините в дадена позиция. Другата е вероятността за появява на смислена двойка остатъци при сравняване на последователностите. Стойностите за тези вероятности в матрицата са получени в резултат на проведени действителни сравнения на последователности, за които е известно, че са смислени.

Фигура 4 показва пример за матрица BLOSUM45 използвана при сравняването на аминокиселинни секвенции.

Фигура 4. BLOSUM45 използвана за сравняване на аминокиселинни секвенции

Фигура 4. BLOSUM45 използвана за сравняване на аминокиселинни секвенции

Заместващите матрици за аминокиселини са сложни, тъй като те отразяват химичната природа и честотата на поява на дадена аминокиселина. Например, в матрица тип BLOSUM, глутаминова киселина (Е) има положителен резултат за смяна с аспарагинова киселина (D), както и с глутамин (Q). И двете замествания са химически консервативни. Аспарагиновата киселина има странична верига, която е химически подобна на глутаминовата киселина, въпреки че е с една метилова група по-къса. От друга страна, глутамина е подобен по размер структура на глутаминовата киселина, но е неутрален докато глутаминова киселина е отрицателно заредена. Заместващите резултати за глутаминова киселина с остатъци като изолевцин (I) и левцин (L) са отрицателни.

Заместващите матрици използвани за оценка на ДНК и РНК секвенции са много подобни. В повечето случаи е разумно да се предположи, че двойките A:T и G:C се срещат с приблизително еднаква честота. Най-често използваните заместващи матрици са матриците BLOSUM и PAM. Когато се използва програмата за сравнение BLAST е необходимо да бъде избрана матрица за сравнение. Повечето автоматизирани сървъри за сравнение предлагат матрици за сравнение, които е добре да бъдат използвани, тъй като те са най-подходящите.

BLOSUM матриците са извлечени от базата данни Blocks. Числената стойност (например, 62), свързани с матрица BLOSUM показва, че последователностите са групирани в един и същ клъстер, ако те са повече от 62% еднакви. Когато праговите стойности са по-ниски, такива матрици се използват за търсене на по-отдалечени еволюционни връзки. BLOSUM62 е стандартна матрица за подравнявания без разриви, докато BLOSUM50 по-често се използва при генерирането на подравнявания с разриви.

Друг тип са Point accepted mutation (PAM) матриците. Те се изграждат въз основа на еволюционното разстояние, изчислено при сравняването на тясно свързани последователности. Най-често използваната PAM матрица е РАМ250. Въпреки това, при сравняване на резултатите, получени чрез използването на PAM и BLOSUM матрици показва, че BLOSUM матриците са по-добри в откриването на биологично значими прилики.

Отчитане на разриви при сравняването

ДНК последователностите се променят не само поради настъпването на точкови мутации, но и посредством инсерции и делециии на бази или ДНК фрагменти. Следователно, често при сравняването на две секвенции е необходимо да се въведат разриви в едната или в двете последователности, за да може да се получи значимо сравнение между тях. Повечето алгоритми въвеждат т. нар. „gap panalties“, за да отчете наличието на разрив („gap“) при сравнението. Моделите за подравняване на последователности използват сродни подходи за оценка на наличието на разрив. При тях значението на отваряне на разрив в дадена последователност се оценява в зависимост от това каква е необходимостта да се разшири разрив, който вече е започнал. От двата параметъра - разрив за отваряне и разширяване на разрив – по-голямо негативно значение за крайния резултат от сравнението има отварянето на разрив, отколкото разширяването на вече съществуващ такъв. Резултати като -11 за отваряне на разрив и -1 за разширяване на разрива са често използвани при матрицата BLOSUM62.

Глобално сравняване

Една от възможностите за сравняване на две секвенции е по цялата им дължина. Алгоритъмът, който се използва за цели последователности, се нарича алгоритъм на Needleman-Wunsch. При него оптималното сравняване се осъществява чрез подравняване на подсеквенции с висок резултат, като се върви по матрицата от горния й ляв край към долния десен. Отбелязва се само пътя с най-висок резултат при сравняването, което води до оптимално подреждане.

Локално сравняване

Най-често използваните инструменти за сравняване на секвенции разчитат на стратегия наречена локално сравняване. При глобалното сравняване се приема, че двете последователности са известни и трябва да бъдат сравнени по цялата им дължина. В повечето случаи обаче, или се търси съответствие на дадена секвенция в цяла база данни от последователности, или се търсят частични сегменти, които да съответстват на много дълга ДНК последователност, която е част от генома. Например, при аминокиселинни или нуклеотидни секвенции, които имат известна еволюционна връзка, но които са дивергирали значително една от друга, единствените доказателства за общо произход могат да бъдат само къси хомоложни сегменти в техните последователности.

Алгоритъмът, който изпълнява локално сравняване на две последователности е алгоритъма на Smith-Waterman. При локалното сравняване не е необходимо да се върви от началото до края на двете последователности. Ако кумулативния резултат от сравняването до някакъв момент в последователността е отрицателен, то може да бъде спряно и да се започне ново такова от друга позиция. Подобно подравняването на секвенциите може също и да свърши някъде в матрицата.

Подходи за локално сравняване

Едино от най-често срещаните приложения на алгоритъма на Smith-Waterman за търсене в база данни е програмата SSEARCH, която е част от FASTA софтуера. LALIGN, също е част от FASTA пакета и използва алгоритъма на Smith-Waterman за сравняване на две последователности.

Секвенционни заявки в биологични база данни

Често сравняването на секвенции като метод се използва при търсенето на последователности в база данни, които са подобни на зададена секвенция. При тези търсения, се извършва сравняване на стотици или хиляди последователности от зададената секвенция, спрямо тези от базите данни за секвенции с дължина десетки хиляди последователности.

Търсене на базата на локално сравняване чрез използването на BLAST

До момента, най-популярният инструмент за търсене в секвенционни база данни е програмата, наречена BLAST (Basic Local Alignment Search Tool). Тя изпълнява двойки сравнения на последователности, търсейки райони на локално сходство, а не оптимални глобални сравнявания между цели последователности. BLAST може да проведе стотици или дори хиляди сравнения на последователности в рамките на няколко минути. За по-малко от няколко часа, въпросната последователност може да бъде сравнена с цялата база данни, за да бъдат намерени всички подобни секвенции.

BLAST алгоритъм

Търсенето с помощта на локално сравняване на последователности чрез стандартния алгоритъм на Smith-Waterman е сравнително бавен процес. Алгоритъмът BLAST, който ускорява локалното сравняване на секвенции, има три основни стъпки. Първо, той създава списък на всички кратки последователности (наречени „ДУМИ“), чиито резултати са над праговата стойност, когато се сравняват със заявената секвенция. След това започва търсене в секвенционната база данни за поява на тези „думи“. Тъй като дължината на една „дума“ е много кратка (3 аминокиселинни остатъка или 11 нуклеотидни остатъка), е възможно да се търсят всички думи и техните позиции в целия секвенционен набор на базата данни с по-висока скорост. След това тези съвпадащи „думи“, се разпределят в локални сравнявания между въпросната последователност и последователността от базата данни без наличие на разриви. Удължаването на сравняването продължава дотогава, докато резултатът от подравняването падне под допустимия праг. Най-добре съответстващите участъци или двойките сегменти с максимален резултат (MSPS) се съчетават в локални сравнявания. В допълнение към BLAST софтуерния пакет са въведени нови допълнения, които позволяват търсене на разриви при сравнението.

NCBI BLAST и WU-BLAST

BLAST алгоритъмът се използва под две форми: NCBI BLAST и WU-BLAST. И двете приложения могат да бъдат използвани като уеб-услуги или да бъдат изтеглени като софтуерни пакети. NCBI BLAST е на разположение от Националния център за биотехнологична информация (NCBI), докато WU-BLAST е алтернативна версия, която се базира на NCBI BLAST 1.4 и е разработена и се поддържа от Университета във Вашингтон. NCBI BLAST е по-често използвания вариант от двата типа BLASTA. Най-новите версии на тази програма са фокусирани върху разработването на методи за сравняване на множество секвенционни профили. WU - BLAST, от друга страна, е система разработена за обработка на разриви (gaps), както и на редица други функции, които са полезни за търсене на геномни последователности.

Различни BLAST програми

Четирите основни изпълними програми в BLAST са:

[blastall]

Извършва BLAST търсене, използвайки една от петте BLAST програми: blastp, blastn, blastx, tblastn, или tblastx

[blastpgp]

Осъществява търсене в PSI-BLAST или PHI-BLAST форма

[bl2seq]

Осъществява локално сравняване на две секвенции

[formatdb]

Конвертира плоски секвенционни файлове от FASTA формат в BLAST база данни

blastall обхваща всички основни опции за BLAST търсения на секвенци с или без наличието на разриви. Пълният списък на наличната информация може да се получи ако в командния ред се въведе blastall - :

[-p]

Име на програма. Възможностите включват:

blastp

Сравняване на заявка на белтъчна секвенция (PS) спрямо база данни на белтъчни секвенции (PS база данни)

blastn

Сравняване на заявка на нуклеотидна секвенция (NS) спрямо база данни на нуклетотидни секвенции (NS база данни).

blastx

Превод на нуклеотидна секвенция (NS) във всички шест рамки за четене и сравняване спрямо база данни на белтъчни секвенции (PS база данни).

tblastn

Сравняване на заявка на белтъчна секвенция (PS) спрямо нуклеотидна база данни (NS база данни), динамично превеждаща се във всички шест рамки за четене.

tblastx

Сравняване на преведена нуклеотидна секвенция (NS) спрямо изчислително преведена нуклеотидна база данни (NS база данни).

blastpgp позволява да се използват два нови режима на BLAST: PHI-BLAST (Pattern Hit Initiated BLAST) и PSI-BLAST (Position Specific Iterative BLAST). PHI-BLAST-а използва белтъчни мотиви, като тези в PROSITE и други база данни за мотиви, за да се увеличи вероятността за намиране на биологично значими съвпадения. PSI-BLAST използва итеративна процедура за сравняване (процедура, която се повтаря многократно), използвайки позиция-специфична матрица за оценяване, което увеличава възможността за откриване на участъци със слабо съвпадение.

bl2seq позволява сравнението на две познати секвенции чрез използването на blastp или blastn програмите. Повечето от опциите в командния ред за bl2seq са сходни с тези, за blastall.

Оценка на резултатите от BLAST

BLAST програмата осигурява три взаимосвързани части от информация, които позволяват получените резултати да се интерпретират: сурови резултати, байт резултати и Е-стойности.

Суровите резултати при локално сравняване на секвенции е съвкупност от резултатите, получени при сравняването на двойките сегменти, при които е установена максимална хомоложност (MSPS). Байт резултатите са суровите резултати, които са били преобразувани в бинарен логаритъм (log2 n). Е-стойността предоставя информация за това дали дадено сравняване на секвенции е значимо или не. По този начин, колкото по-голяма е E-стойността (5 или 10), толкова по-вероятно е съвпадението при сравняване да е случайно и следователно целевата секвенция е била подравнена с последователност в базата данни, която е нехомоложна. E-стойности от типа 0,1 или 0,05 обикновено се използват като праг при търсене в базата данни. Използването на по-високи E-стойност позволява да бъдат открити по-далечни съвпадения, което обаче води до по-висок процент на фалшиви сравнения. От трите стойности Е-стойноста се използва най-често в литературата.

Съществуват ограничения, отвъд които сходството между дадени последователности става неинформативно относно тяхната хомоложност. Счита се, че тази граница при сходство за белтъчни секвенции обикновено е по-ниско от 25% от цялата им дължината. В случаите, когато дадени белтъчни секвенции са с нисък процент подобност, но които все още се смята, че са еволюционно свързани, се налага използването на структурни методи за анализ, които да докажат наличието на такава връзка. Когато структура е неизвестен, секвенциите с ниско сходство са категоризират като несвързани, но това може да означава само, че еволюционното разстояние между тези последователности е толкова голямо, че връзката не може да бъде открита.

Локално сравняване чрез FASTA

Друг метод за локално сравняване на секвенции е FASTA алгоритъма. FASTA предшества BLAST, и подобно на BLAST, е на разположение както като уеб-услуга, така и като набор от програми, които могат да бъдат изтеглени на компютъра.

FASTA алгоритъм

FASTA програмата първо извършва търсене на кратки последователности (наречени ktups), които се откриват и в изследваната секвенция, и в базата данни. След това с помощта на матрицата BLOSUM50, алгоритъмът оценява 10 сравнявания без разриви, които съдържат най-идентични ktups. Тези сравнявания без разриви се тестват за способността им да се слеят в подравняване с разриви, без резултата (score) да се намалява под определения праг. За тези слети подравнявания, чиито резултат (score) е над прага, се установява оптималното локално сравняване и се изчислява крайния резултат (наречен оптимизирана оценка).

FASTA ktups са по-къси от BLAST думите, обикновено 1 или 2 остатъка за белтъци, и 4 или 6 за нуклеинови киселини. По-ниските стойности на ktup водят до по-бавно, но по-чувствително търсене, докато по-високите стойности на ktup дава по-бързи резултати с по-малко невярно положителни резултати.

FASTA програми

FASTA пакетът съдържа програми за търсене, които са аналогични на BLAST, с изключение на PHI-BLAST и PSI-BLAST.

[fasta]

Сравнява аминокислелинни секвенции срещу белтъчни база данни (или нуклеотидни секвенции срещу ДНК база данни) с помощта на алгоритъм FASTA

[ssearch]

Сравнява аминокиселинни секвенции срещу белтъчни база данни (или нуклеотидни секвенции срещу ДНК база данни) с помощта на Smith-Waterman алгоритъм

[fastx /fasty]

Сравнява нуклеотидни секвенции срещу белтъчна база данни, извършвайки превод на нуклеотидната последователност

[tfastx /tfasty]

Сравнява аминокиселинни секвенции срещу ДНК база данни, извършвайки превод на ДНК последователностите в базата данни

[align]

Изчислява глобалното сравняване между две нуклеотидни или белтъчни секвенции

[lalign]

Изчислява локално сравняване между две нуклеотидни или аминокиселинни секвенции

Мултифункционални подходи за секвенционен анализ

Няколко изследователски групи и компании са разработили уеб-базирани интерфейси за секвенционен анализ. Най-добрите от тях притежават напълно интегрирани инструменти, публични база данни, както и възможност да запазват записа от данни на потребителя и да прехвърлят информация от една дейност в друга. Ако търсите съвпадение само на една или няколко секвенции и искате да го намерите в стандартните публични база данни, тези портали могат да ви спестят много време, като същевременно осигуряват по-добра функционалност и лекота на използване.

Biology Workbench

Biology Workbench е свободно достъпен за академичната общност в една или друга форма ресурс и предлага възможност за търсене по ключови думи и секвенции в рамките на 40 големи база данни от последователности и на над 25 геномни бази данни. И двете BLAST и FASTA програми се използват като алгоритми за търсене и сравняване на секвенции в Workbench, заедно с няколко локални и глобални подходи за сравняване, инструменти за превод на ДНК последователности, алгоритми за анализ на белтъчна функция, сравняване на множество последователности и чертаене на филогенетични диаграми. Въпреки че интерфейсът му е малко по-тромав, включващ отваряне на много прозорци и щракане върху множество бутони, Biology Workbench все още е най-изчерпателното, удобно и достъпно уеб-базирано пособие. Едно от основните му предимства е, че са приети различни файлови секвенционни формати и може да се преминава безпроблемно от търсене по ключови думи и секвенции към сравняване на множество последователности и филогенетичен анализ.

EMBOSS

EMBOSS или "European Molecular Biology Open Software Suite“ е безплатен пакет софтуер за анализ, специално разработен за нуждите на молекулярната биология. Софтуерът автоматично се справя с данни в различни формати и дори позволява извличане на секвенционни данни от интернет. EMBOSS лесно се интегрира и с редица налични понастоящем пакети и инструменти за секвенционен анализ. В рамките на EMBOSS се намират около стотици приложения, които обхващат области като:

  • Сравняване на секвенции,
  • Бързо търсене в база данни с моделни последователности,
  • Идентификация на белтъчни мотиви, включително анализ на домейни,
  • Анализ на моделни нуклеотидни последователност - например, за идентификация на CpG области или повтори,
  • Анализ на кодони в малки геноми,
  • Бърза идентификация на моделни последователности в голямо мащабни секвенции,
  • Инструменти за публикуване, и още много други.

Funding

Disclaimer

The European Commission support for the production of this publication does not constitute endorsement of the contents which reflects the views only of the authors, and the Commission cannot be held responsi-ble for any use which may be made of the information contained therein.