LO5: Сравнявания и филогенетични дървета

Въведение

Сравняването на секвенции има за цел да намери и сравни части от сходни последователности. Интересен проблем от биологична гледна точка представлява едновременното сравняване на повече от две секвенции. BLAST или FASTA търсачките могат да открият множество последователности, които да отговарят на подадената заявка. Един от подходите за сравнение на всички намерени секвенции една с друга е да бъде проведено сравнение по двойки на всички двойки секвенции, след което всеки резултат да бъде проучен индивидуално. Това обаче е по-ефективно (и по-лесно разбираемо) ако всички последователности се сравнят наведнъж, след което да бъде анализиран резултата от всички сравнявания. Този процес е известен като сравняване на множество секвенции. Той може да се използва за изследване на групи от свързани гени или белтъци, да се правят изводи за еволюционни връзки между гени, или да се откриват модели, които са общи между групи на функционално или структурно свързани последователности.

Сравняване на множество секвенции

Техниките за сравняване на множество секвенции се прилагат най-често при анализа на белтъчни последователности. Те се използват при изследване на еволюционно и структурно подобие между белтъци, кодирани от последователностите, използвани за сравнението. Белтъци, които имат подобни функции се характеризират и със сходни секвенции и структура при различните организми. Въпреки това, секвенцията може да се измени по-бързо, в хода на еволюцията, в сравнение със структурата. При сравняването на множество последователности въз основа на секвенционни данни, регионите, които са подобни в своята последователност обикновено са подобни и в своята структура.

Прогресивни стратегии за сравняване на множество последователности

Често използван подход за сравняване на множество последователности е прогресивното подравняване на двойки от секвенции. Основната стратегии при този подход е следната: избира се стартова двойка от секвенции и се подравнява, след което всяка следваща секвенция се сравнява с вече направеното подравняване. Подобно на Needleman- Wunsch и Smith-Waterman алгоритмите, прогресивното сравняване е пример за евристичен алгоритъм. Той раздробява проблемите на парчета, след което избира най-доброто решение за всяко парче, без да обръща внимание на проблема като цяло. В този случай на прогресивно сравняване, цялостният проблем (сравняване на множество секвенции) се разлага на поредица от сравнявания на двойки секвенции.

Тъй това е евристичен алгоритъм, прогресивното сравняване не гарантира намирането на най-доброто възможно подравняване. Въпреки това, той е ефикасен и предоставя биологично значими резултати. Методите за прогресивно сравняване се различават в няколко аспекта: как се избира първоначалната двойка секвенции, които да бъдат сравнени; дали се сравнява всяка следваща секвенция към точно определено кумулативно подравняване или се изграждат подфамилии; и как се оценяват индивидуалните подравнявания и тези на индивидуалните секвенции с предишни сравнявания.

Сравняване на множество секвенции с Clustal Omega

Една от често използваните програми за прогресивно сравняване на множество секвенции е Clustal Omega. Clustal Omega се базира на филогенетичен анализ. Първоначално се генерира изчисляваща разстоянията матрица за всички двойки секвенции, които ще бъдат сравнявани и се създава помощно филогенетично дърво чрез използването на съсед-свързващ алгоритъм. Така всяка една от двойките секвенции с най-висока степен на сходство се сравняват една с друга. След това, всяко ново сравняване се анализира с цел да се изгради секвенционен профил. Накрая, различните профили се сравняват един с друг или с други секвенции докато не се построи крайното подравняване.

Тази стратегия води да получаването на сравнително добри сравнявания, ако бъдат изпълнени набор от условия. Например, тя не е подходяща за сравняване на далекородствени секвенции. Сравняването на двойки секвенции чрез динамично програмиране е много точно, когато се отнася за близкородствени секвенции, независимо от това каква оценяваща матрица и наказателни стойности за отваряне на разриви се използват. Сравняването на множество последователности за създаването на профили увеличава точността на сравняването по двойки на секвенции, които са еволюционно по-отдалечени.

При сравняването на множество секвенции се отчитат много параметри - оценяващата матрица и съответните наказателни стойности за отваряне на разриви, свързани със стъпките на сравняване на двойките последователности. Освен това, съществуват и параметри, които водят до промяна на матрицата за оценяване, използваща се при сравнявания от типа секвенция-профил и профил-профил. При Clustal Omega има възможност за избор на параметри в менюто “Set your parameters“ (Фиг. 1).

Параметрите за сравняване на множество последователности са подобни и имат същото значение както тези при сравняването на двойки последователности. Те включват наказателни стойности за отваряне и удължаване на разриви – да бъдат използвани при по-фини сравнявания, като и максимално допустимо отместване на началото на сравняване по дължината на секвенции, които са значително дивергирали.

Една от особеностите на Clustal Omega е, че при сравняване на аминокиселинни секвенции могат да се използват различни оценяващи матрици в зависимост от очакваното еволюционно разстояние. Ако две секвенции са близкородствени във филогенетичното дърво, оценяващата матрица се оптимизира за сравняването на такава двойка. Далечно разположените секвенции в дървото се сравняват с помощта на матрица за такива типове секвенции. По този начин, под избор на серията от матрици в менюто „Multiple Alignment Parameters“ се разбира именно: използване на BLOSUM62 за близкородствени секвенции и BLOSUM45 за по-отдалечени такива, вместо използването на една и съща матрица за всички сравнения.

Фигура 1. Програмата Clustal Omega за сравняване на множество секвенции

Фигура 1. Програмата Clustal Omega за сравняване на множество секвенции

Секвенционни лога

Особено популярен напоследък става начинът за визуализация на проведени сравнявания чрез формата на секвенционните лога. Този формат е особено добър за кратки секвенционни региони, като белтъчни мотиви. Той открива консенсусните секвенции, които представляват аминокиселините в дадена позиция в сравняването, която обикновено присъства на това място при повечето организми. Секвенционните лога, както е показано на фигура 2, са графичен начин за представяне на относителни честоти, информационно съдържание, ред на предпочитано заместване или други характеристики на дадено сравняване.

Фигура 2. Секвенционно лого

Фигура 2. Секвенционно лого

Софтуерът за създаване на секвенционни лога е част от по-голяма група от програми, наречени DELILA пакет. Обикновено, за да се създадат лога на сравнени секвенции, се използват само две от програмите в пакета (alpro and makelogo). По-лесния подход за създаване на секвенционни лога е използването на уеб-сървъра Sequence logo. Сравнените секвенции могат да се подадат към сървъра във FASTA формат.

Филогенетичен анализ

Едно от основните приложения на резултатите получени от сравняването на множество секвенции е за филогенетичен анализ. Филогенетичният анализ създава хипотези относно еволюцинното сходство между организмите и техните фенотипни особености.

Докато филогенетичните дърветата рисувани на ръка могат да се разклоняват многократно, в зависимост от виждането на автора, то модерните такива са стриктно бинарни. Всеки клон може да се разклонява само на два дъщерни клона. Дървета могат да се разклоняват и по други модели, но възприемането, че дърветата са бинарни, значително улеснява алгоритъма за тяхното построяване.

Дължината на клоновете в количественото филогенетично дърво може да бъдат определени по различни начини. Например, определянето на еволюционното разстояние между двойка секвенции е единият от подходите за изчисляване на дължината на клоновете.

Докато филогенезата приема обикновено, че всички видове имат един корен или общ предшественик, филогенетичните дървета получени въз основа на сравняване на секвенции могат да бъдат или не с общ корен. Не е трудно да се калкулират сходствата между кои да е две секвенциии да се определи към кои клонове принадлежат. Доста по-трудно е да се каже коя от двете секвенции в едно такова дърво е общия предшественик, или коя двойка секвенции може да се приеме като първо поколение на общия предшественик. Докато някои програми за филогенетични дървета предлагат хипотези за предполагаем корен, то най-лесно се построяват дървета без корен. Фигура 3 и Фигура 4 илюстрират филогенетично дърво с корен и филогенетично дърво без корен.

Фигура 3. Филогенетично дърво с корен

Фигура 3. Филогенетично дърво с корен

Фигура 4. Филогенетично дърво без корен

Фигура 4. Филогенетично дърво без корен

Филогенезата, базирана на резултатите от сравняването на секвенции може да бъде представена като дърво, като по този начин да описва биологичната единица, но за да се направят изводи относно филогенезата на всички организми, е необходимо много повече отколкото единичен еволюционен анализ. Секвенционно-базираната филогенеза е количествена. Когато филогенетичните дървета се изграждат на базата на достатъчно информация, те могат да осигурят ценни, научни доказателства, подкрепящи еволюционната теория. Разбира се, анализът на единична двойка секвенции дава количествена информация само за нея и не може да се използва са създаване на еволюционни хипотези. Тя не е валидна като количествен инструмент извън обхвана на този набор от данни.

С помощта на сравнителен филогенетичен анализ, проведен за различни белтъчни или генни фамилии беше показано, че един белтък може да се изменя по-бързо от друг, както и че даден белтък може да еволюира по-бързо при едни организми в сравнение с други. По-този начин филогенетичния анализ на секвенционни семейства предоставя ценна информация относно еволюцията на даден ген. Само чрез анализа на голям набор от данни е възможно и създаването на теории за еволюцията на цял организъм.

Филогенетични дървета базирани на разстояние между двойка аминокиселинни/нуклеотидни последователности (UPGMA метод)

Един от най-простите методи за създаване на филогенетично дърво е въз основа на определяне на разстоянието между двойка аминокиселинни или нуклеотидни секвенции. Този метод създава дърво с корен. Алгоритъмът се инициализира чрез дефиниране на матрица от разстояния между всяка двойка секвенции във входния файл. След това секвенциите се групират в съответствие с разстоянието между тях и като резултат се построява дърво от клоните към корена.

Разстоянията могат да се определят чрез различни подходи, но най-често използвания и най-простия подход за измерване на несъответствието между ДНК секвенциите е чрез разстоянието Jukes-Cantor. Той представлява логаритъм от броя позиции, където има несъответствие между двете секвенции. Броя на съвпадащите позиции в сравнение без разриви между две неблизки ДНК секвенции е приблизително 25%. Следователно, разстоянието Jukes-Cantor се задава така, че да достига до безкрайност, тъй като броят от несъвпадащи двойки достига до 75%.

Процедурата за групиране на секвенциите при формирането на филогенетичното дърво (UPGMA, unweighted pair group method using arithmetic averages) е интуитивна. Всяка секвенция се поставя в свой собствен клъстер и клонът на дървото започва от тази секвенция при стойност нула. След това, двата клъстера, които са най-близко по отношение на разстоянието между тях се сливат в общ клъстер. Като точка на разклоняване (или възел) се дефинира мястото, което свързва два клона. Възелът се поставя на такова място в дървото, че да отразява разстоянието между двата клона, които са били свързани. Този процес се повтаря итеративно, докато останат само два клъстера. Когато и те са свържат, се определя корена на дървото. Дължината на клоновете във филогенетичното дърво, построено по този начин, теоретично отразяват еволюционното разстояние между секвенциите.

Методът на максималното сходство също оценява топологията на филогенетичните дървета като взима в предвид даден първоначален набор от секвенции. Този метод е вероятностен. Той търси оптималния избор чрез определяне на вероятности за всяка възможна еволюционна промяна, като така увеличава тоталната вероятност за даден тип топология на филогенетичното дърво. Методът на максималното сходство използва информация за нивото на аминокиселинни или нуклеотидни замени, подобно на матрицата на заместване при сравняване на множество секвенции.

Филогенетични дървета, основаващи се на съседно присъединяване

Съседното присъединяване е друг метод, използващ матрица от разстояния. Той елиминира възможните грешки, които могат да възникнат, когато се използва UPGMA метода. UPGMA създава филогенетични дървета, при които клоновете, които са най-близки по абсолютно разстояние, са разположени като съседи в дървото. Това допускане създава ограничение върху топологията на дървото, което при определени условия може да доведе до конструирането на некоректни филогенетични дървета.

С цел да се заобиколи този проблем, алгоритъмът за съседно присъединяване търси не само най-късите разстояния между сравняваните двойки секвенции, но и за набор от съседи, които намаляват общата дължина на дървото. Съседното присъединяване е най-широко използвания метод за получаване на филогенетични дървета, особено когато еволюционните разстояния са къси.

Филогенетични дървета базирани на максимална пестеливост

Още по-широко използван алгоритъм за чертаене на филогенетични дървета е методът на максималната пестеливост. Пестеливостта е свързана с принципа, че най-простото обяснение обикновено е най-вярното. Този подход, сред множество възможни дървета, търси това, което изисква най-малък брой нуклеотидни или аминокиселинни замени, за да обясни установените разлики между секвенциите.

Единствените сайтове, които се взимат под внимание при използването на метода на максимална пестеливост за анализиране на секвенционни сравнявания са онези, които осигуряват еволюционна информация – тези, които водят до предпочитане на една топология на филогенетичното дърво, спрямо друга. Даден сайт се счита за информативен, ако има повече от един вид нуклеотиден/аминокиселинен остатък в него и ако всеки един вид от този остатък е представен в повече от една секвенция в подравняването. Тогава, за всяка възможна топология на филогенетично дърво могат да бъдат изчислени броя на намерените еволюционни промени. Максимално проста е тази топология, за която общия брой на намерени промени в информативните сайтове е сведена до минимум. В някои случаи може да съществуват множество топологии на дървета, които да са еднакво обещаващи.

С увеличаване на броя на секвенциите, нараства и броя на възможните топологии на филогенетичните дървета. След определен праг, вече е невъзможно изчерпателното обработване на резултатите във всички възможни топологии. В този случай, за да се установи най-простата топология, се използва пряк път, наречен алгоритъм клон-обвързаност. Този алгоритъм установява горните граници и броя на позволените еволюционни промени чрез компютърна обработка на дадено дърво посредством някой бърз или произволно избран метод. Докато оценява дърветата, той автоматично отстранява тези, които надвишават тази горна граница.

Филогенетични дървета базирани на оценка на максималното сходство

Методът на максималното сходство също оценява топологията на филогенетичните дървета като взима предвид даден първоначален набор от секвенции. Той търси оптималния избор чрез определяне на вероятности за всяка възможна еволюционна промяна и така увеличава тоталната вероятност за даден тип топология на филогенетичното дърво. Методът на максималното сходство използва информация за нивото на аминокиселинни или нуклеотидни замени, подобно на матрицата на заместване при сравняване на множество секвенции.

Софтуер филогенетичен анализ

Съществуват множество софтуери за извършване на филогенетичен анализ, налични за различни оперативни системи. Един от най-широко използваните е пакета PHYLIP.

PHYLIP

Пакетът PHYLIP съдържа 30 програми, които включват различни алгоритми за филогенетичен анализ. Всяка една програма може да се стартира самостоятелно чрез команден ред. По подразбиране, повечето от програмите търсят файлове наречени infile и след неговата обработка на изхода се получават фалове от типа outfile. Вместо да се въвеждат параметри чрез флагове на командния ред, както е при BLAST, програмите притежават интерактивен текстови интерфейс, който подканва да бъде въведена информация.

Най-често използваните програми от пакета PHYLIP са следните:

PROTPARS

Установява филогенетични връзки между белтъчни последователности чрез метода на максималната пестеливост

PROTDIST

Изчислява еволюционни разстояния между белтъчни последователности чрез оценка на максималното сходство

DNAPARS

Установява филогенетични връзки между ДНК последователности чрез метода на максималната пестеливост

DNAPENNY

Намира всички филогенетични връзки за набор от последователности, използвайки клон-обвързаност алгоритъма.

DNAML

Установява филогенетични връзки на базата на въведени ДНК последователности чрез оценка на максималното сходство

DNADIST

Изчислява еволюционни разстояния между ДНК секвенции, използвайки разстоянието Jukes-Cantor или някой от другите критерии за определяне на разстояния.

NEIGHBOR

Изчислява еволюционни разстояния чрез използване на метода за създаване на клъстери от двойки или чрез алгоритъма на съседно присъединяване.

DRAWGRAM

Чертае дървета с корен, използвайки файл получен от някоя от програмите за определяне на еволюционни разстояния.

DRAWTREE

Чертае дървета без корен, използвайки файл получен от някоя от програмите за определяне на еволюционни разстояния.

CONSENSE

Изчислява консенсусни последователности на базата на филогенетични връзки

RETREE

Позволява интерактивно манипулиране на получените филогенетични дървета по желание на ползвателя – не въз основа на данните.

PHYLIP е гъвкав пакет, като неговите програми могат да се използват съвместно в различни комбинации. При анализа на набор от белтъчни секвенции с PHYLIP може:

  1. Да се прочете резултата от сравняването на множеството секвенции чрез използването на PROTDIST и да се създаде матрица на разстоянията.
  2. Да се зареди тази матрица в NEIGHBOR и да се генерира филогенетични връзки чрез съседно присъединяване.
  3. Да се прочете филогенетичния файл в DRAWTREE и да се получи филогенетично дърво без корен.

Или може:

  1. Да се прочете резултата от сравняването на множество секвенции с PROTPARS и да се генерират филогенетични връзки на базата на максималната пестеливост.
  2. Да се прочете филогенетичния файл в DRAWGRAM и да се получи филогенетично дърво с корен.

Всяка едно от програмите на PHYLIP изчерпателно се документира в \.doc* файлове налични при разпространението на PHYLIP. Тази документация може да бъде конвертирана в HTML посредством различни програми.

Генериране на входящи файлове за PHYLIP с помощта на Clustal Omega

Програмата за сравняване на множество секвенции Clustal Omega може да чертае филогенетични дървета посредством метода на съседно присъединяване. Една от важните й предимства е, че може да чете различни входни формати, след което да запише файл във формат PHYLIP.

Профили и мотиви

В допълнение към изучаването на връзката между секвенциите, едно от най-успешните приложения на резултатите от сравняването на множество секвенции е откриването на нови аминокиселинни/нуклеотидни последователности в тях. Тези профили, или мотиви, служат впоследствие като основа за конструиране на секвенционни модели.

При сравняването на множество секвенции може да се използва както цялата дължина на белтъчната секвенции, така и само определен регион на подобност, в зависимост от целта на изследването. Сравняването на множество секвенции, както е показано на фигура 5, обикновено е построено въз основа на повтарящи се сравнения на двойки последователности и секвенционни групи, отколкото чрез подробно множествено сравняване.

Фигура 5. Сравняване на множество секвенции посредством Clustal Omega

Фигура 5. Сравняване на множество секвенции посредством Clustal Omega

Мотивът представлява локален консервативен участък от секвенция, или къса секвенция, която е обща за набор от последователности. Терминът „мотив“ често се отнася за всеки секвенционен модел, който може да се предвиди въз основа на молекулната функция, структурните особености или принадлежността към дадена ензимна фамилия. Мотиви могат да се открият в белтъчни, ДНК и РНК секвенции, но най-често използването на този тип анализ е свързано с установяването на специфични структурни или функционални особености на белтъците. Мотивите се генерират в резултат на сравняването на множество секвенции и могат да се представят като модели от аминокиселини (като тези в Prosite базата данни) или като секвенционни лога.

Мотиви могат да бъдат създадени за белтъчни фамилии или за набор от белтъци, които са еволюционно свързани. Белтъчните фамилии се състоят от много протеини, които варират от такива, които са много сходни до такива, които са коренно различни. Секвенционният профил е количествен или качествен метод за описване на даден мотив. Профилът може да се представи в най-първична форма като списък от аминокиселините, които се откриват във всяка една позиция на мотива. Място-специфичната оценяваща матрица (PSSM) се използва, когато се описва мотива. За разлика от стандартната оценяваща матрица, първото измерение на тази е дължината на мотива; второто се състои от 20 аминокиселинни възможности. За всяка позиция в матрицата съществува определена възможност за поява на всяка една аминокиселина. Повечето методи за разработване на място-специфична оценяваща матрица нормализират първоначалните вероятности по отношение на стандартна оценяваща матрица, такава като BLOSUM62.

База данни на мотиви

Профилите и други консенсусни последователности могат да се използват за търсене в база данни, поради тази причина, не е учудващо, че съществуват бази данни с мотиви, в които може да се търси посредством индивидуални секвенции. Тези база данни съдържат представителни консервативни секвенции, които са характерни за различните белтъчни семейства и тяхното основно приложение е свързано с анотирането на неизвестни секвенции.

Мотивите се генерират посредством множество методи и с различни крайни цели. Някои разчитат на автоматизиран анализ, но в тези случаи често се налага много работа на ръка. Тъй като се запазват само тези мотиви, които присъстват в значително големите семейства, базата данни с мотиви е малка в сравнение с GenBank, и въобще не може да се сравняват със секвенционните и структурни бази данни. Трябва да се знае и, че ако търсенето спрямо мотивите в базата данни не доведе до резултат, то това не означава, че секвенцията няма откриваем модел. Той може да е част от белтъчно семейство, което все още не е описано или не съвпада с конкретен модел от базата данни, в която търсите. За белтъци, които показват съвпадение с дадено семейство, търсенето в такива база данни може много бързо да предостави голямо количество полезна информация.

Blocks

Blocks е услуга на Центъра за изследване на рака “Фред Хътчинсон“ и представлява автоматично генерираща се база данни от множествени сравнявания без разриви, които съответстват на най-консервативните участъци от аминокиселинните последователности. Blocks е създадена от комбинация на методи за детекция на мотиви, които първоначално откриват всички секвенции на аминокиселинни триплети, последвано от удължаване на сравняване, за да се установи максималната дължина на участъка, който е хомоложен. Сървърът на Blocks предоставя и няколко възможности за търсене, включително IMPALA (която използва BLAST статистическия модел за сравняване на секвенция спрямо библиотека от профили) и LAMA (Local Alignment of Multiple Alignments, програма за локално сравняване на множество секвенции или сравняване на вашите секвенции спрямо базата данни на Blocks).

PROSITE

PROSITE е база данни на модели, която се поддържа от експерти от Швейцарския институт по биоинформатика. PROSITE използва единичен консенсусен модел, за да характеризира всяко семейство секвенции. Моделите в PROSITE са внимателно подбрани въз основа на публикуваните данни в научната литература, където се описват функционалните особености на специфичните групи белтъци. PROSITE съдържа информация за различните модели, както и място-специфични оценяващи матрици, които могат да се използват при характеризиране на нови секвенции.

Pfam

Pfam е база данни от сравнявания на семейства от белтъчни домейни. Тя представлява организирана база данни за повече от 2 700 профили с разриви, повечето от които покриват цели белтъчни домейни. Нейните записи се генерират автоматично чрез прилагане на метода за клъстеризация. Pfam резултатите започват от “зародишно сравняване“, сравнение, за което операторите са убедени, че е биологично смислено и което може да включва известно ръчно редактиране. От всяко зародишно сравняване се конструира профил чрез използване на скрит Марков модел, които профил се използва за търсене в базите данни на наличните белтъчни секвенции. Пълно сравнение на белтъчното семейство се получава като резултат от зародишното сравнявани и другите открити съвпадения. Този процес може да бъде повторен, за да се получат по-обширни семейства и да се открият отдалечени съвпадения. Pfam резултатите са анотирани с информация извлечена от научната литература и структурни данни, когато това е възможно (Фиг. 6).

Фигура. 6. Представяне на Pfam резултат

Фигура. 6. Представяне на Pfam резултат

PRINTS-S

PRINTS-S е база данни от белтъчни мотиви, която е подобна на PROSITE, с изключение на това, че използва "отпечатъци", които са съставени от повече от един модел, който да характеризира цялата белтъчна секвенция. Мотивите са често относително къси в сравнение с цялата белтъчна секвениця. В PRINTS, групата от установени мотиви в дадено белтъчно семейство определят и сигнатурата на това семейство.

COG

Базата данни за клъстери от ортоложни групи на NCBI (COG) е различен тип на база данни за мотиви. COG е конструирана посредством сравняване на белтъчните секвенции, кодирани от напълно секвенирани геноми. Всеки клъстер в нея се състои от белтъчни секвенции от поне три различни генома. Основаната идея на COG е, че белтъците, които са останали консервативни в геномите на различни организми, съответстват и на най-древните функции, които са се запазили в хода на еволюцията. Наличната информация в COG е достъпна по отношение на организъм или функционална категория от сайта на NCBI.

Достъп до множествени база данни

Когато се анализира нова секвенция е препоръчително да се използват колкото е възможно повече бази данни за мотиви. Докато Blocks използва InterPro като един от източниците за собствените си модели и съдържа само модели без разриви, в същото време профилите в Pfam и PROSITE съдържат разриви. По този начин, проследяването на най-добрите съвпадения от всяка база данни , техните резултати, и (ако е възможно) тяхната значимост ще осигури по-задълбочена информация за проведения анализ.

Една от възможностите, която позволява интегрирано търсене в множество бази данни за мотиви е Интегрирания ресурс за белтъчни домейни и функционални сайтове на Европейския Биоинформатичен Института (InterPro). InterPro позволява сравняването на секвенции спрямо всички налични мотиви от Pfam, PRINTS, ProDom и PROSITE. InterPro мотивите са анотирани с името на изходния протеин; примери на белтъци, в които се среща мотива; препратки към научната литература и подобни мотиви (Fig. 7).

Фигура 7. Структура на база данни InerPro

Фигура 7. Структура на база данни InerPro

Конструиране и използване на собствен профил

Базата данни на мотиви са полезни при търсенето на протеинови семейства, които вече са добре документирани. Все пак, ако е намерен нов мотив, който искаме да се използва за търсене в GenBank или за търсене на модели, е необходимо да се създаде негов собствен профил. Съществуват няколко софтуерни пакети и сървъри за откриване на мотиви - процес на откриване и конструиране на собствени мотиви от набор от последователности. Най-простият начин да се конструира един мотив е да бъде открит силно консервативен участък при сравняването на множество последователности. Най-често използваните програми за търсене и откриване на мотиви са Block Maker, Meme и HMMer.

Инкорпориране на информацията за мотивите в сравняването на двойка последователности

Информацията от сравняването на множество секвенции може да оптимизира сравняването на двойки последователности. Пакетът BLAST съдържа две нови опции, които използват информацията от сравняването на множество секвенции за подобряване на възможностите за търсене в базата данни. Тези режими са достъпни чрез програмата blastpgp – програма използваща PSI-BLAST and PHI-BLAST. Последните две са насочени към специализирани протеинови BLAST сравнения, които са по-чувствителни в сравнение със стандартното BLAST търсене.

Position Specific Iterative BLAST (PSI - BLAST) е подобрение на оригиналната програма BLAST, която използва профили, за да увеличи спецификата на търсенията в базата данни. Започвайки с една последователност, PSI - BLAST търси хомоложни на нея в базата данни, дори в такива с разриви, извършва сравняване на множество секвенции и създава специфичен профил на заявената първоначална секвенция. Този профил се използва за ново търсене в базата данни за сходни на него. Тази процедура може да бъде повторена неограничен брой пъти. При използването на PSI-BLAST трябва да се внимава и да се знае къде да се спре. Грешките при сравняването могат да се мултиплицират в процеса на повторение, увеличавайки фалшиво положителните резултати при процеса на търсене на секвенции. Сървърът PSI- BLAST на NCBI е може би най-оптималния начин, за да стартира търсене с помощта на PSI- BLAST.

Pattern Hit Initiated BLAST (PHI-BLAST) като резултат от заявка за търсене в белтъчната базата данни, взима дадена секвенция и в нея открива предварително избран модел. Моделът трябва да се изрази в PROSITE синтаксис, който е описан подробно на PHI-BLAST сървъра. PHI-BLAST може да започне серия от PSI-BLAST повторения и може да бъде използван като самостоятелна програма или (значително по-удобно за потребителя) като уеб-базиран сървър.

Funding

Disclaimer

The European Commission support for the production of this publication does not constitute endorsement of the contents which reflects the views only of the authors, and the Commission cannot be held responsi-ble for any use which may be made of the information contained therein.