LO6: Omikler ve sistem biyoloji

KARŞILAŞTIRMALI GENOM ANALİZİ

Canlı organizmalarda ilk tamamlanmış genom dizilerinin geçmişi eski değildir, yakın zamanda ortaya çıkmıştır. 1995 yılında ilk iki bakterinin, Haemophilus influenzae ve Mycoplasma genitalium'un genomları rapor edilmiştir. Bir yıl sonra, ilk arke (Methanococcus jannaschii) ve ilk ökaryotik (maya Saccharomyces cerevisiae) genomları tamamen dizilmiştir. Daha sonra, 1997'de en çok çalışılan iki bakteri, Escherichia coli ve Bacillus subtilis genomlarının dizilimi yapılmıştır. Nematod Caenorhabiditis elegans gibi çok hücreli ökaryotların genomlarının yanı sıra daha birçok bakteri ve arkeal genom, o dönemden sonra dizilenmiştir.

Bu ilk genom projelerinin göze çarpan sonucu, her genomda kodlanan genlerin en az üçte birinin bilinen veya öngörülebilir bir işleve sahip olmamasıdır. Kalan genlerin çoğu için ise sadece genel fonksiyonların tahmin edilmesi mümkün olmuştur. Bu konudaki bilgi eksikliğimiz, hem prokaryotlar hem de ökaryotlar arasında tartışmasız en çok çalışılan organizma olan Escherichia coli K12'nin genomunun incelenmesinde özellikle belirgin hale gelir. Moleküler biyologların en çok çalıştığı en iyi bilinen model organizmasında bile, genlerin en az % 40'ı bilinmeyen bir işleve sahiptir. Diğer taraftan, uzak mesafeli genomlarda ortalogları dizilenmiş olan genomların herbirinden % 70 civarlarında genin mikrobiyal proteinlerinin evrimsel korunma düzeyinin tekdüze olduğu ortaya konmuştur. Bu nedenle, bu genlerin çoğunun işlevleri, farklı genomları karşılaştırarak ve daha iyi çalışılmış organizmalardan daha az çalışılmış organizmaların ortologlarına proteinlerin fonksiyonel açıklamalarını transfer ederek basitçe tahmin edilebilir. Bu, genomları ve daha sonra da ilgili organizmaların biyolojisini daha iyi anlayabilmek için “karşılaştırmalı genomları” güçlü bir araç haline getirir.

GEN DİZİLİMİNDEKİ GELİŞMELER

2000 li yillarin başlarında, 23 farklı tek hücreli organizmanın (5 arke, 17 bakteri ve 1 ökaryotik) genomları tamamen dizilmişti. 2018'e kadar ise binlerce mikrobiyal ve ökaryotik genom, dizilişlerine göre farklı aşamalarda olsa da tamamlanmıştır. Kamu tarafından finanse edilen tamamlanmış ya da tamamlanmamış genom dizileme projelerinin periyodik olarak güncellenmiş listeleri GenBank Entrez Genomes sayfasında mevcuttur. Dünya çapındaki sıralama merkezlerinin tam listesi de NHGRI Web sitesinde bulunabilir. NCBI FTP sitesi ya da herbir dizileme merkezinin FTP sitelerinden gerçek dizileme verilerini elde etmek mümkündür. DNA Data Bank of Japan adresinde kabul edilebilir, uygun dizileme sistemleri bulunmaktadır. Reference Sequences (RefSeq) projesi çerçevesinde, NCBI farklı taksonlarda en çok rağbet gören dizilemelerin listesi, sınıflandırılmamış gen ürünleri için tahmin edilen fonksiyonlar, proteinlerde çerçeve kayması gibi bazı değerli dizi analizi bilgileri ile gen ürünlerinin listeleri artırmaya başlamıştır. Diğer taraftan, TIGR gibi dizilleme merkezleri düzenli olarak dizileme verilerini güncellemekte, bazı dizileme hatalarını düzeltmekte ve buna bağlı olarak, siteleri bitmemiş genom dizileri hakkında daha güncel veriler içermektedir.

Karşılaştırmalı Genomlar İçin Genel Amaçlı Veritabanları

Web, Internet erişimi olan herkese genom dizileri sunabildiğinden, temel olarak aynı dizi verilerine daha fazla veya daha az uygun erişim sunan çeşitli veritabanları bulunmaktadır. Bununla birlikte, genom analizinde uzmanlaşmış birkaç araştırma grubu, operon organizasyonu, fonksiyonel tahminler, üç boyutlu yapı ve metabolik rekonstrüksiyonlar gibi önemli ek bilgiler sağlayan veritabanları sunmaktadır.

PEDANT

Bu Web kaynağı oldukça faydalı olup, genom karşılaştırmalarında birçok soruya cevap sağlayabilmektedir. PEDANT, H. pylori'de kaç tane proteinin üç boyutlu yapısı olduğu (ya da güvenli bir şekilde öngörüldüğü) veya NAD + bağımlı alkol dehidrojenazlarının (EC 1.1.1.1) ne kadarının C. elegans genomunda kodlandığı gibi basit sorular sormanın kolay bir yolunu sunar. Standart PEDANT sorgularının listesi, EC sayıları, PROSITE kalıpları, Pfam alanları, BLOCKS ve SCOP alanlarının yanı sıra PIR anahtar kelimeleri ve PIR süper ailelerini içerir (Şekil 1). Her ne kadar PEDANT, kullanıcıların kendi sorgularını girmelerine izin vermese de, bu veri tabanındaki mevcut veriler, karşılaştırmalı genom analizi alanına uygun bir başlangıç noktasıdır.

Şekil 1. PENDANT veritabanında Helicobacter pylori P12

Şekil 1. PENDANT veritabanında Helicobacter pylori P12

COG (Ortolog Grup Kümeleri)

Clusters of Orthologous Groups (COGler) veritabanı, tamamlanmış genomların evrimsel çalışmalarını basitleştirmeyi ve herbir proteinin fonksiyonel projelerini geliştirmeyi amaçlamıştır. Tamamen dizilen genomların her birinden 4.800'den fazla korunan protein (COG) familyasından oluşur. Her bir COG, en az üç filogenetik soydan ortolog protein setleri içerir ve bunların tek bir atadan gelen proteinden evrimleştiği varsayılır. Tanım olarak ortologlar, paralogların aksine – genom içinde dublikasyonu olan - dikey evrimsel iniş (düşüş) ile bağlanan genlerdir (farklı türlerde “aynı” gen). Ortologlar tipik olarak tüm organizmalarda aynı işlevi yerine getirdiğinden, çeşitli türlerden ortolog ailelerin betimlenmesi daha iyi çalışılmış organizmalardan daha az çalışılmış olanlara fonksiyonel açıklama aktarılmasına izin verir. COG veri tabanındaki protein familyaları, sadece genel fonksiyon kestiriminin gerçekleştirildiği bir grup proteinle birlikte, bir grup henüz sınıflandırılmamış, fakat korunmuş protein içeren 25 fonksiyonel gruba ayrılır (Şekil 2). Bu site, protein benzerlik düzeylerinin oldukça düşük olduğu tartışmalı durumlardaki fonksiyonel tahminler için özellikle yararlıdır. COG'lerde proteinlerin çeşitliliğinden dolayı, COG veri tabanına karşı dizileme benzerliği araştırması, genellikle şeffaf bir veri tabanı olmayan bir protein için olası bir işlevi önerebilir.

Şekil 2. Bacteroides thetaiotaomicron VPI-5482 OCG deki fonksiyonel kategorileri

Şekil 2. Bacteroides thetaiotaomicron VPI-5482 OCG deki fonksiyonel kategorileri

KEGG

Kyoto Encyclopedia of Genes and Genomes (KEGG) daha çok hücresel metabolizmaya odaklanır. Bu veri tabanı, tamamen dizilen genomların her birinin yanı sıra Schizosaccharomyces pombe, Arabidopsis thaliana, Drosophila melanogaster, fare ve insan için hem genel hem de spesifik olan kapsamlı metabolik yol çizelge dizileri sunmaktadır. Belirli bir organizmada halihazırda tanımlanmış olan enzimler renk kodludur, böylece belirli bir organizmada mevcut veya mevcut olma ihtimali bulunan yolları kolayca izlemek mümkündür (Şekil 3). KEGG'de kapsanan metabolik yollar için, bu yollara katılan enzimleri kodlayan ortolog genlerin listeleri de verilmektedir. Benzer operonları oluşturacak şekilde bu genler bitişik olduğunda da gösterilir. İki dizilimi tamamlanmış genomu karşılaştırmayı ve her iki organizmadaki korunmuş genlerin birbirine bitişik veya nispeten yakın (5 gen dahilinde) bulunduğu tüm olguları tanımlamayı sağlayan çok faydalı bir araçtır. KEGG sitesi sürekli olarak güncellenir ve çeşitli organizmalarda metabolizmanın analizi için nihai bir veri kaynağı olarak hizmet eder.

Şekil 3. Gliserofosfolipid metabolizmasının metabolik yol şeması

Şekil 3. Gliserofosfolipid metabolizmasının metabolik yol şeması

MBGD

Microbial Genome Database (MBGD), sayıları hızla artmakta olan, tamamen dizilenmiş mikrobiyal genomların karşılaştırmalı analizi için kullanışlı bir araç sunmaktadır (Şekil 4). Burada, homoloji ilişkileri sadece dizi benzerliğine dayanır (10-2 veya daha az BLASTP değerleri). MBGD, tamamen dizilen tüm genomların hepsine karşı arama yapmak için birkaç diziyi aynı anda (2,000 kalıntıya kadar) göndermeye olanak tanır. Sonuç, saptanan homologların renk kodlu fonksiyonları olarak görüntülenir ve yerini dairesel bir genom haritası üzerinde gösterir. MBGD’nin BLAST araştırmasının çıktısı, sorgu ile hedef diziler arasındaki çakışma derecesini de gösterir. MBGD, her bir dizilenmiş genom için, belirli bir işleve, örneğin dallanmış zincirli amino asitlerin biyosentezine veya aromatik hidrokarbonların bozunmasına dahil olan tüm tanınan genlerin kabul edilebilir, uygun listelerini de sunar.

Şekil 4. MBGD veritabanı

Şekil 4. MBGD veritabanı

Organizma özelindeki veritabanları

Genel genomik veri tabanlarına ek olarak, belirli bir organizma veya bir grup organizma için de çeşitli veri tabanları bulunmaktadır. Her ne kadar hepsi belirli amaçlar için yararlı olsa da, E. coli, B. subtilis ve mayalar için hazırlanmış olanlar olanlar, muhtemelen daha az çalışılmış diğer organizmalarda işlevsel görevler için kullanılanlara göre daha yaygın olarak kullanılmaktadır.

Koli basili. E. coli'nin moleküler biyoloji için önemi, bu organizma ile ilgili hazırlanan çok sayıda veritabanında yansıtılmaktadır. Bunlardan biri, University of Wisconsin-Madison araştırma grubu tarafından gerçekleştirilen E. coli genomunun kesin dizilimidir (Şekil 5). Wisconsin grubu enteropatojenik E. coli O157: H7 ve diğer enterobakterileri sıralamakta rol oynamaktadır ve veri tabanları enterik patojenlerin analizi için çok yararlıdır. E. coli çalışmaları için diğer faydalı bir diğer veritabanı da EcoCyc dir.

Deneysel olarak çalışılmış tüm E. coli genlerini listeler ve E. coli'de tanımlanan metabolik yolların kapsamlı bir dökümünü sunar. Bir başka E. coli veri tabanının, Bacteriome un amacı, tandem afinite arıtma ekranları aracılığıyla oluşturulan deneysel veri kümeleriyle birlikte, E. coli proteinlerinin yüksek kaliteli fonksiyonel etkileşim veri kümesi için entegre protein etkileşim veri tabanı sağlamaktır. Son olarak Colibri ve GenExpDB E. coli'nin düzenleyici ağları ile ilgilenenler için tercih edilen veritabanlarıdır. E. coli Genetic Stock Center (CGSC) sitesi de gen ve fonksiyonları ile ilgili bilgileri sağlar.

Şekil 5. E.coli Genom Projesi

Şekil 5. E.coli Genom Projesi

Mycoplasma genitalium. Mycoplasma bilinen tüm hücresel yaşam formlarının en küçük genomuna sahiptir, bu da yaşamı sürdürmek için gerekli olan alt gen sınırının ne olduğuna dair bazı ipuçları sunar (‘‘minimal genom’’). Mycoplasma pneumoniae'nin bilinen en küçük ikinci genomu ile karşılaştırması çevrimiçi olarak mevcuttur. VFDB'den elde edilen son veriler, canlılık kaybı olmaksızın mutasyona uğrayabilen Mycoplasma genlerinin aralığı hakkında bilgi vermektedir (Şekil 6). Hem hesaplama analizlerinden hem de mutagenez çalışmalarından, 250-300 genin mikoplazmaların hayatta kalması için kesinlikle gerekli olduğu anlaşılmaktadır.

Şekil 6. VFDB de Mycoplasma Genomu Veritabanı

Şekil 6. VFDB de Mycoplasma Genomu Veritabanı

Bacillus subtilis. B. subtilis genomu da biyologların dikkatini çeken genomlardandır ve E. coli'ninki gibi fonksiyonel açıdan aktif olarak incelenmektedir. Pasteur Enstitüsü tarafından işletilen SubtiList World-Wide web sunucusu, yeni B. subtilis genlerinin fonksiyonları hakkında en yeni bilgileri içerecek şekilde sürekli olarak güncellenmektedir. Buna ek olarak, DBTBS de Bacillus subtilis'teki transkripsiyonel düzenlemenin kapsamlı bir veritabanını ve genlerarası koruma bilgisini içerir.

Saccharomyces cerevisiae. Özellikle maya S. cerevisiae genomunun fonksiyonel analizini ele alan ana veri tabanı Saccharomyces Genome Database (SGD) 'dir (Şekil 7). Bilinen veya tahmin edilen fonksiyonlara, uygun referanslara ve mutant fenotiplere sahip maya proteinlerinin düzenli olarak güncellenmiş listelerini sağlar ve tüm maya proteinlerinin tam karakterizasyonunu amaçlayan devam eden çalışmaları içerir. SGD, ve Saccharomyces Gene Registry'yi içerecek şekilde, muhtemelen maya genom analizinin mevcut durumu hakkında en geniş ve en kapsamlı bilgi kaynağıdır. Mayaların genom analizi ile ilgili diğer faydalı bir sitede mayada bilinen düzenleyici elementleri ve transkripsiyonel faktörleri listeleyen Saccharomyces cerevisiae Promoter Database dir. Ayrıca, Saccharomyces Cell Cycle Expression Database, maya hücre döngüsü sırasında mRNA transkript seviyelerindeki değişikliklerdeki ilk sonuçları sunar.

Şekil 7. Saccharomyces Genomu Veritabanı

Şekil 7. Saccharomyces Genomu Veritabanı

Şekil 7. Saccharomyces Genomu Veritabanı

GENOM ANALİZİ VE EK AÇIKLAMALAR

Çoğu genom projesinde sınırlayıcı adımlardan biri, tamamlanmış genomların dizi analizi ve ek açıklamalarıdır. Bu iş, en iyi anlaşılan model organizmalarda bile çok sayıda gen için işlevsel bilgi eksikliğinden dolayı cesaret kırıcıdır. Karakterize edilmemiş proteinlerin yapısal-fonksiyonel ek açıklamalarında yer alan standart aşamalar şunları içerir:

  • BLAST, FASTA veya Smith-Waterman algoritması gibi programları kullanarak dizi benzerliği aramak;
  • Protein dizisini PROSITE, BLOCKS, SMART veya Pfam ile karşılaştırarak fonksiyonel motifleri ve yapısal alanları tanımlamak;
  • Muhtemel sinyal peptidleri, transmembran segmentleri, sarmal bobin bölgeleri ve düşük sekans karmaşıklığının diğer bölgeleri gibi proteinin yapısal özelliklerini tahmin etmek; ve
  • İkincil (ve eğer mümkünse üçüncül) yapı öngörüsü üretmek.

Tüm bu adımlar, GeneQuiz01510-8.pdf?code=cell-site), MAGPIE, PEDANT, Imagene, vb gibi çeşitli yazılım paketlerinde otomatik olarak yapılmaktadır. Bununla birlikte, MAGPIE ve PEDANT, dış kullanıcıların kendi dizilerini analiz için göndermelerine izin vermez; sadece yazarların kendi sonuçlarını gösterir. GeneQuiz, genel kullanıcılara sınırlı sayıda arama (günde 100'e kadar) sunsa da; karşılaştırmalı genom analizi için hala iyi bir başlangıç noktasıdır. Homolojiyi çıkarmak için gerçekçi olmayan yüksek kesme puanlarına dayanır, bu da nispeten düşük bir duyarlılık ile sonuçlanır. Şu anda ücretsiz indirilmek üzere mevcut olan bir paket NCBI'de geliştirilen SEALS'dir. Bu program GenBank da oluşturulan dizileri almak, arama çıktılarını görüntülemek ve analiz etmek, dizi motifleri aramak ve protein yapısal özelliklerini tahmin etmek için gerekli UNIX tabanlı birçok araçdan oluşur. Yine, Imagene olarak adlandırılan benzer bir paket, Paris VI Üniversitesin de geliştirilmiştir.

Protein Fonksiyonlarının Tahmini İçin Genomların Karşılaştırılması

İlk dizilen bakteriyel, arkeal ve ökaryotik genomların karşılaştırmalı yöntemle analizi, herhangi bir genomdaki gen ürünlerinin en az üçte biri için protein fonksiyonunu tahmin etmede başarısız olmuştur. Bu gibi durumlarda, diğer tüm mevcut verileri göz önünde bulundurarak, bunları "genom bağlamına" dahil eden başka yaklaşımlar kullanılabilir. Bu yaklaşımlar aynı temel prensibe dayanır, her bir genomdaki genetik bilginin organizasyonu, mutasyonların uzun bir tarihini, gen duplikasyonlarını, gen yeniden düzenlemelerini, gen fonksiyon farklılığını ve genlerin kendi kendine uyarlanmış organizmaları üreten gen kazanımı ve kaybını yansıtır. Çevre ve çevre koşullarına uygun olarak metabolizmalarını düzenleyebilir. Bu bakımdan, çapraz genom benzerlikleri, evrimsel bazda anlamlı olarak kabul edilebilir ve fonksiyonel analiz için potansiyel olarak yararlıdır. En uygun karşılaştırmalı yöntemler spesifik olarak, çoklu genomlardan türetilen bilgileri kullanır, böylece standart araçlarla kolayca elde edilemeyen güvenilirlik ve hassasiyet elde edilir. Bu yeni yaklaşımlardan bazıları aşağıda kısaca gözden geçirilmiştir.

Fonksiyonel Bilginin Aktarılması

Çoklu genomlardaki bilgiyi kullanmanın en basit ve en yaygın yolu, iyi tanımlanmış genomlardan daha az çalışılmış olanlara fonksiyonel bilginin aktarılmasıdır. Dolaylı olarak, bu, bir veritabanı temelinde yeni dizilenmiş bir gen için tahminlerde bulunmak yoluyla yapılır. Bununla birlikte, bu tür yaklaşımlar temelinde doğru fonksiyonel tahmin yapabilmeyi engelleyen tuzaklar vardır. Bu tuzakların en önemlileri, hatanın yayılmasına neden olan ‘duyarlılık eksikliği’ ile ilgilidir. Bunun ana nedenleri, veritabanlarında halihazırda bulunan yanlış veya kesin olmayan açıklamalara ve ortologların paraloglardan ayırt edilmesindeki zorluklara bağlıdır. Ortolog - paralog meselesi kritiktir çünkü işlevsel bilginin aktarımı ortologlar için (doğrudan evrimsel eşler) güvenilir olarak kabul edilebilir, ancak paraloglar (gen kopyaları ürünleri) için çok tutarlı olmayabilir. Tüm bu problemler ortologların dikkatlice açıklanmış setlerinden oluşan ve onlara yeni proteinler tahsis etmek için keyfi kesintilere dayanmayan COG sistemi ile kısmen önlenebilir. COGNITOR programı kullanılarak yeni dizilimi yapılmış genomların ek açıklamaları için COG'ler kullanılabilir. Bu program, COG veritabanına dahil edilen tüm genomlardan; protein dizileriyle karşılaştırılarak ve genoma özgü en iyileri (BeT'ler) tespit ederek COGlar için yeni proteinler tahsis eder. Aynı COG'ye üç veya daha fazla sayıda BeT düştüğünde, sorgulanan protein yeni bir COG üyesi olarak kabul edilir. Bir COG'ye atanacak bir protein için çoklu BeT'lerin gerekliliği, bir dereceye kadar, COG veri tabanında kendiliğinden oluşabilecek hataların yayılmasına karşı bir koruma görevi görür. Gerçekten, eğer bir COG bir ya da iki yanlış pozitif içeriyorsa, bu üç-BeT kesme kuralı altında COGNITOR tarafından yanlış bir sonuç alınmayacaktır.

Filogenetik Paternler (Profiller)

Çoklu genomlara uygulanan COG-tipi analiz, genom analizi ve ek açıklamaları için birçok yönüyle faydalı olan filogenetik paternler için altyapı oluşturur. Her bir protein ailesi (COG) için filogenetik patern, ailenin temsil edildiği genom kümeleri olarak tanımlanır. COG veritabanı, kullanıcının belirli bir modelle COG'leri seçmesini sağlayan bir model arama aracı ile desteklenir. Buna dayanarak, fonksiyonel olarak ilişkili genlerin muhtemelen aynı filogenetik paterne sahip olduğu düşünülmektedir. Bu özellikler nedeniyle, tamamlanmış genomlarda fonksiyonel tahminleri geliştirmek için filogenetik paternler kullanılabilir. Belirli bir genom, belirli bir kompleksin veya yolun bileşenlerinin bir alt kümesi için COG'larda temsil edildiğinde, sadece diğer bileşenler için COG'larda eksik olduğunda, ikincisine yönelik odaklı bir araştırma gerekçelendirilir. Aynısı, bir genin birbiriyle yakından ilişkili iki genomdan birinde bulunduğu, ancak diğerin de bulunmadığı durumlar için de geçerlidir.

Farklı Genom Gösterimleri için Filogenetik paternların Kulanımı

Filogenetik patern yaklaşımı ve özellikle de COG'lerle ilişkili patern arama aracı, gen kümeleri üzerinde sistematik mantıksal işlemleri (VE, VEYA, DEĞİL) gerçekleştirmek için kullanılabilir; ve bu yaklaşım "diferansiyel genom gösterimi" olarak adlandırılır. Bu tip bir genom karşılaştırması, araştırılan organizmaların spesifik özelliklerine, örneğin termofili olarak katkıda bulunabilecek gen ürünlerinin alt kümelerini tanımlamaya izin verir. Bu yaklaşımın kullanımı, patojenik bakterilerde aday ilaç hedeflerinin tanımlanmasında özellikle ilgi çekicidir. Bu hedef genler içinde, ökaryotlarda eksik olan ancak bazı patojenik organizmalar tarafından paylaşılan genleri aramak mantıklı görünmektedir. Öte yandan, yeni geniş spektrumlu antimikrobiyal ajanlar için en iyi hedeflerin, tüm patojenik mikroplar tarafından paylaşılan ancak başka herhangi bir organizma tarafından paylaşılmayan genler olacağı söylenebilir. Ancak, bu gibi genler mevcut görünmemektedir. Bu açıdan, potansiyel olarak evrensel antimikrobiyal ajanların araştırılmasında en iyi çözümün, patojenlerin çoğunda bulunan fakat ökaryotlarda bulunmayan genleri izole etmek olduğu görülmektedir.

Gen (Domain) Füzyonlarının İncelenmesi

Yakın zamanda geliştirilen bir başka karşılaştırmalı genomik yaklaşım, protein ve alan (domain) füzyonunun (ve fisyonunun) sistematik analizini içermektedir. Buradaki temel hipotez, yolakdaki ardışık enzimlerin kinetik bağlanması örneğinde olduğu gibi, füzyonun yalnızca proteinler arasındaki fonksiyonel etkileşimi kolaylaştırdığı zaman uygulanmasıdır. Böylece, bazı türlerde kaynaştırılan proteinlerin, diğer organizmalarda, fiziksel olarak veya en azından işlevsel olarak etkileşmesi beklenebilir. Histidin biyosentez yolağında, alan adı füzyonundan alınabilen işlevsel çıkarımların bir örneği, E. coli ve H. influenzae'de iki iki alanlı protein olan HisI ve HisB'yi içerir. HisI'nin iki alanı histidin biyosentezinin iki ardışık adımını katalize eder ve böylece ayrı proteinler olarak üretildiğinde bile fiziksel olarak etkileşime girebilecek alt birimleri temsil eder. Aksine, HisB'nin iki alanı, yolun yedinci ve dokuzuncu basamaklarını katalize eder ve dolayısıyla fiziksel olarak etkileşime girmesi muhtemel değildir. COG veritabanı yaklaşık 700 farklı çok alanlı mimariyi içerir. Bu nedenle, işlevsel tahmin için alan füzyonunun kullanılması, bu yaklaşımın, örneğin, bir "birleşik" ile kombinasyon halinde bulunabilen DNA bağlayıcı heliks-dönüş-sarmal alanı gibi '' çarpıcı '' alanlar için çalışmaz olmasına rağmen, diğer alanlar için çok çeşitli önemli ampirik bir potansiyele sahiptir.

Ek olarak, etki alanlarını tespit etmek ve çok alanlı proteinlerin mimarilerini keşfetmek için birkaç veritabanı geliştirilmiştir: Pfam, ProDom ve SMART.

Hepsinden önemlisi, SMART, alan tespiti hassasiyetinin ve hızının yüksek olması ve etki alanı mimarilerinin son derece bilgilendirici sunumuyla en gelişmiş veritabanıdır. PSI-BLAST programının bir modifikasyonuna dayanan protein alanları için hızlı aramalar da artık NCBI'de Conserved Domains Database (CDD) aracılığıyla da mevcuttur.

Kalıtların (Operon) Analizi

Gen füzyonlarının analizine kavramsal olarak benzeyen, fakat daha genel olan bu yaklaşım genomlarda “gen komşuluklarının” sistematik analizini içerir. Fonksiyonel olarak bağlanan genler sıklıkla bakteriler ve arkelerdeki kalıtları oluşturduğundan, gen komşuluğu önemli fonksiyonel öneriler sağlayabilir. Bununla birlikte, işlevsel olarak ilişkili birçok gen, hiçbir zaman kalıt oluşturmaz ve birçok durumda, bitişik genler herhangi bir şekilde bağlanmaz. Prokaryotlarda gen sıralamasının genel olarak korunmamasından dolayı, üç veya daha fazla genomda bir çift bitişik ortolog genin varlığı veya iki genomda bir satırda üç ortologun varlığı istatistiksel olarak anlamlı olarak kabul edilebilir ve bu genlerin ürünleri potansiyel fonksiyonel etkileşimi görmek için kullanılabilir. Herhangi iki genomda korunan gen dizilerinin tanımlanması için en basit araç, KEGG'nin bir parçası olarak mevcuttur. Kullanıcının iki tamamalanmış genomu seçmesine izin verir (örneğin, B. burgdorferi ve R. prowazekii) ve ürünleri birbirine benzeyen ve birbirinden belirli bir mesafede bulunan tüm genleri arar (örneğin, 0 ile ayrılır). –5 gen). Sonuçlar, gen sıralamasını ve gen ürünlerinin varsayılan fonksiyonlarını gösteren grafik bir formatta gösterilmektedir. Filogenetik olarak uzak bakterilerde gen pozisyonunun korunması fonksiyonel bir bağlantıyı önermektedir.

KARŞILAŞTIRMALI GENOMİK UYGULAMALAR - METABOLİK YOL HARİTALARININ YENİDEN YAPILANDIRILMASI

Yukarıda tartışılan genom analiz araçlarını göstermek için, archeon Methanococcus jannaschii'deki glikolitik yolun yeniden yapılandırılması sunulmuştur. Metabolik yeniden yapılandırma, tüm genom analizlerinin çok önemli son adımlarından biridir ve farklı yöntemlerle üretilen veriler için yakınsama noktalarından biridir. Glikoliz, KEGG Web sitesinde interaktif olarak bulunan biyokimyasal yolların basit bir inceleme ile bile açıkça görülebildiğinden, hücresel biyokimyanın merkezi yolaklarından biridir. (Şekil 8).

Fig. 8. KEGG deki Glikoliz

Fig. 8. KEGG deki Glikoliz

Bu haritadaki tüm enzimlerin ve metabolitlerin isimleri arasında köprü vardır (hyperlinked) ve araştırılabilir. Enzim isimleri enzim bilgisine köprülerle bağlanmıştır. Protein dizilerinin bilinip bilinmediği, isimleri ve katalizli reaksiyonları, resm Enzim Komisyonu (EC) sayılarını listeler. Böylece, ‘‘hexokinase” yazısına tıklandığında ilgili sayfa gelecektir (Şekil 9).

Fig. 9. Hexokinaz

Fig. 9. Hexokinaz

bilgisi

Veritabanlarında Hata Yayılması ve Eksik Bilgiler

Dizi (sekans) veri tabanları, hata yayılımına çok yatkındır, bu yüzden bir proteinin yanlış eklenmesi, yeni genomların ek açıklamaları için kullanıldığından birden fazla hataya neden olur. Ayrıca, veri tabanı araştırmaları gürültü amplifikasyonu potansiyeline sahiptir, bu yüzden orijinal açıklama, küçük bir yanlışlık veya eksiklik içerse bile dizilim benzerliğine dayanan transferler, problemi daha da kötüleştirmekte ve sonuçta tamamen yanlış işlevsel görevlere yol açmaktadır.

Dizilim (sekans) veri tabanlarının bu yönleri, hataya eğilimli olan en iyi veri tabanının (uyumlu ek açıklamalara sahip bir grup olsa bile) ek açıklamalarına dayanarak gen fonksiyonunu göstermek için genel uygulamayı yapar. Yeterli genom ek açıklamaları daha fazla zaman ve emek tüketmekle birlikte her genin hem kendi filogenetik ilişkileri hem de ilgili organizmanın biyolojisi bağlamında düşünülmesini gerektirmektedir, çünkü otomatik sistemlerin performansları hayal kırıklığı yaratabilmektedir. Dolayısıyla ilk başta genom ek açıklamalarının yanlış olma ihtimalinin birçok nedeni vardı fakat iki temel sorun grubu; veritabanı arama yöntemlerinden ve genomların kendilerinin karmaşıklığı ve çeşitliliğinden kaynaklanmaktadır.

Veritabanı Aramalarında Yanlış Pozitif ve Yanlış Negatifler

Genom ek açıklamalarında ‘istatistiksel olarak anlamlı’ veritabanları için bir kesme değeri kullanmak normaldir. BLAST aramaları için yanlış pozitif beklenti (E) değeri olarak ifade edilebilir ve rutin olarak E = 0.001 veya E = 10-5gibi değerlere ayarlanır. Bu yaklaşımla ilgili sıkıntı, evrimsel ve işlevsel açıdan ilgili dizi hizalamaları için benzerlik puanları dağılımının çok geniş aralıkta olmasıdır ve bunların önemli bir kısmı E- değeri kesme değerinin dışına düşer ki bu da tespit edilemeyen ilişkilere ve fonksiyonel tahmin için fırsatların değerlendirilememesine neden olur (yanlış negatifler). Ya da tam tersine, sahte vuruşların e-değerlerinin kesme noktasından daha düşük olması, yanlış pozitif sonuçlara neden olabilir. Bu ikinci durum en sık sorgu sekansındaki ve veri tabanı sekanslarındaki bileşimsel yanlılıklardan (düşük karmaşık bölgeler) kaynaklanır. Açıkçası, tüm veritabanı aramalarında duyarlılık (yanlış negatif oran) ve seçicilik (yanlış pozitif oran) arasında bir denge vardır ve bu süreci özellikle genom çapındaki analizlerde optimize etmek zordur. Bu sorunları aşmak için kolay karar verilemez. Yanlış pozitif oranını en aza indirmede, düşük karmaşıklıklı dizileri filtrelemek için uygun prosedürler önemlidir. SEG programını kullanarak filtreleme, Web tabanlı BLAST aramaları için varsayılan değerdir, fakat sadece belirli tipte proteinler için ek filtreleme gerekçelendirilmiştir. Örneğin, SEG kullanılarak öngörülen nonglobüler alanların, özel olarak ayarlanmış parametrelerle filtrelenmesi ve COILS2 programı kullanılarak sarılmış-bobin alanlarının filtrelenmesi, yanlış pozitif oranı en aza indirmenin bir yoludur. Yanlış negatif oranı en aza indirgemek (yani, duyarlılığı en üst düzeye çıkarmak) açık uçlu bir sorundur. Verilen bir genomda kodlanmış protein dizileri ile standart bir veritabanı araştırmasının (örn., BLAST kullanılarak) yeterli bir açıklama için yetersiz kaldığı unutulmamalıdır. Genom analizinin duyarlılığını artırmak için, önceden oluşturulmuş profil kütüphaneleri ile verilen genomdan protein dizileri kümesinin taranması gibi diğer daha güçlü yöntemlerle desteklenmelidir.

Hata Kaynağı olarak Genom, protein ve Organizmanın İçeriği

Yukarıda tartışıldığı gibi, protein alanı mimarisi, genomik bağlam ve bir organizmanın biyolojisi, dolaylı, işlevsel bilgiler olsa bile, önemli kaynaklar olarak hizmet edebilir. Ancak, aynı bağlam özellikleri, yanlış yorumlandığında, genom ek açıklamalarında ana hata ve karışıklık kaynaklarından biri haline gelebilir. Standart veritabanı arama programları, çok alanlı protein organizasyonlarının etkilerini açık bir şekilde ele alma araçlarıyla donatılmamıştır. Bu nedenle, SMART veya COG'ler gibi özel araçlar kullanılmadıkça ve / veya arama çıktısı dikkatlice incelenmedikçe, tek alanlı bir proteinin fonksiyonunun bir çoklu alan homologuna atanması ya da bunun tersi genom ek açıklamalarında sıklıkla görülür. Örneğin, mobil alanlar, genomlarda “IMP-dehidrojenazla ilgili proteinlerin” çoğalması örneğinde olduğu gibi, ek açıklama işleminde kaosa neden olabilir. Gerçekte, enzimatik kısmı paylaşmasa da, bu proteinlerin çoğu (veya genomuna bağlı olarak), IMP dehidrojenazını mobil CBS alanıyla paylaşır. Yukarıda tartışıldığı gibi, bu durum belirli bir organizmanın biyolojik içeriğinin dikkate alındığı güvenilir genom ek açıklamaları için de önemlidir. Örneğin, ökaryotik homologlar doğru bir şekilde tarif edilmiş olsalar bile, arkeal gen ürünlerinin nükleolar proteinler olarak eklenmesi tercih edilmez. İşlevsel bir açıklama için genel bir rehber olarak, genom analizi için mevcut metotların, hatta en güçlü ve sofistike olanlarının bile, uzmanların çalışmalarının yerini tutamayacağı unutulmamalıdır.

SON AÇIKLAMALAR

Tamamlanmış genom çalışmalarındaki artış, bunların kolay elde edilebilir olması ve genom karşılaştırmaları için özel araçların, veritabanlarının çoğalması; genom analizleri için ‘karşılaştırmalı yaklaşımlar’ ı en güçlü strateji haline getirmektedir. Gelecekte genetik verileri sürekli olarak filogenetik, işlevsel veya yapısal ilkelere göre düzenleyen veri tabanlarına ve araçlara daha çok ihtiyaç duyulacağı; analizin çözüm gücünü ve sağlamlığını arttırmak için genom çeşitliliğinden açıkça faydalanılması gerektiği giderek daha netleşmektedir. Genom analizinde birçok işlemin otomasyona bağlanması mümkündür. Hızla büyüyen veri miktarı göz önüne alındığında, otomasyon genomların ilerlemesi için kritik öneme sahiptir. Bu, karşılaştırmalı genom analizinin ve ek açıklamaların nihai başarısının, her organizmanın eşsiz biyolojisi de dahil olmak üzere, çeşitli girdilere dayalı karmaşık kararlara bağlı olduğunu ortaya koyar. Bu nedenle, bir bütün olarak alınan genom analizi ve ek açıklama süreci, en azından şu anda, otomatikleştirilemez ve hatalardan kaçınmak ve genom dizilerinden mümkün olan maksimum bilgiyi çıkarmak için insan uzmanlığı gereklidir.

Funding

Disclaimer

The European Commission support for the production of this publication does not constitute endorsement of the contents which reflects the views only of the authors, and the Commission cannot be held responsi-ble for any use which may be made of the information contained therein.