LO1: Biyoloji, biyolojik veri tabanları ve yüksek verimli veri kaynakları

Bilgisayar Çağında Biyoloji

Biyoenformatik, bilgisayar ve biyolojik verilerin kullanımını birleştiren bilimdir. Biyolojik süreçleri anlamak ve diğer birçok soruya cevap vermek için kullanabileceğimiz bir araçtır. Tam anlamıyla biyoinformatik, bilişim biliminin daha büyük alanının, biyolojik sistemlerin modellenmesinde kantitatif bilimsel stratejilerin kullanılmasının bir alt kümesidir. Biyoenformatik alanı, istatistiksel yöntemler ve örüntü tanıma uzmanlarının çalışmalarına kuvvetle bağlıdır. Biyoinformatiğe aritmetik, yazılım mühendisliği ve anlambilim dâhil olmak üzere birçok alandan bilim insanları gelir. Ne yazık ki, biyoloji özel ve ek olarak genel bir çalışma alanıdır. Biyoenformatik, biyolojik verilerin nereden kaynaklandığı ve neyi ima ettiği tüm yönleri tam olarak anlamadan örnekler arayan ve beklentileri olan bireyler için tehlikelerle doludur. Biyoinformatik hesaplamalar, veritabanları, UI’ler ve ölçülebilir aygıtlar yoluyla DNA dizilerini karşılaştırmak ve potansiyel olarak anlamlı sonuçlar üretmek gibi şeyleri mümkün kılar. Muhtemelen kritik olan en temel açıklaması da budur. Bu yeni yaklaşım ek olarak bilginin yayılması ve hiçbirinin gerçek olmadığı yerde anlam tayin etme şansı verir. Bu araçların kısıtlamalarını da anlayarak önemi abartılmamalıdır. Her durumda, bu anlayışı kazanıp biyoinformatik stratejilerinin akıllı kullanıcısına dönüşünce, araştırmanızın ilerleyiş hızı gerçekten şaşırtıcı olabilir.

Biyoinformatik, biyologların ilgisini çeken her türlü veri ile ilgilenir.

  • DNA ve protein dizileri
  • Gen ifadesi (mikrodizi)
  • Literatürdeki makaleler ve alıntıların veri tabanları
  • Görüntüler
  • Herhangi bir saha veya laboratuvar denemesinden toplanan ham veriler
  • Yazılım

Bilişim Biyolojiyi Nasıl Değiştiriyor?

Biyolojik genetik ve fonksiyonel veriler, daha küçük moleküllerden oluşan lineer zincirler olan DNA, RNA ve proteinler olarak depolanır. Bu makromoleküller, iyi çalışılmış kimyasalların tanımlanmış bir alfabesinden oluşur: DNA, dört deoksiribonükleotidden (adenin, timin, sitozin ve guanin) oluşur, RNA dört ribonükleotitten (adenin, urasil, sitozin ve guaninden) oluşur, ve proteinler 20 aminoasit kullanılarak yapılır. Bu makromoleküller, karakteristik parçaların düz zincirleri oldukları için, sembol dizileri olarak temsil edilebilirler. Daha sonra bu diziler moleküllerin form veya işlev ile ilişkili olduğunu gösteren benzerlikler bulmak için karşılaştırılabilir. Dizilerin incelemesi, moleküler biyologlar için ortaya çıkacak en değerli hesaplama aracıdır. World Wide Web (Dünya çapında ağ), genel bir kullanıcı grubuna tekdüze bir arabirim aracılığıyla fayda sağlamak için tek bir genel genom dizisi verisi veritabanını mümkün kılmıştır. FsBLAST adı verilen normal olarak kullanılan bir PC programıyla, moleküler biyologlar, açık olarak temin edilebilen tüm DNA dizisi koleksiyonları ile, tanımlanmamış bir DNA’yı karşılaştırabilir.

Biyoenformatik ve Veritabanları Oluşturma

Şu anda biyoinformatiğin önemli bir yönü olarak değerlendirdiğimiz pek çok şey - dizi karşılaştırması, sıralı veri tabanı araştırması, dizi analizi - genel veri tabanlarını özetlemekten ve belirlemekten daha karmaşıktır. Biyoinformatisyenler (ya da hesaplamalı bilimciler) istatistik, fizik, malzeme bilimi, yazılım mühendisliği gibi çok çeşitli nicel alanlardan bilgiyi indirme, yönetme ve sunmanın ötesine geçmektedir. Şekil 1, kantitatif bilimin her seviyede biyoloji ile kesiştiğini, sekans bilgisi ve makromolekül yapısının araştırılmasından, metabolik modellemeye, popülasyonların ve ekolojinin kantitatif çalışmasına kadar nasıl kestiğini göstermektedir.

Şekil 1. Teknoloji biyolojiyle nasıl kesişir?

Şekil 1. Teknoloji biyolojiyle nasıl kesişir?

Biyoenformatik her şeyden önce biyolojik bilimlerin bir parçasıdır. Biyoenformatiğin temel amacı, en karmaşık algoritmaları veya en gizli analizleri oluşturmak değil; canlı organizmanın nasıl işlediğini keşfetmektir. Olağanüstü genişletilmiş moleküler biyoloji bilim stratejileri gibi biyoinformatik de kendi içinde bir amaç değil araştırmaya uygun olan bir yaklaşımdır. Biyoinformatisyenler araç geliştiricidir ve değerli araçları yaratacak şekilde doğal konuları ve hesaplama düzenlemelerini kavramaları önemlidir. Biyoenformatik ve hesaplama bilimindeki araştırmalar, bir biyolojik sistemin özelliklerinin matematiksel veya fiziksel bir modele soyutlanmasını, bilgi araştırması için yeni hesaplamaların yapılmasını, bunları değerlendirmek için veri tabanlarının ve web araçlarının geliştirilmesini içerebilir.

Bilişim ve Biyologlar

Bilişim bilimi, özellikle bilgisayarlı çerçeve içinde verilerin temsili, organizasyonu, manipülasyonu, dağıtımı, bakımı ve kullanımı üzerine odaklanmıştır. Biyoenformatiğin fonksiyonel kısmı verilerin temsili, depolanması ve dağıtımıdır. Bilgi konfigürasyonlarının ve veri tabanlarının akıllı hatları, bu veri tabanlarında arama yapmak için araçların oluşturulması ve kullanıcının bilgi hakkında karmaşık sorular sormasını sağlamak için çeşitli aygıtları birleştiren UI’lerin ilerlemesi genellikle biyoenformatik temelinin iyileştirilmesinin parçalarıdır.

Bilgide bilgi bulmak için analitik araçlar oluşturmak, biyoenformatiğin ikinci ve daha mantıklı bir parçasıdır. Yeni bir genin işlevi hakkında bir teori oluşturmak için dizileri karşılaştırıp karşılaştırmamaya bakılmaksızın, biyolojik verilerinden yararlandığımız birçok seviye vardır. Proteinlerin nasıl katlandığını öngörmeye yardımcı olabilecek kalıpları keşfetmek için bilinen 3D protein yapılarını incelemek ya da bir hücredeki proteinlerin ve metabolitlerin hücre işlevini nasıl yerine getirdiğini göstermek gerekir. Analitik biyoinformatisyenlerin nihai hedefi, araştırmacıların sadece kendi genom dizisine dayanarak yaşayan organizmaların işlevini ve fenotipini göstermelerini sağlayan ileri teknikler yaratmaktır.

Biyoinformatik Beceriler?

Biyoenformatik ile ilgileniyorsanız faydalı olabilecek çok çeşitli noktalar var ve bunların hepsini öğrenmek mümkün değildir. Bununla birlikte, biyoinformatisyenler için aşağıdaki “temel gereksinimlerin” altı çizilebilir:

  • Moleküler biyokimya, moleküler biyoloji, moleküler biyofizik veya hatta moleküler modelleme gibi moleküler biyolojinin bazı kısımlarında gerçekten derin bir arka plana sahip olun.
  • Moleküler biyolojideki santral doğmayı tamamen kavrayarak DNA sekansının nasıl ve niçin RNA’ya transkribe edildiğini ve sonra proteine ​​çevrildiğini anlayın.
  • Dizi analizi veya moleküler modelleme için en az bir veya iki büyük moleküler biyoloji yazılım paketi ile önemli deneyime sahip olun. Bu yazılımlardan birini öğrenme deneyimi, mevcut diğer programların nasıl kullanılacağını anlamanın çok daha kolay olmasını sağlar.
  • Bilgisayar ortamında çalışmaya açık olun.
  • Bilgisayar programlama ile ilgili tecrübeye sahip olun, örneğin C / C ++ gibi bir programlama dilinde; Perl veya Python gibi bir programlama dilinde deneyim kazananın.

Biyologlar ve Bilgisayarlar

Bilgisayarlar, matematiksel olarak açıklanabilecek herhangi bir sistemi incelemek için güçlü aygıtlardır. Biyolojik süreçlerin kavranması geliştikçe ve genişledikçe, hesaplama biyolojisi ve biyoinformatiğin geleneksel biyoloji, matematik ve bilgisayar bilimleri kesişiminden gelişmiş olması şaşırtıcı değildir.

Deneysel moleküler biyolojinin genişleyen otomasyonu ve biyolojik bilimlerde artan verilerin kullanımı, biyolojik araştırmaların gerçekleştirilme biçiminde büyük bir değişikliğe yol açmıştır. Bir seferde tek bir genin ayrıntılı olarak araştırılmasının yanında erişilebilir olan tüm bilgileri şu anda sınıflandırıyor, daha sonra geri dönüp ilgili noktaları işaretleyebileceğimiz eksiksiz haritalar yapıyoruz. Bu şekilde sekansın yapısı ve etki alanları da meydana geliyor ve farklı bilgi türleriyle de başa çıkmak için bir yol haritası sunuyor. Bu biyolojik bilgilerinin açık erişime sahip birçok kamu veritabanında depolanması yönünde bir eğilim var. Laboratuvarda hazırlayıcı araştırma yapmak yerine, araştırmacılar başlangıçta zaman ve maliyetten tasarruf etmek için bu veritabanlarına gidiyorlar.

Web Bilgi Kullanımı

Bir web formunu doldurarak ve bir genel veri tabanına bakarak, tek bir protein yapı dosyasını veya DNA dizisi dosyasını hızla bulabilirken, sonunda bir bitlik bilgi ile çalışmak isteyeceksiniz. Kendi özel bilgilerinizi toplayabilir ve arşivleyebilirsiniz. Yeni keşfedilen bilgileri daha geniş bir araştırma topluluğunun erişilebildiği hale getirmeniz gerekebilir. Bunları etkili bir şekilde yapmak için, kendi PC’nizde bilgi depolamanız gerekir. Verilerinizi bir bilgisayar programını kullanarak işlemeniz gerektiğinde, bilgilerinizi yapılandırmanız gerekir. Organize ve yapılandırılmamış bilgiler arasındaki karşıtlığı anlamak ve veri depolama ve erişim gereksinimlerinize uygun bir bilgi dizilimini tanımlamak, bilgilerinizi değerli ve erişilebilir hale getirmenin bir yoludur.

Bilgileri sıralamak için sayısız yaklaşım vardır. Çoğu biyolojik veri düz dosya veritabanlarında saklanırken, depolanan veri miktarı çok büyük olduğunda bu tür veri tabanı verimsiz hale gelir. Düz dosya ve ilişkisel veritabanları arasındaki farklar hakkında daha fazla bilgi sağlamak ve veritabanlarını yönetmek için en iyi genel alan-aracını tanıtın ve bunları GM2’de bulabileceğiniz verilerinizi depolamak ve bunlara erişmek için nasıl kullanacağınızı gösterin (Gelişmiş düzey).

Sıra Hizalama Verilerini Anlama

Verilerinizi anlamak veya görselleştirme araçları olmadan bir noktaya ulaşmak zordur. Biyolojik bilgileri anlamak için çapraz kesitlerin veya karmaşık çok değişkenli verilerin alt kümelerinin düzenli olarak çıkarılması gereklidir. Verileri açık, esnek bir biçimde kaydettikten sonra, bir sonraki aşama sizin için neyin gerekli olduğunu çıkartıp görselleştirmektir. Bilgilerinizin histogramını yapmalı veya üç boyutlu olarak moleküler bir yapı göstermeli ve belirli bir görselleştirme araçlarını kullanarak gerçek zamanlı olarak hareket etmesini izlemelisiniz.

Protein Yapısını Diziden Tahmin Etme

Biyoinformatikçilerin cevaplayamayacağı bazı sorular vardır ve bu onlardan biridir. Gerçekten de bu, hesaplama bilimindeki en büyük açık araştırma soruşturmalarından biridir. Bu tür konular ve bunların üzerinde çalışan farklı araştırmacılara ilgili verileri keşfetmek için enstrümanların sağlanması gerekir. Yine de biyoinformatik diğer bazı bilimler gibi tüm konulara hızlı ve basit yanıtlar vermez.

Biyoinformatiklerin Cevaplayabileceği Sorular

Biyoenformatik gelişimini yönlendiren sorular, insanların son yüzyıldaki uygulamalı biyolojideki sorulara benzer. Hastalığı nasıl iyileştirebiliriz? Enfeksiyonu nasıl önleyebiliriz? İnsanlığı devam ettirebilmek için yeteri kadar yiyecek üretebilir miyiz? İlaç geliştirme, tarım kimyasalları, hibrit tesisler, plastikler ve diğer petrol türevleri ve çevresel iyileştirmeye yönelik biyolojik yaklaşımlar alanında çalışan kuruluşlar, biyoenformatik bölümler oluşturmakta ve kıt doğal kaynakların yenilenmesine yardımcı olmak için biyoinformatiğe yeni hedefler yüklemektedirler.

Genom projelerinin sağladığı bilgileri kullanmak hedefimize ulaşmada yardımcı olur. Modern moleküler biyolojinin önemli hedefleri, canlı organizmaların tüm genomlarını okumak, her bir geni tanımlamak, her geni kodladığı proteinle eşleştirmek ve her proteinin yapısını ve işlevini tespit etmektir. Gen dizisi, protein yapısı ve işlevi ile gen ekspresyonu kalıplarının ayrıntılı bilgisi, yaşamın en dikkate değer akla uygun çözünürlükte nasıl işlediğini görmemizi sağlar. Bu şekilde canlı organizmaları manipüle etme yeteneği kesin bir şekilde gerçekleştirilecektir.

Biyolojik Sorulara Hesaplamalı Yaklaşımlar

Biyoenformatikte uygulanan standart yaklaşımlar vardır. Günümüzde, önemli yöntemlerin büyük kısmı bir anahtar ilkeye dayanmaktadır: moleküllerin arasındaki dizi ve yapısal eşitlik (veya benzerlik) temel ve fonksiyonel benzerliği tanımlamak için kullanılabilir. Burada, araştırmacı tarafından erişilebilen standart bilgisayar araçları için bir taslak verilmektedir; GM2’de, belirli yazılım paketlerinin bu stratejileri nasıl uyguladığı ve bir araştırmacının bunları nasıl kullanması gerektiği incelenmiştir.

Moleküler Biyoloji Merkezi Dogma

Moleküler biyolojinin santral dogması şunu belirtmektedir:

  • DNA kendini çoğaltan bir şablondur.
  • DNA, RNA’ya kopyalanır ve
  • RNA proteine ​​çevrilir.

Kısaca, genomik DNA, tanımlanmış bir canlı organizmanın işleyişi hakkında gerekli tüm bilgileri içerir. DNA olmadan, organizmalar kendilerini kopyalayamazlardı. Bununla birlikte, DNA’nın ham “tek boyutlu” dizisi, aslında biyokimyasal olarak bir şey yapmaz; Sadece bilgiyi depolar ve hücrenin protein sentezleme makineleri tarafından okunan bir plandır. DNA dizileri delikli kartlara; hücreler ise bilgisayarlara benzetilebilir.

DNA replikasyonu

DNA moleküllerinin spesifik yapısı kendine has özellikleri olmasını sağlar. Bu özellikler DNA’da depolanan bilgilerin korunmasını ve bir hücreden diğerine aktarılmasını ve böylece ebeveynlerden yavrularına aktarılmasını sağlar.

Şekil 2. DNA sarmalının şematik replikasyonu

Şekil 2. DNA sarmalının şematik replikasyonu

Genomlar ve Genler

Genom bireysel genleri içerir. Üç gen sınıfı vardır: protein kodlayan genler, RNA-belirleyici genler transkripte edilmemiş genlerdir.

DNA’nın transkripsiyonu

DNA, Ribonükleik asidin (RNA) sentezi için bir plan görevi görür.

Şekil 3. DNA’nın RNA’ya şematik transkripsiyonu

Şekil 3. DNA’nın RNA’ya şematik transkripsiyonu

mRNA’nın çevirisi

mRNA’nın proteine çevrilmesi, hücrede çalışmak için genomdaki bilgilerin yerleştirilmesindeki son anahtar adımdır.

Şekil 4. Genetik kod

Şekil 4. Genetik kod

Moleküler Evrim

DNA’nın replikasyonu ve transkripsiyonundaki hatalar nispeten yaygındır. Bu hatalar bölünen hücrelerde meydana gelirse, yavrularına geçirilebilir. DNA sekansındaki modifikasyonlar zararlı etkilere sahip olabilirler, ayrıca yararlı olabilirler veya nötr olabilirler. Eğer bir mutasyon, üremeden önce organizmayı öldürmezse, mutasyon birçok kuşak boyunca popülasyonda sabitlenebilir. Bu mutasyonların yavaş bir şekilde birikmesi, evrimin arka planıdır. Böylece, DNA dizilerinin bilinmesi bize daha kesin bir evrim anlayışı sunar. Evrimin moleküler mekanizmasının, DNA dizisi mutasyonlarının biriktirilmesi aşamasındaki aşamalı bir süreç olarak bilinmesi, DNA ve protein dizisi karşılaştırmasına dayanan kuramların ortaya çıkmasının nedenidir.

Biyolojik Modeller

Biyoloji ve biyoinformatiğin en önemli egzersizlerinden biri modellemedir. Bir model karmaşık bir sistemi tanımlamanın teorik yoludur. Bir şeyi kromozom olarak veya hücre bölünmesi döngüsünde karmaşık (ve kafa karıştırıcı) bir şey olarak, öğrenmeye çalıştığınız tüm özellikleri yakalayan basitleştirilmiş bir temsile dönüştürmek son derece zordur. Bir model, daha büyük resmi görmemize yardımcı olur. İyi bir modelin özelliği nicel yaklaşımları kullanarak analiz etmeyi daha kolay bir şekilde sağlamak için zor olan sistemleri yapmasıdır. Biyoinformatik araçları, biyolojik bir sistemden (tek bir molekül veya bir hücre kadar karmaşık bir şey gibi) ilgili parametreleri çıkarma yeteneğimize dayanır, bunları nicel olarak tanımlar ve daha sonra bir sistemin özelliklerini hesaplamak için bu parametreleri kullanan hesaplama yöntemlerini geliştirir veya bir sistemin davranışı tahmin etmemizi sağlar.

1D Temsili ile 3D Moleküllere Erişme

Gerçekte, DNA ve proteinler birbirine bağlanmış binlerce hatta milyonlarca atomdan oluşan karmaşık 3D moleküllerdir. Bununla birlikte, DNA ve proteinlerin her ikisi de polimer ve tekrarlayan monomer zincirleridir. DNA ve proteinlerin kimyasal doğaları anlaşılmadan çok geçmeden araştırmacılar, onları tek harfli dizelerle temsil etmenin uygun olduğunu fark ettiler. Her bir nükleik asidi bir DNA dizisinde detaylı bir kimyasal varlık olarak temsil etmek yerine, basit bir şekilde A, T, C ve G olarak gösterilebilir. Böylece, binlerce bireysel atom içeren kısa bir DNA parçası bir dizi birkaç yüz harfle temsil edilebilir.

Bu soyutlama sadece depolama alanından tasarruf etmekle kalmaz ve sekans bilgisini paylaşmak için uygun bir form sağlar, bir molekülün doğasını benzersiz ve doğru bir şekilde temsil eder ve deneysel olarak erişilemeyen ayrıntı düzeylerini (DNA’nın atom yapısı ve birçok protein gibi) göz ardı eder. Birçok hesaplama biyolojisi yöntemi, 3D biyolojik makromoleküllerin bu 1D soyutlamasını kullanır.

Nükleik asit ve protein dizilerinin 1 D dizilerine soyutlanması, hesaplamalı moleküler biyolojide en verimli modelleme stratejilerinden biridir ve karakter dizilerinin analizi, bilgisayar bilimlerinde uzun süredir devam eden bir araştırma alanıdır. Diziler hakkında sorabileceğiniz temel sorulardan biri, “Onlar eşleşiyor mu?” Bilgisayar bilimlerinde, dizilerin çiftlerinde tam ve yanlış eşleşmeleri bulmak için iyi bilinen algoritmalar vardır. Bu algoritmalar, biyolojik diziler arasındaki çiftli eşleşmeleri ve bir dizi sorgusu kullanarak arama dizisi veritabanlarını bulmak için uygulanır.

Tek tek dizileri eşleştirmenin yanı sıra, bilgisayar bilimlerinde diziye dayalı yöntemler, moleküler biyolojide bir takım başka problemlere başarıyla uygulanmıştır. Örneğin, bir dizi daha kısa alt dizilerinden bir dizinin yeniden yapılandırılması için algoritmalar, DNA dizilerini çakışan dizi parçalarıyla birleştirebilir. Çoklu sekanslar boyunca tek sekanslarda veya korunmuş desenlerde tekrarlanan modelleri tanımak için teknikler, araştırmacıların biyolojik yapılar veya işlevlerle ilişkili göstergeleri tanımlamasına olanak sağlar. Son olarak, çoklu dizi hizalama teknikleri, sekanslar arasındaki evrimsel ilişkileri çıkarabilen birkaç molekülün eş zamanlı karşılaştırılmasına olanak sağlar. DNA ve protein sekansının basitleştirilmesi çok sayıda biyoloji bilgisini göz ardı ediyor gibi görünür. Biyomoleküllerin bulunduğu hücresel içerik, diğer moleküller ve bunların moleküler yapısı ile etkileşimleri tamamen yok sayılır. Yine de biyolojik diziler arasındaki bu eşleşmelerin biyolojik olarak anlamlı olabileceği gösterilmiştir.

Protein Yapısının Modellenmesi İçin Soyutlamalar

Dizilerden daha fazla canlılarla ilgili bilgi elde edilir. Proteinler ve nükleik asitler ayrıca canlı organizmadaki işlevlerine ipucu veren kompleks 3D yapılara sahiptir. Statik yapılar üzerinde yapı analizi yapılabilir veya moleküllerdeki hareketler ve etkileşimler moleküler simülasyon yöntemleri ile incelenebilir.

Standart moleküler simülasyon, proteinleri bağlar ile birbirine bağlanan nokta kütlelerinin (atom) bir topluluğu olarak ele alır. İki atom arasındaki bağ, deneysel kimyadan türetilmiş standart bir uzunluğa ve bağ uzunluğunu kısıtlayan bir güce sahiptir.

Üç bitişik atom arasındaki açı standart bir değere ve bu değerin etrafında bağlanma açısını sınırlayan uygulanan bir kuvvete sahiptir. Aynı şey, dört bitişik atomun tarif ettiği dihedral açısı için de geçerlidir. Moleküler bir dinamik simülasyonda, simüle edilmiş “ısıtma” ile moleküler sisteme enerji eklenir. Standart Newton yasalarının ardından, molekül içindeki atomlar hareket eder. Sisteme eklenen enerji, molekül içerisindeki atomları standart uyumlarından hareket ettiren bir karşıt kuvvet sağlar. Bir moleküler sistemdeki yüzlerce atomun eylemleri ve reaksiyonları bu soyutlama kullanılarak simüle edilebilir.

Her durumda, moleküler simülasyonlar için hesaplama istekleri çok büyüktür ve hem güç alanında - molekülü modelleyen standart güçlerin birikimi - hem de birleşmemiş etkileşimlerin gösterilmesinde - zayıf olan atomlar arasındaki etkileşimler - bazı zayıflıklar vardır. Bu şekilde, tüm-atom modelleme yaklaşımını kullanarak protein yapısını tahmin etmenin beklenmediği görülmüştür.

Birkaç araştırmacı, orta düzeyde bir soyutlamayı kullanan küçük proteinler için protein topolojisini tahmin etmede son zamanlarda ılımlı bir başarı elde etmiştir -lineer diziden daha fazlası, fakat tüm atom modelinden daha azı- . Bu durum için, protein bir dizide (omurgaya konuşan) globüllerin (bireysel amino asitlerle konuşma) ilerlemesi olarak ele alınmaktadır. Globüller, amino asitlerin yan zincirlerindeki farklılıkları temsil edecek ayırt edici karakterlere sahip olabilir. Pozitif veya negatif yüklü, polar veya polar olmayan, küçük veya büyük olabilirler. Hangi globüllerin birbirini çekeceği denetleyen kurallar vardır. Polar gruplar diğer polar gruplarla kümelenir ve polar olmayan kutupludur. Dizi ile ilgili kurallar da vardır; Esasen simülasyon süreci boyunca kendini geçemez. Protein katlanmasının modellenmesi, her bir globülün pozisyonunun ardışık veya anlık karışıklıkları ile yönlendirilir.

Biyokimyasal Sistemlerin Matematiksel Modellenmesi

Biyolojide teorik modellerin kullanılması, tek molekül seviyesinin çok ötesindedir. Yıllardır, ekolojistler, birbirine bağımlı popülasyonlardaki değişikliklerin dinamiklerini anlamalarına yardımcı olmak için matematiksel modeller kullanıyorlar. Bir yırtıcı hayvan türünün nüfusunun azalmasının avının nüfusu üzerindeki etkisi nedir? Çevrede hangi etkinin nüfus üzerinde etkisi vardır? Bu soruların cevapları, teorik olarak öngörülebilir, uygun bir matematiksel model ve çeşitli faktörlere bağlı olarak nüfus büyüklükleri ve standart değişim oranları hakkında bilgi verilir.

Moleküler biyolojide, metabolik kontrol analizi olarak adlandırılan benzer bir yaklaşım, birçok molekülü ve kimyasal türü içeren biyokimyasal reaksiyonlara uygulanır. Hücreler yüzlerce veya binlerce etkileşimli protein, küçük molekül ve iyon içeriyor olsa da, bu karmaşık metabolizmanın küçük bir köşesini tanımlayan ve tahmin eden bir model yaratmak mümkündür. Örneğin, ökaryotik hücrelerde mitokondriyal iç zarın her iki tarafında farklı konsantrasyonlarda hidrojen iyonlarını muhafaza eden biyolojik süreçlerle ilgileniyorsanız, muhtemelen modelinizin, yakından ilişkili olan uzak metabolik yollar grubunu içermesi gerekmez (Hem yapısının biyosentezi gibi).

Metabolik modeller, bir yola giren kimyasal maddelerin konsantrasyonları ve bu konsantrasyonları etkileyen reaksiyonlar ve akıntılar açısından bir biyokimyasal süreci göstermektedir. Reaksiyonlar ve akıntılar diferansiyel denklemlerle tanımlanabilir; temelde konsantrasyondaki değişim oranlarıdır.

Metabolik modellemeyi ilgi çekici kılan şey, belirli kimyasal bileşiğin yoğunluğu üzerinde ne gibi bir etki yarattıklarını algılamak için aynı anda birçok reaksiyon gösterme olasılığıdır. Uygun şekilde yapılandırılmış bir metabolik model kullanarak, hücre koşulları hakkında çeşitli varsayımları test edebilir ve deneysel denemeleri simüle etmek için modele ince ayar yapabilirsiniz. Bu, sırayla, daha fazla araştırma yapmak için test edilebilir tahminler önerebilir.

Biyoenformatik Yaklaşımlar

Moleküler biyoloji araştırması hızlı büyüyen bir alandır. Toplanabilecek verilerin miktarı ve türü çok fazladır ve bu verilerin kamu veri tabanlarında depolanması eğilimi, genom dizisinden diğer her türlü biyolojik veri türlerine dönnüşmüştür. Biyologların bilgi yapısı o kadar hızlı değişiyor ki, çoğu zaman sağlanan bilgiler zamanın biraz gerisinde kalıyor.

Yine de, İnsan Genom Projesi’nin başlangıcından bu yana, şu anda kamu veri tabanlarında (DNA, protein dizisi ve protein yapısı) paylaşılan veri türleri ile başa çıkmak için bir dizi sayısal hesaplama yaklaşımı ortaya çıkmıştır. Yeni yüksek verimli moleküler biyoloji yöntemlerinden elde edilen veri tabanları, henüz veri tabanlarının sahip olduğu ölçüde gelişmemiş olsa da, bu verilerin analiz edilmesi için standart yöntemler ortaya çıkmaya başlamıştır.

Aşağıdaki liste, anahtar hesaplama yöntemlerine genel bir bakış sunmaktadır:

Genel veritabanlarını ve veri biçimlerini kullanma

Biyologlar için ilk temel beceri, bilgiyi bulmak için çevrimiçi arama araçlarını kullanmayı öğrenmektir. Literatür taraması artık basılı bir indekste referanslara bakmak meselesi değildir. Çevrimiçi olması gereken bilimsel yayınların çoğuna bağlantılar bulabilirsiniz. Referans bilgileri toplayan merkezi veritabanları vardır, böylece onlarca dergiyi bir kerede arayabilirsin. Yeni bir makalenin ilgi alanına girdiğinde sizi bilgilendiren “aracılar” bile oluşturabilirsiniz. Genel moleküler biyoloji veritabanlarını araştırmak, literatür referanslarını aramakla aynı becerileri gerektirir: Bir sorgu ifadesinin nasıl oluşturulacağını bilmeniz gerekir ki bu veri tabanı samanlığında iğne aramaya benzer.

Sıra hizalaması ve sıra araması

DNA ya da protein dizilerinin çiftlerini analiz etme ve kısmi eşleşmeleri çıkarma kapasitesine sahip olması, bir biyolojik diziyi bir veritabanı sorgusu olarak kullanmayı düşündürmüştür. Sıra tabanlı arama, biyologlar için başka bir önemli uzmanlıktır; Bilimsel bir projenin başlangıcına doğru biyolojik veri tabanlarının küçük bir araştırması çoğu zaman laboratuvarda çok değerli zaman tasarrufu sağlar. Homolog sekansları tanımak, filogenetik inceleme ve sekans desenini tanıma için bir temel oluşturur. Sıra tabanlı arama, web platformları aracılığıyla çevrimiçi olarak yapılmalıdır, bu sıra dışı bir bilgisayar becerisi gerektirmez, ancak arama sonuçlarınızın kalitesini yargılamak veya dizi hizalama yönteminin nasıl çalıştığını ve farklı türlerin ötesine nasıl geçeceğini anlamanız gerekir.

Gen tahmini

Gen tahmini, karakterize edilmemiş DNA sekanslarında anlamlı sinyallerin tanınması için bir grup teknikten sadece biridir. Bu noktaya kadar, GenBank’taki çoğu tortu (DNA parçaları) zamanında karakterize edilmiştir. Yani, birileri resmen içeri girdi ve moleküler biyoloji, genetik veya biyokimyasal yaklaşımları kullanarak genin ne yaptığını anlamlandırdı. Yine de, şimdi genom projelerinde her şey yolunda gidiyor, çünkü karakterize olmayan birçok DNA dizisi var. Açık okuma çerçeveleri, genler, ekzon birleşme alanları, destekleyici bağlanma alanları, tekrar dizileri ve tRNA genlerinin tahmin edilmesine yönelik programlayıcılar, araştırmacıların bu eşlenmemiş DNA’dan anlam çıkarmalarını sağlar.

Çoklu dizi hizalama

Çoklu dizi hizalama teknikleri, bazı ilgili diziler için çift gen dizisi hizalamasını, bir gen familyasından tüm bireyler arasında bir dizi benzerliği görüntüsüne birleştirir. Çoklu dizi hizalamaları, işlevsel olarak önemli olabilecek bir DNA veya protein sekansındaki alanların görsel olarak ayırt edilmesine yardımcı olur. Bu tür siteler normalde korunur; Aynı amino asit, ilgili dizilerden oluşan bir gruptan her birinde bu alanda mevcuttur. Belirli dizi ailesi ile ilgili verileri elde etmek için çoklu dizi hizalamaları da niceliksel olarak incelenebilir. Bu teknik, bir grup ilgili sekansın filogenetik araştırılmasında temel bir ilerlemedir ve ayrıca spesifik protein ailelerini tanımlayan sekans modellerini tanımlamak için bir temel sağlar.

Filogenetik analiz

Filogenetik analiz, bir dizi dizinin evrimsel ilişkisini tasvir etmeye çalışır. Geleneksel bir filogenetik ağaç veya kladogram grubu, göreceli evrimsel benzerlik / uzaklaşmayı gösteren bir şemaya dönüşür. Ağacın dallanması en uzak türlerin kök ayrılıklarından meydana gelir ve kök akrabalığında yakın türler cins, aile, sınıf şube ve alem vb. dallanır.

Bir moleküler dizi hizalamasındaki bilgiler, belirli bir gen dizileri ailesi için filogenetik ağacı hesaplamakta kullanılabilir. Filogenetik ağaçlarda dallanma, dizi benzerlik puanlarına dayalı olarak evrimsel mesafeyi veya bir diziyi diğerine değiştirmek için gerekli olan mutasyon aşamalarının bilgi-teorik modellemesini temsil eder. Protein dizisi ailelerinin filogenetik analizleri, tüm organizmanın evrimi hakkında değil, belirli kodlama bölgelerindeki evrimsel değişim hakkında konuşmaktadır, ancak genom projeleri, çalışacak daha fazla veri sağladıkça, moleküler bilgiye dayanan daha geniş bir evrimsel model oluşturma becerimiz de genişleyecektir.

Sekans verilerinden desen ve profillerin çıkarımı

Bir motif, bir proteine ​​fonksiyona veya yapısal stabiliteye bağlanabilen bir alt yapıyı tanımlayan bir amino asit dizisidir. Evrimsel olarak ilişkili gen dizilerinden oluşan bir grupta, motifler korunmuş siteler olarak görünür. Bir gen dizisindeki siteler, bu sitede mutasyonlara sahip olan genin kopyalarına karşı seçim baskısı olduğunda, bir dizi ailesinin tümünde veya çoğu temsilcisinde aynı kalmak üzere korunur. Gen dizisinin gereksiz parçaları, evrim boyunca birbirinden uzaklaşacak, böylece korunmuş motif bölgeleri, mutasyonel bir gürültü denizi içinde bir sinyal olarak ortaya çıkar. Sıra profilleri, bu motif sinyallerinin istatistiksel açıklamalarıdır; Profiller, aynı ailenin diğer üyelerinden radikal olarak ayrılan bir sekansta bile bir motif sinyali seçerek uzak ilişkili proteinleri tanımlamaya yardımcı olabilir.

Protein dizisi analizi

Bir protein dizisinin amino asit içeriği ikincil yapı özelliklerini ve çeviri sonrası modifikasyon bölgelerini tahmin etmek için, proteinin izoelektrik noktasını ve molekül ağırlığını ve belirli bir proteaz ile sindirildiğinde oluşacak karakteristik peptid kütle parmak izlerini hesaplamaya kadar birçok analiz için temel olarak kullanılabilir.

Protein yapısı tahmini

Bir protein yapısını, deneysel olarak DNA dizisi verilerinin elde edilmesine göre belirlemek çok daha zordur. Biyoenformatiklerin ve bilişimsel biyoloji araştırmalarının çok aktif bir alanı, protein sekansından protein yapısını kestirmek için yöntemlerin geliştirilmesidir. İkincil yapı tahmini ve sıralama gibi yöntemler, bir proteinin nasıl katlanabileceğini, benzer topolojiye sahip diğer proteinlerle nasıl sınıflandırılabileceğini belirlemeye yardımcı olabilir, ancak ayrıntılı bir yapısal model sağlamaz. Protein yapı tahmini için en etkili ve pratik yöntem, benzer bir sekansa sahip bir yapıyı modellemek için şablon olarak bilinen bir yapı kullanılarak yapılan homoloji modellemesidir. Homoloji olmadığında, bir protein için tam bir 3D yapısını öngörmenin bir yolu yoktur.

Protein yapısı özellik analizi

Protein yapıları, kristalograflar ve yapısal biyologlar için önemli olan sayısız ölçülebilir özelliklere sahiptir. Protein yapı doğrulama araçları, bir yapı modelinin mevcut yapılardan veya kimyasal model bileşiklerinden çıkarılan yardımcı standartlarla ne kadar iyi uyum sağladığını ölçmek için kristalograflar tarafından kullanılır. Bu araçlar ayrıca, her bir amino asidin çevreye yönelik bir yapı modelindeki “uygunluğunu” inceleyebilir, bu tür özellikleri, herhangi bir karşı yüzey içermeyen gizli yükler ya da bir protein yüzeyinde bulunan büyük hidrofobik amino asit yamaları olarak değerlendirebilir. Bu araçlar hem deneysel hem de varsayımsal yapı modellerini değerlendirmek için değerlidir.

Başka bir yöntem sınıfı, proteinlerin iç geometrisini ve fizikokimyasal özelliklerini belirleyebilir. Bu aletler genellikle proteinin katalitik mekanizmasının veya diğer kimyasal özelliklerin modellerini oluşturmak için kullanılır. Muhtemelen, protein yapılarının en etkileyici özellikleri, her ikisi de bir kofaktör bağlama bölgesi veya aktif bölge alanına işaret edebilen, derin içbükey yüzey yarıklarının ve iç boşlukların yerleridir. Farklı araçlar hidrojen bağlama modellerini kaydeder veya moleküller arası etkileşimleri araştırır. Özellikle ilgi çekici özellikler, protein ve diğer elektrostatik olarak kontrol edilen parametreleri, örneğin tek tek amino asit pKa, protein solvasyon enerjileri ve bağlanma sabitlerini kapsayan elektrostatik potansiyel alanlardır.

Protein yapısı hizalama ve karşılaştırma

İki gen dizisinin açıkça homolog olmadığına bakılmaksızın, kodladıkları proteinlerin yapıları benzer olabilir. Yapısal benzerliğin hesaplanması için yeni araçlar, yapıları karşılaştırarak uzaktaki homolojileri tanımayı, hatta dizi benzerliği olmasa bile, düşünülebilir kılmaktadır. Bu araçlar ayrıca, gelişmiş homoloji modellerini, üzerinde bulundukları bilinen protein yapılarıyla karşılaştırmak için de faydalıdır.

Biyokimyasal simülasyon

Biyokimyasal simülasyon, metabolizmada yer alan kimyasal reaksiyonları taklit etmek için dinamik sistem modelleme araçlarını kullanır. Simülasyonlar, bireysel metabolik yollardan transmembran taşıma işlemine ve hatta tüm hücre veya dokuların özelliklerine bile ulaşabilir. Biyokimyasal ve hücre simülasyonları, genel olarak, bir sistemin matematiksel olarak tanımlanması, sistemin içinde oluşan farklı reaksiyonları ve akışları temsil eden diferansiyel koşulların bir düzenlemesini oluşturmak için araştırmacıların kapasitesine bağlıdır. Her durumda, yeni yazılım araçları, kullanıcı tarafından etkileşimli olarak verilen bir tanımlamadan otomatik olarak bir simülasyonun matematiksel çerçevesini geliştirebilir. Bu, matematiksel modelleme, dinamik sistem modelleme kurallarına göre tanımlayabilecek bir sistem hakkında yeterince bilgi sahibi olan herhangi bir biyolog tarafından erişilebilir hale getirilebilir.

Bütün genom analizi

Her geçen gün daha fazla genom dizilenmiş gibi, ham genom verilerinin analizi daha önemli bir görev haline gelmiştir. Genom verilerine bakabileceğimiz bir dizi perspektif vardır: örneğin, uzun bir doğrusal dizi olarak ele alınabilir, ancak DNA dizisi bilgilerinin mevcut genetik ve fiziksel harita verileriyle bütünleştirilmesi genellikle daha yararlıdır. Bu çok geniş bir genomda gezinmenizi ve ne istediğinizi bulmanızı sağlar. Ulusal Biyoteknoloji Bilgi Merkezi (NCBI) ve diğer kuruluşlar, genom verilerine faydalı web ara yüzleri sağlamak için uyumlu bir çaba harcıyorlar, böylece kullanıcılar yüksek seviyeli bir haritadan başlayıp belirli bir gen dizisinin konumuna gidebiliyorlar.

Ancak genomik dizi analizinde genom navigasyonu tek sorun olmaktan uzaktır. Genom dizisini gen bulma analizi ve dizi homolojisi bilgilerinin sonuçlarıyla bütünleştiren ek açıklama çerçeveleri daha yaygın hale gelmektedir ve genomlar arasındaki tam çiftli karşılaştırmaların yapılması ve analiz edilmesi zorluğuna değinilmeye başlanmıştır.

Birincil tasarım

Birçok moleküler biyoloji protokolü, oligonükleotid primerlerin tasarımını gerektirir. Uygun primer tasarımı, polimeraz zincir reaksiyonu (PCR), oligo hibridizasyonu, DNA dizilemesi ve mikrodizi deneylerinin başarısı için kritik öneme sahiptir. Birincil tasarımlar, sorulan soruya net bir cevap vermek için hedef DNA ile melezleşmek zorundadırlar, fakat aynı zamanda uygun fizikokimyasal özelliklere de sahip olmalıdırlar. Kendilerini melezleştirmemeli ya da dimerlememeli ve araştırılan dizide birden fazla hedef olmamalıdır. Kullanıcıların bir DNA dizisi göndermelerine ve uygun primerleri otomatik olarak algılamasına veya istenen bir primer DNA dizisinin özelliklerini hesaplamasına olanak veren çeşitli web tabanlı hizmetler vardır.

DNA mikroarray analizi

DNA mikroarray analizi, bir seferde binlerce gene erişim sağlamak için klasik prob melezleme yöntemlerinde genişleyen nispeten yeni bir moleküler biyoloji yöntemidir. Mikroarray deneyleri, sonuçlarının tekdüze, standartlaştırılmış doğası nedeniyle, her biri belirli bir DNA dizisiyle tanımlanabilen, eşit büyüklükteki noktalardan oluşan bir ızgara nedeniyle, hesaplama analizine uygundur. Daha büyük mikrodizileri analiz etmek için hesaplama araçları gereklidir, çünkü elde edilen görüntüler görsel olarak o kadar karmaşıktır ki, el ile karşılaştırma yapmak artık mümkün değildir.

Şu anda yapıldığı gibi mikrodizi analizindeki ana görevler, dizi görüntüsündeki tekil noktaların tanımlandığı ve sinyal yoğunluğunun nicelleştirildiği ve benzer sinyal yoğunluklarına sahip noktaların tanımlandığı bir kümeleme adımının belirlendiği bir görüntü analizi adımıdır. Bir mikrodizi deneyinin çip-tasarım aşamasının belirli bir gen kümesi için uygun oligonükleotid prob dizilerini tanımlaması ve binlerce tekil deney içeren bir ızgaradaki her noktanın bir kaydını tutması için hesaplama desteği de gereklidir.

Proteomik analizi

Kristalize ve biyokimyasal olarak karakterize edilen herhangi bir noktada bulunmadan önce, proteinler sıklıkla jel elektroforezi, kısmi dizileme ve kütle spektroskopisi kombinasyonundan faydalanarak analize tabi tutulur. 2D jel elektroforezi binlerce proteinin bir karışımını belirli segmentlere ayırabilir; tek tek noktalar lekelenebilir veya jelden kesilebilir ve incelenebilir. Basit hesaplamalı araçlar, protein karışımlarını analiz etme sürecinde yardımcı olacak bazı bilgiler verebilir. Bir protein dizisinden moleküler ağırlığı ve pI’yi hesaplamak daha kolaydır; Bu değerler kullanılarak, bir jel üzerindeki her nokta için varsayılan aday kimlikler belirlenebilir. Bir protein sekansından, proteinin spesifik protein parçalanma bölgeleri olan enzimler tarafından parçalara ayrıldığı zaman yapılan peptit parmak izinin hesaplanması da düşünülebilir. Protein fragmanlarının kütle spektrometrisi araştırmaları, araştırmayı daha da sınırlandırmak için işlenmiş peptit parmak izleriyle karşılaştırılabilir.

Kamu Biyolojik Veritabanları

Biyolojide moleküler düzeyde isimlendirme problemi muazzamdır. Genler genellikle sistematik olmayan isimleriyle bilinir. Bunlar, model sistemlerde gelişimsel biyoloji çalışmalarından gelebilir, böylece belirli bir hayvanda neden oldukları gelişimsel etkiler nedeniyle bazı genlerin uçamayan, çalkalayıcı ve antenapedia gibi isimleri vardır. Diğer isimler hücresel biyologlar tarafından seçilir ve homeobox gibi hücresel düzeyde genlerin fonksiyonunu temsil eder. Diğer isimler biyokimyacılar ve yapısal biyologlar tarafından seçilir ve genin bulunmasından önce muhtemelen izole edilmiş ve çalışılmış bir proteine ​​işaret eder.

Proteinler, genlerin doğrudan ürünleri olsa da, her zaman onları kodlayan genler olarak aynı isimler veya kodlarla ifade edilmezler. Bu tür kafa karıştırıcı isimlendirme, genellikle yalnızca belirli bir genle, gen ürünüyle veya bir parçası olduğu biyokimyasal süreçle çalışan bir bilim insanının, genin ortak adının ne anlama geldiğini hemen anlayabileceği anlamına gelir. Tek bir organizmanın biyokimyası, yaşayan türlerin taksonomisi Linnaeus zamanında olduğundan daha karmaşık bir bilgi kümesidir, bu yüzden açık ve kapsamlı bir isimlendirme sisteminin kolayca ulaşması beklenemez. Belirli bir gen hakkında kaynak organizması, kromozomal lokasyonu ve aktivatör dizilerinin yeri ve onu düzenleyen ve düzenleyen düzenleyici proteinlerin kimlikleri gibi bilinmesi gereken çok şey vardır. Genler ayrıca organizmanın gelişimi sırasında açıldıkları ve dokuların ekspresyonunun gerçekleştiği zamanlara göre kategorize edilebilirler. Yapısal bir protein, bir enzim veya fonksiyonel bir RNA olup olmadıkları, ürünlerinin fonksiyonu ile kategorize edilebilirler. Ürünlerinin bir parçası olduğu metabolik yolun kimliği ve ürettiği substrat veya ürettiği ürün ile kategorize edilebilirler. Protein ürünlerinin yapısal mimarisi ile kategorize edilebilirler. Açıkçası bu, makul bir terminolojiye yoğunlaştırılacak bir bilgi zenginliğidir. Şekil 5, tek bir gen ile ilişkilendirilebilecek bilgilerin bir bölümünü göstermektedir.

Şekil 5. Tek bir gen ile ilişkili bilgiler

Şekil 5. Tek bir gen ile ilişkili bilgiler

Biyolojik veritabanlarının koruyucusu için sorun çoğunlukla bir ek açıklamadan çıkıyor; Yani, veritabanına yeterli veriyi koymak, genin ne olduğuna dair hiçbir şüphe olmadığını, bir şifreli ortak isme sahip olup olmadığına bakmaksızın ve bu veri ile gen dizisi ve seri numarası arasında mümkün olan en iyi bağlantıyı yapmaktır. Bilim adamları, yayılma olmaksızın genomlar üzerinde çapraz olarak veri alışverişi yapma yaklaşımlarını keşfetmeye çalışırken, genomik verilerin doğru açıklaması dinamik bir araştırma alanıdır. Makromoleküler bilgilerin elektronik veri tabanlarında depolanması, sınıflandırma konusu etrafında çalışmak için bir yönteme yükselmiştir. Çözüm, her yeni veri tabanına bir seri numarası vermek ve daha sonra bu seri numarası, kodladığı gen veya gen ürünü için herhangi bir sayıda isim ve her şekilde arasındaki doğru bağlantıları bilen ilişkisel bir veritabanında gen hakkındaki bilgiyi saklamaktır. Bu teknik, büyük biyolojik veritabanlarında şu anda kullanımda olanıdır.

Veritabanlarının çözdüğü sorular esasen bir isimlendirme geliştirirken ortaya çıkan soruların aynısıdır. Bununla birlikte bilim adamları ilişkisel veritabanları ve karmaşık sorgulama stratejileri kullanarak, (belki de ne yazık ki), genlerin kimliklerini dijital olmayan seviyesinde iletmeleri için özlü bir yol bulmaktan kaçınırlar.

Veri Açıklaması ve Veri Biçimleri

Biyolojik verilerin temsili ve dağıtımı biyoinformatikte hala açık bir sorundur. DNA ve RNA’nın nükleotid sekansları ve proteinlerin amino asit sekansları, tek bir nükleotit veya amino asidi temsil ettiği karakter dizilerine düzgün bir şekilde düşer. Dizi verilerinin temsil edilmesindeki geri kalan zorluklar, verilerin doğruluğunun, verilerin tam olarak açıklanmasının ve kromozomların ve tüm genomların dizileri gibi daha büyük parçalarda ortaya çıkan verilerin işlenmesinin doğrulanmasıdır.

Biyomolekülün 3D yapısının standart indirgenmiş temsili, molekül içindeki atomların Kartezyen koordinatlarından oluşur. Molekülü temsil etmenin bu yönü basittir. Öte yandan, tamamen çözülmeyen yapı veri tabanları için bir dizi karmaşık konu vardır. Biyoloji topluluğu, şu anda bir yapının hangi ek açıklamasının gerekli olduğu konusunda bir fikir birliği oluşturma girişiminde bulunmasına rağmen, ek açıklama, yapısal veriler için hala bir sorundur. Son 15 yılda, farklı araştırmacılar biyolojik verileri raporlamak için kendi stillerini ve formatlarını geliştirdiler. Biyolojik sekans ve yapı veri tabanları, Amerika Birleşik Devletleri ve Avrupa’da paralel olarak gelişmiştir. Veri analizi için özel yazılımların kullanımı, karışıma bir dizi özel veri formatına katkıda bulunmuştur. Birçok özel veri tabanı olsa da, tüm veri sınıfının kapsamlı bir veri tabanını sürdürmek için çaba sarf edildiği alanlara odaklanıyoruz.

3D Moleküler Yapı Verileri

DNA dizisi, protein dizisi ve protein yapısı bir anlamda aynı gen ürününü temsil etmenin farklı yollarından olsa da, bu veri türleri şu anda ayrı veritabanı projeleri ve bağlantısız veri formatları olarak korunur. Bu temel olarak, sekans ve yapı belirleme yöntemlerinin gelişim öykülerini ayrı tutmasıdır.

Kamu DNA sekans veri tabanlarından yaklaşık 10 yıl önce kurulan ilk halk moleküler biyoloji veri tabanı, Protein Data Bank (PDB) idi. Protein moleküllerinin x-ışını kristal yapıları için merkezi depoyu temsil ediyordu. İlk bitirici protein yapısı 1950’li yıllarda sunulurken, 1970’lerin sonuna kadar erişilebilir protein yapıları dikkate değer sayıda değildi. Bilgisayarlar, en azından yararlı hızlarda, protein koordinat yapısı bilgisinin grafiksel temsilinin mümkün olduğu noktaya kadar oluşturamamışlardır. Ancak, bilgisayar tabanlı bir arşivde protein yapı bilgisini depolamak için 1971 yılında, PDB Brookhaven Ulusal Laboratuvarı’nda kuruldu. Erken bilgisayar teknolojisinin önkoşullarına birçok tarzını borçlu olan bir veri formatı oluşturuldu. Tüm 1980’lerde, PDB büyüdü. 1973’teki 15 girdiden, 1976’’da 69 girişe ulaştı. Her yıl biriktirilen koordinat setleri sayısı, 1988’e kadar 100’’ün altında kalmıştır, bu sırada hala 400’den fazla PDB girişi vardır.

1988 ve 1992 yıllarında, PDB üstel büyüme eğrisinde dönüm noktası oldu. Ocak 1994’e kadar, PDB’de 2,143 kayıt vardı ve şu anda PDB’nin 14.000’den fazla girişi var. PDB’nin idaresi, Yapısal Biyoinformatik için Araştırma İşbirliği adı verilen bir giriş işareti konsorsiyumu ile değiştirildi ve kristalografik verilerin kaydedilmesi için yeni bir format, Makromoleküler Kristalografik Bilgi Dosyası (mmCIF), antikaların yerini alacak şekilde PDB formatında tanıtıldı. Kristalografik sonuçların yayınlandığı dergiler, yayın şartı olarak PDB’ye sunulmasını gerektirir; bu, akademik araştırmacılar tarafından elde edilen neredeyse tüm protein yapı verilerinin PDB’de mevcut olduğu anlamına gelir.

Protein yapısının bilgi odaklı araştırılması için tipik bir konu, PDB’nin fazlalığı ve yokluğudur. Veritabanına çeşitli kristal yapıların gönderildiği çok sayıda protein vardır. Çalışması gereken PDB bilgilerinin alt kümelerini seçmek, bu şekilde, protein yapısının herhangi bir istatistiksel araştırmasında kritik bir adımdır. Protein yapısına yönelik çok sayıda istatistiksel çalışma, sekanslarının % 25’ine yakın olan protein zincirlerinin kümelerine bağlıdır; Bu paradigma kullanılırsa, PDB’de temsil edilen yaklaşık 1000 eşsiz protein katmanı vardır. Mevcut biyolojik dizi verilerinin miktarı arttıkça, PDB şimdi gen dizisi veritabanlarının arkasında uzun bir yol kat etmektedir.

DNA, RNA ve Protein Dizisi Verileri

Sekans veri tabanları genellikle tek tip veri halinde uzmanlaşır: DNA, RNA veya protein. Avrupa, Japonya ve Amerika Birleşik Devletleri’nde ana dizi veri toplama ve biriktirme siteleri vardır ve büyük veri veritabanlarında toplanan tüm verileri yansıtan ve genellikle verilere değer katan bir yazılım sunan bağımsız gruplardır.

1970’de Ray Wu, DNA’nın ilk bölümünü sıraladı; Bir klivaj enzimi kullanılarak açılan dairesel bir DNA’nın sonunda tek bir iplik şeklinde meydana gelen on iki bazdı. Her durumda, DNA dizilimi, bir nükleik asit zincirinden birinci nükleotidi seçici olarak ayıran hiçbir kimyasal işlem olmadığı gerekçesiyle, protein dizilemesinden önemli ölçüde daha zahmetli olduğunu göstermiştir. Robert Holley, mayadan 76 nükleotid RNA molekülünün dizilişini açıkladığında, yedi yıllık bir çalışmayı takip ediyordu. Holley’in dizisi yayınlandıktan sonra, farklı gruplar diziliş için protokolleri rafine etti, hatta sırayla bir 3.200 tabanlık bakteriyofaj genomunu başarılı bir şekilde sıralandı. DNA dizilimi ile hakiki ilerleme, 1975’ten sonra, Allan Maxam ve Walter Gilbert tarafından yaratılan kimyasal parçalanma yöntemiyle ve Frederick Sanger’in zincir terminatör prosedürüyle geldi.

1979’da kurulan ilk DNA dizisi veritabanı, Los Alamos Ulusal Laboratuvarı’nda Gen Dizi Veri Tabanı (GSDB) idi. Günümüzde GSDB’nin işini modern GenBank olan dünya çapındaki işbirliği yerine getiriyor olsa da, güncel gen dizisi bilgileri, Genom Kaynakları Ulusal Merkezi aracılığıyla GSDB’den hala temin edilebilir.

Avrupa Moleküler Biyoloji Laboratuvarı, Japonya’nın DNA Veri Tabanı ve Ulusal Sağlık Enstitüleri, GenBank aracılığıyla tüm serbestçe erişilebilen sekans verilerini sağlamak için işbirliği yapmaktadır. NCBI, ASN.1 format 1. olarak bilinen sekans bilgisi sunumu ve depolaması için standart ilişkisel veritabanı formatı oluşturmuştur. Bu biçim, GenBank’ta doğru türün doğru sıralarını bulmayı garanti ederken, veritabanının gereksiz sürümlerine erişim sağlayan çeşitli hizmetler de vardır. DNA dizisi veritabanı, ilk on yılı boyunca kademeli olarak gelişti. 1992 yılında, GenBank sadece 78.000 DNA dizisi ve 100 milyondan fazla DNA çifti içeriyordu. 1995 yılında, İnsan Genom Projesi ve inovasyonu sıralamak için yapılan ilerlemeler, GenBank’ın büyümesini yüksek vitese geçirdi. GenBank şu anda her 6 ila 8 ayda bir ikiye katlanıyor ve sürekli bir artış vardır.

Genomik Veriler

İnsan Genom Projesi’ne ek olarak, çok sayıda model organizma için ayrı genom proje veri tabanları bulunmaktadır. Genom proje veri tabanlarının sekans içeriği GenBank’ta temsil edilmektedir, ancak genom proje alanları aynı zamanda bu organizma üzerinde çalışan araştırmacılar için genom haritalarından tamamlayıcı kaynaklara kadar her şeyi sağlamaktadır. Ekim 2000 itibariyle NCBI’nin Entrez Genom veritabanı, 900’den fazla türün kısmi veya tam genomunu içeriyordu. Bunların çoğu virüslerdir. Geri kalanı bakteri, arke, maya, A. thaliana, pirinç ve mısır gibi yaygın olarak çalışılan bitki modeli sistemleri; organel genomlarının yanı sıra C. elegans, meyve sinekleri, fareler, sıçanlar ve kirpi balığı gibi hayvan modeli sistemleri bulunur. NCBI’nin bu veritabanlarına erişim için web tabanlı yazılım araçları sürekli gelişmekte ve daha karmaşık hale gelmektedir.

Biyokimyasal yol verileri

En hayati biyolojik aktiviteler, tek moleküllü hareketle meydana gelmez, bununla birlikte çoklu moleküllerin orkestra aktiviteleridir. Yirminci yüzyılın ortalarından beri biyokimyacılar, bu fonksiyonel enzim topluluklarını ve substratlarını analiz etmişlerdir. Bir dizi araştırma grubu, bu yolları veri tabanlarında akıllıca düzenlemek ve saklamak için çalışmaya başlamıştır. Yol veri tabanının temel örneği KEGG’dir. Genler ve Genomların Kyoto Ansiklopedisi (KEGG), dizi, yapı ve genetik bağlantı veri tabanları hakkındaki karşılaştırmalı bilgileri saklar. Bu veritabanı, web arayüzleri aracılığıyla sorgulanabilir. Bütün bu genom “parça katalogları” na ek olarak, spesifik yollara odaklanan diğer, daha uzmanlaşmış veri tabanları (örneğin, kimyasal bileşiklerin mikroplar tarafından hücre içi sinyalleme veya degradasyonu gibi) geliştirilmiştir.

Gen İfadesi Verileri

DNA mikrodizileri (veya gen çipleri), gen ekspresyonu çalışması için minyatür laboratuvarlardır. Her bir çip, belirli DNA veya mRNA parçalarını bağlayabilen bilerek tasarlanmış bir dizi molekül molekülü içerir. DNA veya RNA’nın floresan molekülleri ile işaretlenmesi, bir hücresel preparattaki herhangi bir genin ifade seviyesinin nicel olarak ölçülmesini sağlar. Mikrodiziler ayrıca moleküler biyolojide başka uygulamalara da sahiptir, ancak gen ekspresyonunu incelemede kullandıkları genom fonksiyonlarını ölçmek için yeni bir yol açmıştır.

1990’ların sonlarında DNA mikroarray teknolojisinin ilerlemesinden bu yana, mevcut gen ifadesi verisindeki artışın nihayetinde dizinin ve yapı veri tabanlarının büyümesine paralel olacağı ortaya çıkmıştır. Ham mikroarray bilgileri, belirli veri tabanlarındaki genel izleyici kitlesine erişilebilir hale getirilmeye başlanmış ve bu veriler için merkezi bir veri havuzu oluşturulmuştur (Gene Expression Omnibus).

Erken mikrodizi deneylerinin önemli bir kısmı Stanford’da yapıldığı için, genom kaynakları sitesi, gen adları veya fonksiyonel açıklamalar kullanılarak sorgulanabilen ham bilgi ve veri tabanlarına bağlantılara sahiptir. Ayrıca, Avrupa Biyoenformatik Enstitüsü veri tabanlarında mikrodizi verilerinin biriktirilmesi için standartların oluşturulmasında etkili olmuştur. Ayrıca SWISS-2DPAGE ve HSC-2DPAGE dahil olmak üzere 2D jel elektroforezi sonuçlarının biriktirilmesi için çeşitli veri tabanları bulunmaktadır. 2D-PAGE, aynı anda birçok protein için, hücre içindeki protein konsantrasyonlarının nicel araştırmasına izin veren bir yeniliktir. Bu iki sistemin birleşimi, genomların nasıl işlediğini anlamak için yoğun bir araçtır.

Tablo 1, bu bölümde ele aldığımız en önemli veritabanlarından bazıları için Web’deki kaynakları özetler.

Tablo 1. Başlıca Biyolojik Veri ve Bilgi Kaynakları

Konu Kaynak Bağlantı
Biyomedikal literatür PubMed http://www.ncbi.nlm.nih.gov/entrez/query.fcgi
Nükleik asit dizisi GenBank http://www.ncbi.nlm.nih.gov:80/entrez/query.fcgi?db=Nucleotide
SRS at EMBL/EBI http://srs.ebi.ac.uk
Genom dizisi Entrez Genomu http://www.ncbi.nlm.nih.gov:80/entrez/query.fcgi?db=Genome
TIGR veritabanları http://www.tigr.org/tdb/
Protein dizisi GenBank http://www.ncbi.nlm.nih.gov:80/entrez/query.fcgi?db=Protein
SWISS-PROT at ExPASy http://www.expasy.ch/spro/
PIR http://www-nbrf.georgetown.edu
Protein yapısı Protein Veri Bankası http://www.rcsb.org/pdb/
Entrez Yapısı DB Protein ve peptid kütle spektroskopisi PROWL http://prowl.rockefeller.edu
Çeviri sonrası değişiklikler RESID http://www-nbrf.georgetown.edu/pirwww/search/textresid.html
Biyokimyasal ve biyofiziksel bilgi Enzim http://www.expasy.ch/enzyme/
BIND http://www.ncbi.nlm.nih.gov:80/entrez/query.fcgi?db=Structure
Biyokimyasal yollar PathDB http://www.ncgr.org/software/pathdb/
KEGG http://www.genome.ad.jp/kegg/
WIT http://wit.mcs.anl.gov/WIT2/
Mikrodizin Gen ifadesi bağlantıları http://industry.ebi.ac.uk/\~alan/MicroArray/
2D-PAGE SWISS-2DPAGE http://www.expasy.ch/ch2d/ch2d-top.html
Web kaynakları The EBI Biocatalog Biyo katalog http://www.ebi.ac.uk/biocat/
IUBio Archive Arşiv http://iubio.bio.indiana.edu

Funding

Disclaimer

The European Commission support for the production of this publication does not constitute endorsement of the contents which reflects the views only of the authors, and the Commission cannot be held responsi-ble for any use which may be made of the information contained therein.