You are on page 1of 36

Biyolojik Veri Tabanları

Biyolojik veri tabanları, biyolojik verilerin depolandığı, araştırmacıların internet siteleri


aracılığı ile ücretsiz erişim sağladığı bilgisayarda işlenmiş arşivlerdir. Veri yapılanmasında
biyolojik veri tabanlarında düz, nesnesel ve ilişkisel dosyalar kullanılabilir. Tasarım sadeliği ve
araştırmacılar tarafından kolaylıkla anlaşılabilir olması nedeni ile düz veri yapılanması sıklıkla
kullanılan formattır.
Genomik çağın ilk meydan okuması, öğrenmek ve anlamaktır. Dolayısıyla, büyük miktarda
moleküler biyolojik veriyi işlemek için veri tabanlarının geliştirilmesi biyoinformatikte temel
bir görevdir. Biyolojik veri tabanlarında;
1. Düz, Düz yapılanmalar, özel bir karakter olan ayıraç (|) ile birbirilerinden ayrılan
uzun metin dosyalarından oluşmaktadır. Ayrıca her giriş (entry) çıkıntı ya da virgül
ka-rakterleri ile birbirinden ayrılan bölümlerden oluşmaktadır
2. İlişkisel veri tabanlarının bir sorunu ise oluşturulan tablolarda veriler arasın¬da
hiyerarşik bir yapılanmanın bulunmamasıdır. Bu sorunun üstesinden gelmek için
verileri nesneler olarak kayıt altına alan nesnesel yapılanmalı veri tabanları
geliştirilmiştir
3. Nesnesel tabanlı programlama dilinde nesne, veriyi ve veri üzerinde uygulanan
matematiksel rutini barındıran bir birim olarak kabul edilir. Veri tabanı nesneler
arasındaki önceden tanımlanmış ilişkileri gösteren işaretçileri nesnelere bağlayan
bir yapılanmaya sahiptir. Nesnesel veri tabanları daha esnek bir yapıya sahiptir;
veriler hiyerarşik ilişkileri temel alınarak yapılandırılır Nesnesel olmak üzere üç
farklı formatta veri yapılanması kullanılmaktadır
Veri tabanları içeriklerine göre ise birincil, ikincil ve özelleşmiş veri
tabanları olmak üzere üç kategoriye ayrılmaktadırlar
Birincil veri tabanları orijinal biyolojik veriyi içerirler. Bilimsel
araştırmacılar tarafından sisteme yüklenen işlenmemiş diziler ve yapısal
verilerin arşivleridir. Başlıca üç farklı erişime açık veri bankası mevcuttur;
1. Amerikan Ulusal Biyoteknoloji Bilgi Merkezi” GenBank (GenBank at
NCBI Bethesda MD, ABD).
2. Japonya DNA Databank (DDBJ),
3. Avrupa Moleküler Biyoloji Laboratuvarı (EMBI.)
Bu üç veri tabanına da internet üzerinden ücretsiz olarak erişilebilir.
Bu veri tabanlarında saklanan verilerin büyük bölümü, doğrudan
yazarlar tarafından minimum seviyede ek açıklamayla birlikte sisteme
eklenir.
Bu üç organizasyonun birleşmesiyle “Uluslararası Nükleotit Dizi Veri Tabam Birliği”
oluşturulmuştur. Bu şu anlama gelir, üç veri bankasından herhangi bir tanesinden elde edilen
nükleotit dizi verisi diğer iki veri bankasından elde edilenle aynıdır. Buna ek olarak üç veri bankası
da aynı işlenmemiş veri setlerini içermektedir, yalnızca veriyi sunuş biçimlerinde bazı farklılıklar
mevcuttur.
NATIONAL CENTER FOR BIOTECHNOLOGY INFORMATION (NCBI)
GENOM VERİ BANKASI
NCBI National Institutes of Health (NIH)’e bağlı olan National Library of Medicine (NLH)’nin
bir parçası olarak ve yine bu kurumun desteği ile 4 Kasım 1988 tarihinde kurulmuştur. NCBI
biyomedikal araştırma alanında bilgisayar destekli bilgi işleme tekniklerine duyulan büyük
ihtiyacın bir ürünü olarak ortaya çıkmıştır.

Gen ve protein dizi verileri gibi birçok farklı biyolojik bilgiyi içermekte olan bu veri
bankasında; bilimsel makale, özet ve atıflara da erişim sağlanmaktadır. GenBank neredeyse
her organizma için nükleik asit dizi bilgilerini sunan en kapsamlı veri bankasıdır denilebilir.
İçeriğinde DNA, mRNA, cDNA, ESTler, yüksek hacimli işlenmemiş dizi verileri ve dizi
polimorfizmleri bulunur. Ayrıca GenPept adında protein dizilerinin ve
transkripsiyon/translasyon bilgilerinin bulunduğu bir alt organizasyona sahiptir.
https://www.ncbi.nlm.nih.gov/
GenBank veri tabanının en önemli fonksiyonu
geliştirdikleri “Entrez” arama sistemidir. Bu
sistemin en önemli özelliği ise bilgiyi
birleştirmesi yani bağımsız girişler arasında
önceden var olan ve mantıksal ilişkileri temel
alarak NCBI veri tabanları arasında çapraz
referanslama yapabilmesidir.

Bu özellik sayesinde kullanıcılar, bir verinin


farklı biyolojik uzantılarına ulaşmak için değişik
veri tabanlarına ihtiyaç duymazlar. Örneğin bir
genin nükleotit dizisi arama motorunda
araştırıldığında ulaşılan nükleotit dizi
sayfasında protein dizisi, genom haritası bilgisi,
ilgili PubMed literatür bilgisi ve protein yapı
bilgisine rahatlıkla ulaşılmaktadır. PubMed
yaklaşık 4000 bilimsel dergideki 25 milyon
alıntıyı tarayan bir biyomedikal literatür veri
tabanıdır.
NCBI sahip olduğu yapı itibariyle sağlık ve hastalık durumlarını kontrol eden moleküler ve
genetik sistemlerin daha iyi anlaşılması için yeni bilgi teknolojilerinin geliştirilmesi görevini
üstlenmiştir. Bu görevi yerine getirebilmek için daha spesifik olarak,

1. moleküler biyoloji, biyokimya, ve genetik alanında yeni bilgilerin sağlanması, varolan


bilgilerin toplanması depolanması ve analiz edilmesi için informatik sistemlerin
geliştirilmesi
2. kurulan veri bankalarının, yazılım ve araçların kullanımının sağlanması
3. ulusal ve uluslar arası biyoteknolojik bilgilerin bir araya getirilmesi için yapılan çalışmaların
koordine edilmesi,
4. biyolojik olarak önemli olan moleküllerin yapı ve fonksiyonlarının analiz edilmesini
sağlayacak bilgisayar destekli ileri enformatik sistemlerinin geliştirilmesine yönelik
araştırmaların gerçekleştirilmesi gibi amaçlara hizmet etmektedir
Site haritası

Arama motoru

Sıkça kullanılan kaynak


ve programlar
a) Literatür veri bankası: NCBI, Amerikan Ulusal Tıp Kütüphanesi (U.S National Library of
Medicine)’nin bir hizmeti olan ‘PubMed’ ile yaşam bilimleri alanındaki binlerce dergiye ve
milyonlarca makaleye ulaşım imkânı sunar.

b)Entrez veri bankası: Birbirleri ile bağlantılı farklı veri bankalarında eş zamanlı araştırma yapma
imkânı sağlar.

c)Nükleotid veri bankası: Tüm dünyada gerçekleştirilen sekans projeleri ile elde edilen DNA dizi
• sonuçlarını kabul eder, belirli bir yapıda organize eder ve bilimsel çalışmalarda kullanılmak
üzere araştırmacıların hizmetine sunar.

d)Genom spesifik veri kaynakları: Dizi çalışmaları tamamlanmış ya da sürmekte olan yaklaşık
800 farklı organizmaya ait genom bilgilerine ulaşım sağlar.

e) Veri ulaşım araçları: NCBI ihtiyaç duyulan farklı tipteki bilgilere ulaşımı sağlayan
biyoenformatik araçları kapsar.

f) Sekans analiz araçları: NCBI sadece ihtiyaç duyulan DNA dizilerine ulaşımı sağlamaz, aynı
zamanda bulunan ya da elde edilen dizilerin farklı şekilde analizlerini sağlayan biyoenformatik
araçlar içerir.

g) Genom haritaları: Farklı organizmalara ait genom bilgilerini kromozom haritaları şeklinde
araştırmacılara sunar
Entrez Veri Bankası ile Gen Kayıtlarına Ulaşım
Benzer genom veri bankalarında olduğu gibi NCBI-Entrez veri bankasını kullanırken de öncelikle
aradığımız bilgiye ulaşmamızı kolaylaştıracak gen sembolü, ya da GeneBank ID numarası gibi bazı
anahtar kelimeleri biliyor olmamız gerekir.

Gen Sembolü: Bulunan her gen için bir gen ismi ve bir gen sembolü tanımlanır. Semboller gen
ismini işaret eden birkaç harf ve rakamdan oluşan kısaltmalardır. Gen sembolleri sadece işaret
ettiği gene özeldir, böylelikle uluslar arası ortak bir dil geliştirilmiştir. Bir gene ait birden fazla
sembol olabilir fakat bir sembol sadece belirli tek bir gene aittir. Bir gene ait farklı semboller veri
bankalarında ‘ Alias’ olarak belirtilir.

GeneBank ID : NIH DNA sekans veri bankasına aittir. Dünya üzerindeki farklı araştırma
gruplarıtarafından gerçekleştirilen çalışmalar ile tanımlanmış ve yayınlanmış tüm DNA dizileri bu
veri bankasında kayıt altına alınarak depolanır.
Son istatistiklere göre GeneBank 108.431.692 dizi kaydı ile toplam 106.533.156.756 bazlık bir
veri kapasitesine ulaşmıştır.

Tanımlanan tüm DNA dizileri kendilerine tahsis edilen bir tanımlama numarası ile kodlanarak
depolanır. İşte bu numara GenBank ID olarak bilinir. Bu numara ile o kayıt istendiği zaman veri
bankasından çağrılarak görüntülenebilir. Bu veri bankasında bir gene ait farklı GeneBank ID’ler ile
tanımlanan birden fazla kayıt bulunabilir. GeneBank aynı zamanda Japonya DNA Veri Bankası
(DDBJ), Avrupa Moleküler Biyoloji Laboratuarı (EMBL) ve Ulusal Biyoteknoloji İnformasyon
Merkezi (NCBI) tarafından oluşturulan Uluslar Arası Nükleotid Dizisi Veri Bankası Birliği’nin bir
parçasıdır.
NCBI ana sayfası başlık kısmında yer alan sağdaki ilgili kutuya daha önce belirtildiği gibi gen
sembolü ya da biliniyorsa GeneBank ID girilir. Soldaki açılır menüden eğer istenirse tarama
yapılacak veri bankası seçilerek arama sınırlandırılabilir. Eğer elimizdeki ID’nin ya da sembolün
ne gibi bir genomik yapıya ait olduğunu tahmin edebiliyorsak spesifik bir veri bankası
tanımlamak bize zaman kazandıracaktır. Bunun dışında ‘ali databases’ opsiyonunun
kullanılması daha doğru olacaktır. ‘Ak2’ gen sembolü kullanılarak gerçekleştirilmiştir.

Ak2 geni için NCBI-Entrez veri


bankası kayıtlarına ulaşılması
Salmo salar transcription factor jun-B-like (LOC106564570), mRNA
GenBank veri tabanı, nükleik asit ve protein dizilerinin çeşitli analizlerini yapmak için birçok
program içermektedir. Bunların en önemlilerinden biri, belki de en önemlisi, 1990 yılında
Stephen Altschul tarafından geliştirilen ve o zaman­dan beri en popüler dizi analiz programı olan
BLAST (Basic Local Alignment Search Tool) adlı hizalama programıdır. BLAST sorgulanacak diziyi
veri tabanındaki tüm dizilerle hizalamak için buluşsa! yöntem kullanır. BLAST sorgusunda amaç,
nükleik asit ya da protein dizilerini veri tabanında saklanan dizilerle karşılaştıra­rak yüksek oranda
benzerlik gösteren dizilerin saptanmaları ve listelenmeleridir.

GenBank erişim nu¬marasını göstermektedir. Erişim numarası, veri tabanında bulunan her özgün
nükleik asit veya protein dizisine özgü olmasına rağmen, o dizilere sahip genlerin isimleri aynı
olabilir. Dizinin elde edildiği organizma, yazarlar, ilgili gen veya dizi ile alakalı bilimsel yayınlar ve
gene ait dizi bilgileri dizi ya da genin genel özelliklerini oluştururlar. Genlere ait nükleik asit ya da
protein dizilerinin gösterimi ve analizi için kullanılan en popüler format, FAŞTA formatıdır.
Popüler olmasının ve çoğu biyoinformatik analiz aracı tarafından tanınmasının sebebi basit
olmasıdır. FAŞTA formatında sağ açılı ayraç “>” ile başlayan ve dizinin adıyla devam eden tek bir
açıklama satırı bulunur. Zaman zaman dizi isminden “|” işareti ile ayrılarak fazladan bilgi ya da
açıklamalar da girilebilir. Bu fazladan bilgiler isteğe bağlıdır ve analiz programları tarafından
görmezden gelinir. Düz yazı şeklindeki dizi ise ikinci satırda başlar
FASTA

BLAST
FASTA
NCBI KULLANILAN ÖNEMLİ TERİMLER
NCBI KULLANILAN ÖNEMLİ TERİMLER
Accession number (GenBank): RefSeq dizisine atanmış kimlik numarasıdır.
Sırasıyla iki büyük harf, bir alt çizgi (_) ve 6 rakamdan oluşur (NT_123456).
* NT_123456 birleştirilmiş kontigler
*NM_123456 mRNA’lar (mRNA’dan oluşturulmuş cDNA’lar)
* NP_123456 proteinler
* NC_123456 kromozomlar

CDS: Bir nukleotid dizisinin kodonları oluşturan bölgesi yada kodlayan dizi.
/db_xref= veritabanı çapraz referansı: başka bir veritabanındaki ilgili bilgilere işaretçi
Örnek : /db_xref="UniProtKB/Swiss-Prot:P28763«
/db_xref="taxon:3899"
/organism="Trifolium repens"
/tissue_type="leaves"
/clone_lib= dizinin elde edildiği klon kitaplığı örnek /clone_lib="lambda-hIL7
/clone= dizinin elde edildiği klon"TRE361"
/mol_type="in vivo molekül tipi dizi . örnek genomic DNA«

mol_type="genomic DNA", "genomic RNA", "mRNA", "tRNA",


"rRNA", "other RNA", "other DNA", "transcribed RNA",
"viral cRNA", "unassigned DNA", "unassigned RNA"
Location examples
467 : Sunulan dizide tek bir bazı işaret ediyor
340..565 : Başlangıç ​ve bitiş bazları ile sınırlandırılmış ve sınırlı sürekli bir baz aralığına işaret
eder.
<345..500 : Bir özelliğin tam alt sınır noktasının bilinmediğini gösterir. Konum, belirtilen ilk
tabandan (sunulan sıraya dahil edilmesi gerekmeyen) bir bazda başlar ve biten tabanı içerir
ve devam eder.
<1..888: Özellik, sıralı ilk tabandan önce başlar ve devam eder ve 888 tabanını içerir.
1..>888: Özellik, sıralı ilk tabanda başlar ve 888 tabanının ötesinde devam eder
102.110: Kesin konumun bilinmediğini, ancak 102 ve 110 arasındaki tabanlardan biri
olduğunu belirtir.
123^124 : 123 ve 124 üsleri arasındaki bir siteyi işaret eder
join(12..78,134..202) : 12 ila 78 ve 134 ila 202 arasındaki bölgeler, tek bir bitişik sıra
oluşturacak şekilde birleştirilmelidir
complement(34..126) : 126'yı tamamlayan tabandan başlayın ve 34 üssünü tamamlayan
tabanda bitirin (özellik, sunulan diziyi tamamlayan zincir üzerindedir)
complement(join(2691..4571,4918..5163)) : 2691 ila 4571 ve 4918 ila 5163 bölgelerini
birleştirir, ardından birleştirilmiş segmentleri tamamlar (özellik, sunulan ipliğin
tamamlayıcısı iplik üzerindedir)
join(complement(4918..5163),complement(2691..4571)) : 4918 ila 5163 ve 2691 ila 4571
bölgelerini tamamlar, ardından tamamlanmış segmentleri birleştirir (özellik, sunulan ipliğin
tamamlayıcısı olan iplikçik üzerindedir)
J00194.1:100..202 : Girişte (bu veritabanında) birincil erişim numarası 'J00194' olan 100'den
202'ye kadar olan tabanları işaret eder.
join(1..100,J00194.1:100..202): Mevcut girişin 1..100 bölgesini J00194 uzak girişinin 100..202
bölgesiyle birleştirir
CDS : kodlama dizisi; bir proteindeki amino asit dizisine karşılık gelen nükleotid dizisi
(konum durdurma kodonunu içerir); özelliği, amino asit kavramsal çevirisini içerir.
CDS özelliği, 23 bazında başlayan ve 400
bazında biten bir kodlama sekansıdır, 'alkol
dehidrojenaz' adı verilen bir ürüne sahiptir ve
"adhI" adlı bir gen tarafından kodlanır.
misc_difference location : özellik dizisi girişte sunulandan farklıdır ve başka herhangi bir fark
anahtarı ile açıklanamaz
Optional qualifiers /allele="text"
/citation=[number]
/clone="text"
/compare=[accession-number.sequence-version]
/db_xref="<database>:<identifier>"
/experiment="[CATEGORY:]text"
/gene="text"
/gene_synonym="text"
/inference="[CATEGORY:]TYPE[ (same species)][:EVIDENCE_BASIS]"
/locus_tag="text" (single token)
/map="text"
/note="text"
/old_locus_tag="text" (single token)
/phenotype="text"
/replace="text"
/standard_name="text"

misc_difference özellik anahtarı, genetik manipülasyonun bir sonucu olarak ortaya çıkan
değişkenliği tanımlamak için kullanılmalıdır (örnek: bölgeye yönelik mutajen); silmeye ek
açıklama eklemek için / replace = "" kullanın, ör. misc_difference 412..433
Transcript özellikler
misc_RNA : diğer RNA anahtarları tarafından tanımlanamayan herhangi bir transkript veya
RNA ürünü (prim_transcript, precursor_RNA, mRNA, 5'UTR, 3'UTR, exon, CDS, sig_peptide,
transit_peptide, mat_peptide, intron, polyA_site, ncRNA, rRNA and tRNA)

misc_binding : nükleik asitte, başka herhangi bir bağlanma anahtarıyla tanımlanmamış,


başka bir kısma kovalent veya kovalent olmayan şekilde bağlanan bölge (primer_bind or
protein_bind);

repeat_region: tekrar eden birimler içeren genom bölgesi


misc_recomb : Diğer rekombinasyon anahtarları veya kaynak anahtar niteleyicileri
tarafından tanımlanamayan dupleks DNA kırılmasının ve yeniden birleşmesinin olduğu
herhangi bir genelleştirilmiş, bölgeye özgü veya replikatif rekombinasyon olayının yeri

aşka Structure tanımlanamayan herhangi bir ikincil veya üçüncül nükleotid yapısı veya
konformasyonu ((stem_loop and D-loop);
misc_RNA : Başka bir RNA tarafından tanımlanamayan herhangi bir transkript veya RNA ürünü
olgun ribozomal RNA; Amino asitleri proteinler
halinde birleştiren ribonükleoprotein
parçacığının (ribozom) RNA bileşeni.

SCKO
misc_feature : başka herhangi bir özellik anahtarı ile tanımlanamayan biyolojik ilgi bölgesi;
yeni veya nadir bir özellik;

exon
mRNA; 5 'çevrilmemiş bölge (5'UTR), kodlama dizileri (CDS,
ekson) ve 3' çevrilmemiş bölge (3'UTR) içerir;
NCBI kullanarak bir gen için cDNA dizisi elde edin

Exon-1 Exon-2 Exon-3

You might also like