Professional Documents
Culture Documents
Gen ve protein dizi verileri gibi birçok farklı biyolojik bilgiyi içermekte olan bu veri
bankasında; bilimsel makale, özet ve atıflara da erişim sağlanmaktadır. GenBank neredeyse
her organizma için nükleik asit dizi bilgilerini sunan en kapsamlı veri bankasıdır denilebilir.
İçeriğinde DNA, mRNA, cDNA, ESTler, yüksek hacimli işlenmemiş dizi verileri ve dizi
polimorfizmleri bulunur. Ayrıca GenPept adında protein dizilerinin ve
transkripsiyon/translasyon bilgilerinin bulunduğu bir alt organizasyona sahiptir.
https://www.ncbi.nlm.nih.gov/
GenBank veri tabanının en önemli fonksiyonu
geliştirdikleri “Entrez” arama sistemidir. Bu
sistemin en önemli özelliği ise bilgiyi
birleştirmesi yani bağımsız girişler arasında
önceden var olan ve mantıksal ilişkileri temel
alarak NCBI veri tabanları arasında çapraz
referanslama yapabilmesidir.
Arama motoru
b)Entrez veri bankası: Birbirleri ile bağlantılı farklı veri bankalarında eş zamanlı araştırma yapma
imkânı sağlar.
c)Nükleotid veri bankası: Tüm dünyada gerçekleştirilen sekans projeleri ile elde edilen DNA dizi
• sonuçlarını kabul eder, belirli bir yapıda organize eder ve bilimsel çalışmalarda kullanılmak
üzere araştırmacıların hizmetine sunar.
d)Genom spesifik veri kaynakları: Dizi çalışmaları tamamlanmış ya da sürmekte olan yaklaşık
800 farklı organizmaya ait genom bilgilerine ulaşım sağlar.
e) Veri ulaşım araçları: NCBI ihtiyaç duyulan farklı tipteki bilgilere ulaşımı sağlayan
biyoenformatik araçları kapsar.
f) Sekans analiz araçları: NCBI sadece ihtiyaç duyulan DNA dizilerine ulaşımı sağlamaz, aynı
zamanda bulunan ya da elde edilen dizilerin farklı şekilde analizlerini sağlayan biyoenformatik
araçlar içerir.
g) Genom haritaları: Farklı organizmalara ait genom bilgilerini kromozom haritaları şeklinde
araştırmacılara sunar
Entrez Veri Bankası ile Gen Kayıtlarına Ulaşım
Benzer genom veri bankalarında olduğu gibi NCBI-Entrez veri bankasını kullanırken de öncelikle
aradığımız bilgiye ulaşmamızı kolaylaştıracak gen sembolü, ya da GeneBank ID numarası gibi bazı
anahtar kelimeleri biliyor olmamız gerekir.
Gen Sembolü: Bulunan her gen için bir gen ismi ve bir gen sembolü tanımlanır. Semboller gen
ismini işaret eden birkaç harf ve rakamdan oluşan kısaltmalardır. Gen sembolleri sadece işaret
ettiği gene özeldir, böylelikle uluslar arası ortak bir dil geliştirilmiştir. Bir gene ait birden fazla
sembol olabilir fakat bir sembol sadece belirli tek bir gene aittir. Bir gene ait farklı semboller veri
bankalarında ‘ Alias’ olarak belirtilir.
GeneBank ID : NIH DNA sekans veri bankasına aittir. Dünya üzerindeki farklı araştırma
gruplarıtarafından gerçekleştirilen çalışmalar ile tanımlanmış ve yayınlanmış tüm DNA dizileri bu
veri bankasında kayıt altına alınarak depolanır.
Son istatistiklere göre GeneBank 108.431.692 dizi kaydı ile toplam 106.533.156.756 bazlık bir
veri kapasitesine ulaşmıştır.
Tanımlanan tüm DNA dizileri kendilerine tahsis edilen bir tanımlama numarası ile kodlanarak
depolanır. İşte bu numara GenBank ID olarak bilinir. Bu numara ile o kayıt istendiği zaman veri
bankasından çağrılarak görüntülenebilir. Bu veri bankasında bir gene ait farklı GeneBank ID’ler ile
tanımlanan birden fazla kayıt bulunabilir. GeneBank aynı zamanda Japonya DNA Veri Bankası
(DDBJ), Avrupa Moleküler Biyoloji Laboratuarı (EMBL) ve Ulusal Biyoteknoloji İnformasyon
Merkezi (NCBI) tarafından oluşturulan Uluslar Arası Nükleotid Dizisi Veri Bankası Birliği’nin bir
parçasıdır.
NCBI ana sayfası başlık kısmında yer alan sağdaki ilgili kutuya daha önce belirtildiği gibi gen
sembolü ya da biliniyorsa GeneBank ID girilir. Soldaki açılır menüden eğer istenirse tarama
yapılacak veri bankası seçilerek arama sınırlandırılabilir. Eğer elimizdeki ID’nin ya da sembolün
ne gibi bir genomik yapıya ait olduğunu tahmin edebiliyorsak spesifik bir veri bankası
tanımlamak bize zaman kazandıracaktır. Bunun dışında ‘ali databases’ opsiyonunun
kullanılması daha doğru olacaktır. ‘Ak2’ gen sembolü kullanılarak gerçekleştirilmiştir.
GenBank erişim nu¬marasını göstermektedir. Erişim numarası, veri tabanında bulunan her özgün
nükleik asit veya protein dizisine özgü olmasına rağmen, o dizilere sahip genlerin isimleri aynı
olabilir. Dizinin elde edildiği organizma, yazarlar, ilgili gen veya dizi ile alakalı bilimsel yayınlar ve
gene ait dizi bilgileri dizi ya da genin genel özelliklerini oluştururlar. Genlere ait nükleik asit ya da
protein dizilerinin gösterimi ve analizi için kullanılan en popüler format, FAŞTA formatıdır.
Popüler olmasının ve çoğu biyoinformatik analiz aracı tarafından tanınmasının sebebi basit
olmasıdır. FAŞTA formatında sağ açılı ayraç “>” ile başlayan ve dizinin adıyla devam eden tek bir
açıklama satırı bulunur. Zaman zaman dizi isminden “|” işareti ile ayrılarak fazladan bilgi ya da
açıklamalar da girilebilir. Bu fazladan bilgiler isteğe bağlıdır ve analiz programları tarafından
görmezden gelinir. Düz yazı şeklindeki dizi ise ikinci satırda başlar
FASTA
BLAST
FASTA
NCBI KULLANILAN ÖNEMLİ TERİMLER
NCBI KULLANILAN ÖNEMLİ TERİMLER
Accession number (GenBank): RefSeq dizisine atanmış kimlik numarasıdır.
Sırasıyla iki büyük harf, bir alt çizgi (_) ve 6 rakamdan oluşur (NT_123456).
* NT_123456 birleştirilmiş kontigler
*NM_123456 mRNA’lar (mRNA’dan oluşturulmuş cDNA’lar)
* NP_123456 proteinler
* NC_123456 kromozomlar
CDS: Bir nukleotid dizisinin kodonları oluşturan bölgesi yada kodlayan dizi.
/db_xref= veritabanı çapraz referansı: başka bir veritabanındaki ilgili bilgilere işaretçi
Örnek : /db_xref="UniProtKB/Swiss-Prot:P28763«
/db_xref="taxon:3899"
/organism="Trifolium repens"
/tissue_type="leaves"
/clone_lib= dizinin elde edildiği klon kitaplığı örnek /clone_lib="lambda-hIL7
/clone= dizinin elde edildiği klon"TRE361"
/mol_type="in vivo molekül tipi dizi . örnek genomic DNA«
misc_difference özellik anahtarı, genetik manipülasyonun bir sonucu olarak ortaya çıkan
değişkenliği tanımlamak için kullanılmalıdır (örnek: bölgeye yönelik mutajen); silmeye ek
açıklama eklemek için / replace = "" kullanın, ör. misc_difference 412..433
Transcript özellikler
misc_RNA : diğer RNA anahtarları tarafından tanımlanamayan herhangi bir transkript veya
RNA ürünü (prim_transcript, precursor_RNA, mRNA, 5'UTR, 3'UTR, exon, CDS, sig_peptide,
transit_peptide, mat_peptide, intron, polyA_site, ncRNA, rRNA and tRNA)
aşka Structure tanımlanamayan herhangi bir ikincil veya üçüncül nükleotid yapısı veya
konformasyonu ((stem_loop and D-loop);
misc_RNA : Başka bir RNA tarafından tanımlanamayan herhangi bir transkript veya RNA ürünü
olgun ribozomal RNA; Amino asitleri proteinler
halinde birleştiren ribonükleoprotein
parçacığının (ribozom) RNA bileşeni.
SCKO
misc_feature : başka herhangi bir özellik anahtarı ile tanımlanamayan biyolojik ilgi bölgesi;
yeni veya nadir bir özellik;
exon
mRNA; 5 'çevrilmemiş bölge (5'UTR), kodlama dizileri (CDS,
ekson) ve 3' çevrilmemiş bölge (3'UTR) içerir;
NCBI kullanarak bir gen için cDNA dizisi elde edin