BLAST Jakob Bartolj

BLAST Basic Local Alignment Search Tool
Jakob Bartolj
Univerza na Primorskem
Fakulteta za matematiko, naravoslovje
in informacijske tehnologije
Koper, Slovenija
jakob.bartolj@student.upr.si

POVZETEK
V bioinformatiki, Basic Local Alignment Search Tool (orodje za
iskanje osnovne lokalne poravnave), ali BLAST, je algoritem za
primerjavo informacij o primarnih biolokih zaporedjih, kot so
zaporedja aminokislin razlinih beljakovin ali nukleotidov DNA
zaporedji. BLAST iskanje omogoa raziskovalcu, da primerja
iskano zaporedje z knjinico ali podatkovno bazo zaporedji in
identificira knjinina zaporedja, ki so podobna iskanemu
zaporedju nad doloenim pragom. Na voljo so razlini tipi
BLAST-ov glede na iskana zaporedja. Na primer, sledenje
odkritju prej neznanega gena v mii, bo znanstvenik tipino
izvedel BLAST iskanje lovekega genetskega materiala, da bi
videl ali ljudje nosimo podoben gen; BLAST bo identificiral
zaporedja v lovekem genskem materialu, ki so podobna
mijemu genu na osnovi podobnosti zaporedji. BLAST program
so naredili Stephen Altschul, Warren Gish, Webb Miller, Eugene
Myers, in David J. Lipman na amerikem nacionalnem intitutu za
zdravje (National Institutes of Health-NIH) in je bil objavljen v
asopisu Molekularne Biologije leta 1990. [1]
1. Uvod
BLAST je eden izmed najvekrat uporabljenih bioinformacijskih
programov, ki naslavlja osnoven problem in hevristien algoritem,
ki ga uporablja je precej hitreji kot je raunanje optimalne
poravnave. Ta poudarek na hitrosti je pomemben pri praktinem
delovanju algoritma na velikih podatkovnih bazah genskega
materiala, ki so trenutno na voljo, eprav so lahko naknadni
algoritmi celo hitreji.
Preden so razvili hitre algoritme kot sta to BLAST in FASTA je
bilo iskanje po podatkovnih bazah beljakovin ali nukleotidnih
zaporedji asovno zelo zahtevno, saj se je uporabljala polna
poravnalna procedura (SmithWaterman algoritem).
Zaradi hitrejega delovanja BLAST-a kot Smith-Watermanove
metode ne moremo zagotoviti optimalnih poravnalnih
povpraevanj in zaporedji podatkovnih baz kot to lahko z Smith-
Watermanovo metodo. Optimalnost Smith-Watermanove metode
zagotavlja najbolji uinek pri tonosti in najbolj tone rezultate
pri porabljenem asu in raunalniki moi.
BLAST je bolj asovno uinkovit kot FASTA samo pri iskanju
bolj pomembnih vzorcev v zaporedjih, vendar le z sorazmerno
obutljivostjo. To bi si lahko naprej predstavljali z razumevanjem
BLAST algoritma, ki je predstavljen spodaj.
Primer vpraanj, na katera lahko odgovorijo raziskovalci, ki
uporabljajo BLAST so:
- Katere bakterijske poravnave imajo beljakovino, ki je
sorodna v starostni rti (lineage) do doloene
beljakovine z znanim aminokislinskim zaporedjem ?
- Kako drugi geni kodirajo beljakovine, ki kaejo
zgradbo ali motive kot tisti, ki so pravkar bili doloeni ?

BLAST se tudi pogosto uporablja kot del drugih algoritmov, ki
zahtevajo priblino zaporedje ujemanja. BLAST algoritem in
raunalniki program, ki ga vsebuje sta bila razvita s strani
Stephen Altschul, Warren Gish, in David Lipman iz amerikega
nacionalnega intituta za biotehnoloke informacije (National
Center for Biotechnology Information-NCBI), Webb Miller iz
Pennsylvanske dravne univerze in Gene Myers iz Univerze v
Arizoni. Razpololjiv je na spletu, na NCBI spletni strani.
Alternativne implementacije vkljuujejo AB-BLAST (prej znan
kot WU-BLAST), FSA-BLAST (nazadnje nadgrajen leta 2006),
in ScalaBLAST. [3][4]
Originalna izdaja g. Altschula in ostalih [1] je bil najvekrat
komentiran lanek, ki je bil objavljen v letu 1990. [5]

1.1 Oblike vhodnih datotek
Vhodna zaporedja so v FASTA ali v Genbank formatu in v obliki
utene matrike.
- FASTA format
FASTA format je tekstovni format za opisovanje nukleotidnih
zaporedji ali aminokislinskih zaporedji v katerih so nukleotidi ali
aminokisline predstavljene z uporabo kod z eno rko. Format tudi
dovoljuje, da so imena zaporedji in komentarjev pred zaporedji.
Format izvira iz paketa FASTA programske opreme, vendar je
sedaj postal standard na podroju bioinformatike.
Preprostost FASTA formata omogoa enostavno prirejanje in
analiziranje zaporedji z uporabo tekstovnih orodji in skriptnih
jezikov kot so to Python, Ruby, in Perl.
Zaporedje v FASTA formatu se zane z opisom v samostojni
poravnavi, ki ji sledijo poravnave podatkov zaporedja. Opisna
poravnava se razlikuje od podatkov zaporedja z simbolom veji
od (">") v prvem stolpcu. Beseda, ki sledi (">") simbolu je
identifikator zaporedja, preostanek poravnave pa predstavlja opis
(oboje je opcija). Med (">") simbolom in prvo rko identifikatorja
ne sme biti presledka. Priporoljivo je, da naj bodo vse poravnave
teksta kraje od 80 znakov. Zaporedje se kona, ko se pojavi nova
poravnava z (">") simbolom: to naznanja zaetek drugega
zaporedja. Preprost primer zaporedja v FASTA formatu:

>gi|5524211|gb|AAD44166.1| cytochrome b
[Elephas maximus maximus]
LCLYTHIGRNIYYGSYLYSETWNTGIMLLLITMATAFMGYVLPW
GQMSFWGATVITNLFSAIPYIGTNLVEWIWGGFSVDKATLNRFF
AFHFILPFTMVALAGVHLTFLHETGSNNPLGLTSDSDKIPFHPY
YTIKDFLGLLILILLLLLLALLSPDMLGDPDNHMPADPLNTPLH
IKPEWYFLFAYAILRSVPNKLGGVLALFLSIVILGLMPFLHTSK
HRSMMLRPLSQALFWTLTMDLLTLTWIGSQPVEYPYTIIGQMAS
ILYFSIILAFLPIAGXIENY

Po glavni poravnavi in komentarju sledi ena ali ve poravnav, ki
opisujejo zaporedje. Priakovano je, da so zaporedja predstavljena
v standardnih IUB/PAC aminokislinskih in nukleotidnih
kislinskih kodah s temi izjemami: male rke so sprejete in so
spremenjene v velike rke; samostojni vezaj ali pomiljaj lahko
uporabite za predstavitev znaka presledka; in aminokislinskih
zaporedji, U in * sta sprejemljivi rki (glej tabelo). tevilke niso
dovoljene, ampak so uporabljene v nekaterih podatkovnih bazah
za navajanje poloaja v zaporedju. [11]
Podprte nukleotidno kislinske kode so sledee:
Nukleotidna
kislinska koda
Pomen Mnemonino
A A Adenine
C C Cytosine
G G Guanine
T T Thymine
U U Uracil
R A ali G puRine
Y C, T ali U pYrimidines
K G, T ali U Baze ki so Ketones
M A ali C Baze z aMino skupinami
S C ali G Strong interaction
W A, T ali U Weak interaction
B ne A (i.e. C, G, T ali U) B comes after A
D ne C (i.e. A, G, T ali U) D comes after C
H ne G (i.e., A, C, T ali U) H comes after G
V
ne T in ne U (i.e. A, C ali
G)
V comes after U
N A C G T U Nukleotidna kislina
X maskirano
-
presledek nedoloene
doline

Podprte kode (24 aminokislin in 3 posebne kode) :
Aminokislinska koda Pomen
A Alanine
B Aspartic acid ali Asparagine
Aminokislinska koda Pomen
C Cysteine
D Aspartic acid
E Glutamic acid
F Phenylalanine
G Glycine
H Histidine
I Isoleucine
J Leucine or Isoleucine
K Lysine
L Leucine
M Methionine
N Asparagine
O Pyrrolysine
P Proline
Q Glutamine
R Arginine
S Serine
T Threonine
U Selenocysteine
V Valine
W Tryptophan
Y Tyrosine
Z Glutamic acid ali Glutamine
X katerokoli
* konec prevajanja
- presledek nedoloene doline

- Samostojno zaporedje
To so samo poravnave podatkov zaporedja brez definicijske
FASTA poravnave, primer :
QIKDLLVSSSTDLDTTLVLVNAIYFKGMWKTAFNAEDTREMPFH
VTKQESKPVQMMCMNNSFNVATLPAEKMKILELPFASGDLSMLV
LLPDEVSDLERIEKTINFEKLTEWTNPNTMEKRRVKVYLPQMKI
EEKYNLTSVLMALGMTDLFIPSANLTGISSAESLKISQAVHGAF
MELSEDGIEMAGSTGVIEDIKHSPESEQFRADHPFLFLIKHNPT
NTIVYFGRYWSP

Lahko so tudi zaporedja pomeana z tevilkami in/ali presledki,
kot je to del zaporedja GenBank/GenPept nerazvrenih
podatkov:

1 qikdllvsss tdldttlvlv naiyfkgmwk
tafnaedtre mpfhvtkqes kpvqmmcmnn
61 sfnvatlpae kmkilelpfa sgdlsmlvll
pdevsdleri ektinfeklt ewtnpntmek
121 rrvkvylpqm kieekynlts vlmalgmtdl
fipsanltgi ssaeslkisq avhgafmels
181 edgiemagst gviedikhsp eseqfradhp
flflikhnpt ntivyfgryw sp

Prazne poravnave niso dovoljene na sredini vhoda samostojnega
zaporedja. [11]

1.2 Oblike izhodnih datotek
BLAST izhodna datoteka je lahko v razlinih formatih. Ti formati
vkljuujejo HTML, enostaven tekst in XML obliko. Na NCBI
spletni strani je privzeti format za izhod HTML. Kadar izvajamo
BLAST na NCBI so rezultati podani v grafini obliki in
prikazujejo najdene zadetke, tabela pa prikazuje zaporedje
identifikatorjev za zadetke s podatki v obliki rezultatov, kot tudi
poravnave za zaporedje interesov in zadetkov prejetih z
ujemajoimi BLAST rezultati za te. Najenostavneje za branje in
najbolj informativna izmed tega je po vsej verjetnosti tabela.
e nekdo poizkua poiskati lastnika zaporedja ali enostavno
nekoga, ki ni razpololjiv v podatkovnih bazah, ki so na razpolago
obi javnosti skozi vire kot so to NCBI, je tam na razpolago
BLAST program, ki ga lahko naloite na katerikoli raunalnik
brezplano. Obstajajo tudi komercialni programi za nakup.
Podatkovne baze lahko najdete na NCBI spletni strani, kot tudi iz
indeksa BLAST podatkovnih baz (FTP).

2. Potek
Z uporabo hevristine metode, BLAST najde podobna zaporedja,
ne z primerjanjem obeh zaporedji v svoji celoti, ampak raji z
lociranjem kratkih ujemanj med dvemi zaporedji. Ta proces
iskanja zaetnih besed se imenuje sejanje. To je po tem prvem
ujemanju, da BLAST zane delati lokalne poravnavee. Med
poizkuanjem, da bi nali podobnosti in zaporedja so zelo
pomembni nizi skupnih rk, poznanih kot besede. Na primer,
predstavljajte si, da zaporedje vsebuje sledei razpon rk,
GLKFA. e bi bil BLASTp voden pod privzetimi pogoji, bi bila
dolina besede 3 rke. V tem primeru, e uporabimo dan razpon
rk, bi bile iskane besede GLK, LKF, KFA. Hevristini algoritem
BLAST locira vse skupne besede s tremi rkami med zaporedjem
interesov in zaporedjem zadetkov ali zaporedji iz podatkovne
baze. Ti rezultati se bodo potem uporabili za izgradnjo poravnave.
Po pripravi besed za zaporedje interesov, se izberejo tudi sosednje
besede. Te besede morajo zadovoljiti zahtevo, da imajo rezultat
vrednosti najmanj enak pragu T, kadar se primerja z uporabo
vrednostne matrike. Ena izmed pogosto uporabljenih vrednostnih
matrik za BLASTp iskanje je BLOSUM62 (BLOcks SUbstitution
Matrix), eprav je optimalna vrednostna matrika odvisna od
zaporedja podobnosti.

Slika 1: BLOSUM62 matrika
Enkrat ko so besede in sosednje besede zbrane in sestavljene, jih
nato primerjamo z zaporedji v podatkovni bazi, da bi nali
ujemanja. Prag rezultata T doloa tako ali tako, da bo tono
doloena beseda vkljuena v poravnavo. Enkrat ko se sejanje
zakljui, poravnava, ki je samo tri preostanke dolga se raziri v
obeh smereh s pomojo algoritma, ki ga uporablja BLAST. Vsaka
raziritev vpliva na rezultat poravnav z poveanjem ali
zmanjanjem le tega. e naj bi bil ta rezultat viji kot prej
doloeni T, bo poravnava vkljuena v rezultate, ki jih bo podal
BLAST. Kakorkoli, e bo ta rezultat niji od vnaprej doloenega
T, se bo poravnava prenehala raztezati in prepreila podrojem
slabih poravnav, da bi se vkljuili v BLAST rezultate.
Upotevajte, da poveevanje rezultata T meji na koliino prostora
za iskanje in zmanjevanje tevila sosednjih besed, medtem ko
istoasno pospeujemo potek BLAST-a.
3. Algoritem
Za izvajanje, BLAST potrebuje povpraevalno zaporedje za
iskanje in zaporedje za proti iskanje (imenovano tudi ciljno
zaporedje) ali zaporedje podatkovne baze, ki vsebuje mnogo
taknih zaporedji. BLAST bo nael v podatkovni bazi
podzaporedja, ki so podobna podzaporedjem v povpraevanju. Pri
tipini uporabi je povpraevanje po zaporedjih precej manje kot
podatkovna baza, na primer, povpraevanje je lahko velikosti
tiso organskih molekul, medtem ko je podatkovna baza velikosti
ve milijard organskih molekul.
Glavna ideja BLAST-a je, da so pogosto pojavljajo visoko
vrednostni segmentni pari (HSP-High-Scoring segment Pairs), ki
se zadrujejo v statistino pomembnih poravnavah. BLAST ie
visoko vrednostne poravnave zaporedja med povpraevalnim
zaporedjem in zaporedji v podatkovni bazi z uporabo
hevristinega pristopa, ki se pribliuje Smith-Watermanovemu
algoritmu. Izrpen Smith-Watermanov pristop je prepoasen za
iskanje velikih genskih podatkovnih baz kot je to GenBank.
Zaradi tega BLAST algoritem uporablja hevristien pristop, ki ni
tako natanen kot Smith-Watermanov algoritem, ampak je zato 50
krat hitreji. Hitrost in relativno dobra tonost BLAST-a je ena
izmed glavnih tehninih inovacij BLAST programov.
Pregled BLASTP algoritma (iskanje od beljakovine do
beljakovine) je sledee [6]:
1. Odstrani nizko kompleksne regije ali zaporedje
ponavlja v zaporedju povpraevanja.
"Nizko kompleksna regija" pomeni regija zaporedja
sestavljena iz nekaj poravnav elementov. Te regije lahko
dajo visoke vrednosti, ki zmedejo program, da najde
dejansko pomembna zaporedja v podatkovni bazi tako,
da jih izfiltrira ven. Regije bodo oznaene z X
(beljakovinska zaporedja) ali N (zaporedja nukleinske
kisline) in nato bodo ignorirana s strani BLAST
programa. Da bi izfiltrirali nizko kompleksne regije se
uporabi SEG program za beljakovinska zaporedja in
program DUST za DNA zaporedja. Po drugi strani, pa
se uporablja XNU program, da se razkrije zaporedno
ponavljanje v beljakovinskih zaporedjih.
2. Naredi besedni seznam k-rk povpraevalnega
zaporedja
Na primer, vzemimo k=3, napravimo seznam besed
doline 3 v povpraevanju zaporedja beljakovine (k je
ponavadi 11 za DNA zaporedje) "zaporedno", dokler ni
zadnja rka povpraevanja vkljuena. Metoda je
prikazana na sliki 2.

Slika 2: Metoda za ureditev seznama povpraevanja po k-
rkovnih besedah.

3. Seznam monih ujemajoih besed.
Ta korak je eden glavnih razlik med BLAST in FASTA.
FASTA skrbi za vse podobne besede v podatkovni bazi
in povpraevalnih zaporedjih, ki so nateta v drugem
koraku; kakorkoli, BLAST skrbi samo za besede, ki
imajo visoko vrednost. Vrednosti so ustvarjene z
primerjavo besede v seznamu pri drugem koraku z
vsemi 3 rkovnimi besedami. Z uporabo vrednostne
matrike (nadomestne matrike) dobimo vrednost
primerjave vsakega preostalega para, obstaja 20^3
monih ujemajoih vrednosti za 3 rkovne besede. Na
primer, vrednost pridobljena s primerjavo PQG z PEG
in PQA je 15 in 12. Za DNA besede je vrednost
ujemanja +5 in neujemanja -4, ali kot +2 in -3. Potem se
uporabi prag vrednosti sosednje besede T, da
zmanjamo tevilo monih ujemajoih se besed. Besede
katerih vrednosti so vije od praga T bodo ostale na
seznamu monih ujemajoih besed, medtem ko bodo te
z nijimi vrednostmi zavrene. Na primer, PEG
obdrimo, ampak PQA opustimo kadar je T enak 13.
4. Organiziraj ostale visoko vrednostne besede v
uinkovito drevo iskanja.
To dovoljuje programu, da hitro primerja besede z
visoko vrednostjo z zaporedji v podatkovni bazi.
5. Ponavljaj korak 3 do 4 za vsako k-rkovno besedo v
povpraevalnem zaporedju.
6. Skeniraj zaporedja podatkovne baze za tona
ujemanja z ostalimi visoko vrednostnimi besedami.
BLAST program skenira zaporedja v podatkovni bazi za
e ostale visoko vrednostne besede, kot je to PEG vsake
pozicije. e je najden toni zadetek se ta zadetek
uporabi za sejanje monih poravnav, ki nimajo velikih
vrzeli med povpraevanjem in zaporedji v podatkovni
bazi.
7. Raziri tona ujemanja do visoko vrednostnih
segmentnih parov (HSP).
- Originalna verzija BLAST razteza dalje
poravnave med povpraevanjem in
zaporedjem v podatkovni bazi v levih in
desnih smereh iz pozicije, kjer se pojavi toni
zadetek. Raziritev se ne ustavi dokler se ne
zane upad akumulirane skupne vrednosti
HSP. Poenostavljen prikaz lahko vidimo na
sliki 3.

Slika 3: Proces razirjanja tonega zadetka.
- Da bi prihranili ve asa, so razvili novo verzijo
BLAST-a, imenovano BLAST2 ali iroko odprt
BLAST. BLAST2 privzame niji rezultat pragu
sosednjih besed, da obdri isto raven obutljivosti
za zaznavo podobnosti zaporedja. Zaradi tega
postane seznam monih ujemajoih besed v koraku
3 dalji. Naslednje tono ujemanje podroji z
razdaljo A, eden od drugega na isti diagonali na
sliki 4 se bo zdruilo v novo dalje podroje.
Konno se nato nova podroja razirijo z enako
metodo kot v originalni verziji BLAST in HSP
(High-scoring segment pair) rezultati razirjenih
podroji se potem ustvarijo z uporabo zamenjalne
matrike kot e prej.

Slika 4: Poloaj tonih ujemanj.
8. Seznam vseh HSP v podatkovni bazi katerih rezultat
je dovolj visok, da bi ga upotevali.
Pregledamo HSP-je katerih rezultati so viji kot je
empirino doloena prekinitvena vrednost S. S
pregledom porazdelitve poravnalnih rezultatov, ki so
bili vzoreni s primerjavo nakljunih zaporedji lahko
doloimo prekinitveno vrednost S tako, da je njena
vrednost dovolj velika, da zagotavlja pomembnost
preostalih HSP-jev.
9. Ocenite pomembnost HSP rezultata.
BLAST nato doloi statistino pomembnost vsakega
HSP rezultata z uporabo Gumbelove ekstremne
vrednostne porazdelitve (EVD-Extreme Value Type I
Distribution). (Dokazano je, da Smith-Watermanova
porazdelitev lokalne poravnave rezultira med dvema
nakljunima zaporedjema, ki sledita Gumbelovi EVD.
Za lokalne poravnave, ki vsebujejo vrzeli to ni
dokazano.). Skladno s Gumbel EVD je verjetnost p od
opazovanega rezultata S enaka ali vija od x in je
podana z enabo
( )
( )
( )
1 exp
x
p S x e

> = kjer je
( ) log Km n
' ' (

= .
Statistina parametra in K sta ocenjena z
ustreznostjo porazdelitve brez vrzelnih lokalnih
poravnalnih rezultatov povpraevalnega zaporedja in
veliko pomeanih verzij (Globalnih ali lokalnih meanj)
zaporedja podatkovnih baz do Gumbelove ekstremne
vrednostne porazdelitve. Vedite, da sta in K odvisna
od zamenjalne matrike, vrzelnih penalov in zgradbe
zaporedja (frekvence rk). m' in n' sta efektivne
doline povpraevanja in zaporedji podatkovne baze.
Originalna dolina zaporedja je skrajana do efektivne
doline zaradi kompenzacije robnega efekta (poravnava,
ki se zane blizu konca enega izmed povpraevanj ali
zaporedja podatkovne baze po vsej verjetnosti ne bo
imela dovolj zaporedja za izgradnjo optimalne
poravnave). Lahko jih izraunamo kot
( ) ln Kmn
m m
H
' ~
( ) ln Kmn
n n
H
' ~
kjer je H povpreen priakovani rezultat na poravnalni
par preostankov v poravnavi dveh nakljunih zaporedji.
Altschul in Gish imata tipine vrednosti
0, 318, 0,13 K = = in 0, 40 H = za brez
vrzelne lokalne poravnave, ki uporablja BLOSUM62 za
zamenjalno matriko. Z uporabo tipinih vrednosti za
doloitev pomembnosti se imenuje poglej gor tabelna
metoda (lookup table); ni tona. Priakovani rezultat
ujemanja v podatkovni bazi E je vekratnik, ki
zaporedje nepovezane podatkovne baze obdri rezultat
S veji od x po nakljuju. Priakovanje E pridobljeno v
iskanju za podatkovno bazo D zaporedji je dano z
( )
1
p s x D
E e
>
~
Poleg tega, kadar je 0,1 p < , je lahko E priblino po
Poissonovi distribuciji
E pD ~
To priakovanje ali priakovana vrednost "E" (pogosto
jo kliemo tudi E rezultat ali E-vrednost ali e-vrednost)
doloa pomembnost HSP vrednosti za brez vrzelne
lokalne poravnave in je prikazana v BLAST rezultatih.
Kalkulacija, ki je prikazana tu se prilagodi, e se
zdruijo posamezni HSP-ji, tako kot kadar se
proizvajajo vrzelne poravnave (opisane spodaj) zaradi
odstopanja statistinih parametrov.
10. Naredi dve ali ve HSP regij v daljo poravnavo.
Vasih najdemo dve ali ve HSP regiji v enem zaporedju
podatkovne baze, ki jih lahko spremenimo v daljo
poravnavo. To omogoa dodaten dokaz o povezavi med
povpraevanjem in zaporedjem podatkovne baze. Obstajajo
dve metodi, Poissonova in metoda vsote rezultatov, da bi
primerjali pomembnost na novo zdruenih HSP regij.
Predpostavljajmo si, da imamo dve zdrueni HSP regiji z
pari rezultatov (65, 40) in (52, 45). Poissonova metoda daje
vejo pomembnost nizu z maksimalno nijim rezultatom
(45>40). Kakorkoli, metoda vsote rezultatov pa je bolj
naklonjena prvemu nizu, ker je 65+40 (105) veje kot 52+45
(97). Originalni BLAST uporablja Poissonovo metodo;
vrzelni BLAST in WU-BLAST pa uporabljata metodo vsote
rezultatov.

11. Pokai vrzelne Smith-Watermanove lokalne
poravnave povpraevanj in vsako izmed ujemanj
zaporedji podatkovne baze.
- Originalni BLAST samo generira brez vrzelne
poravnave vkljuno z prvotno posamezno
najdenimi HSP-ji, tudi kadar je najden ve kot
eden HSP v enem zaporedju podatkovne baze.
- BLAST2 proizvaja posamezno poravnavo z
vrzelmi, ki lahko vkljuujejo vse prvotno najdene
HSP regije. Vedite, da rezultat preraunavanja in
njegov ujemajoa E-vrednost vsebuje uporabo
ustreznih vrzelnih penalov.
12. Poroaj o vsakem ujemanju katerega priakovan rezultat
je niji od pragu parametra E.

3.1 Vzporedni BLAST
Verzije vzporednega BLAST so implementirane z uporabo MPI
(Message Passing Interface) in Pthreads, in so bile prenesene na
razline platforme vkljuno na Windows, Linux, Solaris, Mac OS
X in AIX. Popularni pristopi do vzporednosti BLAST vkljuujejo
povpraevalno porazdelitev, segmentacijo hash tabele, vzporedno
raunanje, segmentacijo podatkovne baze (particijo).
4. Program
BLAST program si lahko intalirate in uporabljate z ukazno
vrstico "blastall" ali dostopate do njega brezplano preko spleta.
BLAST spletni strenik katerega gosti NCBI dovoljuje vsakomur
z spletnim brskalnikom, da izvaja podobna iskanja v konstantno
posodobljeni podatkovni bazi beljakovin in DNA, ki vkljuuje
veino novih zaporedji organizmov.
BLAST program je narejen na osnovi odprtokodnega formata
tako, da lahko kdorkoli dostopa do njega in omogoa
spreminjanje programske kode. To je vodilo do nastanka ve
BLAST novosti.
Sedaj je na razpolago precej razlinih BLAST programov, ki jih
lahko uporabljamo glede na to kaj nameravamo storiti in s im
imamo opravka. Ti razlini programi se razlikujejo glede na
vhodno povpraevalno zaporedje, podatkovno bazo, ki jo
preiskujemo in kaj med seboj primerjamo. Ti programi in njihove
podrobnosti so nateti spodaj. Blast je pravzaprav druina
programov (vsi so vkljueni v namestitveni datoteki). Ti
vkljuujejo [7]:
- Nukleotidni-nukleotidni BLAST (blastn)
Ta program, e mu damo DNA povpraevanje vrne najbolj
podobna DNA zaporedja iz DNA podatkovne baze, ki jo doloi
uporabnik.
- Beljakovina-beljakovina BLAST (blastp)
Ta program, e mu damo beljakovinsko povpraevanje vrne
najbolj podobna beljakovinska zaporedja iz beljakovinske
podatkovne baze, ki jo doloi uporabnik.
- Poloajno-Specifini ponavljalni BLAST (PSI-
BLAST) (blastpgp)
Ta program se uporablja pri iskanju daljnih sorodnikov
beljakovin. Najprej se ustvari seznam blinje sorodnih beljakovin.
Te beljakovine nato zdrui v glavno "profilno" zaporedje, ki
seteje pomembne prednosti, ki so prisotne v teh zaporedjih. Nato
se zaene povpraevanje v beljakovinski podatkovni bazi z
uporabo tega profila in najde se veja skupina beljakovin. Ta
veja skupina se uporablja za izgradnjo drugega profila in proces
se ponovi. Z vkljuitvijo sorodnih beljakovin v iskanje, je PSI-
BLAST veliko bolj obutljiv v pobiranju daljnih evolucijskih
razmerji, kot standardni beljakovinski-beljakovinski BLAST.
- Nukleotidni 6-okvirna prenosna-beljakovina (blastx)
Ta program primerja est okvirne pojmovne produkte
povpraevalnega zaporedja nukleotidov z beljakovinskim
zaporedjem v podatkovni bazi.
- Nukleotidni 6-okvirni prenosni-nukleotidni 6-okvirni
prenosni (tblastx)
Ta program je najpoasneji v BLAST druini. Pretvarja
povpraevalno nukleotidno zaporedje v vseh estih monih
okvirjih in jih primerja z est okvirnimi prenosi nukleotidnih
zaporedji podatkovne baze. Namen tblastx je najti zelo daljno
razmerje med nukleotidnimi zaporedji.
- Beljakovinsko-nukleotidni 6-okvirni prenos (tblastn)
Ta program primerja beljakovinsko povpraevanje z vsemi estimi
bralnimi okvirji nukleotidnih zaporedji podatkovne baze.
- Velike tevilke povpraevalnih zaporedji (megablast)
Ko primerjamo velike tevilke vhodnih zaporedji preko ukazne
vrstice BLAST, je "megablast" veliko hitreji kot, da vekrat
zaenemo BLAST. Osredotoi veliko vhodnih zaporedji skupaj
tako, da naredi veliko zaporedje preden zane iskati po BLAST
podatkovni bazi, nato ponovno analizira rezultate iskanja, da
nabere individualne poravnave in statistine vrednosti.
Med temi programi sta BLASTn in BLASTp najpogosteje
uporabljana, ker uporabljata direktne primerjave in ne potrebujeta
prenosov. Kakorkoli, odkar so beljakovinska zaporedja bolje
evolucijsko ohranjena kot zaporedja jeder, tBLASTn, tBLASTx in
BLASTx proizvajajo bolj zanesljive in tone rezultate, kadar
imamo opravka z kodiranjem DNA. Omogoajo tudi enemu, da je
mono direktno videti funkcijo beljakovinskega zaporedja, odkar
z prenaanjem zaporedja interesov pred iskanjem nam pogosto
daje komentarje o beljakovinskih zadetkih.

4.1 Alternativne verzije
Verzija narejena za primerjavo mnogih velikih genov ali
kromosomov je BLASTZ.
CS-BLAST(context-specific BLAST) je razirjena verzija
BLAST-a za iskanje beljakovinskih zaporedji, ki najde dvakrat
ve daljnih zaporedji kot BLAST z isto hitrostjo in istim
razmerjem napak. V CS-BLAST-u verjetnost sprememb med
aminokislinami ni odvisna samo od samostojne aminokisline, kot
je to pri BLAST-u, ampak tudi njihovimi lokalnimi zaporednimi
zvezami (est levo in est desno zaporednimi sosedi).
Univerza v Washingtonu je naredila alternativo NCBI BLAST-u,
ki se imenuje WU-BLAST. Pravice so od takrat prenesene na
Advanced Biocomputing, LLC.
Leta 2009, je NCBI izdala novi niz BLAST programa, BLAST+
na osnovi C++ programskega jezika, [8] in izdala vzporedne
verzije do razliice 2.2.26. Z razliico 2.2.27 (April 2013) pa je na
razpolago samo BLAST+ program. Med spremembami je

zamenjava blastall z samostojnimi blinjicami do razlinih
BLAST programov in opcijskimi spremembami. Formatdb
program (na osnovi C prog. jezika) je bil nadomeen z
makeblastdb (na osnovi C++ prog. jezika) in monostjo
formatiranja podatkovne baze s strani obeh programov in
kompatibilnostjo za identine blast izvedbe. Algoritmi ostajajo
podobni, vendar se tevilo najdenih zadetkov in njihov poravnalni
red spreminja bistveno glede na stareje in nove verzije.

4.2 Pospeene verzije
- CLC bio in SciEngines GmbH sodelujejo na FPGA
(Field-Programmable Gate Array) pospeevalniku, ki bo
po njihovem mnenju dosegel 188 kratno hitrost
BLAST-a.
- TimeLogic ponuja drugo pospeevano implementacijo
FPGA za BLAST algoritem, imenovano Tera-BLAST.
- Mitrion-C Odprti Bio Projekt je prizadevanje v teku, da
bi BLAST deloval na Mitrion FPGA-jih.
- GPU-Blast (Graphics Processing Unit-Blast) je
pospeevana verzija NCBI BLASTP za CUDA
(Compute Unified Device Architecture), ki je 3-4krat
hitreji od NCBI Blast.[9]
- CUDA-BLASTP je verzija BLASTP, ki je GPU
pospeevana in trdijo, da deluje 10 krat hitreje kot
NCBI BLAST.
- G-BLASTN je pospeevana verzija NCBI blastn in
megablast-a, katerega hitrost se spreminja od 4 krat do
14 krat.[10] Njegova trenutna omejitev je, da se mora
podatkovna baza prilagajati GPU spominu.
5. BLAST alternative
Ekstremno hitra vendar precej manj obutljiva alternativa
BLAST-u je BLAT (Blast Like Alignment Tool). Medtem ko
BLAST linearno ie, se BLAT opira na k-mer indeksiranje
podatkovne baze in lahko na ta nain pogosto najde semena
hitreje. Druga alternativna programska oprema, ki je podobna
BLAST-u je PatternHunter.
Prednosti v zaporedni tehnologiji v poznih 2000ih je
naredilo iskanje za precej podobnimi ujemanji jeder pomemben
problem. Novi poravnalni programi prirejeni za takno uporabo
tipino uporabljajo BWT indeksiranje ciljne podatkovne baze
(tipino genske). Vhodna zaporedja se lahko potem zelo hitro
razporedijo in izhod je tipino v obliki BAM datoteke. Primerljivi
poravnalni programi so BWA, SOAP, in Bowtie.
Za beljakovinsko identifikacijo, iskanje znanih podroji (na
primer od Pfam) z ujemanjem skritih Markovih modelov je
popularna alternativa, kot je to HMMER.

6. Uporaba BLAST
BLAST lahko uporabimo za ve namenov. Ti vkljuujejo
identifikacijo poravnav, lociranje podroji, dokazovanje razvoja
rodu, DNA razvranje in primerjavo.
- Identifikacija poravnav
Z uporabo BLAST-a lahko verjetno tono identificira poravnavo
ali najde ustrezne poravnave. To je lahko uporabno na primer, ko
dela z DNA zaporedjem od neznane poravnave.
- Lociranje podroji
Kadar dela z beljakovinskim zaporedjem ga lahko vstavi v
BLAST, da locira znana podroja z zaporedjem interesa.
- Dokazovanje razvoja rodu
Z uporabo rezultatov prejetih skozi BLAST lahko naredite drevo
razvoja rodu z uporabo BLAST spletne strani. Razvoj rodu, ki
temelji samo na BLAST-u je manj zanesljiv kot ostale metode, ki
so namensko narejene za preraunavanje razvoja rodu tako, da je
lahko verodostojen samo prvi, "prvi prehod" analize razvoja
rodu.
- DNA razvranje
Kadar delate z znanimi poravnavami in iete zaporedje gena na
neznani lokaciji lahko BLAST primerja kromosomski poloaj
zaporedja interesa z ustreznimi zaporedji v podatkovni bazi,
bazah.
- Primerjava
Kadar delate z geni lahko BLAST doloi skupne gene v dveh
sorodnih poravnavah, ki jih lahko uporabite za prikaz razlag
razlike med organizmi.

7. Primerjava BLAST-a in Smith-
Watermanovega postopka
Medtem ko oba, Smith-Waterman in BLAST uporabljamo za
iskanje ustreznih zaporedji z iskanjem in primerjanjem
povpraevalnega zaporedja s tistimi v podatkovni bazi imata oba
doloene medsebojne razlike.
Glede na dejstvo, da BLAST temelji na osnovi hevristinega
algoritma so rezultati, ki jih prejmemo preko BLAST-a glede na
zadetke, ki jih najde, to niso najbolji rezultati, saj vam ne
prikaejo vse zadetke v okviru podatkovne baze. BLAST zgrei
teko najdena ujemanja.
Bolja alternativa, da bi nali najbolje mone rezultate je uporaba
Smith-Watermanovega algoritma. Ta metoda variira od BLAST
metode na dveh podrojih, tonost in hitrost. Smith-Watermanova
opcija omogoa vejo tonost, tako da najde ujemanja, ki jih
BLAST ne more, saj ne zgrei nobene informacije. Zaradi tega je
obvezen pri oddaljeni ustreznosti v razvoju in poreklu. Kakorkoli,
kadar ga primerjamo z BLAST-om pa je asovno bolj potroen, da
ne omenimo, da potrebuje velike koliine procesorske moi in
prostora. Vendar, so iznali tehnologije, ki pospeujejo Smith-
Watermanov postopek, da se dramatino izbolja as za iskanje.
Te tehnologije vkljuujejo FPGA ipe in SIMD (Single
Instruction, Multiple Data) tehnologijo.
Da bi prejemali bolje rezultate od BLAST-a je mono spremeniti
privzete nastavitve. Vendar ni nobenega danega ali doloenega
naina spreminjanja teh nastavitev, da bi dobili najbolje rezultate
za dano zaporedje. Nastavitve, ki so na voljo za spremembo so E-
vrednost, vrzelni izdatki, filtri, dolina besed, in zamenjalna
matrika. Vedite, da je bil algoritem, ki se uporablja pri BLAST-u
razvit iz algoritma, ki ga uporablja Smith-Waterman. BLAST
uporablja poravnave, ki jih najde, "lokalne poravnave med
zaporedji z iskanjem kratkih ujemanj in iz teh prvotnih ujemanj
(lokalnih) se ustvarijo nove poravnave".

8. Prikaz uporabe BLAST programa preko
NCBI spletne strani
Spletna stran je na voljo na naslovu http://blast.st-
va.ncbi.nlm.nih.gov/Blast.cgi.

- Prvi korak: Izberite program, ki ga boste uporabili (slika
5).

Slika 5: S klikom na povezavo izberete program, ki ga elite
uporabiti

- Drugi korak: Vnos podatkov, izbira podatkovne baze
Zaporedje mora biti vneseno v obliki FASTA formata (slika 6).

Slika 6: Vnos FASTA zaporedja, izbira podatkovne baze in
organizma s katerim se zaporedje primerja
- Tretji korak: Izbira dodatnih nastavitev programa ali
uporaba v privzetem nainu.
- etrti korak: Izvedite iskanje (slika 7).

Slika 7: S pritiskom na gumb BLAST zaenete izbrani
program iskanja po podatkovni bazi

- Prikaz rezultatov.
Rezultati se nam prikaejo v obliki kratkega povzetka, kateremu
sledi grafini prikaz porazdelitve blast zadetkov na
povpraevalnemu zaporedju. Nato sledi podroben izpis zadetkov z
rezultati. Zaporedja z E vrednostjo manjo od vrednosti
4
1 10
smatramo, da imajo razmerje napake manje od 0,01% in

jih posledino ne upotevamo. Vsak zadetek je nato e dodatno
spodaj obrazloen s konkretnimi tevilkami in procentualnim
deleem. [12]

9. REFERENCE
[1] Altschul, Stephen; Gish, Warren; Miller, Webb; Myers,
Eugene; Lipman, David (1990). "Basic local alignment
search tool". Journal of Molecular Biology.
[2] Casey, R. M. (2005). "BLAST Sequences Aid in Genomics
and Proteomics". Business Intelligence Network.
[3] Oehmen, C.; Nieplocha, J. (2006). "ScalaBLAST: A Scalable
Implementation of BLAST for High-Performance Data-
Intensive Bioinformatics Analysis". IEEE Transactions on
Parallel and Distributed Systems.
[4] Oehmen, C. S.; Baxter, D. J. (2013). "ScalaBLAST 2.0:
Rapid and robust BLAST calculations on multiprocessor
systems".
[5] "Sense from Sequences: Stephen F. Altschul on Bettering
BLAST". ScienceWatch. JulyAugust 2000.
[6] Mount, D. W. (2004). Bioinformatics: Sequence and
Genome Analysis (2nd ed.). Cold Spring Harbor Press.
ISBN 978-0-8796-9712-9.
[7] "Program Selection Tables of the Blast NCBI web site".
[8] Camacho, C.; Coulouris, G.; Avagyan, V.; Ma, N.;
Papadopoulos, J.; Bealer, K.; Madden, T. L. (2009).
"BLAST+: Architecture and applications".
[9] "GPU-BLAST: using graphics processors to accelerate
protein sequence alignment". Bioinformatics. 2010.
[10] "G-BLASTN: accelerating nucleotide alignment by graphics
processors". Bioinformatics. 2014.
[11] http://en.wikipedia.org/wiki/FASTA_format
[12] http://blast.st-va.ncbi.nlm.nih.gov/Blast.cgi

BLAST Jakob Bartolj

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

BLAST Jakob Bartolj

Uploaded by

Copyright:

Available Formats

BLAST Basic Local Alignment Search Tool

smatramo, da imajo razmerje napake manje od 0,01% in

You might also like