You are on page 1of 31

Sveučilište Josipa Jurja Strossmayera

Nina Čorak

Predviđanje elemenata sekundarne strukture proteinskih


kandidata odabranih za razvoj cjepiva protiv bakterije Borrelia
burgdorferi

Seminarski rad
Strukturna bioinformatika proteina i bioaktivnih molekula

Zagreb, 2021.
Sadržaj

1. Istraživačko pitanje ................................................................................................................ 3


1. 1. Morfotipovi bakterije Borrelia burgdorferi .........................................................................3
1.2. Odabir genskih kandidata za razvoj antigenskog cjepiva ....................................................3

2. Strukturna organizacija proteina ............................................................................................ 6


2.1. Elementi sekundarne strukture proteina.................................................................................6
2.2. Intrizično nesmotani proteini ..................................................................................................7

3. Pomoćni alati i metode za određivanje sekundarne strukture proteina.................................. 8


3.1. PSI-BLAST ...............................................................................................................................8
3.2. Neuronske mreže ......................................................................................................................9
3.3. Metoda potpornih vektora .....................................................................................................11
3.4. Indeks hidrofobnosti ...............................................................................................................11

4. Korišteni alati za predviđanje sekundarne strukture proteina .............................................. 12


4.1. Vrednovanje alata za predviđanje sekundarnih struktura ..................................................12
4.2. PSIPRED 4.0. ..........................................................................................................................14
4.3. JPred4 .......................................................................................................................................14
4.4. MEMSAT-SVM .....................................................................................................................15
4.5 DISOPRED3 ............................................................................................................................16

5. Rezultati ............................................................................................................................... 17
5.1. Sekundarna struktura polipeptidnog lanca i izloženost aminokiselina otapalu ..............17
5.2. Transmembranske regije ........................................................................................................22
5.3. Intrizično nesmotani proteinski slijedovi .............................................................................25

6. Diskusija .............................................................................................................................. 26

7. Literatura .............................................................................................................................. 28

2
1. Istraživačko pitanje

1. 1. Morfotipovi bakterije Borrelia burgdorferi

Borrelia burgdorferi je gram negativna bakterija čiji životni ciklus uključuje krpelja,
koji je u tom slučaju vektor, i sisavca, na kojem bakterija parazitira. Ukoliko je čovjek uključen
u životni ciklus bakterije, ona može uzrokovati Lajamku bolest (Rosenberg i sur. 2018). Od
Lajamske bolesti samo u Sjedinjenim Američkim Državama godišnje oboli 30 000 ljudi (CDC
2021), a simptomi bolesti uključuju artritis, neurološke i srčane smetnje te u nekim slučajevima
smrt. S obzirom na navedeno, pronalazak cjepiva protiv ovog patogena od iznimnog je
medicinskog interesa (Bamm i sur. 2019).
Bakterija B. burgdorferi spada u obitelj spirochetales koju karakterizira spiralna
morfologija. Dok je postojanje ovog morfotipa već dugo poznato znanstvenoj zajednici,
spoznaja da se B. burgdorferi javlja u više različitih pleomorfnih oblika otkrivena je relativno
nedavno (Meriläinen i sur. 2015). Ekspresija gena spiralnog morfotipa dobro je dokumentirana
u raznim okolišnim uvjetima (Anguita i sur. 2000), ali transkripcijske vrijednosti u
alternativnim morfotipovima nikad nisu izmjerene. U sklopu mog doktorskog rada uzgojili smo
i sekvencirali transkriptom 4 morfotipa bakterije B. burgdorferi – spiralni (engl. spiral, SP),
okrugli (engl. round body, RB), mjehurasti (engl. bleb, BL) i biofilm (engl. biofilm, BF)
morfotip. Za svaki gen izračunali smo razinu ekspresije, razliku u ekspresiji između
morfotipova i relativnu evolucijsku starost izraženu u filostratumima. Korištenjem baza
podataka svaki gen smo okarakterizirali kao protein kodirajući ili pseudogen i odredili njegovu
lokaciju na bakterijskom kromosomu ili plazmidima.

1.2. Odabir genskih kandidata za razvoj antigenskog cjepiva

Kako bi odabrali prikladne gene čiji bi proteinski produkti bili sastavni dio budučih
antigenskih cjepiva (Woolums i sur. 2021) odabrali smo one gene kojima se ekspresija ne
mijenja značajno ovisno o tome koje plemorfne forme tvore bakterijske stanice. Naime, da bi
adaptivni imunosni odgovor prepoznao sva 4 morfotipa, važno je da antigen sadržan u cjepivu
bude eksprimiran u svim pleomorfnim varijantama koje bakterija poprima u organizmu. Od
1533 gena, njih 35 zadovoljavaju ovaj preduvjet (Tablica 1). Od 35 odabranih gena dodatno su
izabrani oni geni koji kodiraju proteine i čija je srednja ekspresija veća od medijana srednje

3
ekspresije svih bakterijskih gena. Tako odabrani antigeni će u patogenu biti prisutni u dovoljnoj
količini da budu prepoznati od strane adaptivnog imunološkog sustava. Dodatna selekcija
provedena je isključivanjem gena koji spadaju u starije filostratume (1-5) jer su njihovih
homolozi prisutni u eukariotskim organizmima ili skupinama bakterija koje su bitni humani
simbionti (Alan i sur. 2021). Iako zadovoljavaju sve opisane uvjete, geni ospA i ospB su
isključeni iz popisa potencijalnih kandidata jer su cjepiva na bazi ovih antigena već razvijena
te pružaju relativno slabu zaštitu (Embers i sur. 2013).
Bakterijski geni koji zadovoljavaju prethodno navedene uvjete su geni crpp (engl.
chromosome replication/partitioning protein) i DUFF244 (engl. DUF244 domain-containing
protein). Niti jedan od navedena dva gena nije eksperimentalno istražen niti literaturno opisan.
U ovom seminaru opisat ću kako sam korištenjem alata za predviđanje sekundarne strukture
okarakterizirala proteinske produkte gena crpp i DUFF244. Na osnovu dobivenih rezultata
iznjet ću svoj prijedlog koji bi od spomenuta 2 proteina bio bolji kandidat za razvoj cjepiva.

4
Tablica 1. Geni s konstitutivnom ekspresijom gena za SP, RB, BL i BF morfotip. Oznaka
lokusa, ime, simbol, lokacija i tip produkta dobiveni su iz RefSeq baze podataka (O’Leary i sur.
2016), pristupni broj: ASM868v2; GCF_000008685.2. Filostratum svakog pojedinog gena je
izračunat na osnovi filogenije bakterije B. burgdorferi putem metode koju su opisali Domazet-
Lošo i suradnici (Domazet-Lošo i sur. 2007). Srednja ekspresija izračunata je iz sirovih
ekspresijskih vrijednosti normaliziranih s obzirom na duljinu gena i dubinu sekvenciranja.
Ćelije gena koji nisu kandidati za razvoj cjepiva obojane su crveno, dok su ćelije gena odabranih
za razvoj cjepiva obojane zeleno.

Oznaka Srednja
lokusa Ime Simbol Lokacija Tip produkta Filostratum ekspresija
DUF2225 domain-containing
BB_RS00055 protein chromosome protein_coding 2 21547
protein-glutamate O-
BB_RS00200 methyltransferase chromosome protein_coding 1 5030
tRNA uridine-5-
carboxymethylaminomethyl(34)
BB_RS00865 synthesis enzyme MnmG mnmG chromosome protein_coding 1 62974
tRNA uridine-5-
carboxymethylaminomethyl(34)
BB_RS00870 synthesis GTPase MnmE mnmE chromosome protein_coding 1 43624
BB_RS00950 peptide chain release factor 1 prfA chromosome protein_coding 1 5122
BB_RS01085 ZIP family metal transporter chromosome protein_coding 1 24041
BB_RS01405 flagellar hook protein FlgE flgE chromosome protein_coding 2 73803
BB_RS01535 hypothetical protein chromosome protein_coding 4 2724
BB_RS03520 30S ribosomal protein S16 rpsP chromosome protein_coding 1 3186
rod shape-determining protein
BB_RS03635 MreD mreD chromosome protein_coding 6 426
BB_RS03650 threonine--tRNA ligase chromosome protein_coding 1 43495
RNA polymerase sigma factor
BB_RS03905 RpoS rpoS chromosome protein_coding 1 3280
BB_RS03995 aminoacyl-tRNA hydrolase chromosome protein_coding 1 27114
BB_RS04315 hypothetical protein lp28-3 protein_coding 6 145
helix-turn-helix domain-
BB_RS05105 containing protein lp28-4 pseudogene 0
BB_RS05180 outer surface lipoprotein OspA ospA lp54 protein_coding 7 1035995
BB_RS05185 outer surface lipoprotein OspB ospB lp54 protein_coding 7 1193389
chromosome
BB_RS05205 replication/partitioning protein crpp lp54 protein_coding 6 5304
DUF226 domain-containing
BB_RS05530 protein cp26 protein_coding 6 274
BB_RS05705 hypothetical protein lp28-1 protein_coding 8 290
DUF244 domain-containing DUFF2
BB_RS06015 protein 44 cp32-1 protein_coding 6 4174
DUF276 domain-containing
BB_RS06150 protein cp32-3 protein_coding 5
DUF261 domain-containing
BB_RS06235 protein cp32-3 protein_coding 6 215
BB_RS06455 regulator cp32-4 pseudogene 34
BB_RS06585 DUF735 family protein cp32-6 protein_coding 6 837
BB_RS06740 DUF787 family protein cp32-7 protein_coding 6 1
DUF685 domain-containing
BB_RS06795 protein cp32-7 protein_coding 7
DUF261 domain-containing
BB_RS06865 protein cp32-7 protein_coding 6 103
BB_RS06870 site-specific integrase cp32-7 protein_coding 6 0
BB_RS06875 hypothetical protein cp32-7 protein_coding 7 0
BB_RS07025 hypothetical protein cp32-8 protein_coding 105
plasminogen-binding protein
BB_RS07085 ErpA erpA cp32-8 protein_coding 7
BB_RS07185 hypothetical protein cp32-9 protein_coding 4
BB_RS07550 holin BlyA blyA lp56 protein_coding 2
BB_RS07715 hypothetical protein lp56 pseudogene 225

5
2. Strukturna organizacija proteina

Strukturu proteina moguće je opisati na razini primarne, sekundarne, tercijarne i


kvartarne strukture. Opis kvartarne strukture obuhvaća informacije o nekovalentnom vezanju
više proteina, tercijarna struktura opisuje trodimenzionalni razmještaj atoma u svakom
pojedinom proteinu, sekundarna struktura opisuje trodimenzionalni razmještaj atoma u nekom
manjem segmentu polipeptidnog lanca, a primarna struktura opisuje kovalentnu povezanost
između aminokiselinskih ostataka koji čine polipeptidni lanac. Da bismo mogli predvidjeti
kvarternu strukturu korisno je poznavati tercijarnu, a za predviđanje tercijarne korisno je
poznavati sekundarnu strukturu proteina (Berg i sur. 2002).
Iz primarnog aminokiselinskog slijeda moguće je zahvaljujući velikom broju dostupnih
programa predvidjeti sekundarnu strukturu proteina (Jiang i sur. 2017). Na taj način primarni
aminokiselinski slijed gotovo u potpunosti određuje strukturu proteina. Struktura uvelike
određuje funkciju proteina, te je poznavanje iste važno za karakterizaciju proteina. Na primjer,
ukoliko nam je poznata struktura proteina, moguće je pretpostaviti njegovu funkciju bez da smo
je prethodno eksperimentalno dokazali (Jones i sur. 2014).
Eksperimentalno određivanje strukture proteina metodama kao što su rendgenska
kristalografija i nuklearna magnetska rezonancija, je iscrpan i dugotrajan posao. S druge strane,
razvojem tehnologija sekvenciranja nove generacije broj novih sljedova biopolimera raste
velikom brzinom. Razlika u broju poznatih sekvenci u odnosu na broj poznatih struktura
potaknuo je razvoj metoda koje s velikom preciznosti predviđaju strukturna obilježja proteina
(Jiang i sur. 2017).

2.1. Elementi sekundarne strukture proteina

Tri osnovne vrste sekundarnih struktura koje čine proteine su alfa zavojnice, beta niti i
okreti (engl. turns ili coils). Navedene strukture definirane su na osnovu veznih kuteva između
atoma osnovice polipepdidnog lanca. Vezni kutovi posljedica su fizikalno-kemijskih interakcija
između aminokiselinskih ostataka, te su sastav i redoslijed vezanja aminokiselina važni
čimbenici koji utječu na formiranje elemenata sekundarne strukture proteina. Namotane
zavojnice (engl. coiled coils) građene su od 2 ili 3 alfa zavojnice koje se namataju jedna oko
druge. Alfa zavojnice koji čine namotane zavojnice su amfipatske što je posljedica

6
aminokiselinskog slijeda u kojem je svaka sedma aminokiselina slična po hidrofobnosti ili
hidrofilnosti. Također, na osnovu detekcija amfipatskih regija alfa zavojnica i beta niti moguće
je predvidjeti prisutnost transmembranskih regija u sekvenci (Berg i sur. 2002).

2.2. Intrizično nesmotani proteini

Intrinzično nesmotani proteini (engl. intrinsic disordered proteins) nemaju stabilnu


trodimenzionalnu strukturu jer njihova ploha potencijalne energije ima mnogo energetski
bliskih minimuma te lako prelaze iz jedne konformacije u drugu (Chebaro i sur. 2015). Iako
postoje proteini kojima u potpunosti nedostaje stabilna struktura, većina proteina ima strukturno
dobro definirane i intrinzično nesmotane regije (Dunker i sur. 2001). Postojanje ove skupine
proteina opovrgava prethodno prevladavajuće mišljenje da funkcionalni proteini moraju imati
strukturu kako bi provodili svoju biološku funkciju. Bazirano na osnovu podataka skupljenih
računalnih metodama pokazano je da su intrinzično nesmotani segmenti duži od 30
aminokiselinskih ostataka sadržani u 4,2% prokariotskih i 33% eukariotskih genoma (Ward i
sur. 2004).
Intrinzično nesmotane regije karakterizira mali udio velikih i velik udio polarnih
aminokiselinskih ostataka koji osiguravaju dobro topljivost u vodi. Zbog odbijanja istoimenih
naboja visok postotak električki nabijenih aminokiselinskih ostataka u sastavu intrinzično
nesmotanih proteinskih regija doprinosi strukturno nedefiniranoj prirodi ovih proteina. Dodatno
svojstvo koje često odlikuje intrinzično nesmotane segmente su regije male kompleksnosti i
nizak udio definiranih sekundarnih struktura (Oldfield i sur. 2014).

2.3. Primarni slijed aminokiselinskih ostataka proteina koji su kandidati za razvoj novih
antigenskih cjepiva

Primarni slijed aminokiselinskih ostataka proteina crpp sastoji se od 181 aminokiselina,


dok se primarni slijed proteina DUFF244 sastoji od 441 aminokiseline. Sekvence proteina
povučene su iz RefSeq baze podataka (O’Leary i sur. 2016) pod pristupnim ASM868v2;
GCF_000008685.2. Kategorizacija aminokiselina (slika 1) s obzirom na njihovu polarnost
vizualizirana je putem PSIPred servera (Nugent i sur. 2009).

7
a
chromosome replication/partitioning protein

b
DUF244 domain-containing protein

Slika 1. Aminokiselinski slijed vizualiziran pomoću PSIPred servera (Nugent i sur. 2009).
Narančasta polja označavaju male polarne, zelena hidrofobne, crvena polarne i plava
aromatične aminokiseline i cistein. a) chromosome replication/partitioning protein (crpp) b)
DUF244 domain-containing protein (DUFF244).

3. Pomoćni alati i metode za određivanje sekundarne strukture proteina

3.1. PSI-BLAST

Pokazano je da znatno različiti primarni sljedovi aminokiselinskih ostataka mogu tvoriti


veoma slične trodimenzionalne strukture. Da bi protein očuvao svoju biološku funkciju,
evolucijske su sile usmjerene ka očuvanju strukture, a ne primarnog slijeda proteina. Stoga je
za pronalaženje sljedova koji dijele trodimenzionalnu strukturu od izrazite važnosti pronalazak
udaljenih homologa.
PSI-BLAST (engl. Position-Specific Iterative Basic Local Alignment Search Tool)
algoritam koristi pozicijski-specifičnu bodovnu matricu (engl. position-specific scoring matrix,
PSSM) u svrhu pronalaženja udaljenih homologa sekvence od interesa. PSI-BLAST pretraga

8
počinje BLAST pretragom baze podataka i odabirom onih sekvenci čija je e-vrijednost niža od
odabranog praga. S prikupljenim sekvencama provodi se višestruko poravnanje te se konstruira
PSSM koja sadrži informacije o vjerojatnoj pojavnosti svake od 20 aminokiselina na određenoj
poziciji u sekvenci. Korištenjem konstruirane PSSM pretraga se ponavlja s istom sekvencom
od interesa, na istoj bazi podataka, odabire se novi set sekvenci koje je poravnavaju i konstruira
se nova PSSM. Ovaj postupak se iterativno ponavlja. Važno je naglasiti da se nakon
konstrukcije prve PSSM matrice odabire nova granična e-vrijednost koja zatim ostaje
nepromijenjena u tijeku iterativnog ponavljanja pretrage (Bhagwat i sur. 2007).

3.2. Neuronske mreže

Neuronske mreže su jedan od metoda strojnog učenja koja računalne varijable


pohranjuje u takozvane neurone ili čvorove, te koeficijente pripisane tim varijablama tretira kao
veze među čvorovima. Čvorovi su organizirani u slojeve (slika 4), a svaka neuronska mreža se
sastoji od jednog ulaznog, jednog izlaznog i barem jednog “skrivenog” sloja. Ulazni sloj je
matrica koja sadrži podatke iskazane u obliku brojčanih vrijednosti. U slučaju reprezentacije
aminokiselinskih sljedova, vrijednosti koje se nalaze u matrici su brojčana vrijednosti koje
odgovara jednoj od 20 aminokiselina. Umnoškom takve matrice i matrice u kojoj su zapisane
težinske vrijednosti, tj. koeficijenti veza među čvorovima, popunjavaju se čvorovi u prvom
skrivenom sloju. Važno je primijetiti da su matrice konstruirane tako da svaki neuron u prvom
sloju ima svoj karakterističan skup koeficijenata s kojima se množe vrijednosti iz ulaznog
čvora. Veoma često, te vrijednosti se svode na broj između 0 i 1 putem sigmoidalne funkcije.
Ponavljanjem ovog postupka vrijednosti zapisane u čvorovima prvog skrivenog sloja
služe kao ulazne vrijednosti za popunjavanje drugog skrivenog sloja kojem je pripisan njegov
vlastiti skup težinskih koeficijenata. Ovaj postupak se ponavlja sve dok se ne popuni izlazni
čvor. Broj čvorova u skrivenim slojevima je obično proizvoljan, a broj čvorova u izlaznom
sloju obično odgovara broju mogućih ishoda. Na primjer, u slučaju određivanja sekundarne
strukture proteina, u izlaznom čvoru možemo imati 3 čvora – jedan za alfa zavojnicu, jedan za
beta nit i jedan za okret. Vrijednosti koje su pohranjene u neuronima izlaznog čvora odgovaraju
vjerojatnosti s kojom neuralna mreža predviđa da je aminokiselina u centralnom dijelu
ispitivanog aminokiselinskog slijeda dio alfa zavojnice, beta niti ili okreta.
Treniranje mreže podrazumijeva traženje onih težinskih koeficijenata čijom upotrebom
iz ulaznih podataka s visokom sigurnošću možemo dobiti točan izlazni podatak. U tu svrhu,

9
kao ulazni podaci se koriste sljedovi kojima je poznata sekundarna struktura. Nakon što se u
mrežu unesu ulazni podaci za prvu aminokiselinsku sekvencu, mreža popunjava izlazni sloj s
3 vrijednosti koje se kreću između 0 i 1. Na primjer, te vrijednosti mogu biti 0,2, 0,3 i 0,5 za
izlazne čvorove koji odgovaraju alfa zavojnici, beta niti ili okretu. Ukoliko znamo da centralna
aminokiselina u toj regiji čini alfa zavojnicu, mreža s optimiziranim koeficijentima bi kao
uzlazne vrijednosti trebala generirati vrijednosti 1,0 i 0. Razlike očekivane i dobivene
vrijednosti se zbroje te se na taj način izračuna greška mreže. Iznos greške mreže možemo
upariti s elementima skupa svih težinskih koeficijenata. Svi mogući težinski koeficijenti i
greške mreže tvore višedimenzionalnu plohu čiji je minimum definiran za onaj skup težinskih
koeficijenata koji daju najmanju moguću grešku mreže. Cilj treniranja mreže je raznim
metodama multivarijatne analize odrediti te koeficijente, koji se potom mogu koristiti za
precizno predviđanje izlaznih na osnovu ulaznih vrijednosti (3Blue1Brown).

Slika 4. Shematski prikaz ulaznog sloja (narančasto), skrivenih slojeva (plavo) i izlaznog sloja
(zeleno) neuronske mreže (Lin i sur. 2019).

10
3.3. Metoda potpornih vektora

Metoda potpornih vektora (engl. support vector machines, SVM) je metoda korištena u
strojnom učenju kojom se optimizira klasifikacijska analiza. Svaki podatak iz skup podataka na
kojem trenira SVM opisan je odabranim varijablama i klasificiran u jednu od dvije kategorije.
Na osnovu tih podataka, SVM metoda nastoji optimizirati model za binarnu klasifikaciju
podataka koji nisu korišteni za treniranje algoritma.
Algoritam funkcionira tako da računa hiperravninu (engl. hyperplane) u
višedimenzionalnom prostoru u kojem osi odgovaraju varijablama. Svrha algoritma je da
pronađe onu hiperravninu koja je maksimalno udaljena od uzoraka na grafu koji spadaju u prvu,
i uzoraka koji spadaju u drugu klasu. Pritom je važno naglasiti da se manji udio pogrešno
klasificiranih uzoraka dozvoljava kako ne bi došlo do preuvježbavanja algoritma. Također,
prilikom odabira podataka za testiranje i podataka za provjeru algoritma koristi se metoda
križne validacije (engl. cross-validation) kako bi se pronašla optimalna hiperravnina koje služi
kao klasifikator. U slučajevima kada klasifikacija uzorka u jednu od kategorija ne ovisi linearno
o ispitivanoj varijabli, provodi se nelinearna klasifikacija gdje se uvode nove dimenzije u
višedimenzionalni prostor unutar kojeg se nalazi hiperravnina. Nove dimenzije odgovaraju
polinomima ispitivanih varijabli, a stupanj polinoma optimizira se putem križne validacije
(StatQuest with Josh Starmer).

3.4. Indeks hidrofobnosti

Indeks hidrofobnosti je veličina koja definira relativnu hidrofobnost ili hidrofilnost


nekog aminokiselinskog ostatka u polipeptidnom lancu. Što je indeks hidrofobnosti veči,
aminokiselinski ostatak je hidrofobniji, a što je indeks manji (negativniji) aminokiselinski
ostatak je hidrofilniji. Ove veličine korištene su u prvim metodama za predviđanje
transmembransih alfa zavojnica membranskih protena (Kyte i sur. 1982).
Ovisno o metodi kojom se mjerila hidrofobnost aminokiselinskih ostataka, razvijene su
različite skale indeksa hidrofobnosti. S obzirom na metodologiju, Biswas i suradnici podijelili
su skale indeksa hidrofobnosti na one dobivene mjerenjem omjera otoljene aminokiseline u
polarnom i nepolarnom otapalu, skale dobivene mjerenjem učestalosti kontakta aminokiseline
i otapala u proteinu, skale izračunate kromatograskom metodom, skale dobivene ciljanom

11
mutacijom aminokiselina i skale izračunate na osnovu fizikalnih svojstava kao što su napetost
površine, energija otapanja itd (Biswas i sur. 2003).

4. Korišteni alati za predviđanje sekundarne strukture proteina

4.1. Vrednovanje alata za predviđanje sekundarnih struktura

Najčešća mjera točnosti metode za predviđanje sekundarne strukture je Q3 vrijednost,


tj. udio aminokiselina kojima je točno predviđena pripadnost nekom elementu sekundarne
strukture (17). U svrhu definiranja aminokiseline kao sastavnog dijela neke sekundarne
strukture koristi se DSSP algoritam koji na osnovi kristalne strukture svakoj aminokiselini
pripisuje odgovarajuću kategorizaciju (18). Usporedbom rezultata dobivenih DSSP analizom i
rezultata dobivenih algoritmima za predviđanje sekundarnih struktura se izračuna Q3
vrijednost.
Testiranje točnosti i preciznost metoda za predviđanje sekundarne strukture provodi
Centar za predviđanje proteinskih struktura (engl. Protein Structure Prediction Center) u
Lawrence Livermore nacionalnom laboratoriju, u Sjedinjenim Američkim Državama.
Vrednovanje se provodi jednom u dvije godine na način da se metode testiraju na proteinskim
sekvencama kojima je kristalna struktura poznata, ali nije publicirana te stoga nije bila dostupna
programerima i znanstvenicima koji su razvili metodu. Ova vrednovanja znana su pod
skraćenicom CASP (engl. Critical Assessment of Techniques for Protein Structure Prediction)
i važna su prilikom odabira metode određivanja sekundarne strukture.
Metode koje sam koristila u ovom seminarskom radu prikazala sam u tablici 2.
PSIPRED 4.0. (Jones i sur. 1999) i Jpred4 (Drozdetskiy i sur. 2015) služe za predviđanje koji
segmenti slijeda tvore alfa helikse, MEMSAT-SVM (Nugent i sur. 2009) se koristi za detekciju
potencijalnih membranskih segmenata u proteinima, dok se DISOPRED3 (Jones i sur. 2015)
upotrebljava za predviđanje stupnja neuređenosti strukture u nekom proteinskom segmentu.
Citiranost metoda po godinama (slika 3) dobiveni su putem pretraživača Dimensions (Digital
Science, 2018).

12
Tablica 2. Popis metoda koristenih za predviđanje sekundarnih struktura proteina, godina
njohova publiciranja i citiranost dobivena je upotrebom pretraživača Dimensions (Digital
Science, 2018).

metoda godina broj citata broj citata u zadnje 3 godine


PSIPRED 4.0. 1999 1955 544
JPred4 2015 613 572
MEMSAT-SVM 2009 158 68
DISOPRED3 2015 276 257

a b
PSIPRED 4.0. Jpred4

c d
MEMSAT-SVM DISOPRED3

Slika 3. Prikaz citiranosti metoda: a) PSIPRED 4.0. (Jones i sur. 1999), b) Jpred4 (Drozdetskiy
i sur. 2015), c) MEMSAT-SVM (Nugent i sur. 2009), d) DISOPRED3 (Jones i sur. 2015)
algoritma u zadnjih 10 godina. Podaci su skupljenu upotrebom programa Dimensions (Digital
Science, 2018).

13
4.2. PSIPRED 4.0.

Predviđanje sekundarne strukture putem PSI-BLAST algoritma (engl. PSI-blast based


secondary structure PREDiction, PSIPRED) koristi neuronske mreže kako bi iz primarnih
aminokiselinskih slijedova, segmente peptida opisali jednom od sekundarnih struktura – alfa
zavojnicom, beta niti ili okretom. PSIPRED 4.0. algoritam (Jones i sur. 1999) dostupan je putem
PSIPRED servera (Buchan i sur. 2019) kojeg su razvili University Collage of London.
Proteinske sekvence prikupljene upotrebom PSI-BLAST algoritma koriste se kao ulazni
podatci za neuralnu mrežu koja kao izlazni podatak daje informaciju o vjerojatnosti da je
aminokiselina na određenoj poziciji u sekvenci sastavni dio alfa zavojnice, beta niti ili okreta.
Za svaku aminokiselinu u slijedu prva neuralna mreža učitava 15 aminokiselina – ispitivanu
aminokiselinu, 7 aminokiselina koje joj prethode i 7 aminokiselina koje je slijede u sekvenci.
Dodatno se učitava informacija uključuje li spomenuti aminokiselinski prozor C i N kraj. U
konačnici, neuronska mreža učitava 15 × 21 matricu, što su vrijednosti koje odgovaraju veličini
aminokiselinskog prozora i zbroju ukupnog broja aminokiselina i jednog dodatnog podatna o
uključenosti krajeva peptida u aminokiselinski prozor. Mreža ima samo jedan skriveni sloj sa
75 čvorova i 3 izlazna čvora.
Druga neuralna mreža kao ulazne vrijednosti koristi izlazne vrijednosti prve neuronske
mreže i to u obliku 15 × 4 matrice, što odgovara veličini aminokiselinskog prozora i zbroju
broja izlaznih čvorova prve neuronske mreže i jednog čvoru koji sadrži dodatnu informaciju o
uključenosti peptidnih krajeva u aminokiselinski prozor. Jedan skriveni sloj ima 60 čvorova, a
izlazni sloj ima 3 čvora koji odgovaraju broju mogućih sekundarnih struktura koje program
može predvidjeti.

4.3. JPred4

Jpred 4 je web server (Drozdetskiy i sur. 2015) koji računa vjerojatnost da se


aminokiselina u polipeptidnom lancu nalazi u konformaciji alfa zavojnice, beta niti ili okreta.
U tu svrhu koristi Jnet algoritam (Cuff i sur. 1999), koji slično kao i PSIPRED algoritam, za tu
svrhu koristi neuronske mreže. Dodatno, Jpred 4 pomoću Jnet algoritma računa izloženost
aminokiselina otapalu i korištenjem MultiCoil algoritma (Wolf i sur. 1997) računa vjerojatnost
da aminokiselina na nekom položaju u sekvenci sudjeluje u formiranju namotanih zavojnica.

14
Ukoliko korisnik servera raspolaže s višestruko poravnatim sekvencama njihovo
poravnanje se učitava u algoritam koji iz poravnanja uklanja praznine te se takav blok sekvenci
izravno učitava u ulazni čvor neuralne mreže kodirane algoritmom. Ukoliko korisnik ima samo
jednu sekvencu kojoj želi odrediti sekundarnu strukturu, prije učitavanja u neuralnu mrežu
algoritam provodi PSI-BLAST pretraga baze s 3 koraka iteracije. Spomenuta neuronska mreža
trenirana je na Astral SCOPe i UniRef90 bazama podataka.
MultiCoil algoritam koristi metodologiju baziranu na algoritmu za predviđanje
sekundarne strukture koju su opisali Lupas i suradnici (Lupas i sur. 1991). S obzirom na to da
svaka sedma aminokiselina namotanih zavojnica ima slična fizikalno kemijska svojstva,
frekvencija pojavnosti svake od aminokiselina na jednoj od 7 pozicija je izračunate su iz baze
proteina za koje je poznato da tvore namotane zavojnice. Te aminokiseline se koriste za
izračunavanje vjerojatnosti da se aminokiselina u nekom peptidnom slijedu nalazi u namotanoj
zavojnici. Važno je primijetiti da je aminokiselinski prozor koji je Lupus koristio sadržavao 28
aminokiselina, što je veličina odabrana s obzirom na činjenicu da namotane zavojnice moraju
sadržavati barem 4 uzastopna alfa heliksa kako bi ostale strukturno stabilne. MultiCoil
algoritam korišten na JPred4 serveru upotrebljava i kraće aminokiselinske prozore, no rezultati
dobiveni korištenjem prozora od 28 aminokiselina se smatraju najpouzdanijim za predviđanje
postojanja namotanih zavojnica.

4.4. MEMSAT-SVM

MEMSAT-SVM (Nugent i sur. 2009) je algoritam koji iz baza polipeptidnih sekvenci i


pripadajućih trodimenzionalnih struktura računa vjerojatnost da neka aminokiselina u sekvenci
sudjeluje u formiranju transmembranske alfa zavojnice, nalazi li se u citoplazmi ili
izvanstaničnom prostoru, tvori li alfa heliks koji ulazi i izlazi s istog kraja membrane i sadrži li
signalni slijed.
Sa svakim od proteina koji se nalazi u bazi provodi se PSI-BLAST pretraga na osnovu
koje se formiraju blokovi sekvenci. Iz tih blokova za svaku poziciju u aminokiselinskom
prozoru možemo očitati učestalost pojavnosti svake od 20 aminokiselina. Na taj način
učestalost pojavnosti svake od aminokiselina na nekoj poziciji predstavlja jednu varijablu u
višedimenzijskom prostoru unutar kojeg se putem metode pomoćnih vektora traži hiperravnina
koja odjeljuje sljedove s obzirom na njihovu kategoričku pripadnost. Jednom kad na osnovu

15
testne baze podataka opišemo optimalne parametre hiperravnine moguće je nove uzorke
kategorizirati u jednu od dvije ispitivane skupine.
Dodatno, MEMSAT-SVM izračunava i relativnu hidrofobnost aminokiselinskog
ostatka u sekvenci na osnovu Kyte i Doolittle skale indeksa hidrofobnosti (Kyte i sur. 1982).
Ova skala uključuje podatke izračunate pomoću particijskog koeficijenta između vodene
otopine aminokiseline i vakuuma i 5%tne izloženosti aminokiselina otapalu. Ova skala korisna
je za detekciju regija polipeptidnog lanca koje su u trodimenzionalnoj strukturi vjerojatno
izložene otapalu kao i za predviđanje potencijalnih transmembranskih regija. U slučaju da
metodu koristimo za predviđanje regija izloženih otapalu autori predlažu da se aminokiselinski
prozor unutar kojeg se zbrajaju indeksi ograniči na 5 do 7 aminokiselina. dok je u slučaju kada
je primarni interes detekcija transmembranskih regija, bolje odabrati aminokiselinski prozor
koji sadrži 19 do 21 aminokiselinu. U zadnjem slučaju, ukoliko ukupni zbroj indeksa za neku
aminokiselinu prelazi 1,6 možemo pretpostaviti da je ta aminokiselina dio transmembranskog
segmenta.

4.5 DISOPRED3

DISOPRED3 (Jones i sur. 2015) je program za predviđanje intrinzične nesmotanosti


peptidnih sekvenca koji je dostupan na PSIPRED serveru (Buchan i sur. 2019) te je izuzetno
visoko rangiran na CASP9 i CASP10 vrednovanjima (Moult i sur. 2013). Algoritam koristi
bazu od 750 neredundanih proteina čija je struktura u visokoj rezoluciji određena rendgenskom
kristalografijom. Regije proteina koje nisu prisutne na mapi elektronske gustoće smatraju se
intrinzično nesmotanima. Ovaj način anotiranja segmenta ima nedostataka jer nedostatak
detekcije segmenta u mapi može biti artefakt metode kristalizacije, ili prisutnost segmenta može
biti posljedica formiranja veze između segmenta i liganda u kompleksu. U nedostatku boljih
metoda eksperimentalne detekcije velikog broja intrinzično nesmotanih regija proteina,
strukture proteina pohranjene u Disprot v.5.0. PDB i PISCES bazama podataka korištene su za
uvježbavanje algoritma.
Nakon prikupljanja proteinskih sekvenci i struktura, program provodi PSI-BLAST
pretragu UniRef90 baze podataka kako bi pronašao udaljene homologe i generirao blokove
višestruko poravnatih sekvenci za svaki protein. Generirane blokove program koristi kao ulaznu
informaciju za 3 različita algoritma: algoritam koji koristi neuralnu mrežu, algoritam koji koristi

16
metodu pomoćnih vektora i algoritam koji koristi k-najbliži susjed (engl. k-nearest neighbour)
algoritam.
Algoritam koji koristi neuronske mrežu s 2 izlazna čvora (jedan za nesmotane i jedan
za smotane proteine) i metoda pomoćnih vektora funkcioniraju slično kao sličan način kao
neuronska mreža korištena u PSIPRED i metoda pomoćnih vektora korištena u MEMSAT-
SVM algoritmima. Dok prethodno navedeni algoritmi spadaju u metode strojnog učenja, k-
najbliži susjed algoritam ne koristi učenje za optimizaciju parametara. Algoritam učitava
aminokiselinske blokove od 15 aminokiselina generirane PSI-BLAST algoritmom, te svaki
protein pozicionira na višedimenzionalnom grafu. Svaki protein u setu za treniranje klasificiran
je kao nesmotani ili smotani. Nakon učitanja novog proteina u višedimenzionalni graf
klasifikacija proteina se provodi na osnovu činjenice uključuju li najbliži susjedi proteina na
grafu više smotanih ili nesmotanih proteina. Prednost ovog algoritma je što ne prolazi fazu
učenja te je olakšano usavršavanje DISOPRED3 programa nadopunjenim bazama podataka.
Izlazni podaci neuralne mreže, algoritma koji koristi metodu pomoćnih vektora,
algoritma koji koristi k-najbliži susjed metodu i informacija o tome obuhvaća li prozor od 15
aminokiselina C i N krajeve polipeptida, unose se u 15×4 matricu koju učitava druga neuronska
mreža. Ta neuronska mreža ima 1 skriveni sloj s 15 čvorova i izlazni sloj koji se sastoji od 2
čvora. Vrijednosti koje se nalaze u čvorovima izlaznog sloja odgovaraju vjerojatnosti da se
navedena aminokiselina nalazi u intrinzično nesmotanom segmentu. Opisane vrijednosti
DISOPRED3 algoritam vizualizira na grafu ovisnosti sigurnosti predikcije i rednog broja
aminokiseline u slijedu.

5. Rezultati

5.1. Sekundarna struktura polipeptidnog lanca i izloženost aminokiselina otapalu

Profili proteina crpp (slika 5) i DUFF244 (slika 6) izračunati PRIPRED 4.0. programom
ukazuju na to da oba proteina imaju tendenciju stvaranja alfa zavojnica. S visokom preciznosti
možemo reći da protein crpp sadrži barem jednu alfa zavojnicu dužu od 30 aminokiselinskih
ostataka. U rezultatima možemo primijetiti postojanje još 8 predviđenih kračih alfa zavojnica,
ali treba primijetiti da je pouzdanost predviđanja niska za jednu od 8 zavojnica. Segmenti koje

17
je program opisao kao formiraju beta niti dugački su samo 2, odnosno 4 aminokiselinska ostatka
i popračeni niskom pouzdanošću te možemo reći da crpp protein ne tvori beta niti.
Protein DUFF s visokom pouzdanošću formira 3 alfa zavojnice duže od 20
aminokiselinskih ostataka. Za razliku od crpp, ima znatno veći udio predviđenih beta niti koje
su u pravilu kraće od 5 aminokiselinskih ostataka ili su predviđene s niskom razinom
pouzdanosti. Unatoč tome, regija od 185. do 191. aminokiselinskog ostatka formira beta nit s
visokom pouzdanošću. Također, regija od 235. do 252. aminokiselinskog ostatka je zanimljiva
jer s visokom pouzdanošću pronalazi beta nit od 7 ostataka, na koju se nastavlja okret od 4
ostatka, na što se opet nastavlja nit od 7 aminokiselinskih ostataka, što je tipičan motiv koji u
proteinima uzrokuje promjenu smjera pružanja peptidnog lanca.

Slika 5. Prošireni vizualni prikaz rezultata PSIPRED analize proteinske sekvence proteina crpp.

18
Slika 6. Prošireni vizualni prikaz rezultata PSIPRED 4.0. analize proteinske sekvence proteina
DUFF244.

19
Slično profilu dobivenom PSIPRED 4.0. programom, Jpred4 profil proteina crpp (slika
7) prikazuje 8 alfa zavojnica s visokom pouzdanošću. Jedna od njih sadrži više od 30
aminokiselinskih ostataka i nalazi se u dijelu sekvence gdje je locirana putem PSIPRED 4.0.
programa. Također, Jpred4 programom je s niskom pouzdanošću predviđeno postojanje 3 kraće
beta niti i namotane zavojnice od 7. do 34. aminokiselinskog ostatka.
Na profilu DUFF244 proteina (slika 8) nalaze se 3 alfa zavojnice duže od 20
aminokiselinskih ostataka, ali samo jedna od njih ima visoku pouzdanost predikcije cijelom
svojom duljinom. Zanimljivo je primijetiti regiju od 360. do 400. aminokiselinskog ostatka u
gdje prevladavaju alfa zavojnice. S obzirom na to da su za formiranje namotanih zavojnica
nužni duži segmenti ulančanih alfa zavojnica, programom je detektirano postojanje namotanih
zavojnica u regiji od 351. do 364. aminokiselinskog ostatka. Poput PSIPRED 4.0., Jpred4 na
području od 185. do 191. aminokiselinskog ostatka, te na području između 235. i 252.
aminokiselinskog ostatka s visokom pouzdanošču predviđa postojanje beta niti. Dodatno, s
relativno visokom pouzdanošču detektirana je beta nit u području između 155. i 169.
aminokiselinskog ostatka.

Slika 7. Prošireni vizualni prikaz rezultata JPred4 analize proteinske sekvence proteina crpp.
Crvene plohe označavaju regije za koje se predviđa da tvore alfa helikse, a zelene strelice
označavaju regije za koje se predviđa da tvore beta niti. Tanke crne linije označavaju regije
sekvence za koje se predviđa da tvore okrete. Prvi red u prikazu prikazuje primarni
aminokiselinski slijed. Redovi naslovljeni s Lupas sadrže podatke o tome tvori li
aminokiselinski segment namotane zavojnice (engl. coiled coil). Ukoliko je metoda predvidjela
da se aminokiselina nalazi u opisanoj konformaciji označena je sa slovom C. Brojevi koji se
nalaze u naslovima redova naslovljenih s Lupus označavaju veličinu korištenoj
aminokiselinskog prozora. Red naslovljen s jnetpred sadrži vizualni prikaz izlaznih podataka
Jnet algoritma. Red naslovljen s JNETCONF sadrži podatak o pouzdanosti podataka
vizualiziranih u jnetpred redu. Redovi naslonjeni s JNETSOL prikazuju pretpostavku o
izloženosti aminokiseline otapalu. Brojevi koji se nalaze u nazivu redova naslovljenih s
JNETSOL označavaju graničnu vrijednost postotka pristupačnosti otapala. One aminokiseline
koje ne dolaze u kontakt s otapalom označene su sa B (engl. buried).

20
Slika 8. Prošireni vizualni prikaz rezultata JPred4 analize proteinske sekvence proteina
DUFF244. Crvene plohe označavaju regije za koje se predviđa da tvore alfa helikse, a zelene
strelice označavaju regije za koje se predviđa da tvore beta niti. Tanke crne linije označavaju
regije sekvence za koje se predviđa da tvore okrete. Prvi red u prikazu prikazuje primarni
aminokiselinski slijed. Redovi naslovljeni s Lupas sadrže podatke o tome tvori li
aminokiselinski segment namotane zavojnice (engl. coiled coil). Ukoliko je metoda predvidjela
da se aminokiselina nalazi u opisanoj konformaciji označena je sa slovom C. Brojevi koji se
nalaze u naslovima redova naslovljenih s Lupus označavaju veličinu korištenoj
aminokiselinskog prozora. Red naslovljen s jnetpred sadrži vizualni prikaz izlaznih podataka
Jnet algoritma. Red naslovljen s JNETCONF sadrži podatak o pouzdanosti podataka
vizualiziranih u jnetpred redu. Redovi naslonjeni s JNETSOL prikazuju pretpostavku o
izloženosti aminokiseline otapalu. Brojevi koji se nalaze u nazivu redova naslovljenih s
JNETSOL označavaju graničnu vrijednost postotka pristupačnosti otapala. One aminokiseline
koje ne dolaze u kontakt s otapalom označene su sa B (engl. buried).

21
5.2. Transmembranske regije

Upotrebom MEMSAT-SVM algoritma izračunata je vjerojatnost da pojedine regije u


proteinima crpp (slika 9) i DUFF244 (slika 10) posjeduju određene topološke značajke,
signalne sljedove te kako su smješteni u membranskim dvoslojima. Kao što možemo vidjeti,
vjerojatnost da crpp protein tvori transmembransku alfa zavojnicu ili da ta zavojnica ulazi i
izlazi s iste strane membrane, nije osobito visoka niti u jednom dijelu sekvence. Iako u regiji
od 75. do 90. aminokiselinskog ostatka PSIPRED 4.0. i Jpred4 pronalaze dvije uzastopne alfa
zavojnice odijeljene okretom, ne možemo pouzdano predvidjeti postojanje membranskih
zavojnica u crpp proteinu. Posljedično tome, sve dodatne podatke o topologiji pojedinih
segmenata možemo smatrati beznačajnima (slika 11.a). Ovome u prilog ide činjenica da na
proteinu nije pronađena signalna sekvenca.
Dok je vjerojatnost postojanja membranskih zavojnica u crpp proteinu mala, postojanje
transmembranske alfa zavojnice u DUFF244 proteinu u regiji između 220. i 242.
aminokiselinskog ostatka je puno vjerojatnije. U opisanoj regiji možemo primijetiti i visoku
relativnu hidrofobnost izračunatu putem Kyte i Doolittle skale kao i značajniju razliku u
predviđenoj distribuciji aminokiselinskih ostataka s obzirom na njihov smještaj u citoplazmi,
odnosno izvanstaničnom prostoru (slika 11.b).

22
slika 9. Prošireni vizualni prikaz rezultata MEMSAT-SVM analize proteinske sekvence
proteina crpp. Red naslovljen MEMSAT-SVM vizualno prezentira najvjerojatnije strukturne
značajke pojedinih regija polipeptida. Narančasti blok označava ekstracelularni segment
peptida, bijeli blok označava citoplazmatski segment proteina, sivi blok predviđeni
transmembranski heliks i plavi segment označava segment koji ima mogućnost tvoriti
membransku poru. Red naslovljen Kyte-Doolittle prikazuje relativnu hidrofobnost segmenata
izračunatu pomoću Kyte i Doolittle skale indeksa hidrofobnosti. Redovi naslovljeni redom
SVM H/L Raw, SVM iL/oL Raw, SVM RE/!RE Raw, SVM SP/!SP Raw i SVM PL/!PL Raw
prikazuju vjerojatnost da aminokiselina na odgovarajućem položaju tvori alfa heliks,
citoplazmatsku domenu, heliks koji ulazi i izlazi na istoj strani membrane, signalni slijed ili
element membranske pore.

23
slika 10. Prošireni vizualni prikaz rezultata MEMSAT-SVM analize proteinske sekvence
proteina DUFF244. Red naslovljen MEMSAT-SVM vizualno prezentira najvjerojatnije
strukturne značajke pojedinih regija polipeptida. Narančasti blok označava ekstracelularni
segment peptida, bijeli blok označava citoplazmatski segment proteina, sivi blok predviđeni
transmembranski heliks i plavi segment označava segment koji ima mogućnost tvoriti
membransku poru. Red naslovljen Kyte-Doolittle prikazuje relativnu hidrofobnost segmenata
izračunatu pomoću Kyte i Doolittle skale indeksa hidrofobnosti. Redovi naslovljeni redom
SVM H/L Raw, SVM iL/oL Raw, SVM RE/!RE Raw, SVM SP/!SP Raw i SVM PL/!PL Raw
prikazuju vjerojatnost da aminokiselina na odgovarajućem položaju tvori alfa heliks,
citoplazmatsku domenu, heliks koji ulazi i izlazi na istoj strani membrane, signalni slijed ili
element membranske pore.

24
a b

Slika 11. Shematski prokaz topologije proteina u membrani predviđen pomoću MEMSAT-
SVM algoritma za a. protein crpp b. protein DUFF244.

5.3. Intrizično nesmotani proteinski slijedovi

Analizom sekvenci proteina crpp (slika 12) i DUFF244 (slika 13) DISOPRED3
programom pokazano je kako intrinzično nesmotane segmente proteina koje možemo definirati
s visokom statističkom značajnošću nalazimo samo u blizini N i C krajeva polipeptida. S
obzirom na to da je intrinzična nesmotanost često prisutna baš na krajevima polipeptidnog lanca
ovi rezultati su očekivani. Posljedično, možemo ustvrditi opisani proteini imaju stabilnu
trodimenzionalnu strukturu.

25
Slika 12. Grafički prikaz pouzdanosti da aminokiselinski ostatak čini intrinzično nesmotanu
regiju proteina i rednog broja aminokiselinskog ostatka izračunat DISOPRED3 programom za
crpp protein.

Slika 13. Grafički prikaz pouzdanosti da aminokiselinski ostatak čini intrinzično nesmotanu
regiju proteina i rednog broja aminokiselinskog ostatka izračunat DISOPRED3 programom za
DUFF244 protein.

6. Diskusija

U kontekstu aktualne pandemije bolesti COVID-19 uzrokovane virusom SARS-CoV-


2, potreba za brzim pronalaskom učinkovitih i sigurnih antiviralnih cjepiva veća je nego ikad.
Međutim, ne smijemo zaboraviti da je broj vektorski prenošenih bakterijskih zaraza također u
porastu. Iako je jedno od potencijalnih cjepiva protiv B. burgdorferi u 2. fazi kliničkih
istraživanja, treba imati u vidu postojanje alternativnih morfotipova i njihovih distinktnih

26
ekspresijskih profila nije uzeto u obzir, te da je testirana učinkovitost cjepiva u sprečavanju
akutne, a ne i kronične Lajmske bolesti (Comstedt i sur. 2017).
Odabir odgovarajućih antigena protiv kojih imunološki sustav razvija adekvatnu obranu
jedan je od najvažnijih koraka u razvoju antibakterijskih cjepiva. U ovom seminaru, taj odabir
je proveden na temelju podataka dobivenih sekvenciranjem transkriptoma različitih
morfotipova bakterije B. burgdorferi. Odabrani geni – crpp (engl. chromosome
replication/partitioning protein) i DUFF244 (engl. DUF244 domain-containing protein) su
podjednako eksprimirani u svih morfotipovima, prisutni u znatnoj količini te nisu homolozi
humanih gena ni gena bakterijskih simbionata nužnih u održavanju homeostaze čovjeka.
Oba gena nemaju značajan udio intrinzično nesmotanih regija, što ih čini dobrim
kandidatima za buduća cjepiva jer je pokazano da intrinzično nesmotane regije budu značajno
rjeđe prezentirane na MHC receptorima nego segmenti strukturiranih peptida (Guy i sur. 2015).
Protein DUFF244 ima predviđenu membransku alfa zavojnicu što ga čini boljim kandidatom
nego crpp jer stanice imunološkog sustava efikasnije prepoznaju membranski izložene
antigene. N kraj DUFF244 peptida je smješten u ekstracelularnom prostoru, skupa sa 227
aminokiselinskih ostataka. Oko 20% aminokiselinskih ostataka ukupnog ekstracelularne regije
DUFF224 proteina s visokom vjerojatnošću formira alfa zavojnicu, dok u tipičnom proteinu
30% aminokiselinskih ostataka tvori alfa zavojnice. Ovo je također dobro svojstvo antigena u
cjepivima jer je pokazano da proteini s visokim udjelom alfa zavojnica budu problematični za
imunološko prepoznavanje (Yan i sur. 2020).
In silico analiza proteina sa svrhom razvoja cjepiva koja se standardno provodi u
ovakvim istraživanjima (slika 12) puno je složeniji proces nego analiza provedena u ovom
seminaru. Nastavak istraživanja cjepiva u takvim slučajevima uključuje pronalaženje epitopa,
predviđanje njihove trodimenzionalne strukture, te molekularno uklapanje (engl. molecular
docking) s MHC receptorima. Međutim, na osnovu podataka prezentiranih u ovom seminaru,
možemo pretpostaviti da bi DUFF244 protein bio bolji antigen u antibakterijskom cjepivu nego
crpp protein.

27
Slika 12. Metodološki pristup odabira i karakterizacije antigena za razvoj cjepiva (Yan i sur.
2020).

7. Literatura

1. 3Blue1Brown. (2021, October 9). But what is a neural network? | Chapter 1, Deep
learning [Video file]. YouTube. https://www.youtube.com/watch?v=aircAruvnKk
2. Alan G Barbour, Radhey S Gupta, The Family Borreliaceae (Spirochaetales), a Diverse
Group in Two Genera of Tick-Borne Spirochetes of Mammals, Birds, and Reptiles,
Journal of Medical Entomology, Volume 58, Issue 4, July 2021, Pages 1513–1524,
https://doi.org/10.1093/jme/tjab055
3. Anguita J, Samanta S, Revilla B, Suk K, Das S, Barthold SW, Fikrig E. Borrelia
burgdorferi gene expression in vivo and spirochete pathogenicity. Infect Immun. 2000
Mar;68(3):1222-30. doi: 10.1128/IAI.68.3.1222-1230.2000. PMID: 10678930;
PMCID: PMC97271.
4. Bamm VV, Ko JT, Mainprize IL, Sanderson VP, Wills MKB. Lyme Disease Frontiers:
Reconciling Borrelia Biology and Clinical Conundrums. Pathogens. 2019 Dec

28
16;8(4):299. doi: 10.3390/pathogens8040299. PMID: 31888245; PMCID:
PMC6963551.
5. Berg, Jeremy M., John L. Tymoczko, Lubert Stryer, and Lubert Stryer. Biochemistry.
New York: W.H. Freeman, 2002
6. Bhagwat M, Aravind L. PSI-BLAST Tutorial. In: Bergman NH, editor. Comparative
Genomics: Volumes 1 and 2. Totowa (NJ): Humana Press; 2007. Chapter 10. Available
from: https://www.ncbi.nlm.nih.gov/books/NBK2590/
7. Biswas, Kallol M.; DeVido, Daniel R.; Dorsey, John G. (2003). "Evaluation of methods
for measuring amino acid hydrophobicities and interactions". Journal of
Chromatography A. Elsevier BV. 1000 (1–2): 637–655. doi:10.1016/s0021-
9673(03)00182-1. ISSN 0021-9673. PMID 12877193.
8. Buchan DWA, Jones DT (2019). The PSIPRED Protein Analysis Workbench: 20 years
on. Nucleic Acids Research. https://doi.org/10.1093/nar/gkz297
9. Centers for Disease Control and Prevention, National Center for Emerging and Zoonotic
Infectious Diseases (NCEZID), Division of Vector-Borne Diseases (DVBD).
https://www.cdc.gov/lyme/datasurveillance/index.html. Accessed October 11, 2021.
10. Chebaro Y, Ballard AJ, Chakraborty D, Wales DJ. Intrinsically disordered energy
landscapes. Sci Rep. 2015 May 22;5:10386. doi: 10.1038/srep10386. PMID: 25999294;
PMCID: PMC4441119.
11. Comstedt P, Schüler W, Meinke A, Lundberg U. The novel Lyme borreliosis vaccine
VLA15 shows broad protection against Borrelia species expressing six different OspA
serotypes. PLoS One. 2017 Sep 1;12(9):e0184357. doi: 10.1371/journal.pone.0184357.
PMID: 28863166; PMCID: PMC5581183.
12. Cuff J. A and Barton G.J (1999) Application of enhanced multiple sequence alignment
profiles to improve protein secondary structure prediction, Proteins 40:502-511
13. Digital Science. (2018-) Dimensions [Software] available
from https://app.dimensions.ai. Accessed on (DATE), under licence agreement.
14. Domazet-Loso T, Brajković J, Tautz D. A phylostratigraphy approach to uncover the
genomic history of major adaptations in metazoan lineages. Trends Genet. 2007
Nov;23(11):533-9. doi: 10.1016/j.tig.2007.08.014. PMID: 18029048.
15. Drozdetskiy A, Cole C, Procter J, Barton GJ. JPred4: a protein secondary structure
prediction server. Nucleic Acids Res. 2015 Jul 1;43(W1):W389-94. doi:
10.1093/nar/gkv332. Epub 2015 Apr 16. PMID: 25883141; PMCID: PMC4489285.
16. Dunker AK, Lawson JD, Brown CJ, Williams RM, Romero P, Oh JS, Oldfield CJ,
Campen AM, Ratliff CM, Hipps KW, Ausio J, Nissen MS, Reeves R, Kang C, Kissinger
CR, Bailey RW, Griswold MD, Chiu W, Garner EC, Obradovic Z (2001). "Intrinsically
disordered protein". Journal of Molecular Graphics & Modelling. 19 (1): 26–59.
CiteSeerX 10.1.1.113.556. doi:10.1016/s1093-3263(00)00138-8. PMID 11381529
17. Embers ME, Narasimhan S. Vaccination against Lyme disease: past, present, and future.
Front Cell Infect Microbiol. 2013 Feb 12;3:6. doi: 10.3389/fcimb.2013.00006. PMID:
23407755; PMCID: PMC3569838.
18. Guy AJ, Irani V, MacRaild CA, Anders RF, Norton RS, Beeson JG, Richards JS,
Ramsland PA. Insights into the Immunological Properties of Intrinsically Disordered
Malaria Proteins Using Proteome Scale Predictions. PLoS One. 2015 Oct

29
29;10(10):e0141729. doi: 10.1371/journal.pone.0141729. PMID: 26513658; PMCID:
PMC4626106.
19. Jiang Q, Jin X, Lee SJ, Yao S. Protein secondary structure prediction: A survey of the
state of the art. J Mol Graph Model. 2017 Sep;76:379-402. doi:
10.1016/j.jmgm.2017.07.015. Epub 2017 Jul 19. PMID: 28763690.
20. Jones DT, Cozzetto D. (2015). DISOPRED3: precise disordered region predictions with
annotated protein-binding activity. Bioinformatics. 2015 Mar 15;31(6):857-63. doi:
10.1093/bioinformatics/btu744. Epub 2014 Nov 12.
21. Jones DT. (1999) Protein secondary structure prediction based on position-specific
scoring matrices. J. Mol. Biol. 292: 195-202.
22. Kyte J, Doolittle RF. A simple method for displaying the hydropathic character of a
protein. J Mol Biol. 1982 May 5;157(1):105-32. doi: 10.1016/0022-2836(82)90515-0.
PMID: 7108955.
23. Lin C, Chang Q, Li X. A Deep Learning Approach for MIMO-NOMA Downlink Signal
Detection. Sensors. 2019; 19(11):2526. https://doi.org/10.3390/s19112526
24. Lupas A, Van Dyke M, Stock J. Predicting coiled coils from protein sequences. Science.
1991 May 24;252(5009):1162-4. doi: 10.1126/science.252.5009.1162. PMID:
2031185.
25. Meriläinen L, Herranen A, Schwarzbach A, Gilbert L. Morphological and biochemical
features of Borrelia burgdorferi pleomorphic forms. Microbiology (Reading). 2015
Mar;161(Pt 3):516-27. doi: 10.1099/mic.0.000027. Epub 2015 Jan 6. PMID: 25564498;
PMCID: PMC4339653.
26. Moult J, Fidelis K, Kryshtafovych A, Schwede T, Tramontano A. Critical assessment
of methods of protein structure prediction (CASP)--round x. Proteins. 2014 Feb;82
Suppl 2(0 2):1-6. doi: 10.1002/prot.24452. Epub 2013 Dec 17. PMID: 24344053;
PMCID: PMC4394854.
27. Nugent, T. & Jones, D.T. (2009) Transmembrane protein topology prediction using
support vector machines. BMC Bioinformatics. 10, 159. Epub
28. O'Leary NA, Wright MW, Brister JR, Ciufo S, Haddad D, McVeigh R, Rajput B,
Robbertse B, Smith-White B, Ako-Adjei D, Astashyn A, Badretdin A, Bao Y, Blinkova
O, Brover V, Chetvernin V, Choi J, Cox E, Ermolaeva O, Farrell CM, Goldfarb T, Gupta
T, Haft D, Hatcher E, Hlavina W, Joardar VS, Kodali VK, Li W, Maglott D, Masterson
P, McGarvey KM, Murphy MR, O'Neill K, Pujar S, Rangwala SH, Rausch D, Riddick
LD, Schoch C, Shkeda A, Storz SS, Sun H, Thibaud-Nissen F, Tolstoy I, Tully RE,
Vatsan AR, Wallin C, Webb D, Wu W, Landrum MJ, Kimchi A, Tatusova T, DiCuccio
M, Kitts P, Murphy TD, Pruitt KD. Reference sequence (RefSeq) database at NCBI:
current status, taxonomic expansion, and functional annotation. Nucleic Acids Res. 2016
Jan 4;44(D1):D733-45 PubMed
29. Oldfield, C. (2014). "Intrinsically Disordered Proteins and Intrinsically Disordered
Protein Regions". Annual Review of Biochemistry. 83: 553–584. doi:10.1146/annurev-
biochem-072711-164947. PMID 24606139
30. Philip Jones, David Binns, Hsin-Yu Chang, Matthew Fraser, Weizhong Li, Craig
McAnulla, Hamish McWilliam, John Maslen, Alex Mitchell, Gift Nuka, Sebastien
Pesseat, Antony F. Quinn, Amaia Sangrador-Vegas, Maxim Scheremetjew, Siew-Yit

30
Yong, Rodrigo Lopez, Sarah Hunter, InterProScan 5: genome-scale protein function
classification, Bioinformatics, Volume 30, Issue 9, 1 May 2014, Pages 1236–1240,
https://doi.org/10.1093/bioinformatics/btu031
31. Rosenberg R, Lindsey NP, Fischer M, Gregory CJ, Hinckley AF, Mead PS, Paz-Bailey
G, Waterman SH, Drexler NA, Kersh GJ, Hooks H, Partridge SK, Visser SN, Beard
CB, Petersen LR. Vital Signs: Trends in Reported Vectorborne Disease Cases - United
States and Territories, 2004-2016. MMWR Morb Mortal Wkly Rep. 2018 May
4;67(17):496-501. doi: 10.15585/mmwr.mm6717e1. PMID: 29723166; PMCID:
PMC5933869.
32. StatQuest with Josh Starmer. (2021, October 10). Support Vector Machines Part 1 (of
3): Main Ideas!!! [Video file]. YouTube.
https://www.youtube.com/watch?v=efR1C6CvhmE.
33. Ward JJ, Sodhi JS, McGuffin LJ, Buxton BF, Jones DT (March 2004). "Prediction and
functional analysis of native disorder in proteins from the three kingdoms of life".
Journal of Molecular Biology. 337 (3): 635–45. CiteSeerX 10.1.1.120.5605.
doi:10.1016/j.jmb.2004.02.002. PMID 15019783
34. Wolf E, Kim PS, Berger B. MultiCoil: a program for predicting two- and three-stranded
coiled coils. Protein Sci. 1997 Jun;6(6):1179-89. doi: 10.1002/pro.5560060606. PMID:
9194178; PMCID: PMC2143730.
35. Woolums AR, Swiderski C. New Approaches to Vaccinology Made Possible by
Advances in Next Generation Sequencing, Bioinformatics and Protein modeling. Curr
Issues Mol Biol. 2021;42:605-634. doi: 10.21775/cimb.042.605. Epub 2021 Feb 25.
PMID: 33627518.
36. Yan F, Gao F. A systematic strategy for the investigation of vaccines and drugs targeting
bacteria. Comput Struct Biotechnol J. 2020 Jun 12;18:1525-1538. doi:
10.1016/j.csbj.2020.06.008. PMID: 32637049; PMCID: PMC7327267.

31

You might also like