You are on page 1of 45

2011/2012

PREDMET: OPTEREĆENJE:EVALUACIJA ZNANJA

NASTAVNI ANSAMBL
Red.prof.dr. Zikrija Avdagić, dipl. ing.el.
Asistnti: Dr. Samir Omanović, dipl. ing. el.
Dino Kečo, MSc

OCJENA
PREREKVIZITI: 10 (A) 95-100 poena
BAZE PODATAKA
VJEŠTAČKA INTELIGENCIJA
9 (B) 85 – 94 poena
METODE I PRIMJENA VJEŠTAČKE INTELIGENCIJE 8 (C) 75 – 84 poena
7 (D) 65 – 74 poena
6 (E) 55 – 64 poena
BODOVANJE
LAB. VJEŽBE PREDAVANJA* 1.PARCIJALNI 2.PARCIJALNI ZADAĆE USMENI ISPIT

0-11 Prisustovanje 0-20 0-20 1.Varijanta 1.Varijanta(prenos)


(preko 10 ce se uzeti u obzir 1. ZAD =0-5 1.PARC +2.PARC
poena i ispod 7 pri usmenom ispitu 2. ZAD =0-5
poena 2.Varijanta(odgovaranje)
kompenzira se 2.Varijanta 0-40
nausmnom 1. ZAD =0-5
ispitu. 2. STU =0-5
Primjer primjene
alata(BLASTA)

OCJENA= LV+(PR)* +1.PARC+2.PARC+1.ZAD+2.ZAD+UI


U slučaju da student izabere ovaj predmet s drugog odsjeka(s drugog fakulteta), a ima preklapanje s
nekim svojim matičnim predmetom za njega je poseban tretman za prisustvovanje nastavi.
No PREDAVANJA VJEŽBE
1 CILJ, OBLASTI, ALATI,RESURSI,FOKUSI
2 BIOINFORMATIKA, CENTRALNA DOGMA,GENETSKI KOD STATISTIČKE FUNKCIJE
3 ANALIZA I STATISTIKA SEKVENCI STATISTIČKO UČENJE
4 ANALIZA I UPARIVANJE SEKVENCI/POREĐENJE GENOMA PRIMJENA TEORIJE GRAFOVA
5 FILOGENETSKA ANALIZA FORMATI PODATAKA I BAZE PODATAKA
6 MICROARRAY ANALIZA SEKVENCE, KONVERZIJA,
STATISTIKA,UTILITIES
7 SKRIVENI MARKOVI MODELI (HMM) PAIRWISE UPARIVANJE
VIŠESTRUKO UPARIVANJE
8
9 CLUSTERING, FUZZY-C-MEANS,ANFIS CLUSTERING FILOGENETIKA/GENOLOGIJA
10 ANALIZA PROTEINA MICROARRAY FORMATI
VIZUELIZACIJA,FILTRIRANJE
11 PREDIKCIJA SEKUNDARNE STRUKTURE PROTEINA ANALIZA PROTEINA
12 GENETIKA-1,TEORETSKA RAZMATRANJA MAS SPEKTROMETRIJA
13 GENETIKA-2, PRIMJERI INTEGRALNI PRIMJER
14 GENETIKA-3 APLIKACIJA
15 REZIME:INTEGRALNI POGLED NA BIOINFORMATIKU
FEATURES AND FUNCTIONS
• Data formats and databases — Connect to Web-accessible databases
containing genomic and proteomic data. Read and convert between
multiple data formats.
• Sequence analysis — Determine the statistical characteristics of a
sequence, align two sequences, and multiply align several sequences.
Model patterns in biological sequences using hidden Markov model (HMM)
profiles.
• Phylogenetic analysis — Create and manipulate phylogenetic tree data.
•Microarray data analysis — Read, normalize, and visualize microarray
data.
• Mass spectrometry data analysis — Analyze and enhance raw mass
spectrometry data.
• Statistical learning — Classify and identify features in data sets with
statistical learning tools.
• Programming interface — Use other bioinformatic software (BioPerl
and BioJava) within the MATLAB environment.
9
 Predavaja-prezentacije 2011/2012
 MATLAB/ Bioinfoatics Toolbox
 NCBI (National Center for Biotechnology Information) link
http://www.ncbi.nlm.nih.gov
 [1] J.Pevsner, BIOINFORMATICS AND FUNCTIONAL GENOMICS,
Willey - Blackwell,New Jersey, U.S.A, 2009.
 [2] A. Tramontano, THE TEN MOST WANTED SOLUTIONS IN PROTEIN
BIOINFORMATICS, Chapman & Hall&CRC, New York 2005.
 [3] J. Enderle, S. Blanchard, J. Bronzino, INTRODUCTION TO
BIOMEDICAL ENGINEERING, Elsevier, London 2005.
 [4] G. B. Fogel, D.W. Corne, EVOLUTIONARY COMPUTATION IN
BIOINFORMATICS, Morgan Kaufmann Publishers, Tokyo 2003.
 [5] C.H.Wu, NEURAL NETWORKS AND GENOME INFORMATICS,
Elsevier, Amsterdam 2000.
 [6] D.L.Hudson, M.E.Cohen, NEURAL NETWORKS AND ARTIFICIAL
INTELLIGENCE FOR BIOMEDICAL ENGINEERING, IEEE Press, San
10 Francisco 2000.
11
ALATI

1.NCBI (National Center for Biotechnology Information) link


http://www.ncbi.nlm.nih.gov
2.Swiss-PdbViewer DeepView v4.0; link http://spdbv.vital-it.ch/
3. Cn3D 4.1 for PC; link http://www.ncbi.nlm.nih.gov/Structure/CN3D/cn3d.shtml
4. Nucleotide BLAST; link http://blast.ncbi.nlm.nih.gov/Blast.cgi
5. Protein BLAST; link http://blast.ncbi.nlm.nih.gov/Blast.cgi
6. BLASTX; link http://blast.ncbi.nlm.nih.gov/Blast.cgi

12
NCBI (Nacionalni Centar za
Biotehnološku Informatiku)

• preko 30 baza podataka


uključujući GenBank,
PubMed, OMIM i GEO
• Pristup svim NCBI
resursima putem Entrez
(www.ncbi.nlm.nih.gov/
Entrez/)
BIOLOŠKE BAZE PODATAKA
1. Više od 1 000 000 biološke baza podataka
2. Variraju u veličini, kvalitetu, pokrivenosti, i nivou interesa
3. Dobra baza podataka:
sveobuhvatnost, tačnost, up-to-date, dobar interfejs, dobra pretraživanja/ download
API (web usluge, servisi i slično)

 GenBank www.ncbi.nlm.nih.gov nucleotide sequences


 Ensembl www.ensembl.org human/mouse genome
(and others)
 PubMed www.ncbi.nlm.nih.gov literature references
 NR www.ncbi.nlm.nih.gov protein sequences
 SWISS-PROT www.expasy.ch protein sequences
 InterPro www.ebi.ac.uk protein domains
 OMIM www.ncbi.nlm.nih.gov genetic diseases
 Enzymes www.chem.qmul.ac.uk enzymes
 PDB www.rcsb.org/pdb/ protein structures
 KEGG www.genome.ad.jp metabolic pathways
Primjena
inžinjerskog pristupa
Bolničko osoblje i
u rješavanju infrastruktura

medicinskih problema Mikro i nano


tehnologija Biomedicinska
bazirajući se na instrumentacija

novim tehnologijama
Biosenzori
Protetički uređaji i
vještački organi
za stvaranje Biomaterijali
BIOMEDICINSKI/BIOINFORMATIČKI
harmonije između
INŽINJER
čovjeka, prirode i nauke
Biometrija
Telemedicina

inžinjerski pristup?
Biomehanika
 Analiza
 Projektovanje (dizajn) Obrada slike u
Medicinska medicini
 Primjena (implementacija,
Bioinformatika informatika
aplikacija, praktična realizacija)
medicinski problemi?
 Preventiva
 Dijagnostika
 Tretman
Istraživanje, razvoj i primjena računarskih metoda
i softverskih alata za rješavanje problem iz oblasti
molekularne biologije .
Matematika
i statistika

Računarstvo Biologija
BIOINFORMATIKA
& Nauka o
životu

Položaj bioinformatike u užem smislu Položaj bioinformatike u širem smislu


BIOINFORMATIKA
I RAČUNARSKA
BIOLOGIJA
IZMEĐU
OBJEKATA I METODA

19
BIOINFORMATIKA OD RAČUNARSKE BIOLOGIJE DO VJEŠTAČKE INTELIGENCIJE

VJEŠTAČKA
INTELIGENCIJA
VJEŠTAČKA I TELIGENCIJA +BIOIFORMATKA =
EVOLUCIONI (BIOLOŠKI) ROBOT

EVOLUTIONARY
ALGORITHMS AUTOMATIC

NEURAL
NETWORKS
SYSTEMS
PROGRAMMING

UNDERSTANDING
+
OF SPEECH

UNDERSTANDING
BIOINFORMATICS
OF LANGUAGE
FUZZY SYSTEMS

COMPUTER VISION

EVOLUTION
SYSTEMS

ROBOTICS

=
BIOLOGICAL ROBOT
INDUSTRIJA/PROFESIJA

Sve više inžinjeri stvaraju metode namjenjene otkriću i proizvodnji lijekova.


Predmetna tematika i izučavani alati pružaju šansu istraživačima da stvaraju
aplikacije u oblasti biomedicinskog inžinjeringa, biotehnologije i farmaceutske
industrije.

EDUKACIJA/STUDENTI

Predmet je organizovan za predavanje i učenje tehnika za analizu


genoma i proteoma. Nastavnici i studenti se mogu koncentrirati na
bioinformatičke algoritme umjesto na programiranje baznih funkcija
kao što su čitanje i pisanje fajlova.
BIOMEDICINSKI/BIOINFORMATIČKI
INŽINJER
1. Bolnica: izbor i nabavka uređaja i materijala, održavanje i
prilagođavanje, obuka medicinskog osoblja
2. Industrija biomedicinske opreme i pomagala : projektovanje i
proizvodnja uređaja, sistema i biomaterijala
3. Instituti : razvoj i istraživanje
4. Univerziteti: edukacija BMI/BII-inžinjera
4.1 Raznovrsna i multidisciplinarna znanja
4.2 Obrazuju se različiti profili BMI/BII inžinjera
specijalista
4.3 Preklapanja između specijalnosti
4.4 Obrazovanje u okviru matičnih inžinjerskih
disciplina:
Elektrotehnika
Razvoj i projektovanje biomedicinskih sistema
Obrada biomedicinskih signala
Računarstvo
Bionformatika
Obrada slike u medicini
Medicinska informatika
1.BIOINFORMATIKA: definicija bioinformatike zadaci i cilj bioinformatike, uvod u
osnove molekularne biologije, bazna arhitektura ćelija, struktura DNK, geni i
proteini, genom, proteom,centralna dogma, Crick-Watson model.
2.SOFTVERSKI RESURSI: baze podataka, data mining, računarske asocijacije sa
biološki procesima, softverski alati: Blasta, FASTA, PDBFIND baze
podataka,MATLAB Bioinformatic Toolbox.
3.METODE I ALGORITMI U BIOINFORMATICI:statistički pristup, statističko
učenje,HMM model, fuzzy c-means clustering, neuronske mreže
4. ANALIZA DNK SEKVENCI: Analiza DNK sekvenci, uparivanje sekvenci, uparivanje
višestrukih sekvenci, vizuelizacija uparivanja sekvenci, biološki kodovi,
manipulisanje sekvencama, statistike iz sekvenci, primjeri.
5 MICROARRAY ANALIZA: microarray normalizacija, microarray vizualizacija,
primjeri i aplikacije
6. ANALIZA I PREDIKCIJA PROTEINSKIH STRUKTURA: predikcija sekundarne
strukture na bazi neuronskih mreža, vizuelizacija proteinskih struktura, primjeri i
aplikacije
7. EVOLUCIONI ALGORITMI U BIOINFORMATICI: genetički algoritmi,hibridni
genetički algoritmi, primjeri i aplikacije
Bioinformatika, genetski kod i centralna dogma

uvod u osnove molekularne biologije,


bazna arhitektura ćelija,
struktura DNK,
geni , proteini, genom, proteom,
centralna dogma, Crick-Watson model
genetički kod i genetička informacija

Izgradnja blokova života


ćelije

tijelo/genom DNK
hromozomi

amino kiseline
protein
Analiza DNK sekvenci

Proces za pronanalaženje informacija o


sekvencama nukletida(gena), odnosno
aminokiselina primjenom računarskih
metoda kroz zadatke:

identifikacija gena,
utvrđivanje sličnosti između dva gena,
utvrđivanje proteina kodiranog s genom,
utvrđivanje funkcije gena

26
Microarray analiza

Proces pomoću kojeg se dobivaju podaci–


vrijednosti genskih izraza (gene expression
profiles).
U molekularnoj biologiji izraz gene expression
prifiling se odnosi na mjerenje(prikaz)
aktivnosti hiljada gena u jednom trenutku u
cilju kreiranja globalne slike ćelijke funkcije.

Namjena:
 istraživanje funkcija ćelija i tipova tkiva,
poređenje razlika između zdravih i bolesnih tkiva,
posmatranje promjena s aplikcijom lijekova da bi
otkrili nove lijekove i tretmane nadzora
Cilj predmeta je da unaprijedi razumijevanje živih sistema kroz
računarske algoritme.

Složenost ovih sistema nudi izazove u softveru i algoritmima, a često


zahtijeva i potpuno nove pristupe u računarskim naukama.

Kroz ovaj predmet studenti će biti osposobljeni da:


• koriste WEB- biološke baze podataka,
• primijene namjenske softverske pakete i formate za:
•pretraživanje,
•akviziciju,
•filtriranje
•analizu,
•modeliranje i
•simuliranje
u oblasti GENOMIKE, PROTEOMIKE i GENETIKE
28
29
STATISTIČKE FUNKCIJE

Laboratorijska vježba 1
Statističke funkcije
 Statistika je grana primjenjene matematike
koja se bavi analizom podataka.

 Statističke funkcije predstavljaju skup


funkcija koje pojednostavljuju analizu
podataka. Statističke funkcije se dijele u
slijedeće grupe:
 Bazne statističke funkcije,
 K-Means funkcija,
 HMM funkcija.
Bazne statističke funkcije
 Bazne statističke funkcije su:
 geomean – geometrijska sredina,
 harmmean – harmonijska sredina,
 mean – aritmetička sredina,
 median – median vrijednost - srednji element
sortiranog niza,
 mode – najfrekventnije vrijednost,
 range – dužina intervala,
 std – standardna devijacija,
 var – varijansa.
Zadatak 1
statistička analiza cvijeta

load fisheriris

Ova instrukcija kreira dvije workspace


varijable meas i species. Varijabla
meas je numerička matrica sa 150
redova i 4 kolone. Kolone predstavljaju
mjere slijedećih varijabli:
• Dužina čašičnog listića,
• Širina čašičnog listića,
• Dužina latice,
• Širina latice.
Zadatak 1
statistička analiza cvijeta

Postavka zadatka
Potrebno je izračunati vrijednosti svih
baznih funkcija za statističke podatke o
cvijetu (za sve četiri varijable). Rezultate
je potrebno predstaviti tabelarno.

Primjer rješenja
Vizualizacija podataka
 Funkcije za vizualizaciju podataka
 gscatter – scatter dijagram podataka
 boxplot – dijagram u obliku kutije
 Boxplot dijagram je jedan on najčešće korištenih dijagrama za
prikazivanje podataka. Ovaj dijagram ima 5 ključnih tačaka
koje se prikazuju:
 Minimalna vrijednost,
 25% vrijednosti,
 median vrijednosti,
 75% vrijednosti,
 Maksimalna vrijednost.
Zadatak 2
vizualizacija podataka

Postavka zadatka
Potrebno je nacrtati scatter i boxplot
dijagrame za sve četiri varijable cvijeta
(dužina čašičnog listića, širina čašičnog
listića, dužina latice, širina latice).
K-means funkcija
K-means funkcija se koristi za klasterizaciju
(grupisanje) podataka. MATLAB funkcija za K-
means klasterizaciju je kmeans, koja dijeli
podatke u k neovisnih grupa i vraća indeks grupe
u koju pripada svaki od podataka.

IDX = kmeans(X,k)
Primjer – K-means klastering
Ovaj primjer pokatzuje k-means klustering podataka, o cvijetu, u dvije drupe i
njihovo prikazivanje grafički.

% odabir varijable duzina casicnog lista


X=meas(:,1);
% klustering varijable x u dvije grupe
idx = kmeans(X,2);
% crtanje grupe 1 na dijagramu
plot(X(idx==1),'r.','MarkerSize',12)
%zadrzavanje prethodnog crtanja
hold on
% crtanje grupe 2 na dijagramu
plot(X(idx==2),'b.','MarkerSize',12)
% dodavanje legende
legend('Cluster 1','Cluster 2')
Primjer – K-means klastering
Grafički prikaz klasteringa

8
Cluster 1
7.5 Cluster 2

6.5

5.5

4.5

4
0 10 20 30 40 50 60 70 80
Zadatak 3 – K-means klastering

Postavka zadatka
Potrebno je izvršiti klasterizaciju
varijabli cvijeta u tri grupe. Grupe je
potrebno prikazati grafički različitim
bojama.
HMM (Hidden Markov Model)
Markov model se koristi za modeliranje stohastičkih procesa, tj. procesa koji
generišu slučajnu sekvencu emisija ili stanja u zavisnosti od određenih
vjerovatnoća. Markovi procesi su procesi koji nemaju memoriju i slijedeće stanje
zavisi samo od trenutnog stanja.

Hidden Markov Model je model u


kome se posmatra sekvenca emisija,
ali sekvenca stanja kroz koje je
model prošao nije poznata.
HMM funkcije
 Funkcije za rad s HMM modelom su:
 hmmgenerate — Generisanje sekvence stanja i izlaza
Markovog modela.
 hmmestimate — Izračunava vjerovatnoće prelaska iz stanja
u stanje, i vjerovatnoće emisija za poznate sekvence
emisija i sekvence stanja.
 hmmtrain — Izračunava vjerovatnoće prelaska iz stanja u
stanje, i vjerovatnoće emisija za poznatu sekvencu emisija.
 hmmviterbi — Izračunava najvjerovatniji put stanja za
Markov model.
 hmmdecode — Izračunava vjerovatnoću slijedećeg stanja iz
sekvence emisija.
Primjer HMM model
% Markov model s 2 stanja i 6 emisija po stanju
TRANS = [.9 .1; .05 .95;];
EMIS = [1/6, 1/6, 1/6, 1/6, 1/6, 1/6; 7/12, 1/12, 1/12,
1/12, 1/12, 1/12];

% generisanje testne sekvence emisija i stanja


[seq,states] = hmmgenerate(1000,TRANS,EMIS);

% koristenjem Veterbi algoritma i Markovog modela


% izracunava se najvjerovatnija sekvenca stanja
likelystates = hmmviterbi(seq, TRANS, EMIS);

% testiranje taènosti nejvjerovatnije sekvence


sum(states==likelystates)/1000

% estimacija Markovog modela koristenjem poznate sekvence


% stanja i emisija
[TRANS_EST, EMIS_EST] = hmmestimate(seq, states)
Primjer HMM model
% Vrlo slican model inicijalnom Markovom modelu
TRANS_GUESS = [.85 .15; .1 .9];
EMIS_GUESS = [.17 .16 .17 .16 .17 .17;.6 .08 .08 .08 .08
08];

% treniranje Markovog model korištenjem hmmtrain


[TRANS_EST2, EMIS_EST2] = hmmtrain(seq, TRANS_GUESS,
EMIS_GUESS)

% vjerovatnoca slijedeceg stanja


PSTATES = hmmdecode(seq,TRANS,EMIS)
Rješenje laboratorijske vježbe
Rješenja zadataka iz vježbe potrebno je poslati
predmetnom asistentu na e-mail.

Zadaci koji je potrebno riješiti u okviru vježbe su:


Zadatak 1 – statistička analiza cvijeta
Zadatak 2 - vizualizacija podataka
Zadatak 3 – K-means klastering

PREDAVANJA&VJEŽBE

You might also like