You are on page 1of 304

Βιοπληροφορική Ι

Παντελής Μπάγκος
Αναπληρωτής Καθηγητής

Πανεπιστήμιο Θεσσαλίας
Λαμία 2015

Βιοπληροφορική Ι
• Εισαγωγή: Ορισμός της Βιοπληροφορικής, Υποδιαιρέσεις της Βιοπληροφορικής, Τα είδη των
δεδομένων στη Βιοπληροφορική.
• Βάσεις δεδομένων: Βάσεις δεδομένων βιβλιογραφίας, Bάσεις δεδομένων ακολουθιών πρωτεϊνών και
DNA, Βάσεις δεδομένων δομών, Βάσεις δεδομένων διπλωμάτων και οικογενειών, Εξειδικευμένες
Βάσεις δεδομένων, Εργαλεία ανάλυσης της πληροφορίας που είναι αποθηκευμένη στις βάσεις
δεδομένων (Entrez, SRS).
• Στοίχιση ακολουθιών: Μέθοδοι εύρεσης ομοιοτήτων σε ακολουθίες, Ομολογία και ομοιότητα
ακολουθιών και η σημασία τους, Οι αλγόριθμοι δυναμικού προγραμματισμού, Ολική στοίχιση (Global
Alignment) και ο αλγόριθμος των Needleman και Wunsch, τοπική στοίχιση (Local Alignment) και ο
αλγόριθμος των Smith και Waterman, Υπολογισμός της στατιστικής σημαντικότητας της στοίχισης, Οι
πίνακες ομοιότητας και η σημασία τους, Οι ποινές για τα κενά, Ευριστικές μέθοδοι για αναζητήσεις
ομοιοτήτων σε βάσεις δεδομένων (BLAST, FASTA κτλ).
• Πολλαπλή στοίχιση ακολουθιών: Πολυδιάστατοι αλγόριθμοι δυναμικού προγραμματισμού, Ευριστικές
μέθοδοι πολλαπλής στοίχισης ακολουθιών (CLUSTAL, DIALIGN, MULTALIN κτλ), φυλογενετικά
δέντρα και πολλαπλές στοιχίσεις.
• Αλγόριθμοι πρόγνωσης στηριζόμενοι στην ακολουθία πρωτεϊνών και DNA: Πρόγνωση
δευτεροταγούς δομής πρωτεϊνών και RNA, Πρόγνωση διαμεμβρανικών τμημάτων πρωτεϊνών και
προσανατολισμού τους, Εύρεση πιθανών γονιδίων σε ακολουθίες DNA, Πολλαπλές στοιχίσεις
ακολουθιών με χρήση Hidden Markov Models, Κατάταξη ακολουθιών σε οικογένειες.
• Δομική Βιοπληροφορική: Αναπαράσταση βιολογικών δομών, Αναγνώριση πρωτεϊνικού διπλώματος,
Προσαρμογή και υπέρθεση δομών στο χώρο, Συγκριτική προτυποποίηση με βάση την ομολογία

2
Οργάνωση Τυπικού Ευκαρυωτικού
Κυττάρου

Οργάνωση της Πληροφορίας

4
Το Κεντρικό Δόγμα της Μοριακής Βιολογίας ...

5
http://www.accessexcellence.org/AB/GG/central.html

... και μια φυσική προέκτασή του ...

Sequence VEQCCTSICSLYQL

Determines

3D-structure
Determines

Function • Glucose Uptake Pathway


• Glycogen Synthesis Pathway
• Formation of triglycerides

6
Ο νόμος του Moore (αύξηση της υπολογιστικής ισχύος)

Συνέπεια…
Ένας μέσος βιολόγος (όπως και κάθε μέσος
χρήστης) το 2006, έχει στη διάθεσή του
πολύ ισχυρότερους Η/Υ, με μεγαλύτερη
αποθηκευτική ισχύ και μνήμη,
συνδεδεμένους στο διαδίκτυο με
μεγαλύτερες ταχύτητες απ’ ότι για
παράδειγμα ήταν δυνατόν το 1996.

8
Επιπλέον…
Η παραγωγή βιολογικών δεδομένων
αυξάνεται επίσης με ραγδαίο ρυθμό
(προσδιορισμός αλληλουχίας
γονιδιωμάτων, δομών πρωτεϊνών, δεδομένα
γονιδιακής έκφρασης, λειτουργική
γονιδιωματική κλπ)

10
Mathematical Populations Biology
Biology
Modeling Systems Biology

Epidemiology
Micro arrays Biostatistics
Statistical
analyses
molecular
Decision analysis

Bioimaging
Computational Bioinformatics Medical
Visualization chemistry Informatics
Public Health
structural
Databases
Informatics

Clinical Cost-effectiveness
Data
collection proteomics

Small Bio-molecular Bio-molecular Genomes Cellular Tissues and individuals populations


molecules sequences structures proteomes processes Organs
11

Bioinformatics Medical Informatics

whole genome, patient safety,


interaction networks, medical error,
microarray experiments,
nucleotide polymorphism, disease management,
ontologies, open source,
statistical methods for ubiquitous computing,
text mining, support vector
microarrays, tissue microarray,
machines
association study, grid technology
system biology

Rebholz-Schuhman, D., Cameron, G., Clark, D., van Mulligen, E., Coatrieux, J. L., Del Hoyo
Barbolla, E., . . . Van der Lei, J. (2007). SYMBIOmatics: synergies in Medical Informatics and
Bioinformatics--exploring current scientific literature for emerging topics. BMC
Bioinformatics, 8 Suppl 1, S18
12
Biochemistry Molecular Biology Cell Biology
Immunology

Developmental Physiology
Biology Computational
Biology
Genetics 13

Experimental Biology
Biochemistry

Genetics

Theoretical/Computational
Biology 14
Τι είναι Βιοπληροφορική
• Βιοπληροφορική είναι ο επιστημονικός χώρος όπου η σύμπραξη της
Βιολογίας με την Πληροφορική, την Στατιστική και τα Μαθηματικά εξερευνά
νέους τρόπους για την προσέγγιση των βιολογικών προβλημάτων, καθώς και
την αντίληψη βασικών αρχών της Βιολογίας.
• Πρόκειται για γνωστικό χώρο με συγκεκριμένο όσο και ευρύ πεδίο
εφαρμογών και αλληλεπίδρασης με τη σύγχρονη δομική, μοριακή,
πληθυσμιακή και περιβαλλοντική βιολογία.
• Ο κλάδος της Βιοπληροφορικής σήμερα θεωρείται, παγκόσμια, ένας από τους
πλέον αναπτυσσόμενους, ενώ έχει ήδη επιδείξει σημαντικά επιτεύγματα και
έχει συγκεντρώσει ιδιαίτερα σημαντικές επενδύσεις. Ουσιαστικά, κατέχει
κεντρική θέση στις σύγχρονες εξελίξεις των Επιστημών της Ζωής, με πιο
χαρακτηριστικό παράδειγμα τα προγράμματα "Αποκωδικοποίησης" των
Γονιδιωμάτων, περιλαμβανομένου και αυτού του Ανθρώπου.

15

Definition of NCBI:
• «Bioinformatics is the field of science in which biology,
computer science, and information technology merge into a
single discipline. There are three important sub-disciplines
within bioinformatics: the development of new algorithms
and statistics with which to assess relationships among
members of large data sets; the analysis and interpretation
of various types of data including nucleotide and amino acid
sequences, protein domains, and protein structures; and the
development and implementation of tools that enable
efficient access and management of different types of
information»

16
Luscombe, Greenbaum, & Gerstein,
2001
• «Bioinformatics is conceptualizing biology in
terms of macromolecules (in the sense of
physical-chemistry) and then applying
"informatics" techniques (derived from
disciplines such as applied maths, computer
science, and statistics) to understand and
organize the information associated with these
molecules, on a large-scale»

17

Fredj Tekaia
• «The mathematical, statistical and
computing methods that aim to solve
biological problems using DNA and amino
acid sequences and related information»

18
ISCB
• «a scholarly society dedicated to
advancing the scientific understanding of
living systems through computation».

19

http://blog.fejes.ca/?p=2418
20
How to train individuals with
scientists of other fields, in order to
simultaneously and efficiently
communicate?
• A lot of theoretical work on how a
Bioinformatics curriculum should be built
• Combine elements of the «mother»
disciplines and several approaches have
been described
• HSCBB encompasses all areas of
computation applied to living systems
21

• The interdisciplinary nature of the field


raises important questions regarding the
training of young scientists
• The pioneers in the field come from a
different discipline, most notably from
Computer Science,
Biology,
Mathematics,
Physics or
Chemistry
22
• The field is clearly an interdisciplinary one,
but there is also a need to train
interdisciplinary scientists
– Eddy, S. R. (2005). "Antedisciplinary" science. PLoS
Comput Biol, 1(1), e6
• We need to distinguish «Bioinformatics
users», «Bioinformatics scientists», and
«Bioinformatics engineers»
– Welch L, Lewitter F, Schwartz R, Brooksbank C,
Radivojac P, Gaeta B, et al. (2014) Bioinformatics
Curriculum Guidelines: Toward a Definition of Core
Competencies. PLoS Comput Biol 10(3): e1003496.

23

24
25

26
Έυρεση μιας ακολουθίας ή Εντοπισμός ενός βιολογικού
μιας ομάδας σχετιζόμενων προβλήματος για το οποίο
ακολουθιών χρειάζονται ικανοποιητικές λύσεις

BLAST, FASTA,
PSI-BLAST κλπ

Έυρεση ομολόγων σε βάσεις Σχεδιασμός και υλοποίηση


δεδομένων, επιλογή αλγορίθμου

ClustalW, t-Coffee, κλπ Μαθηματικά, στατιστική,


πληροφορική, κλπ
Κατασκευή πολλαπλών Εκπαίδευση-αξιολόγηση του
στοιχίσεων αλγορίθμου

Chroma, JalView, Strap,


κλπ

Παρατήρηση, τροποποιηση, Εφαρμογή της μεθοδολογίας σε


εύρεση συντηρημένων περιοχών πραγματικά δεδομένα τα οποία
ζητούν λύση

HMMER, SAM,
PFTOOLS κλπ
Κατασκευή πιο ευαίσθητων
μοντέλων για να περιγράψουν την Εξαγωγή συμπερασμάτων
πολλαπλή στοίχιση

Software development,
Web-server, κλπ
Αναζητήσεις σε γονιδιώματα, Διάθεση στην επιστημονική
εξαγωγή συμπερασμάτων
27
κοινότητα για χρήση

Published data related to


Bioinformatics community and
• research
Little (valuable in Greece
efforts made by HSCBB)
• A previous bibliometric study analyzed the
scientific activity in Bioinformatics in Greece
identified 405 published research conducted from
1976 until 2010
• This research showed that:
the oldest and largest Universities
seem dominant and
some of the newer Universities have strong
presence
28
• Research and teaching activity regarding
Bioinformatics the last 15 years in Greece is
booming
• A sufficient number of scientists who will
advance the field has started to accumulate
• The origin of these scientists appears to be
interdisciplinary
• Bioinformatics researchers come from some
different scientific discipline and are not
exclusively devoted to a given scientific field
29

Διαιρέσεις της Βιοπληροφορικής


• Ανάλυση ακολουθιών
• Ανάλυση δομών (δομική Βιοπληροφορική)
• Βάσεις βιολογικών δεδομένων
• Ανάλυση γενετικών δεδομένων
• Ανάλυση δεδομένων έκφρασης
• Ανάλυση πολύπλοκων δικτύων

30
Ανάλυση ακολουθιών
• Στοίχιση ακολουθιών (κατά ζεύγη και
πολλαπλή)
• Εύρεση προτύπων (patterns)
• Πρόβλεψη λειτουργικών και δομικών
χαρακτηριστικών
• Ανάλυση γονιδιωμάτων, κλπ

31

Ανάλυση δομών
• Αναπαράσταση δομών
• Υπέρθεση δομών - στοίχιση
• Αναγνώριση πρωτεϊνικού διπλώματος
• Συγκριτική προτυποποίηση με βάση την
ομολογία

32
Βάσεις δεδομένων
• Συλλογή και σχολιασμός δεδομένων
• Σχεδιασμός βάσεων δεδομένων

33

Τα είδη των δεδομένων


• Ακολουθίες
• Δομές
• Άλλα

34
Ιστορια της Βιοπληροφορικής

35

3) 5)
2) 5) 96
) 95 95
2 ) t (1
) 1 96
8 (1 (1 7) 96 lo 64 n (
3) 94 is y (1 n p (19 atio 65) 5)
94 (1 es log 56) (195 ) N a t 9 96 6)
(1 y n o 9 8 8) I r
o n 4 4 )
e o r
o ge B i
(1
m
y 95 5 T E
a nd
’s
D
m
p u
e
( 1
g( 1
5 ) (196 66)
r 9 Th in rs no (1 19 O ch tin o od in 9
eu (1 7) 1) rph s a e ( PR m a o n o f C i c c ul 196 ng (1
a ln o ry 194 48) tio
n
1 95 mo ) h od mm axo tur ter M a w t l Pa ot ( ildi ogy
i ( 19 a ( t c e
L or ene y l u io l
ic Th ?
e
rm ) g of 2) 53 e gra in T tru pu CO R d
an l p l b 7)
tif (
fo 948 ncin ling 95 (19
M m he G 96
Ar e s life ata In e 1 rlo ky’s ers in Co 8) 58)
s
T e rk hee ode dem
i (1
m t’ (1 e d ( re a s t b ck l w m ep 7 )
a
G ha uto
m s
n’ cs qu o le ctu 3) e C m pu glo on 195 (19 0) Zu lica ular lar (196 lias 67)
h
W A no neti n se ial m ff ru tru 95 ont Cho Com Myo age A ( ron 196 61) e c u o 9 )
n
a r ei at ga s (1 M k M pt ( (1
9 H ole ec ns arg g (1 968
Sh ybe rot Sp har NA MC Lin PG rce ron n M M -m
ol ea M i n ( 1
C P C D C U Pe pe do k
d
an uen ory
c
M c
o co h e
La U tc eq h 8)
UU Fi A s m T 96 9)
N t e (1 6
R ys a 9
S ur (1
i m n ix
K U

1950 1960 1970

36
0) 0)
97 97 ) 5) ) 7)
(1 i (1 7 3) 973 1 97 975 97 )
w 9 1 ( 1 ) 1
i la ) am 0) (1 ry ( es ( 75 rt
( 7 8)
as s 97
eny
9 70 r–K 1 97 ) p les heo p tid thm
i (19 l ibe g (1 1 97
( 0 i e r (
s-
R
t(
1 ge h 97 inc e T ) lp go an d
G
cin 7) M
r do Plo oun n sc ) (1 ) pr am 74) gna c al a sm an uen 197 PA
E o t Y u 7 0
o g y
7 1 en G 19 S i
e ti F a m q ( a s/
e– –W (19 s ( d se hm l
D
ck iol (19 fin
y
ar ke en an ) 6) ax At
an rt f B ea An tion kai G u 75 97 M age orit 7) in
Co le m a o r o 9 5 ) ( 1 h g 7 te
ed ew a A lu A Ch r(
1
97 is P al (19 Pr
o
St m e vo ge (1 alys
Ne on- D og rfac 72) E n rn n 6 ) EM ons o ff 8) )
l st ra l S u
(1 9 Sa t h e -a 97 n tr a yh 197 978 78
)
E t ) ta (1 I ( 1
en i b l e
7 1 l ch
S
u
o M e X
D R v
( (19
C ss 19 -We 2) EL O
G sino is
79
)
ce y( 97 SH os
Ac imo aum (1 ) u s bi ) (19 9)
2 N m 8 e 7
rs B DB 97 sy 97 id 19
Pa P (1 n do (1 uts p (
x E e n -O tstr a
Co ad de
St Insi Boo

1970 1980

37

1 )
98
0) ) (1
98 81 g )
85 6)
1 19 llin
a
(
C
(
ode 1 ) (19 198
e e k(
a P m 98 ur
ch M gy (1 ct ban 86) )
Ar IB l o 1 )
an 2 ) 5 ) ru 9 86
o 8 m 98 ) 98 ) s t BL (1
m 19 er (1 3) 83 ) (1 985 ein k (19
Ho er ( at
1) m e s 8
9 (1 9 4 A 1 t /E
M
e s
k W (1 98 ST S ( pro nk d L rule 6)
Zu d 98 y cs gren ity(1 FA a an 98 7)
an n (1 enz 82) i
ph er bic
IO ne B d e ) ( 1
98 987
)
8)
ith e i A 1 9 r a d CAB bra Gen thia insi 986 ion (1 1 98
m s t N ( ) G e o m o e (1 a t n ( (1
S n R
oh 982 ular nd
C ph e h iv rot ag e
re litl
e ks
lse ot ro 4) M ) C sit p or 8)
Fe G (1 lec ff a Hyd 1 98 9 85 Po issP -pro er-G Doo tw 8
M Mo ko R( 4)
1
Sw a c
k nd and 7)
e 19
SO an M 8 S F( L a 8 a l N L ( 8)
N 19 B 9 )
1 87 eur TA 98 )
S
R(
F ng s( S 9)
PI Fe f ile (19 N LU et ( 989 198
1
o IF C Bn (1 (
Pr AT ) E
H 987 E M SA SIT 9)
3) W (1 M O / 1 98
98 NJ PR UP IP ( 89)
(1
R PA HYL (19
PC P GS 89)
9
BU (1
2H
Y

1980 1990

38
)
91 5) 7)
l/ ) (19 1 99 ) 1 99 97)
u 0 ( ( 9
ch 99 ce
s 1)
ys 5) 95 M (1 T/ 7 )
ts
A l 0) (1 ) atri (199 ra 99 (19 F A a lP
d os 0 ) o a r (1
a l P n L AS 199
9 m n 2 r e rn B ( )
an 199 log 19 on itio 1) 99 ic om ou
g
Si ed ST 997 )
r lin T ( ce ng ( ituti gn 199 (1 92) m e n J p A 1 98
Ka LAS uen indi bst reco x ( ding (19 94) DN
A
a l g ics
t ap -BL ics ( ( 19
ri G SI
B q f u nu a (1
9
te rm
a ) P eom 7)
e
Se ene S Fold /Li hre UM 2) ) FG ac info 9 95 t 99 no
m
G W T S 9 ) 3 b ( 1 r o ( 1 ge
W O 9 2 99 SC Bi
o P
ED 97) ans
W BL I (1 199 (1 ER 95
)
6) )
B ( D ) M 9 9 M 9 g 98
E
V M PH
9 3) 994 H M
P
(1 5) 9
(1 ) P UB (1 ele
. (19
S
(1
9 (1 O 99 ing 96 TH C SS 9 8 ) 9)
B 3 ) SSP 94) SC R(1 ock (19 CA B O 9 99
M 99 H (19 FD D BL 96)
(1 ( 1 9)
IS (1 P M EM M D 99
S S E 1 9 M R E (1
SR CA Tr st( 6) H
I-P
O
a 99 TM PR )
Ye (1 PS E R 999
B T 1
PS IN s(
6) ap
9 9 I m
(1 PP
R

1990 2000

39

0) 0)
0) 00 00
0 (2 (2
(2
0 ics 0) g
gy at cin
o rm 0 0 n 1)
ol nf
o (2 ue 00 03
)
nt i
tic
s q ( 2
O B io a se s ( 20 ) )
en
e in m re ra
y e 03 004
s f or 0) a tu ar o m 3) 20 (2 5)
G
fin
g
oin 0 0
ig
n cr
o n
e (20 3) ion 0 ( g 00 7) 0)
r ie B i (2
l s m
i G 00 t ci n ) ( 2
200 01
s e f n p a n 4 y ( (2
B C A al
l
1) o a a (2 itiz ue 00 lo
g
ns 7) g
BM RN par 00 s is H um apM DB rior seq r (2 B io tio 00 cin
ro y ( 2 l y H P p o to 4 ) l ria (2 ) en
ic el a r a
SE an ww ene c
py du 200 5) tion Va AS 08 ) qu 0)
m siv e G 454 con A ( 200 er 20 09 t Se 10) 01
as PHA anc ) ) ta b G W ( 0 ( 2
M 1 02 o T
Bi ET AS om
( pu m of v3 (2 ren (20 es
ific 00 20 Nu is E R BB T o r IR
i gn (2 rot ( S W C y ys M X o m
S E ip 2) RO G OS 5) 5) Co
p
na
l
HM HS Io
C n
EL
I
ge
n
2)
M 00 00 00
IA Un (2 P L
(2 (2 ta -a 00
2 01
M
er
l
ed ct M
e 10 s
(
op pr oje tla
B i H p r A 2)
2 ) H A seq 2 01
00 G A t(
(2 ) TC RN ca
B 2 S
C 00 NG
EC O ( 2
E
G

2000 2010

40
41

42
Education in Greece
• Bioinformatics is taught at undergraduate level
in 18 Departments
– 8 Departments of Biological Sciences
– 4 Departments of Computer Engineering
– 4 Computer Science Departments
– 2 Medical Schools
• In total there are 23 different courses
– 3 of them are currently not offered, mostly in CS
departments
• 22 faculty members involved
– some courses are taught by more than one faculty
member, whereas some others teach more than one
courses

43

Faculty members
Degree N %

Biology 10 45.45

Physics 3 13.64

Chemistry 3 13.64

Computer Science 2 9.09

Engineer 2 9.09

Mathematics 2 9.09 44
Bioinformatics in curricula
• University of Thessaly
– Department of Computer Science and Biomedical Informatics (3 courses*),
– Department of Biochemistry and Biotechnology (1 course*),
– Department of Electrical and Computer Engineering (1 course),
– School of Medicine (1 course*)
• University of Thrace
– Department of Molecular Biology and Genetics(4 courses*),
– Department of Electrical and Computer Engineering (1 course)
• University of Crete
– Department of Biology (1 course*),
– School of Medicine (1 course*),
– Department of Computer Science (2 courses*)
• University of Athens
– Department of Biology (1 course*),
– Department of Informatics and Telecommunications (1 course)
• University of Patras
– Department of Biology (1 course)
– Department of Computer Engineering and Informatics (1 course)
• University of Ioannina
– Department of Biological Applications and Technologies (2 courses*)
• University of Piraeus
– Department of Informatics (1 course)
• University of Western Macedonia
– Department of Engineering Informatics and Telecommunications (1 course)
• University of Thessaloniki
– Department of Biology (1 course)
• Agricultural University of Athens
– Department of Biotechnology (1 course*)
45

12

10

With Bioinformatics Courses


6
Without Bioinformatics Courses

0
Computer Engineeiring Medical Schools Biology and
Science related

46
Structure of the curriculum
• Departments of • Departments of
Biology and Medical Computer Science
Schools: and Engineering:

– Computing/ – Probability and/or


Programming Statistics
– Biomathematics/ – Molecular
Biostatistics Biology/Genetics
– Bioinformatics – Bioinformatics

47

• This work’s long-term goal → draw


conclusions also via interviews –
presented in print at a later time-
taken from Bioinformatics courses’
lecturers

48
• Conclusions
The Departments of Biological Sciences seem to have
adapted to the new era of Bioinformatics
• All of them (8/8) include one or more relevant courses in
their curricula
• The Departments of Computer Science, Computer
Engineering, and the Medical Schools follow to a lesser
extent
• Moreover, the Departments of Biology have achieved a
smooth introduction of the students to Bioinformatics,
including courses on Biostatistics and Biomathematics, and
some of them (but not all) courses on Programming and
Informatics
• The same is not the case for CS and Engineering
departments, with the notable exception of the Department
of the University of Crete which offers Biology Courses and
the Department of CS and Biomedical Informatics which
offers also courses in Biology, Biochemistry, Genetics,
Physiology and Biostatistics. 49

Conclusions
• Older Universities played a crucial role in establishing Bioinformatics
research and education in Greece
• Universities of the Periphery being newer and more flexible, invested in the
field, by including more relevant courses in the curricula and by hiring
faculty members trained in the field
• Biological Sciences Departments that offer the larger number of relevant
courses:
– Department of Molecular Biology and Genetics of the University of Thrace (4
courses +Biostatistics)
– Department of Biological Applications and Technologies of the University of
Ioannina (2 courses +Programming+Biostatistics)
– Department of Biochemistry and Biotecnology of the University of Thessaly (1
course+ Programming+Biostatistics)
– Department of Biology of the University of Crete (1 course+
Programming+Biostatistics)
• Departments of Computer Science that managed to include several courses of
Bioinformatics and introduce Computer Science students better in this field :
– Department of Computer Science and Biomedical Informatics of the University of
Thessaly (3 courses+Biostatistics+Biochemistry+Biology I+Biology II+Genetics)
– Department of Computer Science of the University of Crete (2 courses+2 courses
on Biology) 50
What about Postgraduate studies?
• University of Athens
– MSc Programme in «Bioinformatics» (Department of Biology)
– MSc Programme in «Information Technologies in Medicine and
Biology» (Specialization in «Bioinformatics»)
• University of Thessaly
– MSc Programme in «Informatics and Computational
Biomedicine» (Specialization in «Computational Medicine and
Biology»)
– MSc Programme in «Methodology of Biomedical Research,
Biostatistics and Clinical Bioinformatics»
• University of Patras
– MSc Programme in «Life Sciences Informatics» (Specialization
in «Bioinformatics»)
• Agricultural University
– MSc Programme in «Systems Biology» 51

Βιοπληροφορική Ι
Το Κεντρικό Δόγμα της Μοριακής Βιολογίας ...

http://www.accessexcellence.org/AB/GG/central.html

Βιολογικές Βάσεις Δεδομένων


... και μια φυσική προέκτασή του ...

Sequence VEQCCTSICSLYQL

Determines

3D-structure
Determines

Function • Glucose Uptake Pathway


• Glycogen Synthesis Pathway
• Formation of triglycerides
Βάσεις Βιολογικών Δεδομένων
• Πρωτογενείς βάσεις δεδομένων, οι οποίες περιέχουν τα
πρωτογενή δεδομένα όπως αυτά προσδιορίζονται από τους
πειραματικούς
• Βάσεις δεδομένων ακολουθιών νουκλεοτιδικών ακολουθιών
• Βάσεις δεδομένων ακολουθιών πρωτεϊνικών ακολουθιών
• Βάσεις δεδομένων τρισδιάστατων βιολογικών δομών
• Βάσεις δεδομένων γονιδιακής έκφρασης
• Βάσεις δεδομένων γενετικής ποικιλομορφίας
• Βάσεις δεδομένων βιβλιογραφίας
• Δευτερογενείς βάσεις δεδομένων, στις οποίες υπάρχουν
κυρίως ταξινομήσεις των πρωτογενών δεδομένων,
χρήσιμες για αναλυτικούς σκοπούς
• Βάσεις δεδομένων οικογενειών (κυρίως πρωτεϊνών)
• Εξειδικευμένες βάσεις δεδομένων
Βάσεις δεδομένων ακολουθιών
νουκλεοτιδικών ακολουθιών
•GenBank
•EMBL
•DDBJ

GENBANK: Η GENBANK
(http://www.ncbi.nlm.nih.gov/Genbank/index.html) είναι μια
βάση νουκλεοτιδικών αλληλουχιών, διατίθεται ελεύθερα στην
επιστημονική κοινότητα και βρίσκεται και υπό την αιγίδα του
Εθνικού Ινστιτούτου Υγείας των Η.Π.Α (National Institutes of
Health). Τα δεδομένα της βάσης προέρχονται από υποβολές
δεδομένων διαφόρων ερευνητικών ομάδων όπως αυτά
προκύπτουν από πειραματικές διεργασίες. Η διαδικασία
υποβολής γίνεται με την συμπλήρωση κατάλληλης φόρμας μέσω
διαδικτύου. Τα δεδομένα που υποβάλλονται στην βάση
επεξεργάζονται, σχολιάζονται (annotate) από τους υπεύθυνους
της βάσης και στη συνέχεια δημοσιοποιούνται σε αυτήν. Σε
συχνά χρονικά διαστήματα τα δεδομένα που έχουν καταχωρηθεί
στη βάση επανεξετάζονται και διορθώνονται σε περίπτωση που
έχουν προκύψει νέα δεδομένα. Ο αριθμός των νουκλεοτιδικών
βάσεων που περιέχονται στην GENBANK διπλασιάζεται κάθε 14
μήνες με αποτέλεσμα η τελευταία έκδοση (Rel. 206,
Φεβρουάριος 2015) να περιέχει 181.336.445 ακολουθίες και
187.893.826.750 συνολικό αριθμό βάσεων.
•EMBL-Bank: Η EMBL Nucleotide Sequence Database2
(http://www.ebi.ac.uk/embl/) αποτελεί τη μεγαλύτερη βάση
νουκλεοτιδικών αλληλουχιών στην Ευρώπη, βρίσκεται υπό την
αιγίδα του Ευρωπαϊκού Εργαστηρίου Μοριακής Βιολογίας
(EMBL) ενώ εδράζεται και συντηρείται από το Ευρωπαϊκό
Ινστιτούτο Βιοπληροφορικής (EBI) στο Cambridge, UK. Οι
ακολουθίες κατατίθενται στην EMBL-Bank μέσω διαδικτύου,
ακολουθώντας μία απλή διαδικασία από ανεξάρτητα ερευνητικά
εργαστήρια ή ομάδες που ασχολούνται με τον προσδιορισμό των
γονιδιωμάτων διαφόρων οργανισμών. Αντίστοιχα με την
GENBANK, οι νέες καταχωρήσεις ακολουθιών επεξεργάζονται,
σχολιάζονται από τους υπεύθυνους της βάσης και
δημοσιοποιούνται. Παράλληλα διατίθενται διάφορα εργαλεία
ανάλυσης ακολουθιών όπως το Fasta και το BLAST. Η παρούσα
έκδοση της EMBL-Bank (Rel. 122 - Νοέμβριος 2014) περιέχει
510.014.239 εγγραφές. Ο συνολικός αριθμός νουκλεοτιδίων
φτάνει τα 1.094.969.877.589

•DDBJ: H DNA Databank of Japan (DDBJ -


http://www.ddbj.nig.ac.jp/) είναι η μοναδική διεθνώς
αναγνωρισμένη βάση νουκλεοτιδικών αλληλουχιών στην Ιαπωνία.
Ιδρύθηκε το 1986 στο Εθνικό Ινστιτούτο Γενετικής (NIG) και
βρίσκεται υπό την αιγίδα του Υπουργείου Παιδείας, Επιστημών
και Αθλητισμού της Ιαπωνίας. Βασική πηγή δεδομένων της βάσης
αποτελούν οι εργασίες των Ιαπώνων ερευνητών. Επιπλέον στην
DDJB είναι διαθέσιμα διάφορα εργαλεία ανάλυσης
νουκλεοτιδικών αλληλουχιών. Η παρούσα έκδοση της DDJB (Rel.
99, Δεκέμβριος 2014) περιέχει 178.825.615 εγγραφές και
συνολικά 184.410.381.191 νουκλεοτιδικές βάσεις που περιέχονται
στις ακολουθίες.
Fasta Format
>gi|29848|emb|X61622.1|HSCDK2MR H.sapiens CDK2 mRNA
ATGGAGAACTTCCAAAAGGTGGAAAAGATCGGAGAGGGCACGTACGGAGTTGTGTACAAAGCCAGAAACA
AGTTGACGGGAGAGGTGGTGGCGCTTAAGAAAATCCGCCTGGACACTGAGACTGAGGGTGTGCCCAGTAC
TGCCATCCGAGAGATCTCTCTGCTTAAGGAGCTTAACCATCCTAATATTGTCAAGCTGCTGGATGTCATT
CACACAGAAAATAAACTCTACCTGGTTTTTGAATTTCTGCACCAAGATCTCAAGAAATTCATGGATGCCT
CTGCTCTCACTGGCATTCCTCTTCCCCTCATCAAGAGCTATCTGTTCCAGCTGCTCCAGGGCCTAGCTTT
CTGCCATTCTCATCGGGTCCTCCACCGAGACCTTAAACCTCAGAATCTGCTTATTAACACAGAGGGGGCC
ATCAAGCTAGCAGACTTTGGACTAGCCAGAGCTTTTGGAGTCCCTGTTCGTACTTACACCCATGAGGTGG
TGACCCTGTGGTACCGAGCTCCTGAAATCCTCCTGGGCTCGAAATATTATTCCACAGCTGTGGACATCTG
GAGCCTGGGCTGCATCTTTGCTGAGATGGTGACTCGCCGGGCCCTGTTCCCTGGAGATTCTGAGATTGAC
CAGCTCTTCCGGATCTTTCGGACTCTGGGGACCCCAGATGAGGTGGTGTGGCCAGGAGTTACTTCTATGC
CTGATTACAAGCCAAGTTTCCCCAAGTGGGCCCGGCAAGATTTTAGTAAAGTTGTACCTCCCCTGGATGA
AGATGGACGGAGCTTGTTATCGCAAATGCTGCACTACGACCCTAACAAGCGGATTTCGGCCAAGGCAGCC
CTGGCTCACCCTTTCTTCCAGGATGTGACCAAGCCAGTACCCCATCTTCGACTCTGATAGCCTTCTTGAA
GCCCCCGACCCTAATCGGCTCACCCTCTCCTCCAGTGTGGGCTTGACCAGCTTGGCCTTGGGCTATTTGG
ACTCAGGTGGGCCCTCTGAACTTGCCTTAAACACTCACCTTCTAGTCTTAACCAGCCAACTCTGGGAATA
CAGGGGTGAAAGGGGGGAACCAGTGAAAATGAAAGGAAGTTTCAGTATTAGATGCACTTAAGTTAGCCTC
CACCACCCTTTCCCCCTTCTCTTAGTTATTGCTGAAGAGGGTTGGTATAAAAATAATTTTAAAAAAGCCT
TCCTACACGTTAGATTTGCCGTACCAATCTCTGAATGCCCCATAATTATTATTTCCAGTGTTTGGGATGA
CCAGGATCCCAAGCCTCCTGCTGCCACAATGTTTATAAAGGCCAAATGATAGCGGGGGCTAAGTTGGTGC
TTTTGAGAATTAAGTAAAACAAAACCACTGGGAGGAGTCTATTTTAAAGAATTCGGTTAAAAAATAGATC
CAATCAGTTTATACCCTAGTTAGTGTTTTCCTCACCTAATAGGCTGGGAGACTGAAGACTCAGCCCGGGT
GGGGGT
Βάσεις δεδομένων πρωτεϊνικών
ακολουθιών
• Οι βάσεις δεδομένων πρωτεϊνικών ακολουθιών, αποτελούν το δεύτερο
μεγαλύτερο σε όγκο τμήμα του συνόλου των βιολογικών βάσεων
δεδομένων (μετά τις ακολουθίες DNA), αλλά αποτελούν ίσως το
σημαντικότερο τμήμα, καθώς οι πρωτεϊνικές ακολουθίες
παρουσιάζουν μεγάλη ποικιλομορφία τόσο στη δομή όσο και στη
λειτουργία. Κατά συνέπεια, μεγάλο μέρος της σύγχρονης
βιοπληροφορικής ανάλυσης, αναφέρεται σε πρωτεϊνικές ακολουθίες
και υπάρχει τεράστιος όγκος λειτουργικών δεδομένων που παράγονται
συνεχώς πειραματικά, και τα οποία αποτελούν ή θα έπρεπε να
αποτελούν μέρος της πληροφορίας που περιέχεται σε αυτές τις βάσεις.
• UniprotKB (Uniprot Knowledgebase http://www.uniprot.org/)
UniprotKB
• Η UniprotKB (Uniprot Knowledgebase http://www.uniprot.org/), αποτελεί την κύρια,
σε παγκόσμοιο επίπεδο βάση δεδομένων πρωτεϊνικών ακολουθιών (Uniprot, 2013).
• Απότελείται από δύο υποσύνολα, την Uniprot/SwissProt η οποία περιέχει τις καλά
σχολιασμένες πρωτεϊνικές ακολουθίες, και την Uniprot/TrEMBL η οποία περιέχει τις
πρωτεϊνικές ακολουθίες που έχουν προκύψει από αυτόματη (ηλεκτρονική) μετάφραση
γονιδιωματικών αλληλουχιών.
• Η UniprotKB/SwissProt περιέχει 547.599 ακολουθίες (Rel. 2015_02 – Φεβρουάριος
2015) οι οποίες έχουν περάσει από κάποιου είδους έλεγχο και συνοδεύονται από
συμπληρωματικά σχόλια όπως, βιβλιογραφικές αναφορές, γενικά στοιχεία
δευτεροταγούς δομής, σύνδεσμοι σε άλλες βάσεις δεδομένων σχετικές με κάθε εγγραφή
καθώς και σημειώσεις για τη βιολογική λειτουργία (αν είναι γνωστές) καθώς και άλλες
χρήσιμες πληροφορίες.
• H Uniprot/TrEMBL περιέχει σήμερα (Rel. 2015_02 – Φεβρουάριος 2015) 92.124.243
ακολουθίες η οποίες όμως δεν έχουν υποστεί ανθρώπινο σχολιασμό. Περιοδικά, οι
σχολιαστές της UniprotΚΒ εντοπίζοντας δεδομένα από τη βιβλιογραφία αλλά και με
χρήση αυτοματοποιημένων εργαλείων, αλλάζουν το σχολιασμό των καταχωρήσεων και
έτσι μια πρωτεϊνική αλληλουχία ενδέχεται να "περάσει" από την Uniprot/TrEMBL στην
Uniprot/SwissProt. Το είδος, το εύρος και η μεγάλη ποικιλομορφία του σχολιασμού που
μπορεί να υπάρχει σε επίπεδο πρωτεϊνικής αλληλουχίας είναι τεράστιο (σε ποιο
κυτταρικό οργανίδιο υπάρχει, σε ποιον ιστό εκφράζεται, ποια είναι η δευτεροταγής δομή
της, ποιος ο βιολογικός της ρόλος, ποια τα μονοπάτια στα οποία εμπλέκεται κ.ο.κ.), και
κατά συνέπεια, ο όγκος της πληροφορίας στην Uniprot/SwissProt είναι τεράστιος, όπως
επίσης και η πιθανότητα (παρόλες τις προσπάθειες), η πληροφορία αυτή να είναι
λαθεμένη ή απλά ελλειπής..

Η ιστορία…
• Ιστορικά, αξίζει να αναφερθεί ότι η Uniprot προέκυψε το 2002 από μια συνένωση των
δύο μεγαλύτερων τότε βάσεων δεδομένων, της SwissProt και της PIR.
• H SwissProt Ιδρύθηκε το 1986 στο Ελβετικό ινστιτούτο Βιοπληροφορικής (Swiss
Institute of Bioinformatics) και λειτουργούσε σε συνεργασία με το Ευρωπαϊκό
Ινστιτούτο Βιοπληροφορικής (European Bioinformatics Institute).
• Η Protein Information Resource (PIR - http://pir.georgetown.edu/ ) ήταν η αντίστοιχη
Αμερικάνικη βάση δεδομένων. Η έδρα της ήταν στο Πανεπιστήμιο του Georgetown και
αποτελούσε τμήμα του Εθνικού Ιδρύματος Βιοϊατρικής Έρευνας (NBRF) των Η.Π.Α. Η
κυριότερη βάση που περιέχει είναι η PIR-International Protein Sequence Database
(PSD), της οποίας τα δεδομένα προκύπτουν από την συνεργασία της PIR με τo Munich
Information Center for Protein Sequences (MIPS) και την Japanese International Protein
Information Database (JIPID).
• Το 2002, η PIR σε μια κοινή προσπάθεια με το EBI (European Bioinformatics Institute)
και το SIB (Swiss Institute of Bioinformatics) σχημάτισαν το UniProt consortium. Με
αυτόν τον τρόπο οι ακολουθίες της PIR-PSD αλλα και ο σχολιασμός τους
ενσωματώθηκαν στην UniProt Knowledgebase. Προστέθηκαν διασυνδέσεις μεταξύ των
καταχωρήσεων της UniProt και της PIR-PSD για να διευκολυνθεί ο εντοπισμός παλαιών
καταχωρήσεων της PIR-PSD. Πρωτεϊνες που ήταν μοναδικές στην PIR-PSD όπως και οι
αναφορές τους αλλά και τα πειραματικά δεδομένα που υπήρχαν στις σχετικές
καταχωρήσεις μπορούν πλέον να βρεθούν στις αντίστοιχες καταχωρήσεις της UniProt.
PIR/NBRF Format
>P1;CRAB_ANAPL ALPHA CRYSTALLIN B CHAIN (ALPHA(B)-
CRYSTALLIN).
MDITIHNPLI RRPLFSWLAP SRIFDQIFGE HLQESELLPA
SPSLSPFLMR SPIFRMPSWL ETGLSEMRLE KDKFSVNLDV
KHFSPEELKV KVLGDMVEIH GKHEERQDEH GFIAREFNRK
YRIPADVDPL TITSSLSLDG VLTVSAPRKQ SDVPERSIPI
TREEKPAIAG AQRK*

Βάσεις δεδομένων τρισδιάστατων


βιολογικών δομών
• Οι βάσεις αυτές περιέχουν δεδομένα που έχουν να κάνουν με την
τρισδιάστατη δομή βιολογικών μακρομορίων.
• Οι τρισδιάστατες δομές αποτελούν το τελικό στάδιο μιας επίπονης
διαδικασίας η οποία μετά τη χρήση μοριακών τεχνικών (κλωνοποίηση,
απομόνωση, κρυστάλλωση κ.ο.κ.), οδηγεί τελικά στην υπολογιστική
επίλυση της δομής μέσω της διαδικασίας της κρυσταλλογραφίας
ακτίνων Χ, ή, σε πιο σπάνιες περιπτώσεις με φασματογραφία NMR.
• Το μεγαλύτερο ενδιαφέρον, βέβαια, έχουν οι δομές πρωτεϊνών, καθώς
οι πρωτεϊνες είναι τα μακρομόρια των οποίων η μεγάλη
ποικιλομορφία της δομής συνδέεται άμεσα με την βιολογική δράση. Η
μοναδική βάση αυτόύ το είδους παγκοσμίως, είναι η PDB, η οποία και
αναλύεται παρακάτω.
• Protein Data Bank (PDB - www.rcsb.org )
Protein Data Bank
• H Protein Data Bank (PDB - www.rcsb.org ) είναι παγκοσμίως η μοναδική
βάση στην οποία περιέχονται τρισδιάστατες δομές βιολογικών μακρομορίων
(Kouranov, et al., 2006).
• Ιδρύθηκε το 1971 στα εργαστήρια Brookhaven National Laboratories (BNL)
των ΗΠΑ. Αρχικά αποτελούνταν από 7 δομές μακρομορίων οι οποίες
προέκυψαν από κρυσταλλογραφικές μελέτες ενώ είχε μικρό ρυθμό αύξησης
εγγραφών μέχρι τα τέλη της δεκαετίας του '70.
• Την δεκαετία του '80 παρατηρήθηκε σημαντική αύξηση του ρυθμού
προσθήκης δεδομένων λόγω της τεχνολογικής εξέλιξης σε κάθε στάδιο του
προσδιορισμού των δομών, ενώ πλέον η PDB περιέχει και δομές που έχουν
προκύψει με φασματοσκοπία Πυρηνικού Μαγνητικού Συντονισμού (NMR).
• Σήμερα (Φεβρουάριος 2015) η PDB περιλαμβάνει 106.858 δομές βιομορίων.
• Οι εγγραφές της PDB περιλαμβάνουν εκτός από τις συντεταγμένες των
ατόμων που απαρτίζουν τη δομή και επιπρόσθετα βοηθητικά στοιχεία όπως
βιβλιογραφικές αναφορές, λεπτομέρειες για τον προσδιορισμό της δομής
καθώς και άλλα στοιχεία που προκύπτουν από τη συγκεκριμένη δομή.
• Κάθε δομή πριν δημοσιευθεί στην βάση ελέγχεται για την ορθότητα της με τη
χρήση ειδικού λογισμικού. Στη συνέχεια εφόσον περάσει τις δοκιμές με
επιτυχία αποκτά ένα χαρακτηριστικό κωδικό και προστίθεται στη βάση.
Protein Data Bank
• Πρέπει να τονιστεί, ότι η καταχώρηση στην PDB είναι η τρισδιάστατη δομή,
και όχι η πρωτεϊνη.
• Κατά συνέπεια, είναι δυνατόν να υπάρχει μια καταχώρηση της PDB η οποία
να περιέχει περισσότερες από μία (ακόμα και μερικές δεκάδες) πρωτεϊνικές
ακολουθίες, όπως για παράδειγμα όταν αναφερόμαστε σε πολυενζυμικά
σύμπλοκα τα οποία περιέχουν πολλές υπομονάδες.
• Επίσης, είναι δυνατόν να υπάρχουν περισσότερες από μία δομές μιας
συγκεκριμένης πρωτεϊνης, καθώς είναι δυνατόν να έχουν γίνει διαφορετικά
πειράματα είτε σε διαφορετικές συνθήκες, είτε παρουσία άλλων παραγόντων,
είτε και απλά με άλλη τεχνική για να επιτευχθεί καλύτερη ανάλυση.
• Φυσικά, όπως είναι αναμενόμενο, μόνο ένα μικρό υποσύνολο των γνωστών
πρωτείνών έχουν γνωστή τρισδιάστατη δομή, γιατί η διαδικασία επίλυσης της
δομής είναι χρονοβόρα και δύσκολη. Αυτό φαίνεται ξεκάθαρα αν συγκρίνουμε
τον αριθμό των καταχωρήσεων της Uniprot με αυτόν της PDB.
• Ειδικότερα δε, για κάποιες ειδικές κατηγορίες πρωτεϊνών όπως οι
διαμεμβρανικές πρωτεϊνες, τα πράγματα είναι ακόμα πιο δύσκολα από
πειραματικής πλευράς και οι τρισδιάστατες δομές τους, είναι ακόμα πιο
σπάνιες.
• Τέλος, αξίζει να αναφερθεί, ότι παρόμοια βάση (MMDB) συντηρείται και στις
ΗΠΑ στα πλαίσια του NCBI, με συνεχή όμως επαφή και ενημέρωση από την
PDB.
GenBank, SwissProt,
PDB

Κοινό χαρακτηριστικό:
Η Εκθετική Αυξηση
(διπλασιασμός κάθε 1,5
– 2 χρόνια)

Βάσεις δεδομένων γονιδιακής


έκφρασης
• Εκτός από τις βάσεις δεδομένων ακολουθιών και δομών, σημαντική είναι τα τελευταία
χρόνια και η ανάπτυξη των βάσεων δεδομένων γονιδιακής έκφρασης.
• Με την εξέλιξη της τεχνολογίας και τη δημιουργία νέων οικονομικότερων τσιπ
μικροσυστοιχιών, αλλά και με την εμφάνιση των τεχνολογιών Next Generation
Sequencing, τα πειράματα ανάλυσης γονιδιακής έκφρασης πραγματοποιούνται με
μεγαλύτερο ρυθμό και έτσι υπάρχει ανάγκη αποθήκευσης και ανάλυσης όλων αυτών
των δεδομένων.
• Τη λύση στο παραπάνω πρόβλημα έδωσαν οι βάσεις δεδομένων οι οποίες περιέχουν
δεδομένα από χιλιάδες πειράματα μικροσυστοιχιών. Οι βάσεις δεδομένων αυτές
επιτρέπουν την καταχώρηση αποτελεσμάτων από πειράματα μικροσυστοιχιων, ενώ
κάποιες από αυτές προσφέρουν και επιπλέον εργαλεία ανάλυσης. Επίσης, παρέχουν
πληροφορίες σχετικά με το είδος των δεδομένων, την πλατφόρμα μικροσυστοιχίων που
χρησιμοποιήθηκε στο πείραμα, τα γονίδια τα οποία μελετώνται καθώς επίσης και
πληροφορίες σχετικά με τα είδη των δειγμάτων τα οποία χρησιμοποιήθηκαν.
• Η βασική δομή αυτών των αρχείων, διαφέρει πολύ από αυτά που αναφέραμε μέχρι
τώρα, καθώς έχουμε να κάνουμε με έναν πίνακα, στον οποίο αναγράφονται τιμές
"έκφρασης" ενός γονιδίου για κάθε άτομο. Συνήθως τα πειράματα αυτά αφορούν λίγα
άτομα, αλλά ανάλογα με την πλατφόρμα μπορούμε να έχουμε δεδομένα έκφρασης για
μερικές εκατοντάδες έως μερικές δεκάδες χιλιάδες γονίδια.
• Επειδή ο όγκος των δεδομένων γονιδιακής έκφρασης είναι μεγάλος και πολύπλοκος, για
να καταχωρηθούν τα δεδομένα των μικροσυστοιχιών στις δημόσιες βάσεις δεδομένων
θα πρέπει να ακολουθούν ένα συγκεκριμένο πρωτόκολλο με βάση το οποίο
καταχωρείται η ελάχιστη πληροφορία που περιγράφει ένα πείραμα μικροσυστοιχιών
(MIAME:Minimun Ιnformation About a Μicroarray Εxperiment).
Βάσεις δεδομένων γονιδιακής
έκφρασης
• GeneExpression Omnibus (GEO): Βάση δεδομένων του NCBI που παρέχει
δεδομένα γονιδιακής έκφρασης, τόσο από μικροσυστοιχίες όσο και από
αλληλούχιση (next generation sequenicng). Είναι διαθέσιμη στην ιστοσελίδα
http://www.ncbi.nlm.nih.gov/geo/ ενώ στην ίδια διεύθυνση υπάρχουν
διαθέσιμα και κάποια διαδικτυακά εργαλεία που επιτρέπουν απλές αναλύσεις
των δεδομένων της βάσης. Τα δεδομένα υπάρχουν τόσο σε ακατέργαστη (raw)
όσο και σε επεξεργασμένη μορφή (με κανονικοποιήσεις κ.ο.κ.).
• Array Express: Δημόσια βάση δεδομένων μικροσυστοιχιων η οποία
διατηρείται στο Ευρωπαϊκό Ινστιτούτο Βιοπληροφορικής, ΕΒΙ, διαθέσιμη
στην ιστοσελίδα http://www.ebi.ac.uk/arrayexpress/. Είναι της ίδιας λογικής
με την GEO, την οποία περιέχει ως υποσύνολο βάσει της συνεργασίας των
ιδρυμάτων. Στην ιστοσελίδα υπάρχουν επίσης διαθέσιμα εργαλεία για
ανάλυση, οδηγίες για προγραμματιστική πρόσβαση στις υπηρεσίες και
tutorials).
• Stanford Microarray Database (SMD): Βάση δεδομένων που
κατασκευάστηκε αρχικά για να καλύπτει τις ανάγκες διαμοιρασμού αρχείων
των ερευνητών του Stanford, αλλά μετεξελίχθηκε σταδιακά σε ένα δημόσιο
αποθετήριο δεδομένων για μικροσυστοιχίες. http://smd.stanford.edu
Βάσεις δεδομένων γενετικής
ποικιλομορφίας
• Οι βάσεις αυτές, αν και συνδέονται
στενά με τις βάσεις δεδομένων
ακολουθιών DNA, δεν αποτελούν
ευθέως παράγωγα τους, αλλά μάλλον
ανεξάρτητες οντότητες.
• Τούτο είναι κατανοητό αν σκεφτούμε ότι
σε μια δεδομένη θέση ενός γονιδιώματος
ενός είδους (πχ του ανθρώπου), τα
διαφορετικά άτομα είναι δυνατόν να
έχουν διαφορετική γενετική πληροφορία
(πχ Α αντί για Τ, κ.ο.κ.).
• Η βάση η οποία καταγράφει τους
πολυμορφισμούς και τις συχνότητες τους
στους διάφορους πληθυσμούς είναι η
dbSNP, ενώ η βάση που καταγράφει
πρωτογενώς τουλάχιστον τις
αλληλοσυσχετίσεις των πολυμορφισμών
αυτών, είναι η HapMap.

Βάσεις δεδομένων γενετικής


ποικιλομορφίας
• dbSNP: Η dbSNP είναι η δημόσια βάση για τους νουκλεοτιδικούς πολυμορφισμούς
http://www.ncbi.nlm.nih.gov/snp Εκτός από νουκλεοτιδικούς πολυμορφισμούς (single nucleotide
polymorphisms - SNPs), περιέχει και δεδομένα για πολυμορφικές θέσεις που αφορούν απαλοιφές ή
εισαγωγές βάσεων (deletion insertion polymorphisms -DIPs), καθώς και για ένθετα μεταθετά
στοιχεία και μικροδορυφορικές επαναλήψεις (short tandem repeats - STRs). Κάθε καταχώρηση στην
dbSNP περιέχει πληροφορίες για το που βρίσκεται ο πολυμορφισμός (δηλαδή την περιβάλλουσα
αλληλουχία), τη συχνότητα του πολυμορφισμού σε διάφορους πληθυσμούς, αλλά και για την
πειραματική μέθοδο, τα πρωτόκολλα και τις συνθήκες με τις οποίες μετρήθηκε η ποικιλομορφία. Η
dbSNP δέχεται επίσης υποβολές για καταχωρήσεις πολυμορφισμών από κάθε είδος, αλλά και από
διαφορετικά σημεία του γονιδιώματος. Λεπτομερής περιγραφή της βάσης δεδομένων υπάρχει στο
ελεύθερο διαδικτυακό βιβλίο του NCBI στη διεύθυνση
http://www.ncbi.nlm.nih.gov/books/NBK3848/.
• HapMap: Το International HapMap Project (http://hapmap.ncbi.nlm.nih.gov/) είναι το αποτέλεσμα
μια διεθνούς συνεργασίας σε μια προσπάθεια να εντοπισθούν και να καταγραφούν οι γενετικές
διαφορές αλλά και οι ομοιότητες των ανθρώπινων πληθυσμών. Ο σκοπός του προγράμματος είναι να
συγκρίνει τις γενετικές αλληλουχίες διαφορετικών ατόμων (από διαφορετικούς πληθυσμούς) και να
εντοπίσει με αυτόν τον τρόπο χρωμοσωμικές περιοχές στις οποίες οι γενετικές παραλλαγές
(συνήθως, νουκλεοτιδικοί πολυμορφισμοί), κληρονομούνται μαζί. Στην αρχική φάση του
προγράμματος, έγινε χρήση γενετικών δεδομένων από 4 πληθυσμούς Αφρικανικής, Ασιατικής και
Ευρωπαϊκής καταγωγής. Σε μεταγενέστερες εκδόσεις, προστέθηκαν και άλλοι πληθυσμοί, σε μια
προσπάθεια να υπάρχει όσο το δυνατό μεγαλύτερη κάλυψη παγκοσμίως. Τα τελικά δεδομένα που
είναι διαθέσιμα από τη βάση αυτή, είναι οι απλότυποι, δηλαδή οι συνδυασμοί πολυμορφισμών που
συνκληρονομούνται, και ακριβέστερα οι συντελεστές ανισορροπίας σύνδεσης (Linkage
Disequilibrium), των διαφόρων πολυμορφισμών του ιδίου χρωμοσώματος, μεταξύ τους. Με τη
χρήση αυτής της πληροφορίας, είναι δυνατόν να σχεδιαστούν μεθόδοι και αλγόριθμοι στατιστικής
γενετικής με τους οποίους θα επιχειρείται να απαντηθούν ερωτήματα σχετικά με τη γενετική
προδιάθεση σε ασθένειες και την ανταπόκριση σε φάρμακα. Επιπλέον, τέτοια δεδομένα είναι πολύ
χρήσιμα στη μελέτη της γενετικής δομής των ανθρώπινων πληθυσμών
Βάσεις δεδομένων βιβλιογραφίας
• Παρόλο που οι βάσεις αυτές δεν είναι με την στενή έννοια «βιολογικές βάσεις
δεδομένων», ιστορικά, αλλά και για λόγους που θα φανούν στην πορεία, είναι
καλό να γίνεται αναφορά και σε αυτές. Οι βάσεις αυτές, έχουν σαν
«καταχώρηση» τα στοιχεία μιας επιστημονικής δημοσίευσης (συγγραφέας,
περιοδικό, περίληψη κ.ο.κ.). Η κυριότερη βάση του είδους, είναι η PubMed
(http://www.ncbi.nlm.nih.gov/pubmed) η οποία στεγάζεται στο NCBI και
περιλαμβάνει περισσότερα από 24 εκατομύρια καταχωρήσεις επιστημονικών
άρθρων από τη βιοϊατρική βιβλιογραφία (έχοντας κάλυψη της MEDLINE,
άλλων περιοδικών των επιστημών της ζωής αλλά και από κάποια online
βιβλία). Οι αναφορές μπορεί να περιέχουν συνδέσμους στο πλήρες κείμενο
των εργασιών, είτε μέσω της PubMed Central (το υποσύνολο με τις ελεύθερα
διαθέσιμα δημοσιεύσεις πλήρους κειμένου), είτε απευθείας μέσω των
ιστοσελίδων των εκδοτικών οίκων. Παρόλο που τα στοιχεία της PubMed είναι
δημόσια διαθέσιμα, το να έχει πρόσβαση κανείς στο πλήρες κείμενο μιας
εργασίας, εξαρτάται από την πολιτική του εκδοτικού οίκου. Στον ίδια
ιστοσελίδα, υπάρχουν διαθέσιμα και tutorials για τη χρήση της υπηρεσίας
(http://www.nlm.nih.gov/bsd/disted/pubmed.html).
• Άλλες βάσεις δεδομένων, παρόμοιας φύσης, είναι το SCOPUS
(http://www.scopus.com/) και το Web of Science
(http://webofknowledge.com/).
Δευτερογενείς βάσεις δεδομένων
• Βάσεις δεδομένων οικογενειών
• Όπως είναι γνωστό, οι πρωτεϊνες γενικά απότελούνται από
μία ή περισσότερες διακριτές λειτουργικές περιοχές
(domains), οι οποίες πολλές φορές είναι και δομικά
αυτοτελής.
• Οι περιοχές αυτές, θεωρείται ότι μπορούν να
λειτουργήσουν αλλά και να εξελιχθούν ανεξάρτητα από το
υπόλοιπο τμήμα της πρωτεϊνης. Διαφορετικοί συνδυασμοί
τέτοιων περιοχών οδηγούν σε μια μεγάλη ποικιλία των
πρωτεϊνών στη φύση.
• Συνεπώς, η ανίχνευση τέτοιων περιοχών είναι σημαντική
στην προσπάθεια λειτουργικής ταξινόμησης των
πρωτεϊνών.
Protein Families

src-like protein tyrosine kinase - 5 in Drosophila proteome

38 tyrosine kinases
43 SH2 domain containing
110 SH3 domain containing
Local Similarity

vav

src42

csw
Regular Expressions

PROSITE Syntax:
[RK]-G-{EDRKHPCG}-[AGSCI]-[FY]-[LIVA]-x-[FYM]

Regular Expression:
[RK] G[^EDRKHPCG] [AGSCI] [FY] [LIVA] . [FYM]
Motifs, Profiles και Patterns σε
πολλαπλές στοιχίσεις

PROSITE Syntax:
P-A-[FW]-X-[YW]-[LV]-S-C-X(3)-[WYH]-Q-X(1-7)-[EQ]-G-H-Y

Regular Expression:
PA[FW].[YW][LV]SC.{3}[WYH]Q.{1,7}[EQ]GHY

EGF domain
AGRI_CHICK/1-3 PCDSH--PCLHGGTCEDD------GREFTCRCPAGKGGAVCE
GLP1_CAEEL/2-0 PCDSD--PCNNG-LCYPFY------GGFQCICNNGYGGSYCE
NTC3_MOUSE/25- PCFSR--PCLHGGICNPTH------PGFECTCREGFTGSQCQ
NTC3_MOUSE/19- ACESQ--PCQAGGTCTSDG------IGFRCTCAPGFQGHQCE
NTC3_MOUSE/32- PCESQ--PCQHGGQCRHSLGRGGG-LTFTCHCVPPFWGLRCE
CRB_DROME/14-0 ECDSN--PCSKHGNCNDGI------GTYTCECEPGFEGTHCE
NTC4_MOUSE/25- LCQSQ--PCSNGGSCEITTGPP---PGFTCHCPKGFEGPTCS
NTC4_MOUSE/17- ACHSG--PCLNGGSCSIRP------EGYSCTCLPSHTGRHCQ
FAT_DROME/2-0 VCYSK--PCRNGGSCQRSPDG----SSYFCLCRPGFRGNQCE
NOTC_BRARE/3-0 ACMNS--PCRNGGTCSLLTL-----DTFTCRCQPGWSGKTCQ
NOTC_BRARE/6-0 PCLPS--PCRSGGTCVQTSD-----TTHTCSCLPGFTGQTCE
DLK_HUMAN/4-0 NCASS--PCQNGGTCLQHTQ-----VSYECLCKPEFTGLTCV
NTC4_MOUSE/1-3 LCGGSPEPCANGGTCLRLSQ-----GQGICQCAPGFLGETCQ
NOTC_BRARE/9-0 DCASA--ACSHGATCHDRV------ASFFCECPHGRTGLLCH
NTC4_MOUSE/18- HCVSA--SCLNGGTCVNKP------GTFFCLCATGFQGLHCE
DLL1_MOUSE/6-0 DCASS--PCANGGTCRDSV------NDFSCTCPPGYTGKNCS
DL_DROME/7-0 LCLIR--PCANGGTCLNLN------NDYQCTCRAGFTGKDCS
FBP1_STRPU/2-0 DCDPN--LCQNGAACTDLV------NDYACTCPPGFTGRNCE
* * * *

–C-x-C-x(5)-G-x(2)-C
Patterns
• Απλά στην κατασκευή και διαισθητικά
• Εύκολα στην υλοποίηση και αναζήτηση
• Δύσκαμπτα σε πιο πολύπλοκες καταστάσεις
• Πολλά false positive/false negative
• Τα μικρά patterns έχουν μεγάλη πιθανότητα
τυχαίας εμφάνισης
• Motifs: small patterns

Sequence profiles are a condensed


representation of multiple alignments
master
sequence HBA_human ... W G K V G A - - H A G E ...
HBB_human ... W G K V - - - - N V D E ...
MYG_phyca ... W G K V E A - - D V A G ...
LGB2_luplu ... W K D F N A - - N I P K ...
GLB1_glydi ... W E E I A G A D N G A G ...
A ... 0 0 0 0 0.25 0.75 0 0.2 0.4 0 ...
C ... 0 0 0 0 0 0 0 0 0 0 ...
D ... 0 0 0.2 0 0 0 0.2 0 0.2 0 ...
Each column of E ... 0 0.2 0.2 0 0.25 0 0 0 0 0.4 ...
F ... 0 0 0 0.2 0 0 0 0 0 0 ...
the profile pj(a) G ... 0 0.6 0 0 0.25 0.25 0 0.2 0.2 0.4 ...
contains the H ... 0 0 0 0 0 0 0.2 0 0 0 ...
I ... 0 0 0 0.2 0 0 0 0.2 0 0 ...
amino acid K ... 0 0.2 0.6 0 0 0 0 0 0 0.2 ...
frequencies in the L ...
...
0 0 0 0 0 0 0 0 0 0 ...
...
M 0 0 0 0 0 0 0 0 0 0
multiple sequence N ... 0 0 0 0 0.25 0 0.6 0 0 0 ...
alignment P ... 0 0 0 0 0 0 0 0 0.2 0 ...
Q ... 0 0 0 0 0 0 0 0 0 0 ...
R ... 0 0 0 0 0 0 0 0 0 0 ...
S ... 0 0 0 0 0 0 0 0 0 0 ...
T ... 0 0 0 0 0 0 0 0 0 0 ...
V ... 0 0 0 0.6 0 0 0 0.4 0 0 ...
W ... 1.0 0 0 0 0 0 0 0 0 0 ...
Y ... 0 0 0 0 0 0 0 0 0 0 ...
PROSITE
• Η PROSITE (http://www.expasy.ch/prosite/) αποτελεί μια βάση ταξινόμησης
πρωτεϊνικών ακολουθιών και αυτοτελών περιοχών ακολουθιών (sequence domains) σε
οικογένειες (Sigrist, et al., 2010).
• Υπάρχουν γενικά δύο τρόποι για τη δημιουργία των 'αποτυπωμάτων'. Ο ένας βασίζεται
στη χρήση μιας γλώσσας παρόμοιας με αυτής των "κανονικών εκφράσεων" (regular
expressions), και είναι ο πιο παλιός και εύκολος στη δημιουργία, ενώ ο άλλος βασίζεται
στην καταστευή profiles (πίνακες με ειδικές ανά θέση πιθανότητες εμφάνισης
αμινοξέων), μέθοδος η οποία είναι πιο σύνθετη αλλά και πιο ευαίσθητη.
• Μέχρι σήμερα η PROSITE περιέχει 'αποτυπώματα' για περίπου 1716 οικογένειες για
καθεμία από τις οποίες συμπεριλαμβάνεται λεπτομερής ανάλυση για τη δομή και τη
λειτουργία των πρωτεϊνών που την αποτελούν. Συνολικά, υπάρχουν στη βάση 1308
patterns, 1107 profiles και 1105 "κανόνες" (αφορούν κυρίως πληροφορίες για το που θα
πρέπει να βρίσκεται το pattern για να θεωρηθεί έγκυρο αλλά και πληροφορίες για
συνδυασμούς από patterns). Προφανώς, υπάρχουν οικογένειες για τις οποίες υπάρχουν
διαθέσιμα και patterns και profiles (συνήθως, η παλαιότερες καταχωρήσεις αφορούσαν
το pattern).
• Στην βάση υπάρχουν επίσης, αναλύσεις για τις πρωτεϊνες της Uniprot που ανήκουν σε
κάθε οικογένεια όσο και για τις πρωτεϊνες στις οποίες εμφανίζεται ένα "αποτύπωμα"
(κυρίως όταν έχουμε να κάνουμε με pattern) αλλά είναι γνωστό ότι αυτές δεν ανήκουν
λειτουργικά στην οικογένεια αυτή. Τέλος, υπάρχουν εργαλεία για την αναζήτηση των
patterns και των profiles σε ακολουθίες, όσο και εργαλεία αναπαράστασης της
"σπονδυλωτής" δομής των πρωτεϊνών, δηλαδή της αναπαράστασης των περιοχών αυτών
και την αποτύπωση τους πάνω σε μια δεδομένη ακολουθία.

PFAM
• PFAM: Η βάση Pfam (http://pfam.xfam.org/) αποτελεί μια μεγάλη συλλογή
πρωτεϊνικών οικογενειών (Finn, et al., 2014). (Andreeva, et al., 2004)Βασίζεται στην
ίδια λογική με την PROSITE (ειδικά με το υποσύνολο της που βασίζεται σε profiles),
αλλά η μεγάλη διαφορά είναι ότι εδώ οι οικογένειες χαρακτηρίζονται από ένα hidden
Markov model (HMM), μέθοδος η οποία είναι πιο ευαίσθητη στον εντοπισμό μακρινών
ομόλογων, χωρίς όμως να υστερεί σε ταχύτητα και αποτελεσματικότητα.
• Στην τρέχουσα έκδοση (2013), η βάση περιέχει δεδομένα για 14.831 οικογένειες
παρέχοντας κάλυψη για πάνω από το 80% των πρωτεϊνικών καταχωρήσεων της
UNIPROT.
• Η PFAM αποτελείται από δύο υποσύνολα, την PFAM-A, και την PFAM-B. Η PFAM-A
αποτελείται από καταχωρήσεις (οικογένειες) υψηλής «ποιότητας», καθώς έχουν όλες
υποστεί σχολιασμό από ειδικούς, ενώ υπάρχουν αναφορές σε άλλες βάσεις δεδομένων
και κυρίως σε βιβλιογραφία. Η PFAM-B είναι το υποσύνολο, το οποίο προκύπτει με
αυτοματοποιημένο τρόπο εντοπίζοντας τις ομοιότητες ανάμεσα στις πρωτεϊνικές
περιοχές που απομένουν όταν αφαιρεθούν οι περιοχές που αντιστοιχούν στις
καταχωρήσεις της PFAM-A. Η PFAM-B είναι ιδιαίτερα χρήσιμη, γιατί με στοχευμένη
ανάλυση αυτών των «οικογενειών», μπορούν να προκύψουν οικογένειες που μετέπειτα
θα «προαχθούν» στην PFAM-A.
• Το βασικό χαρακτηριστικό της PFAM, και αυτό που την κάνει τόσο δημοφιλή, είναι ότι
με τη χρήση του ΗΜΜ (και ειδικά του πακέτου HMMER), μπορεί να επιλεγεί για κάθε
οικογένεια μία τιμή διαχωριστικού κατοφλίου στο σκορ, και κατά συνέπεια κάθε
πρωτεϊνη ταξινομείται μόνο σε μία οικογένεια (σε αυτή που σκοράρει πάνω από το
κατώφλι).
• Παρόλα αυτά, χαμηλότερη ομοιότητα μπορεί να υπάρχει μεταξύ πρωτεϊνών που
ανήκουν σε διαφορετικές οικογένειες, γιαυτό και η βάση περιέχει και μια ανώτερη
κατηγορία οργάνωσης, την υπερ-οικογένεια (clan).
CATH
• CATH: Η CATH (http://www.biochem.ucl.ac.uk/bsm/cath_new/index.html)
είναι μια βάση ιεραρχικής ταξινόμησης πρωτεϊνικών δομών που αποτελούν
εγγραφές της PDB με βάση τις αυτοτελείς δομικές περιοχές (domains) που τις
απαρτίζουν (Knudsen and Wiuf, 2010).
• Η CATH περιέχει αποκλειστικά πρωτεϊνικές δομές που είναι προσδιορισμένες
σε διακριτικότητα καλύτερη των 3 Angstroms και χρησιμοποιεί κυρίως
αυτοματοποιημένες μεθόδους για την ταξινόμησή τους. Σε ειδικές περιπτώσεις
και όταν αυτό κρίνεται απαραίτητο χρησιμοποιούνται και ανθρώπινα
κριτήρια.
• Η ιεραρχία αποτελείται κυρίως από τέσσερα επίπεδα: 1) την Τάξη (Class), 2)
την Αρχιτεκτονική (Architecture), 3) την Τοπολογία (Οικογένεια διπλώματος)
(Topology (fold family)) και 4) την Ομόλογη Οικογένεια (Homologous
superfamily). Οι πρωτεΐνες που αποτελούνται από πάνω από μία αυτοτελείς
δομικές περιοχές (domains), αναλύονται στα επιμέρους στοιχεία αυτόματα με
βάση ειδικούς αλγόριθμους αναγνώρισης των περιοχών.
• Η αυτόματη αυτή διαδικασία κατατάσσει το 53% των δομών. Οι υπόλοιπες
διαχωρίζονται στις επιμέρους αυτοτελείς δομικές περιοχές με παρατηρήσεις
που προκύπτουν είτε από τους αλγόριθμους αυτόματου διαχωρισμού είτε από
τη βιβλιογραφία. Η ταξινόμηση πραγματοποιείται μόνο στις αυτοτελείς
δομικές περιοχές.
SCOP
• SCOP: Ο βασικός στόχος της βάσης SCOP (http://scop.mrc-lmb.cam.ac.uk/scop/index.html) είναι η
ανάλυση των δομικών και εξελικτικών σχέσεων που παρατηρούνται μεταξύ όλων των πρωτεϊνών
γνωστής δομής καταχωρημένων στην PDB (Andreeva, et al., 2004). Η ταξινόμηση των πρωτεϊνών
πραγματοποιείται βάσει αυτών των δομικών και εξελικτικών σχέσεων. Τα βασικά επίπεδα
ταξινόμησης είναι τέσσερα: 1) η οικογένεια (Family), 2) η υπερ-οικογένεια (Superfamily), 3) το
δίπλωμα (Fold) και 4) η τάξη (Class).
• Οικογένεια (Family): Μεταξύ των μελών της οικογένειας παρατηρείται ξεκάθαρη εξελικτική σχέση.
Η ομοιότητα σε επίπεδο ακολουθίας είναι ίση ή μεγαλύτερη του 30%. Παρόλα αυτά υπάρχουν
περιπτώσεις στις οποίες οι δομές και η λειτουργία είναι παρόμοιες υποδηλώνοντας κοινό πρόγονο
ενώ η ομοιότητα σε επίπεδο ακολουθίας είναι μικρότερη του 30% (σφαιρίνες, 15%).
• Υπερ-οικογένεια (Superfamily): Οι πρωτεΐνες που κατατάσσονται στις υπερ-οικογένειες εμφανίζουν
πολύ μικρή ομοιότητα στο επίπεδο της ακολουθίας αλλά τα δομικά τους χαρακτηριστικά και η
λειτουργία τους υποδηλώνουν ότι πιθανά προέλθει από κοινό πρόγονο.
• Δίπλωμα (Fold): Σε αυτό το επίπεδο κατατάσσονται πρωτεΐνες που παρουσιάζουν ομοιότητα σε
επίπεδο δομής. Οι πρωτεΐνες που εμφανίζουν το ίδιο δίπλωμα έχουν τα ίδια σε μεγάλο βαθμό
χαρακτηριστικά δευτεροταγούς δομής, με κοινό προσανατολισμό και τις ίδιες τοπολογικές συνδέσεις
μεταξύ τους. Πρωτεΐνες που έχουν το ίδιο δίπλωμα αλλά δεν είναι όμοιες από άποψη αμινοξικής
ακολουθίας έχουν ορισμένα περιφερειακά στοιχεία της δευτεροταγούς τους δομής και στροφές
ανόμοια και όσον αφορά στο μέγεθος και όσον αφορά στη διαμόρφωση. Πρωτεΐνες που εμφανίζουν
κοινό δίπλωμα δεν είναι απαραίτητο να έχουν κοινή εξελικτική προέλευση.
• Τάξη (Class): Η ταξινόμηση γίνεται με βάση το δίπλωμα των στοιχείων δευτεροταγούς δομής των
πρωτεϊνών σε τέσσερις κύριες δομικές κατηγορίες: 1) την αll-α, όπου η δομή σχηματίζεται από α-
έλικες, 2) την all-β, όπου η δομή αποτελείται από β-πτυχωτές επιφάνειες, 3) την α/β, όπου στην δομή
της πρωτεΐνης εναλλάσσονται α-έλικες και β-πτυχωτές επιφάνειες και 4) την α+β, όπου σε διακριτές
περιοχές της δομής βρίσκονται α-έλικες και β-πτυχωτές επιφάνειες.
• Η αναγνώριση των σχέσεων καθώς και η ταξινόμηση βάσει των σχέσεων μεταξύ των πρωτεϊνών
πραγματοποιείται αποκλειστικά από ειδικούς επιστήμονες μετά από λεπτομερή μελέτη και σύγκριση
των πρωτεϊνικών δομών. Αυτοματοποιημένες μέθοδοι χρησιμοποιούνται μόνο για την ομοιογένεια
των δεδομένων που περιέχονται στη βάση
Εξειδικευμένες βάσεις δεδομένων
• Εκτός από τις μεγάλες, δημόσια διαθέσιμες και ευρέως
χρηματοδοτούμενες βάσεις δεδομένων που αναφέρθηκαν
παραπάνω, σημαντικό ρόλο στην πρόοδο της
βιοπληροφορικής παίζουν και οι εξειδικευμένες βάσεις
δεδομένων.
• Συνήθως, αλλά όχι πάντα, αφορούν τις πρωτεϊνικές
ακολουθίες (γιατί για αυτές υπάρχει μεγάλη πληθώρα
λειτουργικών δεδομένων, σε μεγάλη λεπτομέρεια, που δεν
μπορεί να καλυφθεί από τις βάσεις όπως η Uniprot), και
τις περισσότερες φορές, συντηρούνται από μικρές ή
μεσαίου μεγέθους ερευνητικές ομάδες.

Specialized Protein Resources


Network
• Στις 11 - 12 Αυγούστου 2014 πραγματοποιήθηκε με την
χρηματοδότηση του Wellcome Trust, στο Hinxton της Αγγλίας, μία
συνάντηση είκοσι ενός κύριων ερευνητών που ο καθένας διατηρεί μια
εξειδικευμένη πρωτεϊνική βάση δεδομένων ή διεξάγει έρευνα σχετικά
με την διατήρηση ενός τέτοιου αποθετηρίου (Specialized Protein
Resources Network).
• Το θέμα της συνάντησης ήταν η χάραξη πολιτικής για την δημιουργία
και διατήρηση πρωτεϊνικών βάσεων δεδομένων και αποτελούνταν από
πέντε ενότητες:
– (1) βασικές προκλήσεις,
– (2) εισαγωγή δεδομένων,
– (3) βέλτιστες πρακτικές για τη διατήρηση και την επιμέλεια,
– (4) ροή πληροφοριών προς και από τα μεγάλα κέντρα δεδομένων, και
– (5) επικοινωνία και χρηματοδότηση.
Specialized Protein Resources
Network
• Στην συνάντηση συμμετείχαν ερευνητές που διατηρούν «εξειδικευμένες» ηλεκτρονικές
βάσεις δεδομένων συγκεκριμένων ειδών πρωτεϊνών (όπως αυτές ορίζονται από τα
ενζυματικά, λειτουργικά ή δομικά χαρακτηριστικά τους) αλλά και διαχειριστές μεγάλων
πρωτεϊνικών αποθετηρίων (συμπεριλαμβανομένων των Pfam, RefSeq, Swiss-Prot, και
UniProt).
• Αυτά τα μεγάλα κέντρα δεδομένων χρησιμοποιούν διάφορες προσεγγίσεις για να
συντηρήσουν το περιεχόμενο των δεδομένων τους, όπως η υπολογιστική ανάλυση, η
συνεργασία, η ενοποίηση δεδομένων από πολλαπλές πηγές, και η επιμέλεια από
ειδικούς σχολιαστές.
• Όλες οι βάσεις δεδομένων υποστηρίζονται από ειδικό σχολιασμό ώστε να εξασφαλιστεί
η ακρίβεια και η πληρότητα των στοιχείων που παρουσιάζονται σε κάθε μικρή ή μεγάλη
πρωτεϊνική βάση δεδομένων.
• Ένα κοινό πρόβλημα όλων των συμμετεχόντων της συνάντησης ήταν η επιμέλεια και η
ανανέωση των βάσεων, δεδομένου ότι είναι δύσκολη η ανάκτηση πληροφοριών από
δημοσιευμένα άρθρα επειδή συχνά δεν αναφέρουν αναλυτικές συγκεκριμένες
πληροφορίες για τον υπό μελέτη οργανισμό (ειδικά για τα strains), ή τις ακριβείς
πληροφορίες της αλληλουχίας που αναλύθηκε (πχ ο κωδικός πρόσβασης στη Uniprot ή
το gi).
• Η διεύρυνση των συνεργασιών για τη διόρθωση λαθών στις βάσεις δεδομένων και η
διάδοση της γνώσης αναγνωρίστηκαν από όλους ως βασικοί τρόποι δράσης, που θα
ωφελήσουν όλες τις πρωτεϊνικές πηγές αλλά και τους χρήστες τους.

Group photo of the participants at the Protein Bioinformatics and Community Resources Retreat.
The name of each participant is followed by the short name of their protein resource or resources in
parentheses. Back row: David Landsman (Histone database), Dan Haft (TIGRFAMS), Bernard
Henrissat (CAZy), Rob Finn (InterPro and Pfam), David Craik (ConoServer and CyBASE), Arnaud
Chatonnet (ESTHER), Neil Rawlings (MEROPS); Middle row: Amos Bairoch (neXtProt), Gerard
Manning (Kinase.com), Michael Spedding (IUPHAR), Gert Vriend (GPCRDB), Milton Saier
(TCDB), Pantelis Bagos (OMPdb); Front row: Narayanaswamy Srinivasan (KinG), Ramanathan
Sowdhamini (PASS2), Alex Bateman (Pfam & UniProt), Patsy Babbitt (SFLD), Kim Pruitt
(RefSeq), Claire O’Donovan (UniProt), Gemma Holliday (MACiE), Nozomi Nagano (EzCatDB).
Best practices (Gert Vriend)
1. Longevity - The one rule to rule them all. Gert asks that unless you can
maintain your database for at least 10 years, then do not start.
2. Users - All databases need users and citations. To gain and keep users, you
need to provide query and browsing interfaces as well as someone who
answers emails.
3. Befriend Nucleic Acids Research and DATABASE journals - The descriptions
of your database are essential to inform new users. But it is also essential to
target publications to the readership.
4. Collaborate - Your collaborators may offer an exit strategy in the future.
4a. Be open - Nobody is going to steal your resource.
5. Give credit - There is more than 100% to go around.
6. Automate - Too much manual intervention makes for an unsustainable
database leading to premature death. You need to automate roughly 90% of
everything every year.
7. No new standards – Don’t invent a new standard. Use what exists.
8. Keep it simple - Google is a model interface.
9. Visibility - Be at the right conferences and be recognizable. Use the same logo
and present a poster.
10. Exit strategy - At some point you will retire. Start planning early to ensure
your database continues.

Σφάλματα
• Κύρια πρόκληση είναι η αξιοπιστία και όχι η ποσότητα των
δεδομένων. Εξαρτάται εξολοκλήρου από το πεδίο εφαρμογής και τη
λειτουργία της βάσης δεδομένων.
• Υπάρχουν πολλοί διαφορετικοί τύποι σφαλμάτων που μπορούν να
βρεθούν στις πηγές δεδομένων. Κάποια είναι σχετικά εύκολο να
εντοπιστούν μέσω αυτοματοποιημένων διαδικασιών, όπως για
παράδειγμα τα ορθογραφικά λάθη στο σχολιασμό. Σφάλματα όμως
που σχετίζονται με επιστημονικές πληροφορίες είναι πολύ πιο
δύσκολο να βρεθούν, ειδικά αφού η γνώση εξελίσσεται πολύ γρήγορα
• Υπάρχουν πολλοί ακόμα τύποι σφαλμάτων, για παράδειγμα ένα συχνό
σφάλμα στην ανάλυση πρωτεϊνικών αλληλουχιών σχετίζεται με την
σπονδυλωτή (modular) δομή πολλών πρωτεϊνών
• Ένας άλλος τύπος σφάλματος προκαλείται από την υπερεκτίμηση που
συνάγεται από την "απόδειξη μέσα από την επανάληψη".
Διόρθωση
• Πολλές πηγές, όπως η UniProtKB, διαθέτουν μηχανισμούς ώστε οι
χρήστες να αναφέρουν πιθανά προβλήματα. Άλλες βάσεις, όπως η
PDB, δεν επιτρέπουν την διόρθωση των δεδομένων
• Όταν το σφάλμα διορθωθεί, πως μπορούμε να ενημερώσουμε όλες τις
βάσεις δεδομένων που χρησιμοποιούν την αρχική εγγραφή;
• Με τον συνεχώς αυξανόμενο όγκο διαθέσιμων δεδομένων, πώς θα
μπορούσε να διατηρηθεί ή ακόμα και να ενισχυθεί η αξιοπιστία των
πηγών των βάσεων;
• Απαίτηση πριν από μια δημοσίευση. Εμπλοκή των χρηστών.
WikiPedia.
• Τυποποιημένη γλώσσα (Αυτό που εννοεί μία βάση με τον όρο
superfamily μπορεί να μην σημαίνει το ίδιο σε μία άλλη βάση)
• Οντολογίες
• Καταγραφή των βάσεων δεδομένων και διατήρηση (dead URL)

RECEPTOR CLASS G PROTEIN CLASS

EFFECTOR FAMILY

RECEPTOR FAMILY G PROTEIN FAMILY

EFFECTOR
Margarita C Theodoropoulou, Pantelis G Bagos, SUBFAMILY

Ioannis C Spyropoulos and Stavros J RECEPTOR G PROTEIN


Hamodrakas. SUBFAMILY SUBFAMILY

"gpDB: A database of GPCRs, G-proteins, EFFECTOR TYPE


Effectors and their interactions."
Bioinformatics. 2008 Jun 15;24(12):1471- RECEPTOR TYPE G PROTEIN TYPE
• A publicly accessible, relational database of
2.
G-proteins and their interactions with GPCRs and
effector molecules
ORGANISM
• gpDB currently contains data concerning 391 G-proteins, 2738 GPCRs with known coupling preference and 1390
effectors, knowing to interact with specific G-proteins.
• Classification according to a hierarchy of different classes, families, subfamilies and types, based on extensive
literature search
• The relational model of the database describes the known coupling specificity of the GPCRs to their respective
alpha subunit of G-proteins and, also, the interaction between G-protein subfamilies and specific effector types, a
unique feature not available in any other database
• Full sequence information with cross-references to publicly available databases
• Advanced text search, BLAST search against the database and a pattern search tool.
• Approx. 50 unique visitors per month
Availability: http://bioinformatics.biol.uoa.gr/gpDB/
Availability: http://bioinformatics.biol.uoa.gr/ExTopoDB/
• Experimental information collected from studies in the literature
that report the use of biochemical methods.
• Topological models of alpha-helical transmembrane proteins.
• 2143 transmembrane proteins from 1833 studies.
• Topological information is combined with transmembrane topology
prediction (constrained predictions using HMM-TM) resulting in
more reliable topological models.
• Signal peptide annotation using SignalP.
• Interface that allows user-defined constrained topology prediction
Tsaousis HMM-TM
using G.N., Tsirigos K.D., Andrianou X.D., Liakopoulos T.D., Bagos P.G., Hamodrakas S.J. ExTopoDB: A
• BlastofSearch
database
2490–2492.
against
experimentally derivedExTopoDB.
topological models of transmembrane proteins. 2010, Bioinformatics,26(19):

Availability: http://www.ompdb.org

• The biggest collection of beta barrel proteins currently available.


• Started off with 85 families and 70,000 protein sequences and currently contains 91 families and more
than 400,000 proteins.
• Out of the 91 families, 15 families were built completely from scratch, 16 do not belong to the
respective clan of Pfam, while 6 of them are annotated as DUF in Pfam
• Each family entry contains extensive information (function of protein members, literature references,
list of proteins with 3D-structure, seed and full protein alignments)
• Each database entry contains the following fields: OMPdb name, OMPdb id, Uniprot accession number,
protein description and classification, sequence, species, organism name, taxonomy, links to other
databases, accompanied with annotation for TM segments and signal peptides.
• OMPdb follows the monthly updates of Uniprot through an semi-automated procedure.
• Domain and Blast Search against OMPdb is available.
• The database can be downloaded in several formats (text, FASTA, XML) through the Download page.
• Approx. 350 unique visitors per month

Tsirigos K.D, Bagos P.G., Hamodrakas S.J. OMPdb: a database of β-barrel outer membrane proteins from Gram-
negative bacteria. 2011, Nucleic Acids Research,39 (Database Issue): 324–331.
The two structural classes

α-helical membrane proteins β-barrel membrane proteins

Gram-negative bacteria
Variety of structures…

Variety of structures…
and functions…

• Specific and non-specific channels (porins)


• Receptors for passive and active intake (TonB-dependent receptors,
FadL, Tsx etc)
• Adhesion molecules (OmpX, NspA, OpcA)
• Structural proteins-interactions with peptidoglycan (OmpA)
• Outer membrane enzymes (OmpT, OmpLA, PagP, PagL)
• Protein secretion in nearly all secretory pathways (Secretins, Ushers,
autotransporters, TPS etc)
• Folding and assembly of membrane proteins (Omp85/Sam50)
• Assembly of the outer membrane-LPS delivery (Imp/OstA)

Representative TM beta-barrels of known structure

Protein Number of
function PDB code PFAM code Organism
name -strands
OmpA Structural protein 8 1QJP PF01389 Escherichia coli
OmpX Adhesion 8 1QJ8 PF06316 Escherichia coli
NspA Adhesion 8 1P4T PF02462 Neisseria Meningitidis
PagP Enzyme 8 1MM4 PF07017 Escherichia coli
PagL Enzyme 8 2ERV PB038312 * Pseudomonas aeruginosa
OmpW General Porin 8 2F1T PF03922 Escherichia coli
OmpT Enzyme 10 1I78 PF01278 Escherichia coli
OpcA Adhesion 10 1K24 PF07239 Neisseria Meningitidis
OmpLA Enzyme 12 1QD5 PF02253 Escherichia coli
NalP Autotransporter 12 1UYN PF03797 Neisseria Meningitidis
Tsx Transporter 12 1TLY PF03502 Escherichia coli
OmpG General Porin 14 2F1C PB051875 * Escherichia coli
FadL Transporter 14 1T1L PF03349 Escherichia coli
OprP General Porin 16 2O4V PF07396 Pseudomonas aeruginosa
OmpF General Porin 16 2OMF PF00267 Escherichia coli
FhaC Transporter (TPS) 16 2QDZ PF03865 Bordetella pertussis
Porin General Porin 16 2POR PB028487 * Rhodobacter capsulatus
Maltoporin Specific Porin 18 2MPR PF02264 Salmonella typhimurium
FepA TonB-dependent Receptor 22 1FEP PF00593 Escherichia coli

Bagos PG, Hamodrakas SJ.


2007, submitted
Domain Organization

Concerning predictions, two issues are of importance:


-Topology prediction
-Discrimination

intC/ SP LysM β-barrel Ig-like Ig-like Ig-like C-type


invasin
Omp85 SP P P P P P β-barrel

PapC SP β-barrel

CopB SP β-barrel

secretin SP β-barrel

BcsC SP TPR1 TPR2 TPR2 β-barrel

NfrA SP TPR1 β-barrel

FomA SP β-barrel

SomA SP SLH β-barrel

Oms66/ SP β-barrel
omp66
Asp55/ SP β-barrel
62
Συλλογή ακολουθιών

Σχολιασμός,
Σχολιασμός, διαλογή
Ταξινόμηση σε οικογένειες

Συλλογή νέων ακολουθιών

a) single-domain OMPs or b) multi-domain OMPs

beta-barrel domain

database search (BLAST)

Until no
new family
members
are found

multiple alignment (ClustalW)

profile HMM (HMMER)


Entrez
• Το Entrez αποτελεί ένα σύστημα διαχείρισης δεδομένων για την αναζήτηση
και ανάκτηση πληροφοριών όλων των βάσεων δεδομένων που περιέχονται
στο NCBI (National Center for Biotechnology Information) των ΗΠΑ.
• Το Entrez είναι ανάλογο του SRS και παρέχει στον χρήστη τη δυνατότητα
αναζήτησης σε βάσεις δεδομένων νουκλεοτιδικών και πρωτεϊνικών
ακολουθιών, δομές βιομορίων και γονιδιωμάτων.
• Επιπλέον, μέσω του ίδιου γραφικού περιβάλλοντος, παρέχει την δυνατότητα
αναζήτησης στη βάση βιβλιογραφίας PUBMED καθώς και πιο πολύπλοκες
αναζητήσεις ανάμεσα στα στοιχεία τους.
• Βασικό μειονέκτημα αποτελεί το γεγονός ότι περιορίζεται μόνο στις βάσεις
δεδομένων του NCBI και ότι δεν επιτρέπει ιδιαίτερα πολύπλοκες αναζητήσεις.
• Παρόλα αυτά, αποτελεί για χρόνια τώρα την διεπαφή όλων των βάσεων
δεδομένων του NCBI, και επιτρέπει με τον ίδιο απλό τρόπο ο χρήστης να
πραγματοποιήσει αναζητήσεις σε τελείως διαφορετικές βάσεις δεδομένων
SRS (Sequence Retrieval System)
Βιοπληροφορική Ι

1
Στοίχιση αλληλουχιών

Τρόποι μελέτης των ακολουθιών


• Global information
Η ακολουθία αναπαρίσταται από ένα διάνυσμα σταθερού
μήκους (π.χ. τα ποσοστά εμφάνισης των αμινοξέων)
• Local information
Η ακολουθία αναπαρίσταται διαδοχικά επικαλυπτόμενα
«παράθυρα» σταθερού μήκους

3
Μοντέλο της ανεξαρτησίας
• Έστω μια ακολουθία x=x1,x2,x3…,xn
• Θεωρούμε τα xi ανεξάρτητα μεταξύ τους
ενδεχόμενα

Εντροπία
• Μια δεδομένη ακολουθία DΝΑ, όπως την ορίσαμε
παραπάνω, λέμε ότι έχει συνάρτηση εντροπίας κατά
Shannon ίση με
H (x)   P ( xi ) log P ( xi )
i
• Η εντροπία γίνεται μέγιστη όταν οι βάσεις είναι
ισοπίθανες, δηλαδή όταν pA=pG=pT=PC=1/4 οπότε θα
έχει τιμή ίση με H(x)=∑(1/4)log(1/4)=log4. Συνήθως σε
αυτές τις περιπτώσεις παίρνουμε λογάριθμους με βάση το
2, έτσι ώστε η μονάδα μέτρησης να είναι το bit. Η
πληροφορία μιας ακολουθίας ορίζεται ως:
I (x)  H max  H obs
5
Πολυπλοκότητα
• ορίζεται, για ένα παράθυρο μήκους k της ακολουθίας, ως
εξής:  
1 k!
K log N  
k    ns ! 
 s 
• Στην παραπάνω σχέση, το ns είναι ο αριθμός εμφανίσεων
του συμβόλου s στο παράθυρο και ΝΩ το μέγεθος του
αλφάβητου (4 για τα νουκλεοτίδια, 20 για τα αμινοξέα).
Διαισθητικά, το μέτρο αυτό δείχνει την ποσότητα της
πληροφορίας που απαιτείται σε κάθε θέση της ακολουθίας
για να καθορίσει κανείς το σύμβολο (της θέσης),
δεδομένης της σύνθεσης όλου του παραθύρου. Για
παράδειγμα, ένα παράθυρο 4 νουκλεοτιδίων με σύσταση
ΑΑΑΑ, θα έχει πολυπλοκότητα ίση με
1  4!  1
K log 4    log 4 1  0
4  4!0!0!0!  4 6

Σχετική εντροπία
• Μια άλλη σχετική έννοια, είναι αυτή της σχετικής εντροπίας (Relative
Entropy). Η σχετική εντροπία δυο καταστάσεων P, Q (γνωστή και ως
μέτρο της απόστασης των Kullback-Leibler) εκφράζει τη σχετική
απόσταση, ή διαφορά, μεταξύ των δυο καταστάσεων και δίνεται από
τον τύπο P ( xi )
H ( P, Q)   P ( xi ) log
i Q ( xi )
• Το P(xi) είναι όπως είδαμε παραπάνω η πιθανότητα εμφάνισης μιας
βάσης (A,T,G,C) στην i θέση της συγκεκριμένης ακολουθίας, ενώ το
Q(xi) η αντίστοιχη πιθανότητα εμφάνισης μιας βάσης σε μια άλλη
ακολουθία. Αυτή η άλλη ακολουθία μπορεί να είναι μια άλλη
πραγματική ακολουθία με την οποία θέλουμε να συγκρίνουμε την
πρώτη, ή να είναι μια θεωρητική κατανομή, όπως αυτή που υποθέτει
ισοπίθανη ή τυχαία εμφάνιση των βάσεων. Προφανώς αν Q(xi)=1/4
(ισοκατανομή των βάσεων) τότε Η(P,Q)=I(P)

7
Αμοιβαία πληροφορία
• Μια άλλη πολύ σημαντική έννοια που θα ξανασυναντήσουμε και στα επόμενα
κεφάλαια είναι αυτή της αμοιβαίας πληροφορίας (Mutual Information). Δυο
τ.μ Χ,Υ έχουν αμοιβαία πληροφορία που δίνεται από τη σχέση:
P ( xi , y j )
M ( X , Y )   P ( xi , y j ) log
i, j P ( xi ) P ( y j )
• Σε αυτή την περίπτωση, έχουμε δυο ακολουθίες, x και y. Η αμοιβαία
πληροφορία μετράει πόση διάφορα έχει η από κοινού κατανομή της σ.π. των Χ
και Υ που συμβολίζουμε με P(xi,yi), με την υποθετική από κοινού κατανομή
που θα είχαν αν ήταν ανεξάρτητες με P(xi,yi)=P(xi)P(yi). Προφανώς P(xi) και
P(yi) είναι οι περιθώριες σ.π. των Χ,Υ αντίστοιχα. Δηλαδή, η αμοιβαία
πληροφορία μετράει το «πόσο ανεξάρτητες» είναι οι δυο κατανομές. Η
σχετική εντροπία και η αμοιβαία πληροφορία, βρίσκουν πολλές εφαρμογές
όταν μελετάμε ταυτόχρονα πολλές ακολουθίες και σχετικά παραδείγματα θα
δούμε στο κεφάλαιο που περιγράφει την πολλαπλή στοίχιση.

Ροές ευνοϊκών αποτελεσμάτων


• Σε μια ακολουθία DNA μήκους n καταλοίπων, ποια η
πιθανότητα να εμφανιστούν k συνεχόμενες επαναλήψεις
ενός συμβόλου (π.χ. Α)?

• Νόμος των Erdos & Renyi (1970)

9
10

11
12

ΘΕΩΡΙΑ ΜΕΓΑΛΩΝ
ΑΠΟΚΛΙΣΕΩΝ (LDT)
• Σε μια τυχαία ακολουθία, μας ενδιαφέρει η πιθανότητα
εμφάνισης π.χ. μιας περιοχής μήκους L, αποτελούμενης
από 100κ% (0<κ<1) επαναλήψεις ενός συμβόλου (π.χ. Α)
• Σχετική Εντροπία (Relative Entropy):

13
14

15
16

17
18

19
20

Επεκτάσεις στο νόμο Erdos-Renyi

21
22

Η κατανομή της μέγιστης


ροής/Extreme Value Distribution
(EVD)
• Μας ενδιαφέρει εδώ, η ακριβής στατιστική
κατανομή που ακολουθεί η τ.μ. της
μέγιστης ροής

23
Extreme Value Distribution
(EVD)

24

25
26

27
28

29
30

31
Η κατανομή του μέγιστου
τμηματικού score (Maximal
Segment Score)
• Αν μας ενδιαφέρει η κατανομή της τ.μ.της πιθανότητας
εμφάνισης π.χ. μιας περιοχής μήκους L, αποτελούμενης
από 100κ% (0<κ<1) επαναλήψεις ενός συμβόλου (π.χ. Α)
• Ορίζουμε το Score:

32

Θεώρημα Karlin-Altschul

33
34

35
Κατά ζεύγη στοίχιση ακολουθιών
• Από τα πιο σημαντικά προβλήματα στην
Υπολογιστική Βιολογία
• Ιδιαίτερα πλούσια βιβλιογραφία για πάνω
από 30 χρόνια
• Η ομοιότητα δυο ακολουθιών αντανακλά
κατά βάση την κοινή εξελικτική προέλευση

36

37
38

39
40

Σημαντικά ζητήματα στη


στοίχιση ακολουθιών
• Το είδος των στοιχίσεων που μας
ενδιαφέρουν
• Το σύστημα βαθμονόμισης (scoring system)
• Ο αλγόριθμος που θα χρησιμοποιήσουμε
για την έυρεση της καλής ή και της
βέλτιστης στοίχισης
• Ο τρόπος προσδιορισμού της στατιστικής
σημαντικότητας μιας στοίχισης
41
Παράδειγμα
• Έστω 2 ακολουθίες x,y (ίδιου ή διαφορετικού μήκους)
x=x1,x2,…,xn
y=y1,y2,…,ym
• Μας ενδιαφέρει η εύρεση της μέγιστης κοινής περιοχής τους (πλήρης
ταύτιση)
• Η απλή απαρίθμιση όλων των πιθανών κοινών υπό-περιοχών είναι
απαγορευτική:

• Χρειαζόμαστε έναν πιο αποδοτικό αλγόριθμο (δυναμικός


προγραμματισμός)

42

Score
Θεωρούμε δυο πιθανότητες: την πιθανότητα ανεξάρτητης
(τυχαίας) ταύτισης, και αυτή της μη τυχαίας

Αν πάρουμε το λόγο των δυο πιθανοφανειών (likelihood ratio):

Και αν δουλέψουμε σε λογαριθμική κλίμακα:

43
Πίνακες ομοιότητας
Μπορούμε έτσι να ορίσουμε έναν πίνακα ομοιότητας με
διαστάσεις όσο το μέγεθος του αλφαβήτου (4x4 για DNA, 20x20
για πρωτεϊνες), π.χ.:

Για τη μη-ταύτιση (mismatch), μπορόυμε να ορίσουμε μια πολύ


μεγάλη ποινή (-) έτσι ώστε να απαγορεύουμε πρακτικά την
ταύτιση μη ομοίων καταλοίπων

44

45
Πίνακες αντικατάστασης
(substitution matrices)

1  qij 
sij  log  
 
 pi p j 
• qij, είναι η πιθανότητα αντικατάστασης του i από το j σε
σχετιζόμενες πρωτεΐνες (target frequencies)
• pi, pj είναι οι πιθανόητες εμφάνισης των αμινοξέων σε
οποιαδήποτε θέση (background frequencies)
• λ είναι μια σταθερά κανονικοποίησης

46

Εντροπία των πινάκων


αντικατάστασης
20 20
H   qij Sij
i 1 j 1

• Η σχετική εντροπία εκφράζει το μέσο ποσό πληροφορίας


που είναι διαθέσιμο για κάθε ζεύγος καταλοίπων που
στοιχίζεται, και διαχωρίζει την προκύπτουσα στοίχιση από
μια τυχαία στοίχιση που οφείλεται απλά στις συχνότητες
υποβάθρου. Υψηλότερη τιμή της σχετικής εντροπίας
συνεπάγεται εύκολο διαχωρισμό μεταξύ των συχνοτήτων
στόχων και υποβάθρου.

47
Διάφοροι πίνακες
αντικατάστασης
• PAM
• BLOSUM

48

PAM
• Point Accepted Mutations (Dayhoff et al)
• Ως Αποδεκτή Σημειακή Μεταλλαγή σε μια πρωτεΐνη θεωρείται η
αντικατάσταση ενός αμινοξικού καταλοίπου της με ένα κατάλοιπο
διαφορετικού τύπου, η οποία έχει γίνει αποδεκτή μέσω της διαδικασίας της
Φυσικής Επιλογής.
• Προέκυψε από πολλαπλή στοιχιση ακολουθιών με γνωστή εξελικτική σχέση
και επίπεδο ομοιότητας >85%
• PAM1, PAM30, PAM250 κλπ
• Προυποθέτει ένα Μαρκοβιανό μοντέλο εξέλιξης
• Η χρήση πινάκων με μικρό Ν ενδείκνυται όταν οι εξεταζόμενες ακολουθίες
είναι πολύ όμοιες (μικρή εξελικτική απόσταση), ενώ στην περίπτωση
περισσότερο απομακρυσμένων ομοιοτήτων χρησιμοποιούμε πίνακες
μεγαλύτερου Ν. Στις περιπτώσεις εκείνες κατά τις οποίες δε γνωρίζουμε εκ
των προτέρων την ομοιότητα των προς σύγκριση ακολουθιών (π.χ. σε
αναζητήσεις έναντι βάσεων δεδομένων) επιλέγουμε ένα ενδιάμεσο πίνακα,
όπως τον PAM-250, ο οποίος αντιστοιχεί σε συντήρηση της τάξης του 20-
25%.
49
BLOSUM
• BLOcks SUbstistution Matrcices (Henikoff
and Henikoff)
• Προέκυψαν από πολλαπλές στοιχίσεις ακολουθιών με γνωστή κάθε
φορά εξελικτική σχέση και διαφορετικό επίπεδο ομοιότητας
• Δεν προυποθέτουν ένα εξελικτικό μοντέλο αλλά το προσεγγίζουν
εμπειρικά
• BLOSUM50, BLOSUM62, κλπ

50

PAM BLOSUM
PAM100 BLOSUM90
PAM120 BLOSUM80
PAM160 BLOSUM60
PAM200 BLOSUM52
51
PAM250 BLOSUM45
Δυναμικός προγραμματισμός

52

Ποινές για τα κενά (gap


penalties)
Απλή ποινή για τα κενά:

 ( g )   gd
Σύνθετη ποινή για τα κενά:

 ( g )  d  ( g  1)e

53
Ολική στοίχιση (Needleman and
Wunsch, 1970 )

 F (i  1, j  1)  s ( xi , y j ), 
 
F (i, j )  max  F (i  1, j )  d , 
 F (i, j  1)  d 
 

F(i,0)=-id,
F(0,j)=-jd

54

Παράδειγμα
Έστω δυο ακολουθίες:
x  AAGTTAGCAG
y  CAGTATCGCA
Αν έχουμε για τα κενά:
1, αν xi  y i
s ( xi , y i )  
 1, αν xi  y i
d=1
Τότε η καλύτερη ολική στοίχιση θα είναι:

A A G T – T A G C A G
C A G T A T C G C A - 55
συνέχεια…

A A G T – T A G C A G
C A G T A T C G C A -
56

Τοπική στοίχιση (Smith and


Waterman, 1981)
 F (i  1, j  1)  s ( xi , y j ), 
 
 F (i  1, j )  d , 
F (i, j )  max  
 F (i , j  1)  d , 
0 

F(i,0)=0,
F(0,j)=0

Η μόνη διαφορά από την ολική στοίχιση είναι το 0 το οποίο


εξασφαλίζει διακοπή της στοίχισης όταν το score γίνει
αρνητικό 57
Παράδειγμα
Στα δεδομένα του προηγούμενου παραδείγματος, θα
έχουμε:

A G T – T A G C A
A G T A T C G C A
58

Αλγοριθμική πολυπλοκότητα
Πρέπει εδώ να τονίσουμε ότι ο απαιτούμενος χρόνος για να
τρέξουν οι παραπάνω αλγόριθμοι δυναμικού
προγραμματισμού είναι ανάλογος του γινόμενου των μήκων
των ακολουθιών και συμβολίζεται Ο(mn). Το σύμβολο
Ο(mn) (big-O notation) σημαίνει ότι μια συνάρτηση
f(t)=O(nm) αν καθώς t→∞ υπάρχει σταθερά c τέτοια ώστε ,
f (t )  c.n.m

59
Σύνθετες ποινές για τα κενά
• Απαιτείται μια συνάρτηση γ()
• Τότε, οι παραπάνω αλγόριθμοι γίνονται:
 F (i  1, j  1)  s ( xi , y j ), 
 
F (i, j )  max  F ( k , j )   (i  k ), k  0,.., i  1 
 
 F (i, k )   ( j  k ), k  0,.., j  1

 F (i  1, j  1)  s ( xi , y j ), 
 
 F ( k , j )   (i  k ), k  0,.., i  1 
F (i, j )  max  
 F (i , k )   ( j  k ), k  0,.., j  1
0  60

Μειονέκτημα
•Η αλγοριθμική πολυπλοκότητα αυξάνει σε Ο(n3)
•O Gotoh (1982), έδειξε ότι για σύνθετες συναρτήσεις
του τύπου:
 ( g )  d  ( g  1)e
Μπορούμε να έχουμε πολυπλοκότητα της τάξης του
Ο(n2) μόνο με αύξηση της μνήμης

61
Άλλοι αλγόριθμοι
• Υπάρχουν επίσης ειδικές περιπτώσεις στοίχισης
(π.χ. προσαρμογή)
• Θέλουμε δηλαδή να εντοπίσουμε, μια μικρή
ακολουθία αν συναντάται σε μια μεγαλύτερη
Έστω ότι θέλουμε να ανιχνεύσουμε αν στην αλληλουχία του γονιδίου lacI της
E.coli υπάρχει η γνωστή αλληλουχία του υποκινητή (promoter). Έστω ακόμα
ότι το τμήμα του γονιδίου έχει αλληλουχία:
x  TCGCGGTATGGCATGATAGCGCCCGGAA
και η αλληλουχία του υποκινητή είναι
y  TATAAT

62

συνέχεια…

 F (i  1, j  1)  s ( xi , y j ), 
 
F (i, j )  max  F (i  1, j )  d , 
 F (i, j  1)  d 
 

F(i,0)=-id
F(0,j)=0.
63
Και η ακολουθία του πιθανού υποκινητή είναι:
C A T G A T

64

Ευριστικοί αλγόριθμοι στοίχισης


(Heuristic alignment algorithms)
• Είναι αναγκαίοι για τη μείωση του απαιτούμενου υπολογιστικού
χρόνου, ειδικά σε αναζητήσεις σε βάσεις δεδομένων

Απαραίτητα χαρακτηριστικά τους:


• Να μη διαφέρουν σημαντικά από τις «ακριβείς» (μαθηματικά
βέλτιστες) λύσεις των μεθόδων δυναμικού προγραμματισμού.
• Να μην αποκλείουν βιολογικά πιθανές λύσεις.
Βασικές κατηγορίες τέτοιων αλγορίθμων:
• Μέθοδος «κοπής γωνιών» (banded alignment)
• Μέθοδος FASTA
• Μέθοδος BLAST

65
Μέθοδος «κοπής γωνιών»

• Αυτή είναι ίσως η απλούστερη «βελτίωση» που θα μπορούσε να


σκεφτεί κανείς. Η ιδέα είναι πραγματικά πολύ έξυπνη και απλή,
περιορίζοντας στην ουσία τους υπολογισμούς των πινάκων Δυναμικού
Προγραμματισμού σε μια «ζώνη» γύρω από τη διαγώνιο του πίνακα.
Όπως γίνεται εμφανές, η επιλογή του πλάτους της ζώνης στην οποία
θα εκτελεστούν οι υπολογισμοί επηρεάζει άμεσα την εξοικονόμηση
πόρων κατά τη στοίχιση ακολουθιών.
• Μπορεί να δώσει μια «οικονομία» υπολογιστικών πόρων της τάξης
του 30%.
• Σε ακραίες περιπτώσεις

66

67
Μέθοδος FASTA
• Η βασική ιδέα έγκειται στη δημιουργία ενός ευρετηρίου με τις θέσεις
όλων των k-tuples (τυπικό μήκος για αμινοξικές ακολουθίες 1 ή 2)
που υπάρχουν και στις δύο ακολουθίες (Εικόνα 4, αριστερά).
• Από τη διαφορά των θέσεών τους στις δύο ακολουθίες εντοπίζεται η
διαγώνιος στην οποία βρίσκονται (Εικόνα 4, δεξιά), οπότε στο
επόμενο βήμα εντοπίζονται οι διαγώνιες με τα περισσότερα k-tuples.
• Ακολούθως, αυτές οι περιοχές ταύτισης συνενώνονται επιτρέποντας
την εισαγωγή κενών με τον υπολογισμό της αντίστοιχης ποινής
(Εικόνα 5), και
• Τελικά πραγματοποιείται η διαδικασία πλήρους δυναμικού
προγραμματισμού (με τον επιλεγμένο πίνακα αντικατάστασης),
περιορισμένου σε μια ταινία γύρω από τις συγκεκριμένες διαγωνίους
(Εικόνα 5).

68

69
Μέθοδος BLAST
• Η διαδικασία της σύγκρισης ξεκινά με την κατασκευή ενός καταλόγου όλων
των λέξεων που θα ταίριαζαν με κάποια λέξη της άγνωστης ακολουθίας
ξεπερνώντας την τιμή κατωφλίου (προκαθορισμένη τιμή για πρωτεϊνικές
ακολουθίες Τ=13).
• Στη συνέχεια, ο αλγόριθμος αναζητά αυτές τις λέξεις στις ακολουθίες της
βάσης δεδομένων και κάθε φορά που εντοπίζει κάποια ξεκινάει μια διαδικασία
επέκτασης του ‘ευρήματος’ προς τις δύο κατευθύνσεις, όσο η βαθμολογία
συνεχίζει και αυξάνει.
• Οι περιοχές μέγιστης βαθμολογίας που εντοπίζονται σε αυτό το στάδιο είναι οι
υποψήφιες περιοχές ομοιότητας (HSPs, high scoring pairs).
• Από όλα τα HSPs αναφέρονται στα αποτελέσματα εκείνες οι περιοχές στις
οποίες η βαθμολογία υπερβαίνει μια δεύτερη τιμή κατωφλίου S
• Τελικά, επιλέγονται να αναφερθούν εκείνες μόνο οι τοπικές ομοιότητες οι
οποίες εμφανίζουν υψηλή στατιστική σημαντικότητα, ο προσδιορισμός της
οποίας περιγράφεται στην επόμενη ενότητα.

70

The BLAST algorithm. The BLAST algorithm is a heuristic search method that seeks words of length W (default
= 3 in blastp) that score at least T when aligned with the query and scored with a substitution matrix. Words in the
database that score T or greater are extended in both directions in an attempt to fina a locally optimal ungapped
alignment or HSP (high scoring pair) with a score of at least S or an E value lower than the specified threshold.
HSPs that meet these criteria will be reported by BLAST, provided they do not exceed the cutoff value specified
71
for number of descriptions and/or alignments to report.
72

Στατιστική σημαντικότητα των


στοιχίσεων
• Αν λαβουμε με οποιοδήποτε τρόπο μια στοίχιση δυο ακολουθιών,
θέλουμε να έχουμε έναν τρόπο να την αξιολογήσουμε (να ξέρουμε δηλαδή
αν είναι στατιστικά σημαντική)
• Ιδιαίτερο νόημα έχει αυτό σε μια αναζήτηση σε μεγάλες βάσεις
δεοδομένων όπου αναμένουμε να δούμε έως και εκατοντάδες «ομόλογες»
ακολουθίες
• Χρειαζόμαστε έναν έλεγχο υποθέσεων.
Ηο: οι δυο ακολουθίες είναι ασυσχέτιστες,
Ηα: οι δυο ακολουθίες σχετίζονται με κάποιο τρόπο (είναι ομόλογες)
• Ακόμα και αν βρεθεί στατιστικά σημαντική ομοιότητα, δεν σημαίνει ότι
υπάρχει και βιολογική συσχέτιση των ακολουθιών, και το αντίστροφο
(εξαρτάται από τις παραμέτρους, gap penalty, substitution matrix,
αλγοριθμο στοίχισης κλπ)
• Τα πιο πολλά αποτελέσματα αναφέρονται στην τοπική στοίχιση
73
Ασυμπτωτικά αποτελέσματα

74

75
Η κατανομή του Local Similarity
Score
• Σε όλες τις τοπικές στοιχίσεις χωρίς κενά, η
κατανομή του score είναι η κατανομή των
ακραίων τιμών του Gumbel
• Αν υπάρχουν κενά, η κατανομή φαίνεται να
συγκλίνει (υπο προυποθέσεις) σε αυτή του
Gumbel χωρίς όμως αυτό να μπορεί να αποδειχθεί
• Σε ολικές στοιχίσεις δεν ισχύει τίποτα από τα
παραπάνω

76

Η κατανομή του Local Similarity


Score
Δυο ακραίες περιπτώσεις:

Γραμμική περιοχή

Λογαριθμική περιοχή

Στη δεύτερη περίπτωση η κατανομή είναι αποδεδειγμένα αυτή του Gumbel, αλλά όταν
μπαίνουν κενά δεν υπάρχει τέτοια απόδειξη
Μειώνοντας σταδιακά τις ποινές για διαφορές και κενά, μεταπίπτουμε από τη λογαριθμική
περιοχή του score στη γραμμική. Αυτή η μετάπτωση φάσεως (phase transition) έχει
περιγραφεί αναλυτικά από τους Arratia, Gordon και Waterman (Waterman et al, 1987;
Arratia and Waterman, 1994; Waterman, 1995) αλλά παρ’ όλα αυτά δεν υπάρχει
αναλυτική έκφραση για τις τιμές των παραμέτρων m (mismatch) και d (gap) στις77οποίες
συμβαίνει αυτή η μετάπτωση (μπορούν να προσεγγισθούν μόνο με αριθμητικές μεθόδους)
Η κατανομή του Local Similarity
Score

78

79
80

81
82

83
Η κατανομή όταν υπάρχουν κενά
• Η μέθοδος του Mott (1992)
• Η μέθοδος Direct Estimation (Waterman, 1995)
• Η μέθοδος Poisson declumping (Waterman and
Vingron, 1994)
• Η μέθοδος weighted regression του Pearson
(1995)

84

Η μέθοδος του Mott (1992)


• Παραλλαγή της εκτίμησης στην κατανομή
του Gumbel

85
Η μέθοδος Direct Estimation
(Waterman, 1995)
• Πραγματοποιεί Maximum Likelihood fit, σε εμπειρικά δεδομένα
• Απαιτεί αποτελέσματα από πολλές αναζητήσεις
• Απλή στην εκτέλεση (linear regression)
P ( S  x )  exp(  Kmne  x )
log P ( S  x)   Kmne   x 
log   log P ( S  x )   log  Kmne   x  
log   log P ( S  x )    x  log  Kmn 

86

Παραλλαγές
• Η αναζήτηση μπορεί να γίνει σε τυχαίες
ακολουθίες με προκαθορισμένη σύνθεση
• Η αναζήτηση μπορεί να γίνει σε shuffled
ακολουθίες με σύνθεση όμοια με αυτή της
ακολουθίας εισόδου
• Αν πρόκειται για αναζήτηση σε βάση δεδομένων
μπορεί να χρησιμοποιηθούν τα αποτελέσματα της
αναζήτησης (αφου απομακρυνθούν οι πολύ όμοιες
και οι πολύ ανόμοιες ακολουθίες)
• Χρειάζονται το λιγότερο 100-1000 ακολουθίες,
άρα είναι χρονοβόρα διαδικασία
87
Η μέθοδος Poisson declumping
(Waterman and Vingron, 1994)
• Παραλλαγή της προηγούμενης μεθόδου
• Πολύ πιο αποδοτική και γρήγορη
• Στηρίζεται στην προσέγγιση Poisson declumping
• Για κάθε ακολουθία χρησιμοποιεί το διατεταγμένο δείγμα:

και όχι μόνο το μέγιστο


• Τα score από κάθε ακολουθία ακολουθούν κατανομή Poisson:

• Άρα η πιθανότητα να υπάρχουν k περιοχές με score>x θα είναι:

88

συνέχεια…
• Επομένως, παριστάνοντας γραφικά το λογάριθμο του αριθμού
τοπικών περιοχών με score πάνω από κάποιο όριο σε σχέση με τη
μέση τιμή του score για τις περιοχές πάνω από το όριο αυτό παίρνουμε
ευθεία γραμμή και μια απλή γραμμική παλινδρόμηση δίνει αμέσως
εκτιμήτριες για τα Κ,λ.
• Απαιτεί πολύ λιγότερες ακολουθίες (~10-20), άρα είναι πολύ πιο
γρήγορη μέθοδος

89
Η μέθοδος weighted regression
του Pearson (1995)
• Χρησιμοποιείται σε αναζητήσεις σε βάσεις δεδομένων
• Η βάση δεδομένων χωρίζεται σε k υποσύνολα σύμφωνα με το μήκος των ακολουθιών
n1, n2,…, nk
• Υπολογίζονται όλα τα score S, για την τοπική ομοιότητα των ακολουθιών και στη
συνέχεια μια ευθεία σταθμισμένης γραμμικής παλινδρόμησης (weighted linear
regression) για τη σχέση:

• Όπου ni, είναι το μήκος των ακολουθιών του i υποσυνόλου της βάσης δεδομένων, ενώ
το log(ni) είναι σταθμισμένο με την αντίστροφη διασπορά (1/var) των scores σε αυτό
το υποσύνολο, καθώς τμήματα με πολύ μεγάλο score θα έχουν και μεγάλη διασπορά.
Υπολογίζεται τέλος η εκτιμήτρια της διασποράς , των υπολοίπων της παλινδρόμησης
(residual variance) η οποία καθορίζει το z-score.

90

Διαθέσιμο Software
• SW (http://www-hto.usc.edu/software/seqaln/seqaln-query.html)
• BLAST (www.ncbi.nlm.nih.gov/BLAST/)
• WU-BLAST (http://blast.wustl.edu/)
• FASTA (www.ebi.ac.uk/fasta33/)

91
Βιοπληροφορική Ι

Πολλαπλή στοίχιση ακολουθιών


και φυλογενετικά δέντρα

2
Πολλαπλή στοίχιση
• Αναφέρεται στην ταυτόχρονη στοίχιση περισσοτέρων από
2 ακολουθιών
• Ιδιαίτερα σημαντική καθώς έτσι μπορούμε να εντοπίσουμε
οικογένειες σχετιζόμενων ακολουθιών και να
μελετήσουμε τα λειτουργικά χαρακτηριστικά τους
• Βασίζεται στις ίδιες αρχές με την κατά ζεύγη στοίχιση,
αλλά υπάρχουν πιο πολλές δυσκολίες
• Μπορεί να μας δώσει μια εικόνα της φυλογενετικής
προέλευσης των ακολουθιών

Δυναμικός προγραμματισμός σε
N διαστάσεις
• Επέκταση των αλγορίθμων δυναμικού
προγραμματισμού (SW και NW) σε
περισσότερες διαστάσεις
• Υπολογιστικές δυσκολίες
• Τρόπος υπολογισμού της ομοιότητας (?)

4
5

Πολυδιάστατο Score

Sum of pairs Score


(αυτό χρησιμοποιείται)
6
MSA (Carillo and Lipman,1988,
Lipman et al,1989)
• Περιορισμός του εύρους αναζήτησης του
δυναμικού προγραμματισμού
• Χρήση του Sum of Pairs Score

Προοδευτική πολλαπλή στοίχιση


• Αρχικές κατά ζεύγη στοιχίσεις όλων των
ακολουθιών
• Με βάση αυτές, κατάσκευή πίνακα
αποστάσεων και ενός δέντρου οδηγού
(guide tree)
• Προοδευτική στοίχιση των πιο όμοιων
ακολουθιών μεταξύ τους, μέχρι τέλους

8
9

Μια καλύτερη λύση, είναι το λεγόμενο profile alignment, το οποίο μετράει τη σχετική
συνεισφορά όλων των ακολουθιών της κάθε στοίχισης και τελικά πραγματοποιεί την
στοίχιση λαμβάνοντας υπόψη όλες τις ακολουθίες. Τα μαθηματικά της μεθόδου είναι
πολύπλοκα, αλλά μπορούν να απλοποιηθούν αν θεωρήσουμε, όπως και παραπάνω, το
κενό σαν ένα πέμπτο σύμβολο (-), οπότε θα έχουμε και γραμμική ποινή για τα κενά

 SP  m     s  m , m 
i
i
i j j '
i
j
i
j'


i
 s m , m     s m , m    
j  j ' n
i
j
i
j'

i n  j  j ' N
i
j
i
j'

i j  n , n  j ' N
s  mij , mij ' 
10
11

Feng and Doolitle (1987)


• Αρχικές κατά ζεύγη στοιχίσεις με NW
• υπολογισμός της απόστασης δυο ακολουθιών
Sobs  S rand
D   log S  log
S max  S rand
• Κατασκευή δέντρου οδηγού με ιεραρχικό
Clustering
• Η ακολουθία στοιχίζεται με ΟΛΕΣ τις ακολουθίες
μιας στοίχισης (με το γνωστό αλγόριθμο
δυναμικού προγραμματισμού).
• Η ακολουθία προστίθεται στην πολλαπλή
στοίχιση με βάση τη στοίχιση κατά ζεύγη του
προηγούμενου βήματος που είχε το μεγαλύτερο
score.
12
Clustal (Higgins et al, 1992;
Thompson et al, 1994)
• Προοδευτική στοίχιση
• Κατά ζεύγη ομοιότητα με FASTA (default) αλλα
και με δυναμικό προγραμματισμό
• Οι αποστάσεις υπολογίζονται απευθείας από την
επί τοις εκατό ομοιότητα των ακολουθιών x (D=1-
x/100)
• Δέντρο οδηγός με Neibhor-Joining method
• .Η μέθοδος είναι διαθέσιμη στη διεύθυνση
www.ebi.ac.uk/clustalw
13

συνέχεια
• Τέλος, χρησιμοποιεί μια σειρά από πολύ προσεκτικά επιλεγμένες
ευριστικές τεχνικές οι οποίες μεγιστοποιούν το αποτέλεσμα. Για
παράδειγμα, οι πολύ όμοιες ακολουθίες λαμβάνουν μικρό σχετικό
βάρος (weight) έτσι ώστε να μην επηρεάζουν τόσο πολύ και να μην
κατευθύνουν την πολλαπλή στοίχιση.
• Μια άλλη ιδιαιτερότητα είναι ότι ο πίνακας ομοιότητας δεν είναι
σταθερός, αλλά επιλέγεται από τον αλγόριθμο ανάλογα με το ποσοστό
ομοιότητας που εντοπίζεται στις υπό μελέτη ακολουθίες.
• Επιπλέον, οι ποινές για τα κενά, δεν είναι σταθερές, αλλά ειδικές ανά
θέση (υδρόφοβες περιοχές λαμβάνουν μεγαλύτερη ποινή για τα κενά,
με συνέπεια να καθίσταται πιο δύσκολη η εισαγωγή κενών σε αυτές
τις περιοχές, αντίθετα, η ποινή μειώνεται αν βρεθούν πάνω από 5
συνεχόμενα υδρόφιλα κατάλοιπα).
• Τέλος, οι ποινές για τα κενά αυξάνονται αν στην ίδια στήλη της
στοίχισης δεν υπάρχουν κενά, αλλά αντίθετα υπάρχει κάπου δίπλα μια
περιοχή με πολλά κενά. Αυτό έχει σαν συνέπεια τα κενά να
«συσσωρεύονται» σε συγκεκριμένες θέσεις σε μια στοίχιση.
• Όλες αυτές οι τεχνικές, έχουν βελτιωθεί με τα χρόνια και έχουν κάνει
το CLUSTAL να είναι ένα από τα πιο αξιόπιστα εργαλεία πολλαπλής
στοίχισης, παρόλο που κατά βάση στηρίζεται σε μια απλή ευριστική 14
μέθοδο
Kalign
• Στο Kalign, όλες οι επιλογές της προοδευτικής
πολλαπλής στοίχισης είναι βελτιστοποιημένες με
σκοπό την ταχύτητα
• Χρήση του προσεγγιστικού αλγόριθμου ταύτισης
συμβολοσειρών, των Wu και Manber, ο οποίος
είναι γραμμικός ως προς το μήκος της ακολουθίας
• UPGMA
• profile alignment
• http://msa.sbc.su.se/cgi-bin/msa.cgi

15

Επαναληπτικές μέθοδοι και


μέθοδοι που βασίζονται στη
συνέπεια
• Η βασική ιδέα των επαναληπτικών μεθόδων, είναι να
χρησιμοποιηθεί κάποιου είδους προοδευτική πολλαπλή
στοίχιση, αλλά αυτή η διαδικασία να γίνει επαναληπτικά
έτσι ώστε λάθη που είναι πιθανό να εισχωρήσουν σε
αρχικά στάδια της στοίχισης, να μπορούν να αναιρεθούν
σε κάποιο μετέπειτα βήμα. Η επαναληπτική διαδικασία,
είναι σε γενικές γραμμές μια εύκολα υλοποιήσιμη ιδέα,
και εμπειρικές αναλύσεις έχουν δείξει ότι μπορεί να
χρησιμοποιηθεί ακόμα και σε ήδη υπάρχοντες
αλγόριθμους, αυξάνοντας σημαντικά την απόδοσή τους.
Για παράδειγμα, η ακρίβεια του CLUSTALW αυξάνει
κατά 6% με αυτή τη διαδικασία
16
Παραδείγματα
• MULTALIN (http://prodes.toulouse.inra.fr/multalin/multalin.html)
• MUSCLE (http://www.drive5.com/muscle)
• PRPP/PRRN
(http://www.genome.ist.i.kyoto-u.ac.jp/~aln_user/prrn/index.html)
• PRALINE (http://ibivu.cs.vu.nl/programs/pralinewww/)
• DIALIGN (http://bibiserv.techfak.uni-bielefeld.de/dialign/)
• COBALT (ftp://ftp.ncbi.nlm.nih.gov/pub/agarwala/cobalt)
• T-COFFEE
(http://www.ch.embnet.org/software/TCoffee.html)

17

MUSCLE

18
T-Coffee
• Όμοια με το Dialign, το T-Coffee πραγματοποιεί πρώτα
όλες τις κατά ζεύγη στοιχίσεις. Παρ’ όλα αυτά, το T-
Coffee κάνει αυτό το βήμα δυο φορές: μια με χρήση του
ClustalW (global) και μια με το Lalign (local-Fasta
package).
• Τα αποτελέσματα συνδυάζονται σε μια αρχική βιβλιοθήκη
• Σε ένα βήμα επέκτασης της βιβλιοθήκης, καθορίζεται πως
τα ζεύγη καταλοίπων στοιχίζονται σε σχέση με άλλα
κατάλοιπα. Τέτοιες τριπλέτες χρησιμοποιούνται για να
βρεθεί πόσο καλά οι ακολουθίες στοιχίζονται δοδομένων
των υπολοίπων (σε αντίθεση με τον έλεγχο δυο
ακολουθιών απομονωμένα).
• Η τελική στοίχιση κατασκευάζεται έπειτα, προοδευτικά με
χρήση της πληροφορίας στη βιβλιοθήκη 19

20
21

22
Dialign
• Το Dialign πραγματοποιεί τοπική στοίχιση και
στοιχιζει ολόκληρα τμήματα παρά κατάλοιπα.
• Αρχικά, όλες οι ανά δυο στοιχίσεις
πραγματοποιούνται και συλλέγονται οι
στοιχισμένες περιοχές στις οποίες δεν υπάρχουν
κενά.
• Το όνομα ‘Dialign’ βγαίνει από αυτές τις
διαγώνιες περιοχές (diagonal alignments in a dot
plot)
• Ένα συνεπές σύνολο από διαγώνιες καθορίζεται
έτσι και διαδοχικά προστίθεται στη στοίχιση
• http://bibiserv.techfak.uni-bielefeld.de/dialign/ 23

Οπτικοποίηση και επεξεργασιά


πολλαπλών στοιχίσεων
• Jalview (http://www.jalview.org/)
• Strap (http://www.bioinformatics.org/strap/)
• Seqpup
(http://iubio.bio.indiana.edu/soft/molbio/seqpup/java/seqpup-
doc.html)
• Seaview (http://pbil.univ-lyon1.fr/software/seaview.html)
• Cinema
(http://aig.cs.man.ac.uk/research/utopia/cinema/cinema.php)
• Boxshade
(http://www.ch.embnet.org/software/BOX_form.html)
• Bioedit (http://www.mbio.ncsu.edu/BioEdit/bioedit.html)

24
Jalview

25

Strap

26
BioEdit

27

Chroma
28
Seaview
29

Αξιολόγηση των πολλαπλών


στοιχίσεων
• Βασίζεται κυρίως σε δομικές στοιχίσεις ελεγμένες
από ειδικούς. Παρ’ όλα αυτά δεν υπάρχει ακόμα
«απολύτως αντικειμενικός» και αποδεκτός τρόπος
για αξιολόγηση
• BaliBase (http://www-igbmc. u-strasbg.fr/BioInfo/BAliBASE/index.html )
• OxBench (http://www.compbio.dundee.ac.uk/)
• SABmark(http://bioinformatics.vub.ac.be/databases/databases.html )
• PREFAB (http://drive5.com/muscle/prefab.htm. )

30
31

Συμπεράσματα
• Παρόλο που οι επιμέρους μελέτες διαφέρουν πολλές φορές ως προς τη
μεθοδολογία, μπορούμε να εξάγουμε κάποια γενικά συμπεράσματα. Για
παράδειγμα, τα περισσότερα από τα σύγχρονα εργαλεία που αναφέραμε
παραπάνω, σε ένα ευρύ φάσμα συνθηκών αποδίδουν πολύ καλά,
πετυχαίνοντας πάνω από 50% επιτυχία στην ανακατασκευή των στοιχίσεων
αναφοράς, ακόμα και σε οικογένειες με μέσο ποσοστό ομοιότητας γύρω στο
20%. Το T-Coffee, το ProbCons και το ProbAlign είναι σε γενικές γραμμές οι
πιο αποδοτικοί αλγόριθμοι, αλλά είναι και πιο χρονοβόροι και με μεγάλες
απαιτήσεις σε μνήμη (ιδιαίτερα τα δύο τελευταία). Το ClustalW και το
MUSCLE, ακολουθούν με μικρή διαφορά στην απόδοση, αλλά υπερτερούν σε
ταχύτητα εκτέλεσης και σε απαιτήσεις σε μνήμη. Το Prrp/Prrn είναι επίσης
καλό, αλλά πιο αργό. Το Kalign, είναι σε γενικές γραμμές ελαφρώς χειρότερο,
αλλά είναι έως και 10 φορές γρηγορότερο από το CLUSTALW (πολύ δε
περισσότερο από τα υπόλοιπα), και κατά συνέπεια καλύτερο για αναλύσεις
μεγάλου όγκου δεδομένων σε καθημερινή βάση. Τέλος, οι αλγόριθμοι που
κάνουν ολική στοίχιση, αποδίδουν σε γενικές γραμμές καλύτερα, εκτός αν
στις πολλαπλές στοιχίσεις υπάρχουν μεγάλες περιοχές στο αμινοτελικό ή στο
καρβοξυτελικό άκρο, οι οποίες δεν ταυτίζονται σε όλα τα μέλη της
οικογένειας (δηλαδή, αν υπάρχουν οικογένειες με μέλη τα οποία εμφανίζουν
τοπική ομοιότητα). Το T-Coffee γενικά, είναι ένας καλός συμβιβασμός, καθώς
τα καταφέρνει σχετικά καλά σε όλες τις περιπτώσεις, ενώ το Dialign
αποδεικνύεται καλύτερο μόνο σε κάποια από τα σετ με τέτοιες ακολουθίες
(στις πιο ακραίες περιπτώσεις). 32
• Τα δύο τελευταία χαρακτηριστικά, δηλαδή η ταχύτητα και η ικανότητα σωστής
στοίχισης σε περιπτώσεις τοπικής ομοιότητας πρέπει να ελέγχονται προσεκτικά και να
λαμβάνονται σοβαρά υπόψη στην επιλογή προγράμματος. Η ταχύτητα για παράδειγμα,
δεν είναι σημαντική όταν κάνουμε μια μελέτη μιας συγκεκριμένης οικογένειας (θέλουμε
να πάρουμε την καλύτερη δυνατή στοίχιση και δεν μας πειράζει να περιμένουμε λίγο).
Από την άλλη όμως, είναι ένας σημαντικός παράγοντας αν πρόκειται τις πολλαπλές
στοιχίσεις να τις χρησιμοποιούμε λ.χ. για την υποβοήθηση μιας μεθόδου πρόγνωσης,
γιατί σε αυτή την περίπτωση θα χρειάζεται να επαναλαμβάνουμε τις στοιχίσεις
καθημερινά (για παράδειγμα, αν φτιάχνουμε μια διαδικτυακή εφαρμογή). Κάτι
αντίστοιχο ισχύει και για τις τοπικές ομοιότητες των πρωτεϊνών. Αν μελετάμε μια
συγκεκριμένη οικογένεια πρωτεϊνών, κατά πάσα πιθανότητα θα ξέρουμε τι είδους
στοίχιση να περιμένουμε. Αν όμως πρόκειται η πολλαπλή στοίχιση να χρησιμοποιείται
σε μια αυτοματοποιημένη διαδικασία, τότε δεν έχουμε αυτή την πολυτέλεια. Τέλος, ένας
άλλος παράγοντας που πρέπει να λαμβάνεται υπόψη είναι και η ευκολία προς τον απλό
χρήστη. Τα περισσότερα από τα προγράμματα που αναφέραμε (CLUSTALW, T-
Cofffee, Dialign, Kalign, MUSCLE, ProbAlign, Prrp/Prrn), προσφέρονται σαν
διαδικτυακές εφαρμογές αλλά και σαν τοπικές εφαρμογές τις οποίες ο χρήστης μπορεί
να εγκαταστήσει στον υπολογιστή του. Τα περισσότερα από αυτά, είναι ιδιαίτερα
εύκολα στην εγκατάσταση σε όλα τα συστήματα (Windows, Linux, Mac), αλλά το
COBALT και το PRALINE, τα οποία απαιτούν χρήση και άλλων προγραμμάτων (PSI-
BLAST κλπ), είναι πιο δύσκολα στη ρύθμιση (και για την ακρίβεια, για το PRALINE
δεν είμαστε σίγουροι αν υπάρχει και διαθέσιμη εφαρμογή πέραν της διαδικτυακής). Όλα
τα παραπάνω είναι παράγοντες που πρέπει να λαμβάνονται σοβαρά υπόψη από τον
χρήστη πριν επιλέξει με ποιο πρόγραμμα θα πραγματοποιήσει την ανάλυση του, και σε
κάθε περίπτωση, είναι χρήσιμο πάντα κάποιος να δοκιμάζει αρκετές εναλλακτικές 33
προτάσεις.

Βιοπληροφορική Ι

1
The modular nature of proteins
SGIRIIVVALYDYEAIHHEDLSFQKGDQMVVLEESGEWWKARSLATRKEGYIPSNYVARV
DSLETEEWFFKGISRKDAERQLLAPGNMLGSFMIRDSETTKGSYSLSVRDYDPRQGDTVK
Protein
HYKIRTLDNGGFYISPRSTFSTLQELVDHYKKGNDGLCQKLSVPCMSSKPQKPWEKDAWE
IPRESLKLEKKLGAGQFGEVWMATYNKHTKVAVKTMKPGSMSVEAFLAEANVMKTLQHDK
LVKLHAVVTKEPIYIITEFMAKGSLLDFLKSDEGSKQPLPKLIDFSAQIAEGMAFIEQRN
Domains
YIHRDLRAANILVSASLVCKIADFGLARVIEDNEYTAREGAKFPIKWTAPEAINFGSFTI
KSDVWSFGILLMEIVTYGRIPYPGMSNPEVIRALERGYRMPRPENCPEELYNIMMRCWKN
RPEERPTFEYIQSVLDDFYTATESQEEIP

Local Similarity

vav

src42

csw

3
Patterns

5
EGF domain
AGRI_CHICK/1-3 PCDSH--PCLHGGTCEDD------GREFTCRCPAGKGGAVCE
GLP1_CAEEL/2-0 PCDSD--PCNNG-LCYPFY------GGFQCICNNGYGGSYCE
NTC3_MOUSE/25- PCFSR--PCLHGGICNPTH------PGFECTCREGFTGSQCQ
NTC3_MOUSE/19- ACESQ--PCQAGGTCTSDG------IGFRCTCAPGFQGHQCE
NTC3_MOUSE/32- PCESQ--PCQHGGQCRHSLGRGGG-LTFTCHCVPPFWGLRCE
CRB_DROME/14-0 ECDSN--PCSKHGNCNDGI------GTYTCECEPGFEGTHCE
NTC4_MOUSE/25- LCQSQ--PCSNGGSCEITTGPP---PGFTCHCPKGFEGPTCS
NTC4_MOUSE/17- ACHSG--PCLNGGSCSIRP------EGYSCTCLPSHTGRHCQ
FAT_DROME/2-0 VCYSK--PCRNGGSCQRSPDG----SSYFCLCRPGFRGNQCE
NOTC_BRARE/3-0 ACMNS--PCRNGGTCSLLTL-----DTFTCRCQPGWSGKTCQ
NOTC_BRARE/6-0 PCLPS--PCRSGGTCVQTSD-----TTHTCSCLPGFTGQTCE
DLK_HUMAN/4-0 NCASS--PCQNGGTCLQHTQ-----VSYECLCKPEFTGLTCV
NTC4_MOUSE/1-3 LCGGSPEPCANGGTCLRLSQ-----GQGICQCAPGFLGETCQ
NOTC_BRARE/9-0 DCASA--ACSHGATCHDRV------ASFFCECPHGRTGLLCH
NTC4_MOUSE/18- HCVSA--SCLNGGTCVNKP------GTFFCLCATGFQGLHCE
DLL1_MOUSE/6-0 DCASS--PCANGGTCRDSV------NDFSCTCPPGYTGKNCS
DL_DROME/7-0 LCLIR--PCANGGTCLNLN------NDYQCTCRAGFTGKDCS
FBP1_STRPU/2-0 DCDPN--LCQNGAACTDLV------NDYACTCPPGFTGRNCE
* * * *

–C-x-C-x(5)-G-x(2)-C
6

Finding New Domains

BLAST BLAST

Boring Interesting 7
Κανόνες
• Τα αμινοξέα ή τα νουκλεοτίδια αναπαρίστανται με τον τυπικό κωδικό του ενός γράμματος της
IUPAC.
• Κάθε θέση της πολλαπλής στοίχισης αντιστοιχεί σε μια θέση στο πρότυπο, η οποία διαχωρίζεται από
τις υπόλοιπες με μία παύλα (-).
• Οι θέσεις είναι ανεξάρτητες μεταξύ τους.
• Αν σε κάποια θέση εμφανίζεται μόνο ένας χαρακτήρας, τότε στο πρότυπο χρησιμοποιείται
αυτούσιος (π.χ. Α, Τ κ.ο.κ.)
• Αν σε κάποια θέση εμφανίζονται δύο ή περισσότεροι χαρακτήρες τότε αυτοί εμφανίζονται μέσα σε
άγκυστρο, για παράδειγμα [ΑΤ] σημαίνει ότι επιτρέπεται Α ή Τ, ενώ [ACG] σημαίνει ότι επιτρέπεται
είτε A, είτε G, είτε C.
• Αν σε κάποια θέση επιτρέπεται να εμφανιστεί οποιοδήποτε σύμβολο, τότε αυτή η θέση συμβολίζεται
με x.
• Αν σε κάποια θέση επιτρέπεται να εμφανιστεί οποιοδήποτε σύμβολο εκτός από κάποιο/α, τότε τη
θέση τη συμβολίζουμε με {}. Για παράδειγμα, για να πούμε «οποιοδήποτε νουκλεοτίδιο εκτός από
Α» γράφουμε {Α} το οποίο στην περίπτωση του DNA είναι ισοδύναμο με το [CGT]. Προφανώς,
αυτός ο κανόνας είναι περισσότερο χρήσιμος στην περίπτωση των πρωτεϊνών με το μεγάλο
αλφάβητο.
• Επαναλήξεις συμβολίζονται με παρένθεση (). Για παράδειγμα το Α(3) σημαίνει Α-Α-Α, ενώ το x(3)
σημαίνει x-x-x (δηλαδή 3 οποιαδήποτε σύμβολα). Επίσης, μέσα στην παρένθεση μπορεί να μπει και
ένα εύρος τιμών. Έτσι, το x(2,4) σημαίνει x-x, ή x-x-x, ή x-x-x-x.
• Η αρχή και το τέλος της αλληλουχίας συμβολίζονται με τα σύμβολα < και > αντίστοιχα. Έτσι, για να
πούμε ότι η αλληλουχία αρχίζει με Α και μετά ακολουθεί οποιοδήποτε σύμβολο γράφουμε <A-x
• Σε κάποιες ειδικές περιπτώσεις το σύμβολο '>' μπορεί να εμφανιστεί μέσα στα άγκυστρα για να
χαρακτηρίσει την πιθανή ύπαρξη καρβοξυτελικού άκρου. Έτσι, το P-R-L-[G>] σημαίνει είτε P-R-L-
G ή P-R-L>.
8

Prosite
• η PROSITE (http://www.expasy.ch/prosite/) αποτελεί μια βάση ταξινόμησης
πρωτεϊνικών ακολουθιών και αυτοτελών περιοχών ακολουθιών (sequence domains) σε
οικογένειες (Sigrist et al., 2010). Ο παραδοσιακός τρόπος καταχώρησης μιας
οικογένειας στη βάση αυτή, γίνεται με τους ομώνυμους κανόνες που περιγράψαμε
παραπάνω και είναι ο πιο παλιός και εύκολος στη δημιουργία, ενώ ο άλλος βασίζεται
στην κατασκευή προφίλ, μέθοδος η οποία είναι πιο σύνθετη αλλά και πιο ευαίσθητη (θα
μελετηθεί στη συνέχεια). Μέχρι σήμερα η PROSITE περιέχει καταχωρήσεις για
περισσότερες από 1700 οικογένειες. Συνολικά, υπάρχουν στη βάση 1308 πρότυπα, 1107
προφίλ και 1105 "κανόνες" (αφορούν κυρίως πληροφορίες για το πού θα πρέπει να
βρίσκεται το πρότυπο για να θεωρηθεί έγκυρο αλλά και πληροφορίες για συνδυασμούς
από πρότυπα). Προφανώς, υπάρχουν οικογένειες για τις οποίες υπάρχουν διαθέσιμα και
πρότυπα και προφίλ (συνήθως, οι παλαιότερες καταχωρήσεις αφορούσαν το πρότυπα).
Στη βάση υπάρχουν επίσης αναλύσεις τόσο για τις πρωτεΐνες της Uniprot που ανήκουν
σε κάθε οικογένεια, όσο και για τις πρωτεΐνες στις οποίες εμφανίζεται ένα "αποτύπωμα"
(κυρίως όταν έχουμε να κάνουμε με πρότυπα) αλλά είναι γνωστό ότι δεν ανήκουν
λειτουργικά στην οικογένεια αυτή. Τέλος, υπάρχουν εργαλεία για την αναζήτηση των
προτύπων και των προφίλ σε ακολουθίες, όσο και εργαλεία αναπαράστασης της
"σπονδυλωτής" δομής των πρωτεϊνών, δηλαδή της αναπαράστασης των περιοχών αυτών
και την αποτύπωση της διάταξής τους πάνω σε μια δεδομένη ακολουθία.

9
Regular Expressions
• Όπως αναφέραμε ήδη, οι κανονικές εκφράσεις (regular expressions)
και οι εκφράσεις της PROSITE είναι ισοδύναμες. Οι διαφορές στη
σύνταξη είναι οι εξής:
• Η κάθε θέση αναγράφεται συνεχόμενα χωρίς να μεσολαβεί η παύλα (-
).
• Το σύμβολο για «οποιοδήποτε» χαρακτήρα είναι η τελεία (.) αντί για
το x
• Το σύμβολο για το «οποιοδήποτε χαρακτήρα εκτός από» είναι το ^
μέσα στην αγκύλη, και όχι το άγκυστρο {}.
• Για παράδειγμα, αν θεωρήσουμε το πρότυπο της PROSITE που
δίνεται από την έκφραση:
[RK]-G-{EDRKHPCG}-[AGSCI]-[FY]-[LIVA]-x-[FYM]
• τότε η αντίστοιχη κανονική έκφραση θα είναι:
[RK]G[^EDRKHPCG][AGSCI][FY][LIVA].[FYM]

10

C-x-C-x(2)-{V}-x(2)-G-{C}-x-C EGF-like 1 domain

[RK]-x(2,3)-[DE]-x(2,3)-Y Tyrosine kinase phosphorylation site


N-{P}-[ST]
N-linked glycosylation
[LIVMA]-G-[EQ]-H-G-[DN]-[ST]
L-lactate dehydrogenase active site
P-[LIVM]-C-T-[LIVM]-[KRH]-x-[FT]-P Ubiquitin-activating enzyme signature

S-K-L> Peroxisomal Target Sequence 1


(PTS1)
{DERK}(6)-[LIVMFWSTAG](2) Bacterial Lipoprotein signal
-[LIVMFYSTAGCQ]-[AGS]-C peptide

11
[RK]-[LVI]Q]-x(2)-[LVIHQ] Peroxisomal Target Sequence 2
-[LSGAK]-x-[HQ]-[LAF] (PTS2)

K-R-K-x{11}-K-K-K-S-K-K Nuclear localization signal (*)

[LVI]-[ASTVI]-[GAS]-C Alternative bacterial


Lipoprotein signal peptide
pattern

<[MV]-X(0,13)-[RK]-{DERKQ}(6,20)
Pattern specific for lipoproteins
-[LIVMFESTAG]-[LVIAM]-[IVMSTAFG]-[AG]-C of Gram+ bacteria

R-R-x-[FGAVML]-[LITMVF] Twin-arginine (TAT) signal


peptide
x(100,)-{C}-[YFWKLHVITMAD]-{C}
-[YFWKLHVITMAD]-{C}-[YFWKLHVITMAD] C-terminal beta-strand pattern
-{C}-[YFWKLHVITMAD]-{C}-[FYW] of bacterial OMPs

12

[CG]-A-G-G-T-[AG]-A-G Exon/Intron splice site

[CT]-x-[CT]-A-G-[AG] Intron/Exon splice site

A-[AU]-U-A-A-A Poly-A signal


C-G-G-x(11)-C-C-G
GAL4 binding site
T-G-A-[GC]-T-C-[AT]-[TC] GCN4 binding site

[TC]-T-A-A-T-T YOX1 binding site

A-C-C-[CT]-T-[CAT]-A-A-G-G-G-x-[GAC]-T ZAP1 binding site


T-C-A-C-T-G-x(80,100)-G-T Centromere
-T-G-T-C-C-G-A-A-A-A

13
Πλεονεκτήματα
• Τα πρότυπα, έχουν κάποια μοναδικά πλεονεκτήματα. Καταρχάς, είναι
κατανοητά στο ανθρώπινο μάτι. Διαβάζοντας μια τέτοια έκφραση,
καταλαβαίνουμε αμέσως την πληροφορία που περιέχει. Έτσι, είναι πολύ
περιεκτικά και συμπυκνώνουν την πληροφορία μιας πιθανά μεγάλης
πολλαπλής στοίχισης, μέσα σε μερικούς μόνο χαρακτήρες. Μας βοηθούν με
αυτόν τον τρόπο να ταξινομήσουμε και να κατανοήσουμε φαινόμενα που είναι
γενικά δύσκολα.
• Επίσης, είναι ιδιαίτερα αποδοτικά από υπολογιστικής πλευράς για πρακτικές
χρήσης. Τα πρότυπα PROSITE καθώς είναι ισοδύναμα με τις κανονικές
εκφράσεις (regular expressions), μπορούν βασιστούν στις υλοποιήσεις που
κάνουν χρήση πεπερασμένων αυτομάτων με συνέπεια να είναι ιδιαίτερα
εύκολο και γρήγορο το να αποτελέσουν τμήμα μια υπολογιστικής
μεθοδολογίας για ταχείες αναζητήσεις σε μεγάλες βάσεις δεδομένων.
υλοποίηση τέτοιων εκφράσεων σε μια γλώσσα προγραμματισμού όπως η Perl
είναι κάτι ιδιαίτερα εύκολο, ενώ αντίστοιχες δυνατότητες δίνουν ακόμα και οι
βασικές εντολές του UNIX (grep, egrep).

14

Μειονεκτήματα
• Από την άλλη μεριά όμως, αυτά ακριβώς τα χαρακτηριστικά που κάνουν τα πρότυπα
ιδιαίτερα επιτυχημένα, περιέχουν και το σπόρο με τις αδυναμίες τους. Το βασικό
μειονέκτημα είναι ότι χάνεται μεγάλο μέρος της πληροφορίας της πολλαπλής στοίχισης.
Για παράδειγμα στην Εικόνα 5.1 στην 3η στήλη της στοίχισης το πρότυπο προβλέπει
[ΑΤ], δηλαδή Α ή Τ, αλλά δεν μας δίνει τη σχετική πιθανότητα για το καθένα, παρόλο
που από την πολλαπλή στοίχιση βλέπουμε ότι η Θυμίνη (Τ) έχει διπλάσια πιθανότητα
από την Αδενίνη (Α). Φανταστείτε ότι έχουμε τώρα την ίδια περίπτωση αλλά σε μια
στοίχιση με 100 αλληλουχίες, και εκεί έχουμε 65 Τ και 35 Α. Αν τώρα γίνει γνωστή μια
επιπλέον αλληλουχία που ανήκει σίγουρα (με βάση βιολογικά κριτήρια) στη
συγκεκριμένη οικογένεια, αλλά στη θέση αυτή έχει G, τι θα πρέπει να γίνει σε αυτή την
περίπτωση; Αν το πρότυπο διευρυνθεί για να περιλαμβάνει και τη νέα αλληλουχία (γίνει
δηλαδή [AGT]), τότε θα έχουμε χάσει ακόμα μεγαλύτερο μέρος της προβλεπτικής
δύναμης. Αν επιλέξουμε να μην κάνουμε αυτή τη διεύρυνση, τότε θα είμαστε
αναγκασμένοι να έχουμε ένα πρότυπο το οποίο «χάνει» κάποια από τα πραγματικά μέλη
της οικογένειας. Αυτό είναι ένα πραγματικό πρόβλημα, και υπάρχουν και στη βάση
PROSITE πρότυπα τα οποία αδυνατούν να χαρακτηρίσουν το 100% των μελών μιας
πρωτεϊνικής οικογένειας. Προφανώς, στην περίπτωση των πρωτεϊνών το πρόβλημα είναι
πολύ πιο έντονο καθώς όπως είδαμε στα προηγούμενα κεφάλαια, σε πρωτεϊνικές
οικογένειες με πολλά μέλη είναι σχεδόν αδύνατο να βρεις στήλες στην πολλαπλή
στοίχιση με απόλυτη ομοφωνία καθώς αυτό που συντηρείται τις περισσότερες φορές
είναι οι φυσικοχημικές ιδιότητες (πχ υδρόφοβα αμινοξέα, θετικά φορτισμένα αμινοξέα
κ.ο.κ.). Με λίγα λόγια, είναι πολύ συνηθισμένο μια καλή στοίχιση να περιλαμβάνει σε
μια στήλη αρκετά, διαφορετικά μεταξύ τους, αμινοξέα. Το πρόβλημα αυτό, θα το 15
λύσουν εν μέρει τα προφίλ αλληλουχιών (sequence profiles) και οι ειδικοί ανά θέση
πίνακες σκορ (PSSMs), τους οποίους θα δούμε στην επόμενη ενότητα.
συνέχεια
• Ένα άλλο πρόβλημα, είναι ότι τα πρότυπα με τον τρόπο που τα
ορίσαμε δεν μπορούν να ενσωματώσουν εύκολα τα κενά στην
πολλαπλή στοίχιση. Στην Εικόνα 5.1 είδαμε μια πολλαπλή στοίχιση
που περιέχει κενά, αλλά όλα προέρχονται από εισαγωγές (τυχαίων)
νουκλεοτιδίων σε κάποιες από τις αλληλουχίες της στοίχισης. Έτσι, τα
κενά στην 1η, 4η, 5η και 6η αλληλουχία αντιστοιχούν απλά στις
εισαγωγές νουκλεοτιδίων στην 2η και στην 3η αλληλουχία. Τι θα
γινόταν όμως αν λ.χ. στην πρώτη αλληλουχία στην 8η θέση δεν είχε
την Κυτοσίνη (C); Με την υπάρχουσα ορολογία, απλά δεν θα ταίριαζε
στο μοντέλο. Το πρόβλημα αυτό το λύνουν εν μέρει τα προφίλ,
αντιμετωπίζοντάς το με τον κλασικό τρόπο που είδαμε στη στοίχιση
αλληλουχιών (με δυναμικό προγραμματισμό και ποινές για τα κενά),
αλλά την πιο ολοκληρωμένη λύση τη δίνουν τα Hidden Markov
Models (HMMs) που θα δούμε στο Κεφάλαιο 8.

16

συνέχεια
• Ένα άλλο πρόβλημα, είναι ότι τα πρότυπα με τον τρόπο που τα
ορίσαμε δεν μπορούν να ενσωματώσουν εύκολα τα κενά στην
πολλαπλή στοίχιση. Στην Εικόνα 5.1 είδαμε μια πολλαπλή στοίχιση
που περιέχει κενά, αλλά όλα προέρχονται από εισαγωγές (τυχαίων)
νουκλεοτιδίων σε κάποιες από τις αλληλουχίες της στοίχισης. Έτσι, τα
κενά στην 1η, 4η, 5η και 6η αλληλουχία αντιστοιχούν απλά στις
εισαγωγές νουκλεοτιδίων στην 2η και στην 3η αλληλουχία. Τι θα
γινόταν όμως αν λ.χ. στην πρώτη αλληλουχία στην 8η θέση δεν είχε
την Κυτοσίνη (C); Με την υπάρχουσα ορολογία, απλά δεν θα ταίριαζε
στο μοντέλο. Το πρόβλημα αυτό το λύνουν εν μέρει τα προφίλ,
αντιμετωπίζοντάς το με τον κλασικό τρόπο που είδαμε στη στοίχιση
αλληλουχιών (με δυναμικό προγραμματισμό και ποινές για τα κενά),
αλλά την πιο ολοκληρωμένη λύση τη δίνουν τα Hidden Markov
Models (HMMs) που θα δούμε στο Κεφάλαιο 8.

17
18

Κατασκευή των προτύπων


• Επιλογή της γλώσσας: στο πρώτο στάδιο θα πρέπει να επιλεγεί ο τρόπος
περιγραφής των προτύπων. Μπορεί δηλαδή να χρησιμοποιηθεί η σύνταξη της
PROSITE, αλλά υπάρχουν και περιπτώσεις στις οποίες επιλέγονται και πιο
απλές περιγραφές (π.χ. πρότυπα τα οποία περιέχουν εκφράσεις χωρίς
πολλαπλές ταυτίσεις σε κάποια θέση, δηλαδή είτε ένα σύμβολο είτε
οποιοδήποτε).
• Κριτήριο καταλληλότητας: αυτό είναι το μέτρο με το οποίο θα αξιολογήσουμε
ένα πρότυπο ως καλό. Μπορεί να περιλαμβάνει απλές εκφράσεις, όπως τον
αριθμό ή το ποσοστό των συντηρημένων θέσεων, μέχρι πιο σύνθετες όπως το
συνολικό πληροφοριακό περιεχόμενο ή την πιθανοφάνεια.
• Αλγόριθμος: το τελευταίο κομμάτι αφορά τον τρόπο αναζήτησης και είναι
περισσότερο σχετικό στην περίπτωση μη στοιχισμένων αλληλουχιών, στις
οποίες το πρόβλημα είναι NP-complete, οπότε συνήθως χρησιμοποιούνται
ευριστικές τεχνικές (heuristic) ή άπληστοι (greedy) αλγόριθμοι, στους οποίους
περιορίζεται το εύρος αναζήτησης (π.χ. αναζήτηση όλων των προτύπων με
μέγεθος μέχρι ένα ορισμένο σημείο). Επίσης, χρησιμοποιούνται ευρέως και
στατιστικές τεχνικές, όπως ο αλγόριθμος ΕΜ (Expectation-Maximization) και
ο Gibbs sampler.
19
Πολλαπλή στοίχιση Μη στοιχισμένες αλληλουχίες

ATAGAC ATAGAC
ATTGAC ATTGAC
ATAGCC ATAGCC
ATAGGC ATAGGC

A-T-[AT]-G-x-C A-T-[AT]-G-x-C

20

Λογισμικό
• Το πιο παλιό και ευρέως χρησιμοποιούμενο εργαλείο για την κατασκευή προτύπων, είναι το PRATT
(http://web.expasy.org/pratt/). Ο χρήστης δίνει σαν δεδομένα εισόδου τις αλληλουχίες και τις γενικές απαιτήσεις
των προτύπων, π.χ. το εύρος του μήκους τους, τον αριθμό με τις μη συντηρημένες θέσεις που μπορεί να
περιέχουν, και τον αριθμό των πρωτεϊνών στις οποίες πρέπει να εμφανίζονται. Το PRATT έχει μπορέσει να
ανακατασκευάσει αρκετά ήδη γνωστά πρότυπα, ενώ είναι μια ιδιαίτερα εύχρηστη και γρήγορη εφαρμογή που
υπάρχει και σε διαδικτυακή έκδοση.
• Το MEME (http://meme-suite.org/tools/meme) είναι μια επίσης πολύ γνωστή μέθοδος που βασίζεται στον
αλγόριθμο ΕΜ (Multiple EM For Motif Elicitation). Το ΜΕΜΕ διαθέτει πολλές εφαρμογές, κάποιες εκ των
οποίων χρησιμοποιούν και προφίλ αλληλουχιών (θα τα εξετάσουμε παρακάτω). Στη γενική περίπτωση, ο
αλγόριθμος χρησιμοποιεί μια στατιστική περιγραφή των προτύπων και βασίζεται στο γνωστό πρόβλημα της μίξης
των κατανομών (αντιμετωπίζει τις στήλες σαν ανεξάρτητες παρατηρήσεις από πολυωνυμικές κατανομές με
διαφορετικές πιθανότητες). Ο αλγόριθμος δέχεται επίσης κάποιες αρχικές παραδοχές για το μήκος του προτύπου
και με μια επαναληπτική διαδικασία μέγιστης πιθανοφάνειας εντοπίζει τις βέλτιστες περιοχές πάνω στις
αλληλουχίες οι οποίες φέρουν κάποιο χαρακτηριστικό.
• Μια άλλη παρόμοια εφαρμογή, είναι ο Gibbs Motif Sampler ο οποίος όπως λέει το όνομα, βασίζεται στη
στατιστική μεθοδολογία του Gibbs sampler (http://ccmbweb.ccv.brown.edu/gibbs/gibbs.html). Η μέθοδος αυτή
έχει διάφορες παραλλαγές εστιασμένες σε διαφορετικές απαιτήσεις, όπως για παράδειγμα για εύρεση θέσεων
πρόσδεσης μεταγραφικών παραγόντων ή επαναληπτικές αλληλουχίες, ενώ είναι διαθέσιμη και ως αυτόνομο
λογισμικό.
• Τέλος, ο TEIRESIAS ο οποίος αναπτύχθηκε από τον Έλληνα επιστήμονα Ισίδωρο Ριγούτσο όταν αυτός
εργαζόταν στην ΙΒΜ, είναι ίσως ο πιο ενδιαφέρων από τους διαθέσιμους αλγορίθμους. Ο αλγόριθμος είναι
συνδυαστικός (combinatorial) και εντοπίζει πρότυπα που εμφανίζονται περισσότερες φορές από έναν επιλεγμένο
από τον χρήστη αριθμό, αλλά το επιτυγχάνει αυτό χωρίς να απαριθμεί όλες[u3] τα ενδεχόμενα. Επιπλέον δε, τα
πρότυπα που ανακαλύπτει είναι τα βέλτιστα δυνατά, με την έννοια ότι είναι αδύνατο να γίνουν πιο ειδικά και
ταυτόχρονα να εμφανίζονται στις ίδιες ακριβώς θέσεις σε όλες τις αλληλουχίες. Ο TEIRESIAS είναι διαθέσιμος
στη διεύθυνση https://cm.jefferson.edu/Teiresias/, ενώ ενδιαφέρον έχει ότι εκτός από τις εφαρμογές του στην
ανακάλυψη προτύπων σε αλληλουχίες DNA, έχει χρησιμοποιηθεί και σε άλλου είδους προβλήματα όπως στον
εντοπισμό ύποπτων συμπεριφορών στα δίκτυα υπολογιστών.
21
Weight Matrices, Profiles και
PSSMs
• Είδαμε στην προηγούμενη ενότητα τις βασικές αδυναμίες των
προτύπων. Η πιο σημαντική από αυτές, είναι ότι σε κάθε θέση
«χάνεται» η πληροφορία για τη σχετική αναλογία των συμβόλων του
αλφαβήτου, και η αδυναμία να ποσοτικοποιήσει την ταύτιση μιας
δεδομένης αλληλουχίας. Τα προβλήματα αυτά, άρχισαν να γίνονται
φανερά και πιο έντονα όσο τα δεδομένα συσσωρεύονταν με
αποτέλεσμα να εμφανίζονται όλο και περισσότερες περιπτώσεις
αλληλουχιών που για μία ή δύο αλλαγές στην αλληλουχία τους, δεν
ταίριαζαν στο γνωστό πρότυπο. Τις αδυναμίες αυτές, έρχονται να
αντιμετωπίσουν οι σταθμισμένοι πίνακες (weight matrices) και τα
προφίλ (profiles). Με τη μεθοδολογία αυτή, κατασκευάζεται ένας
πίνακας k x p, όπου k είναι το μέγεθος του αλφαβήτου και p το
μέγεθος της περιοχής που μοντελοποιούμε (οι στήλες της πολλαπλής
στοίχισης). Έτσι, σε κάθε θέση i της πολλαπλής στοίχισης
αντιστοιχίζουμε ένα διάνυσμα με τις πιθανότητες εμφάνισης pb(i) του
κάθε συμβόλου

22

A T A G A C A C A A
A T T G T C A C T A
A T T G A C G C T A
A T A G G C A C G A
A T T G A C C C C A
nb  i 
A T T G C C A C G A
pb  i  
 nb '  i 
b '

1 2 3 4 5 6 7 8 9 10

A 1.000 0.000 0.333 0.000 0.500 0.000 0.667 0.000 0.167 1.000

T 0.000 1.000 0.667 0.000 0.167 0.000 0.000 0.000 0.333 0.000

G 0.000 0.000 0.000 1.000 0.167 0.000 0.167 0.000 0.333 0.000

C 0.000 0.000 0.000 0.000 0.167 1.000 0.167 1.000 0.167 0.000

23
A T A G A C A C A A
A T T G T C A C T A
A T T G A C G C T A
A T A G G C A C G A
A T T G A C C C C A
A T T G C C A C G A

sb  i   log  pb  i  pb 

1 2 3 4 5 6 7 8 9 10

A 1.387 -∞ 0.393 -∞ 0.693 -∞ 0.981 -∞ -0.405 1.387

T -∞ 1.387 0.981 -∞ -0.405 -∞ -∞ -∞ 0.393 -∞

G -∞ -∞ -∞ 1.387 -0.405 -∞ -0.405 -∞ 0.393 -∞

C -∞ -∞ -∞ -∞ -0.405 1.000 -0.405 1.387 -0.405 -∞

24

Πρωτεϊνες
• Ειδικά στις πρωτεΐνες, είναι δυνατό να κατασκευαστεί ένα ακόμα πιο
ευαίσθητο σύστημα για το σκορ, ικανό να εντοπίζει και μακρινές
ομοιότητες. Η μέθοδος αυτή ονομάζεται profile analysis και ήταν μια
από τις πρώτες και πολύ ικανοποιητικές προσεγγίσεις στον εντοπισμό
μακρινών ομολόγων (Gribskov, McLachlan, & Eisenberg, 1987). Η
ιδέα είναι να φτιαχτεί ένας ειδικός ανά θέση πίνακας του σκορ
(position specific scoring matric-PSSM), ο οποίος θα μπορεί να
χρησιμοποιηθεί αντί των κλασικών πινάκων ομοιότητας (PAM,
BLOSUM κλπ) σε μια κλασική μέθοδο στοίχισης. Αρχικά, ξεκινάμε
με μια αλληλουχία και εντοπίζουμε τις ομόλογες. Από αυτές,
κατασκευάζουμε μια πολλαπλή στοίχιση από την οποία
κατασκευάζουμε όμοια με προηγουμένως τον πίνακα με τις
πιθανότητες εμφάνισης κάθε καταλοίπου. Βασικό σημείο που
χρειάζεται προσοχή εδώ, είναι το γεγονός ότι ο πίνακας έχει τόσες
θέσεις, όσο είναι και το μήκος της αρχικής αλληλουχίας. Αυτό
συμβαίνει γιατί στήλες στην πολλαπλή στοίχιση που περιέχουν τυχόν
κενά στην αρχική αλληλουχία, αγνοούνται. Με άλλα λόγια, η
αλληλουχία «μετατρέπεται» σε έναν πίνακα που περιέχει πληροφορίες
από όλες τις ομόλογές της και με τον τρόπο αυτόν πετυχαίνουμε 25
μεγαλύτερη ευαισθησία στις αναζητήσεις.
• Στον υπολογισμό του σκορ, η βασική
διαφορά από την κλασική μέθοδο, έγκειται
στο ότι σε κάθε θέση η τιμή του σκορ
δίνεται από ένα μέσο όρο όλων των τιμών
που προβλέπει ένας κλασικός πίνακας του
σκορ για τις συγκρίσεις αλληλουχιών. Έτσι,
θα έχουμε:
k
sb  i    p i  S
j 1
j bj
26

27
A T A G C A C A A
1 x
2 x
3 x
4 x
5 x
6 x
7 x
8 x
9 x
10 x
28

Λογισμικό
• Το πιο γνωστό πρόγραμμα της πρώτης κατηγορίας είναι το
ScanProsite (http://prosite.expasy.org/scanprosite/). Το
ScanProsite είναι κατασκευασμένο για να εντοπίζει
πρότυπα και προφίλ της PROSITE, σε οποιαδήποτε
αλληλουχία, είτε του χρήστη, είτε κάποια που έχει επιλεγεί
από μια βάση δεδομένων. Είναι το εργαλείο που
χρησιμοποιείται επίσημα στις αναζητήσεις στην PROSITE
και έχει πολλές βελτιστοποιήσεις για να αυξάνεται η
ταχύτητα, όπως προϋπολογισμένες ταυτίσεις για τις
γνωστές αλληλουχίες κ.ο.κ. (De Castro et al., 2006)

29
Λογισμικό
• Το PFTOOLS (http://web.expasy.org/pftools/) ειναι ένα
εργαλείο κατάλληλο τόσο για κατασκευή όσο και για
αναζήτηση προφίλ από στοιχισμένες αλληλουχίες (Bucher,
Karplus, Moeri, & Hofmann, 1996). Το PFTOOLS είναι
πολύ γενικό, και περιλαμβάνει όλες τις περιπτώσεις
προφίλ που αναφέραμε στην προηγούμενη ενότητα
(πρότυπα, weight matrices, PSSMs), ενώ ενσωματώνει και
την πιο γενική περίπτωση στην οποία όλες οι ποινές για τα
κενά είναι επίσης ειδικές ανά θέση (generalized profile). Η
τελευταία περίπτωση, απέχει ένα μόνο βήμα πριν από το
Hidden Markov Model το οποίο θα εξετάσουμε στο
Κεφάλαιο 8. Το PFTOOLS χρησιμοποιείται κυρίως για
την κατασκευή μοντέλων για πρωτεϊνικές οικογένειες,
χρησιμοποιώντας μια πολλαπλή στοίχιση των μελών της
οικογένειας και διαθέτει διάφορες ρουτίνες, όπως: pfmake, 30
pfscale, pfw, pfsearch, pfscan

PSI-BLAST (Position-specific-
iterated BLAST)
• Είναι μια επέκταση του γνωστού αλγορίθμου BLAST και χρησιμοποιείται για την εύρεση
μακρινών ομολόγων. Η μέθοδος δουλεύει ως εξής.
• Στην αρχή πραγματοποιείται μια κανονική αναζήτηση με το BLAST και συλλέγονται οι
αλληλουχίες με Ε-value μικρότερο από κάποιο όριο που ορίζεται από τον χρήστη. Αυτές
θεωρείται ότι είναι οι «σίγουρες» ομόλογες και χρησιμοποιούνται για να κατασκευαστεί
ένας PSSM όπως περιγράψαμε παραπάνω, χωρίς όμως κενά καθώς κάθε στήλη του
αντιστοιχεί σε μια θέση της αλληλουχίας της αρχικής πρωτεΐνης.
• Με αυτόν τον πίνακα, πραγματοποιείται εκ νέου αναζήτηση στη βάση δεδομένων, η
οποία πλέον θα δώσει περισσότερες ομόλογες με Ε-value μικρότερο από το αρχικό όριο.
• Η διαδικασία αυτή επαναλαμβάνεται αρκετές φορές, είτε μέχρι να σταματήσουν να
προστίθενται νέες αλληλουχίες, είτε μέχρι να ξεπεραστεί ένας συγκεκριμένος αριθμός
επαναλήψεων (συνήθως 3 ή 4).
• Η μέθοδος είναι εξαιρετικά αποδοτική και εντοπίζει μεγάλο αριθμό ομόλογων πρωτεϊνών
(μακρινών ομολόγων), οι οποίες δεν θα μπορούσαν να εντοπιστούν με μια συμβατική
αναζήτηση. Η επαναληπτική αυτή διαδικασία, θυμίζει τον αλγόριθμο ΕΜ, και οι μόνες
περιπτώσεις στις οποίες μπορεί να αποτύχει είναι είτε όταν δεν βρεθούν καθόλου
ομόλογες στην πρώτη αναζήτηση, είτε όταν το όριο είναι αρκετά ψηλά με συνέπεια να
συμπεριληφθούν και πρωτεΐνες που δεν έχουν πραγματική ομολογία, οπότε και το προφίλ
δεν θα είναι πλέον ειδικό αρκετά (contamination). 31
Αρχική αλληλουχία (Query)

BLAST
Βάση δεδομένων
(Database) iteration

Πολλαπλή στοίχιση
(Multiple Alignment)
PSSM

32

PHI-BLAST (pattern-hit initiated


BLAST)
• Το PHI-BLAST (pattern-hit initiated BLAST) είναι άλλη
μια παραλλαγή του BLAST, η οποία όμως χρησιμοποιεί
πρότυπα κανονικών εκφράσεων (Zhang et al., 1998). Η
ιδέα εδώ είναι διαφορετική και συνίσταται στη
χρησιμοποίηση γνωστών πρότυπων, τα οποία υπάρχουν
στην αλληλουχία επερώτησης και τα καθορίζει ο χρήστης,
για να καθοδηγήσουν την αναζήτηση. Με τον τρόπο αυτό,
το εύρος της αναζήτησης περιορίζεται και σε πολλές
περιπτώσεις εντοπίζονται ομόλογες πρωτεΐνες οι οποίες
δεν μπορούσαν να εντοπιστούν με το συμβατικό τρόπο
αναζήτησης

33
Αρχική αλληλουχία (Query)

Βάση δεδομένων
(Database)
PROSITE pattern
ATAGAC
ATAGAC
ATAGAC
ATAGAC
ATAGAC

BLAST

ATAGAC
Η αναζήτηση περιορίζεται ATAGAC
μόνο ανάμεσα στις ATAGAC
ακολουθίες που έχουν το ATAGAC
ATAGAC
πρότυπο

34

WebLogo
• Τέλος, μια πολύ σημαντική εφαρμογή που χρησιμοποιείται
για την οπτικοποίηση των περιοχών που απεικονίζονται σε
ένα πρότυπο ή προφίλ, είναι το WebLogo
(http://weblogo.berkeley.edu/) (Crooks, Hon, Chandonia,
& Brenner, 2004). Το WebLogo βασίζεται στην απλή ιδέα
των Λογότυπων Αλληλουχιών (Sequence Logo) των
Schneider και Stephens (Schneider & Stephens, 1990) και
απεικονίζει μια πολλαπλή στοίχιση σε μια γραφική
αναπαράσταση, με στήλες στις οποίες εμφανίζονται
τοποθετημένα κάθετα τα σύμβολα που εμφανίζονται σε
αυτή. Το ύψος της στήλης αντιστοιχεί στη συνολική
πληροφορία που φέρει η στήλη αυτή, και δίνεται από τον
τύπο:
 
R  S max  Sobs  log 2 k     nb  i  log pb  i  
 b  35
Παραδείγματα

36

37
38

Βιοπληροφορική Ι
Φυλογενετικές σχέσεις

• Χρησιμοποιούνται οι ομοιότητες και οι


διαφορές των μελετούμενων οργανισμών
• Τα χαρακτηριστικά που μελετώνται, ενώ
παλιά ήταν μορφολογικά-ανατομικά, τώρα
πλέον είναι όλο και περισσότερο μοριακά

Βασικές αρχές
• Οποιαδήποτε ομάδα οργανισμών
προέρχεται από έναν κοινό πρόγονο μέσω
της εξέλιξης
• Υπάρχει διχαλωτό πρότυπο στην εξέλιξη
• Αλλαγή στα χαρακτηριστικά εμφανίζεται
μετά το πέρασμα πολλών γενιών

3
Ορολογία στα δέντρα
• Clade, Taxon, Node
• Στις πιο πολλές αναλύσεις, το μήκος των
βραχιόνων ανταποκρίνεται στη
φυλογενετική απόσταση-απόκλιση

5
6

Orthologs & Paralogs


Speciation events

Worm

Orthologs
Fly

Human 1
Paralogs

Human 2
Gene duplication events

Yeast 1

Paralogs
Yeast 2
7
8

9
Δέντρα με ρίζα (rooted trees)

10

Δέντρα χωρίς ρίζα (unrooted


trees)

Για να προσθέσουμε ρίζα επιλέγουμε ένα Outgroup

11
Τα βήματα μιας φυλογενετικής
ανάλυσης
• Στοίχιση (πολλές φορές χρειάζεται manual
editing)
• Καθορισμός του μοντέλου αντικατάστασης
• Κατασκευή του δέντρου
• Αξιολόγηση του δέντρου

12

Πιθανοθεωρητικά μοντέλα της


εξέλιξης
• Προυποθέτουν μια Μαρκοβιανή ανέλιξη για το
ρυθμό αντικαταστάσεων των νουκλεοτιδίων

13
14

15
16

17
18

Jukes and Cantor (1969)


• Αν α=β=γ, τότε:

• Το ποιο απλό μοντέλο αλλά έχει σημαντικές


αδυναμίες
• Οι μεταπτώσεις (πουρίνη σε πουρίνη) δεν έχουν
ίδιο ρυθμό εμφάνισης με τις μεταστροφές
(πουρίνη σε πυριμιδίνη, και αντίστροφα) 19
Kimura (1980)

20

F81 (Felsenstein, 1981)


• χρησιμοποιεί μόνο μία παράμετρο (μ) για
τις μεταπτώσεις και τις μεταστροφές, αλλά
μοντελοποιεί τα τέσσερα νουκλεοτίδια με
διαφορετικές πιθανότητες εμφάνισης (πΑ,
πG, πC, πT):
-  C  G  T   C  G  T 
  A -  A   G   T   G  T 
R 
  A  C -  C   A   T   T 
 
  A  C  G -  C   G   A  
21
HKY85
• οι μεταπτώσεις έχουν διαφορετικό ρυθμό
από τις μεταστροφές, χρησιμοποιώντας δύο
παραμέτρους (κ και μ):

-   C   G   T   C  G  T 
  A -    A   G   T   G  T 
R 
  A  C -    C   A   T   T 
 
  A  C  G -    C   G   A  
22

GTR
• Τέλος, το πιο γενικό μοντέλο αυτής της
κατηγορίας, είναι το λεγόμενο γενικό
χρονικά αντιστρεπτό μοντέλο (general time
reversible model), το οποίο συμβολίζεται
ως GTR (Tavare, 1986) και περιγράφεται
από τη σχέση:
 -   a C  b G  c T   a C  b G  c T 
  a A -   a A  d  G  e T   d G  e T 
R 
  b A  d C -   d  C  b A  f  T   T 
 
  c A  e C  f G -   e C  f  G  c A  
23
Συνέπεια των απλών μοντέλων…
• Σε κατάσταση ισορροπίας (t→∞), έχουμε
ισοκατανομή των νουκλεοτιδίων
• Αυτό όμως ξέρουμε ότι δεν ισχύει καθώς οι
οργανισμοί διαφέρουν στο ποσοστό GC%
• Άλλα μοντέλα, πιο περίπλοκα έχουν
προταθεί (Lio and Goldman, Felsenstein,
Penny and Hendy) όπου ο πίνακας δεν έχει
την συμμετρία που είδαμε πρίν

24

Κατασκευή των δέντρων


• Μέθοδοι βασισμένες στην απόσταση
(distance-based methods)
• Μέθοδοι βασισμένες στους χαρακτήρες
(character-based methods)

25
Μέθοδοι βασισμένες στην
απόσταση
• UPGMA (unweighted pair group method using arithmetic
mean) (Clustering)
• Ενώνει τους βραχίονες με τη μεγαλύτερη ομοιότητα, και
παίρνει το μέσο όρο για να ορίσει το νέο cluster.
• Αναμένεται να αποδώσει τα μέγιστα, αν ισχύει το
«μοριακό ρολόι»

26

• Ο πίνακας των αποστάσεων δυο ακολουθιών και, θα


μπορούσε γενικά να προκύψει με πολλούς τρόπους. Ένας
εύκολος τρόπος θα ήταν μετρώντας απλά το ποσοστό από
τις θέσεις, στις οποίες τα κατάλοιπα διαφέρουν. Αυτό είναι
ένα λογικό μέτρο, αλλά δεν αποδίδει καλά για
ασυσχέτιστες ακολουθίες, καθώς θέλουμε σε αυτή την
περίπτωση η απόσταση να αυξάνει. Μια καλύτερη λύση,
προκύπτει από την αρχική πολλαπλή στοίχιση με χρήση
κάποιου από τα πιθανοθεωρητικά μοντέλα της εξέλιξης
που παρουσιάσαμε στην προηγούμενη παράγραφο. Για
παράδειγμα, το μοντέλο JC69 δίνει την απόσταση:
3  4  1 1
d ij   log  1  f d ij   log 1  2 f  g   log 1  2 g 
4  3  2 4 27
28

Μέθοδοι βασισμένες στην


απόσταση
• Neighbor-Joining Method (Ένωση Γειτόνων)
• Ενώνει διαδοχικά τα πιο κοντινά ζευγάρια, παγίωνοντας
την θέση τους σαν ένα νεό κλάδο
• Προχωράει προοδευτικά μέχρι τέλους
• Είναι αρκετά γρήγορη

29
30

Μέθοδοι βασισμένες στην


απόσταση
• Fitch and Margoliash (FM)
• Μεγιστοποιεί την προσαρμογή (fit) των ανά
δυο αποστάσεων σε ένα δέντρο
• Ελαχιστοποιεί την τετραγωνική απόκλιση
των αποστάσεων, σε σχέση με όλα τα
πιθανά μήκη μονοπατιών στο δέντρο
• Διάφορες παραλλαγές για το στάθμισμα του
σφάλματος
31
Μέθοδοι βασισμένες στους
χαρακτήρες (character-based
methods)
• Μέγιστη Πιθανοφάνεια (Maximum
Likelihood)
• Μέγιστη Φειδωλότητα (Maximum
Parsimony)

32

Μέγιστη Πιθανοφάνεια
(Maximum Likelihood)
• Η πιθανοφάνεια είναι δεσμευμένη στην
αρχική στοίχιση
• Πρέπει να αθροιστεί για όλες τις πιθανές
τοπολογίες του δέντρου
• Δεν μπορεί να υπολογιστεί αναλυτικά

33
34

35
36

Μέγιστη Φειδωλότητα
(Maximum Parsimony)
• Διαφέρει ριζικά από τις προηγούµενες, στο ότι κάνει
διάκριση µεταξύ πληροφοριακών και µη-
πληροφοριακών θέσεων στις ακολουθίες, µε τις
πληροφοριακές θέσεις να είναι αυτές που
παρουσιάζουν πολυµορφισµό (ύπαρξη πάνω από
δυο ειδών νουκλεοτιδίων) τουλάχιστον δυο φορές.
• Εφαρµόζεται στην εξελικτική βιολογία προτού να
εµφανιστεί η µοριακή φυλογένεια (π.χ. εφαρµοζόταν
σε διάφορα φαινοτυπικά χαρακτηριστικά) και έχει
σκοπό να εξηγήσει τις εξελικτικές διάφορες µε το
µικρότερο αριθµό αλλαγών.
• Προτάθηκε αρχικά, σαν υπολογιστική προσέγγιση
στη Μέγιστη Πιθανοφάνεια
• Έχει βρεθεί στο επίκεντρο πολλών αντιπαραθέσεων
37
38

Αξιολόγηση των Δέντρων


• Τυχαιοποιημένα Δέντρα
• Permutation Tail Probability Test
• Bootstrap (parametric, non-parametric)
• Likelihood Ratio Test

39
40

41

Συμπεράσματα
Συμπερασματικά, δεν μπορούμε να αποφανθούμε με 100% σιγουριά για το ποια μέθοδος είναι
καλύτερη κάτω από όλες τις περιστάσεις, και έτσι χρειάζεται προσοχή όταν έχουμε να εκτιμήσουμε
ένα φυλογενετικό δέντρο.
• Σε γενικές γραμμές, η μέγιστη πιθανοφάνεια, φαίνεται να έχει κερδίσει στη σχετική διαμάχη,
κυρίως λόγω του στέρεου μαθηματικού υποβάθρου, της δυνατότητας χρήσης πολλών εξελικτικών
μοντέλων αλλά και της ευκολίας την οποία προσδίδουν οι σύγχρονοι υπολογιστές και η αυξημένη
υπολογιστική ισχύς. Επιπλέον δε, φαίνεται να αποδίδει καλύτερα την ανακατασκευή δέντρων κάτω
από τα περισσότερα σενάρια προσομοιώσεων.
• Παρόλα αυτά, η μέθοδος NJ και η φειδωλότητα εξακολουθούν να είναι δημοφιλείς ειδικά για
γρήγορες αναλύσεις μεγάλου όγκου δεδομένων.
• Γενικά επειδή η διαδικασία κατασκευής ενός δέντρου περιλαμβάνει 3 διακριτές λειτουργίες,
δηλαδή: 1) το κριτήριο καταλληλότητας για το πόσο καλά «προσαρμόζονται» τα δεδομένα στο
δέντρο, 2) τη στρατηγική αναζήτησης για να βρούμε το καλύτερο δέντρο, και τέλος 3) τον έλεγχο
των προϋποθέσεων κάτω από τις οποίες έχει συντελεστεί η εξέλιξη, είναι δυνατόν να έχουμε
συνδυασμό πολλών μεθόδων, πράγμα που εκμεταλλεύονται αρκετά από τα σύγχρονα λογισιμικά τα
οποία παρουσιάζουμε στην επόμενη παράγραφο. Για παράδειγμα, η μη παραμετρική bootstrap
μπορεί να χρησιμοποιηθεί σαν μέθοδος αξιολόγησης με κάθε μέθοδο κατασκευής δέντρων, ενώ τα
κλασικά μοντέλα της εξέλιξης (πχ JC69, K2P κλπ), μπορούν να χρησιμοποιηθούν τόσο με τη ΝJ
(και την UPGMA), όσο και με τη μέγιστη πιθανοφάνεια (αλλά προσοχή, όχι με τη φειδωλότητα!).
• Ο Fenselstein έδειξε επιπλέον, ότι χρησιμοποιόντας οποιοδήποτε από τα γνωστά μοντέλα της
εξελικτικής διαδικασίας, μπορούν να οριστούν «αποστάσεις μέγιστης πιθανοφάνειας» (maximum
likelihood distance), οι οποίες έχουν την προσθετική ιδιότητα . Αυτές οι αποστάσεις, μπορούν να
χρησιμοποιηθούν με οποιαδήποτε μέθοδο αποστάσεων (NJ, UPGMA) για να δώσουν μια μέθοδο η
οποία θα δίνει καλύτερα αποτελέσματα.
• Μια άλλη υβριδική μέθοδος είναι η NJML, η οποία αποτελεί συνδυασμό των Neighbour Joining και
Maximum Likelihood. Στο πρώτο βήμα κατασκευάζει ένα δέντρο με NJ και η αναζήτηση των
πιθανών δέντρων με τη μέθοδο μέγιστης πιθανοφάνειας γίνεται μόνο στα κλαδιά με μεγάλη 42 τιμή
bootstrap. Η NJML έδειξε ότι πετυχαίνει καλύτερα αποτελέσματα από την κλασική NJ αλλά σε
χρόνο που είναι πολύ καλύτερος σε σχέση με τις ιδιαίτερα απαιτητικές μεθόδους πιθανοφάνειας

Πρακτικές Συμβουλές
• Έλεγχος των δεδομένων εισόδου (garbage in,
garbage out)
• Χρήση διαφορετικών μεθόδων (αν υπάρχει κάτι
σημαντικό, όλες θα δείξουν το ίδιο)
• Έλέγχος της σειράς των ακολουθιών (κάποιες
μέθοδοι παράγουν άλλα αποτελέσματα ανάλογα
με τη σειρά εισόδου)
• Επιλογή Outgroup

43
Διαθέσιμο Software
• PAUP (http://paup.csit.fsu.edu/)
• PHYLIP (http://evolution.genetics.washington.edu/phylip.html)
• PAML (http://abacus.gene.ucl.ac.uk/software/paml.html)
• HYPHY (http://www.hyphy.org)
• MrBayes (http://mrbayes.csit.fsu.edu/)
• MEGA (http://www.megasoftware.net/)
• PhyML (http://www.atgc-montpellier.fr/phyml/binaries.php)
• RAxML (http://scoh-its.org/exelixis/software.html)
• BEAST (http://beast.bio.ed.ac.uk)
• GARLI (http://code.google.com/p/garli)
• TNT (http://www.lillo.org.ar/phylogeny/tnt/ )
• Treeview (http://taxonomy.zoology.gla.ac.uk/rod/rod.html)

44

Βιοπληροφορική Ι
Διάλεξη 4

Hidden Markov Models (HMMs)

Μαρκοβιανά μοντέλα εξάρτησης

• Η πιθανότητα εμφάνισης ενός νουκλεοτιδίου είναι


δεσμευμένη στο αμέσως προηγούμενό του
• Κατάλληλα μοντέλα για βιολογικές ακολουθίες, καθώς
αντικατοπτρίζουν την έννοια της πληροφορίας που αυτές
περιέχουν
• Παραδείγματα από τις φυσικές γλώσσες (στα αγγλικά το
Q ακολουθείται με μεγαλύτερη πιθανότητα από U, παρά
από κάποιο άλλο)
• Ο Markov εμπνεύστηκε τις ομώνυμες αλυσίδες απο ένα
ποίημα του Pushkin.

3
Το μοντέλο Markov (Markov
Model)
Σε μια ακολουθία DNA x  x1 , x 2 ,..., x n xi  { A, T , G , C}
θεωρούμε ότι η εμφάνιση ενός νουκλεοτιδίου εξαρτάται απο το
αμέσως προηγούμενο του
p ab  P ( xi  b | xi 1  a )
και η πιθανότητα αυτή ονομάζεται πιθανότητα μεταβάσεως
η ολική πιθανότητα της ακολουθίας θα είναι:
P ( x )  P ( x n , x n 1 ,..., x1 )  P ( x x | x n 1 ,..., x1 ) P ( x n 1 | x n  2 ,..., x1 )... P ( x1 )
και επειδή:
P ( xi | xi 1 ,..., x1 )  P ( xi | xi 1 )  p xi xi1
n
P ( x x | x n 1 ) P ( x n 1 | x n  2 )... P ( x1 )  P ( x1 ) P ( xi | x i 1 )
i2

Το Markov Model
διαγραμματικά

5
Ο πίνακας μεταβάσεων

Θέση i

Α C G T

Θέ A PAA PAC PΑG PAT


ση
i-1
C PCΑ PCC PCG PCT

G PGΑ PGC PGG PGT

T PTΑ PTC PTG PTT

Maximum Likelihood Estimates


L
P  x   P  xk , xk 1 ,..., x1   P  xi | xi 1 , xi  2 ,...xi  k 
i  k 1

L
log P  x   log P  xk , xk 1 ,..., x1   log  P  xi | xi 1 , xi  2 ,...xi  k  
i  k 1
L
= log P  xk , xk 1 ,..., x1    log P  x | x
i  k 1
i i 1 , xi  2 ,...xi  k 

Θέτουμε τη μερική παράγωγο ως προς τις παραμέτρους ιση με


μηδέν ικανοποιώντας τους περιορισμούς:

 nsk ,..., s1 , s0
a sk ...s1s0  m


sk ,..., s1 ,s0 Q
nsk ,..., s1 , s0

7
Εφαρμογή- LR test
Έστω ότι έχουμε δύο μοντέλα (+) και (-), στα οποία υποθέτουμε ότι
ισχύουν διαφορετικοί πίνακες μεταβάσεως. Υπολογίζουμε τους
Ε.Μ.Π. για τις μεταβάσεις, ως εξής:
 
cab
 cab
p  p 
 cax  cax
ab ab

Κατόπιν υπολογίζουμε τα log-odds, για κάθε νουκλεοτίδιο, και τα


αθροίζουμε για ένα «παράθυρο», ή και για ολόκληρη την ακολουθία.

P( x | ) p x
S ( x)  log   log  i 1 xi
  x i 1 xi
P ( x | ) i px i 1 xi
i

Εφαρμογή στην εύρεση γονιδίων-


CpG islands

-0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4


BITS

9
10

Ανώτερης τάξης αλυσίδες


Markov
• Μια k τάξης αλυσίδα ορίζεται πολύ απλά:

• Μεγάλο πρόβλημα καθώς απαιτούνται


εκθετικά αυξανόμενα αριθμός δεδομένων
εκπαίδευσης [(20-1)*20k-1 παράμετροι]
• Ιδιαίτερα σε περιπτώσεις πρωτεϊνών όπου
έχουμε μεγάλο αλφάβητο
• Ανάγκη άλλων προσεγγίσεων
11
Προσεγγίσεις Ανώτερης τάξης
αλυσίδες Markov
• Variable Length Markov chains (VLMC)
• Mixture Transition Distribution (MTD)
• Parsimonious Markov chains (PMC)

12

To Hidden Markov Model


Στην περίπτωση που οι δυο περιοχές διαδέχονται η μια την άλλη, μέσα στην
ίδια ακολουθία, πιο «κομψό» μαθηματικά είναι το Hidden Markov Model.
Αν φανταστούμε ένα καζίνο, το οποίο χρησιμοποιεί κάθε φορά με
συγκεκριμένη πιθανότητα, ένα αμερόληπτο (fair) ζάρι και ένα μεροληπτικό
(loaded) ζάρι.

214526436636561666232145
--------++++++++++------
+ = μεροληπτικό
- = αμερόληπτο
Ο παίχτης κάθε φορά γνωρίζει μόνο το αποτέλεσμα, και όχι την φύση του
ζαριού. Το μοντέλο που μπορεί να περιγράψει αυτή την κατάσταση είναι
το Hidden Markov Model, και ονομάζεται έτσι (κρυμμένο) γιατί πλέον δεν
υπάρχει 1-1 αντιστοίχηση του αποτελέσματος, με την πραγματική
κατάσταση. 13
Ο ορισμός του μοντέλου

Ένα Hidden Markov Model, είναι ένα μοντέλο Μ που περιέχει 3


στοιχεία Σ, Q, θ.

M   Σ,Q,θ 
• Σ, το αλφάβητο των δυνατών ενδεχομένων (π.χ. 1,2,..6 για το ζάρι,
Α,T,G,C για το DNA, κλπ)
• Q, το σύνολο των δυνατών καταστάσεων του μοντέλου (μεροληπτικό
αμερόληπτο, για το ζάρι, γονίδιο – όχι γονίδιο για το DNA, κλπ)
• θ, το σύνολο πιθανοτήτων που διέπουν το μοντέλο και μπορεί να είναι:
1. Πιθανότητες μεταβάσεως (transitions) από κατάσταση σε κατάσταση,
και
2. Πιθανότητες γεννήσεως (emissions), με τις οποίες παράγονται τα
σύμβολα σε κάθε κατάσταση.
Πρέπει να τονιστεί, ότι σε ένα ΗΜΜ η μαρκοβιανή ιδιότητα ισχύει για τις
καταστάσεις του μοντέλου (states), και όχι για τα σύμβολα. 14

Ορισμοί
Ακολουθία συμβόλων:

transition probabilities:

emission probabilities:

begin probabilities:

end probabilities:

15
Πιθανοφάνεια
Η από κοινού πιθανότητα μιας ακολουθίας x και του μονοπατιού π

Για να υπολογίσουμε την συνολική πιθανότητα, μιας


ακολουθίας x, δεδομένου του μοντέλου, θα πρέπει να
αθροίσουμε για όλες τις πιθανές αλληλουχίες καταστάσεων,
δηλαδή να αθροίσουμε την συνεισφορά στη συνολική
πιθανότητα όλων των πιθανών μονοπατιών π.

16

To Hidden Markov Model


σχηματικά

Το μεροληπτικό καζίνο

17
Τα 3 βασικά ερωτήματα σε ένα
ΗΜΜ ...
Εκτίμηση
• Δεδομένου του μοντέλου, πως θα υπολογίσουμε την ολική πιθανότητα μιας
ακολουθίας συμβόλων. P(x|θ)
Αποκωδικοποίηση
• Πως θα βρούμε την πιο πιθανή αλληλουχία καταστάσεων (path) από την οποία
έχει διέλθει το μοντέλο, για να δώσει την συγκεκριμμένη ακολουθία
συμβόλων.  *  arg max P( x, )
Εκπαίδευση 
• Πως θα τροποποιήσουμε τις παραμέτρους του μοντέλου, έτσι ώστε να
μεγιστοποιηθεί η συνολική πιθανοφάνεια των ακολουθιών
θML=argmaxP(x|θ)

18

... και οι απαντήσεις τους


Εκτίμηση
• Αλγόριθμος FORWARD, αλγόριθμος δυναμικού προγραμματισμού, που
υπολογίζει την συνολική πιθανότητα της ακολουθίας, χωρίς να διέλθει από όλα
τα δυνατά μονοπάτια (αλληλουχίες καταστάσεων).
Αποκωδικοποίηση
• Αλγόριθμος του VITERBI, αλγόριθμος δυναμικού προγραμματισμού, που μέσω
αναδρομής (recursion) υπολογίζει την πιο πιθανή αλληλουχία καταστάσεων για
τη δεδομένη ακολουθία και το δεδομένο μοντέλο. (Εναλλακτικά NBEST).
Εκπαίδευση
• Αλγόριθμος των BAUM-WELCH (η αλλιώς FORWARD-BACKWARD), ειδική
περίπτωση του αλγόριθμου ΕΜ (Expectation-Maximization), ο οποίος χειρίζεται
τα δεδομένα σαν δεδομένα με ελλειπής τιμές (missing values) και υπολογίζει
Ε.Μ.Π. για τις παραμέτρους του μοντέλου (Εναλλακτικά Gradient Descent).

19
Αλγόριθμος Forward

20

21
22

Αλγόριθμος Viterbi

23
Αποκωδικοποίηση forward

24

“Εκ των υστέρων” αποκωδικοποίηση


Εναλλακτικά μπορεί να υπολογισθεί η πιθανότητα: P ( i  k | x)
δηλαδή, η εκ των υστέρων πιθανότητα το συγκεκριμμένο νουκλεοτίδιο να
προήλθε απο μια κατάσταση

Κάνοντας χρήση των Forward και Backward:

25
Πλεονεκτήματα:
• στις περιπτώσεις που τα εναλλακτικά μονοπάτια έχουν πολύ μικρές
διαφορές στις προβλεπόμενες πιθανότητες.
• όταν μια κατάσταση έχει πολύ μικρή πιθανότητα και το μονοπάτι με την
μέγιστη πιθανότητα, δεν την «επισκέπτεται» ποτέ.

Μειονεκτήματα:
• Μπορεί να προβλεφθεί μια πιθανότητα η οποία δεν είναι έγκυρη για το
μοντέλο (μια μη επιτρεπτή μετάβαση).

26

Αλγόριθμος Baum-Welch

27
28

29
Υπολογισμός των Expected counts

30

31
Είδαμε επίσης ότι ισχύει:

Η συνάρτηση Q μεγιστοποιείται από τους ΕΜΠ (έχει τα ίδια ακρότατα με τη log-likelihood)

32

Συνοπτικά ο αλγόριθμος
• Υπολογισμός των Α και Ε
• Υπολογισμός των ΕΜΠ
• Επανάληψη μέχρι να συγκλίνει

33
Χαρακτηριστικά του αλγορίθμου
Baum-Welch
• Είναι υπολογιστικά απλός
• Είναι σίγουρο ότι συγκλίνει
• Δεν χρειάζεται επιλογή παραμέτρων
Αλλά επίσης:
• Δεν συγκλίνει πάντα στο ολικό μέγιστο
• Δεν είναι smooth (αν μια παράμετρος μηδενιστεί
δεν αλλάζει ξανά τιμή)
• Δεν λειτουργεί on-line (για κάθε κατάλοιπο
ξεχωριστά)
34

Gradient Descent Training

35
Υπολογισμός μερικών
παραγώγων

36

Άρα για τα transitions, έχουμε:

και για τα emissions:

Παρατηρούμε ότι οι μερικές παράγωγοι της likelihood ως προς


τις παραμέτρους του μοντέλου είναι ίδιες με αυτές της
συνάρτησης Q

37
Normalization
• Αναγκαίο βήμα έτσι ώστε οι πιθανότητες να είναι μεταξύ 0-1
• Softmax μετασχηματισμός

38

39
Ένα παράδειγμα...

40

συνέχεια...

Πιθανότητες μεταβάσεως:
μεταβάσεως:

1 0
1 0.90
0.90 0.10
0.10
0 0.10 0.90

Πιθανότητες γεννήσεως :

Α Τ G C
1
0.7
0.70 0.10
0.10 0.10
0.10 0.10
0.10
0 0.25
0.25 0.25
0.25 0.2
0.2 5 0.25
0.25

41
συνέχεια...

Έστω μια ακολουθία DNA, η οποία προέρχεται από το


παραπάνω μοντέλο:

AAACAAGAATGCGCACACTACGCAAAAACAATTAGTCGCACTCACGATGAAACAAATTACCACGGTGAA
111111111100000000000001111111111100000000000000111111110000000000001

AACGAATAAACCTCAGAGGCCCAGCGTATATAAACAAGATAAAAACCTAGTCAGCACTCTGACCAGACG
111111111100000000000000000000011111111111111100000000000000000000000

AGCTCACGACTTGAGGATAAGAAAAAAACAACAGCTCACGACTTGAGGATAAGAAAAAAACA
00000000000000001111111111111100000000000000000011111111111111

42

συνέχεια...
Observed Sequence Viterbi Path

0
0 50 100 150 200
no
43
συνέχεια...
Αν όμως οι πιθανότητες μεταβάσεως άλλαζαν:

Πιθανότητες μεταβάσεως:
μεταβάσεως:

1 0
1 0.9
0.98 0.02
0.02
0 0.03
0.03 0.97
0.97

Πιθανότητες γεννήσεως :

Α Τ G C
1 0.60
0.60 0.10
0.10 0.10
0.10 0.10
0.10
0 0.25
0.25 0.25
0.25 0.2
0.25 0.25
0.25

44

συνέχεια...
Observed Sequence Posterior Probability
cut

0
0 50 100 150 200
no
45
Splice site recognition
• Εύρεση της 5’-περιοχής ματίσματος
• Προϋποθέσεις:
α) Τα εξώνια έχουν ίδιες πιθανότητες
εμφάνισης βάσεων
β) Τα εσώνια έχουν πολύ Α/Τ
γ) Στο σημείο ματίσματος υπάρχει
σχεδόν πάντα G
46

47
Labeled Sequences
• Αναγκαίο βήμα αν πρόκειται να
κατασκευάσουμε μεγάλο μοντέλο με
καταστάσεις οι οποίες ομαδοποιούνται
• Απαιτούνται αλλαγές στους αλγορίθμους

48

Labeled sequences

49
50

51
Maximum Likelihood για Labeled
sequences

52

Conditional Maximum
Likelihood
• Με την εισαγωγή των labels, μπορούμε να
πραγματοποιήσουμε εκπαίδευση που μεγιστοποιεί την
πιθανότητα:

• Η Πιθανοφάνεια γίνεται:

53
Conditional Maximum
Likelihood
• Απαιτεί διπλάσιο υπολογιστικό χρόνο από ML
• Αποδίδει καλύτερα όταν τα labels είναι καλής
ποιότητας
• Εκπαίδευση μόνο με Gradient descent
• Περισσότερο ευαίσθητος στις αρχικές τιμές των
παραμέτρων

54

1-best decoding

55
Posterior-Viterbi decoding
Ορίζονται οι επιτρεπτές μεταβάσεις:

56

Optimal Accuracy Posterior


Decoding
Παραλλαγή του Posterior-Viterbi, η οποία υπολογίζει το μονοπάτι:

Συνολικά:

57
Σύγκριση ΗΜΜ-Regular
Expressions
• Κάθε κανονική έκφραση μπορεί να
αναπαρασταθεί με ένα ΗΜΜ
• Το αντίστροφο δεν ισχύει
• Παραδείγματα

58

Regular Expressions
• [AC]AG-GT[AG]AGT
• {DERK}(6)-[LIVMFWSTAG](2)
[LIVMFYSTAGCQ]- [AGS]- C

59
Πλεονεκτήματα του Hidden Markov
Model
• Άριστη μαθηματική θεμελίωση, και πιθανοθεωρητική
ερμηνεία των αποτελεσμάτων.
• Ύπαρξη κατάλληλων αλγορίθμων για την υλοποίηση του.
• Μπορεί να ενσωματώσει, σχεδόν κάθε είδους πληροφορία
για το βιολογικό πρόβλημα, χωρίς να αναγκαστούμε να
καταφύγουμε σε ευριστικές (heuristic) μεθόδους.
• Αν δομηθεί το μοντέλο, η εκπαίδευση του και η εκτίμηση
πάνω σε αυτό γίνεται με μια διαδικασία από την αρχή
μέχρι το τέλος.

60

Εφαρμογές του Hidden Markov


Model στη Βιολογία

• Εύρεση πιθανών γονιδίων (εσώνια – εξώνια).


• Πρόγνωση δευτεροταγούς δομής πρωτεϊνών.
• Πρόγνωση διαμεμβρανικών τμημάτων πρωτεϊνών.
• Πρόγνωση των πεπτιδίων οδηγητών.
• Εύρεση ομόλογων οικογενειών ακολουθιών.
• και πολλά άλλα

61
62

63
64

65
66

67
Επεκτάσεις του ΗΜΜ
• ΗΜΜSDO
• Input-Output HMM (IOHMM)
• Factorial HMM
• Hierarchical HMM
• Partially Hidden Markov Model (PHMM)
• Hidden Neural Networks (HNN)
• και πολλά άλλα …
68

69
Software
• http://www.dina.dk/~sestoft/bsa/Match3.java
• http://www.cfar.umd.edu/~kanungo/software/software.html
• http://hmmer.wustl.edu/

70

Βιοπληροφορική Ι

1
Διάλεξη 5

Profile Hidden Markov Models και


Transformational Grammars

Profile HMM
• Ένα ΗΜΜ με “left-to-right” αρχιτεκτονική
• Μπορεί να ειδωθεί σαν επέκταση των profiles
• Διαθέτει ειδικά states τα οποία δεν έχουν
emissions (non-emitting states)
• Περιγράφουν στατιστικά μια πολλαπλή στοίχιση
• Προτάθηκαν από τους Hughey and Krogh (1996)

3
Γενική αρχιτεκτονική pHMM

Ιδιαιτερότητες
• Αντίστοιχα ορίζονται οι πιθανότητες γέννησης οι οποίες γεννούν τα
σύμβολα σε κάθε κατάσταση.
• Έτσι υπάρχει και εδώ μια αλληλουχία καταστάσεων η οποία είναι
κρυφή και μια αλληλουχία συμβόλων που είναι φανερή, και θεωρούμε
ότι παράγεται από την αλληλουχία των καταστάσεων.
• Οι καταστάσεις σύμπτωσης και εισαγωγής, είναι κανονικές καταστάσεις
οι οποίες συνδέονται μέσω των πιθανοτήτων γέννησης με την
εμφάνιση συμβόλων.
• Oι μεν καταστάσεις σύμπτωσης αντιστοιχούν σε στήλες της πολλαπλής
στοίχισης οι οποίες στοιχίζονται καλά και άρα αντιστοιχούν σε περιοχή
με ομοιότητα, ενώ οι καταστάσεις εισαγωγής, αντιστοιχούν σε περιοχές
στις οποίες έχουμε εισαγωγή χαρακτήρων που δεν στοιχίζονται καλά.
• Οι περιοχές αυτές, οι οποίες δεν υπάρχουν στις υπόλοιπες ακολουθίες,
εμφανίζονται ως κενά τα οποία μοντελοποιούνται μέσω των σιωπηρών
καταστάσεων απαλοιφής.

5
Ιδιαιτερότητες
• Εκπαίδευση με full Baum-Welch,
Simulated annealing ή Viterbi training
• Για την κατασκευή μπορεί να απαιτείται
μια πολλαπλή στοίχιση ή και όχι
• Στοίχιση της ακολουθίας με το μοντέλο με
κλασσικό Viterbi
• Πολλαπλή στοίχιση μέσω στοίχισης
ακολουθιών με το μοντέλο
6

7
Πλεονεκτήματα
• Με την εισαγωγή των διαφορετικών καταστάσεων σύμπτωσης
και εισαγωγής, γίνεται μια σημαντική τομή σε σχέση με τις
κλασσικές μεθόδους στοίχισης, οι οποίες καθώς δεν
προϋποθέτουν ένα μοντέλο δεν διαχωρίζουν τις πληροφοριακές
θέσεις στην στοίχιση από τις απλές τυχαίες εισαγωγές.
• Επιπλέον, για πρώτη φορά οι ποινές για την εισαγωγή κενών
(gap penalties), δεν τίθενται εκ των προτέρων αλλά εκτιμώνται
από τα δεδομένα και αναπαρίστανται με καθαρά
πιθανοθεωρητικό τρόπο, αποκλείοντας την υποκειμενική
παρέμβαση.
• Έτσι, με τέτοια μοντέλα, είμαστε σε θέση να
πραγματοποιήσουμε ιδιαίτερα ευαίσθητες αναζητήσεις και να
εντοπίσουμε απομακρυσμένες ομολογίες (remote homologies),
τις οποίες οι παραδοσιακοί αλγόριθμοι στοίχισης δεν θα
μπορούσαν να εντοπίσουν.
8

Πολλαπλή Στοίχιση

9
Χρήσεις

• Πολλαπλή στοίχιση
• Κατασκευή χαρακτηριστικών profiles
• Εντοπισμός remote homologues
• Αναζητήσεις σε βάσεις δεδομένων

10

Πολλαπλή στοίχιση
a=CAEFDDH b=CDAEFPDDH

Viterbi

a = CAEFDDH b = CDAEFPDDH

Pa=m0m1m2m3m4d5d6m7m8m9m10 Pb=m0m1i1m2m3m4d5m6m7m8m9m10

C A E F D D H
m0m1 m2m3m4d5d6m7m8m9m10

C D A E F P D D H
m0m1 i1m2m3m4d5m6m7m8m9m10 11
Γενικά
CAEFTPAVH m0m1m2m3m4m5m6m7m8m9m10

CKETTPADH Viterbi m0m1m2m3m4m5m6m7m8m9m10

CAETPDDH m0m1m2m3d4m5m6m7m8m9m10

CAEFDDH m0m1m2m3m4d5d6m7m8m9m10

CDAEFPDDH m0m1i1m2m3m4d5m6m7m8m9m10

C-AEFTPAVH
C-KETTPADH
C-AE-TPDDH
C-AEF--DDH
12
CDAEF-PDDH

Διαδικασία
• Μια ακολουθία για την οποία υπάρχουν πειραματικές
ενδείξεις για την λειτουργία ή τη δομή της
• Αναζήτηση σε βάσεις δεδομένων (BLAST, PSI-
BLAST)
• Συλλογή ομολόγων, επιλογή ξεσκαρτάρισμα κλπ
• Πολλαπλή στοίχιση (μπορεί και τροποποίηση αυτής με
το χέρι)
• Προγνώσεις (Secondary structure, TM κλπ)
• Κατασκευή ΗΜΜ, αξιολόγηση του
• Αναζήτηση εκ νέου σε βάσεις δεδομένων

13
14

15
Διαθέσιμα πακέτα
• HMMER
– (http://hmmer.wustl.edu/)
• HMMpro
– (http://www.netid.com/)
• SAM
– (http://www.cse.ucsc.edu/research/compbio/sam.h
tml)
• PFTOOLS
– (http://www.isrec.isb-sib.ch/ftp-server/pftools/)
[PROSITE PATTERNS]
16

HMMER
• GNU license
• Ανανεώνεται συνεχώς
• Τρέχει σε όλες τις πλατφόρμες
• Ποικιλία εργαλείων
• Ευέλικτη αρχιτεκτονική

17
HMMER

18

Ρουτίνες του HMMER


• hmmbuild: Πρόγραμμα με χρήση του οποίου, ξεκινώντας από μια
αρχική πολλαπλή στοίχιση, κατασκευάζεται ένα μοντέλο ΗΜΜ το
οποίο να την περιγράφει.
• hmmalign: Πρόγραμμα με το οποίο μια σειρά ακολουθιών οι οποίες
προέρχονται από ένα ΗΜΜ, στοιχίζονται σε μια πολλαπλή στοίχιση.
Η πολλαπλή στοίχιση, επιτυγχάνεται μέσω διαδοχικών στοιχίσεων των
ακολουθιών με το μοντέλο.
• hmmsearch: Πρόγραμμα το οποίο, πραγματοποιεί αναζητήσεις ενός
μοντέλου ΗΜΜ έναντι μιας βάσης ακολουθιών πρωτεϊνών.
• phmmer: Πρόγραμμα το οποίο πραγματοποιεί αναζήτηση μια
πρωτεϊνικής αλληλουχίας έναντι μιας βάσης δεδομένων πρωτεϊνών
(ανάλογο με το BLASTP)
• jackhmmer: Πρόγραμμα το οποίο πραγματοποιεί επαναληπτικές
αναζητήσεις μια πρωτεϊνικής αλληλουχίας έναντι μιας βάσης 19
δεδομένων πρωτεϊνών (ανάλογο με το PSI-BLAST)
Ρουτίνες του HMMER
• hmmscan: Πρόγραμμα με το οποίο πραγματοποιούνται αναζητήσεις μιας η
περισσότερων ακολουθιών έναντι μιας βάσης δεδομένων από μοντέλα ΗΜΜ.
Πρέπει να τονιστεί εδώ, ότι αν έχουμε μια ακολουθία και ένα ΗΜΜ, τα δυο
παραπάνω προγράμματα επιστρέφουν ακριβώς το ίδιο αποτέλεσμα. Αν
διαφέρουν, είτε οι ακολουθίες είτε τα μοντέλα, τότε δίνουν άλλο αποτέλεσμα,
λόγω του διαφορετικού τρόπου υπολογισμού της στατιστικής σημαντικότητας.
• nhmmer: Πρόγραμμα που πραγματοποιεί αναζήτηση μιας ακολουθίας DNA,
μιας στοίχισης ή ενός pHMM, έναντι μιας βάσης ακολουθιών DNA. (ανάλογο
με το BLASTN)
• nhmmscan: Πρόγραμμα που πραγματοποιεί αναζήτηση μιας ακολουθίας
DNA έναντι μιας βάσης δεδομένων από DNA profile HMΜ.
• hmmconvert: Πρόγραμμα που μετατρέπει μοντέλα ΗΜΜ από και προς τη
μορφή του HMMER3.
• hmmemit: Πρόγραμμα, με το οποίο ‘εκπέμπεται’ η καλύτερη (ανάλογα με
τον ορισμό) ακολουθία η οποία θα μπορούσε να παραχθεί από το μοντέλο.
• hmmpress: Μετατρέπει μια βάση δεδομένων HMM σε δυαδικό κώδικα για το
hmmscan.
• hmmstat: δείχνει συνοπτικά στατιστικά για μια βάση δεδομένων ΗΜΜ.
20

21
διαδικασία χαρακτηρισμού μιας
πρωτεϊνικής οικογένειας
• Στην αρχή, ξεκινάμε με μια ακολουθία για την οποία υπάρχουν
πειραματικές ενδείξεις για τη λειτουργία ή τη δομή της
• Γίνεται αναζήτηση σε βάσεις δεδομένων (BLAST, PSI-BLAST ή
πλέον, με το HMMER)
• Συλλογή ομολόγων, επιλογή και ξεσκαρτάρισμα
• Γίνεται μια πολλαπλή στοίχιση (μπορεί και τροποποίηση αυτής με το
χέρι)
• Ανάλογα με την περίπτωση, πραγματοποιούνται προγνώσεις
(δευτεροταγούς δομής, διαμεμβρανικών τμημάτων ή οποιουδήποτε
άλλου χρήσιμου χαρακτηριστικού)
• Γίνεται κατασκευή ΗΜΜ και αξιολόγηση του (HMMER)
• Αναζήτηση εκ νέου σε βάσεις δεδομένων, μέχρι να μην προκύπτουν
νέα μέλη της οικογένειας.

22

ΗΜΜpro
• Commercial
Software
• Παραθυρικό
interface

23
SAM

24

Βιοπληροφορική Ι
Προγνωστικές μέθοδοι
• Οι μέθοδοι πρόγνωσης έρχονται χρονικά
αλλά και λογικά να καλύψουν το κενό που
έχουν αφήσει οι μέθοδοι ομοιότητας
• Εκτιμάται, ότι σε κάθε νεοπροσδιορισθέν
γονιδίωμα, περίπου το 20-30% των
γονιδίων αντιστοιχούν σε πρωτεϊνικές
αλληλουχίες για τις οποίες δεν μπορούν
να εξαχθούν σίγουρα συμπεράσματα από
μια αναζήτηση ομοιότητας και μόνο

Είναι απαραίτητες;
• τα μοριακά δεδομένα (γονιδιώματα, γονίδια, πρωτεΐνες κ.ο.κ.)
συσσωρεύονται με εκθετικούς ρυθμούς
• Για παράδειγμα, ενώ πλέον οι αλληλουχίες προσδιορίζονται με
διαδικασίες ρουτίνας, οι τρισδιάστατες δομές απαιτούν εντατική
ενασχόληση ενώ για κάποιες ειδικές κατηγορίες πρωτεϊνών τα
πράγματα είναι πολύ πιο δύσκολα (όπως για παράδειγμα οι
μεμβρανικές πρωτεΐνες).
• Κατά συνέπεια, το κενό ανάμεσα στον αριθμό αλληλουχιών και
αυτών των δομών δεν αναμένεται να καλυφθεί ποτέ. Παρόμοια είναι
και η κατάσταση στη διερεύνηση της λειτουργίας μιας πρωτεΐνης.
• Καταλαβαίνουμε λοιπόν ότι οι μέθοδοι πρόγνωσης είναι ένα
απαραίτητο κομμάτι της βιοπληροφορικής και έρχονται να καλύψουν
το κενό αυτό, «συλλέγοντας» πληροφορίες για τις άγνωστες
αλληλουχίες.
Πως λειτουργούν
• Ο βασικός τρόπος με τον οποίο λειτουργούν
αυτές οι μέθοδοι είναι με την «εκπαίδευση» σε
κάποια γνωστά παραδείγματα. Κατόπιν, και αν η
διαδικασία έχει γίνει σωστά, υπάρχει η ελπίδα
ότι η μέθοδος θα προβλέπει σωστά τα
αντίστοιχα χαρακτηριστικά ακόμα και σε εντελώς
διαφορετικές αλληλουχίες
• υπάρχει ένα τεράστιο εύρος εφαρμογών τέτοιων
μεθόδων με μεγάλη πρακτική χρησιμότητα, αλλά
και διαφορετικών μαθηματικών και
υπολογιστικών τεχνικών που χρησιμοποιούνται
για το σκοπό αυτό

Παραδείγματα
• πρόγνωση της δευτεροταγούς δομής
• πρόγνωση διαμεβρανικών τμημάτων
• πρόβλεψη ιδιαίτερων χαρακτηριστικών των
πρωτεϊνικών δομών, όπως οι θέσεις δράσης
διαφόρων ενζύμων (μετα-μεταφραστική
τροποποίηση, δισουλφιδικοί δεσμοί,
σηματοδοτικές αλληλουχίες κλπ)
• Η λειτουργική πρόβλεψη επίσης, είναι ιδιαίτερα
σημαντική, καθώς έχουν αναπτυχθεί μέθοδοι
που προβλέπουν λ.χ. το αν μια πρωτεΐνη είναι
ένζυμο και τι είδους αντίδραση καταλύει, το αν
δεσμεύει DNA ή όχι, κ.ο.κ.
Παραδείγματα (2)
• Στην περίπτωση των αλληλουχιών DNA, το κλασικότερο
παράδειγμα είναι η εύρεση γονιδίων (gene finding),
πρόβλημα το οποίο είναι σημαντικό τόσο σε
ευκαρυωτικούς όσο και προκαρυωτικούς οργανισμούς,
και είναι μια μέθοδος που χρησιμοποιείται συνεχώς στον
προσδιορισμό νέων γονιδιωμάτων.
• Φυσικά, το πρόβλημα αυτό είναι τεράστιο, γι’ αυτό και
έχουν αναπτυχθεί και μέθοδοι για ειδικές περιπτώσεις
όπως η αναγνώριση υποκινητών, η αναγνώριση
εσωνίων-εξωνίων, η πρόβλεψη της πολυαδενυλίωσης
του RNA κ.ο.κ.
• Επίσης, ιδιαίτερα τα τελευταία χρόνια έχει δοθεί μεγάλη
έμφαση στην πρόβλεψη των microRNA αλλά και των
στόχων τους

Κωδικοποίηση αλληλουχιών
• Οι βασικές αρχές όλων των μεθόδων πρόγνωσης στηρίζονται
αρχικά σε κάποιες στατιστικές παρατηρήσεις
• Για παράδειγμα η Αλανίνη, το Γλουταμικό και η Λευκίνη έχουν
ισχυρή προτίμηση να βρίσκονται σε α-έλικα ενώ η Προλίνη, η
Γλυκίνη και η Σερίνη όχι, τα υδρόφοβα αμινοξέα έχουν ισχυρή
προτίμηση να βρίσκονται σε διαμεμβρανικές περιοχές, ενώ τα
υδρόφιλα και τα πολικά, όχι, οι σηματοδοτικές αλλληλουχίες για τις
εκκρινόμενες πρωτεΐνες έχουν συνήθως στο σημείο αποκοπής την
αλληλουχία Α-Χ-Α, ενώ η γλυκοζυλίωση των πρωτεϊνών στο
σύστημα Golgi γίνεται σε αλληλουχίες N-X-[ST]
• Στο DNA η έναρξη όλων των γονιδίων κωδικοποιείται από το
κωδικόνιο A-U-G, ενώ στο σημείο αποκοπής εξωνίου-εσωνίου, τα
νουκλεοτίδια που βρίσκονται συνήθως είναι A-G και G-T αντίστοιχα
• Όπως γίνεται ήδη φανερό, μια πρώτη μορφή «μεθόδου
πρόγνωσης» είναι δυνατό να κατασκευαστεί με τη χρήση των
μεθόδων εύρεσης προτύπων και προφίλ σε αλληλουχίες
Δύο κατηγορίες μεθόδων
• Γενικά, υπάρχουν δύο κατηγορίες προβλημάτων
πρόγνωσης ή πρόβλεψης
• Στην πρώτη περίπτωση ενδιαφερόμαστε για
τοπική πρόγνωση κατά μήκος της αλληλουχίας.
Ενδιαφερόμαστε δηλαδή να δούμε ποια
συγκεκριμένα κατάλοιπα ή νουκλεοτίδια ανήκουν
σε μια κατηγορία και ποια σε άλλη
• Στη δεύτερη κατηγορία, ενδιαφερόμαστε να
ταξινομήσουμε κάποιες αλληλουχίες σε δύο ή
περισσότερες κατηγορίες
Τρόπος αντιμετώπισης
• οι δύο κατηγορίες μεθόδων απαιτούν και διαφορετικούς
τρόπους χειρισμού των δεδομένων αλληλουχιών
• Στην πρώτη περίπτωση, στην περίπτωση τοπικής
πρόβλεψης (τοπική κωδικοποίηση), αναγκαστικά θα
καταφύγουμε σε μια αναπαράσταση της αλληλουχίας με
τη χρήση της τεχνικής του κινούμενου παραθύρου
• Στη δεύτερη περίπτωση, σε προβλήματα στα οποία
ενδιαφερόμαστε να κατατάξουμε μια αλληλουχία σε δύο
ή περισσότερες κατηγορίες, χρειαζόμαστε μια μέθοδο
ολικής κωδικοποίησης της αλληλουχίας. Σε αυτές τις
μεθόδους, η αλληλουχία ανεξαρτήτως του μήκους της
αναπαρίσταται από ένα διάνυσμα σταθερού μήκους
Τοπική κωδικοποίηση
• Η ιδέα βασίζεται στη στατιστική ομαλοποίηση (smoothing), και σύμφωνα με αυτή οι
ιδιότητες όλου του παραθύρου καθορίζουν τη φύση του εκάστοτε καταλοίπου. Στην
περίπτωση των διαμεμβρανικών τμημάτων των πρωτεϊνών, καταλαβαίνουμε εύκολα
τη διαίσθηση πίσω από τη μέθοδο (αν βρεις 15 υδρόφοβα κατάλοιπα στη σειρά, είναι
πολύ πιο πιθανό να έχεις εντοπίσει μια διαμεμβρανική περιοχή). Το ίδιο ισχύει και
στην περίπτωση προβλημάτων που αντιμετωπίζονται με απλά πρότυπα (αναμένεις
να βρεις κάποια συγκεκριμένα κατάλοιπα σε κάθε θέση του προτύπου). Σε άλλες
περιπτώσεις τα πράγματα είναι πιο ασαφή, όπως π.χ. στην περίπτωση της
δευτεροταγούς δομής, στην οποία τα πράγματα είναι πιο σύνθετα αλλά και πάλι οι
ίδιοι κανόνες ισχύουν και εδώ (και για την ακρίβεια, αυτό ήταν το πρώτο πρόβλημα
από το οποίο ξεκίνησε η ανάπτυξη των μεθόδων αυτών).
• Φυσικά, υπάρχουν πολλά σημεία που απαιτούν διευκρινίσεις και μπορεί να
διαφέρουν από μέθοδο σε μέθοδο. Ένα πρώτο θέμα έχει να κάνει με το μήκος του
παραθύρου, και εξαρτάται πολύ από το συγκεκριμένο πρόβλημα.
• Γενικά, όσο μεγαλύτερο είναι ένα παράθυρο τόσο περισσότερη πληροφορία γύρω
από το κατάλοιπο του ενδιαφέροντος μπορεί να χρησιμοποιηθεί, αλλά αυτό αυξάνει
τον αριθμό των παραμέτρων του μοντέλου. Από την άλλη μεριά, από ένα σημείο και
μετά η επιπλέον αύξηση του μεγέθους του παραθύρου εισάγει θόρυβο οπότε στα
περισσότερα προβλήματα δεν θα δούμε παράθυρα με μέγεθος μεγαλύτερο από τα
30 αμινοξικά κατάλοιπα.
• Η συμμετρία του παραθύρου είναι ένα άλλο θέμα.

Τοπική κωδικοποίηση
• Τέλος, το πιο σημαντικό θέμα έχει να κάνει με το πώς κωδικοποιείται η πληροφορία
της αλληλουχίας του παραθύρου και με το πώς συνδυάζεται για να δώσει μια τελική
πρόβλεψη για το κεντρικό κατάλοιπο του παραθύρου. Μια πρώτη προσέγγιση θα
μπορούσε να γίνει, με βάση όσα έχουμε δει μέχρι τώρα, με τη χρήση ενός
προσθετικού σκορ
• Αυτή η μέθοδος είναι στατιστικά ορθή, εύκολα κατανοητή και εισηγείται αυτόματα και
τον τρόπο με τον οποίο η πληροφορία του κάθε καταλοίπου θα συνδυαστεί (το σκορ
το οποίο είναι ήδη σε λογαριθμική κλίματα, θα προστεθεί για όλο το παράθυρο). Όταν
επιθυμούμε να χρησιμοποιήσουμε μια κωδικοποίηση που βασίζεται σε κάποιο είδος
πρότερης γνώσης σχετικά με τις φυσικοχημικές ιδιότητες των αμινοξέων, υπάρχουν
δεκάδες επιλογές. Στην ιστοσελίδα http://web.expasy.org/protscale/ υπάρχουν
διαθέσιμες πάρα πολλές επιλογές κωδικοποίησης βασισμένες σε πειραματικές
μετρήσεις για την υδροφοβικότητα, την πολικότητα, την ευελιξία, τον όγκο, το μοριακό
βάρος ή την προτίμηση για κάποια συγκεκριμένη δευτεροταγή δομή.
• Με αυτόν τον τρόπο μπορούν να επιλεχθούν (πάντα βέβαια, σε συνάρτηση με το
πρόβλημα που θέλουμε να λύσουμε) μία ή περισσότερες από αυτές τις παραμέτρους
και να προχωρήσουμε στην κωδικοποίηση. Αν έχουμε λοιπόν παράθυρα με μέγεθος
k, τότε επιλέγοντας p από αυτές τις μεταβλητές, σε κάθε παράθυρο θα έχουμε pk
ψηφία, ενώ μια αλληλουχία με L αμινοξέα, θα έχει (L-k+1) παράθυρα και συνολικά θα
πρέπει να κωδικοποιηθεί με pk(L-k+1) μεταβλητές.
Τοπική κωδικοποίηση
• Σε γενικότερα προβλήματα που λύνονται με τέτοιου είδους μεθόδους, η απευθείας
κωδικοποίηση της ίδιας της αλληλουχίας και όχι η χρήση κάποιου σκορ είναι
προτιμότερη, αλλά όπως θα δούμε αυξάνει εκθετικά τον αριθμό των παραμέτρων του
μοντέλου
• Ο πιο συχνά χρησιμοποιούμενος, αλλά και ο πιο μαθηματικά σωστός τρόπος, για την
κωδικοποίηση των αλληλουχιών σε ένα παράθυρο κατά μήκος της αλληλουχίας, είναι
με το λεγόμενο sparse encoding (η σποραδική κωδικοποίηση) στον οποίο κάθε
αμινοξύ ή νουκλεοτίδιο αναπαρίσταται με ένα διάνυσμα 20 ή 4 ψηφίων από τα οποία
ένα μόνο κάθε φορά θα είναι 1 και τα υπόλοιπα 0
• Ο τρόπος αυτός, ο οποίος στη στατιστική ονομάζεται «dummy variables», είναι
μαθηματικά σωστός γιατί κάθε σύμβολο αντιμετωπίζεται σαν ξεχωριστός χαρακτήρας
και αποφεύγεται η εισαγωγή τεχνητών συσχετίσεων (η οποία θα μπορούσε να
προκύψει αν είχαμε χρησιμοποιήσει μια κωδικοποίηση με λιγότερα ψηφία). Παρ’ όλα
αυτά, είναι φανερό ότι οδηγεί σε μεγάλη υπολογιστική σπατάλη καθώς κάθε σύμβολο
(στην περίπτωση των πρωτεϊνών) θα χρησιμοποιεί 20 ψηφία. Αν έχουμε λοιπόν
παράθυρα με μέγεθος k τότε σε κάθε παράθυρο θα έχουμε 20k ψηφία, ενώ μια
αλληλουχία με L αμινοξέα, θα έχει (L-k+1) παράθυρα και συνολικά θα πρέπει να
κωδικοποιηθεί με 20k(L-k+1) ψηφία (δηλαδή μεταβλητές).
Ολική κωδικοποίηση
• Ένα κλασικό παράδειγμα αυτής της κατηγορίας αποτελούν τα
ποσοστά εμφάνισης των αμινοξέων, μέθοδος με την οποία
μπορούμε να κωδικοποιήσουμε οποιαδήποτε πρωτεΐνη σε ένα
διάνυσμα 20 μεταβλητών. Με αυτόν τον τρόπο και τη χρήση
νευρωνικών δικτύων οι (Reinhardt & Hubbard, 1998) είχαν πετύχει,
σε μια από τις πρώτες προσπάθειες του είδους, την πρόγνωση της
κυτταρικής στόχευσης (τοποθεσίας) των πρωτεϊνών, τόσο στο
βακτηριακό όσο και στο ευκαρυωτικό κύτταρο
• Αυτό που γίνεται εμφανές βέβαια, είναι ότι με τη μεθοδολογία αυτή,
διευκολύνονται μεν οι υπολογιστικές μεθοδολογίες, αλλά από την
άλλη χάνεται ένα σημαντικό μέρος της πληροφορίας που περιέχεται
στις αλληλουχίες καθώς πολλές (πρακτικά άπειρες) αλληλουχίες θα
αναπαρίστανται με το ίδιο ακριβώς διάνυσμα, ακόμα και αν έχουν
τελείως διαφορετικά χαρακτηριστικά (π.χ. η αλληλουχία ΑΑΑΑΤΤΤΤ
και η αλληλουχία ΑΤΑΤΑΤΑΤ θα έχουν ακριβώς την ίδια
κωδικοποίηση).

Ολική κωδικοποίηση
• Τα προβλήματα αυτής της προσέγγισης, μπορούν να αντιμετωπιστούν μόνο μερικώς
καθώς δεν είναι δυνατό να λυθεί τελείως το τελευταίο πρόβλημα, αυτό της απώλειας
πληροφορίας.
• Έτσι, κάποιοι έχουν προτείνει τη χρήση δι- και τρι-πεπτιδίων, μια προσέγγιση που
αυξάνει όμως αρκετά τον αριθμό των παραμέτρων του μοντέλου (400 και 8000
αντίστοιχα).
• Μια άλλη προσέγγιση, θα ήταν να χρησιμοποιηθούν άλλου είδους πληροφορίες
συνοπτικής φύσης, όπως το μοριακό βάρος της πρωτεΐνης, η συνολική
υδροφοβικότητα, η ύπαρξη άλλων χαρακτηριστικών όπως τα διαμεμβρανικά
τμήματα, τα πεπτίδια οδηγητές, διάφορα πρότυπα που εμφανίζονται κ.ο.κ. (τα οποία
βέβαια με τη σειρά τους προέρχονται από μεθόδους πρόγνωσης!).
• Μια άλλη εναλλακτική είναι η χρησιμοποίηση μαθηματικών τεχνικών που
περιγράφουν την περιοδικότητα που μπορεί να εμφανίζεται σε μια αλληλουχία (π.χ.
με μετασχηματισμό Fourier),
• η πιο γενικευμένη προσέγγιση είναι η λεγόμενη ψευδοσύσταση σε αμινοξέα (pseudo
aminoacid composition) του Chou, η οποία μετράει εκτός από τα αμινοξέα και τις
(μέχρι ένα βαθμό) συσχετίσεις τους που εμφανίζονται κατά μήκος της αλληλουχίας.
• Για παράδειγμα, υπολογίζει (σε μια μεθοδολογία που μοιάζει με τις μαρκοβιανές
αλυσίδες), τις συσχετίσεις των αμινοξέων με το επόμενό τους (το i με το i+1), ή με το
μεθεπόμενο (το i με το i+2), αλλά και παραπάνω (i+3). Προφανώς όμως, η
παραπάνω αύξηση οδηγεί σε μεγάλη αύξηση του αριθμού των παραμέτρων. Μια
διαδικτυακή εφαρμογή που εφαρμόζει τέτοιους μετασχηματισμούς, βρίσκεται
διαθέσιμη στη διεύθυνση http://www.csbio.sjtu.edu.cn/bioinf/PseAAC/.
Μεθοδολογίες για την
εκπαίδευση και τον έλεγχο
μιας μεθόδου πρόγνωσης
• Αν το πρόβλημα είναι νέο, το σύνολο των
δεδομένων εκπαίδευσης θα πρέπει να συλλεχθεί
από τις γνωστές βάσεις δεδομένων ή από τη
βιβλιογραφία με τις κατάλληλες επερωτήσεις (οι
οποίες μπορεί να είναι και ιδιαίτερα δύσκολες).
• Συνηθισμένη είναι και η περίπτωση κάποιος να
χρησιμοποιεί κάποιο σύνολο που είχε
χρησιμοποιηθεί παλιότερα. Αυτό έχει νόημα
όταν ενδιαφερόμαστε να συγκρίνουμε αμιγώς
την επίδραση του νέου αλγορίθμου και να τη
διαχωρίσουμε από την επίδραση του συνόλου
εκπαίδευσης.

Σύνολο εκπαίδευσης
• Γενικά, το σύνολο εκπαίδευσης πρέπει να είναι όσο το δυνατόν πιο
αντιπροσωπευτικό γίνεται, αλλά δεν υπάρχουν ξεκάθαροι κανόνες.
• Επίσης, θα πρέπει να υπάρχουν και κανόνες όσον αφορά το πόσο
όμοιες αλληλουχίες περιέχει (να είναι όπως λέμε non-redundant set).
• Το ποσοστό ομοιότητας όμως που θεωρείται αποδεκτό εξαρτάται
από τη φύση του επιμέρους προβλήματος (π.χ. στα προβλήματα
δευτεροταγούς δομής η αποδεκτή ομοιότητα είναι στο 30%, ενώ σε
άλλες περιπτώσεις όπως στις σηματοδοτικές αλληλουχίες,
υπάρχουν άλλα κριτήρια).
• Τέλος, υπάρχει και περίπτωση το σύνολο εκπαίδευσης να περιέχει
αρκετές ομόλογες πρωτεΐνες, αλλά τότε απαιτείται η αξιολόγηση της
αποδοτικότητας του αλγορίθμου να γίνει σε ανεξάρτητο σύνολο
δεδομένων, οι πρωτεΐνες του οποίου δεν θα έχουν ομοιότητα με
αυτές του συνόλου εκπαίδευσης
Διαδικασία
• Τέλος, ένα πολύ κρίσιμο σημείο στην όλη διαδικασία κατασκευής
μιας μεθόδου πρόγνωσης είναι η σωστή αξιολόγησή της.
• Ανάλογα με τη μέθοδο, θα επιλέξουμε και τα κατάλληλα στατιστικά
μέτρα αλλά αυτό δεν αρκεί. Μια οποιαδήποτε μέθοδος είναι δυνατόν
αν εφαρμοστεί στα ίδια τα δεδομένα με τα οποία έχει εκπαιδευτεί, να
δώσει υπερβολικά καλά αποτελέσματα.
• Αυτός ο έλεγχος ονομάζεται έλεγχος αυτο-συνέπειας (self-
consistency) αλλά είναι πολύ πιθανό να δώσει μεροληπτικά
αποτελέσματα καθώς υπάρχει ο κίνδυνος υπερ-προσαρμογής
(over-fitting). Με τον τελευταίο όρο εννοούμε ότι μπορεί η μέθοδος
να έχει «εκπαιδευτεί» παραπάνω από όσο χρειάζεται, με
αποτέλεσμα να αποδίδει πολύ καλά στο σύνολο εκπαίδευσης αλλά
να αποτυγχάνει σε νέα παραδείγματα.
• Σε κάθε περίπτωση παντως, ιδανικά μια μέθοδος πρέπει να
αποδειχτεί ότι αποδίδει αρκετά καλά σε ένα ανεξάρτητο έλεγχο
(independent test) για να έχουμε όσο το δυνατό πιο αμερόληπτα
αποτελέσματα
Διαδικασία
• Ένας άλλος έλεγχος, ο οποίος είτε γίνεται λόγω ανάγκης εξαιτίας της έλλειψης
ανεξάρτητου συνόλου, είτε γίνεται ως ένας επιπλέον έλεγχος λόγω του ότι το
ανεξάρτητο σύνολο είναι μικρό, είναι ο λεγόμενος έλεγχος cross-validation
• Με τη διαδικασία αυτή, το σύνολο εκπαίδευσης χωρίζεται σε k υποσύνολα (k-fold
cross-validation). Έπειτα, ένα υποσύνολο κάθε φορά αφαιρείται από το σύνολο
εκπαίδευσης, η εκπαίδευση πραγματοποιείται με τα εναπομείναντα υποσύνολα και
κατόπιν η μέθοδος δοκιμάζεται στις ακολουθίες του υποσυνόλου το οποίο έχει
αφαιρεθεί.
• Η διαδικασία επαναλαμβάνεται k φορές και το τελικό αποτέλεσμα προσφέρει μια
αμερόληπτη (unbiased) εκτίμηση για την πραγματική επιτυχία της μεθόδου, καθώς τα
αποτελέσματα έχουν προκύψει χωρίς καμία αλληλουχία να έχει χρησιμοποιηθεί στην
κατασκευή της μεθόδου με την οποία έγινε η πρόβλεψη πάνω της. Φυσικά, αυτό
εισάγει τον επιπλέον περιορισμό ότι μεταξύ των πρωτεϊνών του συνόλου
εκπαίδευσης δεν υπάρχουν ανιχνεύσιμες ομοιότητες (με όποιο κριτήριο και αν έχουμε
επιλέξει) ή τουλάχιστον δεν υπάρχουν τέτοιες ομοιότητες μεταξύ των k υποσυνόλων.
• Μια παραλλαγή αυτής της μεθόδου, η οποία είναι πιο αξιόπιστη στατιστικά αλλά
απαιτεί πολλούς περισσότερους υπολογισμούς, είναι η λεγόμενη Jackknife κατά την
οποία το k επιλέγεται να είναι ίσο με το μέγεθος του συνόλου εκπαίδευσης, με
συνέπεια το κάθε υποσύνολο να έχει μέγεθος ίσο με ένα.
• Γενικά, σε σύνολα με μέτριο μέγεθος ή για μεθόδους που είναι γρήγορες, το Jackknife
είναι προτιμότερο, γιατί κάθε φορά το σύνολο εκπαίδευσης είναι όσο μεγαλύτερο
γίνεται. Αν όμως η μέθοδος είναι αργή ή αν το σύνολο είναι πολύ μεγάλο ή αν δεν
υπάρχει εύκολος τρόπος να εξασφαλιστούν οι συνθήκες ομοιότητας, τότε η μέθοδος
δεν μπορεί να εφαρμοστεί (και αν εφαρμοστεί θα δώσει επίσης μεροληπτικά
αποτελέσματα).
Μέτρα εκτίμησης της αξιοπιστίας
των μεθόδων
• Για να μπορέσουμε να μετρήσουμε την
επιτυχία και την αξιοπιστία των
προγνώσεων που προέρχονται από μια
μέθοδο, έχουν προταθεί διάφορα μέτρα.
• Τα περισσότερα από αυτά, ισχύουν τόσο
για την περίπτωση της τοπικής
πρόγνωσης (per-residue prediction) όσο
και για την κατάταξη αλληλουχιών σε
κατηγορίες (per-protein classification).
Συντελεστής συσχέτισης
• ς, ένα άλλο μέτρο που χρησιμοποιείται είναι ο γνωστός
συντελεστής συσχέτισης του Matthews
TP  TN  FP  FN
C
TP  FN TP  FP TN  FP TN  FN 
• Ο συντελεστής αυτός, είναι ισοδύναμος του γνωστού
συντελεστή συσχέτισης του Pearson όταν εφαρμοστεί σε
δίτιμα δεδομένα και παίρνει τιμές από το -1 (τελείως
αντίθετη πρόγνωση), έως το +1 (τέλεια πρόγνωση), με
το 0 να αντιστοιχεί στην τελείως τυχαία πρόγνωση. Το
μεγάλο πλεονέκτημα του συντελεστή συσχέτισης είναι
ότι συνδυάζει όλες τις τιμές του πίνακα σε μία αριθμητική
τιμή.

SOV
• Σε περιπτώσεις τοπικών προγνώσεων, όπου και ενδιαφερόμαστε
για την πρόβλεψη συγκεκριμένων περιοχών κατά μήκος της
αλληλουχίας, είναι δυνατόν τα παραπάνω μέτρα να είναι
παραπλανητικά.
• Για παράδειγμα, στα προβλήματα πρόβλεψης δευτεροταγούς δομής
ή διαμεμβρανικών τμημάτων, είναι δυνατόν να έχεις μια μέθοδο με
καλύτερα ανά κατάλοιπο μέτρα (TP, TN, Q, C) σε σχέση με μια άλλη
μέθοδο, αλλά η δεύτερη μέθοδος να είναι καλύτερη.
• Αυτό μπορεί να συμβεί αν εμφανίζονται κατακερματισμένες
προγνώσεις, π.χ. μια ξεχωριστή περιοχή να προβλέπεται ως δυο
διαφορετικές περιοχές ή δυο γειτονικές περιοχές να προβλέπονται
ως μία.
• Για όλα τα παραπάνω, έχει προταθεί σαν πιο αξιόπιστη λύση, η
χρήση του μέτρου επικάλυψης των τμημάτων (measure of the
segment’s overlap-SOV), το οποίο θεωρείται ο πιο αξιόπιστος
δείκτης της προγνωστικής ικανότητας των αλγορίθμων πρόγνωσης
δευτεροταγούς δομής, και παίρνει συνεχείς τιμές στο διάστημα 0-1
Τρόποι βελτίωσης της απόδοσης
των μεθόδων πρόγνωσης
• Γενικά, η επιτυχία μιας μεθόδου πρόγνωσης για ένα συγκεκριμένο πάντα
πρόβλημα εξαρτάται από το μέγεθος και την ποιότητα του συνόλου
εκπαίδευσης και από την επιλογή του αλγορίθμου, δηλαδή της
μεθοδολογίας.
• Το μέγεθος του συνόλου εκπαίδευσης παίζει σίγουρα ένα ρόλο, αλλά η
επίδραση δεν είναι γραμμική όπως έχει φανεί από εμπειρικές μελέτες καθώς
ενώ υπάρχει γενικά μια αυξητική τάση, από ένα σημείο και μετά δεν
μπορούμε να πετύχουμε περαιτέρω αύξηση της απόδοσης.
• Επίσης, το είδος του αλγορίθμου παίζει ρόλο και στο πώς επηρεάζει το
μέγεθος του συνόλου εκπαίδευσης την απόδοση, καθώς οι απλές μέθοδοι
έχουν μικρό αριθμό παραμέτρων με συνέπεια να φτάνουν γρήγορα στο
σημείο κορεσμού (πλατό), ενώ οι πιο σύνθετες μέθοδοι οι οποίες έχουν
μεγαλύτερο αριθμό παραμέτρων απαιτούν και περισσότερα δεδομένα.
• Εκτός από αυτά πάντως, υπάρχουν δύο γενικές μεθοδολογίες οι οποίες
μπορούν να αυξήσουν σημαντικά την απόδοση οποιασδήποτε μεθόδου
πρόγνωσης, και αξίζει να αναφερθούν.
– Η πρώτη μεθοδολογία είναι οι συναινετικές ή συνδυαστικές μέθοδοι,
– ενώ η δεύτερη η χρήση εξελικτικής πληροφορίας με τη μορφή πολλαπλών
στοιχίσεων
Συνδυαστικές μέθοδοι
• Μια συνδυαστική/συναινετική μέθοδος πρόγνωσης, βασίζεται στην
βασική απλή ιδέα, ότι αν συνδυαστούν ανεξάρτητες μέθοδοι το
αποτέλεσμα είναι πάντα καλύτερο.
• Οι μεθοδολογίες αυτές έχουν χρησιμοποιηθεί σε διάφορους τομείς,
είτε με απλό τρόπο (majority vote, consensus) είτε με πιο σύνθετους
αλγόριθμους μηχανικής μάθησης (ensemble learning, meta-
algorithms κ.ο.κ.).
• Η απλή αυτή διαίσθηση («ας ακούσουμε πολλές γνώμες»), έχει
επίσης βρει και τη μαθηματική της τεκμηρίωση καθώς υπάρχουν
θεωρητικές αποδείξεις ότι ο συνδυασμός «ασθενών ταξινομητών»
(weak classifiers), δηλαδή ταξινομητών οι οποίοι αποδίδουν μεν
καλύτερα από το τυχαίο (π.χ. συντελεστής συσχέτισης >0, ή Q>0.5),
δίνει πάντα έναν ταξινομητή με καλύτερη αποτελεσματικότητα.
• Φυσικά, είναι προφανές ότι αν κάποια από τις μεθόδους είναι
ιδιαίτερα καλή (π.χ. συντελεστής συσχέτισης >0.95 ή Q>0.99), τότε
η μέθοδος δεν θα δουλέψει καθώς η «ισχυρή» μέθοδος θα
υπερισχύει πάντα
Προβληματισμοί
• Φυσικά, με τον τρόπο που περιγράφηκε παραπάνω, η μέθοδος είναι αρκετά
απλή και υπάρχουν διάφορες επιπλέον παραλλαγές οι οποίες μπορούν να
βελτιώσουν την απόδοση.
• Για παράδειγμα, είναι δυνατό η κάθε μέθοδος να μη συνεισφέρει το ίδιο στο
σκορ αλλά να εισαχθούν βάρη που να αντιστοιχούν στην αξιοπιστία της
κάθε μεθόδου.
• Επίσης, είναι δυνατόν διαφορετικοί συνδυασμοί των μεθόδων να δίνουν
διαφορετικό αποτέλεσμα (π.χ. όταν η μέθοδος Α και η μέθοδος Β
συμφωνούν, τότε αυτό σημαίνει ότι η πρόγνωση είναι σωστή ανεξαρτήτως
του τι λένε οι άλλες μέθοδοι).
• Τέτοιες μεθοδολογίες μπορούν να υλοποιηθούν με τις μεθόδους ensemble
learning, και μπορεί να βελτιώσουν θεαματικά την απόδοση. Το μεγάλο
μειονέκτημα βέβαια, είναι ότι καθώς απαιτείται εκπαίδευση και έλεγχος για
την εύρεση της βέλτιστης τιμής των παραμέτρων, απαιτείται ξεχωριστό
σύνολο εκπαίδευσης και ελέγχου για τη νέα συνδυαστική μέθοδο. Αντίθετα,
η απλή συναινετική μέθοδος όπως περιγράφηκε στην προηγούμενη
παράγραφο, μπορεί να λειτουργήσει χωρίς αυτή τη διαδικασία, καθώς
απαιτείται μόνο η τιμή του κατωφλίου c, το οποίο μπορεί να τεθεί σε μια
λογικοφανή τιμή (πχ 0.8).

Προβληματισμοί
• Τέλος, ένα επιπλέον πρόβλημα μπορεί να προκύψει όταν η τελική
πρόγνωση απαιτεί βελτιστοποίηση (refinement).
• Σε κάποιες περιπτώσεις αυτό δεν απαιτείται, αλλά στα περισσότερα
προβλήματα αυτό είναι απαραίτητο είτε λόγω της ύπαρξης πολλών
κατηγοριών, είτε κυρίως λόγω της ανάγκης η τελική πρόγνωση να υπακούει
σε κάποιους κανόνες (π.χ. το μέγεθος των περιοχών να είναι μέσα σε
κάποια όρια όσον αφορά το μήκος).
• Όπως είναι φανερό, ακόμα και αν οι επιμέρους μέθοδοι που
χρησιμοποιούνται παράγουν αποτελέσματα με όρια περιοχών
«τυποποιημένα» (δηλαδή, μέσα στα εκάστοτε αποδεκτά όρια), η
συνδυαστική μέθοδος εκ των πραγμάτων δεν θα δεσμεύεται από αυτές τις
ρυθμίσεις.
• Σε αυτές τις περιπτώσεις, χρειάζεται ένα επιπλέον βήμα για την
τυποποίηση και τον περιορισμό των προβλέψεων. Αυτό μπορεί να γίνει είτε
με εισαγωγή ad-hoc κανόνων ή (κατά προτίμηση) με την εφαρμογή ενός
επιπλέον φίλτρου με κάποιον αλγόριθμο δυναμικού προγραμματισμού για
να επιβάλει τους περιορισμούς. Η πρακτική αυτή μπορεί να έχει το
μειονέκτημα των επιπλέον υπολογιστικών απαιτήσεων, αλλά στις
περισσότερες περιπτώσεις αυξάνει την απόδοση της συνδυαστικής
μεθόδου θεαματικά.
Ενσωμάτωση εξελικτικής
πληροφορίας με τη μορφή
πολλαπλών στοιχίσεων
• Η μέθοδος αυτή βασίζεται στην εξής απλή και γνωστή παρατήρηση,
ότι οι πρωτεϊνικές δομές είναι πιο συντηρημένες από τις
αλληλουχίες.
• Με άλλα λόγια, σε μία πολλαπλή στοίχιση ομόλογων πρωτεϊνών
αναμένουμε ότι η τρισδιάστατη δομή θα είναι παρόμοια, ακόμα και
αν οι επιμέρους αλληλουχίες διαφέρουν. Η μέθοδος της
ενσωμάτωσης εξελικτικής πληροφορίας με τη μορφή πολλαπλών
στοιχίσεων εκμεταλλεύεται ακριβώς αυτό.
• Στην πιο απλή της μορφή, η μέθοδος συνίσταται στην εύρεση των
ομόλογων πρωτεϊνών της υπό μελέτης αλληλουχίας και την
κατασκευή της πολλαπλής στοίχισης.
• Κατόπιν, με την ίδια μέθοδο πραγματοποιούνται προγνώσεις σε
όλες τις αλληλουχίες της πρωτεϊνικής οικογένειας που έχουν
εντοπιστεί και οι προγνώσεις αυτές «προβάλλονται» πάνω στην
πολλαπλή στοίχιση και κατ’ επέκταση στην αρχική αλληλουχία
επερώτησης (δηλαδή, σε αυτή στην οποία ενδιαφερόμαστε να
πραγματοποιήσουμε την πρόγνωση).

Επεξηγήσεις
• Το κλειδί στην κατανόηση της μεθόδου αυτής, βρίσκεται στο γεγονός
ότι είναι δυνατό σε μια συγκεκριμένη αλληλουχία, σε ένα δεδομένο
σημείο, λόγω της μεταβλητότητας των αμινοξικών αλληλουχιών να
υπάρχουν αμινοξέα που «ευνοούν» μια λάθος πρόγνωση.
• Αφού όμως αναμένουμε ότι τα υπόλοιπα μέλη της οικογένειας
μοιράζονται παρόμοια δομή, είναι λογικό να υποθέσουμε, ότι στη
δεδομένη θέση της πολλαπλής στοίχισης, η μέθοδος πρόγνωσης θα
έχει δώσει διαφορετικό αποτέλεσμα για την πλειοψηφία των
αλληλουχιών.
• Με άλλα λόγια, αντί να στηρίξουμε την πρόγνωση μας σε μια
δεδομένη αλληλουχία, η οποία μπορεί να είναι και ειδική
περίπτωση, είναι καλύτερο να χρησιμοποιήσουμε για την πρόγνωση
την πληροφορία από ολόκληρη την πολλαπλή στοίχιση της
οικογένειας.
• Η μέθοδος αυτή, είναι πολύ απλή, διαισθητικά σωστή και αποτελεσματική
καθώς έχει δειχθεί ότι σε γενικά προβλήματα πρόγνωσης δομής είναι
δυνατό να αυξήσει την αποτελεσματικότητα μιας οποιασδήποτε μεθόδου
πρόγνωσης κατά περίπου 6-8%.
• Το βασικό πλεονέκτημά της είναι ότι καθώς αντιμετωπίζει τη μέθοδο
πρόγνωσης ως «μαύρο κουτί», είναι δυνατό να εφαρμοστεί με οποιαδήποτε
μέθοδο πρόγνωσης ανεξαρτήτως του πώς λειτουργεί.
• Επίσης, απαιτεί μόνο τη χρήση γνωστών εργαλείων (αναζήτησης
ομοιότητας και πολλαπλών στοιχίσεων). Ένα βασικό μειονέκτημα είναι το
γεγονός ότι έχει αυξημένες υπολογιστικές απαιτήσεις, κυρίως γιατί απαιτεί
την εφαρμογή της μεθόδου πρόγνωσης σε όλες τις πρωτεΐνες της
πολλαπλής στοίχισης.
• Τέλος, ένα άλλο μειονέκτημα είναι κοινό με τη μέθοδο συναινετικής
πρόγνωσης. Συγκεκριμένα, ανεξάρτητα με το αν η μέθοδος πρόγνωσης
θέτει όρια και περιορισμούς στις περιοχές που προβλέπει, η πρόγνωση που
θα προκύπτει από την πολλαπλή στοίχιση δεν είναι σίγουρο ότι θα
ακολουθεί τους ίδιους κανόνες. Κατά συνέπεια, χρειάζεται και εδώ το
επιπλέον βήμα για το φιλτράρισμα και την εκ των υστέρων επεξεργασία των
προγνώσεων
PSI-BLAST
• Μια πολύ ενδιαφέρουσα παραλλαγή της μεθόδου αυτής, προέκυψε όταν
δημιουργήθηκε το γνωστό PSI-BLAST.
• Το πρόγραμμα αυτό εντοπίζει, με μια επαναληπτική διαδικασία ομόλογες
αλληλουχίες και κατασκευάζει μια ειδικού τύπου πολλαπλή στοίχιση στην οποία δεν
περιέχονται κενά στην αλληλουχία επερώτησης, από την οποία προκύπτει τελικά
ένας πίνακας σκορ ειδικός ανά θέση (PSSM).
• Ο πίνακας αυτός συνοψίζει σε μια πολύ βολική μορφή ολόκληρη την πολλαπλή
στοίχιση, ανεξάρτητα αν αυτή αποτελείτο από 5 ή 5000 αλληλουχίες
• Εκτός του ότι το PSI-BLAST είναι πολύ αποδοτικό στον εντοπισμό και τη στοίχιση
μακρινών ομολόγων (πράγμα που ενισχύει από μόνο του την απόδοση της μεθόδου),
η ύπαρξη του πίνακα κάνει δυνατή την κατασκευή άλλων μεθόδων που θα
χρησιμοποιούν κατευθείαν τα δεδομένα του ίδιου του πίνακα και όχι τις αρχικές
αλληλουχίες.
• Τέτοιου είδους αναπαράσταση είναι ιδανική για χρήση νευρωνικών δικτύων, αλλά και
άλλες παραλλαγές έχουν προταθεί όπως στην περίπτωση των ΗΜΜ.
• Το μεγάλο πλεονέκτημα αυτής της παραλλαγής είναι το ότι με τη συμπυκνωμένη
μορφή αποφεύγεται η ανάγκη για πολλαπλή εφαρμογή του αλγορίθμου πρόγνωσης,
αλλά από την άλλη, αυτό ακριβώς είναι και αδυναμία της, καθώς έτσι γίνεται
απαραίτητη η δημιουργία και εκπαίδευση νέων μεθόδων πρόγνωσης με χρήση του
πίνακα.
• Οι περισσότερες σύγχρονες μέθοδοι πρόγνωσης, κυρίως όσες βασίζονται σε
μεθόδους μηχανικής μάθησης όπως τα νευρωνικά δίκτυα, χρησιμοποιούν
αποκλειστικά αυτή τη μεθοδολογία καθώς τα νευρωνικά δίκτυα είναι ιδιαίτερα εύκολο
να χρησιμοποιηθούν με τέτοιου είδους δεδομένα
Συνδυασμός
• Τέλος, πρέπει να τονίσουμε ότι οι δύο παραπάνω γενικές
μεθοδολογίες (η συνδυαστική πρόγνωση και η χρήση πολλαπλών
στοιχίσεων), μπορούν άνετα να συνδυαστούν μεταξύ τους
• Φυσικά, όταν έχεις μια σειρά μεθόδων που η κάθε μία χρησιμοποιεί
εξελικτική πληροφορία, τότε όπως είπαμε, αυτές εύκολα
συνδυάζονται σε μια συναινετική πρόγνωση.
• Επιπλέον όμως, ακόμα και αν είχαμε μεθόδους που βασίζονται
μόνο σε απλές αλληλουχίες, πάλι θα μπορούσαμε να εφαρμόσουμε
πρώτα τη χρήση πολλαπλών στοιχίσεων και μετά τον συνδυασμό
των μεθόδων.
• Πάλι είναι δυνατόν να υπάρξουν πολλές παραλλαγές όσον αφορά
τον τρόπο σταθμίσματος της συνεισφοράς κάθε μεθόδου ή όσον
αφορά τη βελτιστοποίηση και το φιλτράρισμα των τελικών
προβλέψεων, αλλά γενικά η μεθοδολογία είναι εύκολη και κατανοητή
και (το πιο σημαντικό) αυξάνει την αποτελεσματικότητα των απλών
μεθόδων
Νευρωνικά Δίκτυα
• Τα νευρωνικά δίκτυα (ή καλύτερα, τα τεχνητά νευρωνικά δίκτυα) είναι
υπολογιστικές μηχανές που σκοπό είχαν αρχικά να μιμηθούν τις ικανότητες
του ανθρώπινου εγκεφάλου στην αναγνώριση προτύπων (Bishop, 1998).
• Ο κάθε νευρώνας είναι απλά μια συνάρτηση που δέχεται ερεθίσματα από
άλλους νευρώνες και δίνει τελικά ερέθισμα (με βάση τη συνάρτηση αυτή) σε
άλλους νευρώνες.
• Συνήθως, τα δίκτυα τα αναπαριστούμε με ένα γράφο, με τα βέλη να
αντιστοιχούν στις συνδέσεις (συνάψεις) μεταξύ των νευρώνων. Πρακτικά, οι
νευρώνες διαφοροποιούνται σε νευρώνες εισόδου στους οποίους
κωδικοποιούνται οι μεταβλητές εισόδου, σε κρυφούς νευρώνες οι οποίοι
δέχονται τα ερεθίσματα από τους νευρώνες εισόδου και στους νευρώνες
εξόδου οι οποίοι δέχονται τα ερεθίσματα από τους κρυφούς νευρώνες και
τελικά παράγουν το αποτέλεσμα του δικτύου.
• Καταλαβαίνουμε δηλαδή, πως το συνολικό δίκτυο δεν είναι παρά μια
περίπλοκη συνάρτηση που επεξεργάζεται τα δεδομένα εισόδου και παράγει
κάποιο τελικό αποτέλεσμα.
• Φυσικά, με όσα είπαμε παραπάνω, είναι κατανοητό ότι σαν νευρώνες
εισόδου μπορούν να χρησιμοποιηθούν μεταβλητές που έχουν προκύψει
από μια κατάλληλη κωδικοποίηση μιας βιολογικής αλληλουχίας (είτε με
τοπική είτε με ολική κωδικοποίηση),

Νευρικό Υγρό

Αξονικές
-70 mV Απολήξεις
Σώμα

Δενδρίτες
Άξονας

Σύναψη

Είσοδος Έξοδος
Αξονικές απολήξεις Δενδρίτες
άλλων νευρώνων άλλων νευρώνων
ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ ΒΙΟΛΟΓΙΚΟΥ
ΝΕΥΡΩΝΑ
• Απλή δομική μονάδα
• Ομοιόμορφη αρχιτεκτονική
• Υψηλός παραλληλισμός-Κατανεμημένη
επεξεργασία
• Ταχύτητα επεξεργασίας-απόκρισης
• Αξιόπιστη λειτουργία σε «αντίξοες» συνθήκες
• Αποθήκευση-Ανάκληση δεδομένων βάσει
εμπειρίας
• Προσαρμογή στην αντιμετώπιση συγκεκριμένων
διαδικασιών

ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ ΣΤΟΙΧΕΙΑ
ΤΕΧΝΗΤΟΥ ΝΕΥΡΩΝΑ

• Αριθμητικά «ερεθίσματα»
• Σταθμισμένες Διασυνδέσεις-Συνάψεις
• Αθροιστής
• Συνάρτηση Ενεργοποίησης (μη γραμμική)
• Εξωτερική (σταθερή τιμή) πόλωσης
Ο ΤΕΧΝΗΤΟΣ ΝΕΥΡΩΝΑΣ

ΣΥΝΑΡΤΗΣΕΙΣ ΕΝΕΡΓΟΠΟΙΗΣΗΣ
1. Συνάρτηση Κατωφλίου (Threshold ή
Heaviside function)
2. Μερικώς-Γραμμική Συνάρτηση
(Piecewise Linear Function)
3. Σιγμοειδής συνάρτηση (Sigmoid function)
Συνάρτηση Κατωφλίου

1, h  0
g(h)  
0, h  0

1-

Μερικώς-Γραμμική Συνάρτηση
 1
1 ,h  
2

 1 1 1
g(h)  h  ,   h  
 2 2 2
 1
0 ,h  
2

1-

| |

-0.5 0 +0.5
Σιγμοειδείς Συναρτήσεις
(Λογιστική Συνάρτηση)

1
g(h) 
1  e  ah

1-

ΑΡΧΙΤΕΚΤΟΝΙΚΗ - ΤΟΠΟΛΟΓΙΑ

• Πλήθος νευρώνων
• Οργάνωση νευρώνων κατά στρώματα
• Διασυνδέσεις μεταξύ νευρώνων
• Πλήθος στρωμάτων (κρυμμένα στρώματα)
• Τρόπος διάδοσης σήματος
ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ ΕΝΟΣ
ΣΤΡΩΜΑΤΟΣ ΝΕΥΡΩΝΩΝ

ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ
ΠΟΛΛΑΠΛΩΝ ΣΤΡΩΜΑΤΩΝ
ΝΕΥΡΩΝΩΝ
ΑΝΑΔΡΟΜΑ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ

ΜΑΘΗΣΗ ΑΠΟ ΤΕΧΝΗΤΑ


ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ
• Μάθηση «υπό εποπτεία»
• Ελεύθερες παράμετροι = Συναπτικά Βάρη
• Δείγμα Δεδομένων Εκπαίδευσης
• Προσαρμογή συναπτικών βαρών (επαναληπτική
διαδικασία βελτιστοποίησης για ελαχιστοποίηση του
σφάλματος)
• Τερματισμός Διαδικασίας => Έλεγχος Σύγκλισης
Βαρών

ΠΡΟΣΔΟΚΙΑ η ΓΕΝΙΚΕΥΣΗ σε άγνωστα


παραδείγματα δεδομένων
Ο ΑΛΓΟΡΙΘΜΟΣ ΟΠΙΣΘΙΑΣ
ΔΙΑΔΟΣΗΣ ΣΦΑΛΜΑΤΩΝ (error
back-propagation)
• Εκπαίδευση συστημάτων Εμπρόσθιας
Τροφοδότησης – Πολλαπλών Στρωμάτων
• Αρχικοποίηση βαρών
• Δύο βήματα υπολογισμών
– Δεδομένα βάρη=> εμπρόσθια διάδοση
– Έλεγχος σφάλματος=>αναπροσαρμογή
βαρών
• Έλεγχος ελαχιστοποίησης σφαλμάτων για
τερματισμό διαδικασίας

back-propagation
• Ο αλγόριθμος αυτός, είναι ο γνωστός αλγόριθμος back-
propagation (Rumelhart, Hinton, & Williams, 1988).
• Ο αλγόριθμος είναι μια ειδική έκδοση του γνωστού
αλγόριθμου gradient descent που βασίζεται στη μερική
παράγωγο της συνάρτησης σφάλματος σε σχέση με τις
παραμέτρους του μοντέλου.
• Ανάλογα με το είδος των νευρώνων εξόδου, θα πρέπει
να ορίσουμε μια συνάρτηση σφάλματος.
• Αν οι νευρώνες εξόδου είναι γραμμικοί, η συνάρτηση
είναι το μέσο τετραγωνικό σφάλμα, ενώ στην πιο
συνηθισμένη περίπτωση των δίτιμων μεταβλητών, η
τυπική συνάρτηση είναι η σχετική εντροπία
back-propagation
• στην αρχή γίνεται μια αρχικοποίηση των βαρών με τυχαίες τιμές (συνήθως μέσα σε
κάποιο εύρος τιμών που καθορίζεται από τον αριθμό των νευρώνων)
• με βάση τα αρχικά αυτά βάρη, υπολογίζεται το αποτέλεσμα του δικτύου για όλες τις
παρατηρήσεις.
• το αποτέλεσμα χρησιμοποιείται για να υπολογιστεί το σφάλμα, η «απόσταση»
δηλαδή από τις παρατηρηθείσες τιμές
• αυτό το σφάλμα, είναι η «πιθανοφάνεια» με την στατιστική έννοια, και είναι μια
συνάρτηση των βαρών. Άρα τα νέα βάρη θα βρεθούν με τη μέθοδο gradient descent
υπολογίζοντας την παράγωγο αυτής της συνάρτησης και κάνοντας τις κατάλληλες
τροποποιήσεις
• το «σήμα» αυτό, προωθείται προς τα πίσω στο δίκτυο, τροποποιώντας διαδοχικά τις
τιμές όλων των συναπτικών βαρών. Σε κάθε βήμα προς τα πίσω, οι υπολογισμοί
καθορίζονται από τις αντίστοιχες συναρτήσεις ενεργοποίησης, ενώ απαιτούνται και
αθροίσματα για όλους τους νευρώνες που δίνουν σήμα σε κάποιον άλλον νευρώνα
• όταν το «σήμα» φτάσει ξανά στους νευρώνες εισόδου, ένας κύκλος έχει
ολοκληρωθεί, και πλέον όλα τα βάρη του δικτύου έχουν αλλάξει σε μια κατεύθυνση
που να μειώνει το συνολικό σφάλμα. Η διαδικασία επαναλαμβάνεται πλέον με τα νέα
βάρη (υπολογίζεται νέο σφάλμα κ.ο.κ.) μέχρι το συνολικό σφάλμα να σταματήσει να
μειώνεται ή μέχρι να ολοκληρωθεί ένας προκαθορισμένος αριθμός επαναλήψεων

Λεπτομέρειες
• Η μέθοδος αυτή, φυσικά απαιτεί διάφορους υπολογισμούς που παραλείπονται εδώ,
αλλά πρέπει να τονιστεί ότι σαν μέθοδος gradient descent, είναι μια ευριστική
μέθοδος.
• Αναμένουμε, αν όλα πάνε καλά, ότι το σφάλμα θα μειώνεται συνεχώς, αλλά δεν
υπάρχει μαθηματική εγγύηση.
• Έχουν αναπτυχθεί επίσης πάρα πολλές παραλλαγές της για να αυξήσουν την
πιθανότητα σύγκλισης του αλγορίθμου, αλλά και την ταχύτητα αυτής (π.χ. μέθοδοι
που βασίζονται στη δεύτερη παράγωγο της συνάρτησης σφάλματος, κ.ο.κ.).
• Γενικά, η εκπαίδευση των νευρωνικών δικτύων είναι μια σύνθετη διαδικασία που
απαιτεί παρακολούθηση. Ένα μεγάλο πρόβλημα που προκύπτει αφορά κυρίως το
μεγάλο αριθμό παραμέτρων (πολλά συναπτικά βάρη) που προκύπτουν τόσο από την
κωδικοποίηση των αλληλουχιών όσο και από την αθρόα εισαγωγή μεγάλου αριθμού
κρυφών νευρώνων.
• Για να αντιμετωπιστούν τέτοιου είδους προβλήματα, έχουν προταθεί διάφορες
τεχνικές cross-validation (βλ. παρακάτω), ενώ πολλές φορές, λόγω της τυχαιότητας
στον αρχικό υπολογισμό των βαρών, αρκετοί ερευνητές προτείνουν τη δημιουργία
ικανού αριθμού δικτύων με βάρη που να έχουν ξεκινήσει από διαφορετικές αρχικές
τιμές και το τελικό δίκτυο να είναι ένας μέσος όρος των δικτύων αυτών.
ΠΡΟΒΛΗΜΑ:
ΥΠΕΡΠΡΟΣΑΡΜΟΓΗ ΣΤΑ
ΔΕΔΟΜΕΝΑ (OVERFITTING)

• Αντιστοιχία με «φυσική» μάθηση =>


«ΠΑΠΑΓΑΛΙΑ»
• Τεχνάσματα για την αποφυγή

Λογισμικό
• Για την εφαρμογή νευρωνικών δικτύων σε προβλήματα βιοπληροφορικής, θα πρέπει
καταρχάς να γίνουν οι κατάλληλοι μετασχηματισμοί των αλληλουχιών για να έρθουν
στη μορφή που περιγράψαμε πριν. Κατόπιν θα πρέπει να χρησιμοποιηθεί κάποιο
γενικό πακέτο για νευρωνικά δίκτυα που διαθέτουν τα γνωστά μαθηματικά πακέτα
όπως το MATLAB (http://www.mathworks.com/products/neural-network/) ή το R
(https://cran.r-project.org/web/packages/neuralnet/index.html).
• Παρ’ όλα αυτά, επειδή συνήθως οι εφαρμογές βιοπληροφορικής πρέπει να είναι
ανεξάρτητες από την πλατφόρμα, οι περισσότεροι χρησιμοποιούν βιβλιοθήκες για
κάποια γενική γλώσσα προγραμματισμού, όπως το FANN το οποίο είναι γραμμένο
σε C (http://leenissen.dk/fann/wp/) και το JOONE, που είναι γραμμένο σε JAVA
(http://sourceforge.net/projects/joone/).
• Επίσης, ιδιαίτερα εύχρηστοι είναι διάφοροι προσομοιωτές (simulators), δηλαδή
προγράμματα που υλοποιούν νευρωνικά δίκτυα πολύπλοκης μορφής χωρίς να
απαιτείται από τον χρήστη η ικανότητα προγραμματισμού. Τέτοιες (παλιότερες)
προσπάθειες είναι το BILLNET (http://www.nongnu.org/billnet/) και το NevProp
(http://www.cse.unr.edu/brain/nevprop), ενώ το SNNS (http://www.ra.cs.uni-
tuebingen.de/SNNS/) είναι ίσως το πιο πλήρες πακέτο για το σκοπό αυτό. Τέλος, δεν
πρέπει να ξεχνάμε και τις δυνατότητες που δίνουν για χρήση νευρωνικών δικτύων και
τα γενικά εργαλεία εξόρυξης γνώσης και μηχανικής μάθησης όπως το Weka
(http://www.cs.waikato.ac.nz/ml/weka/).
Μέθοδοι πρόγνωσης
• Μέθοδοι πρόγνωσης για πρωτεΐνες
– Δευτεροταγής δομή
– Διαμεμβρανικά τμήματα
– Σηματοδοτικές αλληλουχίες
– Στόχευση
– Μετα-μεταφραστικές τροποποιήσεις
– Αλληλεπιδράσεις, δομική κατάταξη κλπ
• Μέθοδοι πρόγνωσης DNA/RNA
– Έύρεση γονιδίων
– Εύρεση υποκινητών
– Σημεία συρραφής
– TIS
– Poly-A
– miRNA

Δευτεροταγής Δομή
Διαμεμβρανικά τμήματα

Διαμεμβρανικές πρωτεΐνες
Left panel (from top to bottom): the sequence logos of experimentally verified eukaryal, gram-
positive, gram-negative and archaeal signal peptides (SPs), respectively, produced by
WebLogo (Crooks et al., 2004).

P.G. Bagos et al. Protein Engineering, Design and


Selection 2009;22:27-35

© The Author 2008. Published by Oxford University Press. All rights reserved. For Permissions,
please e-mail: journals.permissions@oxfordjournals.org
Μετα-μεταφραστικές
τροποποιήσεις

DNA/RNA
– Έύρεση γονιδίων
– Εύρεση υποκινητών
– Σημεία συρραφής
– TIS
– Poly-A
– miRNA
Βιοπληροφορική Ι

Μέθοδοι πρόγνωσης
• Μέθοδοι πρόγνωσης για πρωτεΐνες
– Δευτεροταγής δομή
– Διαμεμβρανικά τμήματα
– Σηματοδοτικές αλληλουχίες
– Στόχευση
– Μετα-μεταφραστικές τροποποιήσεις
– Αλληλεπιδράσεις, δομική κατάταξη κλπ
• Μέθοδοι πρόγνωσης DNA/RNA
– Έύρεση γονιδίων
– Εύρεση υποκινητών
– Σημεία συρραφής
– TIS
– Poly-A
– miRNA
Δευτεροταγής Δομή

Sequence – structure gap


• Today we have much more sequenced proteins
than protein’s structures.
• The gap is rapidly increasing.

Problem:
Finding protein structure isn’t that simple.
Solution:
A good start : find secondary structure.
Primary Structure
• The sequence of amino
acids in the polypeptide
chain
• Described as a string from a
finite alphabet ∑aa
– | ∑aa | = 20

Secondary structure
• Every amino acid in the sequence belongs to one of
the three structural motifs
– α-helix (H)
– β-sheet (E)
– Loop or coil (C)
• flatted to a string from an alphabet
– ∑ss = {H, E, C}
Secondary structure
• α-helix (H)
– Built up from one continuous
region in the sequence
• Through the formation of
hydrogen bonds between
residues in position i and i+4

Secondary structure
• β-sheet (E)
– parallel β-sheet
• Amino acids
have the same
biochemical
direction.
– Anti parallel β-sheet
• Amino acids
have alternating
direction.
Secondary structure
• Loop or coil (C)
– α-helix and β-sheet are often connected by loop regions.

(a) DNA binding motif (b) Ca++ binding motif

Tertiary structure
• The 3-dimensional
organization of polypeptide
chain atoms
• The result of the
combinations of secondary
structure elements
– Due to interactions between
the amino acids and the
solvent
Alpha-helix

Beta-sheet
Quaternary structure
• The complex spatial
conformation of a protein
composed of many distinct
polypeptide chains
(multimeric protein)

Protein Structure
Classification of secondary structure
• Defining features
– Dihedral angles
– Hydrogen bonds
– Geometry
• Assigned manually by crystallographers or
• Automatic
– DSSP (Kabsch & Sander,1983)
– STRIDE (Frishman & Argos, 1995)
– Continuum (Andersen et al.)

Dihedral Angles

From http://www.imb-jena.de
phi - dihedral angle about the N-Calpha bond
psi - dihedral angle about the Calpha-C bond
omega - dihedral angle about the C-N (peptide) bond
Alpha helices
phi(deg) psi(deg) H-bond pattern
------------------------------------------------------------------
right-handed alpha-helix -57.8 -47.0 i+4
pi-helix -57.1 -69.7 i+5
3-10 helix -74.0 -4.0 i+3

(omega is 180 deg in all cases)


-----------------------------------------------------------------
From http://www.imb-jena.de

Beta Strands
phi(deg) psi(deg) omega (deg)
------------------------------------------------------------------
beta strand -120 120 180
-----------------------------------------------------------------

Hydrogen bond patterns in beta sheets. Here a four-stranded


beta sheet is drawn schematically which contains three
antiparallel and one parallel strand. Hydrogen bonds are
indicated with red lines (antiparallel strands) and green lines
(parallel strands) connecting the hydrogen and receptor oxygen.

From http://broccoli.mfn.ki.se/pps_course_96/
Secondary Structure Types

* H = alpha helix
* B = residue in isolated beta-bridge
* E = extended strand, participates in beta ladder
* G = 3-helix (3/10 helix)
* I = 5 helix (pi helix)
* T = hydrogen bonded turn
* S = bend

Secondary Structure Prediction


• What to predict?
– All 8 types or pool types into groups

* H =  helix H
* B = residue in isolated -bridge
* E = extended strand, participates in  ladder
* G = 3-helix (3/10 helix)
* I = 5 helix ( helix) E
* T = hydrogen bonded turn
* S = bend
* C/.= random coil
C
Simplifications
• Identification of secondary structures focused on
• -helices
•  -strands
• others (turns, coils, other helices) are collectively
called “coils”

A surprising result !
• Can secondary structure prediction algorithms
predict structures of engineered proteins ?

• Test case “the chameleon” sequence

• Algorithm: PHDsec with alignment (PHD 30)


and without alignment (PHD no)
The “Chameleon” sequence
sequence 1 sequence 2
TEAVDAATAEKVFKQYANDNGVDGEWTYDDATKTFTVTEK

Replace both chameleon sequences


with engineered peptide (“chameleon”)

TEAVDAWTVEKAFKTFANDNGVDGAWTVEKAFKTFTVTEK

 -helix -strand
Source: Minor and Kim 1996, Nature, 380, 730-734

Secondary Structure Prediction


• Simple alignments.
• Heuristic Methods (e.g., Chou-Fasman, 1974)
• Neural Networks (different inputs)
– Raw Sequence (late 80’s)
– Blosum matrix (e.g., PhD, early 90’s)
– Position specific alignment profiles (e.g., PsiPred, late
90’s)
Improvement of accuracy
1974 Chou - Fasman ~50-53%
1978 Garnier 63%
1987 Zvelebil 66%
1988 Quian - Sejnowski 64.3%
1993 Rost - Sander 70.8-72.0%
1997 Frishman - Argos <75%
1999 Cuff - Barton 72.9%
1999 Jones 76.5%

Chou-Fasman
• General applicable
• Works for sequences with no solved
homologs
• Low Accuracy
Παράδειγμα
• Ξεκινάμε ορίζοντας ως fj(i) = τη συχνότητα εμφάνισης του αμινοξέος
i στην κατάσταση j (helix, sheet, turn).
• Στη συνέχεια υπολογίζουμε τη μέση συχνότητα <fj> ως τη μέση τιμή
όλων των f για όλα τα αμινοξέα της κατηγορίας j.
• Τέλος, υπολογίζουμε τη στερεοδιαταξική παράμετρο Pj(i) για κάθε
αμινοξύ i και κατάσταση j ως Pj(i) =fj(i)/<fj>.
• Για παράδειγμα, στο σύνολο εκπαίδευσης υπήρχαν 228 Αλανίνες
(119 σε α-έλικα, 38 σε β-πτυχωτή επιφάνεια και 71 σε τυχαία δομή).
• Άρα, οι παράμετροι θα είναι fΗ(Α) = 0.522, fΕ(Α) = 0.167 και fC(Α)
fc = 0.311. Για την α-έλικα οι μέσες τιμές είναι <fΗ>=890/2473 =
0.359, για τη β-πτυχωτή επιφάνεια <fΕ>=424/2473 = 0.171 και για
την τυχαία δομή, <fC>=1159/2473 = 0.469.
• Κατά συνέπεια, οι στερεοδιαταξικές παράμετροι για την Αλανίνη θα
είναι PΗ(Α)= 0.522/0.359 = 1.45, PΕ(Α)= 0.167/0.171 = 0.97 και
PC(Α)=0.311/0.469 = 0.63.

Πίνακας
aminoacid P(helix) P(sheet) P(coil)
A (Ala) 1.420 0.830 0.660
R (Arg) 0.980 0.930 0.950
N (Asn) 0.670 0.890 1.560
D (Asp) 1.010 0.540 1.460
C (Cys) 0.700 1.190 1.190
Q (Gln) 1.110 1.100 0.980
E (Glu) 1.510 0.370 0.740
G (Gly) 0.570 0.750 1.560
H (His) 1.000 0.870 0.950
I (Ile) 1.080 1.600 0.470
L (Leu) 1.210 1.300 0.590
K (Lys) 1.160 0.740 1.010
M (Met) 1.450 1.050 0.600
F (Phe) 1.130 1.380 0.600
P (Pro) 0.570 0.550 1.520
S (Ser) 0.770 0.750 1.430
T (Thr) 0.830 1.190 0.960
W (Trp) 1.080 1.370 0.960
Y (Tyr) 0.690 1.470 1.140
V (Val) 1.060 1.700 0.500
Άλλες μέθοδοι
• Chou-Fasman http://cho-fas.sourceforge.net/
• GOR IV (https://npsa-prabi.ibcp.fr/cgi-
bin/npsa_automat.pl?page=npsa_gor4.html), η
οποία κάνει χρήση μόνο της αμινοξικής
αλληλουχίας, να φτάνει ένα ποσοστό σωστών
προγνώσεων της τάξης του 64%,
• με την GOR V (http://gor.bb.iastate.edu/), η
οποία χρησιμοποιεί πολλαπλές στοιχίσεις με τη
μορφή προφίλ του PSI-BLAST, φτάνει πλέον σε
ένα ποσοστό ακρίβειας της τάξης του 74%.

Neural Networks
• Benefits
– General applicable
– Can capture higher order correlations
– Inputs other than sequence information
• Drawbacks
– Needs many data (different solved structures)
– Risk of overtraining
Measuring prediction accuracy
• not a clear cut process
• traditional Qindex and Q3
• SOV (Segment Overlap) measure
- Rost et al. - JMB. 1994, 235, 13-26
• Correlation coefficient
– Mathews 1975
Architecture
Weights
Input Layer
IK
EE H Output Layer
EC
HV
II
Q
A
E
Hidden Layer
Window
IKEEHVIIQAEFYLNPDQSGEF…..
Sparse encoding
Inp Neuron 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
AAcid
A 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
R 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
N 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
D 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
C 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
Q 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0
E 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0

Input Layer
0
0
0
0

I 0

KE 0
1

E 0

HV 0
0

II 0
0

QA 0
0

E 0
0
0
0
0
0
BLOSUM 62
A R N D C Q E G H I L K M F P S T W Y V B Z X *
A 4 -1 -2 -2 0 -1 -1 0 -2 -1 -1 -1 -1 -2 -1 1 0 -3 -2 0 -2 -1 0 -4
R -1 5 0 -2 -3 1 0 -2 0 -3 -2 2 -1 -3 -2 -1 -1 -3 -2 -3 -1 0 -1 -4
N -2 0 6 1 -3 0 0 0 1 -3 -3 0 -2 -3 -2 1 0 -4 -2 -3 3 0 -1 -4
D -2 -2 1 6 -3 0 2 -1 -1 -3 -4 -1 -3 -3 -1 0 -1 -4 -3 -3 4 1 -1 -4
C 0 -3 -3 -3 9 -3 -4 -3 -3 -1 -1 -3 -1 -2 -3 -1 -1 -2 -2 -1 -3 -3 -2 -4
Q -1 1 0 0 -3 5 2 -2 0 -3 -2 1 0 -3 -1 0 -1 -2 -1 -2 0 3 -1 -4
E -1 0 0 2 -4 2 5 -2 0 -3 -3 1 -2 -3 -1 0 -1 -3 -2 -2 1 4 -1 -4
G 0 -2 0 -1 -3 -2 -2 6 -2 -4 -4 -2 -3 -3 -2 0 -2 -2 -3 -3 -1 -2 -1 -4
H -2 0 1 -1 -3 0 0 -2 8 -3 -3 -1 -2 -1 -2 -1 -2 -2 2 -3 0 0 -1 -4
I -1 -3 -3 -3 -1 -3 -3 -4 -3 4 2 -3 1 0 -3 -2 -1 -3 -1 3 -3 -3 -1 -4
L -1 -2 -3 -4 -1 -2 -3 -4 -3 2 4 -2 2 0 -3 -2 -1 -2 -1 1 -4 -3 -1 -4
K -1 2 0 -1 -3 1 1 -2 -1 -3 -2 5 -1 -3 -1 0 -1 -3 -2 -2 0 1 -1 -4
M -1 -1 -2 -3 -1 0 -2 -3 -2 1 2 -1 5 0 -2 -1 -1 -1 -1 1 -3 -1 -1 -4
F -2 -3 -3 -3 -2 -3 -3 -3 -1 0 0 -3 0 6 -4 -2 -2 1 3 -1 -3 -3 -1 -4
P -1 -2 -2 -1 -3 -1 -1 -2 -2 -3 -3 -1 -2 -4 7 -1 -1 -4 -3 -2 -2 -1 -2 -4
S 1 -1 1 0 -1 0 0 0 -1 -2 -2 0 -1 -2 -1 4 1 -3 -2 -2 0 0 0 -4
T 0 -1 0 -1 -1 -1 -1 -2 -2 -1 -1 -1 -1 -2 -1 1 5 -2 -2 0 -1 -1 0 -4
W -3 -3 -4 -4 -2 -2 -3 -2 -2 -3 -2 -3 -1 1 -4 -3 -2 11 2 -3 -4 -3 -2 -4
Y -2 -2 -2 -3 -2 -1 -2 -3 2 -1 -1 -2 -1 3 -3 -2 -2 2 7 -1 -3 -2 -1 -4
V 0 -3 -3 -3 -1 -2 -2 -3 -3 3 1 -2 1 -1 -2 -2 0 -3 -1 4 -3 -2 -1 -4

Input Layer

-1
0
0

I 2

KE -4
2

EH 5
-2

VI 0
-3

I -3

Q 1

AE -2
-3
-1
0
-1
-3
-2
-2
Structure to Structure
Weights
Input Layer
HE
CH HE Output Layer
EC C
HE
C
Window
Hidden Layer

IKEEHVIIQAEFYLNPDQSGEF…..

PHD method (Rost and Sander)


• Combine neural networks with sequence profiles
– 6-8 Percentage points increase in prediction accuracy
over standard neural networks
• Use second layer “Structure to structure” network
to filter predictions
• Jury of predictors
• Set up as mail server
Position specific scoring matrices
(BLAST profiles)
A R N D C Q E G H I L K M F P S T W Y V
1 I -2 -4 -5 -5 -2 -4 -4 -5 -5 6 0 -4 0 -2 -4 -4 -2 -4 -3 4
2 K -1 -1 -2 -2 -3 -1 3 -3 -2 -2 -3 4 -2 -4 -3 1 1 -4 -3 2
3 E 5 -3 -3 -3 -3 3 1 -2 -3 -3 -3 -2 -2 -4 -3 -1 -2 -4 -3 1
4 E -4 -3 2 5 -6 1 5 -4 -3 -6 -6 -2 -5 -6 -4 -2 -3 -6 -5 -5
5 H -4 2 1 1 -5 1 -2 -4 9 -5 -2 -3 -4 -4 -5 -3 -4 -5 1 -5
6 V -3 0 -4 -5 -4 -4 -2 -3 -5 1 -2 1 0 1 -4 -3 3 -5 -3 5
7 I 0 -2 -4 1 -4 -2 -4 -4 -5 1 0 -2 0 2 -5 1 -1 -5 -3 4
8 I -3 0 -5 -5 -4 -2 -5 -6 1 2 4 -4 -1 0 -5 -2 0 -3 5 -1
9 Q -2 -3 -2 -3 -5 4 -1 3 5 -5 -3 -3 -4 -2 -4 2 -1 -4 2 -2
10 A 2 -4 -4 -3 2 -3 -1 -4 -2 1 -1 -4 -3 -4 1 2 3 -5 -1 1
11 E -1 3 1 1 -1 0 1 -4 -3 -1 -3 0 3 -5 4 -1 -3 -6 -3 -1
12 F -3 -5 -5 -5 -4 -4 -4 -1 -1 1 1 -5 2 5 -1 -4 -4 -3 5 2
13 Y 3 -5 -5 -6 3 -4 -5 -2 -1 0 -4 -5 -3 3 -5 -2 -2 -2 7 1
14 L -1 -3 -4 -2 1 5 1 -1 -1 -1 1 -3 -3 1 -5 -1 -1 -2 3 -2
15 N -1 -4 4 1 5 -3 -4 2 -4 -4 -4 -3 -2 -4 -5 2 0 -5 0 0
16 P -2 4 -4 -4 -5 0 -3 3 2 -5 -4 0 -4 -3 0 1 -2 -1 5 -3
17 D -3 -2 1 5 -6 -2 2 2 -1 -2 -2 -3 -5 -4 -5 -1 2 -6 -3 -4

PSI-Pred (Jones, DT)


• Use alignments from iterative sequence
searches (PSI-Blast) as input to a neural
network
• Better predictions due to better sequence
profiles
• Available as stand alone program and via
the web
Several different architectures
• Sequence-to-structure
– Window sizes 15,17,19 and 21
– Hidden units50 and 75
– 10-fold cross validation => 80 predictions
• Structure-to-structure
– Window size17
– Hidden units40
– 10-fold cross validation => 800 predictions

Αλλες μέθοδοι
• Μια από τις πρώτες προσπάθειες είχε γίνει το 1988 όταν ο Hamodrakas (Hamodrakas, 1988)
δημοσίευσε ένα συνδυαστικό αλγόριθμο που έκανε χρήση των τότε διαθέσιμων μεθόδων (Chou-
Fasman, GOR, Lim, Dufton-Hider, Burgess, Nagano). Η μέθοδος αυτή έδειξε μια βελτίωση της
τάξης του 2-3% και μετέπειτα έγινε και διαθέσιμη σαν διαδικτυακή εφαρμογή με το όνομα SecStr
(http://athina.biol.uoa.gr/SecStr/).
• Το JPRED (http://www.compbio.dundee.ac.uk/jpred/) ήταν ίσως η πρώτη μέθοδος που
χρησιμοποίησε συνδυασμό μεθόδων και ταυτόχρονα έκανε χρήση εξελικτικής πληροφορίας το
1998 (Cuff, Clamp, Siddiqui, Finlay, & Barton, 1998). Στην πρώτη έκδοση έκανε χρήση του JNET
και μιας σειράς άλλων αλγορίθμων της εποχής (NNSSP, DSC, PREDATOR, MULPRED, PHD,
ZPRED) και ανέφερε σημαντικά βελτιωμένη απόδοση. Σήμερα, η μέθοδος έχει φτάσει στην
έκδοση 4 (JPRED4) και συγκαταλέγεται ανάμεσα στις καλύτερες μεθόδους, έχοντας
αυτοματοποιημένη πρόσβαση μέσω διαδικτυακής εφαρμογής και πολλές επιλογές, όπως
γραφικές παραστάσεις των αποτελεσμάτων ή τη δυνατότητα ο χρήστης να δώσει τη δική του
πολλαπλή στοίχιση.
• Μια άλλη γνωστή από παλιά συνδυαστική μέθοδος είναι η NPS@ (https://npsa-prabi.ibcp.fr/cgi-
bin/npsa_automat.pl?page=/NPSA/npsa_seccons.html) η οποία κάνει συνδυαστική πρόγνωση με
χρήση των μεθόδων SOPM, SOPMA, HNN, MLRC, DPM, DSC, GOR I, GOR III, GOR IV, PHD,
PREDATOR, SIMPA96 ενώ δίνει στο χρήστη τη δυνατότητα να επιλέξει ποιες από αυτές θα
χρησιμοποιηθούν.
• Άλλες πιο πρόσφατες συνδυαστικές μέθοδοι είναι το CONCORD
(http://helios.princeton.edu/CONCORD/) το οποίο χρησιμοποιεί τα PSIPRED, DSC, GOR IV,
Predator, Prof, PROFphd, και SSpro, και το SYMPRED
(http://www.ibi.vu.nl/programs/sympredwww/) το οποίο κάνει χρήση των PHDpsi, PROFsec,
SSPro, Predator, YASPIN, JNet και PSIPRED.
• Πρέπει να τονίσουμε σε αυτό το σημείο, ότι η σύγχρονη τάση των μεγάλων εργαστηρίων είναι να
διαθέτουν σε μια διαδικτυακή εφαρμογή όλες τις σχετικές μεθόδους πρόγνωσης (δευτεροταγούς
δομής, προσβασιμότητας του διαλύτη, διαμεμβρανικών τμημάτων κ.ο.κ.). Έτσι, οι μέθοδοι του B.
Rost βρίσκονται όλες μαζί στην ιστοσελίδα PREDICTPROTEIN (www.predictprotein.org/), στην
ιστοσελίδα του PSI-PRED (http://bioinf.cs.ucl.ac.uk/psipred/) διατίθενται εκτός από την ομώνυμη
εφαρμογή και άλλες μέθοδοι πρόγνωσης πρωτεϊνών του εργαστηρίου, ενώ αντίστοιχες μέθοδοι
διατίθενται στο SCRATCH (http://scratch.proteomics.ics.uci.edu/index.html).
Benchmarking secondary structure
predictions
• Από τη δεκαετία του 1990 οι επιστήμονες δημιούργησαν το συνέδριο CASP
(Critical Assessment of Structure Predictions http://predictioncenter.org/). Σε
αυτή την προσπάθεια, εντοπίζονται μετά από επικοινωνία με τους
κρυσταλλογράφους οι αλληλουχίες των πρωτεϊνών που είναι «έτοιμες» να
προσδιοριστούν πειραματικά. Αφού ελεγχθεί ότι οι αλληλουχίες αυτές δεν
εμφανίζουν ομοιότητα με καμία άλλη πρωτεΐνη γνωστής δομής, οι αλληλουχίες
ανακοινώνονται και οι διάφοροι αλγόριθμοι δοκιμάζονται. Όταν φτάσει ο καιρός
του συνεδρίου τα αποτελέσματα των αλγορίθμων ανακοινώνονται και
συγκρίνονται με τις πραγματικές δομές που στο μεταξύ έχουν προσδιοριστεί
αλλά παραμένουν μυστικές.
• Μια άλλη προσπάθεια για συνεχή παραγωγή τέτοιων ανεξάρτητων συνόλων,
είχε δημιουργήσει ο Rost. Το πρόγραμμα ονομάζεται EVA (Koh et al., 2003) και
πραγματοποιούσε κάθε μήνα αναζήτηση στην PDB για νέες δομές και
πραγμάτωνε τη σύγκριση με τα γνωστά σύνολα εκπαίδευσης όλων ή των
περισσότερων, γνωστών μεθόδων. Έτσι, υπάρχει ένα συνεχώς ανανεωνόμενο
σύνολο ανεξάρτητου ελέγχου για κάθε μέθοδο, οπότε με σύγκριση των συνόλων
αυτών θα μπορεί ανά πάσα στιγμή να κατασκευαστεί ένα σύνολο που να είναι
κατάλληλο για τη σύγκριση δύο ή περισσότερων αλγορίθμων.

EVA results (Rost et al., 2001)


• PROFphd 77.0%
• PSIPRED 76.8%
• SAM-T99sec 76.1%
• SSpro 76.0%
• Jpred2 75.5%
• PHD 71.7%
– Cubic.columbia.edu/eva
Practical Conclusion
• If you need a secondary structure prediction use
one of the newer ones such as
– ProfPHD,
– PSIPRED, and
– JPred
• And not one of the older ones such as
– Chou-Fasman, and
– Garnier
Διαμεμβρανικά τμήματα
Γιατί είναι σημαντική η πρόγνωση;
• Οι μεμβρανικές πρωτεϊνες είναι πολλές
(30%), με σημαντικές λειτουργίες
• Η δομή τους είναι δύσκολο να
προσδιοριστεί
• Η πρόγνωση όμως είναι ευκολότερη

Διαμεμβρανικές πρωτεΐνες
Οι πρώτοι αλγόριθμοι
• Οι πρώτοι αλγόριθμοι πρόγνωσης της τοπολογίας των α-ελικοειδών μεμβρανικών
πρωτεϊνών βασίστηκαν σε κινούμενα παράθυρα κατά μήκος της αμινοξικής
αλληλουχίας. Αρχικά γινόταν χρήση παραθύρων σε συνδυασμό με κάποια κλίμακα
υδροφοβικότητας αλλά και με τον κανόνα positive-inside.
• Έτσι, ένας από τους πρώτους αλγόριθμους πρόγνωσης ήταν το TopPred (Claros &
von Heijne, 1994)(διαθέσιμο στη διεύθυνση http://mobyle.pasteur.fr/cgi-
bin/portal.py#forms::toppred).
• To TMpred (http://www.ch.embnet.org/software/TMPRED_form.html) ήταν επίσης
ένας από τους αρχικούς αλγόριθμους που βασιζόταν σε στατιστικές προτιμήσεις για
την εμφάνιση των αμινοξέων.
• Την ίδια εποχή, εμφανίστηκε και το MEMSAT (το οποίο βέβαια έχει εξελιχθεί από
τότε), που στηριζόταν σε ένα log-odds score βασισμένο σε στατιστικές προτιμήσεις
αμινοξέων και βελτιστοποιούσε τα αποτελέσματα με χρήση δυναμικού
προγραμματισμού (http://bioinf.cs.ucl.ac.uk/?id=756).
• Το PRED-TMR ήταν επίσης μια παρόμοια μέθοδος που αναπτύχθηκε λίγο αργότερα,
από Έλληνες επιστήμονες (Pasquier et al., 1999)(διαθέσιμο στη διεύθυνση
http://athina.biol.uoa.gr/PRED-TMR/) ενώ, καθώς προέβλεπε μόνο την παρουσία των
διαμεμβρανικών ελίκων, έπρεπε να συνδυαστεί με έναν άλλον αλγόριθμο, το
οrienTM (http://athina.biol.uoa.gr/orienTM/), το οποίο βασιζόταν επίσης σε
στατιστικές προτιμήσεις των αμινοξέων για να προβλέψει τη διευθέτηση των ήδη
προβλεφθέντων διαμεμβρανικών περιοχών (Liakopoulos, Pasquier, & Hamodrakas,
2001).

Νευρωνικά δίκτυα-ΗΜΜ
• Η πρώτη προσπάθεια εφαρμογής Νευρωνικών Δικτύων, συνδυασμένη με
πληροφορία από πολλαπλές στοιχίσεις, έγινε το 1996 με το PHDtm
(www.predictprotein.org), ενώ από τότε έχουν εμφανιστεί πολλοί παρόμοιοι
αλγόριθμοι.
• Ο πρώτος αλγόριθμος βασισμένος σε HMM εμφανίστηκε το 1998
(Sonnhammer, von Heijne, & Krogh, 1998), είναι το TMHMM
(http://www.cbs.dtu.dk/services/TMHMM/) και θεωρείται ακόμα και σήμερα,
ένας από τους καλύτερους αλγορίθμους της κατηγορίας (τουλάχιστον όσον
αφορά τους αλγορίθμους που βασίζονται μόνο στην αμινοξική αλληλουχία).
Παρόμοιος αλγόριθμος, αν και κάπως διαφορετικός στην υλοποίηση του
μοντέλου είναι το HMMTOP (http://www.enzim.hu/hmmtop/) (Tusnady &
Simon, 2001).
• Ένας από τους πρώτους αλγόοριθμους, που χρησιμοποίησαν συνδυαστική
πρόγνωση, ήταν το CoPreThi (http://athina.biol.uoa.gr/CoPreTHi/) που
αναπτύχθηκε στην Ελλάδα και βασιζόταν στους διαθέσιμους εκείνη την
εποχή αλγόριθμους SOSUI, Tmpred, ISREC, DAS, TopPred, PHDtm και
PRED-TMR (Promponas, Palaios, Pasquier, Hamodrakas, & Hamodrakas,
1999).
CoPreThi
Επεκτάσεις
• Μια άλλη μεγάλη κατηγορία μεθόδων που έκαναν την εμφάνισή τους, ειδικά βασισμένοι σε χρήση
των ΗΜΜ, ήταν οι μέθοδοι που έκαναν ταυτόχρονη πρόγνωση των διαμεμβρανικών τμημάτων και
των πεπτιδίων οδηγητών. Η βάση αυτής της μεθοδολογίας βρισκόταν στην παρατήρηση ότι τα
αμινοτελικά πεπτίδια οδηγητές (βλ. επόμενη ενότητα) έχουν μια μεγάλη υδρόφοβη περιοχή που
μοιάζει με διαμεμβρανική α-έλικα, και κατά συνέπεια πολλοί αλγόριθμοι πρόγνωσης των
διαμεμβρανικών τμημάτων τα μπερδεύουν με διαμεμβρανικές περιοχές.
• Η πρώτη μέθοδος που έκανε αυτή την επέκταση ήταν το Phobius (Kall, Krogh, & Sonnhammer,
2004) (διαθέσιμο στη διεύθυνση http://phobius.sbc.su.se/), ενώ αργότερα εμφανίστηκε και το
SPOCTOPUS (http://octopus.cbr.su.se/index.php?about=SPOCTOPUS).
• Μια άλλη παρόμοιας φύσεως επέκταση, έχει να κάνει με την ταυτόχρονη πρόγνωση τόσο των
διαμεμβρανικών περιοχών όσο και των θέσεων μετα-μεταφραστικών τροποποιήσεων. Οι
τροποποιήσεις αυτές, έχουν ειδική στόχευση στην αλληλουχία, αλλά συμβαίνουν και σε διακριτά
τμήματα του κυττάρου. Έτσι, μια πρόγνωση για γλυκοζυλίωση μπορεί να βοηθήσει και την
πρόγνωση των διαμεμβρανικών τμημάτων καθώς η γλυκοζυλίωση γίνεται σε περιοχές της
πρωτεΐνης που βρίσκονται εκτεθειμένες στον εξωκυττάριο χώρο. Αντίθετα, οι θέσεις
φωσφορυλίωσης βρίσκονται πάντα στην πλευρά που βρίσκεται στο κυτταρόπλασμα. Η μόνη
μέθοδος που προσφέρει μέχρι στιγμής αυτή τη δυνατότητα, είναι το HMMpTM
(http://bioinformatics.biol.uoa.gr/HMMpTM), το οποίο με αυτόν τον τρόπο πετυχαίνει βελτιωμένη
πρόγνωση τόσο στην περίπτωση της διαμεμβρανικής τοπολογίας, όσο και στην περίπτωση των
θέσεων γλυκοζυλίωσης και φωσφορυλίωσης (Tsaousis, Bagos, & Hamodrakas, 2014).

Ενσωμάτωση πειραματικής
πληροφορίας
• Από τις ήδη διαθέσιμες προγνωστικές μεθόδους, το
ΤΜΗΜΜ και το HMMTOP (Tusnady & Simon, 2001),
προσφέρουν στο χρήστη την επιλογή να ενσωματώσει
στην πρόγνωσή του, πειραματικά προσδιορισμένη
πληροφορία για την τοπολογία. Παρόμοια επιλογή,
προσφέρεται και από την συνδυασμένη πρόγνωση
διαμεμβρανικών α-ελίκων και πεπτιδίων οδηγητών, με τη
μέθοδο Phobius (Kall et al., 2004).
• Το HMM-TM το οποίο αναπτύχθηκε από την ομάδα μας
(http://bioinformatics.biol.uoa.gr/HMM-TM/), ήταν η
πρώτη μέθοδος που ενσωμάτωνε τέτοιου είδους
πληροφορία σε κάθε αλγόριθμο αποκωδικοποίησης των
ΗΜΜ, ενώ παράλληλα έδινε και τη θεωρητική
τεκμηρίωση για αυτήν την τροποποίηση.
FtsW S. pneumoniae
(Q8DPW6_STRR6)
PRED-CLASS
χαρακτηριστικά
• Οι διαμεμβρανικοί β-κλώνοι είναι κατά βάση αμφιπαθικοί, καθώς εμφανίζουν εναλλαγή
υδρόφοβων-πολικών καταλοίπων. Τα υδρόφοβα κατάλοιπα αλληλεπιδρούν με τις υδρόφοβες
ουρές των λιπιδίων της μεμβράνης, ενώ τα πολικά στρέφονται προς το εσωτερικό του βαρελιού
και άρα αλληλεπιδρούν με το υδάτινο περιβάλλον του πόρου.
• Τα αρωματικά κατάλοιπα έχουν την τάση να εμφανίζονται με μεγαλύτερη συχνότητα στις
επιφάνειες επαφής με τις πολικές κεφαλές των λιπιδίων, σχηματίζοντας έτσι τις λεγόμενες
«αρωματικές ζώνες» στην περιφέρεια του βαρελιού.
• Και το αμινοτελικό και το καρβοξυτελικό άκρο των πρωτεϊνών αυτών, είναι τοποθετημένα στον
περιπλασμικό χώρο (εσωτερικά σε σχέση με την εξωτερική μεμβράνη). Σε κάποιες περιπτώσεις,
μεγάλες αμινοτελικές και καρβοξυτελικές δομικές περιοχές, με μήκος μεγαλύτερο των 100
καταλοίπων, είναι δυνατόν να σχηματίζονται.
• Τα τμήματα της ακολουθίας, τα οποία συνδέουν τους διαμεμβρανικούς κλώνους, και τα οποία
βρίσκονται στον περιπλασμικό χώρο (εσωτερικές στροφές) είναι γενικά μικρότερου μήκους από
τα τμήματα τα οποία βρίσκονται στον εξωκυττάριο χώρο (εξωτερικές θηλιές). Οι στροφές του
περιπλασμικού χώρου, σε όλες σχεδόν τις γνωστές δομές, έχουν μήκος 12 ή και λιγότερα
κατάλοιπα ενώ αυτές του εξωκυττάριου χώρου μπορεί να έχουν μήκος και πάνω από 30
κατάλοιπα. Αυτό είναι επιτρεπτό λόγω της διαμόρφωσης του μαιάνδρου που υιοθετείται από το β-
βαρέλι.
• Το μήκος των διαμεμβρανικών β-κλώνων ποικίλει ανάλογα με την κλίση του κλώνου σε σχέση με
τον άξονα του βαρελιού και παίρνει τιμές από 6 έως και 22 κατάλοιπα. Παρ’ όλα αυτά, σε αρκετές
περιπτώσεις, μόνο ένα μικρό τμήμα του κλώνου είναι βυθισμένο στην λιπιδική διπλοστιβάδα, και
το υπόλοιπο προεξέχει μακριά από το επίπεδο της μεμβράνης προς τον εξωκυττάριο χώρο,
σχηματίζοντας εύκαμπτες φουρκέτες.
• Οι διαμεμβρανικές πρωτεΐνες με μορφή β-βαρελιού εμφανίζουν μικρότερη συντηρητικότητα στις
ακολουθίες τους, σε σχέση με τις σφαιρικές-υδατοδιαλυτές πρωτεΐνες. Ακόμα μικρότερη είναι η
συντηρητικότητα στις εξωκυττάριες στροφές, οι οποίες δρουν συχνά σαν αντιγονικοί καθοριστές.
Το γεγονός αυτό συνεπάγεται, ότι πρωτεΐνες με πολύ μικρή ομοιότητα σε επίπεδο ακολουθίας
είναι δυνατόν να διπλώνονται με απολύτως όμοιο τρόπο, αλλά παρ’ όλα αυτά οι μέθοδοι
αναζήτησης με βάση την ομοιότητα στην ακολουθία να μην μπορούν να τις ανιχνεύσουν.
• Οι γειτονικοί β-κλώνοι συνδέονται με ένα δίκτυο δεσμών υδρογόνου, το οποίο σταθεροποιεί τη
δομή του βαρελιού.
Νευρωνικά δίκτυα
• Οι μέθοδοι πρόγνωσης των διαμεμβρανικών β-βαρελιών, επίσης, διακρίνονται σε
μεθόδους που βασίζονται στην υδροφοβικότητα, σε στατιστικές τεχνικές και σε
μεθόδους μηχανικής μάθησης.
• Αξίζει να σημειωθεί, ότι είναι άλλο το πρόβλημα της πρόγνωσης της διαμεμβρανικής
τοπολογίας των β-βαρειλιών και άλλο το πρόβλημα του εντοπισμού τους. Κατά
συνέπεια, έχουν αναπτυχθεί και διαφορετικές μεθοδολογίες για τις παραπάνω
περιπτώσεις, αν και κάποιοι από τους αλγόριθμους αυτούς επιτυγχάνουν και τις δύο
λειτουργίες.
• Η πρώτη προσπάθεια εφαρμογής μεθόδων μηχανικής μάθησης για την πρόγνωση
της τοπολογίας των διαμεμβρανικών β-βαρελιών, πραγματοποιήθηκε από τον
Diederichs και του συνεργάτες του (Diederichs, Freigang, Umhau, Zeth, & Breed,
1998) αλλά πλέον η μέθοδος αυτή δεν είναι διαθέσιμη.
• Το B2TMPRED που αναπτύχθηκε λίγο αργότερα χρησιμοποίησε Νευρωνικά Δίκτυα
με ταυτόχρονη χρήση εξελικτικής πληροφορίας αλλά και επιπλέον φιλτράρισμα των
αποτελεσμάτων με αλγόριθμο δυναμικού προγραμματισμού (Jacoboni, Martelli,
Fariselli, De Pinto, & Casadio, 2001) και είναι διαθέσιμο στη διεύθυνση
http://gpcr.biocomp.unibo.it/cgi/predictors/outer/pred_outercgi.cgi.
• Σε Νευρωνικά Δίκτυα βασίζονται επίσης και το TBBpred
(http://www.imtech.res.in/raghava/tbbpred/) και το
• TMBETA-NET (http://psfs.cbrc.jp/tmbeta-net/) τα οποία χρησιμοποιούν μόνο την
αμινοξική αλληλουχία, αλλά και το TMBETAPRED-RBF
(http://rbf.bioinfo.tw/~sachen/BARRELpredict/TMBETAPRED-RBF.php) και το
• TMBpro (http://tmbpro.ics.uci.edu/) τα οποία χρησιμοποιούν εξελικτική πληροφορία
με τη μορφή πολλαπλών στοιχίσεων.

ΗΜΜ
• Οι πρώτες μέθοδοι βασισμένες σε Hidden Markov Model (HMM) εμφανίστηκαν
επίσης στις αρχές της δεκαετίας του 2000, και από τότε η μεθοδολογία αυτή έχει
κυριαρχήσει (Bagos, Liakopoulos, Spyropoulos, & Hamodrakas, 2004a, 2004b;
Bigelow, Petrey, Liu, Przybylski, & Rost, 2004; Hayat & Elofsson, 2012; Liu, Zhu,
Wang, & Li, 2003; Martelli, Fariselli, Krogh, & Casadio, 2002; Savojardo, Fariselli, &
Casadio, 2013; Singh, Goodman, Walter, Helms, & Hayat, 2011).
• Η πρώτη μέθοδος ήταν το HMM-B2TMR, το οποίο χρησιμοποιούσε πολλαπλές
στοιχίσεις αλλά έγινε δημόσια διαθέσιμο αργότερα
(http://gpcr.biocomp.unibo.it/predictors/),
• ενώ πλέον έχει εμφανιστεί και μια συνδυαστική μέθοδος από την ίδια ομάδα, το
BetAware (http://www.biocomp.unibo.it/~savojard/betawarecl).
• Το PRED-TMBB (http://bioinformatics.biol.uoa.gr/PRED-TMBB/) παρουσιάστηκε λίγο
αργότερα από εμάς, και ήταν ιδιαίτερα πετυχημένο, καθώς παρ’ όλο που
χρησιμοποιούσε μόνο πληροφορία από την αμινοξική αλληλουχία, χρησιμοποίησε
ένα διαφορετικό κριτήριο για την εκτίμηση των παραμέτρων του μοντέλου, αλλά και
διαφορετικούς αλγόριθμους για την εκπαίδευση και την αποκωδικοποίησή του.
• Ταυτόχρονα είχε εμφανιστεί το PROFtmb (https://www.predictprotein.org/) το οποίο
έκανε χρήση εξελικτικής πληροφορίας ενώ αργότερα εμφανίστηκαν και άλλες
μέθοδοι, όπως το TMBHMM και το TMBhunt.
• Η τελευταία και πιο αξιόπιστη μέθοδος, είναι το BOCTOPUS
(http://boctopus.cbr.su.se/), το οποίο χρησιμοποιεί ένα συνδυασμό Support Vector
Machines και HMMs ενώ κάνει και χρήση εξελικτικής πληροφορίας.
PRED-TMBB

Συνδυαστικές μέθοδοι
• Όμοια με τις α-ελικοειδείς μεμβρανικές πρωτεΐνες, εκτεταμένες εμπειρικές αναλύσεις έχουν δείξει
ότι οι μέθοδοι που βασίζονται σε κάποια γραμματική δομή όπως τα ΗΜΜ, είναι κατά κανόνα
καλύτερες για την πρόγνωση των διαμεμβρανικών β-βαρελιών σε σχέση με τις πιο απλές
στατιστικές μεθόδους, αλλά και σε σχέση με τα Νευρωνικά Δίκτυα.
• Επίσης, τόσο ο συνδυασμός πολλών μεθόδων όσο και η χρήση εξελικτικής πληροφορίας με τη
μορφή πολλαπλών στοιχίσεων είναι παράγοντες που αυξάνουν σημαντικά την απόδοση των
μεθόδων αυτών.
• Με βάση τα παραπάνω, το 2005, παρουσιάσαμε τον μοναδικό μέχρι στιγμής συνδυαστικό
αλγόριθμο πρόγνωσης των β-βαρελιών, το ConBBPRED
(http://bioinformatics.biol.uoa.gr/ConBBPRED/). To ConBBPRED δίνει τη δυνατότητα στο χρήστη
να επιλέξει ποιες μεθόδους θα συμπεριλάβει στη συνδυαστική πρόγνωση ενώ επιπλέον
βελτιστοποιεί την τελική πρόγνωση με έναν αλγόριθμο δυναμικού προγραμματισμού. Με τον
τρόπο αυτό, η μέθοδος ξεπερνάει σε επιτυχία όλες τις επιμέρους μεθόδους που χρησιμοποιούνται
στην πρόγνωση. Το μειονέκτημα της μεθόδου είναι το γεγονός ότι ο χρήστης πρέπει να έχει λάβει
μόνος του τα αποτελέσματα από τις επιμέρους μεθόδους και να τα επικολλήσει στην αντίστοιχη
φόρμα της διαδικτυακής εφαρμογής (Bagos, Liakopoulos, & Hamodrakas, 2005).
• Παρ’ όλο που είδαμε ότι ακόμα και για τα β-βαρέλια η αύξηση του μεγέθους του συνόλου
εκπαίδευσης δεν οδηγεί σε γραμμική αύξηση της απόδοσης, το μέγεθος παίζει κάποιο ρόλο,
ειδικά αν αναλογιστούμε ότι οι πρώτες μέθοδοι ήταν εκπαιδευμένες σε μόλις 10-20 τέτοιες
πρωτεΐνες.
• Έτσι, είναι κατανοητό ότι οι πιο σύγχρονες μέθοδοι όπως το BOCTOPUS, που έχουν εκπαιδευθεί
σε μερικές δεκάδες αλληλουχίες, θα είναι πιο αποδοτικές. Παρ’ όλα αυτά, οι αλγοριθμικές
επιλογές αλλά και ο σωστός σχεδιασμός του μοντέλου καθιστούν ακόμα και σήμερα το PRED-
TMBB μια ιδιαίτερα ανταγωνιστική μέθοδο. Εκτός από το PRED-TMBB και το BOCTOPUS, οι πιο
αξιόπιστες μέθοδοι σύμφωνα με τα τελευταία δεδομένα είναι το PROFtmb, το BetAware και το
HMM-B2TMR. Μια προσπάθεια να επανεκπαιδευθεί το PRED-TMBB σε νέα δεδομένα αλλά και
να χρησιμοποιήσει εξελικτική πληροφορία, έχει δώσει εξαιρετικά μέχρι στιγμής αποτελέσματα και
αναμένουμε να δημοσιευτεί σύντομα. Η μέθοδος αυτή, το PRED-TMBB2
(www.compgen.org/tools/PRED-TMBB2), φαίνεται ότι είναι πλέον η πιο αξιόπιστη μέθοδος, ενώ
μια νέα εφαρμογή για συνδυαστική πρόγνωση βρίσκεται υπό κατασκευή.
ConBBPRED
Μέθοδοι
• Η υπολογιστική πρόγνωση των πεπτιδίων οδηγητών, αλλά και των άλλων
σηματοδοτικών αλληλουχιών, ήταν ένα σημαντικό πρόβλημα, ήδη από τη δεκαετία
του 1980. Αρχικά χρησιμοποιήθηκαν weight matrices βασισμένοι στην ανάλυση του
Gunnar von Heijne (von Heijne, 1986), και ο πιο γνωστός αλγόριθμος που βασίζεται
σε αυτή τη μέθοδο, είναι το SigCleave, το οποίο υπάρχει διαθέσιμο σε πολλές
εκδόσεις
(http://emboss.sourceforge.net/apps/release/6.6/emboss/apps/sigcleave.html).
• Μια πιο σύγχρονη μέθοδος βασισμένη σε weight matrices, η οποία έχει εκπαιδευθεί
σε περισσότερα και καλύτερης ποιότητας δεδομένα, είναι το PrediSi
(http://www.predisi.de/). Η μέθοδος αυτή, όπως και οι περισσότερες σύγχρονες
μέθοδοι, έχει διαφορετικές εκδόσεις για τις τρεις μεγάλες κατηγορίες οργανισμών
(Ευκαρυωτικοί, αρνητικά κατά Gram Βακτήρια, θετικά κατά Gram Βακτήρια).
• Οι πιο αποδοτικές όμως σύγχρονες μεθοδολογίες, βασίζονται σε μεθόδους μηχανικής
μάθησης όπως τα νευρωνικά δίκτυα και τα ΗΜΜ. Η πιο καλή και η πιο γνωστή από
τις σύγχρονες μεθόδους, είναι το SignalP (http://www.cbs.dtu.dk/services/SignalP),
το οποίο έχει φτάσει ήδη την έκδοση 4.1, και εκτός του ότι διαθέτει ξεχωριστά
εργαλεία για την κάθε ομάδα οργανισμών και δυο διαφορετικές μεθόδους (νευρωνικά
δίκτυα και ΗΜΜ), ενώ βασίζεται στην εξαιρετική βιβλιογραφική αναζήτηση για την
κατάρτιση του συνόλου εκπαίδευσης, περιλαμβάνοντας έτσι πολλές πρωτεΐνες, αλλά
και απομακρύνοντας λάθος καταχωρίσεις (Bendtsen, Nielsen, von Heijne, & Brunak,
2004).
• Όπως ήδη αναφέραμε, κάποιες μέθοδοι πρόγνωσης διαμεμβρανικών πρωτεϊνών
διαθέτουν επιπλέον την ικανότητα να προβλέπουν τα πεπτίδια οδηγητές. Οι μέθοδοι
αυτές είναι το Phobius, διαθέσιμο στη διεύθυνση http://phobius.sbc.su.se/ (Kall et al.,
2004; Kall, Krogh, & Sonnhammer, 2007) και το Philius (Reynolds, Kall, Riffle,
Bilmes, & Noble, 2008), το οποίο είναι διαθέσιμο στη διεύθυνση
http://noble.gs.washington.edu/proj/philius/, οι οποίες χρησιμοποιούν γραφικά
μοντέλα (ΗΜΜ και Bayesian network, αντίστοιχα), ενώ αργότερα εμφανίστηκε και το
SPOCTOPUS (http://octopus.cbr.su.se/index.php?about=SPOCTOPUS).

Left panel (from top to bottom): the sequence logos of experimentally verified eukaryal, gram-
positive, gram-negative and archaeal signal peptides (SPs), respectively, produced by
WebLogo (Crooks et al., 2004).

P.G. Bagos et al. Protein Engineering, Design and


Selection 2009;22:27-35
Λιποπρωτεΐνες
• Οι βακτηριακές λιποπρωτεΐνες για πολλά χρόνια αναγνωρίζονταν με χρήση
κανονικών εκφράσεων της PROSITE, όπως αυτές που αναφέραμε στο κεφάλαιο 5
(π.χ. το PS00013).
• Παρ’ όλα αυτά, τα τελευταία χρόνια αναπτύχθηκαν και για αυτές τις πρωτεΐνες πιο
σύγχρονες μέθοδοι. Αρχικά αναπτύχθηκε το LipoP
(http://www.cbs.dtu.dk/services/LipoP), το οποίο βασίστηκε σε HMM και είχε
εκπαιδευθεί να αναγνωρίζει λιποπρωτεΐνες από αρνητικά κατά Gram βακτήρια
(Juncker et al., 2003). Το LipoP έχει επιπλέον την ειδική ικανότητα να προβλέπει
εξίσου καλά και πεπτίδια οδηγητές εκκρινόμενων πρωτεϊνών, αλλά και
διαμεμβρανικές έλικες στο αμινοτελικό άκρο και έχει μια επιτυχία της τάξης του 97%
στη σωστή ταξινόμηση στις λιποπρωτεΐνες από αρνητικά κατά Gram βακτήρια, ενώ
δίνει λάθος προβλέψεις (δηλαδή, σε μη εκκρινόμενες πρωτεΐνες), της τάξης του 0.3%.
Παρ’ όλα αυτά, όταν χρησιμοποιηθεί σε λιποπρωτεΐνες από θετικά κατά Gram
βακτήρια, η ακρίβειά του πέφτει περίπου στο 90-92%.
• Έτσι, σε μια παλιότερη εργασία μας, αφού πραγματοποιήσαμε εκτεταμένη αναζήτηση
στη βιβλιογραφία για την εύρεση πειραματικά προσδιορισμένων λιποπρωτεϊνών από
θετικά κατά Gram βακτήρια, κατασκευάσαμε το PRED-LIPO
(http://www.compgen.org/tools/PRED-LIPO), το οποίο αποδίδει καλύτερα σε αυτή την
κατηγορία βακτηρίων, ενώ παράλληλα προβλέπει με αρκετά μεγάλη ακρίβεια και τα
πεπτίδια των εκκρινόμενων πρωτεϊνών, αλλά και τις διαμεμβρανικές έλικες (Bagos,
Tsirigos, Liakopoulos, & Hamodrakas, 2008).

ΤΑΤ
• Παρ’ όλο που πολλές από τις μεθόδους που αναφέραμε, μπορούν να προβλέψουν
(μέχρι κάποιο βαθμό) και τα πεπτίδια που οδηγούνται μέσω του συστήματος Tat
(χωρίς όμως να μπορούν να τα διαχωρίσουν), έχουν αναπτυχθεί τα τελευταία χρόνια
και ειδικές μεθοδολογίες που δουλεύουν καλύτερα στις πρωτεΐνες αυτής της
κατηγορίας.
• Η πρώτη τέτοια μέθοδος ήταν το TATFIND (http://signalfind.org/tatfind.html), το
οποίο βασιζόταν σε ανάλυση υδροφοβικότητας και σε κανονικές εκφράσεις (Rose,
Bruser, Kissinger, & Pohlschroder, 2002).
• Λίγα χρόνια αργότερα εμφανίστηκε το TatP (http://www.cbs.dtu.dk/services/TatP/), το
οποίο χρησιμοποιεί νευρωνικά δίκτυα αλλά και κανονικές εκφράσεις για να διακρίνει
την περιοχή RR (Bendtsen, Nielsen, Widdick, Palmer, & Brunak, 2005). Το TatP είναι
γενικά αξιόπιστο, αλλά όχι στα επίπεδα του SignalP, ενώ το TATFIND αναγνωρίζει
μόνο την ύπαρξη του σήματος RR, αλλά όχι και το σημείο αποκοπής.
• Σε μια προσπάθεια να επιλύσουμε όλα αυτά τα προβλήματα, παρουσιάσαμε
πρόσφατα το PRED-TAT (http://www.compgen.org/tools/PRED-TAT/), μια μέθοδο
βασισμένη στα HMMs, η οποία μπορεί αφενός μεν να διαχωρίσει τα πεπτίδια
οδηγητές (Sec και Tat), αφετέρου δε, να προβλέψει και τις θέσεις αποκοπής στις δύο
κατηγορίες. Η μέθοδος αυτή, είναι αυτή τη στιγμή, η κορυφαία για τα Tat πεπτίδια
οδηγητές, αλλά ταυτόχρονα προβλέπει και τα κλασικά πεπτίδια (Sec) σε
ικανοποιητικό βαθμό, ενώ υστερεί ελάχιστα σε αυτή την κατηγορία σε σχέση με το
SignalP (Bagos et al., 2010).
Αλληλουχίες στόχευσης
• Σχετικά με τις σηματοδοτικές αλληλουχίες που κατευθύνουν τις πρωτεΐνες στα
μιτοχόνδρια και τους χλωροπλάστες, έχουν επίσης αναπτυχθεί εξειδικευμένοι
αλγόριθμοι.
• Για τους χλωροπλάστες, ο πιο γνωστός είναι το ChloroP
(http://www.cbs.dtu.dk/services/ChloroP),
• ενώ το TargetP (http://www.cbs.dtu.dk/services/TargetP), είναι ένα ολοκληρωμένο
σύστημα που προβλέπει τόσο τις εκκριτικές πρωτεΐνες, όσο και αυτές των
μιτοχονδρίων και των χλωροπλαστών.
• Παρόμοιας αρχιτεκτονικής και φιλοσοφίας είναι το κάπως παλιότερο iPSORT
(http://ipsort.hgc.jp/how.html).
• Άλλα εργαλεία που προβλέπουν τις μιτοχονδριακές σηματοδοτικές αλληλουχίες, είναι
το MitoProt (https://ihg.gsf.de/ihg/mitoprot.html),
• το Predotar (http://urgi.versailles.inra.fr/predotar/predotar.html),
• και το Tppred2 (http://tppred2.biocomp.unibo.it).
• Για τις πρωτεΐνες των υπεροξεισωμάτων, υπάρχει το PTS1 predictor
(http://mendel.imp.ac.at/mendeljsp/sat/pts1/PTS1predictor.jsp),
• ενώ για τις πρωτεϊνες που κατευθύνονται στον πυρήνα έχει αναπτυχθεί το cNLS
Mapper (http://nls-mapper.iab.keio.ac.jp/cgi-bin/NLS_Mapper_form.cgi),
• το NLStradamus (http://www.moseslab.csb.utoronto.ca/NLStradamus/),
• το NucPred (http://www.sbc.su.se/~maccallr/nucpred/)
• και το PredictNLS (https://rostlab.org/owiki/index.php/PredictNLS).

Μετα-μεταφραστικές
τροποποιήσεις
Φωσφορυλίωση
• Η φωσφορυλίωση, είναι επίσης μια πολύ σημαντική κατηγορία τροποποιήσεων που συνίσταται
στην προσθήκη φωσφορικής ομάδας, συνήθως στην πλευρική ομάδα της Σερίνης, της Θρεονίνης
ή της Τυροσίνης.
• Τα ένζυμα που πραγματοποιούν αυτές τις αντιδράσεις ονομάζονται κινάσες και η διαδικασία αυτή
χρησιμεύει σαν αντιστρεπτός μηχανισμός σηματοδότησης και ενεργοποίησης διαφόρων
μηχανισμών.
• Η πιο γνωστή μέθοδος πρόγνωσης είναι το NetPhos (http://www.cbs.dtu.dk/services/NetPhos/)
που βασίζεται σε νευρωνικά δίκτυα, ενώ η πιο εξελιγμένη έκδοση NetPhosK
(http://www.cbs.dtu.dk/services/NetPhosK/) προβλέπει και το είδος της κινάσης που
πραγματοποιεί την κάθε αντίδραση.
• Το GPS (http://gps.biocuckoo.org/) είναι ένα άλλο εργαλείο για πρόγνωση της φωσφορυλίωσης
(περιέχει και μεθόδους πρόγνωσης και για άλλες μετα-μεταφραστικές τροποποιήσεις). Το
KinasePhos2 (http://kinasephos2.mbc.nctu.edu.tw/) είναι μια ακόμα γνωστή εφαρμογή για
πρόγνωση των θέσεων φωσφορυλίωσης που προβλέπει και το είδος της κινάσης και βασίζεται σε
HMM.
• Άλλες μέθοδοι είναι το PhosphoSVM (http://sysbio.unl.edu/PhosphoSVM/), το DISPHOS
(http://www.dabi.temple.edu/disphos/), το pkaPS (http://mendel.imp.ac.at/sat/pkaPS/) και το
Predikin (http://predikin.biosci.uq.edu.au/).
• Εμπειρικές μελέτες έχουν δείξει ότι οι υπάρχουσες μέθοδοι πρόγνωσης έχουν σχετικά μικρή
ακρίβεια και πολλές φορές δρουν συμπληρωματικά (άλλες έχουν μεγάλη ευαισθησία, άλλες
μεγάλη ειδικότητα), κατά συνέπεια, μια συνδυαστική μέθοδος μπορεί να αποδώσει καλύτερα.
• Η μόνη προς το παρόν τέτοια μέθοδος είναι το MetaPredPS
(http://c1.accurascience.com/MetaPred/MetaPredPS_091201/).
• Πολλές φορές επίσης, σε ειδικές κατηγορίες οργανισμών, οι γενικές μέθοδοι δεν αποδίδουν καλά,
οπότε υπάρχει και η ανάγκη για εξειδικευμένες μεθόδους όπως το NetPhosYeast
(http://www.cbs.dtu.dk/services/NetPhosYeast/) και το NetPhosBac
(http://www.cbs.dtu.dk/services/NetPhosBac-1.0/).

DNA/RNA
– Έύρεση γονιδίων
– Εύρεση υποκινητών
– Σημεία συρραφής
– TIS
– Poly-A
– miRNA
Gene-finders
• Για τους προκαρυωτικούς οργανισμούς, τα πιο γνωστά
και πετυχημένα εργαλεία περιλαμβάνουν τα:
• FrameD (http://tata.toulouse.inra.fr/apps/FrameD/FD)
• GeneMark
(http://exon.gatech.edu/GeneMark/gmchoice.html)
• Glimmer
(http://www.ncbi.nlm.nih.gov/genomes/MICROBES/glim
mer_3.cgi)
• EasyGene (http://www.cbs.dtu.dk/services/EasyGene/)
• FGENESB
(http://linux1.softberry.com/berry.phtml?topic=fgenesb&g
roup=help&subgroup=gfindb)
• Prodigal (http://prodigal.ornl.gov/)
Gene-finders
• Αντίστοιχα, για τους ευκαρυωτικούς οργανισμούς, τα πιο
πετυχημένα αντίστοιχα εργαλεία είναι:
• FGENESH
(http://linux1.softberry.com/berry.phtml?topic=fgenesh&group=progr
ams&subgroup=gfind)
• GlimmerHMM (https://ccb.jhu.edu/software/glimmerhmm/)
• HMMgene (http://www.cbs.dtu.dk/services/HMMgene/)
• GeneMark.hmm
(http://exon.gatech.edu/GeneMark/hmmchoice.html)
• GeneID (http://genome.crg.es/software/geneid/geneid.html)
• GeneScan (http://genes.mit.edu/GENSCAN.html)
• mGene (http://raetschlab.org/suppl/mgene)
• Grail (http://compbio.ornl.gov/grailexp/)

Άλλα εργαλεία
• Ειδικά εργαλεία για την έναρξη της μεταγραφής (translation initiation) είναι:
– ATGpr (http://atgpr.dbcls.jp/)
– NetStart (http://www.cbs.dtu.dk/services/NetStart/)
– TIS Miner (http://dnafsminer.bic.nus.edu.sg/Tis.html)
– StartScan (http://bioinformatics.psb.ugent.be/webtools/startscan/)
• Για την πολυαδενυλίωση του mRNA τα διαθέσιμα εργαλεία αυτή τη στιγμή
είναι:
– Poly(A) Signal Miner (http://dnafsminer.bic.nus.edu.sg/)
– PolyAPred (http://www.imtech.res.in/raghava/polyapred/help.html)
– POLYAH
(http://www.softberry.com/berry.phtml?topic=polyah&group=programs&subgroup
=promoter)
– PolyApredict (http://cub.comsats.edu.pk/polyapredict.htm)
• Τέλος, μέθοδοι που εστιάζονται στην εύρεση των σημείων αποκοπής και
συρραφής εσωνίων/εξωνίων σε ευκαρυωτικά γονιδιώματα, είναι:
– Human Splice Finder (http://www.umd.be/HSF3/)
– NetGene (http://www.cbs.dtu.dk/services/NetGene2/)
– NetPlant (http://www.cbs.dtu.dk/services/NetPGene/)
– GeneSplicer (https://ccb.jhu.edu/software/genesplicer/)
– SpliceView (http://bioinfo4.itb.cnr.it/~webgene/wwwspliceview_ex.html)
– SplicePredictor (http://bioservices.usd.edu/splicepredictor/)
miRNA
• CID miRNA (http://melb.agrf.org.au:8888/cidmirna/)
• MiRPara (https://code.google.com/p/mirpara/)
• HeteroMirPred (http://ncrna-pred.com/premiRNA.html)
• HHMMiR (http://biodev.hgen.pitt.edu/kadriAPBC2009.html)
• HuntMi (http://adaa.polsl.pl/agudys/huntmi/huntmi.htm)
• MaturePred (http://nclab.hit.edu.cn/maturepred/)
• microPred (http://www.cs.ox.ac.uk/people/manohara.rukshan.batuwita/microPred.htm)
• MiPred (http://www.bioinf.seu.edu.cn/miRNA/)
• miRAbela (http://www.mirz.unibas.ch/cgi/pred_miRNA_genes.cgi)
• MiRAlign (http://bioinfo.au.tsinghua.edu.cn/miralign/)
• miRBoost (http://evryrna.ibisc.univ-evry.fr/miRBoost/index.html)
• mirnaDetect (http://datamining.xmu.edu.cn/main/~leyiwei/mirnaDetect.html)
• miRNAFold (http://evryrna.ibisc.univ-evry.fr/miRNAFold/)
• MiRscan (http://genes.mit.edu/mirscan/)
• novoMIR (http://www.biophys.uni-duesseldorf.de/novomir/)
• ProMiR (http://bi.snu.ac.kr/Research/ProMiR/ProMiR.html)
• RNAmicro (http://www.tbi.univie.ac.at/~jana/software/RNAmicro.html)
• tripletSVM (http://bioinfo.au.tsinghua.edu.cn/mirnasvm/)
• SplamiR (http://www.uni-jena.de/SplamiR.html)
• SSCprofiler (http://mirna.imbb.forth.gr/SSCprofiler.html)
• EumiR (http://miracle.igib.res.in/eumir/)
miRNA target
• Diana Micro-T (http://diana.cslab.ece.ntua.gr/microT/)
• PicTar (http://pictar.mdc-berlin.de/)
• TargetScan (http://www.targetscan.org/)
• miRTar (http://mirtar.mbc.nctu.edu.tw/human/)
• miRanda (http://www.microrna.org/microrna/home.do)
• MaMi (http://mami.med.harvard.edu/)
• ComiR (http://www.benoslab.pitt.edu/comir/) (συνδυαστική μέθοδος)
• PITA (http://genie.weizmann.ac.il/pubs/mir07/mir07_prediction.html)
• MirMap (http://mirmap.ezlab.org/)
• STarMir (http://sfold.wadsworth.org/starmir.html)

You might also like