ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΑΜΟΥΤΖΙΑΣ ΓΡΗΓΟΡΙΟΣ Πανεπιστήμιο Θεσσαλίας

ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ
ΑΜΟΥΤΖΙΑΣ ΓΡΗΓΟΡΙΟΣ
Πανεπιστήμιο Θεσσαλίας
Προτεινόµενα συγγράµµατα
•  Ελληνικά συγγράµµατα:
–  Andreas D. Baxevanis & B.F. Francis Quellette. Βιοπληροφορική: Ένας
πρακτικός οδηγός για την ανάλυση γονιδίων και πρωτεΐνών.
–  Σοφία Κοσσίδα. Βιοπληροφορική - Δυνατότητες & Προοπτικές.
•  Αγγλικά συγγράµµατα:
–  Jin Xiong. Essential Bioinformatics. (Σύντοµο, περιεκτικό και απλά
γραµµένο σύγγραµα).
–  David W. Mount. Bioinformatics. Sequence and genome analysis.
(Εκτενές και πολύ αναλυτικό σύγγραµα)
Βιοπληροφορική
Εισαγωγή
Εισαγωγή
Βιοπληροφορική: τι είναι
•  Η ανάπτυξη και χρήση τεχνικών και εργαλείων πληροφορικής/µαθηµατικών/
στατιστικής για την ανάλυση βιολογικών δεδοµένων (κυρίως µοριακής βιολογίας)
•  Σήµερα γίνεται διάκριση µεταξύ της βιοπληροφορικής και της υπολογιστικής

βιολογίας
–  Βιοπληροφορική: Η ανάπτυξη µεθόδων και προγραµµάτων.
–  Υπολογιστική Βιολογία: Η χρήση των παραπάνω µεθόδων και προγραµµάτων για την
ανάλυση βιολογικών δεδοµένων.
•  Συχνά συµβαίνουν και τα δύο ταυτόχρονα και τα σύνορα δεν είναι πάντα
ευδιάκριτα
•  Πολλές και συµπληρωµατικές µεταξύ τους ειδικότητες (από Βιολογία, Βιοχηµεία,

Χηµεία, Χηµική Μηχανική, Μηχανική, Υπολογιστές, Μαθηµατικά, Στατιστική κ.α.)
συνεργάζονται σήµερα στο χώρο της Βιοπληροφορικής
Εισαγωγή
Βιοπληροφορική: βασικοί τοµείς

•  Βάσεις δεδοµένων (Databases)
–  Οργάνωση, αποθήκευση, αναζήτηση των δεδοµένων.
•  Ανάλυση ακολουθιών DNA, RNA, πρωτεϊνών. (Sequence analysis)

–  Στοίχιση ακολουθιών: Σύγκριση των αντίστοιχων/οµόλογων περιοχών, µεταξύ δύο ή
περισσοτέρων ακολουθιών.
–  Φυλογενετική ανάλυση: Οι εξελικτικές σχέσεις µεταξύ οµοειδών αντικειµένων (γονίδια,
πρωτεΐνες, οργανισµοί).
•  Γονιδιακή ρύθµιση/έκφραση (Gene expression)

Ανάλυση δεδοµένων από µικροσυστοιχίες, RNA-seq.
•  Δοµή RNA/πρωτεϊνών (structural biology):

Πρόβλεψη δευτεροταγούς και τριτοταγούς δοµής. Ανάλυση πρωτεϊνικών επιφανειών που
αλληλεπιδρούν µεταξύ τους.
•  Εξόρυξη δεδοµένων από βιβλιογραφία (text mining).
•  Βιολογικά δίκτυα/µονοπάτια, Βιολογία Συστηµάτων (FBA, MCA).
•  Οντολογίες (Ontologies)
Η χρήση ενός ελεγχόµενου λεξιλογίου (µε ιεραρχική δόµηση), για την περιγραφή των
ιδιοτήτων και των λειτουργιών οµοειδών αντικειµένων (π.χ πρωτεϊνών).
Εισαγωγή
Ιστορική αναδροµή
•  1965: Η πρώτη έκδοση του Atlas of protein sequence and structure (Margaret
Dayhoff), πρόδροµος της βάσης δεδοµένων πρωτεϊνικών ακολουθιών PIR
(protein information resource).
–  Ακολουθούν και άλλες βάσεις δεδοµένων. 1986: Swissprot, Geneva
•  1970: Αλγόριθµος Needleman-Wunsch για την σύγκριση ακολουθιών

•  1990: Blast
•  1990s: Αρχή του Human genome project, που ‘ολοκληρώθηκε’ το 2001.

Κινητήριος δύναµη για την αλµατώδη ανάπτυξη της Bιοπληροφορικής.
Εισαγωγή
Παρόν/µέλλον
•  Μέχρι το 2000, Βιοπληροφορική σήµαινε κυρίως ανάλυση ακολουθιών.
•  Η γενωµική αποτέλεσε το ερέθισµα για την ανάπτυξη τεχνολογιών που

κάνουν µετρήσεις ευρείας κλίµακας.
•  Από το 2000 και µετά, η Βιοπληροφορική καλείται επίσεις να

διαχειριστεί και να αναλύσει µεγάλα και πολύπλοκα δεδοµένα από το
χώρο της γενωµικής, της γονιδιακής έκφρασης, της πρωτεοµικής κ.α.
•  Πλέον ο όρος ‘Βιοπληροφορική’ είναι τόσο εξειδικευµένος/γενικός, όσο

και ο όρος ‘Μοριακή Βιολογία’!
•  Βρισκόµαστε σε µια µεταβατική περίοδο για τις Βιολογικές επιστήµες,

όπως η Φυσική πριν πολλά χρόνια. Βέβαιη η εισδοχή περισσότερων
µαθηµατικών, στατιστικής και πληροφορικής (προγραµµατισµός)
µεσοπρόθεσµα στο πρόγραµµα σπουδών.
Bioinformatics Market - Advanced

Technologies, Global Forecast and
Winning Imperatives (2009 - 2014)
•  Απόσπασµα από:
–  http://www.marketsandmarkets.com/Market-Reports/bioinformatics-39.html
•  The market for bioinformatics platforms is growing at a significant pace with

the increasing demand from U.S. and Europe.
•  This trend is supported by the increasing demand for sequencing platforms
with increasing life science research using techniques such as gene
expression analysis, sequence analysis, and protein expression analysis.
•  The global bioinformatics market is expected to reach $8.3 billion by 2014
at a high CAGR of 24.8% from 2009-2014. While knowledge management
formed the largest submarket is 2009 at $1.3 billion, the bioinformatics
platforms market is expected to have greatest market share in 2014 at an
estimated $3.9 billion, due to rising demand from the U.S. and Europe.
•  Συµβουλευτική (δουλειά από το σπίτι)?

Χαµηλό κόστος γενωµικών τεχνολογιών θα
οδηγήσει σε καθηµερινές εφαρµογές.
•  Κόστος αλληλούχισης πέφτει διαρκώς.
–  Illumina -> 1 lane: 19GBp, ~ €3000, 10 βακτηριακά γενώµατα.
•  Τα δείγµατα αποστέλλονται σε κέντρα µε µεγάλες εγκαταστάσεις και
χαµηλό κόστος λειτουργίας (οικονοµία κλίµακας). Η ανάλυση των
δεδοµένων όµως δεν υπόκειται σε όρους οικονοµίας κλίµακας.
•  Πλέον, ένα σηµαντικό µέρος του ολικού κόστους είναι η
βιοπληροφορική ανάλυση.
•  Μηχανήµατα αλληλούχισης ακριβά (Illumina ~ €600.000) - service
φτηνό.
•  Mισθός ακριβός (ίσως ένα νέο µοντέλο συµβουλευτικής?)
•  Yπολογιστής φτηνός (€3-5.000), εφόσον πρόκειται για µικρά
γονιδιώµατα (de novo assembly), ή για re-sequencing.

οδηγήσει σε καθηµερινές εφαρµογές
•  Κόστος αλληλούχισης
–  http://www.genome.gov/sequencingcosts/
•  Ο νόµος του Moore προβλέπει διπλασιασµό της υπολογιστικής ισχύς
κάθε δύο χρόνια.
οδηγήσει σε καθηµερινές εφαρµογές
Εφαρµογές
‘Ελεγχος εξελικτικών υποθέσεων -
Προέλευση -
Επιδηµιολογία
Έλεγχος εξελικτικών υποθέσεων
Από που προήλθε ο ιός HIV;
Πρωτοεµφανίστηκε
µυστηριωδώς στις αρχές
της δεκαετίας του 1980.
Ο τύπος HIV-1 εισήλθε

στους ανθρώπους, ίσως
περισσότερες από µια
φορές, από τον χιµπατζή.
Ο τύπος HIV-2 εισήλθε

στους ανθρώπους, από τους
sooty mangabees
Έλεγχος εξελικτικών υποθέσεων

Από που προήλθε ο ιός HIV-1 subtype M; Προέλευση στην Κεντρική Αφρική.
Όταν πρωτοεντοπίστηκε, αρκετοί ασθενείς στην Αµερική ήταν πρόσφατοι
Αϊτινοί µετανάστες.
Κάποιοι ισχυρίζονταν ότι πήγε από την Αµερική στην Αϊτή στα µέσα των 70s,
λόγω σεξοτουρισµού.
Από την Αϊτή στην Αµερική ή το αντίθετο;
Ο Worobey χρησιµοποίησε ακολουθίες HIV από συντηρηµένα δείγµατα
Αϊτινών ασθενών (1983)
Επιδηµία χολέρας στην Αϊτή 2010
• Μετά τον σεισµό στην Αϊτή (Ιανουαριος 2010), ξέσπασε επιδηµία χολέρας (Οκτώβριος
2010).
• Το βακτήριο Vibrio cholerae ελευθερώνει µια τοξίνη που προκαλεί έντονες διάρροιες
και αφυδάτωση, έως και θάνατο, εντός ολίγων ωρών, αν δεν αντιµετωπιστεί!
• Η µετάδοση γίνεται όταν τα κόπρανα ενός µολυσµένου ατόµου έρθουν σε επαφή µε
πόσιµο νερό ή τροφή.
• Τα άτοµα που δεν παράγουν αρκετό γαστρικό υγρό στο στοµάχι τους, ή τα άτοµα µε
οµάδα αίµατος Ο είναι πιο ευάλωτα.
• Το Vibrio cholerae υπάρχει σε υδάτινα περιβάλλοντα ανά την υφήλιο και εάν οι
συνθήκες είναι ευνοϊκές, µπορεί να ξεσπάσει επιδηµία.
• Η χολέρα είναι διαδεδοµένη στην Ασία.
• Τα πρώτα κρούσµατα παρατηρήθηκαν σε κεντρικές περιοχές του νησιού, στην κοιλάδα
Artibonite, µια εβδοµάδα µετά την έλευση Νεπαλέζων κυανόκρανων, κοντά στο
στρατόπεδό τους.
• Λύµµατα από το στρατόπεδο κατέληγαν σε γειτονικό ποταµό.
• Οι κάτοικοι κατηγόρησαν τον ΟΗΕ ότι
• οι κυανόκρανοι που ήρθαν να βοηθήσουν ευθύνονται για το ξέσπασµα της
επιδηµίας.
• ότι ο ΟΗΕ προσπάθησε να αποκρύψει το γεγονός και να µην αναλάβει τις ευθύνες
του
Ξέσπασαν ταραχές.
• Αλληλούχιση του γονιδιώµατος:

• 2 κλινικών στελεχών από την τωρινή επιδηµία στην Αϊτή.
• 1 κλινικό στέλεχος από την επιδηµία του 1991 στη Νότια Αµερική.
• 2 στέλεχη που αποµονώθηκαν στη Νότια Ασία το 2002 και 2008.
• Επίσης χρησιµοποιήθηκαν οι µερικές αλληλουχίες από 23 άλλα στελέχη ανά την

υφήλιο (τα τελευταία 98 χρόνια).
• 1588 συντηρηµένα ορθόλογα γονίδια χρησιµοποιήθηκαν από το κάθε στέλεχος,
για να γίνει το φυλογενετικό δένδρο.

Εξέλιξη αντιβιοτικών και τοξινών
Αλλαγές σε πρωτεϊνες που συνθέτουν αντιβιοτικά (NRPS)

Bacillus subtilis
Strain RB14: Iturin A
Strain ATCC6633: mycosubtillin
µυκητοκτόνα
Εξέλιξη αντιβιοτικών και τοξινών
Αλλαγές σε πρωτεϊνες που συνθέτουν

αντιβιοτικά (NRPS)
Bacillus subtilis
Strain RB14: Iturin A
Strain ATCC6633: mycosubtillin
Εφαρµογές
Ανίχνευση οργανισµών
-
Μεταγενωµική
Μεταγενωµική
•  Παράλληλη ανίχνευση όλων των οργανισµών (µικροβιακών) που απαρτίζουν την υπό
µελέτη οικολογική κοινότητα.
•  Υπάρχει προοπτική να χρησιµοποιηθεί για περιβαλλοντικές µελέτες/αναλύσεις/

παρακολούθηση (σε βάση ρουτίνας), όταν το κόστος αλληλούχισης (ή µικροσυστοιχιών)
µειωθεί περισσότερο.
•  Πλεονέκτηµα: Δεν χρειάζεται να καλλιεργηθούν

–  Κλινικά δείγµατα
–  Περιβαλλοντικά δείγµατα
Genome assembly
Metagenomics
•  Environmental Protection Agency (EPA)
•  The Clean Water Act: Fecal Source Identification.
•  Απόσπασµα από Microbial Source tracking guide Document (Ιούνιος 2005).
•  “The Clean Water Act establishes that the states must adopt water quality standards that are compatible with pollution
control programs to reduce pollutant discharges into waterways. In many cases the standards have been met by the
significant reduction of loads from point sources under the National Pollutant Discharge Elimination System
(NPDES). Point sources are defined as “any discernable, confined and discrete convey- ance, including but not limited
to any pipe, ditch or concentrated animal feeding operation from which pollutants are or may be discharged”.
However, more than 30 years after the Clean Water Act was implemented, a significant fraction of the U.S. rivers,
lakes, and estuaries continue to be classified as failing to meet their designated uses due to the high levels of fecal
bacteria (USEPA, 2000b). As a consequence, protection from fecal microbial
contamination is one of the most important and difficult challenges facing
environmental scientists trying to safeguard waters used for:
–  recreation (primary and secondary contact),
–  public water supplies,
–  propagation of fish and shellfish.
•  Fecally contaminated waters not only harbor pathogens and pose potential high risks to human
health, but they also result in significant economic loss due to closure of shellfish harvesting areas
and recreational beaches.”
Phylochip
•  Affymetrix
•  Μικροσυστοιχία που βασίζεται στον υβριδισµό κοµµατιών
DNA (από το περιβαλλοντικό δείγµα-µίγµα) πάνω σε
καθηλωµένα (στο chip) probes.
–  Probes βασίζονται σε RNA γονίδια.
•  RNA γονίδια αποτελούνται από βαθιά συντηρηµένες και
από λίγο συντηρηµένες περιοχές. Στον σχεδιασµό του
chip, επιλέγουµε την περιοχή ανάλογα µε το βαθµό
διαχωρισµού που επιθυµούµε
–  Βαθιά συντηρηµένες περιοχές για διαχωρισµό
µεταξύ εξελικτικά αποµακρυσµένων οργανισµών.
–  Υψηλά µεταβλητές περιοχές για διαχωρισµό µεταξύ
εξελικτικά κοντινών συγγενικών οργανισµών (π.χ.
Στελέχη ενός µικροβίου)
Phylochip
Fig. 1. Applied multiple probe
concept. 16S rRNA-based
phylogenetic consensus tree
of all recognized sulfate-
reducing bacteria of the
orders "Desulfobacterales"
and "Syntrophobacterales"
showing examplarily the
hierarchical and parallel
specificity of oligonucleotide
probes.
Phylochip
In vitro
διαγνωστικά τεστ
που βασίζονται σε
µικροσυστοιχίες
FDA: In Vitro Diagnostic Multivariate
Index Assays (IVDMIAs)
•  FDA’s In Vitro Diagnostic Product Database
•  http://www.accessdata.fda.gov/scripts/cdrh/cfdocs/cfivd/index.cfm
•  http://www.ivdtechnology.com/article/exploring-fda-approved-ivdmias
•  Some IVDMIAs are laboratory-developed tests (LDTs). LDTs are tests that are
developed by a single clinical laboratory for use only in that laboratory.
•  http://www.fda.gov/MedicalDevices/DeviceRegulationandGuidance/
GuidanceDocuments/ucm079148.htm
•  IVDMIAs raise significant issues of safety and effectiveness. These types of tests are
developed based on observed correlations between multivariate data and clinical
outcome, such that the clinical validity of the claims is not transparent to patients,
laboratorians, and clinicians who order these tests. Additionally, IVDMIAs frequently
have a high risk intended use. FDA is concerned that patients are relying upon
IVDMIAs with high risk intended uses to make critical healthcare decisions when FDA
has not ensured that the IVDMIA has been clinically validated and the healthcare
practitioners are unable to clinically validate the test themselves. Therefore, there is a
need for FDA to regulate these devices to ensure that the IVDMIA is safe and
effective for its intended use.
Mammaprint - Tissue of origin

•  MammaPrint.
The first IVDMIA, the MammaPrint system, made by Agendia Inc., is a
qualitative IVD test service performed in a single lab outside the United States
using a 70-gene expression profile of fresh frozen breast cancer tissue samples
to assess a breast cancer patientﾕs risk for distant metastasis. FDA approved
MammaPrint in February 2007 under de novo classification procedures.
•  Tissue of Origin Test

In July 2008, the Tissue of Origin Test, made by Pathwork Diagnostics, was
cleared. This microarray RNA profiling test is to be used on clinical, formalin-
fixed, paraffin-embedded (FFPE) biopsy tissue to aid in the classification of the
origin of the tumor tissue. In June 2010 a second clearance introduced a
different specimen and specimen-preparation method, and the algorithm for
analysis of the expression data to create a diagnostics report and interpretation.
The test uses microarray technology by Affymetrix Inc. and advanced analytics
to measure the gene-expression patterns of challenging tumors, including
metastatic, poorly differentiated, and undifferentiated cancer. It is intended to
measure the degree of similarity between the RNA expression patterns in a
patient’s tumor tissue with the RNA expression patterns in a database of fifteen
known tumor types.
Εφαρµογές στην Τοξικολογία
Εφαρµογές στην τοξικολογία/

τοξικογενωµική
•  Μέτρηση της γονιδιακής έκφρασης µετά από έκθεση σε τοξικό
παράγοντα µπορεί να δείξει τον µοριακό µηχανισµό δράσης του
παράγοντα.
•  Μπορεί να αποτελέσει µοναδική µοριακή υπογραφή του συγκεκριµένου
τοξικού παράγοντα, για µελλοντική ανίχνευσή του.
–  Οµαδοποίηση τοξικών παραγόντων µε κοινή δράση, µε βάση την οµοιότητα
των µοριακών προφιλ τους
Μοριακό προφίλ τοξικότητας
Μοριακό προφίλ τοξικότητας
Hierarchical cluster analysis showed a close association in gene expressional responses between aroclor 1254 and 3-
methylcholanthrene.
Environmental Protection
Agency (EPA)
•  http://www.epa.gov/osa/spc/pdfs/genomics.pdf
•  Genomics methodologies are expected to provide valuable insights for evaluating how
environmental stressors affect cellular/tissue functions and bow changes in gene expression may
relate to adverse effects.
•  However, the relationships between changes in gene expression and adverse effects are unclear at
this time and may likely be difficult to elucidate.
•  Nonetheless, EPA believes that some of these changes may prove to be predictive of subsequent
adverse effects. Changes in gene expression can be informative when a weight-of-evidence approach
for human and ecological health assessments is performed, particularly when used to explore the
possible link between exposure. mechanism(s) of action, and adverse effects. In addition, genomics
information may be useful to EPA in setting priorities, in ranking of chemicals for further testing, and
in supporting possible regulatory actions. While genomics data may be considered in decision-
making at this time, these data alone are insufficient as a basis for decisions. For assessment
purposes, EPA will consider genomics information on a case-by-case basis. Before such
information can be accepted and used, agency review will be needed to determine adequacy
regarding the quality, representativeness, and reproducibility of the data.
Βάσεις Δεδοµένων
Βάσεις Δεδοµένων: Εισαγωγή

Χρησιµοποιούνται για:
–  Oργάνωση
–  Αποθήκευση
–  Επεξεργασία
–  Αναζήτηση/επαναπόκτηση
της βιολογικής πληροφορίας
Κύρια είδη:
Επίπεδης οργάνωσης (Flat-files:) Το ποιό απλό είδος. Ουσιαστικά είναι

κατάλογοι
Σχεσιακές βάσεις. Πιο περίπλοκες και πλέον πολύ διαδεδοµένες . Π.χ.,

SQL. Η πληροφορία οργανώνεται σε πίνακες που σχετίζονται µεταξύ
τους. Έτσι αποφεύγεται η επανάληψη και συσσώρευση δεδοµένων
Αντικειµενοστρεφείς βάσεις κ.α.
Διακρίνονται κυρίως σε αρχειακές/πρωτεύοντες και δευτερεύοντες

Στις αρχειακές γίνεται κατάθεση δεδοµένων ενώ στις δευτερεύοντες τα
δεδοµένα είναι περαιτέρω επεξεργασµένα/σχολιασµένα/
αλληλοσυνδεδεµένα
Ετήσιος κατάλογος ΒΔ
•  Κάθε Ιανουάριο στο Nucleic
Acids Research (Special
database issue)
•  2010: 58 νέες και 73
ανανεωµένες
•  Σύνολο: 1230
•  5% ετήσια ανάπτυξη
•  Επίσης υπάρχει το
περιοδικό Database: the
journal of biological
databases and curation
Κατάλογος
µε ΒΔ:
Pathguide
•  http://www.pathguide.org/
Bionumbers
Βάσεις νουκλεοτιδικών δεδοµένων (ι)

•  Αρχειακές ΒΔ για νουκλεοτιδικές αλληλουχίες:
–  EMBL-BANK. European Nucleotide Archive (ENA), EBI. Hinxton, UK.
–  GENBANK. NCBI, NIH. Bethesda, USA
–  DNA databank of Japan (DDBJ). National institute of Genetics,.Mishima,
JP
•  Η ακολουθία κατατίθεται σε µία από τις ΒΔ, η οποία έχει και τη δυνατότητα να
την αναθεωρήσει (µόνο αυτή, για αποτροπή ‘συγκρούσεων’)
•  Και οι 3 ΒΔ ανήκουν στο International nucleotide sequence database collection

(INSDC). Κάθε µέρα ανταλλάσουν δεδοµένα. Η ίδια ακολουθία Χ3. Νέα έκδοση
ανά δίµινο.
•  Από το 2009, το INSDC ξεκίνησε να καταχωρεί και αµορφοποίητα δεδοµένα

από µεγάλης κλίµακας αλληλουχίσεις (Sequencing projects), είτε αυτά
προέρχονται από κλασσικές µεθόδους αλληλούχισης (Trace archive) (capillary
sequencing), είτε από µεθόδους αλληλούχισης 2ης γενιάς (Read Archive) (454,
Solexa, Solid, Helicos)
Βάσεις νουκλεοτιδικών δεδοµένων (ιι)
Πάνω από 100 Δις βάσεις στο INSDC. Σύντοµα αναµένεται πληθώρα προσωπικών γενωµάτων.
Εγείρονται προβληµατισµοί για την αποθήκευση όλων αυτών των δεδοµένων!

Βάσεις νουκλεοτιδικών δεδοµένων (ιιι)
2005: Ελλάδα: 2,7 ΜΒ USA: 7GB. Από DDBJ
Βάσεις νουκλεοτιδικών δεδοµένων (ιv)

Βάσεις νουκλεοτιδικών δεδοµένων.

EMBL format

EMBL format

FASTA format
Βάσεις πρωτεϊνικών δεδοµένων
•  Swissprot. 1987, Uni Geneva + SIB. Σχολιασµός των δεδοµένων από

επιστήµονες
•  TrEMBL. 1996. SIB + EBI. Αυτόµατη µετάφραση των ακολουθιών που
βρίσκονται στην EMBL. Δεδοµένα στην ίδια µορφή µε την Swissprot.
Μπορεί να είναι υποθετικές ή ο σχολιασµός να µην είναι εκτενής, όπως
στην Swissprot.
•  PIR. 1984, USA
•  UniProt. 2002. Ενώθηκαν οι παραπάνω βάσεις.
•  UniMes: για µεταγενωµικά δεδοµένα, όπου δεν γνωρίζουµε από ποιά είδη
προέρχονται οι ακολουθίες.
Swissprot (ι)
Swissprot (ι)
Swissprot (ιι)
Swissprot (ιιι)
Swissprot-statistics
ΒΔ γονιδιακής έκφρασης
•  ArrayExpress. EBI, UK. Δέχεται δεδοµένα από το

2002
•  Gene expression omnibus (GEO). NCBI, USA.
•  Κάθε εβδοµάδα το ArrayExpress ενσωµατώνει
δεδοµένα από το GEO.
•  Unigene (Expressed sequence tags)
•  Αν τα δεδοµένα προέρχονται από µικροσυστοιχίες,

τότε κατατίθενται µε τη µορφή MIAME (minimum
information about a microarray experiment).
•  Αν τα δεδοµένα προέρχονται από τεχνολογία
αλληλούχισης, τότε κατατίθενται µε τη µορφή
MINSEQE (minimum information about a high-
throughput sequencing experiment).
ΒΔ πρωτεοµικής
ΒΔ τρισδιάστατων δοµών
•  Protein Data Bank (PDB)

–  Πρωτεΐνες
–  Νουκλεϊκά οξέα
–  Σύµπλοκα των παραπάνω
•  Μέθοδοι
–  X-ray (~59000)
–  NMR (~8500)
–  Κρύο-ηλεκτρονική µικροσκοπία
(~300)
•  Οι παραπάνω µέθοδοι βρίσκουν τις
συντεταγµένες (3D) των ατόµων του
βιολογικού µορίου.
•  Τα αρχεία µε τις συντεταγµένες
διαβάζονται από ειδικά προγράµµατα
(π.χ Rasmol) που απεικονίζουν την
δοµή στο χώρο
Βάσεις τρισδιάστατων δοµών

•  CATH: κατηγοριοποιεί τις τρισδιάστατες δοµές των πρωτεϊνικών επικρατειών
ιεραρχικά, σε 4 βασικά επίπεδα.
•  Η κατηγοριοποίηση γίνεται µε ένα συνδυασµό αυτόµατων µεθόδων και
ανθρώπινης κρίσης.

Pubmed
•  ΒΔ του NCBI. Ξεκίνησε τον Ιανουάριο του 1996.
•  Καταχωρεί όλες τις δηµοσιευµένες εργασίες που προέρχονται από τον ευρύτερο
χώρο της βιοϊατρικής
•  ~20 εκατοµύρια εργασίες καταχωρηµένες (Ιούλιος 2010)
•  Όταν µια εργασία γίνεται δεκτή από το περιοδικό, κατατίθεται και στην Pubmed
•  H Pubmed δίνει ένα µοναδικό κωδικό εγγραφής (PMID) και λέξεις κλειδιά που
χαρακτηρίζουν το περιεχόµενο της εργασίας (MeSH terms).
•  Από το 2007, το NIH απαιτεί όποιες ερευνητικές εργασίες έχουν χρηµατοδοτηθεί
από αυτό, τα αποτελέσµατά τους να γίνονται προσβάσιµα σε όλους, µέσω του
Pubmed Central (εντός 12 µηνών από την ηµεροµηνία δηµοσίευσης). (~ 1
εκατοµύριο εργασίες)
Pubmed
Pubmed
Pubmed
ΒΔ πρωτεϊνικών επικρατειών
•  Πρωτεϊνική επικράτεια: Μια περιοχή της πρωτεΐνης µε συγκεκριµένη λειτουργία/
δοµή και καλά συντηρηµένη.
•  Διάφορες βάσεις δεδοµένων, όπως:
–  PROSITE
–  Pfam
–  PRINTS
–  ProDom
–  SMART
–  TIGRFAMs
–  PIR superfamily
–  Superfamily
•  Έχουν ενσωµατωθεί στο INTERPRO
•  Το INTERPRO περιέχει πρωτεϊνικές επικράτειες. Το πρόγραµµα
INTERPROscan ανιχνεύει αυτές τις επικράτειες στις πρωτεΐνες.
INTERPRO
NCBI/Entrez
ΕΒΙ
EBI: Μηχανή αναζήτησης EB-eye
Πρωτεϊνικές αλληλεπιδράσεις
Πρωτεϊνικές αλληλεπιδράσεις
Tab delimited format
Μεταβολικά µονοπάτια
KEGG pathways
•  Kyoto encyclopedia of genes and genomes
•  2010: 374 µεταβολικά µονοπάτια
KEGG pathways
ΒΔ για µαθηµατικά µοντέλα µοριακών

µονοπατιών
•  Biomodels. EBI. 2010: 249 ελεγµένα/σχολιασµένα µοντέλα
•  Αποθηκευµένα σε µορφή SBML (Systems Biology Markup Language)
Στοίχιση κατά ζεύγη
Στοίχιση ακολουθιών κατά

ζεύγη
(Pairwise alignment)
Στοίχιση κατά ζεύγη: Τι είναι

•  Αντιστοίχιση των νουκλεοτιδίων/αµινοξέων δυο ακολουθιών,
ώστε να εντοπιστούν οι οµοιότητες και οι διαφορές τους.
•  Χρησιµοποιείται για:
–  Εντοπισµό µεταλλάξεων
–  αναζήτηση οµόλογων γονιδίων/πρωτεϊνών σε βάσεις
δεδοµένων.
–  Συναρµολόγιση γενωµάτων.
–  Έλεγχος εξειδίκευσης εκκινητών (primers) για PCR.

•  Τοποθετούνται οι αντίστοιχοι χαρακτήρες ο ένας κάτω από τον
άλλο και µπορεί να γίνει χρήση κενών (gaps)
•  Δύο χαρακτήρες µπορεί να είναι:
–  Ίδιοι
–  Παρόµοιοι (κοινές φυσικοχηµικές ιδιότητες, π.χ. Ισολευκίνη -
βαλίνη)
–  Διαφορετικοί

•  Για δύο ακολουθίες µε 95% οµοιότητα, η στοίχιση µπορεί να
γίνει και µε το µάτι.
•  Τα διαθέσιµα προγράµµατα αγγίζουν τα όρια των δυνατοτήτων
τους όταν οι ακολουθίες έχουν 18-25% οµοιότητα (ζώνη του
λυκόφωτος)
Λίγη εξέλιξη: οµολογία

•  Οµόλογα γονίδια: κοινός εξελικτικός πρόγονος. Χιµαιρικές
πρωτεΐνες;
•  Ορθόλογα γονίδια: προέρχονται από ειδογένεση. Ουσιαστικά,

ένα γονίδιο α (µεταλλαγµένο) σε δύο διαφορετικούς
οργανισµούς. Συχνά έχουν την ίδια λειτουργία
•  Παράλογα γονίδια: προέρχονται από γονιδιακό διπλασιασµό.

Ανήκουν στην ίδια οικογένεια
•  Ξενόλογα γονίδια: από οριζόντια µεταφορά
•  Παράδειγµα µε Πυρηνικούς υποδοχείς

Λίγη εξέλιξη: οµολογία (ιι)
•  Γονίδια του ίδιου χρώµατος από

διαφορετικούς οργανισµούς είναι
ορθόλογα.
•  Το κόκκινο και το κίτρινο από ένα
οργανισµό είναι παράλογα.
•  Το κόκκινο από ένα οργανισµό και το
κίτρινο από ένα άλλο οργανισµό είναι
έξτρα-παράλογα
Βασικότερα είδη µεταλλάξεων

•  Μεταλλάξεις σηµείου (point mutations)
–  Συνώνυµες (synonymous)
–  Μη-συνώνυµες (non-synonymous)
•  Αµινοξέα µε παρόµοιες φυσικοχηµικές ιδιότητες
•  Αµινοξέα µε διαφορετικές φυσικοχηµικές ιδιότητες
–  Κωδικόνια τερµατισµού
Μεταπτώσεις-µεταστροφές
•  Μεταπτώσεις (Transitions)
–  Δηµιουργούνται µε
µεγαλύτερη συχνότητα
–  Συνήθως οδηγούν σε
συνώνυµες µεταλλάξεις
–  Eίναι πιο συχνές στα
SNPs
Κατηγοριοποίηση αµινοξέων

•  Δοµικές Αναδιατάξεις
–  Προσθήκες/απαλείψεις (insertions/deletions)
–  Αναστροφές
–  Διπλασιασµοί

(ιι)
•  Αναδιάταξη αυτόνοµων λειτουργικών περιοχών µιας πρωτεΐνης
(domain rearrangements)
Όλες οι περιοχές µιας πρωτεΐνης δεν

µεταλλάσονται µε τον ίδιο ρυθµό
•  Αυτόνοµες λειτουργικές περιοχές (domains): πολύ
συντηρηµένες
•  Περιοχές ενδογενούς δοµικής αστάθειας (intrinsically disordered

regions). Π.χ, ευέλικτες συνδετικές περιοχές (flexible linkers).
–  Μεταβαλλόµενο µήκος και περιεκτικότητα αµινοξέων, µε
παρόµοιες όµως φυσικοχηµικές ιδιότητες.
–  Μεταλλάσονται γρήγορα. Το εξελικτικό σήµα µπορεί να χαθεί
σύντοµα
–  Συχνά δεν υπάρχει περιορισµός θέσης (π.χ φωσφορυλίωση)
Γλοβίνες
•  πολύ συντηρηµένη τριτοταγής δοµή, λίγο συντηρηµένη
πρωτοταγής δοµή (~10-20% οµοιότητα)
Είδη στοίχισης κατά ζεύγη (ι)

•  Ολική στοίχιση (global alignment)
–  Προσπαθεί να στοιχίσει όσο το δυνατό περισσότερους
χαρακτήρες σε ΟΛΟ το µήκος των δύο αλληλουχιών
–  Για ακολουθίες που δεν έχουν αποκλείνει σε µεγάλο βαθµό
και επίσης έχουν παρόµοιο µέγεθος
–  Κλασσική µέθοδος: Needleman-Wunsch.
•  Βασίζεται στον δυναµικό προγραµµατισµό
Eίδη στοίχισης κατά ζεύγη (ιι)

•  Τοπική στοίχιση (local alignment)
–  Νησίδες στοίχισης.
–  Για ακολουθίες που έχουν αποκλείνει αρκετά και έχουν
αποµείνει συντηρηµένες µόνο κάποιες περιοχές (domains)
–  Για αντιστοίχιση mRNA µε γενωµικό DNA
–  Κλασσικές µέθοδοι:
•  Smith-Waterman (δυναµικός προγραµµατισµός)
•  Blast (ευρετικές µέθοδοι-heuristics)
Eίδη στοίχισης κατά ζεύγη

•  Στοίχιση αλληλεπικάλυψης (overlap ή ends-free alignment) για
συναρµολόγηση γονιδιώµατος από µικρά αλληλεπικαλυπτόµενα
κοµµάτια DNA
Eίδη στοίχισης κατά ζεύγη (ιιι)

Στιγµοπίνακες (dotplots)
•  Εισήχθησαν από τους Gibbs & McIntyre το 1970.
•  Χρησιµοποιούνται για σύγκριση 2 ακολουθιών (π.χ.
Πρωτεϊνών ή DNA).
•  Αποκαλύπτουν
–  Προσθήκες - Εξαλείψεις
–  Ευθείες ή ανεστραµµένες επαναλήψεις (π.χ χρήσιµοι για
RNA)
–  Περιοχές χαµηλής πολυπλοκότητας
–  Αναστροφές
•  Διάφορα προγράµµατα (π.χ Dotlet)
•  Σε ένα βαθµό, εισέρχεται η υποκειµενικότητα στην ερµηνεία

των αποτελεσµάτων.
Στιγµοπίνακες
Στιγµοπίνακες - Θόρυβος
Στιγµοπίνακες -
Απαλοιφή Θορύβου µε συρόµενα παράθυρα
•  Απαλοιφή
θορύβου µε
συρόµενα
παράθυρα
•  Ο Mount προτείνει:
–  Για DNA:
παράθυρο 15
χαρακτήρων µε
τουλάχιστον 10
αντιστοιχίσεις
–  Για πρωτεΐνες:
παράθυρο 2-3
χαρακτήρων µε
τουλάχιστον 2
αντιστοιχίσεις
insertion - deletions
•  Insertions/deletions (indels)
Στιγµοπίνακες - Αναστροφές
Επαναλήψεις
•  Επαναλήψεις
Επαναλήψεις
Περιοχές χαµηλής
πολυπλοκότητας
•  Επαναλήψεις - Περιοχές χαµηλής πολυπλοκότητας
Ανεστραµµένες Επαναλήψεις
•  Ανεστραµµένες επαναλήψεις
•  Αν συγκρίνουµε 2 πρωτεΐνες που έχουν αποκλίνει αρκετά, αντί να
ελέγξουµε για ακριβές ταίριασµα των αµινοξέων, µπορούµε να
ελέγξουµε για ταίριασµα αµινοξέων µε παρόµοιες φυσικοχηµικές
ιδιότητες.
•  Χρησιµοποιούµε πίνακες αντικατάστασης (π.χ. PAM, Blosum)
•  Για το συρόµενο παράθυρο υπολογίζεται ένα σκορ µε βάση τους
χρησιµοποιούµενους πίνακες αντικατάστασης.
Δυναµικός προγραµµατισµός
•  Δίνει την βέλτιστη στοίχιση (Μαθηµατικά αποδεδειγµένο).
•  Και για ολικές και για τοπικές στοιχίσεις.
•  Η στοίχιση εξαρτάται από το βαθµολογικό σύστηµα που

εφαρµόζεται.
•  Το βαθµολογικό σύστηµα πρέπει:
–  Να δίνει βαθµούς για κάθε θέση που οι χαρακτήρες
ταιριάζουν απόλυτα
–  Να δίνει βαθµούς (λιγότερους) για κάθε θέση που οι
χαρακτήρες έχουν παρόµοιες ιδιότητες
–  Να µην δίνει βαθµούς για µια θέση που οι χαρακτήρες είναι
τελείως διαφορετικοί
–  Να βάζει ποινή για κάθε κενό που εισάγεται
–  Να βάζει ποινή (µικρότερη) για κάθε κενό που επεκτείνεται
Το βαθµολογικό σύστηµα
Δ.Π. Ολική στοίχιση παράδειγµα (i)

Δ.Π. Ολική στοίχιση παράδειγµα (ii)

Εκκίνηση του πίνακα
Δ.Π. Ολική στοίχιση παράδειγµα (iii)

Συµπλήρωση πίνακα
Δ.Π. Ολική στοίχιση παράδειγµα (iv)

ιχνηλάτηση
Δ.Π. Ολική στοίχιση παράδειγµα (v)

συµπλήρωση
Δ.Π. Ολική στοίχιση παράδειγµα (vi)

συµπλήρωση
Ολική στοίχιση: ιχνηλάτιση
Πρέπει να βρούµε όλες τις δυνατές πορείες από κάτω-δεξιά -> πάνω-αριστερά.
Εδώ: 3 πιθανές πορείες = 3 εξίσου καλές λύσεις
Πώς στοιχίζουµε
Για κάθε θέση:
•  Αν κινηθούµε διαγώνια, τότε στοιχίζουµε τα 2 νουκλεοτίδια/
αµινοξέα που αντιστοιχούν για εκείνη την θέση (είτε ταιριάζουν
είτε όχι).
•  Αν κινηθούµε οριζόντια ή κάθετα βάζουµε κενό στην ακολουθία
που δείχνει το βέλος
τοπική στοίχιση
•  Ενδείκνυται για
–  µακροµόρια διαφορετικού µεγέθους
–  Συντηρηµένη µόνο µια µικρή περιοχή
–  Στοίχιση ώριµου mRNA µε το γονίδιό του
–  2 γονίδια µε συντηρηµένα εξόνια αλλά
αποκλείνοντα ιντρόνια
•  Αλγόριθµος Smith-Waterman (1981)

τοπική στοίχιση
•  Αλγόριθµος παρόµοιος µε ολική στοίχιση
•  Διαφορές:
–  Οι ασυµφωνίες δίνουν αρνητική βαθµολογία.
–  Όταν µια τιµή του πίνακα βγαίνει αρνητική, µηδενίζεται.
Δ.Π τοπική στοίχιση

παράδειγµα (i)

παράδειγµα (ii)

παράδειγµα (iii)
παράδειγµα (iv)

παράδειγµα (v)
Πίνακες αντικατάστασης
•  Στο παράδειγµα του Δυναµικού Προγραµµατισµού, όλες οι
συµφωνίες/ασυµφωνίες είχαν το ίδιο σκορ.
•  Στην πράξη, πιο περίπλοκα συστήµατα βαθµολόγισης. Μια

ασυµφωνία µεταξύ δύο πουρινών δεν είναι το ίδιο µε µια
ασυµφωνία µεταξύ πουρίνης-πυριµιδίνης. Διαφορετικές
συχνότητες µεταλλάξεων.
•  Το ίδιο και για τις πρωτεΐνες.
•  Χρειαζόµαστε πίνακες που βασίζονται σε συγκεκριµµένα

εξελικτικά µοντέλα και λαµβάνουν υπόψην την συχνότητα του
κάθε χαρακτήρα
•  Για πρωτεΐνες:
–  Πίνακες PAM
–  Πίνακες BLOSUM
Μεγαλύτερη πιθανότητα αντικατάστασης µεταξύ αµινοξέων µε

παρόµοιες φυσικοχηµικές ιδιότητες, (συντηρητικές
αντικαταστάσεις).
Λογαριθµικές πιθανότητες
•  Πρώτη χρήση από Dayhoff για πίνακες αντικατάστασης που
χρησιµοποιούνται στη βαθµολόγιση στοιχίσεων.
•  Βαθµολογία αντικατάστασης ~ log(συχνότητα στόχων / συχνότητα

υποβάθρου)
•  Συχνότητα στόχων: παρατηρηθείσες συχνότητες αντικατάστασης σε

στοιχίσεις υπαρκτών και οµόλογων πρωτεΐνών. Χρησιµοποιούµε
στοιχίσεις που έγιναν µε το ‘µάτι’ και είµαστε σίγουροι ότι είναι σωστές.
•  Συχνότητα υποβάθρου: προκύπτει από τις συνολικές συχνότητες των

αµινοξέων στις πρωτεΐνες. Υποθέτουµε ότι δεν υπάρχει εξελικτική
πίεση στις αντικαταστάσεις.
Συχνότητα αµινοξέων
από Swissprot
Πίνακες PAM
•  Dayhoff et al., 1978
•  PAM -> Percent Accepted Mutations
•  Βασίστηκε σε 1572 αποδεκτές

αντικαταστάσεις από 71 groups
εξελικτικά ‘κοντινών’ οµόλογων
ακολουθιών.
•  1 PAM -> µονάδα εξελικτικής

απόκλισης, όπου 1% των αµινοξέων
έχει αλλάξει.
Ανοµοιογενής ρυθµός εξέλιξης για τις οικογένειες πρωτεϊνών. Άρα, 1

PAM σηµαίνει διαφορετικό χρόνο εξέλιξης για την κάθε οικογένεια.
Για 250 µονάδες PAM, θα υπάρχει απόκλιση 100% µεταξύ δύο

οµόλογων ακολουθιών;
Πίνακες PAM (ii)

•  Όχι. Απόκλιση ~80%.
•  Μερικές θέσεις µπορεί να έχουν υποστεί περισσότερες από µία

αντικαταστάσεις, ή ακόµα και να έχουν επανέλθει στο αρχικό αµινοξύ!
•  Το κάθε αµινοξύ θα έχει αποκλίνει σε διαφορετικό βαθµό. Π.χ.

αµετάβλητες θα παραµείνουν 55% Trp, 6% Asn.
Πίνακες PAM (iii)

•  Θετική τιµή στον πίνακα,
µεταξύ δύο αµινοξέων ->
πιο πιθανό να
συναντήσουµε αυτό το
ζεύγος σε µια στοίχιση
µεταξύ οµόλογων
ακολουθιών
•  Αρνητική τιµή στον

πίνακα, µεταξύ δύο
αµινοξέων -> πιο απίθανο
να συναντήσουµε αυτό το
ζεύγος σε µια στοίχιση
µεταξύ οµόλογων
•  Ζεύγη αµινοξέων µε
παρόµοιες ιδιότητες έχουν
θετικές τιµές log-odds
Πίνακες PAM (iv)

•  Στις στοιχίσεις χρησιµοποιήθηκαν ακολουθίες που είχαν αποκλείνει
πολύ λίγο µεταξύ τους (απόσταση 1 PAM).
•  Αναγωγή σε απόσταση 250 PAM (Πίνακας PAM250).

Πολλαπλασιάστηκε ο PAM1 Χ 250 φορές µε τον εαυτό του
•  Σειρά πινάκων. Εµπειρικά προτάθηκε για γενική χρήση ο PAM250
•  Όσο µεγαλώνει το νούµερο, µεγαλώνει και η εξελικτική απόσταση.
•  Για στοίχιση ακολουθιών µε µικρή εξελικτική απόσταση,

χρησιµοποιούµε πίνακες PAM µε µικρά νούµερα.
•  Οι πίνακες PAM δηµιουργήθηκαν από ακολουθίες µε µικρή εξελικτική

απόσταση και εποµένως είναι προτιµότερο να χρησιµοποιούνται για
στοίχιση ‘κοντινών’ ακολουθιών
Πίνακες PAM (iv)

•  Εγγενείς ατέλειες:
–  Δεν λαµβάνεται υπόψην ο διαφορετικός βαθµός συντήρησης

των περιοχών µιας πρωτεΐνης.
–  Κάθε αντικατάσταση θεωρείται:

•  ανεξάρτητη από προηγούµενες αντικαταστάσεις στην
ίδια θέση.
•  Ανεξάρτητη από τα γειτονικά αµινοξέα
Πίνακες BLOSUM
•  BLOcks SUbstitution Matrix
•  Henikoff & Henikoff, 1992.
•  Χρησιµοποίησαν τοπικές πολλαπλές στοιχίσεις από συντηρηµένες

περιοχές εξελικτικά αποµακρυσµένων ακολουθιών (Β.Δ BLOCKS).
•  Και εδώ σειρά πινάκων µε διαφορετικά νούµερα.
•  BLOSUM62 : Ακολουθίες µε οµοιότητα 62% και παραπάνω

οµαδοποιούνται.
•  Δεν κάνουν αναγωγές στην εξελικτική απόσταση σε αντίθεση µε τις

PAM.
Βασικές διαφορές µεταξύ

PAM-BLOSUM
•  Ο κάθε πίνακας BLOSUM δηµιουργείται από πραγµατικά δεδοµένα και
όχι από αναγωγή ενός αρχικού πίνακα.
•  Οι PAM δηµιουργήθηκαν από ολική στοίχιση, ενώ οι BLOSUM από

τοπική στοίχιση καλά συντηρηµένων περιοχών.
νουκλεοτιδίων
•  Μοντέλο Jukes-Cantor: Ενιαίοι ρυθµοί µετάλλαξης
•  Μοντέλο Kimura: µεταπτώσεις (transitions) ποιό πιθανές από

µεταστροφές (transversions)
Βαθµολόγιση Κενών
•  Γραµµική ποινή για τα κενά (affine gap penalty)
–  Μια πολύ υψηλή τιµή για την εισαγωγή ενός κενού και
χαµηλότερη τιµή για την επέκταση του κενού
•  Επιλογή παραµέτρων εµπειρική!

•  Θεωρείται σπάνιο γεγονός η εισαγωγή κενού, όταν όµως
συµβαίνει, η επεκτασή του δεν είναι τόσο σπάνια
–  Π.χ. Για BLOSUM62: εισαγωγή κενού -> Ποινή 10-15.
Επέκταση κενού -> ποινή 1-2
Βαθµολόγιση µιας στοίχισης

µε πίνακα αντικατάστασης και
affine gap penalty
Οδηγίες χρήσης πινάκων

•  Για οδηγίες χρήσης:
–  http://www.ebi.ac.uk/help/matrix.html
Στατιστική σηµαντικότητα µιας

στοίχισης κατά ζεύγη
•  Περισσότερες πληροφορίες στο:
http://www.ncbi.nlm.nih.gov/BLAST/tutorial/Altschul-1.html
•  Στατιστική σηµαντικότητα µιας στοίχισης πρακτικά σηµαίνει ότι

οι δύο ακολουθίες είναι οµόλογες (κοινή εξελικτική προέλευση)
Στατιστική σηµαντικότητα
ολικής στοίχισης (i)
•  Δεν µπορούµε να γνωρίζουµε την κατανοµή τυχαίων
τιµών µιας ολικής στοίχισης τυχαία επιλεγµένων (µη
οµόλογων) ακολουθιών.
•  Για κάθε στοίχιση, µπορούµε να πάρουµε την µια

ακολουθία και να την ανακατέψουµε πολλές φορές
(προσοµοίωση). Έτσι διατηρείται η συχνότητα των
αµινοξέων στην ακολουθία.
•  Για το κάθε ανακάτεµα, υπολογίζουµε τη βαθµολογία

της στοίχισης του τυχαίου ζεύγους.
•  Θα ήταν λάθος να υποθέσουµε ότι η υπολογισµένη µε

προσοµοιώσεις κατανοµή τυχαίων τιµών είναι
κανονική. Ζ-score δεν µπορεί να µετατραπεί σε P-
value
ολικής στοίχισης (ii)
•  Αν πραγµατοποιηθεί το ανακάτεµα 100 φορές και η µέγιστη

βαθµολογία στοίχισης δεν υπερβαίνει την βαθµολογία που
παρατηρήσαµε για την στοίχιση των 2 πραγµατικών
ακολουθιών, τότε η στοίχιση είναι στατιστικά σηµαντική σε
επίπεδο P-value < 0.01
•  Μεγάλο υπολογιστικό κόστος
•  Χρησιµοποιείται για ολικές στοιχίσεις,εντούτοις δεν ενδείκνυται η

ολική στοίχιση για να αποφασίσουµε αν δύο ακολουθίες είναι
οµόλογες
τοπικής στοίχισης (i)
•  Για τοπικές στοιχίσεις χωρίς κενά:
–  αναλυτική µαθηµατική θεωρία
κατανοµής τυχαίων βαθµολογιών.
–  Κατανοµή ακραίων τιµών (Extreme
value distribution - Gumbel).
•  Γιατί όχι κανονική κατανοµή;

–  Γιατί σε µια οµοπαράθεση δύο
ακολουθιών χρησιµοποιούµε µόνο την
βέλτιστη από όλες τις δυνατές
στοιχίσεις
τοπικής στοίχισης (ii)
Κατανοµή ακραίων τιµών Gumbel
–  Οι παράµετροι της κατανοµής πρέπει να προσαρµοστούν:
•  στο σύστηµα βαθµολόγισης
•  Στα µήκη των δύο ακολουθιών
•  στις συχνότητες υποβάθρου των νουκλεοτιδίων/
αµινοξέων
Για τοπικές στοιχίσεις µε κενά, δεν υπάρχει αναλυτική

µαθηµατική θεωρία, έχουν όµως αναπτυχθεί µέθοδοι
υπολογισµού.
τοπικής στοίχισης (iii)
•  Για µια δεδοµένη τοπική στοίχιση (χωρίς κενά) δύο ακολουθιών µε
score S, πόσες τυχαίες στοιχίσεις θα µπορούσαν να δώσουν το ίδιο
score ή καλύτερο;
•  E = Kmne-λS (E-value)
•  m,n µήκη των ακολουθιών
•  S score στοίχισης
•  Κ, λ εξαρτώνται από τη συχνότητα νουκλεοτιδίων/αµινοξέων και το
σύστηµα βαθµολόγισης.
•  Τι σηµαίνει για µια στοίχιση, E-value = 1;
•  Συνήθως η σηµαντικότητα ορίζεται: E-value < 10e-4
τοπικής στοίχισης (iv)
•  Το raw score µιας τοπικής στοίχισης εξαρτάται από το
βαθµολογικό σύστηµα που χρησιµοποιήθηκε.
•  Χρειάζεται να κανονικοποιηθεί (normalization). Είναι σαν

να µιλάµε για απόσταση χωρίς να διευκρινίζουµε αν είναι
σε µέτρα ή πόδια.
•  Bit score S΄ είναι το κανονικοποιηµένο raw score.
•  To E-value για το κανονικοποιηµένο score (bit score)

Αναζήτηση οµόλογων ακολουθιών σε

βάσεις δεδοµένων (i)
•  Οµόλογες ακολουθίες πιθανόν να έχουν παρόµοιες λειτουργίες.
•  Ακολουθία επερώτησης (query sequence)

•  Υποκείµενες ακολουθίες στην βάση δεδοµένων (subject sequences).
•  1 ακολουθία Χ Β.Δ
•  Ν ακολουθίες Χ Β.Δ
•  Αναζήτηση µε δυναµικό προγραµµατισµό: Smith-Waterman, SSearch
•  Ευρετικοί αλγόριθµοι για ανίχνευση οµόλογων ακολουθιών.

–  FASTA
–  BLAST
•  50 φορές γρηγορότεροι από δυναµικό προγραµµατισµό, αλλά ενδέχεται:
–  να µην εντοπίσουν κάποιες ‘αποµακρυσµένες’ οµόλογες ακολουθίες.
–  να µη γίνει η βέλτιστη στοίχιση

βάσεις δεδοµένων (ii)
•  Για κάθε στοίχιση µιας ακολουθίας Α µε ακολουθίες από την Β.Δ.,
υπολογίζεται µια βαθµολογία S και κανονικοποιείται (bit score).
•  Για µια αναζήτηση σε Β.Δ. γίνονται πολλές στοιχίσεις. Αυτό πρέπει

να ληφθεί υπόψην στον υπολογισµό της στατιστικής
σηµαντικότητας (multiple testing correction).
•  Διορθωµένο E-value = E-value X N

•  (N=αριθµός ακολουθιών στην Β.Δ.)
•  Υπάρχουν παραλλαγές του τρόπου υπολογισµού της στατιστικής

σηµαντικότητας, για το κάθε πρόγραµµα.
•  Διαφορετικός υπολογισµός µεταξύ FASTA - BLAST.

Αλγόριθµος FASTA
•  Ktuples: λέξεις µήκους κ που ταιριάζουν απόλυτα µεταξύ των
•  Για πρωτεΐνες:
–  Ktup 1-2. (20 αµινοξέα)
•  Για DNA:
–  Ktup 4-6. (µόνο 4 νουκλεοτίδια)
Αλγόριθµος FASTA: εν
συντοµία
•  Ο αλγόριθµος ψάχνει γρήγορα για µικρές περιοχές µε µεγάλη
οµοιότητα.
•  Αν εντοπίσει τέτοιες περιοχές, προσπαθεί να βελτιώσει την

στοίχιση τοπικά.
•  Αν η γρήγορη τοπική στοίχιση ξεπεράσει κάποια οριακή τιµή,

τότε γίνεται κανονική τοπική στοίχιση Smith-Waterman
Αλγόριθµος BLAST
http://www.ncbi.nlm.nih.gov/bookshelf/br.fcgi?book=comgen&part=blast
•  words: λέξεις µήκους W που

–  δεν απαιτείται να ταιριάζουν απόλυτα µεταξύ των πρωτεϊνικών
–  πρέπει να ταιριάζουν απόλυτα µεταξύ των νουκλεοτιδικών
•  Πρωτεΐνες: w=3
•  Νουκλεϊκά οξέα: w=11
•  E-value
–  Default: 10 (για να µη χαθούν οµόλογες ακολουθίες)
–  Συνήθως E-value < 1e-3 (για να αποµείνουν οµόλογες ακολουθίες
υψηλής εµπιστοσύνης)
•  PQG
•  20 X 20 X 20 = 8.000 words
•  PQG X 8.000 words
•  PQG X PEG = 7 + 2 + 6=15
•  Όριο τιµής Τ
Περιοχές χαµηλής πολυπλοκότητας

•  Low complexity regions
(i)
•  Επαναλήψεις:
–  poly-A tails
–  Poly-proline tracts
•  Tandem repeats:
KTPKTPKTPKTPKTP
•  Interspersed repeats:
KTPAKTPKTPKTP
•  Προκύπτουν από λάθη:

–  Στην µιτωτική αντιγραφή (mitotic
replication slippage)
–  Στον µειωτικό ανασυνδυασµό
Περιοχές χαµηλής πολυπλοκότητας

(ii)
•  2 µη οµόλογες ακολουθίες.
•  Μεταλλάξεις στην ακολουθία 1.
•  Μεταλλάξεις στην ακολουθία 2.
•  Αν δεν φιλτραριστούν οι περιοχές

χαµηλής πολυπλοκότητας:
–  Η στοίχιση θα δείξει οµολογία
Φιλτράρισµα περιοχών χαµηλής

πολυπλοκότητας
•  Φιλτράρισµα (masking)
•  Και για BLAST και για FASTA.
•  Φιλτράρεται η ακολουθία
επερώτησης µόνο.
•  Χ για πρωτεΐνες και Ν για

νουκλεϊκά οξέα (ή µικρά
γράµµατα)
•  Φίλτρα του Blast:

–  Dust: νουκλεοτίδια
–  Seg: πρωτεΐνες
•  Άλλες ακολουθίες που µπορεί να φιλτράρονται:

–  Επαναλήψεις Alu
–  Φορείς κλωνοποίησης
–  Διαµεµβρανικές περιοχές
–  Coiled-coils
Blast
Blast
Blast
Blast
Blast
Blast
Blastn / MegaBlast
•  Blastn
–  Νουκλεοτίδια
Χ νουκλεοτίδια
–  Για στοίχιση
tRNA, rRNA,
mRNA,
γενωµικό DNA
Blast
MegaBlast
•  MegaBlast
–  10Χ ταχύτερο από Blastn
–  Για στοίχιση ακολουθιών που διαφέρουν πολύ λίγο µεταξύ τους
–  Κυρίως για στοίχιση mRNA µε ολόκληρο το γενωµικό DNA
Blast
Blastn
Παράδειγµα: Έλεγχος εξειδίκευσης ζεύγους εκκινητών (primers)
Blast
Blastn
Παράδειγµα: Eντοπισµός SNPs σε ακολουθίες του ιού HIV-1 για
ανθεκτικότητα σε φάρµακα
Blast
Blastp
•  Πρωτεΐνη Χ πρωτεΐνες
•  Παράδειγµα:
–  Πρόβλεψη λειτουργίας µιας άγνωστης πρωτεΐνης.
–  Εντοπισµός ορθόλογης πρωτεΐνης σε άλλα είδη.
–  Εντοπισµός όλων των µελών της πρωτεϊνικής οικογένειας
στο ίδιο ή σε άλλα είδη
Blast
Translated Blast
•  Η νουκλεοτιδική ακολουθία ενός γονιδίου εµφανίζεται λιγότερο
συντηρηµένη από την αµινοξική ακολουθία της πρωτεΐνης του.
•  Πιο ευαίσθητες µέθοδοι από Blastn για ανίχνευση οµόλογων

περιοχών (για περιοχές που κωδικοποιούν πρωτεΐνες).
•  Μετάφραση µε συγκεκριµµένο γενετικό κώδικα

–  ακολουθίας επερώτησης (query sequence)
–  ακολουθιών στην Β.Δ.
–  και των δύο ταυτόχρονα
Blast
tblastn
Πρωτεΐνη (query) X Β.Δ.

νουκλεοτιδικών ακολουθιών
µεταφρασµένων και στα 6
αναγνωστικά πλαίσια.
Blast
tblastn
•  Χρήση
–  Η Β.Δ. περιέχει νουκλεοτιδικές ακολουθίες µε άγνωστη λειτουργία
(συλλογή ESTs ή αµορφοποίητα δεδοµένα από την αλληλούχιση
ενός γενώµατος) ενός οργανισµού Α και θέλουµε να εντοπίσουµε
µια πρωτεΐνη µε συγκεκριµµένη λειτουργία στον οργανισµό Α. Ως
ακολουθία επερώτησης χρησιµοποιούµε την πρωτεΐνη που είναι
γνωστή στον οργανισµό Β.
•  Αντιµετωπίζει το πρόβληµα λαθών στην αλληλούχιση, που θα

µπορούσε να καταστρέψει το αναγνωστικό πλαίσιο.
Blast
Blastx
•  Νουκλεοτιδική ακολουθία επερώτησης (query) που µεταφράζεται στα 6
αναγνωστικά πλαίσια και συγκρίνεται µε Β.Δ. πρωτεϊνικών ακολουθιών.
Blast
Blastx
•  Παράδειγµα: εντοπισµός µετάλλαξης που αλλάζει το αναγνωστικό πλαίσιο.
–  Στο παράδειγµα, υπάρχει αλλαγή αναγνωστικού πλαισίου (frame +2 -> frame
+1) στη θέση 268 της πρωτεΐνης επερώτησης
Blast
tblastx
•  Νουκλεοτιδική ακολουθία
επερώτησης (query) που
µεταφράζεται στα 6
αναγνωστικά πλαίσια και
συγκρίνεται µε Β.Δ.
νουκλεοτιδικών ακολουθιών
µεταφρασµένων και στα 6
αναγνωστικά πλαίσια.
•  6X6 blastp
Blast
tblastx
•  Αναζήτηση (διαειδική) για άγνωστα µέχρι σήµερα γονίδια.
Blast
Blast και φυλογένεση

Blast
Επαλήθευση οµολογίας µέσω

ενδιάµεσων ακολουθιών
•  Έστω 2 ακολουθίες Α και Β είναι οµόλογες και στοιχίζονται σε όλο
το µήκος τους.
•  Αν µια ακολουθία Γ είναι οµόλογη µε τη Β, τότε θα είναι οµόλογη

και µε την Α, έστω και εάν δεν παρατηρούµε στατιστικά σηµαντική
στοίχιση µεταξύ της Α και της Γ
Επαλήθευση οµολογίας µέσω

ενδιάµεσων ακολουθιών
2 ακολουθίες Α και Β είναι οµόλογες αλλά ΔΕΝ στοιχίζονται σε όλο το
µήκος τους.
Η Β είναι επίσης οµόλογη µε την Γ.
Η Α είναι οµόλογη µε την Γ;
Γ
PSI-Blast
PSI-Blast
PSI-Blast: τι είναι
•  PSI-Blast: Position-specific iterated Blast
•  Position specific scoring matrices (PSSMs) (Πίνακες αντικατάστασης θέσης)
•  Altschul et al., 1997

•  http://www.ncbi.nlm.nih.gov/pmc/articles/PMC146917/pdf/253389.pdf
•  Η αναζήτηση µακρινών οµολόγων σε Β.Δ. είναι πιο ευαίσθητη µε τη χρήση

αυτών των πινάκων.
•  Για οµόλογες ακολουθίες το PSI-Blast βρίσκει µέχρι και 3 φορές

περισσότερες µακρινές οµόλογες ακολουθίες (οµοιότητα < 30%) σε σχέση µε
το Blastp.
PSI-Blast
PSI-Blast: τι είναι
•  Σε µια ακολουθία οι διάφορες θέσεις δεν είναι το ίδιο συντηρηµένες/ευέλικτες
λόγω δοµικών/λειτουργικών περιορισµών.
•  Χρησιµοποιώντας οµόλογες ακολουθίες από τον ίδιο ή άλλους οργανισµούς

κατανοούµε την ευελιξία κάθε θέσης µιας ακολουθίας.
•  Π.χ. Σε µια ακολουθία Α, στην θέση 123 (ενεργό κέντρο ενζύµου) βλέπουµε ένα
µόνο αµινοξύ.
•  Σε µια πολλαπλή στοίχιση της Α µε οµόλογες ακολουθίες βλέπουµε για την ίδια
θέση (123) ποιά άλλα αµινοξέα επιτρέπονται και σε τί συχνότητες.
•  Το PSSM χρησιµοποιεί αυτή την πληροφορία για να αναζητήσει µακρινά

οµόλογα σε µια Β.Δ.
PSI-Blast
PSSM
•  Αρχικά γίνεται πολλαπλή στοίχιση των ακολουθιών
•  Στη συνέχεια, για ακολουθία µήκους L δηµιουργείται πίνακας:

–  L X 4 (nucleotides)
–  L X 20 (proteins)
PSI-Blast
PSSM
•  Γίνεται καταµέτρηση των συχνοτήτων των χαρακτήρων για την
κάθε θέση.
PSI-Blast
PSSM
•  Ακολουθεί µια σειρά µετασχηµατισµών
–  Συντελεστής βαρύτητας της κάθε ακολουθίας µε βάση την οµοιότητά της
µε άλλες.
–  Pseudocounts
–  Λαµβάνεται υπόψην η συχνότητα υποβάθρου του κάθε χαρακτήρα
•  Υπολογισµός των odds (παρατηρούµενη συχνότητα / συχνότητα
υποβάθρου).
–  Log-odds
•  Ο πίνακας αυτός χρησιµοποιείται για τοπική στοίχιση µε ακολουθίες σε µια

Β.Δ. (αντικαθιστά την ακολουθία επερώτησης).
PSI-Blast
Στάδια του PSI-Blast

•  Πρώτο στάδιο:
–  Blast µε την ακολουθία επερώτησης σε µια Β.Δ. (Ε<0.001 default).
–  Οι τοπικές στοιχίσεις που βρέθηκαν (E-value < cutoff) χρησιµοποιούνται

για τη δηµιουργία µιας πολλαπλής στοίχισης M µε σηµείο αναφοράς την
ακολουθία επερώτησης (L θέσεις).
•  Δεν επιτρέπονται κενά στην ακολουθία επερώτησης.
•  Αυτή η πολλαπλή στοίχιση (ακολουθία - σηµείο αναφοράς) διαφέρει
από τις τυπικές πολλαπλές στοιχίσεις
–  Απαλοιφή ακολουθιών µε πολύ µεγάλη οµοιότητα.
–  Δηµιουργία PSSM.
PSI-Blast
Στάδια του PSI-Blast

•  Δεύτερο στάδιο:
–  Νέα αναζήτηση στη Β.Δ. µε το PSSM αντί της αρχικής ακολουθίας

επερώτησης.
–  Οι νέες ακολουθίες που βρέθηκαν και ξεπερνούν το κατώφλι E-value

ανανεώνουν την πολλαπλή στοίχιση και δηµιουργείται ένα νέο
PSSM.
•  Η διαδικασία επαναλαµβάνεται µέχρι να µη βρεθούν νέες ακολουθίες µε

Evalue < τιµή κατωφλίου (convergence).
•  Συνήθως, 3-5 κύκλοι αρκούν για να βρεθούν τα περισσότερα µακρινά

οµόλογα.
PSI-Blast
PSI-Blast
PSI-Blast
PSI-Blast
PSI-Blast
PSI-Blast
•  Πριν κάνουµε PSI-Blast πρέπει να ξέρουµε τι αναζητάµε!!!
–  αναζητούµε οµόλογες πρωτεΐνες µε την ίδια αρχιτεκτονική επικρατειών

(domain architecture);
–  Αναζητούµε πρωτεΐνες που να περιλαµβάνουν µια συγκεκριµµένη περιοχή;

Χρησιµοποιούµε µόνο αυτή την περιοχή στην αρχική αναζήτηση.
–  Αν η περιοχή αυτή είναι γνωστή επικράτεια που υπάρχει σε Β.Δ.

Πρωτεΐνικών επικρατειών (π.χ. PFAM), τότε καλύτερα να
χρησιµοποιήσουµε αυτές τις Β.Δ.
–  Κάποιες περιοχές/επικράτειες συναντώνται σε πολλές πρωτεΐνες.

•  Προσοχή στην αναζήτηση όταν υπάρχουν τέτοιες περιοχές
–  Αν ξεκινήσουµε µε άλλη οµόλογη ακολουθία επερώτησης δεν είναι σίγουρο

ότι θα φτάσουµε στο ίδιο αποτέλεσµα!
–  Προσοχή ποιές ακολουθίες συµπεριλαµβάνουµε στο PSSM. Αν εισέλθουν

λάθος ακολουθίες, το λάθος θα ανατροφοδοτείται σε κάθε κύκλο (profile
drift)
PSI-Blast
Επικράτειες (Domains)
•  Κάποιες επικράτειες
συνδυάζονται πολύ συχνά
µε άλλες, στην ίδια
πρωτεΐνη.
•  http://genome.cshlp.org/
content/18/3/449.full
PSI-Blast
Επικράτειες και αναζήτηση σε

Β.Δ.
Ανταποδοτικό Blast
(Best reciprocal blast hit)
Ανταποδοτικό Blast (ι)

•  Γρήγορη µέθοδος εντοπισµού ορθόλογων γονιδίων/πρωτεϊνών µεταξύ
δύο γενωµάτων (π.χ. µόλις αλληλουχήθηκε ένα γένωµα).
•  Γιατί είναι σηµαντικό να βρούµε το σωστό ορθόλογο;

–  Ορθόλογα συνήθως έχουν την ίδια λειτουργία
–  Παράλογα συνήθως αποκλείνουν στις λειτουργίες τους
Ανταποδοτικό Blast (ii)

Ανταποδοτικό Blast (iii)
Ανταποδοτικό Blast (iv)

Ανταποδοτικό Blast (v)

Εκτεταµένος γονιδιακός διπλασιασµός
Ανταποδοτικό Blast (vi)

Ανταποδοτικό Blast (vii)
Πώς µπορεί να εντοπιστεί το λάθος;
Ανταποδοτικό Blast (viii)

Παράµετροι που επηρεάζουν την εύρεση

ορθόλογων µε ανταποδοτικό blast (i)
•  Κυριότεροι παράµετροι που επηρεάζουν την εύρεση ορθόλογων
–  Είδος φιλτραρίσµατος περιοχών χαµηλής πολυπλοκότητας
•  Soft filtering (φιλτράρισµα µόνο στην φάση αναζήτησης, όχι στην φάση
τελικής στοίχισης) (default option)
•  Hard filtering (φιλτράρισµα και στις δύο φάσεις)
•  Ο αλγόριθµος που κάνει την τελική στοίχιση
–  Blast (words µε επέκταση) (default)
–  Smith-Waterman
Παράµετροι που επηρεάζουν την

εύρεση ορθόλογων µε ανταποδοτικό
blast (ii)
•  Επιλεγµένο όριο τιµής Ε (E-value threshold) ή τιµής bit-score
•  Κατώτατο όριο ποσοστού της ακολουθίας που συµµετέχει στην
στοίχιση.
•  Κατώτατο όριο ποσοστού οµοιότητας
•  Διαφορετικές τιµές για την κάθε ανάλυση
•  Π.χ. BioCyc: 10% identity, 40% similarity, E-value<1
•  To blast δεν δηµιουργήθηκε για να µετράει την εξελικτική

απόσταση δύο ακολουθιών, αλλά για να βρίσκει γρήγορα
οµόλογες ακολουθίες
Πηγές λαθών για ανταποδοτικό

blast
•  Εκτεταµένος γονιδιακός διπλασιασµός που συνέβη πρόσφατα.
•  Γονιδιακή σύντηξη
•  Εκτεταµένες αναδιατάξεις της αρχιτεκτονικής των πρωτεϊνών

(domain rearrangements)
–  Aνασυνδυασµός που οδηγεί στην εισδοχή µη οµόλογου domain
Ότι είναι θεωρητικώς δυνατόν να συµβεί, µάλλον έχει συµβεί κάπου!
Χρησιµοποιώντας το Blast
Το Blast στην πράξη
Χρησιµοποιώντας το Blast (i)

•  Επεξηγήσεις στο σύνδεσµο:
–  http://www.ncbi.nlm.nih.gov/BLAST/blastcgihelp.shtml
•  Εισάγουµε την ακολουθία
Χρησιµοποιώντας το Blast (ii)

•  Επιλέγοντας:
–  τη βάση δεδοµένων που θα γίνει η αναζήτηση
–  Τον οργανισµό που θα γίνει η αναζήτηση
Χρησιµοποιώντας το Blast (iii)

•  Παράµετροι του αλγόριθµου
•  Expect threshold: ανάλογα µε το τι αναζητούµε
Χρησιµοποιώντας το Blast (iv)

•  Αποτελέσµατα για συντηρηµένες επικράτειες (conserved domains)
Χρησιµοποιώντας το Blast (v)

•  Οµάδες συντηρηµένων επικρατειών
Χρησιµοποιώντας το Blast (vi)

•  Γράφηµα των καλύτερων στοιχίσεων
Χρησιµοποιώντας το Blast (vii)

•  Περιγραφές των αποτελεσµάτων (µε φίλτρο)
Χρησιµοποιώντας το Blast (viii)

•  Στοιχίσεις (µε φίλτρο - µικρά γράµµατα)
•  Identities (επί του αριθµού θέσεων στη στοίχιση)
•  Positives (επί του αριθµού θέσεων στη στοίχιση)
Χρησιµοποιώντας το Blast (ix)

χωρίς φίλτρο µε φίλτρο
Η χρήση φίλτρου αλλάζει το score

Identities/Positives σταθερά
Χρησιµοποιώντας το Blast (x)

Χωρίς φίλτρο
Με φίλτρο
Αλλάζει το score, E-value και η σειρά εµφάνισης

Χρησιµοποιώντας το Blast (xi)

Με φίλτρο
Identities & positives παραµένουν σταθερά

•  Αλλαγή στον Πίνακα αντικατάστασης και στις ποινές για κενά
–  Blosum 45 13:3, χωρίς φίλτρο
Blosum 62 11:1, χωρίς φίλτρο

Χρησιµοποιώντας το Blast (xii)
Blosum 45 13:3 Blosum 62 11:1
Μικρές διαφορές στη στοίχιση, στο score & E-value
Χρησιµοποιώντας το Blast (xiii)

•  Αν για το ίδιο γονίδιο ( ESR1_Human) χρησιµοποιούσαµε το mRNA
του (X03635.1 Homo sapiens mRNA for estrogen receptor α) και όχι
την πρωτεΐνη για την αναζήτηση στην Drosophila:
–  Blastn (nr database): κανένας στόχος. Γιατί;
–  Ποιό πρόγραµµα του Blast θα έπρεπε να χρησιµοποιήσουµε;
•  Εκφυλισµός του γενετικού κώδικα
•  Αµινοξέα µε κοινές φυσικοχηµικές ιδιότητες
Χρησιµοποιώντας το Blast (xiv)
Για το ίδιο mRNA

–  Blastx (nr database)
Χρησιµοποιώντας το PSI-Blast (i)
Χρησιµοποιώντας το PSI-Blast (ii)

Χρησιµοποιώντας το PSI-Blast (iii)
Χρησιµοποιώντας το PSI-Blast (iv)

Χρησιµοποιώντας το PSI-Blast (v)

•  Πράσινο σφαιρίδιο για ακολουθίες που είχαν βρεθεί σε
προηγούµενο γύρο αναζήτησης.
•  Μπορούµε να επιλέξουµε τον αποκλεισµό κάποιων ακολουθιών
Χρησιµοποιώντας το PSI-Blast (vi)

Χρησιµοποιώντας το PSI-Blast (vii)

•  Αν περιλαµβάνονταν οι 2 µεθυλ-τρανσφεράσες…
Χρησιµοποιώντας το PSI-Blast
(viii)
•  Αποθήκευση αποτελεσµάτων
Πολλαπλή στοίχιση
multiple sequence alignment
(MSA)
MSA
MSA: Τι είναι
•  Στοίχιση για 3 ή περισσότερες ακολουθίες.
•  Αποκαλύπτονται οι συντηρηµένες περιοχές µεταξύ των

ακολουθιών µιας οικογένειας.
•  Χρειάζεται για:
–  Δηµιουργία profiles/motifs που χαρακτηρίζουν µια επικράτεια
(domain).
–  Ανίχνευση συντηρηµένων DNA-binding sites σε προµότορες
γονιδίων
–  Φυλογένεση.
–  Πρόβλεψη δευτεροταγούς και τριτοταγούς δοµής πρωτεϊνών.
–  Σχεδιασµό εκφυλισµένων εκκινητών PCR
MSA
MSA
MSA
MSA
•  Sum of pairs
•  Σκοπός: η µεγιστοποίηση αυτού του score
MSA
MSA
•  Πολλαπλή στοίχιση µε:
–  Δυναµικό προγραµµατισµό (dynamic programming).
–  Με ευρετικές µεθόδους (heuristics).
•  Προοδευτική στοίχιση (progressive alignment)
•  Στοίχιση µε διαδοχικές βελτιώσεις (iterative alignment)
•  Στοίχιση βασισµένη σε blocks
MSA
MSA - δυναµικός
προγραµµατισµός (DP)
•  Για στοίχιση 2 ακολουθιών δηµιουργείται ένας πίνακας 2
διαστάσεων.
•  Για στοίχιση 3 ακολουθιών δηµιουργείται πίνακας 3 διαστάσεων.
•  Για στοίχιση Ν ακολουθιών δηµιουργείται πίνακας Ν
διαστάσεων.
•  Το υπολογιστικό κόστος αυξάνεται εκθετικά, για κάθε ακολουθία
που πρέπει να ενταχθεί στην πολλαπλή στοίχιση.
•  Πρακτικά, DP µπορεί να γίνει για λίγες µόνο ακολουθίες, µικρού
µήκους.
MSA
MSA-ευρετικές µέθοδοι
•  Προοδευτική στοίχιση (progressive)
–  ClustalW
•  Επαναλαµβανόµενη στοίχιση (Iterative)
•  Block-based
MSA
ClustalW (i)
•  Ολική στοίχιση (Needlman-Wunsch) κάθε
πιθανού ζεύγους
•  Πίνακας αποστάσεων (identities ή πίνακες
Blossum/PAM).
•  Μετατροπή των αποστάσεων σε εξελικτικές
αποστάσεις.
•  Δηµιουργία φυλογενετικού δένδρου -
οδηγού (guide tree) (neighbor joining).
–  Χαµηλότερης εµπιστοσύνης από ένα
κανονικό φυλογενετικό δένδρο, ωστόσο
καταδεικνύει ικανοποιητικά τις βασικές
σχέσεις
MSA
ClustalW (ii)
•  Οι 2 κοντινότερες ακολουθίες στοιχίζονται
και δηµιουργείται µια ακολουθία συναίνεσης.
•  Με βάση το δένδρο-οδηγό, η ακολουθία

συναίνεσης στοιχίζεται (δυναµικός
προγραµµατισµός) µε την επόµενη πιο
κοντινή ακολουθία ή την επόµενη πιο
κοντινή ακολουθία συναίνεσης.
•  Η διαδικασία επαναλαµβάνεται έως ότου

στοιχιθούν όλες οι ακολουθίες.
MSA
ClustalW (iii)
•  Ανάλογα µε την απόσταση 2 ακολουθιών στο δένδρο-οδηγό,

χρησιµοποιείται και ο κατάλληλος πίνακας αντικατάστασης
(Blossum62, Blossum 45) για την ολική στοίχιση κατά ζεύγη .
•  Οι ποινές των κενών προσαρµόζονται ανάλογα µε την

παρατηρούµενη συντήρηση µιας περιοχής και ανάλογα µε την
δευτεροταγή δοµή.
•  Συντελεστής βαρύτητας ανάλογα µε την εξελικτική απόσταση 2

MSA
Προβλήµατα της
προοδευτικής στοίχισης
•  Δεν ενδείκνυται για ακολουθίες µε πολύ διαφορετικά µήκη (λόγω
ολικής στοίχισης).
•  Η τελική πολλαπλή στοίχιση εξαρτάται από τη σειρά µε την

οποία θα γίνουν οι επιµέρους στοιχίσεις κατά ζεύγη.
•  Ένα αρχικό λάθος θα επηρεάσει τα υπόλοιπα στάδια της

πολλαπλής στοίχισης.
MSA
T-coffee
•  Προοδευτική στοίχιση.
•  Όταν στοιχίζει ένα ζεύγος ακολουθιών, δεν κάνει µόνο ολική
στοίχιση, αλλά και τοπικές στοιχίσεις (δηµιουργείται µια
βιβλιοθήκη στοιχίσεων).
•  Υπολογίζεται ένα σκορ συµφωνίας (consistency score) από τις
επιµέρους στοιχίσεις (ολική και τοπικές).
•  Σε σχέση µε το Clustal:
–  Πολύ καλύτερης ποιότητας πολλαπλές στοιχίσεις.
–  Πολύ πιο αργός υπολογισµός.
MSA
Muscle
Προοδευτική στοίχιση.
l 
Δύο υπολογισµοί δένδρου-

l 
οδηγού (UPGMA)
l  Kmer
l  Kimura distance
Κυκλική λογική
l 
l  Δένδρο-> πολλαπλή
στοίχιση-> βελτιωµένο
δένδρο -> βελτιωµένη
στοίχιση
Edgar R C Nucl. Acids Res. 2004;32:1792-1797
MSA
Επαναλαµβανόµενη
πολλαπλή στοίχιση (iterative)
•  Αρχικά δηµιουργείται µια
πολλαπλή στοίχιση
χαµηλής ποιότητας.
•  Η πολλαπλή στοίχιση
βελτιώνεται σε
επαναλαµβανόµενα
στάδια.
•  Ευρετική µέθοδος.
•  Δεν επηρεάζεται από
αρχικά λάθη.
•  Προγράµµατα:
–  PRRN
MSA
Block-based
•  Ενδείκνυται για πολλαπλή στοίχιση ακολουθιών που έχουν
αποκλείνει αρκετά και έχει αποµείνει συντηρηµένη µια µικρή
περιοχή τους.
•  Dialign
MSA
Πολλαπλή στοίχιση για DNA &

πρωτεΐνες
•  Revtrans
–  Παίρνει πολλαπλή στοίχιση των ακολουθιών σε επιπέδο
πρωτεϊνών και βάση αυτής, στοιχίζει τις ακολουθίες σε επίπεδο
DNA
MSA
Χειροκίνητη τροποποίηση/βελτίωση
πολλαπλής στοίχισης
•  Τα προγράµµατα δεν παράγουν την βέλτιστη στοίχιση.
•  Βελτίωση της στοίχισης χειροκίνητα
•  alignment editors
–  Seaview
–  Bioedit
MSA
Alignment formats
•  FASTA (.fa ή .fasta ή .fst)
•  Clustal (.aln)
•  Phylip (.phy ή .phylip)
•  MSF (.msf)
•  Mase (.mase)
•  Nexus (.nxs)
•  Συνήθως, τα alignment editors µπορούν να µετατρέψουν το ένα
format σε άλλο.
•  Readseq
–  http://www.ebi.ac.uk/cgi-bin/readseq.cgi
MSA
Fasta format
MSA
Clustal format
MSA
Phylip format
•  Χρησιµοποιείται στο πρόγραµµα phylip για φυλογένεση
MSA
Πολλαπλή στοίχιση
ακολουθιών & profiles
•  Ακολουθίες Χ ακολουθίες
•  Ακολουθίες Χ profile
•  Profile X profile
MSA
Χρήσεις πολλαπλής στοίχισης

•  Δηµιουργία:
–  Πινάκων θέσης (Position specific scoring matrices - PSSMs).
–  Profiles.
–  Μαρκοβιανών µοντέλων (Hidden markov models - HMMs).
•  Είναι στατιστικά µοντέλα που δείχνουν τη συχνότητα εµφάνισης

αµινοξέων/νουκλεοτιδίων για κάθε θέση µιας πολλαπλής
στοίχισης.
•  Επιπλέον, προβλέπουν τη συχνότητα χαρακτήρων που δεν
παρατηρήθηκαν στην πολλαπλή στοίχιση.
•  Χρησιµοποιούνται για την ανίχνευση µακρινών οµόλογων
MSA
PSSMs
•  Πολλαπλή στοίχιση χωρίς κενά
•  Πίνακας συχνοτήτων για την

κάθε θέση
MSA
PSSMs
•  Κανονικοποίηση του
πίνακα συχνοτήτων.
•  Μετατροπή των τιµών σε

log2
MSA
PSSM
•  Τιµή log-odd 1 για ένα χαρακτήρα Α στην θέση 1:
–  21=2: Στην οικογένεια που µελετάµε, η συχνότητα του χαρακτήρα Α στην
θέση 1 είναι 2 φορές µεγαλύτερη από την συχνότητα υποβάθρου.
•  Τιµή log-odd -1 για ένα χαρακτήρα C στην θέση 1:

–  2-1=1/2: Στην οικογένεια που µελετάµε, η συχνότητα του χαρακτήρα C στην
θέση 1 είναι 2 φορές µικρότερη από την συχνότητα υποβάθρου.
•  Τιµή log-odd 0 για ένα χαρακτήρα G στην θέση 1:

–  20=1: Στην οικογένεια που µελετάµε, η συχνότητα του χαρακτήρα G στην
θέση 1 είναι ίδια µε την συχνότητα υποβάθρου.
– 
MSA
PSSM
•  Χρησιµοποιείται για
–  Αναζήτηση µακρινών οµόλογων σε βάση δεδοµένων.
–  Να υπολογίσουµε πόσο καλά ταιριάζει µια ακολουθία στην
οικογένεια.
–  Στοίχιση µε ακολουθίες
MSA
PSSM
•  Πόσο καλά ταιριάζει η ακολουθία
AACTCG στον πίνακα θέσης;
•  2 6.33 = 80
•  Πιθανότητα να ταιριάζει αυτή η

ακολουθία στον πίνακα θέσης
(οµόλογη) είναι 80 φορές
µεγαλύτερη από ότι θα
περιµέναµε από µια τυχαία
ακολουθία
MSA
PSSM
•  Στην πράξη, όταν υπολογίζουµε τις συχνότητες των
χαρακτήρων χρησιµοποιούµε συντελεστή βαρύτητας που
εξαρτάται από το πόσο όµοιες είναι οι ακολουθίες.
–  Χαµηλός συντελεστής για πολύ όµοιες ακολουθίες.
–  Υψηλός συντελεστής για αποµακρυσµένες ακολουθίες.
MSA
Profile
Είναι PSSM που περιλαµβάνει και κενά.
MSA
Profile Hidden Markov Models

(HMMs)
•  Markov models αρχικά χρησιµοποιήθηκαν στην αναγνώριση
φωνής.
•  Παρόµοια µε τα PSSM/profiles.
•  Πιο κατάλληλο σύστηµα βαθµολόγισης για τα κενά (εισδοχές/
απαλείψεις).
–  Όχι ad hoc, αλλά βασισµένο στις πιθανότητες.
•  Για µακρινές οµολογίες, είναι πιο ευαίσθητα από τα profiles.
MSA
HMMs
•  Χρησιµοποιούνται για:
–  Αναζήτηση οµόλογων ακολουθιών σε Β.Δ.
–  Πολλαπλή στοίχιση ακολουθιών.
–  Κατηγοριοποίηση σε οικογένειες γονιδίων/πρωτεϊνών.
–  Πρόβλεψη γονιδίων (όρια εξονίων/ιντρονίων)
–  Πρόβλεψη διαµεµβρανικών περιοχών πρωτεϊνών.
MSA
Profile HMMs
•  Στοίχιση του µοντέλου µε την ακολουθία µέσω του αλγόριθµου Viterbi (σαν το
δυναµικό προγραµµατισµό)
MSA
HMMs
•  Regular expression
MSA
HMMs
MSA
HMMs
MSA
HMMs
•  Null model: Θεωρεί ότι µια ακολουθία είναι τυχαία.
•  Αν θεωρήσουµε ότι και τα 4 νουκλεοτίδια εµφανίζονται µε την ίδια
συχνότητα (0.25), τότε η πιθανότητα µιας τυχαίας ακολουθίας µήκους L
είναι 0.25L.
•  Υπολογίζουµε το log-odds της ακολουθίας:
MSA
HMMs
MSA
HMMs
•  Overfitting: όταν οι συχνότητες χαρακτήρων
υπολογίζονται από ένα µικρό αριθµό
ακολουθιών, οι παρατηρούµενες συχνότητες
είναι στρεβλωµένες.
•  Pseudocounts: Εξοµαλύνουν την

παρατηρούµενη συχνότητα χαρακτήρων, µε
βάση κάποια στατιστικά µοντέλα.
–  Π.χ. Dirichlet mixture (από τις κατανοµές
αµινοξέων σε domains)
MSA
PFAM
•  Β.Δ. HMMs για domains (11912).
–  PFAM-A: πολλαπλές στοιχίσεις γνωστών domains που
ελέγχθηκαν από ειδικούς
–  PFAM-B: βασίζεται σε συντηρηµένες περιοχές πρωτεϊνών
που εντοπίστηκαν µε αυτόµατες µεθόδους και δεν
γνωρίζουµε τη λειτουργία τους
•  Clans: οµαδοποίηση HMMs (PFAM-A) για οµόλογα domains.

–  Μπορούµε να δηµιουργήσουµε ένα HMM που θα χαρακτηρίζει όλη
την οικογένεια, ή να δηµιουργήσουµε µια σειρά από HMMs, ένα για
κάθε υπο-οικογένεια. Όλα µαζί αποτελούν ένα Clan.
MSA
PFAM
MSA
PFAM
•  Domain architectures
•  trees
MSA
Motif - Domain
•  Motifs:
–  µικρές και συντηρηµένες περιοχές που επιτελούν µια
συγκεκριµµένη λειτουργία.
•  Domains:
–  Συντηρηµένες περιοχές, µεγαλύτερες από motifs, συνήθως ώς
αυτόνοµες λειτουργικές και δοµικές µονάδες.
–  40αα> domain >700aa
–  µέσο µήκος ~100αα
•  Συνήθως, οι πρωτεΐνες επιτελούν περισσότερες από µια λειτουργίες.

Για κάθε µια είναι υπεύθυνο ένα motif ή domain. Άρα, πρέπει να
εξετάζουµε τις επιµέρους βασικές λειτουργικές µονάδες (motifs/
domains), για να κατανοήσουµε όλες τις λειτουργίες µιας πρωτεΐνης.
MSA
Regular expressions
Regular expression
•  Σχετικά άκαµπτη µέθοδος.
•  Λιγότερο ευαίσθητη από ένα στατιστικό µοντέλο.
•  Exact matching:
–  Πολλά ψευδώς αρνητικά αποτελέσµατα.
•  Fuzzy matching:
–  Επιτρέπει αµινοξέα µε παρόµοιες φυσικοχηµικές
ιδιότητες, ακόµα και αν δεν παρατηρήθηκαν στην
πολλαπλή στοίχιση.
–  Αυξάνεται ο θόρυβος (ψευδώς θετικά).
MSA
Regular expression DBs.

•  PROSITE:
–  Η πρώτη Β.Δ. του είδους της.
–  Τα regular expressions δηµιουργούνται από πολλαπλές στοιχίσεις
συντηρηµένων περιοχών.
–  Exact matches.
–  Επίσης δηµιουργεί και profiles.
•  Emotif:
–  Πολλαπλές στοιχίσεις από τις ΒΔ BLOCKS & PRINTS.
–  Μεγαλύτερη συλλογή πολλαπλών στοιχίσεων από την PROSITE.
–  Fuzzy matching.
MSA
Στατιστικά µοντέλα
•  PSSM (position specific scoring matrices).
•  Profiles.
•  HMMs (hidden markov models).
•  Επιτρέπουν µερικό ταίριασµα.

•  Pseudocounts.
MSA
ΒΔ πολλαπλών στοιχίσεων
motifs/domains
•  PRINTS:
–  Fingerprints: περιοχές της πολλαπλής στοίχισης, βαθειά
συντηρηµένες και χωρίς κενά.
–  PSSMs (δίχως συντελεστή βαρύτητας) για τα fingerprints.
–  Ένα motif αποτελείται από >1 fingerprints (δεν υπάρχει
αλληλεπικάλυψη).
–  Το motif θεωρείται υπάρχων σε µια πρωτεΐνη όταν η
πλειοψηφία των fingerprints που το απαρτίζουν έχει
ανιχνευθεί.
–  Ορισµός των fingerprints & motifs γίνεται από
βιοεπιστήµονες/βιοπληροφορικούς.
–  Σχετικά µικρός αριθµός motifs στη ΒΔ.
MSA
motifs/domains
•  BLOCKS:
–  Αυτοµατοποιηµένη πολλαπλή στοίχιση πρωτεϊνικών οικογενειών,
όπου χρησιµοποιούνται οι πιο συντηρηµένες περιοχές, δίχως κενά
(blocks).
–  Για κάθε block δηµιουργείται PSSM (µε συντελεστή βαρύτητας) και
εφαρµόζονται pseudocounts.
–  Οι πίνακες αντικατάστασης BLOSSUM υπολογίζονται από τη ΒΔ
BLOCKS.
MSA
motifs/domains
•  ProDom:
–  Δηµιουργεί domains εφαρµόζοντας PSI-Blast σε ακολουθίες
από την SWISSPROT & TrEMBL.
–  Η λειτουργία των domains µπορεί να είναι άγνωστη.
MSA
motifs/domains
•  SMART:
–  Profile HMMs που δηµιουργήθηκαν από πολλαπλές
στοιχίσεις, ελεγµένες από ειδικούς.
–  Οι στοιχίσεις είτε βασίζονται σε τρισδιάστατες δοµές είτε σε
profiles που δηµιουργεί το PSI-Blast.
–  Και οι στοιχίσεις και ο σχολιασµός των profile HMMs γίνεται
από ειδικούς.
–  Συµπληρωµατικότητα µε την PFAM.
MSA
motifs/domains
•  INTERPRO:
–  Λόγω ανοµοιογένειας στις µεθοδολογίες και στις ακολουθίες που
χρησιµοποιούνται, υπάρχει µερική αλληλοεπικάλυψη αλλά και
συµπληρωµατικότητα µεταξύ των επιµέρους ΒΔ motifs/domains.
–  H INTERPRO ενσωµατώνει αλληλοεπικαλυπτόµενα motifs/
domains που βρίσκονται ταυτόχρονα και στις 5 παρακάτω ΒΔ:
•  PROSITE
•  PFAM
•  PRINTS
•  ProDOM
•  SMART
MSA
motifs/domains
•  Reverse-Blast (RPS-Blast):
–  Συλλογή profiles που δηµιουργήθηκαν από PSI-Blast.
•  CDART:
–  Τµήµα του BLAST.
–  ενσωµατώνει τις
•  RPS-Blast
•  PFAM
•  SMART
MSA
Γραφική απεικόνιση motifs/

profiles: LOGOs
•  Weblogo
Φυλογένεση
•  Η εκτίµηση της εξελικτικής ιστορίας γονιδίων/πρωτεϊνών ή
οργανισµών.
•  Η απεικόνιση αυτής της ιστορίας γίνεται µε φυλογράµµατα/
κλαδογράµµατα

•  Οµόλογα γονίδια: κοινός εξελικτικός πρόγονος.
•  Ορθόλογα γονίδια: προέρχονται από ειδογένεση. Ουσιαστικά, ένα

γονίδιο α (µεταλλαγµένο) σε δύο διαφορετικούς οργανισµούς.
Συχνά έχουν την ίδια λειτουργία
•  Παράλογα γονίδια: προέρχονται από γονιδιακό διπλασιασµό.

Ανήκουν στην ίδια οικογένεια

Στάδια φυλογενετικής ανάλυσης

•  Επιλογή ακολουθιών:
–  Επιλογή µοριακών δεικτών
–  Εντοπισµός οµόλογων ακολουθιών
•  Π.χ. Blast, HMMs
•  Πολλαπλή στοίχιση
–  Διορθώσεις στην στοίχιση
•  Υπολογισµός φυλογενετικού δένδρου
–  Επιλογή εξελικτικού µοντέλου
–  Επιλογή µεθόδου δηµιουργίας του δένδρου
–  Αξιολόγιση/αξιοπιστία του δένδρου
Στοιχεία ενός φυλογενετικού

δένδρου
•  Φύλλα (leafs)
–  Taxon
–  Operational taxonomic units (OTUs)
•  Βραχίονες (branches)
•  Κόµβοι (nodes)
•  Κλάδοι (clades)
–  Μονοφυλετικά group
•  Ρίζα (root)

δένδρου
•  Τοπολογία του δένδρου
–  Διχοτόµιση (dichotomy)
–  Πολυτόµιση (polytomy)
•  Radiation
•  Unresolved phylogeny
Δένδρα µε/χωρίς ρίζα

•  Χωρίς ρίζα
–  Δεν γνωρίζουµε τον κοινό πρόγονο.
–  Απεικονίζονται µόνο οι σχετικές θέσεις των taxa.
–  Δεν φαίνεται η εξελικτική πορεία.
•  Με ρίζα
–  Γνωρίζουµε τον κοινό πρόγονο.
–  Φαίνεται η εξελικτική πορεία.
–  Χρησιµοποιούνται:
•  Outgroup
•  Midpoint rooting approach (υποθέτει την ύπαρξη µοριακού
ρολογιού - σταθερού ρυθµού εξέλιξης για όλες τις ακολουθίες).

Κλαδόγραµµα/φυλόγραµµα
Newick format
•  Δένδρα αποθηκεύονται σε µορφή Newick ή Nexus (παραλλαγή του
Newick).
•  Ποιό είναι το δένδρο: (((C,B),D),(A,E));
Newick format
(((C,B),D),(A,E));
Είναι το ίδιο δένδρο;
Newick format
Ποιό είναι το δένδρο;
(((A:1,B:2):1,C:2):1,D:4);
Newick format
(((A:1,B:2):1,C:2):1,D:4);
distanceAC=1+1+2
Φυλογένεση γονιδίων/
πρωτεϊνών
•  Φυλογένεση γονιδίων ή πρωτεΐνών.
–  Δείχνει την εξελικτική πορεία µιας οικογένειας γονιδίων.
–  Κάθε κόµβος (node) στο δένδρο είναι ένας γονιδιακός
διπλασιασµός ή ειδογένεση.
–  Το κάθε γονίδιο/πρωτεΐνη µπορεί να έχει διαφορετική
εξελικτική πορεία (π.χ. Οριζόντια µεταφορά) ή ρυθµό
εξέλιξης από τα υπόλοιπα γονίδια ενός οργανισµού.
–  Άρα, η εξελικτική πορεία ενός µόνο γονιδίου/πρωτεΐνης
ενδέχεται να µην αντανακλά την εξελικτική πορεία ενός
οργανισµού
Φυλογένεση οργανισµών
•  Δείχνει την εξελικτική πορεία µιας οµάδας οργανισµών.
•  Οι κόµβοι (nodes) στο δένδρο απεικονίζουν γεγονότα
ειδογένεσης.
•  H φυλογένεση µπορεί να γίνει από:
–  µια σειρά φαινοτυπικών χαρακτήρων
–  Ένα γονίδιο µοριακό δείκτη (π.χ. 16S rRNA)
–  Μια σειρά γονιδίων
–  Από την πλειψηφία των γονιδίων του κάθε γενώµατος

•  Επιλέγουµε/βρίσκουµε το ορθόλογο γονίδιο-δείκτη στους
οργανισµούς που µελετάµε και ακολουθεί φυλογένεση
•  Το ποντίκι και ο αρουραίος είχαν λιγότερο χρόνο να εξελιχθούν ξεχωριστά, από ότι ο άνθρωπος σε σχέση
µε το ποντίκι ή σε σχέση µε τον αρουραίο. Οι µεταλλάξεις που συσσωρεύτηκαν σε κάθε ορθόλογη
ακολουθία πρέπει να είναι ανάλογες του χρόνου απόκλισης των οργανισµών.
•  Αν υποθέσουµε ότι ο ρυθµός µετάλλαξης είναι 1/1.000.000 χρόνια, πόσες µεταλλάξεις έχουν συσσωρευθεί
σε κάθε ακολουθία, σε σχέση µε τον κοινό πρόγονο;
Μοριακοί δείκτες για

φυλογένεση οργανισµών
•  DNA ή πρωτεΐνη, ανάλογα µε την εξελικτική απόσταση των
•  Για πολύ ‘κοντινούς’ οργανισµούς:
–  Περιοχές του DNA που εξελίσονται γρήγορα.
–  Π.χ. Για άτοµα ενός ή περισσότερων πληθυσµών του ίδιου είδους,
χρησιµοποιείται mtDNA που δεν κωδικοποιεί πρωτεΐνες.
•  Για µέτρια αποκλίνοντες οργανισµούς:
–  rRNA ή πρωτεΐνες.
•  Mt-rRNA 10-100 ΜΥ
•  Nuc-rRNA 100-800 MY
•  Για βαθιά αποκλείνοντες οργανισµούς:
–  Βαθιά συντηρηµµένες πρωτεΐνες.
Διαφορετικά γονίδια για διαφορετικά ερωτήµατα

Μοριακό χρονόµετρο Μοριακή κλεψύδρα
Βαθύτερη ρίζα: 35 mya (µε mtRNA) 600 mya (µε πυρηνικό rRNA)
Φυλογένεση χορδωτών
Φυλογένεση σπονδυλωτών
Ταξινόμιση οργανισμών
• Ιεραρχική
κατηγοριοποίηση/ομαδοποίηση
οργανισμών.
• Linnaeus (1707-1778) ομαδοποίησε
οργανισμούς με βάση κοινούς
χαρακτήρες.
• Αργότερα, η ταξινόμιση
προσαρμόστηκε στην εξελικτική
θεωρία του Δαρβίνου, ώστε να
ομαδοποιούνται οι οργανισμοί με
βάση την κοινή τους προέλευση.
NCBI taxonomy
Timetree
Timetree
Ιστότοποι/ΒΔ για βιοποικιλότητα

http://www.timetree.org/resources.php
Μοριακά ρολόγια
• Inferred pairwise nucleotide substitutions among 17 mammal species from seven gene
products, as estimated from protein studies, plotted against date of divergence, as
estimated from the fossil record. The line is drawn from the origin through the oldest
comparison (the marsupial / placental divergence at 125 MYBP). The strong linear
relationship suggests that molecular differences between pairs of species are
proportional to the time of their separation, rather than the degree of organismal
difference. Therefore, measures of genetic divergence can be used to date the time of
divergence for species pairs for which no fossil data are available: genes function as
Molecular Clocks. (from A. C. Wilson 1976).
Μοριακά ρολόγια
• Υποθέτουν ένα σταθερό ρυθμό μεταλλάξεων για μια εξελικτική γραμμή.
• Χρονολογημένα απολιθώματα επιτρέπουν την ‘ζυγοστάθμιση’
(calibration) του μοριακού ρολογιού.
• Ρυθμός εξέλιξης διαφέρει μεταξύ γονιδίων
• Στην πραγματικότητα, ο ρυθμός εξέλιξης μπορεί να μεταβάλλεται
(επιβράδυνση ή επιτάχυνση) κατά τη διάρκεια εξέλιξης ενός κλάδου
Γεωλογικές
περίοδοι
Απολιθώματα που χρησιμοποιούνται για

ζυγοστάθμιση του μοριακού ρολογιού
www.fossilrecord.net
Απολιθώματα που χρησιμοποιούνται για

ζυγοστάθμιση του μοριακού ρολογιού
Προβλήματα με τα
απολιθώματα
• Χρονολογημένα απολιθώματα υποτιμούν τον χρόνο εμφάνισης
μιας εξελικτικής γραμμής:
– Όταν συνέβη η απολίθωση, ο κοινός πρόγονος ήταν ήδη παρόν για
κάποιο χρονικό διάστημα.
– Ο κοινός πρόγονος χρειάστηκε κάποιο χρόνο από την στιγμή της
εμφάνισης του μέχρι να εξαπλωθεί γεωγραφικά και να βρίσκεται σε
αφθονία, ώστε ένα τυχαίο γεγονός να οδηγήσει στην απολίθωση
κάποιων ατόμων.
– Τα απολιθώματα αποτελούν το κατώτατο χρονικό όριο εμφάνισης
μιας εξελικτικής γραμμής
Χρονολογημένα απολιθώματα υποτιμούν τον

χρόνο εμφάνισης μιας εξελικτικής γραμμής
Το πρόβλημα της Κάμβριας

περιόδου
• Από τα απολιθώματα συμπεραίνουμε ότι οι περισσότερες και
κυριότερες εξελικτικές γραμμές των μετάζωων εμφανίστηκαν
ξαφνικά, σε μια σύντομη περίοδο πριν ~550 εκ. χρόνια, μεταξύ
της προ-κάμβριας και κάμβριας περιόδου (Κάμβρια έκρηξη).
• Μελέτες με μοριακά ρολόγια δείχνουν ότι αυτές οι εξελικτικές
γραμμές εμφανίστηκαν πολλές εκατοντάδες εκατομύρια χρόνια
πιο πριν!

περιόδου
• http://www.sciencedirect.com/science/article/pii/
S0960982213009160
• Από τα απολιθώματα συμπεραίνουμε ότι τα περισσότερα εξελικτικά φύλα

(κλάσεις) που συναντάμε σήμερα εμφανίστηκαν μέσα σε ένα εξαιρετικά
σύντομο χρονικό διάστημα (~542 - 521 εκατομύρια χρόνια πριν), στην
γεωλογική περίοδου του Κάμβριου. Το εξελικτικό αυτό γεγονός ονομάστηκε
«έκρηξη του Κάμβριου» (Cambrian Explosion).
• Αυτή η φαινομενικά ταχύτατη εμφάνιση τόσων πολλών και διαφορετικών
φύλων αποτελεί ένα παράδοξο στην εξελικτική θεωρία, που βασίζεται στην
ιδέα των σταδιακών αλλαγών διά της φυσικής επιλογής (Ο Δαρβίνος
προβληματίστηκε - χρησιμοποιείται και ως επιχείρημα από τους πολέμιους
της εξέλιξης).
• Φυλογενετικές αναλύσεις από γενετικά και μορφολογικά δεδομένα με την
μέθοδο του χαλαρού μοριακού ρολογιού δείχνουν ότι την περίοδο εκείνη ο
ρυθμός εξέλιξης ήταν 4-5 φορές ταχύτερος από άλλες περιόδους.
Απολιθώματα και μοριακή

χρονολόγιση

περιόδου
• Είναι δυνατόν αβιοτικοί παράγοντες να επηρέασαν τη διαδικασία
απολίθωσης.
• Το οξυγόνο αυξήθηκε δραματικά και πλησίασε στα σημερινά του
επίπεδα την περίοδο του Κάμβριου (580-542 ΜΥΑ).
• Μεγαλύτερη συγκέντρωση οξυγόνου επέτρεψε τους οργανισμούς να
αυξήσουν το μέγεθός τους.
• Μεγαλύτερο μέγεθος χρειάστηκε δομές που να συγκρατούν το βάρος.
Αυτές οι νέες δομές μπορεί να ήταν πιο εύκολο να διατηρηθούν ως
απολιθώματα.
• Πιθανόν, η μορφολογία των οργανισμών στην προ-κάμβρια περίοδο να
μην επέτρεπε την απολίθωσή τους.
Φυλογένεση γονιδίων
Βρίσκουμε τις ομόλογες ακολουθίες στους οργανισμούς που μας ενδιαφέρουν και ακολουθεί
φυλογένεση, για να καταλάβουμε πότε συνέβησαν οι γονιδιακοί διπλασιασμοί, και ποιά
ομόλογα είναι πιο κοντινά μεταξύ τους.
Πρέπει να γνωρίζουμε τις εξελικτικές σχέσεις των οργανισμών
• Απώλεια αντίγραφου
Δειγματοληψία ορθόλογων από πιο απομακρυσμένους οργανισμούς, μέχρι

να εντοπιστεί ο χρόνος που συνέβη ο διπλασιασμός. Απολιθώματα
βοηθούν στην χρονολόγιση
Δένδρα συναίνεσης
• Μια μέθοδος μπορεί να οδηγήσει σε περισσότερα από ένα
εξίσου καλά δένδρα.
• Ή, από τα ίδια δεδομένα, δημιουργούνται δένδρα με
διαφορετικές μεθόδους.
• Το δένδρο συναίνεσης δείχνει ποιοί κόμβοι είναι κοινοί μεταξύ
των διαφόρων δένδρων.
• Για κόμβους που δεν παρατηρείται συμφωνία, εμφανίζονται ως
πολυτομημένοι.
• Μέθοδοι δημιουργίας δένδρου συναίνεσης:
– απόλυτη συναίνεση (strict consensus) (100%)
– Μέθοδος πλειοψηφίας (majority rule) (>50%)
Δένδρα συναίνεσης
• Το παράδειγμα της φυλογενετικής σχέσης ανθρώπου-χιμπατζή-
γορίλα
Πόσα πιθανά δένδρα;

• Το σύνολο των πιθανών διαφορετικών δένδρων για ένα αριθμό

taxa αυξάνει εκθετικά
Μέθοδοι Φυλογένεσης
•  Μέθοδοι που βασίζονται σε αποστάσεις
–  UPGMA
–  Κοντινότερης γειτονίας (Neighbor joining)
–  Fitch-Margoliash
–  Ελάχιστης εξέλιξης
•  Μέθοδοι που βασίζονται σε χαρακτήρες

–  Μέγιστη φειδωλότητα (Maximum Parsimony)
–  Μέγιστη πιθανοφάνεια (Maximum Likelihood)
Μέθοδοι αποστάσεων
•  Αρχικά υπολογίζονται οι αποστάσεις ανάµεσα σε όλα τα πιθανά ζεύγη
•  Δηµιουργείται ένας πίνακας αποστάσεων.
•  Με βάση τον πίνακα αυτό, δηµιουργούνται δένδρα µε µεθόδους που
βασίζονται:
–  Στην οµαδοποίηση. Η οµαδοποίηση ξεκινάει από τις πιο κοντινές
ακολουθίες και σταδιακά ενσωµατώνει όλο και πιο
αποµακρυσµένες:
•  UPGMA
•  Neighbor joining
–  Στην βελτιστοποίηση. Ο αλγόριθµος συγκρίνει τις πιθανές
τοπολογίες και επιλέγει αυτή που οι αποστάσεις πάνω στο δένδρο
ταιριάζουν καλύτερα µε τις αποστάσεις στον αρχικό πίνακα
αποστάσεων:
•  Fitch-Margoliash
•  Ελάχιστη εξέλιξη
Υπολογισµός της απόστασης

µεταξύ δύο ακολουθιών
•  Παρατηρούµενη απόσταση: από την στοίχιση, µπορούµε να δούµε σε
ποιές θέσεις δεν ταιριάζουν οι χαρακτήρες.
•  Η παρατηρούµενη απόσταση δεν συµπίπτει µε την πραγµατική
(εξελικτική) απόσταση, λόγω πολλαπλών αντικαταστάσεων στην ίδια
θέση. Όσο µεγαλύτερη η απόσταση, τόσο πιο πολλές αντικαταστάσεις
συνέβησαν στην ίδια θέση.
Υπολογισµός της απόστασης

µεταξύ δύο ακολουθιών
Διόρθωση της απόστασης µεταξύ 2

Μοντέλα αντικατάστασης
•  Στατιστικά µοντέλα που λαµβάνουν υπόψην τις πολλαπλές
αντικαταστάσεις (για την ίδια θέση) και διορθώνουν την
παρατηρούµενη απόσταση, µετατρέποντας την σε εξελικτική.
•  Αν η απόσταση είναι πολύ µεγάλη, τότε έχει επέλθει κορεσµός
και δεν είναι δυνατόν να γίνει σωστή διόρθωση.
Μοντέλο αντικατάστασης
Jukes - Cantor
•  Είναι το απλούστερο µοντέλο για ακολουθίες DNA.
•  κάθε νουκλεοτίδιο εµφανίζεται µε την ίδια συχνότητα
•  έχει την ίδια πιθανότητα να µεταλλαχθεί σε ένα από τα
υπόλοιπα 3 νουκλεοτίδια
Kimura
•  Πιο εξελιγµένο µοντέλο.
•  κάθε νουκλεοτίδιο εµφανίζεται µε την ίδια συχνότητα
•  Θεωρεί ότι οι µεταπτώσεις έχουν άλλη πιθανότητα να συµβούν, από ότι
οι µεταστροφές.
Kimura
Mοντέλα αντικατάστασης για DNA
Διόρθωση των παρατηρούµενων

αποστάσεων για πρωτεΐνες
Διόρθωση των παρατηρούµενων

αποστάσεων για πρωτεΐνες
•  Διόρθωση µε πίνακες αντικατάστασης:
–  PAM
–  JTT (Jones-Taylor-Thornton)
•  Διόρθωση µε αντίστοιχες µεθόδους Jukes-Cantor ή Kimura,

προσαρµοσµένες για πρωτεΐνες.
UPGMA
•  Βασίζεται στην υπόθεση ότι όλες οι ακολουθίες εξελίσονται µε ένα σταθερό

ρυθµό και ότι όλες απέχουν το ίδιο από την ρίζα (κοινό πρόγονο).
•  Το τελευταίο τάξον που ενσωµατώνεται αποτελεί και την εξωοµάδα. Ουσιαστικά,
δηµιουργείται δένδρο µε ρίζα.
•  Αποδέχεται την ύπαρξη ενός µοριακού ρολογιού µε σταθερή ταχύτητα.
•  Στην πραγµατικότητα, αυτό δεν ισχύει.
•  Σήµερα, το UPGMA χρησιµοποιείται περισσότερο για την οµαδοποίηση
δεδοµένων από µικροσυστοιχίες και όχι για φυλογένεση.
•  Είναι ένας γρήγορος αλγόριθµος κατασκευής δένδρων.
UPGMA
UPGMA
UPGMA
Μέθοδος σύνδεσης γειτονίας

neighbor joining
•  Είναι παρόµοια µέθοδος µε το UPGMA.
•  Ωστόσο, δεν θεωρεί ότι όλες οι ακολουθίες εξελίσονται µε τον
ίδιο ρυθµό.
•  Το δένδρο που παράγεται είναι άρριζο και πρέπει εµείς να
επιλέξουµε που είναι η ρίζα.
Μέθοδοι βελτιστοποίησης
•  Οι µέθοδοι που βασίζονται σε οµαδοποίηση παράγουν ένα
δένδρο.
•  Δεν γνωρίζουµε πόσο καλύτερο είναι αυτό το δένδρο από άλλα
εναλλακτικά δένδρα.
•  Οι µέθοδοι βελτιστοποίησης ελέγχουν τα διάφορα πιθανά
δένδρα και βρίσκουν αυτό που ταιριάζει καλύτερα στον αρχικό
πίνακα αποστάσεων.

•  Το σύνολο των πιθανών διαφορετικών δένδρων για ένα αριθµό
taxa αυξάνει εκθετικά
Fitch-Margoliash
•  Διερευνά για το κάθε πιθανό δένδρο ποιές είναι οι αποστάσεις µε βάσει
αυτό και στην συνέχεια επιλέγει το δένδρο που η υπολογισµένες του
αποστάσεις αποκλίνουν το λιγότερο δυνατό από τον αρχικό πίνακα
αποστάσεων.
Ελάχιστη εξέλιξη
•  Παρόµοιο µε το Fitch-Margoliash.
•  Διερευνά τα πιθανά δένδρα.
•  Επιλέγει το δένδρο που το συνολικό µήκος των βραχιόνων του
είναι το ελάχιστο δυνατό, για τα υπάρχοντα δεδοµένα
αποστάσεων.
•  Η µέθοδος αυτή είναι λίγο καλύτερη από την Fitch-Margoliash.
Υπέρ και κατά µεθόδων

βασισµένων σε αποστάσεις
•  Οι µέθοδοι βελτιστοποίησης δίνουν καλύτερα αποτελέσµατα
από τις µεθόδους οµαδοποίησης, αλλά είναι πιο αργές.
•  Αν τα δεδοµένα είναι πολλά, τότε προτιµάται µια µέθοδος
οµαδοποίησης.
•  Οι µέθοδοι αποστάσεων διορθώνουν τις παρατηρούµενες
αποστάσεις. Όταν οι ακολουθίες είναι αποµακρυσµένες, αυτή η
διόρθωση έχει µεγάλες επιπτώσεις και πρέπει να γίνεται.
•  Με τις µεθόδους αποστάσεων χάνεται πληροφορία και δεν είναι
δυνατόν να ανακατασκευαστεί µια προγονική ακολουθία.
Μέθοδοι που βασίζονται σε χαρακτήρες
Μέγιστη φειδωλότητα (Maximum Parsimony)
Μέγιστη πιθανοφάνεια (Maximum Likelihood)
Βασίζονται στους χαρακτήρες των ακολουθιών και όχι στις

αποστάσεις µεταξύ των ακολουθιών.
Είναι δυνατή η ανακατασκευή των προγονικών ακολουθιών.
Μέγιστη φειδωλότητα
(Maximum Parsimony)
•  Διερευνά τα πιθανά δένδρα και επιλέγει το/τα δένδρο/α που εξηγεί τα

δεδοµένα µε τα λιγότερα δυνατά εξελικτικά βήµατα / αντικαταστάσεις.
•  Επιτρέπει την ανακατασκευή προγονικών ακολουθιών.
•  Βασίζεται στο ξυράφι του Όκαµ (13ος αιώνας), όπου η πιο σύντοµη/
απλή εξήγηση είναι µάλλον και η πραγµατική.
•  Δεν λαµβάνει υπόψην το γεγονός ότι περισσότερες από µια
αντικαταστάσεις συνέβησαν στην ίδια θέση.
•  Εποµένως, για κοντινές ακολουθίες λειτουργεί καλά, για
αποµακρυσµένες ακολουθίες, που αυξάνεται η πιθανότητα πολλαπλών
αντικαταστάσεων στην ίδια θέση, είναι προβληµατική µέθοδος.
(Maximum Parsimony)
•  Δεν χρησιµοποιεί όλες τις θέσεις µια πολλαπλής στοίχισης, άλλα µόνο
εκείνες που έχουν αρκετή πληροφορία για να επιτραπεί ο διαχωρισµός/
οµαδοποίηση των ακολουθιών.
•  Τέτοιες θέσεις πρέπει να έχουν τουλάχιστον 2 ειδών διαφορετικούς
χαρακτήρες και ο κάθε ένας από αυτούς να υπάρχει τουλάχιστον σε 2
ακολουθίες.
(Maximum Parsimony)
•  Για την κάθε πιθανή τοπολογία δένδρου, υπολογίζεται πόσα συνολικά
εξελικτικά βήµατα / αντικαταστάσεις χρειάζονται (στο σύνολο των θέσεων
που χρησιµοποιούνται).
•  Επιλέγεται το δένδρο µε τα λιγότερα εξελικτικά βήµατα.
•  Συχνά, υπάρχουν περισσότερες από µια βέλτιστες λύσεις/δένδρα, γιατί δεν
γνωρίζουµε ποιοί ήταν πραγµατικά οι χαρακτήρες στις προγονικές
ακολουθίες. Τότε δηµιουργείται ένα δένδρο συναίνεσης από τα εξίσου
βέλτιστα δένδρα.
Αναζητώντας το καλύτερο
δένδρο
•  Όταν ο αριθµός των taxa είναι µικρός, τότε µπορούν να
υπολογιστούν όλα τα δυνατά δένδρα (brute force).
•  Όταν 10< taxa <20, τότε εφαρµόζεται το branch and bound.
•  Όταν taxa > 20, εφαρµόζονται ευρετικές µέθοδοι.
δένδρο
δένδρο
•  Branch and bound.
•  Δηµιουργείται το δένδρο µε UPGMA ή neighbor joining.
•  Υπολογίζονται τα εξελικτικά βήµατα για αυτό το δένδρο.
•  Ο αριθµός αυτός αποτελεί την ‘οροφή’. Ένα δένδρο µέγιστης
φειδωλότητας θα πρέπει να έχει τον ίδιο αριθµό βηµάτων ή και
µικρότερο.
•  Καθώς χτίζεται σταδιακά το δένδρο φειδωλότητας, αν σε κάποιο στάδιο
κάποιες επιλογές καταλήγουν σε βήµατα που ξεπερνούν την οροφή,
τότε απορρίπτεται το συγκεκριµµένο µονοπάτι
δένδρο
•  Ευρετικές µέθοδοι:
δένδρο
–  Δηµιουργείται ένα δένδρο µε neighbor joining και υπολογίζονται
τα εξελικτικά βήµατα για το συγκεκριµµένο δένδρο.
–  Δοκιµάζονται τροποποιήσεις πάνω στο δένδρο αυτό. Αν βρεθεί
ένα τροποποιηµένο δένδρο µε µικρότερο αριθµό εξελικτικών
βηµάτων, τότε επιλέγεται αυτό και οι τροποποιήσεις γίνονται
πάνω του, έως ότου βρεθεί ένα ακόµα καλύτερο δένδρο. Η
διαδικασία συνεχίζεται έως ότου να µην βρίσκεται καλύτερο
δένδρο.
•  Ευρετικές µέθοδοι είναι γρήγορες, όµως δεν δίνουν πάντοτε την

καλύτερη λύση.
δένδρο
(Maximum Parsimony)
•  Δεν διορθώνει για πολλαπλές αντικαταστάσεις πάνω στην ίδια
θέση, άρα είναι προβηµατική όταν µελετάµε αποµακρυσµένες
ακολουθίες.
•  Δεν χρησιµοποιεί όλες τις θέσεις µιας πολλαπλής στοίχισης.
•  Η λύση επηρεάζεται από τον αλγόριθµο αναζήτησης του
καλύτερου δένδρου.
•  Είναι επιρρεπής στην έλξη µεταξύ µακρινών βραχιόνων (long
branch attraction).
Έλξη µεταξύ µακρινών βραχιόνων

(long branch attraction).
•  Τάξα που εξελίσονται µε γρήγορους ρυθµούς και εποµένως έχουν
µακρείς βραχίονες, έλκονται µεταξύ τους.
Μέγιστη πιθανοφάνεια
•  Βασίζεται σε χαρακτήρες.
•  Χρησιµοποιεί όλες τις θέσεις µια πολλαπλής στοίχισης.
•  Χρησιµοποιεί πιθανότητες και µοντέλα αντικατάστασης.
•  Υπολογίζονται οι χαρακτήρες σε κάθε προγονική ακολουθία.
•  Υπολογίζει για το κάθε πιθανό εξελικτικό µονοπάτι (προγονικές
ακολουθίες και δένδρο) την πιθανότητα του, µε βάση τα
παρατηρούµενα σηµερινά δεδοµένα και ένα συγκεκριµµένο µοντέλο
εξέλιξης (µοντέλο αντικατάστασης).
•  Οι πιθανότητες µετατρέπονται σε log-likelihood scores.
•  Δένδρο µε το µεγαλύτερο log-likelihood score επιλέγεται.
Μέγιστη πιθανοφάνεια
Αξιολόγηση του δένδρου

•  Bootstrap:
–  Τυχαία δειγµατοληψία θέσεων της πολλαπλής στοίχισης.
–  Μια θέση µπορεί να επιλεγεί περισσότερες από µια φορές ή και καµία.
–  Δηµιουργία µιας νέας αλλαγµένης πολλαπλής στοίχισης
–  Η διαδικασία επαναλαµβάνεται 100-1000 φορές.
–  Για κάθε νέα πολλαπλή στοίχιση, υπολογίζεται το δένδρο.
–  Τα νέα δένδρα συγχωνεύονται σε ένα νέο δένδρο (consensus tree).
–  Boostrap -> συχνότητα εµφάνισης ενός κόµβου.
–  Bootstrap 70% -> 95% εµπιστοσύνη.
–  Αν η µεθοδολογία δηµιουργίας του δένδρου είναι λάθος, µπορεί να πάρουµε
υψηλές τιµές bootstrap για το λάθος δένδρο.
bootstrap
Jacknife
•  To Jacknife είναι παρόµοιο µε το bootstrap.

•  Επιλέγονται τυχαία (δίχως αντικατάσταση) οι µισές στήλες της
•  Πρόβληµα: τα νέα δένδρα δηµιουργούνται από λιγότερα
δεδοµένα.
Tests που ελέγχουν αν ένα δένδρο

είναι καλύτερο από ένα άλλο
•  Συγκρίνονται 2 δένδρα στο σύνολό τους, µε στατιστικές µεθόδους π.χ.
Paired t-test ή χ2.
•  Το bootstrap ή το Jacknife ελέγχει την αξιοπιστία του κάθε επιµέρους
κλάδου.
•  Για κάθε µέθοδο κατασκευής δένδρων χρησιµοποιείται και το
αντίστοιχο τεστ.
•  Για µέγιστη φειδωλότητα:
–  Kishino-Hasegawa test. 2 δένδρα, Ν πληροφοριακές θέσεις. Για κάθε θέση,
υπολογίζεται το µήκος βραχιόνων του καθένα από τα 2 δένδρα. Αυτό γίνεται
και για τις Ν θέσεις. Οι τιµές χρησιµοποιούνται σε paired t-test, για να φανεί
αν η διαφορά µεταξύ των 2 δένδρων είναι στατιστικά σηµαντική.
•  Για µέγιστη πιθανοφάνεια:
–  Shimodaira-Hasegawa test. Αρχικά υπολογίζονται τα log-likelihood scores
για τα 2 δένδρα. Οι βαθµοί ελευθερίας εξαρτώνται από το µοντέλο εξέλιξης
που χρησιµοποιείται. Χρησιµοποιείται το χ2.
Γονιδιωµατική
Οι τεχνολογίες
Κυριότερες τεχνολογίες
•  Sanger
•  454 pyrosequencing
•  Solid
•  Illumina
•  Ion torrent / Ion proton

•  Oxford Nanopore
Shotgun sequencing
•  http://www.nature.com/nature/journal/v470/n7333/pdf/nature09796.pdf
•  A decade’s perspective on DNA sequencing technology
•  Elaine R. Mardis
Sequencing technologies
•  Illumina:
–  χαμηλότερη ακρίβεια στην αναγνώριση βάσεων
•  Solid:
–  πολλά reads δεν ταιριάζουν πουθενά στο γονιδίωμα!
•  Roche 454 pyrosequencing
–  λάθη στον αριθμό των βάσεων εντός μιας περιοχής ομοπολυμερών
(π.χ. AAAAAAAAAAAAAAAAA)
•  Sanger:
–  χρειάζεται σχετικά μεγάλες ποσότητες DNA
Reads
•  Sanger: μήκος: 1000-2000 bp
•  454: 450Mbp/run - μήκος: ~330bp
•  Illumina: 18-35 Gbp/run - μήκος: ~75-100bp
•  SOLID: 30-50 Gbp/run - μήκος: 50bp
Illumina
http://www.youtube.com/watch?v=77r5p8IBwJk&feature=related
http://www.ncbi.nlm.nih.gov/pubmed/19997069
Ion Proton
http://www.lifetechnologies.com/global/en/home/about-us/news-gallery/press-releases/2012/life-techologies-itroduces-the-bechtop-io-proto.html
Ion Proton
Ion torrent chemistry
http://www.youtube.com/watch?v=yVf2295JqUg
http://www.youtube.com/iontorrent
Ουσιαστικά είναι ένα πολύ µικρό pH-meter

Δεν βασίζεται σε ανίχνευση φωτός!
Εικόνα Από Elaine Mardis

Oxford Nanopore
(Στο εγγύς µέλλον;)
Nanopore
http://www.youtube.com/watch?v=UWcCbIRPzvs
http://www.nanoporetech.com/technology/minion-a-
miniaturised-sensing-instrument
Biological Nanopore
http://www.nanoporetech.com/technology/introduction-to-nanopore-sensing/introduction-to-nanopore-sensing
Solid state (Graphene) Nanopore
http://www.nanoporetech.com/technology/introduction-to-nanopore-sensing/solid-state-
nanopores
Pacific Biosciences
http://www.youtube.com/watch?v=NHCJ8PtYCFc
http://www.youtube.com/watch?v=GX6RSKh4J7E
SMRT techonology – real time single molecule sequencing
Pacific Biosciences
The sequence read archive:

explosive growth of
sequencing data
•  http://nar.oxfordjournals.org/content/40/D1/D54.full
•  Illumina™ platform comprises 84% of sequenced bases, with

SOLiD™ and Roche/454™ platforms accounting for 12% and
2%, respectively.
•  The most active SRA submitters in terms of submitted bases are

the Broad Institute, the Wellcome Trust Sanger Institute and
Baylor College of Medicine with 31, 13 and 11%, respectively.
The largest individual global project generating next-generation
sequence is the 1000 Genomes project which has contributed
nearly one third of all bases.
http://omicsmaps.com/
http://omicsmaps.com/
Χαµηλό κόστος γενωµικών τεχνολογιών θα οδηγήσει
σε καθηµερινές εφαρµογές
•  Ο νόµος του Moore προβλέπει διπλασιασµό της υπολογιστικής ισχύς
κάθε δύο χρόνια.
http://genomebiology.com/content/pdf/gb-2011-12-8-125.pdf
Συναρµολόγιση Γονιδιωµάτων
Με Βιοπληροφορική
Shotgun sequencing
Sequencing
•  Single end reads
•  Paired end reads
Sequencing - paired end reads

Reads
•  454
•  Illumina
•  SOLID
SOLID: ~50% reads δεν

στοιχίζονται στο γονιδίωμα,
από το οποίο έγινε το
Sequencing! Εδώ, το πρόβλημα εντοπίζεται στην
Πρόβλημα στις χημικές συσσώρευση λαθών κατά την
αντιδράσεις μάλλον. ενσωμάτωση φθοριζόντων dNTPs.
Sequence read – Fastq format
Τα σύμβολα στην τελευταία γραμμή αντιστοιχούν σε τιμές Q,

για την κάθε μια βάση που αλληλουχίθηκε.
To Q-score είναι μια ακέραια τιμή που προκύπτει από την

πιθανότητα να έχει γίνει λάθος στην αλληλούχιση μιας
συγκεκριμένης βάσης.
Αν p = πιθανότητα να έχει γίνει λάθος στην αλληλούχιση της
συγκεκριμένης βάσης, τότε:
Q=-10log10(p)
Q=30 -> p=0.001 (πολύ καλής ποιότητας αλληλούχιση)

Q=13 -> p=0.05
Sequence reads – Έλεγχος ποιότητας
δεδοµένων (quality control)
Πολύ υψηλής ποιότητας
δεδομένα.
Χαμηλής ποιότητας
δεδομένα.
Sequence reads – Φιλτράρισµα/trimming
Είτε θα αποφασίσουμε να κόψουμε όλα τα sequence reads σε μια

συγκεκριμένη θέση, μετά την οποία η ποιότητα αλληλούχισης
πέφτει σημαντικά στα περισσότερα
Είτε θα κόψουμε τα προβληματικά κομμάτια για το κάθε sequence

read χωριστά. Μετά θα απορριφθούν όλες τα κομμένα sequence
reads που έχουν πολύ μικρό μήκος.
Lander - Waterman
•  Πόσο sequencing coverage απαιτείται για να μπορεί να
συναρμολογηθεί ένα γονιδίωμα?
•  Τουλάχιστον 8-10Χ
•  Το παράδειγμα δείχνει πόσα

contigs θα δημιουργηθούν
θεωρητικά, ανάλογα με την
κάλυψη (coverage) του
χρωμοσώματος.
•  Όσο μεγαλύτερη η κάλυψη, σε
τόσο λιγότερα κομμάτια θα είναι
σπασμένο το ανακατασκευασμένο
χρωμόσωμα
•  Στην πράξη, ο αριθμός των contigs
είναι μεγαλύτερος από το
αναμενόμενο.
Lander - Waterman
•  Στην πράξη, ο αριθμός των contigs
είναι μεγαλύτερος από το
αναμενόμενο, γιατί:
•  Πάντα υπάρχει μια πιθανότητα για
μια περιοχή να μην αλληλουχιθεί
•  Κάποια κομμάτια σπασμένου DNA
είναι τοξικά σε φορείς
κλωνοποίησης (π.χ. στην E.coli).
•  Επαναλήψεις
Προβλήµατα συναρµολόγισης
από επαναλήψεις - contigs
Προβλήµατα συναρµολόγισης
από επαναλήψεις - scaffolds
Αφού έχουν γίνει τα scaffolds, όποια κενά υπάρχουν καλύπτονται

με στοχευμένη αλληλούχιση - gap closure
Διαφορετικά προγράµµατα
Κενά µετά την συναρµολόγιση

De novo
Reference
alignment
•  Οι επαναλήψεις μπορεί να
εμποδίσουν την πλήρη
θεωρητικό συναρμολόγιση του
γονιδιώματος
•  Το επιλεγμένο μήκος
του sequence read
καθορίζει αν θα
μπορέσει να
συναρμολογηθεί μια
επανάληψη
Μεγαλύτερο μήκος sequence read = λιγότερα κενά

•  Οι επαναλήψεις
μπορεί να
εμποδίσουν την
πλήρη
συναρμολόγιση του
γονιδιώματος
Κάλυψη αλληλούχισης
100Χ για 6
οργανισμούς
36nt reads
Τα κενά δεν
εξαρτώνται μόνο
από το βάθος
κάλυψης
αλληλούχισης και το
125nt reads
μήκος των sequence
reads, αλλά και από
τον ίδιο οργανισμό
500nt reads
Τα περισσότερα βακτηριακά γονίδια µπορούν

να συναρµολογηθούν
•  Μικρού μήκους reads

μπορούν να
συναρμολογήσουν
τα περισσότερα
γονίδια, αλλά σπάνε
το γονιδίωμα σε
πολλά μικρά
κομμάτια (contigs)
Μικρού μήκους reads μπορούν να συναρμολογήσουν τα περισσότερα

γονίδια, αλλά σπάνε το γονιδίωμα σε πολλά μικρά κομμάτια (contigs)

Γονιδιωματικά στοιχεία που προκαλούν προβλήματα στην

συναρμολόγιση:
Μεταθετά στοιχεία
transposons
Intergenic repeats
Insertion sequences
prophages
Γονίδια που συνήθως δεν μπορούν να συναρμολογηθούν:

Transposases
Phages
Ιntegrases
Γονίδια που σχετίζονται με την αποφυγή του ανοσοποιητικού
συστήματος (έχουν επαναλήψεις)
De novo Sequence assemby
•  http://www.cbcb.umd.edu/research/assembly_primer.shtml
•  De novo assembly
–  Greedy extention
–  OLC
–  De Bruijn graph
–  Hybrid
Greedy assemblers
Overlap - layout - consensus
(OLC)
Γραφήµατα De Bruijn
De bruijn graph
Comparative assembly
BAC-by-BAC sequencing
Short read alignment

Τιµή Ν50
•  Η τιμή αυτή αντιστοιχεί σε εκείνο το μήκος contigs, ώστε το
50% του γονιδιώματος (μετά από de novo assembly) να
εντοπίζεται σε contigs αυτού το μήκους ή μεγαλύτερου.
•  Μεγάλη τιμή του Ν50 σημαίνει ότι το μεγαλύτερο μέρος του

γονιδιώματος βρίσκεται σε λίγα και μεγάλα contigs.
•  Δηλαδή, τόσο καλύτερη η συναρμολόγιση.
•  Μικρή τιμή σημαίνει ότι το γονιδίωμα δεν έχει

συναρμολογηθεί καλά.
Κάλυψη του γονιδιώµατος και κορεσµός
•  Δεν έχει νόημα να

αλληλουχίσουμε ένα
γονιδίωμα με
υπερβολικά μεγάλη
κάλυψη (coverage),
για μια συγκεκριμένη
τεχνολογία και
μήκος sequence
reads, γιατί από ένα
σημείο και μετά έχει
επέλθει κορεσμός.
Reference assembly/alignment
Επανάληψη 1 Μοναδική περιοχή 1 Επανάληψη 2 Μοναδική περιοχή 2 Επανάληψη 3
Αλληλούχιση µε Sequence Reads
Συναρµολόγιση µε βάση γονιδίωµα αναφοράς
Sequence Reads που µπορούν να στοιχιθούν

σε περισσότερες από µια θέσεις δεν στοιχίζονται
Μόνο στοίχιση των Sequence Reads που έχουν µια µοναδική θέση
Εφαρµογές
‘Ελεγχος εξελικτικών υποθέσεων -
Προέλευση -
Επιδηµιολογία
Σύγκριση γονιδιωµάτων - ACT
BLASTN comparison of part of three sequences: Escherichia coli K12, Salmonella Typhi CT18
and Salmonella Typhimurium LT2 (from top to bottom).

• Αλληλούχιση του γονιδιώµατος:
• 2 κλινικών στελεχών από την τωρινή επιδηµία στην Αϊτή.
• 1 κλινικό στέλεχος από την επιδηµία του 1991 στη Νότια Αµερική.
• 2 στέλεχη που αποµονώθηκαν στη Νότια Ασία το 2002 και 2008.
• Επίσης χρησιµοποιήθηκαν οι µερικές αλληλουχίες από 23 άλλα στελέχη ανά την

υφήλιο (τα τελευταία 98 χρόνια).
• 1588 συντηρηµένα ορθόλογα γονίδια χρησιµοποιήθηκαν από το κάθε στέλεχος,
για να γίνει το φυλογενετικό δένδρο.
Οι ανθρώπινοι εντερότυποι
http://www.nature.com/nature/journal/v473/n7346/full/nature09944.html
Οι ανθρώπινοι εντερότυποι
•  Χρησιμοποιήθηκαν 22 μεταγενώματα κοπράνων, μαζί με
προηγούμενα δημοσιευμένα δεδομένα (13+2+2), σύνολο 39.
•  Δείγματα από 4 κράτη (Δανία, Γαλλία, Ιταλία, Ισπανία).
•  Από προηγούμενες έρευνες, δείγματα από Ιαπωνία, Αμερική
•  Εντοπίστηκαν 3 βασικοί εντερότυποι.

•  12 γονίδια συσχετίζονται με την ηλικία.
•  3 λειτουργικές ομάδες (functional modules) συσχετίζονται με τον
δείκτη μάζας σώματος.
Μέγεθος µικροβιακού γονιδιώµατος

Μέγεθος γονιδιώµατος και
τρόπος διαβίωσης
Στους προκαρυώτες, ο αριθµός γονιδίων

συσχετίζεται µε το µέγεθος του γονιδιώµατος
Μικρές διαγονιδιακές περιοχές

(intergenic regions).
Ίσως το πολύ υψηλό effective

population size στους
προκαρυώτες επιτρέπει να
διατηρούν τόσο συµπυκνωµένο
γονιδίωµα.
Πολυπλοκότητα των
οργανισµών και παράδοξο της
τιµής Ν.
Προφάγοι στο γονιδίωµα
Πόσο σταθερή είναι η αρχιτεκτονική ενός

γονιδιώµατος.
Dotplot για ορθόλογα γονίδια

µεταξύ δύο προκαρυωτών του
ίδιου είδους.
Κάθε κουκίδα στο Dotplot είναι

η θέση του ορθόλογου γονιδίου
σε δύο διαφορετικά
γονιδιώµατα.
Κάποιοι οργανισµοί έχουν

σταθερή γονιδιωµατική
αρχιτεκτονική και κάποιοι άλλοι
όχι.
Λειτουργική γονιδιωµατική
Λειτ. Γονιδιωματική
Λειτουργική γονιδιωµατική: Τι είναι

•  Προσπαθεί να κατανοήσει τις λειτουργίες των βιολογικών µορίων, σε
επίπεδο ολόκληρου του γονιδιώµατος.
•  Γίνονται µετρήσεις για το σύνολο των γονιδίων, σε µια συγκεκριµένη
στιγµή ή κατάσταση.
•  Αρχικά, οι µετρήσεις γίνονταν για ένα βιοµόριο. Σήµερα µελετάµε την
συµπεριφορά ολόκληρου του συστήµατος.
•  Η µελέτη της µεταγραφής του συνόλου των γονιδίων ονοµάζεται
µεταγραφωµατική ή transcriptomics.
Λειτ. Γονιδιωματική
Transcriptomics
•  Expressed sequence tags (ESTs)
•  Serial analysis of gene expression (SAGE)
•  Μικροσυστοιχίες (microarrays)
•  RNA-seq (whole transcriptome shotgun sequencing)
mRNA abundance ratios versus protein-abundance ratios.
Griffin T J et al. Mol Cell Proteomics 2002;1:323-333

Διαφορική έκφραση γονιδίων
Microarrays & RNA-Sequencing
Μικροσυστοιχίες
RNA-SEQ
Reference assembly/alignment
Αλληλούχιση µε Sequence Reads
Συναρµολόγιση µε βάση γονιδίωµα αναφοράς
Sequence Reads που µπορούν να στοιχιθούν

σε περισσότερες από µια θέσεις δεν στοιχίζονται
Μόνο στοίχιση των Sequence Reads που έχουν µια µοναδική θέση
Reference assembly
Short read aligners

•  Bowtie
•  BWA
•  STAR
•  RPKM – Reads per

kilobase million
•  FPKM – fragments per
kilobase million
•  TPM - Transcripts per
million (TPM)
Log2
•  Αν το γονίδιο εκφράζεται περισσότερο στην Α συνθήκη (κόκκινη χρωστική)
από ότι στην control (πράσινη χρωστική), τότε ο λόγος συνθήκη_Α/control
(κόκκινη/πράσινη) θα είναι λ>1, αλλιώς σε αντίθετη περίπτωση 0<λ<1.
•  Αν το γονίδιο εκφράζεται µε διπλάσια ένταση στην συνθήκη Α, σε σχέση µε
την συνθήκη control, τότε ο λόγος θα είναι λ=2.
•  Αν το γονίδιο εκφράζεται µε τη µισή ένταση στην συνθήκη Α, σε σχέση µε
την συνθήκη control, τότε ο λόγος θα είναι λ=0.5.
•  Μετατρέποντας τους λόγους σε log2, έχουµε:
–  λ=2 -> log2λ=1
–  λ=0.5 -> log2λ=-1
–  Με την κανονικοποίηση σε log2 τα δεδοµένα γίνονται συµµετρικά.
Κανονικοποίηση κλίμακας
Scale normaliza:on
Data a=er Median Centering and Scale
Normalizing
Υπερ/υπο-έκφραση
•  Πότε θεωρούµε ότι ένα γονίδιο υπερ/υπό-εκφράζεται σε µια
συγκεκριµµένη συνθήκη.
–  Log2λ > 1 ή Log2λ < -1 (διπλάσια/υποδιπλάσια έκφραση σε σχέση µε τη
συνθήκη control).
–  Με στατιστικές µεθόδους (t-test, ANOVA).
Volcano Plot
Οµαδοποίηση γονιδίων/συνθηκών
µε την ίδια συµπεριφορά.
•  Χρειαζόµαστε αρκετά σηµεία (διαφορετικές συνθήκες ή χρονικές
στιγµές)
•  Με µεθόδους αποστάσεων, όπου οι µετρήσεις ενός γονιδίου για
διαφορετικές συνθήκες αποτελούν ένα διάνυσµα.
•  Υπολογίζουµε αποστάσεις µεταξύ διαφορετικών διανυσµάτων
(γονιδίων).
–  Ευκλείδια απόσταση
–  Συντελεστής συσχέτισης Pearson (Pearson correlation
coefficient).
–  Δηµιουργείται πίνακας αποστάσεων µεταξύ των γονιδίων.
–  Το αντίστοιχο µπορεί να γίνει και για να οµαδοποιήσουµε κοινές

συνθήκες.
towardsdatascience.com
Condi:on1 Condi:on2 Condi:on3 Condi:on4 Condi:on5 Condi:on1 Condi:on2

Gene1 1 -3 10 0 0 Gene1 1 -3
Gene2 -7 -2 -1 10 -8 Gene2 -7 -2
Gene3 2 1 9 -9 5 Gene3 2 1
Gene4 10 10 -4 0 -9 Gene4 10 10
Gene5 -2 9 -7 0 -7 Gene5 -2 9
Gene6 -6 6 -5 -3 9 Gene6 -6 6
Gene7 2 1 8 -1 -2 Gene7 2 1
Gene8 -3 -8 -1 -6 2 Gene8 -3 -8
Gene9 -10 0 9 6 0 Gene9 -10 0
Gene10 -2 4 5 -7 -6 Gene10 -2 4
Gene11 -2 -2 0 -9 10 Gene11 -2 -2
Gene12 -6 -10 -5 8 5 Gene12 -6 -10
Gene13 2 -8 1 -1 2 Gene13 2 -8
Gene14 -7 -9 -7 1 1 Gene14 -7 -9
Gene15 -6 4 -8 -1 -6 Gene15 -6 4
Gene16 -5 2 -5 8 -8 Gene16 -5 2
Gene17 8 -2 -7 0 2 Gene17 8 -2
Gene18 2 9 -9 9 3 Gene18 2 9
Gene19 -3 -1 7 -1 6 Gene19 -3 -1
Gene20 10 -4 3 -3 -1 Gene20 10 -4
Condi:on1 Condi:on2 Condi:on3 Condi:on4 Condi:on5

Gene1 1 -3 10 0 0
Gene2 -7 -2 -1 10 -8
Gene1 1 -3 10 0 0
Gene2 -7 -2 -1 10 -8
Gene1 Gene2 Gene3 Gene4 Gene5 Gene6 Gene7 Gene8 Gene9 Gene10 Gene11 Gene12 Gene13 Gene14 Gene15 Gene16 Gene17 Gene18 Gene19 Gene20
Gene1
Gene2
Gene3
Gene4
Gene5
Gene6
Gene7
Gene8
Gene9
Gene10
Gene11
Gene12
Gene13
Gene14
Gene15
Gene16
Gene17
Gene18
Gene19
Gene20
Condi:on1 Condi:on2
Gene1 1 -3
Gene2 -7 -2
Gene3 2 1
Gene4 10 10
Gene5 -2 9
Gene6 -6 6
Gene7 2 1
Gene8 -3 -8
Gene9 -10 0
Gene10 -2 4
Gene11 -2 -2
Gene12 -6 -10
Gene13 2 -8
Gene14 -7 -9
Gene15 -6 4
Gene16 -5 2
Gene17 8 -2
Gene18 2 9
Gene19 -3 -1
Gene20 10 -4

Condi:on1
Condi:on2
Condi:on3
Condi:on4
Condi:on5
UPGMA
UPGMA
UPGMA
Οµαδοποίηση
Οντολογίες
•  www.geneontology.org
•  Ελεγχόµενο λεξιλόγιο για την περιγραφή των ιδιοτήτων των γονιδίων

και των πρωτεϊνών.
•  Περιγράφουν:
–  Μοριακές λειτουργίες του βιοµορίου (1 ή περισσότερες).
–  Βιολογικές διαδικασίες στις οποίες εµπλέκεται το βιοµόριο (1 ή
περισσότερες).
–  Κυτταρικό διαµέρισµα στο οποίο συναντάται το βιοµόριο (1 ή
περισσότερα).
Gene ontology
Οντολογίες: Η δοµή τους
•  Δείχνει τις σχέσεις µεταξύ
των διαφορετικών όρων.
•  Ένας όρος µπορεί να

αποτελεί πιο
εξειδικευµένη περιγραφή
ενός άλλου όρου.
•  Είναι κατευθυνόµενα
ακυκλικά γραφήµατα
(DAG).
•  Παρόµοια µε ιεραρχίες.
•  Η διαφορά είναι ότι ένας

κόµβος-απόγονος µπορεί
να έχει περισσότερους
από έναν προγόνους.
Οντολογίες: Η δοµή τους

•  Θεωρούµε ότι αν σε ένα βιοµόριο αντιστοιχεί ένα όρος-οντολογία, τότε
σε αυτό το βιοµόριο ανήκουν και όλοι οι πρόγονοι του όρου-οντολογίας.
Gene ontology
Gene ontology
Gene ontology
Gene ontology
Οντολογίες: στατιστική ανάλυση
•  Παράδειγµα:
–  1 γονιδίωµα µε 10.000 γονίδια.
–  1.000 γονίδια εµπλέκονται στον κυτταρικό κύκλο (GO_term: cell-cycle).
(10% του γονιδιώµατος).
–  Αν επιλέξουµε τυχαία έναν αριθµό Χ γονιδίων, θα περιµέναµε (από τύχη)

περίπου το 10% (µε κάποιες διακυµάνσεις) να έχουν τον όρο “κυτταρικός
κύκλος”.
–  Η τυχαία διακύµανση εξαρτάται από τον αριθµό των γονιδίων.
–  Έστω ότι µε τα microarrays σε ένα πείραµα βρήκαµε ότι Χ αριθµός γονιδίων

υπερεκφράζονται.
–  Σε αυτό τον Χ αριθµό, βρήκαµε ότι 20% των γονιδίων ανήκουν στον
κυτταρικό κύκλο.
–  Αυτή η απόκλιση (20% παρατηρούµενο - 10% αναµενόµενο) είναι στα όρια
των τυχαίων διακυµάνσεων, ή είναι στατιστικά σηµαντική?
•  Στατιστικά σηµαντική, σηµαίνει ότι τα υπερεκφρασµένα γονίδια είναι
εµπλουτισµένα για την κατηγορία “κυτταρικός κύκλος ”. Δηλαδή, ο κυτταρικός
κύκλος εµπλέκεται στην διαδικασία που µελετάµε.
Οντολογίες:
στατιστική ανάλυση
•  Η στατιστική ανάλυση γίνεται µε το υπεργεωµετρικό τεστ.
•  Παίρνουµε ένα p-value.
•  Αν p-value < 0.05, τότε είναι στατιστικά σηµαντικό.
•  Αν στις οντολογίες µας είχαµε 100 όρους, θα επαναλαµβάναµε τα

παραπάνω τεστς για τον κάθε όρο.
•  Όµως, όσο περισσότερα τεστ κάνουµε για το πείραµά µας, τόσο αυξάνει ή
πιθανότητα να βρούµε κάτι στατιστικά σηµαντικό (p-value < 0.05) καθαρά
από λάθος.
•  Άρα, πρέπει να λάβουµε υπόψην µας πόσα τεστ διενεργούµε και να
διορθώσουµε τα p-values (multiple testing correction).
–  False discovery rate (Benjamini-Hochberger)
–  Bonferroni correction
In vitro
διαγνωστικά τεστ
που βασίζονται σε
µικροσυστοιχίες
FDA: In Vitro Diagnostic Multivariate Index

Assays (IVDMIAs)
•  FDA’s In Vitro Diagnostic Product Database
•  http://www.accessdata.fda.gov/scripts/cdrh/cfdocs/cfivd/index.cfm
•  Some IVDMIAs are laboratory-developed tests (LDTs). LDTs are tests that are
developed by a single clinical laboratory for use only in that laboratory.
•  http://www.fda.gov/MedicalDevices/DeviceRegulationandGuidance/
GuidanceDocuments/ucm079148.htm
•  IVDMIAs raise significant issues of safety and effectiveness. These types of tests are
developed based on observed correlations between multivariate data and clinical
outcome, such that the clinical validity of the claims is not transparent to patients,
laboratorians, and clinicians who order these tests. Additionally, IVDMIAs frequently
have a high risk intended use. FDA is concerned that patients are relying upon
IVDMIAs with high risk intended uses to make critical healthcare decisions when FDA
has not ensured that the IVDMIA has been clinically validated and the healthcare
practitioners are unable to clinically validate the test themselves. Therefore, there is a
need for FDA to regulate these devices to ensure that the IVDMIA is safe and
effective for its intended use.
Mammaprint - Tissue of origin
•  MammaPrint.
The first IVDMIA, the MammaPrint system, made by Agendia Inc., is a
qualitative IVD test service performed in a single lab outside the United States
using a 70-gene expression profile of fresh frozen breast cancer tissue samples
to assess a breast cancer patientﾕs risk for distant metastasis. FDA approved
MammaPrint in February 2007 under de novo classification procedures.
•  Tissue of Origin Test
In July 2008, the Tissue of Origin Test, made by Pathwork Diagnostics, was
cleared. This microarray RNA profiling test is to be used on clinical, formalin-
fixed, paraffin-embedded (FFPE) biopsy tissue to aid in the classification of the
origin of the tumor tissue. In June 2010 a second clearance introduced a
different specimen and specimen-preparation method, and the algorithm for
analysis of the expression data to create a diagnostics report and interpretation.
The test uses microarray technology by Affymetrix Inc. and advanced analytics
to measure the gene-expression patterns of challenging tumors, including
metastatic, poorly differentiated, and undifferentiated cancer. It is intended to
measure the degree of similarity between the RNA expression patterns in a
patient’s tumor tissue with the RNA expression patterns in a database of fifteen
known tumor types.
Mammaprint
Καρκίνοι αγνώστου προελεύσεως
•  Σε κάποιες περιπτώσεις εµφάνισης/επανεµφάνισης καρκίνου

είναι άγνωστη η πρωταρχική πηγή (ιστός), ακόµα και µετά από
µια σειρά διαγνωστικών τεστ/βιοψία.
•  Αυτό δεν επιτρέπει να χρησιµοποιηθεί ένα κατάλληλο
θεραπευτικό σχήµα.
•  Οι µικροσυστοιχίες επιτρέπουν να δηµιουργηθεί το προφίλ
γονιδιακής έκφρασης του συγκεκριµένου καρκίνου και να
συγκριθεί µε το προφίλ καρκίνων γνωστής προέλευσης.

•  Δηµιουργείται µια βάση από δεδοµένα µεταγραφωµικής
(από άλλες βάσεις δεδοµένων και βιβλιογραφία).
•  Τα δεδοµένα είναι από γνωστούς καρκίνους, κανονικούς
ιστούς, και από άλλες ασθένειες.
•  Τα δεδοµένα φιλτράρονται, κανονικοποιούνται.
•  Στη συνέχεια γίνεται σύγκριση.
•  http://genomemedicine.com/content/3/9/63/abstract
•  Classification of unknown primary tumors with a data-driven method based on
a large microarray reference database
•  Kalle A Ojala, Sami K Kilpinen and Olli P Kallioniemi
IVDMIA - FDA
•  http://www.fda.gov/NewsEvents/Newsroom/PressAnnouncements/2007/
ucm108836.htm
•  The MammaPrint is the first cleared in vitro diagnostic multivariate index
assay (IVDMIA) device.
•  http://www.fda.gov/NewsEvents/Newsroom/PressAnnouncements/2008/
ucm116931.htm
•  FDA Clears Test that Helps Identify Type of Cancer in Tumor Sample
•  The Pathwork Tissue of Origin test compares the genetic material of a
patient's tumor with genetic information on malignant tumor types stored in
a database.It uses a microarray technology to analyze thousands of pieces
of genetic material at one time. The test considers 15 common malignant
tumor types, including bladder, breast, and colorectal tumors.
1ο εργαστήριο
Γρηγόρης Αµούτζιας
Βάσεις Δεδοµένων: Εισαγωγή

Χρησιµοποιούνται για:
–  Oργάνωση
–  Αποθήκευση
–  Επεξεργασία
–  Αναζήτηση/επαναπόκτηση
της βιολογικής πληροφορίας
Κύρια είδη:
Επίπεδης οργάνωσης (Flat-files:) Το ποιό απλό είδος. Ουσιαστικά είναι

κατάλογοι
Σχεσιακές βάσεις. Πιο περίπλοκες και πλέον πολύ διαδεδοµένες . Π.χ.,

SQL. Η πληροφορία οργανώνεται σε πίνακες που σχετίζονται µεταξύ
τους. Έτσι αποφεύγεται η επανάληψη και συσσώρευση δεδοµένων
Αντικειµενοστρεφείς βάσεις κ.α.
Διακρίνονται κυρίως σε αρχειακές/πρωτεύοντες και δευτερεύοντες

Στις αρχειακές γίνεται κατάθεση δεδοµένων ενώ στις δευτερεύοντες τα
δεδοµένα είναι περαιτέρω επεξεργασµένα/σχολιασµένα/
αλληλοσυνδεδεµένα
Ετήσιος κατάλογος Β.Δ.
•  Κάθε Ιανουάριο στο Nucleic

Acids Research (Special
database issue)
•  2010: 58 νέες και 73

ανανεωµένες
•  Σύνολο: 1230
•  5% ετήσια ανάπτυξη
•  Επίσης υπάρχει το περιοδικό

Database: the journal of
biological databases and
curation
http://www.oxfordjournals.org/nar/database/a/
http://www.oxfordjournals.org/nar/database/c/
Βάσεις νουκλεοτιδικών δεδοµένων (ι)

•  Αρχειακές ΒΔ για νουκλεοτιδικές αλληλουχίες:
–  EMBL-BANK. European Nucleotide Archive (ENA), EBI. Hinxton, UK.
–  GENBANK. NCBI, NIH. Bethesda, USA
–  DNA databank of Japan (DDBJ). National institute of Genetics,.Mishima,
JP
•  Η ακολουθία κατατίθεται σε µία απο τις ΒΔ, η οποία έχει και την δυνατότητα να
την αναθεωρήσει (µόνο αυτή, για αποτροπή ‘συγκρούσεων’)
•  Και οι 3 ΒΔ ανήκουν στο International nucleotide sequence database collection

(INSDC). Κάθε µέρα ανταλλάσουν δεδοµένα. Η ίδια ακολουθία Χ3. Νέα έκδοση
ανά δίµινο.
•  Από το 2009, το INSDC ξεκίνησε να καταχωρεί και αµορφοποίητα δεδοµένα

από µεγάλης κλίµακας αλληλουχίσεις (Sequencing projects), είτε αυτά
προέρχονται από κλασσικές µεθόδους αλληλούχισης (Trace archive) (capillary
sequencing), είτε από µεθόδους αλληλούχισης 2ης γενιάς (Read Archive) (454,
Solexa, Solid, Helicos)
EMBL bank help page
http://www.ebi.ac.uk/embl/Documentation/User_manual/usrman.html

EMBL format (i)
EMBL format (ii)

EMBL format (ii)
FASTA format
Παράδειγµα εγγραφής στην

EMBL bank
•  Πηγαίνετε στην διεύθυνση:
http://www.ebi.ac.uk/embl/
•  X03635 : Estrogen receptor alpha, Human
•  Αναζητήστε την ακολουθία του παραδείγµατος
χρησιµοποιώντας το accession number του (X03635).
•  Δείτε το Nucleotide Sequence του mRNA σε µορφή ENA και σε
µορφή EMBL format.
•  Στην µορφή ΕΝΑ, δείτε την ακολουθία ως FASTA format.
Βάσεις πρωτεϊνικών δεδοµένων
•  Swissprot. 1987, Uni Geneva + SIB. Σχολιασµός των εγγραφών/

πρωτεϊνών από επιστήµονες.
•  TrEMBL. 1996. SIB + EBI. Αυτόµατη µετάφραση των ακολουθιών που

βρίσκονται στην EMBL. Δεδοµένα στην ίδια µορφή µε την Swissprot.
Μπορεί να είναι υποθετικές ή ο σχολιασµός να µην είναι εκτενής, όπως
στην Swissprot.
•  PIR. 1984, USA
•  UniProt. 2002. Ενώθηκαν οι παραπάνω βάσεις.
•  UniMes: για µεταγενωµικά δεδοµένα, όπου δεν γνωρίζουµε από ποιά είδη
προέρχονται οι ακολουθίες.
Swissprot (ι)
–  Από την εγγραφή του προηγούµενου παραδείγµατος, ακολουθήστε τον
σύνδεσµο (link) προς την Β.Δ. UniprotKB/Swissprot, µε κωδικό εγγραφής
P03372
Swissprot (ι)
–  Δείτε
•  το όνοµα και τα συνώνυµα της ακολουθίας
•  Την ταξινόµιση του οργανισµού. Η ταξινόµιση µπορεί επίσεις να
βρεθεί και στην ιστοσελίδα του NCBI taxonomy
http://www.ncbi.nlm.nih.gov/
•  Λειτουργίες της πρωτεΐνης (και στο τµήµα των Ontologies)
•  Την ακολουθία σε FASTA format
•  Ακολουθείστε το σύνδεσµο (Hs.208124) προς την Β.Δ. Unigene και
από εκεί δείτε το προφίλ γονιδιακής έκφρασης µέσω του link ‘EST
profile’
•  Από την προηγούµενη ιστοσελίδα του Uniprot, ακολουθείστε το
σύνδεσµο P03372 προς την Β.Δ. Intact (στο τµήµα protein-protein
interaction databases) για να δείτε πόσες πρωτεϊνικές
αλληλεπιδράσεις έχει το estrogen receptor alpha.
ΒΔ πρωτεϊνικών επικρατειών
•  Πρωτεϊνική επικράτεια: Μια περιοχή της πρωτεΐνης µε συγκεκριµένη λειτουργία/
δοµή και καλά συντηρηµένη.
•  Διάφορες βάσεις δεδοµένων, όπως:

–  PROSITE
–  Pfam
–  PRINTS
–  ProDom
–  SMART
–  TIGRFAMs
–  PIR superfamily
–  Superfamily
•  Έχουν ενσωµατωθεί στο INTERPRO.
•  Το INTERPRO περιέχει πρωτεϊνικές επικράτειες. Το πρόγραµµα

INTERPROscan ανιχνεύει αυτές τις επικράτειες στις πρωτεΐνες.
Pfam
•  Για την ακολουθία του Estrogen receptor alpha, από τη Uniprot
ακολουθείστε τη σύνδεση για την Β.Δ. πρωτεϊνικών επικρατειών
(domains) Pfam (graphical view).
•  Δείτε την αρχιτεκτονική της πρωτεΐνης.
•  Ποιά είναι τα βασικά domains;
•  Δείτε λεπτοµερέστερα την εγγραφή για το Hormone receptor /
ligand binding domain.
•  Δείτε σε ποιά είδη έχει βρεθεί αυτή η επικράτεια (σύνδεσµος
‘species’ στα αριστερά της ιστοσελίδας) (Tree).
ΒΔ τρισδιάστατων δοµών PDB
•  Protein Data Bank (PDB)
–  Πρωτεΐνες
–  Νουκλεϊκά οξέα
–  Σύµπλοκα των παραπάνω
•  Μέθοδοι
–  X-ray (~59000)
–  NMR (~8500)
–  Κρύο-ηλεκτρονική
µικροσκοπία (~300)
•  Οι παραπάνω µέθοδοι βρίσκουν

τις συντεταγµένες (3D) των
ατόµων του βιολογικού µορίου.
•  Τα αρχεία µε τις συντεταγµένες

διαβάζονται από ειδικά
προγράµµατα (π.χ Rasmol) που
απεικονίζουν τη δοµή στο χώρο
PDB
•  Από την προηγούµενη ιστοσελίδα του Uniprot για την εγγραφή
estrogen receptor alpha, στο τµήµα 3D structure databases,
επιλέξτε RCSB PDB και ακολουθείστε το σύνδεσµο για την
1Α52 (είναι ο κωδικός εγγραφής στην PDB). Είναι η κρυσταλλική
δοµή της επικράτειας σε σύµπλεγµα µε την οιστραδιόλη.
•  Στην δεξιά πλευρά της ιστοσελίδας µπορείτε να δείτε την
τρισδιάστατη δοµή µέσω του συνδέσµου ‘view in Jmol’.
Β.Δ. τρισδιάστατων δοµών

•  CATH: κατηγοριοποιεί τις τρισδιάστατες δοµές των πρωτεϊνικών
επικρατειών ιεραρχικά, σε 4 βασικά επίπεδα.
•  Η κατηγοριοποίηση γίνεται µε ένα συνδυασµό αυτόµατων µεθόδων και

ανθρώπινης κρίσης.
Μεταβολικά µονοπάτια
KEGG pathways
•  Kyoto encyclopedia of genes and genomes.
•  2010: 374 µεταβολικά µονοπάτια.
KEGG pathways
KEGG
•  Από την ιστοσελίδα του Uniprot για το Estrogen receptor alpha,
ακολουθείστε το σύνδεσµο hsa:2099 προς τη Β.Δ. KEGG.
• Δεξιά της νέας ιστοσελίδας (στο KEGG), ακολουθείστε το σύνδεσµο KEGG

disease και στη συνέχεια το σύνδεσµο Η00026 για endometrial cancer.
• Στη νέα ιστοσελίδα, στο τµήµα ‘markers’ δείτε ποιά γονίδια χρησιµοποιούνται ως
µοριακοί δείκτες της ασθένειας.
• Στα δεξιά της ιστοσελίδας ακολουθείστε το σύνδεσµο KEGG pathways, για να δείτε
το µοριακό µονοπάτι του καρκίνου του ενδοµητρίου (link: hsa05213).
Pubmed
•  ΒΔ του NCBI. Ξεκίνησε τον Ιανουάριο του 1996.
•  Καταχωρεί όλες τις δηµοσιευµένες εργασίες που προέρχονται από τον ευρύτερο
χώρο της βιοϊατρικής
•  ~20 εκατοµύρια εργασίες καταχωρηµένες (Ιούλιος 2010)
•  Όταν µια εργασία γίνεται δεκτή από το περιοδικό, κατατίθεται και στην Pubmed
•  H Pubmed δίνει ένα µοναδικό κωδικό εγγραφής (PMID) και λέξεις κλειδιά που
χαρακτηρίζουν το περιεχόµενο της εργασίας (MeSH terms).
•  Από το 2007, το NIH απαιτεί όποιες ερευνητικές εργασίες έχουν χρηµατοδοτηθεί
από αυτό, τα αποτελέσµατά τους να γίνονται προσβάσιµα σε όλους, µέσω του
Pubmed Central (εντός 12 µηνών από την ηµεροµηνία δηµοσίευσης). (~ 1
εκατοµύριο εργασίες)
Pubmed
Pubmed
Pubmed
•  Πόσες εργασίες υπάρχουν για το estrogen receptor alpha;
Κατάλογος
µε ΒΔ:
Pathguide
•  http://www.pathguide.org/
Bionumbers
http://www.bionumbers.hms.harvard.edu/
Browse -> genome
Textpresso
•  Μηχανή αναζήτησης που ελέγχει ολόκληρο το κείµενο µιας εργασίας (full text).
•  http://www.textpresso.org/
Clinical tests webpages
•  http://labtestsonline.org/
•  Ποιά test για ποιές ασθένειες
•  http://informeddna.com/index.php/
•  Informed Medical Decisions, Inc. is the only nationwide network
of independent genetic counselors.
Εργασία
Να ετοιµάσετε µια αναφορά για τον ανθρώπινο υποδοχέα οιστρογόνου άλφα
(estrogen receptor alpha) που να περιγράφει τα παρακάτω:
•  Τον κωδικό εγγραφής στην Β.Δ. Uniprot.

•  Την ταξινόµιση του οργανισµού από τον οποίο προέρχεται η πρωτεΐνη.
•  Τις λειτουργίες της πρωτεΐνης.
•  Τα domains της πρωτεΐνης και την λειτουργία του καθενός από αυτά.
•  Να δείξετε από µια εικόνα της τρισδιάστατης δοµής για τα domains της
πρωτεΐνης (εφόσον υπάρχουν).
•  Την έκφραση του γονιδίου στους ανθρώπινους ιστούς.
•  Σε ποιές ασθένειες εµπλέκεται η πρωτεΐνη αυτή.
•  Ποιά άλλα γονίδια είναι µοριακοί δείκτες στις ασθένειες που εµπλέκεται αυτός ο
υποδοχέας οιστρογόνου.
Για κάθε στάδιο της εργασίας να αναφέρετε την πηγή (Β.Δ.) στο διαδίκτυο µαζί µε το URL
καθώς επίσης και µια σύντοµη περιγραφή της Β.Δ.
Blast/PSI-Blast
3o εργαστήριο

βάσεις δεδοµένων (i)
•  Οµόλογες ακολουθίες πιθανόν να έχουν παρόµοιες λειτουργίες.
•  Ακολουθία επερώτησης (query sequence)

•  Υποκείµενες ακολουθίες στην βάση δεδοµένων (subject sequences).
•  1 ακολουθία Χ Β.Δ
•  Ν ακολουθίες Χ Β.Δ
•  Αναζήτηση µε δυναµικό προγραµµατισµό: Smith-Waterman, SSearch
•  Ευρετικοί αλγόριθµοι για ανίχνευση οµόλογων ακολουθιών.

–  FASTA
–  BLAST
•  50 φορές γρηγορότεροι από δυναµικό προγραµµατισµό, αλλά ενδέχεται:
–  να µην εντοπίσουν κάποιες ‘αποµακρυσµένες’ οµόλογες ακολουθίες.
–  να µη γίνει η βέλτιστη στοίχιση
Blast
Blast
Χρησιµοποιώντας το Blast (i)
•  Επεξηγήσεις στο σύνδεσµο:
–  http://www.ncbi.nlm.nih.gov/BLAST/blastcgihelp.shtml
•  Εισάγουµε την ακολουθία της πρωτεΐνης Estrogen receptor a σε µορφή FASTA
Χρησιµοποιώντας το Blast (ii)

•  Επιλέγοντας:
–  τη βάση δεδοµένων που θα γίνει η αναζήτηση (Swissprot)
–  Τον οργανισµό που θα γίνει η αναζήτηση (Drosophila melanogaster)
Χρησιµοποιώντας το Blast (iii)
•  Παράµετροι του αλγόριθµου
•  Expect threshold: ανάλογα µε το τι αναζητούµε
Χρησιµοποιώντας το Blast (iv)

•  Αποτελέσµατα για συντηρηµένες επικράτειες (conserved domains)
Χρησιµοποιώντας το Blast (v)
•  Οµάδες συντηρηµένων επικρατειών
Χρησιµοποιώντας το Blast (vi)

•  Γράφηµα των καλύτερων στοιχίσεων
Χρησιµοποιώντας το Blast (vii)
•  Περιγραφές των αποτελεσµάτων (µε φίλτρο)
Χρησιµοποιώντας το Blast (viii)

•  Στοιχίσεις (µε φίλτρο - µικρά γράµµατα)
•  Identities (επί του αριθµού θέσεων στην στοίχιση)
•  Positives (επί του αριθµού θέσεων στην στοίχιση)
Χρησιµοποιώντας το Blast (ix)
χωρίς φίλτρο µε φίλτρο
Η χρήση φίλτρου αλλάζει το score

Identities/Positives σταθερά
Χρησιµοποιώντας το Blast (x)

Με φίλτρο
Αλλάζει το score, E-value και η σειρά εµφάνισης

Με φίλτρο
Identities & positives παραµένουν σταθερά

•  Αλλαγή στον Πίνακα αντικατάστασης και στις ποινές για κενά
–  Blosum 45 13:3, χωρίς φίλτρο
Blosum 62 11:1, χωρίς φίλτρο

Χρησιµοποιώντας το Blast (xii)
Blosum 45 13:3 Blosum 62 11:1
Μικρές διαφορές στη στοίχιση, στο score & E-value
Χρησιµοποιώντας το Blast (xiii)

•  Αν για το ίδιο γονίδιο ( ESR1_Human) χρησιµοποιούσαµε το
mRNA του (X03635.1 Homo sapiens mRNA for estrogen
receptor α και όχι την πρωτεΐνη για την αναζήτηση στην
Drosophila:
–  Blastn (nr database)
Χρησιµοποιώντας το Blast (xiv)
Για το ίδιο mRNA

–  Blastx (nr database)
PSI-Blast
PSI-Blast
•  PSI-Blast: Position-specific iterated Blast
•  Position specific scoring matrices (PSSMs) (Πίνακες αντικατάστασης θέσης)
•  Altschul et al., 1997

•  http://www.ncbi.nlm.nih.gov/pmc/articles/PMC146917/pdf/253389.pdf
•  Η αναζήτηση µακρινών οµολόγων σε Β.Δ. είναι πιο ευαίσθητη µε τη χρήση

αυτών των πινάκων.
•  Για οµόλογες ακολουθίες το PSI-Blast βρίσκει µέχρι και 3 φορές

περισσότερες µακρινές οµόλογες ακολουθίες (οµοιότητα < 30%) σε σχέση µε
το Blastp.
PSI-Blast
•  Σε µια ακολουθία οι διάφορες θέσεις δεν είναι το ίδιο συντηρηµένες/ευέλικτες
λόγω δοµικών/λειτουργικών περιορισµών.
•  Χρησιµοποιώντας οµόλογες ακολουθίες από τον ίδιο ή άλλους οργανισµούς

κατανοούµε την ευελιξία κάθε θέσης µιας ακολουθίας.
•  Π.χ. Σε µια ακολουθία Α, στην θέση 123 (ενεργό κέντρο ενζύµου) βλέπουµε ένα
µόνο αµινοξύ.
•  Σε µια πολλαπλή στοίχιση της Α µε οµόλογες ακολουθίες βλέπουµε για την ίδια
θέση (123) ποιά άλλα αµινοξέα επιτρέπονται και σε τί συχνότητες.
•  Το PSSM χρησιµοποιεί αυτή την πληροφορία για να αναζητήσει µακρινά

οµόλογα σε µια Β.Δ.
PSSM
•  Αρχικά γίνεται πολλαπλή στοίχιση των ακολουθιών
•  Στη συνέχεια, για ακολουθία µήκους L δηµιουργείται πίνακας:

–  L X 4 (nucleotides)
–  L X 20 (proteins)
PSSM
•  Γίνεται καταµέτρηση των συχνοτήτων των χαρακτήρων για την
κάθε θέση.
PSSM
•  Ακολουθεί µια σειρά µετασχηµατισµών
–  Συντελεστής βαρύτητας της κάθε ακολουθίας µε βάση την οµοιότητά της
µε άλλες.
–  Pseudocounts
–  Λαµβάνεται υπόψην η συχνότητα υποβάθρου του κάθε χαρακτήρα
•  Υπολογισµός των odds (παρατηρούµενη συχνότητα / συχνότητα
υποβάθρου).
–  Log-odds
•  Ο πίνακας αυτός χρησιµοποιείται για τοπική στοίχιση µε ακολουθίες σε µια

Β.Δ. (αντικαθιστά την ακολουθία επερώτησης).
PSI-Blast
•  Πρώτο στάδιο:
–  Blast µε την ακολουθία επερώτησης σε µια Β.Δ. (Ε<0.001 default).
–  Οι τοπικές στοιχίσεις που βρέθηκαν (E-value < cutoff) χρησιµοποιούνται

για τη δηµιουργία µιας πολλαπλής στοίχισης M µε σηµείο αναφοράς την
ακολουθία επερώτησης (L θέσεις).
•  Δεν επιτρέπονται κενά στην ακολουθία επερώτησης.
•  Αυτή η πολλαπλή στοίχιση (ακολουθία - σηµείο αναφοράς) διαφέρει
από τις τυπικές πολλαπλές στοιχίσεις
–  Απαλοιφή ακολουθιών µε πολύ µεγάλη οµοιότητα.
–  Δηµιουργία PSSM.
PSI-Blast
•  Δεύτερο στάδιο:
–  Νέα αναζήτηση στη Β.Δ. µε το PSSM αντί της αρχικής ακολουθίας

επερώτησης.
–  Οι νέες ακολουθίες που βρέθηκαν και ξεπερνούν το κατώφλι E-value

ανανεώνουν την πολλαπλή στοίχιση και δηµιουργείται ένα νέο PSSM.
•  Η διαδικασία επαναλαµβάνεται µέχρι να µη βρεθούν νέες ακολουθίες µε Evalue <

τιµή κατωφλίου (convergence).
•  Συνήθως, 3-5 κύκλοι αρκούν για να βρεθούν τα περισσότερα µακρινά οµόλογα.
PSI-Blast
PSI-Blast
PSI-Blast
•  Πριν κάνουµε PSI-Blast πρέπει να ξέρουµε τι αναζητάµε!!!
–  αναζητούµε οµόλογες πρωτεΐνες µε την ίδια αρχιτεκτονική επικρατειών

(domain architecture);
–  Αναζητούµε πρωτεΐνες που να περιλαµβάνουν µια συγκεκριµµένη περιοχή;

Χρησιµοποιούµε µόνο αυτή την περιοχή στην αρχική αναζήτηση.
–  Αν η περιοχή αυτή είναι γνωστή επικράτεια που υπάρχει σε Β.Δ.

Πρωτεΐνικών επικρατειών (π.χ. PFAM), τότε καλύτερα να
χρησιµοποιήσουµε αυτές τις Β.Δ.
–  Κάποιες περιοχές/επικράτειες συναντώνται σε πολλές πρωτεΐνες.

•  Προσοχή στην αναζήτηση όταν υπάρχουν τέτοιες περιοχές
–  Αν ξεκινήσουµε µε άλλη οµόλογη ακολουθία επερώτησης δεν είναι σίγουρο

ότι θα φτάσουµε στο ίδιο αποτέλεσµα!
–  Προσοχή ποιές ακολουθίες συµπεριλαµβάνουµε στο PSSM. Αν εισέλθουν

λάθος ακολουθίες, το λάθος θα ανατροφοδοτείται σε κάθε κύκλο (profile
drift)
Επικράτειες (Domains)
•  Κάποιες επικράτειες
συνδυάζονται πολύ συχνά
µε άλλες, στην ίδια
πρωτεΐνη.
•  http://genome.cshlp.org/
content/18/3/449.full
Επικράτειες και αναζήτηση σε

Β.Δ.
•  Πράσινο σφαιρίδιο για ακολουθίες που είχαν βρεθεί σε προηγούµενο
γύρο αναζήτησης.
•  Μπορούµε να επιλέξουµε τον αποκλεισµό κάποιων ακολουθιών
•  Αν περιλαµβάνονταν οι 2 µεθυλ-τρανσφεράσες…
•  Αποθήκευση αποτελεσµάτων
Blast
•  Βρείτε την ακολουθία του Estrogen receptor alpha (σε
µορφή FASTA) ως:
–  mRNA από την EMBL bank (accesion number: X03635).
–  ως πρωτεΐνη από την Uniprot (accesion number: P03372).
Blast
Τα προγράµµατα του Blast θα τα βρείτε στο:
http://blast.ncbi.nlm.nih.gov/Blast.cgi
Θέλετε να βρείτε τις οµόλογες πρωτεΐνες του ανθρώπινου estrogen

receptor alpha (πρωτεΐνη) στη µύγα Drosophila melanogaster,
χρησιµοποιώντας τη ΒΔ Swissprot.
Ποιό πρόγραµµα του Blast πρέπει να χρησιµοποιήσετε;

Οι παράµετροι της αναζήτησης:
•  ΒΔ Swissprot
•  οργανισµός: Drosophila melanogaster
•  Expect threshold: 1e-5
•  Low-complexity filtering
Blast
•  Δείτε τα συντηρηµένα domains. Ποιά είναι;
•  Ποιό είναι το καλύτερο blast hit; µε ποιό score & Evalue; Τι
πρωτεΐνη είναι;
•  Για το καλύτερο blast hit, δείτε στην τοπική στοίχιση:
–  Identities
–  Positives
–  Low complexity regions
Blast
•  Βρείτε την πρωτεϊνική ακολουθία (σε µορφή FASTA) του
καλύτερου blast hit και µε αυτή κάνετε την αντίστροφη
διαδικασία.
•  Δηλαδή, blast έναντι της ΒΔ Swissprot, για τον οργανισµό Homo
sapiens, χρησιµοποιώντας ως ακολουθία επερώτησης (query
sequence) το καλύτερο Blast hit. Όλες οι προηγούµενες
παράµετροι του blast παραµένουν ίδιες.
•  Βρίσκετε ως νέο καλύτερο blast hit το estrogen receptor alpha;
Είναι ανταποδοτικό το blast; Τι σηµαίνει αυτό για τις εξελικτικές
σχέσεις µεταξύ των δύο ακολουθιών;
Blast
•  Χρησιµοποιώντας ως ακολουθία επερώτησης το mRNA του estrogen
receptor alpha από τον άνθρωπο (EMBL-bank accession: Χ03635),
βρείτε αν υπάρχουν οµόλογες νουκλεοτιδικές ακολουθίες στη Drosophila
melanogaster, χρησιµοποιώντας τη νουκλεοτιδική ΒΔ nucleotide
collection (nr/nt).
•  Ποιό πρόγραµµα του Blast πρέπει να χρησιµοποιήσετε;
•  Παράµετροι του blast που θα κάνετε:

–  νουκλεοτιδική ΒΔ nucleotide collection (nr/nt)
–  Οργανισµό Drosophila melanogaster
–  Optimize for somewhat similar sequences
–  Expect threshold 1e-5
–  Filter low-complexity regions
•  Βρέθηκαν οµόλογες νουκλεοτιδικές ακολουθίες στη Drosophila;

•  Γιατί;
Blast
•  Ποιό άλλο πρόγραµµα του Blast πρέπει να χρησιµοποιήσετε,
για να δείτε αν υπάρχουν οµόλογες πρωτεΐνες για το mRNA
σας, στη Drosophila melanogaster;
•  Παράµετροι του Blast.
–  Genetic code standard
–  Database: non-redundant protein sequences (nr)
–  Οργανισµός: Drosophila melanogaster
–  Expectation threshold 1e-5
–  Low complexity regions filtering
•  Τι βρίσκετε;
PSI-Blast
•  Χρησιµοποιώντας την πρωτεΐνη του ανθρώπινου estrogen
receptor alpha (P03372), κάνετε PSI-blast για να βρείτε όλες τις
οµόλογες πρωτεΐνες στον άνθρωπο.
•  Παράµετροι του PSI-Blast:
–  ΒΔ Swissprot
–  Homo sapiens
–  Expect threshold 1e-3
–  Low complexity region filtering
–  PSI-blast threshold 1e-3
•  Χρησιµοποιήστε όλα τα hits πρώτου κύκλου για να

δηµιουργηθεί το PSSM και συνεχίστε στον δεύτερο κύκλο
(iteration 2).
•  Βρέθηκαν καινούργιες ακολουθίες;
•  Θα ενσωµατωθούν όλες στο νέο κύκλο αναζήτησης (iteration3) ;
Πολλαπλή στοίχιση -
4o εργαστήριο
MSA: Τι είναι
•  Στοίχιση για 3 ή περισσότερες ακολουθίες.
•  Αποκαλύπτονται οι συντηρηµένες περιοχές µεταξύ των

•  Χρειάζεται για:
–  Δηµιουργία profiles/motifs που χαρακτηρίζουν µια επικράτεια
(domain).
–  Ανίχνευση συντηρηµένων DNA-binding sites σε προµότορες
γονιδίων
–  Φυλογένεση.
–  Πρόβλεψη δευτεροταγούς και τριτοταγούς δοµής πρωτεϊνών.
–  Σχεδιασµό εκφυλισµένων εκκινητών PCR
MSA
MSA
•  Sum of pairs
•  Σκοπός: η µεγιστοποίηση αυτού του score
MSA
•  Πολλαπλή στοίχιση µε:
–  Δυναµικό προγραµµατισµό (dynamic programming).
–  Με ευρετικές µεθόδους (heuristics).
•  Προοδευτική στοίχιση (progressive alignment)
•  Στοίχιση µε διαδοχικές βελτιώσεις (iterative alignment)
•  Στοίχιση βασισµένη σε blocks
ClustalW (i)
•  Ολική στοίχιση (Needlman-Wunsch) κάθε
πιθανού ζεύγους
•  Πίνακας αποστάσεων (identities ή πίνακες
Blossum/PAM).
•  Μετατροπή των αποστάσεων σε εξελικτικές
αποστάσεις.
•  Δηµιουργία φυλογενετικού δένδρου -
οδηγού (guide tree) (neighbor joining).
–  Χαµηλότερης εµπιστοσύνης από ένα
κανονικό φυλογενετικό δένδρο, ωστόσο
καταδεικνύει ικανοποιητικά τις βασικές
σχέσεις
ClustalW (ii)
•  Οι 2 κοντινότερες ακολουθίες στοιχίζονται
και δηµιουργείται µια ακολουθία συναίνεσης.
•  Με βάση το δένδρο-οδηγό, η ακολουθία

συναίνεσης στοιχίζεται (δυναµικός
προγραµµατισµός) µε την επόµενη πιο
κοντινή ακολουθία ή την επόµενη πιο
κοντινή ακολουθία συναίνεσης.
•  Η διαδικασία επαναλαµβάνεται έως ότου

στοιχιθούν όλες οι ακολουθίες.
ClustalW (iii)
•  Ανάλογα µε την απόσταση 2 ακολουθιών στο δένδρο-οδηγό,

χρησιµοποιείται και ο κατάλληλος πίνακας αντικατάστασης
(Blossum62, Blossum 45) για την ολική στοίχιση κατά ζεύγη .
•  Οι ποινές των κενών προσαρµόζονται ανάλογα µε την

παρατηρούµενη συντήρηση µιας περιοχής και ανάλογα µε την
δευτεροταγή δοµή.
•  Συντελεστής βαρύτητας ανάλογα µε την εξελικτική απόσταση 2

Προβλήµατα της
προοδευτικής στοίχισης
•  Δεν ενδύκνειται για ακολουθίες µε πολύ διαφορετικά µήκη (λόγω
ολικής στοίχισης).
•  Η τελική πολλαπλή στοίχιση εξαρτάται από τη σειρά µε την

οποία θα γίνουν οι επιµέρους στοιχίσεις κατά ζεύγη.
•  Ένα αρχικό λάθος θα επηρεάσει τα υπόλοιπα στάδια της

Alignment formats
•  FASTA (.fa ή .fasta ή .fst)
•  Clustal (.aln)
•  Phylip (.phy ή .phylip)
•  MSF (.msf)
•  Mase (.mase)
•  Nexus (.nxs)
•  Συνήθως, τα alignment editors µπορούν να µετατρέψουν το ένα
format σε άλλο.
•  Readseq
–  http://www.ebi.ac.uk/cgi-bin/readseq.cgi
Fasta format
Clustal format
Phylip format
•  Χρησιµοποιείται στο πρόγραµµα phylip για φυλογένεση
Seaview
•  http://pbil.univ-lyon1.fr/software/seaview.html
•  Online help
•  http://pbil.univ-lyon1.fr/software/seaview_data/seaview.html
•  Η εκτίµηση της εξελικτικής ιστορίας γονιδίων/πρωτεϊνών ή
•  Η απεικόνιση αυτής της ιστορίας γίνεται µε φυλογράµµατα/
κλαδογράµµατα
•  Οµόλογα γονίδια: κοινός εξελικτικός πρόγονος.
Χιµαιρικές πρωτεΐνες;
•  Ορθόλογα γονίδια: προέρχονται από ειδογένεση.

Ουσιαστικά, ένα γονίδιο α (µεταλλαγµένο) σε δύο
διαφορετικούς οργανισµούς. Συχνά έχουν την ίδια
λειτουργία
•  Παράλογα γονίδια: προέρχονται από γονιδιακό

διπλασιασµό. Ανήκουν στην ίδια οικογένεια

Στάδια φυλογενετικής ανάλυσης
•  Εντοπισµός οµόλογων ακολουθιών
–  Π.χ. Blast, HMMs
•  Πολλαπλή στοίχιση
–  Διορθώσεις στην στοίχιση
•  Υπολογισµός φυλογενετικού δένδρου

δένδρου
•  Φύλλα (leafs)
•  Βραχίονες (branches)
•  Κόµβοι (nodes)
•  Κλάδοι (clades)
Μέθοδοι κατασκευής δένδρων

•  Μέθοδοι αποστάσεων
–  Ένωση γειτόνων (neighbor joining)
–  UPGMA (unweighted pair group method using arithmetic
averages)
–  Λιγότερων τετραγώνων (least squares)
–  Ελάχιστης εξέλιξης (minimum evolution)
Μέθοδοι κατασκευής δένδρων
•  Μέθοδοι βασισµένες σε χαρακτήρες (discrete methods).
–  Maximum parsimony:Απαιτεί τον ελάχιστο αριθµό αντικαταστάσεων
για την ερµηνεία των ακολουθιών
–  Maximum likelihood: Αναζητά το εξελικτικό µονοπάτι µε την µέγιστη
πιθανότητα για τα υπάρχοντα δεδοµένα
Αξιολόγηση του δένδρου

•  Bootstrap:
–  Τυχαία δειγµατοληψία θέσεων της πολλαπλής στοίχισης.
–  Μια θέση µπορεί να επιλεγεί περισσότερες από µια φορές ή και
καµία.
–  Δηµιουργία µιας νέας αλλαγµένης πολλαπλής στοίχισης
–  Η διαδικασία επαναλαµβάνεται 100-1000 φορές.
–  Για κάθε νέα πολλαπλή στοίχιση, υπολογίζεται το δένδρο.
–  Τα νέα δένδρα συγχωνεύονται σε ένα νέο δένδρο (consensus tree).
–  Boostrap -> συχνότητα εµφάνισης ενός κόµβου.
–  Bootstrap 70% -> 95% εµπιστοσύνη.
–  Αν η µεθοδολογία δηµιουργίας του δένδρου είναι λάθος, µπορεί να
πάρουµε υψηλές τιµές bootstrap για το λάθος δένδρο.
bootstrap
Άσκηση (1)
•  1) Βρείτε την πρωτεϊνική ακολουθία του human estrogen
receptor alpha (Uniprot id: P03372) σε µορφή FASTA.
•  2) Με την ακολουθία αυτή (P03372), βρείτε τις οµόλογες
πρωτεϊνικές ακολουθίες της, στη Drosophila melanogaster και
στον άνθρωπο, µε τη βοήθεια του PSI-BLAST. Κάνετε το PSI-
Blast στην ιστοσελίδα του NCBI, χρησιµοποιώντας την
Swissprot, expectation value 1e-10 και low-complexity filtering.
Επαναλάβετε τους κύκλους του PSI-blast µέχρι να συγκλίνει ο
αλγόριθµος.
•  3) Αποθηκεύεστε σε ένα αρχείο (µε όνοµα sequences.fasta) µε
µορφή FASTA τις ακολουθίες από την παραπάνω αναζήτηση.
Αποθήκευση ακολουθιών από
το Blast
•  Select all
•  Get selected sequences
Αποθήκευση ακολουθιών από

το Blast
•  Send to ->
•  File ->
•  Format: FASTA ->
•  Creat file
Seaview
•  ‘Κατεβάστε’ το seaview (MS Windows self-extractible archive) από την διεύθυνση
http://pbil.univ-lyon1.fr/software/seaview.html
•  Online help για το πρόγραµµα θα βρείτε στην διεύθυνση

http://pbil.univ-lyon1.fr/software/seaview_data/seaview.html
Άσκηση (2)
•  Από το Psi-Blast δηµιουργήθηκε ένα αρχείο (sequences.fasta) µε τις οµόλογες
ακολουθίες που βρήκατε.
•  Φορτώστε το αρχείο (sequences.fasta) στο πρόγραµµα Seaview.
–  File -> Open -> Fasta
–  Η απλά τραβήξτε το αρχείο µέσα στο seaview.
•  Αλλάξτε το όνοµα των ακολουθιών.
–  Επιλέξτε την ακολουθία -> Edit -> Rename sequence.
•  Κάνετε πολλαπλή στοίχιση των ακολουθιών µε το πρόγραµµα muscle.

–  Align -> alignment options -> muscle
–  Align -> Align all
Άσκηση (3)
Αποµακρύνετε τις περιοχές που δεν είναι συντηρηµένες
•  Για να κάνετε Editing την πολλαπλή στοίχιση:
–  Props-> allow seq. editing
–  Eπιλέξτε τις ακολουθίες που θέλετε να τροποποιήσετε (σε αυτό το παράδειγµα
επιλέξτε όλες τις ακολουθίες).
–  Τοποθετήστε τον κέρσορα µέσα στην πολλαπλή στοίχιση (σε περιοχή που θέλετε να
διαγράψετε) και χρησιµοποιήστε το πλήκτρο delete.
Δηµιουργήστε το φυλογενετικό δένδρο µε τη µέθοδο Neighbor joining & 100 Boostraps.

•  Trees -> Distance Methods -> NJ (Poisson, ignore all gap sites, bootstrap 100).
•  Στην προηγούµενη εργαστηριακή άσκηση το human estrogen receptor alpha & το Seven-up
από τη Drosophila δεν ήταν τα καλύτερα ανταποδοτικά χτυπήµατα του Blast. Μπορείτε να
καταλάβετε από το φυλογενετικό δένδρο γιατί συνέβη αυτό;

ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΑΜΟΥΤΖΙΑΣ ΓΡΗΓΟΡΙΟΣ Πανεπιστήμιο Θεσσαλίας

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΑΜΟΥΤΖΙΑΣ ΓΡΗΓΟΡΙΟΣ Πανεπιστήμιο Θεσσαλίας

Uploaded by

Copyright:

Available Formats

ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ

• Σήµερα γίνεται διάκριση µεταξύ της βιοπληροφορικής και της υπολογιστικής

• Πολλές και συµπληρωµατικές µεταξύ τους ειδικότητες (από Βιολογία, Βιοχηµεία,

Βιοπληροφορική: βασικοί τοµείς

• Ανάλυση ακολουθιών DNA, RNA, πρωτεϊνών. (Sequence analysis)

• Γονιδιακή ρύθµιση/έκφραση (Gene expression)

• Δοµή RNA/πρωτεϊνών (structural biology):

• Εξόρυξη δεδοµένων από βιβλιογραφία (text mining).

• Βιολογικά δίκτυα/µονοπάτια, Βιολογία Συστηµάτων (FBA, MCA).

• 1970: Αλγόριθµος Needleman-Wunsch για την σύγκριση ακολουθιών

• 1990s: Αρχή του Human genome project, που ‘ολοκληρώθηκε’ το 2001.

• Η γενωµική αποτέλεσε το ερέθισµα για την ανάπτυξη τεχνολογιών που

• Από το 2000 και µετά, η Βιοπληροφορική καλείται επίσεις να

• Πλέον ο όρος ‘Βιοπληροφορική’ είναι τόσο εξειδικευµένος/γενικός, όσο

• Βρισκόµαστε σε µια µεταβατική περίοδο για τις Βιολογικές επιστήµες,

Bioinformatics Market - Advanced

• The market for bioinformatics platforms is growing at a significant pace with

• Συµβουλευτική (δουλειά από το σπίτι)?

Χαµηλό κόστος γενωµικών τεχνολογιών θα

‘Ελεγχος εξελικτικών υποθέσεων -

Ο τύπος HIV-1 εισήλθε

Ο τύπος HIV-2 εισήλθε

Έλεγχος εξελικτικών υποθέσεων

Επιδηµία χολέρας στην Αϊτή 2010

• Αλληλούχιση του γονιδιώµατος:

• Επίσης χρησιµοποιήθηκαν οι µερικές αλληλουχίες από 23 άλλα στελέχη ανά την

Επιδηµία χολέρας στην Αϊτή 2010

Αλλαγές σε πρωτεϊνες που συνθέτουν αντιβιοτικά (NRPS)

Εξέλιξη αντιβιοτικών και τοξινών

Αλλαγές σε πρωτεϊνες που συνθέτουν

• Υπάρχει προοπτική να χρησιµοποιηθεί για περιβαλλοντικές µελέτες/αναλύσεις/

• Πλεονέκτηµα: Δεν χρειάζεται να καλλιεργηθούν

Mammaprint - Tissue of origin

• Tissue of Origin Test

Εφαρµογές στην τοξικολογία/

Μοριακό προφίλ τοξικότητας

Βάσεις Δεδοµένων: Εισαγωγή

Επίπεδης οργάνωσης (Flat-files:) Το ποιό απλό είδος. Ουσιαστικά είναι

Σχεσιακές βάσεις. Πιο περίπλοκες και πλέον πολύ διαδεδοµένες . Π.χ.,

Αντικειµενοστρεφείς βάσεις κ.α.

Διακρίνονται κυρίως σε αρχειακές/πρωτεύοντες και δευτερεύοντες

Βάσεις νουκλεοτιδικών δεδοµένων (ι)

• Και οι 3 ΒΔ ανήκουν στο International nucleotide sequence database collection

• Από το 2009, το INSDC ξεκίνησε να καταχωρεί και αµορφοποίητα δεδοµένα

Βάσεις νουκλεοτιδικών δεδοµένων (ιι)

Εγείρονται προβληµατισµοί για την αποθήκευση όλων αυτών των δεδοµένων!

Βάσεις νουκλεοτιδικών δεδοµένων (ιιι)

2005: Ελλάδα: 2,7 ΜΒ USA: 7GB. Από DDBJ

Βάσεις νουκλεοτιδικών δεδοµένων (ιv)

Βάσεις νουκλεοτιδικών δεδοµένων.

Βάσεις νουκλεοτιδικών δεδοµένων.

Βάσεις νουκλεοτιδικών δεδοµένων.

Βάσεις πρωτεϊνικών δεδοµένων

• Swissprot. 1987, Uni Geneva + SIB. Σχολιασµός των δεδοµένων από

• ArrayExpress. EBI, UK. Δέχεται δεδοµένα από το

• Αν τα δεδοµένα προέρχονται από µικροσυστοιχίες,

• Protein Data Bank (PDB)

Βάσεις τρισδιάστατων δοµών

Βάσεις τρισδιάστατων δοµών

EBI: Μηχανή αναζήτησης EB-eye

Tab delimited format

ΒΔ για µαθηµατικά µοντέλα µοριακών

Στοίχιση κατά ζεύγη

Στοίχιση ακολουθιών κατά

•  Σήµερα γίνεται διάκριση µεταξύ της βιοπληροφορικής και της υπολογιστικής

•  Πολλές και συµπληρωµατικές µεταξύ τους ειδικότητες (από Βιολογία, Βιοχηµεία,

•  Ανάλυση ακολουθιών DNA, RNA, πρωτεϊνών. (Sequence analysis)

•  Γονιδιακή ρύθµιση/έκφραση (Gene expression)

•  Δοµή RNA/πρωτεϊνών (structural biology):

•  Εξόρυξη δεδοµένων από βιβλιογραφία (text mining).

•  Βιολογικά δίκτυα/µονοπάτια, Βιολογία Συστηµάτων (FBA, MCA).

•  1970: Αλγόριθµος Needleman-Wunsch για την σύγκριση ακολουθιών

•  1990s: Αρχή του Human genome project, που ‘ολοκληρώθηκε’ το 2001.

•  Η γενωµική αποτέλεσε το ερέθισµα για την ανάπτυξη τεχνολογιών που

•  Από το 2000 και µετά, η Βιοπληροφορική καλείται επίσεις να

•  Πλέον ο όρος ‘Βιοπληροφορική’ είναι τόσο εξειδικευµένος/γενικός, όσο

•  Βρισκόµαστε σε µια µεταβατική περίοδο για τις Βιολογικές επιστήµες,

•  The market for bioinformatics platforms is growing at a significant pace with

•  Συµβουλευτική (δουλειά από το σπίτι)?

• Αλληλούχιση του γονιδιώµατος:

• Επίσης χρησιµοποιήθηκαν οι µερικές αλληλουχίες από 23 άλλα στελέχη ανά την

•  Υπάρχει προοπτική να χρησιµοποιηθεί για περιβαλλοντικές µελέτες/αναλύσεις/

•  Πλεονέκτηµα: Δεν χρειάζεται να καλλιεργηθούν

•  Tissue of Origin Test

•  Και οι 3 ΒΔ ανήκουν στο International nucleotide sequence database collection

•  Από το 2009, το INSDC ξεκίνησε να καταχωρεί και αµορφοποίητα δεδοµένα

•  Swissprot. 1987, Uni Geneva + SIB. Σχολιασµός των δεδοµένων από

•  ArrayExpress. EBI, UK. Δέχεται δεδοµένα από το

•  Αν τα δεδοµένα προέρχονται από µικροσυστοιχίες,

•  Protein Data Bank (PDB)

•  Ορθόλογα γονίδια: προέρχονται από ειδογένεση. Ουσιαστικά,

•  Παράλογα γονίδια: προέρχονται από γονιδιακό διπλασιασµό.

•  Ξενόλογα γονίδια: από οριζόντια µεταφορά

•  Παράδειγµα µε Πυρηνικούς υποδοχείς

•  Γονίδια του ίδιου χρώµατος από

•  Περιοχές ενδογενούς δοµικής αστάθειας (intrinsically disordered

•  Διάφορα προγράµµατα (π.χ Dotlet)

•  Σε ένα βαθµό, εισέρχεται η υποκειµενικότητα στην ερµηνεία

•  Και για ολικές και για τοπικές στοιχίσεις.

•  Η στοίχιση εξαρτάται από το βαθµολογικό σύστηµα που

•  Αλγόριθµος Smith-Waterman (1981)

•  Στην πράξη, πιο περίπλοκα συστήµατα βαθµολόγισης. Μια

•  Το ίδιο και για τις πρωτεΐνες.

•  Χρειαζόµαστε πίνακες που βασίζονται σε συγκεκριµµένα

•  Βαθµολογία αντικατάστασης ~ log(συχνότητα στόχων / συχνότητα

•  Συχνότητα στόχων: παρατηρηθείσες συχνότητες αντικατάστασης σε

•  Συχνότητα υποβάθρου: προκύπτει από τις συνολικές συχνότητες των

•  PAM -> Percent Accepted Mutations

•  Βασίστηκε σε 1572 αποδεκτές

•  1 PAM -> µονάδα εξελικτικής