You are on page 1of 297

ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ

ΑΜΟΥΤΖΙΑΣ ΓΡΗΓΟΡΙΟΣ

Πανεπιστήμιο Θεσσαλίας

Προτεινόµενα συγγράµµατα
•  Ελληνικά συγγράµµατα:
–  Andreas D. Baxevanis & B.F. Francis Quellette. Βιοπληροφορική: Ένας
πρακτικός οδηγός για την ανάλυση γονιδίων και πρωτεΐνών.
–  Σοφία Κοσσίδα. Βιοπληροφορική - Δυνατότητες & Προοπτικές.

•  Αγγλικά συγγράµµατα:
–  Jin Xiong. Essential Bioinformatics. (Σύντοµο, περιεκτικό και απλά
γραµµένο σύγγραµα).
–  David W. Mount. Bioinformatics. Sequence and genome analysis.
(Εκτενές και πολύ αναλυτικό σύγγραµα)
Βιοπληροφορική

Εισαγωγή

Εισαγωγή

Βιοπληροφορική: τι είναι
•  Η ανάπτυξη και χρήση τεχνικών και εργαλείων πληροφορικής/µαθηµατικών/
στατιστικής για την ανάλυση βιολογικών δεδοµένων (κυρίως µοριακής βιολογίας)

•  Σήµερα γίνεται διάκριση µεταξύ της βιοπληροφορικής και της υπολογιστικής


βιολογίας
–  Βιοπληροφορική: Η ανάπτυξη µεθόδων και προγραµµάτων.
–  Υπολογιστική Βιολογία: Η χρήση των παραπάνω µεθόδων και προγραµµάτων για την
ανάλυση βιολογικών δεδοµένων.

•  Συχνά συµβαίνουν και τα δύο ταυτόχρονα και τα σύνορα δεν είναι πάντα
ευδιάκριτα

•  Πολλές και συµπληρωµατικές µεταξύ τους ειδικότητες (από Βιολογία, Βιοχηµεία,


Χηµεία, Χηµική Μηχανική, Μηχανική, Υπολογιστές, Μαθηµατικά, Στατιστική κ.α.)
συνεργάζονται σήµερα στο χώρο της Βιοπληροφορικής
Εισαγωγή

Βιοπληροφορική: βασικοί τοµείς


•  Βάσεις δεδοµένων (Databases)
–  Οργάνωση, αποθήκευση, αναζήτηση των δεδοµένων.

•  Ανάλυση ακολουθιών DNA, RNA, πρωτεϊνών. (Sequence analysis)


–  Στοίχιση ακολουθιών: Σύγκριση των αντίστοιχων/οµόλογων περιοχών, µεταξύ δύο ή
περισσοτέρων ακολουθιών.
–  Φυλογενετική ανάλυση: Οι εξελικτικές σχέσεις µεταξύ οµοειδών αντικειµένων (γονίδια,
πρωτεΐνες, οργανισµοί).

•  Γονιδιακή ρύθµιση/έκφραση (Gene expression)


Ανάλυση δεδοµένων από µικροσυστοιχίες, RNA-seq.

•  Δοµή RNA/πρωτεϊνών (structural biology):


Πρόβλεψη δευτεροταγούς και τριτοταγούς δοµής. Ανάλυση πρωτεϊνικών επιφανειών που
αλληλεπιδρούν µεταξύ τους.

•  Εξόρυξη δεδοµένων από βιβλιογραφία (text mining).

•  Βιολογικά δίκτυα/µονοπάτια, Βιολογία Συστηµάτων (FBA, MCA).

•  Οντολογίες (Ontologies)
Η χρήση ενός ελεγχόµενου λεξιλογίου (µε ιεραρχική δόµηση), για την περιγραφή των
ιδιοτήτων και των λειτουργιών οµοειδών αντικειµένων (π.χ πρωτεϊνών).

Εισαγωγή

Ιστορική αναδροµή

•  1965: Η πρώτη έκδοση του Atlas of protein sequence and structure (Margaret
Dayhoff), πρόδροµος της βάσης δεδοµένων πρωτεϊνικών ακολουθιών PIR
(protein information resource).
–  Ακολουθούν και άλλες βάσεις δεδοµένων. 1986: Swissprot, Geneva

•  1970: Αλγόριθµος Needleman-Wunsch για την σύγκριση ακολουθιών


•  1990: Blast

•  1990s: Αρχή του Human genome project, που ‘ολοκληρώθηκε’ το 2001.


Κινητήριος δύναµη για την αλµατώδη ανάπτυξη της Bιοπληροφορικής.
Εισαγωγή

Παρόν/µέλλον
•  Μέχρι το 2000, Βιοπληροφορική σήµαινε κυρίως ανάλυση ακολουθιών.

•  Η γενωµική αποτέλεσε το ερέθισµα για την ανάπτυξη τεχνολογιών που


κάνουν µετρήσεις ευρείας κλίµακας.

•  Από το 2000 και µετά, η Βιοπληροφορική καλείται επίσεις να


διαχειριστεί και να αναλύσει µεγάλα και πολύπλοκα δεδοµένα από το
χώρο της γενωµικής, της γονιδιακής έκφρασης, της πρωτεοµικής κ.α.

•  Πλέον ο όρος ‘Βιοπληροφορική’ είναι τόσο εξειδικευµένος/γενικός, όσο


και ο όρος ‘Μοριακή Βιολογία’!

•  Βρισκόµαστε σε µια µεταβατική περίοδο για τις Βιολογικές επιστήµες,


όπως η Φυσική πριν πολλά χρόνια. Βέβαιη η εισδοχή περισσότερων
µαθηµατικών, στατιστικής και πληροφορικής (προγραµµατισµός)
µεσοπρόθεσµα στο πρόγραµµα σπουδών.

Bioinformatics Market - Advanced


Technologies, Global Forecast and
Winning Imperatives (2009 - 2014)
•  Απόσπασµα από:
–  http://www.marketsandmarkets.com/Market-Reports/bioinformatics-39.html

•  The market for bioinformatics platforms is growing at a significant pace with


the increasing demand from U.S. and Europe.
•  This trend is supported by the increasing demand for sequencing platforms
with increasing life science research using techniques such as gene
expression analysis, sequence analysis, and protein expression analysis.
•  The global bioinformatics market is expected to reach $8.3 billion by 2014
at a high CAGR of 24.8% from 2009-2014. While knowledge management
formed the largest submarket is 2009 at $1.3 billion, the bioinformatics
platforms market is expected to have greatest market share in 2014 at an
estimated $3.9 billion, due to rising demand from the U.S. and Europe.

•  Συµβουλευτική (δουλειά από το σπίτι)?


Χαµηλό κόστος γενωµικών τεχνολογιών θα
οδηγήσει σε καθηµερινές εφαρµογές.
•  Κόστος αλληλούχισης πέφτει διαρκώς.
–  Illumina -> 1 lane: 19GBp, ~ €3000, 10 βακτηριακά γενώµατα.
•  Τα δείγµατα αποστέλλονται σε κέντρα µε µεγάλες εγκαταστάσεις και
χαµηλό κόστος λειτουργίας (οικονοµία κλίµακας). Η ανάλυση των
δεδοµένων όµως δεν υπόκειται σε όρους οικονοµίας κλίµακας.
•  Πλέον, ένα σηµαντικό µέρος του ολικού κόστους είναι η
βιοπληροφορική ανάλυση.
•  Μηχανήµατα αλληλούχισης ακριβά (Illumina ~ €600.000) - service
φτηνό.
•  Mισθός ακριβός (ίσως ένα νέο µοντέλο συµβουλευτικής?)
•  Yπολογιστής φτηνός (€3-5.000), εφόσον πρόκειται για µικρά
γονιδιώµατα (de novo assembly), ή για re-sequencing.

Χαµηλό κόστος γενωµικών τεχνολογιών θα


οδηγήσει σε καθηµερινές εφαρµογές
•  Κόστος αλληλούχισης
–  http://www.genome.gov/sequencingcosts/
•  Ο νόµος του Moore προβλέπει διπλασιασµό της υπολογιστικής ισχύς
κάθε δύο χρόνια.
Χαµηλό κόστος γενωµικών τεχνολογιών θα
οδηγήσει σε καθηµερινές εφαρµογές
•  Κόστος αλληλούχισης
–  http://www.genome.gov/sequencingcosts/

Εφαρµογές

‘Ελεγχος εξελικτικών υποθέσεων -

Προέλευση -

Επιδηµιολογία
Έλεγχος εξελικτικών υποθέσεων
Από που προήλθε ο ιός HIV;

Πρωτοεµφανίστηκε
µυστηριωδώς στις αρχές
της δεκαετίας του 1980.

Ο τύπος HIV-1 εισήλθε


στους ανθρώπους, ίσως
περισσότερες από µια
φορές, από τον χιµπατζή.

Ο τύπος HIV-2 εισήλθε


στους ανθρώπους, από τους
sooty mangabees

Έλεγχος εξελικτικών υποθέσεων


Από που προήλθε ο ιός HIV-1 subtype M; Προέλευση στην Κεντρική Αφρική.
Όταν πρωτοεντοπίστηκε, αρκετοί ασθενείς στην Αµερική ήταν πρόσφατοι
Αϊτινοί µετανάστες.
Κάποιοι ισχυρίζονταν ότι πήγε από την Αµερική στην Αϊτή στα µέσα των 70s,
λόγω σεξοτουρισµού.
Από την Αϊτή στην Αµερική ή το αντίθετο;
Ο Worobey χρησιµοποίησε ακολουθίες HIV από συντηρηµένα δείγµατα
Αϊτινών ασθενών (1983)
Επιδηµία χολέρας στην Αϊτή 2010
• Μετά τον σεισµό στην Αϊτή (Ιανουαριος 2010), ξέσπασε επιδηµία χολέρας (Οκτώβριος
2010).
• Το βακτήριο Vibrio cholerae ελευθερώνει µια τοξίνη που προκαλεί έντονες διάρροιες
και αφυδάτωση, έως και θάνατο, εντός ολίγων ωρών, αν δεν αντιµετωπιστεί!
• Η µετάδοση γίνεται όταν τα κόπρανα ενός µολυσµένου ατόµου έρθουν σε επαφή µε
πόσιµο νερό ή τροφή.
• Τα άτοµα που δεν παράγουν αρκετό γαστρικό υγρό στο στοµάχι τους, ή τα άτοµα µε
οµάδα αίµατος Ο είναι πιο ευάλωτα.
• Το Vibrio cholerae υπάρχει σε υδάτινα περιβάλλοντα ανά την υφήλιο και εάν οι
συνθήκες είναι ευνοϊκές, µπορεί να ξεσπάσει επιδηµία.
• Η χολέρα είναι διαδεδοµένη στην Ασία.
• Τα πρώτα κρούσµατα παρατηρήθηκαν σε κεντρικές περιοχές του νησιού, στην κοιλάδα
Artibonite, µια εβδοµάδα µετά την έλευση Νεπαλέζων κυανόκρανων, κοντά στο
στρατόπεδό τους.
• Λύµµατα από το στρατόπεδο κατέληγαν σε γειτονικό ποταµό.
• Οι κάτοικοι κατηγόρησαν τον ΟΗΕ ότι
• οι κυανόκρανοι που ήρθαν να βοηθήσουν ευθύνονται για το ξέσπασµα της
επιδηµίας.
• ότι ο ΟΗΕ προσπάθησε να αποκρύψει το γεγονός και να µην αναλάβει τις ευθύνες
του

Ξέσπασαν ταραχές.

Επιδηµία χολέρας στην Αϊτή 2010

• Αλληλούχιση του γονιδιώµατος:


• 2 κλινικών στελεχών από την τωρινή επιδηµία στην Αϊτή.
• 1 κλινικό στέλεχος από την επιδηµία του 1991 στη Νότια Αµερική.
• 2 στέλεχη που αποµονώθηκαν στη Νότια Ασία το 2002 και 2008.

• Επίσης χρησιµοποιήθηκαν οι µερικές αλληλουχίες από 23 άλλα στελέχη ανά την


υφήλιο (τα τελευταία 98 χρόνια).
• 1588 συντηρηµένα ορθόλογα γονίδια χρησιµοποιήθηκαν από το κάθε στέλεχος,
για να γίνει το φυλογενετικό δένδρο.
Επιδηµία χολέρας στην Αϊτή 2010

Επιδηµία χολέρας στην Αϊτή 2010


Εξέλιξη αντιβιοτικών και τοξινών

Αλλαγές σε πρωτεϊνες που συνθέτουν αντιβιοτικά (NRPS)


Bacillus subtilis
Strain RB14: Iturin A
Strain ATCC6633: mycosubtillin
µυκητοκτόνα

Εξέλιξη αντιβιοτικών και τοξινών

Αλλαγές σε πρωτεϊνες που συνθέτουν


αντιβιοτικά (NRPS)
Bacillus subtilis
Strain RB14: Iturin A
Strain ATCC6633: mycosubtillin
Εφαρµογές

Ανίχνευση οργανισµών
-
Μεταγενωµική

Μεταγενωµική
•  Παράλληλη ανίχνευση όλων των οργανισµών (µικροβιακών) που απαρτίζουν την υπό
µελέτη οικολογική κοινότητα.

•  Υπάρχει προοπτική να χρησιµοποιηθεί για περιβαλλοντικές µελέτες/αναλύσεις/


παρακολούθηση (σε βάση ρουτίνας), όταν το κόστος αλληλούχισης (ή µικροσυστοιχιών)
µειωθεί περισσότερο.

•  Πλεονέκτηµα: Δεν χρειάζεται να καλλιεργηθούν


–  Κλινικά δείγµατα
–  Περιβαλλοντικά δείγµατα
Genome assembly

Metagenomics
•  Environmental Protection Agency (EPA)
•  The Clean Water Act: Fecal Source Identification.
•  Απόσπασµα από Microbial Source tracking guide Document (Ιούνιος 2005).
•  “The Clean Water Act establishes that the states must adopt water quality standards that are compatible with pollution
control programs to reduce pollutant discharges into waterways. In many cases the standards have been met by the
significant reduction of loads from point sources under the National Pollutant Discharge Elimination System
(NPDES). Point sources are defined as “any discernable, confined and discrete convey- ance, including but not limited
to any pipe, ditch or concentrated animal feeding operation from which pollutants are or may be discharged”.
However, more than 30 years after the Clean Water Act was implemented, a significant fraction of the U.S. rivers,
lakes, and estuaries continue to be classified as failing to meet their designated uses due to the high levels of fecal
bacteria (USEPA, 2000b). As a consequence, protection from fecal microbial
contamination is one of the most important and difficult challenges facing
environmental scientists trying to safeguard waters used for:
–  recreation (primary and secondary contact),
–  public water supplies,
–  propagation of fish and shellfish.

•  Fecally contaminated waters not only harbor pathogens and pose potential high risks to human
health, but they also result in significant economic loss due to closure of shellfish harvesting areas
and recreational beaches.”
Phylochip
•  Affymetrix
•  Μικροσυστοιχία που βασίζεται στον υβριδισµό κοµµατιών
DNA (από το περιβαλλοντικό δείγµα-µίγµα) πάνω σε
καθηλωµένα (στο chip) probes.
–  Probes βασίζονται σε RNA γονίδια.
•  RNA γονίδια αποτελούνται από βαθιά συντηρηµένες και
από λίγο συντηρηµένες περιοχές. Στον σχεδιασµό του
chip, επιλέγουµε την περιοχή ανάλογα µε το βαθµό
διαχωρισµού που επιθυµούµε
–  Βαθιά συντηρηµένες περιοχές για διαχωρισµό
µεταξύ εξελικτικά αποµακρυσµένων οργανισµών.
–  Υψηλά µεταβλητές περιοχές για διαχωρισµό µεταξύ
εξελικτικά κοντινών συγγενικών οργανισµών (π.χ.
Στελέχη ενός µικροβίου)

Phylochip
Fig. 1. Applied multiple probe
concept. 16S rRNA-based
phylogenetic consensus tree
of all recognized sulfate-
reducing bacteria of the
orders "Desulfobacterales"
and "Syntrophobacterales"
showing examplarily the
hierarchical and parallel
specificity of oligonucleotide
probes.
Phylochip

In vitro
διαγνωστικά τεστ
που βασίζονται σε
µικροσυστοιχίες
FDA: In Vitro Diagnostic Multivariate
Index Assays (IVDMIAs)
•  FDA’s In Vitro Diagnostic Product Database
•  http://www.accessdata.fda.gov/scripts/cdrh/cfdocs/cfivd/index.cfm

•  http://www.ivdtechnology.com/article/exploring-fda-approved-ivdmias

•  Some IVDMIAs are laboratory-developed tests (LDTs). LDTs are tests that are
developed by a single clinical laboratory for use only in that laboratory.

•  http://www.fda.gov/MedicalDevices/DeviceRegulationandGuidance/
GuidanceDocuments/ucm079148.htm

•  IVDMIAs raise significant issues of safety and effectiveness. These types of tests are
developed based on observed correlations between multivariate data and clinical
outcome, such that the clinical validity of the claims is not transparent to patients,
laboratorians, and clinicians who order these tests. Additionally, IVDMIAs frequently
have a high risk intended use. FDA is concerned that patients are relying upon
IVDMIAs with high risk intended uses to make critical healthcare decisions when FDA
has not ensured that the IVDMIA has been clinically validated and the healthcare
practitioners are unable to clinically validate the test themselves. Therefore, there is a
need for FDA to regulate these devices to ensure that the IVDMIA is safe and
effective for its intended use.

Mammaprint - Tissue of origin


•  http://www.ivdtechnology.com/article/exploring-fda-approved-ivdmias
•  MammaPrint.
The first IVDMIA, the MammaPrint system, made by Agendia Inc., is a
qualitative IVD test service performed in a single lab outside the United States
using a 70-gene expression profile of fresh frozen breast cancer tissue samples
to assess a breast cancer patientユs risk for distant metastasis. FDA approved
MammaPrint in February 2007 under de novo classification procedures.

•  Tissue of Origin Test


In July 2008, the Tissue of Origin Test, made by Pathwork Diagnostics, was
cleared. This microarray RNA profiling test is to be used on clinical, formalin-
fixed, paraffin-embedded (FFPE) biopsy tissue to aid in the classification of the
origin of the tumor tissue. In June 2010 a second clearance introduced a
different specimen and specimen-preparation method, and the algorithm for
analysis of the expression data to create a diagnostics report and interpretation.
The test uses microarray technology by Affymetrix Inc. and advanced analytics
to measure the gene-expression patterns of challenging tumors, including
metastatic, poorly differentiated, and undifferentiated cancer. It is intended to
measure the degree of similarity between the RNA expression patterns in a
patient’s tumor tissue with the RNA expression patterns in a database of fifteen
known tumor types.
Εφαρµογές στην Τοξικολογία

Εφαρµογές στην τοξικολογία/


τοξικογενωµική
•  Μέτρηση της γονιδιακής έκφρασης µετά από έκθεση σε τοξικό
παράγοντα µπορεί να δείξει τον µοριακό µηχανισµό δράσης του
παράγοντα.
•  Μπορεί να αποτελέσει µοναδική µοριακή υπογραφή του συγκεκριµένου
τοξικού παράγοντα, για µελλοντική ανίχνευσή του.
–  Οµαδοποίηση τοξικών παραγόντων µε κοινή δράση, µε βάση την οµοιότητα
των µοριακών προφιλ τους
Μοριακό προφίλ τοξικότητας

Μοριακό προφίλ τοξικότητας

Hierarchical cluster analysis showed a close association in gene expressional responses between aroclor 1254 and 3-
methylcholanthrene.
Environmental Protection
Agency (EPA)
•  http://www.epa.gov/osa/spc/pdfs/genomics.pdf

•  Genomics methodologies are expected to provide valuable insights for evaluating how
environmental stressors affect cellular/tissue functions and bow changes in gene expression may
relate to adverse effects.

•  However, the relationships between changes in gene expression and adverse effects are unclear at
this time and may likely be difficult to elucidate.

•  Nonetheless, EPA believes that some of these changes may prove to be predictive of subsequent
adverse effects. Changes in gene expression can be informative when a weight-of-evidence approach
for human and ecological health assessments is performed, particularly when used to explore the
possible link between exposure. mechanism(s) of action, and adverse effects. In addition, genomics
information may be useful to EPA in setting priorities, in ranking of chemicals for further testing, and
in supporting possible regulatory actions. While genomics data may be considered in decision-
making at this time, these data alone are insufficient as a basis for decisions. For assessment
purposes, EPA will consider genomics information on a case-by-case basis. Before such
information can be accepted and used, agency review will be needed to determine adequacy
regarding the quality, representativeness, and reproducibility of the data.

Βάσεις Δεδοµένων
Βάσεις Δεδοµένων

Βάσεις Δεδοµένων: Εισαγωγή


Χρησιµοποιούνται για:
–  Oργάνωση
–  Αποθήκευση
–  Επεξεργασία
–  Αναζήτηση/επαναπόκτηση
της βιολογικής πληροφορίας

Κύρια είδη:

Επίπεδης οργάνωσης (Flat-files:) Το ποιό απλό είδος. Ουσιαστικά είναι


κατάλογοι

Σχεσιακές βάσεις. Πιο περίπλοκες και πλέον πολύ διαδεδοµένες . Π.χ.,


SQL. Η πληροφορία οργανώνεται σε πίνακες που σχετίζονται µεταξύ
τους. Έτσι αποφεύγεται η επανάληψη και συσσώρευση δεδοµένων

Αντικειµενοστρεφείς βάσεις κ.α.

Διακρίνονται κυρίως σε αρχειακές/πρωτεύοντες και δευτερεύοντες


Στις αρχειακές γίνεται κατάθεση δεδοµένων ενώ στις δευτερεύοντες τα
δεδοµένα είναι περαιτέρω επεξεργασµένα/σχολιασµένα/
αλληλοσυνδεδεµένα

Βάσεις Δεδοµένων

Ετήσιος κατάλογος ΒΔ
•  Κάθε Ιανουάριο στο Nucleic
Acids Research (Special
database issue)
•  2010: 58 νέες και 73
ανανεωµένες
•  Σύνολο: 1230
•  5% ετήσια ανάπτυξη
•  Επίσης υπάρχει το
περιοδικό Database: the
journal of biological
databases and curation
Κατάλογος
µε ΒΔ:
Pathguide

•  http://www.pathguide.org/

Bionumbers
Βάσεις Δεδοµένων

Βάσεις νουκλεοτιδικών δεδοµένων (ι)


•  Αρχειακές ΒΔ για νουκλεοτιδικές αλληλουχίες:
–  EMBL-BANK. European Nucleotide Archive (ENA), EBI. Hinxton, UK.
–  GENBANK. NCBI, NIH. Bethesda, USA
–  DNA databank of Japan (DDBJ). National institute of Genetics,.Mishima,
JP

•  Η ακολουθία κατατίθεται σε µία από τις ΒΔ, η οποία έχει και τη δυνατότητα να
την αναθεωρήσει (µόνο αυτή, για αποτροπή ‘συγκρούσεων’)

•  Και οι 3 ΒΔ ανήκουν στο International nucleotide sequence database collection


(INSDC). Κάθε µέρα ανταλλάσουν δεδοµένα. Η ίδια ακολουθία Χ3. Νέα έκδοση
ανά δίµινο.

•  Από το 2009, το INSDC ξεκίνησε να καταχωρεί και αµορφοποίητα δεδοµένα


από µεγάλης κλίµακας αλληλουχίσεις (Sequencing projects), είτε αυτά
προέρχονται από κλασσικές µεθόδους αλληλούχισης (Trace archive) (capillary
sequencing), είτε από µεθόδους αλληλούχισης 2ης γενιάς (Read Archive) (454,
Solexa, Solid, Helicos)

Βάσεις Δεδοµένων

Βάσεις νουκλεοτιδικών δεδοµένων (ιι)

Πάνω από 100 Δις βάσεις στο INSDC. Σύντοµα αναµένεται πληθώρα προσωπικών γενωµάτων.

Εγείρονται προβληµατισµοί για την αποθήκευση όλων αυτών των δεδοµένων!


Βάσεις Δεδοµένων

Βάσεις νουκλεοτιδικών δεδοµένων (ιιι)

2005: Ελλάδα: 2,7 ΜΒ USA: 7GB. Από DDBJ

Βάσεις Δεδοµένων

Βάσεις νουκλεοτιδικών δεδοµένων (ιv)


Βάσεις Δεδοµένων

Βάσεις νουκλεοτιδικών δεδοµένων.


EMBL format

Βάσεις Δεδοµένων

Βάσεις νουκλεοτιδικών δεδοµένων.


EMBL format
Βάσεις Δεδοµένων

Βάσεις νουκλεοτιδικών δεδοµένων.


FASTA format

Βάσεις Δεδοµένων

Βάσεις πρωτεϊνικών δεδοµένων

•  Swissprot. 1987, Uni Geneva + SIB. Σχολιασµός των δεδοµένων από


επιστήµονες
•  TrEMBL. 1996. SIB + EBI. Αυτόµατη µετάφραση των ακολουθιών που
βρίσκονται στην EMBL. Δεδοµένα στην ίδια µορφή µε την Swissprot.
Μπορεί να είναι υποθετικές ή ο σχολιασµός να µην είναι εκτενής, όπως
στην Swissprot.
•  PIR. 1984, USA
•  UniProt. 2002. Ενώθηκαν οι παραπάνω βάσεις.
•  UniMes: για µεταγενωµικά δεδοµένα, όπου δεν γνωρίζουµε από ποιά είδη
προέρχονται οι ακολουθίες.
Βάσεις Δεδοµένων

Swissprot (ι)

Βάσεις Δεδοµένων

Swissprot (ι)
Βάσεις Δεδοµένων

Swissprot (ιι)

Βάσεις Δεδοµένων

Swissprot (ιιι)
Βάσεις Δεδοµένων

Swissprot-statistics

Βάσεις Δεδοµένων

ΒΔ γονιδιακής έκφρασης

•  ArrayExpress. EBI, UK. Δέχεται δεδοµένα από το


2002
•  Gene expression omnibus (GEO). NCBI, USA.
•  Κάθε εβδοµάδα το ArrayExpress ενσωµατώνει
δεδοµένα από το GEO.
•  Unigene (Expressed sequence tags)

•  Αν τα δεδοµένα προέρχονται από µικροσυστοιχίες,


τότε κατατίθενται µε τη µορφή MIAME (minimum
information about a microarray experiment).
•  Αν τα δεδοµένα προέρχονται από τεχνολογία
αλληλούχισης, τότε κατατίθενται µε τη µορφή
MINSEQE (minimum information about a high-
throughput sequencing experiment).
Βάσεις Δεδοµένων

ΒΔ πρωτεοµικής

Βάσεις Δεδοµένων

ΒΔ τρισδιάστατων δοµών

•  Protein Data Bank (PDB)


–  Πρωτεΐνες
–  Νουκλεϊκά οξέα
–  Σύµπλοκα των παραπάνω

•  Μέθοδοι
–  X-ray (~59000)
–  NMR (~8500)
–  Κρύο-ηλεκτρονική µικροσκοπία
(~300)
•  Οι παραπάνω µέθοδοι βρίσκουν τις
συντεταγµένες (3D) των ατόµων του
βιολογικού µορίου.
•  Τα αρχεία µε τις συντεταγµένες
διαβάζονται από ειδικά προγράµµατα
(π.χ Rasmol) που απεικονίζουν την
δοµή στο χώρο
Βάσεις Δεδοµένων

Βάσεις τρισδιάστατων δοµών


•  CATH: κατηγοριοποιεί τις τρισδιάστατες δοµές των πρωτεϊνικών επικρατειών
ιεραρχικά, σε 4 βασικά επίπεδα.
•  Η κατηγοριοποίηση γίνεται µε ένα συνδυασµό αυτόµατων µεθόδων και
ανθρώπινης κρίσης.

Βάσεις Δεδοµένων

Βάσεις τρισδιάστατων δοµών


Βάσεις Δεδοµένων

Pubmed
•  ΒΔ του NCBI. Ξεκίνησε τον Ιανουάριο του 1996.
•  Καταχωρεί όλες τις δηµοσιευµένες εργασίες που προέρχονται από τον ευρύτερο
χώρο της βιοϊατρικής
•  ~20 εκατοµύρια εργασίες καταχωρηµένες (Ιούλιος 2010)
•  Όταν µια εργασία γίνεται δεκτή από το περιοδικό, κατατίθεται και στην Pubmed
•  H Pubmed δίνει ένα µοναδικό κωδικό εγγραφής (PMID) και λέξεις κλειδιά που
χαρακτηρίζουν το περιεχόµενο της εργασίας (MeSH terms).
•  Από το 2007, το NIH απαιτεί όποιες ερευνητικές εργασίες έχουν χρηµατοδοτηθεί
από αυτό, τα αποτελέσµατά τους να γίνονται προσβάσιµα σε όλους, µέσω του
Pubmed Central (εντός 12 µηνών από την ηµεροµηνία δηµοσίευσης). (~ 1
εκατοµύριο εργασίες)

Βάσεις Δεδοµένων

Pubmed
Βάσεις Δεδοµένων

Pubmed

Βάσεις Δεδοµένων

Pubmed
Βάσεις Δεδοµένων

ΒΔ πρωτεϊνικών επικρατειών
•  Πρωτεϊνική επικράτεια: Μια περιοχή της πρωτεΐνης µε συγκεκριµένη λειτουργία/
δοµή και καλά συντηρηµένη.
•  Διάφορες βάσεις δεδοµένων, όπως:
–  PROSITE
–  Pfam
–  PRINTS
–  ProDom
–  SMART
–  TIGRFAMs
–  PIR superfamily
–  Superfamily
•  Έχουν ενσωµατωθεί στο INTERPRO
•  Το INTERPRO περιέχει πρωτεϊνικές επικράτειες. Το πρόγραµµα
INTERPROscan ανιχνεύει αυτές τις επικράτειες στις πρωτεΐνες.

Βάσεις Δεδοµένων

INTERPRO
Βάσεις Δεδοµένων

NCBI/Entrez

Βάσεις Δεδοµένων

ΕΒΙ
Βάσεις Δεδοµένων

EBI: Μηχανή αναζήτησης EB-eye

Βάσεις Δεδοµένων

Πρωτεϊνικές αλληλεπιδράσεις
Βάσεις Δεδοµένων

Πρωτεϊνικές αλληλεπιδράσεις

Tab delimited format

Βάσεις Δεδοµένων

Μεταβολικά µονοπάτια
Βάσεις Δεδοµένων

KEGG pathways
•  Kyoto encyclopedia of genes and genomes
•  2010: 374 µεταβολικά µονοπάτια

Βάσεις Δεδοµένων

KEGG pathways
Βάσεις Δεδοµένων

ΒΔ για µαθηµατικά µοντέλα µοριακών


µονοπατιών
•  Biomodels. EBI. 2010: 249 ελεγµένα/σχολιασµένα µοντέλα
•  Αποθηκευµένα σε µορφή SBML (Systems Biology Markup Language)

Στοίχιση κατά ζεύγη

Στοίχιση ακολουθιών κατά


ζεύγη
(Pairwise alignment)
Στοίχιση κατά ζεύγη

Στοίχιση κατά ζεύγη: Τι είναι


•  Αντιστοίχιση των νουκλεοτιδίων/αµινοξέων δυο ακολουθιών,
ώστε να εντοπιστούν οι οµοιότητες και οι διαφορές τους.
•  Χρησιµοποιείται για:
–  Εντοπισµό µεταλλάξεων
–  αναζήτηση οµόλογων γονιδίων/πρωτεϊνών σε βάσεις
δεδοµένων.
–  Συναρµολόγιση γενωµάτων.
–  Έλεγχος εξειδίκευσης εκκινητών (primers) για PCR.

Στοίχιση κατά ζεύγη

Στοίχιση κατά ζεύγη: Τι είναι


•  Τοποθετούνται οι αντίστοιχοι χαρακτήρες ο ένας κάτω από τον
άλλο και µπορεί να γίνει χρήση κενών (gaps)
•  Δύο χαρακτήρες µπορεί να είναι:
–  Ίδιοι
–  Παρόµοιοι (κοινές φυσικοχηµικές ιδιότητες, π.χ. Ισολευκίνη -
βαλίνη)
–  Διαφορετικοί
Στοίχιση κατά ζεύγη

Στοίχιση κατά ζεύγη: Τι είναι


•  Για δύο ακολουθίες µε 95% οµοιότητα, η στοίχιση µπορεί να
γίνει και µε το µάτι.
•  Τα διαθέσιµα προγράµµατα αγγίζουν τα όρια των δυνατοτήτων
τους όταν οι ακολουθίες έχουν 18-25% οµοιότητα (ζώνη του
λυκόφωτος)

Στοίχιση κατά ζεύγη

Λίγη εξέλιξη: οµολογία


•  Οµόλογα γονίδια: κοινός εξελικτικός πρόγονος. Χιµαιρικές
πρωτεΐνες;

•  Ορθόλογα γονίδια: προέρχονται από ειδογένεση. Ουσιαστικά,


ένα γονίδιο α (µεταλλαγµένο) σε δύο διαφορετικούς
οργανισµούς. Συχνά έχουν την ίδια λειτουργία

•  Παράλογα γονίδια: προέρχονται από γονιδιακό διπλασιασµό.


Ανήκουν στην ίδια οικογένεια

•  Ξενόλογα γονίδια: από οριζόντια µεταφορά

•  Παράδειγµα µε Πυρηνικούς υποδοχείς


Στοίχιση κατά ζεύγη

Λίγη εξέλιξη: οµολογία (ιι)

•  Γονίδια του ίδιου χρώµατος από


διαφορετικούς οργανισµούς είναι
ορθόλογα.
•  Το κόκκινο και το κίτρινο από ένα
οργανισµό είναι παράλογα.
•  Το κόκκινο από ένα οργανισµό και το
κίτρινο από ένα άλλο οργανισµό είναι
έξτρα-παράλογα

Στοίχιση κατά ζεύγη

Βασικότερα είδη µεταλλάξεων


•  Μεταλλάξεις σηµείου (point mutations)

–  Συνώνυµες (synonymous)

–  Μη-συνώνυµες (non-synonymous)
•  Αµινοξέα µε παρόµοιες φυσικοχηµικές ιδιότητες
•  Αµινοξέα µε διαφορετικές φυσικοχηµικές ιδιότητες

–  Κωδικόνια τερµατισµού
Στοίχιση κατά ζεύγη

Μεταπτώσεις-µεταστροφές
•  Μεταπτώσεις (Transitions)
–  Δηµιουργούνται µε
µεγαλύτερη συχνότητα
–  Συνήθως οδηγούν σε
συνώνυµες µεταλλάξεις
–  Eίναι πιο συχνές στα
SNPs

Στοίχιση κατά ζεύγη

Κατηγοριοποίηση αµινοξέων
Στοίχιση κατά ζεύγη

Βασικότερα είδη µεταλλάξεων


•  Δοµικές Αναδιατάξεις
–  Προσθήκες/απαλείψεις (insertions/deletions)
–  Αναστροφές
–  Διπλασιασµοί

Στοίχιση κατά ζεύγη

Βασικότερα είδη µεταλλάξεων


(ιι)
•  Αναδιάταξη αυτόνοµων λειτουργικών περιοχών µιας πρωτεΐνης
(domain rearrangements)
Στοίχιση κατά ζεύγη

Όλες οι περιοχές µιας πρωτεΐνης δεν


µεταλλάσονται µε τον ίδιο ρυθµό
•  Αυτόνοµες λειτουργικές περιοχές (domains): πολύ
συντηρηµένες

•  Περιοχές ενδογενούς δοµικής αστάθειας (intrinsically disordered


regions). Π.χ, ευέλικτες συνδετικές περιοχές (flexible linkers).
–  Μεταβαλλόµενο µήκος και περιεκτικότητα αµινοξέων, µε
παρόµοιες όµως φυσικοχηµικές ιδιότητες.
–  Μεταλλάσονται γρήγορα. Το εξελικτικό σήµα µπορεί να χαθεί
σύντοµα
–  Συχνά δεν υπάρχει περιορισµός θέσης (π.χ φωσφορυλίωση)

Στοίχιση κατά ζεύγη

Γλοβίνες
•  πολύ συντηρηµένη τριτοταγής δοµή, λίγο συντηρηµένη
πρωτοταγής δοµή (~10-20% οµοιότητα)
Στοίχιση κατά ζεύγη

Είδη στοίχισης κατά ζεύγη (ι)


•  Ολική στοίχιση (global alignment)
–  Προσπαθεί να στοιχίσει όσο το δυνατό περισσότερους
χαρακτήρες σε ΟΛΟ το µήκος των δύο αλληλουχιών
–  Για ακολουθίες που δεν έχουν αποκλείνει σε µεγάλο βαθµό
και επίσης έχουν παρόµοιο µέγεθος
–  Κλασσική µέθοδος: Needleman-Wunsch.
•  Βασίζεται στον δυναµικό προγραµµατισµό

Στοίχιση κατά ζεύγη

Eίδη στοίχισης κατά ζεύγη (ιι)


•  Τοπική στοίχιση (local alignment)
–  Νησίδες στοίχισης.
–  Για ακολουθίες που έχουν αποκλείνει αρκετά και έχουν
αποµείνει συντηρηµένες µόνο κάποιες περιοχές (domains)
–  Για αντιστοίχιση mRNA µε γενωµικό DNA
–  Κλασσικές µέθοδοι:
•  Smith-Waterman (δυναµικός προγραµµατισµός)
•  Blast (ευρετικές µέθοδοι-heuristics)
Στοίχιση κατά ζεύγη

Eίδη στοίχισης κατά ζεύγη


•  Στοίχιση αλληλεπικάλυψης (overlap ή ends-free alignment) για
συναρµολόγηση γονιδιώµατος από µικρά αλληλεπικαλυπτόµενα
κοµµάτια DNA

Στοίχιση κατά ζεύγη

Eίδη στοίχισης κατά ζεύγη (ιιι)


Στοίχιση κατά ζεύγη

Στιγµοπίνακες (dotplots)
•  Εισήχθησαν από τους Gibbs & McIntyre το 1970.
•  Χρησιµοποιούνται για σύγκριση 2 ακολουθιών (π.χ.
Πρωτεϊνών ή DNA).
•  Αποκαλύπτουν
–  Προσθήκες - Εξαλείψεις
–  Ευθείες ή ανεστραµµένες επαναλήψεις (π.χ χρήσιµοι για
RNA)
–  Περιοχές χαµηλής πολυπλοκότητας
–  Αναστροφές

•  Διάφορα προγράµµατα (π.χ Dotlet)

•  Σε ένα βαθµό, εισέρχεται η υποκειµενικότητα στην ερµηνεία


των αποτελεσµάτων.

Στιγµοπίνακες
Στιγµοπίνακες - Θόρυβος

Στιγµοπίνακες -
Απαλοιφή Θορύβου µε συρόµενα παράθυρα
Στοίχιση κατά ζεύγη

Στιγµοπίνακες

Στοίχιση κατά ζεύγη

Στιγµοπίνακες
•  Απαλοιφή
θορύβου µε
συρόµενα
παράθυρα
•  Ο Mount προτείνει:
–  Για DNA:
παράθυρο 15
χαρακτήρων µε
τουλάχιστον 10
αντιστοιχίσεις
–  Για πρωτεΐνες:
παράθυρο 2-3
χαρακτήρων µε
τουλάχιστον 2
αντιστοιχίσεις
Στοίχιση κατά ζεύγη

Στιγµοπίνακες
insertion - deletions

Στοίχιση κατά ζεύγη

Στιγµοπίνακες
•  Insertions/deletions (indels)
Στοίχιση κατά ζεύγη

Στιγµοπίνακες - Αναστροφές

Στοίχιση κατά ζεύγη

Στιγµοπίνακες
Επαναλήψεις
Στοίχιση κατά ζεύγη

Στιγµοπίνακες
•  Επαναλήψεις

Στοίχιση κατά ζεύγη

Στιγµοπίνακες
Επαναλήψεις
Περιοχές χαµηλής
πολυπλοκότητας
Στοίχιση κατά ζεύγη

Στιγµοπίνακες
•  Επαναλήψεις - Περιοχές χαµηλής πολυπλοκότητας

Στοίχιση κατά ζεύγη

Στιγµοπίνακες
Ανεστραµµένες Επαναλήψεις
Στοίχιση κατά ζεύγη

Στιγµοπίνακες
•  Ανεστραµµένες επαναλήψεις

Στιγµοπίνακες
•  Αν συγκρίνουµε 2 πρωτεΐνες που έχουν αποκλίνει αρκετά, αντί να
ελέγξουµε για ακριβές ταίριασµα των αµινοξέων, µπορούµε να
ελέγξουµε για ταίριασµα αµινοξέων µε παρόµοιες φυσικοχηµικές
ιδιότητες.
•  Χρησιµοποιούµε πίνακες αντικατάστασης (π.χ. PAM, Blosum)
•  Για το συρόµενο παράθυρο υπολογίζεται ένα σκορ µε βάση τους
χρησιµοποιούµενους πίνακες αντικατάστασης.
Στοίχιση κατά ζεύγη

Δυναµικός προγραµµατισµός
•  Δίνει την βέλτιστη στοίχιση (Μαθηµατικά αποδεδειγµένο).

•  Και για ολικές και για τοπικές στοιχίσεις.

•  Η στοίχιση εξαρτάται από το βαθµολογικό σύστηµα που


εφαρµόζεται.

Στοίχιση κατά ζεύγη

Δυναµικός προγραµµατισµός
•  Το βαθµολογικό σύστηµα πρέπει:
–  Να δίνει βαθµούς για κάθε θέση που οι χαρακτήρες
ταιριάζουν απόλυτα
–  Να δίνει βαθµούς (λιγότερους) για κάθε θέση που οι
χαρακτήρες έχουν παρόµοιες ιδιότητες
–  Να µην δίνει βαθµούς για µια θέση που οι χαρακτήρες είναι
τελείως διαφορετικοί
–  Να βάζει ποινή για κάθε κενό που εισάγεται
–  Να βάζει ποινή (µικρότερη) για κάθε κενό που επεκτείνεται
Στοίχιση κατά ζεύγη

Δυναµικός προγραµµατισµός
Το βαθµολογικό σύστηµα

Στοίχιση κατά ζεύγη

Δ.Π. Ολική στοίχιση παράδειγµα (i)


Στοίχιση κατά ζεύγη

Δ.Π. Ολική στοίχιση παράδειγµα (ii)


Εκκίνηση του πίνακα

Στοίχιση κατά ζεύγη

Δ.Π. Ολική στοίχιση παράδειγµα (iii)


Συµπλήρωση πίνακα
Στοίχιση κατά ζεύγη

Δ.Π. Ολική στοίχιση παράδειγµα (iv)


ιχνηλάτηση

Στοίχιση κατά ζεύγη

Δ.Π. Ολική στοίχιση παράδειγµα (v)


συµπλήρωση
Στοίχιση κατά ζεύγη

Δ.Π. Ολική στοίχιση παράδειγµα (vi)


συµπλήρωση

Στοίχιση κατά ζεύγη

Ολική στοίχιση: ιχνηλάτιση

Πρέπει να βρούµε όλες τις δυνατές πορείες από κάτω-δεξιά -> πάνω-αριστερά.
Εδώ: 3 πιθανές πορείες = 3 εξίσου καλές λύσεις
Πώς στοιχίζουµε
Για κάθε θέση:
•  Αν κινηθούµε διαγώνια, τότε στοιχίζουµε τα 2 νουκλεοτίδια/
αµινοξέα που αντιστοιχούν για εκείνη την θέση (είτε ταιριάζουν
είτε όχι).
•  Αν κινηθούµε οριζόντια ή κάθετα βάζουµε κενό στην ακολουθία
που δείχνει το βέλος

Πώς στοιχίζουµε
Πώς στοιχίζουµε

Πώς στοιχίζουµε
Πώς στοιχίζουµε

Πώς στοιχίζουµε
Πώς στοιχίζουµε

Στοίχιση κατά ζεύγη

Δυναµικός προγραµµατισµός
τοπική στοίχιση
•  Ενδείκνυται για
–  µακροµόρια διαφορετικού µεγέθους
–  Συντηρηµένη µόνο µια µικρή περιοχή
–  Στοίχιση ώριµου mRNA µε το γονίδιό του
–  2 γονίδια µε συντηρηµένα εξόνια αλλά
αποκλείνοντα ιντρόνια

•  Αλγόριθµος Smith-Waterman (1981)


Στοίχιση κατά ζεύγη

Δυναµικός προγραµµατισµός
τοπική στοίχιση
•  Αλγόριθµος παρόµοιος µε ολική στοίχιση
•  Διαφορές:
–  Οι ασυµφωνίες δίνουν αρνητική βαθµολογία.
–  Όταν µια τιµή του πίνακα βγαίνει αρνητική, µηδενίζεται.

Στοίχιση κατά ζεύγη

Δ.Π τοπική στοίχιση


παράδειγµα (i)
Στοίχιση κατά ζεύγη

Δ.Π τοπική στοίχιση


παράδειγµα (ii)

Στοίχιση κατά ζεύγη

Δ.Π τοπική στοίχιση


παράδειγµα (iii)
Δ.Π τοπική στοίχιση
Στοίχιση κατά ζεύγη

παράδειγµα (iv)

Στοίχιση κατά ζεύγη

Δ.Π τοπική στοίχιση


παράδειγµα (v)
Στοίχιση κατά ζεύγη

Πίνακες αντικατάστασης
•  Στο παράδειγµα του Δυναµικού Προγραµµατισµού, όλες οι
συµφωνίες/ασυµφωνίες είχαν το ίδιο σκορ.

•  Στην πράξη, πιο περίπλοκα συστήµατα βαθµολόγισης. Μια


ασυµφωνία µεταξύ δύο πουρινών δεν είναι το ίδιο µε µια
ασυµφωνία µεταξύ πουρίνης-πυριµιδίνης. Διαφορετικές
συχνότητες µεταλλάξεων.

•  Το ίδιο και για τις πρωτεΐνες.

•  Χρειαζόµαστε πίνακες που βασίζονται σε συγκεκριµµένα


εξελικτικά µοντέλα και λαµβάνουν υπόψην την συχνότητα του
κάθε χαρακτήρα

Στοίχιση κατά ζεύγη

Πίνακες αντικατάστασης
•  Για πρωτεΐνες:

–  Πίνακες PAM

–  Πίνακες BLOSUM

Μεγαλύτερη πιθανότητα αντικατάστασης µεταξύ αµινοξέων µε


παρόµοιες φυσικοχηµικές ιδιότητες, (συντηρητικές
αντικαταστάσεις).
Στοίχιση κατά ζεύγη

Λογαριθµικές πιθανότητες
•  Πρώτη χρήση από Dayhoff για πίνακες αντικατάστασης που
χρησιµοποιούνται στη βαθµολόγιση στοιχίσεων.

•  Βαθµολογία αντικατάστασης ~ log(συχνότητα στόχων / συχνότητα


υποβάθρου)

•  Συχνότητα στόχων: παρατηρηθείσες συχνότητες αντικατάστασης σε


στοιχίσεις υπαρκτών και οµόλογων πρωτεΐνών. Χρησιµοποιούµε
στοιχίσεις που έγιναν µε το ‘µάτι’ και είµαστε σίγουροι ότι είναι σωστές.

•  Συχνότητα υποβάθρου: προκύπτει από τις συνολικές συχνότητες των


αµινοξέων στις πρωτεΐνες. Υποθέτουµε ότι δεν υπάρχει εξελικτική
πίεση στις αντικαταστάσεις.

Στοίχιση κατά ζεύγη

Συχνότητα αµινοξέων
από Swissprot
Στοίχιση κατά ζεύγη

Πίνακες PAM
•  Dayhoff et al., 1978

•  PAM -> Percent Accepted Mutations

•  Βασίστηκε σε 1572 αποδεκτές


αντικαταστάσεις από 71 groups
εξελικτικά ‘κοντινών’ οµόλογων
ακολουθιών.

•  1 PAM -> µονάδα εξελικτικής


απόκλισης, όπου 1% των αµινοξέων
έχει αλλάξει.

Ανοµοιογενής ρυθµός εξέλιξης για τις οικογένειες πρωτεϊνών. Άρα, 1


PAM σηµαίνει διαφορετικό χρόνο εξέλιξης για την κάθε οικογένεια.

Για 250 µονάδες PAM, θα υπάρχει απόκλιση 100% µεταξύ δύο


οµόλογων ακολουθιών;

Στοίχιση κατά ζεύγη

Πίνακες PAM (ii)


•  Όχι. Απόκλιση ~80%.

•  Μερικές θέσεις µπορεί να έχουν υποστεί περισσότερες από µία


αντικαταστάσεις, ή ακόµα και να έχουν επανέλθει στο αρχικό αµινοξύ!

•  Το κάθε αµινοξύ θα έχει αποκλίνει σε διαφορετικό βαθµό. Π.χ.


αµετάβλητες θα παραµείνουν 55% Trp, 6% Asn.
Στοίχιση κατά ζεύγη

Πίνακες PAM (iii)


•  Θετική τιµή στον πίνακα,
µεταξύ δύο αµινοξέων ->
πιο πιθανό να
συναντήσουµε αυτό το
ζεύγος σε µια στοίχιση
µεταξύ οµόλογων
ακολουθιών

•  Αρνητική τιµή στον


πίνακα, µεταξύ δύο
αµινοξέων -> πιο απίθανο
να συναντήσουµε αυτό το
ζεύγος σε µια στοίχιση
µεταξύ οµόλογων
ακολουθιών

•  Ζεύγη αµινοξέων µε
παρόµοιες ιδιότητες έχουν
θετικές τιµές log-odds

Στοίχιση κατά ζεύγη

Πίνακες PAM (iv)


•  Στις στοιχίσεις χρησιµοποιήθηκαν ακολουθίες που είχαν αποκλείνει
πολύ λίγο µεταξύ τους (απόσταση 1 PAM).

•  Αναγωγή σε απόσταση 250 PAM (Πίνακας PAM250).


Πολλαπλασιάστηκε ο PAM1 Χ 250 φορές µε τον εαυτό του

•  Σειρά πινάκων. Εµπειρικά προτάθηκε για γενική χρήση ο PAM250

•  Όσο µεγαλώνει το νούµερο, µεγαλώνει και η εξελικτική απόσταση.

•  Για στοίχιση ακολουθιών µε µικρή εξελικτική απόσταση,


χρησιµοποιούµε πίνακες PAM µε µικρά νούµερα.

•  Οι πίνακες PAM δηµιουργήθηκαν από ακολουθίες µε µικρή εξελικτική


απόσταση και εποµένως είναι προτιµότερο να χρησιµοποιούνται για
στοίχιση ‘κοντινών’ ακολουθιών
Στοίχιση κατά ζεύγη

Πίνακες PAM (iv)


•  Εγγενείς ατέλειες:

–  Δεν λαµβάνεται υπόψην ο διαφορετικός βαθµός συντήρησης


των περιοχών µιας πρωτεΐνης.

–  Κάθε αντικατάσταση θεωρείται:


•  ανεξάρτητη από προηγούµενες αντικαταστάσεις στην
ίδια θέση.
•  Ανεξάρτητη από τα γειτονικά αµινοξέα

Στοίχιση κατά ζεύγη

Πίνακες BLOSUM
•  BLOcks SUbstitution Matrix

•  Henikoff & Henikoff, 1992.

•  Χρησιµοποίησαν τοπικές πολλαπλές στοιχίσεις από συντηρηµένες


περιοχές εξελικτικά αποµακρυσµένων ακολουθιών (Β.Δ BLOCKS).

•  Και εδώ σειρά πινάκων µε διαφορετικά νούµερα.

•  BLOSUM62 : Ακολουθίες µε οµοιότητα 62% και παραπάνω


οµαδοποιούνται.

•  Δεν κάνουν αναγωγές στην εξελικτική απόσταση σε αντίθεση µε τις


PAM.
Στοίχιση κατά ζεύγη

Βασικές διαφορές µεταξύ


PAM-BLOSUM
•  Ο κάθε πίνακας BLOSUM δηµιουργείται από πραγµατικά δεδοµένα και
όχι από αναγωγή ενός αρχικού πίνακα.

•  Οι PAM δηµιουργήθηκαν από ολική στοίχιση, ενώ οι BLOSUM από


τοπική στοίχιση καλά συντηρηµένων περιοχών.

Στοίχιση κατά ζεύγη

Πίνακες αντικατάστασης
νουκλεοτιδίων
•  Μοντέλο Jukes-Cantor: Ενιαίοι ρυθµοί µετάλλαξης

•  Μοντέλο Kimura: µεταπτώσεις (transitions) ποιό πιθανές από


µεταστροφές (transversions)
Στοίχιση κατά ζεύγη

Βαθµολόγιση Κενών
•  Γραµµική ποινή για τα κενά (affine gap penalty)
–  Μια πολύ υψηλή τιµή για την εισαγωγή ενός κενού και
χαµηλότερη τιµή για την επέκταση του κενού

•  Επιλογή παραµέτρων εµπειρική!


•  Θεωρείται σπάνιο γεγονός η εισαγωγή κενού, όταν όµως
συµβαίνει, η επεκτασή του δεν είναι τόσο σπάνια
–  Π.χ. Για BLOSUM62: εισαγωγή κενού -> Ποινή 10-15.
Επέκταση κενού -> ποινή 1-2

Στοίχιση κατά ζεύγη

Βαθµολόγιση µιας στοίχισης


µε πίνακα αντικατάστασης και
affine gap penalty
Στοίχιση κατά ζεύγη

Οδηγίες χρήσης πινάκων


•  Για οδηγίες χρήσης:
–  http://www.ebi.ac.uk/help/matrix.html

Στοίχιση κατά ζεύγη

Στατιστική σηµαντικότητα µιας


στοίχισης κατά ζεύγη
•  Περισσότερες πληροφορίες στο:
http://www.ncbi.nlm.nih.gov/BLAST/tutorial/Altschul-1.html

•  Στατιστική σηµαντικότητα µιας στοίχισης πρακτικά σηµαίνει ότι


οι δύο ακολουθίες είναι οµόλογες (κοινή εξελικτική προέλευση)
Στοίχιση κατά ζεύγη

Στατιστική σηµαντικότητα
ολικής στοίχισης (i)
•  Δεν µπορούµε να γνωρίζουµε την κατανοµή τυχαίων
τιµών µιας ολικής στοίχισης τυχαία επιλεγµένων (µη
οµόλογων) ακολουθιών.

•  Για κάθε στοίχιση, µπορούµε να πάρουµε την µια


ακολουθία και να την ανακατέψουµε πολλές φορές
(προσοµοίωση). Έτσι διατηρείται η συχνότητα των
αµινοξέων στην ακολουθία.

•  Για το κάθε ανακάτεµα, υπολογίζουµε τη βαθµολογία


της στοίχισης του τυχαίου ζεύγους.

•  Θα ήταν λάθος να υποθέσουµε ότι η υπολογισµένη µε


προσοµοιώσεις κατανοµή τυχαίων τιµών είναι
κανονική. Ζ-score δεν µπορεί να µετατραπεί σε P-
value

Στοίχιση κατά ζεύγη

Στατιστική σηµαντικότητα
ολικής στοίχισης (ii)

•  Αν πραγµατοποιηθεί το ανακάτεµα 100 φορές και η µέγιστη


βαθµολογία στοίχισης δεν υπερβαίνει την βαθµολογία που
παρατηρήσαµε για την στοίχιση των 2 πραγµατικών
ακολουθιών, τότε η στοίχιση είναι στατιστικά σηµαντική σε
επίπεδο P-value < 0.01

•  Μεγάλο υπολογιστικό κόστος

•  Χρησιµοποιείται για ολικές στοιχίσεις,εντούτοις δεν ενδείκνυται η


ολική στοίχιση για να αποφασίσουµε αν δύο ακολουθίες είναι
οµόλογες
Στοίχιση κατά ζεύγη

Στατιστική σηµαντικότητα
τοπικής στοίχισης (i)
•  Για τοπικές στοιχίσεις χωρίς κενά:
–  αναλυτική µαθηµατική θεωρία
κατανοµής τυχαίων βαθµολογιών.
–  Κατανοµή ακραίων τιµών (Extreme
value distribution - Gumbel).

•  Γιατί όχι κανονική κατανοµή;


–  Γιατί σε µια οµοπαράθεση δύο
ακολουθιών χρησιµοποιούµε µόνο την
βέλτιστη από όλες τις δυνατές
στοιχίσεις

Στοίχιση κατά ζεύγη

Στατιστική σηµαντικότητα
τοπικής στοίχισης (ii)
Κατανοµή ακραίων τιµών Gumbel
–  Οι παράµετροι της κατανοµής πρέπει να προσαρµοστούν:
•  στο σύστηµα βαθµολόγισης
•  Στα µήκη των δύο ακολουθιών
•  στις συχνότητες υποβάθρου των νουκλεοτιδίων/
αµινοξέων

Για τοπικές στοιχίσεις µε κενά, δεν υπάρχει αναλυτική


µαθηµατική θεωρία, έχουν όµως αναπτυχθεί µέθοδοι
υπολογισµού.
Στοίχιση κατά ζεύγη

Στατιστική σηµαντικότητα
τοπικής στοίχισης (iii)
•  Για µια δεδοµένη τοπική στοίχιση (χωρίς κενά) δύο ακολουθιών µε
score S, πόσες τυχαίες στοιχίσεις θα µπορούσαν να δώσουν το ίδιο
score ή καλύτερο;

•  E = Kmne-λS (E-value)
•  m,n µήκη των ακολουθιών
•  S score στοίχισης
•  Κ, λ εξαρτώνται από τη συχνότητα νουκλεοτιδίων/αµινοξέων και το
σύστηµα βαθµολόγισης.

•  Τι σηµαίνει για µια στοίχιση, E-value = 1;

•  Συνήθως η σηµαντικότητα ορίζεται: E-value < 10e-4

Στοίχιση κατά ζεύγη

Στατιστική σηµαντικότητα
τοπικής στοίχισης (iv)
•  Το raw score µιας τοπικής στοίχισης εξαρτάται από το
βαθµολογικό σύστηµα που χρησιµοποιήθηκε.

•  Χρειάζεται να κανονικοποιηθεί (normalization). Είναι σαν


να µιλάµε για απόσταση χωρίς να διευκρινίζουµε αν είναι
σε µέτρα ή πόδια.

•  Bit score S΄ είναι το κανονικοποιηµένο raw score.

•  To E-value για το κανονικοποιηµένο score (bit score)


Στοίχιση κατά ζεύγη

Αναζήτηση οµόλογων ακολουθιών σε


βάσεις δεδοµένων (i)
•  Οµόλογες ακολουθίες πιθανόν να έχουν παρόµοιες λειτουργίες.

•  Ακολουθία επερώτησης (query sequence)


•  Υποκείµενες ακολουθίες στην βάση δεδοµένων (subject sequences).

•  1 ακολουθία Χ Β.Δ
•  Ν ακολουθίες Χ Β.Δ

•  Αναζήτηση µε δυναµικό προγραµµατισµό: Smith-Waterman, SSearch

•  Ευρετικοί αλγόριθµοι για ανίχνευση οµόλογων ακολουθιών.


–  FASTA
–  BLAST
•  50 φορές γρηγορότεροι από δυναµικό προγραµµατισµό, αλλά ενδέχεται:
–  να µην εντοπίσουν κάποιες ‘αποµακρυσµένες’ οµόλογες ακολουθίες.
–  να µη γίνει η βέλτιστη στοίχιση

Στοίχιση κατά ζεύγη

Αναζήτηση οµόλογων ακολουθιών σε


βάσεις δεδοµένων (ii)
•  Για κάθε στοίχιση µιας ακολουθίας Α µε ακολουθίες από την Β.Δ.,
υπολογίζεται µια βαθµολογία S και κανονικοποιείται (bit score).

•  Για µια αναζήτηση σε Β.Δ. γίνονται πολλές στοιχίσεις. Αυτό πρέπει


να ληφθεί υπόψην στον υπολογισµό της στατιστικής
σηµαντικότητας (multiple testing correction).

•  Διορθωµένο E-value = E-value X N


•  (N=αριθµός ακολουθιών στην Β.Δ.)

•  Υπάρχουν παραλλαγές του τρόπου υπολογισµού της στατιστικής


σηµαντικότητας, για το κάθε πρόγραµµα.

•  Διαφορετικός υπολογισµός µεταξύ FASTA - BLAST.


Στοίχιση κατά ζεύγη

Αλγόριθµος FASTA
•  Ktuples: λέξεις µήκους κ που ταιριάζουν απόλυτα µεταξύ των
ακολουθιών.

•  Για πρωτεΐνες:
–  Ktup 1-2. (20 αµινοξέα)

•  Για DNA:
–  Ktup 4-6. (µόνο 4 νουκλεοτίδια)

Στοίχιση κατά ζεύγη

Αλγόριθµος FASTA: εν
συντοµία
•  Ο αλγόριθµος ψάχνει γρήγορα για µικρές περιοχές µε µεγάλη
οµοιότητα.

•  Αν εντοπίσει τέτοιες περιοχές, προσπαθεί να βελτιώσει την


στοίχιση τοπικά.

•  Αν η γρήγορη τοπική στοίχιση ξεπεράσει κάποια οριακή τιµή,


τότε γίνεται κανονική τοπική στοίχιση Smith-Waterman
Στοίχιση κατά ζεύγη

Αλγόριθµος FASTA

Στοίχιση κατά ζεύγη

Αλγόριθµος FASTA
Στοίχιση κατά ζεύγη

Αλγόριθµος BLAST
http://www.ncbi.nlm.nih.gov/bookshelf/br.fcgi?book=comgen&part=blast

•  words: λέξεις µήκους W που


–  δεν απαιτείται να ταιριάζουν απόλυτα µεταξύ των πρωτεϊνικών
ακολουθιών
–  πρέπει να ταιριάζουν απόλυτα µεταξύ των νουκλεοτιδικών
ακολουθιών.

•  Πρωτεΐνες: w=3

•  Νουκλεϊκά οξέα: w=11

•  E-value
–  Default: 10 (για να µη χαθούν οµόλογες ακολουθίες)
–  Συνήθως E-value < 1e-3 (για να αποµείνουν οµόλογες ακολουθίες
υψηλής εµπιστοσύνης)

Στοίχιση κατά ζεύγη

Αλγόριθµος BLAST

•  PQG
•  20 X 20 X 20 = 8.000 words
•  PQG X 8.000 words
•  PQG X PEG = 7 + 2 + 6=15
•  Όριο τιµής Τ
Στοίχιση κατά ζεύγη

Αλγόριθµος BLAST

Στοίχιση κατά ζεύγη

Περιοχές χαµηλής πολυπλοκότητας


•  Low complexity regions
(i)
•  Επαναλήψεις:
–  poly-A tails
–  Poly-proline tracts

•  Tandem repeats:
KTPKTPKTPKTPKTP

•  Interspersed repeats:
KTPAKTPKTPKTP

•  Προκύπτουν από λάθη:


–  Στην µιτωτική αντιγραφή (mitotic
replication slippage)
–  Στον µειωτικό ανασυνδυασµό
Στοίχιση κατά ζεύγη

Περιοχές χαµηλής πολυπλοκότητας


(ii)
•  2 µη οµόλογες ακολουθίες.

•  Μεταλλάξεις στην ακολουθία 1.

•  Μεταλλάξεις στην ακολουθία 2.

•  Αν δεν φιλτραριστούν οι περιοχές


χαµηλής πολυπλοκότητας:
–  Η στοίχιση θα δείξει οµολογία

Στοίχιση κατά ζεύγη

Φιλτράρισµα περιοχών χαµηλής


πολυπλοκότητας
•  Φιλτράρισµα (masking)

•  Και για BLAST και για FASTA.

•  Φιλτράρεται η ακολουθία
επερώτησης µόνο.

•  Χ για πρωτεΐνες και Ν για


νουκλεϊκά οξέα (ή µικρά
γράµµατα)

•  Φίλτρα του Blast:


–  Dust: νουκλεοτίδια
–  Seg: πρωτεΐνες

•  Άλλες ακολουθίες που µπορεί να φιλτράρονται:


–  Επαναλήψεις Alu
–  Φορείς κλωνοποίησης
–  Διαµεµβρανικές περιοχές
–  Coiled-coils
Blast

Blast

Blast
Blast

Blast

Blast

Blastn / MegaBlast
•  Blastn
–  Νουκλεοτίδια
Χ νουκλεοτίδια
–  Για στοίχιση
tRNA, rRNA,
mRNA,
γενωµικό DNA
Blast

MegaBlast
•  MegaBlast
–  10Χ ταχύτερο από Blastn
–  Για στοίχιση ακολουθιών που διαφέρουν πολύ λίγο µεταξύ τους
–  Κυρίως για στοίχιση mRNA µε ολόκληρο το γενωµικό DNA

Blast

Blastn
Παράδειγµα: Έλεγχος εξειδίκευσης ζεύγους εκκινητών (primers)
Blast

Blastn
Παράδειγµα: Eντοπισµός SNPs σε ακολουθίες του ιού HIV-1 για
ανθεκτικότητα σε φάρµακα

Blast

Blastp
•  Πρωτεΐνη Χ πρωτεΐνες

•  Παράδειγµα:
–  Πρόβλεψη λειτουργίας µιας άγνωστης πρωτεΐνης.
–  Εντοπισµός ορθόλογης πρωτεΐνης σε άλλα είδη.
–  Εντοπισµός όλων των µελών της πρωτεϊνικής οικογένειας
στο ίδιο ή σε άλλα είδη
Blast

Translated Blast
•  Η νουκλεοτιδική ακολουθία ενός γονιδίου εµφανίζεται λιγότερο
συντηρηµένη από την αµινοξική ακολουθία της πρωτεΐνης του.

•  Πιο ευαίσθητες µέθοδοι από Blastn για ανίχνευση οµόλογων


περιοχών (για περιοχές που κωδικοποιούν πρωτεΐνες).

•  Μετάφραση µε συγκεκριµµένο γενετικό κώδικα


–  ακολουθίας επερώτησης (query sequence)
–  ακολουθιών στην Β.Δ.
–  και των δύο ταυτόχρονα

Blast

tblastn

Πρωτεΐνη (query) X Β.Δ.


νουκλεοτιδικών ακολουθιών
µεταφρασµένων και στα 6
αναγνωστικά πλαίσια.
Blast

tblastn
•  Χρήση
–  Η Β.Δ. περιέχει νουκλεοτιδικές ακολουθίες µε άγνωστη λειτουργία
(συλλογή ESTs ή αµορφοποίητα δεδοµένα από την αλληλούχιση
ενός γενώµατος) ενός οργανισµού Α και θέλουµε να εντοπίσουµε
µια πρωτεΐνη µε συγκεκριµµένη λειτουργία στον οργανισµό Α. Ως
ακολουθία επερώτησης χρησιµοποιούµε την πρωτεΐνη που είναι
γνωστή στον οργανισµό Β.

•  Αντιµετωπίζει το πρόβληµα λαθών στην αλληλούχιση, που θα


µπορούσε να καταστρέψει το αναγνωστικό πλαίσιο.

Blast

Blastx
•  Νουκλεοτιδική ακολουθία επερώτησης (query) που µεταφράζεται στα 6
αναγνωστικά πλαίσια και συγκρίνεται µε Β.Δ. πρωτεϊνικών ακολουθιών.
Blast

Blastx
•  Παράδειγµα: εντοπισµός µετάλλαξης που αλλάζει το αναγνωστικό πλαίσιο.
–  Στο παράδειγµα, υπάρχει αλλαγή αναγνωστικού πλαισίου (frame +2 -> frame
+1) στη θέση 268 της πρωτεΐνης επερώτησης

Blast

tblastx

•  Νουκλεοτιδική ακολουθία
επερώτησης (query) που
µεταφράζεται στα 6
αναγνωστικά πλαίσια και
συγκρίνεται µε Β.Δ.
νουκλεοτιδικών ακολουθιών
µεταφρασµένων και στα 6
αναγνωστικά πλαίσια.

•  6X6 blastp
Blast

tblastx
•  Αναζήτηση (διαειδική) για άγνωστα µέχρι σήµερα γονίδια.

Blast

Blast και φυλογένεση


Blast

Επαλήθευση οµολογίας µέσω


ενδιάµεσων ακολουθιών
•  Έστω 2 ακολουθίες Α και Β είναι οµόλογες και στοιχίζονται σε όλο
το µήκος τους.

•  Αν µια ακολουθία Γ είναι οµόλογη µε τη Β, τότε θα είναι οµόλογη


και µε την Α, έστω και εάν δεν παρατηρούµε στατιστικά σηµαντική
στοίχιση µεταξύ της Α και της Γ

Επαλήθευση οµολογίας µέσω


ενδιάµεσων ακολουθιών
2 ακολουθίες Α και Β είναι οµόλογες αλλά ΔΕΝ στοιχίζονται σε όλο το
µήκος τους.
Η Β είναι επίσης οµόλογη µε την Γ.
Η Α είναι οµόλογη µε την Γ;

Γ
PSI-Blast

PSI-Blast

PSI-Blast: τι είναι

•  PSI-Blast: Position-specific iterated Blast

•  Position specific scoring matrices (PSSMs) (Πίνακες αντικατάστασης θέσης)

•  Altschul et al., 1997


•  http://www.ncbi.nlm.nih.gov/pmc/articles/PMC146917/pdf/253389.pdf

•  Η αναζήτηση µακρινών οµολόγων σε Β.Δ. είναι πιο ευαίσθητη µε τη χρήση


αυτών των πινάκων.

•  Για οµόλογες ακολουθίες το PSI-Blast βρίσκει µέχρι και 3 φορές


περισσότερες µακρινές οµόλογες ακολουθίες (οµοιότητα < 30%) σε σχέση µε
το Blastp.
PSI-Blast

PSI-Blast: τι είναι
•  Σε µια ακολουθία οι διάφορες θέσεις δεν είναι το ίδιο συντηρηµένες/ευέλικτες
λόγω δοµικών/λειτουργικών περιορισµών.

•  Χρησιµοποιώντας οµόλογες ακολουθίες από τον ίδιο ή άλλους οργανισµούς


κατανοούµε την ευελιξία κάθε θέσης µιας ακολουθίας.

•  Π.χ. Σε µια ακολουθία Α, στην θέση 123 (ενεργό κέντρο ενζύµου) βλέπουµε ένα
µόνο αµινοξύ.

•  Σε µια πολλαπλή στοίχιση της Α µε οµόλογες ακολουθίες βλέπουµε για την ίδια
θέση (123) ποιά άλλα αµινοξέα επιτρέπονται και σε τί συχνότητες.

•  Το PSSM χρησιµοποιεί αυτή την πληροφορία για να αναζητήσει µακρινά


οµόλογα σε µια Β.Δ.

PSI-Blast

PSSM
•  Αρχικά γίνεται πολλαπλή στοίχιση των ακολουθιών

•  Στη συνέχεια, για ακολουθία µήκους L δηµιουργείται πίνακας:


–  L X 4 (nucleotides)
–  L X 20 (proteins)
PSI-Blast

PSSM
•  Γίνεται καταµέτρηση των συχνοτήτων των χαρακτήρων για την
κάθε θέση.

PSI-Blast

PSSM
•  Ακολουθεί µια σειρά µετασχηµατισµών
–  Συντελεστής βαρύτητας της κάθε ακολουθίας µε βάση την οµοιότητά της
µε άλλες.
–  Pseudocounts
–  Λαµβάνεται υπόψην η συχνότητα υποβάθρου του κάθε χαρακτήρα
•  Υπολογισµός των odds (παρατηρούµενη συχνότητα / συχνότητα
υποβάθρου).
–  Log-odds

•  Ο πίνακας αυτός χρησιµοποιείται για τοπική στοίχιση µε ακολουθίες σε µια


Β.Δ. (αντικαθιστά την ακολουθία επερώτησης).
PSI-Blast

Στάδια του PSI-Blast


•  Πρώτο στάδιο:

–  Blast µε την ακολουθία επερώτησης σε µια Β.Δ. (Ε<0.001 default).

–  Οι τοπικές στοιχίσεις που βρέθηκαν (E-value < cutoff) χρησιµοποιούνται


για τη δηµιουργία µιας πολλαπλής στοίχισης M µε σηµείο αναφοράς την
ακολουθία επερώτησης (L θέσεις).
•  Δεν επιτρέπονται κενά στην ακολουθία επερώτησης.
•  Αυτή η πολλαπλή στοίχιση (ακολουθία - σηµείο αναφοράς) διαφέρει
από τις τυπικές πολλαπλές στοιχίσεις

–  Απαλοιφή ακολουθιών µε πολύ µεγάλη οµοιότητα.

–  Δηµιουργία PSSM.

PSI-Blast

Στάδια του PSI-Blast


•  Δεύτερο στάδιο:

–  Νέα αναζήτηση στη Β.Δ. µε το PSSM αντί της αρχικής ακολουθίας


επερώτησης.

–  Οι νέες ακολουθίες που βρέθηκαν και ξεπερνούν το κατώφλι E-value


ανανεώνουν την πολλαπλή στοίχιση και δηµιουργείται ένα νέο
PSSM.

•  Η διαδικασία επαναλαµβάνεται µέχρι να µη βρεθούν νέες ακολουθίες µε


Evalue < τιµή κατωφλίου (convergence).

•  Συνήθως, 3-5 κύκλοι αρκούν για να βρεθούν τα περισσότερα µακρινά


οµόλογα.
PSI-Blast

PSI-Blast

PSI-Blast

PSI-Blast
PSI-Blast

PSI-Blast
•  Πριν κάνουµε PSI-Blast πρέπει να ξέρουµε τι αναζητάµε!!!

–  αναζητούµε οµόλογες πρωτεΐνες µε την ίδια αρχιτεκτονική επικρατειών


(domain architecture);

–  Αναζητούµε πρωτεΐνες που να περιλαµβάνουν µια συγκεκριµµένη περιοχή;


Χρησιµοποιούµε µόνο αυτή την περιοχή στην αρχική αναζήτηση.

–  Αν η περιοχή αυτή είναι γνωστή επικράτεια που υπάρχει σε Β.Δ.


Πρωτεΐνικών επικρατειών (π.χ. PFAM), τότε καλύτερα να
χρησιµοποιήσουµε αυτές τις Β.Δ.

–  Κάποιες περιοχές/επικράτειες συναντώνται σε πολλές πρωτεΐνες.


•  Προσοχή στην αναζήτηση όταν υπάρχουν τέτοιες περιοχές

–  Αν ξεκινήσουµε µε άλλη οµόλογη ακολουθία επερώτησης δεν είναι σίγουρο


ότι θα φτάσουµε στο ίδιο αποτέλεσµα!

–  Προσοχή ποιές ακολουθίες συµπεριλαµβάνουµε στο PSSM. Αν εισέλθουν


λάθος ακολουθίες, το λάθος θα ανατροφοδοτείται σε κάθε κύκλο (profile
drift)

PSI-Blast

Επικράτειες (Domains)

•  Κάποιες επικράτειες
συνδυάζονται πολύ συχνά
µε άλλες, στην ίδια
πρωτεΐνη.
•  http://genome.cshlp.org/
content/18/3/449.full
PSI-Blast

Επικράτειες και αναζήτηση σε


Β.Δ.

Ανταποδοτικό Blast
(Best reciprocal blast hit)
Ανταποδοτικό Blast

Ανταποδοτικό Blast (ι)


•  Γρήγορη µέθοδος εντοπισµού ορθόλογων γονιδίων/πρωτεϊνών µεταξύ
δύο γενωµάτων (π.χ. µόλις αλληλουχήθηκε ένα γένωµα).

•  Γιατί είναι σηµαντικό να βρούµε το σωστό ορθόλογο;


–  Ορθόλογα συνήθως έχουν την ίδια λειτουργία
–  Παράλογα συνήθως αποκλείνουν στις λειτουργίες τους

Ανταποδοτικό Blast

Ανταποδοτικό Blast (ii)


Ανταποδοτικό Blast

Ανταποδοτικό Blast (iii)

Ανταποδοτικό Blast

Ανταποδοτικό Blast (iv)


Ανταποδοτικό Blast

Ανταποδοτικό Blast (v)


Εκτεταµένος γονιδιακός διπλασιασµός

Ανταποδοτικό Blast

Ανταποδοτικό Blast (vi)


Ανταποδοτικό Blast

Ανταποδοτικό Blast (vii)

Πώς µπορεί να εντοπιστεί το λάθος;

Ανταποδοτικό Blast

Ανταποδοτικό Blast (viii)


Ανταποδοτικό Blast

Παράµετροι που επηρεάζουν την εύρεση


ορθόλογων µε ανταποδοτικό blast (i)
•  Κυριότεροι παράµετροι που επηρεάζουν την εύρεση ορθόλογων
–  Είδος φιλτραρίσµατος περιοχών χαµηλής πολυπλοκότητας
•  Soft filtering (φιλτράρισµα µόνο στην φάση αναζήτησης, όχι στην φάση
τελικής στοίχισης) (default option)
•  Hard filtering (φιλτράρισµα και στις δύο φάσεις)
•  Ο αλγόριθµος που κάνει την τελική στοίχιση
–  Blast (words µε επέκταση) (default)
–  Smith-Waterman

Ανταποδοτικό Blast

Παράµετροι που επηρεάζουν την


εύρεση ορθόλογων µε ανταποδοτικό
blast (ii)
•  Επιλεγµένο όριο τιµής Ε (E-value threshold) ή τιµής bit-score
•  Κατώτατο όριο ποσοστού της ακολουθίας που συµµετέχει στην
στοίχιση.
•  Κατώτατο όριο ποσοστού οµοιότητας
•  Διαφορετικές τιµές για την κάθε ανάλυση
•  Π.χ. BioCyc: 10% identity, 40% similarity, E-value<1

•  To blast δεν δηµιουργήθηκε για να µετράει την εξελικτική


απόσταση δύο ακολουθιών, αλλά για να βρίσκει γρήγορα
οµόλογες ακολουθίες
Ανταποδοτικό Blast

Πηγές λαθών για ανταποδοτικό


blast
•  Εκτεταµένος γονιδιακός διπλασιασµός που συνέβη πρόσφατα.

•  Γονιδιακή σύντηξη

•  Εκτεταµένες αναδιατάξεις της αρχιτεκτονικής των πρωτεϊνών


(domain rearrangements)
–  Aνασυνδυασµός που οδηγεί στην εισδοχή µη οµόλογου domain

Ότι είναι θεωρητικώς δυνατόν να συµβεί, µάλλον έχει συµβεί κάπου!

Χρησιµοποιώντας το Blast
Το Blast στην πράξη

Χρησιµοποιώντας το Blast (i)


•  Επεξηγήσεις στο σύνδεσµο:
–  http://www.ncbi.nlm.nih.gov/BLAST/blastcgihelp.shtml

•  Εισάγουµε την ακολουθία

Το Blast στην πράξη

Χρησιµοποιώντας το Blast (ii)


•  Επιλέγοντας:
–  τη βάση δεδοµένων που θα γίνει η αναζήτηση
–  Τον οργανισµό που θα γίνει η αναζήτηση
Το Blast στην πράξη

Χρησιµοποιώντας το Blast (iii)


•  Παράµετροι του αλγόριθµου
•  Expect threshold: ανάλογα µε το τι αναζητούµε

Το Blast στην πράξη

Χρησιµοποιώντας το Blast (iv)


•  Αποτελέσµατα για συντηρηµένες επικράτειες (conserved domains)
Το Blast στην πράξη

Χρησιµοποιώντας το Blast (v)


•  Οµάδες συντηρηµένων επικρατειών

Το Blast στην πράξη

Χρησιµοποιώντας το Blast (vi)


•  Γράφηµα των καλύτερων στοιχίσεων
Το Blast στην πράξη

Χρησιµοποιώντας το Blast (vii)


•  Περιγραφές των αποτελεσµάτων (µε φίλτρο)

Το Blast στην πράξη

Χρησιµοποιώντας το Blast (viii)


•  Στοιχίσεις (µε φίλτρο - µικρά γράµµατα)
•  Identities (επί του αριθµού θέσεων στη στοίχιση)
•  Positives (επί του αριθµού θέσεων στη στοίχιση)
Το Blast στην πράξη

Χρησιµοποιώντας το Blast (ix)


χωρίς φίλτρο µε φίλτρο

Η χρήση φίλτρου αλλάζει το score


Identities/Positives σταθερά

Το Blast στην πράξη

Χρησιµοποιώντας το Blast (x)


Χωρίς φίλτρο

Με φίλτρο

Αλλάζει το score, E-value και η σειρά εµφάνισης


Το Blast στην πράξη

Χρησιµοποιώντας το Blast (xi)


Χωρίς φίλτρο

Με φίλτρο

Identities & positives παραµένουν σταθερά

Το Blast στην πράξη

Χρησιµοποιώντας το Blast (xi)


•  Αλλαγή στον Πίνακα αντικατάστασης και στις ποινές για κενά
–  Blosum 45 13:3, χωρίς φίλτρο

Blosum 62 11:1, χωρίς φίλτρο


Το Blast στην πράξη

Χρησιµοποιώντας το Blast (xii)

Blosum 45 13:3 Blosum 62 11:1

Μικρές διαφορές στη στοίχιση, στο score & E-value

Το Blast στην πράξη

Χρησιµοποιώντας το Blast (xiii)


•  Αν για το ίδιο γονίδιο ( ESR1_Human) χρησιµοποιούσαµε το mRNA
του (X03635.1 Homo sapiens mRNA for estrogen receptor α) και όχι
την πρωτεΐνη για την αναζήτηση στην Drosophila:
–  Blastn (nr database): κανένας στόχος. Γιατί;
–  Ποιό πρόγραµµα του Blast θα έπρεπε να χρησιµοποιήσουµε;
•  Εκφυλισµός του γενετικού κώδικα
•  Αµινοξέα µε κοινές φυσικοχηµικές ιδιότητες

Το Blast στην πράξη

Χρησιµοποιώντας το Blast (xiv)

Για το ίδιο mRNA


–  Blastx (nr database)
Το Blast στην πράξη

Χρησιµοποιώντας το PSI-Blast (i)

Το Blast στην πράξη

Χρησιµοποιώντας το PSI-Blast (ii)


Το Blast στην πράξη

Χρησιµοποιώντας το PSI-Blast (iii)

Το Blast στην πράξη

Χρησιµοποιώντας το PSI-Blast (iv)


Το Blast στην πράξη

Χρησιµοποιώντας το PSI-Blast (v)


•  Πράσινο σφαιρίδιο για ακολουθίες που είχαν βρεθεί σε
προηγούµενο γύρο αναζήτησης.
•  Μπορούµε να επιλέξουµε τον αποκλεισµό κάποιων ακολουθιών

Το Blast στην πράξη

Χρησιµοποιώντας το PSI-Blast (vi)


Το Blast στην πράξη

Χρησιµοποιώντας το PSI-Blast (vii)


•  Αν περιλαµβάνονταν οι 2 µεθυλ-τρανσφεράσες…

Το Blast στην πράξη

Χρησιµοποιώντας το PSI-Blast
(viii)
•  Αποθήκευση αποτελεσµάτων
Πολλαπλή στοίχιση
multiple sequence alignment
(MSA)

MSA

MSA: Τι είναι
•  Στοίχιση για 3 ή περισσότερες ακολουθίες.

•  Αποκαλύπτονται οι συντηρηµένες περιοχές µεταξύ των


ακολουθιών µιας οικογένειας.

•  Χρειάζεται για:
–  Δηµιουργία profiles/motifs που χαρακτηρίζουν µια επικράτεια
(domain).
–  Ανίχνευση συντηρηµένων DNA-binding sites σε προµότορες
γονιδίων
–  Φυλογένεση.
–  Πρόβλεψη δευτεροταγούς και τριτοταγούς δοµής πρωτεϊνών.
–  Σχεδιασµό εκφυλισµένων εκκινητών PCR
MSA

MSA

MSA

MSA
•  Sum of pairs
•  Σκοπός: η µεγιστοποίηση αυτού του score
MSA

MSA
•  Πολλαπλή στοίχιση µε:
–  Δυναµικό προγραµµατισµό (dynamic programming).
–  Με ευρετικές µεθόδους (heuristics).
•  Προοδευτική στοίχιση (progressive alignment)
•  Στοίχιση µε διαδοχικές βελτιώσεις (iterative alignment)
•  Στοίχιση βασισµένη σε blocks

MSA

MSA - δυναµικός
προγραµµατισµός (DP)
•  Για στοίχιση 2 ακολουθιών δηµιουργείται ένας πίνακας 2
διαστάσεων.
•  Για στοίχιση 3 ακολουθιών δηµιουργείται πίνακας 3 διαστάσεων.
•  Για στοίχιση Ν ακολουθιών δηµιουργείται πίνακας Ν
διαστάσεων.
•  Το υπολογιστικό κόστος αυξάνεται εκθετικά, για κάθε ακολουθία
που πρέπει να ενταχθεί στην πολλαπλή στοίχιση.
•  Πρακτικά, DP µπορεί να γίνει για λίγες µόνο ακολουθίες, µικρού
µήκους.
MSA

MSA-ευρετικές µέθοδοι
•  Προοδευτική στοίχιση (progressive)
–  ClustalW
•  Επαναλαµβανόµενη στοίχιση (Iterative)
•  Block-based

MSA

ClustalW (i)
•  Ολική στοίχιση (Needlman-Wunsch) κάθε
πιθανού ζεύγους
•  Πίνακας αποστάσεων (identities ή πίνακες
Blossum/PAM).
•  Μετατροπή των αποστάσεων σε εξελικτικές
αποστάσεις.
•  Δηµιουργία φυλογενετικού δένδρου -
οδηγού (guide tree) (neighbor joining).
–  Χαµηλότερης εµπιστοσύνης από ένα
κανονικό φυλογενετικό δένδρο, ωστόσο
καταδεικνύει ικανοποιητικά τις βασικές
σχέσεις
MSA

ClustalW (ii)
•  Οι 2 κοντινότερες ακολουθίες στοιχίζονται
και δηµιουργείται µια ακολουθία συναίνεσης.

•  Με βάση το δένδρο-οδηγό, η ακολουθία


συναίνεσης στοιχίζεται (δυναµικός
προγραµµατισµός) µε την επόµενη πιο
κοντινή ακολουθία ή την επόµενη πιο
κοντινή ακολουθία συναίνεσης.

•  Η διαδικασία επαναλαµβάνεται έως ότου


στοιχιθούν όλες οι ακολουθίες.

MSA

ClustalW (iii)

•  Ανάλογα µε την απόσταση 2 ακολουθιών στο δένδρο-οδηγό,


χρησιµοποιείται και ο κατάλληλος πίνακας αντικατάστασης
(Blossum62, Blossum 45) για την ολική στοίχιση κατά ζεύγη .

•  Οι ποινές των κενών προσαρµόζονται ανάλογα µε την


παρατηρούµενη συντήρηση µιας περιοχής και ανάλογα µε την
δευτεροταγή δοµή.

•  Συντελεστής βαρύτητας ανάλογα µε την εξελικτική απόσταση 2


ακολουθιών
MSA

Προβλήµατα της
προοδευτικής στοίχισης
•  Δεν ενδείκνυται για ακολουθίες µε πολύ διαφορετικά µήκη (λόγω
ολικής στοίχισης).

•  Η τελική πολλαπλή στοίχιση εξαρτάται από τη σειρά µε την


οποία θα γίνουν οι επιµέρους στοιχίσεις κατά ζεύγη.

•  Ένα αρχικό λάθος θα επηρεάσει τα υπόλοιπα στάδια της


πολλαπλής στοίχισης.

MSA

T-coffee
•  Προοδευτική στοίχιση.
•  Όταν στοιχίζει ένα ζεύγος ακολουθιών, δεν κάνει µόνο ολική
στοίχιση, αλλά και τοπικές στοιχίσεις (δηµιουργείται µια
βιβλιοθήκη στοιχίσεων).
•  Υπολογίζεται ένα σκορ συµφωνίας (consistency score) από τις
επιµέρους στοιχίσεις (ολική και τοπικές).

•  Σε σχέση µε το Clustal:
–  Πολύ καλύτερης ποιότητας πολλαπλές στοιχίσεις.
–  Πολύ πιο αργός υπολογισµός.
MSA

Muscle
Προοδευτική στοίχιση.
l 

Δύο υπολογισµοί δένδρου-


l 

οδηγού (UPGMA)
l  Kmer

l  Kimura distance

Κυκλική λογική
l 

l  Δένδρο-> πολλαπλή

στοίχιση-> βελτιωµένο
δένδρο -> βελτιωµένη
στοίχιση

Edgar R C Nucl. Acids Res. 2004;32:1792-1797

MSA

Επαναλαµβανόµενη
πολλαπλή στοίχιση (iterative)
•  Αρχικά δηµιουργείται µια
πολλαπλή στοίχιση
χαµηλής ποιότητας.
•  Η πολλαπλή στοίχιση
βελτιώνεται σε
επαναλαµβανόµενα
στάδια.
•  Ευρετική µέθοδος.
•  Δεν επηρεάζεται από
αρχικά λάθη.
•  Προγράµµατα:
–  PRRN
MSA

Block-based
•  Ενδείκνυται για πολλαπλή στοίχιση ακολουθιών που έχουν
αποκλείνει αρκετά και έχει αποµείνει συντηρηµένη µια µικρή
περιοχή τους.
•  Dialign

MSA

Πολλαπλή στοίχιση για DNA &


πρωτεΐνες
•  Revtrans
–  Παίρνει πολλαπλή στοίχιση των ακολουθιών σε επιπέδο
πρωτεϊνών και βάση αυτής, στοιχίζει τις ακολουθίες σε επίπεδο
DNA
MSA

Χειροκίνητη τροποποίηση/βελτίωση
πολλαπλής στοίχισης
•  Τα προγράµµατα δεν παράγουν την βέλτιστη στοίχιση.
•  Βελτίωση της στοίχισης χειροκίνητα
•  alignment editors
–  Seaview
–  Bioedit

MSA

Alignment formats
•  FASTA (.fa ή .fasta ή .fst)
•  Clustal (.aln)
•  Phylip (.phy ή .phylip)
•  MSF (.msf)
•  Mase (.mase)
•  Nexus (.nxs)
•  Συνήθως, τα alignment editors µπορούν να µετατρέψουν το ένα
format σε άλλο.
•  Readseq
–  http://www.ebi.ac.uk/cgi-bin/readseq.cgi
MSA

Fasta format

MSA

Clustal format
MSA

Phylip format
•  Χρησιµοποιείται στο πρόγραµµα phylip για φυλογένεση

MSA

Πολλαπλή στοίχιση
ακολουθιών & profiles
•  Ακολουθίες Χ ακολουθίες
•  Ακολουθίες Χ profile
•  Profile X profile
MSA

Χρήσεις πολλαπλής στοίχισης


•  Δηµιουργία:
–  Πινάκων θέσης (Position specific scoring matrices - PSSMs).
–  Profiles.
–  Μαρκοβιανών µοντέλων (Hidden markov models - HMMs).

•  Είναι στατιστικά µοντέλα που δείχνουν τη συχνότητα εµφάνισης


αµινοξέων/νουκλεοτιδίων για κάθε θέση µιας πολλαπλής
στοίχισης.
•  Επιπλέον, προβλέπουν τη συχνότητα χαρακτήρων που δεν
παρατηρήθηκαν στην πολλαπλή στοίχιση.
•  Χρησιµοποιούνται για την ανίχνευση µακρινών οµόλογων
ακολουθιών µιας οικογένειας.

MSA

PSSMs

•  Πολλαπλή στοίχιση χωρίς κενά

•  Πίνακας συχνοτήτων για την


κάθε θέση
MSA

PSSMs

•  Κανονικοποίηση του
πίνακα συχνοτήτων.

•  Μετατροπή των τιµών σε


log2

MSA

PSSM
•  Τιµή log-odd 1 για ένα χαρακτήρα Α στην θέση 1:
–  21=2: Στην οικογένεια που µελετάµε, η συχνότητα του χαρακτήρα Α στην
θέση 1 είναι 2 φορές µεγαλύτερη από την συχνότητα υποβάθρου.

•  Τιµή log-odd -1 για ένα χαρακτήρα C στην θέση 1:


–  2-1=1/2: Στην οικογένεια που µελετάµε, η συχνότητα του χαρακτήρα C στην
θέση 1 είναι 2 φορές µικρότερη από την συχνότητα υποβάθρου.

•  Τιµή log-odd 0 για ένα χαρακτήρα G στην θέση 1:


–  20=1: Στην οικογένεια που µελετάµε, η συχνότητα του χαρακτήρα G στην
θέση 1 είναι ίδια µε την συχνότητα υποβάθρου.

– 
MSA

PSSM
•  Χρησιµοποιείται για
–  Αναζήτηση µακρινών οµόλογων σε βάση δεδοµένων.
–  Να υπολογίσουµε πόσο καλά ταιριάζει µια ακολουθία στην
οικογένεια.
–  Στοίχιση µε ακολουθίες

MSA

PSSM
•  Πόσο καλά ταιριάζει η ακολουθία
AACTCG στον πίνακα θέσης;

•  2 6.33 = 80

•  Πιθανότητα να ταιριάζει αυτή η


ακολουθία στον πίνακα θέσης
(οµόλογη) είναι 80 φορές
µεγαλύτερη από ότι θα
περιµέναµε από µια τυχαία
ακολουθία
MSA

PSSM
•  Στην πράξη, όταν υπολογίζουµε τις συχνότητες των
χαρακτήρων χρησιµοποιούµε συντελεστή βαρύτητας που
εξαρτάται από το πόσο όµοιες είναι οι ακολουθίες.
–  Χαµηλός συντελεστής για πολύ όµοιες ακολουθίες.
–  Υψηλός συντελεστής για αποµακρυσµένες ακολουθίες.

MSA

Profile
Είναι PSSM που περιλαµβάνει και κενά.
MSA

Profile Hidden Markov Models


(HMMs)
•  Markov models αρχικά χρησιµοποιήθηκαν στην αναγνώριση
φωνής.
•  Παρόµοια µε τα PSSM/profiles.
•  Πιο κατάλληλο σύστηµα βαθµολόγισης για τα κενά (εισδοχές/
απαλείψεις).
–  Όχι ad hoc, αλλά βασισµένο στις πιθανότητες.
•  Για µακρινές οµολογίες, είναι πιο ευαίσθητα από τα profiles.

MSA

HMMs
•  Χρησιµοποιούνται για:
–  Αναζήτηση οµόλογων ακολουθιών σε Β.Δ.
–  Πολλαπλή στοίχιση ακολουθιών.
–  Κατηγοριοποίηση σε οικογένειες γονιδίων/πρωτεϊνών.
–  Πρόβλεψη γονιδίων (όρια εξονίων/ιντρονίων)
–  Πρόβλεψη διαµεµβρανικών περιοχών πρωτεϊνών.
MSA

Profile HMMs

•  Στοίχιση του µοντέλου µε την ακολουθία µέσω του αλγόριθµου Viterbi (σαν το
δυναµικό προγραµµατισµό)

MSA

HMMs

•  Regular expression
MSA

HMMs

MSA

HMMs
MSA

HMMs
•  Null model: Θεωρεί ότι µια ακολουθία είναι τυχαία.
•  Αν θεωρήσουµε ότι και τα 4 νουκλεοτίδια εµφανίζονται µε την ίδια
συχνότητα (0.25), τότε η πιθανότητα µιας τυχαίας ακολουθίας µήκους L
είναι 0.25L.

•  Υπολογίζουµε το log-odds της ακολουθίας:

MSA

HMMs
MSA

HMMs
•  Overfitting: όταν οι συχνότητες χαρακτήρων
υπολογίζονται από ένα µικρό αριθµό
ακολουθιών, οι παρατηρούµενες συχνότητες
είναι στρεβλωµένες.

•  Pseudocounts: Εξοµαλύνουν την


παρατηρούµενη συχνότητα χαρακτήρων, µε
βάση κάποια στατιστικά µοντέλα.
–  Π.χ. Dirichlet mixture (από τις κατανοµές
αµινοξέων σε domains)

MSA

PFAM
•  Β.Δ. HMMs για domains (11912).
–  PFAM-A: πολλαπλές στοιχίσεις γνωστών domains που
ελέγχθηκαν από ειδικούς
–  PFAM-B: βασίζεται σε συντηρηµένες περιοχές πρωτεϊνών
που εντοπίστηκαν µε αυτόµατες µεθόδους και δεν
γνωρίζουµε τη λειτουργία τους

•  Clans: οµαδοποίηση HMMs (PFAM-A) για οµόλογα domains.


–  Μπορούµε να δηµιουργήσουµε ένα HMM που θα χαρακτηρίζει όλη
την οικογένεια, ή να δηµιουργήσουµε µια σειρά από HMMs, ένα για
κάθε υπο-οικογένεια. Όλα µαζί αποτελούν ένα Clan.
MSA

PFAM

MSA

PFAM
•  Domain architectures
•  trees
MSA

Motif - Domain
•  Motifs:
–  µικρές και συντηρηµένες περιοχές που επιτελούν µια
συγκεκριµµένη λειτουργία.
•  Domains:
–  Συντηρηµένες περιοχές, µεγαλύτερες από motifs, συνήθως ώς
αυτόνοµες λειτουργικές και δοµικές µονάδες.
–  40αα> domain >700aa
–  µέσο µήκος ~100αα

•  Συνήθως, οι πρωτεΐνες επιτελούν περισσότερες από µια λειτουργίες.


Για κάθε µια είναι υπεύθυνο ένα motif ή domain. Άρα, πρέπει να
εξετάζουµε τις επιµέρους βασικές λειτουργικές µονάδες (motifs/
domains), για να κατανοήσουµε όλες τις λειτουργίες µιας πρωτεΐνης.

MSA

Regular expressions
Regular expression
•  Σχετικά άκαµπτη µέθοδος.
•  Λιγότερο ευαίσθητη από ένα στατιστικό µοντέλο.
•  Exact matching:
–  Πολλά ψευδώς αρνητικά αποτελέσµατα.
•  Fuzzy matching:
–  Επιτρέπει αµινοξέα µε παρόµοιες φυσικοχηµικές
ιδιότητες, ακόµα και αν δεν παρατηρήθηκαν στην
πολλαπλή στοίχιση.
–  Αυξάνεται ο θόρυβος (ψευδώς θετικά).
MSA

Regular expression DBs.


•  PROSITE:
–  Η πρώτη Β.Δ. του είδους της.
–  Τα regular expressions δηµιουργούνται από πολλαπλές στοιχίσεις
συντηρηµένων περιοχών.
–  Exact matches.
–  Επίσης δηµιουργεί και profiles.

•  Emotif:
–  Πολλαπλές στοιχίσεις από τις ΒΔ BLOCKS & PRINTS.
–  Μεγαλύτερη συλλογή πολλαπλών στοιχίσεων από την PROSITE.
–  Fuzzy matching.

MSA

Στατιστικά µοντέλα
•  PSSM (position specific scoring matrices).
•  Profiles.
•  HMMs (hidden markov models).

•  Επιτρέπουν µερικό ταίριασµα.


•  Pseudocounts.
MSA

ΒΔ πολλαπλών στοιχίσεων
motifs/domains
•  PRINTS:
–  Fingerprints: περιοχές της πολλαπλής στοίχισης, βαθειά
συντηρηµένες και χωρίς κενά.
–  PSSMs (δίχως συντελεστή βαρύτητας) για τα fingerprints.
–  Ένα motif αποτελείται από >1 fingerprints (δεν υπάρχει
αλληλεπικάλυψη).
–  Το motif θεωρείται υπάρχων σε µια πρωτεΐνη όταν η
πλειοψηφία των fingerprints που το απαρτίζουν έχει
ανιχνευθεί.
–  Ορισµός των fingerprints & motifs γίνεται από
βιοεπιστήµονες/βιοπληροφορικούς.
–  Σχετικά µικρός αριθµός motifs στη ΒΔ.

MSA

ΒΔ πολλαπλών στοιχίσεων
motifs/domains
•  BLOCKS:
–  Αυτοµατοποιηµένη πολλαπλή στοίχιση πρωτεϊνικών οικογενειών,
όπου χρησιµοποιούνται οι πιο συντηρηµένες περιοχές, δίχως κενά
(blocks).
–  Για κάθε block δηµιουργείται PSSM (µε συντελεστή βαρύτητας) και
εφαρµόζονται pseudocounts.
–  Οι πίνακες αντικατάστασης BLOSSUM υπολογίζονται από τη ΒΔ
BLOCKS.
MSA

ΒΔ πολλαπλών στοιχίσεων
motifs/domains
•  ProDom:
–  Δηµιουργεί domains εφαρµόζοντας PSI-Blast σε ακολουθίες
από την SWISSPROT & TrEMBL.
–  Η λειτουργία των domains µπορεί να είναι άγνωστη.

MSA

ΒΔ πολλαπλών στοιχίσεων
motifs/domains
•  SMART:
–  Profile HMMs που δηµιουργήθηκαν από πολλαπλές
στοιχίσεις, ελεγµένες από ειδικούς.
–  Οι στοιχίσεις είτε βασίζονται σε τρισδιάστατες δοµές είτε σε
profiles που δηµιουργεί το PSI-Blast.
–  Και οι στοιχίσεις και ο σχολιασµός των profile HMMs γίνεται
από ειδικούς.
–  Συµπληρωµατικότητα µε την PFAM.
MSA

ΒΔ πολλαπλών στοιχίσεων
motifs/domains
•  INTERPRO:
–  Λόγω ανοµοιογένειας στις µεθοδολογίες και στις ακολουθίες που
χρησιµοποιούνται, υπάρχει µερική αλληλοεπικάλυψη αλλά και
συµπληρωµατικότητα µεταξύ των επιµέρους ΒΔ motifs/domains.
–  H INTERPRO ενσωµατώνει αλληλοεπικαλυπτόµενα motifs/
domains που βρίσκονται ταυτόχρονα και στις 5 παρακάτω ΒΔ:
•  PROSITE
•  PFAM
•  PRINTS
•  ProDOM
•  SMART

MSA

ΒΔ πολλαπλών στοιχίσεων
motifs/domains
•  Reverse-Blast (RPS-Blast):
–  Συλλογή profiles που δηµιουργήθηκαν από PSI-Blast.

•  CDART:
–  Τµήµα του BLAST.
–  ενσωµατώνει τις
•  RPS-Blast
•  PFAM
•  SMART
MSA

Γραφική απεικόνιση motifs/


profiles: LOGOs
•  Weblogo

Φυλογένεση
Φυλογένεση

Φυλογένεση
•  Η εκτίµηση της εξελικτικής ιστορίας γονιδίων/πρωτεϊνών ή
οργανισµών.
•  Η απεικόνιση αυτής της ιστορίας γίνεται µε φυλογράµµατα/
κλαδογράµµατα

Φυλογένεση

Λίγη εξέλιξη: οµολογία


•  Οµόλογα γονίδια: κοινός εξελικτικός πρόγονος.

•  Ορθόλογα γονίδια: προέρχονται από ειδογένεση. Ουσιαστικά, ένα


γονίδιο α (µεταλλαγµένο) σε δύο διαφορετικούς οργανισµούς.
Συχνά έχουν την ίδια λειτουργία

•  Παράλογα γονίδια: προέρχονται από γονιδιακό διπλασιασµό.


Ανήκουν στην ίδια οικογένεια

•  Ξενόλογα γονίδια: από οριζόντια µεταφορά


Φυλογένεση

Λίγη εξέλιξη: οµολογία (ιι)

Φυλογένεση

Στάδια φυλογενετικής ανάλυσης


•  Επιλογή ακολουθιών:
–  Επιλογή µοριακών δεικτών
–  Εντοπισµός οµόλογων ακολουθιών
•  Π.χ. Blast, HMMs
•  Πολλαπλή στοίχιση
–  Διορθώσεις στην στοίχιση
•  Υπολογισµός φυλογενετικού δένδρου
–  Επιλογή εξελικτικού µοντέλου
–  Επιλογή µεθόδου δηµιουργίας του δένδρου
–  Αξιολόγιση/αξιοπιστία του δένδρου
Φυλογένεση

Στοιχεία ενός φυλογενετικού


δένδρου
•  Φύλλα (leafs)
–  Taxon
–  Operational taxonomic units (OTUs)
•  Βραχίονες (branches)
•  Κόµβοι (nodes)
•  Κλάδοι (clades)
–  Μονοφυλετικά group
•  Ρίζα (root)

Φυλογένεση

Στοιχεία ενός φυλογενετικού


δένδρου
•  Τοπολογία του δένδρου
–  Διχοτόµιση (dichotomy)
–  Πολυτόµιση (polytomy)
•  Radiation
•  Unresolved phylogeny
Φυλογένεση

Δένδρα µε/χωρίς ρίζα


•  Χωρίς ρίζα
–  Δεν γνωρίζουµε τον κοινό πρόγονο.
–  Απεικονίζονται µόνο οι σχετικές θέσεις των taxa.
–  Δεν φαίνεται η εξελικτική πορεία.
•  Με ρίζα
–  Γνωρίζουµε τον κοινό πρόγονο.
–  Φαίνεται η εξελικτική πορεία.
–  Χρησιµοποιούνται:
•  Outgroup
•  Midpoint rooting approach (υποθέτει την ύπαρξη µοριακού
ρολογιού - σταθερού ρυθµού εξέλιξης για όλες τις ακολουθίες).

Φυλογένεση

Δένδρα µε/χωρίς ρίζα


Φυλογένεση

Δένδρα µε/χωρίς ρίζα

Φυλογένεση

Κλαδόγραµµα/φυλόγραµµα
Φυλογένεση

Newick format
•  Δένδρα αποθηκεύονται σε µορφή Newick ή Nexus (παραλλαγή του
Newick).

•  Ποιό είναι το δένδρο: (((C,B),D),(A,E));

Φυλογένεση

Newick format

(((C,B),D),(A,E));
Είναι το ίδιο δένδρο;
Φυλογένεση

Newick format
Ποιό είναι το δένδρο;
(((A:1,B:2):1,C:2):1,D:4);

Φυλογένεση

Newick format
(((A:1,B:2):1,C:2):1,D:4);
distanceAC=1+1+2
Φυλογένεση

Φυλογένεση γονιδίων/
πρωτεϊνών
•  Φυλογένεση γονιδίων ή πρωτεΐνών.
–  Δείχνει την εξελικτική πορεία µιας οικογένειας γονιδίων.
–  Κάθε κόµβος (node) στο δένδρο είναι ένας γονιδιακός
διπλασιασµός ή ειδογένεση.
–  Το κάθε γονίδιο/πρωτεΐνη µπορεί να έχει διαφορετική
εξελικτική πορεία (π.χ. Οριζόντια µεταφορά) ή ρυθµό
εξέλιξης από τα υπόλοιπα γονίδια ενός οργανισµού.
–  Άρα, η εξελικτική πορεία ενός µόνο γονιδίου/πρωτεΐνης
ενδέχεται να µην αντανακλά την εξελικτική πορεία ενός
οργανισµού

Φυλογένεση

Φυλογένεση οργανισµών
•  Δείχνει την εξελικτική πορεία µιας οµάδας οργανισµών.
•  Οι κόµβοι (nodes) στο δένδρο απεικονίζουν γεγονότα
ειδογένεσης.
•  H φυλογένεση µπορεί να γίνει από:
–  µια σειρά φαινοτυπικών χαρακτήρων
–  Ένα γονίδιο µοριακό δείκτη (π.χ. 16S rRNA)
–  Μια σειρά γονιδίων

–  Από την πλειψηφία των γονιδίων του κάθε γενώµατος


Φυλογένεση

Φυλογένεση οργανισµών
•  Επιλέγουµε/βρίσκουµε το ορθόλογο γονίδιο-δείκτη στους
οργανισµούς που µελετάµε και ακολουθεί φυλογένεση

•  Το ποντίκι και ο αρουραίος είχαν λιγότερο χρόνο να εξελιχθούν ξεχωριστά, από ότι ο άνθρωπος σε σχέση
µε το ποντίκι ή σε σχέση µε τον αρουραίο. Οι µεταλλάξεις που συσσωρεύτηκαν σε κάθε ορθόλογη
ακολουθία πρέπει να είναι ανάλογες του χρόνου απόκλισης των οργανισµών.
•  Αν υποθέσουµε ότι ο ρυθµός µετάλλαξης είναι 1/1.000.000 χρόνια, πόσες µεταλλάξεις έχουν συσσωρευθεί
σε κάθε ακολουθία, σε σχέση µε τον κοινό πρόγονο;

Φυλογένεση

Μοριακοί δείκτες για


φυλογένεση οργανισµών
•  DNA ή πρωτεΐνη, ανάλογα µε την εξελικτική απόσταση των
οργανισµών.
•  Για πολύ ‘κοντινούς’ οργανισµούς:
–  Περιοχές του DNA που εξελίσονται γρήγορα.
–  Π.χ. Για άτοµα ενός ή περισσότερων πληθυσµών του ίδιου είδους,
χρησιµοποιείται mtDNA που δεν κωδικοποιεί πρωτεΐνες.
•  Για µέτρια αποκλίνοντες οργανισµούς:
–  rRNA ή πρωτεΐνες.
•  Mt-rRNA 10-100 ΜΥ
•  Nuc-rRNA 100-800 MY
•  Για βαθιά αποκλείνοντες οργανισµούς:
–  Βαθιά συντηρηµµένες πρωτεΐνες.
Φυλογένεση

Διαφορετικά γονίδια για διαφορετικά ερωτήµατα


Μοριακό χρονόµετρο Μοριακή κλεψύδρα

Βαθύτερη ρίζα: 35 mya (µε mtRNA) 600 mya (µε πυρηνικό rRNA)

Φυλογένεση

Φυλογένεση οργανισµών
Φυλογένεση

Φυλογένεση χορδωτών

Φυλογένεση

Φυλογένεση σπονδυλωτών
Φυλογένεση

Ταξινόμιση οργανισμών

• Ιεραρχική
κατηγοριοποίηση/ομαδοποίηση
οργανισμών.
• Linnaeus (1707-1778) ομαδοποίησε
οργανισμούς με βάση κοινούς
χαρακτήρες.
• Αργότερα, η ταξινόμιση
προσαρμόστηκε στην εξελικτική
θεωρία του Δαρβίνου, ώστε να
ομαδοποιούνται οι οργανισμοί με
βάση την κοινή τους προέλευση.

NCBI taxonomy
Φυλογένεση
Φυλογένεση

Timetree

Timetree
Φυλογένεση
Φυλογένεση

Ιστότοποι/ΒΔ για βιοποικιλότητα


http://www.timetree.org/resources.php

Φυλογένεση

Μοριακά ρολόγια

• Inferred pairwise nucleotide substitutions among 17 mammal species from seven gene
products, as estimated from protein studies, plotted against date of divergence, as
estimated from the fossil record. The line is drawn from the origin through the oldest
comparison (the marsupial / placental divergence at 125 MYBP). The strong linear
relationship suggests that molecular differences between pairs of species are
proportional to the time of their separation, rather than the degree of organismal
difference. Therefore, measures of genetic divergence can be used to date the time of
divergence for species pairs for which no fossil data are available: genes function as
Molecular Clocks. (from A. C. Wilson 1976).
Φυλογένεση

Μοριακά ρολόγια
• Υποθέτουν ένα σταθερό ρυθμό μεταλλάξεων για μια εξελικτική γραμμή.
• Χρονολογημένα απολιθώματα επιτρέπουν την ‘ζυγοστάθμιση’
(calibration) του μοριακού ρολογιού.
• Ρυθμός εξέλιξης διαφέρει μεταξύ γονιδίων
• Στην πραγματικότητα, ο ρυθμός εξέλιξης μπορεί να μεταβάλλεται
(επιβράδυνση ή επιτάχυνση) κατά τη διάρκεια εξέλιξης ενός κλάδου

Φυλογένεση

Γεωλογικές
περίοδοι
Φυλογένεση

Απολιθώματα που χρησιμοποιούνται για


ζυγοστάθμιση του μοριακού ρολογιού
www.fossilrecord.net

Φυλογένεση

Απολιθώματα που χρησιμοποιούνται για


ζυγοστάθμιση του μοριακού ρολογιού
Φυλογένεση

Προβλήματα με τα
απολιθώματα
• Χρονολογημένα απολιθώματα υποτιμούν τον χρόνο εμφάνισης
μιας εξελικτικής γραμμής:
– Όταν συνέβη η απολίθωση, ο κοινός πρόγονος ήταν ήδη παρόν για
κάποιο χρονικό διάστημα.
– Ο κοινός πρόγονος χρειάστηκε κάποιο χρόνο από την στιγμή της
εμφάνισης του μέχρι να εξαπλωθεί γεωγραφικά και να βρίσκεται σε
αφθονία, ώστε ένα τυχαίο γεγονός να οδηγήσει στην απολίθωση
κάποιων ατόμων.
– Τα απολιθώματα αποτελούν το κατώτατο χρονικό όριο εμφάνισης
μιας εξελικτικής γραμμής

Φυλογένεση

Χρονολογημένα απολιθώματα υποτιμούν τον


χρόνο εμφάνισης μιας εξελικτικής γραμμής
Φυλογένεση

Το πρόβλημα της Κάμβριας


περιόδου
• Από τα απολιθώματα συμπεραίνουμε ότι οι περισσότερες και
κυριότερες εξελικτικές γραμμές των μετάζωων εμφανίστηκαν
ξαφνικά, σε μια σύντομη περίοδο πριν ~550 εκ. χρόνια, μεταξύ
της προ-κάμβριας και κάμβριας περιόδου (Κάμβρια έκρηξη).
• Μελέτες με μοριακά ρολόγια δείχνουν ότι αυτές οι εξελικτικές
γραμμές εμφανίστηκαν πολλές εκατοντάδες εκατομύρια χρόνια
πιο πριν!

Το πρόβλημα της Κάμβριας


περιόδου
• http://www.sciencedirect.com/science/article/pii/
S0960982213009160

• Από τα απολιθώματα συμπεραίνουμε ότι τα περισσότερα εξελικτικά φύλα


(κλάσεις) που συναντάμε σήμερα εμφανίστηκαν μέσα σε ένα εξαιρετικά
σύντομο χρονικό διάστημα (~542 - 521 εκατομύρια χρόνια πριν), στην
γεωλογική περίοδου του Κάμβριου. Το εξελικτικό αυτό γεγονός ονομάστηκε
«έκρηξη του Κάμβριου» (Cambrian Explosion).
• Αυτή η φαινομενικά ταχύτατη εμφάνιση τόσων πολλών και διαφορετικών
φύλων αποτελεί ένα παράδοξο στην εξελικτική θεωρία, που βασίζεται στην
ιδέα των σταδιακών αλλαγών διά της φυσικής επιλογής (Ο Δαρβίνος
προβληματίστηκε - χρησιμοποιείται και ως επιχείρημα από τους πολέμιους
της εξέλιξης).
• Φυλογενετικές αναλύσεις από γενετικά και μορφολογικά δεδομένα με την
μέθοδο του χαλαρού μοριακού ρολογιού δείχνουν ότι την περίοδο εκείνη ο
ρυθμός εξέλιξης ήταν 4-5 φορές ταχύτερος από άλλες περιόδους.
Φυλογένεση

Απολιθώματα και μοριακή


χρονολόγιση

Φυλογένεση

Το πρόβλημα της Κάμβριας


περιόδου
• Είναι δυνατόν αβιοτικοί παράγοντες να επηρέασαν τη διαδικασία
απολίθωσης.
• Το οξυγόνο αυξήθηκε δραματικά και πλησίασε στα σημερινά του
επίπεδα την περίοδο του Κάμβριου (580-542 ΜΥΑ).
• Μεγαλύτερη συγκέντρωση οξυγόνου επέτρεψε τους οργανισμούς να
αυξήσουν το μέγεθός τους.
• Μεγαλύτερο μέγεθος χρειάστηκε δομές που να συγκρατούν το βάρος.
Αυτές οι νέες δομές μπορεί να ήταν πιο εύκολο να διατηρηθούν ως
απολιθώματα.
• Πιθανόν, η μορφολογία των οργανισμών στην προ-κάμβρια περίοδο να
μην επέτρεπε την απολίθωσή τους.
Φυλογένεση

Φυλογένεση γονιδίων
Βρίσκουμε τις ομόλογες ακολουθίες στους οργανισμούς που μας ενδιαφέρουν και ακολουθεί
φυλογένεση, για να καταλάβουμε πότε συνέβησαν οι γονιδιακοί διπλασιασμοί, και ποιά
ομόλογα είναι πιο κοντινά μεταξύ τους.
Πρέπει να γνωρίζουμε τις εξελικτικές σχέσεις των οργανισμών

Φυλογένεση

Φυλογένεση γονιδίων
• Απώλεια αντίγραφου
Φυλογένεση γονιδίων
Φυλογένεση

Δειγματοληψία ορθόλογων από πιο απομακρυσμένους οργανισμούς, μέχρι


να εντοπιστεί ο χρόνος που συνέβη ο διπλασιασμός. Απολιθώματα
βοηθούν στην χρονολόγιση

Φυλογένεση

Δένδρα συναίνεσης
• Μια μέθοδος μπορεί να οδηγήσει σε περισσότερα από ένα
εξίσου καλά δένδρα.
• Ή, από τα ίδια δεδομένα, δημιουργούνται δένδρα με
διαφορετικές μεθόδους.
• Το δένδρο συναίνεσης δείχνει ποιοί κόμβοι είναι κοινοί μεταξύ
των διαφόρων δένδρων.
• Για κόμβους που δεν παρατηρείται συμφωνία, εμφανίζονται ως
πολυτομημένοι.
• Μέθοδοι δημιουργίας δένδρου συναίνεσης:
– απόλυτη συναίνεση (strict consensus) (100%)
– Μέθοδος πλειοψηφίας (majority rule) (>50%)
Φυλογένεση

Δένδρα συναίνεσης
• Το παράδειγμα της φυλογενετικής σχέσης ανθρώπου-χιμπατζή-
γορίλα

Πόσα πιθανά δένδρα;


Φυλογένεση

• Το σύνολο των πιθανών διαφορετικών δένδρων για ένα αριθμό


taxa αυξάνει εκθετικά
Φυλογένεση

Πόσα πιθανά δένδρα;

Φυλογένεση

Μέθοδοι Φυλογένεσης
•  Μέθοδοι που βασίζονται σε αποστάσεις
–  UPGMA
–  Κοντινότερης γειτονίας (Neighbor joining)
–  Fitch-Margoliash
–  Ελάχιστης εξέλιξης

•  Μέθοδοι που βασίζονται σε χαρακτήρες


–  Μέγιστη φειδωλότητα (Maximum Parsimony)
–  Μέγιστη πιθανοφάνεια (Maximum Likelihood)
Φυλογένεση

Μέθοδοι αποστάσεων
•  Αρχικά υπολογίζονται οι αποστάσεις ανάµεσα σε όλα τα πιθανά ζεύγη
ακολουθιών.
•  Δηµιουργείται ένας πίνακας αποστάσεων.
•  Με βάση τον πίνακα αυτό, δηµιουργούνται δένδρα µε µεθόδους που
βασίζονται:
–  Στην οµαδοποίηση. Η οµαδοποίηση ξεκινάει από τις πιο κοντινές
ακολουθίες και σταδιακά ενσωµατώνει όλο και πιο
αποµακρυσµένες:
•  UPGMA
•  Neighbor joining
–  Στην βελτιστοποίηση. Ο αλγόριθµος συγκρίνει τις πιθανές
τοπολογίες και επιλέγει αυτή που οι αποστάσεις πάνω στο δένδρο
ταιριάζουν καλύτερα µε τις αποστάσεις στον αρχικό πίνακα
αποστάσεων:
•  Fitch-Margoliash
•  Ελάχιστη εξέλιξη

Φυλογένεση

Υπολογισµός της απόστασης


µεταξύ δύο ακολουθιών
•  Παρατηρούµενη απόσταση: από την στοίχιση, µπορούµε να δούµε σε
ποιές θέσεις δεν ταιριάζουν οι χαρακτήρες.
•  Η παρατηρούµενη απόσταση δεν συµπίπτει µε την πραγµατική
(εξελικτική) απόσταση, λόγω πολλαπλών αντικαταστάσεων στην ίδια
θέση. Όσο µεγαλύτερη η απόσταση, τόσο πιο πολλές αντικαταστάσεις
συνέβησαν στην ίδια θέση.
Φυλογένεση

Υπολογισµός της απόστασης


µεταξύ δύο ακολουθιών

Φυλογένεση

Διόρθωση της απόστασης µεταξύ 2


ακολουθιών
Φυλογένεση

Μοντέλα αντικατάστασης
•  Στατιστικά µοντέλα που λαµβάνουν υπόψην τις πολλαπλές
αντικαταστάσεις (για την ίδια θέση) και διορθώνουν την
παρατηρούµενη απόσταση, µετατρέποντας την σε εξελικτική.
•  Αν η απόσταση είναι πολύ µεγάλη, τότε έχει επέλθει κορεσµός
και δεν είναι δυνατόν να γίνει σωστή διόρθωση.

Φυλογένεση

Μοντέλο αντικατάστασης
Jukes - Cantor
•  Είναι το απλούστερο µοντέλο για ακολουθίες DNA.
•  κάθε νουκλεοτίδιο εµφανίζεται µε την ίδια συχνότητα
•  έχει την ίδια πιθανότητα να µεταλλαχθεί σε ένα από τα
υπόλοιπα 3 νουκλεοτίδια
Φυλογένεση

Μοντέλο αντικατάστασης
Kimura
•  Πιο εξελιγµένο µοντέλο.
•  κάθε νουκλεοτίδιο εµφανίζεται µε την ίδια συχνότητα
•  Θεωρεί ότι οι µεταπτώσεις έχουν άλλη πιθανότητα να συµβούν, από ότι
οι µεταστροφές.

Φυλογένεση

Μοντέλο αντικατάστασης
Kimura
Φυλογένεση

Mοντέλα αντικατάστασης για DNA

Φυλογένεση

Διόρθωση των παρατηρούµενων


αποστάσεων για πρωτεΐνες
Φυλογένεση

Διόρθωση των παρατηρούµενων


αποστάσεων για πρωτεΐνες
•  Διόρθωση µε πίνακες αντικατάστασης:
–  PAM
–  JTT (Jones-Taylor-Thornton)

•  Διόρθωση µε αντίστοιχες µεθόδους Jukes-Cantor ή Kimura,


προσαρµοσµένες για πρωτεΐνες.

Φυλογένεση

UPGMA

•  Βασίζεται στην υπόθεση ότι όλες οι ακολουθίες εξελίσονται µε ένα σταθερό


ρυθµό και ότι όλες απέχουν το ίδιο από την ρίζα (κοινό πρόγονο).
•  Το τελευταίο τάξον που ενσωµατώνεται αποτελεί και την εξωοµάδα. Ουσιαστικά,
δηµιουργείται δένδρο µε ρίζα.
•  Αποδέχεται την ύπαρξη ενός µοριακού ρολογιού µε σταθερή ταχύτητα.
•  Στην πραγµατικότητα, αυτό δεν ισχύει.
•  Σήµερα, το UPGMA χρησιµοποιείται περισσότερο για την οµαδοποίηση
δεδοµένων από µικροσυστοιχίες και όχι για φυλογένεση.
•  Είναι ένας γρήγορος αλγόριθµος κατασκευής δένδρων.
Φυλογένεση

UPGMA

Φυλογένεση

UPGMA
Φυλογένεση

UPGMA

Φυλογένεση

Μέθοδος σύνδεσης γειτονίας


neighbor joining
•  Είναι παρόµοια µέθοδος µε το UPGMA.
•  Ωστόσο, δεν θεωρεί ότι όλες οι ακολουθίες εξελίσονται µε τον
ίδιο ρυθµό.
•  Το δένδρο που παράγεται είναι άρριζο και πρέπει εµείς να
επιλέξουµε που είναι η ρίζα.
Φυλογένεση

Μέθοδοι βελτιστοποίησης
•  Οι µέθοδοι που βασίζονται σε οµαδοποίηση παράγουν ένα
δένδρο.
•  Δεν γνωρίζουµε πόσο καλύτερο είναι αυτό το δένδρο από άλλα
εναλλακτικά δένδρα.
•  Οι µέθοδοι βελτιστοποίησης ελέγχουν τα διάφορα πιθανά
δένδρα και βρίσκουν αυτό που ταιριάζει καλύτερα στον αρχικό
πίνακα αποστάσεων.

Φυλογένεση

Πόσα πιθανά δένδρα;


•  Το σύνολο των πιθανών διαφορετικών δένδρων για ένα αριθµό
taxa αυξάνει εκθετικά
Φυλογένεση

Πόσα πιθανά δένδρα;

Φυλογένεση

Fitch-Margoliash
•  Διερευνά για το κάθε πιθανό δένδρο ποιές είναι οι αποστάσεις µε βάσει
αυτό και στην συνέχεια επιλέγει το δένδρο που η υπολογισµένες του
αποστάσεις αποκλίνουν το λιγότερο δυνατό από τον αρχικό πίνακα
αποστάσεων.
Φυλογένεση

Ελάχιστη εξέλιξη
•  Παρόµοιο µε το Fitch-Margoliash.
•  Διερευνά τα πιθανά δένδρα.
•  Επιλέγει το δένδρο που το συνολικό µήκος των βραχιόνων του
είναι το ελάχιστο δυνατό, για τα υπάρχοντα δεδοµένα
αποστάσεων.
•  Η µέθοδος αυτή είναι λίγο καλύτερη από την Fitch-Margoliash.

Φυλογένεση

Υπέρ και κατά µεθόδων


βασισµένων σε αποστάσεις
•  Οι µέθοδοι βελτιστοποίησης δίνουν καλύτερα αποτελέσµατα
από τις µεθόδους οµαδοποίησης, αλλά είναι πιο αργές.
•  Αν τα δεδοµένα είναι πολλά, τότε προτιµάται µια µέθοδος
οµαδοποίησης.
•  Οι µέθοδοι αποστάσεων διορθώνουν τις παρατηρούµενες
αποστάσεις. Όταν οι ακολουθίες είναι αποµακρυσµένες, αυτή η
διόρθωση έχει µεγάλες επιπτώσεις και πρέπει να γίνεται.
•  Με τις µεθόδους αποστάσεων χάνεται πληροφορία και δεν είναι
δυνατόν να ανακατασκευαστεί µια προγονική ακολουθία.
Φυλογένεση

Μέθοδοι που βασίζονται σε χαρακτήρες

Μέγιστη φειδωλότητα (Maximum Parsimony)

Μέγιστη πιθανοφάνεια (Maximum Likelihood)

Βασίζονται στους χαρακτήρες των ακολουθιών και όχι στις


αποστάσεις µεταξύ των ακολουθιών.
Είναι δυνατή η ανακατασκευή των προγονικών ακολουθιών.

Φυλογένεση

Μέγιστη φειδωλότητα
(Maximum Parsimony)

•  Διερευνά τα πιθανά δένδρα και επιλέγει το/τα δένδρο/α που εξηγεί τα


δεδοµένα µε τα λιγότερα δυνατά εξελικτικά βήµατα / αντικαταστάσεις.
•  Επιτρέπει την ανακατασκευή προγονικών ακολουθιών.
•  Βασίζεται στο ξυράφι του Όκαµ (13ος αιώνας), όπου η πιο σύντοµη/
απλή εξήγηση είναι µάλλον και η πραγµατική.
•  Δεν λαµβάνει υπόψην το γεγονός ότι περισσότερες από µια
αντικαταστάσεις συνέβησαν στην ίδια θέση.
•  Εποµένως, για κοντινές ακολουθίες λειτουργεί καλά, για
αποµακρυσµένες ακολουθίες, που αυξάνεται η πιθανότητα πολλαπλών
αντικαταστάσεων στην ίδια θέση, είναι προβληµατική µέθοδος.
Φυλογένεση

Μέγιστη φειδωλότητα
(Maximum Parsimony)
•  Δεν χρησιµοποιεί όλες τις θέσεις µια πολλαπλής στοίχισης, άλλα µόνο
εκείνες που έχουν αρκετή πληροφορία για να επιτραπεί ο διαχωρισµός/
οµαδοποίηση των ακολουθιών.
•  Τέτοιες θέσεις πρέπει να έχουν τουλάχιστον 2 ειδών διαφορετικούς
χαρακτήρες και ο κάθε ένας από αυτούς να υπάρχει τουλάχιστον σε 2
ακολουθίες.

Φυλογένεση

Μέγιστη φειδωλότητα
(Maximum Parsimony)
•  Για την κάθε πιθανή τοπολογία δένδρου, υπολογίζεται πόσα συνολικά
εξελικτικά βήµατα / αντικαταστάσεις χρειάζονται (στο σύνολο των θέσεων
που χρησιµοποιούνται).
•  Επιλέγεται το δένδρο µε τα λιγότερα εξελικτικά βήµατα.
•  Συχνά, υπάρχουν περισσότερες από µια βέλτιστες λύσεις/δένδρα, γιατί δεν
γνωρίζουµε ποιοί ήταν πραγµατικά οι χαρακτήρες στις προγονικές
ακολουθίες. Τότε δηµιουργείται ένα δένδρο συναίνεσης από τα εξίσου
βέλτιστα δένδρα.
Φυλογένεση

Αναζητώντας το καλύτερο
δένδρο
•  Όταν ο αριθµός των taxa είναι µικρός, τότε µπορούν να
υπολογιστούν όλα τα δυνατά δένδρα (brute force).
•  Όταν 10< taxa <20, τότε εφαρµόζεται το branch and bound.
•  Όταν taxa > 20, εφαρµόζονται ευρετικές µέθοδοι.

Φυλογένεση

Αναζητώντας το καλύτερο
δένδρο
Φυλογένεση

Αναζητώντας το καλύτερο
δένδρο
•  Branch and bound.
•  Δηµιουργείται το δένδρο µε UPGMA ή neighbor joining.
•  Υπολογίζονται τα εξελικτικά βήµατα για αυτό το δένδρο.
•  Ο αριθµός αυτός αποτελεί την ‘οροφή’. Ένα δένδρο µέγιστης
φειδωλότητας θα πρέπει να έχει τον ίδιο αριθµό βηµάτων ή και
µικρότερο.
•  Καθώς χτίζεται σταδιακά το δένδρο φειδωλότητας, αν σε κάποιο στάδιο
κάποιες επιλογές καταλήγουν σε βήµατα που ξεπερνούν την οροφή,
τότε απορρίπτεται το συγκεκριµµένο µονοπάτι

Φυλογένεση

Αναζητώντας το καλύτερο
δένδρο
Φυλογένεση

Αναζητώντας το καλύτερο
•  Ευρετικές µέθοδοι:
δένδρο
–  Δηµιουργείται ένα δένδρο µε neighbor joining και υπολογίζονται
τα εξελικτικά βήµατα για το συγκεκριµµένο δένδρο.
–  Δοκιµάζονται τροποποιήσεις πάνω στο δένδρο αυτό. Αν βρεθεί
ένα τροποποιηµένο δένδρο µε µικρότερο αριθµό εξελικτικών
βηµάτων, τότε επιλέγεται αυτό και οι τροποποιήσεις γίνονται
πάνω του, έως ότου βρεθεί ένα ακόµα καλύτερο δένδρο. Η
διαδικασία συνεχίζεται έως ότου να µην βρίσκεται καλύτερο
δένδρο.

•  Ευρετικές µέθοδοι είναι γρήγορες, όµως δεν δίνουν πάντοτε την


καλύτερη λύση.

Φυλογένεση

Αναζητώντας το καλύτερο
δένδρο
Φυλογένεση

Μέγιστη φειδωλότητα
(Maximum Parsimony)
•  Δεν διορθώνει για πολλαπλές αντικαταστάσεις πάνω στην ίδια
θέση, άρα είναι προβηµατική όταν µελετάµε αποµακρυσµένες
ακολουθίες.
•  Δεν χρησιµοποιεί όλες τις θέσεις µιας πολλαπλής στοίχισης.
•  Η λύση επηρεάζεται από τον αλγόριθµο αναζήτησης του
καλύτερου δένδρου.
•  Είναι επιρρεπής στην έλξη µεταξύ µακρινών βραχιόνων (long
branch attraction).

Φυλογένεση

Έλξη µεταξύ µακρινών βραχιόνων


(long branch attraction).
•  Τάξα που εξελίσονται µε γρήγορους ρυθµούς και εποµένως έχουν
µακρείς βραχίονες, έλκονται µεταξύ τους.
Φυλογένεση

Μέγιστη πιθανοφάνεια
•  Βασίζεται σε χαρακτήρες.
•  Χρησιµοποιεί όλες τις θέσεις µια πολλαπλής στοίχισης.
•  Χρησιµοποιεί πιθανότητες και µοντέλα αντικατάστασης.
•  Υπολογίζονται οι χαρακτήρες σε κάθε προγονική ακολουθία.
•  Υπολογίζει για το κάθε πιθανό εξελικτικό µονοπάτι (προγονικές
ακολουθίες και δένδρο) την πιθανότητα του, µε βάση τα
παρατηρούµενα σηµερινά δεδοµένα και ένα συγκεκριµµένο µοντέλο
εξέλιξης (µοντέλο αντικατάστασης).
•  Οι πιθανότητες µετατρέπονται σε log-likelihood scores.
•  Δένδρο µε το µεγαλύτερο log-likelihood score επιλέγεται.

Φυλογένεση

Μέγιστη πιθανοφάνεια
Φυλογένεση

Αξιολόγηση του δένδρου


•  Bootstrap:
–  Τυχαία δειγµατοληψία θέσεων της πολλαπλής στοίχισης.
–  Μια θέση µπορεί να επιλεγεί περισσότερες από µια φορές ή και καµία.
–  Δηµιουργία µιας νέας αλλαγµένης πολλαπλής στοίχισης
–  Η διαδικασία επαναλαµβάνεται 100-1000 φορές.
–  Για κάθε νέα πολλαπλή στοίχιση, υπολογίζεται το δένδρο.
–  Τα νέα δένδρα συγχωνεύονται σε ένα νέο δένδρο (consensus tree).
–  Boostrap -> συχνότητα εµφάνισης ενός κόµβου.
–  Bootstrap 70% -> 95% εµπιστοσύνη.
–  Αν η µεθοδολογία δηµιουργίας του δένδρου είναι λάθος, µπορεί να πάρουµε
υψηλές τιµές bootstrap για το λάθος δένδρο.

Φυλογένεση

bootstrap
Φυλογένεση

Jacknife

•  To Jacknife είναι παρόµοιο µε το bootstrap.


•  Επιλέγονται τυχαία (δίχως αντικατάσταση) οι µισές στήλες της
πολλαπλής στοίχισης.
•  Πρόβληµα: τα νέα δένδρα δηµιουργούνται από λιγότερα
δεδοµένα.

Φυλογένεση

Tests που ελέγχουν αν ένα δένδρο


είναι καλύτερο από ένα άλλο
•  Συγκρίνονται 2 δένδρα στο σύνολό τους, µε στατιστικές µεθόδους π.χ.
Paired t-test ή χ2.
•  Το bootstrap ή το Jacknife ελέγχει την αξιοπιστία του κάθε επιµέρους
κλάδου.
•  Για κάθε µέθοδο κατασκευής δένδρων χρησιµοποιείται και το
αντίστοιχο τεστ.
•  Για µέγιστη φειδωλότητα:
–  Kishino-Hasegawa test. 2 δένδρα, Ν πληροφοριακές θέσεις. Για κάθε θέση,
υπολογίζεται το µήκος βραχιόνων του καθένα από τα 2 δένδρα. Αυτό γίνεται
και για τις Ν θέσεις. Οι τιµές χρησιµοποιούνται σε paired t-test, για να φανεί
αν η διαφορά µεταξύ των 2 δένδρων είναι στατιστικά σηµαντική.
•  Για µέγιστη πιθανοφάνεια:
–  Shimodaira-Hasegawa test. Αρχικά υπολογίζονται τα log-likelihood scores
για τα 2 δένδρα. Οι βαθµοί ελευθερίας εξαρτώνται από το µοντέλο εξέλιξης
που χρησιµοποιείται. Χρησιµοποιείται το χ2.
Γονιδιωµατική

Οι τεχνολογίες
Κυριότερες τεχνολογίες
•  Sanger

•  454 pyrosequencing
•  Solid
•  Illumina

•  Ion torrent / Ion proton


•  Oxford Nanopore

Shotgun sequencing
•  http://www.nature.com/nature/journal/v470/n7333/pdf/nature09796.pdf
•  A decade’s perspective on DNA sequencing technology
•  Elaine R. Mardis

Sequencing technologies
•  Illumina:
–  χαμηλότερη ακρίβεια στην αναγνώριση βάσεων
•  Solid:
–  πολλά reads δεν ταιριάζουν πουθενά στο γονιδίωμα!
•  Roche 454 pyrosequencing
–  λάθη στον αριθμό των βάσεων εντός μιας περιοχής ομοπολυμερών
(π.χ. AAAAAAAAAAAAAAAAA)
•  Sanger:
–  χρειάζεται σχετικά μεγάλες ποσότητες DNA
Reads
•  Sanger: μήκος: 1000-2000 bp
•  454: 450Mbp/run - μήκος: ~330bp
•  Illumina: 18-35 Gbp/run - μήκος: ~75-100bp
•  SOLID: 30-50 Gbp/run - μήκος: 50bp

Illumina
http://www.youtube.com/watch?v=77r5p8IBwJk&feature=related
http://www.ncbi.nlm.nih.gov/pubmed/19997069

http://www.ncbi.nlm.nih.gov/pubmed/19997069
http://www.ncbi.nlm.nih.gov/pubmed/19997069

Ion Proton
http://www.lifetechnologies.com/global/en/home/about-us/news-gallery/press-releases/2012/life-techologies-itroduces-the-bechtop-io-proto.html
Ion Proton

Ion torrent chemistry

http://www.youtube.com/watch?v=yVf2295JqUg

http://www.youtube.com/iontorrent

Ουσιαστικά είναι ένα πολύ µικρό pH-meter


Δεν βασίζεται σε ανίχνευση φωτός!

Εικόνα Από Elaine Mardis


Oxford Nanopore
(Στο εγγύς µέλλον;)
Nanopore
http://www.youtube.com/watch?v=UWcCbIRPzvs

http://www.nanoporetech.com/technology/minion-a-
miniaturised-sensing-instrument

Biological Nanopore
(Στο εγγύς µέλλον;)

http://www.nanoporetech.com/technology/introduction-to-nanopore-sensing/introduction-to-nanopore-sensing
Solid state (Graphene) Nanopore
(Στο εγγύς µέλλον;)

http://www.nanoporetech.com/technology/introduction-to-nanopore-sensing/solid-state-
nanopores

Pacific Biosciences

http://www.ncbi.nlm.nih.gov/pubmed/21612267

http://www.youtube.com/watch?v=NHCJ8PtYCFc
http://www.youtube.com/watch?v=GX6RSKh4J7E
SMRT techonology – real time single molecule sequencing
Pacific Biosciences

The sequence read archive:


explosive growth of
sequencing data
•  http://nar.oxfordjournals.org/content/40/D1/D54.full

•  Illumina™ platform comprises 84% of sequenced bases, with


SOLiD™ and Roche/454™ platforms accounting for 12% and
2%, respectively.

•  The most active SRA submitters in terms of submitted bases are


the Broad Institute, the Wellcome Trust Sanger Institute and
Baylor College of Medicine with 31, 13 and 11%, respectively.
The largest individual global project generating next-generation
sequence is the 1000 Genomes project which has contributed
nearly one third of all bases.
http://omicsmaps.com/

http://omicsmaps.com/
Χαµηλό κόστος γενωµικών τεχνολογιών θα οδηγήσει
σε καθηµερινές εφαρµογές
•  Κόστος αλληλούχισης
–  http://www.genome.gov/sequencingcosts/
•  Ο νόµος του Moore προβλέπει διπλασιασµό της υπολογιστικής ισχύς
κάθε δύο χρόνια.

http://genomebiology.com/content/pdf/gb-2011-12-8-125.pdf
Συναρµολόγιση Γονιδιωµάτων
Με Βιοπληροφορική

Shotgun sequencing
Sequencing
•  Single end reads
•  Paired end reads

Sequencing - paired end reads


Reads
•  454
•  Illumina
•  SOLID

SOLID: ~50% reads δεν


στοιχίζονται στο γονιδίωμα,
από το οποίο έγινε το
Sequencing! Εδώ, το πρόβλημα εντοπίζεται στην
Πρόβλημα στις χημικές συσσώρευση λαθών κατά την
αντιδράσεις μάλλον. ενσωμάτωση φθοριζόντων dNTPs.

Sequence read – Fastq format

Τα σύμβολα στην τελευταία γραμμή αντιστοιχούν σε τιμές Q,


για την κάθε μια βάση που αλληλουχίθηκε.

To Q-score είναι μια ακέραια τιμή που προκύπτει από την


πιθανότητα να έχει γίνει λάθος στην αλληλούχιση μιας
συγκεκριμένης βάσης.
Αν p = πιθανότητα να έχει γίνει λάθος στην αλληλούχιση της
συγκεκριμένης βάσης, τότε:
Q=-10log10(p)

Q=30 -> p=0.001 (πολύ καλής ποιότητας αλληλούχιση)


Q=13 -> p=0.05
Sequence reads – Έλεγχος ποιότητας
δεδοµένων (quality control)
Πολύ υψηλής ποιότητας
δεδομένα.

Χαμηλής ποιότητας
δεδομένα.

Sequence reads – Φιλτράρισµα/trimming

Είτε θα αποφασίσουμε να κόψουμε όλα τα sequence reads σε μια


συγκεκριμένη θέση, μετά την οποία η ποιότητα αλληλούχισης
πέφτει σημαντικά στα περισσότερα

Είτε θα κόψουμε τα προβληματικά κομμάτια για το κάθε sequence


read χωριστά. Μετά θα απορριφθούν όλες τα κομμένα sequence
reads που έχουν πολύ μικρό μήκος.
Lander - Waterman
•  Πόσο sequencing coverage απαιτείται για να μπορεί να
συναρμολογηθεί ένα γονιδίωμα?
•  Τουλάχιστον 8-10Χ

•  Το παράδειγμα δείχνει πόσα


contigs θα δημιουργηθούν
θεωρητικά, ανάλογα με την
κάλυψη (coverage) του
χρωμοσώματος.
•  Όσο μεγαλύτερη η κάλυψη, σε
τόσο λιγότερα κομμάτια θα είναι
σπασμένο το ανακατασκευασμένο
χρωμόσωμα
•  Στην πράξη, ο αριθμός των contigs
είναι μεγαλύτερος από το
αναμενόμενο.

Lander - Waterman
•  Στην πράξη, ο αριθμός των contigs
είναι μεγαλύτερος από το
αναμενόμενο, γιατί:
•  Πάντα υπάρχει μια πιθανότητα για
μια περιοχή να μην αλληλουχιθεί
•  Κάποια κομμάτια σπασμένου DNA
είναι τοξικά σε φορείς
κλωνοποίησης (π.χ. στην E.coli).
•  Επαναλήψεις
Προβλήµατα συναρµολόγισης
από επαναλήψεις - contigs

Προβλήµατα συναρµολόγισης
από επαναλήψεις - scaffolds

Αφού έχουν γίνει τα scaffolds, όποια κενά υπάρχουν καλύπτονται


με στοχευμένη αλληλούχιση - gap closure
Διαφορετικά προγράµµατα

Κενά µετά την συναρµολόγιση


De novo

Reference
alignment
•  Οι επαναλήψεις μπορεί να
εμποδίσουν την πλήρη
θεωρητικό συναρμολόγιση του
γονιδιώματος
Κενά µετά την συναρµολόγιση
•  Το επιλεγμένο μήκος
του sequence read
καθορίζει αν θα
μπορέσει να
συναρμολογηθεί μια
επανάληψη

Κενά µετά την συναρµολόγιση

Μεγαλύτερο μήκος sequence read = λιγότερα κενά


Κενά µετά την συναρµολόγιση
•  Οι επαναλήψεις
μπορεί να
εμποδίσουν την
πλήρη
συναρμολόγιση του
γονιδιώματος

Κενά µετά την συναρµολόγιση

Κάλυψη αλληλούχισης
100Χ για 6
οργανισμούς
Κενά µετά την συναρµολόγιση
36nt reads

Τα κενά δεν
εξαρτώνται μόνο
από το βάθος
κάλυψης
αλληλούχισης και το
125nt reads
μήκος των sequence
reads, αλλά και από
τον ίδιο οργανισμό

500nt reads

Τα περισσότερα βακτηριακά γονίδια µπορούν


να συναρµολογηθούν

•  Μικρού μήκους reads


μπορούν να
συναρμολογήσουν
τα περισσότερα
γονίδια, αλλά σπάνε
το γονιδίωμα σε
πολλά μικρά
κομμάτια (contigs)
Τα περισσότερα βακτηριακά γονίδια µπορούν
να συναρµολογηθούν

Μικρού μήκους reads μπορούν να συναρμολογήσουν τα περισσότερα


γονίδια, αλλά σπάνε το γονιδίωμα σε πολλά μικρά κομμάτια (contigs)

Τα περισσότερα βακτηριακά γονίδια µπορούν


να συναρµολογηθούν

Γονιδιωματικά στοιχεία που προκαλούν προβλήματα στην


συναρμολόγιση:
Μεταθετά στοιχεία
transposons
Intergenic repeats
Insertion sequences
prophages

Γονίδια που συνήθως δεν μπορούν να συναρμολογηθούν:


Transposases
Phages
Ιntegrases
Γονίδια που σχετίζονται με την αποφυγή του ανοσοποιητικού
συστήματος (έχουν επαναλήψεις)
De novo Sequence assemby
•  http://www.cbcb.umd.edu/research/assembly_primer.shtml

•  De novo assembly
–  Greedy extention
–  OLC
–  De Bruijn graph
–  Hybrid

Greedy assemblers
Overlap - layout - consensus
(OLC)

Γραφήµατα De Bruijn
De bruijn graph

Comparative assembly
BAC-by-BAC sequencing

Short read alignment


Τιµή Ν50
•  Η τιμή αυτή αντιστοιχεί σε εκείνο το μήκος contigs, ώστε το
50% του γονιδιώματος (μετά από de novo assembly) να
εντοπίζεται σε contigs αυτού το μήκους ή μεγαλύτερου.

•  Μεγάλη τιμή του Ν50 σημαίνει ότι το μεγαλύτερο μέρος του


γονιδιώματος βρίσκεται σε λίγα και μεγάλα contigs.

•  Δηλαδή, τόσο καλύτερη η συναρμολόγιση.

•  Μικρή τιμή σημαίνει ότι το γονιδίωμα δεν έχει


συναρμολογηθεί καλά.

Κάλυψη του γονιδιώµατος και κορεσµός

•  Δεν έχει νόημα να


αλληλουχίσουμε ένα
γονιδίωμα με
υπερβολικά μεγάλη
κάλυψη (coverage),
για μια συγκεκριμένη
τεχνολογία και
μήκος sequence
reads, γιατί από ένα
σημείο και μετά έχει
επέλθει κορεσμός.
Reference assembly/alignment
Επανάληψη 1 Μοναδική περιοχή 1 Επανάληψη 2 Μοναδική περιοχή 2 Επανάληψη 3

Αλληλούχιση µε Sequence Reads

Συναρµολόγιση µε βάση γονιδίωµα αναφοράς

Επανάληψη 1 Μοναδική περιοχή 1 Επανάληψη 2 Μοναδική περιοχή 2 Επανάληψη 3

Sequence Reads που µπορούν να στοιχιθούν


σε περισσότερες από µια θέσεις δεν στοιχίζονται

Μόνο στοίχιση των Sequence Reads που έχουν µια µοναδική θέση

Εφαρµογές

‘Ελεγχος εξελικτικών υποθέσεων -

Προέλευση -

Επιδηµιολογία
Σύγκριση γονιδιωµάτων - ACT

BLASTN comparison of part of three sequences: Escherichia coli K12, Salmonella Typhi CT18
and Salmonella Typhimurium LT2 (from top to bottom).

Επιδηµία χολέρας στην Αϊτή 2010


• Αλληλούχιση του γονιδιώµατος:
• 2 κλινικών στελεχών από την τωρινή επιδηµία στην Αϊτή.
• 1 κλινικό στέλεχος από την επιδηµία του 1991 στη Νότια Αµερική.
• 2 στέλεχη που αποµονώθηκαν στη Νότια Ασία το 2002 και 2008.

• Επίσης χρησιµοποιήθηκαν οι µερικές αλληλουχίες από 23 άλλα στελέχη ανά την


υφήλιο (τα τελευταία 98 χρόνια).
• 1588 συντηρηµένα ορθόλογα γονίδια χρησιµοποιήθηκαν από το κάθε στέλεχος,
για να γίνει το φυλογενετικό δένδρο.
Επιδηµία χολέρας στην Αϊτή 2010

Οι ανθρώπινοι εντερότυποι

http://www.nature.com/nature/journal/v473/n7346/full/nature09944.html
Οι ανθρώπινοι εντερότυποι
•  Χρησιμοποιήθηκαν 22 μεταγενώματα κοπράνων, μαζί με
προηγούμενα δημοσιευμένα δεδομένα (13+2+2), σύνολο 39.
•  Δείγματα από 4 κράτη (Δανία, Γαλλία, Ιταλία, Ισπανία).
•  Από προηγούμενες έρευνες, δείγματα από Ιαπωνία, Αμερική

•  Εντοπίστηκαν 3 βασικοί εντερότυποι.


•  12 γονίδια συσχετίζονται με την ηλικία.
•  3 λειτουργικές ομάδες (functional modules) συσχετίζονται με τον
δείκτη μάζας σώματος.

Μέγεθος µικροβιακού γονιδιώµατος


Μέγεθος γονιδιώµατος και
τρόπος διαβίωσης

Στους προκαρυώτες, ο αριθµός γονιδίων


συσχετίζεται µε το µέγεθος του γονιδιώµατος

Μικρές διαγονιδιακές περιοχές


(intergenic regions).

Ίσως το πολύ υψηλό effective


population size στους
προκαρυώτες επιτρέπει να
διατηρούν τόσο συµπυκνωµένο
γονιδίωµα.

Πολυπλοκότητα των
οργανισµών και παράδοξο της
τιµής Ν.
Προφάγοι στο γονιδίωµα

Πόσο σταθερή είναι η αρχιτεκτονική ενός


γονιδιώµατος.

Dotplot για ορθόλογα γονίδια


µεταξύ δύο προκαρυωτών του
ίδιου είδους.

Κάθε κουκίδα στο Dotplot είναι


η θέση του ορθόλογου γονιδίου
σε δύο διαφορετικά
γονιδιώµατα.

Κάποιοι οργανισµοί έχουν


σταθερή γονιδιωµατική
αρχιτεκτονική και κάποιοι άλλοι
όχι.
Λειτουργική γονιδιωµατική

Λειτ. Γονιδιωματική

Λειτουργική γονιδιωµατική: Τι είναι


•  Προσπαθεί να κατανοήσει τις λειτουργίες των βιολογικών µορίων, σε
επίπεδο ολόκληρου του γονιδιώµατος.
•  Γίνονται µετρήσεις για το σύνολο των γονιδίων, σε µια συγκεκριµένη
στιγµή ή κατάσταση.
•  Αρχικά, οι µετρήσεις γίνονταν για ένα βιοµόριο. Σήµερα µελετάµε την
συµπεριφορά ολόκληρου του συστήµατος.
•  Η µελέτη της µεταγραφής του συνόλου των γονιδίων ονοµάζεται
µεταγραφωµατική ή transcriptomics.
Λειτ. Γονιδιωματική

Transcriptomics
•  Expressed sequence tags (ESTs)
•  Serial analysis of gene expression (SAGE)
•  Μικροσυστοιχίες (microarrays)
•  RNA-seq (whole transcriptome shotgun sequencing)

mRNA abundance ratios versus protein-abundance ratios.

Griffin T J et al. Mol Cell Proteomics 2002;1:323-333


Διαφορική έκφραση γονιδίων

Microarrays & RNA-Sequencing

Μικροσυστοιχίες
RNA-SEQ

Reference assembly/alignment
Επανάληψη 1 Μοναδική περιοχή 1 Επανάληψη 2 Μοναδική περιοχή 2 Επανάληψη 3

Αλληλούχιση µε Sequence Reads

Συναρµολόγιση µε βάση γονιδίωµα αναφοράς

Επανάληψη 1 Μοναδική περιοχή 1 Επανάληψη 2 Μοναδική περιοχή 2 Επανάληψη 3

Sequence Reads που µπορούν να στοιχιθούν


σε περισσότερες από µια θέσεις δεν στοιχίζονται

Μόνο στοίχιση των Sequence Reads που έχουν µια µοναδική θέση
Reference assembly

Short read aligners


•  Bowtie
•  BWA
•  STAR

•  RPKM – Reads per


kilobase million
•  FPKM – fragments per
kilobase million
•  TPM - Transcripts per
million (TPM)

Log2
•  Αν το γονίδιο εκφράζεται περισσότερο στην Α συνθήκη (κόκκινη χρωστική)
από ότι στην control (πράσινη χρωστική), τότε ο λόγος συνθήκη_Α/control
(κόκκινη/πράσινη) θα είναι λ>1, αλλιώς σε αντίθετη περίπτωση 0<λ<1.
•  Αν το γονίδιο εκφράζεται µε διπλάσια ένταση στην συνθήκη Α, σε σχέση µε
την συνθήκη control, τότε ο λόγος θα είναι λ=2.
•  Αν το γονίδιο εκφράζεται µε τη µισή ένταση στην συνθήκη Α, σε σχέση µε
την συνθήκη control, τότε ο λόγος θα είναι λ=0.5.
•  Μετατρέποντας τους λόγους σε log2, έχουµε:
–  λ=2 -> log2λ=1
–  λ=0.5 -> log2λ=-1
–  Με την κανονικοποίηση σε log2 τα δεδοµένα γίνονται συµµετρικά.
Κανονικοποίηση κλίμακας
Scale normaliza:on
Data a=er Median Centering and Scale
Normalizing

Υπερ/υπο-έκφραση
•  Πότε θεωρούµε ότι ένα γονίδιο υπερ/υπό-εκφράζεται σε µια
συγκεκριµµένη συνθήκη.
–  Log2λ > 1 ή Log2λ < -1 (διπλάσια/υποδιπλάσια έκφραση σε σχέση µε τη
συνθήκη control).
–  Με στατιστικές µεθόδους (t-test, ANOVA).
Volcano Plot

Οµαδοποίηση γονιδίων/συνθηκών
µε την ίδια συµπεριφορά.
•  Χρειαζόµαστε αρκετά σηµεία (διαφορετικές συνθήκες ή χρονικές
στιγµές)
•  Με µεθόδους αποστάσεων, όπου οι µετρήσεις ενός γονιδίου για
διαφορετικές συνθήκες αποτελούν ένα διάνυσµα.
•  Υπολογίζουµε αποστάσεις µεταξύ διαφορετικών διανυσµάτων
(γονιδίων).
–  Ευκλείδια απόσταση
–  Συντελεστής συσχέτισης Pearson (Pearson correlation
coefficient).
–  Δηµιουργείται πίνακας αποστάσεων µεταξύ των γονιδίων.

–  Το αντίστοιχο µπορεί να γίνει και για να οµαδοποιήσουµε κοινές


συνθήκες.
towardsdatascience.com

Condi:on1 Condi:on2 Condi:on3 Condi:on4 Condi:on5 Condi:on1 Condi:on2


Gene1 1 -3 10 0 0 Gene1 1 -3
Gene2 -7 -2 -1 10 -8 Gene2 -7 -2
Gene3 2 1 9 -9 5 Gene3 2 1
Gene4 10 10 -4 0 -9 Gene4 10 10
Gene5 -2 9 -7 0 -7 Gene5 -2 9
Gene6 -6 6 -5 -3 9 Gene6 -6 6
Gene7 2 1 8 -1 -2 Gene7 2 1
Gene8 -3 -8 -1 -6 2 Gene8 -3 -8
Gene9 -10 0 9 6 0 Gene9 -10 0
Gene10 -2 4 5 -7 -6 Gene10 -2 4
Gene11 -2 -2 0 -9 10 Gene11 -2 -2
Gene12 -6 -10 -5 8 5 Gene12 -6 -10
Gene13 2 -8 1 -1 2 Gene13 2 -8
Gene14 -7 -9 -7 1 1 Gene14 -7 -9
Gene15 -6 4 -8 -1 -6 Gene15 -6 4
Gene16 -5 2 -5 8 -8 Gene16 -5 2
Gene17 8 -2 -7 0 2 Gene17 8 -2
Gene18 2 9 -9 9 3 Gene18 2 9
Gene19 -3 -1 7 -1 6 Gene19 -3 -1
Gene20 10 -4 3 -3 -1 Gene20 10 -4

Condi:on1 Condi:on2 Condi:on3 Condi:on4 Condi:on5


Gene1 1 -3 10 0 0
Gene2 -7 -2 -1 10 -8
Condi:on1 Condi:on2 Condi:on3 Condi:on4 Condi:on5
Gene1 1 -3 10 0 0
Gene2 -7 -2 -1 10 -8

Gene1 Gene2 Gene3 Gene4 Gene5 Gene6 Gene7 Gene8 Gene9 Gene10 Gene11 Gene12 Gene13 Gene14 Gene15 Gene16 Gene17 Gene18 Gene19 Gene20
Gene1
Gene2
Gene3
Gene4
Gene5
Gene6
Gene7
Gene8
Gene9
Gene10
Gene11
Gene12
Gene13
Gene14
Gene15
Gene16
Gene17
Gene18
Gene19
Gene20

Condi:on1 Condi:on2
Gene1 1 -3
Gene2 -7 -2
Gene3 2 1
Gene4 10 10
Gene5 -2 9
Gene6 -6 6
Gene7 2 1
Gene8 -3 -8
Gene9 -10 0
Gene10 -2 4
Gene11 -2 -2
Gene12 -6 -10
Gene13 2 -8
Gene14 -7 -9
Gene15 -6 4
Gene16 -5 2
Gene17 8 -2
Gene18 2 9
Gene19 -3 -1
Gene20 10 -4

Condi:on1 Condi:on2 Condi:on3 Condi:on4 Condi:on5


Condi:on1
Condi:on2
Condi:on3
Condi:on4
Condi:on5
Φυλογένεση

UPGMA

Φυλογένεση

UPGMA
Φυλογένεση

UPGMA

Οµαδοποίηση
Οντολογίες
•  www.geneontology.org

•  Ελεγχόµενο λεξιλόγιο για την περιγραφή των ιδιοτήτων των γονιδίων


και των πρωτεϊνών.

•  Περιγράφουν:
–  Μοριακές λειτουργίες του βιοµορίου (1 ή περισσότερες).
–  Βιολογικές διαδικασίες στις οποίες εµπλέκεται το βιοµόριο (1 ή
περισσότερες).
–  Κυτταρικό διαµέρισµα στο οποίο συναντάται το βιοµόριο (1 ή
περισσότερα).

Gene ontology
Οντολογίες: Η δοµή τους
•  Δείχνει τις σχέσεις µεταξύ
των διαφορετικών όρων.

•  Ένας όρος µπορεί να


αποτελεί πιο
εξειδικευµένη περιγραφή
ενός άλλου όρου.

•  Είναι κατευθυνόµενα
ακυκλικά γραφήµατα
(DAG).

•  Παρόµοια µε ιεραρχίες.

•  Η διαφορά είναι ότι ένας


κόµβος-απόγονος µπορεί
να έχει περισσότερους
από έναν προγόνους.

Οντολογίες: Η δοµή τους


•  Θεωρούµε ότι αν σε ένα βιοµόριο αντιστοιχεί ένα όρος-οντολογία, τότε
σε αυτό το βιοµόριο ανήκουν και όλοι οι πρόγονοι του όρου-οντολογίας.
Gene ontology

Gene ontology
Gene ontology

Gene ontology
Οντολογίες: στατιστική ανάλυση
•  Παράδειγµα:
–  1 γονιδίωµα µε 10.000 γονίδια.
–  1.000 γονίδια εµπλέκονται στον κυτταρικό κύκλο (GO_term: cell-cycle).
(10% του γονιδιώµατος).

–  Αν επιλέξουµε τυχαία έναν αριθµό Χ γονιδίων, θα περιµέναµε (από τύχη)


περίπου το 10% (µε κάποιες διακυµάνσεις) να έχουν τον όρο “κυτταρικός
κύκλος”.
–  Η τυχαία διακύµανση εξαρτάται από τον αριθµό των γονιδίων.

–  Έστω ότι µε τα microarrays σε ένα πείραµα βρήκαµε ότι Χ αριθµός γονιδίων


υπερεκφράζονται.
–  Σε αυτό τον Χ αριθµό, βρήκαµε ότι 20% των γονιδίων ανήκουν στον
κυτταρικό κύκλο.
–  Αυτή η απόκλιση (20% παρατηρούµενο - 10% αναµενόµενο) είναι στα όρια
των τυχαίων διακυµάνσεων, ή είναι στατιστικά σηµαντική?
•  Στατιστικά σηµαντική, σηµαίνει ότι τα υπερεκφρασµένα γονίδια είναι
εµπλουτισµένα για την κατηγορία “κυτταρικός κύκλος ”. Δηλαδή, ο κυτταρικός
κύκλος εµπλέκεται στην διαδικασία που µελετάµε.

Οντολογίες:
στατιστική ανάλυση
•  Η στατιστική ανάλυση γίνεται µε το υπεργεωµετρικό τεστ.
•  Παίρνουµε ένα p-value.
•  Αν p-value < 0.05, τότε είναι στατιστικά σηµαντικό.

•  Αν στις οντολογίες µας είχαµε 100 όρους, θα επαναλαµβάναµε τα


παραπάνω τεστς για τον κάθε όρο.
•  Όµως, όσο περισσότερα τεστ κάνουµε για το πείραµά µας, τόσο αυξάνει ή
πιθανότητα να βρούµε κάτι στατιστικά σηµαντικό (p-value < 0.05) καθαρά
από λάθος.
•  Άρα, πρέπει να λάβουµε υπόψην µας πόσα τεστ διενεργούµε και να
διορθώσουµε τα p-values (multiple testing correction).
–  False discovery rate (Benjamini-Hochberger)
–  Bonferroni correction
In vitro
διαγνωστικά τεστ
που βασίζονται σε
µικροσυστοιχίες

FDA: In Vitro Diagnostic Multivariate Index


Assays (IVDMIAs)
•  FDA’s In Vitro Diagnostic Product Database
•  http://www.accessdata.fda.gov/scripts/cdrh/cfdocs/cfivd/index.cfm

•  http://www.ivdtechnology.com/article/exploring-fda-approved-ivdmias

•  Some IVDMIAs are laboratory-developed tests (LDTs). LDTs are tests that are
developed by a single clinical laboratory for use only in that laboratory.

•  http://www.fda.gov/MedicalDevices/DeviceRegulationandGuidance/
GuidanceDocuments/ucm079148.htm

•  IVDMIAs raise significant issues of safety and effectiveness. These types of tests are
developed based on observed correlations between multivariate data and clinical
outcome, such that the clinical validity of the claims is not transparent to patients,
laboratorians, and clinicians who order these tests. Additionally, IVDMIAs frequently
have a high risk intended use. FDA is concerned that patients are relying upon
IVDMIAs with high risk intended uses to make critical healthcare decisions when FDA
has not ensured that the IVDMIA has been clinically validated and the healthcare
practitioners are unable to clinically validate the test themselves. Therefore, there is a
need for FDA to regulate these devices to ensure that the IVDMIA is safe and
effective for its intended use.
Mammaprint - Tissue of origin
•  http://www.ivdtechnology.com/article/exploring-fda-approved-ivdmias
•  MammaPrint.
The first IVDMIA, the MammaPrint system, made by Agendia Inc., is a
qualitative IVD test service performed in a single lab outside the United States
using a 70-gene expression profile of fresh frozen breast cancer tissue samples
to assess a breast cancer patientユs risk for distant metastasis. FDA approved
MammaPrint in February 2007 under de novo classification procedures.
•  Tissue of Origin Test
In July 2008, the Tissue of Origin Test, made by Pathwork Diagnostics, was
cleared. This microarray RNA profiling test is to be used on clinical, formalin-
fixed, paraffin-embedded (FFPE) biopsy tissue to aid in the classification of the
origin of the tumor tissue. In June 2010 a second clearance introduced a
different specimen and specimen-preparation method, and the algorithm for
analysis of the expression data to create a diagnostics report and interpretation.
The test uses microarray technology by Affymetrix Inc. and advanced analytics
to measure the gene-expression patterns of challenging tumors, including
metastatic, poorly differentiated, and undifferentiated cancer. It is intended to
measure the degree of similarity between the RNA expression patterns in a
patient’s tumor tissue with the RNA expression patterns in a database of fifteen
known tumor types.

Mammaprint
Καρκίνοι αγνώστου προελεύσεως

•  Σε κάποιες περιπτώσεις εµφάνισης/επανεµφάνισης καρκίνου


είναι άγνωστη η πρωταρχική πηγή (ιστός), ακόµα και µετά από
µια σειρά διαγνωστικών τεστ/βιοψία.
•  Αυτό δεν επιτρέπει να χρησιµοποιηθεί ένα κατάλληλο
θεραπευτικό σχήµα.
•  Οι µικροσυστοιχίες επιτρέπουν να δηµιουργηθεί το προφίλ
γονιδιακής έκφρασης του συγκεκριµένου καρκίνου και να
συγκριθεί µε το προφίλ καρκίνων γνωστής προέλευσης.

Καρκίνοι αγνώστου προελεύσεως


•  Δηµιουργείται µια βάση από δεδοµένα µεταγραφωµικής
(από άλλες βάσεις δεδοµένων και βιβλιογραφία).
•  Τα δεδοµένα είναι από γνωστούς καρκίνους, κανονικούς
ιστούς, και από άλλες ασθένειες.
•  Τα δεδοµένα φιλτράρονται, κανονικοποιούνται.
•  Στη συνέχεια γίνεται σύγκριση.
Καρκίνοι αγνώστου προελεύσεως
•  http://genomemedicine.com/content/3/9/63/abstract
•  Classification of unknown primary tumors with a data-driven method based on
a large microarray reference database
•  Kalle A Ojala, Sami K Kilpinen and Olli P Kallioniemi

IVDMIA - FDA
•  http://www.fda.gov/NewsEvents/Newsroom/PressAnnouncements/2007/
ucm108836.htm
•  The MammaPrint is the first cleared in vitro diagnostic multivariate index
assay (IVDMIA) device.

•  http://www.fda.gov/NewsEvents/Newsroom/PressAnnouncements/2008/
ucm116931.htm
•  FDA Clears Test that Helps Identify Type of Cancer in Tumor Sample
•  The Pathwork Tissue of Origin test compares the genetic material of a
patient's tumor with genetic information on malignant tumor types stored in
a database.It uses a microarray technology to analyze thousands of pieces
of genetic material at one time. The test considers 15 common malignant
tumor types, including bladder, breast, and colorectal tumors.
Βιοπληροφορική
Βάσεις Δεδοµένων
1ο εργαστήριο

Γρηγόρης Αµούτζιας

Βάσεις Δεδοµένων

Βάσεις Δεδοµένων: Εισαγωγή


Χρησιµοποιούνται για:
–  Oργάνωση
–  Αποθήκευση
–  Επεξεργασία
–  Αναζήτηση/επαναπόκτηση
της βιολογικής πληροφορίας

Κύρια είδη:

Επίπεδης οργάνωσης (Flat-files:) Το ποιό απλό είδος. Ουσιαστικά είναι


κατάλογοι

Σχεσιακές βάσεις. Πιο περίπλοκες και πλέον πολύ διαδεδοµένες . Π.χ.,


SQL. Η πληροφορία οργανώνεται σε πίνακες που σχετίζονται µεταξύ
τους. Έτσι αποφεύγεται η επανάληψη και συσσώρευση δεδοµένων

Αντικειµενοστρεφείς βάσεις κ.α.

Διακρίνονται κυρίως σε αρχειακές/πρωτεύοντες και δευτερεύοντες


Στις αρχειακές γίνεται κατάθεση δεδοµένων ενώ στις δευτερεύοντες τα
δεδοµένα είναι περαιτέρω επεξεργασµένα/σχολιασµένα/
αλληλοσυνδεδεµένα
Ετήσιος κατάλογος Β.Δ.

•  Κάθε Ιανουάριο στο Nucleic


Acids Research (Special
database issue)

•  2010: 58 νέες και 73


ανανεωµένες

•  Σύνολο: 1230

•  5% ετήσια ανάπτυξη

•  Επίσης υπάρχει το περιοδικό


Database: the journal of
biological databases and
curation

http://www.oxfordjournals.org/nar/database/a/
http://www.oxfordjournals.org/nar/database/c/

Βάσεις νουκλεοτιδικών δεδοµένων (ι)


•  Αρχειακές ΒΔ για νουκλεοτιδικές αλληλουχίες:
–  EMBL-BANK. European Nucleotide Archive (ENA), EBI. Hinxton, UK.
–  GENBANK. NCBI, NIH. Bethesda, USA
–  DNA databank of Japan (DDBJ). National institute of Genetics,.Mishima,
JP

•  Η ακολουθία κατατίθεται σε µία απο τις ΒΔ, η οποία έχει και την δυνατότητα να
την αναθεωρήσει (µόνο αυτή, για αποτροπή ‘συγκρούσεων’)

•  Και οι 3 ΒΔ ανήκουν στο International nucleotide sequence database collection


(INSDC). Κάθε µέρα ανταλλάσουν δεδοµένα. Η ίδια ακολουθία Χ3. Νέα έκδοση
ανά δίµινο.

•  Από το 2009, το INSDC ξεκίνησε να καταχωρεί και αµορφοποίητα δεδοµένα


από µεγάλης κλίµακας αλληλουχίσεις (Sequencing projects), είτε αυτά
προέρχονται από κλασσικές µεθόδους αλληλούχισης (Trace archive) (capillary
sequencing), είτε από µεθόδους αλληλούχισης 2ης γενιάς (Read Archive) (454,
Solexa, Solid, Helicos)
EMBL bank help page
http://www.ebi.ac.uk/embl/Documentation/User_manual/usrman.html

Βάσεις νουκλεοτιδικών δεδοµένων.


EMBL format (i)
Βάσεις νουκλεοτιδικών δεδοµένων.
EMBL format (ii)

Βάσεις νουκλεοτιδικών δεδοµένων.


EMBL format (ii)
Βάσεις νουκλεοτιδικών δεδοµένων.
FASTA format

Παράδειγµα εγγραφής στην


EMBL bank
•  Πηγαίνετε στην διεύθυνση:
http://www.ebi.ac.uk/embl/
•  X03635 : Estrogen receptor alpha, Human
•  Αναζητήστε την ακολουθία του παραδείγµατος
χρησιµοποιώντας το accession number του (X03635).
•  Δείτε το Nucleotide Sequence του mRNA σε µορφή ENA και σε
µορφή EMBL format.
•  Στην µορφή ΕΝΑ, δείτε την ακολουθία ως FASTA format.
Βάσεις πρωτεϊνικών δεδοµένων

•  Swissprot. 1987, Uni Geneva + SIB. Σχολιασµός των εγγραφών/


πρωτεϊνών από επιστήµονες.

•  TrEMBL. 1996. SIB + EBI. Αυτόµατη µετάφραση των ακολουθιών που


βρίσκονται στην EMBL. Δεδοµένα στην ίδια µορφή µε την Swissprot.
Μπορεί να είναι υποθετικές ή ο σχολιασµός να µην είναι εκτενής, όπως
στην Swissprot.

•  PIR. 1984, USA

•  UniProt. 2002. Ενώθηκαν οι παραπάνω βάσεις.

•  UniMes: για µεταγενωµικά δεδοµένα, όπου δεν γνωρίζουµε από ποιά είδη
προέρχονται οι ακολουθίες.

Swissprot (ι)
–  Από την εγγραφή του προηγούµενου παραδείγµατος, ακολουθήστε τον
σύνδεσµο (link) προς την Β.Δ. UniprotKB/Swissprot, µε κωδικό εγγραφής
P03372
Swissprot (ι)
–  Δείτε
•  το όνοµα και τα συνώνυµα της ακολουθίας
•  Την ταξινόµιση του οργανισµού. Η ταξινόµιση µπορεί επίσεις να
βρεθεί και στην ιστοσελίδα του NCBI taxonomy
http://www.ncbi.nlm.nih.gov/
•  Λειτουργίες της πρωτεΐνης (και στο τµήµα των Ontologies)
•  Την ακολουθία σε FASTA format
•  Ακολουθείστε το σύνδεσµο (Hs.208124) προς την Β.Δ. Unigene και
από εκεί δείτε το προφίλ γονιδιακής έκφρασης µέσω του link ‘EST
profile’
•  Από την προηγούµενη ιστοσελίδα του Uniprot, ακολουθείστε το
σύνδεσµο P03372 προς την Β.Δ. Intact (στο τµήµα protein-protein
interaction databases) για να δείτε πόσες πρωτεϊνικές
αλληλεπιδράσεις έχει το estrogen receptor alpha.
ΒΔ πρωτεϊνικών επικρατειών
•  Πρωτεϊνική επικράτεια: Μια περιοχή της πρωτεΐνης µε συγκεκριµένη λειτουργία/
δοµή και καλά συντηρηµένη.

•  Διάφορες βάσεις δεδοµένων, όπως:


–  PROSITE
–  Pfam
–  PRINTS
–  ProDom
–  SMART
–  TIGRFAMs
–  PIR superfamily
–  Superfamily

•  Έχουν ενσωµατωθεί στο INTERPRO.

•  Το INTERPRO περιέχει πρωτεϊνικές επικράτειες. Το πρόγραµµα


INTERPROscan ανιχνεύει αυτές τις επικράτειες στις πρωτεΐνες.

Pfam
•  Για την ακολουθία του Estrogen receptor alpha, από τη Uniprot
ακολουθείστε τη σύνδεση για την Β.Δ. πρωτεϊνικών επικρατειών
(domains) Pfam (graphical view).
•  Δείτε την αρχιτεκτονική της πρωτεΐνης.
•  Ποιά είναι τα βασικά domains;
•  Δείτε λεπτοµερέστερα την εγγραφή για το Hormone receptor /
ligand binding domain.
•  Δείτε σε ποιά είδη έχει βρεθεί αυτή η επικράτεια (σύνδεσµος
‘species’ στα αριστερά της ιστοσελίδας) (Tree).
ΒΔ τρισδιάστατων δοµών PDB
•  Protein Data Bank (PDB)
–  Πρωτεΐνες
–  Νουκλεϊκά οξέα
–  Σύµπλοκα των παραπάνω

•  Μέθοδοι
–  X-ray (~59000)
–  NMR (~8500)
–  Κρύο-ηλεκτρονική
µικροσκοπία (~300)

•  Οι παραπάνω µέθοδοι βρίσκουν


τις συντεταγµένες (3D) των
ατόµων του βιολογικού µορίου.

•  Τα αρχεία µε τις συντεταγµένες


διαβάζονται από ειδικά
προγράµµατα (π.χ Rasmol) που
απεικονίζουν τη δοµή στο χώρο
PDB
•  Από την προηγούµενη ιστοσελίδα του Uniprot για την εγγραφή
estrogen receptor alpha, στο τµήµα 3D structure databases,
επιλέξτε RCSB PDB και ακολουθείστε το σύνδεσµο για την
1Α52 (είναι ο κωδικός εγγραφής στην PDB). Είναι η κρυσταλλική
δοµή της επικράτειας σε σύµπλεγµα µε την οιστραδιόλη.
•  Στην δεξιά πλευρά της ιστοσελίδας µπορείτε να δείτε την
τρισδιάστατη δοµή µέσω του συνδέσµου ‘view in Jmol’.

Β.Δ. τρισδιάστατων δοµών


•  CATH: κατηγοριοποιεί τις τρισδιάστατες δοµές των πρωτεϊνικών
επικρατειών ιεραρχικά, σε 4 βασικά επίπεδα.

•  Η κατηγοριοποίηση γίνεται µε ένα συνδυασµό αυτόµατων µεθόδων και


ανθρώπινης κρίσης.
Βάσεις τρισδιάστατων δοµών

Μεταβολικά µονοπάτια
KEGG pathways
•  Kyoto encyclopedia of genes and genomes.

•  2010: 374 µεταβολικά µονοπάτια.

KEGG pathways
KEGG
•  Από την ιστοσελίδα του Uniprot για το Estrogen receptor alpha,
ακολουθείστε το σύνδεσµο hsa:2099 προς τη Β.Δ. KEGG.

• Δεξιά της νέας ιστοσελίδας (στο KEGG), ακολουθείστε το σύνδεσµο KEGG


disease και στη συνέχεια το σύνδεσµο Η00026 για endometrial cancer.
• Στη νέα ιστοσελίδα, στο τµήµα ‘markers’ δείτε ποιά γονίδια χρησιµοποιούνται ως
µοριακοί δείκτες της ασθένειας.
• Στα δεξιά της ιστοσελίδας ακολουθείστε το σύνδεσµο KEGG pathways, για να δείτε
το µοριακό µονοπάτι του καρκίνου του ενδοµητρίου (link: hsa05213).

Βάσεις Δεδοµένων

Pubmed
•  ΒΔ του NCBI. Ξεκίνησε τον Ιανουάριο του 1996.
•  Καταχωρεί όλες τις δηµοσιευµένες εργασίες που προέρχονται από τον ευρύτερο
χώρο της βιοϊατρικής
•  ~20 εκατοµύρια εργασίες καταχωρηµένες (Ιούλιος 2010)
•  Όταν µια εργασία γίνεται δεκτή από το περιοδικό, κατατίθεται και στην Pubmed
•  H Pubmed δίνει ένα µοναδικό κωδικό εγγραφής (PMID) και λέξεις κλειδιά που
χαρακτηρίζουν το περιεχόµενο της εργασίας (MeSH terms).
•  Από το 2007, το NIH απαιτεί όποιες ερευνητικές εργασίες έχουν χρηµατοδοτηθεί
από αυτό, τα αποτελέσµατά τους να γίνονται προσβάσιµα σε όλους, µέσω του
Pubmed Central (εντός 12 µηνών από την ηµεροµηνία δηµοσίευσης). (~ 1
εκατοµύριο εργασίες)
Βάσεις Δεδοµένων

Pubmed

Βάσεις Δεδοµένων

Pubmed
Βάσεις Δεδοµένων

Pubmed
•  Πόσες εργασίες υπάρχουν για το estrogen receptor alpha;

Κατάλογος
µε ΒΔ:
Pathguide

•  http://www.pathguide.org/
Bionumbers
http://www.bionumbers.hms.harvard.edu/
Browse -> genome

Textpresso
•  Μηχανή αναζήτησης που ελέγχει ολόκληρο το κείµενο µιας εργασίας (full text).

•  http://www.textpresso.org/
Clinical tests webpages
•  http://labtestsonline.org/
•  Ποιά test για ποιές ασθένειες

•  http://informeddna.com/index.php/
•  Informed Medical Decisions, Inc. is the only nationwide network
of independent genetic counselors.

Εργασία
Να ετοιµάσετε µια αναφορά για τον ανθρώπινο υποδοχέα οιστρογόνου άλφα
(estrogen receptor alpha) που να περιγράφει τα παρακάτω:

•  Τον κωδικό εγγραφής στην Β.Δ. Uniprot.


•  Την ταξινόµιση του οργανισµού από τον οποίο προέρχεται η πρωτεΐνη.
•  Τις λειτουργίες της πρωτεΐνης.
•  Τα domains της πρωτεΐνης και την λειτουργία του καθενός από αυτά.
•  Να δείξετε από µια εικόνα της τρισδιάστατης δοµής για τα domains της
πρωτεΐνης (εφόσον υπάρχουν).
•  Την έκφραση του γονιδίου στους ανθρώπινους ιστούς.
•  Σε ποιές ασθένειες εµπλέκεται η πρωτεΐνη αυτή.
•  Ποιά άλλα γονίδια είναι µοριακοί δείκτες στις ασθένειες που εµπλέκεται αυτός ο
υποδοχέας οιστρογόνου.

Για κάθε στάδιο της εργασίας να αναφέρετε την πηγή (Β.Δ.) στο διαδίκτυο µαζί µε το URL
καθώς επίσης και µια σύντοµη περιγραφή της Β.Δ.
Βιοπληροφορική

Blast/PSI-Blast
3o εργαστήριο

Αναζήτηση οµόλογων ακολουθιών σε


βάσεις δεδοµένων (i)
•  Οµόλογες ακολουθίες πιθανόν να έχουν παρόµοιες λειτουργίες.

•  Ακολουθία επερώτησης (query sequence)


•  Υποκείµενες ακολουθίες στην βάση δεδοµένων (subject sequences).

•  1 ακολουθία Χ Β.Δ
•  Ν ακολουθίες Χ Β.Δ

•  Αναζήτηση µε δυναµικό προγραµµατισµό: Smith-Waterman, SSearch

•  Ευρετικοί αλγόριθµοι για ανίχνευση οµόλογων ακολουθιών.


–  FASTA
–  BLAST
•  50 φορές γρηγορότεροι από δυναµικό προγραµµατισµό, αλλά ενδέχεται:
–  να µην εντοπίσουν κάποιες ‘αποµακρυσµένες’ οµόλογες ακολουθίες.
–  να µη γίνει η βέλτιστη στοίχιση
Blast

Blast
Χρησιµοποιώντας το Blast (i)
•  Επεξηγήσεις στο σύνδεσµο:
–  http://www.ncbi.nlm.nih.gov/BLAST/blastcgihelp.shtml

•  Εισάγουµε την ακολουθία της πρωτεΐνης Estrogen receptor a σε µορφή FASTA

Χρησιµοποιώντας το Blast (ii)


•  Επιλέγοντας:
–  τη βάση δεδοµένων που θα γίνει η αναζήτηση (Swissprot)
–  Τον οργανισµό που θα γίνει η αναζήτηση (Drosophila melanogaster)
Χρησιµοποιώντας το Blast (iii)
•  Παράµετροι του αλγόριθµου
•  Expect threshold: ανάλογα µε το τι αναζητούµε

Χρησιµοποιώντας το Blast (iv)


•  Αποτελέσµατα για συντηρηµένες επικράτειες (conserved domains)
Χρησιµοποιώντας το Blast (v)
•  Οµάδες συντηρηµένων επικρατειών

Χρησιµοποιώντας το Blast (vi)


•  Γράφηµα των καλύτερων στοιχίσεων
Χρησιµοποιώντας το Blast (vii)
•  Περιγραφές των αποτελεσµάτων (µε φίλτρο)

Χρησιµοποιώντας το Blast (viii)


•  Στοιχίσεις (µε φίλτρο - µικρά γράµµατα)
•  Identities (επί του αριθµού θέσεων στην στοίχιση)
•  Positives (επί του αριθµού θέσεων στην στοίχιση)
Χρησιµοποιώντας το Blast (ix)
χωρίς φίλτρο µε φίλτρο

Η χρήση φίλτρου αλλάζει το score


Identities/Positives σταθερά

Χρησιµοποιώντας το Blast (x)


Χωρίς φίλτρο

Με φίλτρο

Αλλάζει το score, E-value και η σειρά εµφάνισης


Χρησιµοποιώντας το Blast (xi)
Χωρίς φίλτρο

Με φίλτρο

Identities & positives παραµένουν σταθερά

Χρησιµοποιώντας το Blast (xi)


•  Αλλαγή στον Πίνακα αντικατάστασης και στις ποινές για κενά
–  Blosum 45 13:3, χωρίς φίλτρο

Blosum 62 11:1, χωρίς φίλτρο


Χρησιµοποιώντας το Blast (xii)

Blosum 45 13:3 Blosum 62 11:1

Μικρές διαφορές στη στοίχιση, στο score & E-value

Χρησιµοποιώντας το Blast (xiii)


•  Αν για το ίδιο γονίδιο ( ESR1_Human) χρησιµοποιούσαµε το
mRNA του (X03635.1 Homo sapiens mRNA for estrogen
receptor α και όχι την πρωτεΐνη για την αναζήτηση στην
Drosophila:
–  Blastn (nr database)
Χρησιµοποιώντας το Blast (xiv)

Για το ίδιο mRNA


–  Blastx (nr database)

PSI-Blast
PSI-Blast

•  PSI-Blast: Position-specific iterated Blast

•  Position specific scoring matrices (PSSMs) (Πίνακες αντικατάστασης θέσης)

•  Altschul et al., 1997


•  http://www.ncbi.nlm.nih.gov/pmc/articles/PMC146917/pdf/253389.pdf

•  Η αναζήτηση µακρινών οµολόγων σε Β.Δ. είναι πιο ευαίσθητη µε τη χρήση


αυτών των πινάκων.

•  Για οµόλογες ακολουθίες το PSI-Blast βρίσκει µέχρι και 3 φορές


περισσότερες µακρινές οµόλογες ακολουθίες (οµοιότητα < 30%) σε σχέση µε
το Blastp.

PSI-Blast
•  Σε µια ακολουθία οι διάφορες θέσεις δεν είναι το ίδιο συντηρηµένες/ευέλικτες
λόγω δοµικών/λειτουργικών περιορισµών.

•  Χρησιµοποιώντας οµόλογες ακολουθίες από τον ίδιο ή άλλους οργανισµούς


κατανοούµε την ευελιξία κάθε θέσης µιας ακολουθίας.

•  Π.χ. Σε µια ακολουθία Α, στην θέση 123 (ενεργό κέντρο ενζύµου) βλέπουµε ένα
µόνο αµινοξύ.

•  Σε µια πολλαπλή στοίχιση της Α µε οµόλογες ακολουθίες βλέπουµε για την ίδια
θέση (123) ποιά άλλα αµινοξέα επιτρέπονται και σε τί συχνότητες.

•  Το PSSM χρησιµοποιεί αυτή την πληροφορία για να αναζητήσει µακρινά


οµόλογα σε µια Β.Δ.
PSSM
•  Αρχικά γίνεται πολλαπλή στοίχιση των ακολουθιών

•  Στη συνέχεια, για ακολουθία µήκους L δηµιουργείται πίνακας:


–  L X 4 (nucleotides)
–  L X 20 (proteins)

PSSM
•  Γίνεται καταµέτρηση των συχνοτήτων των χαρακτήρων για την
κάθε θέση.
PSSM
•  Ακολουθεί µια σειρά µετασχηµατισµών
–  Συντελεστής βαρύτητας της κάθε ακολουθίας µε βάση την οµοιότητά της
µε άλλες.
–  Pseudocounts
–  Λαµβάνεται υπόψην η συχνότητα υποβάθρου του κάθε χαρακτήρα
•  Υπολογισµός των odds (παρατηρούµενη συχνότητα / συχνότητα
υποβάθρου).
–  Log-odds

•  Ο πίνακας αυτός χρησιµοποιείται για τοπική στοίχιση µε ακολουθίες σε µια


Β.Δ. (αντικαθιστά την ακολουθία επερώτησης).

PSI-Blast
•  Πρώτο στάδιο:

–  Blast µε την ακολουθία επερώτησης σε µια Β.Δ. (Ε<0.001 default).

–  Οι τοπικές στοιχίσεις που βρέθηκαν (E-value < cutoff) χρησιµοποιούνται


για τη δηµιουργία µιας πολλαπλής στοίχισης M µε σηµείο αναφοράς την
ακολουθία επερώτησης (L θέσεις).
•  Δεν επιτρέπονται κενά στην ακολουθία επερώτησης.
•  Αυτή η πολλαπλή στοίχιση (ακολουθία - σηµείο αναφοράς) διαφέρει
από τις τυπικές πολλαπλές στοιχίσεις

–  Απαλοιφή ακολουθιών µε πολύ µεγάλη οµοιότητα.

–  Δηµιουργία PSSM.
PSI-Blast
•  Δεύτερο στάδιο:

–  Νέα αναζήτηση στη Β.Δ. µε το PSSM αντί της αρχικής ακολουθίας


επερώτησης.

–  Οι νέες ακολουθίες που βρέθηκαν και ξεπερνούν το κατώφλι E-value


ανανεώνουν την πολλαπλή στοίχιση και δηµιουργείται ένα νέο PSSM.

•  Η διαδικασία επαναλαµβάνεται µέχρι να µη βρεθούν νέες ακολουθίες µε Evalue <


τιµή κατωφλίου (convergence).

•  Συνήθως, 3-5 κύκλοι αρκούν για να βρεθούν τα περισσότερα µακρινά οµόλογα.

PSI-Blast
PSI-Blast

PSI-Blast
•  Πριν κάνουµε PSI-Blast πρέπει να ξέρουµε τι αναζητάµε!!!

–  αναζητούµε οµόλογες πρωτεΐνες µε την ίδια αρχιτεκτονική επικρατειών


(domain architecture);

–  Αναζητούµε πρωτεΐνες που να περιλαµβάνουν µια συγκεκριµµένη περιοχή;


Χρησιµοποιούµε µόνο αυτή την περιοχή στην αρχική αναζήτηση.

–  Αν η περιοχή αυτή είναι γνωστή επικράτεια που υπάρχει σε Β.Δ.


Πρωτεΐνικών επικρατειών (π.χ. PFAM), τότε καλύτερα να
χρησιµοποιήσουµε αυτές τις Β.Δ.

–  Κάποιες περιοχές/επικράτειες συναντώνται σε πολλές πρωτεΐνες.


•  Προσοχή στην αναζήτηση όταν υπάρχουν τέτοιες περιοχές

–  Αν ξεκινήσουµε µε άλλη οµόλογη ακολουθία επερώτησης δεν είναι σίγουρο


ότι θα φτάσουµε στο ίδιο αποτέλεσµα!

–  Προσοχή ποιές ακολουθίες συµπεριλαµβάνουµε στο PSSM. Αν εισέλθουν


λάθος ακολουθίες, το λάθος θα ανατροφοδοτείται σε κάθε κύκλο (profile
drift)
Επικράτειες (Domains)

•  Κάποιες επικράτειες
συνδυάζονται πολύ συχνά
µε άλλες, στην ίδια
πρωτεΐνη.
•  http://genome.cshlp.org/
content/18/3/449.full

Επικράτειες και αναζήτηση σε


Β.Δ.
Χρησιµοποιώντας το PSI-Blast

Χρησιµοποιώντας το PSI-Blast
Χρησιµοποιώντας το PSI-Blast

Χρησιµοποιώντας το PSI-Blast
Χρησιµοποιώντας το PSI-Blast
•  Πράσινο σφαιρίδιο για ακολουθίες που είχαν βρεθεί σε προηγούµενο
γύρο αναζήτησης.
•  Μπορούµε να επιλέξουµε τον αποκλεισµό κάποιων ακολουθιών

Χρησιµοποιώντας το PSI-Blast
Χρησιµοποιώντας το PSI-Blast
•  Αν περιλαµβάνονταν οι 2 µεθυλ-τρανσφεράσες…

Χρησιµοποιώντας το PSI-Blast
•  Αποθήκευση αποτελεσµάτων
Blast
•  Βρείτε την ακολουθία του Estrogen receptor alpha (σε
µορφή FASTA) ως:
–  mRNA από την EMBL bank (accesion number: X03635).
–  ως πρωτεΐνη από την Uniprot (accesion number: P03372).

Blast
Τα προγράµµατα του Blast θα τα βρείτε στο:

http://blast.ncbi.nlm.nih.gov/Blast.cgi

Θέλετε να βρείτε τις οµόλογες πρωτεΐνες του ανθρώπινου estrogen


receptor alpha (πρωτεΐνη) στη µύγα Drosophila melanogaster,
χρησιµοποιώντας τη ΒΔ Swissprot.

Ποιό πρόγραµµα του Blast πρέπει να χρησιµοποιήσετε;


Οι παράµετροι της αναζήτησης:
•  ΒΔ Swissprot
•  οργανισµός: Drosophila melanogaster
•  Expect threshold: 1e-5
•  Low-complexity filtering
Blast
•  Δείτε τα συντηρηµένα domains. Ποιά είναι;
•  Ποιό είναι το καλύτερο blast hit; µε ποιό score & Evalue; Τι
πρωτεΐνη είναι;
•  Για το καλύτερο blast hit, δείτε στην τοπική στοίχιση:
–  Identities
–  Positives
–  Low complexity regions

Blast
•  Βρείτε την πρωτεϊνική ακολουθία (σε µορφή FASTA) του
καλύτερου blast hit και µε αυτή κάνετε την αντίστροφη
διαδικασία.
•  Δηλαδή, blast έναντι της ΒΔ Swissprot, για τον οργανισµό Homo
sapiens, χρησιµοποιώντας ως ακολουθία επερώτησης (query
sequence) το καλύτερο Blast hit. Όλες οι προηγούµενες
παράµετροι του blast παραµένουν ίδιες.
•  Βρίσκετε ως νέο καλύτερο blast hit το estrogen receptor alpha;
Είναι ανταποδοτικό το blast; Τι σηµαίνει αυτό για τις εξελικτικές
σχέσεις µεταξύ των δύο ακολουθιών;
Blast
•  Χρησιµοποιώντας ως ακολουθία επερώτησης το mRNA του estrogen
receptor alpha από τον άνθρωπο (EMBL-bank accession: Χ03635),
βρείτε αν υπάρχουν οµόλογες νουκλεοτιδικές ακολουθίες στη Drosophila
melanogaster, χρησιµοποιώντας τη νουκλεοτιδική ΒΔ nucleotide
collection (nr/nt).
•  Ποιό πρόγραµµα του Blast πρέπει να χρησιµοποιήσετε;

•  Παράµετροι του blast που θα κάνετε:


–  νουκλεοτιδική ΒΔ nucleotide collection (nr/nt)
–  Οργανισµό Drosophila melanogaster
–  Optimize for somewhat similar sequences
–  Expect threshold 1e-5
–  Filter low-complexity regions

•  Βρέθηκαν οµόλογες νουκλεοτιδικές ακολουθίες στη Drosophila;


•  Γιατί;

Blast
•  Ποιό άλλο πρόγραµµα του Blast πρέπει να χρησιµοποιήσετε,
για να δείτε αν υπάρχουν οµόλογες πρωτεΐνες για το mRNA
σας, στη Drosophila melanogaster;
•  Παράµετροι του Blast.
–  Genetic code standard
–  Database: non-redundant protein sequences (nr)
–  Οργανισµός: Drosophila melanogaster
–  Expectation threshold 1e-5
–  Low complexity regions filtering

•  Τι βρίσκετε;
PSI-Blast
•  Χρησιµοποιώντας την πρωτεΐνη του ανθρώπινου estrogen
receptor alpha (P03372), κάνετε PSI-blast για να βρείτε όλες τις
οµόλογες πρωτεΐνες στον άνθρωπο.
•  Παράµετροι του PSI-Blast:
–  ΒΔ Swissprot
–  Homo sapiens
–  Expect threshold 1e-3
–  Low complexity region filtering
–  PSI-blast threshold 1e-3

•  Χρησιµοποιήστε όλα τα hits πρώτου κύκλου για να


δηµιουργηθεί το PSSM και συνεχίστε στον δεύτερο κύκλο
(iteration 2).
•  Βρέθηκαν καινούργιες ακολουθίες;
•  Θα ενσωµατωθούν όλες στο νέο κύκλο αναζήτησης (iteration3) ;

Πολλαπλή στοίχιση -
Φυλογένεση
4o εργαστήριο
MSA: Τι είναι
•  Στοίχιση για 3 ή περισσότερες ακολουθίες.

•  Αποκαλύπτονται οι συντηρηµένες περιοχές µεταξύ των


ακολουθιών µιας οικογένειας.

•  Χρειάζεται για:
–  Δηµιουργία profiles/motifs που χαρακτηρίζουν µια επικράτεια
(domain).
–  Ανίχνευση συντηρηµένων DNA-binding sites σε προµότορες
γονιδίων
–  Φυλογένεση.
–  Πρόβλεψη δευτεροταγούς και τριτοταγούς δοµής πρωτεϊνών.
–  Σχεδιασµό εκφυλισµένων εκκινητών PCR

MSA
MSA
•  Sum of pairs
•  Σκοπός: η µεγιστοποίηση αυτού του score

MSA
•  Πολλαπλή στοίχιση µε:
–  Δυναµικό προγραµµατισµό (dynamic programming).
–  Με ευρετικές µεθόδους (heuristics).
•  Προοδευτική στοίχιση (progressive alignment)
•  Στοίχιση µε διαδοχικές βελτιώσεις (iterative alignment)
•  Στοίχιση βασισµένη σε blocks
ClustalW (i)
•  Ολική στοίχιση (Needlman-Wunsch) κάθε
πιθανού ζεύγους
•  Πίνακας αποστάσεων (identities ή πίνακες
Blossum/PAM).
•  Μετατροπή των αποστάσεων σε εξελικτικές
αποστάσεις.
•  Δηµιουργία φυλογενετικού δένδρου -
οδηγού (guide tree) (neighbor joining).
–  Χαµηλότερης εµπιστοσύνης από ένα
κανονικό φυλογενετικό δένδρο, ωστόσο
καταδεικνύει ικανοποιητικά τις βασικές
σχέσεις

ClustalW (ii)
•  Οι 2 κοντινότερες ακολουθίες στοιχίζονται
και δηµιουργείται µια ακολουθία συναίνεσης.

•  Με βάση το δένδρο-οδηγό, η ακολουθία


συναίνεσης στοιχίζεται (δυναµικός
προγραµµατισµός) µε την επόµενη πιο
κοντινή ακολουθία ή την επόµενη πιο
κοντινή ακολουθία συναίνεσης.

•  Η διαδικασία επαναλαµβάνεται έως ότου


στοιχιθούν όλες οι ακολουθίες.
ClustalW (iii)

•  Ανάλογα µε την απόσταση 2 ακολουθιών στο δένδρο-οδηγό,


χρησιµοποιείται και ο κατάλληλος πίνακας αντικατάστασης
(Blossum62, Blossum 45) για την ολική στοίχιση κατά ζεύγη .

•  Οι ποινές των κενών προσαρµόζονται ανάλογα µε την


παρατηρούµενη συντήρηση µιας περιοχής και ανάλογα µε την
δευτεροταγή δοµή.

•  Συντελεστής βαρύτητας ανάλογα µε την εξελικτική απόσταση 2


ακολουθιών

Προβλήµατα της
προοδευτικής στοίχισης
•  Δεν ενδύκνειται για ακολουθίες µε πολύ διαφορετικά µήκη (λόγω
ολικής στοίχισης).

•  Η τελική πολλαπλή στοίχιση εξαρτάται από τη σειρά µε την


οποία θα γίνουν οι επιµέρους στοιχίσεις κατά ζεύγη.

•  Ένα αρχικό λάθος θα επηρεάσει τα υπόλοιπα στάδια της


πολλαπλής στοίχισης.
Alignment formats
•  FASTA (.fa ή .fasta ή .fst)
•  Clustal (.aln)
•  Phylip (.phy ή .phylip)
•  MSF (.msf)
•  Mase (.mase)
•  Nexus (.nxs)
•  Συνήθως, τα alignment editors µπορούν να µετατρέψουν το ένα
format σε άλλο.
•  Readseq
–  http://www.ebi.ac.uk/cgi-bin/readseq.cgi

Fasta format
Clustal format

Phylip format
•  Χρησιµοποιείται στο πρόγραµµα phylip για φυλογένεση
Seaview

•  http://pbil.univ-lyon1.fr/software/seaview.html

•  Online help
•  http://pbil.univ-lyon1.fr/software/seaview_data/seaview.html

Φυλογένεση
•  Η εκτίµηση της εξελικτικής ιστορίας γονιδίων/πρωτεϊνών ή
οργανισµών.
•  Η απεικόνιση αυτής της ιστορίας γίνεται µε φυλογράµµατα/
κλαδογράµµατα
Λίγη εξέλιξη: οµολογία
•  Οµόλογα γονίδια: κοινός εξελικτικός πρόγονος.
Χιµαιρικές πρωτεΐνες;

•  Ορθόλογα γονίδια: προέρχονται από ειδογένεση.


Ουσιαστικά, ένα γονίδιο α (µεταλλαγµένο) σε δύο
διαφορετικούς οργανισµούς. Συχνά έχουν την ίδια
λειτουργία

•  Παράλογα γονίδια: προέρχονται από γονιδιακό


διπλασιασµό. Ανήκουν στην ίδια οικογένεια

•  Ξενόλογα γονίδια: από οριζόντια µεταφορά

Λίγη εξέλιξη: οµολογία (ιι)


Στάδια φυλογενετικής ανάλυσης
•  Εντοπισµός οµόλογων ακολουθιών
–  Π.χ. Blast, HMMs
•  Πολλαπλή στοίχιση
–  Διορθώσεις στην στοίχιση
•  Υπολογισµός φυλογενετικού δένδρου

Στοιχεία ενός φυλογενετικού


δένδρου
•  Φύλλα (leafs)
•  Βραχίονες (branches)
•  Κόµβοι (nodes)
•  Κλάδοι (clades)
Δένδρα µε/χωρίς ρίζα

Μέθοδοι κατασκευής δένδρων


•  Μέθοδοι αποστάσεων
–  Ένωση γειτόνων (neighbor joining)
–  UPGMA (unweighted pair group method using arithmetic
averages)
–  Λιγότερων τετραγώνων (least squares)
–  Ελάχιστης εξέλιξης (minimum evolution)
Μέθοδοι κατασκευής δένδρων
•  Μέθοδοι βασισµένες σε χαρακτήρες (discrete methods).
–  Maximum parsimony:Απαιτεί τον ελάχιστο αριθµό αντικαταστάσεων
για την ερµηνεία των ακολουθιών
–  Maximum likelihood: Αναζητά το εξελικτικό µονοπάτι µε την µέγιστη
πιθανότητα για τα υπάρχοντα δεδοµένα

Αξιολόγηση του δένδρου


•  Bootstrap:
–  Τυχαία δειγµατοληψία θέσεων της πολλαπλής στοίχισης.
–  Μια θέση µπορεί να επιλεγεί περισσότερες από µια φορές ή και
καµία.
–  Δηµιουργία µιας νέας αλλαγµένης πολλαπλής στοίχισης
–  Η διαδικασία επαναλαµβάνεται 100-1000 φορές.
–  Για κάθε νέα πολλαπλή στοίχιση, υπολογίζεται το δένδρο.
–  Τα νέα δένδρα συγχωνεύονται σε ένα νέο δένδρο (consensus tree).
–  Boostrap -> συχνότητα εµφάνισης ενός κόµβου.
–  Bootstrap 70% -> 95% εµπιστοσύνη.
–  Αν η µεθοδολογία δηµιουργίας του δένδρου είναι λάθος, µπορεί να
πάρουµε υψηλές τιµές bootstrap για το λάθος δένδρο.
bootstrap

Άσκηση (1)
•  1) Βρείτε την πρωτεϊνική ακολουθία του human estrogen
receptor alpha (Uniprot id: P03372) σε µορφή FASTA.
•  2) Με την ακολουθία αυτή (P03372), βρείτε τις οµόλογες
πρωτεϊνικές ακολουθίες της, στη Drosophila melanogaster και
στον άνθρωπο, µε τη βοήθεια του PSI-BLAST. Κάνετε το PSI-
Blast στην ιστοσελίδα του NCBI, χρησιµοποιώντας την
Swissprot, expectation value 1e-10 και low-complexity filtering.
Επαναλάβετε τους κύκλους του PSI-blast µέχρι να συγκλίνει ο
αλγόριθµος.
•  3) Αποθηκεύεστε σε ένα αρχείο (µε όνοµα sequences.fasta) µε
µορφή FASTA τις ακολουθίες από την παραπάνω αναζήτηση.
Αποθήκευση ακολουθιών από
το Blast
•  Select all
•  Get selected sequences

Αποθήκευση ακολουθιών από


το Blast
•  Send to ->
•  File ->
•  Format: FASTA ->
•  Creat file
Seaview
•  ‘Κατεβάστε’ το seaview (MS Windows self-extractible archive) από την διεύθυνση
http://pbil.univ-lyon1.fr/software/seaview.html

•  Online help για το πρόγραµµα θα βρείτε στην διεύθυνση


http://pbil.univ-lyon1.fr/software/seaview_data/seaview.html

Άσκηση (2)
•  Από το Psi-Blast δηµιουργήθηκε ένα αρχείο (sequences.fasta) µε τις οµόλογες
ακολουθίες που βρήκατε.
•  Φορτώστε το αρχείο (sequences.fasta) στο πρόγραµµα Seaview.
–  File -> Open -> Fasta
–  Η απλά τραβήξτε το αρχείο µέσα στο seaview.
•  Αλλάξτε το όνοµα των ακολουθιών.
–  Επιλέξτε την ακολουθία -> Edit -> Rename sequence.

•  Κάνετε πολλαπλή στοίχιση των ακολουθιών µε το πρόγραµµα muscle.


–  Align -> alignment options -> muscle
–  Align -> Align all
Άσκηση (3)
Αποµακρύνετε τις περιοχές που δεν είναι συντηρηµένες
•  Για να κάνετε Editing την πολλαπλή στοίχιση:
–  Props-> allow seq. editing
–  Eπιλέξτε τις ακολουθίες που θέλετε να τροποποιήσετε (σε αυτό το παράδειγµα
επιλέξτε όλες τις ακολουθίες).
–  Τοποθετήστε τον κέρσορα µέσα στην πολλαπλή στοίχιση (σε περιοχή που θέλετε να
διαγράψετε) και χρησιµοποιήστε το πλήκτρο delete.

Δηµιουργήστε το φυλογενετικό δένδρο µε τη µέθοδο Neighbor joining & 100 Boostraps.


•  Trees -> Distance Methods -> NJ (Poisson, ignore all gap sites, bootstrap 100).
•  Στην προηγούµενη εργαστηριακή άσκηση το human estrogen receptor alpha & το Seven-up
από τη Drosophila δεν ήταν τα καλύτερα ανταποδοτικά χτυπήµατα του Blast. Μπορείτε να
καταλάβετε από το φυλογενετικό δένδρο γιατί συνέβη αυτό;

You might also like