Professional Documents
Culture Documents
ΑΜΟΥΤΖΙΑΣ ΓΡΗΓΟΡΙΟΣ
Πανεπιστήμιο Θεσσαλίας
Προτεινόµενα συγγράµµατα
• Ελληνικά συγγράµµατα:
– Andreas D. Baxevanis & B.F. Francis Quellette. Βιοπληροφορική: Ένας
πρακτικός οδηγός για την ανάλυση γονιδίων και πρωτεΐνών.
– Σοφία Κοσσίδα. Βιοπληροφορική - Δυνατότητες & Προοπτικές.
• Αγγλικά συγγράµµατα:
– Jin Xiong. Essential Bioinformatics. (Σύντοµο, περιεκτικό και απλά
γραµµένο σύγγραµα).
– David W. Mount. Bioinformatics. Sequence and genome analysis.
(Εκτενές και πολύ αναλυτικό σύγγραµα)
Βιοπληροφορική
Εισαγωγή
Εισαγωγή
Βιοπληροφορική: τι είναι
• Η ανάπτυξη και χρήση τεχνικών και εργαλείων πληροφορικής/µαθηµατικών/
στατιστικής για την ανάλυση βιολογικών δεδοµένων (κυρίως µοριακής βιολογίας)
• Συχνά συµβαίνουν και τα δύο ταυτόχρονα και τα σύνορα δεν είναι πάντα
ευδιάκριτα
• Οντολογίες (Ontologies)
Η χρήση ενός ελεγχόµενου λεξιλογίου (µε ιεραρχική δόµηση), για την περιγραφή των
ιδιοτήτων και των λειτουργιών οµοειδών αντικειµένων (π.χ πρωτεϊνών).
Εισαγωγή
Ιστορική αναδροµή
• 1965: Η πρώτη έκδοση του Atlas of protein sequence and structure (Margaret
Dayhoff), πρόδροµος της βάσης δεδοµένων πρωτεϊνικών ακολουθιών PIR
(protein information resource).
– Ακολουθούν και άλλες βάσεις δεδοµένων. 1986: Swissprot, Geneva
Παρόν/µέλλον
• Μέχρι το 2000, Βιοπληροφορική σήµαινε κυρίως ανάλυση ακολουθιών.
Εφαρµογές
Προέλευση -
Επιδηµιολογία
Έλεγχος εξελικτικών υποθέσεων
Από που προήλθε ο ιός HIV;
Πρωτοεµφανίστηκε
µυστηριωδώς στις αρχές
της δεκαετίας του 1980.
Ξέσπασαν ταραχές.
Ανίχνευση οργανισµών
-
Μεταγενωµική
Μεταγενωµική
• Παράλληλη ανίχνευση όλων των οργανισµών (µικροβιακών) που απαρτίζουν την υπό
µελέτη οικολογική κοινότητα.
Metagenomics
• Environmental Protection Agency (EPA)
• The Clean Water Act: Fecal Source Identification.
• Απόσπασµα από Microbial Source tracking guide Document (Ιούνιος 2005).
• “The Clean Water Act establishes that the states must adopt water quality standards that are compatible with pollution
control programs to reduce pollutant discharges into waterways. In many cases the standards have been met by the
significant reduction of loads from point sources under the National Pollutant Discharge Elimination System
(NPDES). Point sources are defined as “any discernable, confined and discrete convey- ance, including but not limited
to any pipe, ditch or concentrated animal feeding operation from which pollutants are or may be discharged”.
However, more than 30 years after the Clean Water Act was implemented, a significant fraction of the U.S. rivers,
lakes, and estuaries continue to be classified as failing to meet their designated uses due to the high levels of fecal
bacteria (USEPA, 2000b). As a consequence, protection from fecal microbial
contamination is one of the most important and difficult challenges facing
environmental scientists trying to safeguard waters used for:
– recreation (primary and secondary contact),
– public water supplies,
– propagation of fish and shellfish.
• Fecally contaminated waters not only harbor pathogens and pose potential high risks to human
health, but they also result in significant economic loss due to closure of shellfish harvesting areas
and recreational beaches.”
Phylochip
• Affymetrix
• Μικροσυστοιχία που βασίζεται στον υβριδισµό κοµµατιών
DNA (από το περιβαλλοντικό δείγµα-µίγµα) πάνω σε
καθηλωµένα (στο chip) probes.
– Probes βασίζονται σε RNA γονίδια.
• RNA γονίδια αποτελούνται από βαθιά συντηρηµένες και
από λίγο συντηρηµένες περιοχές. Στον σχεδιασµό του
chip, επιλέγουµε την περιοχή ανάλογα µε το βαθµό
διαχωρισµού που επιθυµούµε
– Βαθιά συντηρηµένες περιοχές για διαχωρισµό
µεταξύ εξελικτικά αποµακρυσµένων οργανισµών.
– Υψηλά µεταβλητές περιοχές για διαχωρισµό µεταξύ
εξελικτικά κοντινών συγγενικών οργανισµών (π.χ.
Στελέχη ενός µικροβίου)
Phylochip
Fig. 1. Applied multiple probe
concept. 16S rRNA-based
phylogenetic consensus tree
of all recognized sulfate-
reducing bacteria of the
orders "Desulfobacterales"
and "Syntrophobacterales"
showing examplarily the
hierarchical and parallel
specificity of oligonucleotide
probes.
Phylochip
In vitro
διαγνωστικά τεστ
που βασίζονται σε
µικροσυστοιχίες
FDA: In Vitro Diagnostic Multivariate
Index Assays (IVDMIAs)
• FDA’s In Vitro Diagnostic Product Database
• http://www.accessdata.fda.gov/scripts/cdrh/cfdocs/cfivd/index.cfm
• http://www.ivdtechnology.com/article/exploring-fda-approved-ivdmias
• Some IVDMIAs are laboratory-developed tests (LDTs). LDTs are tests that are
developed by a single clinical laboratory for use only in that laboratory.
• http://www.fda.gov/MedicalDevices/DeviceRegulationandGuidance/
GuidanceDocuments/ucm079148.htm
• IVDMIAs raise significant issues of safety and effectiveness. These types of tests are
developed based on observed correlations between multivariate data and clinical
outcome, such that the clinical validity of the claims is not transparent to patients,
laboratorians, and clinicians who order these tests. Additionally, IVDMIAs frequently
have a high risk intended use. FDA is concerned that patients are relying upon
IVDMIAs with high risk intended uses to make critical healthcare decisions when FDA
has not ensured that the IVDMIA has been clinically validated and the healthcare
practitioners are unable to clinically validate the test themselves. Therefore, there is a
need for FDA to regulate these devices to ensure that the IVDMIA is safe and
effective for its intended use.
Hierarchical cluster analysis showed a close association in gene expressional responses between aroclor 1254 and 3-
methylcholanthrene.
Environmental Protection
Agency (EPA)
• http://www.epa.gov/osa/spc/pdfs/genomics.pdf
• Genomics methodologies are expected to provide valuable insights for evaluating how
environmental stressors affect cellular/tissue functions and bow changes in gene expression may
relate to adverse effects.
• However, the relationships between changes in gene expression and adverse effects are unclear at
this time and may likely be difficult to elucidate.
• Nonetheless, EPA believes that some of these changes may prove to be predictive of subsequent
adverse effects. Changes in gene expression can be informative when a weight-of-evidence approach
for human and ecological health assessments is performed, particularly when used to explore the
possible link between exposure. mechanism(s) of action, and adverse effects. In addition, genomics
information may be useful to EPA in setting priorities, in ranking of chemicals for further testing, and
in supporting possible regulatory actions. While genomics data may be considered in decision-
making at this time, these data alone are insufficient as a basis for decisions. For assessment
purposes, EPA will consider genomics information on a case-by-case basis. Before such
information can be accepted and used, agency review will be needed to determine adequacy
regarding the quality, representativeness, and reproducibility of the data.
Βάσεις Δεδοµένων
Βάσεις Δεδοµένων
Κύρια είδη:
Βάσεις Δεδοµένων
Ετήσιος κατάλογος ΒΔ
• Κάθε Ιανουάριο στο Nucleic
Acids Research (Special
database issue)
• 2010: 58 νέες και 73
ανανεωµένες
• Σύνολο: 1230
• 5% ετήσια ανάπτυξη
• Επίσης υπάρχει το
περιοδικό Database: the
journal of biological
databases and curation
Κατάλογος
µε ΒΔ:
Pathguide
• http://www.pathguide.org/
Bionumbers
Βάσεις Δεδοµένων
• Η ακολουθία κατατίθεται σε µία από τις ΒΔ, η οποία έχει και τη δυνατότητα να
την αναθεωρήσει (µόνο αυτή, για αποτροπή ‘συγκρούσεων’)
Βάσεις Δεδοµένων
Πάνω από 100 Δις βάσεις στο INSDC. Σύντοµα αναµένεται πληθώρα προσωπικών γενωµάτων.
Βάσεις Δεδοµένων
Βάσεις Δεδοµένων
Βάσεις Δεδοµένων
Swissprot (ι)
Βάσεις Δεδοµένων
Swissprot (ι)
Βάσεις Δεδοµένων
Swissprot (ιι)
Βάσεις Δεδοµένων
Swissprot (ιιι)
Βάσεις Δεδοµένων
Swissprot-statistics
Βάσεις Δεδοµένων
ΒΔ γονιδιακής έκφρασης
ΒΔ πρωτεοµικής
Βάσεις Δεδοµένων
ΒΔ τρισδιάστατων δοµών
• Μέθοδοι
– X-ray (~59000)
– NMR (~8500)
– Κρύο-ηλεκτρονική µικροσκοπία
(~300)
• Οι παραπάνω µέθοδοι βρίσκουν τις
συντεταγµένες (3D) των ατόµων του
βιολογικού µορίου.
• Τα αρχεία µε τις συντεταγµένες
διαβάζονται από ειδικά προγράµµατα
(π.χ Rasmol) που απεικονίζουν την
δοµή στο χώρο
Βάσεις Δεδοµένων
Βάσεις Δεδοµένων
Pubmed
• ΒΔ του NCBI. Ξεκίνησε τον Ιανουάριο του 1996.
• Καταχωρεί όλες τις δηµοσιευµένες εργασίες που προέρχονται από τον ευρύτερο
χώρο της βιοϊατρικής
• ~20 εκατοµύρια εργασίες καταχωρηµένες (Ιούλιος 2010)
• Όταν µια εργασία γίνεται δεκτή από το περιοδικό, κατατίθεται και στην Pubmed
• H Pubmed δίνει ένα µοναδικό κωδικό εγγραφής (PMID) και λέξεις κλειδιά που
χαρακτηρίζουν το περιεχόµενο της εργασίας (MeSH terms).
• Από το 2007, το NIH απαιτεί όποιες ερευνητικές εργασίες έχουν χρηµατοδοτηθεί
από αυτό, τα αποτελέσµατά τους να γίνονται προσβάσιµα σε όλους, µέσω του
Pubmed Central (εντός 12 µηνών από την ηµεροµηνία δηµοσίευσης). (~ 1
εκατοµύριο εργασίες)
Βάσεις Δεδοµένων
Pubmed
Βάσεις Δεδοµένων
Pubmed
Βάσεις Δεδοµένων
Pubmed
Βάσεις Δεδοµένων
ΒΔ πρωτεϊνικών επικρατειών
• Πρωτεϊνική επικράτεια: Μια περιοχή της πρωτεΐνης µε συγκεκριµένη λειτουργία/
δοµή και καλά συντηρηµένη.
• Διάφορες βάσεις δεδοµένων, όπως:
– PROSITE
– Pfam
– PRINTS
– ProDom
– SMART
– TIGRFAMs
– PIR superfamily
– Superfamily
• Έχουν ενσωµατωθεί στο INTERPRO
• Το INTERPRO περιέχει πρωτεϊνικές επικράτειες. Το πρόγραµµα
INTERPROscan ανιχνεύει αυτές τις επικράτειες στις πρωτεΐνες.
Βάσεις Δεδοµένων
INTERPRO
Βάσεις Δεδοµένων
NCBI/Entrez
Βάσεις Δεδοµένων
ΕΒΙ
Βάσεις Δεδοµένων
Βάσεις Δεδοµένων
Πρωτεϊνικές αλληλεπιδράσεις
Βάσεις Δεδοµένων
Πρωτεϊνικές αλληλεπιδράσεις
Βάσεις Δεδοµένων
Μεταβολικά µονοπάτια
Βάσεις Δεδοµένων
KEGG pathways
• Kyoto encyclopedia of genes and genomes
• 2010: 374 µεταβολικά µονοπάτια
Βάσεις Δεδοµένων
KEGG pathways
Βάσεις Δεδοµένων
– Συνώνυµες (synonymous)
– Μη-συνώνυµες (non-synonymous)
• Αµινοξέα µε παρόµοιες φυσικοχηµικές ιδιότητες
• Αµινοξέα µε διαφορετικές φυσικοχηµικές ιδιότητες
– Κωδικόνια τερµατισµού
Στοίχιση κατά ζεύγη
Μεταπτώσεις-µεταστροφές
• Μεταπτώσεις (Transitions)
– Δηµιουργούνται µε
µεγαλύτερη συχνότητα
– Συνήθως οδηγούν σε
συνώνυµες µεταλλάξεις
– Eίναι πιο συχνές στα
SNPs
Κατηγοριοποίηση αµινοξέων
Στοίχιση κατά ζεύγη
Γλοβίνες
• πολύ συντηρηµένη τριτοταγής δοµή, λίγο συντηρηµένη
πρωτοταγής δοµή (~10-20% οµοιότητα)
Στοίχιση κατά ζεύγη
Στιγµοπίνακες (dotplots)
• Εισήχθησαν από τους Gibbs & McIntyre το 1970.
• Χρησιµοποιούνται για σύγκριση 2 ακολουθιών (π.χ.
Πρωτεϊνών ή DNA).
• Αποκαλύπτουν
– Προσθήκες - Εξαλείψεις
– Ευθείες ή ανεστραµµένες επαναλήψεις (π.χ χρήσιµοι για
RNA)
– Περιοχές χαµηλής πολυπλοκότητας
– Αναστροφές
Στιγµοπίνακες
Στιγµοπίνακες - Θόρυβος
Στιγµοπίνακες -
Απαλοιφή Θορύβου µε συρόµενα παράθυρα
Στοίχιση κατά ζεύγη
Στιγµοπίνακες
Στιγµοπίνακες
• Απαλοιφή
θορύβου µε
συρόµενα
παράθυρα
• Ο Mount προτείνει:
– Για DNA:
παράθυρο 15
χαρακτήρων µε
τουλάχιστον 10
αντιστοιχίσεις
– Για πρωτεΐνες:
παράθυρο 2-3
χαρακτήρων µε
τουλάχιστον 2
αντιστοιχίσεις
Στοίχιση κατά ζεύγη
Στιγµοπίνακες
insertion - deletions
Στιγµοπίνακες
• Insertions/deletions (indels)
Στοίχιση κατά ζεύγη
Στιγµοπίνακες - Αναστροφές
Στιγµοπίνακες
Επαναλήψεις
Στοίχιση κατά ζεύγη
Στιγµοπίνακες
• Επαναλήψεις
Στιγµοπίνακες
Επαναλήψεις
Περιοχές χαµηλής
πολυπλοκότητας
Στοίχιση κατά ζεύγη
Στιγµοπίνακες
• Επαναλήψεις - Περιοχές χαµηλής πολυπλοκότητας
Στιγµοπίνακες
Ανεστραµµένες Επαναλήψεις
Στοίχιση κατά ζεύγη
Στιγµοπίνακες
• Ανεστραµµένες επαναλήψεις
Στιγµοπίνακες
• Αν συγκρίνουµε 2 πρωτεΐνες που έχουν αποκλίνει αρκετά, αντί να
ελέγξουµε για ακριβές ταίριασµα των αµινοξέων, µπορούµε να
ελέγξουµε για ταίριασµα αµινοξέων µε παρόµοιες φυσικοχηµικές
ιδιότητες.
• Χρησιµοποιούµε πίνακες αντικατάστασης (π.χ. PAM, Blosum)
• Για το συρόµενο παράθυρο υπολογίζεται ένα σκορ µε βάση τους
χρησιµοποιούµενους πίνακες αντικατάστασης.
Στοίχιση κατά ζεύγη
Δυναµικός προγραµµατισµός
• Δίνει την βέλτιστη στοίχιση (Μαθηµατικά αποδεδειγµένο).
Δυναµικός προγραµµατισµός
• Το βαθµολογικό σύστηµα πρέπει:
– Να δίνει βαθµούς για κάθε θέση που οι χαρακτήρες
ταιριάζουν απόλυτα
– Να δίνει βαθµούς (λιγότερους) για κάθε θέση που οι
χαρακτήρες έχουν παρόµοιες ιδιότητες
– Να µην δίνει βαθµούς για µια θέση που οι χαρακτήρες είναι
τελείως διαφορετικοί
– Να βάζει ποινή για κάθε κενό που εισάγεται
– Να βάζει ποινή (µικρότερη) για κάθε κενό που επεκτείνεται
Στοίχιση κατά ζεύγη
Δυναµικός προγραµµατισµός
Το βαθµολογικό σύστηµα
Πρέπει να βρούµε όλες τις δυνατές πορείες από κάτω-δεξιά -> πάνω-αριστερά.
Εδώ: 3 πιθανές πορείες = 3 εξίσου καλές λύσεις
Πώς στοιχίζουµε
Για κάθε θέση:
• Αν κινηθούµε διαγώνια, τότε στοιχίζουµε τα 2 νουκλεοτίδια/
αµινοξέα που αντιστοιχούν για εκείνη την θέση (είτε ταιριάζουν
είτε όχι).
• Αν κινηθούµε οριζόντια ή κάθετα βάζουµε κενό στην ακολουθία
που δείχνει το βέλος
Πώς στοιχίζουµε
Πώς στοιχίζουµε
Πώς στοιχίζουµε
Πώς στοιχίζουµε
Πώς στοιχίζουµε
Πώς στοιχίζουµε
Δυναµικός προγραµµατισµός
τοπική στοίχιση
• Ενδείκνυται για
– µακροµόρια διαφορετικού µεγέθους
– Συντηρηµένη µόνο µια µικρή περιοχή
– Στοίχιση ώριµου mRNA µε το γονίδιό του
– 2 γονίδια µε συντηρηµένα εξόνια αλλά
αποκλείνοντα ιντρόνια
Δυναµικός προγραµµατισµός
τοπική στοίχιση
• Αλγόριθµος παρόµοιος µε ολική στοίχιση
• Διαφορές:
– Οι ασυµφωνίες δίνουν αρνητική βαθµολογία.
– Όταν µια τιµή του πίνακα βγαίνει αρνητική, µηδενίζεται.
παράδειγµα (iv)
Πίνακες αντικατάστασης
• Στο παράδειγµα του Δυναµικού Προγραµµατισµού, όλες οι
συµφωνίες/ασυµφωνίες είχαν το ίδιο σκορ.
Πίνακες αντικατάστασης
• Για πρωτεΐνες:
– Πίνακες PAM
– Πίνακες BLOSUM
Λογαριθµικές πιθανότητες
• Πρώτη χρήση από Dayhoff για πίνακες αντικατάστασης που
χρησιµοποιούνται στη βαθµολόγιση στοιχίσεων.
Συχνότητα αµινοξέων
από Swissprot
Στοίχιση κατά ζεύγη
Πίνακες PAM
• Dayhoff et al., 1978
• Ζεύγη αµινοξέων µε
παρόµοιες ιδιότητες έχουν
θετικές τιµές log-odds
Πίνακες BLOSUM
• BLOcks SUbstitution Matrix
Πίνακες αντικατάστασης
νουκλεοτιδίων
• Μοντέλο Jukes-Cantor: Ενιαίοι ρυθµοί µετάλλαξης
Βαθµολόγιση Κενών
• Γραµµική ποινή για τα κενά (affine gap penalty)
– Μια πολύ υψηλή τιµή για την εισαγωγή ενός κενού και
χαµηλότερη τιµή για την επέκταση του κενού
Στατιστική σηµαντικότητα
ολικής στοίχισης (i)
• Δεν µπορούµε να γνωρίζουµε την κατανοµή τυχαίων
τιµών µιας ολικής στοίχισης τυχαία επιλεγµένων (µη
οµόλογων) ακολουθιών.
Στατιστική σηµαντικότητα
ολικής στοίχισης (ii)
Στατιστική σηµαντικότητα
τοπικής στοίχισης (i)
• Για τοπικές στοιχίσεις χωρίς κενά:
– αναλυτική µαθηµατική θεωρία
κατανοµής τυχαίων βαθµολογιών.
– Κατανοµή ακραίων τιµών (Extreme
value distribution - Gumbel).
Στατιστική σηµαντικότητα
τοπικής στοίχισης (ii)
Κατανοµή ακραίων τιµών Gumbel
– Οι παράµετροι της κατανοµής πρέπει να προσαρµοστούν:
• στο σύστηµα βαθµολόγισης
• Στα µήκη των δύο ακολουθιών
• στις συχνότητες υποβάθρου των νουκλεοτιδίων/
αµινοξέων
Στατιστική σηµαντικότητα
τοπικής στοίχισης (iii)
• Για µια δεδοµένη τοπική στοίχιση (χωρίς κενά) δύο ακολουθιών µε
score S, πόσες τυχαίες στοιχίσεις θα µπορούσαν να δώσουν το ίδιο
score ή καλύτερο;
• E = Kmne-λS (E-value)
• m,n µήκη των ακολουθιών
• S score στοίχισης
• Κ, λ εξαρτώνται από τη συχνότητα νουκλεοτιδίων/αµινοξέων και το
σύστηµα βαθµολόγισης.
Στατιστική σηµαντικότητα
τοπικής στοίχισης (iv)
• Το raw score µιας τοπικής στοίχισης εξαρτάται από το
βαθµολογικό σύστηµα που χρησιµοποιήθηκε.
• 1 ακολουθία Χ Β.Δ
• Ν ακολουθίες Χ Β.Δ
Αλγόριθµος FASTA
• Ktuples: λέξεις µήκους κ που ταιριάζουν απόλυτα µεταξύ των
ακολουθιών.
• Για πρωτεΐνες:
– Ktup 1-2. (20 αµινοξέα)
• Για DNA:
– Ktup 4-6. (µόνο 4 νουκλεοτίδια)
Αλγόριθµος FASTA: εν
συντοµία
• Ο αλγόριθµος ψάχνει γρήγορα για µικρές περιοχές µε µεγάλη
οµοιότητα.
Αλγόριθµος FASTA
Αλγόριθµος FASTA
Στοίχιση κατά ζεύγη
Αλγόριθµος BLAST
http://www.ncbi.nlm.nih.gov/bookshelf/br.fcgi?book=comgen&part=blast
• Πρωτεΐνες: w=3
• E-value
– Default: 10 (για να µη χαθούν οµόλογες ακολουθίες)
– Συνήθως E-value < 1e-3 (για να αποµείνουν οµόλογες ακολουθίες
υψηλής εµπιστοσύνης)
Αλγόριθµος BLAST
• PQG
• 20 X 20 X 20 = 8.000 words
• PQG X 8.000 words
• PQG X PEG = 7 + 2 + 6=15
• Όριο τιµής Τ
Στοίχιση κατά ζεύγη
Αλγόριθµος BLAST
• Tandem repeats:
KTPKTPKTPKTPKTP
• Interspersed repeats:
KTPAKTPKTPKTP
• Φιλτράρεται η ακολουθία
επερώτησης µόνο.
Blast
Blast
Blast
Blast
Blast
Blastn / MegaBlast
• Blastn
– Νουκλεοτίδια
Χ νουκλεοτίδια
– Για στοίχιση
tRNA, rRNA,
mRNA,
γενωµικό DNA
Blast
MegaBlast
• MegaBlast
– 10Χ ταχύτερο από Blastn
– Για στοίχιση ακολουθιών που διαφέρουν πολύ λίγο µεταξύ τους
– Κυρίως για στοίχιση mRNA µε ολόκληρο το γενωµικό DNA
Blast
Blastn
Παράδειγµα: Έλεγχος εξειδίκευσης ζεύγους εκκινητών (primers)
Blast
Blastn
Παράδειγµα: Eντοπισµός SNPs σε ακολουθίες του ιού HIV-1 για
ανθεκτικότητα σε φάρµακα
Blast
Blastp
• Πρωτεΐνη Χ πρωτεΐνες
• Παράδειγµα:
– Πρόβλεψη λειτουργίας µιας άγνωστης πρωτεΐνης.
– Εντοπισµός ορθόλογης πρωτεΐνης σε άλλα είδη.
– Εντοπισµός όλων των µελών της πρωτεϊνικής οικογένειας
στο ίδιο ή σε άλλα είδη
Blast
Translated Blast
• Η νουκλεοτιδική ακολουθία ενός γονιδίου εµφανίζεται λιγότερο
συντηρηµένη από την αµινοξική ακολουθία της πρωτεΐνης του.
Blast
tblastn
tblastn
• Χρήση
– Η Β.Δ. περιέχει νουκλεοτιδικές ακολουθίες µε άγνωστη λειτουργία
(συλλογή ESTs ή αµορφοποίητα δεδοµένα από την αλληλούχιση
ενός γενώµατος) ενός οργανισµού Α και θέλουµε να εντοπίσουµε
µια πρωτεΐνη µε συγκεκριµµένη λειτουργία στον οργανισµό Α. Ως
ακολουθία επερώτησης χρησιµοποιούµε την πρωτεΐνη που είναι
γνωστή στον οργανισµό Β.
Blast
Blastx
• Νουκλεοτιδική ακολουθία επερώτησης (query) που µεταφράζεται στα 6
αναγνωστικά πλαίσια και συγκρίνεται µε Β.Δ. πρωτεϊνικών ακολουθιών.
Blast
Blastx
• Παράδειγµα: εντοπισµός µετάλλαξης που αλλάζει το αναγνωστικό πλαίσιο.
– Στο παράδειγµα, υπάρχει αλλαγή αναγνωστικού πλαισίου (frame +2 -> frame
+1) στη θέση 268 της πρωτεΐνης επερώτησης
Blast
tblastx
• Νουκλεοτιδική ακολουθία
επερώτησης (query) που
µεταφράζεται στα 6
αναγνωστικά πλαίσια και
συγκρίνεται µε Β.Δ.
νουκλεοτιδικών ακολουθιών
µεταφρασµένων και στα 6
αναγνωστικά πλαίσια.
• 6X6 blastp
Blast
tblastx
• Αναζήτηση (διαειδική) για άγνωστα µέχρι σήµερα γονίδια.
Blast
Γ
PSI-Blast
PSI-Blast
PSI-Blast: τι είναι
PSI-Blast: τι είναι
• Σε µια ακολουθία οι διάφορες θέσεις δεν είναι το ίδιο συντηρηµένες/ευέλικτες
λόγω δοµικών/λειτουργικών περιορισµών.
• Π.χ. Σε µια ακολουθία Α, στην θέση 123 (ενεργό κέντρο ενζύµου) βλέπουµε ένα
µόνο αµινοξύ.
• Σε µια πολλαπλή στοίχιση της Α µε οµόλογες ακολουθίες βλέπουµε για την ίδια
θέση (123) ποιά άλλα αµινοξέα επιτρέπονται και σε τί συχνότητες.
PSI-Blast
PSSM
• Αρχικά γίνεται πολλαπλή στοίχιση των ακολουθιών
PSSM
• Γίνεται καταµέτρηση των συχνοτήτων των χαρακτήρων για την
κάθε θέση.
PSI-Blast
PSSM
• Ακολουθεί µια σειρά µετασχηµατισµών
– Συντελεστής βαρύτητας της κάθε ακολουθίας µε βάση την οµοιότητά της
µε άλλες.
– Pseudocounts
– Λαµβάνεται υπόψην η συχνότητα υποβάθρου του κάθε χαρακτήρα
• Υπολογισµός των odds (παρατηρούµενη συχνότητα / συχνότητα
υποβάθρου).
– Log-odds
– Δηµιουργία PSSM.
PSI-Blast
PSI-Blast
PSI-Blast
PSI-Blast
PSI-Blast
PSI-Blast
• Πριν κάνουµε PSI-Blast πρέπει να ξέρουµε τι αναζητάµε!!!
PSI-Blast
Επικράτειες (Domains)
• Κάποιες επικράτειες
συνδυάζονται πολύ συχνά
µε άλλες, στην ίδια
πρωτεΐνη.
• http://genome.cshlp.org/
content/18/3/449.full
PSI-Blast
Ανταποδοτικό Blast
(Best reciprocal blast hit)
Ανταποδοτικό Blast
Ανταποδοτικό Blast
Ανταποδοτικό Blast
Ανταποδοτικό Blast
Ανταποδοτικό Blast
Ανταποδοτικό Blast
• Γονιδιακή σύντηξη
Χρησιµοποιώντας το Blast
Το Blast στην πράξη
Με φίλτρο
Με φίλτρο
Χρησιµοποιώντας το PSI-Blast
(viii)
• Αποθήκευση αποτελεσµάτων
Πολλαπλή στοίχιση
multiple sequence alignment
(MSA)
MSA
MSA: Τι είναι
• Στοίχιση για 3 ή περισσότερες ακολουθίες.
• Χρειάζεται για:
– Δηµιουργία profiles/motifs που χαρακτηρίζουν µια επικράτεια
(domain).
– Ανίχνευση συντηρηµένων DNA-binding sites σε προµότορες
γονιδίων
– Φυλογένεση.
– Πρόβλεψη δευτεροταγούς και τριτοταγούς δοµής πρωτεϊνών.
– Σχεδιασµό εκφυλισµένων εκκινητών PCR
MSA
MSA
MSA
MSA
• Sum of pairs
• Σκοπός: η µεγιστοποίηση αυτού του score
MSA
MSA
• Πολλαπλή στοίχιση µε:
– Δυναµικό προγραµµατισµό (dynamic programming).
– Με ευρετικές µεθόδους (heuristics).
• Προοδευτική στοίχιση (progressive alignment)
• Στοίχιση µε διαδοχικές βελτιώσεις (iterative alignment)
• Στοίχιση βασισµένη σε blocks
MSA
MSA - δυναµικός
προγραµµατισµός (DP)
• Για στοίχιση 2 ακολουθιών δηµιουργείται ένας πίνακας 2
διαστάσεων.
• Για στοίχιση 3 ακολουθιών δηµιουργείται πίνακας 3 διαστάσεων.
• Για στοίχιση Ν ακολουθιών δηµιουργείται πίνακας Ν
διαστάσεων.
• Το υπολογιστικό κόστος αυξάνεται εκθετικά, για κάθε ακολουθία
που πρέπει να ενταχθεί στην πολλαπλή στοίχιση.
• Πρακτικά, DP µπορεί να γίνει για λίγες µόνο ακολουθίες, µικρού
µήκους.
MSA
MSA-ευρετικές µέθοδοι
• Προοδευτική στοίχιση (progressive)
– ClustalW
• Επαναλαµβανόµενη στοίχιση (Iterative)
• Block-based
MSA
ClustalW (i)
• Ολική στοίχιση (Needlman-Wunsch) κάθε
πιθανού ζεύγους
• Πίνακας αποστάσεων (identities ή πίνακες
Blossum/PAM).
• Μετατροπή των αποστάσεων σε εξελικτικές
αποστάσεις.
• Δηµιουργία φυλογενετικού δένδρου -
οδηγού (guide tree) (neighbor joining).
– Χαµηλότερης εµπιστοσύνης από ένα
κανονικό φυλογενετικό δένδρο, ωστόσο
καταδεικνύει ικανοποιητικά τις βασικές
σχέσεις
MSA
ClustalW (ii)
• Οι 2 κοντινότερες ακολουθίες στοιχίζονται
και δηµιουργείται µια ακολουθία συναίνεσης.
MSA
ClustalW (iii)
Προβλήµατα της
προοδευτικής στοίχισης
• Δεν ενδείκνυται για ακολουθίες µε πολύ διαφορετικά µήκη (λόγω
ολικής στοίχισης).
MSA
T-coffee
• Προοδευτική στοίχιση.
• Όταν στοιχίζει ένα ζεύγος ακολουθιών, δεν κάνει µόνο ολική
στοίχιση, αλλά και τοπικές στοιχίσεις (δηµιουργείται µια
βιβλιοθήκη στοιχίσεων).
• Υπολογίζεται ένα σκορ συµφωνίας (consistency score) από τις
επιµέρους στοιχίσεις (ολική και τοπικές).
• Σε σχέση µε το Clustal:
– Πολύ καλύτερης ποιότητας πολλαπλές στοιχίσεις.
– Πολύ πιο αργός υπολογισµός.
MSA
Muscle
Προοδευτική στοίχιση.
l
οδηγού (UPGMA)
l Kmer
Κυκλική λογική
l
στοίχιση-> βελτιωµένο
δένδρο -> βελτιωµένη
στοίχιση
MSA
Επαναλαµβανόµενη
πολλαπλή στοίχιση (iterative)
• Αρχικά δηµιουργείται µια
πολλαπλή στοίχιση
χαµηλής ποιότητας.
• Η πολλαπλή στοίχιση
βελτιώνεται σε
επαναλαµβανόµενα
στάδια.
• Ευρετική µέθοδος.
• Δεν επηρεάζεται από
αρχικά λάθη.
• Προγράµµατα:
– PRRN
MSA
Block-based
• Ενδείκνυται για πολλαπλή στοίχιση ακολουθιών που έχουν
αποκλείνει αρκετά και έχει αποµείνει συντηρηµένη µια µικρή
περιοχή τους.
• Dialign
MSA
Χειροκίνητη τροποποίηση/βελτίωση
πολλαπλής στοίχισης
• Τα προγράµµατα δεν παράγουν την βέλτιστη στοίχιση.
• Βελτίωση της στοίχισης χειροκίνητα
• alignment editors
– Seaview
– Bioedit
MSA
Alignment formats
• FASTA (.fa ή .fasta ή .fst)
• Clustal (.aln)
• Phylip (.phy ή .phylip)
• MSF (.msf)
• Mase (.mase)
• Nexus (.nxs)
• Συνήθως, τα alignment editors µπορούν να µετατρέψουν το ένα
format σε άλλο.
• Readseq
– http://www.ebi.ac.uk/cgi-bin/readseq.cgi
MSA
Fasta format
MSA
Clustal format
MSA
Phylip format
• Χρησιµοποιείται στο πρόγραµµα phylip για φυλογένεση
MSA
Πολλαπλή στοίχιση
ακολουθιών & profiles
• Ακολουθίες Χ ακολουθίες
• Ακολουθίες Χ profile
• Profile X profile
MSA
MSA
PSSMs
PSSMs
• Κανονικοποίηση του
πίνακα συχνοτήτων.
MSA
PSSM
• Τιµή log-odd 1 για ένα χαρακτήρα Α στην θέση 1:
– 21=2: Στην οικογένεια που µελετάµε, η συχνότητα του χαρακτήρα Α στην
θέση 1 είναι 2 φορές µεγαλύτερη από την συχνότητα υποβάθρου.
–
MSA
PSSM
• Χρησιµοποιείται για
– Αναζήτηση µακρινών οµόλογων σε βάση δεδοµένων.
– Να υπολογίσουµε πόσο καλά ταιριάζει µια ακολουθία στην
οικογένεια.
– Στοίχιση µε ακολουθίες
MSA
PSSM
• Πόσο καλά ταιριάζει η ακολουθία
AACTCG στον πίνακα θέσης;
• 2 6.33 = 80
PSSM
• Στην πράξη, όταν υπολογίζουµε τις συχνότητες των
χαρακτήρων χρησιµοποιούµε συντελεστή βαρύτητας που
εξαρτάται από το πόσο όµοιες είναι οι ακολουθίες.
– Χαµηλός συντελεστής για πολύ όµοιες ακολουθίες.
– Υψηλός συντελεστής για αποµακρυσµένες ακολουθίες.
MSA
Profile
Είναι PSSM που περιλαµβάνει και κενά.
MSA
MSA
HMMs
• Χρησιµοποιούνται για:
– Αναζήτηση οµόλογων ακολουθιών σε Β.Δ.
– Πολλαπλή στοίχιση ακολουθιών.
– Κατηγοριοποίηση σε οικογένειες γονιδίων/πρωτεϊνών.
– Πρόβλεψη γονιδίων (όρια εξονίων/ιντρονίων)
– Πρόβλεψη διαµεµβρανικών περιοχών πρωτεϊνών.
MSA
Profile HMMs
• Στοίχιση του µοντέλου µε την ακολουθία µέσω του αλγόριθµου Viterbi (σαν το
δυναµικό προγραµµατισµό)
MSA
HMMs
• Regular expression
MSA
HMMs
MSA
HMMs
MSA
HMMs
• Null model: Θεωρεί ότι µια ακολουθία είναι τυχαία.
• Αν θεωρήσουµε ότι και τα 4 νουκλεοτίδια εµφανίζονται µε την ίδια
συχνότητα (0.25), τότε η πιθανότητα µιας τυχαίας ακολουθίας µήκους L
είναι 0.25L.
MSA
HMMs
MSA
HMMs
• Overfitting: όταν οι συχνότητες χαρακτήρων
υπολογίζονται από ένα µικρό αριθµό
ακολουθιών, οι παρατηρούµενες συχνότητες
είναι στρεβλωµένες.
MSA
PFAM
• Β.Δ. HMMs για domains (11912).
– PFAM-A: πολλαπλές στοιχίσεις γνωστών domains που
ελέγχθηκαν από ειδικούς
– PFAM-B: βασίζεται σε συντηρηµένες περιοχές πρωτεϊνών
που εντοπίστηκαν µε αυτόµατες µεθόδους και δεν
γνωρίζουµε τη λειτουργία τους
PFAM
MSA
PFAM
• Domain architectures
• trees
MSA
Motif - Domain
• Motifs:
– µικρές και συντηρηµένες περιοχές που επιτελούν µια
συγκεκριµµένη λειτουργία.
• Domains:
– Συντηρηµένες περιοχές, µεγαλύτερες από motifs, συνήθως ώς
αυτόνοµες λειτουργικές και δοµικές µονάδες.
– 40αα> domain >700aa
– µέσο µήκος ~100αα
MSA
Regular expressions
Regular expression
• Σχετικά άκαµπτη µέθοδος.
• Λιγότερο ευαίσθητη από ένα στατιστικό µοντέλο.
• Exact matching:
– Πολλά ψευδώς αρνητικά αποτελέσµατα.
• Fuzzy matching:
– Επιτρέπει αµινοξέα µε παρόµοιες φυσικοχηµικές
ιδιότητες, ακόµα και αν δεν παρατηρήθηκαν στην
πολλαπλή στοίχιση.
– Αυξάνεται ο θόρυβος (ψευδώς θετικά).
MSA
• Emotif:
– Πολλαπλές στοιχίσεις από τις ΒΔ BLOCKS & PRINTS.
– Μεγαλύτερη συλλογή πολλαπλών στοιχίσεων από την PROSITE.
– Fuzzy matching.
MSA
Στατιστικά µοντέλα
• PSSM (position specific scoring matrices).
• Profiles.
• HMMs (hidden markov models).
ΒΔ πολλαπλών στοιχίσεων
motifs/domains
• PRINTS:
– Fingerprints: περιοχές της πολλαπλής στοίχισης, βαθειά
συντηρηµένες και χωρίς κενά.
– PSSMs (δίχως συντελεστή βαρύτητας) για τα fingerprints.
– Ένα motif αποτελείται από >1 fingerprints (δεν υπάρχει
αλληλεπικάλυψη).
– Το motif θεωρείται υπάρχων σε µια πρωτεΐνη όταν η
πλειοψηφία των fingerprints που το απαρτίζουν έχει
ανιχνευθεί.
– Ορισµός των fingerprints & motifs γίνεται από
βιοεπιστήµονες/βιοπληροφορικούς.
– Σχετικά µικρός αριθµός motifs στη ΒΔ.
MSA
ΒΔ πολλαπλών στοιχίσεων
motifs/domains
• BLOCKS:
– Αυτοµατοποιηµένη πολλαπλή στοίχιση πρωτεϊνικών οικογενειών,
όπου χρησιµοποιούνται οι πιο συντηρηµένες περιοχές, δίχως κενά
(blocks).
– Για κάθε block δηµιουργείται PSSM (µε συντελεστή βαρύτητας) και
εφαρµόζονται pseudocounts.
– Οι πίνακες αντικατάστασης BLOSSUM υπολογίζονται από τη ΒΔ
BLOCKS.
MSA
ΒΔ πολλαπλών στοιχίσεων
motifs/domains
• ProDom:
– Δηµιουργεί domains εφαρµόζοντας PSI-Blast σε ακολουθίες
από την SWISSPROT & TrEMBL.
– Η λειτουργία των domains µπορεί να είναι άγνωστη.
MSA
ΒΔ πολλαπλών στοιχίσεων
motifs/domains
• SMART:
– Profile HMMs που δηµιουργήθηκαν από πολλαπλές
στοιχίσεις, ελεγµένες από ειδικούς.
– Οι στοιχίσεις είτε βασίζονται σε τρισδιάστατες δοµές είτε σε
profiles που δηµιουργεί το PSI-Blast.
– Και οι στοιχίσεις και ο σχολιασµός των profile HMMs γίνεται
από ειδικούς.
– Συµπληρωµατικότητα µε την PFAM.
MSA
ΒΔ πολλαπλών στοιχίσεων
motifs/domains
• INTERPRO:
– Λόγω ανοµοιογένειας στις µεθοδολογίες και στις ακολουθίες που
χρησιµοποιούνται, υπάρχει µερική αλληλοεπικάλυψη αλλά και
συµπληρωµατικότητα µεταξύ των επιµέρους ΒΔ motifs/domains.
– H INTERPRO ενσωµατώνει αλληλοεπικαλυπτόµενα motifs/
domains που βρίσκονται ταυτόχρονα και στις 5 παρακάτω ΒΔ:
• PROSITE
• PFAM
• PRINTS
• ProDOM
• SMART
MSA
ΒΔ πολλαπλών στοιχίσεων
motifs/domains
• Reverse-Blast (RPS-Blast):
– Συλλογή profiles που δηµιουργήθηκαν από PSI-Blast.
• CDART:
– Τµήµα του BLAST.
– ενσωµατώνει τις
• RPS-Blast
• PFAM
• SMART
MSA
Φυλογένεση
Φυλογένεση
Φυλογένεση
• Η εκτίµηση της εξελικτικής ιστορίας γονιδίων/πρωτεϊνών ή
οργανισµών.
• Η απεικόνιση αυτής της ιστορίας γίνεται µε φυλογράµµατα/
κλαδογράµµατα
Φυλογένεση
Φυλογένεση
Φυλογένεση
Φυλογένεση
Φυλογένεση
Κλαδόγραµµα/φυλόγραµµα
Φυλογένεση
Newick format
• Δένδρα αποθηκεύονται σε µορφή Newick ή Nexus (παραλλαγή του
Newick).
Φυλογένεση
Newick format
(((C,B),D),(A,E));
Είναι το ίδιο δένδρο;
Φυλογένεση
Newick format
Ποιό είναι το δένδρο;
(((A:1,B:2):1,C:2):1,D:4);
Φυλογένεση
Newick format
(((A:1,B:2):1,C:2):1,D:4);
distanceAC=1+1+2
Φυλογένεση
Φυλογένεση γονιδίων/
πρωτεϊνών
• Φυλογένεση γονιδίων ή πρωτεΐνών.
– Δείχνει την εξελικτική πορεία µιας οικογένειας γονιδίων.
– Κάθε κόµβος (node) στο δένδρο είναι ένας γονιδιακός
διπλασιασµός ή ειδογένεση.
– Το κάθε γονίδιο/πρωτεΐνη µπορεί να έχει διαφορετική
εξελικτική πορεία (π.χ. Οριζόντια µεταφορά) ή ρυθµό
εξέλιξης από τα υπόλοιπα γονίδια ενός οργανισµού.
– Άρα, η εξελικτική πορεία ενός µόνο γονιδίου/πρωτεΐνης
ενδέχεται να µην αντανακλά την εξελικτική πορεία ενός
οργανισµού
Φυλογένεση
Φυλογένεση οργανισµών
• Δείχνει την εξελικτική πορεία µιας οµάδας οργανισµών.
• Οι κόµβοι (nodes) στο δένδρο απεικονίζουν γεγονότα
ειδογένεσης.
• H φυλογένεση µπορεί να γίνει από:
– µια σειρά φαινοτυπικών χαρακτήρων
– Ένα γονίδιο µοριακό δείκτη (π.χ. 16S rRNA)
– Μια σειρά γονιδίων
Φυλογένεση οργανισµών
• Επιλέγουµε/βρίσκουµε το ορθόλογο γονίδιο-δείκτη στους
οργανισµούς που µελετάµε και ακολουθεί φυλογένεση
• Το ποντίκι και ο αρουραίος είχαν λιγότερο χρόνο να εξελιχθούν ξεχωριστά, από ότι ο άνθρωπος σε σχέση
µε το ποντίκι ή σε σχέση µε τον αρουραίο. Οι µεταλλάξεις που συσσωρεύτηκαν σε κάθε ορθόλογη
ακολουθία πρέπει να είναι ανάλογες του χρόνου απόκλισης των οργανισµών.
• Αν υποθέσουµε ότι ο ρυθµός µετάλλαξης είναι 1/1.000.000 χρόνια, πόσες µεταλλάξεις έχουν συσσωρευθεί
σε κάθε ακολουθία, σε σχέση µε τον κοινό πρόγονο;
Φυλογένεση
Βαθύτερη ρίζα: 35 mya (µε mtRNA) 600 mya (µε πυρηνικό rRNA)
Φυλογένεση
Φυλογένεση οργανισµών
Φυλογένεση
Φυλογένεση χορδωτών
Φυλογένεση
Φυλογένεση σπονδυλωτών
Φυλογένεση
Ταξινόμιση οργανισμών
• Ιεραρχική
κατηγοριοποίηση/ομαδοποίηση
οργανισμών.
• Linnaeus (1707-1778) ομαδοποίησε
οργανισμούς με βάση κοινούς
χαρακτήρες.
• Αργότερα, η ταξινόμιση
προσαρμόστηκε στην εξελικτική
θεωρία του Δαρβίνου, ώστε να
ομαδοποιούνται οι οργανισμοί με
βάση την κοινή τους προέλευση.
NCBI taxonomy
Φυλογένεση
Φυλογένεση
Timetree
Timetree
Φυλογένεση
Φυλογένεση
Φυλογένεση
Μοριακά ρολόγια
• Inferred pairwise nucleotide substitutions among 17 mammal species from seven gene
products, as estimated from protein studies, plotted against date of divergence, as
estimated from the fossil record. The line is drawn from the origin through the oldest
comparison (the marsupial / placental divergence at 125 MYBP). The strong linear
relationship suggests that molecular differences between pairs of species are
proportional to the time of their separation, rather than the degree of organismal
difference. Therefore, measures of genetic divergence can be used to date the time of
divergence for species pairs for which no fossil data are available: genes function as
Molecular Clocks. (from A. C. Wilson 1976).
Φυλογένεση
Μοριακά ρολόγια
• Υποθέτουν ένα σταθερό ρυθμό μεταλλάξεων για μια εξελικτική γραμμή.
• Χρονολογημένα απολιθώματα επιτρέπουν την ‘ζυγοστάθμιση’
(calibration) του μοριακού ρολογιού.
• Ρυθμός εξέλιξης διαφέρει μεταξύ γονιδίων
• Στην πραγματικότητα, ο ρυθμός εξέλιξης μπορεί να μεταβάλλεται
(επιβράδυνση ή επιτάχυνση) κατά τη διάρκεια εξέλιξης ενός κλάδου
Φυλογένεση
Γεωλογικές
περίοδοι
Φυλογένεση
Φυλογένεση
Προβλήματα με τα
απολιθώματα
• Χρονολογημένα απολιθώματα υποτιμούν τον χρόνο εμφάνισης
μιας εξελικτικής γραμμής:
– Όταν συνέβη η απολίθωση, ο κοινός πρόγονος ήταν ήδη παρόν για
κάποιο χρονικό διάστημα.
– Ο κοινός πρόγονος χρειάστηκε κάποιο χρόνο από την στιγμή της
εμφάνισης του μέχρι να εξαπλωθεί γεωγραφικά και να βρίσκεται σε
αφθονία, ώστε ένα τυχαίο γεγονός να οδηγήσει στην απολίθωση
κάποιων ατόμων.
– Τα απολιθώματα αποτελούν το κατώτατο χρονικό όριο εμφάνισης
μιας εξελικτικής γραμμής
Φυλογένεση
Φυλογένεση
Φυλογένεση γονιδίων
Βρίσκουμε τις ομόλογες ακολουθίες στους οργανισμούς που μας ενδιαφέρουν και ακολουθεί
φυλογένεση, για να καταλάβουμε πότε συνέβησαν οι γονιδιακοί διπλασιασμοί, και ποιά
ομόλογα είναι πιο κοντινά μεταξύ τους.
Πρέπει να γνωρίζουμε τις εξελικτικές σχέσεις των οργανισμών
Φυλογένεση
Φυλογένεση γονιδίων
• Απώλεια αντίγραφου
Φυλογένεση γονιδίων
Φυλογένεση
Φυλογένεση
Δένδρα συναίνεσης
• Μια μέθοδος μπορεί να οδηγήσει σε περισσότερα από ένα
εξίσου καλά δένδρα.
• Ή, από τα ίδια δεδομένα, δημιουργούνται δένδρα με
διαφορετικές μεθόδους.
• Το δένδρο συναίνεσης δείχνει ποιοί κόμβοι είναι κοινοί μεταξύ
των διαφόρων δένδρων.
• Για κόμβους που δεν παρατηρείται συμφωνία, εμφανίζονται ως
πολυτομημένοι.
• Μέθοδοι δημιουργίας δένδρου συναίνεσης:
– απόλυτη συναίνεση (strict consensus) (100%)
– Μέθοδος πλειοψηφίας (majority rule) (>50%)
Φυλογένεση
Δένδρα συναίνεσης
• Το παράδειγμα της φυλογενετικής σχέσης ανθρώπου-χιμπατζή-
γορίλα
Φυλογένεση
Μέθοδοι Φυλογένεσης
• Μέθοδοι που βασίζονται σε αποστάσεις
– UPGMA
– Κοντινότερης γειτονίας (Neighbor joining)
– Fitch-Margoliash
– Ελάχιστης εξέλιξης
Μέθοδοι αποστάσεων
• Αρχικά υπολογίζονται οι αποστάσεις ανάµεσα σε όλα τα πιθανά ζεύγη
ακολουθιών.
• Δηµιουργείται ένας πίνακας αποστάσεων.
• Με βάση τον πίνακα αυτό, δηµιουργούνται δένδρα µε µεθόδους που
βασίζονται:
– Στην οµαδοποίηση. Η οµαδοποίηση ξεκινάει από τις πιο κοντινές
ακολουθίες και σταδιακά ενσωµατώνει όλο και πιο
αποµακρυσµένες:
• UPGMA
• Neighbor joining
– Στην βελτιστοποίηση. Ο αλγόριθµος συγκρίνει τις πιθανές
τοπολογίες και επιλέγει αυτή που οι αποστάσεις πάνω στο δένδρο
ταιριάζουν καλύτερα µε τις αποστάσεις στον αρχικό πίνακα
αποστάσεων:
• Fitch-Margoliash
• Ελάχιστη εξέλιξη
Φυλογένεση
Φυλογένεση
Μοντέλα αντικατάστασης
• Στατιστικά µοντέλα που λαµβάνουν υπόψην τις πολλαπλές
αντικαταστάσεις (για την ίδια θέση) και διορθώνουν την
παρατηρούµενη απόσταση, µετατρέποντας την σε εξελικτική.
• Αν η απόσταση είναι πολύ µεγάλη, τότε έχει επέλθει κορεσµός
και δεν είναι δυνατόν να γίνει σωστή διόρθωση.
Φυλογένεση
Μοντέλο αντικατάστασης
Jukes - Cantor
• Είναι το απλούστερο µοντέλο για ακολουθίες DNA.
• κάθε νουκλεοτίδιο εµφανίζεται µε την ίδια συχνότητα
• έχει την ίδια πιθανότητα να µεταλλαχθεί σε ένα από τα
υπόλοιπα 3 νουκλεοτίδια
Φυλογένεση
Μοντέλο αντικατάστασης
Kimura
• Πιο εξελιγµένο µοντέλο.
• κάθε νουκλεοτίδιο εµφανίζεται µε την ίδια συχνότητα
• Θεωρεί ότι οι µεταπτώσεις έχουν άλλη πιθανότητα να συµβούν, από ότι
οι µεταστροφές.
Φυλογένεση
Μοντέλο αντικατάστασης
Kimura
Φυλογένεση
Φυλογένεση
Φυλογένεση
UPGMA
UPGMA
Φυλογένεση
UPGMA
Φυλογένεση
UPGMA
Φυλογένεση
Μέθοδοι βελτιστοποίησης
• Οι µέθοδοι που βασίζονται σε οµαδοποίηση παράγουν ένα
δένδρο.
• Δεν γνωρίζουµε πόσο καλύτερο είναι αυτό το δένδρο από άλλα
εναλλακτικά δένδρα.
• Οι µέθοδοι βελτιστοποίησης ελέγχουν τα διάφορα πιθανά
δένδρα και βρίσκουν αυτό που ταιριάζει καλύτερα στον αρχικό
πίνακα αποστάσεων.
Φυλογένεση
Φυλογένεση
Fitch-Margoliash
• Διερευνά για το κάθε πιθανό δένδρο ποιές είναι οι αποστάσεις µε βάσει
αυτό και στην συνέχεια επιλέγει το δένδρο που η υπολογισµένες του
αποστάσεις αποκλίνουν το λιγότερο δυνατό από τον αρχικό πίνακα
αποστάσεων.
Φυλογένεση
Ελάχιστη εξέλιξη
• Παρόµοιο µε το Fitch-Margoliash.
• Διερευνά τα πιθανά δένδρα.
• Επιλέγει το δένδρο που το συνολικό µήκος των βραχιόνων του
είναι το ελάχιστο δυνατό, για τα υπάρχοντα δεδοµένα
αποστάσεων.
• Η µέθοδος αυτή είναι λίγο καλύτερη από την Fitch-Margoliash.
Φυλογένεση
Φυλογένεση
Μέγιστη φειδωλότητα
(Maximum Parsimony)
Μέγιστη φειδωλότητα
(Maximum Parsimony)
• Δεν χρησιµοποιεί όλες τις θέσεις µια πολλαπλής στοίχισης, άλλα µόνο
εκείνες που έχουν αρκετή πληροφορία για να επιτραπεί ο διαχωρισµός/
οµαδοποίηση των ακολουθιών.
• Τέτοιες θέσεις πρέπει να έχουν τουλάχιστον 2 ειδών διαφορετικούς
χαρακτήρες και ο κάθε ένας από αυτούς να υπάρχει τουλάχιστον σε 2
ακολουθίες.
Φυλογένεση
Μέγιστη φειδωλότητα
(Maximum Parsimony)
• Για την κάθε πιθανή τοπολογία δένδρου, υπολογίζεται πόσα συνολικά
εξελικτικά βήµατα / αντικαταστάσεις χρειάζονται (στο σύνολο των θέσεων
που χρησιµοποιούνται).
• Επιλέγεται το δένδρο µε τα λιγότερα εξελικτικά βήµατα.
• Συχνά, υπάρχουν περισσότερες από µια βέλτιστες λύσεις/δένδρα, γιατί δεν
γνωρίζουµε ποιοί ήταν πραγµατικά οι χαρακτήρες στις προγονικές
ακολουθίες. Τότε δηµιουργείται ένα δένδρο συναίνεσης από τα εξίσου
βέλτιστα δένδρα.
Φυλογένεση
Αναζητώντας το καλύτερο
δένδρο
• Όταν ο αριθµός των taxa είναι µικρός, τότε µπορούν να
υπολογιστούν όλα τα δυνατά δένδρα (brute force).
• Όταν 10< taxa <20, τότε εφαρµόζεται το branch and bound.
• Όταν taxa > 20, εφαρµόζονται ευρετικές µέθοδοι.
Φυλογένεση
Αναζητώντας το καλύτερο
δένδρο
Φυλογένεση
Αναζητώντας το καλύτερο
δένδρο
• Branch and bound.
• Δηµιουργείται το δένδρο µε UPGMA ή neighbor joining.
• Υπολογίζονται τα εξελικτικά βήµατα για αυτό το δένδρο.
• Ο αριθµός αυτός αποτελεί την ‘οροφή’. Ένα δένδρο µέγιστης
φειδωλότητας θα πρέπει να έχει τον ίδιο αριθµό βηµάτων ή και
µικρότερο.
• Καθώς χτίζεται σταδιακά το δένδρο φειδωλότητας, αν σε κάποιο στάδιο
κάποιες επιλογές καταλήγουν σε βήµατα που ξεπερνούν την οροφή,
τότε απορρίπτεται το συγκεκριµµένο µονοπάτι
Φυλογένεση
Αναζητώντας το καλύτερο
δένδρο
Φυλογένεση
Αναζητώντας το καλύτερο
• Ευρετικές µέθοδοι:
δένδρο
– Δηµιουργείται ένα δένδρο µε neighbor joining και υπολογίζονται
τα εξελικτικά βήµατα για το συγκεκριµµένο δένδρο.
– Δοκιµάζονται τροποποιήσεις πάνω στο δένδρο αυτό. Αν βρεθεί
ένα τροποποιηµένο δένδρο µε µικρότερο αριθµό εξελικτικών
βηµάτων, τότε επιλέγεται αυτό και οι τροποποιήσεις γίνονται
πάνω του, έως ότου βρεθεί ένα ακόµα καλύτερο δένδρο. Η
διαδικασία συνεχίζεται έως ότου να µην βρίσκεται καλύτερο
δένδρο.
Φυλογένεση
Αναζητώντας το καλύτερο
δένδρο
Φυλογένεση
Μέγιστη φειδωλότητα
(Maximum Parsimony)
• Δεν διορθώνει για πολλαπλές αντικαταστάσεις πάνω στην ίδια
θέση, άρα είναι προβηµατική όταν µελετάµε αποµακρυσµένες
ακολουθίες.
• Δεν χρησιµοποιεί όλες τις θέσεις µιας πολλαπλής στοίχισης.
• Η λύση επηρεάζεται από τον αλγόριθµο αναζήτησης του
καλύτερου δένδρου.
• Είναι επιρρεπής στην έλξη µεταξύ µακρινών βραχιόνων (long
branch attraction).
Φυλογένεση
Μέγιστη πιθανοφάνεια
• Βασίζεται σε χαρακτήρες.
• Χρησιµοποιεί όλες τις θέσεις µια πολλαπλής στοίχισης.
• Χρησιµοποιεί πιθανότητες και µοντέλα αντικατάστασης.
• Υπολογίζονται οι χαρακτήρες σε κάθε προγονική ακολουθία.
• Υπολογίζει για το κάθε πιθανό εξελικτικό µονοπάτι (προγονικές
ακολουθίες και δένδρο) την πιθανότητα του, µε βάση τα
παρατηρούµενα σηµερινά δεδοµένα και ένα συγκεκριµµένο µοντέλο
εξέλιξης (µοντέλο αντικατάστασης).
• Οι πιθανότητες µετατρέπονται σε log-likelihood scores.
• Δένδρο µε το µεγαλύτερο log-likelihood score επιλέγεται.
Φυλογένεση
Μέγιστη πιθανοφάνεια
Φυλογένεση
Φυλογένεση
bootstrap
Φυλογένεση
Jacknife
Φυλογένεση
Οι τεχνολογίες
Κυριότερες τεχνολογίες
• Sanger
• 454 pyrosequencing
• Solid
• Illumina
Shotgun sequencing
• http://www.nature.com/nature/journal/v470/n7333/pdf/nature09796.pdf
• A decade’s perspective on DNA sequencing technology
• Elaine R. Mardis
Sequencing technologies
• Illumina:
– χαμηλότερη ακρίβεια στην αναγνώριση βάσεων
• Solid:
– πολλά reads δεν ταιριάζουν πουθενά στο γονιδίωμα!
• Roche 454 pyrosequencing
– λάθη στον αριθμό των βάσεων εντός μιας περιοχής ομοπολυμερών
(π.χ. AAAAAAAAAAAAAAAAA)
• Sanger:
– χρειάζεται σχετικά μεγάλες ποσότητες DNA
Reads
• Sanger: μήκος: 1000-2000 bp
• 454: 450Mbp/run - μήκος: ~330bp
• Illumina: 18-35 Gbp/run - μήκος: ~75-100bp
• SOLID: 30-50 Gbp/run - μήκος: 50bp
Illumina
http://www.youtube.com/watch?v=77r5p8IBwJk&feature=related
http://www.ncbi.nlm.nih.gov/pubmed/19997069
http://www.ncbi.nlm.nih.gov/pubmed/19997069
http://www.ncbi.nlm.nih.gov/pubmed/19997069
Ion Proton
http://www.lifetechnologies.com/global/en/home/about-us/news-gallery/press-releases/2012/life-techologies-itroduces-the-bechtop-io-proto.html
Ion Proton
http://www.youtube.com/watch?v=yVf2295JqUg
http://www.youtube.com/iontorrent
http://www.nanoporetech.com/technology/minion-a-
miniaturised-sensing-instrument
Biological Nanopore
(Στο εγγύς µέλλον;)
http://www.nanoporetech.com/technology/introduction-to-nanopore-sensing/introduction-to-nanopore-sensing
Solid state (Graphene) Nanopore
(Στο εγγύς µέλλον;)
http://www.nanoporetech.com/technology/introduction-to-nanopore-sensing/solid-state-
nanopores
Pacific Biosciences
http://www.ncbi.nlm.nih.gov/pubmed/21612267
http://www.youtube.com/watch?v=NHCJ8PtYCFc
http://www.youtube.com/watch?v=GX6RSKh4J7E
SMRT techonology – real time single molecule sequencing
Pacific Biosciences
http://omicsmaps.com/
Χαµηλό κόστος γενωµικών τεχνολογιών θα οδηγήσει
σε καθηµερινές εφαρµογές
• Κόστος αλληλούχισης
– http://www.genome.gov/sequencingcosts/
• Ο νόµος του Moore προβλέπει διπλασιασµό της υπολογιστικής ισχύς
κάθε δύο χρόνια.
http://genomebiology.com/content/pdf/gb-2011-12-8-125.pdf
Συναρµολόγιση Γονιδιωµάτων
Με Βιοπληροφορική
Shotgun sequencing
Sequencing
• Single end reads
• Paired end reads
Χαμηλής ποιότητας
δεδομένα.
Lander - Waterman
• Στην πράξη, ο αριθμός των contigs
είναι μεγαλύτερος από το
αναμενόμενο, γιατί:
• Πάντα υπάρχει μια πιθανότητα για
μια περιοχή να μην αλληλουχιθεί
• Κάποια κομμάτια σπασμένου DNA
είναι τοξικά σε φορείς
κλωνοποίησης (π.χ. στην E.coli).
• Επαναλήψεις
Προβλήµατα συναρµολόγισης
από επαναλήψεις - contigs
Προβλήµατα συναρµολόγισης
από επαναλήψεις - scaffolds
Reference
alignment
• Οι επαναλήψεις μπορεί να
εμποδίσουν την πλήρη
θεωρητικό συναρμολόγιση του
γονιδιώματος
Κενά µετά την συναρµολόγιση
• Το επιλεγμένο μήκος
του sequence read
καθορίζει αν θα
μπορέσει να
συναρμολογηθεί μια
επανάληψη
Κάλυψη αλληλούχισης
100Χ για 6
οργανισμούς
Κενά µετά την συναρµολόγιση
36nt reads
Τα κενά δεν
εξαρτώνται μόνο
από το βάθος
κάλυψης
αλληλούχισης και το
125nt reads
μήκος των sequence
reads, αλλά και από
τον ίδιο οργανισμό
500nt reads
• De novo assembly
– Greedy extention
– OLC
– De Bruijn graph
– Hybrid
Greedy assemblers
Overlap - layout - consensus
(OLC)
Γραφήµατα De Bruijn
De bruijn graph
Comparative assembly
BAC-by-BAC sequencing
Μόνο στοίχιση των Sequence Reads που έχουν µια µοναδική θέση
Εφαρµογές
Προέλευση -
Επιδηµιολογία
Σύγκριση γονιδιωµάτων - ACT
BLASTN comparison of part of three sequences: Escherichia coli K12, Salmonella Typhi CT18
and Salmonella Typhimurium LT2 (from top to bottom).
Οι ανθρώπινοι εντερότυποι
http://www.nature.com/nature/journal/v473/n7346/full/nature09944.html
Οι ανθρώπινοι εντερότυποι
• Χρησιμοποιήθηκαν 22 μεταγενώματα κοπράνων, μαζί με
προηγούμενα δημοσιευμένα δεδομένα (13+2+2), σύνολο 39.
• Δείγματα από 4 κράτη (Δανία, Γαλλία, Ιταλία, Ισπανία).
• Από προηγούμενες έρευνες, δείγματα από Ιαπωνία, Αμερική
Πολυπλοκότητα των
οργανισµών και παράδοξο της
τιµής Ν.
Προφάγοι στο γονιδίωµα
Λειτ. Γονιδιωματική
Transcriptomics
• Expressed sequence tags (ESTs)
• Serial analysis of gene expression (SAGE)
• Μικροσυστοιχίες (microarrays)
• RNA-seq (whole transcriptome shotgun sequencing)
Μικροσυστοιχίες
RNA-SEQ
Reference assembly/alignment
Επανάληψη 1 Μοναδική περιοχή 1 Επανάληψη 2 Μοναδική περιοχή 2 Επανάληψη 3
Μόνο στοίχιση των Sequence Reads που έχουν µια µοναδική θέση
Reference assembly
Log2
• Αν το γονίδιο εκφράζεται περισσότερο στην Α συνθήκη (κόκκινη χρωστική)
από ότι στην control (πράσινη χρωστική), τότε ο λόγος συνθήκη_Α/control
(κόκκινη/πράσινη) θα είναι λ>1, αλλιώς σε αντίθετη περίπτωση 0<λ<1.
• Αν το γονίδιο εκφράζεται µε διπλάσια ένταση στην συνθήκη Α, σε σχέση µε
την συνθήκη control, τότε ο λόγος θα είναι λ=2.
• Αν το γονίδιο εκφράζεται µε τη µισή ένταση στην συνθήκη Α, σε σχέση µε
την συνθήκη control, τότε ο λόγος θα είναι λ=0.5.
• Μετατρέποντας τους λόγους σε log2, έχουµε:
– λ=2 -> log2λ=1
– λ=0.5 -> log2λ=-1
– Με την κανονικοποίηση σε log2 τα δεδοµένα γίνονται συµµετρικά.
Κανονικοποίηση κλίμακας
Scale normaliza:on
Data a=er Median Centering and Scale
Normalizing
Υπερ/υπο-έκφραση
• Πότε θεωρούµε ότι ένα γονίδιο υπερ/υπό-εκφράζεται σε µια
συγκεκριµµένη συνθήκη.
– Log2λ > 1 ή Log2λ < -1 (διπλάσια/υποδιπλάσια έκφραση σε σχέση µε τη
συνθήκη control).
– Με στατιστικές µεθόδους (t-test, ANOVA).
Volcano Plot
Οµαδοποίηση γονιδίων/συνθηκών
µε την ίδια συµπεριφορά.
• Χρειαζόµαστε αρκετά σηµεία (διαφορετικές συνθήκες ή χρονικές
στιγµές)
• Με µεθόδους αποστάσεων, όπου οι µετρήσεις ενός γονιδίου για
διαφορετικές συνθήκες αποτελούν ένα διάνυσµα.
• Υπολογίζουµε αποστάσεις µεταξύ διαφορετικών διανυσµάτων
(γονιδίων).
– Ευκλείδια απόσταση
– Συντελεστής συσχέτισης Pearson (Pearson correlation
coefficient).
– Δηµιουργείται πίνακας αποστάσεων µεταξύ των γονιδίων.
Gene1 Gene2 Gene3 Gene4 Gene5 Gene6 Gene7 Gene8 Gene9 Gene10 Gene11 Gene12 Gene13 Gene14 Gene15 Gene16 Gene17 Gene18 Gene19 Gene20
Gene1
Gene2
Gene3
Gene4
Gene5
Gene6
Gene7
Gene8
Gene9
Gene10
Gene11
Gene12
Gene13
Gene14
Gene15
Gene16
Gene17
Gene18
Gene19
Gene20
Condi:on1 Condi:on2
Gene1 1 -3
Gene2 -7 -2
Gene3 2 1
Gene4 10 10
Gene5 -2 9
Gene6 -6 6
Gene7 2 1
Gene8 -3 -8
Gene9 -10 0
Gene10 -2 4
Gene11 -2 -2
Gene12 -6 -10
Gene13 2 -8
Gene14 -7 -9
Gene15 -6 4
Gene16 -5 2
Gene17 8 -2
Gene18 2 9
Gene19 -3 -1
Gene20 10 -4
UPGMA
Φυλογένεση
UPGMA
Φυλογένεση
UPGMA
Οµαδοποίηση
Οντολογίες
• www.geneontology.org
• Περιγράφουν:
– Μοριακές λειτουργίες του βιοµορίου (1 ή περισσότερες).
– Βιολογικές διαδικασίες στις οποίες εµπλέκεται το βιοµόριο (1 ή
περισσότερες).
– Κυτταρικό διαµέρισµα στο οποίο συναντάται το βιοµόριο (1 ή
περισσότερα).
Gene ontology
Οντολογίες: Η δοµή τους
• Δείχνει τις σχέσεις µεταξύ
των διαφορετικών όρων.
• Είναι κατευθυνόµενα
ακυκλικά γραφήµατα
(DAG).
• Παρόµοια µε ιεραρχίες.
Gene ontology
Gene ontology
Gene ontology
Οντολογίες: στατιστική ανάλυση
• Παράδειγµα:
– 1 γονιδίωµα µε 10.000 γονίδια.
– 1.000 γονίδια εµπλέκονται στον κυτταρικό κύκλο (GO_term: cell-cycle).
(10% του γονιδιώµατος).
Οντολογίες:
στατιστική ανάλυση
• Η στατιστική ανάλυση γίνεται µε το υπεργεωµετρικό τεστ.
• Παίρνουµε ένα p-value.
• Αν p-value < 0.05, τότε είναι στατιστικά σηµαντικό.
• http://www.ivdtechnology.com/article/exploring-fda-approved-ivdmias
• Some IVDMIAs are laboratory-developed tests (LDTs). LDTs are tests that are
developed by a single clinical laboratory for use only in that laboratory.
• http://www.fda.gov/MedicalDevices/DeviceRegulationandGuidance/
GuidanceDocuments/ucm079148.htm
• IVDMIAs raise significant issues of safety and effectiveness. These types of tests are
developed based on observed correlations between multivariate data and clinical
outcome, such that the clinical validity of the claims is not transparent to patients,
laboratorians, and clinicians who order these tests. Additionally, IVDMIAs frequently
have a high risk intended use. FDA is concerned that patients are relying upon
IVDMIAs with high risk intended uses to make critical healthcare decisions when FDA
has not ensured that the IVDMIA has been clinically validated and the healthcare
practitioners are unable to clinically validate the test themselves. Therefore, there is a
need for FDA to regulate these devices to ensure that the IVDMIA is safe and
effective for its intended use.
Mammaprint - Tissue of origin
• http://www.ivdtechnology.com/article/exploring-fda-approved-ivdmias
• MammaPrint.
The first IVDMIA, the MammaPrint system, made by Agendia Inc., is a
qualitative IVD test service performed in a single lab outside the United States
using a 70-gene expression profile of fresh frozen breast cancer tissue samples
to assess a breast cancer patientユs risk for distant metastasis. FDA approved
MammaPrint in February 2007 under de novo classification procedures.
• Tissue of Origin Test
In July 2008, the Tissue of Origin Test, made by Pathwork Diagnostics, was
cleared. This microarray RNA profiling test is to be used on clinical, formalin-
fixed, paraffin-embedded (FFPE) biopsy tissue to aid in the classification of the
origin of the tumor tissue. In June 2010 a second clearance introduced a
different specimen and specimen-preparation method, and the algorithm for
analysis of the expression data to create a diagnostics report and interpretation.
The test uses microarray technology by Affymetrix Inc. and advanced analytics
to measure the gene-expression patterns of challenging tumors, including
metastatic, poorly differentiated, and undifferentiated cancer. It is intended to
measure the degree of similarity between the RNA expression patterns in a
patient’s tumor tissue with the RNA expression patterns in a database of fifteen
known tumor types.
Mammaprint
Καρκίνοι αγνώστου προελεύσεως
IVDMIA - FDA
• http://www.fda.gov/NewsEvents/Newsroom/PressAnnouncements/2007/
ucm108836.htm
• The MammaPrint is the first cleared in vitro diagnostic multivariate index
assay (IVDMIA) device.
• http://www.fda.gov/NewsEvents/Newsroom/PressAnnouncements/2008/
ucm116931.htm
• FDA Clears Test that Helps Identify Type of Cancer in Tumor Sample
• The Pathwork Tissue of Origin test compares the genetic material of a
patient's tumor with genetic information on malignant tumor types stored in
a database.It uses a microarray technology to analyze thousands of pieces
of genetic material at one time. The test considers 15 common malignant
tumor types, including bladder, breast, and colorectal tumors.
Βιοπληροφορική
Βάσεις Δεδοµένων
1ο εργαστήριο
Γρηγόρης Αµούτζιας
Βάσεις Δεδοµένων
Κύρια είδη:
• Σύνολο: 1230
• 5% ετήσια ανάπτυξη
http://www.oxfordjournals.org/nar/database/a/
http://www.oxfordjournals.org/nar/database/c/
• Η ακολουθία κατατίθεται σε µία απο τις ΒΔ, η οποία έχει και την δυνατότητα να
την αναθεωρήσει (µόνο αυτή, για αποτροπή ‘συγκρούσεων’)
• UniMes: για µεταγενωµικά δεδοµένα, όπου δεν γνωρίζουµε από ποιά είδη
προέρχονται οι ακολουθίες.
Swissprot (ι)
– Από την εγγραφή του προηγούµενου παραδείγµατος, ακολουθήστε τον
σύνδεσµο (link) προς την Β.Δ. UniprotKB/Swissprot, µε κωδικό εγγραφής
P03372
Swissprot (ι)
– Δείτε
• το όνοµα και τα συνώνυµα της ακολουθίας
• Την ταξινόµιση του οργανισµού. Η ταξινόµιση µπορεί επίσεις να
βρεθεί και στην ιστοσελίδα του NCBI taxonomy
http://www.ncbi.nlm.nih.gov/
• Λειτουργίες της πρωτεΐνης (και στο τµήµα των Ontologies)
• Την ακολουθία σε FASTA format
• Ακολουθείστε το σύνδεσµο (Hs.208124) προς την Β.Δ. Unigene και
από εκεί δείτε το προφίλ γονιδιακής έκφρασης µέσω του link ‘EST
profile’
• Από την προηγούµενη ιστοσελίδα του Uniprot, ακολουθείστε το
σύνδεσµο P03372 προς την Β.Δ. Intact (στο τµήµα protein-protein
interaction databases) για να δείτε πόσες πρωτεϊνικές
αλληλεπιδράσεις έχει το estrogen receptor alpha.
ΒΔ πρωτεϊνικών επικρατειών
• Πρωτεϊνική επικράτεια: Μια περιοχή της πρωτεΐνης µε συγκεκριµένη λειτουργία/
δοµή και καλά συντηρηµένη.
Pfam
• Για την ακολουθία του Estrogen receptor alpha, από τη Uniprot
ακολουθείστε τη σύνδεση για την Β.Δ. πρωτεϊνικών επικρατειών
(domains) Pfam (graphical view).
• Δείτε την αρχιτεκτονική της πρωτεΐνης.
• Ποιά είναι τα βασικά domains;
• Δείτε λεπτοµερέστερα την εγγραφή για το Hormone receptor /
ligand binding domain.
• Δείτε σε ποιά είδη έχει βρεθεί αυτή η επικράτεια (σύνδεσµος
‘species’ στα αριστερά της ιστοσελίδας) (Tree).
ΒΔ τρισδιάστατων δοµών PDB
• Protein Data Bank (PDB)
– Πρωτεΐνες
– Νουκλεϊκά οξέα
– Σύµπλοκα των παραπάνω
• Μέθοδοι
– X-ray (~59000)
– NMR (~8500)
– Κρύο-ηλεκτρονική
µικροσκοπία (~300)
Μεταβολικά µονοπάτια
KEGG pathways
• Kyoto encyclopedia of genes and genomes.
KEGG pathways
KEGG
• Από την ιστοσελίδα του Uniprot για το Estrogen receptor alpha,
ακολουθείστε το σύνδεσµο hsa:2099 προς τη Β.Δ. KEGG.
Βάσεις Δεδοµένων
Pubmed
• ΒΔ του NCBI. Ξεκίνησε τον Ιανουάριο του 1996.
• Καταχωρεί όλες τις δηµοσιευµένες εργασίες που προέρχονται από τον ευρύτερο
χώρο της βιοϊατρικής
• ~20 εκατοµύρια εργασίες καταχωρηµένες (Ιούλιος 2010)
• Όταν µια εργασία γίνεται δεκτή από το περιοδικό, κατατίθεται και στην Pubmed
• H Pubmed δίνει ένα µοναδικό κωδικό εγγραφής (PMID) και λέξεις κλειδιά που
χαρακτηρίζουν το περιεχόµενο της εργασίας (MeSH terms).
• Από το 2007, το NIH απαιτεί όποιες ερευνητικές εργασίες έχουν χρηµατοδοτηθεί
από αυτό, τα αποτελέσµατά τους να γίνονται προσβάσιµα σε όλους, µέσω του
Pubmed Central (εντός 12 µηνών από την ηµεροµηνία δηµοσίευσης). (~ 1
εκατοµύριο εργασίες)
Βάσεις Δεδοµένων
Pubmed
Βάσεις Δεδοµένων
Pubmed
Βάσεις Δεδοµένων
Pubmed
• Πόσες εργασίες υπάρχουν για το estrogen receptor alpha;
Κατάλογος
µε ΒΔ:
Pathguide
• http://www.pathguide.org/
Bionumbers
http://www.bionumbers.hms.harvard.edu/
Browse -> genome
Textpresso
• Μηχανή αναζήτησης που ελέγχει ολόκληρο το κείµενο µιας εργασίας (full text).
• http://www.textpresso.org/
Clinical tests webpages
• http://labtestsonline.org/
• Ποιά test για ποιές ασθένειες
• http://informeddna.com/index.php/
• Informed Medical Decisions, Inc. is the only nationwide network
of independent genetic counselors.
Εργασία
Να ετοιµάσετε µια αναφορά για τον ανθρώπινο υποδοχέα οιστρογόνου άλφα
(estrogen receptor alpha) που να περιγράφει τα παρακάτω:
Για κάθε στάδιο της εργασίας να αναφέρετε την πηγή (Β.Δ.) στο διαδίκτυο µαζί µε το URL
καθώς επίσης και µια σύντοµη περιγραφή της Β.Δ.
Βιοπληροφορική
Blast/PSI-Blast
3o εργαστήριο
• 1 ακολουθία Χ Β.Δ
• Ν ακολουθίες Χ Β.Δ
Blast
Χρησιµοποιώντας το Blast (i)
• Επεξηγήσεις στο σύνδεσµο:
– http://www.ncbi.nlm.nih.gov/BLAST/blastcgihelp.shtml
Με φίλτρο
Με φίλτρο
PSI-Blast
PSI-Blast
PSI-Blast
• Σε µια ακολουθία οι διάφορες θέσεις δεν είναι το ίδιο συντηρηµένες/ευέλικτες
λόγω δοµικών/λειτουργικών περιορισµών.
• Π.χ. Σε µια ακολουθία Α, στην θέση 123 (ενεργό κέντρο ενζύµου) βλέπουµε ένα
µόνο αµινοξύ.
• Σε µια πολλαπλή στοίχιση της Α µε οµόλογες ακολουθίες βλέπουµε για την ίδια
θέση (123) ποιά άλλα αµινοξέα επιτρέπονται και σε τί συχνότητες.
PSSM
• Γίνεται καταµέτρηση των συχνοτήτων των χαρακτήρων για την
κάθε θέση.
PSSM
• Ακολουθεί µια σειρά µετασχηµατισµών
– Συντελεστής βαρύτητας της κάθε ακολουθίας µε βάση την οµοιότητά της
µε άλλες.
– Pseudocounts
– Λαµβάνεται υπόψην η συχνότητα υποβάθρου του κάθε χαρακτήρα
• Υπολογισµός των odds (παρατηρούµενη συχνότητα / συχνότητα
υποβάθρου).
– Log-odds
PSI-Blast
• Πρώτο στάδιο:
– Δηµιουργία PSSM.
PSI-Blast
• Δεύτερο στάδιο:
PSI-Blast
PSI-Blast
PSI-Blast
• Πριν κάνουµε PSI-Blast πρέπει να ξέρουµε τι αναζητάµε!!!
• Κάποιες επικράτειες
συνδυάζονται πολύ συχνά
µε άλλες, στην ίδια
πρωτεΐνη.
• http://genome.cshlp.org/
content/18/3/449.full
Χρησιµοποιώντας το PSI-Blast
Χρησιµοποιώντας το PSI-Blast
Χρησιµοποιώντας το PSI-Blast
Χρησιµοποιώντας το PSI-Blast
• Πράσινο σφαιρίδιο για ακολουθίες που είχαν βρεθεί σε προηγούµενο
γύρο αναζήτησης.
• Μπορούµε να επιλέξουµε τον αποκλεισµό κάποιων ακολουθιών
Χρησιµοποιώντας το PSI-Blast
Χρησιµοποιώντας το PSI-Blast
• Αν περιλαµβάνονταν οι 2 µεθυλ-τρανσφεράσες…
Χρησιµοποιώντας το PSI-Blast
• Αποθήκευση αποτελεσµάτων
Blast
• Βρείτε την ακολουθία του Estrogen receptor alpha (σε
µορφή FASTA) ως:
– mRNA από την EMBL bank (accesion number: X03635).
– ως πρωτεΐνη από την Uniprot (accesion number: P03372).
Blast
Τα προγράµµατα του Blast θα τα βρείτε στο:
http://blast.ncbi.nlm.nih.gov/Blast.cgi
Blast
• Βρείτε την πρωτεϊνική ακολουθία (σε µορφή FASTA) του
καλύτερου blast hit και µε αυτή κάνετε την αντίστροφη
διαδικασία.
• Δηλαδή, blast έναντι της ΒΔ Swissprot, για τον οργανισµό Homo
sapiens, χρησιµοποιώντας ως ακολουθία επερώτησης (query
sequence) το καλύτερο Blast hit. Όλες οι προηγούµενες
παράµετροι του blast παραµένουν ίδιες.
• Βρίσκετε ως νέο καλύτερο blast hit το estrogen receptor alpha;
Είναι ανταποδοτικό το blast; Τι σηµαίνει αυτό για τις εξελικτικές
σχέσεις µεταξύ των δύο ακολουθιών;
Blast
• Χρησιµοποιώντας ως ακολουθία επερώτησης το mRNA του estrogen
receptor alpha από τον άνθρωπο (EMBL-bank accession: Χ03635),
βρείτε αν υπάρχουν οµόλογες νουκλεοτιδικές ακολουθίες στη Drosophila
melanogaster, χρησιµοποιώντας τη νουκλεοτιδική ΒΔ nucleotide
collection (nr/nt).
• Ποιό πρόγραµµα του Blast πρέπει να χρησιµοποιήσετε;
Blast
• Ποιό άλλο πρόγραµµα του Blast πρέπει να χρησιµοποιήσετε,
για να δείτε αν υπάρχουν οµόλογες πρωτεΐνες για το mRNA
σας, στη Drosophila melanogaster;
• Παράµετροι του Blast.
– Genetic code standard
– Database: non-redundant protein sequences (nr)
– Οργανισµός: Drosophila melanogaster
– Expectation threshold 1e-5
– Low complexity regions filtering
• Τι βρίσκετε;
PSI-Blast
• Χρησιµοποιώντας την πρωτεΐνη του ανθρώπινου estrogen
receptor alpha (P03372), κάνετε PSI-blast για να βρείτε όλες τις
οµόλογες πρωτεΐνες στον άνθρωπο.
• Παράµετροι του PSI-Blast:
– ΒΔ Swissprot
– Homo sapiens
– Expect threshold 1e-3
– Low complexity region filtering
– PSI-blast threshold 1e-3
Πολλαπλή στοίχιση -
Φυλογένεση
4o εργαστήριο
MSA: Τι είναι
• Στοίχιση για 3 ή περισσότερες ακολουθίες.
• Χρειάζεται για:
– Δηµιουργία profiles/motifs που χαρακτηρίζουν µια επικράτεια
(domain).
– Ανίχνευση συντηρηµένων DNA-binding sites σε προµότορες
γονιδίων
– Φυλογένεση.
– Πρόβλεψη δευτεροταγούς και τριτοταγούς δοµής πρωτεϊνών.
– Σχεδιασµό εκφυλισµένων εκκινητών PCR
MSA
MSA
• Sum of pairs
• Σκοπός: η µεγιστοποίηση αυτού του score
MSA
• Πολλαπλή στοίχιση µε:
– Δυναµικό προγραµµατισµό (dynamic programming).
– Με ευρετικές µεθόδους (heuristics).
• Προοδευτική στοίχιση (progressive alignment)
• Στοίχιση µε διαδοχικές βελτιώσεις (iterative alignment)
• Στοίχιση βασισµένη σε blocks
ClustalW (i)
• Ολική στοίχιση (Needlman-Wunsch) κάθε
πιθανού ζεύγους
• Πίνακας αποστάσεων (identities ή πίνακες
Blossum/PAM).
• Μετατροπή των αποστάσεων σε εξελικτικές
αποστάσεις.
• Δηµιουργία φυλογενετικού δένδρου -
οδηγού (guide tree) (neighbor joining).
– Χαµηλότερης εµπιστοσύνης από ένα
κανονικό φυλογενετικό δένδρο, ωστόσο
καταδεικνύει ικανοποιητικά τις βασικές
σχέσεις
ClustalW (ii)
• Οι 2 κοντινότερες ακολουθίες στοιχίζονται
και δηµιουργείται µια ακολουθία συναίνεσης.
Προβλήµατα της
προοδευτικής στοίχισης
• Δεν ενδύκνειται για ακολουθίες µε πολύ διαφορετικά µήκη (λόγω
ολικής στοίχισης).
Fasta format
Clustal format
Phylip format
• Χρησιµοποιείται στο πρόγραµµα phylip για φυλογένεση
Seaview
• http://pbil.univ-lyon1.fr/software/seaview.html
• Online help
• http://pbil.univ-lyon1.fr/software/seaview_data/seaview.html
Φυλογένεση
• Η εκτίµηση της εξελικτικής ιστορίας γονιδίων/πρωτεϊνών ή
οργανισµών.
• Η απεικόνιση αυτής της ιστορίας γίνεται µε φυλογράµµατα/
κλαδογράµµατα
Λίγη εξέλιξη: οµολογία
• Οµόλογα γονίδια: κοινός εξελικτικός πρόγονος.
Χιµαιρικές πρωτεΐνες;
Άσκηση (1)
• 1) Βρείτε την πρωτεϊνική ακολουθία του human estrogen
receptor alpha (Uniprot id: P03372) σε µορφή FASTA.
• 2) Με την ακολουθία αυτή (P03372), βρείτε τις οµόλογες
πρωτεϊνικές ακολουθίες της, στη Drosophila melanogaster και
στον άνθρωπο, µε τη βοήθεια του PSI-BLAST. Κάνετε το PSI-
Blast στην ιστοσελίδα του NCBI, χρησιµοποιώντας την
Swissprot, expectation value 1e-10 και low-complexity filtering.
Επαναλάβετε τους κύκλους του PSI-blast µέχρι να συγκλίνει ο
αλγόριθµος.
• 3) Αποθηκεύεστε σε ένα αρχείο (µε όνοµα sequences.fasta) µε
µορφή FASTA τις ακολουθίες από την παραπάνω αναζήτηση.
Αποθήκευση ακολουθιών από
το Blast
• Select all
• Get selected sequences
Άσκηση (2)
• Από το Psi-Blast δηµιουργήθηκε ένα αρχείο (sequences.fasta) µε τις οµόλογες
ακολουθίες που βρήκατε.
• Φορτώστε το αρχείο (sequences.fasta) στο πρόγραµµα Seaview.
– File -> Open -> Fasta
– Η απλά τραβήξτε το αρχείο µέσα στο seaview.
• Αλλάξτε το όνοµα των ακολουθιών.
– Επιλέξτε την ακολουθία -> Edit -> Rename sequence.