Professional Documents
Culture Documents
Cours L2 Blast Poly
Cours L2 Blast Poly
ATATATATATAATTTTATGTGCACTTAATCGATGGATACATATAATTAGTACAGATGAG
G
GCTGGAGAGTATGGTCTCTTGACGGTCAAACTGCAGGGTAGGTTTCAAAGATACATAAT
T
GTCGAAGCATGTTTGCTCACAACGAAAGTTTTTAGAACCACAAAAGTTAGCGCAGATTA
A Est-ce que c’est un morceau de gène?
Est-ce que ce gène code une protéine, fonction connue ou inconnue?
Dans quels organismes, ce gène est-il présent?
Comment trouver l’âme soeur ?
• Solution 1: • Solution 2:
Vous convoquez les 250 Vous faites une pré-sélection sur les CV:
candidat(e)s pour une journée - fan de Brad Pitt
romantique à Disneyland - lit la trilogie 50 nuances de grey
Vous en convoquez 10
* Avantage: vous êtes sûr
de trouver la/le meilleur candidat(e)* Avantage: rapide!!! Efficace!!
parmi les 250
•inconvénient: vous risquez de louper
•inconvénient: 1 journée/ la perle rare …
candidat(e) = 8 mois
Comment trouver l’âme soeur ?
La séquence similaire
Séquence prot., long. 650 AA, cherche seq. similaire dans tout
organisme; envoyer séq + fiche Genbank
Protéine A
Protéine B
• Alignement local (Smith & Waterman, 1981 ; FASTA, 1988 ; BLAST, 1990)
domaine
Protéine A
Protéine B
ARNm
gène
10
Alignement : représentation
• insertions (i) : A A - B C A A
* * * * * *
A A C B C A A
INsertion / DELétion
INDEL
• délétions (d) : A A B C A A
* * * * *
A A - C A A
• substitutions (s) : A A B C A A
* * * * *
A A C C A A
11
Quel est le meilleur alignement ?
Système de score :
se = score élémentaire
Score= ∑ se−∑ sp
sp = pénalité d’indel
12
Les matrices nucléiques de substitution
A C G T A C G T
A 1 0 0 0 A 0 1 1 1
C 0 1 0 0 C 1 0 1 1
G 0 0 1 0 G 1 1 0 1
T 0 0 0 1 T 1 1 1 0
T T
• Matrices évolutives :
A C G T
A C Matches : 3
A 3 0 1 0
C 0 3 0 1
Transitions : 1
G 1 0 3 0
G T Transversions : 0
T 0 1 0 3
T
13
Les matrices protéiques de substitution
Smith-Waterman BLAST
~ 5 jours ~ 20 secondes
Google = fouiller l'Internet
Requête
Portée
BLAST = fouiller les séquences biologiques
Requête
Portée
BLAST : Basic Local Alignment Search Tool (Altschul et al, 1990)
1. Récapitulatif de la
requête
2. Représentation
graphique des
résultats
4. Les alignements
Les résultats de BLAST
1. récapitulatif de la requête
quelle séquence a été soumise ("query") ;
identifiant, longueur, type
Les résultats de BLAST
ce trait représente
la séquence soumise
(long. 253 AA)
4. les alignements
- scores
- Expect (ou E-
value)
- % identité
- % positif
- # de gaps
Scores et statistiques de BLAST
faux-positifs: on a un alignement,
mais
les séquences ne sont pas
homologues
Blastx ou l’art de comparer des