You are on page 1of 32

Séquence inconnue, à quoi sert-elle?

ATATATATATAATTTTATGTGCACTTAATCGATGGATACATATAATTAGTACAGATGAG
G
GCTGGAGAGTATGGTCTCTTGACGGTCAAACTGCAGGGTAGGTTTCAAAGATACATAAT
T
GTCGAAGCATGTTTGCTCACAACGAAAGTTTTTAGAACCACAAAAGTTAGCGCAGATTA
A Est-ce que c’est un morceau de gène?
Est-ce que ce gène code une protéine, fonction connue ou inconnue?
Dans quels organismes, ce gène est-il présent?
Comment trouver l’âme soeur ?

Jeune homme bonne situ., sosie de brad Pitt,


amat. 50 nuances de Grey, cherche j.f. douce et aimante
bonne cuis pour repass. chem. Et + si aff.

250 candidatures, comment faire ???


Comment trouver l’âme soeur ?

• Solution 1: • Solution 2:
Vous convoquez les 250 Vous faites une pré-sélection sur les CV:
candidat(e)s pour une journée - fan de Brad Pitt
romantique à Disneyland - lit la trilogie 50 nuances de grey
Vous en convoquez 10
* Avantage: vous êtes sûr
de trouver la/le meilleur candidat(e)* Avantage: rapide!!! Efficace!!
parmi les 250
•inconvénient: vous risquez de louper
•inconvénient: 1 journée/ la perle rare …
candidat(e) = 8 mois
Comment trouver l’âme soeur ?
La séquence similaire
Séquence prot., long. 650 AA, cherche seq. similaire dans tout
organisme; envoyer séq + fiche Genbank

82 853 685 candidatures, comment faire ???


Comment trouver l’âme soeur ?
La séquence similaire
• Solution 1: • Solution 2:
Vous alignez les 82 853 685 séquences Vous faites une pré-sélection
avec N&W ou S&W sur les séquences

* Avantage: vous êtes sûr Vous alignez exactement ces


de trouver la séquence la plus similaire séquences avec S&W

•inconvénient: 132 jours * Avantage: rapide!!! Efficace!!

Programmation •inconvénient: vous risquez de louper


Dynamique la perle rare …
= exact BLAST
= heuristique
Comment pré-sélectionner les séquences ?
-un exemple-

Première idée: ne retenir que les séquences partageant au


moins un mot de longueur k avec ma séquence
Pourquoi cette présélection est-elle rapide ?

. toutes les séquences de SwissProt sont indexées

. on détermine, pour tous les mots de longueurs k, la liste des


séquences qui contiennent ce mot
Pourquoi cette présélection est-elle rapide ?
Rappel : Alignement global et alignement local

• Alignement global (Needlman & Wunsch, 1970)

Protéine A
Protéine B

• Alignement local (Smith & Waterman, 1981 ; FASTA, 1988 ; BLAST, 1990)
domaine
Protéine A
Protéine B

ARNm

gène

10
Alignement : représentation

• Opérations élémentaires d’édition : opérations permettant de « passer » d’une séquence à une


autre ;

• insertions (i) : A A - B C A A
* * * * * *
A A C B C A A
INsertion / DELétion
INDEL
• délétions (d) : A A B C A A
* * * * *
A A - C A A

• substitutions (s) : A A B C A A
* * * * *
A A C C A A

11
Quel est le meilleur alignement ?

GTTACGA GTTACGA GTTAC-GA


*** ** *** ** *** **
GTT-GGA GTTG-GA GTT--GGA
5 matches 5 matches 5 matches
1 délétion 1 délétion 2 délétions
1 substitution (C>G) 1 substitution (A>G) 1 insertion

Système de score :

se = score élémentaire
Score= ∑ se−∑ sp
sp = pénalité d’indel

12
Les matrices nucléiques de substitution

• Unitaire et unitaire inverse :

A C G T A C G T
A 1 0 0 0 A 0 1 1 1
C 0 1 0 0 C 1 0 1 1
G 0 0 1 0 G 1 1 0 1
T 0 0 0 1 T 1 1 1 0
T T

• Matrices évolutives :
A C G T
A C Matches : 3
A 3 0 1 0
C 0 3 0 1
Transitions : 1
G 1 0 3 0
G T Transversions : 0
T 0 1 0 3
T

13
Les matrices protéiques de substitution

Les matrices liées aux propriétés physico-chimiques :

• hydrophobie / hydrophilie (Levitt, 1976) ;


• propension d’un acide aminé à intégrer une structure secondaire précise (Levin, 1986).

Université d’Angers - Maîtrise de Biologie Cellulaire 14


application alignement de 2 séquences
recherche de séquences similaires: BLAST

Outil informatique très efficace,


permettant de trouver les séquences similaires
à une séquence données (protéine ou nucléique)

-> Compare notre séquence avec toutes les séquences


existantes dans les banques de données.
BLAST, ou l'art du raccourci

Smith-Waterman BLAST

1 séquence contre tout UniProt: 1 séquence contre tout UniProt:

~ 5 jours ~ 20 secondes
Google = fouiller l'Internet

Requête
Portée
BLAST = fouiller les séquences biologiques

Requête
Portée
BLAST : Basic Local Alignment Search Tool (Altschul et al, 1990)

• Recherche de régions sans insertions / délétions riches en similarité ;

• découpage de la séquence « requête » en mot de taille w


Séquence requête

Chaque mot est comparé à chacun des mots de taille


w pris dans chaque séquence Bi de la banque.
Lorsqu’un mot d’une séquence Bi est identique à un
mot de la liste de mots voisins, un hit est enregistré.

Pour chaque hit, le programme effectue une extension


sans gap de l’alignement dans les deux sens.

L’extension s’arrête quand le score du mot étendu


diminue de plus qu’un seuil X fixé. Les segments
ayant un score de similarité supérieur à un score S
seuil fixé sont retenus (High Scoring Pairs = HSP).
19
BLAST@NCBI: facile !!
Les résultats de BLAST

1. Récapitulatif de la
requête

2. Représentation
graphique des
résultats

3. Résumé des résultats

4. Les alignements
Les résultats de BLAST

1. récapitulatif de la requête
quelle séquence a été soumise ("query") ;
identifiant, longueur, type
Les résultats de BLAST

ce trait représente
la séquence soumise
(long. 253 AA)

chaque trait de couleur représente


un alignement entre la séquence d
départ et une séquence de
la banque de donnée sélectionnée
couleur -> score
longueur -> taille de l'alignement

= HSP ("high scoring pair")


Les résultats de BLAST
Les résultats de BLAST

4. les alignements

query -> la séquence


soumise
subject -> la séquence
trouvée dans la bdd
alignement =
outil
QUANTITATIF

- scores
- Expect (ou E-
value)
- % identité
- % positif
- # de gaps
Scores et statistiques de BLAST

on va fabriquer une séquence artificielle de 253 acides aminés (=


253 AA tirés au hasard parmi les 20)
Distribution des scores
Définition de l’e-value de BLAST
Définition de l’e-value de BLAST

faux-positifs: on a un alignement,
mais
les séquences ne sont pas
homologues
Blastx ou l’art de comparer des

Est-ce que cette séquence Est-ce que sa traduction res


D’ADN/ARN À une protéine connue?
Code pour une protéine
BLASTX

Combien de traductions possibles d’un fragment ADN?

1 fragment d'ADN/ARN = 6 « protéines »

You might also like