You are on page 1of 23

Test statistique : principe

1
1. Exemple : comparaison de taux
de guérison
• On souhaite comparer deux traitements dans
le cadre d’un essai randomisé sur les
lombosciatiques :
– corticoïdes par infiltrations
– placebo
• Critère de jugement : succès/échec à J20 par
auto-évaluation du patient
• Planification de l’étude : inclusion prévue de
43 patients/groupe 2
• Au terme de l’étude :
– 85 patients inclus
– résultats observés :
• corticoïdes : 22/43 (51,2%) de succès
• placebo : 10/42 (23,8%) de succès
– différence statistiquement significative
 on conclut à une différence d’efficacité
entre les corticoïdes et le placebo
3
2. Les hypothèses a priori

• L’hypothèse nulle (H0) :


– celle que l’on cherche à réfuter
– celle qui est « vraie », tant qu’on n’ait pas
démontré le contraire
Ex :
H0 : taux de succès identiques sous
corticoïdes et sous placebo

4
• L’hypothèse alternative (H1) :
– hypothèse contraire de l’hypothèse nulle
– celle que l’on cherche à démontrer
Ex :
H1 : taux de succès différents sous
corticoïdes et sous placebo

5
3. Les erreurs a priori
• Erreur de première espèce (a) :
– probabilité de trouver une différence statistiquement
significative alors qu’il n’y en a pas
– Prob(Rejeter H0 alors que H0 est vraie)
– cf Test diagnostic : faux positif
Ex :
Conclure à une différence d’efficacité entre
corticoïdes et placebo alors que les taux de
succès sont identiques 6
• Erreur de seconde espèce (b) :
– probabilité de ne pas mettre en évidence une
différence statistiquement significative alors
qu’elle existe
– Prob(Ne pas rejeter H0 alors que H1 est vraie)
– cf Test diagnostic : faux négatif
Ex :
Ne pas réussir à prouver une différence
d’efficacité entre corticoïdes et placebo alors 7
que cette différence existe
• Puissance statistique : (1- b)
– c’est l’aptitude à mettre en évidence une
différence lorsqu’elle existe
– cf Test diagnostic : sensibilité
– on calcule un nombre de sujets nécessaire pour
obtenir une puissance donnée

8
3. Le calcul du nombre de sujets
nécessaire
• Hypothèse quantitative sous H1 a priori :
– 70% de succès sous corticoïdes
– 40% de succès sous placebo
• Risques d’erreur
– erreur de première espèce : a = 5%
– erreur de seconde espèce : b = 20%
 43 patients par groupe

9
4. L’expérience
• Recueil des données

10
5. Analyse statistique
• Résultats observés :
– taux de succès sous corticoïdes : 22/43 (51,2%)
– taux de succès sous placebo : 10/42 (23,8%)

11
• Statistique de test :
– statistique du chi-deux observée : 6,77 (estimée
à partir des données recueillies)
– degré de signification associé : p = 0,009
– le chi-deux observé est supérieur à la valeur
théorique (3,84) (ou, p < 0,05)
 rejet de H0
 on met en évidence une différence de taux
de succès 12
• Règle de décision (Neyman-Pearson) :
– soit la statistique observée est supérieure à la
valeur théorique  p  0,05
 rejet de H0
– soit la statistique observée est inférieure à la
valeur théorique  p > 0,05
 non rejet de H0

13
6. Le degré de signification (« p »)

Ex :
si les taux de succès sous corticoïdes et sous
placebo sont identiques, la probabilité d’observer
une telle différence (i.e. 51,2% vs 23,8%) ou une
différence plus grande encore est de 0,009

14
• Définition :
– quantifie le « désaccord » entre ce qu’on
observe et l’hypothèse nulle H0
– la probabilité d’observer des résultats au moins
aussi en désaccord avec l’hypothèse nulle H0
que ceux qu’on a observés

15
• Interprétation :
– plus le degré de signification est faible, plus on
est convaincu que les résultats observés ne sont
pas en cohérence avec l’hypothèse nulle

16
ATTENTION !!!! (1)

Le degré de signification nous permet


d’affirmer avec plus ou moins de conviction
qu’il y a une différence, mais en aucun cas
il ne nous renseigne sur l’importance de
cette différence

17
• Exemple :
– 1) 22/43 (51,2%) vs 10/42 (23,8%)
Différence d’efficacité = 27,4% (p = 0,009)
– 2) 14/22 (63,6%) vs 5/21 (23,8%)
Différence d’efficacité = 39,8% (p = 0,009)
– 3) 1104/4200 (26,3%) vs 1000/4200 (23,8%)
Différence d’efficacité = 2,5% (p =
0,009)
18
• La valeur de p dépend :
– de la différence observée entre les deux groupes
– de la taille d’échantillon
• S’il existe une différence réelle, aussi infime
soit-elle, entre 2 groupes, n’importe quel
test statistique va aboutir à une valeur de p
inférieure à 0,05, dès lors que le nombre de
sujets étudiés sera important
19
La signification statistique n’implique
pas la pertinence clinique

20
ATTENTION !!!! (2)

Ne pas mettre en évidence de différence


statistiquement significative entre deux
groupes
ne signifie pas
qu’il y ait équivalence entre les deux
groupes

21
• Ex :
0/3 (0,0%) vs 3/3 (100,0%)
Différence d’efficacité = 100,0%
p = 0,010 (test exact de Fisher)

22
• Un résultat non statistiquement significatif
peut avoir 2 causes :
– l’hypothèse H0 est vraie (i.e. il y a équivalence
entre les deux groupes)
– la puissance statistique n’est pas suffisante (i.e.
nombre de sujets insuffisant)

23

You might also like