You are on page 1of 39

COMPARAISONS DE

MOYENNES
JM NGUYEN PCEM1
PLAN
Introduction
Un seul chantillon
Deux chantillons
Plus de 2 chantillons
I INTRODUCTION
Principe dun test statistique :
1- On veut valuer un effet sur une population, mais on ne peut
pas tudier toute la population.
2- On prend un chantillon de cette population, chantillon
quon espre reprsentatif.
3- On effectue un test statistique sur cet chantillon, dans le but
de pouvoir conclure sur la population.
Effectuer une conclusion porte sur les populations
partir des chantillons
II UN ECHANTILLON
Problmatique
On a un chantillon E de n individus pour lequel on
mesure la valeur dune variable alatoire continue, X.
On cherche savoir si les valeurs prises par cette variable alatoire
dans cet chantillon sont compatibles avec celles dune population
P. En dautres termes, on se pose lune des questions suivantes :
1- Sur le critre de la variable X, lchantillon E est-il issu de la
population P ? (situation bilatrale)
2- Lchantillon E provient-il dune population P dont la
moyenne de la variable X est suprieure celui de la population
P ? (situation unilatrale)
3- Lchantillon E provient-il dune population P dont la
moyenne de la variable X est infrieure celui de la
population P ? (situation unilatrale)
On pose les dfinitions suivantes :
m= moyenne constate sur lchantillon
= moyenne thorique de la population P
= variance thorique dans la population P
s = lestimateur sans biais de
2.1 Grand chantillon (n>=30)
La moyenne m, par le TCL, suit une loi normale, desprance
et dcart-type /n.
Le paramtre Z=[(m- )/ n] , suit une loi normale centre
rduite
Le test consiste calculer le paramtre Z et le comparer
avec la valeur critique dfinie par la taille et lhypothse teste
Soit est connue, alors on utilise sa valeur
Soit est inconnue, alors on lestime partir de s
Exemple
Soit un chantillon de 30 garons gs 13 ans et dont le poids moyen
est de 43.5kg.
Sur le critre du poids, cet chantillon peut-il provenir dune population
P dont le poids moyen est de 44kg et la variance =2.54?
Etape 1 : Choix du test et vrification des conditions dutilisation.
Dfinition de la statistique.
On veut comparer la moyenne dun chantillon celle dune
population P de rfrence.
La taille de lchantillon est >=30, sa moyenne (par le TCL) suit une loi
normale.
La variable centre rduite Z= (m-)/(s/ n)
suit la loi normale centre rduite N(0,1).
Etape 2 : Dfinir H
0
et H
1


=
0 1 1
0 1 0
: H
: H
Soit
1
, la moyenne dune population P
1
reprsente par lchantillon
Soit
0
la moyenne de la population P de rfrence
Etape 3: Fixer le risque et dfinir la rgle de dcision.
On fixe =5%.
On cherche savoir si
1
est diffrent de
0
(quelle soit
infrieure ou suprieure). On est dans une situation bilatrale.
On rejettera H
0
si |Z|1.96. On acceptera alors H
1
.
On acceptera H
0
si |Z|<1.96 et on ne rejettera pas H
0
.
Zone critique
Valeurs critiques
-1.96 1.96
Zone critique
Etape 4 : Calculer la statistique
078 . 1
30 / 54 . 2
44 5 . 43
Z =

=
Etape 5 : Appliquer les rgles de dcision
La valeur Z se situe dans la rgion dacceptation de H
0
. On
ne rejette donc pas lhypothse nulle.
Etape 6 : Conclure sur les populations
Avec les donnes qui me sont prsentes, il est possible que
lchantillon soit issu de la population P.
Cependant, avec les donnes qui me sont prsentes, je navais quune
probabilit de 43.3% de mettre en vidence une telle diffrence si elle existait
rellement (Puissance).
Sous quelles conditions aurait pu-t-on rejeter lhypothse nulle ?
Soit en diminuant la variance, tout en conservant le mme
nombre de sujets
Soit en augmentant le nombre de sujets tout en conservant
la variance
Si =1.02 et n=30 Z =

=
435 44
102 30
2 68
.
. /
.
Si =2.54 et n=3000
Z =

=
435 44
254 3000
1078
.
. /
.
2.2 Petit chantillon (n<30)
2.2.2 Si la distribution de la variable alatoire suit une
loi Normale et la variance est inconnue
Le paramtre suit une loi de Student (n-1) ddl.
n
s
m
t
0

=
Exemple : On sait que la concentration plasmatique du calcium du sujet
sain est de
0
=2.5 mol/ml
Chez 18 personnes on a trouv une moyenne de m=3.2 mol/
et un cart-type s=1.1 mol/ml.
2.2.1 Si la distribution de la variable alatoire suit une
loi Normale et la variance est connue
On retrouve la situation en 2.1
Le paramtre Z=[(m- )/ n] , suit une loi normale centre rduite.
Peut-on conclure que la calcmie moyenne de ces 18 personnes soit
augmente ? On suppose que la moyenne
1
de la calcmie, dans la
population dont est issu lchantillon, suit une loi normale.
Etape 1 : Choix du test et vrification des conditions dutilisation.
Dfinition de la statistique.
Lchantillon est petit, mais la variable alatoire
1
(moyenne de la
calcmie) suit une loi normale dans la population dont est issu
lchantillon.
La statistique suit une loi de Student 17(18-1) ddl.
n
s
m
t
1

=
Etape 3: Fixer le risque et dfinir la rgle de dcision.
Etape 2 : Dfinir H
0
et H
1
Soit
1
, la moyenne dune population P
1
reprsent par lchantillon
Soit
0
la moyenne de la population P
0
de rfrence

>
=
0 1 1
0 1 0
: H
: H
Puisquon sintresse seulement de savoir si
1
>
0
on prendra un
test en situation unilatrale.
La valeur critique en situation bilatrale, est de t
(2.5%;17ddl)
=2.11.
Nous sommes en situation unilatrale t
(5%;17ddl)
=1.74.
Si 1.74, on rejettera H
0
. On accepte H
1
n
s
m
t
0

=
n
s
m
t
0

=
Si <1.74, on ne rejettera pas H
0
. On accepte
H
0
Etape 4 : Calculer la statistique
t =

=
3 2 2 5
1 1
1 8
2 7
. .
.
.
Etape 5 : Appliquer les rgles de dcision
La valeur de la statistique t=2.7 est suprieure 1.74.
Je rejette H
0
avec un risque =5% de me tromper.
Jaccepte lhypothse H
1
Au vu des donnes dont je dispose, je conclue que la calcmie moyenne
de la population dont est issu cet chantillon est suprieure celle de la
population des sujets sains.
Etape 6 : Conclure sur les populations
Remarque :
Calcul de la puissance : 1-=85.4%
La puissance est bonne, le risque alpha est petit : les rsultats ne
ressemblent pas un fait d au hasard.
2.1.1 Si la distribution de la variable alatoire ne suit une loi Normale
Il nexiste pas de test non paramtrique pour comparer une
moyenne par rapport une rfrence! !
On utilise alors la mdiane. La mdiane = valeur qui spare
lchantillon en 2 groupes gaux
On teste alors la proportion de sujets droite ou a gauche de
la mdiane de rfrence par rapport 50%. (test de
proportion)
Exemple :
on mesure un score de douleur dans un groupe de 15 patients traits
avec un nouvel morphinique. Le score varie de 0, pour aucune
sensation de douleur 10, douleur insupportable.
Le nouveau morphinique diminue-t-il la douleur ?
On a les rsultats suivants :
0,0,1,1,2,2,2,3,3,4,5,6,7,8,8.
La mdiane de la population de rfrence traite avec lancien
mdicament est de 4.
Solution : dans lchantillon, la proportion de patients ayant
un score infrieur 4 est de 9/15, soit 60%. Cette proportion
doit tre compare celle de 50% de la population de
rfrence. Il sagit donc dune comparaison dune
frquence observe une frquence thorique.
III DEUX ECHANTILLONS
Notion dappariement des mesures (pour stat en pcem1):
Mesures rptes dune mme variable, effectues chez une mme
personne. Les valeurs ne sont plus indpendantes.
Exemple : On veut valuer leffet dun traitement hypo
cholestrolmiant sur 2 groupes de patients.
Pour ce faire, on mesure le taux de cholestrol avant la mise
en route du traitement puis aprs 3 mois de traitement.
Les mesures avant et aprs constituent des donnes apparies.
Si on compare le taux de cholestrol 3 mois entre les 2
groupes, on ne tiendra pas en compte la valeur de dpart de
chaque groupe. Il faut donc trouver une solution pour tenir
compte des valeurs de dpart.
Lappariement est utilis pour diminuer, voire ter la variabilit
intra-sujet. Cela permet ainsi de mieux apprcier la variabilit inter-
sujets
3.2 Problmatique
On a 2 chantillons de sujets pour lesquels on cherche savoir
si les moyennes des populations sont diffrentes
test bilatral
si la moyenne dune population est suprieure lautre
test unilatral
si la moyenne dune population est infrieure lautre
test unilatral


=
2 1 1
2 1 0
: H
: H

>
=
2 1 1
2 1 0
: H
: H

<
=
2 1 1
2 1 0
: H
: H
3.3 Donnes non apparies
3.3.1 Grands chantillons : n
1
et n
2
30
Par le TCL, les moyennes de ces 2 chantillons suivent des lois
normales, de moyennes
1
,
2
et dcart-types
1
/n
1
et
2
/n
2
.
La variable (m
1
-m
2
) suit une loi N(
1
-
2
, )

1
1
2
2
n n
+
On estime
1
et
2
par s
1
et s
2
.
La statistique , suit par
approximation par la normale centre rduite.
Z
m m
s
n
s
n
=

+
1 2
1
2
1
2
2
2
Exemple : Dans une tude exprimentale, on veut comparer un
nouveau traitement T2 un ancien traitement T1. Le critre de
jugement est la dure de survie.
100 souris atteintes de mlanome stade 1.
On tire au sort les souris quon soumet au traitement T1 ou T2
(50 dans chaque groupe).
On suit les souris jusqu leur dcs. Toutes les conditions sont
gales entre les 2 groupes hormis le traitement, donn en double
aveugle.
T1: survie moyenne de 175 +/-60 jours
T2: survie moyenne de 200 +/- 80 jours
Le traitement T2 donne-t-il une meilleure survie chez la
souris atteinte dun mlanome de stade 1 au risque =5% ?
Etape 1 : Choix du test et vrification des conditions dutilisation.
Dfinition de la statistique.
2 chantillons
Critre de jugement = survie (en jours) variable continue.
n
1
30 et n
2
30
Les moyennes suivent des lois normales par le TCL
1
2
1
2
2
2
1 2
n n
Z


+

=
Suit une loi normale centre rduite
s
2
s
1
Etape 2 : Dfinir H
0
et H
1
H
0
:
1
=
2
H
1
:
2
>
1
Etape 3: Fixer le risque et dfinir la rgle de dcision.
Z
m m
s
n
s
n
=

+
2 1
2
2
2
1
2
1
=5%
Situation unilatrale
Rejet de H
0
si >1.64
Etape 4 : Calculer la statistique
Z
m m
s
n
s
n
=

+
=

+
=
2 1
2
2
2
1
2
1
200 175
80
50
60
50
177 .
Etape 5 : Appliquer les rgles de dcision
Z>1.64, on rejette H
0
:
1
=
2

et on accepte H
1
:
2
>
1

Etape 6 : Conclure sur les populations


Au vu des rsultats et de la mthodologie de cette
exprimentation, je conclue que T2 amliore la survie des souris
par rapport T1.
3.3.2 Petits chantillons : (n1 ou n2) < 30
3.3.2.1 Egalit des variances (
1
=
2
) et les variables
alatoires (X1 et X2) suivent des lois normales
On estime la variance commune par :
s
n s n s
n n
2
1 1
2
2 2
2
1 2
1 1
2
=
+
+
( ) ( )
t
m m
s
n
s
n
=

+
1 2
2
1
2
2
Sous H
0
, suit une loi de Student (n1+n2-2) ddl
Exemple : Idem prcdent sauf n1=9 et n2=18 hypothses
supplmentaires : Lois normales + galit des variances
Etape 1 : Choix du test et vrification des conditions dutilisation.
Dfinition de la statistique.
2 chantillons
critre de jugement = survie (en jours) , variable continue.
lois normales, galit des variances, mais petits chantillons
t
m m
s
n
s
n
=

+
2 1
2
2
2
1
La statistique suit une loi de Student (18+9-2) = 25 ddl
Etape 2 : Dfinir H
0
et H
1
H
0
:
1
=
2
H
1
:
2
>
1
Etape 3: Fixer le risque et dfinir la rgle de dcision.
=5%.
Situation unilatrale
t
(5%,25ddl)
= 1.708 - Rejet de H
0
si >1.708
t
m m
s
n
s
n
=

+
2 1
2
2
2
1
s
2
2 2
9 1 60 18 1 80
18 9 2
5504 =
+
+
=
( ) ( )
Etape 4 : Calculer la statistique
t =

+
=
200 175
5504
18
5504
9
082 .
Probabilit gauche
ddl
Situation Unilatrale :t
( ,n-1)
ddl
Situation Bilatrale :t
(/2 /2 /2 /2,n-1)
ddl
95%
97.5%
=5%
/2=2.5%
Etape 5 : Appliquer les rgles de dcision
t<1.7, on ne rejette pas H
0
: 1=2
Je nai pas mis en vidence la supriorit du traitement T2 par
rapport au traitement T1 concernant la survie des souris
atteintes de mlanomes de stade 1.
(La puissance a posteriori est de 23%)
Etape 6 : Conclure sur les populations
3.3.2.2 (
1

2
) ou (X
1
ou X
2
) ne suit pas une loi normale
Test non paramtrique de Mann-Whitney
Test non paramtrique de Wilcoxon
Principes : on ordonne les valeurs, puis on remplace les valeurs
par leurs rangs. Les tests sont bass sur la comparaison des rangs
entre les 2 chantillons.
3.4 Donnes apparies
3.4.1 Grands chantillons n 30 ou distribution normale
de la variable alatoire
3.4.1.1 Un seul chantillon
Principe : tester la moyenne des diffrences par rapport zro

=
0 d : H
0 d : H
1
0
d
Estimation de la variance
) 1 (
) (

2
1
1
2

=
=
n
n
d
d
s
n
i
i
n
i
i
Paramtre tester
t
d
s
n
=
0
suit une loi de Student (n-1) ddl
AV
AP
Plusieurs possibilits de prendre en compte la valeur initiale


=
2 1 1
2 1 0
: H
: H
3.4.1.2 Deux chantillons, donnes apparies
Comparaison de 2 moyennes indpendantes

2
Comparaison tenant compte de lappariement
Exemple :
On mesure leffet du stress sur la glycmie chez 9 patients. On
suppose que la glycmie suit une loi normale dans la population dont
sont issus ces 9 patients.
Pour chaque sujet, 2 mesures sont effectues, lune ltat basal
aprs une priode de sommeil, lautre 15 mn aprs un stress provoqu .
On obtient les rsultats suivants :
Patient 1 2 3 4 5 6 7 8 9
Basal 5.5 4.3 6.5 4.5 5.2 4.3 5.0 5.4 5.2
Stress 5.4 6.7 6.5 6.0 5.2 5.0 4.8 4.7 4.5
Le stress modifie-t-il la glycmie ?
Etape 1 : Choix du test et vrification des conditions dutilisation.
Dfinition de la statistique.
Etape 2 : Dfinir H
0
et H
1
Etape 3: Fixer le risque et dfinir la rgle de dcision.
Donnes apparies, un seul chantillon, loi normale. Test de la diffrence zro.
Paramtre suit une loi de Student (9-1) ddl
t
d
s
n
=
0

=
0 d : H
0 d : H
1
0
=5%.
Situation bilatrale.
Zone de rejet de H
0
: 2.306 (table de Student 8ddl)
Etape 4 : Calculer la statistique
Etape 5 : Appliquer les rgles de dcision
Calcul des diffrences
Patient 1 2 3 4 5 6 7 8 9
Basal 5.5 4.3 6.5 4.5 5.2 4.3 5.0 5.4 5.2
Stress 5.4 6.7 6.5 6.0 5.2 5.0 4.8 4.7 4.5
Diffrences -0.1 2.4 0 1.5 0 0.7 -0.2 -0.7 -0.7
D 0.01 5.76 0 2.25 0 0.49 0.04 0.49 0.49
s
2
9 53
8 41
9
8
10744 =

=
.
.
.
t = =
0 32
10744
9
0 93
.
.
.
t<2.306, je ne rejette pas H
0
: la diffrence de la glycmie nest pas
diffrente de zro
2.9
9.53
Etape 6 : Conclure sur les populations
Avec les donnes qui me sont prsentes, je nai pas mis en vidence
de diffrence significative de glycmie avant et aprs une preuve de
stress.
Mon chantillon est petit. De plus la diffrence que jai constate
(0.32) est 2 fois infrieure la variabilit des diffrences Dans ces
conditions, il nest pas tonnant que la diffrence constate ne soit
pas significative.
(La puissance calcule a posteriori est de 14.5%.)
Remarque
IV PLUS DE 2 ECHANTILLONS
4.1 Une seule comparaison
4.1.1 Paramtrique Analyse de variance (ANOVA)
Comparaison de k moyennes m
1
,m
2
,...m
Principe :
H
0
:
1
=
2
=...=
k
H
1
: au moins
1

2
...ou
m

n
...(n<=k ; m<=k)
4.1.2 Non paramtrique
Test non paramtrique de Kruskal-Wallis
4.2 Plusieurs comparaisons : tests multiples
Aprs le rejet de H
0
dune ANOVA ou dun test de KW
En fonction de la conclusion recherche :
a) Je sais quels groupes sont intressants comparer
Test de Dunnett (+): un groupe (tmoin ou trait)
versus les autres groupes
mthode des contrastes (+) : choix de la comparaison
G1 G2 G3 G4
-1 -1 +1 +1 (G1+G2) versus (G3+G4)
0 0 -1 +1 G3 versus G4
Exemple de contraste
b) Je ne sais pas priori quels groupes sont intressants comparer
Test de Bonferroni
Comparaison 2 2 des moyennes en utilisant un risque
de premire espce = /k, k= nombre de groupes.
Inconvnient : peu puissante
Test de Tuckey
Mthode exacte, plus puissante que Bonferroni.
Inconvnient : conditions dutilisation paramtriques
En labsence de vrification des hypothses dutilisation des tests ci-
dessus, le test de Kruskal-Wallis multiple peut tre utilis. Il est
moins puissant, mais ne ncessite pas de conditions dutilisation : il
est dit non paramtrique.

You might also like