ANOVA

Analyse des données. 2.
Analyse de la variance
ANALYSE DE LA VARIANCE
2.1. INTRODUCTION.
En analyse de la variance, on cherche à expliquer les variations d’une variable métrique Y par
un ou plusieurs facteurs explicatifs nominaux. Le principe de l’analyse de variance consiste à
tester l'égalité des moyennes de J populations normales dans lesquelles on suppose que les
variances sont égales ( 12 =  22 = .... =  2J =  2 ), même si elles demeurent inconnues.
A partir d'échantillons aléatoires provenant de populations normales N (µ ,  ), N(µ ,  ),

2 2
1 2
... , N(µ ,  ), l'analyse de la variance s'appuie sur la comparaison de deux variances
2
J
empiriques qui sont en réalité des estimations indépendantes du même paramètre  commun
2
aux J populations normales.
L’analyse de la variance permet de tester les hypothèses suivantes :

Ho : µ1 = µ2 = ... = µJ
H1 : au moins une des moyennes est différente des autres.
Quand l'hypothèse de l'égalité des moyennes est rejetée, les méthodes de comparaisons
multiples permettent de déterminer où se situent en réalité les différences importantes.
Quand les conditions d’application de l’analyse de la variance (variances ne sont pas égales ou
quand les observations ne sont pas distribuées normalement), plusieurs solutions peuvent être
envisagées.
- transformation des données : Les transformations les plus utilisées sont la racine carrée des
observations, le logarithme et la réciproque.
- emploi de méthodes d'analyse non paramétriques, lesquelles ne présupposent pas la normalité

des observations ni l'égalité des variances.
53
Analyse des données. 2. Analyse de la variance
Si les tailles des échantillons sont du même ordre de grandeur, il sera possible d'invoquer la
robustesse du test de l'analyse de la variance et éviter la modification des données originales.
Dans ce cas, même si les postulats ne sont pas totalement satisfaits, les résultats de l'analyse de
la variance demeurent quand même crédibles.
Les modèles varient selon le nombre de facteurs contrôlés. On aura ainsi le modèle à un
facteur, le modèle à 2 facteurs sans interaction et le modèle à 2 facteurs avec interaction.
2.2. ANALYSE DE LA VARIANCE À UN FACTEUR.
L’analyse de la variance à un facteur, ANOVA1 permet d’expliquer les variations de la variable

dépendante Y par un seul facteur explicatif. Les données proviennent d'échantillons prélevés
aléatoirement dans des populations normales dans lesquelles les variances sont supposées
égales. Les données sont regroupées dans un tableau appelé matrice de données.
Matrice des données
Population P1 : N(m1,1) P1 : N(m2,2) … P1 : N(mj,j)

Y11 Y12 Y1j
Y21 Y22 … Y2j
… … …
yn11 yn22 ynjj
Total T1 T2 … Tj
Moyenne − −
… −
Y1 Y2 Yj
Variance S² 1 S² 2 … S² j
Par exemple, Y21 représente la deuxième observation prélevée de la première population. Dans
chaque échantillon, on a aussi calculé le total des observations, la moyenne et la variance.
N = n 1 + n 2 + ...+ n J Grand total = T Moyenne générale = Y
2.2.1. Équation fondamentale de l'analyse de la variance.
L'analyse de la variance développée par Fisher repose sur la comparaison de deux estimateurs
de la variance ² commune aux J populations normales.
54
2.2.1.1. Estimation de ² par ̂ T

2
Un premier estimateur de ², noté ̂ T , est obtenu à partir de l'ensemble des N observations en
2
divisant la somme totale des carrés, STC, par ses degrés de liberté, soit (N-1) :
 ( )
J nj
2
Yij − Y
STC j=1 i =1
ˆ T =
2
=
N −1 N −1
̂ T2 est un estimateur non biaisé de ² seulement si l'hypothèse nulle est vraie. Dans le cas
où au moins une des moyennes est différente des autres, on peut montrer que ̂ T surestime ².
2
2.2.1.2. Estimation de ²par ̂ M

2
Un deuxième estimateur de ², noté ̂ M , est obtenu cette fois en mesurant la variabilité
2
existante entre les moyennes des échantillons. On l'appelle aussi la moyenne des carrés inter-
groupes, ou la moyenne des carrés due au facteur (MCF); elle est calculée en divisant la somme
des carrés due au facteur (SCF) par ses degrés de liberté, (J-1) :
 n (Y − Y )
J
2
j j
SCF j =1
ˆ 2M = MCF = =
J −1 J −1
Comme le premier estimateur, ce deuxième estimateur de ², MCF, est non biaisé seulement si
l'hypothèse nulle est vraie. Dans le cas où au moins une des moyennes est différente des autres,
MCF surestime ².
2.2.1.3. Estimation de ² par ̂ C2
Un troisième estimateur de ² est obtenu cette fois en combinant les variances intra-
2 2
échantillons ( S1 , S 2 , ..., S 2J ). La pondération attribuée à S 2j sera égale aux degrés de liberté de
cette statistique, soit (n j − 1) . L'estimateur est appelé la moyenne des carrés due à l'erreur
(MCE) et il est donné par les expressions équivalentes suivantes :
 (n − 1)S 2j  (Y )
J J nj
2
j ij − Yj
SCE j =1 j =1 i =1
ˆ C2 = MCE = = =
N−J N−J N−J
Ce troisième estimateur de ², MCE, est toujours non biaisé, que les moyennes des populations
normales soient égales ou non.
55
L'équation fondamentale de l'analyse de la variance décompose la variabilité totale (STC) entre

les observations en une part due aux différences entre les modalités du facteur (SCF) et une part
de variabilité résiduelle (SCE).
STC = SCF + SCE
Les trois sommes de carrés présentées plus haut sont calculées par les formules suivantes :
nj
J
T2
STC =  Yij2 −
j= i i =1 N
J T j2 T2
SCF =  −
j= i nj N
SCE = STC - SCF
2.2.2. Tableau d'analyse de la variance à un seul facteur.
Il est d'usage de présenter les résultats d'une analyse de variance à un seul facteur dans un
tableau comme celui-ci :
Analyse de la variance à un facteur
Somme des Degrés de Moyenne des

Source de de variation F observé
carrés liberté carrés
Facteur SCF J-1 MCF M CF
M CE
Erreur SCE N-J MCE
Totale SCT N-1
Quand Ho est vraie, le rapport M CF obéit à une loi de Fisher avec (J-1) et (N-J) degrés de
M CE
liberté. On devra rejeter l'hypothèse nulle de l'égalité des moyennes H o : µ1 = µ2 = ... = µJ au
seuil  si et seulement si la valeur de la statistique F˜ = M CF , est plus grande que la valeur

M CE
critique de la table de Fisher au seuil 1- et avec (J-1) et (N-J) degrés de liberté ou, de façon
tout à fait équivalente, si et seulement si la probabilité associée (appelée P-value ou Prob ou
Niveau descriptif du test) à la statistique F˜ calculée est plus petite que le niveau de
signification fixé .
56
2.2.3. Modèles d’analyse de la variance.
2.2.3.1. Modèle à effets fixes.
Le modèle est dit à effets fixes quand l'inférence statistique découlant de l'analyse de la
variance porte seulement sur les modalités du facteur considéré, c'est-à-dire seulement sur les J
«traitements» utilisés dans l'expérience. Un tel modèle est parfois appelé modèle I. Une
répétition de l'expérience aléatoire ferait appel nécessairement aux mêmes traitements.
2.2.3.2. Modèle à effets aléatoires.
Le modèle est dit à effets aléatoires ou modèle II quand l'inférence statistique ne porte pas sur
les quelques traitements choisis dans une expérience particulière, mais bien sur l'ensemble des
traitements possibles et disponibles. Les traitements sont choisis aléatoirement dans une
population de traitements à chaque fois que l'on répète l'expérience.
2.2.4. Comparaisons multiples de moyennes.
Quand le test de l'analyse de la variance est significatif, nous devons conclure qu'il existe des
différences importantes entre certaines des moyennes de ces populations normales. Dans ce cas,
la comparaison multiples de moyennes cherche à déterminer un classement des moyennes en
indiquant les différences significatives et celles qui ne le sont pas.
La théorie statistique a développé plusieurs méthodes de comparaisons multiples de moyennes.
2.2.4.1. Méthode de Scheffé.
Cette méthode s'applique à des échantillons de tailles égales ou non. Elle permet d'effectuer
toutes les comparaisons possibles, elle est appliquée pour des comparaisons par paires.
2.2.4.2. Méthode de Tukey.
Cette méthode s'applique aussi pour toutes les comparaisons possibles; elle est cependant
recommandée pour des comparaisons impliquant seulement deux moyennes. Nous
l’appliquerons ici uniquement pour des comparaisons par paires.
2.2.4.3. Méthode de Duncan.
Cette méthode est utilisée pour effectuer la comparaison de toutes les paires de moyenne. Pour
que deux moyennes d’échantillons soient déclarées différentes à un seuil de 5%, il faut que leur
différence en valeur absolue excède une nouvelle quantité donnée par
Wr =qr;0,05; MCE
n
57
Le terme qr;0,05; est lu dans une table spéciale construite elle aussi à partir de la distribution
d'échantillonnage de «l'étendue studentisée»: il dépend du nombre de degrés de liberté  de la
moyenne des carrés due à l'erreur et du paramètre r, le nombre de moyennes dans l'ensemble
ordonné considéré.
2.2.4. Application numérique.
24 vendeurs ont utilisé 6 techniques de vente différentes pour constituer 4 répétitions et on a

enregistré les ventes moyennes quotidiennes d’un produit en nombre d’unités vendues :
T1 T2 T3 T4 T5 T6
590 460 600 640 690 690
760 430 460 660 600 650
700 540 610 720 550 680
640 470 510 580 480 740
Au seuil de 5 %, existe-t-il une différence significative quant à l’effet des différentes techniques
de vente sur les ventes moyennes quotidiennes de ce produit ?
Pour répondre à cette question, il faut comparer les ventes moyennes quotidiennes des 6
techniques de vente. Il s’agit de tester l'égalité de plusieurs moyennes, c’est une analyse de
variance à un facteur (ANOVA1).
Formulation de l’hypothèse nulle
Il s’agit de tester globalement l'égalité des moyennes des 6 populations supposées normales
dans lesquelles on suppose que les variances sont égales.
Ho: m1 = m2 = m3 = m4 = m5 = m6
H1: au moins une des moyennes est différente des autres.
58
Tableau d'analyse de variance
Reprenons les données et calculons les trois sommes des carrés:
T1 T2 T3 T4 T5 T6
590 460 600 640 690 690
760 430 460 660 600 650
700 540 610 720 550 680
640 470 510 580 480 740
Total 2690 1900 2180 2600 2320 2760 14450
J nj
 Y
T² 14450²
STC = 2
ij
− = 590² + 760² + ... + 740² − = 215595,83
j= i i =1 N 24
J
Tj2
n
T² 2690² 1900² 2760² 14450²
SCF = − = + + ... + − = 139520,83
j= i j
N 4 4 4 24
SCE = 215595,83 - 139520,83 = 76075
Ce qui permet la construction du tableau de l'analyse de variance.
Tableau d’analyse de variance à un facteur
Source de variation Somme des carrés Degrés de liberté Moyenne des carrés F obs
techniques de vente 139520,83 5 27904,17 6,6
Erreur 76075 18 4226,39
Totale 215595,83 23
A un seuil  = 5%, on ne peut pas conclure que les ventes moyennes quotidiennes soient les
mêmes, en moyenne, pour les 6 techniques de vente puisque la valeur observée 6,6 de F est
supérieure à la valeur critique F 0,95 à 5 et 18 dl = 2,77 obtenue de la distribution de
Fisher à 5 et 18 degrés de liberté.
Les variations des ventes entre les techniques sont 6,6 fois plus grandes que les variations des
ventes au sein d’une même technique.
Le logiciel SPSS fournit directement le tableau d’analyse de la variance par la procédure

suivante :
59
60
A partir du menu, sélectionnez :
Analyse
Comparer les moyennes
ANOVA à un facteur
61
Dans la boite de dialogue ANOVA à un facteur :
Dans Liste variables dépendantes, sélectionnez la variable à expliquer métrique.

Dans critère, sélectionnez le facteur explicatif.
62
Dans PostHoc, sélectionnez les méthodes de comparaison multiples de moyennes.

Cocher Tukey
63
ANOVA
Ventes quotidiennes moy ennes

Somm e Moy enne
des carrés ddl des carrés F Signif ication
Inter-groupes 139520,833 5 27904,167 6,602 ,001
Intra-groupes 76075,000 18 4226,389
Total 215595,833 23
Les variations des ventes entre les techniques sont 6,6 fois plus grandes que les variations des
ventes au sein d’une même technique.
A un seuil  = 5%, on ne peut pas conclure que les ventes moyennes quotidiennes soient les
mêmes, en moyenne, pour les 6 techniques de vente puisque la probabilité de signification est
inferieure au seuil de 5 %.
64
Comparaisons multiples
Variable dépendante: Ventes quotidiennes moy ennes

Test de Tukey
Interv alle de conf iance à

Dif f érence de 95%
moy ennes Erreur Borne Borne
(I) Techniques de v ente (J) Techniques de v ente (I-J) standard Signif ication inf érieure supérieure
T1 T2 197,50* 45,97 ,005 51,41 343,59
T3 127,50 45,97 ,108 -18,59 273,59
T4 22,50 45,97 ,996 -123,59 168,59
T5 92,50 45,97 ,374 -53,59 238,59
T6 -17,50 45,97 ,999 -163,59 128,59
T2 T1 -197,50* 45,97 ,005 -343,59 -51,41
T3 -70,00 45,97 ,655 -216,09 76,09
T4 -175,00* 45,97 ,014 -321,09 -28,91
T5 -105,00 45,97 ,250 -251,09 41,09
T6 -215,00* 45,97 ,002 -361,09 -68,91
T3 T1 -127,50 45,97 ,108 -273,59 18,59
T2 70,00 45,97 ,655 -76,09 216,09
T4 -105,00 45,97 ,250 -251,09 41,09
T5 -35,00 45,97 ,971 -181,09 111,09
T6 -145,00 45,97 ,052 -291,09 1,09
T4 T1 -22,50 45,97 ,996 -168,59 123,59
T2 175,00* 45,97 ,014 28,91 321,09
T3 105,00 45,97 ,250 -41,09 251,09
T5 70,00 45,97 ,655 -76,09 216,09
T6 -40,00 45,97 ,949 -186,09 106,09
T5 T1 -92,50 45,97 ,374 -238,59 53,59
T2 105,00 45,97 ,250 -41,09 251,09
T3 35,00 45,97 ,971 -111,09 181,09
T4 -70,00 45,97 ,655 -216,09 76,09
T6 -110,00 45,97 ,210 -256,09 36,09
T6 T1 17,50 45,97 ,999 -128,59 163,59
T2 215,00* 45,97 ,002 68,91 361,09
T3 145,00 45,97 ,052 -1,09 291,09
T4 40,00 45,97 ,949 -106,09 186,09
T5 110,00 45,97 ,210 -36,09 256,09
*. La dif f érence de moy ennes est signif icativ e au niv eau . 05.
65
D’après le tableau des comparaisons multiples selon la méthode de tukey, une signification
inférieure au seuil de 0,05 permet de repérer les techniques de vente qui donnent des résultats
différents, ainsi les techniques T1 et T2 permettent des ventes quotidiennes moyennes
différentes (signification = 0,005), il en est de même pour les techniques T2 et T4 (signification
= 0,014) et les techniques T2 et T6 (signification = 0,02).
Ventes
Test de Tukey
Technique de vente N Sous-ensemble pour alpha = 0.05
1 2
T2 4 475,00
T3 4 545,00 545,00
T5 4 580,00 580,00
T4 4 650,00
T1 4 672,50
T6 4 690,00
Signification ,250 ,052
On distingue 2 groupes de techniques, le 1er composé de T2, T3 et T5 et le 2eme groupe

composé de T1, T4 et T6.
Le 2eme groupe réalise les meilleures ventes.
2.3. ANALYSE DE LA VARIANCE À DEUX FACTEURS SANS REPETITION.
L’analyse de la variance à deux facteurs, ANOVA2 permet d’expliquer les variations de la

variable dépendante Y par deux facteurs explicatifs. Les données proviennent d'échantillons
prélevés aléatoirement dans des populations normales dans lesquelles les variances sont
supposées égales. Les données sont regroupées dans un tableau appelé matrice de données.
66
Facteur B 1 2 ..... J Total Moyenne

Facteur A
1 Y11 Y12 ..... Y1J T1• Y1 •
2 Y21 Y22 ...... Y2J T2 • Y2•
3 .... Y32 ......
....... etc.........
I YI1 YI2 .... YIJ TI • YI •
Total T•1 T•2 .... T•J T
Moyenne Y•1 Y•2 .... Y• J Y
Ainsi, Y32 représente la valeur de l'observation prélevée quand le premier facteur est à son
troisième niveau (ou modalité) et que le second facteur est à son deuxième niveau; par ailleurs,
T 2 • et Y2• désignent le total et la moyenne des observations quand le premier facteur est
maintenu à son deuxième niveau (l'indice sur lequel la sommation a été effectuée est remplacé
par un •).
Toutes les combinaisons possibles des modalités des facteurs donnent lieu à IJ «traitements». A
remarquer qu'il n'y a qu'une seule observation pour chaque traitement, c'est-à-dire une seule
valeur numérique dans chacune des cellules du tableau.
67
2.3.1. Tableau d'analyse de la variance à deux facteurs sans répétition.
Les résultats d'une analyse de la variance à deux facteurs sans répétition se présentent dans un
tableau comme celui-ci :
Analyse de la variance à deux facteurs sans répétition
Source de Somme des Degrés de Moyenne

F observé
variation carrés liberté des carrés
Facteur A SCFA I-1 MCFA MCFA / MCE
Facteur B SCFB J-1 MCFB MCFB / MCE
Erreur SCE (I-1)(J-1) MCE
Totale STC IJ-1
Les diverses sommes des carrés et moyennes des carrés sont calculées à l'aide des formules
suivantes :
I J
T2
STC = 
i =1 j =1
Yij2 −
IJ
I
Ti2• T 2
SCFA = 
i =1 J
−
IJ
J
T•2j T2
SCFB = 
j =1 I
−
IJ
SCE =STC−SCFA −SCFB
En se basant sur les résultats présentés au tableau, on déduit que les tests sur le facteur A et sur
le facteur B s'effectuent exactement comme dans le cas de l’analyse de la variance à un facteur,
MCFA MCFB
à savoir au moyen des statistiques et
MCE MCE
2.3.2. Modèles d’analyse de la variance.
2.3.2.1. Modèle à effets fixes.
Le modèle est dit à effets fixes quand l'inférence statistique découlant de l'analyse de la
variance porte seulement sur les modalités des facteurs A et B considérés, c'est-à-dire
seulement sur les IJ traitements utilisés dans l'expérience. Un tel modèle est appelé modèle I.
Une répétition de l'expérience aléatoire ferait appel nécessairement aux mêmes traitements.
2.3.2.2. Modèle à effets aléatoires.
68
Le modèle est dit à effets aléatoires ou modèle II quand l'inférence statistique ne porte pas sur
les IJ traitements choisis dans une expérience particulière donnée, mais bien sur l'ensemble des
traitements disponibles. les modalités des facteurs A et B sont choisies aléatoirement dans des
«populations» de modalités à chaque fois que l'on répète l'expérience.
2.3.2.3. Modèle à effets mixtes.
Quand les différents niveaux d'un premier facteur sont les mêmes d'une expérience à l'autre
alors que les niveaux d'un autre facteur sont choisis aléatoirement à chaque reprise de
l'expérience, on dit que le modèle est à effets mixtes, aussi appelé modèle III.
2.3.3. Applications numériques.
Application 1
L'expérience suivante avait pour but d'analyser l'impact des 2 facteurs Sexe et Âge sur la
consommation d'un certain produit de luxe. Dans chacun des 6 groupes, le produit a été offert à
100 personnes choisies au hasard. La consommation, en nombre d’unités achetées, est donnée
dans le tableau qui suit :
Catégorie d'âge
Sexe
Moins de 20 ans Entre 20 et 45 ans Plus de 45 ans
Féminin 27 39 54
Masculin 32 45 62
Total 59 84 116
On suppose que les nombres d’unités achetées obéissent à des lois normales, que les variances
sont égales dans ces six populations.
Quant au nombre d’unités achetées en moyenne, peut-on affirmer au niveau 5% qu'il y a une
différence significative entre hommes et femmes d'une part, et entre les trois groupes d'âge,
d'autre part?
Pour répondre à cette question, il faut comparer la consommation moyenne du produit de luxe
dans chacun des 6 groupes. Il s’agit de tester l'égalité de plusieurs moyennes, c’est une analyse
de variance à deux facteurs (ANOVA2) sans interaction.
69
Il s’agit de tester globalement l'égalité des moyennes des populations supposées normales dans
lesquelles on suppose que les variances sont égales.
Pour le sexe:
Hypothèse nulle H0 : le sexe n’a aucun effet sur la consommation du produit de luxe.
Hypothèse alternative H1 : le sexe a un effet sur la consommation du produit de luxe.
Pour les tranches d’âge :
Hypothèse nulle H0 : la tranche d’âge n’a aucun effet sur la consommation du produit de luxe.
Hypothèse alternative H1 : la tranche d’âge a un effet sur la consommation du produit de luxe.
Reprenons les données et calculons les quatre sommes des carrés :
Catégorie d'âge
Sexe Total
Féminin 27 39 54 120
Masculin 32 45 62 139
Total 59 84 116 259
I J
 Y
T² 259²
STC = 2
ij
− = 27² + 39² + ...+ 62² − = 878,83
i =1 j =1 IJ 6
I
Ti2• 120² + 139²

T² 259²
SCFA = − = − = 60,17
i =1 J IJ 3 6
J
59² + 84² + 116²
T•2j

T² 259²
SCFB = − = − = 816,33
I IJ
j =1 2 6
SCE = 878,83 - 60,17 - 816,33 = 2,33
70
Ce qui permet la construction du tableau de l'analyse de variance ci-dessous.
Source devariation Somme descarrés D.L. Moyenne descarrés F

Sexe 60,17 1 60,17 51,43
Age 816,33 2 408,17 348,86
Erreur 2,33 2 1,17
Total 878,83 5
En examinant les valeurs F observées 51,43 et 348,86 qui sont toutes deux supérieurs aux
valeurs théoriques F 0,95 à 1 et 2 dl = 18,51 et F 0,95 à 2 et 2 dl = 19 on peut rejeter les deux
hypothèses nulles et conclure qu'il y a d'une part, des différences significatives entre les deux
sexes quant à la consommation du produit de luxe et d'autre part, des différences significatives
entre les trois catégories d’âge.

suivante :
71
72
Analyse
Modèle linéaire général
Univarié...
73
Dans la boite de dialogue Univarié :

Dans variables dépendantes, sélectionnez la variable à expliquer métrique.
Dans Facteur(s), sélectionnez les deux facteurs explicatifs.
74
Dans Modèle, cocher Personnalisé.

Dans Terme(s) construit(s), choisissez effets principaux.
Dans modèle, glisser les deux facteurs explicatifs.
Dans somme des carrés, spécifiez le type de modèle.
75

Dans Tests post hoc pour, glisser les deux facteurs explicatifs.
Cocher Tukey
76
Tests des effets inter-sujets
Variable dépendante: consommation, en nombre d'unités achetées

Somm e
des carrés Moy enne
Source de ty pe I ddl des carrés F Signif ication
Modèle corrigé 876,500a 3 292,167 250,429 ,004
Constante 11180,167 1 11180,167 9583,000 ,000
SEXE 60,167 1 60,167 51,571 ,019
AGE 816,333 2 408,167 349,857 ,003
Erreur 2,333 2 1,167
Total 12059,000 6
Total corrigé 878,833 5
a. R deux = ,997 (R deux ajusté = ,993)
Les variations des consommations entre les deux sexes sont 52 fois plus grandes que les
variations des consommations pour le même sexe.
Les variations des consommations entre les tranches d’âge sont 350 fois plus grandes que les
variations des consommations dans la même tranche d’âge.
Les variations des consommations entre les tranches d’âge sont plus importantes que les
variations des consommations entre les deux sexes.
En examinant les probabilités de signification 0,019 et 0,003 qui sont toutes deux inférieures au
seuil de 5 % on peut rejeter les deux hypothèses nulles et conclure qu'il y a d'une part, des
différences significatives entre les deux sexes quant à la consommation du produit de luxe et
d'autre part, des différences significatives entre les trois catégories d’âge.
77
Tests post hoc

Catégorie d'âge
Variable dépendante: consommation
Test de Tukey
(I) (J) catégorie d'âge Différence Erreur Sig. Intervalle de confiance à
catégorie des standard 95%
d'âge moyennes Borne Limite
(I-J) inférieure supérieure
moins de 20 à 45 ans -12,50* 1,080 ,013 -18,86 -6,14
20 ans plus de 45 ans -28,50* 1,080 ,003 -34,86 -22,14
20 à 45 moins de 20 ans 12,50* 1,080 ,013 6,14 18,86
ans plus de 45 ans -16,00* 1,080 ,008 -22,36 -9,64
plus de 45 moins de 20 ans 28,50* 1,080 ,003 22,14 34,86
ans 20 à 45 ans 16,00* 1,080 ,008 9,64 22,36
D’après les significations toutes inférieures au seuil de 5 % on peut conclure que les trois
tranches d’âge sont différentes par rapport à la consommation du produit de luxe.
Sous-ensembles homogènes
consommation
Test de Tukey
catégorie d'âge N Sous-ensemble
1 2 3
moins de 20 ans 2 29,50

20 à 45 ans 2 42,00
plus de 45 ans 2 58,00
Sig. 1,000 1,000 1,000
Il y a trois groupes, la consommation du produit de luxe varie d’une tranche d’âge à l’autre.
78
Application 2
On veut comparer 4 types d'essence: A, B, C et D. On dispose de 4 voitures de chacune des

marques I, II, III et IV. La variable étudiée est le nombre de kilomètres parcourus avec un litre
d'essence. Les résultats sont présentés dans le tableau suivant:
Marque
I II III IV Total
Type essence
A 21 26 20 25 92
B 23 26 20 27 96
C 15 13 16 16 60
D 17 15 20 20 72
Total 76 80 76 88 320
Quant au nombre de kilomètres parcourus avec un litre d'essence en moyenne, peut-on affirmer au
niveau de 5 % qu'il y a une différence significative entre les 4 types d'essence d'une part, et entre les
4 marques de voitures d'autre part?
79
80
81
82
83
1) Hypothèses
Pour la marque :
H0 : La marque n’a aucun effet sur la consommation
H1 : Au moins une marque est différente des autres
Pour le type d’essence :
H0 : le type d’essence n’a aucun effet sur la consommation

H1 : Au moins un type d’essence est différent des autres
84
Analyse de variance univariée

Variable dépendante: Nombre de km avec un litre d'essence
Somme des Moyenne des
Source carrés de type I ddl carrés D Sig.
Modèle corrigé 240,000a 6 40,000 6,429 ,007
Ordonnée à l'origine 6400,000 1 6400,000 1028,571 ,000
marque 24,000 3 8,000 1,286 ,337
type 216,000 3 72,000 11,571 ,002
Erreur 56,000 9 6,222
Total 6696,000 16
2) Probabilité de signification
Pour la marque :
F = 1,286 Sig = 0,337
Les variations des consommations entre les marques sont 1,286 fois plus grandes que
les variations des consommations au sein de la même marque.
Pour le type d’essence :
F = 11,571 Sig = 0,002
Les variations des consommations entre les types d’essence sont 11,571 fois plus grandes que
les variations des consommations au sein du même type d’essence.
85
3) Décision
Pour la marque : on accepte H0
Pour le type d’essence : on rejette H0
4) Comparaisons multiples
Type d'essence
Nombre de km avec un litre d'essence
Test de Tukey
Intervalle de confiance à
95%
(I) Type (J) Type Différence des Erreur Borne Limite
d'essence d'essence moyennes (I-J) standard Sig. inférieure supérieure
A B -1,00 1,764 ,939 -6,51 4,51
C 8,00* 1,764 ,006 2,49 13,51
D 5,00 1,764 ,077 -,51 10,51
B A 1,00 1,764 ,939 -4,51 6,51
C 9,00* 1,764 ,003 3,49 14,51
*
D 6,00 1,764 ,033 ,49 11,51
*
C A -8,00 1,764 ,006 -13,51 -2,49
*
B -9,00 1,764 ,003 -14,51 -3,49
D -3,00 1,764 ,377 -8,51 2,51
D A -5,00 1,764 ,077 -10,51 ,51
*
B -6,00 1,764 ,033 -11,51 -,49
C 3,00 1,764 ,377 -2,51 8,51
Il y a une différence significative entre les marques A et C, entre B et C et entre B et D
86
Nombre de km avec un litre d'essence

a,b
Test de Tukey
Sous-ensemble
Type d'essence N 1 2 3
C 4 15,00
D 4 18,00 18,00
A 4 23,00 23,00
B 4 24,00
Sig. ,377 ,077 ,939
Il y a deux groupes de type d’essence, le premier groupe compose des types C et D et le
deuxième groupe compose des types A et B. on parcourt plus de kilomètres avec les types
d’essence A et B.
2.4. ANALYSE DE LA VARIANCE À DEUX FACTEURS AVEC REPETITIONS.
L’analyse de la variance à deux facteurs avec répétitions permet d’expliquer les variations de la
variable dépendante Y par deux facteurs explicatifs et de vérifier si l'interaction entre les deux
facteurs est importante. La présence d’interaction entre les deux facteurs signifie que les
résultats sous les niveaux d'un facteur se comportent différemment selon les différents niveaux
de l'autre facteur.
Les données proviennent d'échantillons prélevés aléatoirement dans des populations normales
dans lesquelles les variances sont supposées égales. Les données sont regroupées dans un
tableau appelé matrice de données.
87
Facteur B 1 2 J Total Moyenne

Facteur A
Y111 Y121 ... Y1J1
Y112 Y122 Y1J2
1 T1•• Y1••
... ... ...
Y11K Y12K Y1JK
Y211 Y221 Y2J1
Y212 Y222 Y2J2
2 T2•• Y2••
... ... ...
Y21K Y22K Y2JK
... ... ... ... ... ... ...
YI11 YI21 YIJ1
YI12 YI22 YIJ2
I TI •• YI ••
... ... ...
YI1K YI2K YIJK
Total T•1• T•2 • ... T•J • T
Moyenne Y•1• Y•2• Y• J• Y
Par exemple, Y324 renvoie à la quatrième observation prélevée quand le facteur A est à son
troisième niveau (ou modalité) et que le facteur B est à son deuxième niveau. Ainsi, T2 ••
représente le total des observations quand le premier facteur est maintenu à son deuxième
niveau, alors que Y•3• désigne la moyenne des observations quand le second facteur est
maintenu à sa troisième modalité.
Toutes les combinaisons possibles des modalités des facteurs donnent lieu à IJ traitements. A
remarquer enfin qu'il y a ici le même nombre d'observations dans chacune des IJ cellules, soit
K, et cette valeur est supérieure à l'unité.
2.4.1. Tableau d'analyse de la variance à deux facteurs avec répétitions.
Les résultats d'une analyse de la variance à deux facteurs avec répétitions sont habituellement
présentés dans un tableau comme celui-ci :
88
Analyse de la variance à deux facteurs avec répétitions
Source de Somme des Degrés de Moyenne des

F observé
variation carrés liberté carrés
Facteur A SCFA I-1 MCFA MCFA / MCE
Facteur B SCFB J-1 MCFB MCFB / MCE
Interaction SCI (I-1)(J-1) MCI MCI / MCE
Erreur SCE IJ(K-1) MCE
Totale STC IJK-1
Les diverses sommes des carrés et moyennes des carrés sont calculées à l'aide des formules
suivantes :
I J K
T2
STC = 
i =1 j =1 k =1
Yijk2 −
IJK
2
I
T T2
SCFA =  − i ••
i =1 JK IJK
J
T•2j• T2
SCFB =  IK
j =1
−
IJK
I J Tij2• I
Ti2•• J T•2j• T2
SCI = 
i =1 j =1 K
− 
i =1 JK
−  IK
j =1
+
IJK
SCE = STC − SCFA − SCFB − SCI
L'analyse de la variance doit vérifier en premier lieu si l'interaction entre les deux facteurs est
importante; si la réponse est négative, on pourra considérer ensuite les deux autres tests
disponibles dans le tableau de l'analyse de la variance.
En se basant sur les résultats présentés au tableau, les tests sur la présence d’interaction, sur le
facteur A et sur le facteur B s'effectuent au moyen des statistiques F dont le calcul dépend du
type de modèle.
- Modèle à effets fixes.
Les tests sur la présence d’interaction, sur le facteur A et sur le facteur B s'effectuent au moyen
MCI MCA MCB
des statistiques ; et .
MCE MCE MCE
89
- Modèle à effets aléatoires.
Si les deux facteurs sont aléatoires, le test de l'interaction n'est pas modifié. Par contre, les deux
˜ devront avoir MCI comme dénominateur.
autres rapports F
Les tests sur la présence d’interaction, sur le facteur A et sur le facteur B s'effectuent au moyen
MCI MCA MCB
des statistiques ; et .
MCE MCI MCI
- Modèle à effets mixtes.
Si le facteur A est aléatoire et B fixe, les trois tests s'effectuent au moyen des statistiques
suivantes:
~ MCI
Test sur l'interaction: FI =
MCE
~ MCA
Test sur le facteur A: FA =
MCE
~ MCB
Test sur le facteur B: FB =
MCI
2.4.2. Application numérique.
Les ventes quotidiennes d'ordinateurs réalisées par une société informatique durant les 3
premiers mois de 2014, du lundi au jeudi sont comme suit :
90
Janvier 2014 Février 2014 Mars 2014

lundi 13 9 7
9 5 15
8 8 14
7 12 10
mardi 8 11 17
6 4 14
6 9 12
7 5 13
mercredi 6 10 6
10 2 14
7 8 12
4 3 13
jeudi 1 6 10
10 10 8
7 12 4
5 9 9
Pour répondre à cette question, il faut comparer Les ventes quotidiennes moyennes
d'ordinateurs des 12 combinaisons jour/mois. Il s’agit de tester l'égalité de plusieurs moyennes,
c’est une analyse de variance à deux facteurs (ANOVA2) avec interaction.
Il s’agit de tester globalement l'égalité des moyennes des 12 populations supposées normales
dans lesquelles on suppose que les variances sont égales.
Pour les mois
Ho: m1 = m2 = m3 m4
Pour les jours
Ho: m1 = m2 = m3
91
Pour l’intéraction
Ho: il n’y a pas d’interaction entre les mois et les jours.

H1: il y a interaction entre les mois et les jours.
Reprenons les données et calculons les cinq sommes des carrés :
Janvier 2014 Février 2014 Mars 2014 Total

lundi 13 9 7
9 5 15 117
8 8 14
7 12 10
37 34 46
mardi 8 11 17
6 4 14 112
6 9 12
7 5 13
27 29 56
mercredi 6 10 6
10 2 14 95
7 8 12
4 3 13
27 23 45
jeudi 1 6 10
10 10 8 91
7 12 4
5 9 9
23 37 31
Total 114 123 178 415
92
I J K T² 415²
STC =    Y 2 − = 13² + 9² + ... + 9² − = 604,98
i=1 j=1 k =1 ijk IJK 48
I
Ti2•• 117² + 112² + 95² + 91²
 JK
T² 415²
SCFA = − = − = 40,23
i =1 IJK 12 48
2
J T• j• T² 114² 123² 178² 415²
SCF =  − = + + − = 150,04
B j=1 IK IJK 16 16 16 48
2 2 2
I J Tij• I Ti•• J T• j• T²
SCI =   −  −  +
i=1j=1 K i=1 JK j=1 IK IJK
37² + ... + 31² 117² + 112² + 95² + 91² 114² + 123² + 178²
SCI = − −
4 12 8
415²
+ = 93,96
48
SCE = 604,98 – 40,23 – 150,04 – 93,96 = 320,75
Tableau d’analyse de variance à deux facteurs avec répétitions

Source de variation Somme des carrés D.L. Moyenne des carrés F
Jours 40,23 3 13,41 1,51
Mois 150,04 2 75,02 8,42
Interaction 93,96 6 15,66 1,76
Erreur 320,75 36 8,91
Totale 604,98 47
En examinant en tout premier lieu le test sur l’interaction, on peut vérifier que la valeur F I =
1,76 est inférieure à la valeur critique de la table, soit F 0,95 à 6 et 36 dl = 2,36. on doit
conclure qu'il n'y a pas d'interaction significative entre les deux facteurs jours et mois.
93
Cette constatation justifie la poursuite de l'analyse de la variance. Comme la valeur F A= 1,51

est inférieure à la valeur critique de la table F 0,95 à 3 et 36 dl = 2,87, on doit conclure qu’il
n’existe pas de différences significatives entre les jours. Par contre, comme la valeur F B = 8,42
est supérieure à la valeur critique de la table F 0,95 à 2 et 36 dl = 3,26, on doit conclure qu’il
existe des différences significatives entre les trois mois.

suivante :
94
Analyse
Modèle linéaire général Univarié...
95
Dans la boite de dialogue Univarié :
Dans variables dépendantes, sélectionnez la variable à expliquer métrique.

Dans Facteur(s), sélectionnez les deux facteurs explicatifs.
96
Dans Modèle, cocher Factoriel complet .

Dans somme des carrés, spécifiez le type de modèle.
97

Dans Tests post hoc pour, glisser les deux facteurs explicatifs.
Cocher Tukey
Les variations des consommations entre les deux sexes sont 52 fois plus grandes que les
variations des consommations pour le même sexe.
Les variations des consommations entre les tranches d’âge sont 350 fois plus grandes que les
variations des consommations dans la même tranche d’âge.
Les variations des consommations entre les tranches d’âge sont plus importantes que les
variations des consommations entre les deux sexes.
98
Variable dépendante: VENTE

Somme
des carrés Moy enne
Source de ty pe I ddl des carrés F Signification
Modèle corrigé 284,229a 11 25,839 2,900 ,008
Constante 3588,021 1 3588,021 402,708 ,000
JOUR 40,229 3 13,410 1,505 ,230
MOIS 150,042 2 75,021 8,420 ,001
JOUR * MOIS 93,958 6 15,660 1,758 ,136
Erreur 320,750 36 8,910
Total 4193,000 48
En examinant les probabilités de signification 0,230 et 0,136 qui sont toutes deux supérieures
au seuil de 5 % on doit conclure qu’il n’existe pas de différences significatives entre les jours et
qu'il n'y a pas d'interaction significative entre les deux facteurs jours et mois.
En examinant la probabilité de signification 0,001 inférieure au seuil de 5% on doit conclure

qu’il existe des différences significatives entre les mois.
99
Tests post hoc

mois
Variable dépendante: ventes
Test de Tukey
(I) (J) Différence des Erreur Sig. Intervalle de confiance à 95%
mois mois moyennes (I-J) standard Borne Limite
inférieure supérieure
février -,56 1,055 ,856 -3,14 2,02
janvier
mars -4,00* 1,055 ,002 -6,58 -1,42
janvier ,56 1,055 ,856 -2,02 3,14
février
mars -3,44* 1,055 ,007 -6,02 -,86
janvier 4,00* 1,055 ,002 1,42 6,58
mars
février 3,44* 1,055 ,007 ,86 6,02
D’après les significations on peut conclure qu’il y a une différence entre janvier et mars et entre
février et mars par rapport aux ventes quotidiennes d’ordinateurs
.
ventes
Test de Tukey
mois N Sous-ensemble
1 2
janvier 16 7,13
février 16 7,69
mars 16 11,13
Sig. ,856 1,000
Il y a deux groupes, les mois janvier février d’une part et le mois de mars d’autre part. au mois
de mars, on a réalisé les ventes moyennes les plus élevées.
100
2.5. PROPOSITIONS D’ETUDE DE CAS D’APPLICATION.
2.5.1. Analyse de la variance à un facteur.
24 têtes d’ovin ont reçu 6 alimentations différentes pour constituer 4 répétitions et on a

enregistré les gains moyens quotidiens en poids suivants :
Alim. 1 Alim. 2 Alim. 3 Alim. 4 Alim. 5 Alim. 6

590 460 600 640 690 690
760 430 460 660 600 650
700 540 610 720 550 680
640 470 510 580 480 740
Au seuil de 5 %, existe-t-il une différence significative quant à l’effet des différentes

alimentations sur le gain moyen quotidien en poids des ovins ?
2.5.2. Analyse de la variance à deux facteurs sans répétition.
On a mis au point quatre techniques différentes, T 1, T2, T3, et T4 pour la promotion d’un
produit. On a alors décidé de toutes les essayer et d'utiliser les opérateurs qualifiés pour
comparer les dites techniques. On s'attend à ce qu'il y ait des différences importantes entre
opérateurs et peut-être aussi entre techniques. 5 opérateurs ont été assignés aux 4 techniques.
Voici les nombres d’unités vendues enregistrées lors de ces tests.
Données numériques
Opérateurs \ Techniques T1 T2 T3 T4
O1 42 45 55 50
O2 39 41 52 46
O3 38 39 48 42
O4 43 45 54 48
O5 44 45 56 49
Y a-t-il des différences significatives au niveau 5% entre les cinq opérateurs d'une part et entre
les quatre techniques d'autre part quant au nombre moyen d’unités vendues ?
101
2.5.3. Analyse de la variance à deux facteurs avec répétition.
On a demandé à 24 ouvriers de prédire le nombre d’heures nécessaires pour l’assemblage d’une

machine. Les ouvriers ont été classifiés selon leur type d’expérience et leur nombre d’années
d’expérience. Quand le projet fut terminé, tous sans exception avaient sous-estimé le temps
effectivement requis pour accomplir cette tâche. Dans le tableau qui suit, on a ces erreurs de
prévision (en heures).
Données numériques
NOMBRE D’ANNEES D’EXPERIENCE

TYPE D’EXPERIENCE
Dans grande entreprise 25 12 10
22 10 9
18 14 11
20 8 8
Dans petite entreprise 30 20 14
38 28 15
45 29 26
44 28 24
Que ce soit sous l'angle «Type d'expérience» ou «Nombre d'années d'expérience», existe-t-il
globalement des différences significatives entre les groupes (seuil 5%)?
102

ANOVA

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

ANOVA

Uploaded by

Copyright:

Available Formats

Analyse des données. 2.

A partir d'échantillons aléatoires provenant de populations normales N (µ ,  ), N(µ ,  ),

aux J populations normales.

L’analyse de la variance permet de tester les hypothèses suivantes :

- emploi de méthodes d'analyse non paramétriques, lesquelles ne présupposent pas la normalité

2.2. ANALYSE DE LA VARIANCE À UN FACTEUR.

L’analyse de la variance à un facteur, ANOVA1 permet d’expliquer les variations de la variable

Matrice des données

Population P1 : N(m1,1) P1 : N(m2,2) … P1 : N(mj,j)

2.2.1. Équation fondamentale de l'analyse de la variance.

2.2.1.1. Estimation de ² par ̂ T

2.2.1.2. Estimation de ²par ̂ M

2.2.1.3. Estimation de ² par ̂ C2

L'équation fondamentale de l'analyse de la variance décompose la variabilité totale (STC) entre

STC = SCF + SCE

2.2.2. Tableau d'analyse de la variance à un seul facteur.

Analyse de la variance à un facteur

Somme des Degrés de Moyenne des

seuil  si et seulement si la valeur de la statistique F˜ = M CF , est plus grande que la valeur

2.2.3. Modèles d’analyse de la variance.

2.2.3.1. Modèle à effets fixes.

2.2.3.2. Modèle à effets aléatoires.

2.2.4. Comparaisons multiples de moyennes.

La théorie statistique a développé plusieurs méthodes de comparaisons multiples de moyennes.

2.2.4.1. Méthode de Scheffé.

2.2.4.2. Méthode de Tukey.

2.2.4.3. Méthode de Duncan.

2.2.4. Application numérique.

24 vendeurs ont utilisé 6 techniques de vente différentes pour constituer 4 répétitions et on a

Formulation de l’hypothèse nulle

Tableau d'analyse de variance

Reprenons les données et calculons les trois sommes des carrés:

SCE = 215595,83 - 139520,83 = 76075

Ce qui permet la construction du tableau de l'analyse de variance.

Tableau d’analyse de variance à un facteur

Le logiciel SPSS fournit directement le tableau d’analyse de la variance par la procédure

A partir du menu, sélectionnez :

Dans la boite de dialogue ANOVA à un facteur :

Dans Liste variables dépendantes, sélectionnez la variable à expliquer métrique.

Dans PostHoc, sélectionnez les méthodes de comparaison multiples de moyennes.

Ventes quotidiennes moy ennes

Variable dépendante: Ventes quotidiennes moy ennes

Interv alle de conf iance à

Technique de vente N Sous-ensemble pour alpha = 0.05

On distingue 2 groupes de techniques, le 1er composé de T2, T3 et T5 et le 2eme groupe

Le 2eme groupe réalise les meilleures ventes.

2.3. ANALYSE DE LA VARIANCE À DEUX FACTEURS SANS REPETITION.

L’analyse de la variance à deux facteurs, ANOVA2 permet d’expliquer les variations de la

Matrice des données

Facteur B 1 2 ..... J Total Moyenne

2.3.1. Tableau d'analyse de la variance à deux facteurs sans répétition.

Analyse de la variance à deux facteurs sans répétition

Source de Somme des Degrés de Moyenne

2.3.2. Modèles d’analyse de la variance.

2.3.2.1. Modèle à effets fixes.

2.3.2.2. Modèle à effets aléatoires.

2.3.2.3. Modèle à effets mixtes.

2.3.3. Applications numériques.

Formulation de l’hypothèse nulle

Hypothèse alternative H1 : le sexe a un effet sur la consommation du produit de luxe.

Pour les tranches d’âge :

Hypothèse alternative H1 : la tranche d’âge a un effet sur la consommation du produit de luxe.

Tableau d'analyse de variance

Reprenons les données et calculons les quatre sommes des carrés :