You are on page 1of 50

Analyse des données. 2.

Analyse de la variance

ANALYSE DE LA VARIANCE

2.1. INTRODUCTION.

En analyse de la variance, on cherche à expliquer les variations d’une variable métrique Y par
un ou plusieurs facteurs explicatifs nominaux. Le principe de l’analyse de variance consiste à
tester l'égalité des moyennes de J populations normales dans lesquelles on suppose que les
variances sont égales ( 12 =  22 = .... =  2J =  2 ), même si elles demeurent inconnues.

A partir d'échantillons aléatoires provenant de populations normales N (µ ,  ), N(µ ,  ),


2 2

1 2
... , N(µ ,  ), l'analyse de la variance s'appuie sur la comparaison de deux variances
2

J
empiriques qui sont en réalité des estimations indépendantes du même paramètre  commun
2

aux J populations normales.

L’analyse de la variance permet de tester les hypothèses suivantes :


Ho : µ1 = µ2 = ... = µJ
H1 : au moins une des moyennes est différente des autres.

Quand l'hypothèse de l'égalité des moyennes est rejetée, les méthodes de comparaisons
multiples permettent de déterminer où se situent en réalité les différences importantes.

Quand les conditions d’application de l’analyse de la variance (variances ne sont pas égales ou
quand les observations ne sont pas distribuées normalement), plusieurs solutions peuvent être
envisagées.

- transformation des données : Les transformations les plus utilisées sont la racine carrée des
observations, le logarithme et la réciproque.

- emploi de méthodes d'analyse non paramétriques, lesquelles ne présupposent pas la normalité


des observations ni l'égalité des variances.

53
Analyse des données. 2. Analyse de la variance

Si les tailles des échantillons sont du même ordre de grandeur, il sera possible d'invoquer la
robustesse du test de l'analyse de la variance et éviter la modification des données originales.
Dans ce cas, même si les postulats ne sont pas totalement satisfaits, les résultats de l'analyse de
la variance demeurent quand même crédibles.

Les modèles varient selon le nombre de facteurs contrôlés. On aura ainsi le modèle à un
facteur, le modèle à 2 facteurs sans interaction et le modèle à 2 facteurs avec interaction.

2.2. ANALYSE DE LA VARIANCE À UN FACTEUR.

L’analyse de la variance à un facteur, ANOVA1 permet d’expliquer les variations de la variable


dépendante Y par un seul facteur explicatif. Les données proviennent d'échantillons prélevés
aléatoirement dans des populations normales dans lesquelles les variances sont supposées
égales. Les données sont regroupées dans un tableau appelé matrice de données.

Matrice des données

Population P1 : N(m1,1) P1 : N(m2,2) … P1 : N(mj,j)


Y11 Y12 Y1j
Y21 Y22 … Y2j
… … …
yn11 yn22 ynjj
Total T1 T2 … Tj
Moyenne − −
… −
Y1 Y2 Yj
Variance S² 1 S² 2 … S² j

Par exemple, Y21 représente la deuxième observation prélevée de la première population. Dans
chaque échantillon, on a aussi calculé le total des observations, la moyenne et la variance.
N = n 1 + n 2 + ...+ n J Grand total = T Moyenne générale = Y

2.2.1. Équation fondamentale de l'analyse de la variance.

L'analyse de la variance développée par Fisher repose sur la comparaison de deux estimateurs
de la variance ² commune aux J populations normales.

54
Analyse des données. 2. Analyse de la variance

2.2.1.1. Estimation de ² par ̂ T


2

Un premier estimateur de ², noté ̂ T , est obtenu à partir de l'ensemble des N observations en
2

divisant la somme totale des carrés, STC, par ses degrés de liberté, soit (N-1) :

 ( )
J nj
2
Yij − Y
STC j=1 i =1
ˆ T =
2
=
N −1 N −1
̂ T2 est un estimateur non biaisé de ² seulement si l'hypothèse nulle est vraie. Dans le cas
où au moins une des moyennes est différente des autres, on peut montrer que ̂ T surestime ².
2

2.2.1.2. Estimation de ²par ̂ M


2

Un deuxième estimateur de ², noté ̂ M , est obtenu cette fois en mesurant la variabilité
2

existante entre les moyennes des échantillons. On l'appelle aussi la moyenne des carrés inter-
groupes, ou la moyenne des carrés due au facteur (MCF); elle est calculée en divisant la somme
des carrés due au facteur (SCF) par ses degrés de liberté, (J-1) :

 n (Y − Y )
J
2
j j
SCF j =1
ˆ 2M = MCF = =
J −1 J −1

Comme le premier estimateur, ce deuxième estimateur de ², MCF, est non biaisé seulement si
l'hypothèse nulle est vraie. Dans le cas où au moins une des moyennes est différente des autres,
MCF surestime ².

2.2.1.3. Estimation de ² par ̂ C2

Un troisième estimateur de ² est obtenu cette fois en combinant les variances intra-
2 2
échantillons ( S1 , S 2 , ..., S 2J ). La pondération attribuée à S 2j sera égale aux degrés de liberté de
cette statistique, soit (n j − 1) . L'estimateur est appelé la moyenne des carrés due à l'erreur
(MCE) et il est donné par les expressions équivalentes suivantes :

 (n − 1)S 2j  (Y )
J J nj
2
j ij − Yj
SCE j =1 j =1 i =1
ˆ C2 = MCE = = =
N−J N−J N−J

Ce troisième estimateur de ², MCE, est toujours non biaisé, que les moyennes des populations
normales soient égales ou non.

55
Analyse des données. 2. Analyse de la variance

L'équation fondamentale de l'analyse de la variance décompose la variabilité totale (STC) entre


les observations en une part due aux différences entre les modalités du facteur (SCF) et une part
de variabilité résiduelle (SCE).

STC = SCF + SCE

Les trois sommes de carrés présentées plus haut sont calculées par les formules suivantes :

nj
J
T2
STC =  Yij2 −
j= i i =1 N
J T j2 T2
SCF =  −
j= i nj N
SCE = STC - SCF

2.2.2. Tableau d'analyse de la variance à un seul facteur.

Il est d'usage de présenter les résultats d'une analyse de variance à un seul facteur dans un
tableau comme celui-ci :

Analyse de la variance à un facteur

Somme des Degrés de Moyenne des


Source de de variation F observé
carrés liberté carrés
Facteur SCF J-1 MCF M CF
M CE
Erreur SCE N-J MCE
Totale SCT N-1

Quand Ho est vraie, le rapport M CF obéit à une loi de Fisher avec (J-1) et (N-J) degrés de
M CE
liberté. On devra rejeter l'hypothèse nulle de l'égalité des moyennes H o : µ1 = µ2 = ... = µJ au

seuil  si et seulement si la valeur de la statistique F˜ = M CF , est plus grande que la valeur


M CE
critique de la table de Fisher au seuil 1- et avec (J-1) et (N-J) degrés de liberté ou, de façon
tout à fait équivalente, si et seulement si la probabilité associée (appelée P-value ou Prob ou
Niveau descriptif du test) à la statistique F˜ calculée est plus petite que le niveau de
signification fixé .

56
Analyse des données. 2. Analyse de la variance

2.2.3. Modèles d’analyse de la variance.

2.2.3.1. Modèle à effets fixes.

Le modèle est dit à effets fixes quand l'inférence statistique découlant de l'analyse de la
variance porte seulement sur les modalités du facteur considéré, c'est-à-dire seulement sur les J
«traitements» utilisés dans l'expérience. Un tel modèle est parfois appelé modèle I. Une
répétition de l'expérience aléatoire ferait appel nécessairement aux mêmes traitements.

2.2.3.2. Modèle à effets aléatoires.

Le modèle est dit à effets aléatoires ou modèle II quand l'inférence statistique ne porte pas sur
les quelques traitements choisis dans une expérience particulière, mais bien sur l'ensemble des
traitements possibles et disponibles. Les traitements sont choisis aléatoirement dans une
population de traitements à chaque fois que l'on répète l'expérience.

2.2.4. Comparaisons multiples de moyennes.

Quand le test de l'analyse de la variance est significatif, nous devons conclure qu'il existe des
différences importantes entre certaines des moyennes de ces populations normales. Dans ce cas,
la comparaison multiples de moyennes cherche à déterminer un classement des moyennes en
indiquant les différences significatives et celles qui ne le sont pas.

La théorie statistique a développé plusieurs méthodes de comparaisons multiples de moyennes.

2.2.4.1. Méthode de Scheffé.

Cette méthode s'applique à des échantillons de tailles égales ou non. Elle permet d'effectuer
toutes les comparaisons possibles, elle est appliquée pour des comparaisons par paires.

2.2.4.2. Méthode de Tukey.

Cette méthode s'applique aussi pour toutes les comparaisons possibles; elle est cependant
recommandée pour des comparaisons impliquant seulement deux moyennes. Nous
l’appliquerons ici uniquement pour des comparaisons par paires.

2.2.4.3. Méthode de Duncan.

Cette méthode est utilisée pour effectuer la comparaison de toutes les paires de moyenne. Pour
que deux moyennes d’échantillons soient déclarées différentes à un seuil de 5%, il faut que leur
différence en valeur absolue excède une nouvelle quantité donnée par

Wr =qr;0,05; MCE
n
57
Analyse des données. 2. Analyse de la variance

Le terme qr;0,05; est lu dans une table spéciale construite elle aussi à partir de la distribution
d'échantillonnage de «l'étendue studentisée»: il dépend du nombre de degrés de liberté  de la
moyenne des carrés due à l'erreur et du paramètre r, le nombre de moyennes dans l'ensemble
ordonné considéré.

2.2.4. Application numérique.

24 vendeurs ont utilisé 6 techniques de vente différentes pour constituer 4 répétitions et on a


enregistré les ventes moyennes quotidiennes d’un produit en nombre d’unités vendues :

T1 T2 T3 T4 T5 T6
590 460 600 640 690 690
760 430 460 660 600 650
700 540 610 720 550 680
640 470 510 580 480 740

Au seuil de 5 %, existe-t-il une différence significative quant à l’effet des différentes techniques
de vente sur les ventes moyennes quotidiennes de ce produit ?

Pour répondre à cette question, il faut comparer les ventes moyennes quotidiennes des 6
techniques de vente. Il s’agit de tester l'égalité de plusieurs moyennes, c’est une analyse de
variance à un facteur (ANOVA1).

Formulation de l’hypothèse nulle

Il s’agit de tester globalement l'égalité des moyennes des 6 populations supposées normales
dans lesquelles on suppose que les variances sont égales.

Ho: m1 = m2 = m3 = m4 = m5 = m6
H1: au moins une des moyennes est différente des autres.

58
Analyse des données. 2. Analyse de la variance

Tableau d'analyse de variance

Reprenons les données et calculons les trois sommes des carrés:

T1 T2 T3 T4 T5 T6
590 460 600 640 690 690
760 430 460 660 600 650
700 540 610 720 550 680
640 470 510 580 480 740
Total 2690 1900 2180 2600 2320 2760 14450

J nj

 Y
T² 14450²
STC = 2
ij
− = 590² + 760² + ... + 740² − = 215595,83
j= i i =1 N 24

J
Tj2
n
T² 2690² 1900² 2760² 14450²
SCF = − = + + ... + − = 139520,83
j= i j
N 4 4 4 24

SCE = 215595,83 - 139520,83 = 76075

Ce qui permet la construction du tableau de l'analyse de variance.

Tableau d’analyse de variance à un facteur

Source de variation Somme des carrés Degrés de liberté Moyenne des carrés F obs
techniques de vente 139520,83 5 27904,17 6,6
Erreur 76075 18 4226,39
Totale 215595,83 23

A un seuil  = 5%, on ne peut pas conclure que les ventes moyennes quotidiennes soient les
mêmes, en moyenne, pour les 6 techniques de vente puisque la valeur observée 6,6 de F est
supérieure à la valeur critique F 0,95 à 5 et 18 dl = 2,77 obtenue de la distribution de
Fisher à 5 et 18 degrés de liberté.

Les variations des ventes entre les techniques sont 6,6 fois plus grandes que les variations des
ventes au sein d’une même technique.

Le logiciel SPSS fournit directement le tableau d’analyse de la variance par la procédure


suivante :

59
Analyse des données. 2. Analyse de la variance

60
Analyse des données. 2. Analyse de la variance

A partir du menu, sélectionnez :

Analyse
Comparer les moyennes
ANOVA à un facteur

61
Analyse des données. 2. Analyse de la variance

Dans la boite de dialogue ANOVA à un facteur :

Dans Liste variables dépendantes, sélectionnez la variable à expliquer métrique.


Dans critère, sélectionnez le facteur explicatif.

62
Analyse des données. 2. Analyse de la variance

Dans PostHoc, sélectionnez les méthodes de comparaison multiples de moyennes.


Cocher Tukey

63
Analyse des données. 2. Analyse de la variance

ANOVA

Ventes quotidiennes moy ennes


Somm e Moy enne
des carrés ddl des carrés F Signif ication
Inter-groupes 139520,833 5 27904,167 6,602 ,001
Intra-groupes 76075,000 18 4226,389
Total 215595,833 23

Les variations des ventes entre les techniques sont 6,6 fois plus grandes que les variations des
ventes au sein d’une même technique.

A un seuil  = 5%, on ne peut pas conclure que les ventes moyennes quotidiennes soient les
mêmes, en moyenne, pour les 6 techniques de vente puisque la probabilité de signification est
inferieure au seuil de 5 %.

64
Analyse des données. 2. Analyse de la variance

Comparaisons multiples

Variable dépendante: Ventes quotidiennes moy ennes


Test de Tukey

Interv alle de conf iance à


Dif f érence de 95%
moy ennes Erreur Borne Borne
(I) Techniques de v ente (J) Techniques de v ente (I-J) standard Signif ication inf érieure supérieure
T1 T2 197,50* 45,97 ,005 51,41 343,59
T3 127,50 45,97 ,108 -18,59 273,59
T4 22,50 45,97 ,996 -123,59 168,59
T5 92,50 45,97 ,374 -53,59 238,59
T6 -17,50 45,97 ,999 -163,59 128,59
T2 T1 -197,50* 45,97 ,005 -343,59 -51,41
T3 -70,00 45,97 ,655 -216,09 76,09
T4 -175,00* 45,97 ,014 -321,09 -28,91
T5 -105,00 45,97 ,250 -251,09 41,09
T6 -215,00* 45,97 ,002 -361,09 -68,91
T3 T1 -127,50 45,97 ,108 -273,59 18,59
T2 70,00 45,97 ,655 -76,09 216,09
T4 -105,00 45,97 ,250 -251,09 41,09
T5 -35,00 45,97 ,971 -181,09 111,09
T6 -145,00 45,97 ,052 -291,09 1,09
T4 T1 -22,50 45,97 ,996 -168,59 123,59
T2 175,00* 45,97 ,014 28,91 321,09
T3 105,00 45,97 ,250 -41,09 251,09
T5 70,00 45,97 ,655 -76,09 216,09
T6 -40,00 45,97 ,949 -186,09 106,09
T5 T1 -92,50 45,97 ,374 -238,59 53,59
T2 105,00 45,97 ,250 -41,09 251,09
T3 35,00 45,97 ,971 -111,09 181,09
T4 -70,00 45,97 ,655 -216,09 76,09
T6 -110,00 45,97 ,210 -256,09 36,09
T6 T1 17,50 45,97 ,999 -128,59 163,59
T2 215,00* 45,97 ,002 68,91 361,09
T3 145,00 45,97 ,052 -1,09 291,09
T4 40,00 45,97 ,949 -106,09 186,09
T5 110,00 45,97 ,210 -36,09 256,09
*. La dif f érence de moy ennes est signif icativ e au niv eau . 05.

65
Analyse des données. 2. Analyse de la variance

D’après le tableau des comparaisons multiples selon la méthode de tukey, une signification
inférieure au seuil de 0,05 permet de repérer les techniques de vente qui donnent des résultats
différents, ainsi les techniques T1 et T2 permettent des ventes quotidiennes moyennes
différentes (signification = 0,005), il en est de même pour les techniques T2 et T4 (signification
= 0,014) et les techniques T2 et T6 (signification = 0,02).

Ventes
Test de Tukey

Technique de vente N Sous-ensemble pour alpha = 0.05

1 2

T2 4 475,00
T3 4 545,00 545,00
T5 4 580,00 580,00
T4 4 650,00
T1 4 672,50
T6 4 690,00
Signification ,250 ,052

On distingue 2 groupes de techniques, le 1er composé de T2, T3 et T5 et le 2eme groupe


composé de T1, T4 et T6.

Le 2eme groupe réalise les meilleures ventes.

2.3. ANALYSE DE LA VARIANCE À DEUX FACTEURS SANS REPETITION.

L’analyse de la variance à deux facteurs, ANOVA2 permet d’expliquer les variations de la


variable dépendante Y par deux facteurs explicatifs. Les données proviennent d'échantillons
prélevés aléatoirement dans des populations normales dans lesquelles les variances sont
supposées égales. Les données sont regroupées dans un tableau appelé matrice de données.

66
Analyse des données. 2. Analyse de la variance

Matrice des données

Facteur B 1 2 ..... J Total Moyenne


Facteur A
1 Y11 Y12 ..... Y1J T1• Y1 •
2 Y21 Y22 ...... Y2J T2 • Y2•
3 .... Y32 ......
....... etc.........
I YI1 YI2 .... YIJ TI • YI •
Total T•1 T•2 .... T•J T
Moyenne Y•1 Y•2 .... Y• J Y

Ainsi, Y32 représente la valeur de l'observation prélevée quand le premier facteur est à son
troisième niveau (ou modalité) et que le second facteur est à son deuxième niveau; par ailleurs,
T 2 • et Y2• désignent le total et la moyenne des observations quand le premier facteur est
maintenu à son deuxième niveau (l'indice sur lequel la sommation a été effectuée est remplacé
par un •).

Toutes les combinaisons possibles des modalités des facteurs donnent lieu à IJ «traitements». A
remarquer qu'il n'y a qu'une seule observation pour chaque traitement, c'est-à-dire une seule
valeur numérique dans chacune des cellules du tableau.

67
Analyse des données. 2. Analyse de la variance

2.3.1. Tableau d'analyse de la variance à deux facteurs sans répétition.

Les résultats d'une analyse de la variance à deux facteurs sans répétition se présentent dans un
tableau comme celui-ci :

Analyse de la variance à deux facteurs sans répétition

Source de Somme des Degrés de Moyenne


F observé
variation carrés liberté des carrés
Facteur A SCFA I-1 MCFA MCFA / MCE
Facteur B SCFB J-1 MCFB MCFB / MCE
Erreur SCE (I-1)(J-1) MCE
Totale STC IJ-1

Les diverses sommes des carrés et moyennes des carrés sont calculées à l'aide des formules
suivantes :
I J
T2
STC = 
i =1 j =1
Yij2 −
IJ
I
Ti2• T 2
SCFA = 
i =1 J

IJ
J
T•2j T2
SCFB = 
j =1 I

IJ
SCE =STC−SCFA −SCFB

En se basant sur les résultats présentés au tableau, on déduit que les tests sur le facteur A et sur
le facteur B s'effectuent exactement comme dans le cas de l’analyse de la variance à un facteur,
MCFA MCFB
à savoir au moyen des statistiques et
MCE MCE

2.3.2. Modèles d’analyse de la variance.

2.3.2.1. Modèle à effets fixes.

Le modèle est dit à effets fixes quand l'inférence statistique découlant de l'analyse de la
variance porte seulement sur les modalités des facteurs A et B considérés, c'est-à-dire
seulement sur les IJ traitements utilisés dans l'expérience. Un tel modèle est appelé modèle I.
Une répétition de l'expérience aléatoire ferait appel nécessairement aux mêmes traitements.

2.3.2.2. Modèle à effets aléatoires.

68
Analyse des données. 2. Analyse de la variance

Le modèle est dit à effets aléatoires ou modèle II quand l'inférence statistique ne porte pas sur
les IJ traitements choisis dans une expérience particulière donnée, mais bien sur l'ensemble des
traitements disponibles. les modalités des facteurs A et B sont choisies aléatoirement dans des
«populations» de modalités à chaque fois que l'on répète l'expérience.

2.3.2.3. Modèle à effets mixtes.

Quand les différents niveaux d'un premier facteur sont les mêmes d'une expérience à l'autre
alors que les niveaux d'un autre facteur sont choisis aléatoirement à chaque reprise de
l'expérience, on dit que le modèle est à effets mixtes, aussi appelé modèle III.

2.3.3. Applications numériques.

Application 1

L'expérience suivante avait pour but d'analyser l'impact des 2 facteurs Sexe et Âge sur la
consommation d'un certain produit de luxe. Dans chacun des 6 groupes, le produit a été offert à
100 personnes choisies au hasard. La consommation, en nombre d’unités achetées, est donnée
dans le tableau qui suit :

Catégorie d'âge
Sexe
Moins de 20 ans Entre 20 et 45 ans Plus de 45 ans
Féminin 27 39 54
Masculin 32 45 62
Total 59 84 116

On suppose que les nombres d’unités achetées obéissent à des lois normales, que les variances
sont égales dans ces six populations.

Quant au nombre d’unités achetées en moyenne, peut-on affirmer au niveau 5% qu'il y a une
différence significative entre hommes et femmes d'une part, et entre les trois groupes d'âge,
d'autre part?

Pour répondre à cette question, il faut comparer la consommation moyenne du produit de luxe
dans chacun des 6 groupes. Il s’agit de tester l'égalité de plusieurs moyennes, c’est une analyse
de variance à deux facteurs (ANOVA2) sans interaction.

Formulation de l’hypothèse nulle

69
Analyse des données. 2. Analyse de la variance

Il s’agit de tester globalement l'égalité des moyennes des populations supposées normales dans
lesquelles on suppose que les variances sont égales.

Pour le sexe:

Hypothèse nulle H0 : le sexe n’a aucun effet sur la consommation du produit de luxe.

Hypothèse alternative H1 : le sexe a un effet sur la consommation du produit de luxe.

Pour les tranches d’âge :

Hypothèse nulle H0 : la tranche d’âge n’a aucun effet sur la consommation du produit de luxe.

Hypothèse alternative H1 : la tranche d’âge a un effet sur la consommation du produit de luxe.

Tableau d'analyse de variance

Reprenons les données et calculons les quatre sommes des carrés :

Catégorie d'âge
Sexe Total
Moins de 20 ans Entre 20 et 45 ans Plus de 45 ans
Féminin 27 39 54 120
Masculin 32 45 62 139
Total 59 84 116 259

I J

 Y
T² 259²
STC = 2
ij
− = 27² + 39² + ...+ 62² − = 878,83
i =1 j =1 IJ 6
I
Ti2• 120² + 139²

T² 259²
SCFA = − = − = 60,17
i =1 J IJ 3 6
J
59² + 84² + 116²
T•2j

T² 259²
SCFB = − = − = 816,33
I IJ
j =1 2 6
SCE = 878,83 - 60,17 - 816,33 = 2,33

70
Analyse des données. 2. Analyse de la variance

Ce qui permet la construction du tableau de l'analyse de variance ci-dessous.

Source devariation Somme descarrés D.L. Moyenne descarrés F


Sexe 60,17 1 60,17 51,43
Age 816,33 2 408,17 348,86
Erreur 2,33 2 1,17
Total 878,83 5

En examinant les valeurs F observées 51,43 et 348,86 qui sont toutes deux supérieurs aux
valeurs théoriques F 0,95 à 1 et 2 dl = 18,51 et F 0,95 à 2 et 2 dl = 19 on peut rejeter les deux
hypothèses nulles et conclure qu'il y a d'une part, des différences significatives entre les deux
sexes quant à la consommation du produit de luxe et d'autre part, des différences significatives
entre les trois catégories d’âge.

Le logiciel SPSS fournit directement le tableau d’analyse de la variance par la procédure


suivante :

71
Analyse des données. 2. Analyse de la variance

72
Analyse des données. 2. Analyse de la variance

A partir du menu, sélectionnez :

Analyse
Modèle linéaire général
Univarié...

73
Analyse des données. 2. Analyse de la variance

Dans la boite de dialogue Univarié :


Dans variables dépendantes, sélectionnez la variable à expliquer métrique.
Dans Facteur(s), sélectionnez les deux facteurs explicatifs.

74
Analyse des données. 2. Analyse de la variance

Dans Modèle, cocher Personnalisé.


Dans Terme(s) construit(s), choisissez effets principaux.
Dans modèle, glisser les deux facteurs explicatifs.
Dans somme des carrés, spécifiez le type de modèle.

75
Analyse des données. 2. Analyse de la variance

Dans PostHoc, sélectionnez les méthodes de comparaison multiples de moyennes.


Dans Tests post hoc pour, glisser les deux facteurs explicatifs.
Cocher Tukey

76
Analyse des données. 2. Analyse de la variance

Tests des effets inter-sujets

Variable dépendante: consommation, en nombre d'unités achetées


Somm e
des carrés Moy enne
Source de ty pe I ddl des carrés F Signif ication
Modèle corrigé 876,500a 3 292,167 250,429 ,004
Constante 11180,167 1 11180,167 9583,000 ,000
SEXE 60,167 1 60,167 51,571 ,019
AGE 816,333 2 408,167 349,857 ,003
Erreur 2,333 2 1,167
Total 12059,000 6
Total corrigé 878,833 5
a. R deux = ,997 (R deux ajusté = ,993)

Les variations des consommations entre les deux sexes sont 52 fois plus grandes que les
variations des consommations pour le même sexe.
Les variations des consommations entre les tranches d’âge sont 350 fois plus grandes que les
variations des consommations dans la même tranche d’âge.

Les variations des consommations entre les tranches d’âge sont plus importantes que les
variations des consommations entre les deux sexes.

En examinant les probabilités de signification 0,019 et 0,003 qui sont toutes deux inférieures au
seuil de 5 % on peut rejeter les deux hypothèses nulles et conclure qu'il y a d'une part, des
différences significatives entre les deux sexes quant à la consommation du produit de luxe et
d'autre part, des différences significatives entre les trois catégories d’âge.

77
Analyse des données. 2. Analyse de la variance

Tests post hoc


Catégorie d'âge
Comparaisons multiples
Variable dépendante: consommation
Test de Tukey
(I) (J) catégorie d'âge Différence Erreur Sig. Intervalle de confiance à
catégorie des standard 95%
d'âge moyennes Borne Limite
(I-J) inférieure supérieure
moins de 20 à 45 ans -12,50* 1,080 ,013 -18,86 -6,14
20 ans plus de 45 ans -28,50* 1,080 ,003 -34,86 -22,14
20 à 45 moins de 20 ans 12,50* 1,080 ,013 6,14 18,86
ans plus de 45 ans -16,00* 1,080 ,008 -22,36 -9,64
plus de 45 moins de 20 ans 28,50* 1,080 ,003 22,14 34,86
ans 20 à 45 ans 16,00* 1,080 ,008 9,64 22,36

D’après les significations toutes inférieures au seuil de 5 % on peut conclure que les trois
tranches d’âge sont différentes par rapport à la consommation du produit de luxe.

Sous-ensembles homogènes
consommation
Test de Tukey

catégorie d'âge N Sous-ensemble

1 2 3

moins de 20 ans 2 29,50


20 à 45 ans 2 42,00
plus de 45 ans 2 58,00
Sig. 1,000 1,000 1,000

Il y a trois groupes, la consommation du produit de luxe varie d’une tranche d’âge à l’autre.

78
Analyse des données. 2. Analyse de la variance

Application 2

On veut comparer 4 types d'essence: A, B, C et D. On dispose de 4 voitures de chacune des


marques I, II, III et IV. La variable étudiée est le nombre de kilomètres parcourus avec un litre
d'essence. Les résultats sont présentés dans le tableau suivant:

Marque
I II III IV Total
Type essence
A 21 26 20 25 92
B 23 26 20 27 96
C 15 13 16 16 60
D 17 15 20 20 72
Total 76 80 76 88 320

Quant au nombre de kilomètres parcourus avec un litre d'essence en moyenne, peut-on affirmer au
niveau de 5 % qu'il y a une différence significative entre les 4 types d'essence d'une part, et entre les
4 marques de voitures d'autre part?

79
Analyse des données. 2. Analyse de la variance

80
Analyse des données. 2. Analyse de la variance

81
Analyse des données. 2. Analyse de la variance

82
Analyse des données. 2. Analyse de la variance

83
Analyse des données. 2. Analyse de la variance

1) Hypothèses

Pour la marque :

H0 : La marque n’a aucun effet sur la consommation

H1 : Au moins une marque est différente des autres

Pour le type d’essence :

H0 : le type d’essence n’a aucun effet sur la consommation


H1 : Au moins un type d’essence est différent des autres

84
Analyse des données. 2. Analyse de la variance

Analyse de variance univariée

Tests des effets inter-sujets


Variable dépendante: Nombre de km avec un litre d'essence
Somme des Moyenne des
Source carrés de type I ddl carrés D Sig.
Modèle corrigé 240,000a 6 40,000 6,429 ,007
Ordonnée à l'origine 6400,000 1 6400,000 1028,571 ,000
marque 24,000 3 8,000 1,286 ,337
type 216,000 3 72,000 11,571 ,002
Erreur 56,000 9 6,222
Total 6696,000 16
Total corrigé 296,000 15
a. R deux = ,811 (R deux ajusté = ,685)

2) Probabilité de signification

Pour la marque :

F = 1,286 Sig = 0,337

Les variations des consommations entre les marques sont 1,286 fois plus grandes que
les variations des consommations au sein de la même marque.

Pour le type d’essence :

F = 11,571 Sig = 0,002

Les variations des consommations entre les types d’essence sont 11,571 fois plus grandes que

les variations des consommations au sein du même type d’essence.

85
Analyse des données. 2. Analyse de la variance

3) Décision

Pour la marque : on accepte H0

Pour le type d’essence : on rejette H0

4) Comparaisons multiples

Type d'essence
Comparaisons multiples
Nombre de km avec un litre d'essence
Test de Tukey
Intervalle de confiance à
95%
(I) Type (J) Type Différence des Erreur Borne Limite
d'essence d'essence moyennes (I-J) standard Sig. inférieure supérieure
A B -1,00 1,764 ,939 -6,51 4,51
C 8,00* 1,764 ,006 2,49 13,51
D 5,00 1,764 ,077 -,51 10,51
B A 1,00 1,764 ,939 -4,51 6,51
C 9,00* 1,764 ,003 3,49 14,51
*
D 6,00 1,764 ,033 ,49 11,51
*
C A -8,00 1,764 ,006 -13,51 -2,49
*
B -9,00 1,764 ,003 -14,51 -3,49
D -3,00 1,764 ,377 -8,51 2,51
D A -5,00 1,764 ,077 -10,51 ,51
*
B -6,00 1,764 ,033 -11,51 -,49
C 3,00 1,764 ,377 -2,51 8,51

Il y a une différence significative entre les marques A et C, entre B et C et entre B et D

86
Analyse des données. 2. Analyse de la variance

Sous-ensembles homogènes

Nombre de km avec un litre d'essence


a,b
Test de Tukey
Sous-ensemble
Type d'essence N 1 2 3
C 4 15,00
D 4 18,00 18,00
A 4 23,00 23,00
B 4 24,00
Sig. ,377 ,077 ,939

Il y a deux groupes de type d’essence, le premier groupe compose des types C et D et le

deuxième groupe compose des types A et B. on parcourt plus de kilomètres avec les types

d’essence A et B.

2.4. ANALYSE DE LA VARIANCE À DEUX FACTEURS AVEC REPETITIONS.

L’analyse de la variance à deux facteurs avec répétitions permet d’expliquer les variations de la
variable dépendante Y par deux facteurs explicatifs et de vérifier si l'interaction entre les deux
facteurs est importante. La présence d’interaction entre les deux facteurs signifie que les
résultats sous les niveaux d'un facteur se comportent différemment selon les différents niveaux
de l'autre facteur.

Les données proviennent d'échantillons prélevés aléatoirement dans des populations normales
dans lesquelles les variances sont supposées égales. Les données sont regroupées dans un
tableau appelé matrice de données.

87
Analyse des données. 2. Analyse de la variance

Matrice des données

Facteur B 1 2 J Total Moyenne


Facteur A
Y111 Y121 ... Y1J1
Y112 Y122 Y1J2
1 T1•• Y1••
... ... ...
Y11K Y12K Y1JK
Y211 Y221 Y2J1
Y212 Y222 Y2J2
2 T2•• Y2••
... ... ...
Y21K Y22K Y2JK
... ... ... ... ... ... ...
YI11 YI21 YIJ1
YI12 YI22 YIJ2
I TI •• YI ••
... ... ...
YI1K YI2K YIJK
Total T•1• T•2 • ... T•J • T
Moyenne Y•1• Y•2• Y• J• Y

Par exemple, Y324 renvoie à la quatrième observation prélevée quand le facteur A est à son
troisième niveau (ou modalité) et que le facteur B est à son deuxième niveau. Ainsi, T2 ••
représente le total des observations quand le premier facteur est maintenu à son deuxième
niveau, alors que Y•3• désigne la moyenne des observations quand le second facteur est
maintenu à sa troisième modalité.

Toutes les combinaisons possibles des modalités des facteurs donnent lieu à IJ traitements. A
remarquer enfin qu'il y a ici le même nombre d'observations dans chacune des IJ cellules, soit
K, et cette valeur est supérieure à l'unité.

2.4.1. Tableau d'analyse de la variance à deux facteurs avec répétitions.

Les résultats d'une analyse de la variance à deux facteurs avec répétitions sont habituellement
présentés dans un tableau comme celui-ci :

88
Analyse des données. 2. Analyse de la variance

Analyse de la variance à deux facteurs avec répétitions

Source de Somme des Degrés de Moyenne des


F observé
variation carrés liberté carrés
Facteur A SCFA I-1 MCFA MCFA / MCE
Facteur B SCFB J-1 MCFB MCFB / MCE
Interaction SCI (I-1)(J-1) MCI MCI / MCE
Erreur SCE IJ(K-1) MCE
Totale STC IJK-1

Les diverses sommes des carrés et moyennes des carrés sont calculées à l'aide des formules
suivantes :

I J K
T2
STC = 
i =1 j =1 k =1
Yijk2 −
IJK
2
I
T T2
SCFA =  − i ••

i =1 JK IJK
J
T•2j• T2
SCFB =  IK
j =1

IJK
I J Tij2• I
Ti2•• J T•2j• T2
SCI = 
i =1 j =1 K
− 
i =1 JK
−  IK
j =1
+
IJK
SCE = STC − SCFA − SCFB − SCI

L'analyse de la variance doit vérifier en premier lieu si l'interaction entre les deux facteurs est
importante; si la réponse est négative, on pourra considérer ensuite les deux autres tests
disponibles dans le tableau de l'analyse de la variance.

En se basant sur les résultats présentés au tableau, les tests sur la présence d’interaction, sur le
facteur A et sur le facteur B s'effectuent au moyen des statistiques F dont le calcul dépend du
type de modèle.

- Modèle à effets fixes.

Les tests sur la présence d’interaction, sur le facteur A et sur le facteur B s'effectuent au moyen
MCI MCA MCB
des statistiques ; et .
MCE MCE MCE

89
Analyse des données. 2. Analyse de la variance

- Modèle à effets aléatoires.

Si les deux facteurs sont aléatoires, le test de l'interaction n'est pas modifié. Par contre, les deux
˜ devront avoir MCI comme dénominateur.
autres rapports F

Les tests sur la présence d’interaction, sur le facteur A et sur le facteur B s'effectuent au moyen
MCI MCA MCB
des statistiques ; et .
MCE MCI MCI

- Modèle à effets mixtes.

Si le facteur A est aléatoire et B fixe, les trois tests s'effectuent au moyen des statistiques
suivantes:

~ MCI
Test sur l'interaction: FI =
MCE
~ MCA
Test sur le facteur A: FA =
MCE
~ MCB
Test sur le facteur B: FB =
MCI

2.4.2. Application numérique.

Les ventes quotidiennes d'ordinateurs réalisées par une société informatique durant les 3
premiers mois de 2014, du lundi au jeudi sont comme suit :

90
Analyse des données. 2. Analyse de la variance

Janvier 2014 Février 2014 Mars 2014


lundi 13 9 7
9 5 15
8 8 14
7 12 10
mardi 8 11 17
6 4 14
6 9 12
7 5 13
mercredi 6 10 6
10 2 14
7 8 12
4 3 13
jeudi 1 6 10
10 10 8
7 12 4
5 9 9

Pour répondre à cette question, il faut comparer Les ventes quotidiennes moyennes
d'ordinateurs des 12 combinaisons jour/mois. Il s’agit de tester l'égalité de plusieurs moyennes,
c’est une analyse de variance à deux facteurs (ANOVA2) avec interaction.

Formulation de l’hypothèse nulle

Il s’agit de tester globalement l'égalité des moyennes des 12 populations supposées normales
dans lesquelles on suppose que les variances sont égales.

Pour les mois

Ho: m1 = m2 = m3 m4
H1: au moins une des moyennes est différente des autres.

Pour les jours

Ho: m1 = m2 = m3
H1: au moins une des moyennes est différente des autres.

91
Analyse des données. 2. Analyse de la variance

Pour l’intéraction

Ho: il n’y a pas d’interaction entre les mois et les jours.


H1: il y a interaction entre les mois et les jours.

Tableau d'analyse de variance

Reprenons les données et calculons les cinq sommes des carrés :

Janvier 2014 Février 2014 Mars 2014 Total


lundi 13 9 7
9 5 15 117
8 8 14
7 12 10
37 34 46
mardi 8 11 17
6 4 14 112
6 9 12
7 5 13
27 29 56
mercredi 6 10 6
10 2 14 95
7 8 12
4 3 13
27 23 45
jeudi 1 6 10
10 10 8 91
7 12 4
5 9 9
23 37 31
Total 114 123 178 415

92
Analyse des données. 2. Analyse de la variance

I J K T² 415²
STC =    Y 2 − = 13² + 9² + ... + 9² − = 604,98
i=1 j=1 k =1 ijk IJK 48

I
Ti2•• 117² + 112² + 95² + 91²
 JK
T² 415²
SCFA = − = − = 40,23
i =1 IJK 12 48

2
J T• j• T² 114² 123² 178² 415²
SCF =  − = + + − = 150,04
B j=1 IK IJK 16 16 16 48

2 2 2
I J Tij• I Ti•• J T• j• T²
SCI =   −  −  +
i=1j=1 K i=1 JK j=1 IK IJK

37² + ... + 31² 117² + 112² + 95² + 91² 114² + 123² + 178²
SCI = − −
4 12 8
415²
+ = 93,96
48
SCE = 604,98 – 40,23 – 150,04 – 93,96 = 320,75

Tableau d’analyse de variance à deux facteurs avec répétitions


Source de variation Somme des carrés D.L. Moyenne des carrés F
Jours 40,23 3 13,41 1,51
Mois 150,04 2 75,02 8,42
Interaction 93,96 6 15,66 1,76
Erreur 320,75 36 8,91
Totale 604,98 47

En examinant en tout premier lieu le test sur l’interaction, on peut vérifier que la valeur F I =
1,76 est inférieure à la valeur critique de la table, soit F 0,95 à 6 et 36 dl = 2,36. on doit
conclure qu'il n'y a pas d'interaction significative entre les deux facteurs jours et mois.

93
Analyse des données. 2. Analyse de la variance

Cette constatation justifie la poursuite de l'analyse de la variance. Comme la valeur F A= 1,51


est inférieure à la valeur critique de la table F 0,95 à 3 et 36 dl = 2,87, on doit conclure qu’il
n’existe pas de différences significatives entre les jours. Par contre, comme la valeur F B = 8,42
est supérieure à la valeur critique de la table F 0,95 à 2 et 36 dl = 3,26, on doit conclure qu’il
existe des différences significatives entre les trois mois.

Le logiciel SPSS fournit directement le tableau d’analyse de la variance par la procédure


suivante :

94
Analyse des données. 2. Analyse de la variance

A partir du menu, sélectionnez :

Analyse
Modèle linéaire général Univarié...

95
Analyse des données. 2. Analyse de la variance

Dans la boite de dialogue Univarié :

Dans variables dépendantes, sélectionnez la variable à expliquer métrique.


Dans Facteur(s), sélectionnez les deux facteurs explicatifs.

96
Analyse des données. 2. Analyse de la variance

Dans Modèle, cocher Factoriel complet .


Dans somme des carrés, spécifiez le type de modèle.

97
Analyse des données. 2. Analyse de la variance

Dans PostHoc, sélectionnez les méthodes de comparaison multiples de moyennes.


Dans Tests post hoc pour, glisser les deux facteurs explicatifs.
Cocher Tukey

Les variations des consommations entre les deux sexes sont 52 fois plus grandes que les
variations des consommations pour le même sexe.
Les variations des consommations entre les tranches d’âge sont 350 fois plus grandes que les
variations des consommations dans la même tranche d’âge.

Les variations des consommations entre les tranches d’âge sont plus importantes que les
variations des consommations entre les deux sexes.

98
Analyse des données. 2. Analyse de la variance

Tests des effets inter-sujets

Variable dépendante: VENTE


Somme
des carrés Moy enne
Source de ty pe I ddl des carrés F Signification
Modèle corrigé 284,229a 11 25,839 2,900 ,008
Constante 3588,021 1 3588,021 402,708 ,000
JOUR 40,229 3 13,410 1,505 ,230
MOIS 150,042 2 75,021 8,420 ,001
JOUR * MOIS 93,958 6 15,660 1,758 ,136
Erreur 320,750 36 8,910
Total 4193,000 48
Total corrigé 604,979 47
a. R deux = ,470 (R deux ajusté = ,308)

En examinant les probabilités de signification 0,230 et 0,136 qui sont toutes deux supérieures
au seuil de 5 % on doit conclure qu’il n’existe pas de différences significatives entre les jours et
qu'il n'y a pas d'interaction significative entre les deux facteurs jours et mois.

En examinant la probabilité de signification 0,001 inférieure au seuil de 5% on doit conclure


qu’il existe des différences significatives entre les mois.

99
Analyse des données. 2. Analyse de la variance

Tests post hoc


mois
Comparaisons multiples
Variable dépendante: ventes
Test de Tukey
(I) (J) Différence des Erreur Sig. Intervalle de confiance à 95%
mois mois moyennes (I-J) standard Borne Limite
inférieure supérieure
février -,56 1,055 ,856 -3,14 2,02
janvier
mars -4,00* 1,055 ,002 -6,58 -1,42
janvier ,56 1,055 ,856 -2,02 3,14
février
mars -3,44* 1,055 ,007 -6,02 -,86
janvier 4,00* 1,055 ,002 1,42 6,58
mars
février 3,44* 1,055 ,007 ,86 6,02

D’après les significations on peut conclure qu’il y a une différence entre janvier et mars et entre
février et mars par rapport aux ventes quotidiennes d’ordinateurs
.
Sous-ensembles homogènes
ventes
Test de Tukey

mois N Sous-ensemble

1 2

janvier 16 7,13
février 16 7,69
mars 16 11,13
Sig. ,856 1,000

Il y a deux groupes, les mois janvier février d’une part et le mois de mars d’autre part. au mois
de mars, on a réalisé les ventes moyennes les plus élevées.

100
Analyse des données. 2. Analyse de la variance

2.5. PROPOSITIONS D’ETUDE DE CAS D’APPLICATION.

2.5.1. Analyse de la variance à un facteur.

24 têtes d’ovin ont reçu 6 alimentations différentes pour constituer 4 répétitions et on a


enregistré les gains moyens quotidiens en poids suivants :

Alim. 1 Alim. 2 Alim. 3 Alim. 4 Alim. 5 Alim. 6


590 460 600 640 690 690
760 430 460 660 600 650
700 540 610 720 550 680
640 470 510 580 480 740

Au seuil de 5 %, existe-t-il une différence significative quant à l’effet des différentes


alimentations sur le gain moyen quotidien en poids des ovins ?

2.5.2. Analyse de la variance à deux facteurs sans répétition.

On a mis au point quatre techniques différentes, T 1, T2, T3, et T4 pour la promotion d’un
produit. On a alors décidé de toutes les essayer et d'utiliser les opérateurs qualifiés pour
comparer les dites techniques. On s'attend à ce qu'il y ait des différences importantes entre
opérateurs et peut-être aussi entre techniques. 5 opérateurs ont été assignés aux 4 techniques.
Voici les nombres d’unités vendues enregistrées lors de ces tests.

Données numériques

Opérateurs \ Techniques T1 T2 T3 T4
O1 42 45 55 50
O2 39 41 52 46
O3 38 39 48 42
O4 43 45 54 48
O5 44 45 56 49

Y a-t-il des différences significatives au niveau 5% entre les cinq opérateurs d'une part et entre
les quatre techniques d'autre part quant au nombre moyen d’unités vendues ?

101
Analyse des données. 2. Analyse de la variance

2.5.3. Analyse de la variance à deux facteurs avec répétition.

On a demandé à 24 ouvriers de prédire le nombre d’heures nécessaires pour l’assemblage d’une


machine. Les ouvriers ont été classifiés selon leur type d’expérience et leur nombre d’années
d’expérience. Quand le projet fut terminé, tous sans exception avaient sous-estimé le temps
effectivement requis pour accomplir cette tâche. Dans le tableau qui suit, on a ces erreurs de
prévision (en heures).

Données numériques

NOMBRE D’ANNEES D’EXPERIENCE


TYPE D’EXPERIENCE
Moins de 2 ans Entre 2 et 5 ans Plus de 5 ans
Dans grande entreprise 25 12 10
22 10 9
18 14 11
20 8 8
Dans petite entreprise 30 20 14
38 28 15
45 29 26
44 28 24

Que ce soit sous l'angle «Type d'expérience» ou «Nombre d'années d'expérience», existe-t-il
globalement des différences significatives entre les groupes (seuil 5%)?

102

You might also like