Professional Documents
Culture Documents
Analyse de Données Cours
Analyse de Données Cours
● Ont pour objet de mettre en évidence les relations éventuelles qui existent entre 2
variables analysées simultanément
Y = aX + b
Y X
Variable à expliquer Variable explicative
Endogène Exogène
Dépendante Indépendante
● La régression linéaire
✔ Simple : Explication d’une variable quantitative Y à l’aide d’une variable
également quantitative
✔ Multiple : utilisation de plusieurs variables explicatives (X1, X2…) pour
expliquer Y
● L’analyse de la variance (ANOVA)
● L’analyse discriminante
● L’analyse conjointe (MONANOVA)
● La segmentation
Les méthodes descriptives :
L’analyse canonique :
Références Bibliographiques
Editeur : Dunod
- Etudes de marché
Editeur : Vuibert
Exemples :
● Dans le cadre d’un questionnaire, elles apparaissent chaque fois que la personne
interrogée se voit demander la valeur qu’elle donne à la variable concernée
● Pour chaque individu I, une valeur XIK sera obtenue pour cette variable. Si l’enquête
porte sur n individus, la variable sera associée à un vecteur de n éléments
● La synthétisation de ces données peut être réalisée à travers le calcul de divers
indicateurs que fournissent la plupart des logiciels
● Dans le cadre d’un questionnaire, elles apparaissent chaque fois que la personne
interrogée a le choix entre plusieurs modalités qui lui sont proposées explicitement
ou implicitement (Cas d’une question ouverte avec post-codification)
● Pour chaque individu I, la réponse correspond à un code ou éventuellement à
plusieurs si le choix est multiple
● Sur l’ensemble de la population enquêtée, on calcule alors la fréquence absolue (le
nombre de fois qu’un code j donné est apparu pour la variable k étudiée)
Données qualitatives (Ordinales) :
● Dans le cadre d’un questionnaire, elles apparaissent chaque fois que la personne
interrogée se voit demander de classer plusieurs items proposés
● Sur l’ensemble de la population enquêtée, il sera ainsi possible de comptabiliser :
✔ Le nombre de fois qu’un item donné a été classé en 1ere position, ou en 2e,…
✔ Le nombre de fois qu’un item donné a été classé avant un autre item ; ce type
de résultats permettra d’établir une matrice des préférences
● Le mode : modalité pour laquelle les observations sont les plus nombreuses (Mo)
● La médiane : Valeur qui divise la population étudiée en 2 parties égales (Me)
● La moyenne : Généralement considérée comme « naturellement » la tendance
centrale de la distribution d’une variable numérique : XAk = ∑ XIK / n
● L’étendue : Intervalle qui sépare les deux valeurs extrêmes : E = XMAX – XMIN
● La variance : Moyenne des carrés des écarts par rapport à la moyenne (obtenue sur
échantillon) : S2k = ∑ (XIK – XAK) 2 / (n – 1)
● L’écart-type : Racine carrée de la variance : Sk = [∑(XIK – XAK) 2 / (n – 1)] 1 /2
● Le coefficient de variation : Pourcentage permettant de comparer la dispersion de
variables ayant des moyennes différentes : C.V. = SK / XAK
Le test de moyenne
● Il s’agit de comparer la moyenne obtenue sur un échantillon A XA à une valeur
prédéterminée µ
● L’hypothèse nulle peut être formulée de 2 façons :
✔ Sous forme d’inégalité (par exemple XA > µ) : il s’agira alors d’un test unilatéral
✔ Sous forme d’égalité (par exemple XA = µ) : Il s’agira alors d’un test bilatéral
● Deux test sont utilisables (z ou t) selon 2 conditions :
✔ Connait-on ou non l’écart-type de la variable dans la population (α) ? Si oui,
on utilisera le test z
✔ Sinon (ce qui est le cas le plus fréquent dans la pratique), on utilisera
l’écart-type de l’échantillon (α) comme estimateur de l’écart-type (inconnu) de
la population : le choix dépend alors de la taille de l’échantillon : si n < 30, on
utilisera le test t (sinon on utilisera le test z)
● Le test z consiste alors à calculer la valeur z = |XA - µ| / SXA où l’écart-type de la
moyenne SXA = S / n1/2
● Valeur observée de z est comparée à la valeur zµ correspondant au seuil de
signification µ retenu. Z suit une distribution normale, c’est donc sur une table de
cette distribution que l’on trouvera zµ.
● Si l’on désire travailler avec un seuil de confiance (1- µ), un intervalle de confiance
pour la moyenne µ est obtenu à l’aide de l’expression : µ = XA +/- zα/2. sXA
● Dans le cas du test t, la valeur à tester est calculée de la même façon, mais la valeur tα
est lue dans la table de la loi de Student à (n-1) degrés de liberté (au-delà de 30
observations, la distribution de t est approximativement normale)
● Dans le cas d’une proportion (ou pourcentage), la démarche à utiliser est analogue.
Soit P la proportion « théorique », p la proportion observée et sp l’écart-type qui lui
est associé : sp = [p(1-p)/n]1/2 on calcule alors : z = |P-p| / sp
Exemple 1 :
- L’association des étudiants d’une université envisage d’ouvrir un ciné-club ; afin d’en
évaluer la fréquentation, elle a réalisé une enquête par sondage sur un échantillon de
400 individus.
Une moyenne de fréquentation de 10 séances par an et par individu a été obtenue avec un
écart-type égal à 20.
Au seuil de 5%, donnez l’intervalle de confiance de la moyenne de fréquentation attendue
(réelle) par étudiant, puis de la fréquentation globale annuelle (l’université comprend
5000 étudiants). On donne zα/2 = 1,96
µ = XA +/- zα/2. sXA
Avec SXA = S/n1/2 = 20/4001/2 = 1
µ = 10 +/- 1,96 x 1 = 10 +/- 1,96
µ a 95 chances sur 100 de se situer dans la fourchette (ou intervalle de confiance) [8,04 ;
11,96]
Si l’université comprend 5000 étudiant, une fréquentation globale de 50000 places peut être
attendue en moyenne ; la fréquentation globale annuelle a 95% de chances de se
situer dans l’intervalle [40200 ; 59800]
Exemple 2 :
- Répondre aux mêmes questions au cas où l’association se serait limitée à 21
interviews au lieu d’utiliser un échantillon de 400 personnes. On donne tµ = 2,086
Dans ce cas, la moyenne d’échantillon suit une loi de Student à 20 degrés de liberté (n-1)
Donc µ = 10 +/- 2,086 x (20/211/2) = 10 +/- 9,10
µ a 95 chances sur 100 de se situer dans la fourchette |0,9 : 19,1]
Exemples :
● Le fait de changer un conditionnement a-t-il un effet sur le niveau des ventes d’un
produit donné ? le conditionnement joue ici le rôle de variable explicative et le niveau
des ventes, de variables à expliquer.
● Le fait de posséder un four à micro-ondes dépend-il de l’âge ou de la taille de la
famille ? la possession ou non du fout à micro-ondes est la variable à expliquer, l’âge
ou la taille de la famille sont des variables explicatives
QJ
Test de Kendall
Quantitati -Coefficient de
f corrélation de Pearson
-Test de comparaison de
moyenne
● Dans la mesure où l’on estime que XA et XB suivent une loi normale, respectivement
de moyenne µA et µB et d’écart type , on montre que la différence D = XA – XB suit
également une loi normale de moyenne (µA - µB) et d’écart-type D avec :
● L’intervalle de confiance de la différence de moyenne est donné par
● L’hypothèse nulle H0 correspond au cas où la différence D = µA - µB des moyennes est
nulle. Sous H0 la variable réduite devient :
● La valeur z ainsi calculée doit être comparée avec la valeur lue dans la table normale
pour le seuil de confiance désiré et compte tenu du caractère unilatéral ou bilatéral
du test
● Pour un test bilatéral par exemple, H0 sera rejeté au seuil de confiance de 5% si |z| >
1,96. Pour des petits échantillons (nA et nB < 30), on utilisera le test t de student
● Quand plus de deux populations sont concernées, on aura recours au test F de
Fischer (ce tst sera abordé dans la partie traitant de l’ANOVA)
Exemple :
Dans le cadre de l’étude FAT, le croisement de la question 1 (Nombre de vols par an) et de la
question 5 (Motifs du voyage) fait apparaître les résultats suivants :
- Voyages pour affaires (A) : na = 155 ; nombre de vols moyens XA = 10 avec sA2 = 64
- Voyages pour loisirs (B) : nB = 75 ; XB = 3 avec sB2 = 25
Réponse :
Ou H0 : µA = µB
σD = [sA2/nA + sB2/nB]1/2
L’hypothèse nulle pour laquelle il n’existe pas de différence de nombre de vols selon le motif
de déplacement peut être rejetée puisque 8,14 > 1 ,96
Conclusion : Au seuil de confiance de 5%, le motif de déplacement influence
significativement le nombre de vols
● La régression linéaire
✔ Simple : explication d’une variable quantitative Y à l’aide d’une variable
également quantitative X
✔ Multiple : Utilisation de plusieurs variables explicatives (X1, X2,…) pour
expliquer Y
● L’analyse de la variance (ANOVA)
● L’analyse discriminante
● L’analyse conjointe (MONANOVA)
● La segmentation
La régression linéaire :
Exemples :
● Nous travaillerons dans le cas d’une régression linéaire simple (cas où n’intervient
qu’une seule variable explicative), et donc sur un modèle de type : Y = a0 + a1.X1
● Il s’agit de déterminer les coefficients a0 (ordonnée à l’origine) et a1 (coefficient de
régression) de telle sorte que ce modèle, qui correspond à l’équation d’une droite,
reproduise au mieux les relations observées entre les 2 variables
● Les données dont on dispose sont constituées de n couples de valeurs (X1, Y1) qui
forment un nuage de point sur le plan (X,Y). La droite qui représente le mieux les
évolutions relatives des deux variables est celle qui est en « moyenne » la plus proche
des éléments du nuage de points
● Cette proximité se mesure par les écarts entre les Y1 observés et les valeurs
théoriques Y1* calculées à l’équation du modèle pour une valeur X1 donnée
● Ainsi, la meilleure droite est celle qui permet de minimiser E2, somme des carrés des
écarts entre les Y1 et les Y1*, avec : E2 = ∑(Yi – Yi*)² = ∑(Yi – a0 – a1.X1)²
● Dans cette expression, les valeurs Yi et Xi proviennent des observations et les
coefficients a0 et a1. La résolution de ce système de dérivés fournit le coefficient de
régression a1 et l’ordonnée à l’origine a0 de la droite des moindres carrés :
avec a1 = COV(Y,X)/VAR(X) = ∑ Xi . ∑ Yi n ∑ XiYi / (∑Xi)² - n∑
L’analyse de la variance :
● On utilise souvent l’expression ANOVA pour désigner l’analyse de la variance
● L’ANOVA a pour objet l’explication d’une variable quantitative Y à l’aide de variables
qualitatives Xj sur lesquelles on a défini Kj modalités
● Cette analyse permet de tester la signification des différences de moyennes observées sur
plusieurs « populations » caractérisées par différentes combinaisons de modalités des
variables explicatives
● L’expérimentation commerciale est un des principaux domaines d’application de l’analyse de
la variance
Exemple :
● Dans le cadre d’un pré-test publicitaire, plusieurs affiches sont en concurrence
● elles se distinguent les unes des autres par le thème évoqué (première variable
explicative), leur graphisme (deuxième variable) et la couleur dominante utilisée
(troisième variable).
● Chaque variante est soumise à une partie de l’échantillon et se voit attribuer une
note (variable Y) de la part de chacune des personnes interrogées
● Il s’agit alors d’apprécier le caractère significatif des différences de notes obtenues,
mais aussi de repérer quels sont les facteurs, graphismes ou couleurs qui ont le plus
contribué à ces différences
L’équation de l’ANOVA
● On note :
✔ M=∑i∑jYij / n.k la moyenne générale de la variable à expliquer Y (appelée
aussi « grande moyenne »)
✔ Mj= ∑i Yij / n la moyenne de la variable à expliquer pour la modalité j de la
variable explicative (ou « petite moyenne »)
✔ K : le nombre de modalités testées
✔ Yij : le niveau de Y sous traitement j pour l’observation i
✔ N : le nombre d’observations pour chaque modalité
● La dispersion totale des données (DISPT) peut être mesurée par la somme des carrés
des écarts entre chaque observation et la grande moyenne :
DISPT== ∑I∑J(YIJ-M)² (ou= ∑I∑JYIJ)²/N)
● La dispersion factorielle (DISPF) est évaluée par la somme des carrés des écarts entre
les petites moyennes et la grande moyenne pondérée par le nombre d’observations
pour chaque modalité :
DISPF= n.∑j(mj-M)² (ou = ∑i(∑j.Yij)²/ n-(∑i∑jYij)²/N)
● La différence entre la dispersion totale er la dispersion factorielle constitue une
dispersion résiduelle (DISPR).Elle est mesurée par la somme des carrés des écarts
entre les résultats associés à une modalité et la petite moyenne mj. Sur l’ensemble
des traitements :
DISPR= ∑j(∑j(Yij-mj)² (ou ∑i∑jij²-∑j(∑iYij)²/n)
l’équation de l’ANOVA s’écrit :
DISPT=DISPF-DISPR
∑I∑J(YIJ-M)² = n. ∑J(mj-M)² + ∑I(∑i(mj-M)²)
● La dispersion factorielle a été calculée à partir des n différences entre les petites
moyennes et la grande moyenne
● Dans la mesure où M est également la moyenne des mj, un degré de liberté a été
consommé pour effectuer ce calcul. La variance factorielle s’élève ainsi à : VF =
DISPF/(k-1)
● La dispersion résiduelle a été quant à elle obtenue par différence entre les n données
de chaque modalité et la petite moyenne associée. Cette opération a utilisé k degrés
de liberté. La variation résiduelle s’écrit : VR=DISPR/ (N-k)
● Le rapport de ces variances factorielle (intergroupes) et résiduelle (intragroupe) suit
une loi de Fisher-snedecor (F=VF/VR) à (k-1, N-k) degré de liberté
● Le F calculé doit être comparé avec le Fα, lu sur une table de fisher-snedecor dans la
colonne (k-1) , nombre de degrés de liberté du numérateur, et la ligne (N-k) , nombre
de degrés de liberté du dénominateur , pour le seuil de risque accepté
● On observera enfin que le test F est une généralisation du test de comparaison des
moyennes : Un test significatif ne permet cependant pas de dire que toutes les
moyennes sont significativement différentes les unes des autres, mais simplement
que sur l’ensemble de l’expérimentation. certaines le sont.
La table de l’ANOVA :
● Les résultats de l’analyse de la variance sont généralement présentés à l’aide d’une
table, dite table d’ANOVA, du type de celle qui est reproduite ci-dessous :
N-1 SPT
Après le calcul de F, on fixe un seuil α. Si F est supérieur à la valeur Fα (lue dans une table F
pour les mêmes degrés de liberté), on rejette l’hypothèse H0, donc il y a une
différence significative entre les modalités.
Introduction :
● A la différence des méthodes explicatives, les méthodes descriptives prennent en
compte un ensemble de variables.
● Elles cherchent à structurer ou résumer un groupe de variables quantitatives (par
exemple la réduction des colonnes de la matrice des données pour l’analyse
factorielle)
● Elles cherchent à décrire de façon synthétique la structure des données disponibles
(par exemple le regroupement des observations en classes homogènes pour l’analyse
typologique)
● C’est l’une des plus anciennes méthodes d’analyse de données, connue par les
initiales ACP
● Elle consiste à résumer l’information contenue dans la matrice de données en
remplaçant les variables initiale par un nombre plus petit de variables composites ou
facteurs
● Elle permet également d’un point de vue théorique de passer des mesures à des
concepts théoriques ne pouvant être mesurés directement (les facteurs communs
sous-jacents non observables sont dit « variables latentes »)
● Le positionnement des individus par rapport à ces facteurs (ou « composantes
principales » aidera à mettre en évidence des typologies d’individus (Analyse
typologique)
Exemple :
Dans le cadre d’une enquête, une agence de conseil en marketing opérationnel désire
connaître au mieux les attentes et la satisfaction des consommateurs concernant les
prestations qu’ils avaient reçues afin d’améliorer ses services, et donc son
positionnement sur le marché. Chaque répondant évalue l’importance de plusieurs
critères tels que le délai, le prix, la qualité, le suivi du projet, le retour sur
investissement, la créativité, la connaissance du secteur … Une ACP permet de savoir
quel(s) étai(en)t le((s) plus significatif(s) pour les consommateurs
Présentation technique de l’ACP :
● Les facteurs pourraient, a priori, être choisis arbitrairement comme une fonction
quelconque des variables initiales. En fait deux conditions restrictives sont introduites
dans l’analyse :
- La linéarité : les facteurs sont des combinaisons linéaires des variables initiales
- L’indépendance : les facteurs sont indépendants (au sens linéaire, c’est-à-dire que
les coefficients de corrélation de deux facteurs quelconques sont nuls)
● Pour l’analyste, la mise en œuvre d’une ACP va nécessiter de résoudre
successivement quatre problèmes
- La préparation des données : à quelles données appliquer l’analyse ?
- Le choix d’une procédure de calcul : quelle méthode choisir ?
- La dimensionnalité : combien de facteurs faut-il retenir ?
- Comment interpréter les résultats ?
● L’ACP une forme d’analyse factorielle : les variables descriptives initiales X1, X2, ..., Xn
sont regroupées en facteurs synthétiques Fj par combinaison linéaire, c’est-à-dire par
des relations de la forme :
Fj = C j1X1 + C j2X2 + … + CjnXn
● Il s’agit de déterminer les coefficients Cij de telle sorte à reproduire le maximum de
l’information contenue dans les variables initiales avec le moins de composantes
principales possibles
● La procédure de résolution permet d’identifier les axes factoriels et de calculer la
variance qui leur est associée. La question qui se pose à l’analyse est celle du nombre
d’axes à retenir pour l’interprétation des résultats. Plusieurs méthodes sont possibles
(dont les plus importantes sont citées ci-après). Il faut noter qu’il s’agit
essentiellement de règles empiriques fondées sur l’expérience
Si cette quantité est suffisamment proche de 1, seuls les deux premiers facteurs sont
conservés, sinon le troisième facteur est introduit dans l’analyse jusqu’à ce qu’on
atteigne le seuil fixé (par exemple 80%, soit 0,8)
● Règle de Kaiser : retenir les facteurs correspondant à des valeurs propres supérieures
à 1 (ʎ >1)
● Scree-test de Catell : la variance restituée va en diminuant. LA règle d’arrêt consiste à
chercher quel est le premier des facteurs dont l’élimination conduit à une perte
d’information minimum. Pour cela, il suffit de porter sur graphique le numéro dees
axes factoriels en abscisse, et le pourcentage de variance qu’ils restituent, puis
0d’éliminer les facteurs situés après le changement de concavité de la courbe
(c’est-à-dire après l’inflexion)
● Interprétation des axes factoriels : pour Interpréter les facteurs, il est nécessaire de
revenir aux variables initiales. En effet, plus le coefficient de corrélation entre une
variable initiale et un facteur retenu sera important, plus cette variable sera
importante dans l’explication de ce facteur. Le seuil de corrélations est généralement
fixé à 0,5
;