Analyse de Données Cours

Les traitements élémentaires :
Les analyses univariées (ou tris à plat) :
● Concernent le traitement d’une seule variable

● Ont pour objet de synthétiser et d’analyser les informations disponibles sur cette
variable
Les analyses bivariées (ou tris croisés)
● Ont pour objet de mettre en évidence les relations éventuelles qui existent entre 2
variables analysées simultanément
Les analyses multivariées
Les méthodes descriptives :
● Cherchent à étudier les relations entre 2 groupes de variables

● L’une d’entre elles mesure un phénomène que l’on cherche à expliquer
● Les autres représentent des phénomènes qui sont supposés influencer et déterminer
le précédent
Les méthodes explicatives :
● Prennent en compte un ensemble de variables

● Cherchent à structurer ou résumer un groupe de variables
● Cherchent à décrire de façon synthétique la structure des données disponibles
Y = aX + b
Y X
Variable à expliquer Variable explicative
Endogène Exogène
Dépendante Indépendante
● La régression linéaire
✔ Simple : Explication d’une variable quantitative Y à l’aide d’une variable
également quantitative
✔ Multiple : utilisation de plusieurs variables explicatives (X1, X2…) pour
expliquer Y
● L’analyse de la variance (ANOVA)
● L’analyse discriminante
● L’analyse conjointe (MONANOVA)
● La segmentation
● L’analyse en composantes principales (ACP)

● L’analyse typologique
● L’analyse factorielle des correspondances
Les méthodes avancées d’analyse multivariée :
L’analyse canonique :
● Etend la régression au cas où il y a plusieurs variables à expliquer

● Peut être considérée comme la plus générale des méthodes fondées sur le modèle
linéaire
Les modèles de causalité (ou équations structurelles) :
● Constituent le stade actuellement le plus avancé des méthodes d’analyse de données

● Permettent d’étudier simultanément la structure des relations entre variables et la
qualité de la mesure de ces variables
Références Bibliographiques
- MARKET : études et recherches en Marketing
Auteurs : Y. Evrard, B.Pras & E. Roux
Editeur : Dunod
- Les enquêtes par questionnaire avec Sphinx
Auteur : Stéphane Ganassali
Editeur : Pearson Education
- Etudes de marché
Auteurs : Jean-Luc Giannelloni & Eric Vernette
Editeur : Vuibert
- Le traitement des données en marketing
Auteur : Jean-Pierre Vedrine
Editeur : Les éditions d’Organisation

Les analyses univariées
Introduction :
● Les analyses univariées concernent le traitement d’une seule variable

● Elles ont pour objet de synthétiser et d’analyser les informations disponibles sur cette
variable
● Ces données peuvent provenir de sources différentes
✔ Donnés d’observations
✔ Données expérimentales
✔ Séries statistiques
✔ Résultats d’une question posée dans le cadre d’un sondage
Exemples :
● Le nombre d’entrées dans un hypermarché à différentes heures de la journée

● Les ventes d’un produit associées à un conditionnement expérimental
● L’évolution des ventes d’un produit sur un certain nombre d’années
● Les réponses à la question : « possédez-vous un auto-radio ? »
Données quantitatives (métriques) :
● Dans le cadre d’un questionnaire, elles apparaissent chaque fois que la personne
interrogée se voit demander la valeur qu’elle donne à la variable concernée
● Pour chaque individu I, une valeur XIK sera obtenue pour cette variable. Si l’enquête
porte sur n individus, la variable sera associée à un vecteur de n éléments
● La synthétisation de ces données peut être réalisée à travers le calcul de divers
indicateurs que fournissent la plupart des logiciels
Données qualitatives (Nominales) :
interrogée a le choix entre plusieurs modalités qui lui sont proposées explicitement
ou implicitement (Cas d’une question ouverte avec post-codification)
● Pour chaque individu I, la réponse correspond à un code ou éventuellement à
plusieurs si le choix est multiple
● Sur l’ensemble de la population enquêtée, on calcule alors la fréquence absolue (le
nombre de fois qu’un code j donné est apparu pour la variable k étudiée)
Données qualitatives (Ordinales) :
interrogée se voit demander de classer plusieurs items proposés
● Sur l’ensemble de la population enquêtée, il sera ainsi possible de comptabiliser :
✔ Le nombre de fois qu’un item donné a été classé en 1ere position, ou en 2e,…
✔ Le nombre de fois qu’un item donné a été classé avant un autre item ; ce type
de résultats permettra d’établir une matrice des préférences
Les indicateurs de position

Cherchent à résumer par une caractéristique de tendance centrale les niveaux pris par une
variable
● Le mode : modalité pour laquelle les observations sont les plus nombreuses (Mo)
● La médiane : Valeur qui divise la population étudiée en 2 parties égales (Me)
● La moyenne : Généralement considérée comme « naturellement » la tendance
centrale de la distribution d’une variable numérique : XAk = ∑ XIK / n
Les indicateurs de dispersion

mesurent la plus ou moins grande dispersion des valeurs autour de leur tendance centrale
● L’étendue : Intervalle qui sépare les deux valeurs extrêmes : E = XMAX – XMIN
● La variance : Moyenne des carrés des écarts par rapport à la moyenne (obtenue sur
échantillon) : S2k = ∑ (XIK – XAK) 2 / (n – 1)
● L’écart-type : Racine carrée de la variance : Sk = [∑(XIK – XAK) 2 / (n – 1)] 1 /2
● Le coefficient de variation : Pourcentage permettant de comparer la dispersion de
variables ayant des moyennes différentes : C.V. = SK / XAK
Le test de moyenne
● Il s’agit de comparer la moyenne obtenue sur un échantillon A XA à une valeur
prédéterminée µ
● L’hypothèse nulle peut être formulée de 2 façons :
✔ Sous forme d’inégalité (par exemple XA > µ) : il s’agira alors d’un test unilatéral
✔ Sous forme d’égalité (par exemple XA = µ) : Il s’agira alors d’un test bilatéral
● Deux test sont utilisables (z ou t) selon 2 conditions :
✔ Connait-on ou non l’écart-type de la variable dans la population (α) ? Si oui,
on utilisera le test z
✔ Sinon (ce qui est le cas le plus fréquent dans la pratique), on utilisera
l’écart-type de l’échantillon (α) comme estimateur de l’écart-type (inconnu) de
la population : le choix dépend alors de la taille de l’échantillon : si n < 30, on
utilisera le test t (sinon on utilisera le test z)
● Le test z consiste alors à calculer la valeur z = |XA - µ| / SXA où l’écart-type de la
moyenne SXA = S / n1/2
● Valeur observée de z est comparée à la valeur zµ correspondant au seuil de
signification µ retenu. Z suit une distribution normale, c’est donc sur une table de
cette distribution que l’on trouvera zµ.
● Si l’on désire travailler avec un seuil de confiance (1- µ), un intervalle de confiance
pour la moyenne µ est obtenu à l’aide de l’expression : µ = XA +/- zα/2. sXA
● Dans le cas du test t, la valeur à tester est calculée de la même façon, mais la valeur tα
est lue dans la table de la loi de Student à (n-1) degrés de liberté (au-delà de 30
observations, la distribution de t est approximativement normale)
● Dans le cas d’une proportion (ou pourcentage), la démarche à utiliser est analogue.
Soit P la proportion « théorique », p la proportion observée et sp l’écart-type qui lui
est associé : sp = [p(1-p)/n]1/2 on calcule alors : z = |P-p| / sp
Exemple 1 :
- L’association des étudiants d’une université envisage d’ouvrir un ciné-club ; afin d’en
évaluer la fréquentation, elle a réalisé une enquête par sondage sur un échantillon de
400 individus.
Une moyenne de fréquentation de 10 séances par an et par individu a été obtenue avec un
écart-type égal à 20.
Au seuil de 5%, donnez l’intervalle de confiance de la moyenne de fréquentation attendue
(réelle) par étudiant, puis de la fréquentation globale annuelle (l’université comprend
5000 étudiants). On donne zα/2 = 1,96
µ = XA +/- zα/2. sXA
Avec SXA = S/n1/2 = 20/4001/2 = 1
µ = 10 +/- 1,96 x 1 = 10 +/- 1,96
µ a 95 chances sur 100 de se situer dans la fourchette (ou intervalle de confiance) [8,04 ;
11,96]
Si l’université comprend 5000 étudiant, une fréquentation globale de 50000 places peut être
attendue en moyenne ; la fréquentation globale annuelle a 95% de chances de se
situer dans l’intervalle [40200 ; 59800]
Exemple 2 :
- Répondre aux mêmes questions au cas où l’association se serait limitée à 21
interviews au lieu d’utiliser un échantillon de 400 personnes. On donne tµ = 2,086
Dans ce cas, la moyenne d’échantillon suit une loi de Student à 20 degrés de liberté (n-1)
Donc µ = 10 +/- 2,086 x (20/211/2) = 10 +/- 9,10
µ a 95 chances sur 100 de se situer dans la fourchette |0,9 : 19,1]

Les analyses bivariées
Introduction :
● Les analyses bivariées concernent le traitement de deux variables.

● Elles ont pour objet de mettre en évidence les relations éventuelles qui existent entre
deux variables analysées simultanément.
● Dans la plupart des cas, l’analyste cherchera à expliquer une des deux variables (dite
« à expliquer ») à l’aide de l’autre (dite « explicative »)
Exemples :
● Le fait de changer un conditionnement a-t-il un effet sur le niveau des ventes d’un
produit donné ? le conditionnement joue ici le rôle de variable explicative et le niveau
des ventes, de variables à expliquer.
● Le fait de posséder un four à micro-ondes dépend-il de l’âge ou de la taille de la
famille ? la possession ou non du fout à micro-ondes est la variable à expliquer, l’âge
ou la taille de la famille sont des variables explicatives
Traitement des tris croisés et nature des données :
1. Présentations des tris croisés :

⮚ Dans la mesure où une question peut relever fondamentalement de trois
niveaux de mesures différents (métrique, nominale ou ordinale), on comptera
neuf types de croisement possibles entre les questions QI et QJ
2. Analyse des tris croisés :
⮚ Les principaux tests correspondant aux plus fréquents croisements dans
l’analyse bivariée seront présentés
Présentations des tris croisés :
● Qi quantitatif x QJ quantitatif : étude des relations entre 2 séries de n chiffres s’il y a

n questionnaires.
⮚ Exemple : Dans le questionnaire FAT (France Air Transport), étude des
relations entre le nombre de vols effectués (Q1) et la taille de l’E/se (Q11)
● QI nominal x QJ nominal : Croisement le plus fréquent qui se traduit par la formation
d’un tableau de contingence où, en ligne figure les modalités de la variable à
expliquer et en colonnes celles de la variable explicative.
⮚ Exemple : Croisement entre la question ( sur l’objet du voyage et la question
6 : le fait de voyager pour affaires ou pour raisons de loisirs implique-t-elle un
statut d’abonné ou non
● QI ordinal x QJ ordinal : mise en correspondance de deux classements au niveau de
chaque niveau interrogé ou sur l’ensemble de l’échantillon
⮚ Exemple : Croisement entre la question 4 et un classement a priori
correspondant aux préférences de la direction de la compagnie
● QI quantitatif x QJ nominal : Correspondant à un tri-à-plat de la variable quantitative
pour chacune des modalités de la variable nominale qui joue le rôle de variable
explicative
⮚ Exemple : Croisement entre la question 1 et la question 9 ; l’appartenance à
une classe d’âge influence-t-elle le nombre annuel de vols de la personne
interrogées
● Qi ordinal x QJ nominal : Repérage des tans donnés à a question Qi pour différentes
classes de la question Qj nominale explicative
⮚ Exemple : Croisement entre la question 4 et la question 8 : Le fait de relever
d’un statut familial donné entraîne-t-il des préférences particulières au sujet
des projets d’améliorations des prestations de la compagnie ?
Analyse des tris croisés :
QI Nominal Ordinal Quantitatif
QJ
Nominal -Test du khi-Deux -Test de Kruskal-Wallis -Test F (ANOVA)
-Test de -Test de Wilcoxon du rang -Test de comparaison de

Kologomorov-Smirnov et du signe moyennes
-test de comparaison de -Test de Wilcoxon de la

fréquences somme des rangs
Ordinal Corrélation des rangs de

Spearman
Test de Kendall
Quantitati -Coefficient de
f corrélation de Pearson
-Test de comparaison de
moyenne
Le test de comparaison des moyennes :
● C’est la statistique classique lorsque deux populations sont concernées. L’analyste

dispose des données suivantes :
- Deux populations 1 et B respectivement d’effectifs nA et nB
- La moyenne de la variable étudiée est XA dans la population A et XB dans la population B

- La variance de la variable analysée est sA² pour A et sB² pour B
● Dans la mesure où l’on estime que XA et XB suivent une loi normale, respectivement
de moyenne µA et µB et d’écart type , on montre que la différence D = XA – XB suit
également une loi normale de moyenne (µA - µB) et d’écart-type D avec :
● L’intervalle de confiance de la différence de moyenne est donné par
● L’hypothèse nulle H0 correspond au cas où la différence D = µA - µB des moyennes est
nulle. Sous H0 la variable réduite devient :
● La valeur z ainsi calculée doit être comparée avec la valeur lue dans la table normale
pour le seuil de confiance désiré et compte tenu du caractère unilatéral ou bilatéral
du test
● Pour un test bilatéral par exemple, H0 sera rejeté au seuil de confiance de 5% si |z| >
1,96. Pour des petits échantillons (nA et nB < 30), on utilisera le test t de student
● Quand plus de deux populations sont concernées, on aura recours au test F de
Fischer (ce tst sera abordé dans la partie traitant de l’ANOVA)
Exemple :
Dans le cadre de l’étude FAT, le croisement de la question 1 (Nombre de vols par an) et de la
question 5 (Motifs du voyage) fait apparaître les résultats suivants :
- Voyages pour affaires (A) : na = 155 ; nombre de vols moyens XA = 10 avec sA2 = 64
- Voyages pour loisirs (B) : nB = 75 ; XB = 3 avec sB2 = 25
Testez si le motif du déplacement entraîne des différences de nombres de vols au seuil de

confiance de 5%
Réponse :
H0 : « quelque soit le motif du déplacement, le nombre moyen de vols est le même »
Ou H0 : µA = µB
L’écart-type des différences de moyenne D est donné par :
σD = [sA2/nA + sB2/nB]1/2
Donc σD = [64/155 + 25/75]1/2 = 0,86
Sous H0 : z= (XA – XB) / σD
Donc é = (10-3) / 0,86 = 8,14
L’hypothèse nulle pour laquelle il n’existe pas de différence de nombre de vols selon le motif
de déplacement peut être rejetée puisque 8,14 > 1 ,96
Conclusion : Au seuil de confiance de 5%, le motif de déplacement influence
significativement le nombre de vols
Les analyses multivariées :

Introduction :
● Les analyses multivariées permettent le traitement simultané de plusieurs variables

● Les méthodes explicatives cherchent à étudier les relations entre deux groupes de
variables
● L’une d’entre elles mesure un phénomène que l’on cherche à expliquer (ou plusieurs
dans le cas de l’analyse canonique)
● Les autres variables (dites explicatives) représentent des phénomènes qui sont
supposés influencer et déterminer le précédent
Les méthodes explicatives les plus usuelles :
● La régression linéaire
✔ Simple : explication d’une variable quantitative Y à l’aide d’une variable
également quantitative X
✔ Multiple : Utilisation de plusieurs variables explicatives (X1, X2,…) pour
expliquer Y
● L’analyse de la variance (ANOVA)
● L’analyse discriminante
● L’analyse conjointe (MONANOVA)
● La segmentation
La régression linéaire :
● Parmi les méthodes explicatives, c’est la plus connue et la plus utilisée

● Elle a pour objet l’explication d’une variable quantitative Y à l’aide d’une ou plusieurs
variables également quantitatives X1, X2,…, Xn, par une relation du type : Y =
a0+a1.X1+a2.X2+…+an.Xn ou par le biais de relations qu’il est possible de ramener à
cette formule à la suite de transformations mathématiques appropriées
● La détermination des paramètres a0 ,a1, a2, an est l’objet du calcul de la
régression(méthode des moindres carrés)
Exemples :
● Détermination des attributs les plus importants dans la formation de l’appréciation

des consommateurs vis-à-vis de différentes marques concurrentes
● Recherche des relations éventuelles qui existent entre les ventes d’une entreprise et
les variables matérialisant son marketing-mix (p.e prix de vente, dépenses
publicitaires)
● Explication des performances commerciales de différents points de vente en fonction
de leur caractéristiques (p.e surface, niveau de prix, taille du parking, population de la
zone de chalandise, structure de cette population,…)
Exposé technique de la méthode des moindres carrés :
● Nous travaillerons dans le cas d’une régression linéaire simple (cas où n’intervient
qu’une seule variable explicative), et donc sur un modèle de type : Y = a0 + a1.X1
● Il s’agit de déterminer les coefficients a0 (ordonnée à l’origine) et a1 (coefficient de
régression) de telle sorte que ce modèle, qui correspond à l’équation d’une droite,
reproduise au mieux les relations observées entre les 2 variables
● Les données dont on dispose sont constituées de n couples de valeurs (X1, Y1) qui
forment un nuage de point sur le plan (X,Y). La droite qui représente le mieux les
évolutions relatives des deux variables est celle qui est en « moyenne » la plus proche
des éléments du nuage de points
● Cette proximité se mesure par les écarts entre les Y1 observés et les valeurs
théoriques Y1* calculées à l’équation du modèle pour une valeur X1 donnée
● Ainsi, la meilleure droite est celle qui permet de minimiser E2, somme des carrés des
écarts entre les Y1 et les Y1*, avec : E2 = ∑(Yi – Yi*)² = ∑(Yi – a0 – a1.X1)²
● Dans cette expression, les valeurs Yi et Xi proviennent des observations et les
coefficients a0 et a1. La résolution de ce système de dérivés fournit le coefficient de
régression a1 et l’ordonnée à l’origine a0 de la droite des moindres carrés :
avec a1 = COV(Y,X)/VAR(X) = ∑ Xi . ∑ Yi n ∑ XiYi / (∑Xi)² - n∑
L’analyse de la variance :
● On utilise souvent l’expression ANOVA pour désigner l’analyse de la variance
● L’ANOVA a pour objet l’explication d’une variable quantitative Y à l’aide de variables
qualitatives Xj sur lesquelles on a défini Kj modalités
● Cette analyse permet de tester la signification des différences de moyennes observées sur
plusieurs « populations » caractérisées par différentes combinaisons de modalités des
variables explicatives
● L’expérimentation commerciale est un des principaux domaines d’application de l’analyse de
la variance
Exemple :
● Dans le cadre d’un pré-test publicitaire, plusieurs affiches sont en concurrence
● elles se distinguent les unes des autres par le thème évoqué (première variable
explicative), leur graphisme (deuxième variable) et la couleur dominante utilisée
(troisième variable).
● Chaque variante est soumise à une partie de l’échantillon et se voit attribuer une
note (variable Y) de la part de chacune des personnes interrogées
● Il s’agit alors d’apprécier le caractère significatif des différences de notes obtenues,
mais aussi de repérer quels sont les facteurs, graphismes ou couleurs qui ont le plus
contribué à ces différences
Aspects techniques de l’ANOVA à un facteur :

● L’ANOVA a un facteur peut être considérée comme la généralisation du test de
moyennes (chapitre sur les analyses bivariées) au cas où il s’agit de comparer non plus
deux moyennes, mais simultanément k moyennes correspondant à k modalités d’une
variable explicative (ou facteur)
● Deux questions sont à résoudre par l’ANOVA à un facteur : y a-t-il une liaison entre la
variable à expliquer et la variable explicative ?
si oui, quelles sont les modalités qui contribuent à cette relation ?
● La première question peut être vue comme un cas d’analyse bivariée (liaison entre
une variable quantitative et une variable qualitative) et se formule par l’hypothèse
nulle suivante : la valeur moyenne de la variable à expliquer est la même pour toutes
les modalités de la variable explicative, si cette hypothèse nulle est démentie par le
test, l’existence d’une liaison sera établie
● Si la relation est établie au niveau global, on va s’intéresser aux multiples
comparaisons entre modalités de façon à étudier leur poids relatif dans la liaison (ceci
revient à comparer deux à deux toutes les modalités de la variable explicative, de
façon à voir celles qui sont significativement différentes entre elles)
● Les données issues d’une expérimentation sont reproduite sur un tableau où figurent
en colonne les k modalités du facteur et en lignes les n observations réalisées pour
chacune de ces modalités (ainsi, dans la case ij du tableau on trouve Yij, résultat de
l’observation i pour la modalité j)
● Au total, N= k.n observations ont été réalisées
● La décomposition de la variance totale de la variable à expliquer (ou Dispersion
Totale) en une variable entre les modalités, ou variance intergroupes (Dispersion
Factorielle) et une variation au sein des modalités, ou variance intragroupe
(Dispersion Résiduelle) constitue l’équation de l’ANOVA
L’équation de l’ANOVA
● On note :
✔ M=∑i∑jYij / n.k la moyenne générale de la variable à expliquer Y (appelée
aussi « grande moyenne »)
✔ Mj= ∑i Yij / n la moyenne de la variable à expliquer pour la modalité j de la
variable explicative (ou « petite moyenne »)
✔ K : le nombre de modalités testées
✔ Yij : le niveau de Y sous traitement j pour l’observation i
✔ N : le nombre d’observations pour chaque modalité
● La dispersion totale des données (DISPT) peut être mesurée par la somme des carrés
des écarts entre chaque observation et la grande moyenne :
DISPT== ∑I∑J(YIJ-M)² (ou= ∑I∑JYIJ)²/N)
● La dispersion factorielle (DISPF) est évaluée par la somme des carrés des écarts entre
les petites moyennes et la grande moyenne pondérée par le nombre d’observations
pour chaque modalité :
DISPF= n.∑j(mj-M)² (ou = ∑i(∑j.Yij)²/ n-(∑i∑jYij)²/N)
● La différence entre la dispersion totale er la dispersion factorielle constitue une
dispersion résiduelle (DISPR).Elle est mesurée par la somme des carrés des écarts
entre les résultats associés à une modalité et la petite moyenne mj. Sur l’ensemble
des traitements :
DISPR= ∑j(∑j(Yij-mj)² (ou ∑i∑jij²-∑j(∑iYij)²/n)
l’équation de l’ANOVA s’écrit :
DISPT=DISPF-DISPR
∑I∑J(YIJ-M)² = n. ∑J(mj-M)² + ∑I(∑i(mj-M)²)
● La dispersion factorielle a été calculée à partir des n différences entre les petites
moyennes et la grande moyenne
● Dans la mesure où M est également la moyenne des mj, un degré de liberté a été
consommé pour effectuer ce calcul. La variance factorielle s’élève ainsi à : VF =
DISPF/(k-1)
● La dispersion résiduelle a été quant à elle obtenue par différence entre les n données
de chaque modalité et la petite moyenne associée. Cette opération a utilisé k degrés
de liberté. La variation résiduelle s’écrit : VR=DISPR/ (N-k)
● Le rapport de ces variances factorielle (intergroupes) et résiduelle (intragroupe) suit
une loi de Fisher-snedecor (F=VF/VR) à (k-1, N-k) degré de liberté
● Le F calculé doit être comparé avec le Fα, lu sur une table de fisher-snedecor dans la
colonne (k-1) , nombre de degrés de liberté du numérateur, et la ligne (N-k) , nombre
de degrés de liberté du dénominateur , pour le seuil de risque accepté
● On observera enfin que le test F est une généralisation du test de comparaison des
moyennes : Un test significatif ne permet cependant pas de dire que toutes les
moyennes sont significativement différentes les unes des autres, mais simplement
que sur l’ensemble de l’expérimentation. certaines le sont.
La table de l’ANOVA :
● Les résultats de l’analyse de la variance sont généralement présentés à l’aide d’une
table, dite table d’ANOVA, du type de celle qui est reproduite ci-dessous :
e de variation s de liberté Somme des Carrés moyens F

carrés
ielle k-1 DISPF VF= DISPF/(k-1)
Résiduelle N-k DISPR VR=DISPR/(N-k)
N-1 SPT
Après le calcul de F, on fixe un seuil α. Si F est supérieur à la valeur Fα (lue dans une table F
pour les mêmes degrés de liberté), on rejette l’hypothèse H0, donc il y a une
différence significative entre les modalités.
Introduction :
● A la différence des méthodes explicatives, les méthodes descriptives prennent en
compte un ensemble de variables.
● Elles cherchent à structurer ou résumer un groupe de variables quantitatives (par
exemple la réduction des colonnes de la matrice des données pour l’analyse
factorielle)
● Elles cherchent à décrire de façon synthétique la structure des données disponibles
(par exemple le regroupement des observations en classes homogènes pour l’analyse
typologique)
Les méthodes descriptives les plus usuelles :
● L’analyse en composantes principales (ACP)

● L’analyse typologique
● L’analyse factorielle des correspondances
L’analyse en composantes principales :
● C’est l’une des plus anciennes méthodes d’analyse de données, connue par les
initiales ACP
● Elle consiste à résumer l’information contenue dans la matrice de données en
remplaçant les variables initiale par un nombre plus petit de variables composites ou
facteurs
● Elle permet également d’un point de vue théorique de passer des mesures à des
concepts théoriques ne pouvant être mesurés directement (les facteurs communs
sous-jacents non observables sont dit « variables latentes »)
● Le positionnement des individus par rapport à ces facteurs (ou « composantes
principales » aidera à mettre en évidence des typologies d’individus (Analyse
typologique)
Exemple :
Dans le cadre d’une enquête, une agence de conseil en marketing opérationnel désire
connaître au mieux les attentes et la satisfaction des consommateurs concernant les
prestations qu’ils avaient reçues afin d’améliorer ses services, et donc son
positionnement sur le marché. Chaque répondant évalue l’importance de plusieurs
critères tels que le délai, le prix, la qualité, le suivi du projet, le retour sur
investissement, la créativité, la connaissance du secteur … Une ACP permet de savoir
quel(s) étai(en)t le((s) plus significatif(s) pour les consommateurs
Présentation technique de l’ACP :
● Les facteurs pourraient, a priori, être choisis arbitrairement comme une fonction
quelconque des variables initiales. En fait deux conditions restrictives sont introduites
dans l’analyse :
- La linéarité : les facteurs sont des combinaisons linéaires des variables initiales
- L’indépendance : les facteurs sont indépendants (au sens linéaire, c’est-à-dire que
les coefficients de corrélation de deux facteurs quelconques sont nuls)
● Pour l’analyste, la mise en œuvre d’une ACP va nécessiter de résoudre
successivement quatre problèmes
- La préparation des données : à quelles données appliquer l’analyse ?
- Le choix d’une procédure de calcul : quelle méthode choisir ?
- La dimensionnalité : combien de facteurs faut-il retenir ?
- Comment interpréter les résultats ?
● L’ACP une forme d’analyse factorielle : les variables descriptives initiales X1, X2, ..., Xn
sont regroupées en facteurs synthétiques Fj par combinaison linéaire, c’est-à-dire par
des relations de la forme :
Fj = C j1X1 + C j2X2 + … + CjnXn
● Il s’agit de déterminer les coefficients Cij de telle sorte à reproduire le maximum de
l’information contenue dans les variables initiales avec le moins de composantes
principales possibles
● La procédure de résolution permet d’identifier les axes factoriels et de calculer la
variance qui leur est associée. La question qui se pose à l’analyse est celle du nombre
d’axes à retenir pour l’interprétation des résultats. Plusieurs méthodes sont possibles
(dont les plus importantes sont citées ci-après). Il faut noter qu’il s’agit
essentiellement de règles empiriques fondées sur l’expérience
● Restitution minimum : dans ce cas, on se fixe à l’avance un seuil correspondant au

pourcentage minimum de variance que l’on veut restituer et on retiendra le nombre
d’axes nécessaires pour atteindre ce seuil. La variance expliquée (VE) par les deux
premiers facteurs F1 et F2 est égale à la somme des valeurs propres ʎ1 et ʎ2 associées à
ces deux axes, divisée par la somme de l’ensemble des valeurs propres (c’est-à-dire la
variance totale) :
Si cette quantité est suffisamment proche de 1, seuls les deux premiers facteurs sont
conservés, sinon le troisième facteur est introduit dans l’analyse jusqu’à ce qu’on
atteigne le seuil fixé (par exemple 80%, soit 0,8)
● Règle de Kaiser : retenir les facteurs correspondant à des valeurs propres supérieures
à 1 (ʎ >1)
● Scree-test de Catell : la variance restituée va en diminuant. LA règle d’arrêt consiste à
chercher quel est le premier des facteurs dont l’élimination conduit à une perte
d’information minimum. Pour cela, il suffit de porter sur graphique le numéro dees
axes factoriels en abscisse, et le pourcentage de variance qu’ils restituent, puis
0d’éliminer les facteurs situés après le changement de concavité de la courbe
(c’est-à-dire après l’inflexion)
● Interprétation des axes factoriels : pour Interpréter les facteurs, il est nécessaire de
revenir aux variables initiales. En effet, plus le coefficient de corrélation entre une
variable initiale et un facteur retenu sera important, plus cette variable sera
importante dans l’explication de ce facteur. Le seuil de corrélations est généralement
fixé à 0,5
;

Analyse de Données Cours

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Analyse de Données Cours

Uploaded by

Copyright:

Available Formats

Les traitements élémentaires :

Les analyses univariées (ou tris à plat) :

● Concernent le traitement d’une seule variable

Les analyses bivariées (ou tris croisés)

Les analyses multivariées

Les méthodes descriptives :

● Cherchent à étudier les relations entre 2 groupes de variables

Les méthodes explicatives :

● Prennent en compte un ensemble de variables

● L’analyse en composantes principales (ACP)

Les méthodes avancées d’analyse multivariée :

● Etend la régression au cas où il y a plusieurs variables à expliquer

Les modèles de causalité (ou équations structurelles) :

● Constituent le stade actuellement le plus avancé des méthodes d’analyse de données

- MARKET : études et recherches en Marketing

Auteurs : Y. Evrard, B.Pras & E. Roux

- Les enquêtes par questionnaire avec Sphinx

Auteur : Stéphane Ganassali

Editeur : Pearson Education

Auteurs : Jean-Luc Giannelloni & Eric Vernette

- Le traitement des données en marketing

Auteur : Jean-Pierre Vedrine

Editeur : Les éditions d’Organisation

● Les analyses univariées concernent le traitement d’une seule variable

● Le nombre d’entrées dans un hypermarché à différentes heures de la journée

Données quantitatives (métriques) :

Données qualitatives (Nominales) :

Les indicateurs de position

Les indicateurs de dispersion

Les traitements élémentaires :

● Les analyses bivariées concernent le traitement de deux variables.

Traitement des tris croisés et nature des données :

1. Présentations des tris croisés :

Présentations des tris croisés :

● Qi quantitatif x QJ quantitatif : étude des relations entre 2 séries de n chiffres s’il y a

Analyse des tris croisés :

QI Nominal Ordinal Quantitatif

Nominal -Test du khi-Deux -Test de Kruskal-Wallis -Test F (ANOVA)

-Test de -Test de Wilcoxon du rang -Test de comparaison de

-test de comparaison de -Test de Wilcoxon de la

Ordinal Corrélation des rangs de

Le test de comparaison des moyennes :

● C’est la statistique classique lorsque deux populations sont concernées. L’analyste

- Deux populations 1 et B respectivement d’effectifs nA et nB

- La moyenne de la variable étudiée est XA dans la population A et XB dans la population B

Testez si le motif du déplacement entraîne des différences de nombres de vols au seuil de

H0 : « quelque soit le motif du déplacement, le nombre moyen de vols est le même »

L’écart-type des différences de moyenne D est donné par :

Donc σD = [64/155 + 25/75]1/2 = 0,86

Sous H0 : z= (XA – XB) / σD

Donc é = (10-3) / 0,86 = 8,14

Les analyses multivariées :

● Les analyses multivariées permettent le traitement simultané de plusieurs variables

Les méthodes explicatives les plus usuelles :

● Parmi les méthodes explicatives, c’est la plus connue et la plus utilisée

● Détermination des attributs les plus importants dans la formation de l’appréciation

Exposé technique de la méthode des moindres carrés :

Aspects techniques de l’ANOVA à un facteur :

e de variation s de liberté Somme des Carrés moyens F

Les méthodes descriptives :

Les méthodes descriptives les plus usuelles :

● L’analyse en composantes principales (ACP)

L’analyse en composantes principales :