Mohamed AZMI Yassine_azmi@yahoo.

fr 2011/2012

L’analyse de données
Le principe consiste à synthétiser, structurer l’information contenue dans des données multidimensionnelles (n individus, p variables). L’analyse de données se base sur deux groupes de méthodes – méthodes de classification : réduire la taille de l’ensemble des individus en formant des groupes homogènes . – méthodes factorielles : réduire le nombre de variables en les résumant par un petit nombre de composantes synthétiques. Deux types de méthodes factorielles – analyse en composantes principales : variables numériques . – analyse des correspondances : variables qualitatives.

– Méthodes de classification. – analyse (factorielle) des correspondances (AFC) . – Analyse discriminante .Méthodes couvertes par le cours – analyse en composantes principales (ACP) .

on peut prélever au hasard un certain nombre d’ampoules . • Sous-ensemble de la population. aussi bien que de tirer des conclusions et de prendre les décisions qui s’imposent à partir des analyses effectuées.un échantillon. Statistique Population Echantillon . • Exp : pour établir la durée de vie des ampoules électriques produites par une machine. la population considérée est l’ensemble de toutes les ampoules fabriquées par cette compagnie. • Ensemble d'individus définis par une propriété commune donnée. de résumer et d’analyser les données d’une enquête. d’organiser. d’une étude ou d’une expérience. • Exp : si l’on veut étudier la durée de vie des ampoules électriques fabriquées par une compagnie.parmi toutes les celles produites par cette machine.Terminologie • La statistique est une méthode scientifique dont l’objet est de recueillir.

chaque ampoule constitue un individu ou une unité statistique. 2. • Exp 1 : le sexe est un caractere qui presente deux modalités : feminin ou masculin • Exp 2 : quant au nombre d’enfants par famille. on peut s’intéresser à leur age. • Représente le nombre d’individus d’un échantillon ou d’une population.1. • Exp : dans l’exemple précédant. les modalités de ce caractere peuvent être 0.Terminologie Individu ou unité statistique La taille • Chaque élément de la population ou de l’échantillon.20. • C’est l’aspect particulier que l’on désire étudier. leur sexe leur taille… • Les différentes manières d’être que peut présenter une variable. Elle est symbolisée par « n » dans le cas d’un échantillon et par « N » dans le cas d’une population. • Exp : concernant un groupe de personnes. Variable Les modalités .3….

Terminologie Echantillon Population Individu Taille de l’échantillon =3 .

Terminologie Variables statistiques Variables qualitatives Variables quantitatives Variables continues Variables discrètes .

• Exp :le nombre d’enfant dans une famille. le sexe. l’opinion… • Ses modalités sont numériques. • Exp : la taille d’un individu. Le plus souvent. ces valeurs sont entières. • Ses modalités sont numériques.Terminologie Variable qualitative • Ses modalités ne s’expriment pas par un nombre • Exp : la religion. le poids… Variable quantitative discrète Variable quantitative continue . • Le caractère peut prendre théoriquement n’importe quelle valeur dans un intervalle donné de nombres réels. le nombre de téléviseurs par foyer . • L’ensemble des valeurs que peut prendre le caractère est fini ou dénombrable.

Si deux variables sont indépendantes alors leur covariance est nulle. L'unité de mesure de la covariance cov(X.Y) est le produit des unités des variables aléatoires X et Y et sa valeur est comprise dans . mais la réciproque est fausse. de qualifier l'indépendance de ces variables. ainsi.La covariance la covariance est un nombre permettant d'évaluer le sens de variation de deux variables et.

1 ] .σ y Le coefficient de corrélation linéaire est une mesure de dépendance linéaire sans unité et prend ses valeurs dans [ − 1 . y ) r= σ x .Coefficient de corrélation linéaire: Le coefficient de corrélation linéaire a pour objet de mesurer l'intensité de la liaison linéaire entre deux variables X et Y : cov (x .

σ y Alors 60% des variations de X (resp.cov (x . Y) sont contrôlées par Y (resp. y ) r= = 0 . X) .6 σ x .

Etablir entre ces groupes de variables une hiérarchie basée essentiellement sur la valeur explicative de chacun d’eux . regrouper ces variables dans des groupes limités appelés facteurs ou composantes . A partir de cette étude. .Objectifs et aspect théorique de l’ ACP L’analyse en composantes principales a surtout trois objectifs : Etudier les interrelations entre un assez grand nombre de variables .

4. 3. les relations entre les différents facteurs. . l’analyse en composantes principales considère quatre types de relations : 1. les relations des variables aux facteurs .En bref. 2. les relations entre les variables d’un même facteur . les relations des variables entre elles .

Quantifier la variabilité contenue dans un tableau de données .

. les individus se trouvent dans un espace à j dimensions. L’objectif de l’ ACP est de représenter sous forme graphique l’essentiel de l’information contenue dans un tableau de données quantitatif.Projeter sur un plan un tableau de données à j dimensions Dans un tableau de données à j variables.

Représentation graphique .

.

.

.

EXEMPLE par exemple. la vitesse. lesquelles sont les plus importantes ? On pose ces questions à un échantillon de clients possibles . où 1 = Pas du tout important. 10 = Très important. au sujet d’une marque de voiture. le confort. . parmi les qualités suivantes : le prix.Au plan pratique. ils doivent noter chacune de ces qualités de 1 à 10. la sécurité. le look. l’analyse en composantes principales essaie de répondre à des questions simples.

On aura donc les relations suivantes On voit que les variables sont reliées à tous les facteurs. d’arriver aux résultats suivants . par exemple. L’ACP permettra.

les qualités de sécurité et de confort sont les arguments les plus importants à utiliser pour maximiser les ventes d’une marque donnée . Dans le facteur II. a bien rempli son rôle : Réduire les données . dans cet exemple. . il y a aussi une gradation.Dans la publicité. la vitesse. un ordre hiérarchique : le prix. le look. la sécurité est jugée plus importante que le confort. L’analyse en composantes principales. Donner une certaine explication aux choix effectués par les répondants. Dans le facteur I.

par exemple 10 variables fois 10 cas donnent une taille n égale à 100. dans le cas contraire. cinq choix de réponse). les variables doivent être réduites et normalisées On doit avoir dix fois plus de cas qu’il y a de variables impliquées .L’analyse en composantes principales doit respecter certaines contraintes • • le nombre des variables doit être suffisant (cinq variables ou plus) : la forme des réponses aux questions (les items) doit être la même (par exemple. • .

Présentation élémentaire de l’ACP .

Statistiques élémentaires Coefficients de corrélations .

3 Les valeurs propres de la matrice Var-Covar Les valeurs propres sont les variances des composantes principales correspondant La somme des 4 valeurs propres est 40.La matrice Var-Covar L’inertie totale : Var(Math)+Var(Phys)+Var(Fran)+Var(Angl) = 40.3 .

Les deux premières composantes principales restituent à elles seules la quasi-totalité de la dispersion du nuage. . ce qui permet de négliger les deux autres. C’est ainsi que l’objectif (résumé pertinent des données en petite dim) est atteint.Le nuage de points en dim 4 est toujours le même (variables initiales ou composantes principales) et sa dispersion globale n’a pas changée. C’est la répartition de cette dispersion selon les nouvelles variables (composantes principales) qui se trouve modifiée.

Résultats sur les variables Il s’agit d’un axe d’opposition entre disciplines scientifiques et disciplines littéraire Surtout marqué par l’opposition entre le français et les maths. Cette interprétation sera précisée avec les graphiques et tableaux relatifs aux individus .

On note que Mon et Alan ont un scores voisin de zero sur le deuxième axe car ils ont des résultats très homogènes dans les quatre disciplines . C’est le contraire pour Andr qui obtient la moyenne dans les disciplines scientifiques mais des résultats très faibles dans les disciplines littéraires.5 contre 7 et 5. l’élève le « plus bas » sur le graphique avec une coordonnée élevée sur le deuxième axe principal est Pier dont les résultats sont les plus contrastés en faveur des disciplines littéraires ( 14 et 11.On peut voir que l’axe 1 représente le résultat de l’ensemble des élèves.5). Par ailleurs.

Sign up to vote on this title
UsefulNot useful