You are on page 1of 28

25/03/2014

Analyse des données:
Les méthodes factorielles
Prof. Mohamed El Merouani

Introduction:
• L’analyse des données est une des branches
les plus vivantes de la statistique.
• Les principales méthodes de l’analyse des
données se séparent en deux groupes:
– Les méthodes de classification,
– Les méthodes factorielles.

http:\\elmerouani.jimdo.com

1

25/03/2014

Les méthodes de classification:
• Elles visent à réduire la taille de l’ensemble
des individus en formant des groupes
homogènes d’individus ou de variables.
• Ces groupes on les appelle aussi des classes,
ou familles, ou segments, ou clusters.
• La classification est appelée aussi
Segmentation ou Clustering ou…

Les méthodes factorielles:
• Parmi les méthodes descriptives ou nonsupervisées du Datamining, on trouve les
méthodes factorielles de l’Analyse des
données.
• les méthodes factorielles consistent en la
projection sur un espace de dimension
inférieure pour obtenir une visualisation de
l’ensemble des liaisons entre variables tout en
minimisant la perte de l’information.

http:\\elmerouani.jimdo.com

2

• Les liens entre deux groupes de variables peuvent être traités par l’analyse canonique.jimdo. • Si on travaille avec des variables qualitatives.25/03/2014 Les méthodes factorielles: • Elles cherchent à réduire le nombre de variables en les résumant par un petit nombre de composantes synthétiques.com 3 . on utilisera l’analyse en composantes principales. on utilisera l’analyse des correspondances. Les méthodes factorielles: Les méthodes factorielles regroupent : • L’ACP : L’analyse en composantes principales • L’ AFC : L’analyse factorielle des correspondances http:\\elmerouani. • Si on travaille avec un tableau de variables numériques.

jimdo. 1933) a pour objectif de réduire le nombre de données.com 4 . un plan ou un hyperplan judicieusement déterminé.25/03/2014 L’ACP • L’ACP (Hotelling. • Soit un tableau de données ayant p lignes et q colonnes: colonnes 1 …. géométriquement comme un nuage de points. • L’ACP consiste en l’étude des projections des points de ce nuage sur un axe (axe factoriel ou principal). on obtiendrait le meilleur ajustement du nuage par des sous-espaces vectoriels. comme une matrice et. souvent très élevé. J … q 1 x11 … x1j … x1q i xi1 … xij … xiq p xp1 … xpj … xpq lignes http:\\elmerouani. d’un tableau de données représenté. algébriquement. • Mathématiquement.

 x11   x21  M X =  xi1  M  x  p1 x12 L x22 L x2 j xi 2 M L x1 j xij M x p 2 L x pj x1q   L x2 q  M   L xiq  M  L x pq  L L’ACP • Algébriquement. il s’agit de chercher les valeurs propres maximales de la matrice des données et par conséquent ses vecteurs propres associés qui représenteront ces sousespaces vectoriels (axes factoriels ou principales).jimdo.q).com 5 . http:\\elmerouani.25/03/2014 • On représente ce tableau sous forme d’une matrice notée X de type (p.

une proportion importante de la trace de X’X. λq ces valeurs propres.25/03/2014 Procédure de l’ACP: • On cherche X’ la transposée de la matrice X. http:\\elmerouani. la somme des premiers valeurs propres représente. …. • On les classe λ1>λ2>λ3> λ4>…. souvent. • On détermine les valeurs propres de la matrice symétrique X’X.  λ1 0 L 0  • Alors X’X=AΛA-1 où    0 λ2 O M  Λ= M O O 0   0 L 0 λ  q  Procédure de l’ACP: • D’après les propriétés de la trace des matrices.jimdo. • Soient λ1. …. λ2.com 6 . on a: ( ) ( ) tr ( X ' X ) = tr AΛA−1 = tr AA−1Λ = trΛ • Soit tr ( X ' X ) = λ1 + λ2 + L + λq • En raison des valeurs numériques décroissantes de λ1. λ2.

• On pratique s=3 (trois premiers valeurs propres les plus grands) Procédure de l’ACP: • Les valeurs propres trouvés étant simples. • D’un point de vue général. λs avec s assez inférieur à q. λ2.com 7 . • L’information perdue est alors relativement faible. L’ACP nous a permit de traiter un très grand nombre de données (matrice) pour identifier un nombre relativement restreint de données (axes factoriels) http:\\elmerouani.25/03/2014 Procédure de l’ACP: • Ainsi. les espaces propres associés aux vecteurs propres seront des droites vectorielles (on les appelles des axes factoriels ou des facteurs).jimdo. …. dans la pratique on peut se limiter à trouver les premiers valeurs propres λ1.

25/03/2014 • Géométriquement.com 8 . alors les méthodes d’ajustement consistent en minimiser cette possible déformation et ce en maximisant les distances projetées. on représente le tableau comme un nuage de points. le nuage peut être déformé est donc serait différent de réel. http:\\elmerouani. L’ACP géométriquement: • Lors de la projection.jimdo.

xn 2 . xnj . xm 2 .com 9 .jimdo.25/03/2014 Distance ou métrique utilisée: • Soient Lm et Ln deux points de IRq: Lm = (xm1 . Ln ) = ∑ (x q j =1 mj − xnj ) 2 Distance ou métrique utilisée: • Ou bien 2 2 2 d 2 (Lm . xnq ) • La distance euclidienne (classique) entre ces points est: d (Lm .L . • Si les différents coordonnées des points L ne se mesurent pas avec les mêmes unités. xmq ) Ln = (xn1 .L . xmj . Ln ) = (xm1 − xn1 ) +L+ (xmj − xnj ) +L+ (xmq − xnq ) • Les points Lm et Ln sont encore plus proches lorsque la somme précédente est plus petite.L . http:\\elmerouani. la distance d sera la somme des termes de « poids » très différents.L .

25/03/2014 Distance ou métrique utilisée: • Pour éviter ce problème des unités. • La matrice V est une matrice de type carrée d’ordre q de terme général vkl égal à: 1 p 1 p vkl = ∑ ( yik − yk )( yil − yl ) = ∑ ( xik − xk )( xil − xl ) p i =1 p i =1 1 p v kl = ∑ (x ik x il − x k x l ) p i =1 http:\\elmerouani.jimdo.com 10 . on va centrer auparavant les vecteurs colonnes de la matrice X. • Le tableau des données centrés Y est :  x11 − x1   x 21 − x1 Y = M  x − x  p1 1 x12 − x 2 x 22 − x 2 x p 2 − x2 L x1q − x q   L x2q − xq   O M  L x pq − x q  L’ACP normé: • On s’intéresse à étudier la matrice des variances-covariances V au lieu de la matrice X de départ.

σj = 1 p (xij − x j )2 ∑ p i =1 Matrice centrée normée: • Donc.25/03/2014 • La matrice V des variances-covariances est telle que 1 V = p Y ′Y • On peut aussi considérer la matrice Z des données centrées et normés d’éléments zij zij = xij − x j σj • Avec p xj = ∑x i =1 ij p . la matrice des données centrées et normées sera:  x11 − x1   σ1 x −x  21 1 Z =  σ1  M x −x  p1 1  σ 1  http:\\elmerouani.com x12 − x2 L x22 − x2 L σ2 σ2 O x p 2 − x2 σ2 L x1q − xq   σq  x2 q − xq   σq   M x pq − xq   σ q  11 .jimdo.

…. http:\\elmerouani. • En pratique. on définit la matrice Γ des corrélations entre les q variables prises deux à deux: ρ12 1   ρ 21 1 Γ= M  ρ  q1 L L ρ1q   L ρ 2q  O M   L 1  • Γ résume la structure des dépendances linéaires entre les q variables et on a 1 Γ = Z'Z p Procédure de l’ACP normé: • On extrait les valeurs propres les plus grands λ1. on arrête l’extraction des valeurs propres lorsque la somme des s valeurs propres que l’on a déterminés représente un pourcentage satisfaisant de la variance.25/03/2014 • A partir de cette matrice. λ2.jimdo. de la matrice V des variancescovariances ou de la matrice Γ des corrélations.com 12 .

ou les quatre premiers axes factoriels. ne sont prise en considération que les deux. c'est-à-dire dont la variance est supérieure à celle des variables d’origine.25/03/2014 Procédure de l’ACP normé: • On détermine les vecteurs propres associés aux valeurs propres λ1. soit en terme des variables avec lesquelles ils sont très corrélés. http:\\elmerouani.com 13 . 2°) Critère de Kaiser (variables centrées et réduites) : On ne retient que les axes associés à valeurs propres supérieurs à 1. on ne garde que celles qui sont supérieures à cette moyenne. • Une autre interprétation est que la moyenne des valeurs propres étant 1. λ2.jimdo. soit directement. …. Nombre d’axes à retenir : Les critères les plus utilisables sont les suivantes : 1°) Interprétation des axes : On retient que les axes que l’on peut attribuer une forme d’interprétation économique. • Les axes factoriels sont perpendiculaires et ne sont pas corrélés entre eux. les trois. λs • Ce sont les axes factoriels • Dans la majorité des cas. par exemple.

• L’inconvénient majeur réside dans l’interprétation des axes. ce procédé a pour objet l’étude de la structure de la matrice des variancescovariances ou de la matrice des corrélations. Certains points sont plus altérés que d’autres par la transformation.com 14 . ou bien elle est contingente pour l'analyste et dans ce dernier cas elle n'apporte pas des renseignements très convaincant es pour l'analyse économétrique postérieure. • Mais. même si cette dernière est la plus idéale possible. l’explication est évidente et fait que l’analyse en composantes principales soit redondante . Parfois.jimdo.25/03/2014 Nombre d’axes à retenir : 3°) Éboulis des valeurs propres :On cherche un « coude » dans le graphe des valeurs propres et on ne conserve que les valeurs jusqu’au ce « coude ». http:\\elmerouani. Qualités et défauts de l’ACP : • D’un point de vue technique. le procédé est imparfait dans la mesure que le nuage est déformé par la projection.

L’AFC • Le tableau de dépendance peut être ainsi représenté dans un espace approprié par un nuage de points affectés de probabilités.jimdo. Les fréquences de répétitions s’interprète facilement en termes de probabilités. http:\\elmerouani.25/03/2014 L’AFC • L’AFC a pour objet le traitement de l’information contenue dans un tableau appelé de contingence ou de dépendance.com 15 . • Les données sont ici pondérées. en relation par moyen d’un processus naturel ou expérimental plus ou moins bien connu. relatif à deux ensembles de nature quelconque.

1 J … m Ensemble I (individus) 1 x11 … x1j … x1m i xi1 … xij … xim n xn1 … xnj … xnm • Dans le cas qualitatif.com ij 16 .25/03/2014 • Considérons un tableau à double entrée : Ensemble J (paramèttres) ….jimdo. le tableau précédent se présente sous la forme d’un tableau des uns et des zéros (suivant si l’individu i possède ou non le paramètre j). • La probabilité associée au terme xij est: pij = xij n m ∑∑ x i =1 j =1 http:\\elmerouani.

jimdo. L . L . … pnj … pnm pn. j … m Total p11 … p1j … p1m p1. p. … pij … pim pi.1 p.25/03/2014 1 ….m 1 J I 1 M i pi1 M n pn1 Total p.j 33 • Où les probabilités marginales sont: pi• = p• j = m ∑p ij avec i = 1. m • qui vérifient les propriétés: n ∑p i =1 http:\\elmerouani. n ij avec j =1 n ∑p i =1 j = 1.com i• = 1 et m ∑p j =1 •j =1 17 .

lorsqu’on a aussi des variables qualitatives.jimdo.com 18 . • Mais. on doit faire une étude des correspondances. dans ce cas: pij pi⋅ = p⋅ j ⇔ pij p⋅ j = pi⋅ • Formule d’indépendance: pij = pi⋅ × p⋅ j 36 http:\\elmerouani. 35 Indépendance? • Probabilités conditionnelles. on fait une étude de corrélation.25/03/2014 C’est quoi « les correspondances »? • Lorsque les variables sont quantitatives.

jimdo. i 2 . ij . L . im  pi ⋅ pi⋅   pi⋅ pi⋅ 37 Distance du χ2 • Pour deux individus quelconques i et i’: d 2 (Li . Li ' ) = ∑ j 1  pij pi ' j    − p⋅ j  pi⋅ pi '⋅  2 • Pourquoi une telle distance? 38 http:\\elmerouani. L .25/03/2014 A(I ) = {Li . pi⋅ } p p p p  Li =  i1 .com 19 .

donc. 39 Pourquoi la distance du χ2? • Aussi.com 20 . parce que la distance du χ2 a une propriété qui s’appelle «la propriété d’équivalence distributionnelle » et que la distance euclidienne ne vérifie pas! • Si deux colonnes j et j’ de J correspond au même ligne i. • Cela. il faut alors que cette opération ne modifie pas les distances entre les i.jimdo. 40 http:\\elmerouani. il est logique de les regrouper en une seule de probabilité (pij+pij’).25/03/2014 Pourquoi la distance du χ2? • La distance euclidienne ne prend pas compte complètement de tous les caractères étudiés! • Il a été alors proposé de modifier la distance euclidienne en tenant compte des écarts entre deux probabilités de deux individus d’avoir un caractère en donnant de l’importance aux probabilités que l’individu ait tous les caractères étudiés. par multiplication par l’inverse de la probabilité d’avoir tous les caractères.

L . .jimdo.L.  pi⋅ p⋅1 pi⋅ p⋅2  p p p p i ⋅ ⋅ j i ⋅ ⋅ m    p pi ' j pi ' 2 pi 'm  i '1  . β ij . β i 2 .L . β im ) • Avec • β ij = pij pi⋅ p⋅ j pi ⋅ étant toujours la pondération 42 http:\\elmerouani. . . la distance du χ2 est égale à la distance euclidienne entre:  p  p p p ij i 1 i 2 im   .25/03/2014 Pourquoi la distance du χ2? • Plus généralement.com 21 .  pi '⋅ p⋅1 pi '⋅ p⋅2 pi '⋅ p⋅ j pi '⋅ p⋅m   41 • Ce sont les points qu’on a noté Mi dans le cours M i = (β i1 .L.L. .L .

25/03/2014 B(I ) = {M i .com 22 . pi⋅ } 43 • Ainsi la distance du χ2 entre deux points Mi et Mi’ est: d 2 (M i . M i ' ) = ∑ (β ij − β i ′j ) 2 j 44 http:\\elmerouani.jimdo.

de telle façon que l’information perdue soit minime. ce qui revient à max u’Wu. • Ce qui revient à trouver la valeur propre la plus grande λmax de W.jimdo. 45 Matrice des variances-covariances W: • La matrice des variances-covariances W du nuage B(I) relativement à un paramètre j est:  v11 v12   v21 v22 W = M  v  m1 vm 2 L v1m   L v2 m  O M   L vmm  46 http:\\elmerouani. sous la condition u’u=1.com 23 .25/03/2014 Projection du nuage B(I) sur un axe: • On projet orthogonalement le nuage B(I) sur un axe (espace vectoriel de dim 1) de vecteur unitaire u. avec W est la matrice des variances-covarainces de B(I) . • Comme en ACP.

j = 1.jimdo. n . i = 1.L .com 24 .25/03/2014 Matrice des variances-covariances W: • La variance vjj caractérise la dispersion du nuage tout au long de l’axe j: ( v jj = ∑ pi⋅ β ij − p⋅ j ) 2 i • La covariance vjk est ( )( v jk = ∑ pi⋅ β ij − p⋅ j β ik − p⋅k ) ' i 47 Matrice des variances-covariances W: • Soit encore. en remplaçant βij par sa valeur:  p − pi⋅ p⋅ j v jk = ∑  ij  pi⋅ p⋅k i  • Posons p − p p ij i⋅ ⋅ j pi⋅ p⋅k  pik − pi⋅ p⋅k   pi⋅ p⋅k      ' = rij . m 48 http:\\elmerouani.L .

com 25 .25/03/2014 Matrice des variances-covariances W: (r ) ij 1≤i ≤ n 1≤ j ≤ m =R W = R' R où R’ est la transposée de R. 49 Variabilité totale du nuage B(I): • On appelle la variabilité totale du nuage B(I). la trace de la matrice W: VB = tr (W ) = ∑ v jj j • On parle aussi de la variabilité totale du nuage projeté C(I) qui sera Vc=λmax 50 http:\\elmerouani.jimdo. c’est-à-dire déterminer les vecteurs propres associés aux valeurs propres de la matrice R’R. • Maximiser u’Wu revient à maximiser u’R’Ru sous la condition u’u=1.

les vecteurs propres de W s’appellent « axes factoriels » du nuage. 52 http:\\elmerouani.25/03/2014 Variabilité expliquée du nuage B(I): • La partie de variabilité expliquée par la projection de B(I). • En pratique. on se contente des valeurs propres les plus grands.jimdo.com 26 . • La détermination des axes factoriels se fait en diagonalisant la matrice symétrique W. sur u est alors: δ= • Soit encore: δ= Vc VB λmax tr (W ) 51 Projection du nuage B(I) sur un plan: • Comme en ACP.

il est possible de reconstruire un tableau de données avec une minime perte d’information.com 27 . • Le premier facteur correspond aux coordonnées sur le premier axe factoriel.25/03/2014 Recherche des facteurs: • Les points du nuage C(I) possèdent un nombre réduit de coordonnées dans le référentiel formé les axes factoriels. 53 Recherche des facteurs: • On peut démontrer que les facteurs sont noncorrélés entre eux et s’expriment comme combinaisons linéaires des données.jimdo. à partir des facteurs. • Ainsi. c’est-à-dire obtenir un tableau plus facilement accessible à l’analyse descriptive. • Réciproquement. • Ces coordonnées sont les valeurs de nouvelles variables qui s’appellent: Facteurs. les données ont des coefficients qui sont des combinaisons linéaires des facteurs. 54 http:\\elmerouani.

• L’avantage essentiel réside dans l’étude des caractères qualitatifs. • Cette simultanéité de représentation suggère parfois une interprétation économique. 56 http:\\elmerouani.com 28 . • Il est alors possible de représenter. sur le même graphique. • Par des calculs symétriques.…des axes factoriels. 55 Inconvénients et avantages de l’AFC • Les inconvénients sont les défauts de toute analyse factorielle: déformation inévitable du nuage durant la projection et la signification ou interprétation des axes. • Sauf qu’il existe des relations entre les facteurs de IRm et les facteurs de IRn. dans le plan des deux premiers axes factoriels.jimdo.25/03/2014 Proximité en IRm et en IRn: • On a vu précédemment les proximités entre n points de IRm. politique. sociale. on peut étudier les proximités de m points de IRn. les proximités entre les individus et les proximités entre les caractères.