Chapitre 2: Analyse en composantes principales (A.C.P.

)

1

Analyse de la structure de la matrice variance-covariance
• Analyse de la variabilité et de la dispersion des données
Excepté si l’une des variables peut s’exprimer comme une fonction d’autres, on a besoin des p variables pour prendre en compte toute la variabilité du système Objectif de l’ACP: décrire à l’aide de q < p composantes un maximum de cette variabilité => trouver des descripteurs "efficaces" des données. • Utilité : - réduction de la dimension des données - outil de visualisation des données à 2 ou 3 dimensions (si q = 2 ou 3) - interprétation des données : liaisons inter-variables • Etape intermédiaire souvent utilisée avant d’autres analyses !
2

….• Recherche des composantes principales Propriétés statistiques désirées: Nouveau système de q (< p) variables: C1 .….…. => Espace de projection avec distorsion minimale des distances projetées.. C2 . + apk Yp => coefficients ajk à déterminer Propriétés géométriques désirées: Représentation approchées du nuage des n individus dans un sous-espace de dimension réduite.. Cq – non corrélées (représentation optimale) – de variance maximale (respect de la dispersion des données initiales) – d'importance décroissante (=> permet de se limiter au k meilleures) – obtenues par combinaisons linéaires des variables d’origine centrées par rapport à leur moyenne Y1. 3 . Yp Ck = a1k Y1 + a2k Y2 + …. Ck .

on impose qu’elle passe par g (centre de gravité.Définition des composantes par constructions successives: C1 détermine une nouvelle direction dans le nuage de points qui suit l’axe d’allongement (étirement) maximal du nuage. 4 . ci1 = coordonnée du point i sur l’axe C1 C1 = projection de xi sur C1 xi ci1 g * ci1 = ∑ a1 j ( xij − x j ) = ∑ a1 j yij j =1 j =1 p p C1 de variance maximale les projections ci1 sont les plus dispersées possible. => C1 = droite passant par le centre de gravité. réalisant le meilleur ajustement possible du nuage c-à-d : qui conserve au mieux la distance entre les points (après projection) => droite de projection assurant une distorsion minimale. Pour fixer la droite. sinon l’ensemble des droites parallèles conviennent).

fi’ ) soit maximum. C2 est ⊥ à C1 et telle que la moyenne des d2(bi .. => C2 détermine un axe perpendiculaire à C1 (au point g) suivant la 2ème direction d’allongement maximum du nuage. ai’) max. orthogonale à C1 et de variance maximale. => C3 est la droite ⊥ à C1 et C2 (par g) telle que la variance des coord. 5 . p 2 C2 b2 b1 p1 f1 f2 C1 a1 a2 C1 est telle que la moyenne des d2(ai . bi’) max. => C1 et C2 déterminent le plan tel que d2(fi .C2 = 2ème composante. => C1 et C2 déterminent le plan principal : le meilleur plan de projection (de distorsion minimum). soit maximum ..

sur une droite de vecteur directeur unitaire v s’écrit: ⇒ π(x) = vv x T avec • La variance des observations projetées s’écrit alors: 2 sV 6 .Détermination de la 1ère composante principale: • L’opérateur de projection orthogonale. π.

• Nous avons donc 2 sV 7 .

• Et donc 2 2 sV sV vT S v où S est la matrice variance-covariance des données 8 .

• Nous devons donc maximiser cette variance des observations projetées vT S v => problème d’optimisation sous contrainte • Nous formons donc la fonction de Lagrange vT S v • Et nous calculons les conditions nécessaires d’optimalité • Nous obtenons ainsi l’équation aux valeurs propres Sv=λv 9 .

• La variance des observations projetées s’écrit alors 2 sV vT S v • La solution est donc de projeter les données sur le vecteur propre de S ayant la valeur propre λ la plus élevée 10 .

Détermination de la 2ème composante principale: • Afin de trouver le second axe de variance maximale. la solution est de choisir le deuxième vecteur propre de S (à deuxième valeur propre maximale) Et ainsi de suite pour les composantes successives … 11 . nous recherchons (vTSv) où v1 est le premier vecteur propre à valeur propre maximale • Comme les vecteurs propres de S sont orthonormés.

…. Xj) = λk v jk λk s jj = λk s jj v jk 12 . Ck’) = 0 (pour tout k ≠ k’ ). des Ck = matrice diagonale Λ des valeurs propres de S • Cov(Ck . => matrice var.Interprétation des composantes principales • kème composante principale Ck définie par la combinaison linéaire: Ck = v1k Y1 + v2k Y2 + …. v2k .-covar. + vpk Yp où et avec λ1 > λ2 > … λk > … λp vjk = contribution de la variable Yj (Xj) à la composante Ck p (Yj = variables centrées) (v1k . Xj) = λk vjk ⇒ Cor(Ck . vpk)T = vk le kème vecteur propre de S • Tout vecteur de données initial xi devient ci où cik = ∑ xij − x j v jk j =1 ( ) • Moyenne de Ck = 0 • Variance de Ck = λk . cov(Ck .

Interprétation des valeurs propres • La somme des valeurs propres correspond à la variance totale des données: tr(S) = ∑ s = ∑ λ j j =1 2 j j =1 p p • Chaque valeur propre mesure la part de variance expliquée par l’axe factoriel (composante principale) correspondant(e) = variance des projections sur l'axe • % de variance expliquée par chaque composante: λk ∑λ j =1 p j 13 .

en réalité.Résultats: Par transformation linéaire. l’ACP remplace les p variables de départ (corrélées et de variances ≠) en q nouvelles composantes (q ≤ p) Ck • orthogonales 2 à 2 (décorrélées) • de variances maximales et décroissantes: var(C1) ≥ var(C2) … ≥ var(Cq) • nombre maximum de composantes principales: q (nbre de λk ≠ 0) ≤ p avec q < p dès que l’une des variables d’origine est une combinaison linéaire d’autres. ⇒ mise en évidence de relations linéaires dans les données ⇒ les données occupent. un sous-espace de dimensions réduites (q < p ) ⇒ Le nombre maximum de composantes principales = dimension intrinsèque des données 14 .

la meilleure représentation des données (à 1 dim. x g * v • Dans l'espace de départ la projection des xi sur une telle droite s'écrit: g + ai v = g + vT (xi .g) v où v est le vecteur directeur unitaire de la droite ai = vT (xi .Approche équivalente: transformation de Karhunen-Loéve • Approche basée sur le critère des moindres carrés: Recherche de la droite (passant par g) qui assure.) au sens des moindres carrés. par projection.g) (projection du vecteur centré) 15 .

• Le critère des moindres carré à minimiser s'écrit: J = ∑ (g + ai v ) − x i i =1 n 2 2 n n 2 = ∑ ai v − (x i − g ) i =1 n T n 2 = ∑ ai v − 2∑ ai v (x i − g ) + ∑ x i − g i =1 n i =1 2 i =1 2 n n 2 n 2 = ∑ ai − 2∑ ai + ∑ x i − g = −∑ v (x i − g ) + ∑ x i − g T 2 i =1 i =1 i =1 i =1 i =1 [ ] n 2 = −∑ v (x i − g )(x i − g ) v + ∑ x i − g T T i =1 T i =1 n n 2 = − v Sv + ∑ x i − g i =1 n 2 • Il faut donc trouver le vecteur v qui maximise vT S v. ce qui nous ramène au même problème d’optimisation que précédemment. 16 .

nous sommes donc amenés. à calculer les valeurs/vecteurs propres de S • En particulier.• Pour trouver le sous-espace de dimension de r qui assure la meilleure représentation des données (au sens des moindres carrés). les deux premiers axes principaux permettent la meilleure représentation (au sens des moindres carrés) des données sur un plan 17 . comme précédemment.

Mesure de cette information : le % de variance expliquée: ∑λ k =1 p k =1 r k ∑ λk = ∑V (C ) k =1 k r Variance totale Si les variables originales sont fortement corrélées entre elles.• Choix des r premières composantes principales r << p réduction de la dimension objectif : garder un maximum d’information des données initiales. un nombre réduit de composantes permet d’expliquer 80% à 90% de variance ! 18 .

La projection de xi dans ce nouvel espace à r dimensions est un vecteur ci: ci = ∑ cik v k k =1 r où v k = (vk1 . 19 .. centré sur g et défini par les r premiers axes principaux d’allongement du nuage.. vkp ) p j =1 T est le k ème vecteur propre de S matrice var.. p j =1 et cik = ∑ vkj ( xij − x j ) = ∑ vkj yij des données initiales Les projections ci sont les plus dispersées possible et minimisent les distorsions au sens des moindres carrés: J r = ∑ ci − y i i =1 n 2 (y i = xi − g ) ⇒ Les ci sont des approximations des yi minimisant l'erreur des moindres carrés..Géométriquement : Projection des données dans un sous-espace de dimension r.-covar..

% de variance expliquée par C1 . C2 élevé En général : . meilleure est la représentation des données dans le sous-espace ! . Plus ce % est grand. . . .Les composantes principales sont entièrement déterminées par la matrice S variancecovariance (vecteurs propres). => modification de S modification des composantes 20 . C2 ⇒ proximité dans l’espace initial Plus le nuage est aplati sur C1 . C2 . Cr = mesure d’aplatissement du nuage sur le sous-espace des composantes (à r dim.). … . ⇒ % de variance expliquée par C1 . C2 ⇒ moins de variance sur la 3ème dimension. C2 Projection ! proximité sur le plan C1 .Exemple : données initiales à 3 dimensions distribuées dans un « ballon de rugby » C1 .

⇒ Possibilité de travailler en données réduites: même importance pour toutes les variables (normalisées par sj). ⇒ Les composantes principales expliquent essentiellement la variance (dispersion des données) due aux variables les plus dispersées.pour des données très hétérogènes . mais possible perte d'information.en présence de valeurs très déviantes (extrêmes => augmente anormalement la variance) ⇒ permet d’intégrer des variables qualitatives ordinales 21 .aux dissymétries des distributions . – Si on travaille sur les données centrées-réduites: S = R ⇒ l’ACP explique la structure de R (autres composantes que celles de S) – Autre possibilité : travailler sur les rangs ⇒ ACP non-paramétrique ⇒ plus robuste : .• Remarques pratiques: – Les variables très dispersées (sj élevés) sont plus influentes que les autres.

C2 C1 => la représentation n’est valable que si le % de variance expliquée par C1 et C2 est suffisamment élevé (nuage assez aplati sur le plan) => vérifier si les proximités se maintiennent dans d’autres plans de projection: C1 ....C3 . ! proximités abusives dues aux projections . … => individus les mieux représentés = points proches du plan de projection (distorsion peu importante) => évaluation de la qualité de représentation des différents points 22 .. C2 .C3 . .. ..• Interprétation des résultats 1/ Représentation des individus dans le plan principal => peut faire apparaître des groupes d’individus présentant des similitudes. . .. . .

g ) ⎡ p p (xij − x j )v jk ⎤ ⎥ ⎢∑∑ k =1 j =1 ⎦ ⎣ p 2 car ∑ cos k 2 θ ik = 1 bonne représentation si θik ≈ 0° ou 180° (cos2 θik ≈ 1) mauvaise représentation si θik ≈ 90° ou 270° (cos2 θik ≈ 0) => xj mieux représenté que xi sur Ck Qualité de la représentation sur le plan principal: cos 2 θ i1 + cos 2 θ i 2 (≤ 1) Contribution de chaque point à l'inertie (variance) de Ck: 2 n cik 2 Var (Ck ) = λk = ∑ cik ⇒ contribution de x i = i =1 λk => identification des éléments responsables de la position de l'axe 23 . xi . xj .g θ ik .k ci .Mesure de la qualité de représentation d'un point: Pour chaque composante: .k cj Ck ⎤ ⎡ ⎢∑ (xij − x j )v jk ⎥ 2 c j =1 ⎦ cos 2 θ ik = 2 ik = ⎣ 2 d ( x i .

Xj ).X1 ⇒ groupes de variables liées ou opposées . Xj ) ≤ 1 => chaque variable représentée par les coordonnées : (Cor( C1. Xj ) + Cor2( C2.X8 . on a Cor2( C1. C2 : cercle des corrélations : C1 et C2 étant non-corrélées.X7 si proches de la circonférence.X5 .X4 C1 ! .X3 .X2 . Cor( C2.X6 .2/ Interprétation des composantes principales Base: corrélations avec les variables initiales X1 X2 M Xp C1 r11 r21 M rp1 C2 r12 r22 M rp 2 C3 r13 23 K K K K K => repérer les variables très corrélées ( r ≈ 1 ou r ≈ -1 ) M rp 3 Interprétation des 2 premières composantes C1 . Xj )) est dans un cercle de rayon 1 C2 . bien représentées par les 2 composantes ! 24 .

t3 C2 .t1 .individus typiques de groupes d’individus Exemple: 3 individus t1 . t2 .3/ Projection de points supplémentaires sur le plan principal après le calcul des composantes .t2 .t3 C1 aux profils typiques de 3 groupes distincts ⇒ permet de voir si les composantes C1 et C2 sont à même de les distinguer ⇒ idée de ce qui est distinguable (t1 des autres) ou non (t2. t3) .indicateurs des variables initiales projection de "pseudo-individus" représentatifs de la direction ou d’une (ou plusieurs) valeur(s) particulière(s) d’une variable initiales. 25 .

p2 . . e3 . C1 Ecrasement du repère des axes d'origine sur le plan principal 26 . e1 .⎛ 0⎞ ⎛ 0⎞ ⎛1⎞ ⎜ 0⎟ ⎜1⎟ ⎜ 0⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ e1 = ⎜ 0 ⎟ e 2 = ⎜ 0 ⎟ L e p = ⎜ 0 ⎟ ⎜M⎟ ⎜M⎟ ⎜M⎟ ⎜1⎟ ⎜ 0⎟ ⎜ 0⎟ ⎝ ⎠ ⎝ ⎠ ⎝ ⎠ ⎛ min ( xi1 ) ⎞ ⎛ max( xi1 ) ⎞ ⎜ ⎜ ⎟ 0 ⎟ 0 ⎜ ⎟ ⎜ ⎟ p1 = ⎜ 0 ⎟ p2 = ⎜ 0 ⎟ ⎜ ⎟ ⎜ ⎟ M M ⎜ ⎜ ⎟ 0 ⎟ 0 ⎠ ⎝ ⎝ ⎠ C2 e2 p1 Indicateurs du repère d'origine (des variables centrées) Indicateurs de valeurs spécifiques d'une variable .

Sign up to vote on this title
UsefulNot useful