You are on page 1of 31

Universit de Montral dpartement de sociologie

L'analyse factorielle et l'analyse de fidlit notes de cours et exemples

Claire Durand, 2003

Notes aux lecteurs... Ce texte a d'abord t prpar pour accompagner un cours d'introduction l'analyse factorielle. J'ai tent qu'il soit aussi complet que possible. Toutefois, la proccupation premire a videmment influenc la forme. Ce texte se veut une synthse pratique visant faciliter la comprhension, l'excution et l'interprtation d'analyses factorielles et de fidlit dans le processus de la validation de mesures. Il s'inspire entre autres de la bibliographie prsente en fin de texte et de l'exprience de l'auteure dans la conduite de ce type d'analyse. J'ai ajout la fin un texte de Lauri Tarkkonen qui explique bien mon avis la diffrence entre analyse factorielle et analyse en composantes principales. Je suis ouverte et intresse vos commentaires et critiques qui me permettront d'amliorer ventuellement le texte.

Claire Durand Claire.Durand@umontreal.ca

Table des matires 1. Qu'est-ce que l'analyse factorielle? A quoi sert? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 Les quations: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 Type de questions auxquelles l'analyse factorielle permet de rpondre . . . . . . . . . . . . . . 3 Analyse en composantes principales et analyse factorielle: . . . . . . . . . . . . . . . . . . . . . . . 3 Analyse exploratoire et analyse confirmatoire: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 2. Considrations thoriques et pratiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 3. Les types d'extraction d'une solution factorielle. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 4. Les types de rotation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 5. Les tapes de l'analyse factorielle de type exploratoire "globalement" . . . . . . . . . . . . . . . . . . . 8 6) Outils de diagnostic de la solution factorielle : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 A) adquation de la solution globale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 a) Le dterminant de la matrice: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 b) La mesure de Kaiser-Meyer-Olkin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 c) Le test de sphricit de Bartlett: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 d) Le Scree test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 e) La matrice reproduite et les rsidus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 f) La structure obtenue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 B) Pertinence de garder une variable dans la solution. . . . . . . . . . . . . . . . . . . . . . . . 13 a) Les statistiques descriptives des variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 b) La communaut (communality) de chaque variable avec la solution factorielle initiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 c) La simplicit ou la complexit de chaque variable dans la solution factorielle finale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 d) Un cas spcial: le Heywood case . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 7) Commandes pour l'analyse factorielle avec SPSS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 8) Qu'est ce que l'analyse de fidlit? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 Deux concepts cls: La fidlit et la validit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 Plusieurs types de validit: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 La fidlit: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 9) L'analyse de fidlit : aspects pratiques et outils diagnostiques . . . . . . . . . . . . . . . . . . . . . . . 21 10) L'analyse de fidlit avec SPSS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 11) Notes additionnelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 a) Relation entre l'analyse factorielle, l'analyse en composantes principales et l'analyse de fidlit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 b) Attention aux valeurs manquantes: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

Bibliographie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 Factor analysis and Principal components analysis, what's the difference? (L. Tarkkonen) . . . 26

1. Qu'est-ce que l'analyse factorielle? A quoi sert? On utilise le terme gnrique d'analyse factorielle pour parler de deux types d'analyse ayant de nombreux liens de parent mais lgrement diffrentes: l'analyse en composantes principales et l'analyse factorielle proprement dite. Avant d'examiner les diffrences entre ces deux types d'analyse, il est pertinent de voir les points communs la famille des analyses factorielles. L'analyse factorielle cherche rduire un nombre important d'informations (prenant la forme de valeurs sur des variables) quelques grandes dimensions. Comme dans toute analyse statistique, on tente donc d'expliquer la plus forte proportion de la variance (de la covariance dans le cas de l'analyse factorielle) par un nombre aussi restreint que possible de variables (appeles ici composantes ou facteurs). On utilise le terme de variables latentes pour parler de ces variables qui existent au plan conceptuel seul et qui ne sont pas mesures.

Exemple: - De faon mesurer la satisfaction des gens face leur travail, j'ai d'abord dtermin que celle-ci portait sur trois grandes dimensions: la qualit des relations interpersonnelles, la nature mme du travail et les aspects extrinsques (salaire, horaire,...). - Pour chacune des dimensions, j'ai pos quatre (4) questions du type "Etes-vous trs satisfait, assez satisfait, peu satisfait ou pas du tout satisfait a) de la qualit de vos relations avec vos collgues... b) de la qualit de vos relations avec vos suprieurs... c) de la qualit de vos relations avec vos subordonns d) de la qualit gnrale des relations interpersonnelles votre travail... - En agissant ainsi, je suppose qu'une dimension gnrale de satisfaction face au climat des relations interpersonnelles existe et que le positionnement des individus face cette dimension "explique", "prdit" leur positionnement sur chacune des "variables mesures". - Si cette hypothse est vraie, les personnes auront tendance rpondre de la mme manire aux quatre questions portant sur cette dimension et leurs rponses ces questions seront plus correles entre elles qu'avec les autres variables pour lesquelles on demande leur degr de satisfaction. - Cette "manire de voir" suppose aussi que l'on conoit que les variables mesures constituent un chantillon de l'ensemble des variables aptes mesurer le concept choisi. L'analyse factorielle tente de donner un sommaire des patrons de corrlations entre les variables. Elle tente de dcomposer les patrons de corrlations pour les expliquer par un nombre restreint de dimensions. Elle est souvent utilise comme mthode d'analyse exploratoire en vue de crer des chelles.

C. Durand, LAnalyse factorielle

23 janv. 09 - 1

Les quations: Contrairement l'entendement intuitif, il faut comprendre que ce sont les rponses aux variables mesures qui dpendent des scores aux facteurs et non pas l'inverse. Ainsi, l'analyse pose que la rponse des individus diverses questions portant, par exemple, sur leur satisfaction face aux relations avec leurs collgues ou avec leurs suprieurs dpend de deux lments: d'une part, la satisfaction gnrale face aux relations interpersonnelles et d'autre part, un lment rsiduel qui comprend l'erreur de mesure et un aspect unique propre la satisfaction spcifique qui est mesure. Les quations s'crivent ainsi: S'il y a un seul facteur et trois variables: x1 = b1F+u1 x2 = b2F+u2 x3 = b3F+u3 o: et x1 est la valeur pour la variable 1 b1 est la valeur du coefficient de rgression et donne l'importance de l'influence de F sur x1 F est la valeur thorique du facteur F U1 est la valeur de l'lment rsiduel comprenant le facteur unique la variable 1.

Similairement, s'il y avait n facteurs, l'quation pour chaque variable s'crirait: xi= bi1F1 + bi2F2+...binFn + ui Ainsi, dans le cas par exemple d'un questionnaire de sondage ou d'un test, on peut dire que la rponse que donne un individu une question pose est conue comme une combinaison linaire 1) de la rponse thorique qu'il donnerait une variable globale que l'on ne peut pas mesurer directement et 2) d'autres facteurs relis entre autres la question spcifique qui est pose.

C. Durand, LAnalyse factorielle

23 janv. 09 - 2

Type de questions auxquelles l'analyse factorielle permet de rpondre (Tabachnik et Fidell, 1989: 601) - Combien de facteurs sont ncessaires pour donner une reprsentation juste et parcimonieuse des donnes? - Quelle est la nature de ces facteurs, comment peut-on les interprter? - Quelle proportion de la variance des donnes peut tre explique par un certain nombre de dimensions (facteurs) majeures? - Jusqu' quel point la solution factorielle est conforme la thorie que je voulais vrifier? - La structure factorielle est-elle la mme pour divers groupes? - (Quel score auraient obtenu les sujets si on avait pu mesurer les facteurs?)

Analyse en composantes principales et analyse factorielle: - L'analyse en composantes principales (ACP) cherche une solution l'ensemble de la variance des variables mesures. De plus, elle cherche une solution o les composantes sont orthogonales (c'est-dire indpendantes) entre elles1. Quelque soit la matrice de corrlations, il y a toujours une solution en ACP. L'ACP maximise la variance explique. - L'analyse factorielle (A.F.) cherche une solution la covariance entre les variables mesures. Elle tente d'expliquer seulement la variance qui est commune au moins deux variables et prsume que chaque variable possde aussi une variance unique reprsentant son apport propre. Les divers modes d'extraction visent maximiser une bonne reproduction de la matrice de corrlations originale.

Quoiqu'il soit possible de faire des rotations orthogonales ou obliques en ACP, cette utilisation ne respecte pas les bases mmes de l'ACP, savoir une solution unique et des composantes indpendantes entre elles qui expliquent chacune une proportion dcroissante de la variance. C. Durand, LAnalyse factorielle 23 janv. 09 - 3

Analyse exploratoire et analyse confirmatoire: L'analyse habituellement effectue par les logiciels courants (SPSS, BMDP, SAS) est une analyse de type exploratoire puisqu'elle ne permet pas de dterminer l'avance quelles variables devraient tre lies quels facteurs. Lorsque la solution factorielle propose par le logiciel (la solution statistique) confirme nos hypothses de dpart, c'est bon signe. Lorsque ce n'est pas le cas, ceci n'infirme pas ncessairement nos hypothses, ceci parce qu'une multitude de solutions sont possibles pour chaque analyse et que le logiciel ne peut en proposer qu'une seule, celle qui est la plus approprie statistiquement. Une autre solution, plus conforme nos hypothses, peut tre presque aussi bonne que la solution propose et on ne peut pas le vrifier. L'analyse factorielle confirmatoire permet de dterminer non seulement le nombre de facteurs mais aussi l'appartenance de chaque variable un ou plusieurs facteurs. Ce type d'analyse doit tre utilis avec prcaution, lorsque l'on est vraiment l'tape finale de la confirmation d'un modle. Elle ncessite l'utilisation de logiciels permettant de faire des analyses par quations structurales (EQS et LISREL, maintenant AMOS en module de SPSS version 7.0). LISREL VII tait disponible comme module de SPSS (versions antrieures la version 7.0); toutefois, la version VIII, une version Windows, est nettement plus conviviale. 2. Considrations thoriques et pratiques (Tabachnik et Fidell, 1989: 603-605) - Pour qu'une variable soit intgre dans l'analyse, sa distribution doit montrer une certaine variance i.e. elle doit discriminer les positions des individus. - Idalement, on cherche une structure simple, c'est--dire une solution o chaque variable dtermine fortement un et un seul facteur. - Lorsqu'une variable est corrle plus d'un facteur, on dit que c'est une variable complexe; on peut dire que la signification des rponses cette variable s'interprte selon plusieurs dimensions. - La structure factorielle peut tre diffrente pour diffrentes populations. Il faut faire attention ne pas regrouper pour l'analyse des populations trop diffrentes. - Pour qu'une structure factorielle soit stable, elle doit avoir t vrifie sur un minimum de cas. La rgle veut qu'il y ait un minimum de 5 cas par variable. Lorsque cette rgle n'est pas respecte, plusieurs problmes peuvent survenir dont celui de la "matrice malade" (ill-conditioned matrix) ou le fait qu'une deuxime analyse avec une population diffrente donne des regroupements trs diffrents. Il y a donc des problmes de stabilit, de fidlit, de la solution factorielle.

C. Durand, LAnalyse factorielle

23 janv. 09 - 4

- Les variables utilises pour l'analyse devraient se distribuer normalement. Toutefois, lorsqu'on utilise l'analyse factorielle uniquement comme outil exploratoire, il est possible de "transgresser" cette rgle. Il faut alors utiliser une procdure d'extraction (Unweighted least square ou ULS) qui tient compte du fait que la distribution des variables n'est pas normale. Si le but de l'analyse est l'infrence, le postulat de normalit est plus important et certaines transformations normalisant la distribution peuvent tre effectues. - La relation entre les paires de variables est prsume linaire. - On devrait idalement reprer et liminer les cas ayant des patrons de rponses "anormaux" (Outliers) - La matrice de corrlation ne peut pas tre singulire pour ce qui est de l'AF pure. Ceci signifie que les variables ne peuvent pas tre ce point corrles entre elles qu'une variable constitue une combinaison linaire d'une ou plusieurs autres variables; il y a alors "redite", c'est--dire que la mme information est inscrite deux reprises. Mathmatiquement, les produits de matrices ncessaires l'estimation ne peuvent tre effectus dans une telle situation. - La matrice de corrlation doit contenir un patron, une solution factorielle. Certains ensembles de variables doivent tre corrls entre eux, suffisamment pour qu'on puisse dire qu'ils constituent un facteur. La solution factorielle doit aussi expliquer une proportion suffisamment intressante de la variance pour que la rduction un nombre restreint de facteurs ne se fasse pas au prix d'une perte importante d'information. - Toutes les variables doivent faire partie de la solution c'est--dire tre corrles minimalement avec une ou plusieurs variables, sinon elles doivent tre retires de l'analyse puisquelles nappartiennent pas la solution factorielle.

C. Durand, LAnalyse factorielle

23 janv. 09 - 5

3. Les types d'extraction d'une solution factorielle. A) l'extraction de type PC pour principal components (ACP ou analyse en composantes principales). Ce type d'extraction produit ncessairement une solution et la solution produite est unique. Il s'agit d'un solution maximisant la variance explique par les facteurs. B) l'extraction pour l'analyse factorielle Il y a plusieurs mthodes d'extraction. Il faut souligner que lorsque la solution factorielle est stable, les diverses mthodes donnent des rsultats similaires, la plupart du temps identiques. Les mthodes les plus utilises sont: - ML (maximum likelihood i.e. maximum de vraisemblance) : maximise la probabilit que la matrice de corrlation reflte une distribution dans la population. Cette mthode produit aussi un test de 2 de rapport de vraisemblance qui indique si la solution factorielle est plausible. La probabilit de ce test doit tre suprieure .05, c'est--dire que l'on ne doit pas rejeter l'hypothse nulle qui veut que le modle soit compatible avec les donnes. La mthode est toutefois sensible aux dviations la normalit des distributions: on rencontre frquemment des problmes lorsqu'on utilise cette mthode avec des chelles ordinales de type trs, assez, peu, pas du tout. - ULS (unweighted least square ou moindres carrs non pondrs) : minimise les rsidus. Cette mthode est privilgie lorsque les chelles de mesure sont ordinales ou que la distribution des variables n'est pas normale. Cette situation se prsente frquemment en sciences sociales, particulirement lorsque l'on mesure des attitudes. alpha : Cette mthode est trs peu utilise et trs peu connue. Elle s'avre pertinente lorsque le but de l'analyse est de crer des chelles puisqu'elle tente de maximiser l'homognit l'intrieur de chaque facteur et donc, la fidlit.

C. Durand, LAnalyse factorielle

23 janv. 09 - 6

4. Les types de rotation La rotation est le processus mathmatique qui permet de faciliter l'interprtation des facteurs en maximisant les saturations les plus fortes et en minimisant les plus faibles de sorte que chaque facteur apparaisse dtermin par un ensemble restreint et unique de variables. Ce processus est effectu par rotation, repositionnement des axes. Deux types de rotations: rotation orthogonale: On utilise cette rotation avec l'ACP2 et avec l'analyse factorielle (AF) lorsque l'on croit qu'il est possible de dterminer des facteurs qui soient indpendants les uns des autres. Une solution orthogonale est toujours prfrable parce qu'une telle solution indique que chaque facteur apporte une information unique, non partage par un autre facteur. Toutefois, ce type de solution est rarement possible en sciences sociales puisque habituellement, il existe des liens conceptuels entre les facteurs. Il existe trois mthodes pour produire une rotation orthogonale; la plus frquemment utilise est VARIMAX. rotation oblique: La rotation oblique, utilise surtout avec l'A.F. puisquelle est conceptuellemnet plus approprie dans ce cas, permet qu'il y ait corrlation entre les facteurs. Comme elle correspond habituellement mieux la ralit, elle est frquemment utilise en sciences sociales. La mthode utilise est OBLIMIN.

voir note de bas de page 1 page 3 23 janv. 09 - 7

C. Durand, LAnalyse factorielle

5. Les tapes de l'analyse factorielle de type exploratoire "globalement" a) dterminer l'ensemble des variables qui seront analyses conjointement. b) idalement, examiner cet ensemble de faon conceptuelle et dterminer la solution qui apparatrait plausible au plan du nombre de facteurs et du regroupement des variables. c) - Effectuer une analyse en composantes principales avec rotation orthogonale (varimax) en laissant la procdure dfinir le nombre de facteurs par dfaut; - effectuer en mme temps une analyse factorielle (lorsque c'est le but final de l'analyse) avec une rotation orthogonale et une rotation oblique (oblimin). Le nombre de facteurs par dfaut est dtermin par un critre, celui du eigenvalue plus grand que 1.0. Le Scree test donne aussi des indications quant au nombre de facteurs appropris. d) Examiner cette analyse pour dterminer les lments suivants: - comparer la ou les solutions proposes avec l'hypothse de regroupement faite au dpart. - Pour chacune des variables, dcider du maintien dans les analyses subsquentes partir des critres suivants: 1) voir si la qualit de la reprsentation ("communality" - A.F. statistiques initiales) est suffisamment importante (>0,20) pour le maintien dans l'analyse. 2) voir si les variables appartiennent (saturation > 0,30) un seul facteur ou plusieurs. Une trop grande complexit d'une variable justifierait le retrait. 3) examiner paralllement la pertinence des regroupements et la pertinence thorique de maintenir ou de retirer une variable plutt qu'une autre. 4) examiner les divers indices de pertinence de la solution factorielle e) refaire l'analyse de faon itrative jusqu' arriver une solution simple satisfaisante. Le test d'une bonne analyse factorielle rside, en fin de compte, dans la signification des rsultats. C'est le chercheur qui "dcode" la signification conceptuelle de chaque facteur.

C. Durand, LAnalyse factorielle

23 janv. 09 - 8

Deux problmes se posent: 1) Le critre de la justesse de l'analyse est en partie subjectif (Est-ce que le regroupement fait du sens?). Il faut faire particulirement attention la tendance qu'ont certains chercheurs donner aux facteurs des noms qui font du sens et qui impressionnent mais qui ne refltent pas ce qui a t mesur. 2) Il y a une infinit de solutions possibles aprs rotation; il n'y a donc pas une seule "bonne" solution. Il est alors difficile de dcrter que la solution prsente est "la solution". Il faut la prsenter comme une solution plausible qui n'est pas contredite par les donnes. 6) Outils de diagnostic de la solution factorielle : Si le principal critre d'un bonne solution factorielle demeure sa justesse au plan thorique, au plan du sens, il demeure que plusieurs outils statistiques nous guident dans la recherche de "la Solution". Voici une brve prsentation des principaux outils diagnostiques utiliss. L'exemple prsent permettra d'en comprendre l'utilisation de faon plus pousse. A) adquation de la solution globale a) Le dterminant de la matrice: Un dterminant gal a zro signifie qu'au moins une variable est une combinaison linaire parfaite d'une ou de plusieurs autres variables. Il y a donc une variable qui ne rajoute aucune information nouvelle au-del de celle fournie par les autres variables. Dans ce cas l'analyse ne peut procder pour des raisons mathmatiques (Il est impossible d'inverser la matrice). Notons que nous recherchons un dterminant trs petit, ce qui constitue un bon indice de l'existence de patrons de corrlations entre les variables, mais non gal zro. On obtient le dterminant - en indiquant Dterminant dans la fentre DESCRIPTIVES (SPSS Windows).

C. Durand, LAnalyse factorielle

23 janv. 09 - 9

b) La mesure de Kaiser-Meyer-Olkin Plus communment appel le KMO, la mesure de Kaiser-Meyer-Olkin est un indice d'adquation de la solution factorielle. Il indique jusqu' quel point l'ensemble de variables retenu est un ensemble cohrent et permet de constituer une ou des mesures adquates de concepts. Un KMO lev indique qu'il existe une solution factorielle statistiquement acceptable qui reprsente les relations entre les variables. Une valeur de KMO de moins de .5 est inacceptable .5 est misrable .6 est mdiocre .7 est moyenne .8 est mritoire .9 est merveilleuse (ref: SPSS professional statistics) Le KMO reflte le rapport entre d'une part les corrlations entre les variables et d'autre part, les corrlations partielles, celles-ci refltant l'unicit de l'apport de chaque variable. On obtient le KMO - en indiquant indice KMO et test de sphricit de Bartlett dans la fentre DESCRIPTIVES (SPSS Windows). c) Le test de sphricit de Bartlett: Ce test vrifie l'hypothse nulle selon laquelle toutes les corrlations seraient gales zro. On doit donc tenter de rejeter l'hypothse nulle i.e. que le test doit tre significatif (la probabilit d'obtenir la valeur du test doit tre plus petite que .05). Toutefois le test est trs sensible au nombre de cas; il est presque toujours significatif lorsque le nombre de cas est grand. Ses rsultats sont donc intressants presque uniquement lorsqu'il y a moins de 5 cas par variable. On obtient le test de sphricit automatiquement - en indiquant indice KMO et test de sphricit de Bartlett dans la fentre DESCRIPTIVES (SPSS Windows).

C. Durand, LAnalyse factorielle

23 janv. 09 - 10

d) Le test du coude de Cattell (ou Scree test) Le graphique des valeurs propres donne une reprsentation graphique des informations sur les valeurs propres de chaque facteur prsentes dans le tableau des statistiques initiales. Dans cette reprsentation, il faut rechercher le point (parfois les points) de cassure qui reprsente le nombre de facteurs au-del duquel l'information ajoute est insignifiante et peu pertinente. Plus la courbe est accentue, plus il apparat qu'un petit nombre de facteurs explique la majeure partie de la variance. A partir du moment o la courbe devient presque une ligne droite horizontale, il apparat que les facteurs subsquents apportent peu de nouvelles informations. Note : Les valeurs propres reprsentent la variance explique par chaque facteur. Elles sont constitues de la somme des poids factoriels au carr de toutes les variables pour un facteur dtermin. On obtient cette reprsentation - en cochant Diagramme des valeurs propres dans la bote afficher de la fentre EXTRACTION (SPSS Windows).

C. Durand, LAnalyse factorielle

23 janv. 09 - 11

e) La matrice reproduite et les rsidus L'analyse en composantes principales, tout comme l'analyse factorielle, constitue une dcomposition de la matrice des corrlations entre les variables. Ainsi, si l'on effectue une analyse en composantes principales et que l'on demande autant de facteurs qu'il y a de variables dans l'analyse, la matrice de corrlation reproduite sera identique la matrice de corrlation initiale. Ce n'est pas le cas pour l'analyse factorielle puisque celle-ci tente d'expliquer non pas la variance totale mais uniquement la covariance entre les variables. Donc, mme avec autant de facteurs que de variables, la matrice qui est cre lorsque l'on tente l'opration inverse, c'est--dire de reproduire les corrlations d'origine partir des informations extraites des facteurs suite l'analyse, ne reproduira pas les corrlations originales la perfection, il restera des rsidus. Il restera d'autant plus de rsidus que l'on garde seulement une partie des facteurs. Plus la solution factorielle est bonne, plus la matrice "reproduite" s'approche de la matrice de corrlation originale et moins les rsidus sont importants. L'indication d'une proportion faible de rsidus standardiss plus grands que 0,05 est un indice dune bonne solution factorielle qui reprsente bien toutes les corrlations entre les variables. Les rsidus plus grands que 0,05 devraient tre examins pour voir s'il n'y a pas des cas "aberrants" et de tenter de comprendre pourquoi. On pourrait avoir liminer une variable de lanalyse. On obtient la matrice reproduite et la matrice des rsidus - en cliquant Reconstitue dans la bote matrice de corrlation de la fentre DESCRIPTIVES (SPSS Windows). f) La structure obtenue La structure obtenue, c'est--dire le tableau des corrlations entre les variables et les facteurs (matrice des facteurs aprs rotation en rotation orthogonale et matrice des types en rotation oblique), doit tre simple, ce qui veut dire que chaque variable doit avoir une corrlation plus grande que 0,3 avec au moins un facteur et avec un seul facteur. Ces matrices sont imprimes automatiquement - en cliquant Structure aprs rotation dans la fentre ROTATION (SPSS Windows). Pour avoir ces mmes tableaux avant rotation, on clique Structure factorielle sans rotation dans la fentre EXTRACTION.

C. Durand, LAnalyse factorielle

23 janv. 09 - 12

B) Pertinence de garder une variable dans la solution. a) Les statistiques descriptives des variables Les variables, par dfinition, doivent montrer une certaine variation du positionnement des individus quant ce qui est mesur. En ce sens, un cart-type important et une moyenne qui se rapproche du milieu de l'chelle de mesure (exemple: moyenne de 2.5 pour une chelle 4 catgories) sont de bons indices que la variable apporte une information susceptible d'aider diffrencier les individus. Ces statistiques sont produites - en indiquant UNIVARIATE dans la sous-procdure /PRINT (SPSS syntaxe) - en cliquant Caractristiques univaries dans la fentre DESCRIPTIVES (SPSS Windows). b) La qualit de la reprsentation de chaque variable avec la solution factorielle initiale On doit examiner les statistiques de qualit pour l'analyse factorielle pure (et non lanalyse en composantes principales) et ceci avant lextraction d'un nombre restreint de facteurs. La qualit reprsente alors l'appartenance de chaque variable la covariance de l'ensemble des variables. C'est la variance de chaque variable qui peut tre explique par l'ensemble des autres variables. On considre que la qualit doit tre dau moins 0,20 pour justifier le maintien de la variable dans l'analyse. Par ailleurs, quoique ce soit un indice diffrent, il pourrait arriver qu'une variable ait une bonne qualit avec la solution initiale mais non avec la solution aprs extraction d'un nombre restreint de facteurs. Ceci se reflterait probablement par le fait que cette variable ne se regrouperait pas avec les autres dans la solution factorielle. NOTE: La somme des poids factoriels au carr pour une variable donne gale la qualit de reprsentation de cette variable. On obtient ces informations - en cliquant Structure initiale dans la fentre DESCRIPTIVES (SPSS Windows).

C. Durand, LAnalyse factorielle

23 janv. 09 - 13

c) La simplicit ou la complexit de chaque variable dans la solution factorielle finale Une variable est dite complexe lorsqu'elle est corrle substantiellement (saturation factorielle plus grande que 0,30 plus d'un facteur. On peut dire que les rponses cette variable refltent plus d'un concept. Ainsi, il pourrait arriver que la satisfaction face aux avantages sociaux soit corrle deux facteurs, un portant sur la rmunration (associ au salaire) et l'autre portant sur la scurit d'emploi. Cela entrane un problme lorsque l'on veut crer des chelles : Avec quelle chelle devrait-on regrouper cette variable, celle portant sur la rmunration ou celle portant sur la scurit? Il y a plusieurs manires de traiter ce problme dpendant de l'importance thorique de la variable, du choix quant au nombre de facteurs, de la rotation (orthogonale ou oblique) privilgie. Dans le cas o d'autres variables amnent une information similaire, on peut retirer la variable considre comme complexe. Il arrive qu'on la maintienne dans l'analyse; lorsque l'on veut crer les chelles, on dcide de son appartenance une chelle plutt qu'une autre partir des informations fournies par les analyses de fidlit et partir de considrations thoriques. Ces informations sont tires des matrices factorielles (Matrice des facteurs ou matrice des types) que l'on obtient - en cliquant Structure aprs rotation dans la fentre ROTATION (SPSS Windows). d) Un cas spcial: le cas Heywood On parle de cas Heywood lorsque, d aux relations trop fortes entre certaines variables, un problme se produite dans les calculs matriciels et la qualit de reprsentation devient plus grande que 1.0. On repre facilement la prsence dun cas Heywood - lorsque la qualit d'une variable est note comme tant .9998 ou .9999. - lorsque la saturation factorielle dune variable est plus grande que 1.0. (SPSS met un avertissement disant que la qualit d'une ou de plusieurs variables est plus grande que 1.0). Le cas Heywood est d au fait que la variable est trop fortement corrle une ou plusieurs autres variables. Dans ce cas, il faut dcider soit de retirer la variable des analyses subsquentes soit de retirer une autre variable avec laquelle elle est fortement corrle.

C. Durand, LAnalyse factorielle

23 janv. 09 - 14

7) Commandes pour l'analyse factorielle avec SPSS En rsum, une commande d'analyse factorielle dans SPSS qui donnerait l'ensemble des informations ncessaires prsentes plus haut aurait la forme suivante: COMMANDE, SOUS-COMMANDE FACTOR /VAR=NATURE3 TO RECON8 CARRIER1 STABIL2 PERFECT9 SECUR13 SALAIR10 TO HORAIR12 * Dans Windows, slectionner les variables /PRINT DEFAULT UNIVARIATE CORRELATION REPR DET KMO *Dans Windows, choisir Structure initiale, Caractristiques univaries, Coefficients, Reconstitue, Dterminant et Indice KMO et test de Bartlett dans CARACTRISTIQUES /CRITERIA FACTORS (4) * Dans Windows, cette option est disponible dans la fentre EXTRACTION /PLOT EIGEN *ROTATION (1,2) * Dans Windows, on demande le Graphique des valeurs propres dans la fentre EXTRACTION et Carte factorielle dans la fentre ROTATION. Par dfaut , cette dernire indication donne un graphique en 3 dimensions des 3 premiers facteurs, le cas chant. Pour obtenir des graphiques en deux dimensions , il faut diter la syntaxe. /FORMAT SORT BLANK (.3) * Dans Windows, la fentre OPTIONS donne lAffichage des projections. On clique Classement des variables par taille et Supprimer les valeurs absolues infrieures __. On change la valeur par dfaut (.10) .30. SIGNIFICATION FACTOR: demande une analyse factorielle /VAR= liste des variables qui seront analyses /PRINT indique les informations qui devront tre imprimes, dans ce cas-ci, les statistiques par dfaut, les statistiques univaries pour chaque variable, la matrice de corrlation originale, la matrice reproduite, le dterminant, le KMO et le test de sphricit. /CRITERIA permet de spcifier, lorsque ncessaire, des critres tels le nombre de facteurs et le nombre d'itrations; dans ce casci, on demande 4 facteurs. /PLOT permet de demander des graphiques des valeurs propres ou des facteurs; dans ce cas-ci on demande le graphique des valeurs propres et celui des deux premiers facteurs

/FORMAT contrle l'apparence; dans ce casci SORT permet que les variables apparaissent dans les matrices factorielles en fonction de leur importance et selon les facteurs et BLANK (.3) permet que les saturations factorielles infrieures .3 n'apparaissent pas dans l'impression ce qui facilite la lecture.

C. Durand, LAnalyse factorielle

23 janv. 09 - 15

/EXTRACTION ULS /ROTATION OBLIMIN. *Dans SPSS Windows, il faut, pour chaque extraction ou rotation, refaire la commande dAnalyse factorielle au complet (i.e. choisir le mode d'extraction appropri dans EXTRACTION et la rotation dsire dans ROTATION). Attention, c'est dans la fentre EXTRACTION que l'on demande le Graphique des valeurs propres ainsi que la solution factorielle sans rotation et que l'on dfinit les critres (nombre de facteurs et/ou ditrations) le cas chant. Dans ROTATION, on demande la Structure aprs rotation et les cartes factorielles.

EXTRACTION spcifie le type d'extraction et ROTATION le type de rotation. Dans ce cas-ci, on demande une analyse avec extraction ULS (moindres carrs non pondrs) comprenant une rotation une rotation oblique.

C. Durand, LAnalyse factorielle

23 janv. 09 - 16

En rsum, voici les commandes pour l'analyse factorielle avec Spss -Windows: 6 Allez dans ANALYSE, 6 choisir FACTORISATION - ANALYSE FACTORIELLE Dans le tableau principal de l'analyse factorielle a) Choisir les VARIABLES que l'on veut analyser b) Dans CARACTRISTIQUES : - STATISTIQUES6 CARACTRISTIQUES UNIVARIES 6 STRUCTURE INITIALE - MATRICE DE CORRLATIONS 6 COEFFICIENTS 6 DTERMINANT 6 INDICE KMO ET TEST DE BARTLETT 6 MATRICE DES CORRLATION RECONSTITUE c) Dans EXTRACTION : - MTHODE 6COMPOSANTES PRINCIPALES (PC) 6MOINDRES CARRS NON PONDRS (ULS) 6ALPHA-MAXIMISATION 6... 6VALEURS PROPRES SUPRIEURES 1.0 6NOMBRE DE FACTEURS = 6MAXIMUM DES ITRATIONS POUR CONVERGER (pour augmenter le nombre d'itrations ncessaires la convergence). 6STRUCTURE FACTORIELLE SANS ROTATION 6GRAPHIQUE DES VALEURS PROPRES 6VARIMAX 6OBLIMIN DIRECTE 6STRUCTURE APRS ROTATION 6CARTE(S) FACTORIELLE(S) (par dfaut: 3-D pour 3 premiers facteurs; si on veut un graphique des facteurs deux par deux, il faut diter la syntaxe en rajoutant une parenthse (n1 n2) aprs l'indication PLOT)

- EXTRAIRE

- AFFICHER d) Dans ROTATION: - MTHODE - AFFICHER

e) Dans OPTIONS:

- VALEURS MANQUANTES 6 EXCLURE TOUTE OBSERVATION INCOMPLTE OU EXCLURE


SEULEMENT LES COMPOSANTES NON VALIDES OU REMPLACER PAR LA MOYENNE - AFFICHAGE DES PROJECTIONS 6CLASSEMENT DES VARIABLES PAR TAILLE 6SUPPRIMER LES VALEURS ABSOLUES INFRIEURES (.30)

C. Durand, LAnalyse factorielle

23 janv. 09 - 17

8) Qu'est ce que l'analyse de fidlit? Blalock (1968): "Les sociologues thoriciens utilisent souvent des concepts qui sont formuls un assez haut niveau d'abstraction. Ce sont des concepts relativement diffrents des variables utilises qui sont le lot des sociologues empiriques... Le problme du lien entre la thorie et la recherche peut donc tre vu comme une question d'erreur de mesure". La mesure peut tre vue comme le "processus permettant de lier les concepts abstraits aux indicateurs empiriques" (Carmines et Zeller, 1979). Deux concepts cls: La fidlit et la validit Fidlit: Consistance dans la mesure : Jusqu' quel point plusieurs mesures prises avec le mme instrument donneront les mmes rsultats dans les mmes circonstances. Exemple: Je fais passer un questionnaire portant sur l'idologie deux fois aux mmes personnes deux mois d'intervalle et j'obtiens des rsultats diffrents entre les deux passations. Est-ce que l'idologie d'une personne peut changer si vite ou si c'est l'instrument qui n'est pas fiable? La fidlit demeure au plan empirique: elle dit si en soi l'instrument est un bon instrument. Validit: Jusqu' quel point l'instrument mesure ce qu'il est suppos mesurer. Exemple: Si j'utilise une srie de questions censes mesurer les prfrences idologiques et que je me rends compte que j'ai en fait mesur l'identification un parti politique, ma mesure est une mesure non valide de l'idologie. La validit concerne la relation entre la thorie et les concepts qui lui sont relis d'une part et la mesure d'autre part: elle est concerne par l'adquation de la traduction du concept en mesure. Plusieurs types de validit: validit relie au critre: relation entre l'instrument et ce quoi il devrait thoriquement tre reli. On parle de validit prdictive quand le critre est mesur aprs et de validit concurrente quand le critre est mesur en mme temps. validit de contenu: relation entre le - les concepts mesurer et l'instrument utilis. Un instrument de mesure de l'alination mesurera le sentiment d'absence de pouvoir, d'absence de normes, d'isolation sociale, etc. Ceci implique que le domaine et les concepts doivent tre bien dfinis.

C. Durand, LAnalyse factorielle

23 janv. 09 - 18

validit de construit: relation entre l'instrument et d'autres instruments suppos mesurer des concepts relis. validit convergente et discriminante: voir analyse factorielle: Jusqu' quel point chaque indicateur constitue une mesure d'un et d'un seul concept. La fidlit: 6 thorie classique des tests: 6 le score observ (qui peut-tre par exemple la rponse d'une personne une question) est une combinaison linaire d'une partie reprsentant le score vrai et d'une partie d'erreur alatoire. X=t+e o "t" reprsente le score vrai et "e" reprsente l'erreur alatoire 6 la corrlation entre deux scores observs constitue un estim de la fidlit des mesures 6 Ds qu'on a plus d'une mesure d'un mme concept, on peut estimer la fidlit ; on peut concevoir l'erreur moyenne de mesure comme la rciproque de la fidlit, "1- ". Dans la thorie classique des tests, ceci est vrai si les scores vrais et la variance d'erreur sont identiques (i.e. les mesures sont parallles). Diverses manires de mesurer la fidlit: fidlit test-retest: corrlation entre la mesure prise un temps 1 et la mesure prise un temps 2: fidlit dans le temps. fidlit "split-half" entre deux sous-ensembles: Jusqu' quel point deux sous-ensembles des items constituent deux mesures fidles du mme concept. fidlit entre diffrentes formes: Jusqu' quel point deux ensembles diffrents d'items peuvent mesurer le mme concept. consistance interne: Jusqu' quel point chacun des items constitue une mesure quivalente d'un mme concept.

C. Durand, LAnalyse factorielle

23 janv. 09 - 19

On peut mesurer la consistance interne en utilisant le

6 Alpha de Cronbach:

o et

"k" est le nombre d'items cov est la covariance moyenne entre les items G va r est la variance moyenne des items G

Si les items sont standardiss de faon avoir la mme variance, la formule se modifie comme suit:

o et

"k" reprsente le nombre d'items dans l'chelle "" est la corrlation moyenne )

Ce coefficient Alpha peut tre considr comme la moyenne des coefficients alpha que l'on obtiendrait pour toutes les combinaisons possibles de deux sous-ensembles des items mesurant un mme concept. Il peut aussi tre vu comme l'estim de la corrlation que l'on obtiendrait entre un test et une forme alternative du mme test comprenant le mme nombre d'items. Le coefficient alpha est la borne infrieure de la fidlit relle i.e la fidlit relle ne peut pas tre infrieure la valeur du alpha et elle est gale cette valeur lorsque les items sont parallles i.e. les scores vrais ont la mme moyenne et la variance d'erreur est la mme. Remarquer que la valeur de alpha augmente avec le nombre d'items, mais ce la condition que la corrlation moyenne inter-item ne soit pas diminue avec l'ajout de nouveaux items (i.e. toutes choses gales par ailleurs). L'amlioration du alpha devient marginale au-del d'un certain nombre d'items (environ 6-7).

C. Durand, LAnalyse factorielle

23 janv. 09 - 20

9) L'analyse de fidlit : aspects pratiques et outils diagnostiques Plusieurs outils sont disponibles pour valuer la fidlit d'un ensemble de variables. La procdure RELIABILITY de SPSS permet d'examiner les informations pertinentes. On lobtient en cliquant analyse de fiabilit dans le menu Echelle. Matrice de corrlation: Tout comme avec l'analyse factorielle, cette matrice permet de voir jusqu' quel point les items sont corrls entre eux et quels items sont plus fortement corrls. S'il s'avrait que deux concepts sont mesurs plutt qu'un seul, les corrlations pourraient nous permettre de reprer cette possibilit. 6 Dans SPSS Windows, on indique Corrlations dans la bote Rcapitulatifs des statistiques Statistiques univaries: Pour chacun des items, on peut obtenir la moyenne et l'cart type, ce qui permet de voir si les statistiques descriptives sont similaires pour les divers items, 6 Dans SPSS Windows, on indique Item dans Caractristiques pour des statistiques Les statistiques d'chelle: indiquent quelle serait la moyenne, la variance et l'cart-type de l'chelle si on additionnait les rponses chacun des items. Donne une ide des proprits futures de l'chelle crer 6 la variance sera-t-elle suffisante? 6 Dans SPSS syntaxe, on indique chelle dans Caractristiques pour des statistiques Le sommaire des statistiques d'items: les moyennes: Donnent les indications sur les diffrences de moyennes entre les items i.e minimum, maximum, moyenne, ratio maximum/minimum. Si ces diffrences sont trop importantes, on pourrait penser que chaque item ne mesure pas le concept de faon quivalente. 6 Dans SPSS Windows, on indique Moyennes dans Rcapitulatifs des statistiques Le sommaire des statistiques d'items: les variances: Donnent les indications sur les diffrences de variances entre les items. Mme interprtation que pour les moyennes. 6 Dans SPSS Windows, on indique Variances dans Rcapitulatifs des statistiques

C. Durand, LAnalyse factorielle

23 janv. 09 - 21

Les statistiques d'items: les corrlations inter-items: Donnent les indications trs importantes sur les diffrences de corrlations entre les items. Des corrlations trs faibles ou ngatives devraient tre repres dans la matrice de corrlation et la pertinence de garder des items montrant une corrlation ngative avec un ou plusieurs items value. Si cette situation existe, soit que plus d'un concept est mesur, soit que certains items mesurent mal le concept ou que l'chelle aurait due tre inverse pour cet item (Par exemple, dans le cas o des items sont formuls ngativement et d'autres positivement). 6 Dans SPSS Windows, on indique Corrlations dans Cohrence inter-lments des statistiques Les statistiques de la relation entre chaque item et le total (chelle): Moyenne, variance qui rsulterait si on enlevait un item: La moyenne et la variance de l'chelle ne devraient pas tre fortement modifis par le retrait d'un item sinon, ceci signifie que l'item en question ne contribue pas de la mme manire la mesure du concept que les autres items. Corrlation corrige: Il s'agit de la corrlation entre l'item et les autres items de l'chelle (i.e l'chelle moins l'item en question). Cette corrlation devrait tre minimalement de .30 (comme dans le cas de la corrlation entre chaque item et le facteur dans l'analyse factorielle). Corrlation multiple au carr: Il s'agit de la variance de l'item explique par les autres items. Plus elle est leve, plus l'item est une mesure commune du concept. Il s'agit de l'quivalent de laqualit de la reprsentation dans les statistiques initiales en analyse factorielle. alpha si l'item tait enlev: Il est trs important de regarder cette information. Si un item n'appartient pas l'chelle, alors la fidlit telle que mesure par le alpha serait suprieure si l'item tait enlev. Donc, lorsque lalpha si litem tait enlev est suprieur au alpha standardis, ceci signifie que l'item en question est une mesure qui dtriore la fiabilit de l'chelle. Toutes les statistiques prcdentes sont obtenues Dans SPSS Windows, on indique Echelle sans llment dans Caractristiques pour des statistiques ALPHA ET ALPHA STANDARDIS: Ces deux mesures sont similaires lorsque les moyennes et les variances des items diffrent peu. L'valuation d'un bon alpha est similaire celle du KMO: On recherche une valeur suprieure .70, une valeur suprieure .90 tant magnifique. 10) L'analyse de fidlit avec SPSS En rsum, voici les commandes pour l'analyse de fidlit avec Spss -Windows: 6 Allez dans STATISTICS, 6choisir ECHELLE - ANALYSE DE FIABILIT

C. Durand, LAnalyse factorielle

23 janv. 09 - 22

Dans le tableau principal de l'analyse de fidlit a) Choisir les VARIABLES (items) que l'on veut analyser pour UNE chelle donne b) Entrer une tiquette dchelle c) Dans MODLE: - choisir le type d'analyse 6 ALPHA DE CRONBACH - autres choix (split-half, Guttman, parallle, parallle stricte)

d) Dans STATISTICS : - CARACTRISTIQUES POUR 6 ITEM 6 ECHELLE 6 ECHELLE SANS LLMENT - RCAPITULATIFS 6 MOYENNES 6 VARIANCES 6 CORRELATIONS 6 (COVARIANCES) - COHRENCE INTER-LMENTS 6 CORRELATIONS 6 (COVARIANCES) - TABLEAU ANOVA 6 AUCUNE 6 (F TEST - teste qu'il n'y a pas de diffrence significative entre les diffrentes mesures de l'chelle) Autres informations disponibles : En rsum, la syntaxe: RELIABILITY /VARIABLES=q65c q65d q65e q65f q65g q65h /FORMAT=LABELS /SCALE(ALPHA)=ALL /MODEL=ALPHA /STATISTICS=DESCRIPTIVE SCALE CORR /SUMMARY=TOTAL MEANS VARIANCE CORR . 11) Notes additionnelles a) Relation entre l'analyse factorielle, l'analyse en composantes principales et l'analyse de fidlit. - T carr de Hotelling - Test dadditivit de Tukey - Coefficient de corrlation intra-classe

C. Durand, LAnalyse factorielle

23 janv. 09 - 23

Le but premier de ces analyses est d'en arriver regrouper ensemble les items qui mesurent le mme concept de faon ce qu'une addition des rponses un ensemble d'items constitue une nouvelle mesure, composite, d'un concept. Par exemple, si on additionne les rponses de chaque rpondant chacun des items mesurant la satisfaction envers un aspect extrinsque de son travail, on obtiendra pour chaque rpondant une mesure de satisfaction extrinsque. L'analyse en composantes principales (ACP) dcompose la matrice de corrlation en tenant compte de l'ensemble de la variance des items. Elle en extrait un certain nombre de facteurs indpendants. Le but de l'analyse en composantes principales est d'expliquer le plus de variance possible avec un nombre de composantes le plus restreint possible. Aprs extraction, une part seulement de la variance totale est explique. Le mode d'extraction et de rotation permet de dterminer les sousensembles d'items qui sont plus fortement corrls entre eux et qui peuvent donc constituer des mesures d'un nombre restreint de concepts. L'analyse factorielle (AF) fait la mme chose que l'ACP mais tient compte uniquement de la variance commune l'ensemble des items. Elle extrait des facteurs qui peuvent tre indpendants ou corrls entre eux. Son but est de reproduire le plus fidlement possible la matrice de corrlation. Comme l'ACP, elle permet de dterminer des sous-ensembles plus fortement corrls entre eux. Comme l'ACP et l'AF ne retiennent qu'une partie de la variance totale dans la solution finale, les rsultats de l'analyse de fidlit peuvent contredire en partie ceux de l'analyse factorielle ou de l'ACP. On peut expliquer cette situation par le fait que la variance commune d'un item est bien relie celle d'un autre item mais que leurs variances spcifiques sont peu ou pas du tout corrles ou mme en corrlation ngative. Comme l'analyse de fidlit considre l'ensemble de la variance, cette situation peut faire qu'un item bien identifi un facteur en AF se rvle un mauvais contributeur l'chelle.

C. Durand, LAnalyse factorielle

23 janv. 09 - 24

b) Attention aux valeurs manquantes: Comme il est possible que certains rpondants n'aient pas rpondu tous les items d'un ensemble donn, le nombre de cas valides peut varier d'une analyse l'autre selon que l'on retire ou que l'on ajoute un item. Ceci peut modifier les rsultats. Il existe dans certaines procdures des moyens d'estimer les valeurs manquantes, entre autres en remplaant la valeur manquante par la moyenne du groupe. Comme rgle gnrale, les valeurs manquantes ne sont pas estimes: les cas qui n'ont pas rpondu toutes les questions n'apparaissent pas dans l'analyse. Nous n'avons pas le temps d'aborder toute cette problmatique durant le cours (Il existe de plus en plus dans les logiciels des mthodes dimputation des valeurs manquantes, chacune ayant son biais propre) mais il demeure qu'il faut examiner les rsultats et la modification du nombre de cas valides selon les analyses. Bibliographie Tabachnik,Barbara G.; Fidell,Linda S. (1996): Using multivariate statistics. Harper and Row, New York. 509 pages. Analyse factorielle et fidlit: Carmines,Edward G.; Zeller,Richard A. (1979): Reliabiblity and validity assessment. (Quantitative applications in the social sciences, 17.) Sage, Beversly Hills. 71 pages. Kim,Jae-On; Mueller,Charles (1978): Introduction to factor analysis. What it is and how to do it. (Quantitative applications in the social sciences.) Sage, Beverly Hills. Kim,Jae-On; Mueller,Charles (1978): Factor analysis, statistical methods and practical issues. (Quantitative applications in the social sciences.) Sage, Beverly Hills.

C. Durand, LAnalyse factorielle

23 janv. 09 - 25

Factor analysis and Principal components analysis, what's the difference? by Lauri Tarkkonen

Factor analysis is based on the model x = Bf+e, and cov(x)=Acov(f)A'+cov(e), one can make some further assumptions say cov(f)=I and cov(e)=D (diagonal), so the covariance is simplified to cov(x) = BB'+D = S. Principal components are by definition: u = A'x, such as V(u(i)) = a(i)'x is maximum a'a = 1 and the u(i) are orthogonal. Then cov(u) = A'cov(x)A, A'A and AA' are I, thus cov(x) = S = AA' . The factor analysis is a statistical model and the principal componentsare just a linear transformation of the original variables. Anyway, in factor analysis S-D = BB' and in principal components S = AA'.The difference in B and A is that you remove the D, the variances of the errors in FA but not in PCA. If there is no errors (it is easy to show that the same applies if all error variances are equal) the two methods will give you the same results. If there is significant differences in the communalities of the variables, the two methods differ. So what is the proper one. If you do not assume measurement errors then use PCA; if you think there are measurement errors use FA. I would like to put it this way: You all know the thing called the blueberry pie. First you take some dow, make a bottom of it, go to the forrest and pick some blueberries. If you believe in PCA, you put everything in your basket on top of the how. If you believe that there is something in your basket like leaves, needles, frogs that do not belong to the blueberry pie, you blow strongly while you pour your berries to the pie. Most things that do not belong to the pie fly away, you might loose some berries as well, but the taste is perhaps more of blueberries. If you did good job in picking your berries, there is no difference. So why is this so difficult? Why do we always have this discussion? First: Tradition. In the beginning, there was T.W Anderson and his Introduction to Multivariate Analysis (-58). It started with PCA and told us that in the appendix (was it F) there is a funny thing called the Factor analysis. All the statisticians thought that PCA is the proper method and FA is some magic developed by some psychologists and you should not take it seriously. Remember FA had this rotational indeterminacy.

Then: Lawley come up with the Maximum Likelihood solution. Now the statisticians had to accept FA as a bona fide statistical model. If there was Maximum Likelihood estimates for something, it must be the real thing. They realized that there was no theoretical base but the simplicity and the lack of indeterminacy speaking for the PCA. More confusion: Because both solutions were derived by the same solution of the eigenvalue problem, the spectral decomposition of a symmetric matrix, both analysis was performed with the same computer program. You just told it: do you have the communality estimation or not. Some programmers, like the maker of SYSTAT did not even understand the difference. Because the default value varied, so the naive users kept on getting whatever the programmers had to think as the main method. Still more confusion: The calculation of the factor solution has been two stage. Earlier the first stage was calculated by the 'principal axes' method. Some people do not see the difference with 'principal axes' and 'principal components'. They might have factors but they claim they have principal components. Rotation If you bother to stick to the definition of 'principal components' you will not rotate them, because if you rotate, the maximum variance part is not true anymore. More tradition In some areas the use of multivariate methods was started during the time when the statistician felt that PCA is the method and FA is some trick, there they swear still by PCA, because all the articles have PCA. GREED Some like PCA better because it gives sometimes higher loadings, but for some reason they still want to remove leaves and frogs from their blueberry pie. Hope this helps. - Lauri Tarkkonen Lauri Tarkkonen / email: lauri.tarkkonen@helsinki.fi Tel:+358 0 666108 Korkeavuorenkatu 2 b B 11, 00140, Helsinki, Finland FAX +358 0 1913379

You might also like