You are on page 1of 10
i L’analyse des données Jean-Marie Bourocue et Gilbert SAPORTA Enquétes, sondages et statistiques accumulent un grand nombre d’informations sur des échantillons énormes. Les mathématiques et l’ordinateur sont nécessaires pour dégager les paramétres caractéristiques de ces données. ‘orsqu'on dispose d'un fichier de 10 000 salariés sur lesquels ont €16 relevées plusieurs dizaines de caractéristiques tous les ans il est difficile d’appréhender glo- balement I'information contenue, Les méthodes statistiques classiques sont insuffisantes : la statistique descriptive ‘nous enseigne seulement comment déga- ger des pourcentages et comment repré- senter Iintensité (Pune caractéristique en fonction d'un paramétre, par exemple le salaire en fonction de lage ; la statis- ‘ique mathématique, quant elle, permet 'estimer des paramétres de distribution (moyenne, variance, et.) et de vérifie la Validité d°hypothéses, notamment si eux séries de données correspondent & deux caractéres corrélés, Ces méthodes ‘he permettent pas d’extraire les informa- tions d'un wes grand fichier, a’od I'on veut, en dépistant des concomitances répétées, déduire les relations statistiques centre diversescaractéristques, analyse des données autorise des études global incluant tours les carac- Iéristiques de ces mémes données ; ces études ont pour but de mettre en lumitre les phénoménes importants en faisant le ‘minimum d'hypothéses a priori sur les importances relatives des informations ‘Aujourd'hui, Ianalyse des données est devenue un outl indispensable d'aide & 4a décision, en finance, dans les études de ‘marché ou dans I'étude des risques. Les fondements mathématiques de analyse des données datent du début du sigcle, quand le Britennique Karl Pearson inventa l'analyse en compo- santes principales et I'analyse cano- nique. Les débuts véritables de I'ana- lyse des données remontent aux travaux de I'école psychométrique anglo-saxonne, qui avaient pour but 36 lune mesure de Intelligence : on sou- met de nombreux sujets & des batteries de tests et, des données recueillies, on isole un «facteur général» unique, mesurant l'intelligence. Dans les années 1930, le psychologue américain Louis Leon Thurstone distingue, dans son analyse, facteurs communs et fac- teurs spécifiques, L’hypothése fondamentale de I'ana lyse factorielle est qu’ existe un petit ‘nombre de caractéres numériques indé- pendants, non directement observables appelés «facteurs communs» et qui ren- dent compte des dépendances entre les quamtités mesurées. Ces caractéres s'expriment comme des sommes pondé- rées de ces facteurs 4 un terme prés, le sfacteur spécifique» du caractére, terme correcteur qui rend compte de l'aptitude particuligre & exécuter un certain test. Le probléme est done de trouver pour chaque individu la valeur des différents facteurs, communs et spécifiques, et den déterminer les coefficients de pon- dération. L'analyse factorielle est done un modéle a priori, car on postule existence de facteurs communs et on cherche a verifier le modéle a partir des données expérimentales, Les conceptions plus modernes visent a extraire Pinformation vtiisable sans hypothése a priori : cependant, la démarche qui fait apparaitre des carac teres cachés, plus significaifs et en plus petit nombre que les caractéresinitiaux, este a la base des méthodes plus modernes d'analyse des données que Von qualifie par le terme générique d’analyse factorielle, «!"analyse en composantes principales» en étant peut- ure le plus bel exemple. D'ailleurs, l'analyse factorielle en facteurs communs et spécifiques et analyse en composantes principales fournissent souvent des résultats voi- sins : les facteurs communs caleulés par la premiere technique apparaissent natu- rellement sous forme de composantes principales dans la seconde, quia 'avan- tage d'éue plus simple et plus sre. A Vropposé des méthodes issues de Vanalyse factorielle, qui dévoilent des relations entre caractéres, les méthodes de classification et de typologie font apparaitre des groupes homogénes d'individus ou de caractéres. Elles tirent leur origine dans les travaux des naturalistes. La classification du regne animal de Carl von Linné est une des Premidres tentatives de classification higrarchique. Depuis cette époque, naturalistes, botanistes et zoologistes n'ont cessé de manipuler d'immenses recueils de données, par des méthodes ‘que la statistique a reprises et entichies AT'aide des ordinateurs. La nature des données On distingue généralement deux ensembles : les individus et les carac- {eres relatifs & ces individus. Le terme individu» désigne, selon les eas, une personne interrogée, l'employé d'une entreprise, un client, un animal, un liew ‘2éographique, un pays, etc. L’ensemble des individus observés peut provenir d'un échantillonnage dans une popula tion (il s'agit alors dun sondage) ou il peut s'agir de Ia population toute entire. Sur ces individus, on reldve un cer- tain nombre de caractéres. Par exemple, si l'on considére une enquéte par son- cage, es caractéres seront les question pour les employés d'une entreprise, les ‘caractéres sont le salare, 'ancienneté, le diplome, etc. Les caractéres observés Peuvent tre quantitatifs ou qualitatifs. Un caractére est quantitatif lorsqu’il prend ses valeurs sur une échelle numé- Fique : salaire, age, chiffre d'affaires, poids... Un caractére est qualitatif Jorsqu’il prend des modalités non numé- riques : sexe, profession, région, niveau higrarchique... Les modalités d’un ccaractére qualitatif peuvent éire ordon- ‘© POURLA ScIENCE LA RESEMBLANCE DES CONSONNES our lustre ls techniques analyse des données, considé- Tons une expérience (réalsée aux Etats-Unis) ol on tente de déterminer les ressemblances entre 16 consonnes, tlle quills sont perques par Foreile: en Tui superposant un brit blanc ou en le fisant passer & travers un ftre de fréquence, on dégrade le son émis par un individu qui prononce une ‘consonne au hasard. Des auditeurs notent le son quits peryoi- vent et confondent cetaines consonnes, ce qui fait quon peut reporter sur un tableau (une matrice de confusion) la f= ‘quence des confusions, cest--ie la fréquence avec laquelle elles sont prises Tune pour Fautre : par exemple, les consonnes| » etd sont confondues dans $8 cas pour 1 000 lorsque deux ‘consonnes sont eprochess, indice de confusion est evé, Une méthode danalyse des données permet d'assigner aux diferentes consonnes des postions sur un plan. On véri- fie que deux consonnes sont eprochess une de Fautre dans ce plan lorsqueles sont souvent confondues et inversement. Les consonnes sonnantes (telles que 2, d, 6) forment un ‘groupe séparé, le long de axe horizontal, des consonnes sourdes (elles que ¢ kp). L’axe vertical sépare les consonnes ‘en fonction de la nasal Par une autre méthode analyse, on regroupe en dasses (ou en types homogénes) les consonnes qui sont les plus proches et p par exemple). On considére ensuite cette dasse ‘comme une consonne fictive dont indice de proximité avec toutes les autres consonnes est recaleué Tndlce de la daste ( p) avec une autre consonne, s par exemple, est le plus petit es deur indices de k avec 5 et de p avec 5, Cest-4-dire le mini- mum du couple (63 ; 52), soit $2. Ce procédé répété permet de construire Tarbre de classification, of le niveau un nceud ‘est le plus petit indice entre les consonnes d'une méme dasse. Différentes sections de Farbre correspondent a différents regroupements des consonnes. Pour la cinquitme section de Cinquieme point, on diférencie trois groupes de consonnes, les sourdes les sonnantes et les nasales, egroupées sur le plan. Le tableau représentant les proximités et arbre de dass- fication donnent les mémes regroupements, ce qui est une confirmation de la validité des deux méthodes et de leur ‘bonne interprétation. On distingue trois grandes classes de consonnes : les nasales, les sourdes non nasales et les son- nantes non nasales. Les deux analyses menées paralllement sur les mémes données donnent des interprétations compa- tibles qui senrichissent mutuelement: les groupements et les teres de ressemblance qui sen dégagent en sont dautant Plus crédibes. Cette méthode est beaucoup employée en génétique on étudie es ressemblances des patrimoines génétiques des lorganismes, et on forme des regroupements, ou clades le 29) sacs k 432) 241 = SP \p © 14 7 Bh 499 s 52 50 63 157 { 38 50 47 115 t 2% % 8 28 ‘6 2 2 3 4 St S mm | g 13° 16 30 15 39 33 21 69 342 vo 16 22 20 35 40 23 20 210 59 54 - 5 28 16 18 32 31 28 is 145 94 120 293 — 2 25 23 25 18 33 35 17 (58 108 130 80 161 - 5 19 17 19 7 7 3B 12 37 ‘89 125 29 33 196 — m 2 2 21 18 19 17 12 38 24 92 30 34 121 16 - n 17 18 20 12 18 #13 11 «24 32 30 22 28 16 30 151 = P t k f oO s f bd a g v 3 z 3 m n nasaure ‘SOURDES, weeafonen Le Foe Be aioe srersane wee | co a = PRYS-BAS, ao TALE MM BBnonvece ‘COEFFICIENTS AR DE CORRELATION canacrene ‘AVEC.LES COMPOSANTES. PPRINOIPALES POURGENTAGE DE LA POPULATION ACTIVE TOTME “care | ame TRAVAILLANT DANS UAGRICULTURE POURCENTAGE DE LA POPULATION ACTIVE TOTALE |_TRAVAILANT DANS LINDUSTAIE PRODUIT NATIONAL BRUT PAR HABITANT ‘POUACENTAGE DE PRODUTT INTERIEUA BRUT “| _Peowenni be LAGRICA TUNE ne costes FORMATION BRUT OU CAPTAL FE “ose RECETTES COURANTES O= LETAT : area | ones “sésenveornogusoon eroccewses =| arms | came | TAUX DESCONPTE OFFICIEL | tose | aarar IMPORTATION TOTALE (CAP) EXPORTATION TOTALE (FOB) “oubie 9 toceuenrs acnevés om reumvonasmarss | ome | cone covsomuron DELETE EN MPRAFEREOWE| gp | pea ET PAR AN (PERTES EN LIGNES DEDUITES) [NOWARE DE RECEPTEURS DE TELEVISION POUR 1 000 HABITANTS 1. REPRESENTATION PLANE DES PAYS DE L'OCDE, Cest -ire selon deux composantes prind pales A parr des 13 indicateurs dont la ste apparalt sur le tableau, on dégage deux com. osantes qui, aprés interpretation, représentent une le développement économique (en abscss) Faure les investssements et le commerce exiéreur (en ordonnée), Le pourcer {ge dinformation conserve par cette simplification selon deux dimensions, alors que espace inal en avait 13, et de 62,59 pour cen. Sous le graphique, on 2 inclgué les coe ‘lations des diferent caractéres avec les composantes principales, en coloiant les pis importantes. Ces corélatons permettent de donner, o pesterion, un sens économique aux ‘composantes principales. 38 1nées (niveau higrarchique) ; on dit alors ue le caractdre est ordinal, Sinon, on dit 4u'il est nominal (profession. Les données ainsi collectées peuvent @1re représentées dans un tableau expli- citant les caractéres des individus, par ‘exemple un individu par ligne et un caractére par colonne. Bien entendu, on Peut construire de nombreux autres types de tableaux de données. Citons les tableaux de contingence et les tableaux de proximité. Un tableau de contin- gence contient les fréquences d'associa tion entre les modalités de deux carac- tres nominaux. Si, au cours d'un recensement, on reléve sur les Frangais la classe d’age et la ségion of ils habi- tent, on peut croiser ces deux caractéres ct construire le tableau des implanta- tions géographiques en fonction de la classe d’age : ici, Ia classe d'age est considérée comme une modalité en dépinde son caractére numérique évi- dent. Autre exemple : le tableau des professions en fonction des quarters de Paris, qui reli cette fois deux véritables caractéres nominaus, Plusieurs points de vue sont possibles quand on analyse les données, La recherche des ressemblances ou des dif- ferences entre les individus peut étre un des objets de I'analyse. Par exemple, un économiste s'intéresse aux différents pays de l'ocpe. Ces pays sont représen- {5 par les valeurs numériques prises par tune batterie d'indicateurs économiques (voir la figure 1). On considére que deux pays se ressemblent lorsque les profils ccaractérisant ces deux pays sont voisins, Mest possible, a l'aide d'une méthode dTanalyse factorille, de représenter les Proximités entre pays. Une autre méthode de classification automatique Permettrait de regrouper les pays les plus proches relativement aux indicateurs ‘économiques. La description des rela- tions entre caractéres est un autre objet de lanalyse : deux caractéres sont consi dénés comme lis, ou corrélé, lorsqu’ls varient de la méme fagon sur les diffé- rents individus ; on prvilégie un (ou plu- sieurs) caractére et on cherche & explici- {er ses variations en fonction des autres. Par exemple, un industriel compare son chiffre de vente auprés de différents clients aux caractérstiques de cette clien- {Wle ; une fois la formule établie il pourra véritablements'adapter& cette cliente. Lorsque tous les caractéres jouent un role identique, on met en évidence les groupes de caractires, soit corélés, soit indépendants. La encore, on utilise analyse factorielle ou la classification. SPOURLASCENCE Selon le type de problémes et selon la nature des données, on choisit 1a ‘méthode appropriée. Lranalyse en composantes principales Quand on n’associe, & un ensemble dindividus, qu’au plus deux ou trois ccaractéres il est facile de représenter les individus par un ensemble de points appelé «nuage», dans un graphique car- tésien ob chaque coordonnée représente Ja mesure d'un des caractéres. Dans ce cas, une simple inspection visuelle apporte une foule de renseignements concernant la dépendance entre les caractéres. le repérage d'individus exceptionnels, Ia séparation entre 'éventuels groupes dindividus L'analyse en composantes prinei- pales repose sur V'hypothése de dépast suivante : seul un nombre limité de caractéres sont indépendants et les autres peuvent s'en déduire. Pour préciser cette notion de dépendance, nous allons intro- duire le coefficient de cortlation linéaire ui mesure lintensté de la liaison entre deux caractéres quantitatifs. Pour dix appartements (n = 10), on a relevé deux ccaractéres qui sont le prix de vente en tillers de francs et la surface en metres cams (voir la figure 2). Le nuage de dix points semble effié le long d'une droite et il paraitraisonnable, si on veut pré- voir le prix en fonction de la surface, de poser une formule PRIX = a x (SURFACE) +b, Les coefficients a et b sont obtenus par une méthode des moindres carrés, ‘esteidite choisis de fagon & minimiser la somme des carés des carts des points A cette droite. La droite passe toujours parle centre de gravité du nuage. LLorsque le nombre des caractéres est p, un individu est un point dans un espace a p dimensions, dénommé espace des individus. Quand p dépasse trois, i est impossible de représenter Ia figure formée par le nuage de points et d'en lirer «par inspection» des conclusions. Lanalyse en composantes principales nous aide alors & obtenir une représenta- ‘ion dans un espace de dimension fa ligre, en réduisant le nombre de carac- tres descriptifs : cette réduction sera autant plus facile que les caractéres présenteront entre eux une corrélation importante. Les caractéres obtenus grice A cette analyse ne constituent pas une simple sélection des caractéres de départ: ce sont de nouveaux caractéres, appelés caractéres principaux (ou com- Posantes principales), réalisant la syn- PAIX (EN MILLERS DE FRANCS) 8808988 SURFACE (EN METRES CARRES) 2, Le PRIX DES APPARTEMENTS A PARI est une fonction quasi lnéire de leurs surfaces. Une méthode des moindres carés détermine la drote qui représente le plus exactement cette ‘elation. Le coefcent de corrlaion compris entre ~1 et +1 est Fautant plus grand que les Points se rapprochent de a droite. Dans cet exemple, le coefficient de correlation vaut 0,89. thase de plusieurs caractéres initiaux au _nées des n points représentatifs des ‘moyen d’une combinaison linéaire de individus, on peut calculer les dis- ces caractéresinitiaux (Eablie parle cal> tances entre tous les points pris deux & cul) : 0,2 x salaire + 0,3 x ge ~ deux. Notre but est de trouver un sous- 1,5 x dipléme... Il conviendra ensuite, espace ayant un petit nombre de et dans la mesure du possible, de donner dimensions dans lequel on puisse un sens concret aux composantes princi- _représenter les points-individus sans pales : c'est le difficile probleme de trop déformer les distances initiales interpeétation, entre les points ; supposons que Examinons le principe de Ia l'espace des individus soit & trois, méthode : si on connait les coordon- dimensions (p = 3) et que Ion cherche en faire une représentation & deux dimensions, c*est-a-dire sur un plan (voir ta figure 3). En projetant les points-individus sur un plan, les dis- {ances entre les points projetés ne peu- vent &tre qu’inférieures aux distances initiales. Le probleme est : comment choisir au mieux ee plan? ‘Avant de résoudre ce problme, il faut introduire Pidée de dispersion et, par conséquent,refaire un peu de statistiques Ja moyenne d'un ensemble de. nombres est égale a la somme de ces nombres, divisée par n. Ainsi, les dix valeurs s vantes 8 900, 11 500, 7 800, 10 200, 12 000, 9 500, 8 000, 11 700, 9 000 et 1 100, représentant les revenus mensuels de dix individus, ont pour moyenne 9.970 francs. Caractériser un ensemble de 3. LANALYSE IN cOMPOSANTES PRINCIPALES nombres par sa moyenne est insuffisant ‘consist ic 2 représenter un espace des indi- les dix revenus suivants 6 800, 7 000, vidus 8 ois dimensions par un plan (espace 15 900, 10 500, 6 900, 7 200, 16 100, 8 deux dimensions) Pour cela, on chest le 8 300, 9.000, 12 000 ont aussi pour plan tel que la somme D des carrés des ds- moyenne 9 970 francs, mais il est clair lances 7 ire les projections des différents gue Jes valeurs sont plus dispersées, Pour alas indi et maimale Cee SOME Guangfier la dispersion des valeurs, on tt est toujours inférieure & la somme D des Pes Peat I Carré des distances dente es pobtsindi, sel variance: on caleue d'abordI'éeart ‘dus dans espace a ros dimensons Le rap. 4@ chaque valeur a la moyenne ; la port D/D mesure le paurcentage dinforma- Variance est gale la somme de tous ces tion conservée : fomériquement, est une cars Elevés au cant, divisée parm. mesure de Vaplatissement du nuage de Cette variance est d'autant plus forte Points au voisinage du plan. que les valeurs s*écartent de la ‘moyenne. Si elle est nulle, toutes les valeurs sont égales a la moyenne et le caractére est, en fait, une constante, La racine carrée de la variance est mieux interprétable que la variance elle-méme, car elle est exprimée avec la méme Unité que le caractre : c'est I"écart type, Ainsi, dans nos échelles de salsires, la premigre série a pour variance 216 $10 et pour écart type 465,63 francs ; la deuxitme série @ pour variance 1 168 410 et pour écart type 1 080,93, francs. La seconde série est 2,3 fois plus dispersée que la premiére Revenons au probléme de choisir le ‘meilleur plan possible pour observer les caractéristiques dun nage de points & trois dimensions. Le meilleur plan de projection est celui pour lequel les dis- tances entre toutes les projections sont aussi semblables que possible aux dis- tances initiales, c'est-A-dire aussi grandes que possible. Le critére ainsi retenu dans l'analyse en composantes principales est de rendre maximale la somme des carrés des distances entre les points projetés, c’est-i-dire de choi- sir le plan pour lequel les projections sont le plus dispersées. On montre que ce plan passe toujours par le centre de gravité G des points représentant les individus ; ce point a pour coordonnées les p moyennes des n caractéres. Pour continuer l'identifiation de ce plan, on cherche la droite (sous-espace de dimension 1) sur laquelle les di tances entre points projetés sont les plus ‘grandes possibles : c'est sur cette droite (le premier axe principal) que les points sont Ie plus dispersés ou, en d'autres termes, que la variance de 'ensemble des n coordonnées est Ia plus grande possible (voir la figure 4). Cet axe choisi, on en détermine un autre, qui vérifie la méme propriété, avec la contrainte d'éure perpendiculaire au pre- rier. La «qualité» d'un axe est mesurée par le rapport entre Ia somme des carrés des distances entre points projetés et la somme des carrés des distances entre points individus. Ce rapport est nommé Pourcentage d'inertie ou part de variance expliquée. Pour choisir le meilleur plan, il suf fit de déterminer deux axes principaux. Le pourcentage d'inertie attaché au plan contenant ces deux axes est 6gal & la somme des pourcentages dinertie sur chaque axe, ceci parce que les axes sont perpendiculaires (cette affirmation se d&duit immédiatement du théoreme de Pythagore). Comme les pourcen- tages sont additifs, on arréte les recherches des axes principaux lorsque la somme des pourcentages d'inertie cst suffisante, compte tenu du nombre des dimensions initiales de I'espace des individus. Les coordonnées des individus sur un axe principal repré- sentent alors les différentes valeurs di ccaractére principal. Nous avons déja ‘mentionné que celui-ci est obtenu par lune combinaison linéaire des carac- teres de départ (car c'est en fait une formule de changements d°axe), L'ensemble des coefficients de cette combinaison linéaire constitue le fac- teur principal. 4. Liane pnincaat est tel que la somme des carrés des abscisses mesurés sur cet axe pat rapport au centre de gravité G est maximale ici dy? + dy? + de). Quand ce premier axe principal est défi, on choist le second axe qui satsasse la méme proprite et qui soit perpenciculaire au premier. Ces deux axes définissent le plan principal On peut avoir ensuite besoin d'un uoisiéme axe, et ainsi de suite. 0 Les indicateurs de l'ocbE Iustrons analyse en compasantes prin- cipales par un exemple : en 1970, on a relevé sur 18 pays de I'ocbe (les indivi- dus) les valeurs de 13 caractéres écono- ‘miques. L’espace des individus a ainsi 13. dimensions. L’analyse en composantes principales permet d’obtenir le plan (pro- jection de Tespace & 13 dimensions sur lun espace a deux dimensions) de la figure 1. En se contentant de la représen- tation plane, le plan principal (deux axes principaux) permet de reconstituer les ccarrés des distances pour 62,59 pour cent : cette derniare valeur mesure "information extraite ov, du point de vue _2¢ométrique, laplatissement du nuage des points individus au voisinage de ce plan. Si tous les points étaient dans le plan, le pourcentage d’inertie serait égal & 100 pour cent: il serait alors évidemment inutile d'observer autre chose qu'un plan. ‘Dans notre cas si nous avions choisi une représentation tridimensionnelle, le pour- centage d'inertie atteindrait 79,27 pour ‘cent, tandis qu'il ne vaut que 14,04 pour cent sur le premier axe. En examinant maintenant les carac- teres les plus comréiés 8 une composante principale, on donne un sens aux com= posantes principales done aux axes du plan de projection. Ainsi le premier axe Principal de notre exemple oppose les pays les plus développés (fort rx, forte ‘consommation d’lectrcité et fort équi- pement en électronique) a droite du gra- Phique, aux pays moins développés a gauche du graphique, qui sont aussi ceux ot agriculture pése un poids important dans la population comme dans le pis. Les 18 pays s'échelonnent done selon le premier axe, suivant leur niveau général de développement, depuis le Portugal et la Grice jusqu'aux Etats-Unis et & la Suéde. L’origine des axes représente un pays ficif ayant pour caractéristique la moyenne de celle des 18 pays considérés. La premigre com- pposante principale permettrat, si on le \sirait, de definir un indice de dévelop- pement économique. La deuxidme composante principale cst coméiée positivement aux variables traduisant importance du commerce extérieur et négativement aux variables d’investissement (formation brute du capital fixe et construction de loge- ‘ments) : elle oppose les pays & fort taux @'investissement en bas du graphique & ‘ceux qui investissent peu (Belgique), qui sont en méme temps ceux dont économie est la plus tributaire des 5. Ce cence be connELATION rele un premier ensemble de résu tats dans diverses matires d'enseignement 3 un second ‘ensemble constiué de tests psychologiques 71, 12... TS. Apres avoir abl les deux caractéres canoniques A, et A, on place les ilfrents caracteres en fonction de let corrlation avec ces deux variables. Ainsi r, est le coefficient de corrélation ene la note en édvce tion physique et le caractére canonique A, Les tests psythologiques 73, T4 et TS semblent bien determiner les quaites scentiques des indi dus intertogés échanges avec Vextérieur. Certains lee- teurs pourront étre surpris de trouver le Japon en bas du graphique, parmi les pays 2 faible commerce extérieur : la raison est que, si les exportations (et les importations) du Japon sont importantes en valeur absolue, elles sont faibles relativement au Px : Ia part des expor- tations (et celle des importations) dans le PNB n'est que de 9 pour cent pour le Japon tandis qu'elle atteint 41 pour cent pour la Belgique (données de 1970). analyse canonique Le but de analyse canonique est d’étu- dier les relations existant entre deux groupes de p et q caractéres quantitaifs et de comparer globalement les ensei- gnements qu’ils donnent. Cette analyse est d'un intérét théorique essentiel, car elle généraise l'ensemble des méthodes «analyse des données. Notamment elle englobe ta régression multiple (oi I'on relie une variable a plusieurs variables explicatives), mais aussi l'analyse dis- criminante et Vanalyse des correspon- dances, que nous examinerons plus loin, Appliquons l'analyse canonique & un ‘ensemble d'élaves : on cherche & compa rer les résultats dans les matigres sco laires (mathématiques, physique, frangais, dessin, musique, éducation physique) & des tests psychologiques : on désigne par X les caractéres du premier groupe et par Yes caractéres du deuxiéme groupe. On appelle 2, ensemble des caractres que Ton peut obtenir en combinant linéaire ment les caractéres X et 2, ensemble de caractéres que I'on peut obtenir en com- binant les caractéres ¥. Les ensembles 2, et @, sont les «potentiels de prévision» associés aux deux groupes de caractres : ils contiennent ce que peuvent prévoir cexactement les différents caractéres des deux ensembles (on se limite ici & des prévisions de type linéaire). Les caractéres que l'on peut prévoir (c’est-d-dire obtenit) aussi bien par les X que par les ¥ sont les éléments de VVintersection des deux ensembles 2, et ,, Plus cet espace est gros, plus les z sexe iene A prsale : wens ome deux groupes de caractéres se ressemblent, car ils permettent de prévoir les mémes phénoménes. Il est cependant fréquent que intersection de 2, et 2, soit vide, c'es-A-die ne renferme aucun cearactére, Dans ce cas, pour comparer les ensembles @, et 2,, on cherche simultanément le caractére A, combi- raison linéaire des X, et le caractére B,, combinaison linéaire des ¥, qui se ores. Semblent» le plus, c'est-a-dire dont le carré du coefficient de corrélation linéaire est le plus grand, Ces nouveaux caractéres A, et B, sont appelés carac- ‘Bres canoniques et leur coefficient de corrélation, coefficient de corrélation ‘canonique. On continue ensuite le pro- cessus en déterminant un nouveau couple A, et B, non corrélés avec les précédents (c'est-i-dire respectivement perpendiculaires & A et B,) et au coeffi- cient de corrélaion maximum. Ainsi construits, les caractéres A,, Ay, +, Soat les combinaisons linéaires ddes X qui sont les plus proches des ¥. Ts servent souvent de base pour représen- ter l'ensemble des caractéres X et Yau moyen d'un «cercle des corrélations», Le cetcle des corrélations est un cercle tracé dans un plan défini par deux caractéres canoniques A, et A,. Chaque ccaractére X ou Y'y est représenté par un point dont abscisse est le coefficient de corrélation avec A, et lordonnée le coefficient de corrélation avec A, Tous les points sont & Vintérieur a'un cercle de rayon unité, car Ia somme des carrés des corrélations d'un caractére relative- ment 2A, et A, est inféricure A 1. Si le deuxieme groupe de caracttres ne comprend qu'un seul élément Y, Panalyse canonique revient alors & chercher I'élément de ensemble 2, le plus proche (c"est-t-dite le plus corrélé) de ¥. Dans ce eas particulier, élément Y étant unique, V'analyse canonique se réduit alors 3 la régression linéaire mul- Uiple de ¥ sur les X. Cette méthode sta- tistique est classique et se présente ici ‘comme un cas particulier de I'analyse ccanonique, Supposons que ¥ soit le produit national brut et que parmi les X figurent les différents criteres tilisés pour clas- ser les pays de I'ocoe, Parmi les combi- naisons linéaires des X, on ferainterve- ni des caractéres, tels que le nombre

You might also like