You are on page 1of 49
Université Mohammed Premier Ecole Nationale des Sciences Appliquées Oujda - Maroc Filiére : GC3 & CI3 Année universitaire : 2016-2017 Introduction a lanalyse des données avec SPSS Fiche 1 : Manipulation de base sur les données SPSS est labréviation a l'origine de « Statistical Package for the Social Sciences », mais maintenant de « Statistical Product and Service Solutions ». Il est le principal programme pour contréler et analyser des données. 1) Les fenétres de SPSS Lorsque SPSS démarre, il ouvre une fenétre principale qui resemble un peu a une fenétre du tableur (tel Excel). I] peut aussi ouvrir d'autres fenétres, comme celles des résultats et de syntaxe: Une session typique sur SPSS aura toujours ces trois fenétres. Elles sont a. fenétre de données Cette fenétre permet d'entrer des données, de les modifier ou de les effacer. Quand vous fermez cette fenétre, vous quittez SPSS. SPSS vous demande toujours si vous voulez sauvegarder les données: Répondez toujours non. Si ‘vous dites oui, il va eréer une copie supplémentaire de votre fichier de données, copie inutile qui en plus ne peut plus étre Iue par un traitement de texte, tel Bloc-notes, b. fenétre de syntaxe Cette fenétre permet d’écrire les commandes d’ analyses statistiques. Elle fonctionne comme un traitement de texte simple. Lorsqu'une commande est complete, on peut l'exécuter en allant dans le menu "Exécuter" (ou encore en tapant Ctrl-R). Pour obtenir une fenétre de syntaxe vide, aller dans le menu "Fichier : Nouveau : syntaxe". ee aoe (eee 5 TTT sl c. fenétre des résultats Cette fenétre apparait aprés qu’une commande d’analyse a été effectuée, et contient les résultats de cette analyse. Les résultats proprement dit apparaissent a droite alors qu’a gauche, on voit une table des matiéres des résultats générée par SPSS. Les résultats peuvent étre imprimés tels quels, ‘ou encore, on peut faire copier-coller vers un autre logiciel (tel votre traitement de texte). 22 REED OOS PR LP a Baha 2) Editeur des données L’éditeur de données fournit une méthode pratique, semblable a celle d’un tableur, permettant de créer et de modifier des fichiers de données. La fenétre de P’éditeur de données s’ouvre automatiquement lorsque vous lancez une session. L’éditeur de données permet d’afficher les données de deux fagons : v Affichage des données : Affiche les valeurs réelles des données ou les étiquettes de valeurs définies. v Affichage des variables : Affiche les informations de definition des variables, 4 savoir les étiquettes de valeurs et de variables définies, le type des données (par exemple, chaine, date ou valeur numérique), le niveau de mesure (nominale, ordinale ou échelle) et les valeurs utilisateur manquantes. Dans les deux affichages, vous pouvez ajouter, modifier et supprimer les informations contenues dans le fichier de données. ‘Affichage des | | Affichage des données variables ‘A+ Affichage des données L’éditeur des données est constitué : - dun menu de fonction (Fichier, Edition, Affichage, Données, Transformer, Analyse, Graphes, Outils, Fenétre, Aide) ; - dune barre d’outils affichant des icénes associés aux fonctions les plus utilisées ; ct une grille des données (Affichage des données) S660 o> RLF 8A oS Oe =a b- Affichage des variables Laffichage des variables présente les descriptions des attributs de chaque variable du fichier de données, Dans I’Affichage des variables ¥ Les lignes sont des variables. Y Les colonnes sont des attributs de variable - Nom : Donner un nom 4 la variable : 8 caractéres au maximum, sans accent ni les signes (?, !, *) ni espace. Le signe _ est autorisé, - Type: Définir le type de la variable (numérique, alphabétique, date, monétaire....). - Largeur : nombre de chiffres accordés a la donnée (laisser 8). - Décimales : Nombre de décimales possibles. - Etiquette : L’étiquette permet de taper un texte plus explicite que les 8 caractéres du nom de la variable. Nom’ Type _|_Largeur_[Décimales. Valeurs ind 0 1 Numsique 9 aveun 2 sexe Numérique 9 o {0, masculin. Soltvpers Numéique 9 0 —(pedenseignomem (1, public 4_|terc —Nunéique 8 imma ood Nunsique 22 6 [math Numéique 8 no 8 ist_geo, Numérique = 9 2 Exemple : | tems | type | tageur | Etiquette | rope lation mliars G 1000) loan ‘nes habitarn on vile) lecpmet lespere ‘moyenne dea ferim intorat Pop_au9 [Acgmertation ae t= popuiaion (par an) Imobebe haoraine infariie (ib de mort pour 1000 vivant) ipob_tot [Produit domestique brat / par tate region epion ou groups économique iaissanicas pour 1000 personnes [Log (base 10) de pat tot [Log (base 70) do te sige [Ferns moyenne du nombre enfants [Log (hase 10) de Population Hammes Tectours (96) [Femmes lectices (%) [Climat predominant - Valeur: Les étiquettes de valeur permettent de rendre les tableaux de résultats plus lisibles et plus explicites. Largeur | Décimales Etiquette Valeurs Manguant | Colonnes 3) a ‘Aucun Aucun type d' enseign... (1, public)... Aucun la note de frang.... Aucun Aucun la note danglais Aucun Aucun Pee kore y | pftiauattes de valeurs Valeur Blquette - Manquant: Les valeurs manquantes permettent de traiter le cas ot un répondant n’a pas répondu a une question ~ Colones : La largeur d’affichage de la colonne permet d’élargir une colonne de données de fagons a voir I’ensemble des données saisies. - Aligner : aligner a droite, a gauche ou au centre les valeurs dans le fichier des données. - Mesure : permet de sélectionner le type de mesure correspondant a la nature de la variable (Echelle, Ordinale ou Nominale) Vous pouvez spécifier un niveau de mesure d’échelle (données numériques sur un intervalle ou une échelle de rapport), ordinal ou nominal Les données nominales et ordinales peuvent étre des chaines de caractéres (alphanumériques) ou numériques = Nominal. Une variable peut étre traitée comme étant nominale si ses valeurs représentent des modalités sans classement intrins¢que (par exemple, le service de la société dans lequel travaille un employé). La région, le lieu d’habitat (Oujda, Rabat, Casa...) le code postal ou Pappartenance religieuse sont des exemples de variables nominales. = Ordinal. Une variable peut étre traitée comme étant ordinale si ses valeurs représentent des modalités associées 4 un classement intrins¢que (par exemple, des niveaux de satisfaction allant de Trés mécontent a Trés satisfait). Exemples de variable ordinale : des scores d’attitude représentant le degré de satisfaction ou de confiance, et des scores de classement des préférences. = Echelle. Une variable peut étre traitée comme une variable d’échelle (continue) si ses valeurs représentent des modalités ordonnées avec une mesure significative, de sorte que les comparaisons de distance entre les valeurs soient adéquates. L”Age en années et le revenu en milliers de dollars sont des exemples de variable d’échelle Remarque : Pour les variables chaine ordinales, l’ordre alphabétique des valeurs chaine est supposé refléter I’ ordre des modalités. Par exemple, pour une variable chaine comportant des valeurs Faible, Moyen, Elevé, l’ordre des modalités est interprété comme Elevé, Faible ou Moyen, ce qui ne correspond pas a ordre correct, En ragle générale, il est recommande d’utiliser les codes numériques pour représenter les données ordinales. 3) Récupérer un fichier de données Ouvrir le fichier « Etudiant.say » Question : nombre d’individu et nombre de variables. |= oO © Cu bite by pore 2 =i Ounmponien a om aw | 8 Pena ecu cect [Eee A @eusentsay Give tsav |G oinomae.say Gp? 3sav GQ TP acpt sav @ trotsev @TPacpzsav vz testztevene) sav |G@t0 2cp3 sav @ vacciné sav GQ tetsav @te2sav a | Fichiers de type: (SPSS Statist ("sav) = (©) Rédure les largeurs de chaine en fonction des valeurs observées: tuiten tie fin _Aemge Gores Torsone sree S58 QR <> 863 8 68 Bie 200 4) nds ‘ppm [tone [ang math pigs | Wage 7 70 ° 1 mS) zi m 1 1 oop, m0 5300p) 2 88 ° 1 ap 3m Steno 4 wai ° 1300 aoa ssp0 5 12 ° 1 em 2mm sspo 6 18 ° + apo 251m spo. 7 60 ° 190 8m em spo im 8 1 ° 13490, 8m) 5p) 2 ee ° 1630 army) 5g) sep0 00) 0 rc ° 1 90 8m pO 1 75 ° 1 ep eo SI SSpo 2 60 ° 17m mI wspo 6 95 ° +7390 som 71m orp 1 [1 04 ° 1490, ean arma) 5 38 ° 1 690 7m «Sma 16 us ° 1 om om mp) 4) Analyse descriptive simple : fréquence et pourcentage Pour le calcul des fréquences et des pourcentages d’une variable, on utilise la commande : Analyse + Statistique Descriptive +Fréquences. Sélectionner la variable, objet de l'étude, en cliquant sur le bouton a @. Par exemple, on veut étudier la variable math (la note de mathématiques), on ala figure suivante aoe Veriabets) P la note de mathématiqu ‘dllypee enceinemert Peete de raga fe de physique [p lla ncte anistore et 60 ( attenar es tableaucfettectt (Csi) (aac) (Geet) (ita atten) Puis, cliquer sur Ok. 8 Geter > Erectte Bronce Bourne" (dor) (ensemble de donnéest] 2: \RNSA2010\enseignenent\Gc\TP\Rtudiant sav station a z 3 . L’extension du Cest le fichier de résultats. Il peut étre sauvegardé ou imprim: fichier est (.spo). Affichage des données : les données dune variable sont écrites dans une colonne. Affichage des variables : utilisation des caractéristiques (nom, type...) Rapport préliminaire sur les variables : Lorsqu’on saisi soit méme les données, il y a une fonction qui permet de vérifier Ie travail et d’obtenir une synthése facile a lire. La commande est : Fichier + Afficher des informations sur un fichier de données + Fichier de travail Sees ue nbace de denne > @tebes odes tet ang | m = ‘57008200 / lsa00 5900 aaa lasso 3300 ls300 a4p0 veer te scone by nr) Db exert vers insace de cores. bags Ci were otter cone fart en lc soe ln00, sen If Rerommer tensontie de données. bes 00) 4600 aloomntes oo ménare cet Bl Fens eere e oreo 1 @ changer serveur ‘57,00 6590 itrertet » |rs00 e000 1B Aperg aart ngresson ‘seco 300 Drrermer cme 4500 $7.00 Données récemment utistes, » [42,00 49.00 eters esnmer tebe » 00 6200 (renee TENT OCHO ete ce ti fStie""| pformations surtes fichiers LiBesrermesesnnted] (ease de donedei] Ei\RE2OO\eseigenect\@e\\REinnt ey iS varus crvnaies oer 3 Jageg [ome lense ome fra |e fone ‘ oeme | eras fone —frs2 fra meso] 8 crore | exe fone frnz [rea Rapports préliminaires sur les observations Il y a une fonction qui permet de repérer les éventuelles erreurs de saisie des données. La commande est : Analyse + Rapports +Récapitulatifs des observations. On coche des statistiques simples, par exemple minimum et maximum, qui désignent respectivement la valeur minimale et la valeur maximale des observations. eet oa aed eed al ype of schoo! sc} al ype of program Récapituler ([Ensesbie de domdest) D:\GE\tP-epes\ftudientiees nanton acer Ricans Canon Te oo Te regs | | rae | nog wasmeam | — me] woe | ae] ae] 0 ral Eos] Re ‘ow | oo | sooo ! ici dobre : 1 come aoc i a | Tanto Rimes [readagscow | mah 7 7 7 7 je 2 8 1 4 8 ” |: 5 ° > 8 ‘ “ 5 r 7 2 ® je ® « e a 9 3 salt 0 0 2 ape 1" 60 sn Récapitulatif des observations Jgnes 201 8208 de 206 [ig reading score | math score Total Moyenne 52,23 52,64 Minimum 28 33 Maximum 76 75 Ecart-type. 10,253 9,368 Variance 105,123, 87,768 Médiane 50,00 52,00 6) Exercice : Ici les notes des étudiants masculins et des étudiantes féminins, obtenues dans un test noté sur 100 + Masculins : 30 50 95 80 45 25 30 33 44 52 55 65 75 85 80 78 87 84 48 52 55 57 40 60 75 72 77 90 88 95 75 73 77 Féminins : 85 45 84 38 79 75 77 44 65 40 44 30 25 30 77 85 95 61 60 48 36 95 98 65 66 77 42 44 62 76 75 93 98 80 70 1- Saisir les deux variables en leur donnant les noms (note_mas) et (note_fem). 2- Verifier le travail de la saisie a l'aide des rapports préliminaires sur les variables et sur les observations. 3+ Sauvegarder les données dans le fichier que vous donnez le nom (note.sav) dans un répertoire personnel. (c://nométudiant/note.sav) 4- Quel est la fréquence de la note 75 chez les étudiants masculins, et ¢’est quoi son pourcentage. 5- Trier les données de la variable note_mas de la plus petite valeur a la plus grande (ordre croissant). Utiliser la commande: Données + Trier les observations Fiche 2 : Statistique descriptive et graphique On peut utiliser SPSS de deux fagons, (1) SPSS est piloté par des menus descriptifs et des boites de dialogue simples pour la majorité des tiches. C’est le mode interactif (ou le mode Windows) (2) II permet aussi de composer des ensembles de commandes (programmes). C’est le mode programmation (ou le mode Syntaxe) 1- Cas d’une variable diseréte Pratique : ouvrir le fichier (Etudiant.say), et analyser la variable (math=la note de mathématiques). Utiliser la commande : Analyse + Statistiques descriptives +Fréquences Sélectionner la variable pour laquelle on souhaite connaitre les caractéristiques statistiques, puis la déplacer a l'aide de la case flache come tia te Gina Sse Spiype censsignement Planets de tangas Se a ia ncte de physique [p @ a ncte dhistoke et 960 Matcher es tableau dertectt Cliquer sur statistiques et sélectionner les éléments désirés : - Pour une variable nominale ; mode, distribution des fréquences, minimum, maximum ; - Pour une variable ordinale : mode, distribution des fréquences, minimum, maximum, médiane ; - Pour une variable métrique : écart-type, moyenne, minimum, maximum. Aaa ad Fractles [ ouortiies Points de césure pour: 10 Centie(s)s classes égsles Dispersion MW Ecarttype (Y Minimum TM Veriance [i Maximum Metentue WES. moyenne ox’ Kurtosis= Aplatissement v(x)? Tendence centrale IM Moyenne [i Mécione M Node M Somme i Volours sont des centres de classes: Distribution M Shewness M Kurtosie ut ) F Le coefficient de Skewness mesure le degré d'asymeétrie de la distribution, Le coefficient de Kurtosis mesure le degré d'aplatissement de la distribution. Avec: mq moment d'ordre q par rapport 4 X Cliquer sur Poursuivre Cliquer sur Diagrammes et sélectionner les éléments désirés : - diagramme en batons : variable discrete ; = graphique en secteur : caractére qualitatif ; - histogrammes : variable continue. eae ee O Aucun @iDiegranmes, en pétons, © Diagramme en sectours O tistogrannes \Valeurs du fagremme urbe ga Type de dagrenme @etectits © Pourcertages (Gorse) (armie)[_ se) On obtient le tableau des résultats suivants : > Effectifs [Ensenble_de_donnéest] :\ENSA2010\enseignement\¢c\TP\Etudiant.sev Statistiques lanote de mathématiques Valde 200 Manquante 0 Moyenne 62,6450 Errour std. de la moyenne (86245 Médiane 52,0000 Mode 57,00 Ecartype 936845 Variance 87,768 Asymétiie 287 Erreur std. d'asymétrie A72 Ablatissement 649 Erreur std. d'aplatissement 342 Intervalle 42,00 Minimum 33,00 Maximum 75,00 Somme 10529,00 Centiles 25 45,0000 50 52,0000 15 59,0000 la note de mathématiques valide 33,00 35,00 37,00 38,00 39,00 40,00 41,00 42,00 43,00 44,00 45,00 48,00 47,00 48,00 49,00 50,00 51,00 52,00 53,00 54,00 55,00 56,00 57,00 58,00 59,00 60,00 61,00 62,00 63,00 64,00 65,00 66,00 67,00 68,00 69,00 Pourcentage valide Pourcentage 1.0 15 25 55 10 140 178 210 230 27.0 310 328 35,0 40.0 435 475 50.5 540 59.0 ers 650 m5 745 755 73.0 ans 235 26.0 285 90.0 92.0 93.0 93.5 945 70,00 1 5 6 950 71,00 4 20 20 970 72,00 3 18 18 995 73,00 1 5 6 990 75,00 2 10 10 1000 Total 200, 1000 100.0 lanote de mathématiques Effectif 2- Cas d’une variable continue Le but est de répartir les données d’une variable continue en classes, La commande est : Transformer + Recorder + création des variables. Pratique : Considérons le fichier (Etudiant.say), La variable continue qu’on peut choisir est la note de physique. Eaton Affichage _Dernées Apaiyee Morketing direct Grephes Unites Fendtre Aide ane 0 oi pa [id rte tes occurences des valeurs par observes won| Ty vance ganas Manqunt find Numériq fucun 2__|sexe umes Hl cater cosets un 3 typEns Nun Wl eton cevriten 4 frane Numériq Bi] Recoder automatiquement fucun 5 angi Numériq) [b3 Regroupement visue jucun 6 math Numériq) BE, Recodage supervise oti jucun 7 phys Numériq) réparer es données pour a modéeation » jucun 8 tist_geo _Numériq) (| ordoone ies observations un {il Assictae Date et heure [Bi créer ts série chronologique { Remolecer es ylers manouantes @ ckndreteurs de nombres aléstores. On obtient la boite de dialogue suivante : Peer Meu Variable derérée > Variable de destination Pit eve Botype drenseignement P ancte de tengais tt iancte danglais [sro] @ la ncto de math | P arco de physique. | @ lancte dhistore et 960 ——__ (ou) (Cas) (eat) (att Sélectionner la variable la note de physique, puis la déplacer dans la zone sous Variable entrée->Variable, en cliquant sur le bouton fléche. Dans la zone Nom, taper le nom de la nouvelle variable qui comportera les données groupées, on choisit le nom physiquegr, et taper sa signification dans la zone Etiquette, c-d-d la note de physique par classes. Sélectionner le bouton Changer pour activer la nouvelle variable Pere Rue ‘Voriaki numérique > Variable de destination Pi Phys —> physiquegr ove Sy type censoiement la note de trangais GF ta rate denies feral) ia nate de mathémetiqu P iarnate anistoke et a6o, (cectrnes straates vers.) |ealconton ota de sdeton ce obseston (Better) Canter) ase) Cliquer sur le bouton Anciennes et nouvelles valeurs afin de définir les classes. On obtient la boite du dialogue DA en eee ee ee Ancenne valeur Nowvele vole @lYeteur @ Vale Omenquet par aétaut © Wenguent par aéteut © coger es ancennes valeurs O Wanquerie pr détaut ou spéciie on Anconne > Newvale: (© Flog, du MMM ala valeur © Page, a vatur au MAXIM (Fl Vaiateecestnaton cot ces chai © Tastes os ates vaours ( eacoietoentone (Gore) (Cooma) Cate) A gauche, on choisit les bornes des classes : plage | 0 jet | 20 A droite, on donne des codes aux classes : Valeur | | Ce eee ce Aa eeu ae Aneienne valour Nouvelle valeur © Valeur: @volew: O Manquart par détout © Manguert par détout © copier es ancennes valeurs (OMannuerte par déteut ou spéciise Plage Anclenne .-» Nowele: fot 20> © Page, as mM aa voto © Page, deve au MADIMIM [Fl Vavabies cesta sort des chanes: Lov (© Toutes les autres valeurs: Hi Convertir te sines numét ‘en nomb (Gere) Cannan) Cait) On choisit les classes suivantes : [0,20], [21,40], [41,60], [61, 80], [81, 100]1 Les introduire chaque fois en cliquant sur Ajouter. Cae eae a eeu ee -Ancerne valeur Nowvele valeur © vate @voeu O Menquant par détaut © Nanquant par détet © copier tes enciennes valeurs Onancuarte per déaut ou specie TT Orme -Ancenne —> Nouvele fotiu20-—1 tu a0 > 2 et true > 3 et truen > 4 © Frage, cu MROMLM a valeur et tru 100 —> 5 (© Page, de a vleur au Ma © Tertes es euves valeurs A la fin ou aura la boite du dialogue : F Recoder et créer de nouvelles variables : Anciennes et nouvelles valeurs Ancienne valeur Nouvelle valeur © Valeur © volew © Mencuart par ataut © Marquart par détaat © copier les enciennes valeurs Onancuarte par déaut ou spéciie @ Page Anelenne —> Nouvelle lotta 20-1 21 thru 40> 2 a 1 thru 60> 3 61 thru 60» 4 Bt thru 100» 5 © Phage, cu MNIMUM af valeur © Page, de a vteur au Maa [7] Varies destination sore des chaines © Tautes ies ures valeurs Wi convetries chabes numeri Ceorsane) Larner) Cliquer sur le bouton poursuivre, puis sur Ok de la fenétre Recorder et créer de nouvelles des variables. Dans le fichier des données, on remarque que la variable physiquegr s’ajoute a la liste des variables. Distribution des fréquences et histogramme On utilise la commande : Analyse + Statistiques descriptives + Fréquences. On déplace la variable physiquegr, pour avoir on arte) Ova Bloat do prsiqe pa Bee Bye cenceremert P tanete de tenga la ncte danglais [era] cy) lancte de mathématiqu.. @ iancte de physique [p P lancte dtistore et fo. IM Atfche es abesu ctettectt Co) Come) Comtatee) Carma) ae) On clique sur le bouton Diagrammes, puis on sélectionne Histogrammes. eee eae 3} [Type de cgromme © tweun © diagranmes en bitons © Diagramme en secteurs S ietosrennes | 7 icher a courte gussienne su Mistogranme Valeur du dlagramme Cliquer sur Poursuivre. Désactiver toutes les commandes présentées dans la fenétre Statistiques. Le calcul de ses statistiques sur les données de la variable physiquegr n’est pas pertinent. Pause es Frectles: Tendence centrale: i guerties [i Moyenne [Points de césure pow: (0 classes égsles [1 Mésiane i centiets) 7 ede 1) semme i (5 Valeuts sont dos centres de clases Dispersion Distrbation ert ype Min CiBiewres (variance) Maxirum ketosis (Hetentue ES. moyenne (Geese) Carmaer_) (Case) On a le fichier des résultats suivant : Effectifs [Bnsemble_de_données2] B:\ENSA2010\enseignement\Gc\TP\Etudiant.sav Statistiques la note de physique par classes N Valide 200 Manquante o Pourcentage | Pourcentage Ettectis_|_Pourcentay valide cumulé Histogramme 200 «2800-300 380 aga lanote de physique par classes 3- Cas d’un caractére qualitatif Traitons I’exemple du fichier (Etudiant.sav), Considérons la variable type d’enseignement. Utiliser la commande : Analyse + Statistiques descriptives + Fréquences. Déplacer la variable a étudier (type d’enseignement), puis cliquer sur le bouton Diagrammes, et sélectionner la case graphique en secteur. ies ue ees ‘gee O tucin © biagranmes en bitons Glover anme en cecteus] O Histogrammes ‘Valeus du dagramme © txtects © Poucertanes (Geren) (arms) (ee) On a les résultats suivants Effectifs [Ensemble_de données?) E:\ENSA2010\enseignement\GC\TP\Etudiant2.sav Statistiques type dienseignement N Valide Manquante Valide public privé Total type d’enseignement 4. Mode Windows et mode Syntaxe «Le mode Windows » utilise des menus descriptifs et des boites de dialogue simples pour effectuer les différents traitements du logiciel SPSS. Alors que « le mode syntaxe » utilise le style de commande : Par exemple, ouvrir le fichier (lemonde1995.sav), et analyser la_ variable (espvief=espérance de vie des femmes) en utilisant le mode syntaxe. Pour cela ou clique sur Fichier + Nouveau + Syntaxe, on aura la fenétre suivante : eet eee meets He®) Ficher Edtion Affichage Domées Transformer Analyse Graphes Outs Exéeuter Fendtre Ade w|i) 8) | le(o oa) o| ) Bs) | I SPSS processeur est prat Pour déterminer la moyenne, la médiane, le mode et lécart-type de la variable « math=la note de mathématiques», on utilise la commande : Frequencies variables=math /STATISTCS=MEAN MEDIAN MODE STDDEV. Puis, on clique sur “Exécuter”. On aura le tableau des résultats suivant : Effectifs [Bnsemble_de_données2] B:\ENSA2010\enseignement\GC\TP\Etudiant2. sav Statistiques la note de mathematiques Valide Manquante Moyenne Médiane la note de mathématiques valide 33,00 36,00 37,00 38,00 39,00 40,00 41,00 42,00 43,00 44,00 45,00 46,00 47,00 48,00 49,00 50,00 51,00 52,00 53,00 54,00 55,00 56,00 57,00 58,00 59,00 60,00 61,00 62,00 63,00 64,00 65,00 66,00 67,00 68,00 69,00 70,00 71,00 72,00 Effects Pourcentage 10 20 18 Pourcentage valide 10 20 18 Pourcentage cumulé 10 18 25 55 108 140 178 21.0 230 27.0 31.0 32.5 350 40.0 435 475 50.5 540 59.0 ons 650 m8 745 755 78.0 ans 035 860 285 90.0 92.0 930 935 045 950 97.0 985 Exercice : ici les notes des étudiants masculins et des étudiantes féminins, obtenues dans un test noté sur 100 : Masculins ; 30 50 95 80 45 25 30 33 44 52 55 65 75 85 80 78 87 84 48 52 55 57 40 60 75 72 77 90 88 95 75 73 77 Féminins : 85 45 84 38 79 75 77 44 65 40 44 30 25 30 77 85 95 61 60 48 36 95 98 65 66 77 42 44 62 76 75 93 98 80 70 6- Saisir les deux variables en leur donnant les noms (note_mas) et (note_fem). 7- Donner les caractéristiques statistiques (par les deux modes Windows et Syntaxe) et les représentations graphiques des deux variables. TP d’analyse en composantes principales sous SPSS. Sujet Les données reprennent la structure fonctionnelle des dépenses de I'Etat en France de 1872 1971 ; ces dépenses sont exprimées en pour-cent suivant 11 postes: pouvoirs publics (PVP), Agriculture (AGR), commerce et industrie (CMI), transports (TRA), logement et aménagement du tervitoire (LOG), éducation et culture (EDU), action sociale ( ACS), anciens combattants ( ANC), défense ( DEF), remboursement de la dette (DET), divers (DIV). année PVP AGR CMI/TRA LOG EDU ACS DIV 1872 18 05 01 67 05 21 2 (0 264415 21 1380 14108 0.1 [153 19 3.7 [05 [0 298313 25 1890 13.607 0.7 68 06 7.1 07 0 33.8 344/17 1900 [143/17 1.7 [69 1.2 174 08 0 87.7 26222 1903 10315 14 93 06 85 09 [0 3842723 1906 13.414 05 B81 07 86 18 0 385 25319 1909 [13.511 05 ) 16 9 84 0 68 235 26 1912 12914 03 94 06 93 43 0 41.1 19413 1920 12303 0.1 fl19 24 3.7 [17 [19 [42.4 23.1 [02 1923 7.6 12 32 51 06 56 18 10 29 35 09 1926 10.503 04 45 18 66 21 [10.1 19.9 416 23 1939 10 06 06 9 1 8&1 3.2 |118 28 2582 1932 10.608 03 89 3 [10 64 [134 27.4 19.20 1936 88 26 14 [78 14 [124 62 [113 293185 04 1938 10111 12 59 14 95 6 [59 40.7182 0 1947 [156/16 10 [11476 88 48 34 B2246 0 1950 11.213 [165 [124 158 8.1 49 84 20742 [15 1953 12915 7 179 121 81 53 3.9 36152 0 1956 10.953 9.7 [76 96 94 85 [46 28262 0 1959 13.144 73 5.7 98 1258 [5 26775 0 1962 1284.7 7.5 66 68 {15.7197 [53 24564 0.1 1965 12443 84 9.1 6 195 106/47 1983.5 18 1968 1146 95 59 5 21110742 20 44 19 to71 12828 71 fs 4 238 |13 B87 lissi72 fo Premiére partie : ACP simple Dans ‘ACP simple (i. sur données centrées), la matrice de covariance constitue la matrice dont on va extraire les valeurs propres et les vecteurs propres. Aller dans Analyse >Réduction des dimensions > Analyse factorielle On choisit les variables et on les sélectionne puis on clique sur la flache qui pointe vers la droite 14 5 Al Z 86 18 Analyse factorielle Cing boites de dialogue d’options : Caractéristiques ; Extraction ; Rotation ; Facteurs ; Options. 1. Descriptives La boite de dialogue «Analyse factorielle : Caractéristiques » apparait Dans « Statistiques », cliquer sur « Caractéristiques univariées » et sur « Structure initiale » Dans «Matrice des Corrélations», cliquer sur « Coefficients » et « Indice KMO et test de Bartlett» (erate Ld] W cwacbistaes ures IW suc ntte Mowat: Eliperce ©) Seuils de signification | Reconstitube (Determinant E Anticemege (lelcetud eties de okra a 2, « Extraction... » La boite de dialogue «Analyse factorielle : Extraction » apparait Cliquer sur «Graphique des valeurs propres » et sur « Structure factorielle sans rotation » Cliquer sur « matrice de covariance » ; c’est I’ ACP simple. Si on veut utiliser une ACP normée, on doit cliquer sur « matrice de corrélation ». Sire er Atfcher Otarce de orton Seuctretactrile sans retition © recede covronce |W Diagramme des valeurs popes bias ae Ves propre sptreres 8 [|e re progres moyen O nemtve me do facteurs Focture estrone en. | (Ceres) (oom) (ee) 3. « Rotation... » La boite de dialogue «Analyse factorielle: Rotation » apparait. Cocher l’option « Carte(s) factorielle(s) ». Cette option permet d’avoir une représentation des différents axes Eee) Méthode @Aven © uattinax Overimsc © Eavamac O obtmincrecte © Eromax. Det a tticher (a uct > ototion WA eategs) factorelecs} Maximum des Hératio (Gece) Carts) (oatitae) 4, Facteurs La boite de dialogue «Analyse factorielle: Facteurs » apparait juer sur « Enregistrer dans des variables » (méthode Régression) et sur « Afficher la matrice des coefficients factoriels » Sse] i erregtrer dane des variables hogs @ Regesseon © partet © derson-Rutin [latticher la marice des coefficients factorile 5. « Options...» La boite de dialogue «Analyse factorielle: Options » apparait, Choisir l’option « Classement des variables par taille » dans Affichage des projections. Perce Valeurs manquantes: © Excre texte ancervation neomplete O Excure seuemert es congosentes non valdes (O Bemplacer par ta moyenne Format datfichege des coefficients IY Gassemert ces varibies par til ‘Supprimer es fbles coefficients ‘Valeur absolueinféreure & 1. Statistiques descriptives Statistiques descriptives Statistiques descriptives Moyenne | Ecarttype | n analyse Pvp 12.213] 2,2383 24 AGR 1906] 1.8812) 24 cu 3e7e| 4.8507 24 TRA as21| 2.5209) 24 Los 4,000) 4,2424 24 EDU ge42] 5,3356) 24 Acs 4gt7| 3.4821 24 ANC 4278) 42442 24 DEF 30268] 7.4687 24 ber 19,142] 12,4560 24 bw. ares] 1.0478) 24 Ce tableau donne les moyennes, les écarts-type de toutes les variables. 2. Test de Bartlett Indice KMO et test de Bartlett(a) Indice KMO et test de Bartlett® Mesure de précision de 'échantilonnage de Kaiser-Meyer- Olin Test de sphéricité de Khi-deux approximé Bartlett di Signifcation de Bartitt ‘a, Basé sur les corrélations la matrice de Le test de Sphéricité de Bartlett permet de tester ’hypothése nulle qui est corrélation est une matrice identité, Le résultat du test de sphéricité de Bartlett est significatif (p <0,0005). On peut done rejeter 'hypothese nulle ; et done la matrice de corrélation n’est pas une matrice identite. 3. Valeur propre et variance totale expliquée Variance totale expliquée Extraction Sommes des carrés des facteurs Valeurs propres intiales* retenus wel | % % dela Composante | Total_| variance | cumulés | Total | variance _|_% cumulés Non normée 1 213,162] 65,801| 65,801] 213,102 65,891 65,801 2 58,245] 18,004] 03,005] 58,248 18,008 83,895 3 22771| 7,030] 90,084 4 17,085] 5.278] 96,200 5 5,757 1,780 97,989] 6 3,262) 1,030] 99,028| 7 1.163] 260] 99,288 8 1,082] 325] 99,722 ° eas] 200] 99,022 10 249] 077| 99,009 " 04] _,001| 100,000 Redimensionné 1 213,162| 65,691| 65,801 4689 42,624 42,624 2 58,245] 18,004] 63,005] 1,462 13,200 55,014 3 22,771] 7,030] 90,984 4 17,065] 5.275] 96,200 5 5,757| 1,780 97,989] 6 3,362] 1,030] 99,028] Y 1.163] 360] 99,288 8 1,082] 325] 99,722 9 eae] 200] 99,022 10 249] 077] 99,099 “4 oa] 001] 100,000 Méthode d'extraction : Analyse en composantes principales. 4. Lors de ranalyse d'une matrice de covariance, les valeurs propres intiales des solutions directe et centrée sont les memes, Les valeurs propres sont données dans la colonne « total » ; elles représentent inertie portées par les axes principaux. Liinertie totale est égale & la somme des valeurs propres ; ainsi 13,586+...+,00 324,025 La contribution de chaque axe principal a linertie totale est donnée par le pourcentage diinertie, quiest le rapport entre la valeur propre et linertie totale, soit lambda/I La plus grande valeur propre 213,586 est associé a l’axe principale D1. Cet axe explique 65. de la variabilité. De méme, la valeur propre 58,252 est associée a I’axe principal D2 qui expl 17,978 de la variance. Le plan constitué des deux axes D1 et D2 explique 83,895 de la variabi 4, Nombres d’axes principaux A retenir Pour choisir le nombre d’axes principaux a retenir, deux régles sont applicables = Premiére régle : on choisit le nombre d’axe en fonction de la restitution minimale information que l'on souhaite. Par exemple, on veut que le modéle restitue au moins 80% de information, - Deuxiéme régle : On observe le graphique des valeurs propres et on ne retient que les valeurs qui se trouvent & gauche du point d flexion, Graphiquement, on part des composants qui apportent le moins d’information (qui se trouvent a droite), on relie par une droite les p cette ligne. Graphique de valeurs propres is presque alignés et on ne retient que les axes qui sont au dessus de 250 Valeur propre y 2 8 8 8 © FF 8 8 0 Numéro de composant Dans notre exemple, on ne retient que les deux premiers axes qui permettent de prendre en ‘compte environ 83,895 de I'inertie totale. 5. Qualité de représentation Qualité de représentation Qualité de représentation Non normée Redimensionné Initiat_| Extraction | intial _| Extraction Pvp 5,010 303] 1,000) 061 AGR 2.827 1,948] 1,000 583, cM 20,708] 15,482| 1,000 748 TRA 6,355 622 1,000 128 Loc 17,998] 10,978] 1,000 610 EDU 28.469] 18,029] 1,000 633, ACS 12,125 9,995] 1,000 824 ANG 18,013 5,650] 1,000 314 DEF 55,752] 53,513] 1,000 960 pet | 155,151] 154,668] 1,000 997 DV 4,098 320] 1,000) 292 Méthode dextraction: Analyse en La Qualité de représentation prises en comptes par les nouvelles vi exemple, la qualité de représentation de la variable « det » est 0.997 ; cela veut dire que 99.7% de la variance de la variable est prise en compte par I’un des deux axes principaux, Par contre la ariable « pyp » est mal représentée par les deux axes, et donc sera mal prise en compte par les nouvelles variables, composantes principales permet de voir dans quelle mesure les variables initiales sont-elles bles extraites (ie. les composantes principales). Par Coordonnées des individus dans les axes principaux Dans I’éditeur des données, on retrouve les coordonnées des individus dans le premier axe principal et dans le deuxiéme axe principal 7 Pour ie 2 1672 120 10 1903 1093 PP 80 oa 36 43 AS) OM 5a ae 177 1514 MW représentation dispersion+simple ». i TRA [06 153 93 a0 graphique, EDI 7 es 86 80 on MEE 8 aa clique —— oe tects penis, = fen oe wea 2 aT ea 8 sur vet 18 213 2 Bs « Graphes+Diagramme de Ce eee Pos Détinic les marques par eu 2 Pcs ji gone w Eliqueter les observations par Pore OF # vet Panel pat Pov Lanes rs IB Varcics enboties (pas do iones ves) Colonnes:: IN Varoties envoties (pasos coonnes vies) Mode User les spéctcatons du dagramme de icher (Cee) (Cece) (tenner) Corte) Cae) & options Valeur manqvares © exetue tote observaen nconpite [LJ attonerles grouse gis pr des valeurs manquartes tu ivcherin age wcoelunios doers En cliquant deux fois sur le graphe et en ajoutant les deux axes des X et Y dans le graphe, on le graphe suivant 3.00000; 1928 3 5 2000004 2 & £ hy ter2 1928, or sss8 E0000 Ca a 3 N é hose 8 2 1996 8 § on Tas a on 1959 ° 5 ° ° 000007} 1800 1958 ° & 1903_ 1909 1908 °° aw % a 1987 1.000007} 1005 ° 1912 1053 1920 6 ° ° 2.000007 2.00000 1.00000 00000 1,000 2.00000 REGR factor score 1 for analysis 4 7. Coordonnées des variables Les coordonnées des variables du tableau sont données par la matrice des corrélations variables/facteurs, Matrice des composantes* Non normée: Redimensionné Composante Composante Méthode dextraction : Analyse en composantes principales, ‘a. 2 composantes extraites, Représentations graphiques Diagramme de composantes ANG ° os] eu « GS "ACR 2 oa 5 ° B ° e 8 ° . TRA ° oer © 104 Composante 4 Ilya de fortes corrélations entre le premier axe et la Dette (négative), le Commerce, le Logement et I’ Agriculture (positives). L’axe t2 est lui trés lig a la variable DEF La proximité des variables EDU, ACS, AGR, CMI et LOG sur le graphe permet de conclure qu'il existe un lien fort entre ces variables mais cette interprétation ne vaut que parce ces variables sont bien représentées dans le plan 1-2 (les points correspondants sont proches du cercle). La proximité des variables PVP et TRA ne peut pas étre interprétée : ces variables sont mal représentées puisque les points correspondants sont éloignés du cercle. Diagramme de composantes 2 er S Be 3 5 8 é os} to as ao as vo Composante 4 Deuxiéme partie : ACP normée Dans ' ACP normée (i.e. sur données centrées réduites), la matrice des corrélations sera utilisée pour extraction des valeurs propres et vecteurs propres. Ainsi, on doit cliquer sur « Matrice de corrélation » pour faire I'analyse eee analyse pAteher @)ntrice de corttion| IV, Structure factoriele sans rotation O Mitrce de covatonce .Disgranme des valeurs propres extrare © bn2é suri vate propre Valeur propres sunéricures & O nent fie de acteurs Facteus a etrae Maximum des rations pour converger: ae Les résultats de I’ ACP normée sont donnés comme suit 1. Variance totale expliquée Variance totale expliquée, \Valeurs propres intiales Extraction Sommes des carrés des facteurs retenus % dela %dele Composante variance _|_% cumulés variance, Sb curnulés Méthode extraction : Analyse en composantes principales. Méthode d'extraction : Analyse en composantes principales La plus grande valeur propre de la matrice de corrélation est 4.973 ; elle est associée au premier axe principal qui explique 45,212 de la variabilité, On choisit les trois premiers axes principaux qui expliquent 75,575% de la variance. Ce choix se voie clairement dans le Graphique des valeurs propres. jue des valeurs propres [Graphique de valeurs propres Valeur propre Numéro de compossnt 3. Matrice des composantes Les coefficients de corrélation entre les variables initiales et les composantes principales sont donnés dans le tableau suivant Matrice des composantes* | Composante a 2 3 33] 104 Acs Méthode dtextraction : Analyse en composantes principales. ‘a. 3 composantes extraites, Matrice des composantes(a) Composante 1 2 3 acs 3933 -,100 166 det 889/301) 161 emi 834 340 -141 agr 819 006 366 edu 787 -,137 425 Méthode dextraction - Analyse en composantes principales. a 3 composantes extraites. La premiere composante principale est corrélée positivement avec les variables action sociale, commerce-industrie, agriculture; en revanche elle est négativement corrélée avec les variables défense et remboursement de la dette. Cette opposition explique deja prés de la moitié, de la variance La deuxiéme composante est positivement corrélée avec la variable « anciens combattants » et négativement avec les variables « pouvoirs publics et transports ». Les autres corrélations sont plus faibles, La troisiéme composante présente une corrélation assez importante (comparée aux autres valeurs) avec la variable « divers » 4, Diagramme des variables Le diagramme des variables dans l’espace formé par les trois axes est le suivant Diagramme de composantes Composante 2 Remarque : Si on se limite & deux axes principaux, on a une représentation des variables dans le plan. Diagramme de composantes om . Oban 3 over Sor Boo oon 3 ones 8 eodet as Composante 4 5, Représentation des individus Tow os ey 8 3828 a Sh se | tm tell asa ta a7 sw alma as aa, tam re Ee ee fm ws 7 ages 12 te rma same sir pe Ei 0a 18 sa ws 3 aa m2 an oes ra si pe oe ie fat ep aaa esas ae amen mr Te ei) oa te so 349 me mse ae ear Si pe ie 3 se kas esa ay et amon ams Sw oa 3 1 wa me a7 713 ed my es Bem stm Utiliser le diagramme en trois dimensions : « Graphes +Diagramme de dispersion + 3D ». Dispersion single Dispersion de type Mat Dispersion de type Sunerposé Dispersion cb (7 eset sobctiewtons cu daar de [= Coo) cae nem) Caren) Jiquer sur « options » puis cocher « Afficher le diagramme avec les étiquettes d’observations » Options E \Valere manauates @exoure toute observation complete core le coservaton 3 ‘ 1 ‘ 3 2 3 3 1 3 3 ‘ 3 i c cher le groupes déris per des vaows manquartes ‘Afficher le diagramme avec les étiquettes 'cbservations Lec borres erreur reécertent @ ricrvates de contiret Niveau (%) f etareard Matteateur art type Mutipesteur Ona le graphique suivant Remarque : On peut représenter les individus dans le plan défini par les deux premiers axes principaux um oa Foon z a = 3 ean & ‘e20, sexa ; Sco ses g cenvee Speer : 01968 5 # 01229 | rose ee as e cal REGR factor seore 1 for analysis 2 On remarque que les années se répartissent en trois groupes (avant la premiére guerre mondiale, entre les deux guerres, aprés la seconde guerre mondiale). Seule l'année 1920, premigre année oit il apparait un poste de dépenses consacré aux anciens combattants est placée avec le premier groupe, alors qu'elle appartient au second.

You might also like