You are on page 1of 4

Analyse de donnes examen nal e

dure : 2 heures documents non autoriss e e jeudi 12 janvier 2012


Note Les trois sections ci-dessous sont indpendantes. On sattachera ` justier autant que possible les rponses. e a e

1
1.1

ACM : les tudiants et la ville (8 points) e


Les donnes (3 points) e

Les donnes qui suivent sont issues de lenqute les tudiants et la ville eectue en 2001 par des tudiants de e e e e e sociologie sous la direction de S. Den`e ` lUniversit Franois Rabelais de Tours. Lanalyse porte sur cinq questions e a e c en rapport avec le logement tudiant. Lensemble des individus statistiques est ici un chantillon de 383 tudiants. Les e e e questions sont les suivantes : Habitez-vous (variable occ) : seul (modalit seul), en colocation (coloc), en couple (couple), avec les parents e (parents), non rponse (NR) ? e Quel type dhabitation occupez-vous (variable typ) : cit universitaire (cite), studio (studio), appartement e (appart), chambre chez un particulier (chambre), autre (autre), non rponse (NR) ? e Si vous vivez en dehors du foyer familial, depuis combien de temps (variable anc) : moins de 1 an (0.1an), 1 ` a 3 ans (1.3ans), plus de 3 ans (p3ans), non applicable (NA), non rponse (NR) ? e ` A quelle distance approximative de luniversit vivez-vous (variable dst) : moins de 1 km (0.1km), 1 ` 5 km e a (1.5km), plus de 5 km (p5km), non rponse (NR) ? e Quelle est la supercie de votre logement (variable sur) : moins de 10 m2 (0.10m2), 10 ` 20 m2 (10.20m2), 20 a a ` 30 m2 (20.30m2), plus de 30 m2 (p30m2), non rponse (NR) ? e Dans ce qui suit, on reprsentera les catgories par le nom de la variable suivi du nom de la modalit, comme par e e e exemple occ.seul ou typ.NR. Non rponse (NR) correspond ` un dfaut des donnes (rponse oublie ou non fournie), e a e e e e alors que non applicable (NA) est utilis pour les questions qui nont pas de sens pour un individu donn. e e Les taux marginaux de rponses aux direntes question (en %) sont reproduit ici e e
occ.seul occ.coloc occ.couple occ.parents occ.NR Poids 4830 1384 1305 2350 131 typ.cite typ.studio typ.appart typ.chambre typ.autre typ.NR Poids 1070 2820 3029 522 1984 574 anc.0.1an anc.1.3ans anc.p3ans anc.NA anc.NR Poids 2089 2480 2872 2480 78 dst.0.1km dst.1.5km dst.p5km dst.NR Poids 2689 4987 2089 235 sur.0.10m2 sur.10.20m2 sur.20.30m2 sur.p30m2 sur.NR Poids 914 1775 2480 3916 914

On reproduit ci-dessous la partie du tableau de Burt qui correspond aux variables occ et typ (le tableau total serait trop grand).
occ.seul occ.coloc occ.couple occ.parents occ.NR typ.cite typ.studio typ.appart typ.chambre typ.autre typ.NR occ.seul occ.coloc occ.couple occ.parents occ.NR typ.cite typ.studio typ.appart typ.chambre typ.autre typ.NR 185 0 0 0 0 34 90 40 *** *** 5 0 53 0 0 0 5 6 32 2 3 5 0 0 50 0 0 2 10 34 0 3 1 0 0 0 90 0 0 1 9 *** 67 8 0 0 0 0 5 0 1 1 0 0 3 34 5 2 0 0 41 0 0 0 0 0 90 6 10 1 1 0 108 0 0 0 0 40 32 34 9 1 0 0 116 0 0 0 *** 2 0 *** 0 0 0 0 20 0 0 *** 3 3 67 0 0 0 0 0 *** 0 5 5 1 8 3 0 0 0 0 0 22

Question 1. 7 valeurs sont manquantes (***) dans le tableau de Burt. Retrouvez leurs valeur en utilisant les proprits ee du tableau. Question 2. Est-il exact de dire que la proportion des gens seuls qui vivent en appartement est plus faible que la proportion des couples qui vivent en appartement ? Question 3. Expliquer pourquoi les catgories occ.NR, anc.NR et dst.NR risquent de poser des probl`mes dans une e e ACM. Quelles pourraient tre les solutions envisageables ? e 1

1.2

Analyse des Correspondances Multiples (5 points)

On ralise une Analyse des Correspondances Multiples (ACM) uniquement sur les variables typ, dst et sur, qui e dcrivent les caractristiques des logements. Les 6 premi`res valeurs propres sont e e e
[1] 0.6990 0.5737 0.5254 0.3892 0.3558 0.3359

On donne ci-dessous pour le premier plan factoriel : la projection des catgories active, les coordonnes de ces e e e catgories sur chaque axe factoriel, leur contribution aux axes (en 10000`), ainsi que la qualit de leur reprsentation e e e e par le plan (en 10000` encore).
d = 0.5 sur.0.10m2 typ.cite dst.NR

typ.NR

sur.NR typ.chambre sur.10.20m2 dst.0.1km dst.1.5km dst.p5km typ.autre

typ.cite typ.studio typ.appart typ.chambre typ.autre typ.NR dst.0.1km dst.1.5km dst.p5km dst.NR sur.0.10m2 sur.10.20m2 sur.20.30m2 sur.p30m2 sur.NR

Comp1 -0.90 -0.75 -0.09 -0.50 1.46 1.25 -0.74 -0.23 1.31 1.83 -0.88 -0.58 -0.67 0.40 2.11

Comp2 2.19 -0.47 -0.62 0.41 -0.09 1.45 -0.03 -0.08 -0.01 2.02 2.49 0.26 -0.59 -0.48 0.68

typ.cite typ.studio typ.appart typ.chambre typ.autre typ.NR dst.0.1km dst.1.5km dst.p5km dst.NR sur.0.10m2 sur.10.20m2 sur.20.30m2 sur.p30m2 sur.NR

Comp1 Comp2 417 2985 747 364 13 687 61 51 2014 9 430 702 705 1 130 17 1705 0 374 555 339 3281 281 71 537 508 300 526 1945 243

typ.cite typ.studio typ.appart typ.chambre typ.autre typ.NR dst.0.1km dst.1.5km dst.p5km dst.NR sur.0.10m2 sur.10.20m2 sur.20.30m2 sur.p30m2 sur.NR

Comp1 Comp2 979 6732 2183 3056 39 1735 136 229 5270 5288 957 2239 2023 2026 546 604 4521 4521 803 1781 782 6996 716 865 1498 2660 1033 2521 4490 4949

typ.studio sur.p30m2 sur.20.30m2 typ.appart

Les variables occ et anc, qui dcrivent les occupants des logements, sont utilises comme variables supplmentaires e e e qualitatives. On calcule les coordonnes et les valeurs test suivantes pour leurs catgories sur les deux premiers axes e e factoriels
occ.seul occ.coloc occ.couple occ.parents occ.NR anc.0.1an anc.1.3ans anc.p3ans anc.NA anc.NR Comp1 -0.5514 -0.0196 -0.0573 1.1339 0.7747 -0.4820 -0.3168 -0.3325 1.0573 1.5962 Comp2 0.1403 -0.2110 -0.3597 0.0020 0.6076 0.1832 -0.0182 -0.1996 0.0597 1.1211 occ.seul occ.coloc occ.couple occ.parents occ.NR anc.0.1an anc.1.3ans anc.p3ans anc.NA anc.NR Comp1 -8.6066 -0.1481 -0.4189 11.4433 1.7369 -4.5528 -3.2970 -3.7659 11.0036 2.7684 Comp2 2.1895 -1.5915 -2.6288 0.0200 1.3621 1.7301 -0.1894 -2.2612 0.6215 1.9443

Question 4. Calculer la proportion dinertie explique si lon conserve les deux premiers axes. Commentez la qualit. e e Question 5. Quelles sont les catgories qui dnissent les deux premiers axes factoriels ? (on prcisera sur quel(s) e e e crit`re(s) on se fonde). e ` Question 6. A quoi correspond la qualit de la reprsentation dune catgorie par un sous espace vectoriel ? Que peut e e e on dire ici de la qualit de la reprsentation des catgories par le premier plan factoriel ? Pouvait-on sy attendre ? e e e Question 7. Quelles sont les catgories supplmentaires qui sont lies aux axes ? On prcisera les conditions sous e e e e lesquelles une valeur test permet de conclure.

2
2.1

AFC : contacts mdia (7 points) e


Les donnes (2 points) e

Source : Lebart L., Morineau A., Piron M. Statistique Exploratoire Multidimensionnelle. Les donnes sont extraites e de lEnqute Budget-temps Multimdia 1991-1992 du CESP (Centre dEtude des Supports de Publicit). e e e Lexemple concerne lanalyse dun tableau de contingence qui croise 8 professions (ou catgories socioprofessione nelles) et 6 types de mdias. On cherche ` dcrire les ventuelles anits entre les professions et les dirents types e a e e e e de mdias. e Les professions sont agri (agriculteur), patron (petit patron), cadsup (cadre suprieur), interm (profession e intermdiaires), emplo (employ), ouvq (ouvrier quali), ouvnq (ouvrier non quali), inact (inactif). e e e e Les mdias concerns sont RADIO (radio), TELE (tlvision), QUOTN (quotidien national), QUOTR (quotidien rgioe e ee e nal), MAGAZ (presse magazine), PRGTV (programmes de tlvision). ee 2

On dit quune personne a eu un contact avec un mdia donn si elle a utilis ce mdia la veille du jour de lenqute. e e e e e La table de contingence donne ci-dessous dcrit un chantillon de 12388 contacts mdia relatifs ` 4433 personnes e e e e a interroges : e
agri patron cadsup interm emplo ouvq ouvnq inact RADIO TELE QUOTN QUOTR MAGAZ PRGTV 96 118 2 71 50 17 122 136 11 76 49 41 193 184 74 63 103 79 360 365 63 145 141 184 511 593 57 217 172 306 385 457 42 174 104 220 156 185 8 69 42 85 1474 1931 181 852 642 782

Question 8. Rpondez aux questions suivantes si cest possible (et expliquez pourquoi dans le cas contraire) e 1. Avec combien de mdias dirents chaque personne a-t-elle t en contact en moyenne ? e e ee 2. Combien dagriculteurs ont particip ` lenqute ? ea e 3. Quel est le mdia avec lequel il y a eu le plus de contact ? e Question 9. Le 2 dcart ` lindpendance associ ` cette table est 276. Avec une erreur infrieure ` 1%, montrez e a e ea e a que les variables profession et mdias sont lies. On utilisera la proprit suivante, valable pour un degr de libert e e ee e e d > 30 : 22 2d 1 2.33 = 0, 01. P d

2.2

Analyse factorielle des correspondances (5 points)

On ralise une analyse factorielle des correspondances sur ces donnes et on fournit ci-dessous pour les 4 premiers e e axes principaux : les valeurs propres associes aux composantes principales et les coordonnes des modalits et la e e e e qualit de leur reprsentation pour les lignes et les colonnes (en 10000`). e e
1 2 3 4 Val. prop. 0.0139 0.0072 0.0008 0.0003 agri patron cadsup interm emplo ouvq ouvnq inact Axis1 -0.17 -0.07 0.43 0.11 -0.02 -0.04 -0.12 -0.03 Axis2 Axis3 Axis4 -0.31 0.07 -0.01 -0.14 0.06 0.02 -0.06 0.00 0.02 0.03 0.03 -0.03 0.10 0.01 -0.02 0.10 0.02 0.04 0.09 0.04 0.00 -0.03 -0.03 0.00 agri patron cadsup interm emplo ouvq ouvnq inact Axis1 Axis2 Axis3 Axis4 2135 7414 399 16 1538 6742 1366 137 9782 196 0 15 8022 750 674 453 252 9289 26 420 1383 7437 270 907 5557 3604 632 5 3722 3910 2364 1 Axis1 Axis2 Axis3 Axis4 770 1685 7520 24 8508 13 811 377 9930 1 14 53 4866 4940 11 70 3168 6186 124 517 35 9587 270 77

Axis1 Axis2 Axis3 Axis4 RADIO 0.01 0.02 0.05 0.00 TELE -0.05 0.00 -0.02 0.01 QUOTN 0.54 -0.01 -0.02 0.04 QUOTR -0.11 -0.11 -0.01 0.01 MAGAZ 0.09 -0.13 -0.02 -0.04 PRGTV -0.01 0.16 -0.03 -0.01

RADIO TELE QUOTN QUOTR MAGAZ PRGTV

Question 10. Combien y a-t-il de valeurs propres en tout ? Calculez linertie totale. Combien daxes faut-il conserver ? Question 11. Quelles sont les modalits qui dterminent les deux premiers axes principaux ? e e Question 12. Faire la reprsentation jointe des modalits obtenues ` la question prcdente sur le premier plan e e a e e principal. Question 13. Quels sont les professions et les types de mdias qui sont mal reprsents par le premier plan principal ? e e e

Reconstitution de nuage de point (5 points)

On se place dans le cadre de lAFC sur un tableau de contingence N deectif total n. On cherche, comme dans lACP, ` exprimer N en fonction des composantes principales ak et bk des ACP sur les prols lignes et prols colonnes. a On note D1 et D2 les matrices deectif marginal des deux variables ` m1 et m2 modalits et k la valeur propre a e associe ` laxe factoriel k. On rappelle que les ak (respectivement bk ) sont dcorrls entre eux et de variance k : e a e ee ak , a
D1 /n

= bk , b

D2 /n

0 k

si k = . si k =

Dautre part, on rappelle les formules de transition entre les deux vecteurs : 1 bk = D1 N ak , k 2 o` N est la transpose de la matrice N u e 3 1 ak = D1 Nbk , k 1

Question 14. Montrer que, pour tout axe k,


p

=1

ab
p

D2 bk = n

k ak .

Question 15. En dduire que e 1 D1 n ab D2 bk = Nbk

=1

Note En fait, en utilisant le rsultat de la question prcdente, on peu montrer sans trop de dicult que e e e e 1 N = D1 n
p

1m1 1m2 +
=1

ab

D2

Il ne vous est pas demand de prouver ce rsultat pour lexamen, je vous le donne juste pour expliquer o` m`ne la e e u e question prcdente ! e e