You are on page 1of 94

Tècniques de reducció de la

dimensionalitat de la base de
dades respecte les variables:
Anàlisi de Correspondències
múltiples
Gestió i anàlisi de dades en Economia i Empresa
Curs 2021-2022
Facultat de Ciències Econòmiques i Empresarials
Universitat de Girona
2 TEMA 2. ACP

L’anàlisi de correspondències múltiple (ACM) és una altra


tècnica de reducció de dades emparentada amb l’anàlisi en
components principals (ACP) que permet el tractament de
variables qualitatives o categòriques, ja siguin nominals o
ordinals. Recordem que les variables ordinals amb 5 o més
categories es consideren variables numèriques i les de menys de
5 categories, variables qualitatives.

Òbviament, l’ACM serà la tècnica triada quan es pretengui reduir


un conjunt mixt de variables numèriques i categòriques sempre
que les numèriques primer es categoritzin per mitjà de la seva
agrupació en classes.

En definitiva, emprarem l’ACM sempre que alguna de les


variables actives sigui nominal amb qualsevol nombre de
categories o bé ordinal amb 4 o menys categories.
3 TEMA 2. ACP

Les similituds entre l’ACP i l’ACM són moltíssimes. Es pot arribar


a entendre l’ACM com un cas particular d’ACP millorat per
adaptar-se al cas qualitatiu, i que es diferencia bàsicament en
l’aspecte següent:

Mentre que l’ACP intenta resumir el nombre de variables original


a un conjunt de components més sintètiques, l’ACM intenta
analitzar les formes que prenen les relacions entre les categories
de les variables.
4 TEMA 2. ACP

Exemple:

Disposem d’informació sobre la música preferida i la


ideologia política d’una mostra de 22 enquestats.
5 TEMA 2. ACP

1. Variables i distàncies

El punt de partida serà l’anomenada matriu disjuntiva,


una taula amb n files (n individus) i q columnes (q suma de
categories) que contindrà 0 i 1 segons si l’individu presenta
la qualitat o no.

Per el nostre exemple la següent taula mostra els resultats


dels 22 enquestats que ens han indicat la seva ideologia
política (4 categories) i la seva música preferida (5
categories)....
6 TEMA 2. ACP

Atès que cada


individu pertany a
una categoria i
només una de cada
variable, la suma dels
elements d’una final
és igual a p (2 en el
nostre cas)

La suma dels elements de la columna j-


èssima representa la freqüència de la
categoria j-èssima, és a dir, el nombre
d’individus que la presenten
7 TEMA 2. ACP

La representació en una taula de variables permet parlar de


distància, per exemple la distància euclidiana: la distància
geomètrica clàssica que es calcula amb el teorema de
Pitàgores. Si només hi ha dues variables:
8 TEMA 2. ACP

En el cas general, la distància euclidiana entre dues files i i i* és


simplement l’arrel de la suma dels quadrats de les diferències
de coordenades entre les dues files, sumades columna a
columna.

També se sol parlar de la distància euclidiana al quadrat, que


evita haver de fer l’arrel quadrada:
9 TEMA 2. ACP

En el cas particular de les variables qualitatives, aquestes


diferències de coordenades poden ser 0 quan la categoria
està absent o present en ambdues files o bé 1 quan la
categoria està present en una de les files i no en l’altra.

Per tant, la distància euclidiana al quadrat és el nombre


de categories que es troben presents en una de les files i
absents en l'altra.

Per exemple, la distància al quadrat entre els individus 1 i 2


és 4, entre els individus 2 i 3 és 2, etc.
0 TEMA 2. ACP
2. Anàlisi exploratòria.

• Homogeneïtat:
Exigeix que totes les variables es refereixin a un mateix
aspecte de la realitat. Distàncies construïdes
combinant variables molt dispars (per exemple, algunes
de demogràfiques i algunes d’actitudinals) són difícils
d’interpretar.

• Exhaustivitat
Exigeix que totes les variables relacionades amb l’aspecte
seleccionat (o almenys una mostra representativa d’elles)
siguin incloses en l’anàlisi. Altrament, individus diferents
pel que fa a alguna variable important omesa podrien
aparèixer com idèntics.
1 TEMA 2. ACP

• Categories molt petites:


En ACM són importants les categories més diferents, però
cal vigilar si són categories amb freqüències molt reduïdes
doncs, poden tenir un pes desproporcionat en l’anàlisi. Per
evitar-ho, com a pas previ es recomana agrupar les categories
molt petites (diguem amb menys del 5% dels casos), amb
una categoria de contingut semblant o en una categoria
anomenada “altres”.

• Variables amb un nombre gran de categories


Les variables amb major nombre de categories tendeixen a
tenir un major pes en la construcció dels eixos, no només per
tenir un major nombre de columnes sinó també perquè en
general aquestes columnes tindran unes freqüències
menors. És recomanable procurar que el nombre de
categories sigui semblant, agrupant on sigui necessari.
• Dades absents
Si el valor d'alguna variable no està disponible per a algun
individu ens trobem amb un problema de dades absents.
La imputació seria possible pels mètode de donació o de regressió
(models Lògit).
L'eliminació per parelles o substitució per la mitjana no es poden
emprar en el cas qualitatiu.
L'eliminació per llista segueix estant justificada quan hi ha pocs
valors absents.

El caràcter qualitatiu de les variables ofereix una possibilitat


addicional per al tractament dels valors absents: la creació en
cada variable d'una categoria addicional que representi la manca
de resposta.
3 TEMA 2. ACP
3. Transformació de les dades
La taula disjuntiva completa seria en principi apta per a una ACP. De fet,
l’ACM no dista molt d'això. Tanmateix, hi ha algunes diferències entre
l’ACP i l’ACM que cal remarcar i que concerneixen a algunes
transformacions de la taula disjuntiva completa que condueixen a la taula
de dades que se sotmet finalment a l'anàlisi.
3.1 Primera transformació

L’ACM considera que una categoria és més rellevant per al càlcul de les
distàncies com més rara és aquesta categoria. S'entén que la presència
d'una categoria poc freqüent destaca i diferencia molt de la resta als
individus que la posseeixen. Per tal que les distàncies reflecteixin
correctament aquesta consideració, es divideix cada columna de la taula
disjuntiva completa per √f.j. Columnes de menor freqüència queden així
dividides per un valor menor, els seus valors queden magnificats i
contribueixen més al càlcul de les distàncies entre individus.
5 TEMA 2. ACP

3.2 Segona transformació

En segon lloc, les dades es multipliquen per √n/p o √n-1/p segons


s’usi n o n-1 com a denominador en el càlcul de les variàncies-
covariàncies. De la mateixa manera que es divideix per l’arrel de la
suma de la columna (√f.j), ara dividim per l’arrel de la suma de la
fila p i incorporem la mida de la mostra.
En ser una suma constant, aquesta transformació és innòcua,
només modifica l’escala dels resultats.
6 TEMA 2. ACP

Per tant,

ü La matriu de dades que es sotmet a l’anàlisi és:

ü Igual que en ACP, treballem amb una matriu centrada on a cada


columna se li resta la mitjana.

ü En l’ACP totes les variables tenen importància idèntica


(mesurada per la seva variància, unitària per estar
estandarditzades).

ü En l’ACM la importància de cada variable varia segons el que


s’anomena inèrcia.
7 TEMA 2. ACP
4. Extracció de dimensions
De manera semblant a l’ACP, matemàticament l’operació que es
realitza és la diagonalització d’una matriu per obtenir un nombre
reduït d’eixos que permetin observar les relacions entre les
categories i preservin al màxim les distàncies entre objectes.

Concretament, la matriu a diagonalitzar és:


S=(1/N)X’X o S=(1/(N-1))X’X
8 TEMA 2. ACP
Igual que en ACP, la diagonal de la matriu S conté la informació a
projectar de cada variable, anomenada inèrcia. La suma dels
elements de la diagonal també serà la suma dels valor propis
obtinguts.

No obstant, en ACM no es tracte exactament d’una variància, si no


que la inèrcia és una combinació de variabilitat i freqüència. Les
primeres dimensions que s’extreuen són les que expliquen un
percentatge més elevat d’inèrcia.

Igual que en ACP, la part exterior de la diagonal de S conté


informació sobre el nivell d’associació entre les columnes de la
matriu original. Dues variables binaries estan associades
positivament quan tendeixen a està en els mateixos objectes.
Valors positius en aquestes caselles indiquen, doncs, parelles de
categories similars, que tendeixen a donar-se a la vegada i que
haurien d’aparèixer properes en l’espai dels eixos. Valors negatius
indiquen justament el contrari.
9 TEMA 2. ACP

Igual que en ACP, el resultat de la diagonalització és una matriu


diagonal Λ amb els valors propis i una matriu ∇ de vectors propis:

• Valors propis λk que representen la inèrcia (en lloc de la


variància) explicada per les dimensions o eixos obtinguts (ara
ja no es diuen components). Els valors propis del nostre
exemple es mostren a la taula:
Eigenvalues
Dim.1 Dim.2 Dim.3 Dim.4 Dim.5 Dim.6 Dim.7
Variance 0.889 0.782 0.575 0.500 0.425 0.218 0.111
% of var. 25.386 22.353 16.429 14.286 12.143 6.218 3.185
Cumulative % of var. 25.386 47.739 64.168 78.454 90.596 96.815 100.000

q-p dimensions
(9-2=7)
q= nº categories Inèrcia total= (q/p)-1
p= nº variables (9/2)-1=3.5
0 TEMA 2. ACP

• Vectors propis. Igual que en l’ACP, serveixen per calcular les


coordenades dels individus sobre cada eix o dimensió.
Aquests eixos o dimensions s'afegeixen a l'arxiu de dades i
s'estandarditzen, igual que en l’ACP. Igual que en l’ACP
treballarem només amb uns pocs dels primers eixos, que
explicaran la major part de la inèrcia.

Categories
Dim.1 ctr cos2 v.test Dim.2 ctr cos2 v.test Dim.3 ctr cos2 v.test
clàssica | -0.495 2.504 0.054 -1.069 | -1.061 13.087 0.250 -2.293 | -0.793 9.933 0.140 -1.712
jazz | 2.183 36.578 0.753 3.976 | 0.626 3.419 0.062 1.141 | -0.159 0.300 0.004 -0.289
pop | -0.231 0.817 0.020 -0.648 | 0.280 1.364 0.029 0.785 | -0.684 11.105 0.176 -1.920
rock | -0.855 9.344 0.215 -2.124 | 1.066 16.491 0.334 2.648 | 0.636 7.994 0.119 1.581
altres | 0.272 0.756 0.016 0.587 | -1.160 15.639 0.299 -2.506 | 1.143 20.668 0.291 2.470
liberal | -0.284 1.855 0.056 -1.082 | -0.991 25.699 0.681 -3.780 | 0.237 1.992 0.039 0.902
esquerra | 1.696 36.808 0.846 4.216 | 0.354 1.817 0.037 0.879 | -0.024 0.011 0.000 -0.059
socialista | -0.832 5.317 0.109 -1.516 | 1.423 17.647 0.320 2.591 | 1.306 20.218 0.269 2.378
nacionalista | -0.686 6.021 0.138 -1.705 | 0.577 4.836 0.098 1.434 | -1.186 27.779 0.413 -2.946
1 TEMA 2. ACP
5. Nombre de dimensions a retenir

El número total de dimensions que s'obtenen amb un ACM és


igual al número total de categories (q=9) menys el nombre de
variables qualitatives (p=2) considerades en l'anàlisi; en aquest
cas, q-p=9-2=7.

Els criteris per decidir el nombre de dimensions vistos en l’ACP


segueixen essent vàlids, sobretot el de la interpretació de les
dimensions.

S’afegeix un nou criteri referent al valor d’inèrcia; s’analitzen


les dimensions amb inèrcia superior a 1/p.
2 TEMA 2. ACP
6. Interpretació de les dimensions
Al contrari que en l’ACP, en l’ACM, necessitem dos tipus d'informació per
interpretar el resultat.

Contribucions absolutes de les categories


Igual que en ACP, els vectors propis indiquen la influència de cada fila (en
aquest cas categoria) per constituir la dimensió. Els quadrats dels
elements dels vectors propis s’anomenen contribucions absolutes, i
indiquen la proporció de contribució de la categoria j-èssima sobre la
inèrcia de l’eix k-èssim.
La seva suma per a un eix és 100.

Coordenades de les categories


Les coordenades de les categories són les mitjanes de les coordenades
estandarditzades de cada eix, calculades sobre els individus que
pertanyen a la categoria.
3 TEMA 2. ACP
Categories
Dim.1 ctr cos2 v.test Dim.2 ctr cos2 v.test
clàssica | -0.495 2.504 0.054 -1.069 | -1.061 13.087 0.250 -2.293 |
jazz | 2.183 36.578 0.753 3.976 | 0.626 3.419 0.062 1.141 |
pop | -0.231 0.817 0.020 -0.648 | 0.280 1.364 0.029 0.785 |
rock | -0.855 9.344 0.215 -2.124 | 1.066 16.491 0.334 2.648 |
altres | 0.272 0.756 0.016 0.587 | -1.160 15.639 0.299 -2.506 |
liberal | -0.284 1.855 0.056 -1.082 | -0.991 25.699 0.681 -3.780 |
esquerra | 1.696 36.808 0.846 4.216 | 0.354 1.817 0.037 0.879 |
socialista | -0.832 5.317 0.109 -1.516 | 1.423 17.647 0.320 2.591 |
nacionalista | -0.686 6.021 0.138 -1.705 | 0.577 4.836 0.098 1.434 |

Coordenades Contribucions

S'han d'interpretar conjuntament coordenades i contribucions


absolutes. Aporten matisos diferents a la interpretació. Les coordenades
suggereixen el centre dels individus pertanyents a la categoria i ajuden a
interpretar l’eix indicant quin tipus d’individus són a quin costat. Les
contribucions ajuden a interpretar l’eix indicant quines categories han
contribuït més a crear-lo.
4 TEMA 2. ACP
Categories
Dim.1 ctr cos2 v.test Dim.2 ctr cos2 v.test
clàssica | -0.495 2.504 0.054 -1.069 | -1.061 13.087 0.250 -2.293 |
jazz | 2.183 36.578 0.753 3.976 | 0.626 3.419 0.062 1.141 |
pop | -0.231 0.817 0.020 -0.648 | 0.280 1.364 0.029 0.785 |
rock | -0.855 9.344 0.215 -2.124 | 1.066 16.491 0.334 2.648 |
altres | 0.272 0.756 0.016 0.587 | -1.160 15.639 0.299 -2.506 |
liberal | -0.284 1.855 0.056 -1.082 | -0.991 25.699 0.681 -3.780 |
esquerra | 1.696 36.808 0.846 4.216 | 0.354 1.817 0.037 0.879 |
socialista | -0.832 5.317 0.109 -1.516 | 1.423 17.647 0.320 2.591 |
nacionalista | -0.686 6.021 0.138 -1.705 | 0.577 4.836 0.098 1.434 |

- Dimensió 1: distingeix bàsicament el jazz (coordenades


positives) i el rock (coordenades negatives) de la variable música; i
esquerra (coordenades positives) i socialistes (coordenades
negatives).

Si mirem la contribució, les categories que més contribueixen a


aquesta primera dimensió són jazz i esquerra.
5 TEMA 2. ACP
Categories
Dim.1 ctr cos2 v.test Dim.2 ctr cos2 v.test
clàssica | -0.495 2.504 0.054 -1.069 | -1.061 13.087 0.250 -2.293 |
jazz | 2.183 36.578 0.753 3.976 | 0.626 3.419 0.062 1.141 |
pop | -0.231 0.817 0.020 -0.648 | 0.280 1.364 0.029 0.785 |
rock | -0.855 9.344 0.215 -2.124 | 1.066 16.491 0.334 2.648 |
altres | 0.272 0.756 0.016 0.587 | -1.160 15.639 0.299 -2.506 |
liberal | -0.284 1.855 0.056 -1.082 | -0.991 25.699 0.681 -3.780 |
esquerra | 1.696 36.808 0.846 4.216 | 0.354 1.817 0.037 0.879 |
socialista | -0.832 5.317 0.109 -1.516 | 1.423 17.647 0.320 2.591 |
nacionalista | -0.686 6.021 0.138 -1.705 | 0.577 4.836 0.098 1.434 |

- Dimensió 2:

Té contribucions considerables dels liberals, dels amants de la


música clàssica i dels amants d’altres tipus de música (pel costat
negatiu, coordenades negatives); i dels amants del rock i dels
socialistes (pel costat positiu)
6 TEMA 2. ACP
Les coordenades de les categories solen representar-se
gràficament quan el nombre de dimensions és dos. De vegades és
més fàcil interpretar tot el gràfic que cada dimensió
separadament. Es tracta llavors de veure quin tipus d'individus es
troben en cada zona del gràfic.

En el nostre cas, tenim


els amants del jazz i
els d’esquerres en el
quadrant superior
dret, els socialistes i
els amants del rock en
el superior esquerre, i
els liberals i els
amants de la música
clàssica en l'inferior
esquerre.
7 TEMA 2. ACP

També és útil interpretar les associacions entre categories:

• Categories de variables diferents allunyades de l'origen i


pròximes entre si tendeixen a indicar categories associades, és a
dir, que tendeixen a donar-se juntes sobre els mateixos
individus, com passa, amb el jazz i la ideologia d'esquerra, amb
el rock i la socialista, o amb la música clàssica i la lliberal.
Sembla que la ideologia i els gustos musicals estan relacionats.

• Categories d'una mateixa variable allunyades de l'origen i


pròximes entre si (per exemple la música clàssica i les altres
músiques) indiquen només individus amb un comportament
similar a les altres variables (gent amb simpatia pels liberals, en
aquest cas), ja que ara no pot tractar-se dels mateixos individus.
8 TEMA 2. ACP

• Categories molt allunyades entre si tendeixen a estar


compostes per diferents individus i que es comporten de
forma diferent amb les altres variables. Així, entre els
amants de la música clàssica hi haurà poquíssims
simpatitzants de l'esquerra o dels socialistes, per exemple.

• Categories pròximes a l'origen indiquen categories amb una


composició semblant a l’individu mitjà, com succeeix amb la
música pop.
9 TEMA 2. ACP

Exemple Inserció Laboral Titulats Universitaris

Anem a estudiar l'existència de relacions entre diferents formes de


cerca de feina a partir de les dades declarades al 2014 per els titulats
universitaris que van acabar els seus estudis l'any 2010. Aquestes
dades s'han extret de l'Enquesta d'Inserció Laboral de Titulats
Universitaris realitzada el 2014 per l'INE per conèixer el procés
d'inserció al mercat laboral d'aquest col·lectiu.

En aquest exercici ens centrem en la informació recollida sobre


aquells titulats universitaris que, en el moment de l'enquesta, encara
no havien trobat feina. En particular, treballarem amb les 11
variables següents:
0 TEMA 2. ACP
• rama: branca de coneixement dels estudis cursats
• nivingles: nivell d'anglès.
• nivOrd: nivell informàtic
• tiempBusqTr: temps buscant feina
• fAnuncions: ha buscat feina a través d'anuncis
• fINEM: ha buscat feina a les oficines d'ocupació de l'INEM
• fETTs: ha buscat feina en les empreses de treball temporal (ETT)
• fContactos: ha buscat feina utilitzant contactes personals
• fOposic: ha realitzat o està preparant alguna oposició
• fAutonomo: ha intentat establir-se com autònom
• fOtra: ha utilitzat qualsevol altra forma de cerca de feina no
contemplada en les anteriors variables.

Les variables que comencen amb f fan referència a una forma de buscar
feina i estan categoritzades com sí o no, segons s'hagi usat o no. Així,
fAnuncios fa referència a si els enquestats han buscat ofertes de feina en
anuncis en diaris, internet, etc., i té dues categories anomenades
fAnuncios_sí i fAnuncios_no. Aquest esquema es repeteix per la resta de
variables d'aquest tipus.
1 TEMA 2. ACP

La informació sobre aquestes 11 variables es troba en el fitxer de dades


incersion.csv. Comencem obrint la base de dades:

```{r}
insercion<-read.csv("~/Documents/CURS 21-22/Gestió i anàlisi de
dades_optativa/3-ACM/Dades/insercion.csv",row.names = 1,sep =
";",stringsAsFactors=TRUE)

dim(insercion)
```

[1] 1217 11

Observem que tenim informació d'11 variables per a 1217 enquestats.


2 TEMA 2. ACP
```{r}
summary(insercion)

```

rama nivIngles nivOrd tiempBusqTr fAnuncios


Artes-Humanid.:235 ingl_Alto :429 ord_avanzado:812 <3meses : 42 fAnuncios_no: 160
Ciencias :160 ingl_Bajo : 77 ord_basico :269 >2a\xf1os :915 fAnuncios_si:1057
Ingen.-Arq. :234 ingl_Medio:594 ord_experto :136 de1.5a2a\xf1os: 81
Salud : 41 ingl_No :117 de1a1.5a\xf1os: 76
Social-Jurid. :547 de3a6meses : 36
de6a12meses : 67
fINEM fETTs fContactos fOposic fAutonomo fOtra
fINEM_no:324 fETTs_no:706 fContactos_no:494 fOposic_no:738 fAutonomo_no:1125 fOtra_no:1016
fINEM_si:893 fETTs_si:511 fContactos_si:723 fOposic_si:479 fAutonomo_si: 92 fOtra_si: 201

Es consideren 5 branques de coneixement, 4 nivells d'anglès, 3 nivells de


coneixement d'informàtica, 6 intervals de temps de cerca de feina i 2
possibilitats per les 7 variables restants.

Usarem les primeres quatre variables com a variables il·lustratives (rama,


nivIngles, NivOrd i tiempBusTr). Així, les variables usades per fer l'ACM
seran les 7 variables dicotòmiques relatives a les formes utilitzades per
buscar feina.
Anàlisi exploratòria de les dades

ü Homogeneïtat: totes les variables actives fan referència a un


mateix aspecte, formes per buscar feina.

ü Exhaustivitat: suposem que totes les variables relacionades amb


l'aspecte han estat seleccionades.

ü No tenim categories amb freqüències molt petites ni variables


amb un gran nombre de categories

ü No tenim dades absents


4 TEMA 2. ACP

A aquestes 7 variables els hi correspon 14 categories, de manera que la


inèrcia total associada a ella serà 14/7-1=1 (l'expressió general per la
inèrcia total en el cas de p variables amb un total de k categories és k/p - 1,
que sempre valdrà 1 en el cas de tenir només variables dicotòmiques)

Anem a instal·lar els paquets necessaris per realitzar ACM i seleccionem les
variables actives:

```{r}
library(factoextra)
library(FactoMineR)

names(insercion)

dades<-insercion[,5:11]
```
5 TEMA 2. ACP

La funció que usarem per a realitzar l'ACM és la funció MCA i els resultats
s'han de guardar en un objecte, en el nostre cas res.mca

```{r}
res.mca<-MCA(dades)
```

Per defecte, a més de guardar els resultats de l'ACM a l'objecte res.mca,


el codi anterior proporciona tres gràfics, per les categories, els individus i
les variables, a l'espai de les primeres dues dimensions, que són les que
expliquen un major percentatge d'inèrcia.

Aquests gràfics s’interpretaran més endavant....


6 TEMA 2. ACP
7 TEMA 2. ACP

Els principals resultats (inèrcies, contribucions i quadrats de les


correlacions) es poden visualitzar aplicant la funció summary a l'objecte
res.mca.
Per defecte, proporciona la informació per els 10 primers individus, les 10
primeres categories i les 3 primeres dimensions. Si volem obtenir totes les
categories usarem nbelements=Inf i si volem que no mostri a cap individu
afegirem nbind=0. Per veure un nombre diferent de dimensions usarem
l'argument ncp.

```{r}
summary(res.mca,nbelements=Inf, nbind=0)
```

Anem a analitzar a poc a poc els resultats que proporciona aquesta


funció......
8 TEMA 2. ACP

El número total de dimensions que s'obtenen amb un ACM és igual al número total
de categories (k=14) menys el nombre de variables qualitatives (p=7) considerades
en l'anàlisi; en aquest cas, k-p=14-7=7.

El primer que s’obté és una taula per les inèrcies (valors propis i Eigenvalues en
anglès) de les dimensions ordenades de major a menor.

Call:
MCA(X = dades)

Eigenvalues
Dim.1 Dim.2 Dim.3 Dim.4 Dim.5 Dim.6 Dim.7
Variance 0.231 0.159 0.149 0.140 0.117 0.106 0.097
% of var. 23.143 15.925 14.889 14.017 11.734 10.556 9.736
Cumulative % of var. 23.143 39.068 53.957 67.975 79.709 90.264 100.000

% variància total acumulat

Així, amb les tres primeres dimensions per


Inèrcia exemple, recollim un 53.957% de la inèrcia
% variància total total. A mès, 1/p=1/7=0.1428
9 TEMA 2. ACP
La comanda executada també proporciona informació sobre les categories en les
tres primeres dimensions:
Categories
Dim.1 ctr cos2 v.test Dim.2 ctr cos2 v.test Dim.3 ctr
fAnuncios_no | 1.740 24.567 0.458 23.605 | -0.222 0.582 0.007 -3.014 | 0.001 0.000
fAnuncios_si | -0.263 3.719 0.458 -23.605 | 0.034 0.088 0.007 3.014 | 0.000 0.000
fINEM_no | 1.059 18.414 0.407 22.234 | 0.345 2.846 0.043 7.250 | 0.359 3.290
fINEM_si | -0.384 6.681 0.407 -22.234 | -0.125 1.032 0.043 -7.250 | -0.130 1.194
fETTs_no | 0.565 11.421 0.441 23.148 | 0.105 0.579 0.015 4.324 | 0.226 2.853
fETTs_si | -0.780 15.779 0.441 -23.148 | -0.146 0.800 0.015 -4.324 | -0.313 3.942
fContactos_no | 0.653 10.695 0.292 18.832 | -0.208 1.582 0.030 -6.008 | -0.455 8.073
fContactos_si | -0.446 7.308 0.292 -18.832 | 0.142 1.081 0.030 6.008 | 0.311 5.516
fOposic_no | -0.062 0.143 0.006 -2.679 | 0.654 23.243 0.658 28.293 | 0.053 0.165
fOposic_si | 0.095 0.221 0.006 2.679 | -1.007 35.811 0.658 -28.293 | -0.082 0.255
fAutonomo_no | 0.037 0.079 0.017 4.532 | -0.018 0.027 0.004 -2.195 | -0.223 4.422
fAutonomo_si | -0.454 0.964 0.017 -4.532 | 0.220 0.329 0.004 2.195 | 2.730 54.068
fOtra_no | -0.005 0.001 0.000 -0.421 | -0.266 5.285 0.357 -20.827 | 0.183 2.679
fOtra_si | 0.027 0.008 0.000 0.421 | 1.343 26.714 0.357 20.827 | -0.924 13.543
cos2 v.test
fAnuncios_no 0.000 0.014 |
fAnuncios_si 0.000 -0.014 |
fINEM_no 0.047 7.538 |
fINEM_si 0.047 -7.538 |
fETTs_no 0.071 9.280 |
fETTs_si 0.071 -9.280 | Puntuacions o coordenades en cada
fContactos_no 0.142 -13.123 |
fContactos_si 0.142 13.123 | dimensió.
fOposic_no
fOposic_si
0.004 2.307 |
0.004 -2.307 |
Ens permet saber, per exemple, si cada
fAutonomo_no 0.610 -27.227 | categoria es relaciona de forma positiva o
fAutonomo_si 0.610 27.227 |
fOtra_no 0.169 14.339 | negativa amb la dimensió.
fOtra_si 0.169 -14.339 |
0 TEMA 2. ACP

Categories
Dim.1 ctr cos2 v.test Dim.2 ctr cos2 v.test Dim.3 ctr
fAnuncios_no | 1.740 24.567 0.458 23.605 | -0.222 0.582 0.007 -3.014 | 0.001 0.000
fAnuncios_si | -0.263 3.719 0.458 -23.605 | 0.034 0.088 0.007 3.014 | 0.000 0.000
fINEM_no | 1.059 18.414 0.407 22.234 | 0.345 2.846 0.043 7.250 | 0.359 3.290
fINEM_si | -0.384 6.681 0.407 -22.234 | -0.125 1.032 0.043 -7.250 | -0.130 1.194
fETTs_no | 0.565 11.421 0.441 23.148 | 0.105 0.579 0.015 4.324 | 0.226 2.853
fETTs_si | -0.780 15.779 0.441 -23.148 | -0.146 0.800 0.015 -4.324 | -0.313 3.942
fContactos_no | 0.653 10.695 0.292 18.832 | -0.208 1.582 0.030 -6.008 | -0.455 8.073
fContactos_si | -0.446 7.308 0.292 -18.832 | 0.142 1.081 0.030 6.008 | 0.311 5.516
fOposic_no | -0.062 0.143 0.006 -2.679 | 0.654 23.243 0.658 28.293 | 0.053 0.165
fOposic_si | 0.095 0.221 0.006 2.679 | -1.007 35.811 0.658 -28.293 | -0.082 0.255
fAutonomo_no | 0.037 0.079 0.017 4.532 | -0.018 0.027 0.004 -2.195 | -0.223 4.422
fAutonomo_si | -0.454 0.964 0.017 -4.532 | 0.220 0.329 0.004 2.195 | 2.730 54.068
fOtra_no | -0.005 0.001 0.000 -0.421 | -0.266 5.285 0.357 -20.827 | 0.183 2.679
fOtra_si | 0.027 0.008 0.000 0.421 | 1.343 26.714 0.357 20.827 | -0.924 13.543
cos2 v.test
fAnuncios_no 0.000 0.014 |
fAnuncios_si 0.000 -0.014 |
fINEM_no 0.047 7.538 |
fINEM_si 0.047 -7.538 |
fETTs_no 0.071 9.280 |
fETTs_si 0.071 -9.280 |
fContactos_no 0.142 -13.123 | ctr recull les contribucions de les
fContactos_si 0.142 13.123 |
fOposic_no 0.004 2.307 | categories a una dimensió, és a dir, el
fOposic_si
fAutonomo_no
0.004 -2.307 |
0.610 -27.227 |
percentatge d'inèrcia de la dimensió
fAutonomo_si 0.610 27.227 | explicat per cada categoria (contribució
fOtra_no 0.169 14.339 |
fOtra_si 0.169 -14.339 absoluta). La suma d'aquesta columna és
100.
1 TEMA 2. ACP

Categories
Dim.1 ctr cos2 v.test Dim.2 ctr cos2 v.test Dim.3 ctr
fAnuncios_no | 1.740 24.567 0.458 23.605 | -0.222 0.582 0.007 -3.014 | 0.001 0.000
fAnuncios_si | -0.263 3.719 0.458 -23.605 | 0.034 0.088 0.007 3.014 | 0.000 0.000
fINEM_no | 1.059 18.414 0.407 22.234 | 0.345 2.846 0.043 7.250 | 0.359 3.290
fINEM_si | -0.384 6.681 0.407 -22.234 | -0.125 1.032 0.043 -7.250 | -0.130 1.194
fETTs_no | 0.565 11.421 0.441 23.148 | 0.105 0.579 0.015 4.324 | 0.226 2.853
fETTs_si | -0.780 15.779 0.441 -23.148 | -0.146 0.800 0.015 -4.324 | -0.313 3.942
fContactos_no | 0.653 10.695 0.292 18.832 | -0.208 1.582 0.030 -6.008 | -0.455 8.073
fContactos_si | -0.446 7.308 0.292 -18.832 | 0.142 1.081 0.030 6.008 | 0.311 5.516
fOposic_no | -0.062 0.143 0.006 -2.679 | 0.654 23.243 0.658 28.293 | 0.053 0.165
fOposic_si | 0.095 0.221 0.006 2.679 | -1.007 35.811 0.658 -28.293 | -0.082 0.255
fAutonomo_no | 0.037 0.079 0.017 4.532 | -0.018 0.027 0.004 -2.195 | -0.223 4.422
fAutonomo_si | -0.454 0.964 0.017 -4.532 | 0.220 0.329 0.004 2.195 | 2.730 54.068
fOtra_no | -0.005 0.001 0.000 -0.421 | -0.266 5.285 0.357 -20.827 | 0.183 2.679
fOtra_si | 0.027 0.008 0.000 0.421 | 1.343 26.714 0.357 20.827 | -0.924 13.543
cos2 v.test
fAnuncios_no 0.000 0.014 |
fAnuncios_si 0.000 -0.014 |
fINEM_no 0.047 7.538 |
fINEM_si 0.047 -7.538 |
fETTs_no 0.071 9.280 |
fETTs_si 0.071 -9.280 |
fContactos_no 0.142 -13.123 |
fContactos_si 0.142 13.123 |
fOposic_no 0.004 2.307 | 98,6%
fOposic_si 0.004 -2.307 |
58,5%
fAutonomo_no
fAutonomo_si
0.610 -27.227 |
0.610 27.227 |
91,1%
fOtra_no 0.169 14.339 |
fOtra_si 0.169 -14.339 |
2 TEMA 2. ACP

Categories
Dim.1 ctr cos2 v.test Dim.2 ctr cos2 v.test Dim.3 ctr
fAnuncios_no | 1.740 24.567 0.458 23.605 | -0.222 0.582 0.007 -3.014 | 0.001 0.000
fAnuncios_si | -0.263 3.719 0.458 -23.605 | 0.034 0.088 0.007 3.014 | 0.000 0.000
fINEM_no | 1.059 18.414 0.407 22.234 | 0.345 2.846 0.043 7.250 | 0.359 3.290
fINEM_si | -0.384 6.681 0.407 -22.234 | -0.125 1.032 0.043 -7.250 | -0.130 1.194
fETTs_no | 0.565 11.421 0.441 23.148 | 0.105 0.579 0.015 4.324 | 0.226 2.853
fETTs_si | -0.780 15.779 0.441 -23.148 | -0.146 0.800 0.015 -4.324 | -0.313 3.942
fContactos_no | 0.653 10.695 0.292 18.832 | -0.208 1.582 0.030 -6.008 | -0.455 8.073
fContactos_si | -0.446 7.308 0.292 -18.832 | 0.142 1.081 0.030 6.008 | 0.311 5.516
fOposic_no | -0.062 0.143 0.006 -2.679 | 0.654 23.243 0.658 28.293 | 0.053 0.165
fOposic_si | 0.095 0.221 0.006 2.679 | -1.007 35.811 0.658 -28.293 | -0.082 0.255
fAutonomo_no | 0.037 0.079 0.017 4.532 | -0.018 0.027 0.004 -2.195 | -0.223 4.422
fAutonomo_si | -0.454 0.964 0.017 -4.532 | 0.220 0.329 0.004 2.195 | 2.730 54.068
fOtra_no | -0.005 0.001 0.000 -0.421 | -0.266 5.285 0.357 -20.827 | 0.183 2.679
fOtra_si | 0.027 0.008 0.000 0.421 | 1.343 26.714 0.357 20.827 | -0.924 13.543
cos2 v.test
fAnuncios_no 0.000 0.014 |
fAnuncios_si 0.000 -0.014 |
fINEM_no 0.047 7.538 |
fINEM_si 0.047 -7.538 |
fETTs_no 0.071 9.280 |
fETTs_si 0.071 -9.280 |
fContactos_no 0.142 -13.123 |
fContactos_si 0.142 13.123 |
fOposic_no 0.004 2.307 |
fOposic_si 0.004 -2.307 |
fAutonomo_no 0.610 -27.227 |
fAutonomo_si 0.610 27.227 |
fOtra_no 0.169 14.339 |
fOtra_si 0.169 -14.339 |
3 TEMA 2. ACP

Categories
Dim.1 ctr cos2 v.test Dim.2 ctr cos2 v.test Dim.3 ctr
fAnuncios_no | 1.740 24.567 0.458 23.605 | -0.222 0.582 0.007 -3.014 | 0.001 0.000
fAnuncios_si | -0.263 3.719 0.458 -23.605 | 0.034 0.088 0.007 3.014 | 0.000 0.000
fINEM_no | 1.059 18.414 0.407 22.234 | 0.345 2.846 0.043 7.250 | 0.359 3.290
fINEM_si | -0.384 6.681 0.407 -22.234 | -0.125 1.032 0.043 -7.250 | -0.130 1.194
fETTs_no | 0.565 11.421 0.441 23.148 | 0.105 0.579 0.015 4.324 | 0.226 2.853
fETTs_si | -0.780 15.779 0.441 -23.148 | -0.146 0.800 0.015 -4.324 | -0.313 3.942
fContactos_no | 0.653 10.695 0.292 18.832 | -0.208 1.582 0.030 -6.008 | -0.455 8.073
fContactos_si | -0.446 7.308 0.292 -18.832 | 0.142 1.081 0.030 6.008 | 0.311 5.516
fOposic_no | -0.062 0.143 0.006 -2.679 | 0.654 23.243 0.658 28.293 | 0.053 0.165
fOposic_si | 0.095 0.221 0.006 2.679 | -1.007 35.811 0.658 -28.293 | -0.082 0.255
fAutonomo_no | 0.037 0.079 0.017 4.532 | -0.018 0.027 0.004 -2.195 | -0.223 4.422
fAutonomo_si | -0.454 0.964 0.017 -4.532 | 0.220 0.329 0.004 2.195 | 2.730 54.068
fOtra_no | -0.005 0.001 0.000 -0.421 | -0.266 5.285 0.357 -20.827 | 0.183 2.679
fOtra_si | 0.027 0.008 0.000 0.421 | 1.343 26.714 0.357 20.827 | -0.924 13.543
cos2 v.test
fAnuncios_no 0.000 0.014 |
fAnuncios_si 0.000 -0.014 |
fINEM_no 0.047 7.538 |
fINEM_si 0.047 -7.538 |
fETTs_no 0.071 9.280 | cos2 és la contribució de la dimensió a les
fETTs_si
fContactos_no
0.071 -9.280 |
0.142 -13.123 |
categories i mostra la proporció d'inèrcia
fContactos_si 0.142 13.123 | d'una categoria explicada per una dimensió
fOposic_no 0.004 2.307 |
fOposic_si 0.004 -2.307 | (contribució relativa). Per tant, és una
fAutonomo_no
fAutonomo_si
0.610 -27.227 |
0.610 27.227 |
mesura sobre la representació de la
fOtra_no 0.169 14.339 | categoria per cada dimensió.
fOtra_si 0.169 -14.339 |
4 TEMA 2. ACP

Categories
Dim.1 ctr cos2 v.test Dim.2 ctr cos2 v.test Dim.3 ctr
fAnuncios_no | 1.740 24.567 0.458 23.605 | -0.222 0.582 0.007 -3.014 | 0.001 0.000
fAnuncios_si | -0.263 3.719 0.458 -23.605 | 0.034 0.088 0.007 3.014 | 0.000 0.000
fINEM_no | 1.059 18.414 0.407 22.234 | 0.345 2.846 0.043 7.250 | 0.359 3.290
fINEM_si | -0.384 6.681 0.407 -22.234 | -0.125 1.032 0.043 -7.250 | -0.130 1.194
fETTs_no | 0.565 11.421 0.441 23.148 | 0.105 0.579 0.015 4.324 | 0.226 2.853
fETTs_si | -0.780 15.779 0.441 -23.148 | -0.146 0.800 0.015 -4.324 | -0.313 3.942
fContactos_no | 0.653 10.695 0.292 18.832 | -0.208 1.582 0.030 -6.008 | -0.455 8.073
fContactos_si | -0.446 7.308 0.292 -18.832 | 0.142 1.081 0.030 6.008 | 0.311 5.516
fOposic_no | -0.062 0.143 0.006 -2.679 | 0.654 23.243 0.658 28.293 | 0.053 0.165
fOposic_si | 0.095 0.221 0.006 2.679 | -1.007 35.811 0.658 -28.293 | -0.082 0.255
fAutonomo_no | 0.037 0.079 0.017 4.532 | -0.018 0.027 0.004 -2.195 | -0.223 4.422
fAutonomo_si | -0.454 0.964 0.017 -4.532 | 0.220 0.329 0.004 2.195 | 2.730 54.068
fOtra_no | -0.005 0.001 0.000 -0.421 | -0.266 5.285 0.357 -20.827 | 0.183 2.679
fOtra_si | 0.027 0.008 0.000 0.421 | 1.343 26.714 0.357 20.827 | -0.924 13.543
cos2 v.test
fAnuncios_no 0.000 0.014 |
fAnuncios_si 0.000 -0.014 |
fINEM_no 0.047 7.538 |
fINEM_si 0.047 -7.538 |
fETTs_no 0.071 9.280 |
fETTs_si 0.071 -9.280 |
fContactos_no 0.142 -13.123 |
fContactos_si 0.142 13.123 |
fOposic_no 0.004 2.307 |
fOposic_si 0.004 -2.307 |
fAutonomo_no 0.610 -27.227 |
fAutonomo_si 0.610 27.227 |
fOtra_no 0.169 14.339 |
fOtra_si 0.169 -14.339 |
6 TEMA 2. ACP
Categorical variables (eta2)
Dim.1 Dim.2 Dim.3
fAnuncios | 0.458 0.007 0.000 |
fINEM | 0.407 0.043 0.047 |
fETTs | 0.441 0.015 0.071 |
fContactos | 0.292 0.030 0.142 |
fOposic | 0.006 0.658 0.004 |
fAutonomo | 0.017 0.004 0.610 |
fOtra | 0.000 0.357 0.169 |

Finalment apareix una matriu amb els valors de eta2 que mesuren el
grau de relació de cada variable amb cada dimensió.

Així, es pot comprovar que la primera dimensió està molt relacionada


amb diverses formes de cerca de feina: anuncis, INEM, ETT i contactes.
La segona està especialment relacionada amb la preparació d'oposicions
i amb qualsevol altra cerca diferent a les considerades, i la tercera
dimensió, amb establir-se com autònom.
7 TEMA 2. ACP

Tasca 1:

Base de dades DogBreeds del paquet FactoClass


27 races de gossos i 7 variables sobre diferents característiques:

SIZE: mida- petit (sma), mitjà (med), llarg (lar)


WEIG: pes- lleuger (lig), mig (med), pesat (hea)
SPEE: velocitat- baix (low), mitja (med), alta (hig)
INTE: intel·ligència- baix (low), mitja (med), alta (hig)
AFFE: afectivitat- baix(low), alt (hig)
AGGR: agressivitat- baix(low), alt (hig)
FUNC: funció- companyia(com), caçador(hun), utilitat(uti)

Utilitzarem les variables associades a característiques del gos, per tant, heu
d’eliminar la variable FUNC.

Responeu a les següents preguntes:


8 TEMA 2. ACP

Tasca 1:

1. Quant eixos es generarà l’ACM?


2. Calculeu la inèrcia total
3. Quin nombre de dimensions reteniu i perquè?
4. Analitzeu les coordenades i les contribucions de les diferents
categories en cada una de les dimensions seleccionades.
5. Interpreteu els valors de la eta2 entre variables i dimensions
6. Analitzeu el resultat en dues i/o quatre dimensions
7. Interpreteu el gràfic bivariant de les categories i les races
(Useu la funció fviz_mca_biplot del paquet factoextra)
9 TEMA 2. ACP

Seguim amb l’exemple d’inserció laboral i anem a veure com podem


completar les conclusions vistes amb l’ajuda de diferents gràfics.

1. Gràfic del percentatge d’inèrcia de cada dimensió


```{r}
fviz_screeplot(res.mca,addlabels=TRUE,title="Percentatge de la inèrcia total
en cada dimensió", ylim=c(0,25))
```
0 TEMA 2. ACP
2. Gràfics per les contribucions de les categories cada
dimensió
A continuació representem tres gràfics amb les contribucions de les categories a
cada una de les tres dimensions seleccionades.
En els gràfics apareix una línia discontínua que es correspon al valor que tindria
la contribució de qualsevol categoria si la inèrcia de la dimensió estigués
uniformement repartida entre elles. En el nostre cas, aquesta contribució seria
100%/14= 7.14%.

Per interpretar una dimensió, pot ser un bon criteri considerar aquelles
categories que tinguin una contribució superior a aquesta quantitat.

```{r}
fviz_contrib(res.mca,choice = "var", axes = 1,fill = "blue",title="Contribució
de les categories a la dimensió 1")

fviz_contrib(res.mca,choice = "var", axes = 2,fill =


"green",title="Contribució de les categories a la dimensió 2")

fviz_contrib(res.mca,choice = "var", axes = 3,fill =


"orange",title="Contribució de les categories a la dimensió 3")
```
1 TEMA 2. ACP
2 TEMA 2. ACP
3. Gràfics bidimensionals per les categories
El gràfic de les categories projectades sobre l'espai bidimensional corresponent a les
dimensions 1 i 2 és un dels gràfics que s'obté per defecte amb la funció MCA i es
construeix a partir de les puntuacions o coordenades de cada categoria en aquestes
dimensions. Aquest gràfic també es pot obtenir com:

```{r}
plot(res.mca,axes = c(1,2),choix = "ind",label = "var",invisible =
"ind",cex=0.8,title="Núvol projectada de les categories")
```

Les categories que més influeixen en


el pla 1-2 són: fAnuncios_no,
fINEM_no, fOtra_si, fOposic_si,
fETT_si, fOposic_no, fETTs_no i
fContactos_no
3 TEMA 2. ACP

```{r}
plot(res.mca,axes = c(1,3),choix = "ind",label = "var",invisible =
"ind",cex=0.8,title="Núvol projectada de les categories")

plot(res.mca,axes = c(2,3),choix = "ind",label = "var",invisible =


"ind",cex=0.8,title="Núvol projectada de les categories")
```
4 TEMA 2. ACP

Una versió millorada d'aquests gràfics es poden obtenir amb el paquet factoextra
on el color de les categories depèn de la contribució a les dues dimensions:
```{r}
fviz_mca_var(res.mca,axes=c(1,2),
choice="var.cat",repel=T,gradient.cols=c("white","orange","blue","black"),co
l.var="contrib",title="Núvol projectat de les categories segons la seva
contribució en el pla 1-2")
```
5 TEMA 2. ACP

Si ens centrem en la dimensió 1, s'observa que el costat dret s'associa a no usar les
formes de cerca de feina relacionades amb aquesta dimensió i el costat esquerra
amb el seu ús. Per tant, com més a la dreta es situï la projecció d'un individu en
aquest eix, menys utilitza aquestes cerques i conforme ens movem cap a
l'esquerre, augmenta el seu ús.

En el cas de la dimensió 2, tenim fOtra_no i fOposic_si en la banda negativa.


Com que la segona està més allunyada de l'origen que la primera, indica que qui
prepara oposicions tendirà a no utilitzar cap altra forma de cerca de feina.
Anàlogament, a la banda positiva tenim fOtra_si i fOposic_no que mostren que
les que trien altres formes de cerca no solen opositar.
6 TEMA 2. ACP
```{r}
fviz_mca_var(res.mca,axes=c(1,3),
choice="var.cat",repel=T,gradient.cols=c("white","orange","blue","black"),col.va
r="contrib",title="Núvol projectat de les categories segons la seva contribució
en el pla 1-3")

fviz_mca_var(res.mca,axes=c(2,3),
choice="var.cat",repel=T,gradient.cols=c("white","orange","blue","black"),col.va
r="contrib",title="Núvol projectat de les categories segons la seva contribució
en el pla 2-3")
```
8 TEMA 2. ACP
4. Gràfics pel coeficient eta2

Els gràfics dels coeficients eta2 de les variables amb diferents dimensions serien:

```{r}
plot(res.mca,axes = c(1,2),choix = "var",cex=0.8, title =
"Coeficient eta2 de cada variable amb les dimensions 1 i 2")

plot(res.mca,axes = c(1,3),choix = "var",cex=0.8, title =


"Coeficient eta2 de cada variable amb les dimensions 1 i 3")

plot(res.mca,axes = c(2,3),choix = "var",cex=0.8, title =


"Coeficient eta2 de cada variable amb les dimensions 2 i 3")
```
9 TEMA 2. ACP

En aquests gràfics es mostren les relacions de


les variables amb les dimensions.

Així, es pot observar que la primera dimensió


està molt relacionada amb diverses formes de
buscar feina: anuncis, INEM, ETT i contactes.
La segona dimensió està relacionada amb les
oposicions i amb altres formes de cerca, i la
tercera amb establir-se com autònom.
0 TEMA 2. ACP
5. Gràfics simultanis
En aquests gràfics representarem de forma simultània els individus i les
categories sobre els diferents plans.

```{r}
fviz_mca_biplot(res.mca, repel=TRUE, axes = c(1,2),title = "Representació
simultània individus i categories")
```
1 TEMA 2. ACP
5. Gràfics amb el·lipses
```{r}
fviz_ellipses(res.mca,ellipse.type = "t",axes =
c(1,2),c("fINEM","fETTs","fAnuncios","fContactos"), geom = "point")
```

S’observa com les el·lipses


corresponents a les
categories de qualsevol de
les variables escollides
estan diferenciades entre
sí horitzontalment,
indicant que la dimensió 1
discrimina entre aquestes
categories de la variables.
Això no passa per la
dimensió 2.
2 TEMA 2. ACP

```{r}
fviz_ellipses(res.mca,ellipse.type = "t",axes =
c(1,2),c("fOposic","fOtra","fAutonomo"), geom = "point")
````

S’observa com les


variables restants
no presenten
diferenciació per la
dimensió 1.
En canvi, fOposic i
fOtra si que es
diferencien
respecte la
dimensió 2
3 TEMA 2. ACP
```{r}
fviz_ellipses(res.mca,ellipse.type = "t",axes =
c(2,3),c("fINEM","fETTs","fAnuncios","fContactos"), geom = "point")
```
4 TEMA 2. ACP
```{r}
fviz_ellipses(res.mca,ellipse.type = "t",axes =
c(2,3),c("fOposic","fOtra","fAutonomo"), geom = "point")
```
5 TEMA 2. ACP

Conclusions:
ü La dimensió 1 (23.14% de la inèrcia total) està relacionada sobretot amb la
cerca de feina mitjançant anuncis, empreses de treball temporal, serveis
públics (INEM) i, una mica menys, mitjançant contactes. Assigna, en general,
puntuacions positives al fet de no utilitzar aquests mitjans i negativa en cas
contrari.

ü La dimensió 2 (15.93% de la inèrcia total) està relacionada principalment amb


la cerca d’informació mitjançant oposicions i, en menor mesura amb altres
formes de cerca no contemplades. En conseqüència, quan s’oposita es tendeix a
no utilitzar aquestes altres formes i qui les usa no sol preparar oposicions

ü La dimensió 3 (14.89% de la inèrcia total) està relacionada amb la intenció o no


d’establir-se com autònom, amb puntuacions en general, positives per els que
si i negatives per els que no
6 TEMA 2. ACP

Tasca 2:

Seguim amb la tasca 1 treballant amb 4 dimensions i anem a realitzar i


interpretar alguns gràfics:

1. Realitzeu el gràfic screeplot sobre el percentatge d’inèrcia recollit en cada


dimensió.
2. Realitzeu els gràfics de les contribucions sobre cada dimensió. És coherent
amb les conclusions que havíeu extret en la tasca 1?
3. Realitzeu el gràfic biplot de les coordenades i contribucions en el pla
factorial 1-2. Quines categories contribueixen més en cada un dels plans?
Quines categories estan més relacionades entre elles?
4. Realitzeu i interpreteu els gràfics per la eta2 i les variables en els plans
factorial 1-2 i 3-4.
5. Realitzeu el gràfic simultàni entre raça i categories en el pla 1-2 i
interpreteu
7 TEMA 2. ACP

7. Interpretació de les dimensions sobre


variables il·lustratives
El caràcter quantitatiu dels eixos facilita enormement relacionar-
los amb altres variables il·lustratives. Això és enormement útil per
establir de forma sintètica relacions entre les variables que sí que
han participat en l'anàlisi (variables actives) amb variables
referides a altres aspectes. També serà útil com ajuda a la
interpretació de les mateixes dimensions.

El tractament de les variables il·lustratives és idèntic al de l’ACP.


Igual que en l’ACP, les relacions no significatives acostumen a no
interpretar-se, encara que podria fer-se sense pretendre
extrapolar la relació a tota la població.
• Una variable il·lustrativa qualitativa pot relacionar-se amb els
eixos simplement calculant les mitjanes de les coordenades dels
individus pertanyents a cada categoria. Una anàlisi de la
variància de cada un dels eixos sobre cadascuna de les variables
il·lustratives permetrà contrastar la significació de la relació entre
l'eix i la variable il·lustrativa per mitjà de la prova F i quantificar
la intensitat de la relació per mitjà de l'estadísticη2=eta2 que
correspon al percentatge de la variància de l'eix explicada per la
variable il·lustrativa.

• Una variable il·lustrativa quantitativa pot relacionar-se amb els


eixos simplement calculant el seu coeficient de correlació de
Pearson amb cada un d'ells; la interpretació i el contrast de
significació es poden fer també de la manera habitual.
9 TEMA 2. ACP

Seguim amb l’exemple d’inserció laboral i anem a relacionar les tres


dimensions analitzades amb la variable branca de coneixement dels
estudis cursats.

Comencem creant una base de dades amb les tres dimensions i la


variable il·lustrativa

```{r}
ilus<-
data.frame(dim1=res.mca$ind$coord[,1],dim2=res.mca$ind$coord[,2],
dim3=res.mca$ind$coord[,3],branca=insercion$rama)

```
0 TEMA 2. ACP
```{r}
boxplot(ilus$dim1~ilus$branca,main="branca coneixement")
boxplot(ilus$dim2~ilus$branca,main="branca coneixement")
boxplot(ilus$dim3~ilus$branca,main="branca coneixement")
```
1 TEMA 2. ACP
```{r}
summary(aov(ilus$dim1~ilus$branca))
sqrt((4.22/(4.22+277.44)))
tapply(ilus$dim1,ilus$branca, summary)
```

Df Sum Sq Mean Sq F value Pr(>F) Relació significativa entre la primera


ilus$branca 4 4.22 1.0549 4.608 0.00107 **
Residuals 1212 277.44 0.2289
dimensió amb una eta de 0.122.
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

[1] 0.1224034

$`Artes-Humanid.`
Min. 1st Qu. Median Mean 3rd Qu. Max.
La branca amb una puntuació
-0.7115 -0.1922 -0.1194 0.0356 0.2623 1.2305 mitjana més alta en la primera
$Ciencias dimensió és salut seguida d'art-
Min. 1st Qu. Median Mean
-0.71146 -0.51876 -0.19219 -0.09739
3rd Qu.
0.16052
Max.
1.23049
humanitats, per tant, segons el
que s'ha dit, s'associen al no ús
$`Ingen.-Arq.`
Min. 1st Qu. Median Mean 3rd Qu. Max. d'anuncis, INEM, ETTs i
-0.71146 -0.51876 -0.16605 -0.07344 0.20722 1.19344
contactes per buscar feina.
$Salud Per la banda negativa, tenim la
Min. 1st Qu. Median Mean 3rd Qu. Max.
-0.56546 -0.19219 0.06122 0.09575 0.30904 1.19344 branca de ciències seguida
d'enginyeria, que estan associades
$`Social-Jurid.`
Min. 1st Qu. Median Mean 3rd Qu. Max. a l'ús d'aquests tipus de cerca de
-0.71146 -0.32512 -0.11935 0.03743 0.26234 1.24014
feina
2 TEMA 2. ACP
```{r}
summary(aov(ilus$dim2~ilus$branca))
sqrt((8.97/(8.97+184.83)))
tapply(ilus$dim2,ilus$branca, summary)
```
Df Sum Sq Mean Sq F value Pr(>F)
ilus$branca 4 8.97 2.2435 14.71 9.67e-12 ***
Residuals 1212 184.83 0.1525
---
Relació significativa amb una eta de 0.215.
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
[1] 0.2151391
$`Artes-Humanid.`
Min. 1st Qu. Median Mean 3rd Qu. Max.
-0.71324 -0.40611 0.06281 -0.05296 0.18841 0.93261
En aquesta dimensió
$Ciencias destaquen per la banda
Min. 1st Qu. Median Mean 3rd Qu. Max.
-0.713239 -0.448576 0.094489 0.007715 0.188414 0.807005 positiva les branques
d’enginyeria i salut, per tant,
$`Ingen.-Arq.`
Min. 1st Qu. Median Mean 3rd Qu. Max.
associades a no opositar i
-0.62330 0.06281 0.18841 0.15407 0.23121 0.93261 usar altres mètodes de cerca;
$Salud
i per la banda negativa la
Min. 1st Qu. Median Mean 3rd Qu. Max. branca social/jurídica i la
-0.62166 -0.02713 0.18841 0.15425 0.35682 0.93261
branca d'art/humanitats més
$`Social-Jurid.` relacionades a opositar.
Min. 1st Qu. Median Mean 3rd Qu. Max.
-0.71324 -0.45490 -0.02713 -0.05697 0.18841 1.01786
3 TEMA 2. ACP
```{r}
prova<-subset(ilus,dim3<0.6)
boxplot(prova$dim3~prova$branca)
summary(aov(prova$dim2~prova$branca))
sqrt((9.4/(9.4+171.8)))
tapply(prova$dim3,prova$branca, summary)
```
4 TEMA 2. ACP
Df Sum Sq Mean Sq F value Pr(>F)
prova$branca 4 9.4 2.3502 15.4 2.85e-12 ***
Residuals 1126 171.8 0.1526
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘
Relació significativa
’ 1 amb una eta de
[1] 0.2277639 0.228.
En aquesta
$`Artes-Humanid.`
Min. 1st Qu. Median Mean 3rd Qu. Max. dimensió, prenen
-0.78796 -0.17835 -0.07339 -0.05612 0.10538 0.58925 valors mitjans més
alts les branques
$Ciencias
Min. 1st Qu. Median Mean 3rd Qu. Max. d’enginyeria i
-0.737823 -0.327852 -0.094261 -0.123586 0.003155 0.337022 d'arts/humanitats,
per tant, estaran
$`Ingen.-Arq.`
més associades a
Min. 1st Qu. Median Mean 3rd Qu. Max.
-0.73782 -0.17835 -0.04412 -0.05277 0.15551 0.58925 fer-se autònom.

$Salud
Min. 1st Qu. Median Mean 3rd Qu. Max.
-0.73782 -0.32785 -0.07339 -0.09302 0.10538 0.33702

$`Social-Jurid.`
Min. 1st Qu. Median Mean 3rd Qu. Max.
-0.78796 -0.17835 -0.09426 -0.09446 0.08680 0.58925
TEMA 2. ACP

Tasca 3:

Seguim amb les dades de races de gossos i anem a relacionar les 4 dimensions
analitzades amb variables il·lustratives:

1. Analitzeu la relació entre les quatre dimensions i la variable FUNC de


l’arxiu inicial que té tres categories: companyia, caçador i utilitat.

2. Analitzeu la relació amb la variable edat que prèviament creareu tal com
segueix:

```{r}
DogBreeds$edad<-
as.numeric(c(2,2,2,2,2,4,1,1,1,4,4,2,2,2,2,4,4,5,5,5,5,6,6,7,7,7,5))
```
TEMA 2. ACP

Exemple dades costa brava

Usem les dades d’un estudi de la demanda turística a la Costa Brava


(dades_costa_brava.xlsx).

L’objectiu de l’anàlisi es fer un estudi de les relacions entre les variables que
indiquen el tipus de viatge realitzat.

Les variables actives són:

• transp_agr: transport
• serv_con_agr: serveis d’agència
• grup_viatge: grup de viatge
• diastota_agrupat: durada de l’estada
• alojami_agrup: allotjament

Importeu les dades: Alerta, poseu que detecti els na com "NA" per evitar
problemes posteriors amb la seva identificació.
7 TEMA 2. ACP

Anàlisi exploratòria de les dades

Comencem per analitzar les variables actives per veure si tenim alguna dada
mancant o categories molt petites:

```{r}
freq(dades_costa_brava$transp_agr)
freq(dades_costa_brava$serv_con_agr)
freq(dades_costa_brava$grup_viatge)
freq(dades_costa_brava$diastota_agrupat)
freq(dades_costa_brava$alojami_agr)
```

Què passa amb les dades mancants?? Tenim alguna categoria que tingui
un percentatge important de NA’s??
8 TEMA 2. ACP
Respecte el NA's, només en la variable durada de l'estada, aquests
representen un percentatge una mica elevat, 6.172%. Llavors, només per
aquesta variable els posarem en una categoria altres. Per la resta de
variables s'eliminaran.

```{r}
dades_costa_brava$diastota_agrupat<-
replace(dades_costa_brava$diastota_agrupat,is.na(dades_costa_brava$diastota_
agrupat),"altres")
freq(dades_costa_brava$diastota_agrupat)

dades<-
dades_costa_brava[complete.cases(dades_costa_brava$transp_agr)&complete.case
s(dades_costa_brava$serv_con_agr)&complete.cases(dades_costa_brava$grup_viat
ge)&complete.cases(dades_costa_brava$alojami_agr),]

```

Tenim alguna categoría d’alguna de les variables amb una freqüència petita,
inferior al 5% de les dades?
9 TEMA 2. ACP

Respecte a les categories petites, amb menys del 5% de les dades, només
tenim la categoria altres de la variable transport. Agruparem la categoria
Tren amb Altres

```{r}
dades$transp_agr<-
replace(dades$transp_agr,dades$transp_agr=="Tren","Altres")
freq(dades$transp_agr)
```

A continuació, creeu una base de dades amb les variables actives per a
realitzar l'anàlisi.
0 TEMA 2. ACP

Anàlisi de correspondències múltiple

Anem a realizar l’ACM, carregueu llibreries, i analitzeu el nombre de dimensions


segons la inercia explicada.

```{r}
library(factoextra)
library(FactoMineR)
res.mca<-MCA(dades.sel,graph = FALSE)
res.mca$eig
fviz_screeplot(res.mca,addlabels=TRUE,title="Percentatge de la inèrcia total
en cada dimensió", ylim=c(0,15))
```
1 TEMA 2. ACP
eigenvalue percentage of variance cumulative percentage of variance
dim 1 0.44594807 11.148702 11.14870
dim 2 0.30933888 7.733472 18.88217
dim 3 0.27125083 6.781271 25.66344
dim 4 0.25034302 6.258576 31.92202
dim 5 0.22275527 5.568882 37.49090
dim 6 0.22115709 5.528927 43.01983
dim 7 0.21573935 5.393484 48.41331
dim 8 0.21061606 5.265402 53.67871
dim 9 0.20158220 5.039555 58.71827
dim 10 0.19523523 4.880881 63.59915
dim 11 0.18882266 4.720566 68.31972
dim 12 0.18524598 4.631149 72.95087
dim 13 0.17902056 4.475514 77.42638
dim 14 0.16914157 4.228539 81.65492
dim 15 0.16398952 4.099738 85.75466
dim 16 0.15411295 3.852824 89.60748
dim 17 0.14322151 3.580538 93.18802
dim 18 0.10606675 2.651669 95.83969
dim 19 0.09752544 2.438136 98.27782
dim 20 0.06888706 1.722176 100.00000
2 TEMA 2. ACP

Tots els indicadors ens porten a una solució amb un nombre molt gran de
dimensions, poc eficient. Per seguir amb l’exemple, nosaltres analitzarem la
solució en dos dimensions.

```{r}
summary(res.mca,nbelements = Inf, nbind = 0,ncp=2)
```
3 TEMA 2. ACP

Categories
Dim.1 ctr cos2 v.test Dim.2 ctr cos2 v.test
sense agència | -0.494 7.666 0.569 -27.533 | 0.081 0.294 0.015 4.488 |
totalment organitzat | 1.545 8.025 0.193 16.058 | -0.210 0.214 0.004 -2.182 |
Transport i allojam. | 1.541 13.487 0.344 21.425 | -0.165 0.223 0.004 -2.295 |
un sol producte | 0.351 0.548 0.014 4.250 | -0.199 0.254 0.004 -2.410 |
Altres | -0.143 0.089 0.002 -1.712 | 0.464 1.344 0.023 5.538 |
Autocar | 1.431 14.383 0.380 22.515 | -0.090 0.082 0.002 -1.416 |
Autocaravana | -0.655 1.299 0.031 -6.435 | 2.786 33.854 0.561 27.358 |
Automobil | -0.561 7.198 0.327 -20.890 | -0.339 3.797 0.120 -12.637 |
Avio regular | 0.619 1.762 0.044 7.640 | -0.286 0.541 0.009 -3.527 |
Avio xàrter | 0.846 2.139 0.051 8.254 | -0.245 0.259 0.004 -2.390 |
amics | 0.480 2.656 0.080 10.309 | 0.313 1.632 0.034 6.730 |
familiars | -0.202 1.042 0.054 -8.506 | -0.105 0.404 0.015 -4.414 |
familiars i amics | 0.128 0.041 0.001 1.133 | -0.081 0.023 0.000 -0.713 |
sol | -0.132 0.090 0.002 -1.740 | -0.141 0.148 0.003 -1.859 |
<1 setmana | -0.369 0.619 0.015 -4.526 | -0.278 0.507 0.009 -3.411 |
>1 mes | -0.845 3.122 0.077 -10.140 | -0.697 3.061 0.052 -8.362 |
2 setm mes | -0.603 v
3.820 0.111 -12.180 | -0.160 0.387 0.008 -3.228 |
altres | 0.623 1.032 0.024 5.710 | -0.511 1.000 0.016 -4.682 |
aprox 1 setm. | 0.844 7.118 0.204 16.497 | 0.141 0.287 0.006 2.760 |
aprox. 2 setm. | 0.127 0.207 0.006 2.931 | 0.465 3.978 0.086 10.709 |
Apartaments | -0.130 0.135 0.004 -2.211 | -0.381 1.666 0.031 -6.463 |
Camping | -0.310 0.735 0.020 -5.131 | 1.839 37.215 0.694 30.408 |
familiars/amics | -0.711 2.716 0.069 -9.578 | -0.321 0.802 0.014 -4.333 |
Hotel | 0.826 11.927 0.436 24.104 | -0.215 1.164 0.030 -6.272 |
propiedad | -1.129 8.141 0.212 -16.798 | -0.863 6.864 0.124 -12.846 |
4 TEMA 2. ACP

• Al costat positiu del primer eix hi trobem els viatges totalment


organitzats o amb paquet de transport i allotjament, l’autocar, els
viatges amb amics, les durades d’una setmana i les estades en
hotel.
• Al costat negatiu de la primera dimensió hi trobem viatges
organitzats sense agència, amb automòbil, amb durades de més de
dues setmanes i estades en segones residència o amb familiars o
amics.
• Al costat positiu de la segona dimensió hi tenim viatges amb
autocaravana, allotjament en càmping i estades de dues setmanes.
• Al costat negatiu de la segona dimensió només hi tenim estades en
apartaments i més d’un mes
5 TEMA 2. ACP

Categorical variables (eta2)


Dim.1 Dim.2
serv_con_agr | 0.663 0.015 |
transp_agr | 0.599 0.617 |
grup_viatge | 0.085 0.034 |
diastota_agrupat | 0.355 0.143 |
alojami_agr | 0.527 0.738 |

La primera dimensió està relacionada amb l’agencia, la durada i en menys


mesura amb el grup de viatge; i la segona només està relacionada amb
l’allotjament i el transport.

Anem a interpretar relacions entre les diferents categories segons el biplot


de coordenades
```{r}
fviz_mca_var(res.mca,axes=c(1,2),
choice="var.cat",repel=T,gradient.cols=c("yellow","orange","red","blue","b
lack"),col.var="contrib",title="Núvol projectat de les categories segons
la seva contribució en el pla 1-2")
```
6 TEMA 2. ACP
7 TEMA 2. ACP

Si ens fixem en com queden distribuïdes sobre el gràfic les categories


amb contribucions destacades, trobem tres grups de categories, que
es poden entendre com conjunts de característiques que solen
coincidir en un mateix viatge:

• A la part dreta hi ha un grup format per: viatge totalment


organitzat o amb paquet de transport i allotjament, estada en
hotel, desplaçament amb autocar o avió xàrter i durada d’una
setmana.
• A la part superior un de format per desplaçament amb
autocaravana, estada en càmping i una mica més allunyat la
durada de dues setmanes.
• A la part inferior esquerra un de format per desplaçament amb
automòbil, estada en segona residència o cada de familiars o
amics, de durada entre dues setmanes i més d’un mes i sense
participació de l’agència de viatges.
8 TEMA 2. ACP

Relació amb variables il·lustratives

Comencem relacionant les dues dimensions analitzades amb la variable


numèrica edat.

```{r}
ilus_num<-data.frame(dim1=res.mca$ind$coord[,1],
dim2=res.mca$ind$coord[,2],edat=dades$edad)
```
9 TEMA 2. ACP

No hi ha valors atípics. La
correlació és
estadísticament
significativa amb tots dos
eixos, i negativa.

Per tant, com és edat, més


s'està en el quadrant
> rcorr(as.matrix(ilus_num),type="pearson")
dim1 dim2 edat inferior esquerre del gràfic
dim1 1.00 0.0 -0.14 (estades llargues en segona
dim2 0.00 1.0 -0.20
edat -0.14 -0.2 1.00 residència o amb familiars i
amics, viatge amb
n
dim1 dim2 edat automòbil i organització
dim1 1334 1334 1312 sense agència).
dim2 1334 1334 1312
edat 1312 1312 1312

P
dim1 dim2 edat
dim1 1 0
dim2 1 0
edat 0 0
0 TEMA 2. ACP

Seguim ara analitzant la relació amb la variable localitat

```{r}
ilus_qual<-data.frame(dim1=res.mca$ind$coord[,1],
dim2=res.mca$ind$coord[,2],localitat=dades$localida)
```

```{r}
boxplot(ilus_qual$dim1~ilus_qual$localitat)
boxplot(ilus_qual$dim2~ilus_qual$localitat)
```
1 TEMA 2. ACP
2 TEMA 2. ACP
```{r}
summary(aov(ilus_qual$dim1~ilus_qual$localitat))
sqrt(118.2/(118.2+476.7))
```
Df Sum Sq Mean Sq F value Pr(>F)
ilus_qual$localitat 14 22.4 1.6016 5.413 3.57e-10 ***
Residuals 1319 390.2 0.2959
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

[1] 0.4457453

```{r}
summary(aov(ilus_qual$dim2~ilus_qual$localitat))
sqrt(22.4/(22.4+390.2))
```

Df Sum Sq Mean Sq F value Pr(>F)


ilus_qual$localitat 14 22.4 1.6016 5.413 3.57e-10 ***
Residuals 1319 390.2 0.2959
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

[1] 0.2330019
3 TEMA 2. ACP

La localitat visitada està relacionada de manera important i significativa amb


totes dues dimensions. En haver-hi tants valors, pot ser útil representar les
mitjanes gràficament com coordenades

```{r}
ilus_qual_dims<-
data.frame(localitat.dim1=tapply(ilus_qual$dim1,ilus_qual$localitat,mean),loc
alitat.dim2=tapply(ilus_qual$dim2,ilus_qual$localitat,mean))

ggplot(data=ilus_qual,aes(x=dim1,y=dim2,label=row.names(ilus_qual)))+
geom_hline(yintercept=0,colou="gray70")+ geom_vline(xintercept =
0,colour="gray70")+
geom_text(data=ilus_qual_dims,aes(x=localitat.dim1,y=localitat.dim2,label=row
.names(ilus_qual_dims)),cex=2.5)
```
4 TEMA 2. ACP

Per exemple, Sant Antoni i Blanes estan en la zona del gràfic que s’associa amb
càmpings i autocaravanes; Lloret, en la zona que s’associa amb autocars, estades
d’una setmana en hotels i organitzades per agència; i l’Escala, Begur, Palafrugell,
Empuriabrava i Cadaqués amb viatges llargs amb automòbil, segones residències
o familiars i amics i sense usar agències de viatges
Finalment, també pot ser útil representar a la vegada localitat i categories.

```{r}

names(dades_costa_brava)
dades.sup<-dades_costa_brava[,c(1,93:97)]

acm_localitat<-MCA(dades.sup, quali.sup = 1,ncp=2,graph = FALSE)


fviz_mca_var(acm_localitat,repel = T,axes = c(1,2))
```

You might also like