Professional Documents
Culture Documents
dimensionalitat de la base de
dades respecte les variables:
Anàlisi de Correspondències
múltiples
Gestió i anàlisi de dades en Economia i Empresa
Curs 2021-2022
Facultat de Ciències Econòmiques i Empresarials
Universitat de Girona
2 TEMA 2. ACP
Exemple:
1. Variables i distàncies
• Homogeneïtat:
Exigeix que totes les variables es refereixin a un mateix
aspecte de la realitat. Distàncies construïdes
combinant variables molt dispars (per exemple, algunes
de demogràfiques i algunes d’actitudinals) són difícils
d’interpretar.
• Exhaustivitat
Exigeix que totes les variables relacionades amb l’aspecte
seleccionat (o almenys una mostra representativa d’elles)
siguin incloses en l’anàlisi. Altrament, individus diferents
pel que fa a alguna variable important omesa podrien
aparèixer com idèntics.
1 TEMA 2. ACP
L’ACM considera que una categoria és més rellevant per al càlcul de les
distàncies com més rara és aquesta categoria. S'entén que la presència
d'una categoria poc freqüent destaca i diferencia molt de la resta als
individus que la posseeixen. Per tal que les distàncies reflecteixin
correctament aquesta consideració, es divideix cada columna de la taula
disjuntiva completa per √f.j. Columnes de menor freqüència queden així
dividides per un valor menor, els seus valors queden magnificats i
contribueixen més al càlcul de les distàncies entre individus.
5 TEMA 2. ACP
Per tant,
q-p dimensions
(9-2=7)
q= nº categories Inèrcia total= (q/p)-1
p= nº variables (9/2)-1=3.5
0 TEMA 2. ACP
Categories
Dim.1 ctr cos2 v.test Dim.2 ctr cos2 v.test Dim.3 ctr cos2 v.test
clàssica | -0.495 2.504 0.054 -1.069 | -1.061 13.087 0.250 -2.293 | -0.793 9.933 0.140 -1.712
jazz | 2.183 36.578 0.753 3.976 | 0.626 3.419 0.062 1.141 | -0.159 0.300 0.004 -0.289
pop | -0.231 0.817 0.020 -0.648 | 0.280 1.364 0.029 0.785 | -0.684 11.105 0.176 -1.920
rock | -0.855 9.344 0.215 -2.124 | 1.066 16.491 0.334 2.648 | 0.636 7.994 0.119 1.581
altres | 0.272 0.756 0.016 0.587 | -1.160 15.639 0.299 -2.506 | 1.143 20.668 0.291 2.470
liberal | -0.284 1.855 0.056 -1.082 | -0.991 25.699 0.681 -3.780 | 0.237 1.992 0.039 0.902
esquerra | 1.696 36.808 0.846 4.216 | 0.354 1.817 0.037 0.879 | -0.024 0.011 0.000 -0.059
socialista | -0.832 5.317 0.109 -1.516 | 1.423 17.647 0.320 2.591 | 1.306 20.218 0.269 2.378
nacionalista | -0.686 6.021 0.138 -1.705 | 0.577 4.836 0.098 1.434 | -1.186 27.779 0.413 -2.946
1 TEMA 2. ACP
5. Nombre de dimensions a retenir
Coordenades Contribucions
- Dimensió 2:
Les variables que comencen amb f fan referència a una forma de buscar
feina i estan categoritzades com sí o no, segons s'hagi usat o no. Així,
fAnuncios fa referència a si els enquestats han buscat ofertes de feina en
anuncis en diaris, internet, etc., i té dues categories anomenades
fAnuncios_sí i fAnuncios_no. Aquest esquema es repeteix per la resta de
variables d'aquest tipus.
1 TEMA 2. ACP
```{r}
insercion<-read.csv("~/Documents/CURS 21-22/Gestió i anàlisi de
dades_optativa/3-ACM/Dades/insercion.csv",row.names = 1,sep =
";",stringsAsFactors=TRUE)
dim(insercion)
```
[1] 1217 11
```
Anem a instal·lar els paquets necessaris per realitzar ACM i seleccionem les
variables actives:
```{r}
library(factoextra)
library(FactoMineR)
names(insercion)
dades<-insercion[,5:11]
```
5 TEMA 2. ACP
La funció que usarem per a realitzar l'ACM és la funció MCA i els resultats
s'han de guardar en un objecte, en el nostre cas res.mca
```{r}
res.mca<-MCA(dades)
```
```{r}
summary(res.mca,nbelements=Inf, nbind=0)
```
El número total de dimensions que s'obtenen amb un ACM és igual al número total
de categories (k=14) menys el nombre de variables qualitatives (p=7) considerades
en l'anàlisi; en aquest cas, k-p=14-7=7.
El primer que s’obté és una taula per les inèrcies (valors propis i Eigenvalues en
anglès) de les dimensions ordenades de major a menor.
Call:
MCA(X = dades)
Eigenvalues
Dim.1 Dim.2 Dim.3 Dim.4 Dim.5 Dim.6 Dim.7
Variance 0.231 0.159 0.149 0.140 0.117 0.106 0.097
% of var. 23.143 15.925 14.889 14.017 11.734 10.556 9.736
Cumulative % of var. 23.143 39.068 53.957 67.975 79.709 90.264 100.000
Categories
Dim.1 ctr cos2 v.test Dim.2 ctr cos2 v.test Dim.3 ctr
fAnuncios_no | 1.740 24.567 0.458 23.605 | -0.222 0.582 0.007 -3.014 | 0.001 0.000
fAnuncios_si | -0.263 3.719 0.458 -23.605 | 0.034 0.088 0.007 3.014 | 0.000 0.000
fINEM_no | 1.059 18.414 0.407 22.234 | 0.345 2.846 0.043 7.250 | 0.359 3.290
fINEM_si | -0.384 6.681 0.407 -22.234 | -0.125 1.032 0.043 -7.250 | -0.130 1.194
fETTs_no | 0.565 11.421 0.441 23.148 | 0.105 0.579 0.015 4.324 | 0.226 2.853
fETTs_si | -0.780 15.779 0.441 -23.148 | -0.146 0.800 0.015 -4.324 | -0.313 3.942
fContactos_no | 0.653 10.695 0.292 18.832 | -0.208 1.582 0.030 -6.008 | -0.455 8.073
fContactos_si | -0.446 7.308 0.292 -18.832 | 0.142 1.081 0.030 6.008 | 0.311 5.516
fOposic_no | -0.062 0.143 0.006 -2.679 | 0.654 23.243 0.658 28.293 | 0.053 0.165
fOposic_si | 0.095 0.221 0.006 2.679 | -1.007 35.811 0.658 -28.293 | -0.082 0.255
fAutonomo_no | 0.037 0.079 0.017 4.532 | -0.018 0.027 0.004 -2.195 | -0.223 4.422
fAutonomo_si | -0.454 0.964 0.017 -4.532 | 0.220 0.329 0.004 2.195 | 2.730 54.068
fOtra_no | -0.005 0.001 0.000 -0.421 | -0.266 5.285 0.357 -20.827 | 0.183 2.679
fOtra_si | 0.027 0.008 0.000 0.421 | 1.343 26.714 0.357 20.827 | -0.924 13.543
cos2 v.test
fAnuncios_no 0.000 0.014 |
fAnuncios_si 0.000 -0.014 |
fINEM_no 0.047 7.538 |
fINEM_si 0.047 -7.538 |
fETTs_no 0.071 9.280 |
fETTs_si 0.071 -9.280 |
fContactos_no 0.142 -13.123 | ctr recull les contribucions de les
fContactos_si 0.142 13.123 |
fOposic_no 0.004 2.307 | categories a una dimensió, és a dir, el
fOposic_si
fAutonomo_no
0.004 -2.307 |
0.610 -27.227 |
percentatge d'inèrcia de la dimensió
fAutonomo_si 0.610 27.227 | explicat per cada categoria (contribució
fOtra_no 0.169 14.339 |
fOtra_si 0.169 -14.339 absoluta). La suma d'aquesta columna és
100.
1 TEMA 2. ACP
Categories
Dim.1 ctr cos2 v.test Dim.2 ctr cos2 v.test Dim.3 ctr
fAnuncios_no | 1.740 24.567 0.458 23.605 | -0.222 0.582 0.007 -3.014 | 0.001 0.000
fAnuncios_si | -0.263 3.719 0.458 -23.605 | 0.034 0.088 0.007 3.014 | 0.000 0.000
fINEM_no | 1.059 18.414 0.407 22.234 | 0.345 2.846 0.043 7.250 | 0.359 3.290
fINEM_si | -0.384 6.681 0.407 -22.234 | -0.125 1.032 0.043 -7.250 | -0.130 1.194
fETTs_no | 0.565 11.421 0.441 23.148 | 0.105 0.579 0.015 4.324 | 0.226 2.853
fETTs_si | -0.780 15.779 0.441 -23.148 | -0.146 0.800 0.015 -4.324 | -0.313 3.942
fContactos_no | 0.653 10.695 0.292 18.832 | -0.208 1.582 0.030 -6.008 | -0.455 8.073
fContactos_si | -0.446 7.308 0.292 -18.832 | 0.142 1.081 0.030 6.008 | 0.311 5.516
fOposic_no | -0.062 0.143 0.006 -2.679 | 0.654 23.243 0.658 28.293 | 0.053 0.165
fOposic_si | 0.095 0.221 0.006 2.679 | -1.007 35.811 0.658 -28.293 | -0.082 0.255
fAutonomo_no | 0.037 0.079 0.017 4.532 | -0.018 0.027 0.004 -2.195 | -0.223 4.422
fAutonomo_si | -0.454 0.964 0.017 -4.532 | 0.220 0.329 0.004 2.195 | 2.730 54.068
fOtra_no | -0.005 0.001 0.000 -0.421 | -0.266 5.285 0.357 -20.827 | 0.183 2.679
fOtra_si | 0.027 0.008 0.000 0.421 | 1.343 26.714 0.357 20.827 | -0.924 13.543
cos2 v.test
fAnuncios_no 0.000 0.014 |
fAnuncios_si 0.000 -0.014 |
fINEM_no 0.047 7.538 |
fINEM_si 0.047 -7.538 |
fETTs_no 0.071 9.280 |
fETTs_si 0.071 -9.280 |
fContactos_no 0.142 -13.123 |
fContactos_si 0.142 13.123 |
fOposic_no 0.004 2.307 | 98,6%
fOposic_si 0.004 -2.307 |
58,5%
fAutonomo_no
fAutonomo_si
0.610 -27.227 |
0.610 27.227 |
91,1%
fOtra_no 0.169 14.339 |
fOtra_si 0.169 -14.339 |
2 TEMA 2. ACP
Categories
Dim.1 ctr cos2 v.test Dim.2 ctr cos2 v.test Dim.3 ctr
fAnuncios_no | 1.740 24.567 0.458 23.605 | -0.222 0.582 0.007 -3.014 | 0.001 0.000
fAnuncios_si | -0.263 3.719 0.458 -23.605 | 0.034 0.088 0.007 3.014 | 0.000 0.000
fINEM_no | 1.059 18.414 0.407 22.234 | 0.345 2.846 0.043 7.250 | 0.359 3.290
fINEM_si | -0.384 6.681 0.407 -22.234 | -0.125 1.032 0.043 -7.250 | -0.130 1.194
fETTs_no | 0.565 11.421 0.441 23.148 | 0.105 0.579 0.015 4.324 | 0.226 2.853
fETTs_si | -0.780 15.779 0.441 -23.148 | -0.146 0.800 0.015 -4.324 | -0.313 3.942
fContactos_no | 0.653 10.695 0.292 18.832 | -0.208 1.582 0.030 -6.008 | -0.455 8.073
fContactos_si | -0.446 7.308 0.292 -18.832 | 0.142 1.081 0.030 6.008 | 0.311 5.516
fOposic_no | -0.062 0.143 0.006 -2.679 | 0.654 23.243 0.658 28.293 | 0.053 0.165
fOposic_si | 0.095 0.221 0.006 2.679 | -1.007 35.811 0.658 -28.293 | -0.082 0.255
fAutonomo_no | 0.037 0.079 0.017 4.532 | -0.018 0.027 0.004 -2.195 | -0.223 4.422
fAutonomo_si | -0.454 0.964 0.017 -4.532 | 0.220 0.329 0.004 2.195 | 2.730 54.068
fOtra_no | -0.005 0.001 0.000 -0.421 | -0.266 5.285 0.357 -20.827 | 0.183 2.679
fOtra_si | 0.027 0.008 0.000 0.421 | 1.343 26.714 0.357 20.827 | -0.924 13.543
cos2 v.test
fAnuncios_no 0.000 0.014 |
fAnuncios_si 0.000 -0.014 |
fINEM_no 0.047 7.538 |
fINEM_si 0.047 -7.538 |
fETTs_no 0.071 9.280 |
fETTs_si 0.071 -9.280 |
fContactos_no 0.142 -13.123 |
fContactos_si 0.142 13.123 |
fOposic_no 0.004 2.307 |
fOposic_si 0.004 -2.307 |
fAutonomo_no 0.610 -27.227 |
fAutonomo_si 0.610 27.227 |
fOtra_no 0.169 14.339 |
fOtra_si 0.169 -14.339 |
3 TEMA 2. ACP
Categories
Dim.1 ctr cos2 v.test Dim.2 ctr cos2 v.test Dim.3 ctr
fAnuncios_no | 1.740 24.567 0.458 23.605 | -0.222 0.582 0.007 -3.014 | 0.001 0.000
fAnuncios_si | -0.263 3.719 0.458 -23.605 | 0.034 0.088 0.007 3.014 | 0.000 0.000
fINEM_no | 1.059 18.414 0.407 22.234 | 0.345 2.846 0.043 7.250 | 0.359 3.290
fINEM_si | -0.384 6.681 0.407 -22.234 | -0.125 1.032 0.043 -7.250 | -0.130 1.194
fETTs_no | 0.565 11.421 0.441 23.148 | 0.105 0.579 0.015 4.324 | 0.226 2.853
fETTs_si | -0.780 15.779 0.441 -23.148 | -0.146 0.800 0.015 -4.324 | -0.313 3.942
fContactos_no | 0.653 10.695 0.292 18.832 | -0.208 1.582 0.030 -6.008 | -0.455 8.073
fContactos_si | -0.446 7.308 0.292 -18.832 | 0.142 1.081 0.030 6.008 | 0.311 5.516
fOposic_no | -0.062 0.143 0.006 -2.679 | 0.654 23.243 0.658 28.293 | 0.053 0.165
fOposic_si | 0.095 0.221 0.006 2.679 | -1.007 35.811 0.658 -28.293 | -0.082 0.255
fAutonomo_no | 0.037 0.079 0.017 4.532 | -0.018 0.027 0.004 -2.195 | -0.223 4.422
fAutonomo_si | -0.454 0.964 0.017 -4.532 | 0.220 0.329 0.004 2.195 | 2.730 54.068
fOtra_no | -0.005 0.001 0.000 -0.421 | -0.266 5.285 0.357 -20.827 | 0.183 2.679
fOtra_si | 0.027 0.008 0.000 0.421 | 1.343 26.714 0.357 20.827 | -0.924 13.543
cos2 v.test
fAnuncios_no 0.000 0.014 |
fAnuncios_si 0.000 -0.014 |
fINEM_no 0.047 7.538 |
fINEM_si 0.047 -7.538 |
fETTs_no 0.071 9.280 | cos2 és la contribució de la dimensió a les
fETTs_si
fContactos_no
0.071 -9.280 |
0.142 -13.123 |
categories i mostra la proporció d'inèrcia
fContactos_si 0.142 13.123 | d'una categoria explicada per una dimensió
fOposic_no 0.004 2.307 |
fOposic_si 0.004 -2.307 | (contribució relativa). Per tant, és una
fAutonomo_no
fAutonomo_si
0.610 -27.227 |
0.610 27.227 |
mesura sobre la representació de la
fOtra_no 0.169 14.339 | categoria per cada dimensió.
fOtra_si 0.169 -14.339 |
4 TEMA 2. ACP
Categories
Dim.1 ctr cos2 v.test Dim.2 ctr cos2 v.test Dim.3 ctr
fAnuncios_no | 1.740 24.567 0.458 23.605 | -0.222 0.582 0.007 -3.014 | 0.001 0.000
fAnuncios_si | -0.263 3.719 0.458 -23.605 | 0.034 0.088 0.007 3.014 | 0.000 0.000
fINEM_no | 1.059 18.414 0.407 22.234 | 0.345 2.846 0.043 7.250 | 0.359 3.290
fINEM_si | -0.384 6.681 0.407 -22.234 | -0.125 1.032 0.043 -7.250 | -0.130 1.194
fETTs_no | 0.565 11.421 0.441 23.148 | 0.105 0.579 0.015 4.324 | 0.226 2.853
fETTs_si | -0.780 15.779 0.441 -23.148 | -0.146 0.800 0.015 -4.324 | -0.313 3.942
fContactos_no | 0.653 10.695 0.292 18.832 | -0.208 1.582 0.030 -6.008 | -0.455 8.073
fContactos_si | -0.446 7.308 0.292 -18.832 | 0.142 1.081 0.030 6.008 | 0.311 5.516
fOposic_no | -0.062 0.143 0.006 -2.679 | 0.654 23.243 0.658 28.293 | 0.053 0.165
fOposic_si | 0.095 0.221 0.006 2.679 | -1.007 35.811 0.658 -28.293 | -0.082 0.255
fAutonomo_no | 0.037 0.079 0.017 4.532 | -0.018 0.027 0.004 -2.195 | -0.223 4.422
fAutonomo_si | -0.454 0.964 0.017 -4.532 | 0.220 0.329 0.004 2.195 | 2.730 54.068
fOtra_no | -0.005 0.001 0.000 -0.421 | -0.266 5.285 0.357 -20.827 | 0.183 2.679
fOtra_si | 0.027 0.008 0.000 0.421 | 1.343 26.714 0.357 20.827 | -0.924 13.543
cos2 v.test
fAnuncios_no 0.000 0.014 |
fAnuncios_si 0.000 -0.014 |
fINEM_no 0.047 7.538 |
fINEM_si 0.047 -7.538 |
fETTs_no 0.071 9.280 |
fETTs_si 0.071 -9.280 |
fContactos_no 0.142 -13.123 |
fContactos_si 0.142 13.123 |
fOposic_no 0.004 2.307 |
fOposic_si 0.004 -2.307 |
fAutonomo_no 0.610 -27.227 |
fAutonomo_si 0.610 27.227 |
fOtra_no 0.169 14.339 |
fOtra_si 0.169 -14.339 |
6 TEMA 2. ACP
Categorical variables (eta2)
Dim.1 Dim.2 Dim.3
fAnuncios | 0.458 0.007 0.000 |
fINEM | 0.407 0.043 0.047 |
fETTs | 0.441 0.015 0.071 |
fContactos | 0.292 0.030 0.142 |
fOposic | 0.006 0.658 0.004 |
fAutonomo | 0.017 0.004 0.610 |
fOtra | 0.000 0.357 0.169 |
Finalment apareix una matriu amb els valors de eta2 que mesuren el
grau de relació de cada variable amb cada dimensió.
Tasca 1:
Utilitzarem les variables associades a característiques del gos, per tant, heu
d’eliminar la variable FUNC.
Tasca 1:
Per interpretar una dimensió, pot ser un bon criteri considerar aquelles
categories que tinguin una contribució superior a aquesta quantitat.
```{r}
fviz_contrib(res.mca,choice = "var", axes = 1,fill = "blue",title="Contribució
de les categories a la dimensió 1")
```{r}
plot(res.mca,axes = c(1,2),choix = "ind",label = "var",invisible =
"ind",cex=0.8,title="Núvol projectada de les categories")
```
```{r}
plot(res.mca,axes = c(1,3),choix = "ind",label = "var",invisible =
"ind",cex=0.8,title="Núvol projectada de les categories")
Una versió millorada d'aquests gràfics es poden obtenir amb el paquet factoextra
on el color de les categories depèn de la contribució a les dues dimensions:
```{r}
fviz_mca_var(res.mca,axes=c(1,2),
choice="var.cat",repel=T,gradient.cols=c("white","orange","blue","black"),co
l.var="contrib",title="Núvol projectat de les categories segons la seva
contribució en el pla 1-2")
```
5 TEMA 2. ACP
Si ens centrem en la dimensió 1, s'observa que el costat dret s'associa a no usar les
formes de cerca de feina relacionades amb aquesta dimensió i el costat esquerra
amb el seu ús. Per tant, com més a la dreta es situï la projecció d'un individu en
aquest eix, menys utilitza aquestes cerques i conforme ens movem cap a
l'esquerre, augmenta el seu ús.
fviz_mca_var(res.mca,axes=c(2,3),
choice="var.cat",repel=T,gradient.cols=c("white","orange","blue","black"),col.va
r="contrib",title="Núvol projectat de les categories segons la seva contribució
en el pla 2-3")
```
8 TEMA 2. ACP
4. Gràfics pel coeficient eta2
Els gràfics dels coeficients eta2 de les variables amb diferents dimensions serien:
```{r}
plot(res.mca,axes = c(1,2),choix = "var",cex=0.8, title =
"Coeficient eta2 de cada variable amb les dimensions 1 i 2")
```{r}
fviz_mca_biplot(res.mca, repel=TRUE, axes = c(1,2),title = "Representació
simultània individus i categories")
```
1 TEMA 2. ACP
5. Gràfics amb el·lipses
```{r}
fviz_ellipses(res.mca,ellipse.type = "t",axes =
c(1,2),c("fINEM","fETTs","fAnuncios","fContactos"), geom = "point")
```
```{r}
fviz_ellipses(res.mca,ellipse.type = "t",axes =
c(1,2),c("fOposic","fOtra","fAutonomo"), geom = "point")
````
Conclusions:
ü La dimensió 1 (23.14% de la inèrcia total) està relacionada sobretot amb la
cerca de feina mitjançant anuncis, empreses de treball temporal, serveis
públics (INEM) i, una mica menys, mitjançant contactes. Assigna, en general,
puntuacions positives al fet de no utilitzar aquests mitjans i negativa en cas
contrari.
Tasca 2:
```{r}
ilus<-
data.frame(dim1=res.mca$ind$coord[,1],dim2=res.mca$ind$coord[,2],
dim3=res.mca$ind$coord[,3],branca=insercion$rama)
```
0 TEMA 2. ACP
```{r}
boxplot(ilus$dim1~ilus$branca,main="branca coneixement")
boxplot(ilus$dim2~ilus$branca,main="branca coneixement")
boxplot(ilus$dim3~ilus$branca,main="branca coneixement")
```
1 TEMA 2. ACP
```{r}
summary(aov(ilus$dim1~ilus$branca))
sqrt((4.22/(4.22+277.44)))
tapply(ilus$dim1,ilus$branca, summary)
```
[1] 0.1224034
$`Artes-Humanid.`
Min. 1st Qu. Median Mean 3rd Qu. Max.
La branca amb una puntuació
-0.7115 -0.1922 -0.1194 0.0356 0.2623 1.2305 mitjana més alta en la primera
$Ciencias dimensió és salut seguida d'art-
Min. 1st Qu. Median Mean
-0.71146 -0.51876 -0.19219 -0.09739
3rd Qu.
0.16052
Max.
1.23049
humanitats, per tant, segons el
que s'ha dit, s'associen al no ús
$`Ingen.-Arq.`
Min. 1st Qu. Median Mean 3rd Qu. Max. d'anuncis, INEM, ETTs i
-0.71146 -0.51876 -0.16605 -0.07344 0.20722 1.19344
contactes per buscar feina.
$Salud Per la banda negativa, tenim la
Min. 1st Qu. Median Mean 3rd Qu. Max.
-0.56546 -0.19219 0.06122 0.09575 0.30904 1.19344 branca de ciències seguida
d'enginyeria, que estan associades
$`Social-Jurid.`
Min. 1st Qu. Median Mean 3rd Qu. Max. a l'ús d'aquests tipus de cerca de
-0.71146 -0.32512 -0.11935 0.03743 0.26234 1.24014
feina
2 TEMA 2. ACP
```{r}
summary(aov(ilus$dim2~ilus$branca))
sqrt((8.97/(8.97+184.83)))
tapply(ilus$dim2,ilus$branca, summary)
```
Df Sum Sq Mean Sq F value Pr(>F)
ilus$branca 4 8.97 2.2435 14.71 9.67e-12 ***
Residuals 1212 184.83 0.1525
---
Relació significativa amb una eta de 0.215.
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
[1] 0.2151391
$`Artes-Humanid.`
Min. 1st Qu. Median Mean 3rd Qu. Max.
-0.71324 -0.40611 0.06281 -0.05296 0.18841 0.93261
En aquesta dimensió
$Ciencias destaquen per la banda
Min. 1st Qu. Median Mean 3rd Qu. Max.
-0.713239 -0.448576 0.094489 0.007715 0.188414 0.807005 positiva les branques
d’enginyeria i salut, per tant,
$`Ingen.-Arq.`
Min. 1st Qu. Median Mean 3rd Qu. Max.
associades a no opositar i
-0.62330 0.06281 0.18841 0.15407 0.23121 0.93261 usar altres mètodes de cerca;
$Salud
i per la banda negativa la
Min. 1st Qu. Median Mean 3rd Qu. Max. branca social/jurídica i la
-0.62166 -0.02713 0.18841 0.15425 0.35682 0.93261
branca d'art/humanitats més
$`Social-Jurid.` relacionades a opositar.
Min. 1st Qu. Median Mean 3rd Qu. Max.
-0.71324 -0.45490 -0.02713 -0.05697 0.18841 1.01786
3 TEMA 2. ACP
```{r}
prova<-subset(ilus,dim3<0.6)
boxplot(prova$dim3~prova$branca)
summary(aov(prova$dim2~prova$branca))
sqrt((9.4/(9.4+171.8)))
tapply(prova$dim3,prova$branca, summary)
```
4 TEMA 2. ACP
Df Sum Sq Mean Sq F value Pr(>F)
prova$branca 4 9.4 2.3502 15.4 2.85e-12 ***
Residuals 1126 171.8 0.1526
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘
Relació significativa
’ 1 amb una eta de
[1] 0.2277639 0.228.
En aquesta
$`Artes-Humanid.`
Min. 1st Qu. Median Mean 3rd Qu. Max. dimensió, prenen
-0.78796 -0.17835 -0.07339 -0.05612 0.10538 0.58925 valors mitjans més
alts les branques
$Ciencias
Min. 1st Qu. Median Mean 3rd Qu. Max. d’enginyeria i
-0.737823 -0.327852 -0.094261 -0.123586 0.003155 0.337022 d'arts/humanitats,
per tant, estaran
$`Ingen.-Arq.`
més associades a
Min. 1st Qu. Median Mean 3rd Qu. Max.
-0.73782 -0.17835 -0.04412 -0.05277 0.15551 0.58925 fer-se autònom.
$Salud
Min. 1st Qu. Median Mean 3rd Qu. Max.
-0.73782 -0.32785 -0.07339 -0.09302 0.10538 0.33702
$`Social-Jurid.`
Min. 1st Qu. Median Mean 3rd Qu. Max.
-0.78796 -0.17835 -0.09426 -0.09446 0.08680 0.58925
TEMA 2. ACP
Tasca 3:
Seguim amb les dades de races de gossos i anem a relacionar les 4 dimensions
analitzades amb variables il·lustratives:
2. Analitzeu la relació amb la variable edat que prèviament creareu tal com
segueix:
```{r}
DogBreeds$edad<-
as.numeric(c(2,2,2,2,2,4,1,1,1,4,4,2,2,2,2,4,4,5,5,5,5,6,6,7,7,7,5))
```
TEMA 2. ACP
L’objectiu de l’anàlisi es fer un estudi de les relacions entre les variables que
indiquen el tipus de viatge realitzat.
• transp_agr: transport
• serv_con_agr: serveis d’agència
• grup_viatge: grup de viatge
• diastota_agrupat: durada de l’estada
• alojami_agrup: allotjament
Importeu les dades: Alerta, poseu que detecti els na com "NA" per evitar
problemes posteriors amb la seva identificació.
7 TEMA 2. ACP
Comencem per analitzar les variables actives per veure si tenim alguna dada
mancant o categories molt petites:
```{r}
freq(dades_costa_brava$transp_agr)
freq(dades_costa_brava$serv_con_agr)
freq(dades_costa_brava$grup_viatge)
freq(dades_costa_brava$diastota_agrupat)
freq(dades_costa_brava$alojami_agr)
```
Què passa amb les dades mancants?? Tenim alguna categoria que tingui
un percentatge important de NA’s??
8 TEMA 2. ACP
Respecte el NA's, només en la variable durada de l'estada, aquests
representen un percentatge una mica elevat, 6.172%. Llavors, només per
aquesta variable els posarem en una categoria altres. Per la resta de
variables s'eliminaran.
```{r}
dades_costa_brava$diastota_agrupat<-
replace(dades_costa_brava$diastota_agrupat,is.na(dades_costa_brava$diastota_
agrupat),"altres")
freq(dades_costa_brava$diastota_agrupat)
dades<-
dades_costa_brava[complete.cases(dades_costa_brava$transp_agr)&complete.case
s(dades_costa_brava$serv_con_agr)&complete.cases(dades_costa_brava$grup_viat
ge)&complete.cases(dades_costa_brava$alojami_agr),]
```
Tenim alguna categoría d’alguna de les variables amb una freqüència petita,
inferior al 5% de les dades?
9 TEMA 2. ACP
Respecte a les categories petites, amb menys del 5% de les dades, només
tenim la categoria altres de la variable transport. Agruparem la categoria
Tren amb Altres
```{r}
dades$transp_agr<-
replace(dades$transp_agr,dades$transp_agr=="Tren","Altres")
freq(dades$transp_agr)
```
A continuació, creeu una base de dades amb les variables actives per a
realitzar l'anàlisi.
0 TEMA 2. ACP
```{r}
library(factoextra)
library(FactoMineR)
res.mca<-MCA(dades.sel,graph = FALSE)
res.mca$eig
fviz_screeplot(res.mca,addlabels=TRUE,title="Percentatge de la inèrcia total
en cada dimensió", ylim=c(0,15))
```
1 TEMA 2. ACP
eigenvalue percentage of variance cumulative percentage of variance
dim 1 0.44594807 11.148702 11.14870
dim 2 0.30933888 7.733472 18.88217
dim 3 0.27125083 6.781271 25.66344
dim 4 0.25034302 6.258576 31.92202
dim 5 0.22275527 5.568882 37.49090
dim 6 0.22115709 5.528927 43.01983
dim 7 0.21573935 5.393484 48.41331
dim 8 0.21061606 5.265402 53.67871
dim 9 0.20158220 5.039555 58.71827
dim 10 0.19523523 4.880881 63.59915
dim 11 0.18882266 4.720566 68.31972
dim 12 0.18524598 4.631149 72.95087
dim 13 0.17902056 4.475514 77.42638
dim 14 0.16914157 4.228539 81.65492
dim 15 0.16398952 4.099738 85.75466
dim 16 0.15411295 3.852824 89.60748
dim 17 0.14322151 3.580538 93.18802
dim 18 0.10606675 2.651669 95.83969
dim 19 0.09752544 2.438136 98.27782
dim 20 0.06888706 1.722176 100.00000
2 TEMA 2. ACP
Tots els indicadors ens porten a una solució amb un nombre molt gran de
dimensions, poc eficient. Per seguir amb l’exemple, nosaltres analitzarem la
solució en dos dimensions.
```{r}
summary(res.mca,nbelements = Inf, nbind = 0,ncp=2)
```
3 TEMA 2. ACP
Categories
Dim.1 ctr cos2 v.test Dim.2 ctr cos2 v.test
sense agència | -0.494 7.666 0.569 -27.533 | 0.081 0.294 0.015 4.488 |
totalment organitzat | 1.545 8.025 0.193 16.058 | -0.210 0.214 0.004 -2.182 |
Transport i allojam. | 1.541 13.487 0.344 21.425 | -0.165 0.223 0.004 -2.295 |
un sol producte | 0.351 0.548 0.014 4.250 | -0.199 0.254 0.004 -2.410 |
Altres | -0.143 0.089 0.002 -1.712 | 0.464 1.344 0.023 5.538 |
Autocar | 1.431 14.383 0.380 22.515 | -0.090 0.082 0.002 -1.416 |
Autocaravana | -0.655 1.299 0.031 -6.435 | 2.786 33.854 0.561 27.358 |
Automobil | -0.561 7.198 0.327 -20.890 | -0.339 3.797 0.120 -12.637 |
Avio regular | 0.619 1.762 0.044 7.640 | -0.286 0.541 0.009 -3.527 |
Avio xàrter | 0.846 2.139 0.051 8.254 | -0.245 0.259 0.004 -2.390 |
amics | 0.480 2.656 0.080 10.309 | 0.313 1.632 0.034 6.730 |
familiars | -0.202 1.042 0.054 -8.506 | -0.105 0.404 0.015 -4.414 |
familiars i amics | 0.128 0.041 0.001 1.133 | -0.081 0.023 0.000 -0.713 |
sol | -0.132 0.090 0.002 -1.740 | -0.141 0.148 0.003 -1.859 |
<1 setmana | -0.369 0.619 0.015 -4.526 | -0.278 0.507 0.009 -3.411 |
>1 mes | -0.845 3.122 0.077 -10.140 | -0.697 3.061 0.052 -8.362 |
2 setm mes | -0.603 v
3.820 0.111 -12.180 | -0.160 0.387 0.008 -3.228 |
altres | 0.623 1.032 0.024 5.710 | -0.511 1.000 0.016 -4.682 |
aprox 1 setm. | 0.844 7.118 0.204 16.497 | 0.141 0.287 0.006 2.760 |
aprox. 2 setm. | 0.127 0.207 0.006 2.931 | 0.465 3.978 0.086 10.709 |
Apartaments | -0.130 0.135 0.004 -2.211 | -0.381 1.666 0.031 -6.463 |
Camping | -0.310 0.735 0.020 -5.131 | 1.839 37.215 0.694 30.408 |
familiars/amics | -0.711 2.716 0.069 -9.578 | -0.321 0.802 0.014 -4.333 |
Hotel | 0.826 11.927 0.436 24.104 | -0.215 1.164 0.030 -6.272 |
propiedad | -1.129 8.141 0.212 -16.798 | -0.863 6.864 0.124 -12.846 |
4 TEMA 2. ACP
```{r}
ilus_num<-data.frame(dim1=res.mca$ind$coord[,1],
dim2=res.mca$ind$coord[,2],edat=dades$edad)
```
9 TEMA 2. ACP
No hi ha valors atípics. La
correlació és
estadísticament
significativa amb tots dos
eixos, i negativa.
P
dim1 dim2 edat
dim1 1 0
dim2 1 0
edat 0 0
0 TEMA 2. ACP
```{r}
ilus_qual<-data.frame(dim1=res.mca$ind$coord[,1],
dim2=res.mca$ind$coord[,2],localitat=dades$localida)
```
```{r}
boxplot(ilus_qual$dim1~ilus_qual$localitat)
boxplot(ilus_qual$dim2~ilus_qual$localitat)
```
1 TEMA 2. ACP
2 TEMA 2. ACP
```{r}
summary(aov(ilus_qual$dim1~ilus_qual$localitat))
sqrt(118.2/(118.2+476.7))
```
Df Sum Sq Mean Sq F value Pr(>F)
ilus_qual$localitat 14 22.4 1.6016 5.413 3.57e-10 ***
Residuals 1319 390.2 0.2959
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
[1] 0.4457453
```{r}
summary(aov(ilus_qual$dim2~ilus_qual$localitat))
sqrt(22.4/(22.4+390.2))
```
[1] 0.2330019
3 TEMA 2. ACP
```{r}
ilus_qual_dims<-
data.frame(localitat.dim1=tapply(ilus_qual$dim1,ilus_qual$localitat,mean),loc
alitat.dim2=tapply(ilus_qual$dim2,ilus_qual$localitat,mean))
ggplot(data=ilus_qual,aes(x=dim1,y=dim2,label=row.names(ilus_qual)))+
geom_hline(yintercept=0,colou="gray70")+ geom_vline(xintercept =
0,colour="gray70")+
geom_text(data=ilus_qual_dims,aes(x=localitat.dim1,y=localitat.dim2,label=row
.names(ilus_qual_dims)),cex=2.5)
```
4 TEMA 2. ACP
Per exemple, Sant Antoni i Blanes estan en la zona del gràfic que s’associa amb
càmpings i autocaravanes; Lloret, en la zona que s’associa amb autocars, estades
d’una setmana en hotels i organitzades per agència; i l’Escala, Begur, Palafrugell,
Empuriabrava i Cadaqués amb viatges llargs amb automòbil, segones residències
o familiars i amics i sense usar agències de viatges
Finalment, també pot ser útil representar a la vegada localitat i categories.
```{r}
names(dades_costa_brava)
dades.sup<-dades_costa_brava[,c(1,93:97)]