You are on page 1of 6

08.

581 Anàlisi Multivariant


Curs 2018-19 / 1r semestre

Solucions orientatives

Prova d’avaluació continuada 4. ANÀLISI MULTIVARIANT(II)

Enunciat

A partir de les dades que hi ha en el fitxer “Dades_CasPractic3.csv”, en què es basa el cas pràctic de “El
triangle de les Bermudas”, es demana que contesteu raonadament, les següents qüestions. El nivell de
significació α que heu de considerar en tota la PAC és de 0,05.

Pregunta 1:
En el darrer exercici de la PAC3, vàrem veure quina era la “posició” que ocupaven el tres centres comercials
que configuraven l’anomenat “Triangle de las Bermudas”, segons les valoracions dels clients de fora del barri
d’un d’ells (Barcelona Glòries). Aquest posicionament el vàrem analitzar a partir de la associació que es feia
de cada característica a un centre comercial determinat. El gerent de Barcelona Glòries ja havia pogut treure
les seves conclusions, observant quines eren les característiques que s’associaven principalment al seu
centre, i quines s’associaven a la competència (Diagonal Mar i La Maquinista).

De totes maneres, volia aprofundir una mica més en aquesta anàlisi, i volia veure a quin, o quins, grans
centres comercials de Barcelona s’hi assemblava el seu, prenent com a punt de partida les valoracions dels
(seus) clients de fora del barri de les 15 característiques (Car1 – Car15), obtingudes del qüestionari
corresponent (veure l’apartat 5, “Imatge i posicionament del centre comercial”). Seleccionant només la
submostra dels clients que usen el pàrquing (que són de fora del barri), s’obtenen els següents resultats
agregats, per als 5 centres comercials:

Corte Diagonal
Glòries Maquinista Baricentro
Inglés Mar
Car1 55 98 38 78 18
Car2 46 109 38 54 15
Car3 38 107 31 41 17
Car4 56 95 21 55 21
Car5 56 117 38 52 17
Car6 42 99 40 63 19
Car7 60 101 51 49 16
Car8 63 112 34 54 20
Car9 57 105 20 71 25
Car10 42 90 35 51 17
Car11 40 93 54 45 24
Car12 30 131 26 49 20
Car13 49 96 32 57 23
Car14 40 119 7 34 18
Car15 55 102 31 50 23

Per respondre a aquesta pregunta, es demana el següent:

1.1 Realitzeu una anàlisi clúster jeràrquica (enllaç simple i distància euclidiana) i trobeu el corresponent
dendrograma. Per quins centres comercials estan formats aquests grups? A quin (o quins) centre(s)
comercial(s) s’assembla més Barcelona Glòries? Per què? A quin altre grup s’assembla més el que conté
Barcelona Glòries? Raoneu les respostes.

Nota: Per resoldre aquest apartat, heu de copiar la taula anterior en una nova Taula de Dades de R-Commander.
Heu de tenir en compte, però, que per fer aquesta anàlisi heu de copiar la taula transposada: així, per exemple, la
primera fila de la taula ha de ser la primera columna del fitxer de treball de R-Commander.

1/6
Solucions PAC4. ANÀLISI MULTIVARIANT(II)

> summary(as.factor(cutree(HClust.1, k = 3))) # Cluster Sizes


1 2 3
2 1 2

> by(model.matrix(~-1 + Car1 + Car2 + Car3 + Car4 + Car5 + Car6 + Car7 + Car8 + Car9 + Car10 +
Car11 + Car12 + Car13 + Car14 + Car15, Cluster), as.factor(cutree(HClust.1, k = 3)), colMeans)
# Cluster Centroids
INDICES: 1
Car1 Car2 Car3 Car4 Car5 Car6 Car7 Car8 Car9 Car10 Car11 Car12 Car13 Car14 Car15
66.5 50.0 39.5 55.5 54.0 52.5 54.5 58.5 64.0 46.5 42.5 39.5 53.0 37.0 52.5
-----------------------------------------------------------------------------------------------
--INDICES: 2
Car1 Car2 Car3 Car4 Car5 Car6 Car7 Car8 Car9 Car10 Car11 Car12 Car13 Car14 Car15
98 109 107 95 117 99 101 112 105 90 93 131 96 119 102
-----------------------------------------------------------------------------------------------
--INDICES: 3
Car1 Car2 Car3 Car4 Car5 Car6 Car7 Car8 Car9 Car10 Car11 Car12 Car13 Car14 Car15
28.0 26.5 24.0 21.0 27.5 29.5 33.5 27.0 22.5 26.0 39.0 23.0 27.5 12.5 27.0

A partir del Dendrograma, podem veure que s’han format tres grups, els dos primers més semblants entre
ells que amb el tercer:

Grup 1: Glòries (1) i Baricentro (4)


Grup 2: Corte Inglés (3) y Diagonal Mar (5)
Grup 3: Maquinista (2)

Com es pot veure d’aquesta agrupació, a partir de la informació sobre les característiques, el centre
comercial Barcelona Glòries s’assembla força a Baricentro. Per tant, podem considerar que les
característiques analitzades són molt semblants entre tots dos centres.

2/6
Solucions PAC4. ANÀLISI MULTIVARIANT(II)

1.2 El resultat obtingut és coherent amb l’obtingut en l’exercici 3 de la PAC3? Raoneu la resposta.

El resultat és força coherent amb el de la PAC anterior donat que, com es pot veure aquí, els tres centres
comercials que configuren “El triangle de les Bermudas” estan en grups diferents, amb certes dissimilituds.
A l’exercici 3 de la PAC3 vàrem veure que els tres centres es situaven en diferents zones del gràfic,
associats a caraterístiques diferents.

1.3 En què consisteix l’anàlisi clúster no jeràrquica? És pot aplicar aquesta anàlisi en el nostre cas? Per què?
Raoneu la resposta.

Tot i que des del punt de vista teòric sí que el podríem utilitzar (veure Fitxa 29) ja que l’única diferència
amb el jeràrquic és que els grups “es defineixen prèviament ja sigui a partir dels criteris considerats a
l'hora de definir les distàncies, o bé perquè cada una de les variables que considerem s'agrupa amb el veí
més proper”, el no jeràrquic s’acostuma a utilitzar quan tenim moltes observacions a classificar i poques
variables.

Pregunta 2:
El gerent volia tornar a analitzar el comportament de compra dels seus clients i la seva relació amb la
valoració general del centre. Ara que tenia molta més informació sobre els clients de fora del barri veia que hi
havia aspectes del seu centre que havia de considerar amb especial atenció. S’havia vist, per exemple, que
l’oferta d’oci tenia un paper molt important (aquesta era una de les variables significatives en l’anàlisi de
regressió de l’exercici 1 de la PAC3).

Aquesta oferta d’oci, però, era molt diversa en el seu centre i volia segmentar els seus clients a través
d’aquesta oferta, tenint en compte el seu grau de satisfacció general (SATISF_GEN). Es demana:

2.1 A partir de la base de dades “Dades_CasPractic3.csv” creeu un nou conjunt de dades de nom
DadesPreg2 recollint les observacions dels que usen el pàrquing (P14_M23R==”1”).

Calculeu la matriu de correlacions entre les variables següents que recullen la satisfacció sobre diversos
aspectes. Dona una interpretació als resultats que obtinguis.

P34_1 PREUS
P34_2 PROMOCIONS OFERTES
P34_3 VARIETAT DE LES BOTIGUES
P34_4 QUALITAT DE LES BOTIGUES
P34_5 PARKING

> rcorr.adjust(DadesPreg2[,c("P34_1","P34_2","P34_3","P34_4","P34_5")], type="pearson",


+ use="complete")

Pearson correlations:
P34_1 P34_2 P34_3 P34_4 P34_5
P34_1 1.0000 0.5297 0.3833 0.3336 0.1528
P34_2 0.5297 1.0000 0.4631 0.4221 0.3032
P34_3 0.3833 0.4631 1.0000 0.6816 0.3027
P34_4 0.3336 0.4221 0.6816 1.0000 0.3307
P34_5 0.1528 0.3032 0.3027 0.3307 1.0000

Number of observations: 272

Pairwise two-sided p-values:


P34_1 P34_2 P34_3 P34_4 P34_5
P34_1 <.0001 <.0001 <.0001 0.0116
P34_2 <.0001 <.0001 <.0001 <.0001
P34_3 <.0001 <.0001 <.0001 <.0001
P34_4 <.0001 <.0001 <.0001 <.0001
P34_5 0.0116 <.0001 <.0001 <.0001

3/6
Solucions PAC4. ANÀLISI MULTIVARIANT(II)
Podem comprovar que hi ha un cert grau de relació entre les 5 mesures de satisfacció. Però també podem
comprovar que hi ha més relació entre dos parells de variables: d’una banda les dues mesures que tenen a
veure amb aspectes econòmics (preus i promocions) i d’altra la varietat i qualitat de les botigues.

Però en tot cas, els p-valors són tots propers a 0 i, per tant, per tots els parell de variables, es confirma que la
relació és estadísticament significativa.

2.2 A partir de les següents variables dicotòmiques que donen informació sobre si els clients usen o no el
servei:
P14_M2R CAF REST FFOOD
P14_M8R CINEMES
P14_M14R SERVEIS LÚDICS
P14_M22R PARC INFANTIL

Es demana que feu una anàlisi ANOVA de cadascuna d’elles respecte la variable satisfacció general
(SATISF_GEN). Quina d’aquestes 4 variables discrimina més? Per què?

Nota: Previament cal crear les variables P14_M2R, P14_M8R, P14_M14R, P14_M22R com a factors a partir de les
variables P14_M2, P14_M8, P14_M14, P14_M22 respectivament.

La variable que més discrimina és “P14_M14R Serveis lúdics”, ja que el valor de la F en l’anàlisi ANOVA
corresponent és el més gran: 3,92. La següent variable que més discrimina és “P14_M2R Cafeteria,
restaurant, fast-food”, amb un valor F de 0,85. En qualsevol cas, cal comentar que totes aquestes variables
discriminen poc, ja que els valors P associats són tots més grans que 0,05, a excepció de la P14_M14R que,
de totes maneres, hi està molt a prop.

> AnovaModel.1 <- aov(SATISF_GEN ~ P14_M2R, data=DadesUsParking)


> summary(AnovaModel.1)
Df Sum Sq Mean Sq F value Pr(>F)
P14_M2R 1 1.1 1.094 0.852 0.357
Residuals 316 405.5 1.283
1 observation deleted due to missingness

> numSummary(DadesUsParking$SATISF_GEN , groups=DadesUsParking$P14_M2R, statistics=c("mean",


"sd"))
mean sd data:n data:NA
0 7.377193 1.116175 114 0
1 7.254902 1.142000 204 1

> AnovaModel.2 <- aov(SATISF_GEN ~ P14_M8R, data=DadesUsParking)


> summary(AnovaModel.2)
Df Sum Sq Mean Sq F value Pr(>F)
P14_M8R 1 0.1 0.0574 0.045 0.833
Residuals 316 406.6 1.2866
1 observation deleted due to missingness

> numSummary(DadesUsParking$SATISF_GEN , groups=DadesUsParking$P14_M8R, statistics=c("mean",


"sd"))
mean sd data:n data:NA
0 7.310734 1.065763 177 0
1 7.283688 1.214944 141 1

> AnovaModel.3 <- aov(SATISF_GEN ~ P14_M14R, data=DadesUsParking)


> summary(AnovaModel.3)
Df Sum Sq Mean Sq F value Pr(>F)
P14_M14R 1 5.0 4.985 3.922 0.0485 *
Residuals 316 401.6 1.271
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
1 observation deleted due to missingness

4/6
Solucions PAC4. ANÀLISI MULTIVARIANT(II)

> numSummary(DadesUsParking$SATISF_GEN , groups=DadesUsParking$P14_M14R, statistics=c("mean",


"sd"))
mean sd data:n data:NA
0 7.324590 1.098542 305 1
1 6.692308 1.702186 13 0

> AnovaModel.4 <- aov(SATISF_GEN ~ P14_M22R, data=DadesUsParking)


> summary(AnovaModel.4)
Df Sum Sq Mean Sq F value Pr(>F)
P14_M22R 1 1.0 0.9853 0.768 0.382
Residuals 316 405.6 1.2837
1 observation deleted due to missingness

> numSummary(DadesUsParking$SATISF_GEN , groups=DadesUsParking$P14_M22R, statistics=c("mean",


"sd"))
mean sd data:n data:NA
0 7.281787 1.140014 291 1
1 7.481481 1.051386 27 0

2.3 A partir de les dues variables que més discriminen (segons l’apartat anterior), construïu un Detector
Automàtic d’Interaccions. A quines conclusions arribeu? Té sentit fer aquesta anàlisi segons els resultats
obtinguts a l’apartat anterior? Per què?

En primer lloc hem de dividir la submostra amb què estem treballant (clients de fora del barri) en dues noves
submostres, a partir de la variable dicotòmica “P14_M14R Serveis lúdics”, que era la que més discriminava.

Tindrem dos nous grups, un format per clients (de fora del barri) que no utilitzen els serveis lúdics, en total
305 clients, i que tenen un grau de satisfacció mitjà de 7,325. L’altre grup està format només per 13 clients
(molt pocs clients de fora del barri usen aquest servei), que tenen un grau de satisfacció de 6,692.

Amb aquesta informació ja podem dibuixar la primera part del Detector:

Ara, hem de fer dues submostres, de la submostra inicial. Una en què P14_M14R =”0”, i una altra en què
P14_M14R = “1”. En cadascuna d’aquestes, farem una altra anàlisi ANOVA de SATISF_GEN, a partir de la
variable “P14_M2R Cafeteria, restaurant, fast-food”, que era la segona que més discriminava (en el
subapartat anterior). Amb la primera submostra, obtenim el següent resultat:

5/6
Solucions PAC4. ANÀLISI MULTIVARIANT(II)
> AnovaModel.21 <- aov(SATISF_GEN ~ P14_M2R, data=M14_0)
> summary(AnovaModel.21)
Df Sum Sq Mean Sq F value Pr(>F)
P14_M2R 1 0.5 0.5037 0.417 0.519
Residuals 303 366.4 1.2091
1 observation deleted due to missingness

> numSummary(M14_1$SATISF_GEN , groups=M14_1$P14_M2R, statistics=c("mean", "sd"))


mean sd data:n data:NA
0 7.377193 1.116175 114 0
1 7.293194 1.089619 191 1

A partir d’aquesta informació, el gràfic del detector ens quedarà de la següent manera:

Tot seguit es fa el mateix amb l’altra sub-submostra, aquella que compleix la condició que P14_M14R = “1”.
Però com que sortim d’una grandaria molt petita (N = 13), ens trobem amb el problema que en tots els casos
de la submostra el valor de la variable P14_M2R és sempre el mateix, “1”: tots els clients que utilitzen els
serveis lúdics també utilitzen els serveis de cafeteria, restaurant i/o fast food. Per tant, no podem fer cap
anàlisi ANOVA i aquesta part de l’arbre no es pot continuar.

En conseqüència, el gràfic final del Detector és l’anterior.

En l’enunciat ens preguntàvem si tenia o no sentit fer aquesta segmentació a partir dels resultats obtinguts a
l’apartat anterior. La resposta és que no gaire. La raó és que hem considerat unes variables que
discriminaven molt poc o no discriminaven, i això no ens ha permès segmentar gaire, obtenint grups no gaire
diferents entre ells (amb graus de satisfacció força semblants).

6/6

You might also like