You are on page 1of 7

08.

581 Anàlisi Multivariant


Curs 2018-19 / 1r semestre

Solucions orientatives

Prova d’avaluació continuada 2. ANÀLISI BIVARIANT

Enunciat

Després de l’anàlisi desenvolupat en la PAC1, en què hem estudiat diferents aspectes del perfil dels clients del
centre comercial, bàsicament a partir de l’edat i el sexe, i en què hem vist que una majoria de clients podem
considerar que són de fora del barri, ara volem aprofundir una mica més en el grau de satisfacció del client
(veure l’apartat 4 del cas pràctic).

En el cas pràctic s’analitza el grau de satisfacció general (variable SATISF_GEN) a partir de la qualitat
percebuda en diferents aspectes específics del centre, com per exemple el nivell de preus, o la qualitat de
l’aparcament, entre d’altres. En aquesta PAC estarem interessats en fer aquesta anàlisi des d’un altre punt de
vista. Seguint amb les conclusions de la PAC1, el gerent del centre comercial volia analitzar inicialment les
relacions (de causalitat o no) entre l’edat i el sexe, amb la satisfacció general.

A partir de les dades que hi ha en el fitxer “Dades_CasPractic1.xls”, en què es basa el cas pràctic de “El
triangle de les Bermudas”, es demana que contesteu, de forma raonada les següents qüestions:

Pregunta 1:

Per tal d’ajudar al gerent a veure si hi ha relació entre l’edat i el fet de ser o no del barri, amb la satisfacció
general, es demana el següent:

a) Realitzeu un diagrama de dispersió entre les variables edat (EDAD) i satisfacció general (SATISF_GEN). A
partir d’aquest diagrama, es pot concloure que hi ha alguna relació entre les variables? Les persones amb més
edat estan més o menys satisfetes que les de menys edat? Raoneu la resposta.
Nota: Per fer el diagrama heu d’anar a l’opció: Gráficas > Gráfica XY…

10

A partir d’aquest diagrama es pot veure


8
que no hi ha gaire relació entre les dues
variables. Independentment del valor de
la variable EDAT, el rang de variació del
SATISF_GEN

6
grau de satisfacció és molt semblant. No
podem dir, per exemple, que els clients
més joves són els que valoren millor el
centre comercial, o a l’inrevés.
4

20 30 40 50 60

EDAD

1/7
PAC1. ANÀLISI UNIVARIANT

b) Tot i les evidències gràfiques que hem pogut observar en l’apartat anterior, volem reforçar les conclusions a
partir d’una anàlisi de correlacions entre les dues variables. Realitzeu aquesta anàlisi i comenteu el resultat.

Nota: En el comentari de resultats heu de dir si hi ha o no correlació, si és significativament diferent de zero, si és positiva
o negativa, i si són indicis d’una possible relació lineal. Amb R-Commander heu de fer: Estadísticos > Resúmenes > Matriz
de correlaciones i marcar l’opció “p-valores pareados”

Pearson correlations:
EDAD SATISF_GEN
EDAD 1.0000 0.1961
SATISF_GEN 0.1961 1.0000

Number of observations: 529

Pairwise two-sided p-values:


EDAD SATISF_GEN
EDAD 0
SATISF_GEN 0

Adjusted p-values (Holm's method)


EDAD SATISF_GEN
EDAD 0
SATISF_GEN 0

Podem observar que hi ha correlació (el P-Value és 0 i per tant més petit que el nivell de significació de
0,05, i per tant rebutgem la hipòtesi nul·la de que la correlació és 0), i que aquesta és positiva. Això ens
estaria dient que a mesura que augmenta la edat, també augmenta el nivell de satisfacció. De totes maneres
aquests indicis de relació lineal són molt febles (tal i com veiem en el diagrama anterior), ja que la correlació
és molt baixa. Amb valors majors que 0,6 o 0,7, molt més propers a 1, sí que podríem afirmar que hi ha una
relació forta.

c) Per veure si hi ha relació entre el sexe i el grau de satisfacció, podem desenvolupar l’anàlisi que hem fet en
el cas de l’edat? Per què? En el cas que no es pugui fer el mateix, proposeu una alternativa, feu els càlculs
corresponents, i comenteu els resultats.

Per analitzar aquesta relació no podem utilitzar la correlació ja que la variable sexe no és quantitativa ni
ordinal sinó nominal. Per tant cal buscar alguna alternativa.

Tot i que podríem pensar en usar taules de contingència (molt recomanable quan les dues variables són
qualitatives), en aquest cas és més aconsellable fer un test de comparació de mitjanes (de la variable grau
de satisfacció) per als dos grups d’individus: els homes i les dones. Per tant, seguint el que hem aprés en
la PAC anterior obtenim el següent resultat, del qual es desprén que no hi ha diferències entre els dos grups
(el P-Value és més gran que 0,05). En conclusió, podem afirmar que no hi ha relació entre el sexe i el grau
de satisfacció.

Two Sample t-test

data: SATISF_GEN by SEXOR


t = -1.1526, df = 527, p-value = 0.2496
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-0.33660398 0.08767732
sample estimates:
mean in group Home mean in group Dona
7.172566 7.297030

2/7
PAC1. ANÀLISI UNIVARIANT

d) Escolliu ara alguna eina gràfica que permeti explorar si la relació entre les variables edat i satisfacció general
és diferent entre homes i dones. A quina conclusió arribeu?

Usant l’opció Gráficas > Gráfica XY…, podem fer un gràfic de la relació entre l’edat (X) i la satisfacció
general (Y) diferent usant les dades dels homes i de les dones. En el gràfic següent podem observar que
no hi ha una relació clara enre edat i satisfacció ni per homes ni per dones.

20 30 40 50 60

Home Dona

10

8
SATISF_GEN

20 30 40 50 60

EDAD

Pregunta 2:

El gerent del centre comercial, preocupat per la competència amb els altres dos centres comercials que
configuren, amb el seu, “El Triangle de les Bermudes”, vol continuar analitzant els clients de fora del barri. És
a dir, vol entendre millor els potencials clients de la competència, que decideixen desplaçar-se al seu centre
comercial.

Per a això, i tenint en compte que l’utilització del pàrquing és la clau per considerar si un client és o no del barri,
es demana:

a) Realitzeu una anàlisi de regressió simple entre el nivell de satisfacció general (SATISF_GEN) i el nivell de
qualitat percebuda del pàrquing (P34_5). A quina conclusió arribeu? Comenteu els resultats.

Nota: Entre d’altres coses, comenteu la significació individual de paràmetres, la significació global del model, el nivell d’ajust,
i el signe del coeficient associat a la variable explicativa.

3/7
PAC1. ANÀLISI UNIVARIANT

Call:
lm(formula = SATISF_GEN ~ P34_5, data = Datos_CasoPractico1)

Residuals:
Min 1Q Median 3Q Max
-4.8105 -0.8105 0.0504 0.7634 3.0504

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 4.94098 0.20966 23.57 <2e-16 ***
P34_5 0.28695 0.02539 11.30 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 1.099 on 513 degrees of freedom


(16 observations deleted due to missingness)
Multiple R-squared: 0.1994, Adjusted R-squared: 0.1978
F-statistic: 127.7 on 1 and 513 DF, p-value: < 2.2e-16

Significació individual dels paràmetres: Ens fixem en l’estadístic T i el seu valor p associat. Els dos paràmetres
(el terme independent i el que acompanya a la variable independent “nivell de qualitat percebuda del pàrquing”),
són estadísticament diferents de zero (significatius) a un nivell de significació del 5%.

Significació conjunta dels paràmetres: Ens fixem en l'estadístic F i el seu p-valor associat que en aquest cas és
també zero, per la qual cosa podem rebutjar la hipòtesi nul·la del contrast de significació conjunta segons la
qual tots els paràmetres del model (tret del terme independent) són iguals a zero. Com es tracta d’una regressió
simple aquest contrast coincideix amb el de la significació individual del paràmetre de la variable independent.

Signes esperats i valors estimats dels paràmetres: El signe del paràmetre que acompanya la variable
independent (“nivell de qualitat percebuda del pàrquing”) és positiu la qual cosa és raonable doncs un major
nivell de qualitat percebuda del pàrquing comportarà un augment del nivell de satisfacció general. El valor
estimat del paràmetre (0,28695) indica un pendent suau de la recta de regressió.

Nivell d’ajust: L’ajust del model mesurat amb el coeficient de determinació R 2 és baix; només el 19,9% de la
variació del nivell satisfacció general és explicada per la qualitat percebuda del pàrquing.

b) Creieu que l’anàlisi anterior s’ha desenvolupat correctament? Creieu que la mostra, que inclou tots els casos,
és l’apropiada? Per què?

Si la variable que utilitzem per explicar el nivell de satisfacció general és el nivell de qualitat percebuda del
pàrquing té sentit seleccionar només aquells individus de la mostra que utilitzen el pàrquing atès que els que
no l’utilitzen tindran una opinió no prou fonamentada o bé no hauran expressat una resposta coherent davant
de la pregunta del nivell de qualitat percebuda del pàrquing (perquè no l’utilitzen). En conseqüència, els resultats
de l’apartat anterior poden estar distorsionats.

c) Repetiu l’anàlisi de l’apartat 2a però ara considerant només els usuaris del pàrquing. A quina conclusió
arribeu? Ha millorat l’estimació?

Nota: Per fer això, heu de tenir present que s’ha de seleccionar una submostra, amb només aquells casos en què s’ha usat
el pàrquing. És a dir, amb aquells casos en què P14_M23 = 1. Heu d’indicar l’expressió de selecció (P14_M23R=="1") en
la mateixa finestra del model de regressió lineal.

4/7
PAC1. ANÀLISI UNIVARIANT

Call:
lm(formula = SATISF_GEN ~ P34_5, data = Datos_CasoPractico1,
subset = P14_M23R == "1")

Residuals:
Min 1Q Median 3Q Max
-3.5566 -0.7313 -0.0789 0.7036 2.9211

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 5.55655 0.24565 22.620 < 2e-16 ***
P34_5 0.21748 0.02984 7.288 2.56e-12 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 1.051 on 314 degrees of freedom


(3 observations deleted due to missingness)
Multiple R-squared: 0.1447, Adjusted R-squared: 0.142
F-statistic: 53.12 on 1 and 314 DF, p-value: 2.558e-12

Els resultats de l’estimació del model ens mostren que els paràmetres continuen essent significatius. Tanmateix,
el nivell de l’ajust és més baix que en el cas anterior atès que el coeficient de determinació R 2 és ara de només
un 14.5%.

Un cop eliminada la distorsió d’incloure en la mostra els que no utilitzen el pàrquing si volem explicar la
satisfacció general a partir de la qualitat percebuda del pàrquing veiem com la bondat de l’ajust s’ha reduït i
també ho ha fet el valor estimat del paràmetre que acompanya la variable independent. Per tant, la importància
de la qualitat percebuda del pàrquing per explicar la satisfacció general, entre aquells que l’utilitzen, és
relativament baixa i caldrà buscar altres factors explicatius.

Pregunta 3:

A partir dels resultats obtinguts en les preguntes anteriors, el gerent estava una mica “despistat”. No semblava
gaire apropiat analitzar el nivell de satisfacció a partir de l’edat, i a més per als clients de fora del barri no
semblava molt rellevant la percepció de la qualitat del pàrquing a l’hora d’entendre millor el seu nivell de
satisfacció. Potser el que estava passant era que no es podia considerar una bona aproximació la utilització
pàrquing del fet de ser o no del barri.

Per tractar d’esbrinar-ho, va voler relacionar la utilització del pàrquing al sexe, i també a lhorari de visita al
centre comercial: homes i dones usen igualment el pàrquing, encara que siguin o no del barri? Els matins s’usa
més el pàrquing, independentment de que siguis del barri o no? Per ajudar el gerent a respondre aquestes
qüestions, es demana respondre els següents apartats:

a) Realitzeu una taula de contingència entre la variable sexe com a factor (SEXOR) i la variable utilització del
pàrquing com a factor (P14_M23R). A quina conclusió arribeu? Raoneu els resultats.

Frequency table:
P14_M23R
SEXOR 0 1
1 99 127
2 113 192

Pearson's Chi-squared test

data: .Table
X-squared = 2.4704, df = 1, p-value = 0.116

5/7
PAC1. ANÀLISI UNIVARIANT

L’estadístic Chi-quadrat ens indica que, al 5% de significació (p-valor més gran que 0.05), no podem rebutjar la
hipòtesi nul·la d’independència entre les dues variables (Sexe i Utilització del pàrquing). Per tant no podem
assegurar estadísticament que hi hagi una major (o menor) utilització sistemàtica del pàrquing per part de les
dones o dels homes.

b) Realitzeu una taula de contingència entre el fet que l’entrevista s’hagi fet en horari de matí (de 12:00 a 14:30h)
o en horari de tarda (de 18:30 a 21:30h) i la variable utilització del pàrquing com a factor (P14_M23R). A quina
conclusió arribeu? Creieu que la utilització del pàrquing té més a veure amb el sexe o amb l’horari de visita al
centre comercial? Raoneu les vostres respostes.

Nota: Per respondre aquesta pregunta heu de crear una nova variable (HORARIOR) a partir la variable HORARIO com a
factor.

Frequency table:
HORARIOR
P14_M23R 1 2
0 102 110
1 159 160

Pearson's Chi-squared test

data: .Table
X-squared = 0.1525, df = 1, p-value = 0.6961

L’estadístic Chi-quadrat ens indica que, al 5% de significació (p-valor més gran que 0.05), no podem rebutjar la
hipòtesi nul·la d’independència entre les dues variables considerades, Horari i Utilització del pàrquing. Per tant
no podem assegurar estadísticament que hi hagi una major (o menor) utilització sistemàtica del pàrquing per
part dels que han estat entrevistats al matí o a la tarda.

La hipòtesi d’independència no es rebutja més clarament (un p-value més gran) en el cas de l’horari que en el
del sexe, per tant la utilització del pàrquing té més a veure amb el sexe que no pas amb l’horari.

c) Realitzeu una taula de contingència entre la variable HORARIO com a factor (HORARIOR) i la variable SEXO
com a factor (SEXOR). A quina conclusió arribeu? Raoneu les vostres respostes.

Frequency table:
HORARIOR
SEXOR 1 2
1 97 129
2 164 141

Pearson's Chi-squared test

data: .Table
X-squared = 6.1146, df = 1, p-value = 0.01341

L’estadístic Chi-quadrat ens indica que, al 5% de significació (p-valor més petit que 0.05), rebutjarem la hipòtesi
nul·la d’independència entre les dues variables considerades, Horari i Sexe. Per tant podem assegurar
estadísticament que hi han associacions significatives entre el sexe i l’horari: menys freqüent el matí pels homes
i més per les dones.

d) Per què no té sentit fer una anàlisi de correlacions, o una regressió lineal, entre les variables considerades
en aquesta pregunta? Raoneu la resposta.

6/7
PAC1. ANÀLISI UNIVARIANT

No té sentit atès que totes les variables considerades en aquesta pregunta són qualitatives dicotòmiques. El
coeficient de correlació lineal de Pearson només es pot calcular quan les variables siguin quantitatives.

En la regressió lineal es poden utilitzar les qualitatives dicotòmiques com a variables explicatives d’una variable
dependent quantitativa i continua. Tanmateix, si la variable dependent és qualitativa dicotòmica el model de
regressió lineal presenta problemes d’especificació que afecten a les propietats dels estimadors i cal fer ús de
models economètrics i mètodes d’estimació més avançats (Logit, Probit).

7/7

You might also like