You are on page 1of 12

Estudis d'Economia i Empresa

01.501 Fonaments d'Estadstica


Semestre 13-14/Febrer 14


Document1 1
Nom i cognoms de l'estudiant

Prova d'avaluaci continuada 1. Estadstica descriptiva univariable i bivariable.

Criteris d'avaluaci

Les preguntes curtes puntuen (si es raonen) un 40% i els problemes (que s'han de desenvolupar) un 60%.
S'han de raonar les respostes i s'ha de demostrar fludesa utilitzant el llenguatge de l'assignatura. Aix inclou
tant els problemes com les preguntes.


Format i data de lliurament
El nom del fitxer que contingui la PAC 1 resolta de l'estudiant Miquel Suri Castells i de l'assignatura de
Fonaments d'Estadstica tindr el segent format: 01501_PAC1_suria_castells.doc (o docx) o b
01501_PAC1_suria_castells.pdf. Recordeu que els cognoms s'escriuran sense accents i que aquest mateix
nom ha de figurar en l'espai corresponent de la primera pgina i en el peu de pgina de tot el document de
respostes.
Les proves d'avaluaci continuada s'han de lliurar en la bstia especfica de Lliurament d'activitats que es
troba en l'apartat Avaluaci de l'aula en un nic fitxer en format WORD o PDF. L'ltim dia per lliurar aquesta
activitat s el 23 de mar.

Enunciat

Larxiu PAC1.xls cont dades reals duna enquesta dopini realitzada durant una setmana del mes de
novembre del 2013 a 739 clients dun centre comercial. Larxiu cont les segents variables:

SEX. Gnere de la persona entrevistada.
FREQUENCY. Freqncia de visita al centre comercial.
AGE. Edat.
CHILDREN. Si la persona entrevistada t fills.
TOT_TIME. Temps en minuts que la persona entrevistada ha passat al centre comercial.
TOT_SPEND. Total despesa (euros) al centre comercial.
A partir daquesta informaci, responeu a les segents preguntes:


PREGUNTES CURTES


1. Indiqueu les variables de larxiu que sn qualitatives i les que sn quantitatives.

Nota: Vegeu la sessi 1 del mdul didctic Gil Estallo, A. J. (2009). "Estadstica descriptiva". Mdul 1 en
Estadstica. Ed. EDIUOC.

Soluci:

La classificaci de les variables s la segent:
Qualitatives: sex, frequency, children.
PAC1. Estadstica descriptiva univariable i bivariable
Document1 2
Quantitatives: age, tot_time, tot_spend


2. Considereu totes les variables quantitatives i indiqueu quines presenten un major grau de correlaci
lineal. Comenteu els resultats.

Nota: Vegeu la Fitxa 6. Correlaci lineal, i la bibliografia que t associada.

Soluci:

En primer lloc, executem el paquet estadstic R-Commander. Per a aix anem a:

Paquetes -> Cargar paquetes

I de la llista que surt seleccionem Rcmdr. Llavors ens apareixer una nova pantalla amb el R-
Commander.

Per a carregar les dades seguim la segent ruta al R-Commander:

Datos -> Importar datos -> Desde conjunto de datos Excel, ...

Llavors indiquem el nom que li donarem a la Base de Dades amb la qual volem treballar. Podeu utilitzar
qualsevol nom que vulgueu (per defecte surt el nom Datos)



El segent pas consisteix en indicar la ruta i el nom del fitxer: PAC1.xls. Un cop carregades les dades,
ens assegurem que hi ha 6 columnes i 739 files tot fent click al bot Visualitza la taula de dades que hi
ha a la part superior:


Llavors veureu el segent:

PAC1. Estadstica descriptiva univariable i bivariable
Document1 3


Ara, per a calcular la matriu de correlacions de les variables quantitatives anem a

Estadstics -> Resums -> Matriu de correlacions...

i ens surt la segent pantalla:



On seleccionem les variables quantitatives AGE, TOT_SPEND i TOT_TIME

> cor(Datos[,c("AGE","TOT_SPEND","TOT_TIME")], use="complete")
AGE TOT_SPEND TOT_TIME
AGE 1.00000000 0.02424563 0.1194185
TOT_SPEND 0.02424563 1.00000000 0.4617029
TOT_TIME 0.11941854 0.46170293 1.0000000

Les variables que presenten ms correlaci lineal sn TOT_SPEND i TOT_TIME (r=0.46). Ledat presenta
una correlaci lineal fora baixa amb la despesa (TOT_SPEND) i amb el temps (TOT_TIME). En tots els
casos, el coeficient de correlaci lineal s positiu el que ens indica que les variables es mouen en la
mateixa direcci, s a dir, que si una variable creix, laltra tamb tendeix a crixer, i viceversa.


3. Volem saber si hi ha diferncies en la despesa al centre comercial entre homes i dones. Amb lajut del
programa R-Commander, calculeu els estadstics descriptius de la variable TOT_SPEND en funci del
gnere (SEX). Comenteu els resultats.
PAC1. Estadstica descriptiva univariable i bivariable
Document1 4

Nota: Per a la realitzaci dels clculs, consulteu la Fitxa 11. Mesures de centre i de dispersi. Recordeu
que per obtenir els resultats en funci del sexe, heu dentrar la variable a lopci Resumir por grupos....
Per ms informaci sobre la utilitzaci de lR-Commander, podeu consultar el Mdul 3. Anlisi de dades i
estadstica descriptiva amb R i R-Commander que trobareu a lapartat de Materials i fonts dinformaci de
laula.

Soluci:

Per obtenir els principals estadstics descriptius anem a:

Estadstics -> Resums numrics

Llavors escollim la variable TOT_SPEND i els estadstics de referncia:



Tot seguit hem danar a Resumir grupos, i posar la variable SEX:



La sortida ens dna els segent:
PAC1. Estadstica descriptiva univariable i bivariable
Document1 5



> numSummary(Dataset[,"TOT_SPEND"], groups=Dataset$SEX, statistics=c("mean",
+ "sd", "IQR", "quantiles", "cv", "skewness"), quantiles=c(0,.25,
+ .5,.75,1), type="2")

mean sd IQR cv skewness 0% 25% 50% 75% 100% data:n
Female 84.01046 81.71430 90 0.9726681 2.720989 0 30 60 120 655 478
Male 62.19157 69.41044 64 1.1160747 3.855423 0 18 40 82 700 261

Comentari dels resultats:

La mitjana i la mediana de la despesa en centres comercials s major en dones que en homes. En
ambds casos la mitjana s superior a la mediana i, per tant, podem afirmar que hi ha asimetria a la
dreta. Pel que fa a la dispersi, s interessant observar que la desviaci estndard s menor en el cas
dels homes que en el de les dones. Aix tamb passa amb el resultat del rang interquartllic (IQR).
Observeu, per, que aquesta relaci sinverteix si volem considerar la dispersi relativa, mesurada a partir
del coeficient de variaci (cv).

4. A partir de les variables del fitxer PAC1.xls, calculeu, amb el programa R-Commander i tamb
manualment, el coeficient de variaci per a totes les variables que es pugui. Quina variable presenta una
major dispersi relativa?

Nota: Per a la realitzaci dels clculs, consulteu la Fitxa 11. Mesures de centre i de dispersi. Per ms
informaci sobre la utilitzaci de lR-Commander, podeu consultar el Mdul 3. Anlisi de dades i
estadstica descriptiva amb R i R-Commander que trobareu a lapartat de Materials i fonts dinformaci de
laula.

Soluci:

El coeficient de variaci es pot calcular per a variables quantitatives, ja que per al seu clcul necessitem
la mitjana i la desviaci estndard, que sn estadstics descriptius que no podem calcular per variables
qualitatives. En el nostres cas sn les variables age, tot_time, tot_spend.

Per poder comparar les dispersions de variables amb unitats de mesura diferents cal calcular el coeficient
de variaci, que s una mesura de dispersi relativa. Per a fer el clcul manual necessitarem calcular
prviament la mitjana i la desviaci estndard de cadascuna de les variables. Per a aix, hem danar a:

Estadsticos -> Resmenes -> Resmenes numricos...

I marcar les opcions Media i Desviacin tpica. Observeu que tamb es pot marcar lopci Coeficiente
de variacin. Si la marqueu obtindreu directament el valor daquest coeficient. La sortida corresponent s
la segent:

mean sd cv
AGE 49.55074 16.72473 0.3375273
TOT_SPEND 76.30447 78.24321 1.0254081
TOT_TIME 56.78620 36.13180 0.6362779

Amb els segents clculs manuals observareu que shan calculat correctament els tres coeficients de
variaci:

CVAGE = 16.72473 / 49.55074 = 0.3375
PAC1. Estadstica descriptiva univariable i bivariable
Document1 6
CVTOT_SPEND = 78.24321 / 76.30447 = 1.0254
CVTOT_TIME = 36.1318 / 56.7862 = 0.6363

Per tant, la variable que presenta una major dispersi relativa s TOT_SPEND.



5 Prenem dos clients del centre comercial, un que t fills i un altre que no en t i comprovem que tots dos
tenen 35 anys. Estandarditzeu ledat de cadascun daquests dos clients segons el seu grup i comenteu
els resultats.

Nota: Haureu de calcular la mitjana i la desviaci estndard de la variable AGE per a cadascun dels
grups CHILDREN. Per a fer aix heu de fer servir lopci Resumir per grups dins del comandament
Resums numrics.


Soluci:

Amb el R-Commander seleccionem:

Estadstics -> Resums -> Resums numrics...

Llavors seleccionem la variable AGE, marquem la mitjana i la desviaci estndard, i a lopci Resumir
per grups, seleccionem la variable CHILDREN. La sortida que obtenim s la segent:

> numSummary(Dataset[,"AGE"], groups=Dataset$CHILDREN, statistics=c("mean",
+ "sd", "quantiles"), quantiles=c(0,.25,.5,.75,1))

mean sd
No 54.78074 16.93129
Yes 39.38247 10.49253

Per poder comparar les edats dins del seu grup cal que calculem les corresponents puntuacions
estandarditzades.



s a dir, la persona que no t fills es situa a -1.16 desviacions estndard per sota de la mitjana del collectiu
de persones que no t fills i la persona que t fills es situa a -0.42 desviacions estndard del collectiu de
persones que t fills. Aix significa que el client que no t fills s ms jove respecte les persones del seu
collectiu que el client que t fills sobre el seu (collectiu).




EXERCICIS


EXERCICI 1

De la variable freqncia de visita al centre comercial (FREQUENCY), es demana:

a) Calculeu la taula de freqncies de la variable.

Soluci:

Per trobar la distribuci de freqncies de la variable FREQUENCY, seguim la segent ruta:

PAC1. Estadstica descriptiva univariable i bivariable
Document1 7
Estadstics > Resum > Distribuci de Freqncies.







b) A partir de les dades obtingudes en la taula anterior, i tenint en compte la tipologia de la variable,
quina/quines mesura/mesures de centre es pot/poden calcular? Calculeu-la/les.

Soluci:

Tenint en compte que la variable s qualitativa, lnica mesura de centre que podem calcular s la moda,
que en aquest cas s Once a week (297 persones, un 40.19% del total).


c) Representeu grficament la variable (diagrama de barres i de sectors). Comenteu els resultats.

Soluci:

Com que la variable s qualitativa, lnica manera de representar-la grficament ser amb un diagrama
de barres o amb un diagrama de sectors. Per representar el diagrama de barres o el diagrama de sectors
de la variable FREQUENCY, utilitzem els mens:

Grfics -> Grfic de barres


PAC1. Estadstica descriptiva univariable i bivariable
Document1 8


En aquesta representaci podem observar que la barra ms alta s la setena, que seguint lordre de
sortida de lapartat a), es correspon al valor Once a week. Aquest resultat coincideix amb lobtingut
en lapartat b).

Grfics -> Grfic de sectors

PAC1. Estadstica descriptiva univariable i bivariable
Document1 9


En aquesta sortida, tamb podem veure com el valor Once a week s el que t un percentatge ms
levat, seguit de More than once a week i de Once every 15 days.



Nota: Per a la realitzaci dels clculs i grfiques, consulteu la Fitxa 11. Mesures de centre i de dispersi i la
Fitxa 21. Representaci grfica. Per ms informaci sobre la utilitzaci de lR-Commander, podeu consultar el
Mdul 3. Anlisi de dades i estadstica descriptiva amb R i R-Commander que trobareu a lapartat de
Materials i fonts dinformaci de laula.




EXERCICI 2

La variable TOT_SPEND ve donada en euros. Es demana:

a) Transformeu la variable en lliures esterlines utilitzant el tipus de canvi EUR/GBP=0.83. Anomeneu a
aquesta nova variable TOT_SPEND2.

Soluci:

Per crear la nova variable seguim la ruta:

Dades -> Modifica variables de la taula de dades -> Calcula la nova variable...

I donem a la nova variable lexpressi adient: TOT_SPEND2 = TOT_SPEND*0.83


b) Obteniu els estadstics descriptius de les variables TOT_SPEND i TOT_SPEND2. Quins estadstics
descriptius es veuen afectats pel canvi dunitats? Raoneu la resposta.

Soluci:
PAC1. Estadstica descriptiva univariable i bivariable
Document1 10

Els estadstics descriptius els trobem mitjanant:

Estadstics -> Resums -> Resums numrics.

I escollim la variable TOT_SPEND2 i tots els estadstics descriptius de referncia possibles.

> numSummary(Dataset[,c("TOT_SPEND", "TOT_SPEND2")], statistics=c("mean",
+ "sd", "IQR", "quantiles", "cv", "skewness"), quantiles=c(0,.25,
+ .5,.75,1), type="2")
mean sd IQR cv skewness 0% 25% 50% 75% 100% n
TOT_SPEND 76.30447 78.24321 73.00 1.025408 3.000818 0 27.00 50.0 100 700 739
TOT_SPEND2 63.33271 64.94187 60.59 1.025408 3.000818 0 22.41 41.5 83 581 739

Com que realitzem una transformaci lineal de la variable TOT_SPEND per crear la variable
TOT_SPEND2, la mitjana i la desviaci estndard es veuen modificades, per no canvien el coeficient de
variaci ni lasimetria (skewness). s important que comproveu la relaci que hi ha entre les mitjanes i les
desviacions estndard dambdues variables. Aix sexplica en la pgina 29 i 42 del Mdul didctic 1
Estadstica Descriptiva.

c) Representeu lhistograma i el diagrama de caixa de la nova variable TOT_SPEND2. Comenteu els
resultats.

Important: A lhora de fer un diagrama de caixes, totes les observacions que es troben per sota de
Q1-15(Q3-Q1) o per sobre de Q3+15(Q3-Q1) es consideren observacions atpiques. Tot i que el
mdul didctic no en fa referncia (pg. 38 a 40), el programa R-Commander s que ho t en compte.
Per aquesta ra, s possible que vegeu observacions que estan per sobre del mxim o per sota del
mnim.

Soluci

Finalment, per representar lhistograma i el diagrama de caixa de la variable TOT_SPEND2, utilitzem els
mens:

Grfics -> histograma

PAC1. Estadstica descriptiva univariable i bivariable
Document1 11
Dataset$TOT_SPEND2
f
r
e
q
u
e
n
c
y
0 100 200 300 400 500 600
0
1
0
0
2
0
0
3
0
0
4
0
0


Grfics -> Caixa de dispersi

PAC1. Estadstica descriptiva univariable i bivariable
Document1 12
Lobservaci de lhistograma i del diagrama de caixa ens mostra que la variable presenta una forta
asimetria cap a la dreta. Encara que no es demanava en lexercici, es recomana comprovar que tant
lhistograma com el diagrama de caixa de les dues variables (TOT_SPEND i TOT_SPEND2) s el mateix.


Nota: Per a la realitzaci dels clculs i grfiques, consulteu la Fitxa 11. Mesures de centre i de dispersi i la
Fitxa 21. Representaci grfica. Per ms informaci sobre la utilitzaci de lR-Commander, podeu consultar el
Mdul 3. Anlisi de dades i estadstica descriptiva amb R i R-Commander que trobareu a lapartat de
Materials i fonts dinformaci de laula.

You might also like