Prova d'avaluaci continuada 1. Estadstica descriptiva univariable i bivariable.
Criteris d'avaluaci
Les preguntes curtes puntuen (si es raonen) un 40% i els problemes (que s'han de desenvolupar) un 60%. S'han de raonar les respostes i s'ha de demostrar fludesa utilitzant el llenguatge de l'assignatura. Aix inclou tant els problemes com les preguntes.
Format i data de lliurament El nom del fitxer que contingui la PAC 1 resolta de l'estudiant Miquel Suri Castells i de l'assignatura de Fonaments d'Estadstica tindr el segent format: 01501_PAC1_suria_castells.doc (o docx) o b 01501_PAC1_suria_castells.pdf. Recordeu que els cognoms s'escriuran sense accents i que aquest mateix nom ha de figurar en l'espai corresponent de la primera pgina i en el peu de pgina de tot el document de respostes. Les proves d'avaluaci continuada s'han de lliurar en la bstia especfica de Lliurament d'activitats que es troba en l'apartat Avaluaci de l'aula en un nic fitxer en format WORD o PDF. L'ltim dia per lliurar aquesta activitat s el 23 de mar.
Enunciat
Larxiu PAC1.xls cont dades reals duna enquesta dopini realitzada durant una setmana del mes de novembre del 2013 a 739 clients dun centre comercial. Larxiu cont les segents variables:
SEX. Gnere de la persona entrevistada. FREQUENCY. Freqncia de visita al centre comercial. AGE. Edat. CHILDREN. Si la persona entrevistada t fills. TOT_TIME. Temps en minuts que la persona entrevistada ha passat al centre comercial. TOT_SPEND. Total despesa (euros) al centre comercial. A partir daquesta informaci, responeu a les segents preguntes:
PREGUNTES CURTES
1. Indiqueu les variables de larxiu que sn qualitatives i les que sn quantitatives.
Nota: Vegeu la sessi 1 del mdul didctic Gil Estallo, A. J. (2009). "Estadstica descriptiva". Mdul 1 en Estadstica. Ed. EDIUOC.
Soluci:
La classificaci de les variables s la segent: Qualitatives: sex, frequency, children. PAC1. Estadstica descriptiva univariable i bivariable Document1 2 Quantitatives: age, tot_time, tot_spend
2. Considereu totes les variables quantitatives i indiqueu quines presenten un major grau de correlaci lineal. Comenteu els resultats.
Nota: Vegeu la Fitxa 6. Correlaci lineal, i la bibliografia que t associada.
Soluci:
En primer lloc, executem el paquet estadstic R-Commander. Per a aix anem a:
Paquetes -> Cargar paquetes
I de la llista que surt seleccionem Rcmdr. Llavors ens apareixer una nova pantalla amb el R- Commander.
Per a carregar les dades seguim la segent ruta al R-Commander:
Datos -> Importar datos -> Desde conjunto de datos Excel, ...
Llavors indiquem el nom que li donarem a la Base de Dades amb la qual volem treballar. Podeu utilitzar qualsevol nom que vulgueu (per defecte surt el nom Datos)
El segent pas consisteix en indicar la ruta i el nom del fitxer: PAC1.xls. Un cop carregades les dades, ens assegurem que hi ha 6 columnes i 739 files tot fent click al bot Visualitza la taula de dades que hi ha a la part superior:
Llavors veureu el segent:
PAC1. Estadstica descriptiva univariable i bivariable Document1 3
Ara, per a calcular la matriu de correlacions de les variables quantitatives anem a
Estadstics -> Resums -> Matriu de correlacions...
i ens surt la segent pantalla:
On seleccionem les variables quantitatives AGE, TOT_SPEND i TOT_TIME
> cor(Datos[,c("AGE","TOT_SPEND","TOT_TIME")], use="complete") AGE TOT_SPEND TOT_TIME AGE 1.00000000 0.02424563 0.1194185 TOT_SPEND 0.02424563 1.00000000 0.4617029 TOT_TIME 0.11941854 0.46170293 1.0000000
Les variables que presenten ms correlaci lineal sn TOT_SPEND i TOT_TIME (r=0.46). Ledat presenta una correlaci lineal fora baixa amb la despesa (TOT_SPEND) i amb el temps (TOT_TIME). En tots els casos, el coeficient de correlaci lineal s positiu el que ens indica que les variables es mouen en la mateixa direcci, s a dir, que si una variable creix, laltra tamb tendeix a crixer, i viceversa.
3. Volem saber si hi ha diferncies en la despesa al centre comercial entre homes i dones. Amb lajut del programa R-Commander, calculeu els estadstics descriptius de la variable TOT_SPEND en funci del gnere (SEX). Comenteu els resultats. PAC1. Estadstica descriptiva univariable i bivariable Document1 4
Nota: Per a la realitzaci dels clculs, consulteu la Fitxa 11. Mesures de centre i de dispersi. Recordeu que per obtenir els resultats en funci del sexe, heu dentrar la variable a lopci Resumir por grupos.... Per ms informaci sobre la utilitzaci de lR-Commander, podeu consultar el Mdul 3. Anlisi de dades i estadstica descriptiva amb R i R-Commander que trobareu a lapartat de Materials i fonts dinformaci de laula.
Soluci:
Per obtenir els principals estadstics descriptius anem a:
Estadstics -> Resums numrics
Llavors escollim la variable TOT_SPEND i els estadstics de referncia:
Tot seguit hem danar a Resumir grupos, i posar la variable SEX:
La sortida ens dna els segent: PAC1. Estadstica descriptiva univariable i bivariable Document1 5
La mitjana i la mediana de la despesa en centres comercials s major en dones que en homes. En ambds casos la mitjana s superior a la mediana i, per tant, podem afirmar que hi ha asimetria a la dreta. Pel que fa a la dispersi, s interessant observar que la desviaci estndard s menor en el cas dels homes que en el de les dones. Aix tamb passa amb el resultat del rang interquartllic (IQR). Observeu, per, que aquesta relaci sinverteix si volem considerar la dispersi relativa, mesurada a partir del coeficient de variaci (cv).
4. A partir de les variables del fitxer PAC1.xls, calculeu, amb el programa R-Commander i tamb manualment, el coeficient de variaci per a totes les variables que es pugui. Quina variable presenta una major dispersi relativa?
Nota: Per a la realitzaci dels clculs, consulteu la Fitxa 11. Mesures de centre i de dispersi. Per ms informaci sobre la utilitzaci de lR-Commander, podeu consultar el Mdul 3. Anlisi de dades i estadstica descriptiva amb R i R-Commander que trobareu a lapartat de Materials i fonts dinformaci de laula.
Soluci:
El coeficient de variaci es pot calcular per a variables quantitatives, ja que per al seu clcul necessitem la mitjana i la desviaci estndard, que sn estadstics descriptius que no podem calcular per variables qualitatives. En el nostres cas sn les variables age, tot_time, tot_spend.
Per poder comparar les dispersions de variables amb unitats de mesura diferents cal calcular el coeficient de variaci, que s una mesura de dispersi relativa. Per a fer el clcul manual necessitarem calcular prviament la mitjana i la desviaci estndard de cadascuna de les variables. Per a aix, hem danar a:
Estadsticos -> Resmenes -> Resmenes numricos...
I marcar les opcions Media i Desviacin tpica. Observeu que tamb es pot marcar lopci Coeficiente de variacin. Si la marqueu obtindreu directament el valor daquest coeficient. La sortida corresponent s la segent:
mean sd cv AGE 49.55074 16.72473 0.3375273 TOT_SPEND 76.30447 78.24321 1.0254081 TOT_TIME 56.78620 36.13180 0.6362779
Amb els segents clculs manuals observareu que shan calculat correctament els tres coeficients de variaci:
Per tant, la variable que presenta una major dispersi relativa s TOT_SPEND.
5 Prenem dos clients del centre comercial, un que t fills i un altre que no en t i comprovem que tots dos tenen 35 anys. Estandarditzeu ledat de cadascun daquests dos clients segons el seu grup i comenteu els resultats.
Nota: Haureu de calcular la mitjana i la desviaci estndard de la variable AGE per a cadascun dels grups CHILDREN. Per a fer aix heu de fer servir lopci Resumir per grups dins del comandament Resums numrics.
Soluci:
Amb el R-Commander seleccionem:
Estadstics -> Resums -> Resums numrics...
Llavors seleccionem la variable AGE, marquem la mitjana i la desviaci estndard, i a lopci Resumir per grups, seleccionem la variable CHILDREN. La sortida que obtenim s la segent:
mean sd No 54.78074 16.93129 Yes 39.38247 10.49253
Per poder comparar les edats dins del seu grup cal que calculem les corresponents puntuacions estandarditzades.
s a dir, la persona que no t fills es situa a -1.16 desviacions estndard per sota de la mitjana del collectiu de persones que no t fills i la persona que t fills es situa a -0.42 desviacions estndard del collectiu de persones que t fills. Aix significa que el client que no t fills s ms jove respecte les persones del seu collectiu que el client que t fills sobre el seu (collectiu).
EXERCICIS
EXERCICI 1
De la variable freqncia de visita al centre comercial (FREQUENCY), es demana:
a) Calculeu la taula de freqncies de la variable.
Soluci:
Per trobar la distribuci de freqncies de la variable FREQUENCY, seguim la segent ruta:
PAC1. Estadstica descriptiva univariable i bivariable Document1 7 Estadstics > Resum > Distribuci de Freqncies.
b) A partir de les dades obtingudes en la taula anterior, i tenint en compte la tipologia de la variable, quina/quines mesura/mesures de centre es pot/poden calcular? Calculeu-la/les.
Soluci:
Tenint en compte que la variable s qualitativa, lnica mesura de centre que podem calcular s la moda, que en aquest cas s Once a week (297 persones, un 40.19% del total).
c) Representeu grficament la variable (diagrama de barres i de sectors). Comenteu els resultats.
Soluci:
Com que la variable s qualitativa, lnica manera de representar-la grficament ser amb un diagrama de barres o amb un diagrama de sectors. Per representar el diagrama de barres o el diagrama de sectors de la variable FREQUENCY, utilitzem els mens:
Grfics -> Grfic de barres
PAC1. Estadstica descriptiva univariable i bivariable Document1 8
En aquesta representaci podem observar que la barra ms alta s la setena, que seguint lordre de sortida de lapartat a), es correspon al valor Once a week. Aquest resultat coincideix amb lobtingut en lapartat b).
Grfics -> Grfic de sectors
PAC1. Estadstica descriptiva univariable i bivariable Document1 9
En aquesta sortida, tamb podem veure com el valor Once a week s el que t un percentatge ms levat, seguit de More than once a week i de Once every 15 days.
Nota: Per a la realitzaci dels clculs i grfiques, consulteu la Fitxa 11. Mesures de centre i de dispersi i la Fitxa 21. Representaci grfica. Per ms informaci sobre la utilitzaci de lR-Commander, podeu consultar el Mdul 3. Anlisi de dades i estadstica descriptiva amb R i R-Commander que trobareu a lapartat de Materials i fonts dinformaci de laula.
EXERCICI 2
La variable TOT_SPEND ve donada en euros. Es demana:
a) Transformeu la variable en lliures esterlines utilitzant el tipus de canvi EUR/GBP=0.83. Anomeneu a aquesta nova variable TOT_SPEND2.
Soluci:
Per crear la nova variable seguim la ruta:
Dades -> Modifica variables de la taula de dades -> Calcula la nova variable...
I donem a la nova variable lexpressi adient: TOT_SPEND2 = TOT_SPEND*0.83
b) Obteniu els estadstics descriptius de les variables TOT_SPEND i TOT_SPEND2. Quins estadstics descriptius es veuen afectats pel canvi dunitats? Raoneu la resposta.
Soluci: PAC1. Estadstica descriptiva univariable i bivariable Document1 10
Els estadstics descriptius els trobem mitjanant:
Estadstics -> Resums -> Resums numrics.
I escollim la variable TOT_SPEND2 i tots els estadstics descriptius de referncia possibles.
Com que realitzem una transformaci lineal de la variable TOT_SPEND per crear la variable TOT_SPEND2, la mitjana i la desviaci estndard es veuen modificades, per no canvien el coeficient de variaci ni lasimetria (skewness). s important que comproveu la relaci que hi ha entre les mitjanes i les desviacions estndard dambdues variables. Aix sexplica en la pgina 29 i 42 del Mdul didctic 1 Estadstica Descriptiva.
c) Representeu lhistograma i el diagrama de caixa de la nova variable TOT_SPEND2. Comenteu els resultats.
Important: A lhora de fer un diagrama de caixes, totes les observacions que es troben per sota de Q1-15(Q3-Q1) o per sobre de Q3+15(Q3-Q1) es consideren observacions atpiques. Tot i que el mdul didctic no en fa referncia (pg. 38 a 40), el programa R-Commander s que ho t en compte. Per aquesta ra, s possible que vegeu observacions que estan per sobre del mxim o per sota del mnim.
Soluci
Finalment, per representar lhistograma i el diagrama de caixa de la variable TOT_SPEND2, utilitzem els mens:
Grfics -> histograma
PAC1. Estadstica descriptiva univariable i bivariable Document1 11 Dataset$TOT_SPEND2 f r e q u e n c y 0 100 200 300 400 500 600 0 1 0 0 2 0 0 3 0 0 4 0 0
Grfics -> Caixa de dispersi
PAC1. Estadstica descriptiva univariable i bivariable Document1 12 Lobservaci de lhistograma i del diagrama de caixa ens mostra que la variable presenta una forta asimetria cap a la dreta. Encara que no es demanava en lexercici, es recomana comprovar que tant lhistograma com el diagrama de caixa de les dues variables (TOT_SPEND i TOT_SPEND2) s el mateix.
Nota: Per a la realitzaci dels clculs i grfiques, consulteu la Fitxa 11. Mesures de centre i de dispersi i la Fitxa 21. Representaci grfica. Per ms informaci sobre la utilitzaci de lR-Commander, podeu consultar el Mdul 3. Anlisi de dades i estadstica descriptiva amb R i R-Commander que trobareu a lapartat de Materials i fonts dinformaci de laula.