You are on page 1of 16

Universitat Pompeu Fabra - Anàlisi de Dades

Permutació Número: 1
Examen de Desembre 2018 - Duració: 2 hores
L’examen consta de 8 exercicis diferents (Exercicis I-VIII). Els exercicis I a IV s’hauran de con-
testar en les plantilles de respostes que es proveeixen. Cada pregunta compta 1 punt si es respon
correctament i resta un quart de punt si la resposta és incorrecta. Aquestes preguntes es corregiran
mecànicament, aixı́ que assegureu-vos d’entrar les respostes correctament a les plantilles.
Els Exercicis V a VIII es contesten al llibret de respostes. Aquests quatre exercicis es corregiran
de forma manual. Les respostes incorrectes d’aquesta part no compten negativament. Escriviu de
forma clara i precisa.
El total de punts a guanyar de cada exercici consta en el tı́tol de l’exercici.

Instruccions per omplir les plantilles (Exercicis I-IV)


Useu sols llapis, bolı́graf o retolador negre i ompliu bé les caselles. A la primera part de dalt poseu sols el
Nom i el Cognom, aixı́ com el grup.
Ompliu (marcant les caselles de la plantilla) el DNI, la PERMUTACIÓ i el GRUP.
DNI: el vostre número de document d’identitat (si no en teniu, el número que us van assignar en el moment
de matricular-vos).
PERMUT.: Entreu un 1
GRUP: Poseu el número de grup (amb un 0 endavant, o sigui, 01, 02, 03, 04 o 07).
Entreu les respostes en les lı́nies de sota. Cada resposta disposa de dues lı́nies, la primera és per a la
resposta correcta i la segona per anul·lar en cas d’equivocació. Exemple:

Instruccions per contestar els exercicis V a VIII


Contesteu al llibret. No us oblideu d’omplir les vostres dades i signar a la primera pàgina. Podeu utilitzar
llapis o tinta.

Distribuı̈u-vos el temps adequadament! MOLT BONA SORT!


Exercici 1: La taxa d’atur a l’economia espanyola (10 punts)
L’Institut Nacional d’Estadı́stica (INE) publica les dades de l’Enquesta de Població Activa trimestral-
ment. La taxa d’atur és el percentatge de la població activa que busca feina, però no troba. A la taula es
presenta la taxa d’atur (%) per a les diferents comunitats autònomes al tercer trimestre de 2018:

Comunitat Autònoma Taxa d’atur


(%)
Andalusia 22.85
Aragó 9.87
Astúries 13.45
Balears 7.16
Canàries 19.64
Cantàbria 8.99
Castella i Lleó 11.3
Castella La Manxa 16.71
Catalunya 10.63
Comunitat Valenciana 15.29
Extremadura 21.68
Galı́cia 12.24
Madrid 11.86
Múrcia 16.33
Navarra 9.65
Paı́s Basc 9.42
La Rioja 9.6
Ceuta 30.79
Melilla 24.01

En base a aquesta informació responeu a les preguntes següents:

Pregunta 1: En aquest conjunt de dades, un individu és

(A) el tercer trimestre de 2018


(B) una persona a l’atur
(C) una comunitat autònoma
(D) l’economia espanyola
(E) Cap de les respostes anteriors és correcta

Pregunta 2: En aquest conjunt de dades, la variable taxa d’atur

(A) és una sèrie temporal


(B) és una variable numèrica
(C) és una freqüència relativa en percentatges
(D) és una variable categòrica ja que és un percentatge
(E) Cap de les respostes anteriors és correcta
La taula següent mostra els principals resums numèrics per a aquest conjunt de dades:

Mida mostral 19
Mitjana 14, 81
Desviació estàndard 6, 36
Coeficient de variació 0, 43
Asimetria 0, 91
Curtosi −0, 19
Mı́nim 7, 16
Primer quartil 9, 76
Mediana 12, 24
Tercer quartil 18, 18
Màxim 30, 79

Pregunta 3: Tenint en compte que la tanca superior a un diagrama de caixa és igual a Q3+1, 5·(Q3−Q1),
on Q1 és el primer quartil i Q3 és el tercer quartil, podem afirmar que si representem aquest conjunt de
dades mitjançant un diagrama de caixa:

(A) no hi haurà cap valor atı́pic representat a la part superior del diagrama
(B) hi haurà dos valors atı́pics representats a la part superior del diagrama
(C) hi haurà un valor atı́pic representat a la part superior del diagrama
(D) hi haurà tres valors atı́pics representats a la part superior del diagrama
(E) Cap de les respostes anteriors és correcta

Pregunta 4: Si considerem un conjunt de dades semblant que recull la taxa d’atur per a les regions
franceses durant el tercer trimestre de 2018, i obtenim que la mitjana és igual a 9,30 i la desviació tı́pica
és igual a 4,51, podem afirmar que

(A) la dispersió absoluta és igual a l’economia francesa i espanyola


(B) la dispersió relativa és més gran a l’economia espanyola
(C) la dispersió relativa és més gran a l’economia francesa
(D) la dispersió relativa és igual a l’economia francesa i espanyola
(E) Cap de les respostes anteriors és correcta

Pregunta 5: D’acord amb el que observem als resums numèrics podem afirmar que

(A) la distribució és simètrica


(B) la distribució és asimètrica cap a la dreta
(C) la distribució és asimètrica cap a l’esquerra
(D) la distribució no és simètrica ni asimètrica
(E) Cap de les respostes anteriors és correcta

Pregunta 6: Construı̈u un diagrama de tronc i fulles, arrodonint les dades a la unitat (per exemple 30,79
esdevé 31), i desdoblant els troncs en dos. El tronc (desdoblat) que té més fulles té:

(A) 9 fulles
(B) 6 fulles
(C) 7 fulles
(D) 8 fulles
(E) Cap de les respostes anteriors és correcta

Pregunta 7: D’acord amb el diagrama de tronc i fulles que hem dibuixat:

(A) Es poden identificar tres valors atı́pics.


(B) No es pot identificar cap valor atı́pic.
(C) Es pot identificar un valor atı́pic.
(D) Es poden identificar dos valors atı́pics.
(E) Cap de les respostes anteriors és correcta

Pregunta 8: La unitat de la fulla del diagrama de tronc i fulles que heu dibuixat és igual a

(A) 10
(B) 0,1
(C) 0,01
(D) 1
(E) Cap de les respostes anteriors és correcta

Pregunta 9: Si expressem la taxa d’atur com una proporció en comptes que com un percentatge (és a
dir que 30,79 passa a ser 0,3079), la desviació estàndard serà

(A) 60,36
(B) 6,36
(C) 0,636
(D) 0,0636
(E) Cap de les respostes anteriors és correcta

Pregunta 10: Si l’atur creix en un 1% a totes les comunitats autònomes al quart trimestre de 2018, sense
que canviı̈ res més, la desviació estàndard al quart trimestre serà igual a:

(A) 6,36
(B) 6,37
(C) 5,36
(D) 7,36
(E) Cap de les respostes anteriors és correcta

Exercici 2: Temps de finalització de dones en maratons (6 punts)


El temps de finalització de les dones per a les 483 maratons cronometrades que es van fer als Estats
Units el 2010 segueix una distribució aproximadament normal, amb una mitjana de temps d’acabament
de 294 minuts (4 hores i 54 minuts), i amb una desviació estàndard de 62 minuts. Aquestes estadı́stiques
es recullen sols entre les corredores que acaben la marató completa, descartant les que es retiren abans
d’acabar.
Responeu les preguntes següents amb aquesta informació.

Pregunta 11: Aproximadament quin temps ha de registrar una dona a la marató si vol acabar abans que
el 90% de les corredores de la marató d’aquest any? (Doneu el resultat en minuts amb una precisió de dos
decimals)

(A) 161,33 minutes


(B) 214,64 minutes
(C) 183,22 minutes
(D) 257,68 minutes
(E) Cap de les respostes de dalt és correcta

Pregunta 12: Aproximadament quin percentatge de dones acaben en 3 hores o menys la marató?

(A) 5,3%
(B) 1,84%
(C) 3,29%
(D) 96,71%
(E) Cap de les respostes de dalt és correcta

Pregunta 13: Usant la regla 68-95-99.7%, aproximadament quin temps ha de registrar una dona si vol
que únicament 2,5% acabin abans que ella.

(A) 100 minutes


(B) 250 minutes
(C) 200 minutes
(D) 170 minutes
(E) Cap de les respostes de dalt és correcta

Pregunta 14: Usant la regla 68-95-99.7%, aproximadament quantes dones s’espera que acabin en més de
356 minuts a una marató amb 1000 corredores?

(A) 160 dones.


(B) 200 dones.
(C) 100 dones.
(D) 230 dones.
(E) Cap de les respostes de dalt és correcta

Pregunta 15: Suposeu que l’Helena acaba exactament amb un temps igual a la mitjana del temps
d’acabament de la marató tant el 2010 com el 2011, però en 2011 la desviació estàndard és 58 minuts en
comptes de 62 minuts com en 2010.

(A) L’Helena empitjorarà molt al rànquing de 2011 comparat amb el de 2010.


(B) No podem determinar si l’Helena millorarà o empitjorarà al rànquing de 2011 comparat amb el de
2010.
(C) L’Helena no canviarà al rànquing de 2011 comparat amb el de 2010.
(D) L’Helena millorarà molt al rànquing de 2011 comparat amb el de 2010.
(E) Cap de les respostes de dalt és correcta

Pregunta 16: Qui acaba abans la marató en el rànquing corresponent (homes o dones) del temps d’aca-
bament de la marató, l’Albert amb un temps mitjà estandarditzat de finalització igual a 0, 5 o la Maria
amb un temps mitjà de finalització igual a 290 minuts?

(A) La Maria
(B) Acaben igual en termes relatius respecte a les seves distribucions corresponents
(C) L’Albert
(D) No es pot determinar amb les dades disponibles
(E) Cap de les respostes de dalt és correcta

Exercici 3: Dades de la salut de l’alumnat de la UPF (6 punts)


El departament de salut de la UPF realitza un estudi sobre l’estat de la salut de l’alumnat, i per això,
entre d’altres variables, recull informació sobre el pes en kg de 80 alumnes de la universitat. Les dades es
presenten agregades a la taula següent:

Pes Freqüència
absoluta
50-55 2
55-60 7
60-65 17
65-70 30
70-75 14
75-80 7
80-85 3

En base a aquesta informació contesteu les preguntes següents:

Pregunta 17: La mediana aproximada de la distribució del pes de l’alumnat

(A) és igual a 65 kg


(B) és igual a 62,5 kg
(C) no es pot determinar amb les dades disponibles
(D) és igual a 67,5 kg
(E) Cap de les respostes anteriors és correcta

Pregunta 18: Calculeu la mitjana aproximada del pes de l’alumnat inclòs a la mostra.

(A) És igual a 67,5


(B) No es pot determinar amb les dades disponibles.
(C) És igual a 58,2
(D) És igual a 72,1
(E) Cap de les respostes anteriors és correcta

Pregunta 19: Calculeu el rang interquartı́lic.

(A) No es pot calcular amb les dades disponibles.


(B) És igual a 10
(C) És igual a 20
(D) És igual a 5
(E) Cap de les respostes anteriors és correcta

Pregunta 20: Comparant els valors de la mediana i la mitjana podem dir que

(A) la distribució és aproximadament asimètrica cap a la dreta


(B) la distribució és aproximadament simètrica
(C) la distribució no és ni simètrica ni asimètrica
(D) la distribució és aproximadament asimètrica cap a l’esquerra
(E) Cap de les respostes anteriors és correcta

Pregunta 21: Si ens diuen que el coeficient de variació aproximat d’aquest conjunt de dades és igual a
0,097,

(A) podem deduir que la desviació estàndard aproximada (amb dos decimals) és igual a 7,82
(B) podem deduir que la desviació estàndard aproximada (amb dos decimals) és igual a 8,33
(C) podem deduir que la desviació estàndard aproximada (amb dos decimals) és igual a 5,47
(D) podem deduir que la desviació estàndard aproximada (amb dos decimals) és igual a 6,55
(E) Cap de les respostes anteriors és correcta

Considereu els següents resums gràfics:


Pes de l’alumnat de la UPF
120
100
80
Pes

60
40
20

A B C

Pregunta 22: Quin resum gràfic correspon al conjunt de dades del pes dels 80 alumnes de la UPF?

(A) A
(B) B
(C) C
(D) AiB
(E) Cap de les respostes anteriors és correcta

Exercici 4: Procés de producció (6 punts)


Durant el procés de producció d’un cert component electrònic, els components han de ser sotmesos a una
sèrie de processos d’escalfament. El temps d’exposició a aquestes processos d’escalfament estan relacionats
amb la vida útil del component. Per estudiar la naturalesa d’aquesta relació, es recull una mostra de 20
components del procés de producció i es verifiquen fins a la seva destrucció. D’aquesta manera es compta
amb dades sobre les variables Temps d’escalfament (“temps”, en minuts) i Vida útil (“vida”, en hores) i
s’obtenen els resultats següents d’una regressió lineal:

Diagrama de dispersió de Vida útil (hores) vs Temps d’escalfament (minuts)

4000 3500
Vida útil (hores)
3000 2500
2000

20 30 40 50 60
Temps d’escalfament (minuts)

En base a aquests resultats contesteu a les preguntes següents:

Pregunta 23: D’acord amb el diagrama de dispersió, la covariància serà

(A) exactament igual a 0


(B) positiva
(C) negativa
(D) propera a zero
(E) Cap de les respostes anteriors és correcta

Pregunta 24: Si a un component no se’l sotmet al procés d’escalfament, i per tant el temps d’escalfament
és igual a 0, la lı́nia de regressió prediu que tindrà una vida útil igual a

(A) 265.54 hores


(B) 65.73562 hores
(C) 833.8028 hores
(D) 0 hores
(E) Cap de les respostes anteriors és correcta

Considereu ara el diagrama de residus corresponent a aquesta regressió:

Diagrama de residus
400
200
Residus
0
−200
−400

20 30 40 50 60
Temps d’escalfament (minuts)

Pregunta 25: D’acord amb el diagrama de residus, si prediem la vida de útil per a temps d’escalfament
entre 20 i 30 minuts utilitzant la regressió lineal,

(A) la recta de regressió predirà un valor més alt del que hauria de ser
(B) la recta de regressió predirà un valor negatiu de la vida útil
(C) la recta de regressió predirà exactament el valor que hauria de ser
(D) la recta de regressió predirà un valor més baix del que hauria de ser
(E) Cap de les respostes anteriors és correcta

Pregunta 26: Els resultats mostrats ens diuen que la variació en la variable “temps” aconsegueix explicar

(A) un 100% de la variació de la variable “vida”


(B) un 65.74% de la variació de la variable “vida”
(C) un 86.18% de la variació de la variable “vida”
(D) un 0% de la variació de la variable “vida”
(E) Cap de les respostes anteriors és correcta

Pregunta 27: El coeficient de correlació (arrodonit a dos decimals) entre “vida” i “temps”

(A) és aproximadament igual a 0.93


(B) no es pot determinar amb la informació disponible
(C) és aproximadament igual a 0.86
(D) és aproximadament igual a 0.67
(E) Cap de les respostes anteriors és correcta.

Pregunta 28: Si a un component se li sotmet a un procés de 10 minuts d’escalfament, la recta de regressió


preveu que tindrà una vida útil de

(A) 1491.159 hores


(B) 833.8028 hores
(C) 657.3562 hores
(D) 8338.028 hores
(E) Cap de les respostes anteriors és correcta

Exercici 5: Contesteu en el llibret – Avaluació per a crèdits (6 punts)


Les puntuacions de crèdit són números de tres dı́gits que calculen els bancs quan avaluen la capacitat
de crèdit dels seus clients. A continuació es presenta un histograma amb les puntuacions de les valoracions
de 1000 clients d’una oficina bancària:

Histograma de puntuacions per a la valoració del crèdit

0.0034
Densitat

0.00135

0.00025
0

200 300 400 500 600 700 800

Puntuacions

A més sabem que la desviació estàndard és igual a 100.


Pregunta 29: Utilitzant la regla 68-95-99.7%, valoreu si la distribució de les puntuacions de la valoració
de crèdit pot ser una distribució normal. Pista: considereu les àrees de les columnes de l’histograma per
veure quina proporció de casos representa cada interval de l’histograma, tenint en compte que l’àrea és
igual al producte de la base i l’alçada de la columna.
Pregunta 30: Es volen descartar sense més estudis els clients amb puntuacions més baixes en la valoració
del crèdit, però no es vol descartar més d’un 2,5% de les sol·licituds. Quina serà la puntuació mı́nima que
haurà de tenir un client per no ser descartat?
Pregunta 31: D’acord amb l’histograma, quants clients obtindran més de 400 punts o més a la valoració
de crèdit?

Exercici 6: Contesteu en el llibret – Estudi sobre l’ús de la música gravada (6 punts)

En un estudi sobre el comportament del consumidor de música gravada, s’ha recollit informació sobre
30700 persones a Espanya i Nigèria, als quals se’ls ha preguntat pel principal format que usen per escoltar
música gravada de tot tipus. Els resultats de l’enquesta es presenten al gràfic següent:

Usuaris segons el principal format de música gravada que fan servir (milers)

12.2

Total mostra (milers):


Espanya: 15.0
Nigèria: 15.7

5.7
4.5

2.4 2.3 2.1


1.0
0.2 0.3 0.0

Format físic Digital Streaming Ràdio Televisió


(Excl. Streaming)
Utilitzant la tècnica de l’anàlisi de dues variables categòriques (Format i Paı́s), contesteu les preguntes
següents.

Pregunta 32: Construı̈u la taula de contingència (amb freqüències absolutes) amb Format com a variable
fila i Paı́s com a variable columna.
Pregunta 33: Presenteu les freqüències relatives (en percentatges amb un decimal) de la distribucions
condicionals de la variable Format condicionada a Paı́s.
Pregunta 34: D’acord amb els resultats obtinguts en els apartats anteriors, raoneu si hi ha o no hi ha
relació entre la variable Format i Paı́s.

Exercici 7: Contesteu en el llibret - Impostos locals - (5 punts)


L’ajuntament d’una ciutat mitjana recull informació sobre la recaptació trimestral d’impostos locals
entre 2004 i 2017. Les dades (en milers d’euros) venen donades per la taula següent:

Trim1 Trim2 Trim3 Trim4


2004 18391.74 25391.74 21754.88 18420.95
2005 19074.69 19888.40 19746.88 18208.04
2006 19614.63 23248.88 19193.24 18417.54
2007 19287.53 23269.90 17728.32 17804.42
2008 18436.47 21220.35 19794.50 23802.84
2009 24690.19 28486.87 26380.36 26994.85
2010 27158.06 36221.61 28482.88 28920.91
2011 31314.44 32870.46 31000.11 30138.25
2012 32121.89 33111.50 32224.61 28805.52
2013 30694.53 42688.31 40041.92 40671.63
2014 40001.58 47885.22 45171.45 42928.00
2015 44454.33 47846.36 43565.85 38679.29
2016 35282.08 42510.16 37667.19 40903.60
2017 44559.76 41891.97 41358.14 42311.82

S’analitzen aquestes dades amb les ordres següents de l’R:

> Impost.ts <- ts(Impost,start=c(2004,1),freq=4)

> Impost.ds <- decompose(Impost.ts, type="multiplicative")

> Impost.ds$trend
Trim1 Trim2 Trim3 Trim4
2004 NA NA 21075.20 20472.65
2005 19533.73 19256.12 19297.00 19784.55
2006 20135.40 20092.38 20077.69 20039.43
2007 19858.94 19599.19 19416.16 19053.59
2008 19055.66 20063.74 21595.26 23285.29
2009 25016.83 26239.06 26946.55 28221.87
2010 29451.53 29955.11 30715.41 30816.07
2011 30711.83 31178.65 31431.74 31562.81
2012 31746.00 31732.47 31387.46 32406.14
2013 34580.41 37040.83 39687.48 41500.47
2014 42791.28 43714.52 44553.16 45104.89
2015 44899.34 44167.55 42489.93 40676.37
2016 39272.01 38812.72 40250.47 41332.90
2017 41717.00 42354.39 NA NA

> Impost.ds$figure
[1] 0.9717295 1.0976556 0.9821656 0.9484493

> plot(Impost.ds)

Descomposició de la sèrie temporal multiplicativa


Observat
Tendència
Estacional
Aleatori

2004 2006 2008 2010 2012 2014 2016 2018

Temps

Pregunta 35: Comenteu les principals caracterı́stiques d’aquesta sèrie temporal utilitzant la representació
gràfica.
Pregunta 36: Calculeu el valor del component irregular (aleatori) per al primer trimestre de l’any 2017.
Pregunta 37: Utilitzant aquesta informació addicional:

> length(Impost.ts)
[1] 56
> tslm(Impost.ts~trend)
Call:
tslm(formula = Impost.ts ~ trend)
Coefficients:
(Intercept) trend
15225.5 538.9

Feu una predicció del valor de la sèrie per al tercer trimestre de l’any 2018.

Exercici 8: Contesteu en el llibret – Desigualtat a Espanya abans i després de la


crisi de 2008–2014 (5 punts)
La Fundació Ramon Areces i l’Institut Valencià d’Investigacions Econòmiques (Ivie) han fet un estudi
sobre l’impacte de la crisi 2008–2014 sobre l’ocupació i la renda dels diferents grups socials.
Al gràfic següent es presenta l’impacte sobre la renda, dividint la població espanyola segons diferents
segments de renda (en euros, 0-9000, 9001-13000, 13001-20000, 20001 o més, al gràfic també es mostren
entre parèntesis els punts mig de cadascú d’aquests segments), i es presenten els resultats per a un any
abans de la crisi (2007) i un any després de superada la crisi (2016):

Percentatge de població segons grups socials. 2007 i 2016


2007 (%) Renda (punt mig) 2016 (%)

0−9000
29.7 36.2
(4500)

9001−13000
28.9 28.1
(11000)

13001−20000
27.2 24.1
(16500)

>20000
14.2 11.6
(40000)

Font: Oportunitats d’ocupació i renda a Espanya 2007−2016 (Fundació Ramon Areces, 2017)
Utilitzeu la informació del gràfic per respondre les preguntes següents.

Pregunta 38: Calculeu l’ı́ndex de Lorenz-Gini per a 2007 i 2016. Ajuda: per construir el percentatge de
renda acumulada, podeu calcular la contribució de cada segment de renda a la renda agregada usant els
percentatges de població a cada segment. Per exemple la contribució del segment 0-9000 l’any 2007 és:
0, 297 · 4500
= 0.091
0, 2978 · 4500 + 0.289 · 11000 + 0.272 · 16500 + 0.142 · 40000

Pregunta 39: Utilitzant els resultats de l’apartat anterior, compareu el grau de desigualtat de la renda
a Espanya abans i després de la crisi de 2008-2014.

You might also like