Professional Documents
Culture Documents
Answer
Answer
Resposta:
L’individu és una comunitat autònoma, i la caracterı́stica que observem de cada individu és la seva
taxa d’atur.
Pregunta 2: En aquest conjunt de dades, la variable taxa d’atur
Resposta:
És una variable numèrica, mesurem l’atur de cada comunitat autònoma mitjançant el percentatge de
la població activa que busca feina i no troba.
La taula següent mostra els principals resums numèrics per a aquest conjunt de dades:
Mida mostral 19
Mitjana 14, 81
Desviació estàndard 6, 36
Coeficient de variació 0, 43
Asimetria 0, 91
Curtosi −0, 19
Mı́nim 7, 16
Primer quartil 9, 76
Mediana 12, 24
Tercer quartil 18, 18
Màxim 30, 79
Pregunta 3: Tenint en compte que la tanca superior a un diagrama de caixa és igual a Q3+1, 5·(Q3−Q1),
on Q1 és el primer quartil i Q3 és el tercer quartil, podem afirmar que si representem aquest conjunt de
dades mitjançant un diagrama de caixa:
(A) no hi haurà cap valor atı́pic representat a la part superior del diagrama
(B) hi haurà dos valors atı́pics representats a la part superior del diagrama
(C) hi haurà un valor atı́pic representat a la part superior del diagrama
(D) hi haurà tres valors atı́pics representats a la part superior del diagrama
(E) Cap de les respostes anteriors és correcta
Resposta:
Atès que el valor màxim, 30, 79, és més petit que la tanca superior, al diagrama de caixa no es representarà
cap valor atı́pic.
Pregunta 4: Si considerem un conjunt de dades semblant que recull la taxa d’atur per a les regions
franceses durant el tercer trimestre de 2018, i obtenim que la mitjana és igual a 9,30 i la desviació tı́pica
és igual a 4,51, podem afirmar que
Resposta:
Si calculem el coeficient de variació per a l’economia francesa obtenim 0,48 que és més gran que per a
l’economia espanyola, per tant la dispersió relativa és més gran per a l’economia francesa.
Pregunta 5: D’acord amb el que observem als resums numèrics podem afirmar que
Resposta:
Atès que la mitjana és més gran que la mediana, i que el coeficient d’asimetria és positiu, podem afirmar
que la distribució és asimètrica cap a la dreta.
Pregunta 6: Construı̈u un diagrama de tronc i fulles, arrodonint les dades a la unitat (per exemple 30,79
esdevé 31), i desdoblant els troncs en dos. El tronc (desdoblat) que té més fulles té:
(A) 9 fulles
(B) 6 fulles
(C) 7 fulles
(D) 8 fulles
(E) Cap de les respostes anteriors és correcta
Resposta:
0 | 799
1 | 00011223
1 | 567
2 | 0234
2 |
3 | 1
Com es pot apreciar el tronc que té més fulles és el primer desdoble del tronc 1, que en té 8.
Resposta:
Podem veure que hi ha un valor a la part alta que queda apartat de la resta, i per tant el podem
identificar com un valor atı́pic.
Pregunta 8: La unitat de la fulla del diagrama de tronc i fulles que heu dibuixat és igual a
(A) 10
(B) 0,1
(C) 0,01
(D) 1
(E) Cap de les respostes anteriors és correcta
Resposta:
(A) 60,36
(B) 6,36
(C) 0,636
(D) 0,0636
(E) Cap de les respostes anteriors és correcta
Resposta:
Això és un canvi d’escala, per tant afecta a les mesures de dispersió, a les quals se’ls ha d’aplicar el
mateix canvi d’escala, aixı́ que la desviació estàndard original 6,36 passa a ser 0,0636.
Pregunta 10: Si l’atur creix en un 1% a totes les comunitats autònomes al quart trimestre de 2018, sense
que canviı̈ res més, la desviació estàndard al quart trimestre serà igual a:
(A) 6,36
(B) 6,37
(C) 5,36
(D) 7,36
(E) Cap de les respostes anteriors és correcta
Resposta:
Això és un canvi d’origen, per tant les mesures de dispersió no es veuen afectades i la desviació estàndard
no canviarà de valor.
Pregunta 11: Aproximadament quin temps ha de registrar una dona a la marató si vol acabar abans que
el 90% de les corredores de la marató d’aquest any? (Doneu el resultat en minuts amb una precisió de dos
decimals)
Resposta:
A la taula de la distribució normal estàndard, verifiquem el valor z estandarditzat associat amb una
freqüència de 90% a la dreta. Aquest valor és z = −1, 28. Tenim aixı́:
X − 294
z= = −1, 28
62
O sigui que:
X = 294 − 62 · 1, 28 = 214, 64 minutes
Pregunta 12: Aproximadament quin percentatge de dones acaben en 3 hores o menys la marató?
(A) 5,3%
(B) 1,84%
(C) 3,29%
(D) 96,71%
(E) Cap de les respostes de dalt és correcta
Resposta:
Pregunta 13: Usant la regla 68-95-99.7%, aproximadament quin temps ha de registrar una dona si vol
que únicament 2,5% acabin abans que ella.
Resposta:
Això correspon a la part del 95% de la regla, ja que deixa un 2, 5% de la freqüència a la part inferior
(dones més ràpides). Aquesta part de la regla correspon a dues desviacions estàndard per sota de la
mitjana, aixı́ que aquest temps és 294 − 2 · 62 = 170 minuts.
Pregunta 14: Usant la regla 68-95-99.7%, aproximadament quantes dones s’espera que acabin en més de
356 minuts a una marató amb 1000 corredores?
Resposta:
Aquest valor correspon a exactament una desviació estàndard sobre la mitjana (294 + 62 = 356), aixı́
que això correspon a la part del 68% de la regla. A la cua superior tenim 16% de la freqüència. Per tant,
16% de 1000 és 160.
Pregunta 15: Suposeu que l’Helena acaba exactament amb un temps igual a la mitjana del temps
d’acabament de la marató tant el 2010 com el 2011, però en 2011 la desviació estàndard és 58 minuts en
comptes de 62 minuts com en 2010.
Resposta:
Si el temps de finalització de l’Helena és igual a la mitjana del temps d’acabament tant a 2010 com a
2011, i el temps d’acabament segueix una distribució normal, la distribució és simètrica, i l’Helena acabarà
aproximadament millor que el 50% de les corredores i pitjor que el 50% de les corredores a ambdós anys,
per tant no canviarà al rànquing.
Pregunta 16: Qui acaba abans la marató en el rànquing corresponent (homes o dones) del temps d’aca-
bament de la marató, l’Albert amb un temps mitjà estandarditzat de finalització igual a 0, 5 o la Maria
amb un temps mitjà de finalització igual a 290 minuts?
(A) La Maria
(B) Acaben igual en termes relatius respecte a les seves distribucions corresponents
(C) L’Albert
(D) No es pot determinar amb les dades disponibles
(E) Cap de les respostes de dalt és correcta
Resposta:
Atès que el valor estandarditzat de l’Albert és positiu, està ranquejat per sobre de la mitjana del temps
d’acabament, mentre que la Maria acaba per sota de la mitjana de les dones perquè 290 < 292, de manera
que la proporció d’homes que acaba abans de l’Albert és més gran que la proporció de dones que acaba
abans que la Maria.
Pes Freqüència
absoluta
50-55 2
55-60 7
60-65 17
65-70 30
70-75 14
75-80 7
80-85 3
Resposta:
Amb dades agrupades podem aproximar la mediana mitjançant el punt mig de l’interval al qual pertany
l’observació central de les dades ordenades. Primer calculem les freqüències absolutes acumulades:
Resposta:
Podem calcular la mitjana aproximada, multiplicant el punt mig de cada interval per la seva freqüència
absoluta i dividint pel total de casos:
52, 5 · 2 + 57, 5 · 7 + 62, 5 · 17 + 67, 5 · 30 + 72, 5 · 14 + 77, 5 · 2 + 82, 5 · 2
= 67, 5
80
Resposta:
Hem de calcular els quartils i obtenir la diferència. La localització aproximada del primer quartil és:
80 + 1
= 20, 25
4
i per tant agafem el punt mig de l’interval 60-65, és a dir que Q1 = 62, 5 aproximadament. La localització
aproximada del tercer quartil és:
(80 + 1)
3 = 60, 75
4
i per tant agafem el punt mig de l’interval 70-75, és a dir que Q1 = 72, 5 aproximadament. El rang
interquartı́lic és doncs:
72, 5 − 62, 5 = 10
Pregunta 20: Comparant els valors de la mediana i la mitjana podem dir que
Resposta:
Atès que la mediana aproximada i la mitjana aproximada mostren el mateix valor, podem dir que la
distribució és aproximadament simètrica.
Pregunta 21: Si ens diuen que el coeficient de variació aproximat d’aquest conjunt de dades és igual a
0,097,
(A) podem deduir que la desviació estàndard aproximada (amb dos decimals) és igual a 7,82
(B) podem deduir que la desviació estàndard aproximada (amb dos decimals) és igual a 8,33
(C) podem deduir que la desviació estàndard aproximada (amb dos decimals) és igual a 5,47
(D) podem deduir que la desviació estàndard aproximada (amb dos decimals) és igual a 6,55
(E) Cap de les respostes anteriors és correcta
Resposta:
Atès que el coeficient de variació és igual a la desviació estàndard dividit per la mitjana, podem obtenir
la desviació estàndard fent:
67, 5 · 0, 097 = 6, 5475
60
40
20
A B C
Pregunta 22: Quin resum gràfic correspon al conjunt de dades del pes dels 80 alumnes de la UPF?
(A) A
(B) B
(C) C
(D) AiB
(E) Cap de les respostes anteriors és correcta
Resposta:
Atès que la distribució del pes és aproximadament simètrica, el diagrama no pot ser C. A més el màxim
i el mı́nim del diagrama A són incorrectes. Per tant l’únic diagrama correcte és el B.
Exercici 4: Procés de producció (6 punts)
Durant el procés de producció d’un cert component electrònic, els components han de ser sotmesos a una
sèrie de processos d’escalfament. El temps d’exposició a aquestes processos d’escalfament estan relacionats
amb la vida útil del component. Per estudiar la naturalesa d’aquesta relació, es recull una mostra de 20
components del procés de producció i es verifiquen fins a la seva destrucció. D’aquesta manera es compta
amb dades sobre les variables Temps d’escalfament (“temps”, en minuts) i Vida útil (“vida”, en hores) i
s’obtenen els resultats següents d’una regressió lineal:
20 30 40 50 60
Temps d’escalfament (minuts)
Observem una relació no perfectament lineal, però una associació positiva entre “vida” i “temps”, per
tant la covariància serà positiva.
Pregunta 24: Si a un component no se’l sotmet al procés d’escalfament, i per tant el temps d’escalfament
és igual a 0, la lı́nia de regressió prediu que tindrà una vida útil igual a
Resposta:
Els resultats ens mostren l’estimació del valor de la constant de la regressió, que és igual a 833.8028.
Per tant, aquesta serà la vida útil si la variable explicativa (“temps”) té un valor de 0.
Considereu ara el diagrama de residus corresponent a aquesta regressió:
Diagrama de residus
400
200
Residus
0
−200
−400
20 30 40 50 60
Temps d’escalfament (minuts)
Pregunta 25: D’acord amb el diagrama de residus, si prediem la vida de útil per a temps d’escalfament
entre 20 i 30 minuts utilitzant la regressió lineal,
(A) la recta de regressió predirà un valor més alt del que hauria de ser
(B) la recta de regressió predirà un valor negatiu de la vida útil
(C) la recta de regressió predirà exactament el valor que hauria de ser
(D) la recta de regressió predirà un valor més baix del que hauria de ser
(E) Cap de les respostes anteriors és correcta
Resposta:
Per a aquesta regió de valors del temps d’escalfament tots els residus son negatius, per tant la recta de
regressió està per sobre dels punts reals i la recta sobrepredirà el valor de la vida útil dels components.
Pregunta 26: Els resultats mostrats ens diuen que la variació en la variable “temps” aconsegueix explicar
Resposta:
Hem de mirar el valor del coeficient de determinació, R2 , de la regressió, que podem observar al costat
de l’etiqueta “R-squared”, i veiem un valor de 0.8618, per tant mitjançant aquesta regressió s’aconsegueix
explicar un 86.18% de la variació de la vida útil dels components.
Pregunta 27: El coeficient de correlació (arrodonit a dos decimals) entre “vida” i “temps”
Resposta:
El coeficient de determinació, R2 , és igual al coeficient de correlació al quadrat, i es mostra als resultats
de la regressió al costat de l’etiqueta “R-squared”. Per tant, el coeficient de correlació serà igual a:
√
0.8618 = 0.9283
Resposta:
Usant els resultats mostrats, que ens donen la constant i el pendent de la recta de regressió, la predicció
per a 10 minuts d’escalfament és:
0.0034
Densitat
0.00135
0.00025
0
Puntuacions
Pregunta 29: Utilitzant la regla 68-95-99.7%, valoreu si la distribució de les puntuacions de la valoració
de crèdit pot ser una distribució normal. Pista: considereu les àrees de les columnes de l’histograma per
veure quina proporció de casos representa cada interval de l’histograma, tenint en compte que l’àrea és
igual al producte de la base i l’alçada de la columna.
Resposta:
Hem de calcular el percentatge de casos que representa cada interval de l’histograma, que serà igual
a la proporció de l’àrea de la columna de l’interval sobre l’àrea total. Les àrees de les columnes són les
següents:
200-300: 2.5%
300-400: 13.5%
400-600: 68%
600-700: 13.5%
700-800: 2.5%
Tenint en compte que la desviació estàndard és 100, això és el que prediria la regla 68-95-99.7%, per tant
la distribució es valora com aproximadament normal.
Pregunta 30: Es volen descartar sense més estudis els clients amb puntuacions més baixes en la valoració
del crèdit, però no es vol descartar més d’un 2,5% de les sol·licituds. Quina serà la puntuació mı́nima que
haurà de tenir un client per no ser descartat?
Resposta:
Atès que l’interval 200-300 conté les valoracions més baixes i correspon al 2.5% de la distribució, el
mı́nim per no ser descartat és 300.
Pregunta 31: D’acord amb l’histograma, quants clients obtindran més de 400 punts o més a la valoració
de crèdit?
Resposta:
Les columnes 400-600, 600-700 i 700-800 contenen 68 + 13.5 + 2.5 = 84% de les valoracions. Per tant
això representa 1000 · 0.84 = 840 clients.
En un estudi sobre el comportament del consumidor de música gravada, s’ha recollit informació sobre
30700 persones a Espanya i Nigèria, als quals se’ls ha preguntat pel principal format que usen per escoltar
música gravada de tot tipus. Els resultats de l’enquesta es presenten al gràfic següent:
Usuaris segons el principal format de música gravada que fan servir (milers)
12.2
5.7
4.5
Utilitzant la tècnica de l’anàlisi de dues variables categòriques (Format i Paı́s), contesteu les preguntes
següents.
Pregunta 32: Construı̈u la taula de contingència (amb freqüències absolutes) amb Format com a variable
fila i Paı́s com a variable columna.
Resposta:
Considerant que el gràfic ens dóna els valors en milers, la distribució conjunta de les variables Format
i Paı́s és la següent:
Format / Paı́s Nigèria Espanya
Format Fı́sic 12200 4500
Digital 2300 2400
Streaming 200 5700
Ràdio 1000 2100
Televisió 0 300
Pregunta 33: Presenteu les freqüències relatives (en percentatges amb un decimal) de la distribucions
condicionals de la variable Format condicionada a Paı́s.
Resposta:
Podem calcular la distribució condicional de la variable Format condicionada a Paı́s utilitzant els totals
per a Nigèria i Espanya que trobem a la llegenda del gràfic, per exemple per a Nigèria/Format Fisic és
(12.2/15.7) · 100, etc. Serà aleshores:
Format / Paı́s Nigèria Espanya
Format Fı́sic 77.7 30.0
Digital 14.6 16.0
Streaming 1.3 38.0
Ràdio 6.4 14.0
Televisió 0.0 2.0
Pregunta 34: D’acord amb els resultats obtinguts en els apartats anteriors, raoneu si hi ha o no hi ha
relació entre la variable Format i Paı́s.
Resposta:
Es veu clarament que hi ha relació entre Paı́s i Format, atès que les distribucions del format principal
d’ús de música gravada són molt diferents si condicionem a paı́s. Per a Nigèria, el principal format clarament
és el format fı́sic, seguit del digital i la ràdio, mentre que l’streaming encara no té massa importància. En
canvi a Espanya el principal format és el streaming, i tot que el format fı́sic encara té importància, no en
té tant de pes. També és més important el pes dels formats digital i la ràdio. En cap dels dos paı̈sos el
format televisió té importància.
> Impost.ds$trend
Trim1 Trim2 Trim3 Trim4
2004 NA NA 21075.20 20472.65
2005 19533.73 19256.12 19297.00 19784.55
2006 20135.40 20092.38 20077.69 20039.43
2007 19858.94 19599.19 19416.16 19053.59
2008 19055.66 20063.74 21595.26 23285.29
2009 25016.83 26239.06 26946.55 28221.87
2010 29451.53 29955.11 30715.41 30816.07
2011 30711.83 31178.65 31431.74 31562.81
2012 31746.00 31732.47 31387.46 32406.14
2013 34580.41 37040.83 39687.48 41500.47
2014 42791.28 43714.52 44553.16 45104.89
2015 44899.34 44167.55 42489.93 40676.37
2016 39272.01 38812.72 40250.47 41332.90
2017 41717.00 42354.39 NA NA
> Impost.ds$figure
[1] 0.9717295 1.0976556 0.9821656 0.9484493
> plot(Impost.ds)
Descomposició de la sèrie temporal multiplicativa
Observat
Tendència
Estacional
Aleatori
Temps
Pregunta 35: Comenteu les principals caracterı́stiques d’aquesta sèrie temporal utilitzant la representació
gràfica.
Resposta:
Es tracta d’una sèrie amb tendència creixent, amb algun moviment cı́clic, ja que s’observen unes
oscil·lacions de mig termini, i un fort component estacional. Hi ha un trimestre en el qual la sèrie està per
sobre de la tendència sistemàticament, i 3 trimestres en els quals està per sota de la tendència.
Pregunta 36: Calculeu el valor del component irregular (aleatori) per al primer trimestre de l’any 2017.
Resposta:
Y =T ·E·I
on Y és la sèrie temporal, T és el component tendència, S és el component estacional i I és el component
irregular o aleatori. Per tant el component irregular serà:
Y
I=
T ·E
Per al primer trimestre de 2017, mirem el valor de la sèrie a l’ordre “Impost.ts” (44559.76), de la tendència a
l’ordre “Impost.ds$trend” (41717.00) i del component estacional a l’ordre “Impost.ds$figure” (0.9717295).
Per tant el component irregular és:
44559.76
= 1.099219
41717.00 · 0.9717295
> length(Impost.ts)
[1] 56
> tslm(Impost.ts~trend)
Call:
tslm(formula = Impost.ts ~ trend)
Coefficients:
(Intercept) trend
15225.5 538.9
Feu una predicció del valor de la sèrie per al tercer trimestre de l’any 2018.
Resposta:
A la primera ordre veiem que hi ha 56 perı́odes, per tant t arriba a 56. El tercer trimestre de 2018 són
3 perı́odes més cap al futur, per tant tenim t = 59. Prediem la tendència amb aquest valor de t i ajustem
la predicció utilitzant el component estacional del tercer trimestre, tot tenint en compte que hem fet servir
el model multiplicatiu:
(15225.5 + 538.9 · 59) · 0.9821656 = 46182.02
0−9000
29.7 36.2
(4500)
9001−13000
28.9 28.1
(11000)
13001−20000
27.2 24.1
(16500)
>20000
14.2 11.6
(40000)
Font: Oportunitats d’ocupació i renda a Espanya 2007−2016 (Fundació Ramon Areces, 2017)
Pregunta 38: Calculeu l’ı́ndex de Lorenz-Gini per a 2007 i 2016. Ajuda: per construir el percentatge de
renda acumulada, podeu calcular la contribució de cada segment de renda a la renda agregada usant els
percentatges de població a cada segment. Per exemple la contribució del segment 0-9000 l’any 2007 és:
0, 297 · 4500
= 0.091
0, 2978 · 4500 + 0.289 · 11000 + 0.272 · 16500 + 0.142 · 40000
Resposta:
Calculem els percentatges acumulats de població (pi ) i els percentatges acumulats de renda (qi , aquı́
utilitzem l’ajuda). La taula per a cada any és:
2007 2016
pi qi pi qi
0.297 0.09 0.362 0.12
0.586 0.31 0.643 0.35
0.858 0.61 0.884 0.65
1.000 1.00 1.000 1.00
Per tant l’ı́ndex de Lorenz-Gini per a 2007 és:
Resposta:
El grau de desigualtat abans i després de la crisi és pràcticament igual, la desigualtat ha disminuı̈t
lleugerament de 0.42 a 0.41.