You are on page 1of 49

Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz Estadística: exercicis resolts pas a pas Josep

dística: exercicis resolts pas a pas Josep Maria Mateo Sanz

3) La hipòtesis alternativa, H1, és la hipòtesis/afirmació que es vol comprovar i/o


demostrar i, en aquest cas, és veure si el consum mitjà del cotxe és superior a 5 litres
5 CONTRASTOS D'HIPÒTESIS. cada 100 quilòmetres. Matemàticament l’expressem de la següent manera:
H1: μ > 5 (unilateral dreta).
4) La hipòtesis nul·la, H0, és la hipòtesis contrària a la H1. En aquest cas:
H0: μ ≤ 5.
5.1 Contrast sobre una mitjana. 5) Zona H0 de la distribució estadística corresponent. S’ha de consultar la distribució
normal estàndard. La H1 és unilateral dreta i el valor de α és 0.05. Per tant, el punt
z0.05 és 1.64 (1.64485... obtingut amb Excel). En definitiva, la zona de la distribució
5.1.1 X normal, σ coneguda (o X no normal, σ coneguda, mostra gran).
estadística on s’accepta la H0 és (-∞ , 1.64) (si treballem amb més precisió és (-∞ ,
1.64485...)).
Enunciat
6) Zona H1 de la distribució estadística corresponent. La zona de la distribució estadística
La Ventafocs s’ha modernitzat i ara va en cotxe descapotable a la festa del príncep. Amb
on s’accepta la H1 és la complementària a la trobada al pas anterior, per tant és (1.64 ,
l'objectiu de verificar el consum del seu cotxe s'han agafat 16 mesures del consum d'aquest cotxe
∞) (si treballem amb més precisió és (1.64485... , ∞)).
en trajectes de 100 km. Els resultats són: 5.06, 5.08, 4.99, 5.03, 5.04, 5.10, 4.97, 5.12, 5.14, 5.05,
4.93, 4.96, 5.06, 5.02, 5.09 i 4.96. Si suposem que el consum del cotxe segueix una variable
aleatòria normal amb variància 0.01, existeix alguna raó per creure, amb α=0.05, que el consum
mitjà del cotxe és superior a 5 litres cada 100 quilòmetres?

Solució
1) Es vol fer un contrast sobre el consum mitjà del cotxe, per tant, sobre una mitjana
poblacional.
2) Ens diuen que la distribució del consum del cotxe, la variable a estudiar, segueix una
normal i es coneix la variància poblacional σ2=0.01. Per això, per fer el contrast,
agafarem la primera línia de la taula de contrastos.
7) Zona H0 de la mitjana mostral. Del plantejament del contrast i de les dades mostrals
Cal tenir present que, en aquest cas, ens donen la variància poblacional a l’enunciat, que
sabem que n=16, σ=0.1, µ0=5 i hem d’igualar la fórmula de l’estadístic de prova de la
és σ2=0.01, és a dir σ=0.1, ja que aquesta dada no prové de la mostra. Si agafem les
dades de la mostra i calculem la seva variància mostral, S2, obtenim S2 = 0.0038 i S = X f − µ0
primera línia de la taula de contrastos, , a 1.64485... deixant x f , mitjana
0.0620. Sempre que tinguem la dispersió poblacional i la dispersió mostral, com en σ n

aquest cas, a l’hora de fer els càlculs per fer un contrast d’hipòtesis té preferència agafar X f −5
frontera, com a incògnita, és a dir, resolem = 1.64485 i obtenim
la dispersió poblacional. 0.1 16

x f =5.04112... En definitiva, la zona de la mitjana mostral on s’accepta la H0 és (-∞ ,

5.04112...).

73 74
Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz

8) Zona H1 de la mitjana mostral. La zona de la mitjana mostral on s’accepta la H1 és la


complementària a la trobada al pas anterior, per tant és (5.04112... , ∞).

x
H0 H1

5
5.0411

9) Estadístic de prova. Els valors obtinguts de l’enunciat són x =5.0375, n=16, σ=0.1, 12) Conclusió 2. Si volem treballar amb α=0.05 i com αc = 0.0668 > α=0.05, no s’accepta
X − µ0 H1, és a dir, el consum mitja d'aquest cotxe no s’ha demostrat que sigui superior a 5
µ0=5 i de l’estadístic de prova de la primera línia de la taula de contrastos, ,
σ n litres cada 100 km.
obtenim que el valor de l’estadístic de prova d’aquest contrast és EP = 1.5.
10) Conclusió 1. Com la mitjana de la mostra és x = 5.0375 i aquest valor es troba a la
zona de la mitjana mostral on no s’accepta la H1, no podem acceptar aquesta H1, amb un
5.1.2 X no normal, σ desconeguda, mostra gran.
α=0.05, és a dir, el consum mitjà d'aquest cotxe no s’ha demostrat que sigui superior a 5
litres cada 100 km. Arribem a la mateixa conclusió si comprovem que EP=1.5 es troba a
Enunciat
la zona de la distribució estadística on no s’accepta la H1.
La Blancaneus s’ha modernitzat i s’ha comprat un mòbil. Amb l'objectiu de verificar la durada
11) Càlcul del p-valor o nivell significació crític, αc. Com la H1 és unilateral dreta i estem
de la bateria del seu mòbil s'han agafat 60 mesures de la durada de la bateria d'aquest mòbil en
treballant amb la primera línia de la taula de contrastos i EP=1.5, cal buscar l’àrea que hi
unes condicions d’ús estàndard. Amb els resultats d’aquestes 60 mesures s’ha obtingut una
ha a la dreta de l’EP a les taules de la normal estàndard. Usant la distribució normal
mitjana de 38.5 hores i una desviació estàndard de 4 hores. El fabricant d’aquest mòbil assegura
estàndard o Excel o qualsevol programa específic d’Estadística, el resultat és αc =
que la durada de la bateria d’aquest model és de 40 hores o més. Hem pogut demostrar, amb
0.0668.
α=0.05, que la durada de la bateria del mòbil no és la que afirma el fabricant?

Solució
1) Es vol fer un contrast sobre la durada de la bateria del mòbil, per tant, sobre una mitjana
poblacional.
2) A l’enunciat no ens diuen quina distribució segueix la durada de la bateria del mòbil,
per tant no podem suposar que aquesta distribució és la normal. A més, no es coneix ni
la variància poblacional σ2 ni la desviació estàndard poblacional σ i la mostra és de 60
mesures (mostra per sobre de 30 mesures). Per això, agafarem la segona línia de la taula
de contrastos.
75 76
Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz

3) La hipòtesis alternativa, H1, és la hipòtesis/afirmació que es vol comprovar i/o x f =39.15060... En definitiva, la zona de la mitjana mostral on s’accepta la H0 és
demostrar i, en aquest cas, és veure si la durada mitjana de la bateria del mòbil no és la
(39.15060... , ∞).
que afirma el fabricant. El fabricant d’aquest mòbil assegura que la durada de la bateria
8) Zona H1 de la mitjana mostral. La zona de la mitjana mostral on s’accepta la H1 és la
d’aquest model és de 40 hores o més; per tant la H1 és veure si la durada mitjana de la
complementària a la trobada al pas anterior, per tant és (-∞ , 39.15060...).
bateria és inferior a 40 hores. Matemàticament l’expressem de la següent manera:
H1: μ < 40 (unilateral esquerra). x
4) La hipòtesis nul·la, H0, és la hipòtesis contrària a la H1. En aquest cas:
H1 H0
H0: μ ≥ 40.
5) Zona H0 de la distribució estadística corresponent. S’ha de consultar la distribució
normal estàndard. La H1 és unilateral esquerra i el valor de α és 0.05. Per tant, el punt 40
39.1506
-z0.05 és -1.64 (-1.64485... obtingut amb Excel). En definitiva, la zona de la distribució
estadística on s’accepta la H0 és (-1.64 , ∞) (si treballem amb més precisió és (-1.64485 ,
∞)). 9) Estadístic de prova. Els valors obtinguts de l’enunciat són x =38.5, n=60, S=4, µ0=40 i
6) Zona H1 de la distribució estadística corresponent. La zona de la distribució estadística
X − µ0
de l’estadístic de prova de la segona línia de la taula de contrastos, , obtenim
on s’accepta la H1 és la complementària a la trobada al pas anterior, per tant és (-∞ , - S n
1.64) (si treballem amb més precisió és (-∞ , -1.64485...)). que el valor de l’estadístic de prova d’aquest contrast és EP = -2.90473....
10) Conclusió 1. Com la mitjana de la mostra és x = 38.5 i aquest valor es troba a la zona
de la mitjana mostral on s’accepta la H1, podem acceptar aquesta H1, amb un α=0.05, és
a dir, la durada mitjana de la bateria d’aquest mòbil s’ha demostrat que és inferior a 40
hores. Arribem a la mateixa conclusió si comprovem que EP=-2.90473... es troba a la
zona de la distribució estadística on s’accepta la H1.
11) Càlcul del p-valor o nivell significació crític, αc. Com la H1 és unilateral esquerra i
estem treballant amb la segona línia de la taula de contrastos i EP=-2.90473..., cal
buscar l’àrea que hi ha a l’esquerra de l’EP a les taules de la normal estàndard. Usant la
distribució normal estàndard o Excel o qualsevol programa específic d’Estadística, el
resultat és αc = 0.00183... (amb la distribució normal estàndard, treballaríem amb EP=-
7) Zona H0 de la mitjana mostral. Del plantejament del contrast i de les dades mostrals 2.90, arrodonint a la segona xifra decimal, i el resultat del p-valor seria 0.0019).
sabem que n=60, S=4, µ0=40 i hem d’igualar la fórmula de l’estadístic de prova de la
X f − µ0
segona línia de la taula de contrastos, , a -1.64485... deixant x f , mitjana
S n

X f − 40
frontera, com a incògnita, és a dir, resolem = −1.64485 i obtenim
4 60

77 78
Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz

3) La hipòtesis alternativa, H1, és la hipòtesis/afirmació que es vol comprovar i/o


demostrar i, en aquest cas, és veure si el consum mitjà del cotxe és superior a 5 litres
cada 100 quilòmetres. Matemàticament l’expressem de la següent manera:
H1: μ > 5 (unilateral dreta).
4) La hipòtesis nul·la, H0, és la hipòtesis contrària a la H1. En aquest cas:
H0: μ ≤ 5.
5) Zona H0 de la distribució estadística corresponent. S’ha de consultar la distribució t de
Student amb n-1 = 16-1 = 15 graus de llibertat. La H1 és unilateral dreta i el valor de α
és 0.05. Per tant, el punt t0.05 és 1.75 (1.7530503... obtingut amb Excel). En definitiva, la
zona de la distribució estadística on s’accepta la H0 és (-∞ , 1.75) (si treballem amb més
12) Conclusió 2. Si volem treballar amb α=0.05 i com αc = 0.00172... < α=0.05, s’accepta precisió és (-∞ , 1.7530503...)).
H1, és a dir, la durada mitjana de la bateria d’aquest mòbil s’ha demostrat que és inferior 6) Zona H1 de la distribució estadística corresponent. La zona de la distribució estadística
a 40 hores. on s’accepta la H1 és la complementària a la trobada al pas anterior, per tant és (1.75 ,
∞) (si treballem amb més precisió és (1.7530503... , ∞)).

5.1.3 X normal, σ desconeguda.

Enunciat
La Ventafocs s’ha modernitzat i ara va en cotxe descapotable a la festa del príncep. Amb
l'objectiu de verificar el consum del seu cotxe s'han agafat 16 mesures del consum d'aquest cotxe
en trajectes de 100 km. Els resultats són: 5.06, 5.08, 4.99, 5.03, 5.04, 5.10, 4.97, 5.12, 5.14, 5.05,
4.93, 4.96, 5.06, 5.02, 5.09 i 4.96. Si suposem que el consum del cotxe segueix una variable
aleatòria normal amb variància desconeguda, existeix alguna raó per creure, amb α=0.05, que el
consum mitjà del cotxe és superior a 5 litres cada 100 quilòmetres?
7) Zona H0 de la mitjana mostral. Del plantejament del contrast i de les dades mostrals
Solució sabem que n=16, S=0.0620, µ0=5 i hem d’igualar la fórmula de l’estadístic de prova de
1) Es vol fer un contrast sobre el consum mitjà del cotxe, per tant, sobre una mitjana X f − µ0
la tercera línia de la taula de contrastos, , a 1.7530503... deixant x f , mitjana
poblacional. S n
2) Ens diuen que la distribució del consum del cotxe, la variable a estudiar, segueix una
X f −5
normal i no es coneix la variància poblacional σ2. Per això, per fer el contrast, agafarem frontera, com a incògnita, és a dir, resolem = 1.7530503 i obtenim
0.0620 16
la tercera línia de la taula de contrastos.
x f =5.02718... En definitiva, la zona de la mitjana mostral on s’accepta la H0 és (-∞ ,

5.02718...).
79 80
Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz

8) Zona H1 de la mitjana mostral. La zona de la mitjana mostral on s’accepta la H1 és la


complementària a la trobada al pas anterior, per tant és (5.02718... , ∞).

x
H0 H1

5
5.0272

9) Estadístic de prova. Els resultats mostrals obtinguts de l’enunciat són x =5.0375, n=16,
12) Conclusió 2. Si volem treballar amb α=0.05 i com αc = 0.01438... < α=0.05, s’accepta
S=0.0620, µ0=5 i de l’estadístic de prova de la tercera línia de la taula de contrastos,
H1, és a dir, el consum mitjà d'aquest cotxe és superior a 5 litres cada 100 km.
X − µ0
, obtenim que el valor de l’estadístic de prova d’aquest contrast és EP =
S n
2.41851....
10) Conclusió 1. Com la mitjana de la mostra és x = 5.0375 i aquest valor es troba a la 5.2 Contrast sobre una comparació de mitjanes.
zona de la mitjana mostral on s’accepta la H1, acceptem aquesta H1, amb un α=0.05, és
a dir, el consum mitjà d'aquest cotxe és superior a 5 litres cada 100 km. Arribem a la
mateixa conclusió si comprovem que EP=2.41851... es troba a la zona de la distribució 5.2.1 X1 i X2 normals, dependents, σ 1 i σ 2 desconegudes.
estadística on s’accepta la H1.
11) Càlcul del p-valor o nivell significació crític, αc. Com la H1 és unilateral dreta i estem Enunciat
treballant amb la tercera línia de la taula de contrastos i EP=2.41851..., cal buscar l’àrea S’està provant l’efectivitat d’una vacuna per immunitzar-se contra la Covid-19. Per això es
que hi ha a la dreta de l’EP a les taules de la t de Student amb 15 graus de llibertat. mesuren els anticossos IgG que tenen les persones abans de posar-se la vacuna i tres mesos
Usant Excel, o qualsevol programa específic d’Estadística, el resultat és αc = 0.01438.... després. Hi ha una sèrie de personatges que s’han presentat voluntaris per provar la vacuna. Els
resultats obtinguts han estat el següents:

Personatge Abans vacuna 3 mesos després vacuna


Blancaneus 3.3 15.3
Caputxeta Vermella 3.9 17.6
Ventafocs 2.8 14.6
Bella Dorment 3.8 19.6
Fada Ventafocs 4.4 18.5
Príncep Blancaneus 2.3 18.5
Príncep Ventafocs 3.3 13.8
Àvia Caputxeta 2.6 15.6

81 82
Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz

Suposem que les mesures dels anticossos IgG que tenen les persones abans de posar-se la 4) La hipòtesis nul·la, H0, és la hipòtesis contrària a la H1. En aquest cas:
vacuna i tres mesos després segueixen distribucions normals. La vacuna es considera efectiva si H0: μdesprés – μabans ≤ 13.
3 mesos després de la vacuna s’aconsegueixen 13 unitats més d’anticossos IgG que els que es 5) Zona H0 de la distribució estadística corresponent. S’ha de consultar la distribució t de
tenien abans de la vacuna. Amb α=0.05, s’ha demostrat que la vacuna és efectiva? Student amb n-1 = 8-1 = 7 graus de llibertat. La H1 és unilateral dreta i el valor de α és
0.05. Per tant, el punt t0.05 és 1.89 (1.894578... obtingut amb Excel). En definitiva, la
Solució zona de la distribució estadística on s’accepta la H0 és (-∞ , 1.89) (si treballem amb més
1) Es vol fer un contrast sobre l’increment mitjà d’anticossos que es tenen 3 mesos precisió és (-∞ , 1.894578...)).
després de la vacuna respecte els que es tenien abans de la vacuna, per tant, cal tenir clar 6) Zona H1 de la distribució estadística corresponent. La zona de la distribució estadística
que es vol fer un contrast sobre una diferència de mitjanes poblacionals. on s’accepta la H1 és la complementària a la trobada al pas anterior, per tant és (1.89 ,
2) Cal destacar que les dues mostres són dependents ja que s’han agafat les dades, en dos ∞) (si treballem amb més precisió és (1.894578... , ∞)).
instants diferents, sobre els mateixos personatges. A més, ens diuen que la distribució de
la mesura d’anticossos IgG, tant abans com després de la vacuna, segueix una normal.
Per això, agafarem la tercera línia de la taula de contrastos per fer el contrast de la
diferència de dues mitjanes poblacionals quan les mostres són dependents.
Com les mostres són dependents, cal treballar amb una nova variable que representa la
diferència, individu a individu, entre les mesures d’anticossos que es tenen 3 mesos
després de la vacuna menys els que es tenien abans de la vacuna:

Personatge Abans vacuna 3 mesos després vacuna Després – Abans


Blancaneus 3.3 15.3 12.0
Caputxeta Vermella 3.9 17.6 13.7
Ventafocs 2.8 14.6 11.8
Bella Dorment 3.8 19.6 15.8
Fada Ventafocs 4.4 18.5 14.1 7) Zona H0 de la diferència de mitjanes mostrals. Del plantejament del contrast i de les
Príncep Blancaneus 2.3 18.5 16.2
Príncep Ventafocs 3.3 13.8 10.5 dades mostrals sabem que n=8, S=1.9737, µ0=13 i hem d’igualar la fórmula de
Àvia Caputxeta 2.6 15.6 13.0
X f − µ0
l’estadístic de prova de la tercera línia de la taula de contrastos, , a 1.894578...
S n
La mitjana i la desviació estàndard d’aquestes noves 8 dades són X despres − abans = 13.3875
deixant x f , diferència de mitjanes frontera, com a incògnita, és a dir, resolem
i S despres − abans = 1.9737 i són amb aquestes mesures mostrals amb les que treballarem per
X f − 13
fer el contrast. = 1.8945786 i obtenim x f =14.32206... En definitiva, la zona de la
1.9737 8
3) La hipòtesis alternativa, H1, és la hipòtesis/afirmació que es vol comprovar i/o
demostrar i, en aquest cas, és veure si 3 mesos després de la vacuna s’aconsegueixen 13 diferència de mitjanes mostrals on s’accepta la H0 és (-∞ , 14.32206...).

unitats més d’anticossos IgG que els que es tenien abans de la vacuna. Matemàticament 8) Zona H1 de la diferència de mitjanes mostrals. La zona de la diferència de mitjanes

l’expressem de la següent manera: mostrals on s’accepta la H1 és la complementària a la trobada al pas anterior, per tant és

H1: μdesprés – μabans > 13 (unilateral dreta). (14.32206... , ∞).

83 84
Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz

x dif
H0 H1

13
14.3221

9) Estadístic de prova. Els resultats mostrals obtinguts de l’enunciat són x despres − abans =

13.3875, n=8, S despres − abans =1.9737, µ0=13 i de l’estadístic de prova de la tercera línia de
12) Conclusió 2. Si volem treballar amb α=0.05 i com αc = 0.29798... > α=0.05, no
X − µ0
la taula de contrastos, , obtenim que el valor de l’estadístic de prova d’aquest s’accepta H1, és a dir, en mitjana, 3 mesos després de la vacuna no s’ha demostrat que
S n
s’aconsegueixen 13 unitats més d’anticossos IgG que els que es tenien abans de la
contrast és EP = 0.55530....
vacuna.
10) Conclusió 1. Com la diferència de mitjanes mostrals és x despres − abans = 13.3875 i aquest
valor es troba a la zona de la diferència de mitjanes mostrals on no s’accepta la H1, no
podem acceptar aquesta H1, amb un α=0.05, és a dir, en mitjana, 3 mesos després de la 5.2.2 X1 i X2 normals, indep, σ 1 i σ 2 conegudes (o X1 i X2 no normals, σ 1 i

vacuna no s’ha demostrat que s’aconsegueixen 13 unitats més d’anticossos IgG que els σ 2 conegudes, mostres grans).
que es tenien abans de la vacuna. Arribem a la mateixa conclusió si comprovem que
EP=0.55530... es troba a la zona de la distribució estadística on no s’accepta la H1.
Enunciat
11) Càlcul del p-valor o nivell significació crític, αc. Com la H1 és unilateral dreta i estem La bruixa del conte de la Blancaneus està pensant en usar una aspiradora voladora en lloc d’una
treballant amb la tercera línia de la taula de contrastos i EP=0.55530..., cal buscar l’àrea escombra voladora per als seus desplaçaments. Suposem que les velocitats que agafa en els seus
que hi ha a la dreta de l’EP a la distribució de la t de Student amb 7 graus de llibertat. trajectes, tant amb l’aspiradora com amb l’escombra, segueixen distribucions normals amb
Usant Excel, o qualsevol programa específic d’Estadística, el resultat és αc = 0.29798.... desviació estàndard igual a 4 km/h i 6 km/h, respectivament. D’una mostra de 14 trajectes fets
amb l’aspiradora voladora s’ha obtingut una velocitat mitjana de 74 km/h i una desviació
estàndard de 5.2 km/h. Per altra banda, d’una mostra de 20 trajectes fets amb l’escombra
voladora s’ha obtingut una velocitat mitjana de 68 km/h i una desviació estàndard de 6.4 km/h.
Amb aquestes dades, s’hauria demostrat, amb α=0.05, que la velocitat mitjana obtinguda amb
l’aspiradora és més alta que la velocitat mitjana obtinguda amb l’escombra?

Solució
1) Es vol fer un contrast per comparar la velocitat mitjana de l’aspiradora i l’escombra, per
tant, sobre una comparació de mitjanes poblacionals.

85 86
Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz

2) Ens diuen que les velocitats de l’aspiradora i l’escombra, les variables a estudiar,
segueixen distribucions normals i que les desviacions estàndard poblacionals σ1 i σ2 són
4 km/h i 6 km/h (agafant l’aspiradora com a primera mostra/població i l’escombra com
a segona mostra/població). Per això, agafarem la quarta línia de la taula de contrastos
per fer el contrast d’hipòtesis per comparar les velocitats mitjanes de l’aspiradora i
l’escombra.
Cal tenir present que, en aquest cas, ens donen les desviacions estàndard poblacionals a
l’enunciat, que són σ1 = 4 km/h i σ2 = 6 km/h, ja que aquestes dades no provenen de les
mostres. Les desviacions estàndard mostrals són S1 = 5.2 km/h i S2 = 6.4 km/h. Sempre
que tinguem les dispersions poblacionals i les dispersions mostrals, com en aquest cas, a
l’hora de fer els càlculs per fer el contrast d’hipòtesis té preferència agafar les 7) Zona H0 de la diferència de mitjanes mostrals. Del plantejament del contrast i de les
dispersions poblacionals. dades mostrals sabem que n1=14, σ1=4, n2=20, σ2=6 i d0=0 i hem d’igualar la fórmula
3) La hipòtesis alternativa, H1, és la hipòtesis/afirmació que es vol comprovar i/o
demostrar i, en aquest cas, és veure si la velocitat mitjana obtinguda amb l’aspiradora és
(X 1 − X2 ) f
− d0
de l’estadístic de prova de la quarta línia de la taula de contrastos, ,a
σ 2
σ 22
més alta que la velocitat mitjana obtinguda amb l’escombra. Matemàticament 1
+
n1 n2
l’expressem de la següent manera:
H1: μaspiradora > μescombra (unilateral dreta). 1.64485... deixant (X 1 − X2 ) f
, diferència de mitjanes mostrals frontera, com a
Que també la podem expressar com:
H1: μaspiradora - μescombra > 0 (unilateral dreta).
(X 1 − X2 ) f
−0
incògnita, és a dir, resolem = 1.64485 i obtenim
2 2
4 6
4) La hipòtesis nul·la, H0, és la hipòtesis contrària a la H1. En aquest cas: +
14 20
H0: μaspiradora ≤ μescombra.
Que també la podem expressar com: (X 1 − X2 ) f
=2.82170... En definitiva, la zona de la diferència de mitjanes mostrals on

H0: μaspiradora - μescombra ≤ 0. s’accepta la H0 és (-∞ , 2.82170...).


5) Zona H0 de la distribució estadística corresponent. S’ha de consultar la distribució 8) Zona H1 de la diferència de mitjanes mostrals. La zona de la diferència de mitjanes
normal estàndard. La H1 és unilateral dreta i el valor de α és 0.05. Per tant, el punt mostrals on s’accepta la H1 és la complementària a la trobada al pas anterior, per tant és
z0.05 és 1.64 (1.64485... obtingut amb Excel). En definitiva, la zona de la distribució (2.82170... , ∞).
estadística on s’accepta la H0 és (-∞ , 1.64) (si treballem amb més precisió és (-∞ ,
1.64485)). x1 − x 2
6) Zona H1 de la distribució estadística corresponent. La zona de la distribució estadística H0 H1
on s’accepta la H1 és la complementària a la trobada al pas anterior, per tant és (1.64 ,
∞) (si treballem amb més precisió és (1.64485... , ∞)).
0
2.8217

87 88
Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz

9) Estadístic de prova. Els valors obtinguts de l’enunciat són x1 =74, n1=14, σ1=4, x2 =68,
5.2.3 X1 i X2 no normals, indep, σ 1 i σ 2 desconegudes, mostres grans.
n2=20, σ2=6, d0=0 i de la fórmula de l’estadístic de prova de la quarta línia de la taula de

contrastos,
(X 1 − X 2 − d0 ) , obtenim que el valor de l’estadístic de prova d’aquest Enunciat
σ 12 σ 22
+ La bruixa del conte de la Blancaneus està pensant en usar una aspiradora voladora en lloc d’una
n1 n2
escombra voladora per als seus desplaçaments. D’una mostra de 44 trajectes fets amb
contrast és EP = 3.49757....
l’aspiradora voladora s’ha obtingut una velocitat mitjana de 76 km/h i una desviació estàndard
10) Conclusió 1. Com la diferència de mitjanes de les mostres x1 − x2 = 74 - 68 = 6 i aquest de 5.2 km/h. Per altra banda, d’una mostra de 60 trajectes fets amb l’escombra voladora s’ha
valor es troba a la zona de la diferència de mitjanes mostrals on s’accepta la H1, podem obtingut una velocitat mitjana de 78 km/h i una desviació estàndard de 6.4 km/h. Amb aquestes
acceptar aquesta H1, amb un α=0.05, és a dir, la velocitat mitjana obtinguda amb dades, s’hauria demostrat, amb α=0.05, que la velocitat mitjana obtinguda amb l’aspiradora és
l’aspiradora és més alta que la velocitat mitjana obtinguda amb l’escombra. Arribem a menor que la velocitat mitjana obtinguda amb l’escombra?
la mateixa conclusió si comprovem que EP=3.49757... es troba a la zona de la
distribució estadística on s’accepta la H1. Solució
11) Càlcul del p-valor o nivell significació crític, αc. Com la H1 és unilateral dreta i estem 1) Es vol fer un contrast per comparar la velocitat mitjana de l’aspiradora i l’escombra, per
treballant amb la quarta línia de la taula de contrastos i EP=3.49757..., cal buscar l’àrea tant, sobre una comparació de mitjanes poblacionals.
que hi ha a la dreta de l’EP a les taules de la normal estàndard. Usant la distribució 2) No ens diuen res sobre la distribució de la potència de cadascuna de les varetes
normal estàndard o Excel o qualsevol programa específic d’Estadística, el resultat és αc màgiques, les variables a estudiar, per tant no podem suposar que segueixen
= 0.0002... (amb la distribució normal estàndard, treballaríem amb EP=3.50, arrodonint distribucions normals. A més, no coneixem les variàncies poblacionals σ12 i σ22 (ni les
a la segona xifra decimal, i el resultat del p-valor seria 0.0002). desviacions estàndard poblacionals σ1 i σ2) i les mostres són grans ja que passen de 30
elements cadascuna. Per això, agafarem la cinquena línia de la taula de contrastos per
fer el contrast d’hipòtesis per comparar les velocitats mitjanes de l’aspiradora i
l’escombra (agafant l’aspiradora com a primera mostra/població i l’escombra com a
segona mostra/població).
3) La hipòtesis alternativa, H1, és la hipòtesis/afirmació que es vol comprovar i/o
demostrar i, en aquest cas, és veure si la velocitat mitjana obtinguda amb l’aspiradora és
menor que la velocitat mitjana obtinguda amb l’escombra. Matemàticament l’expressem
de la següent manera:
H1: μaspiradora < μescombra (unilateral esquerra).
Que també la podem expressar com:

12) Conclusió 2. Si volem treballar amb α=0.05 i com αc = 0.0002... < α=0.05, s’accepta H1: μaspiradora - μescombra < 0 (unilateral esquerra).

H1, és a dir, la velocitat mitjana obtinguda amb l’aspiradora és més alta que la velocitat 4) La hipòtesis nul·la, H0, és la hipòtesis contrària a la H1. En aquest cas:

mitjana obtinguda amb l’escombra. H0: μaspiradora ≥ μescombra.

89 90
Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz

Que també la podem expressar com: 8) Zona H1 de la diferència de mitjanes mostrals. La zona de la diferència de mitjanes
H0: μaspiradora - μescombra ≥ 0. mostrals on s’accepta la H1 és la complementària a la trobada al pas anterior, per tant és
5) Zona H0 de la distribució estadística corresponent. S’ha de consultar la distribució (-∞ , -1.87341...).
normal estàndard. La H1 és unilateral esquerra i el valor de α és 0.05. Per tant, el punt
-z0.05 és -1.64 (-1.64485... obtingut amb Excel). En definitiva, la zona de la distribució x1 − x 2
estadística on s’accepta la H0 és (-1.64 , ∞) (si treballem amb més precisió és (-1.64485 , H1 H0
∞)).
6) Zona H1 de la distribució estadística corresponent. La zona de la distribució estadística
0
on s’accepta la H1 és la complementària a la trobada al pas anterior, per tant és (-∞ , - -1.8734
1.64) (si treballem amb més precisió és (-∞ , -1.64485...)).

9) Estadístic de prova. Els valors obtinguts de l’enunciat són x1 =76, n1=44, S1=5.2,

x2 =78, n2=60, S2=6.4, d0=0 i de la fórmula de l’estadístic de prova de la cinquena línia

de la taula de contrastos,
(X 1 )
− X 2 − d0
, obtenim que el valor de l’estadístic de prova
S12 S 22
+
n1 n2

d’aquest contrast és EP = -1.75599....


10) Conclusió 1. Com la diferència de mitjanes de les mostres x1 − x2 = 76 - 78 = -2 i
aquest valor es troba a la zona de la diferència de mitjanes mostrals on s’accepta la H1,
7) Zona H0 de la diferència de mitjanes mostrals. Del plantejament del contrast i de les podem acceptar aquesta H1, amb un α=0.05, és a dir, la velocitat mitjana obtinguda amb
dades mostrals sabem que n1=44, S1=5.2, n2=60, S2=6.4 i d0=0 i hem d’igualar la l’aspiradora és menor que la velocitat mitjana obtinguda amb l’escombra. Arribem a la
fórmula de l’estadístic de prova de la cinquena línia de la taula de contrastos, mateixa conclusió si comprovem que EP=-1.75599... es troba a la zona de la distribució

(X − X2 ) − d0 estadística on s’accepta la H1.


(X )
1
f
, a -1.64485... deixant 1 − X2 , diferència de mitjanes mostrals 11) Càlcul del p-valor o nivell significació crític, αc. Com la H1 és unilateral esquerra i
S12 S 22 f
+ estem treballant amb la cinquena línia de la taula de contrastos i EP=-1.75599..., cal
n1 n2
buscar l’àrea que hi ha a l’esquerra de l’EP a les taules de la normal estàndard. Usant la
(X 1 − X2 ) f
−0
distribució normal estàndard o Excel o qualsevol programa específic d’Estadística, el
frontera, com a incògnita, és a dir, resolem = −1.64485 i obtenim
5.22 6.42 resultat és αc = 0.03954... (amb la distribució normal estàndard, treballaríem amb EP=-
+
44 60
1.76, arrodonint a la segona xifra decimal, i el resultat del p-valor seria 0.0392).
(X 1 − X2 ) f
= -1.87341... En definitiva, la zona de la diferència de mitjanes mostrals on

s’accepta la H0 és (-1.87341... , ∞).

91 92
Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz

valors de les variàncies poblacionals σ12 i σ22, és a dir, són desconegudes però ens diuen
que podem suposar que són iguals o semblants. Per això, agafarem la sisena línia de la
taula de contrastos per fer el contrast d’hipòtesis per comparar les velocitats mitjanes de
l’aspiradora i l’escombra (agafant l’aspiradora com a primera mostra/població i
l’escombra com a segona mostra/població).
3) La hipòtesis alternativa, H1, és la hipòtesis/afirmació que es vol comprovar i/o
demostrar i, en aquest cas, és veure si la velocitat mitjana obtinguda amb l’aspiradora és
diferent de la velocitat mitjana obtinguda amb l’escombra. Matemàticament
l’expressem de la següent manera:
H1: μaspiradora ≠ μescombra (bilateral).
12) Conclusió 2. Si volem treballar amb α=0.05 i com αc = 0.03954... < α=0.05, s’accepta Que també la podem expressar com:
H1, és a dir, la velocitat mitjana obtinguda amb l’aspiradora és menor que la velocitat H1: μaspiradora - μescombra ≠ 0 (bilateral).
mitjana obtinguda amb l’escombra. 4) La hipòtesis nul·la, H0, és la hipòtesis contrària a la H1. En aquest cas:
H0: μaspiradora = μescombra.
Que també la podem expressar com:
5.2.4 X1 i X2 normals, indep, σ 1 i σ 2 desconegudes, dispersió semblant. H0: μaspiradora - μescombra = 0.
5) Zona H0 de la distribució estadística corresponent. S’ha de consultar la distribució t de
Enunciat Student amb n1+n2-2 = 12+20-2 = 30 graus de llibertat. La H1 és bilateral i el valor de
La bruixa del conte de la Blancaneus està pensant en usar una aspiradora voladora en lloc d’una α és 0.05. Per tant, cal mirar quin punt deixa a la seva dreta una àrea de α/2 = 0.05/2 =
escombra voladora per als seus desplaçaments. Suposem que les velocitats que agafa en els seus 0.025. Aquest punt és t0.025=2.04 (2.04227... obtingut amb Excel). En definitiva, la zona
trajectes, tant amb l’aspiradora com amb l’escombra, segueixen distribucions normals amb de la distribució estadística on s’accepta la H0 és (-2.04 , 2.04) (si treballem amb més
variàncies semblants. D’una mostra de 12 trajectes fets amb l’aspiradora voladora s’ha obtingut precisió és (-2.04227... , 2.04227...)).
una velocitat mitjana de 76 km/h i una desviació estàndard de 5.2 km/h. Per altra banda, d’una 6) Zona H1 de la distribució estadística corresponent. La zona de la distribució estadística
mostra de 20 trajectes fets amb l’escombra voladora s’ha obtingut una velocitat mitjana de 78 on s’accepta la H1 és la complementària a la trobada al pas anterior, per tant és (-∞ , -
km/h i una desviació estàndard de 6.4 km/h. Amb aquestes dades, s’hauria demostrat, amb 2.04) U (2.04 , ∞) (si treballem amb més precisió és (-∞ , -2.04227...) U (2.04227... ,
α=0.05, que la velocitat mitjana obtinguda amb l’aspiradora és diferent de la velocitat mitjana ∞)).
obtinguda amb l’escombra?

Solució
1) Es vol fer un contrast per comparar la velocitat mitjana de l’aspiradora i l’escombra, per
tant, sobre una comparació de mitjanes poblacionals.
2) Ens diuen que les velocitats de l’aspiradora i l’escombra, les variables a estudiar,
segueixen distribucions normals segueixen distribucions normals i no ens donen els

93 94
Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz

x1 − x 2
H1 H0 H1

0
-4.4654 4.4654

9) Estadístic de prova. Els valors obtinguts de l’enunciat són x1 =76, n1=12, S1=5.2,

x2 =78, n2=20, S2=6.4, d0=0 i de la fórmula de l’estadístic de prova de la quarta línia de

7) Zona H0 de la diferència de mitjanes mostrals. Del plantejament del contrast i de les


la taula de contrastos,
(X 1 − X 2 )− d 0
, obtenim que el valor de
dades mostrals sabem que n1=12, S1=5.2, n2=20, S2=6.4 i d0=0 i hem d’igualar la 1 1  (n1 − 1)S 12 + (n 2 − 1)S 22 
 +  
 
fórmula de l’estadístic de prova de la sisena línia de la taula de contrastos,  n1 n 2  n1 + n 2 − 2 

(X − X2 ) − d0 l’estadístic de prova d’aquest contrast és EP = -0.91470....


( )
1
f
, a 2.04227... deixant X 1 − X 2 , diferència de
 1 1   ( n1 − 1) S12 + ( n2 − 1) S 22  f 10) Conclusió 1. Com la diferència de mitjanes de les mostres x1 − x2 = 76 - 78 = -2 i
 +  
 n1 n2   n1 + n2 − 2  aquest valor es troba a la zona de la diferència de mitjanes mostrals on s’accepta la H0,
mitjanes mostrals frontera, com a incògnita, és a dir, resolem no podem afirmar que s’ha demostrat la H1, amb un α=0.05, és a dir, no s’ha demostrat

(X − X2 ) −0 que la velocitat mitjana obtinguda amb l’aspiradora és diferents de la velocitat mitjana


( )
1
f
= 2.04227 i obtenim X1 − X 2 = obtinguda amb l’escombra. Arribem a la mateixa conclusió si comprovem que EP=-
 1 1   (12 − 1) 5.2 + ( 20 − 1) 6.4 
2 2 f

 +   0.91470... es troba a la zona de la distribució estadística on s’accepta la H0.


 12 20   12 + 20 − 2 
11) Càlcul del p-valor o nivell significació crític, αc. Com la H1 és bilateral i estem
4.46543... En definitiva, la zona de la diferència de mitjanes mostrals on s’accepta la H0
treballant amb la sisena línia de la taula de contrastos i EP=-0.91470..., cal buscar l’àrea
és (-4.46543... , 4.46543...).
que hi ha a la dreta del valor absolut de l’EP a les taules de la t de Student amb 30 graus
8) Zona H1 de la diferència de mitjanes mostrals. La zona de la diferència de mitjanes
de llibertat i multiplicar aquesta àrea per 2. Usant Excel o qualsevol programa específic
mostrals on s’accepta la H1 és la complementària a la trobada al pas anterior, per tant és
d’Estadística, tenim que el punt |EP| = 0.91470... deixa a la seva dreta una àrea de
(-∞ , -4.46543...) U (4.46543... , ∞).
0.18382... (usant la t de Student amb 30 graus de llibertat) i, per tant, el resultat del p-
valor és αc = 2·0.18382... = 0.36764....

95 96
Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz

valors de les variàncies poblacionals σ12 i σ22, és a dir, són desconegudes i no ens diuen
res sobre si podem suposar que són iguals o semblants o no, per tant no podem suposar
que siguin semblants i hem de suposar que són diferents. Per això, agafarem la setena
línia de la taula de contrastos per fer el contrast d’hipòtesis per comparar les velocitats
mitjanes de l’aspiradora i l’escombra (agafant l’aspiradora com a primera
mostra/població i l’escombra com a segona mostra/població).
3) La hipòtesis alternativa, H1, és la hipòtesis/afirmació que es vol comprovar i/o
demostrar i, en aquest cas, és veure si la velocitat mitjana obtinguda amb l’aspiradora és
7 km/h més alta que la velocitat mitjana obtinguda amb l’escombra. Matemàticament
l’expressem de la següent manera:
H1: μaspiradora > μescombra +7 (unilateral dreta).
12) Conclusió 2. Si volem treballar amb α=0.05 i com αc = 0.36764... > α=0.05, no s’ha
Que també la podem expressar com:
demostrat la H1, és a dir, no s’ha demostrat que la velocitat mitjana obtinguda amb
H1: μaspiradora - μescombra > 7 (unilateral dreta).
l’aspiradora sigui diferent de la velocitat mitjana obtinguda amb l’escombra.
4) La hipòtesis nul·la, H0, és la hipòtesis contrària a la H1. En aquest cas:
H0: μaspiradora ≤ μescombra +7.

5.2.5 X1 i X2 normals, indep, σ 1 i σ 2 desconegudes, dispersió diferent. Que també la podem expressar com:
H0: μaspiradora - μescombra ≤ 7.
5) Zona H0 de la distribució estadística corresponent. S’ha de consultar la distribució t de
Enunciat
(n 2 (n 2 − 1) s12 − n1 (n1 − 1) s 22 ) 2
La bruixa del conte de la Blancaneus està pensant en usar una aspiradora voladora en lloc d’una Student amb n1+n2-2- = 12+20-2-3 = 27 graus de
n 22 (n 2 − 1) s14 + n12 (n1 − 1) s 24
escombra voladora per als seus desplaçaments. Suposem que les velocitats que agafa en els seus
llibertat. La H1 és unilateral dreta i el valor de α és 0.05. Per tant, cal mirar quin punt
trajectes, tant amb l’aspiradora com amb l’escombra, segueixen distribucions normals. D’una
deixa a la seva dreta una àrea de 0.05. Aquest punt és t0.05=1.70 (1.70328... obtingut
mostra de 12 trajectes fets amb l’aspiradora voladora s’ha obtingut una velocitat mitjana de 86
amb Excel). En definitiva, la zona de la distribució estadística on s’accepta la H0 és (-∞ ,
km/h i una desviació estàndard de 5.2 km/h. Per altra banda, d’una mostra de 20 trajectes fets
1.70) (si treballem amb més precisió és (-∞ , 1.70328...)).
amb l’escombra voladora s’ha obtingut una velocitat mitjana de 76 km/h i una desviació
6) Zona H1 de la distribució estadística corresponent. La zona de la distribució estadística
estàndard de 6.4 km/h. Amb aquestes dades, s’hauria demostrat, amb α=0.05, que la velocitat
on s’accepta la H1 és la complementària a la trobada al pas anterior, per tant és (1.70 ,
mitjana obtinguda amb l’aspiradora és 7 km/h més alta que la velocitat mitjana obtinguda amb
l’escombra? ∞) (si treballem amb més precisió és (1.70328... , ∞)).

Solució
1) Es vol fer un contrast per comparar la velocitat mitjana de l’aspiradora i l’escombra, per
tant, sobre una comparació de mitjanes poblacionals.
2) Ens diuen que les velocitats de l’aspiradora i l’escombra, les variables a estudiar,
segueixen distribucions normals segueixen distribucions normals i no ens donen els
97 98
Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz

9) Estadístic de prova. Els valors obtinguts de l’enunciat són x1 =86, n1=12, S1=5.2,

x2 =76, n2=20, S2=6.4, d0=7 i de la fórmula de l’estadístic de prova de la setena línia de

la taula de contrastos,
(X 1 )
− X 2 − d0
, obtenim que el valor de l’estadístic de prova
2
S S2
1
+ 2
n1 n2

d’aquest contrast és EP = 1.44650....


10) Conclusió 1. Com la diferència de mitjanes de les mostres x1 − x2 = 86 - 76 = 10 i
aquest valor es troba a la zona de la diferència de mitjanes mostrals on s’accepta la H0,
no podem afirmar que s’ha demostrat la H1, amb un α=0.05, és a dir, no s’ha demostrat
7) Zona H0 de la diferència de mitjanes mostrals. Del plantejament del contrast i de les
que la velocitat mitjana obtinguda amb l’aspiradora és 7 km/h més alta que la velocitat
dades mostrals sabem que n1=12, S1=5.2, n2=20, S2=6.4 i d0=7 i hem d’igualar la
mitjana obtinguda amb l’escombra. Arribem a la mateixa conclusió si comprovem que
fórmula de l’estadístic de prova de la setena línia de la taula de contrastos,
EP=1.44650... es troba a la zona de la distribució estadística on s’accepta la H0.
(X − X2 ) − d0
(X )
1
f
, a 1.70328... deixant − X2 , diferència de mitjanes mostrals 11) Càlcul del p-valor o nivell significació crític, αc. Com la H1 és unilateral dreta i estem
1
S12 S 22 f
treballant amb la setena línia de la taula de contrastos i EP=1.44650..., cal buscar l’àrea
+
n1 n2
que hi ha a la dreta de l’EP a les taules de la t de Student amb 27 graus de llibertat.
(X 1 − X2 ) f
−7 Usant Excel o qualsevol programa específic d’Estadística, tenim que el punt EP =
frontera, com a incògnita, és a dir, resolem = 1.70328 i obtenim
5.2 6.42 2 1.4465... deixa a la seva dreta una àrea de 0.07977... (usant la t de Student amb 27 graus
+
12 20 de llibertat) i, per tant, el resultat del p-valor és αc = 0.07977....

(X 1 − X2 ) f
= 10.53256... En definitiva, la zona de la diferència de mitjanes mostrals on

s’accepta la H0 és (-∞ , 10.53256...).


8) Zona H1 de la diferència de mitjanes mostrals. La zona de la diferència de mitjanes
mostrals on s’accepta la H1 és la complementària a la trobada al pas anterior, per tant és
(10.53256... , ∞).

x1 − x 2
H0 H1

7 12) Conclusió 2. Si volem treballar amb α=0.05 i com αc = 0.07977... > α=0.05, no s’ha
10.5326
demostrat la H1, és a dir, no s’ha demostrat que la velocitat mitjana obtinguda amb
l’aspiradora és 7 km/h més alta que la velocitat mitjana obtinguda amb l’escombra.
99 100
Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz

6) Zona H1 de la distribució estadística corresponent. La zona de la distribució estadística


on s’accepta la H1 és la complementària a la trobada al pas anterior, per tant és (23.7 ,
5.3 Contrast sobre una variància.
∞) (si treballem amb més precisió és (23.684791... , ∞)).

Enunciat
El temps que triga la Caputxeta Vermella en anar de casa seva a casa de l’àvia segueix una
distribució normal. D’una mostra de 15 dies en què ha fet aquest trajecte, s’ha obtingut que ha
trigat els temps següents, en minuts: 28.7, 29.9, 32.4, 29.4, 29.2, 31.7,32.9, 26.9, 36.9,26.9, 25.5,
29.1, 25.1,30.4 i 34.6. S’ha demostrat, amb α=0.05, que la variància del temps que triga la
Caputxeta diàriament en fer aquest recorregut està per sobre de 8 minuts2?

Solució
1) Es vol fer un contrast sobre la variància del temps que triga la Caputxeta diàriament en
fer el recorregut entre casa seva i casa de l’àvia, per tant, sobre una variància
poblacional.
2) Ens diuen que el temps que triga la Caputxeta Vermella en anar de casa seva a casa de 7) Zona H0 de la variància mostral. Del plantejament del contrast i de les dades mostrals
l’àvia, la variable a estudiar, segueix una distribució normal. Amb aquesta condició, la sabem que n=15, S2=10.92638... i σ02=8 i hem d’igualar la fórmula de l’estadístic de
vuitena línia de la taula de contrastos és l’única opció que tenim per fer un contrast
( n − 1) S f 2
d’hipòtesis per a una variància poblacional. prova de la vuitena línia de la taula de contrastos, , a 23.684791... deixant
σ 02
3) La hipòtesis alternativa, H1, és la hipòtesis/afirmació que es vol comprovar i/o
S 2f , variància mostral frontera, com a incògnita, és a dir, resolem
demostrar i, en aquest cas, és veure si la variància del temps que triga la Caputxeta
diàriament en fer aquest recorregut està per sobre de 8 minuts2. Matemàticament (15 − 1) S f 2

= 23.684791 i obtenim S 2f = 13.534166... En definitiva, la zona de la


8
l’expressem de la següent manera:
variància mostral on s’accepta la H0 és (0 , 13.534166...).
H1: σ2 > 8 (unilateral dreta).
8) Zona H1 de la variància mostral. La zona de la variància mostral on s’accepta la H1 és la
4) La hipòtesis nul·la, H0, és la hipòtesis contrària a la H1. En aquest cas:
H0: σ2 ≤ 8. complementària a la trobada al pas anterior, per tant és (13.534166... , ∞).

5) Zona H0 de la distribució estadística corresponent. S’ha de consultar la distribució khi


S2
quadrat amb n-1 = 15-1 = 14 graus de llibertat. La H1 és unilateral dreta i el valor de α
H0 H1
és 0.05. Per tant, cal mirar quin punt deixa a la seva dreta una àrea de 0.05. Aquest punt
χα2 χ=
és = 2
0.05 23.7 (23.684791... obtingut amb Excel). En definitiva, la zona de la
distribució estadística on s’accepta la H0 és (0 , 23.7) (si treballem amb més precisió és 0 8
13.5342
(0 , 23.684791...)). Cal recordar que la distribució khi quadrat no pren valors negatius i
“comença” a zero (no a -∞).

101 102
Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz

9) Estadístic de prova. Els valors obtinguts de l’enunciat són n=15, S2=10.92638... i σ02=8
5.4 Contrast sobre una comparació de variàncies.
i de la fórmula de l’estadístic de prova de la vuitena línia de la taula de contrastos,
(n − 1)S 2 , obtenim que el valor de l’estadístic de prova d’aquest contrast és EP =
σ 02 Enunciat
Quan s’han comparat les velocitats mitjanes de l’aspiradora voladora i l’escombra voladora de la
19.12116....
2 bruixa del conte de la Blancaneus teníem el resultat de dues mostres. D’una mostra de 12
10) Conclusió 1. Com la variància mostral és S =10.92638... i aquest valor es troba a la
trajectes fets amb l’aspiradora voladora s’ha obtingut una velocitat mitjana de 76 km/h i una
zona de la variància mostral on s’accepta la H0, no podem afirmar que s’ha demostrat la
desviació estàndard de 5.2 km/h. Per altra banda, d’una mostra de 20 trajectes fets amb
H1, amb un α=0.05, és a dir, no s’ha demostrat que la variància del temps que triga la
l’escombra voladora s’ha obtingut una velocitat mitjana de 78 km/h i una desviació estàndard de
Caputxeta diàriament en fer aquest recorregut està per sobre de 8 minuts2. Arribem a la
6.4 km/h. A més suposàvem que les velocitats que agafa en els seus trajectes, tant amb
mateixa conclusió si comprovem que EP=19.12116... es troba a la zona de la distribució
l’aspiradora com amb l’escombra, segueixen distribucions normals amb variàncies semblants.
estadística on s’accepta la H0.
Contrasteu, amb α=0.05, si es pot suposar que les variàncies poblacionals de la velocitat
11) Càlcul del p-valor o nivell significació crític, αc. Com la H1 és unilateral dreta i estem
obtinguda amb l’aspiradora i de la velocitat obtinguda amb l’escombra són iguals o no.
treballant amb la vuitena línia de la taula de contrastos i EP=19.12116..., cal buscar
l’àrea que hi ha a la dreta de l’EP a la distribució khi quadrat amb 14 graus de llibertat.
Solució
Usant Excel o qualsevol programa específic d’Estadística, tenim que el punt EP =
1) Es vol fer un contrast per comparar les variàncies de les velocitats obtingudes amb
19.12116... deixa a la seva dreta una àrea de 0.16037... (usant la khi quadrat amb 14
l’aspiradora i amb l’escombra, per tant, sobre una comparació de dues variàncies
graus de llibertat) i, per tant, el resultat del p-valor és αc = 0.16037....
poblacionals.
2) Ens diuen que les velocitats que agafa la bruixa del conte de la Blancaneus en els seus
trajectes, tant amb l’aspiradora com amb l’escombra, segueixen distribucions normals.
Amb aquesta condició, la novena línia de la taula de contrastos és l’única opció que
tenim per fer un contrast d’hipòtesis per comparar dues variàncies poblacionals.
3) La hipòtesis alternativa, H1, és la hipòtesis/afirmació que es vol comprovar i/o
demostrar i, en aquest cas, és veure si la variància de la velocitat obtinguda amb
l’aspiradora és diferent que la variància de la velocitat obtinguda amb l’escombra.
Matemàticament l’expressem de la següent manera:
H1: σ2aspiradora ≠ σ2escombra (bilateral).
4) La hipòtesis nul·la, H0, és la hipòtesis contrària a la H1. En aquest cas:
H0: σ2aspiradora = σ2escombra.
12) Conclusió 2. Si volem treballar amb α=0.05 i com αc = 0.16037... > α=0.05, no s’ha 5) Zona H0 de la distribució estadística corresponent. S’ha de consultar la distribució F de
demostrat la H1, és a dir, no s’ha demostrat que la variància del temps que triga la Fisher-Snedecor amb n1-1 = 12-1 = 11 i n2-1 = 20-1 = 19 graus de llibertat (agafant
2
Caputxeta diàriament en fer aquest recorregut està per sobre de 8 minuts . l’aspiradora com a primera mostra/població i l’escombra com a segona mostra/població,
respectivament). La H1 és bilateral i el valor de α és 0.05. Per tant, cal mirar quins
103 104
Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz

punts deixen a la seva esquerra i a la seva dreta una àrea de α/2=0.05/2=0.025. Aquests
punts són F0.975 = 0.308372... i F0.025 = 2.764516... , respectivament (obtinguts amb
S12 / S 22
Excel). En definitiva, la zona de la distribució estadística on s’accepta la H0 és H1 H0 H1
(0.308372... , 2.764516...).
6) Zona H1 de la distribució estadística corresponent. La zona de la distribució estadística
0 1
on s’accepta la H1 és la complementària a la trobada al pas anterior, per tant és (0 , 0.3084 2.7645
0.308372...) U (2.764516... , ∞). Cal recordar que la distribució F de Fisher-Snedecor no
pren valors negatius i “comença” a zero (no a -∞).
9) Estadístic de prova. Els valors obtinguts de l’enunciat són S1=5.2 i S2=6.4 i de la
S 12
fórmula de l’estadístic de prova de la novena línia de la taula de contrastos, ,
S 22
obtenim que el valor de l’estadístic de prova d’aquest contrast és EP = 0.66015....
10) Conclusió 1. Com el quocient de variàncies mostrals és 0.66015... (que, en aquest cas,
també coincideix amb l’estadístic de prova) i aquest valor es troba a la zona el quocient
de variàncies mostrals on s’accepta la H0, no podem afirmar que s’ha demostrat la H1,
amb un α=0.05, és a dir, no s’ha demostrat que la variància de la velocitat obtinguda
amb l’aspiradora és diferent que la variància de la velocitat obtinguda amb l’escombra.
11) Càlcul del p-valor o nivell significació crític, αc. Com la H1 és bilateral i estem
treballant amb la novena línia de la taula de contrastos i EP=0.66015... és menor que 1,
cal buscar l’àrea que hi ha a l’esquerra de l’EP a la distribució F de Fisher-Snedecor
amb 11 i 19 graus de llibertat i multiplicar aquesta àrea per 2. Usant Excel o qualsevol
7) Zona H0 del quocient de variàncies mostrals. Hem d’igualar la fórmula de l’estadístic
programa específic d’Estadística, tenim que el punt EP = 0.66015... deixa a la seva
 S2 
de prova de la novena línia de la taula de contrastos,  12  , a 0.308372... i a 2.74516, esquerra una àrea de 0.24266... (usant la F de Fisher-Snedecor amb 11 i 19 graus de
 S2  f
llibertat) i, per tant, el resultat del p-valor és αc = 0.48532....
 S2  Si l’estadístic de prova EP hagués deixat a l’esquerra una àrea superior a 0.5 llavors
respectivament, deixant  12  , quocient de variàncies mostrals frontera, com a
 S2  f hauríem d’haver treballat amb l’àrea que hi ha a la dreta d’aquest valor.
incògnita en els dos casos, és a dir, en aquest cas realment no hem de fer res ja que
coincideix la fórmula de l’estadístic de prova amb el quocient de variàncies mostrals
(que és l’estadístic mostral que volem trobar). En definitiva, la zona del quocient de
variàncies mostrals on s’accepta la H0 és (0.308372... , 2.764516...).
8) Zona H1 del quocient de variàncies mostrals. La zona del quocient de variàncies
mostrals on s’accepta la H1 és la complementària a la trobada al pas anterior, per tant és
(0 , 0.308372...) U (2.764516... , ∞).

105 106
Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz

4) La hipòtesis nul·la, H0, és la hipòtesis contrària a la H1. En aquest cas:


H0: p ≥ 0.35.
5) Zona H0 de la distribució estadística corresponent. S’ha de consultar la distribució
normal estàndard. La H1 és unilateral esquerra i el valor de α és 0.05. Per tant, el punt
-z0.05 és -1.64 (-1.64485... obtingut amb Excel). En definitiva, la zona de la distribució
estadística on s’accepta la H0 és (-1.64 , ∞) (si treballem amb més precisió és (-
1.64485... , ∞)).
6) Zona H1 de la distribució estadística corresponent. La zona de la distribució estadística
on s’accepta la H1 és la complementària a la trobada al pas anterior, per tant és (-∞ , -
1.64) (si treballem amb més precisió és (-∞ , -1.64485...)).

12) Conclusió 2. Si volem treballar amb α=0.05 i com αc = 0.48532... > α=0.05, no s’ha
demostrat la H1, és a dir, no s’ha demostrat que la variància de la velocitat obtinguda
amb l’aspiradora és diferent que la variància de la velocitat obtinguda amb l’escombra.

5.5 Contrast sobre una proporció.

Enunciat
La Caputxeta Vermella es troba diàriament amb el llop i cada dia fan una cursa per veure qui
7) Zona H0 de la proporció mostral. Del plantejament del contrast i de les dades mostrals
arriba abans a casa de l’àvia. Agafant una mostra de 60 dies, en 18 d’aquests dies ha arribat
sabem que n=60 i p0=0.35 i hem d’igualar la fórmula de l’estadístic de prova de la
abans la Caputxeta i la resta de dies ha arribat abans el llop. S’ha demostrat, amb α=0.05, que el
pˆ f − p0
percentatge de vegades que guanya la Caputxeta està per sota del 35%? desena línia de la taula de contrastos, , a -1.64485... deixant pˆ f ,
p0 (1 − p0 )
n
Solució
proporció mostral frontera, com a incògnita, és a dir, resolem
1) Es vol fer un contrast sobre el percentatge de vegades que guanya la Caputxeta, per
pˆ f − 0.35
tant, sobre una proporció poblacional. = −1.64485 i obtenim pˆ f =0.248715... En definitiva, la zona de la
0.35 (1 − 0.35 )
2) Per fer un contrast d’hipòtesis sobre una proporció poblacional hem d’agafar la desena
60
línia de la taula de contrastos.
proporció mostral on s’accepta la H0 és (0.248715... , 1). Cal tenir en compte que una
3) La hipòtesis alternativa, H1, és la hipòtesis/afirmació que es vol comprovar i/o
proporció sempre estarà entre 0 i 1.
demostrar i, en aquest cas, és veure si el percentatge de vegades que guanya la
Caputxeta està per sota del 35%. Matemàticament l’expressem de la següent manera:
H1: p < 0.35 (unilateral esquerra).
107 108
Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz

8) Zona H1 de la proporció mostral. La zona de la proporció mostral on s’accepta la H1 és


la complementària a la trobada al pas anterior, per tant és (0 , 0.248715...). Com abans,
cal tenir en compte que una proporció sempre estarà entre 0 i 1.


H1 H0
0 0.35 1
0.2487

12) Conclusió 2. Si volem treballar amb α=0.05 i com αc = 0.208396... > α=0.05, no s’ha
18 demostrat la H1, és a dir, no s’ha demostrat que el percentatge de vegades que guanya la
pˆ = 0.3 , n=60, p0=0.35
9) Estadístic de prova. Els valors obtinguts de l’enunciat són =
60
Caputxeta està per sota del 35%.
i de la fórmula de l’estadístic de prova de la segona línia de la taula de contrastos,
pˆ − p 0
, obtenim que el valor de l’estadístic de prova d’aquest contrast és EP = -
p 0 (1 − p 0 ) 5.6 Contrast sobre una comparació de proporcions.
n
0.811997....
Enunciat
10) Conclusió 1. Com la proporció de la mostra és p̂ = 0.3 i aquest valor es troba a la zona
La Blancaneus i la Caputxeta Vermella es perden moltes vegades pel bosc i necessiten el GPS
de la proporció mostral on s’accepta la H0, no podem afirmar que s’ha demostrat la H1,
per tornar a casa. De 80 dies que s’han observat els passejos de la Blancaneus pel bosc, en 14
amb un α=0.05, és a dir, no s’ha demostrat que el percentatge de vegades que guanya la
d’ells es va perdre. Per altra banda, de 60 dies que s’han observat els passejos de la Caputxeta
Caputxeta està per sota del 35%. Arribem a la mateixa conclusió si comprovem que
Vermella pel bosc, en 18 d’aquests dies es va perdre. S’ha demostrat, amb un nivell d’error del
EP=-0.811997... es troba a la zona de la distribució estadística on s’accepta la H0.
5%, que la Blancaneus es perd menys que la Caputxeta Vermella?
11) Càlcul del p-valor o nivell significació crític, αc. Com la H1 és unilateral esquerra i
estem treballant amb la desena línia de la taula de contrastos i EP=-0.811997..., cal Solució
buscar l’àrea que hi ha a l’esquerra de l’EP a les taules de la normal estàndard. Usant la 1) Es vol fer un contrast per comparar el percentatge de vegades que es perden la
distribució normal estàndard o Excel o qualsevol programa específic d’Estadística, el Blancaneus i la Caputxeta, per tant, sobre una comparació de proporcions poblacionals.
resultat és αc = 0.208396... (amb les taules de la distribució normal estàndard, 2) Per fer un contrast d’hipòtesis sobre una comparació de proporcions poblacionals hem
treballaríem amb EP=-0.81, arrodonint a la segona xifra decimal, i el resultat del p-valor d’agafar l’onzena línia de la taula de contrastos.
seria 0.2090). 3) La hipòtesis alternativa, H1, és la hipòtesis/afirmació que es vol comprovar i/o
demostrar i, en aquest cas, és veure si la Blancaneus es perd menys que la Caputxeta
Vermella, és a dir, si la proporció de vegades que es perd la Blancaneus és més baix que

109 110
Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz

la proporció de vegades que es perd la Caputxeta. Matemàticament l’expressem de la ( pˆ1 − pˆ 2 ) f


següent manera:
= −1.64485 i obtenim ( pˆ1 − pˆ 2 ) f = -
 1 1 
0.228571... (1 − 0.228571...)  + 
H1: pBlancaneus < pCaputxeta (unilateral esquerra).  80 60 
4) La hipòtesis nul·la, H0, és la hipòtesis contrària a la H1. En aquest cas: 0.117958... En definitiva, la zona de la diferència de proporcions mostrals on s’accepta
H0: pBlancaneus ≥ pCaputxeta. la H0 és (-0.117958... , 1). Cal tenir en compte que una diferència de proporcions sempre
5) Zona H0 de la distribució estadística corresponent. S’ha de consultar la distribució estarà entre -1 i 1.
normal estàndard. La H1 és unilateral esquerra i el valor de α és 0.05. Per tant, el punt 8) Zona H1 de la diferència de proporcions mostrals. La zona de la diferència de
-z0.05 és -1.64 (-1.64485... obtingut amb Excel). En definitiva, la zona de la distribució proporcions mostrals on s’accepta la H1 és la complementària a la trobada al pas
estadística on s’accepta la H0 és (-1.64 , ∞) (si treballem amb més precisió és (- anterior, per tant és (-1 , -0.117958...). Com abans, cal tenir en compte que una
1.64485... , ∞)). diferència de proporcions sempre estarà entre -1 i 1.
6) Zona H1 de la distribució estadística corresponent. La zona de la distribució estadística
on s’accepta la H1 és la complementària a la trobada al pas anterior, per tant és (-∞ , -
pˆ1 − pˆ 2
1.64) (si treballem amb més precisió és (-∞ , -1.64485...)). H1 H0

-1 0 1
-0.1180

14
pˆ1
9) Estadístic de prova. Els valors obtinguts de l’enunciat són = = 0.175 , n1=80,
80
18 14 + 18
ˆ2
p= = 0.3 , n2=60
= i pˆ = 0.228571... i de la fórmula de l’estadístic de
60 80 + 60
pˆ 1 − pˆ 2
prova de l’onzena línia de la taula de contrastos, , obtenim que el
1 1 
7) Zona H0 de la diferència de proporcions mostrals. Del plantejament del contrast i de les pˆ (1 − pˆ ) + 
 n1 n 2 
14 + 18
dades mostrals sabem que n1=80, n2=60
= i pˆ = 0.228571... (agafant les dades valor de l’estadístic de prova d’aquest contrast és EP = -1.743041....
80 + 60
10) Conclusió 1. Com la diferència de proporcions mostrals és pˆ1 − pˆ 2 = 0.175 - 0.3 = -
de la Blancaneus com a primera mostra/població i les de la Caputxeta com a segona
mostra/població, respectivament, i calculant la p̂ com a proporció conjunta de 0.125 i aquest valor es troba a la zona de la diferència de proporcions mostrals on
s’accepta la H1 i podem afirmar que s’ha demostrat la H1, amb un α=0.05, és a dir, s’ha
perdre’s) i hem d’igualar la fórmula de l’estadístic de prova de l’onzena línia de la taula
demostrat que la Blancaneus es perd menys que la Caputxeta Vermella. Arribem a la
( pˆ1 − pˆ 2 ) f
de contrastos, , a -1.64485... deixant ( pˆ1 − pˆ 2 ) f , diferència de mateixa conclusió si comprovem que EP=-1.743041... es troba a la zona de la
1 1
pˆ (1 − pˆ )  +  distribució estadística on s’accepta la H1.
 n1 n2 
proporcions mostrals frontera, com a incògnita, és a dir, resolem
111 112
Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz

11) Càlcul del p-valor o nivell significació crític, αc. Com la H1 és unilateral esquerra i
estem treballant amb l’onzena línia de la taula de contrastos i EP=-1.743041..., cal
buscar l’àrea que hi ha a l’esquerra de l’EP a les taules de la normal estàndard. Usant la
distribució normal estàndard o Excel o qualsevol programa específic d’Estadística, el
6 ANÀLISI DE LA VARIÀNCIA (ANOVA).
resultat és αc = 0.040663... (amb les taules de la distribució normal estàndard,
treballaríem amb EP=-1.74, arrodonint a la segona xifra decimal, i el resultat del p-valor
seria 0.0409).
6.1 Disseny ANOVA d'un factor.

Enunciat
El llop de la Caputxeta Vermella té alt el nivell de colesterol i es comença a preocupar per la
seva salut i, últimament, prefereix menjar hamburgueses que tenen poques calories. Les
hamburgueses es poden classificar segons la seva composició: vedella, pollastre i porc. S’han
agafat hamburgueses de 54 marques diferents, s’han classificat segons la seva composició i
s’han mesurat les calories que contenen. Els resultats obtinguts són:
Vedella 186 181 176 149 184 190 158 139 175 148
152 111 141 153 190 157 131 149 135 132
12) Conclusió 2. Si volem treballar amb α=0.05 i com αc = 0.040663... < α=0.05, s’ha
Pollastre 129 132 102 106 94 102 87 99 107 113
demostrat la H1, és a dir, s’ha demostrat que la Blancaneus es perd menys que la
135 142 86 143 152 146 144
Caputxeta Vermella.
Porc 173 191 182 190 172 147 146 139 175 136
179 153 107 195 135 140 138
Suposant que les calories de cada grup d’hamburgueses es distribueixen normalment i que hi ha
la mateixa variància en els diversos nivells, es vol analitzar si hi ha diferències significatives,
amb α=0.05, entre les calories dels diversos grups d’hamburgueses.

Solució
1) La variable observada que es vol estudiar són les calories de les hamburgueses. El
nombre total de dades és n=54 ja que és la suma de nvedella + npollastre + nporc = 20+17+17
= 54.
El factor que es vol considerar és la composició de les hamburgueses. D’aquest factor es
consideren 3 nivells: vedella, pollastre i porc. Per tant, k=3.

113 114
Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz

2) Hem suposat que es compleixen les condicions per aplicar ANOVA d’un factor: les
Font de variació g.l. Suma quadrats Quadrats mitjos F
observacions de cada nivell del factor es distribueixen normalment i hi ha la mateixa
variància en els diversos nivells. Entre grups 2 17692.1951 8846.10 16.1

3) La H0 és: Dintre grups 51 28067.1382 550.33


H0: μvedella = μpollastre = μporc
Això vol dir que, sota H0, no existeixen diferències entre les calories mitjanes de les Total 53 45759.3333

hamburgueses segons els diversos nivells considerats de composició.


4) La H1 és: 8) Conclusió 1. Com l’estadístic de prova F = 16.1 es troba a l’interval on s’accepta H1,
H1: μi ≠ μj per a alguna parella i≠j direm que acceptem H1 i que, per tant, les calories mitjanes de les hamburgueses no són
H1 significa que hi ha diferències entre les calories mitjanes de les hamburgueses de, les mateixes en els diversos grups de composició d’hamburgueses considerats.
almenys, dos grups considerats de composició. 9) Càlcul del p-valor o nivell significació crític, αc. Cal buscar l’àrea que hi ha a la dreta
5) Zona H0 de la distribució estadística corresponent. S’ha de consultar la distribució F de de l’estadístic de prova F a la distribució F de Fisher-Snedecor amb 2 i 51 graus de
Fisher amb (k-1,n-k) = (3-1,54-3) =( 2,51) graus de llibertat. A la distribució anterior, llibertat. Usant Excel o qualsevol programa específic d’Estadística, tenim que el punt F
hem de trobar el punt que deixa a la seva dreta una àrea de α=0.05. Aquest punt és Fα = = 16.1 deixa a la seva dreta una àrea de 3.86·10-6. Per tant, el valor del nivell de
3.18. Per tant, la zona la distribució F de Fisher on s’accepta la H0 és l’interval (0 , significació crític o p-valor, αc, és 3.86·10-6.
3.18).

10) Conclusió 2. Si volem treballar amb α=0.05 i com αc = 3.86·10-6 < α=0.05, acceptarem
H1 i, per tant, acceptem que les calories mitjanes de les hamburgueses no són les
6) Zona H1 de la distribució estadística corresponent. La zona de la zona la distribució F mateixes en els diversos grups de composició d’hamburgueses.
de Fisher on s’accepta la H1 és la complementària a la trobada al pas anterior, per tant, 11) Com s’ha acceptat que hi ha diferències entre les calories mitjanes entre, almenys, dos
és l’interval (3.18 , ∞). grups d’hamburgueses, anem a contrastar, amb α=0.05, si hi ha diferències entre les
7) Calculem l’estadístic de prova, F. calories mitjanes de les hamburgueses de vedella i les de pollastre. El contrast a realitzar
és:

115 116
Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz

H0(12): μvedella = μpollastre x pollastre − x porc 118.76 - 158.71


t= = = -4.96
H1(12): μvedella ≠ μpollastre Qd  1 1  28067.1382  1 1
 +   + 
Com α/2 = 0.025, busquem el punt de la distribució t de Student, amb 51 graus de n − k  n pollastre n porc 54 − 3  17 17 

llibertat, que deixa a la seva dreta un àrea de 0.025. Aquest punt és 2.01 ja que P(t51 > Com el valor de l’estadístic de prova t és -4.96, aquest valor es troba dins de la zona on
2.01) = 0.025. Per tant, les zones de la distribució t de Student on s’accepta la hipòtesis s’accepta la H1 i podem afirmar que hi ha diferències significatives entre les calories
nul·la i la hipòtesis alternativa són: mitjanes de les hamburgueses de pollastre i les hamburgueses de porc.
• Zona on s’accepta H0: (-2.01 , 2.01). També s’arriba a aquesta conclusió si calculem el p-valor de l’estadístic t: αc = 2 · P(t51
• Zona on s’accepta H1: (-∞ , -2.01) ∪ (2.01 , ∞).
> |-4.96|) = 2 · 4.0541·10-6 = 8.1082·10-6. Com el p-valor, αc = 8.1082·10-6, és més petit
Tenim que:
que el nivell d’error amb el qual volem treballar, α=0.05, acceptem H1.
x vedella = 156.85 x pollastre = 118.76 13) Per finalitzar, anem a contrastar, amb α=0.05, si hi ha diferències entre les calories
Aleshores, s'utilitza l'estadístic: mitjanes de les hamburgueses de vedella i les de porc. El contrast a realitzar és:
x vedella - x pollastre 156.85 - 118.76 H0(13): μvedella = μporc
t= = = 4.92
Qd  1 1  28067.1382  1 1 H1(13): μvedella ≠ μporc
+   + 
n − k  nvedella n pollastre  54 − 3  20 17 
 Les zones de la distribució t de Student on s’accepta la hipòtesis nul·la i la hipòtesis
Com el valor de l’estadístic de prova t és 4.92, aquest valor es troba dins de la zona on alternativa continuen sent les mateixes d’abans:
s’accepta la H1 i podem afirmar que hi ha diferències significatives entre les calories • Zona on s’accepta H0: (-2.01 , 2.01).
mitjanes de les hamburgueses de vedella i les hamburgueses de pollastre. • Zona on s’accepta H1: (-∞ , -2.01) ∪ (2.01 , ∞).
També s’arriba a aquesta conclusió si calculem el p-valor de l’estadístic t: αc = 2 · P(t51 Tenim que:
> |4.92|) = 2 · 4.6973·10-6 = 9.3946·10-6. Com el p-valor, αc = 9.3946·10-6, és més petit x vedella = 156.85 x porc = 158.71
que el nivell d’error amb el qual volem treballar, α=0.05, acceptem H1. Aleshores, s'utilitza l'estadístic:
12) També podem estar interessats en contrastar, amb α=0.05, si hi ha diferències entre les x vedella - x porc 156.85 - 158.71
t= = = -0.24
calories mitjanes de les hamburgueses de pollastre i les de porc. El contrast a realitzar Qd  1 1  28067.1382  1 1
 +   + 
és: n − k  nvedella n porc 54 − 3  20 17 

H0(23): μpollastre = μporc
Com el valor de l’estadístic de prova t és -0.24, aquest valor es troba dins de la zona on
H1(23): μpollastre ≠ μporc
s’accepta la H0 i hem de concloure que no s’ha demostrat que hi hagi diferències
Les zones de la distribució t de Student on s’accepta la hipòtesis nul·la i la hipòtesis
significatives entre les calories mitjanes de les hamburgueses de vedella i les
alternativa seran les mateixes d’abans:
hamburgueses de porc.
• Zona on s’accepta H0: (-2.01 , 2.01).
També s’arriba a aquesta conclusió si calculem el p-valor de l’estadístic t: αc = 2 · P(t51
• Zona on s’accepta H1: (-∞ , -2.01) ∪ (2.01 , ∞).
> |-0.24|) = 2 · 0.4057 = 0.8114. Com el p-valor, αc = 0.8114, és més gran que el nivell
Tenim que:
d’error amb el qual volem treballar, α=0.05, acceptem H0.
x pollastre = 118.76 x porc = 158.71
Aleshores, s'utilitza l'estadístic:

Solució amb Excel.


117 118
Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz

El programa Excel permet fer de manera automàtica els càlculs que calen per realitzar un volem analitzar.
ANOVA d’un factor. Prèviament, hem de tenir instal·lat el mòdul de “Análisis de datos”. b. Agrupado por. Hem de triar Columnas o Filas depenent de com hàgim entrat les
dades de cada nivell (en el nostre exemple, hem de marcar Columnas).
Per realitzar una ANOVA d’un factor amb Excel cal seguir els passos següents: c. Rótulos. Hem de marcar aquesta casella si en Rango de entrada hem seleccionat
1) Per començar a fer qualsevol tipus d’anàlisi, primer hem de tenir les dades entrades en les cel·les on hi ha els rètols descriptius del nivell a què corresponen les dades
el full de càlcul. Si seguim amb l’exemple de les hamburgueses, hem de posar les dades de cada columna. Si no s’han posat aquests rètols descriptius o no s’han inclòs
de cada nivell (vedella, pollastre i porc) en columnes (o files) diferents; al començar la aquestes cel·les en Rango de entrada, no hem de marcar la casella Rótulos.
columna (o la fila) podem posar un rètol indicant a quin nivell corresponen les dades d. Alfa. S’ha de posar el nivell d’error amb què volem treballar.
que hi ha en cada columna (o fila). La Pantalla 1 ens mostra com han de quedar les e. Opciones de salida. Aquí triem on volem els resultats. Deixem marcada l’opció
dades una vegada introduïdes a Excel. En una hoja nueva.
5) El resultat apareix en una fulla nova. Hi han dos quadres: quadre Resumen i quadre
Análisis de varianza.
6) Quadre Resumen. Obtenim, de cada nivell considerat, quantes dades hi ha, la seva
suma, la seva mitjana i la seva variància.

Pantalla 3. Quadre "Resumen"

Pantalla 1. Dades d’un factor introduïdes a Excel 7) Quadre Análisis de varianza. És el quadre amb el resultat dels càlculs a fer per tal
2) Del menú “Datos”, hem de triar “Análisis de datos”. d’obtenir l’estadístic de prova. El més interessant són les tres últimes columnes d’aquest
3) De les funcions que apareixen, triar “Análisis de varianza de un factor” i acceptar. Ha quadre:
d’aparèixer el quadre que es veu a la Pantalla 2.

Pantalla 4. Quadre "Análisis de la varianza"

a. F. És el valor de l’estadístic de prova F. En el nostre exemple, tenim que F =


16.0739927.

Pantalla 2. Quadre de "Análisis de varianza de un factor" b. Probabilidad. És el valor del nivell de significació crític o p-valor. En el nostre
exemple, tenim que αc, = 3.86207·10-6.
4) Del quadre anterior, hem d’omplir:
c. Valor crítico para F. És el valor de la distribució F, amb els graus de llibertat
a. Rango de entrada. Hem de seleccionar les caselles on es troben les dades que
corresponents, que fa de frontera entre acceptar la H0 i la H1. En el nostre
119 120
Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz

exemple, tenim que Fα = 3.1788. 3) La H0 és:


H0: σ2vedella = σ2pollastre = σ2porc
Això vol dir que, sota H0, no existeixen diferències entre les variàncies de les calories de
6.2 Comparació de variàncies: test de Levene.
les hamburgueses segons els diversos nivells considerats de composició.
4) La H1 és:
Enunciat H1: σ2i ≠ σ2j per a alguna parella i≠j
Seguint amb l’exemple de les hamburgueses i les seves calories, s’ha suposat que les variàncies H1 significa que hi ha diferències entre la variància de les calories de, almenys, dos
poblacionals eren iguals en els 3 grups d’hamburgueses (vedella, pollastre i porc). Anem a grups d’hamburgueses.
contrastar aquesta suposició, amb α=0.05. 5) Zona H0 de la distribució estadística corresponent. S’ha de consultar la distribució F de
Fisher amb (k-1,n-k) = (3-1,54-3) =( 2,51) graus de llibertat. A la distribució anterior,
Solució hem de trobar el punt que deixa a la seva dreta una àrea de α=0.05. Aquest punt és Fα =
1) Com hem de fer el contrast per comparar variàncies, calcularem la mitjana de calories 3.18. Per tant, la zona la distribució F de Fisher on s’accepta la H0 és l’interval (0 ,
de cada grup d’hamburgueses. Obtenim: 3.18).
x vedella = 156.85 x pollastre = 118.76 x porc = 158.71
2) A cada dada original li restem la mitjana del seu grup i agafem el resultat en valor
absolut.
Vedella Pollastre Porc
29.15 10.24 14.29
24.15 13.24 32.29
19.15 16.76 23.29
7.85 12.76 31.29
27.15 24.76 13.29
33.15 16.76 11.71
1.15 31.76 12.71
17.85 19.76 19.71
18.15 11.76 16.29
8.85 5.76 22.71
4.85 16.24 20.29
6) Zona H1 de la distribució estadística corresponent. La zona de la zona la distribució F
45.85 23.24 5.71
de Fisher on s’accepta la H1 és la complementària a la trobada al pas anterior, per tant,
15.85 32.76 51.71
3.85 24.24 36.29
és l’interval (3.18 , ∞).
33.15 33.24 23.71 7) Calculem l’estadístic de prova, F.
0.15 27.24 18.71
Font de variació g.l. Suma quadrats Quadrats mitjos F
25.85 25.24 20.71
7.85 Entre grups 2 113.42 56.71 0.49
21.85
24.85

121 122
Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz

Dintre grups 51 5904.58 115.78 Volem veure com influeix l’exercici de pujar escales en l’increment del ritme cardíac.
Concretament es vol estudiar l’efecte de dos factors, l’alçada de les escales i el ritme de pujada
Total 53 6018 de les escales, en l’increment de les pulsacions. Es van considerar dues alçades diferents
8) Conclusió 1. Com l’estadístic de prova F = 0.49 es troba a l’interval on s’accepta H0, d’escala, una alçada baixa de 14.6 cm i una alçada alta de 29.2 cm; i tres velocitats diferents de
acceptem H0 i, per tant, podem assumir que les variàncies de les calories de les diverses pujada d’escales, una velocitat baixa de 14 escales/minut, una velocitat mitjana de 21
composicions d’hamburgueses són iguals. escales/minut i una velocitat alta 28 escales/minut. Per tant, hi ha 6 combinacions diferents dels
9) Càlcul del p-valor o nivell significació crític, αc. Cal buscar l’àrea que hi ha a la dreta diversos nivells considerats dels dos factors. L’exercici el va fer el llop de la Caputxeta
de l’EP a la distribució F de Fisher-Snedecor amb 2 i 51 graus de llibertat. Usant Excel Vermella. El llop va fer l’exercici de pujar les escales durant 1 minut amb unes condicions
o qualsevol programa específic d’Estadística, tenim que el punt EP = 0.49 deixa a la particulars d’alçada d’escala i ritme de pujada; quan havia descansat prou, tornava a fer
seva dreta una àrea de 0.6156. Per tant, el valor del nivell de significació crític o p-valor, l’exercici amb unes altres condicions d’alçada d’escala i ritme de pujada i així fins que va fer
αc, és 0.6156. l’exercici de pujar escales en les 6 combinacions diferents d’alçada d’escala i ritme de pujada.
La variable que es va mesurar és l’increment de pulsacions que es va produir després de fer
l’activitat per a cada combinació. Els resultats van ser:
Velocitat pujada
Baixa Mitjana Alta
Baixa 9 15 24
Alçada escala
Alta 16 26 50

Suposant que l’increment de ritme cardíac de cada nivell dels factors considerats es distribueix
normalment i que hi ha la mateixa variància en els diversos nivells, es vol analitzar si hi ha
diferències significatives, amb α=0.05, entre l’increment del ritme cardíac dels diversos nivells
considerats dels dos factors que es volen estudiar.

10) Conclusió 2. Si volem treballar amb α=0.05 i com αc = 0.6156 > α=0.05, acceptarem
Solució
H0 i, com abans, podem assumir que les variàncies de les calories de les diverses
composicions d’hamburgueses són iguals.
1) La variable observada que es vol estudiar és l’increment de ritme cardíac després de fer
l’activitat.
Els factors que es volen considerar són l’alçada d’escala i la velocitat de pujada de les
6.3 Disseny ANOVA de dos factors sense interacció. Blocs escales.

aleatoritzats. Del factor alçada d’escala es consideren dos nivells diferents: una alçada baixa de 14.6
cm i una alçada alta de 29.2 cm.

Enunciat

123 124
Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz

Del factor velocitat de pujada d’escales es consideren tres nivells diferents: una velocitat • Contrast del factor alçada d’escala: la zona de les taules on s’accepta la H1alçada és
baixa de 14 escales/minut, una velocitat mitjana de 21 escales/minut i una velocitat alta l’interval (18.5 , ∞).
28 escales/minut. • Contrast del factor velocitat de pujada: la zona de les taules on s’accepta la
Es fa un ANOVA de dos factors amb una sola mostra per grup ja que només tenim una H1velocitat és l’interval (19.0 , ∞).
sola dada per a cada combinació dels nivells dels dos factors considerats. 7) Calculem els estadístics de prova, un per al factor alçada d’escala i un per al factor
2) Hem suposat que es compleixen les condicions per aplicar ANOVA de dos factors: les velocitat de pujada d’escales.
observacions de cada nivell del factor es distribueixen normalment i hi ha la mateixa
Font de variació g.l. Suma quadrats Quadrats mitjos F
variància en els diversos nivells.
3) Hi ha dues H0, una per a cada factor, i són: Alçada escala 1 322.7 322.7 6.43

• H0alçada: αbaixa = αalta (no hi ha efecte del factor alçada de l’escala en l’increment Velocitat pujada 2 624.3 312.2 6.22
del ritme cardíac).
Residu o error 2 100.3 50.2
• H0velocitat: βbaixa = βmitjana = βalta (no hi ha efecte del factor velocitat de pujada
d’escales en l’increment del ritme cardíac). Total 5 1047.3
4) Hi ha dues H1, una per a cada factor, i són:
• H1alçada: αbaixa ≠ αalta (hi ha efecte de l’alçada de l’escala en l’increment del
8) Conclusió 1. Hi haurà una conclusió per a cada contrast.
ritme cardíac).
• Contrast del factor alçada d’escala: com l’estadístic de prova Falçada = 6.43 es
• H1velocitat: βi ≠ βj per a alguna parella i≠j (hi ha efecte de la velocitat de
troba a l’interval on s’accepta H0alçada, direm que acceptem H0alçada i que, per tant,
pujada d’escales en l’increment del ritme cardíac). no s’ha demostrat que l’increment mitjà del ritme cardíac sigui diferent per a les
5) Zona H0 de la distribució estadística corresponent de cada contrast. dues alçades d’escala considerades.
• Contrast del factor alçada d’escala. S’ha de consultar la distribució F de Fisher • Contrast del factor velocitat de pujada: com l’estadístic de prova Fvelocitat = 6.22
amb (nivells del factor alçada-1 , (nivells del factor alçada-1) · (nivells del factor es troba a l’interval on s’accepta H0velocitat, direm que acceptem H0velocitat i que, per
velocitat-1)) = (2-1 , (2-1) · (3-1)) = (1,2) graus de llibertat. A la distribució tant, no s’ha demostrat que l’increment mitjà del ritme cardíac sigui diferent per a
anterior, hem de trobar el punt que deixa a la seva dreta una àrea de α=0.05. Aquest les tres velocitats de pujada d’escales considerats.
punt és Fαalçada = 18.5. Per tant, la zona de les taules on s’accepta la H0alçada és
9) Càlcul del p-valor o nivell significació crític, αc. Hi ha un p-valor per a cada contrast.
l’interval (0 , 18.5).
• Contrast del factor alçada d’escala. Cal buscar l’àrea que hi ha a la dreta de
• Contrast del factor velocitat de pujada. S’ha de consultar la distribució F de
l’estadístic de prova Falçada a la distribució F de Fisher-Snedecor amb 1 i 2 graus de
Fisher amb (nivells del factor velocitat-1 , (nivells del factor alçada-1) · (nivells del
llibertat. Usant Excel o qualsevol programa específic d’Estadística, tenim que el
factor velocitat-1)) = (3-1 , (2-1) · (3-1)) = (2,2) graus de llibertat. A la distribució
punt Falçada = 6.43 deixa a la seva dreta una àrea de 0.127. Per tant, el valor del
anterior, hem de trobar el punt que deixa a la seva dreta una àrea de α=0.05. Aquest
nivell de significació crític o p-valor, αcalçada, és 0.127.
punt és Fαvelocitat = 19.0. Per tant, la zona de les taules on s’accepta la H0velocitat és
• Contrast del factor velocitat de pujada. Cal buscar l’àrea que hi ha a la dreta de
l’interval (0 , 19.0).
l’estadístic de prova Fvelocitat a la distribució F de Fisher-Snedecor amb 2 i 2 graus
6) Determinem la zona de les taules on s’accepta la H1 de cada contrast.
de llibertat. Usant Excel o qualsevol programa específic d’Estadística, tenim que el

125 126
Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz

punt Fvelocitat = 6.22 deixa a la seva dreta una àrea de 0.138. Per tant, el valor del
nivell de significació crític o p-valor, αcvelocitat, és 0.138.
10) Conclusió 2. Segons el p-valor, hi haurà una conclusió per a cada contrast.
• Contrast del factor alçada d’escala. Si volem treballar amb α=0.05 i com αcalçada
= 0.127 > α=0.05, acceptem H0alçada i, per tant, no s’ha demostrat que l’increment
mitjà del ritme cardíac sigui diferent per a les dues alçades d’escala considerades.
Pantalla 6. Quadre de "Análisis de varianza de un factor"
• Contrast del factor ritme de pujada. Si volem treballar amb α=0.05 i com
4) Del quadre anterior, hem d’omplir:
αcvelocitat = 0.138 > α=0.05, acceptem H0velocitat i, per tant, no s’ha demostrat que
a. Rango de entrada. Hem de seleccionar les caselles on es troben les dades que
l’increment mitjà del ritme cardíac sigui diferent per a les tres velocitats de pujada
volem analitzar.
d’escales considerats.
b. Rótulos. Hem de marcar aquesta casella si en Rango de entrada hem seleccionat
les cel·les on hi ha els rètols descriptius dels nivells a què corresponen les dades
Solució amb Excel.
de cada fila i de cada columna. Si no s’han posat aquests rètols descriptius o no
Per realitzar una ANOVA de dos factors amb una sola mostra per grup amb Excel cal seguir els
s’han inclòs aquestes cel·les en Rango de entrada, no hem de marcar la casella
passos següents:
Rótulos.
1) Per començar a fer qualsevol tipus d’anàlisi, primer hem de tenir les dades entrades en
c. Alfa. S’ha de posar el nivell d’error amb què volem treballar.
el full de càlcul. Si seguim amb l’exemple de les hamburgueses, hem de posar les dades
d. Opciones de salida. Aquí triem on volem els resultats. Deixem marcada l’opció
de cada nivell (vedella, pollastre i porc) en columnes (o files) diferents; al començar la
En una hoja nueva.
columna (o la fila) podem posar un rètol indicant a quin nivell corresponen les dades
5) El resultat apareix en una fulla nova. Hi han dos quadres: quadre Resumen i quadre
que hi ha en cada columna (o fila). La Pantalla 5 ens mostra com han de quedar les
Análisis de varianza.
dades una vegada introduïdes a Excel.
6) Quadre Resumen. Obtenim, de cada nivell considerat, quantes dades hi ha, la seva
suma, la seva mitjana i la seva variància.

Pantalla 5. Dades de dos factors amb una sola mostra per grup
2) Del menú “Datos”, hem de triar “Análisis de datos”.
3) De les funcions que apareixen, triar “Análisis de varianza de dos factores con una sola
muestra por grupo” i acceptar. Ha d’aparèixer el quadre que es veu a la Pantalla 6. Pantalla 7. Quadre "Resumen"

7) Quadre Análisis de varianza. És el quadre amb el resultat dels càlculs a fer per tal
d’obtenir l’estadístic de prova. El més interessant són les tres últimes columnes d’aquest
quadre:

127 128
Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz

Velocitat pujada
Baixa Mitjana Alta
Alçada Baixa 10 15 14 6 0 10 22 20 14 9 15 24 22 39 20
escala Alta 11 22 6 33 8 14 30 45 35 6 66 51 37 63 33
Pantalla 8. Quadre "Análisis de la varianza"

a. F. Són els valors dels estadístics de prova Falçada i Fvelocitat. En el nostre exemple, Suposant que l’increment de ritme cardíac de cada combinació de nivells dels factors considerats
tenim que Falçada = 6.4319 i Fvelocitat = 6.2226. es distribueix normalment i que hi ha la mateixa variància en aquestes combinacions, es vol
b. Probabilidad. Són els valors del nivell de significació crític o p-valor de cada analitzar si hi ha diferències significatives, amb α=0.05, entre l’increment del ritme cardíac dels

contrast. En el nostre exemple, tenim αcalçada = 0.1266 i αcvelocitat = 0.1385. diversos nivells considerats dels dos factors que es volen estudiar i si hi ha interacció entre

c. Valor crítico para F. Són els valors de la distribució F, amb els graus de llibertat aquests dos factors.

corresponents, que fan de frontera entre acceptar la H0 i la H1 de cada contrast.


En el nostre exemple, tenim que Fαalçada = 18.5128 i Fαvelocitat = 19.0. Solució

1) La variable observada que es vol estudiar és l’increment de ritme cardíac després de fer
l’activitat.
6.4 Disseny ANOVA de dos factors amb interacció. Els factors que es volen considerar són l’alçada d’escala i la velocitat de pujada de les
escales.
Enunciat Del factor alçada d’escala es consideren dos nivells diferents: una alçada baixa de 14.6
Volem veure com influeix l’exercici de pujar escales en l’increment del ritme cardíac. cm i una alçada alta de 29.2 cm.
Concretament es vol estudiar l’efecte de dos factors, l’alçada de les escales i la velocitat de Del factor velocitat de pujada d’escales es consideren tres nivells diferents: una velocitat
pujada de les escales, en l’increment de les pulsacions. Es van considerar dues alçades diferents baixa de 14 escales/minut, una velocitat mitjana de 21 escales/minut i una velocitat alta
d’escala, una alçada baixa de 14.6 cm i una alçada alta de 29.2 cm; i tres velocitats diferents de 28 escales/minut.
pujada d’escales, una velocitat baixa de 14 escales/minut, una velocitat mitjana de 21 Es fa un ANOVA de dos factors amb diverses mostres per grup, anàlisi de dos factors
escales/minut i una velocitat alta 28 escales/minut. Per tant, hi ha 6 combinacions diferents dels amb interacció, ja que tenim 5 dades, és a dir 5 repeticions, per a cada combinació dels
diversos nivells considerats dels dos factors. L’exercici el van fer 5 personatges: el llop de la nivells dels dos factors considerats.
Caputxeta Vermella, la Caputxeta Vermella, la Blancaneus, la Ventafocs i el príncep del ball de 2) Hem suposat que es compleixen les condicions per aplicar ANOVA de dos factors amb
la Ventafocs. Cadascú d’ells va fer l’exercici de pujar les escales durant 1 minut amb unes interacció: l’increment de ritme cardíac de cada combinació de nivells dels factors
condicions particulars d’alçada d’escala i velocitat de pujada; quan havien descansat prou, considerats es distribueix normalment i que hi ha la mateixa variància en aquestes
tornaven a fer l’exercici amb unes altres condicions d’alçada d’escala i velocitat de pujada i així combinacions.
fins que tots van fer l’exercici de pujar escales en les 6 combinacions diferents d’alçada d’escala 3) Hi ha tres H0, una per a cada factor i una per contrastar si hi ha interacció entre els dos
i velocitat de pujada. La variable que es va mesurar és l’increment de pulsacions que es va factors, i són:
produir després de fer l’activitat per a cada combinació. • H0alçada: αbaixa = αalta (no hi ha efecte del factor alçada de l’escala en l’increment
Els resultats van ser: del ritme cardíac).

129 130
Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz

• H0velocitat: βbaixa = βmitjana = βalta (no hi ha efecte del factor velocitat de pujada • Contrast del factor velocitat de pujada: la zona de les taules on s’accepta la
d’escales en l’increment del ritme cardíac). H1velocitat és l’interval (3.40 , ∞).
• H0interacció: no hi ha interacció entre l’alçada i la velocitat de pujada de les escales. • Contrast de la interacció: la zona de les taules on s’accepta la H1interacció és
4) Hi ha tres H1, una per a cada factor i una per contrastar si hi ha interacció entre els dos l’interval (3.40 , ∞).
factors, i són: 7) Calculem els estadístics de prova, un per al factor alçada d’escala i un per al factor
• H1alçada: αbaixa ≠ αalta (hi ha efecte de l’alçada de l’escala en l’increment del velocitat de pujada d’escales.
ritme cardíac). Font de variació g.l. Suma quadrats Quadrats mitjos F
• H1velocitat: βi ≠ βj per a alguna parella i≠j (hi ha efecte de la velocitat de
Alçada escala 1 1613.33 1613.33 12.85
pujada d’escales en l’increment del ritme cardíac).
• H1interacció: hi ha interacció entre l’alçada i la velocitat de pujada de les escales. Ritme pujada 2 3121.67 1560.83 12.43
5) Zona H0 de la distribució estadística corresponent de cada contrast.
Interacció 2 501.67 250.83 2.00
• Contrast del factor alçada d’escala. S’ha de consultar la distribució F de Fisher
amb (nivells del factor alçada-1 , (nivells del factor alçada) · (nivells del factor Residu o error 24 3014 125.58
velocitat) · (repeticions-1)) = (2-1 , 2 · 3 · (5-1)) = (1,24) graus de llibertat. A la
Total 29 8250.67
distribució anterior, hem de trobar el punt que deixa a la seva dreta una àrea de
α=0.05. Aquest punt és Fαalçada = 4.26. Per tant, la zona de les taules on s’accepta la
8) Conclusió 1. Hi haurà una conclusió per a cada contrast.
H0alçada és l’interval (0 , 4.26).
• Contrast del factor alçada d’escala: com l’estadístic de prova Falçada = 12.85 es
• Contrast del factor velocitat de pujada. S’ha de consultar la distribució F de
troba a l’interval on s’accepta H1alçada, direm que acceptem H1alçada i que, per tant,
Fisher amb (nivells del factor velocitat-1 , (nivells del factor alçada) · (nivells del
s’ha demostrat que l’increment mitjà del ritme cardíac és diferent per a les dues
factor velocitat) · (repeticions-1)) = (3-1 , 2 · 3 · (5-1)) = (2,24) graus de llibertat. A
alçades d’escala considerades.
la distribució anterior, hem de trobar el punt que deixa a la seva dreta una àrea de
• Contrast del factor velocitat de pujada: com l’estadístic de prova Fvelocitat = 12.43
α=0.05. Aquest punt és Fαvelocitat = 3.40. Per tant, la zona de les taules on s’accepta
es troba a l’interval on s’accepta H1velocitat, direm que acceptem H1velocitat i que, per
la H0velocitat és l’interval (0 , 3.40).
tant, s’ha demostrat que l’increment mitjà del ritme cardíac és diferent per a les tres
• Contrast de la interacció: s’ha de consultar la distribució F de Fisher amb
velocitats de pujada d’escales considerats.
((nivells del factor alçada-1) · (nivells del factor velocitat-1) , (nivells del factor
• Contrast de la interacció: com l’estadístic de prova Finteracció = 2.00 es troba a
alçada) · (nivells del factor velocitat) · (repeticions-1)) = ((2-1) · (3-1) , 2 · 3 · (5-
l’interval on s’accepta H0interacció, direm que acceptem H0interacció i que, per tant, no
1)) = (2,24) graus de llibertat. A la distribució anterior, hem de trobar el punt que
s’ha demostrar que la interacció entre l’alçada de l’escala i la velocitat de pujada
deixa a la seva dreta una àrea de α=0.05. Aquest punt és Fαinteracció = 3.40. Per tant,
sigui significativa.
la zona de les taules on s’accepta la H0interacció és l’interval (0 , 3.40).
9) Càlcul del p-valor o nivell significació crític, αc. Hi ha un p-valor per a cada contrast.
6) Determinem la zona de les taules on s’accepta la H1 de cada contrast.
• Contrast del factor alçada d’escala. Cal buscar l’àrea que hi ha a la dreta de
• Contrast del factor alçada d’escala: la zona de les taules on s’accepta la H1alçada és
l’estadístic de prova Falçada a la distribució F de Fisher-Snedecor amb 1 i 24 graus
l’interval (4.26 , ∞).
de llibertat. Usant Excel o qualsevol programa específic d’Estadística, tenim que el

131 132
Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz

punt Falçada = 12.85 deixa a la seva dreta una àrea de 0.0015. Per tant, el valor del de cada columna. La Pantalla 9 ens mostra com han de quedar les dades una vegada
nivell de significació crític o p-valor, αcalçada, és 0.0015. introduïdes a Excel.
• Contrast del factor velocitat de pujada. Cal buscar l’àrea que hi ha a la dreta de
l’estadístic de prova Fvelocitat a la distribució F de Fisher-Snedecor amb 2 i 24 graus
de llibertat. Usant Excel o qualsevol programa específic d’Estadística, tenim que el
punt Fvelocitat = 12.43 deixa a la seva dreta una àrea de 0.0002. Per tant, el valor del
nivell de significació crític o p-valor, αcvelocitat, és 0.0002.
• Contrast de la interacció. Cal buscar l’àrea que hi ha a la dreta de l’estadístic de
prova Finteracció a la distribució F de Fisher-Snedecor amb 2 i 24 graus de llibertat.
Usant Excel o qualsevol programa específic d’Estadística, tenim que el punt
Finteracció = 2.00 deixa a la seva dreta una àrea de 0.1576. Per tant, el valor del nivell
Pantalla 9. Dades de dos factors amb diverses mostres per grup
de significació crític o p-valor, αcinteracció, és 0.1576.
2) Del menú “Datos”, hem de triar “Análisis de datos”.
10) Conclusió 2. Segons el p-valor, hi haurà una conclusió per a cada contrast.
3) De les funcions que apareixen, triar “Análisis de varianza de dos factores con varias
• Contrast del factor alçada d’escala. Si volem treballar amb α=0.05 i com αcalçada
muestras por grupo” i acceptar. Ha d’aparèixer el quadre que es veu a la Pantalla 10.
= 0.0015 < α=0.05, acceptem H1alçada i, per tant, s’ha demostrat que l’increment
mitjà del ritme cardíac és diferent per a les dues alçades d’escala considerades.
• Contrast del factor velocitat de pujada. Si volem treballar amb α=0.05 i com
αcvelocitat = 0.0002 < α=0.05, acceptem H1velocitat i, per tant, s’ha demostrat que
l’increment mitjà del ritme cardíac és diferent per a les tres velocitats de pujada
d’escales considerats.
• Contrast de la interacció. S i volem treballar amb α=0.05 i com αcinteracció =
0.1576 > α=0.05, acceptem H0interacció i, per tant, no s’ha demostrar que hi hagi Pantalla 10. Quadre de "Análisis de varianza de dos factores con varias muestras por grupo"

interacció entre els factors alçada i velocitat de pujada de les escales. 4) Del quadre anterior, hem d’omplir:
a. Rango de entrada. Hem de seleccionar les caselles on es troben les dades que
Solució amb Excel. volem analitzar. En aquest cas, és obligat posar i agafar els rètols dels nivells
Per realitzar una ANOVA de dos factors amb una sola mostra per grup amb Excel cal seguir els dels dos factors.
passos següents: b. Fila por muestra. Hem de posar quantes dades hi ha a cada combinació de
1) Hem d’introduir les dades en el full de càlcul. Si seguim amb l’exemple de la pujada nivells dels dos factors. Si seguim el nostre exemple, hem de posar 5.
d’escales, hem de posar les dades d’un factor en files i les de l’altre factor en columnes, c. Alfa. S’ha de posar el nivell d’error amb què volem treballar.
però per a cada nivell del factor fila hem de reservar tantes files com dades hi hagi a d. Opciones de salida. Aquí triem on volem els resultats. Deixem marcada l’opció
cada combinació de nivells dels dos factors considerats (en el nostre cas, 5 dades). En una hoja nueva.
També hem de posar un rètol indicant a quin nivell corresponen les dades de cada fila i 5) El resultat apareix en una fulla nova. Hi han dos quadres: quadre Resumen i quadre
Análisis de varianza.
133 134
Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz

6) Quadre Resumen. Obtenim, de cada nivell considerat, quantes dades hi ha, la seva
suma, la seva mitjana i la seva variància. 7 REGRESSIÓ LINEAL.

7.1 Regressió lineal simple.

Enunciat
La Caputxeta Vermella s’ha fet gran i ja va a la Universitat. El seu grup d’estudi està format per
8 companys/es. Per altra banda, suposem que entre el pes (X) i l'alçada (Y) de les persones hi ha
una relació lineal. A les persones del grup d’estudi al qual pertany la Caputxeta se’ls hi ha
mesurat el seu pes i la seva alçada i s’han obtingut els resultats següents:

X (pes) 77 70 79 68 56 80 56 64

Y (alçada) 174 168 181 170 158 177 159 164


Pantalla 11. Quadre "Resumen"

7) Quadre Análisis de varianza. És el quadre amb el resultat dels càlculs a fer per tal Les dades també es podrien donar de la següent manera:
d’obtenir l’estadístic de prova. El més interessant són les tres últimes columnes d’aquest
∑X i = 550 , ∑ Y = 1351 , ∑ X Y = 93425 , ∑ X
i i i i
2
= 38462 , ∑Y i
2
= 228631
quadre:
Per als càlculs que ho requereixin, agafeu un nivell d’error α =0.05.

a) Quina és l'estimació del pendent de la recta que millor ajusta les dades anteriors pel mètode
de mínims quadrats ordinaris?
b) Quina és l'estimació de l'ordenada a l'origen de la recta que millor ajusta les dades anteriors
Pantalla 12. Quadre "Análisis de la varianza" pel mètode de mínims quadrats ordinaris?

a. F. Són els valors dels estadístics de prova Falçada, Fvelocitat i Finteracció. En el nostre c) Quin és el coeficient de correlació lineal de les dades anteriors?

exemple, tenim que F alçada velocitat


= 12.8467, F interacció
= 12.4287 i F = 1.9973. d) Quin és el coeficient de determinació de les dades anteriors?

b. Probabilidad. Són els valors del nivell de significació crític o p-valor de cada e) Quin és l'error estàndard de la recta ajustada anteriorment?

contrast. En el nostre exemple, tenim αcalçada = 0.0015, αcvelocitat = 0.0002 i f) Per tal de valorar si hi ha relació lineal entre el pes (X) i l’alçada (Y), feu el contrast sobre la
significativitat del coeficient de correlació.
αcinteracció = 0.1576.
g) Quan el valor de la variable independent és igual a 75kg, quina és la predicció puntual de la
c. Valor crítico para F. Són els valors de la distribució F, amb els graus de llibertat
variable dependent, és a dir, quan una persona pesa 75kg, quina seria la seva alçada segons
corresponents, que fan de frontera entre acceptar la H0 i la H1 de cada contrast.
el model de regressió lineal?
En el nostre exemple, tenim que Fαalçada = 4.2597, Fαvelocitat = 3.4028 i Fαinteracció =
h) Quan el valor de la variable independent és igual a 75kg, quin és l'interval de predicció per a
3.4028.
valors particulars de la variable dependent, és a dir, de totes les persones que pesen 75 kg

135 136
Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz

quin seria un interval de la seva alçada en el 95% dels casos segons el model de regressió
lineal?
i) Quan el valor de la variable independent és igual a 75kg, quin és interval de predicció del
valor mitjà de la variable dependent, és a dir, de totes les persones que pesen 75 kg, quin
seria un interval de confiança, amb un 95% de confiança, de la seva alçada mitjana segons el
model de regressió lineal?

Solució

c) Quin és el coeficient de correlació lineal de les dades anteriors?


De les dades mostrals, podem obtenir la mitjana mostral del pes i de l’alçada: Apliquem la fórmula per calcular el coeficient de correlació lineal d’una mostra:

X
=
∑=
X i 550
= 68.75 = 68.75 =Y
∑=
Y i 1351
= 168.875
n n n

n 8 n 8 n ∑ X iY i - ∑ X i ∑Y i
i=1 i=1 i=1
r= =
n n n n
n∑ X 2
i -(∑X i ) · n ∑ Y i2
2
- ( ∑Y i
2
)
a) Quina és l'estimació del pendent de la recta que millor ajusta les dades anteriors pel mètode i=1 i=1 i=1 i=1

de mínims quadrats ordinaris? 8· 93425 - 550·1351


= = 0.972957
Apliquem la fórmula per estimar el pendent de la recta de regressió: 8· 38462 - 550 2 · 8· 228631 - 13512
n n n
n∑ X iY i - ∑ X i ∑Y i
8·93425 − 550·1351
bˆ = i=1 i=1 i=1
= = 0.837182 d) Quin és el coeficient de determinació de les dades anteriors?
n n
8·38462 − 5502
n∑ X 2
i - ( ∑X i )
2
El coeficient de determinació és el quadrat del coeficient de correlació:
i=1 i=1
r2 = 0.9729572 = 0.946645
b) Quina és l'estimació de l'ordenada a l'origen de la recta que millor ajusta les dades anteriors
pel mètode de mínims quadrats ordinaris?
e) Quin és l'error estàndard de la recta ajustada anteriorment?
Apliquem la fórmula per estimar l'ordenada a l'origen de la recta de regressió:
A la taula següent es calculen els residus:
aˆ = Y - bˆ X = 168.875 − 0.837182· 68.75 =
111.3187
Xi Yi Yˆi ei ei 2
Per tant, la recta de regressió que obtenim és: Pes Alçada real Alçada segons model Residus
ˆ =
aˆ bX 77 174 175.78 -1.78 3.17
Yˆ i =+ i 111.3187 + 0.837182 X i .
70 168 169.92 -1.92 3.69
79 181 177.46 3.54 12.56
68 170 168.25 1.75 3.07
56 158 158.20 -0.20 0.04
80 177 178.29 -1.29 1.67
56 159 158.20 0.80 0.64
64 164 164.90 -0.90 0.81

137 138
Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz

0 25.66 4) Zona H1 de la distribució estadística corresponent. La zona de la distribució estadística


on s’accepta la H1 és la complementària a la trobada al pas anterior, per tant és (-∞ , -
Apliquem la fórmula per calcular l’error estàndard: 2.4469) U (2.4469 , ∞).
n 5) Zona H0 del coeficient de correlació mostral. La H0 s’acceptarà si el coeficient de
∑e
i=1
2
i
25.66 correlació r es troba a l’interval:
Su = = = 2.0679
n-2 6  
tα /2 tα /2
− , .
 tα /2 + n − 2 tα /2 + n − 2 
2 2

f) Per tal de valorar si hi ha relació lineal entre el pes (X) i l’alçada (Y), feu el contrast sobre la
Amb les nostres dades, tenim que aquest interval és:
significativitat del coeficient de correlació.
 2.4469 2.4469 
1) La hipòtesis nul·la, H0, és: − , =( −0.7067, 0.7067 ) .
 2.44692 + 8 − 2 2.44692 + 8 − 2 
H0: ρ = 0
Això vol dir que, sota H0, el coeficient de correlació no és significatiu i que no hi ha r
relació lineal entre les variables pes i alçada.
H1 H0 H1
2) La hipòtesis alternativa, H1, és:
H1: ρ ≠ 0
-1 0 1
Això vol dir que, sota H1, el coeficient de correlació és significatiu i que existeix una -0.7067 0.7067
relació lineal entre les variables pes i alçada.
3) Zona H0 de la distribució estadística corresponent. S’ha de consultar la distribució t de
Student amb n-2 = 8-2 = 6 graus de llibertat. La H1 és bilateral i el valor de α és 0.05. 6) Zona H1 del coeficient de correlació mostral. La zona on s’ha de trobar el coeficient de
Per tant, cal mirar quin punt deixa a la seva dreta una àrea de α/2 = 0.05/2 = 0.025. correlació mostral per acceptar la H1 és la complementària a la trobada al pas anterior,

Aquest punt és t0.025 = 2.4469. En definitiva, la zona de la distribució estadística on per tant és:

s’accepta la H0 és (-2.4469 , 2.4469). (-1 , -0.7067) U (0.7067 , 1).


7) Estadístic de prova. L’estadístic de prova t és:

r n − 2 0.972957 8 − 2
=t = = 10.3177 .
1− r2 1 − 0.972957 2
8) Conclusió 1. Com r i t pertanyen a la zona on s’accepta la H1, s’ha demostrat que el
coeficient de correlació és significatiu i que existeix una relació lineal entre les variables
pes i alçada.
9) Càlcul del p-valor o nivell significació crític, αc. Com la H1 és bilateral, cal buscar
l’àrea que hi ha a la dreta del valor absolut de l’estadístic de prova t a les taules de la t de
Student amb 6 graus de llibertat i multiplicar aquesta àrea per 2. Usant Excel o qualsevol
programa específic d’Estadística, tenim que el punt |t| = 10.3177 deixa a la seva dreta

139 140
Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz

una àrea de 2.42·10-5 (usant la t de Student amb 6 graus de llibertat) i, per tant, el resultat i) Quan el valor de la variable independent és igual a 75kg, quin és interval de predicció del
del p-valor és αc = = 2 · 2.42·10-5 = 4.84·10-5. valor mitjà de la variable dependent, és a dir, de totes les persones que pesen 75 kg, quin
-5
10) Conclusió 2. Si volem treballar amb α=0.05 i com αc = 4.84·10 < α=0.05, s’accepta la seria un interval de confiança, amb un 95% de confiança, de la seva alçada mitjana segons el
H1, i, com abans, s’ha demostrat que el coeficient de correlació és significatiu i que model de regressió lineal?
existeix una relació lineal entre les variables pes i alçada.
L'interval el trobem fent els següents càlculs:
g) Quan el valor de la variable independent és igual a 75kg, quina és la predicció puntual de la 1 ( X - X )2 1 ( X - X )2
Yˆ 0 - tα/2Su + n 0 ≤ Y0 ≤ Yˆ 0 + tα/2Su + n 0
variable dependent, és a dir, quan una persona pesa 75kg, quina seria la seva alçada segons n n
∑ X i2 −n X ∑ X i2 −n X
2 2

el model de regressió lineal? i =1 i =1

La recta de regressió obtinguda és: Per tant, l'interval de predicció per a l'esperança de Y0 és:
ˆ =
aˆ bX 174.1074 - 2.4469·2.0679·0.4303 ≤ Y0 ≤ 174.1074 + 2.4469·2.0679·0.4303
Yˆ i =+ i 111.3187 + 0.837182 X i .
Per tant, una predicció puntual de l'alçada quan el pes d’una persona és de 75kg, X0=75, és: 171.9274 ≤ Y0 ≤ 176.2873

Yˆ 0 = 111.3187 + 0.837182·75 = 174.1074


Solució amb Excel.

h) Quan el valor de la variable independent és igual a 75kg, quin és l'interval de predicció per a
El programa Excel permet fer de manera automàtica els càlculs que calen per realitzar una
valors particulars de la variable dependent, és a dir, de totes les persones que pesen 75 kg
regressió lineal simple. Prèviament, hem de tenir instal·lat el mòdul de “Análisis de datos”.
quin seria un interval de la seva alçada en el 95% dels casos segons el model de regressió
lineal?
Per realitzar una regressió lineal simple amb Excel cal seguir els passos següents:
a) Per començar a fer qualsevol tipus d’anàlisi, primer hem de tenir les dades entrades en
Si volem construir un interval amb un nivell de confiança igual a 1-α farem servir les taules
el full de càlcul. Si seguim amb l’exemple dels pesos i les alçades, hem de posar les
de la t de Student amb n-2 graus de llibertat per tal de trobar el valor tα/2 que deixa a la seva
dades de cada variable en columna. La Pantalla ens mostra com han de quedar les
dreta un àrea igual a α/2. Amb aquestes eines podem construir l'interval de predicció per a
dades una vegada introduïdes a Excel.
valors particulars de Y0, amb un nivell de significació α:

1 ( X - X )2 1 ( X - X )2
Yˆ 0 - tα/2Su + n 0 + 1 ≤ Y0 ≤ Yˆ 0 + tα/2Su + n 0 +1
n n
∑ X i2 −n X ∑ X i2 −n X
2 2

i =1 i =1

Si volem els intervals de predicció per a α=0.05 tenim les següents dades:
n=8 X0 = 75 Yˆ 0 = 174.1074 t0.025, 6 = 2.4469
Su = 2.0679 X = 68.75 ∑X2i = 38462
Pantalla 13. Dades per fer regressió lineal simple a Excel
Per tant, l'interval de predicció per a valors particulars de Y0 és:
b) Del menú “Datos”, hem de triar “Análisis de datos”.
174.1074 - 2.4469·2.0679·1.0886 ≤ Y0 ≤ 174.1074 + 2.4469·2.0679·1.0886
c) De les funcions que apareixen, triar “Regresión” i acceptar. Ha d’aparèixer el quadre
168.5920 ≤ Y0 ≤ 179.6228
que es veu a la Pantalla.

141 142
Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz

Pantalla 15. Taula "Estadísticas de la regresión"

g) Taula Análisis de varianza. El més interessant d’aquesta taula és Valor crítico de F ja


que aquest valor és el nivell de significació crític o p-valor per valorar si hi ha una
relació lineal entre els pesos i les alçades. En el nostre cas, tenim que aquest p-valor és
αc = 4.84462·10-5 (és el valor que ja havíem obtingut a la solució anterior, al pas f9).

Pantalla 14. Quadre de diàleg "Regresión"

d) Del quadre anterior, hem d’omplir:


a. Rango Y de entrada. Hem de seleccionar les caselles on es troben les dades de Pantalla 16. Taula "Análisis de la varianza"
la variable Y, en el nostre cas les dades de les alçades.
h) Taula final de resultats de la regressió. El més interessant d’aquesta taula es troba a les
b. Rango X de entrada. Hem de seleccionar les caselles on es troben les dades de
columnes “Coeficientes” i “Probabilidad”.
la variable X, en el nostre cas les dades dels pesos.
c. Rótulos. Hem de marcar aquesta casella si en Rango de entrada hem seleccionat
les cel·les on hi ha els rètols descriptius del nom de les variables de cada
columna. Si no s’han posat aquests rètols descriptius o no s’han inclòs aquestes
Pantalla 17. Taula final de resultats de la regressió
cel·les en Rango de entrada, no hem de marcar la casella Rótulos.
a. Coeficientes -> Intercepción. És l'estimació de l'ordenada a l'origen de la recta
d. Opciones de salida. Aquí triem on volem els resultats. Deixem marcada l’opció
de regressió que millor ajusta les dades anteriors pel mètode de mínims quadrats
En una hoja nueva.
ordinaris. Aquest valor és aˆ = 111.3187067 (és el valor que ja havíem obtingut
e) El resultat apareix en una fulla nova. Hi han tres taules de resultats: taula “Estadísticas
a la solució anterior, al pas b).
de la regresión”, taula “Análisis de varianza” i una taula final amb els resultats de
b. Coeficientes -> X: Pes. És l'estimació del pendent de la recta de regressió que
l’estimació de la recta de regressió lineal i altres estadístics.
millor ajusta les dades anteriors pel mètode de mínims quadrats ordinaris.
f) Taula Estadísticas de la regresión. Apareix el valor del coeficient de correlació r
(0.97295688), el valor del coeficient de determinació r2 (0.94664509), el Aquest valor és bˆ = 0.837182448 (és el valor que ja havíem obtingut a la
solució anterior, al pas a) i és el coeficient que acompanya a la variable X en el
coeficient de determinació corregit r 2 (0.9377526), el valor de l'error estàndard o
model de regressió lineal. Per tant, com abans, tenim que la recta de regressió
típic Su (2.06781199) i el nombre de dades (8).
que obtenim és:
ˆ =
aˆ bX
Yˆ i =+ i 111.3187067 + 0.837182448 X i .
c. Probabilidad -> X: Pes. És el nivell de significació crític o p-valor per valorar si

143 144
Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz

hi ha una relació lineal entre els pesos (variable X) i les alçades (variable Y). dades anteriors?
Quan fem una regressió lineal simple, és exactament el mateix valor que hem g) Una vegada linealitzada la funció de l’enunciat, quin és l'error estàndard de la recta ajustada
trobat abans a la columna “Valor crítico de F” de la taula “Análisis de la anteriorment?
varianza”. En el nostre cas, tornem a tenir que aquest p-valor és αc = h) Una vegada linealitzada la funció de l’enunciat, per tal de valorar si hi ha relació lineal entre
4.84462·10-5 (és el valor que ja havíem obtingut a la solució anterior, al pas f9) el logaritme del pes (ln X) i l’alçada (Y), feu el contrast sobre la significativitat del coeficient
i, com és més petit que el nivell d’error α=0.05 amb el que volem treballar, de correlació.
podem concloure, de nou, que existeix una relació lineal entre els pesos i) Quina és l’estimació del paràmetre b de la funció original eY = a·X b ?
(variable X) i les alçades (variable Y). j) Quina és l’estimació del paràmetre a de la funció original eY = a·X b ?
k) Quan el valor de la variable independent és igual a 75kg, quina és la predicció puntual de la
variable dependent, és a dir, quan una persona pesa 75kg, quina seria la seva alçada segons
7.2 Regressió no lineal simple.
el model de l’enunciat eY = a·X b ?

Enunciat
Solució
La Caputxeta Vermella s’ha fet gran i ja va a la Universitat. El seu grup d’estudi està format per
8 companys/es. Per altra banda, suposem que entre el pes (X) i l'alçada (Y) de les persones hi ha
a) Linealitzeu la funció eY = a·X b .
una relació del tipus eY = a·X b . A les persones del grup d’estudi al qual pertany la Caputxeta
La funció eY = a·X b es pot linealitzar prenent logaritmes.
se’ls hi ha mesurat el seu pes i la seva alçada i s’han obtingut els resultats següents:
Si prenem logaritmes, obtenim:
X (pes) 77 70 79 68 56 80 56 64 Y ln a + b ln X
=

Y (alçada) 174 168 181 170 158 177 159 164 Aquesta equació és lineal ja que és de la forma:
Y =' a '+ b ' X '
on:
Per als càlculs que ho requereixin, agafeu un nivell d’error α =0.05.
• Variable dependent: Y ' = Y .
• Variable independent: X ' = ln X .
a) Linealitzeu la funció eY = a·X b .
• Paràmetres: a ' = ln a i b ' = b .
b) Transformeu les dades per tal d’ajustar una recta de regressió lineal amb les dades
transformades.
b) Transformeu les dades per tal d’ajustar una recta de regressió lineal amb les dades
c) Una vegada linealitzada la funció de l’enunciat, quina és l'estimació del pendent de la recta
transformades.
que millor ajusta les dades anteriors pel mètode de mínims quadrats ordinaris?
Xi Yi X i ' = ln X i Yi ' = Yi
d) Una vegada linealitzada la funció de l’enunciat, quina és l'estimació de l'ordenada a l'origen
77 174 4.3438 174
de la recta que millor ajusta les dades anteriors pel mètode de mínims quadrats ordinaris?
70 168 4.2485 168
e) Una vegada linealitzada la funció de l’enunciat, quin és el coeficient de correlació lineal de
79 181 4.3694 181
les dades anteriors?
68 170 4.2195 170
f) Una vegada linealitzada la funció de l’enunciat, quin és el coeficient de determinació de les
56 158 4.0253 158

145 146
Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz

80 177 4.3820 177


56 159 4.0254 159
64 164 4.1589 164
Les dades també es podrien donar de la següent manera:

∑ X 'i
= ∑=
ln X i 33.7729 , ∑=
Y' ∑
= Y i i 1351 , ∑
= X 'iY 'i ∑=
ln X Y i i 5711.4677 ,

∑ X 'i2 ∑=
( ln X ) 142.7201 , ∑= ∑=
2
= i Y 'i2 Y i
2
228631

c) Una vegada linealitzada la funció de l’enunciat, quina és l'estimació del pendent de la recta
que millor ajusta les dades anteriors pel mètode de mínims quadrats ordinaris?
Apliquem la fórmula per estimar el pendent de la recta de regressió adaptant-la a les dades
transformades:
n n n n n n
n∑ X 'iY 'i - ∑X 'i ∑Y 'i n∑ ln X iYi - ∑ ln X i ∑Yi
bˆ ' = i=1
n
i=1
n
i=1
= i=1
n
i=1
n
i=1
=
e) Una vegada linealitzada la funció de l’enunciat, quin és el coeficient de correlació lineal de
n∑ X ' 2
i - ( ∑X ' ) i
2
n∑ ( ln X i )
2
- ( ∑ln X i )
2

i=1 i=1 i =1 i=1 les dades anteriors?


8·5711.4677 − 33.7729·1351
= = 55.9878.
8·142.7201 − 33.77292
Apliquem la fórmula per calcular el coeficient de correlació lineal d’una mostra adaptant-la
a les dades transformades:
d) Una vegada linealitzada la funció de l’enunciat, quina és l'estimació de l'ordenada a l'origen
n n n
de la recta que millor ajusta les dades anteriors pel mètode de mínims quadrats ordinaris? n∑ ln X iYi - ∑ ln X i ∑Yi
Apliquem la fórmula per estimar l'ordenada a l'origen de la recta de regressió adaptant-la a r’ = i=1 i=1 i=1
=
n n n n

n∑ ( ln X ) - ( ∑ln X n∑ Yi -( ∑Y
2 2 2
les dades transformades: i i ) · 2
i )
=i 1 = i=1 i 1 i=1

aˆ ' = Y ' - bˆ ' X ' = 168.875 − 55.9878·4.2216 =


−67.4835 . 8·5711.4677 − 33.7729·1351
= = 0.9696 .
Per tant la recta de regressió que obtenim, una vegada linealitzada la funció de l’enunciat, és: 8·142.7201 − 33.77292 · 8· 228631 - 13512
aˆ '+ bˆ 'ln X i =
Yˆ i = −67.4835 + 55.9878ln X i .
f) Una vegada linealitzada la funció de l’enunciat, quin és el coeficient de determinació de les
dades anteriors?

El coeficient de determinació és el quadrat del coeficient de correlació anterior:


r’2 = 0.96962 = 0.9401.

g) Una vegada linealitzada la funció de l’enunciat, quin és l'error estàndard de la recta ajustada
anteriorment?

147 148
Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz

Aquest punt és t0.025 = 2.4469. En definitiva, la zona de la distribució estadística on


A la taula següent es calculen els residus de la funció linealitzada: s’accepta la H0 és (-2.4469 , 2.4469).
X i ' = ln X i Yi ' = Yi Yˆi ' e 'i 2
e 'i
4.3438 174 175.7165 -1.7165 2.9465
4.2485 168 170.3803 -2.3803 5.6659
4.3694 181 177.1522 3.8478 14.8057
4.2195 170 168.7574 1.2426 1.5441
4.0253 158 157.8870 0.1130 0.0128
4.3820 177 177.8564 -0.8564 0.7335
4.0254 159 157.8870 1.1130 1.2388
4.1589 164 165.3631 -1.3631 1.8581
0 28.8053

4) Zona H1 de la distribució estadística corresponent. La zona de la distribució estadística


Apliquem la fórmula per calcular l’error estàndard: on s’accepta la H1 és la complementària a la trobada al pas anterior, per tant és (-∞ , -
n
2.4469) U (2.4469 , ∞).
∑e ' i
2

28.8053
S’u = i=1
= = 2.1911 5) Zona H0 del coeficient de correlació mostral, r’. La H0 s’acceptarà si el coeficient de
n-2 6
correlació r’ es troba a l’interval:
 tα /2 tα /2 
h) Una vegada linealitzada la funció de l’enunciat, per tal de valorar si hi ha relació lineal entre − , .
 tα /2 + n − 2 tα /2 + n − 2 
2 2
el logaritme del pes (ln X) i l’alçada (Y), feu el contrast sobre la significativitat del coeficient 
de correlació. Amb les nostres dades, tenim que aquest interval és:
1) La hipòtesis nul·la, H0, és:  2.4469 2.4469 
− , =( −0.7067, 0.7067 ) .
H0: ρ’ = 0 
2 2
2.4469 + 8 − 2 2.4469 + 8 − 2 
Això vol dir que, sota H0, el coeficient de correlació de la funció linealitzada no és
significatiu i que no hi ha relació lineal entre el logaritme del pes i l’alçada.
r'
H0
2) La hipòtesis alternativa, H1, és: H1 H1
H1: ρ’ ≠ 0
Això vol dir que, sota H1, el coeficient de correlació és significatiu i que existeix una -1 0 1
-0.7067 0.7067
relació lineal entre el logaritme del pes i l’alçada.
3) Zona H0 de la distribució estadística corresponent. S’ha de consultar la distribució t de
Student amb n-2 = 8-2 = 6 graus de llibertat. La H1 és bilateral i el valor de α és 0.05.
6) Zona H1 del coeficient de correlació mostral, r’. La zona on s’ha de trobar el coeficient
Per tant, cal mirar quin punt deixa a la seva dreta una àrea de α/2 = 0.05/2 = 0.025.
de correlació mostral r’ per acceptar la H1 és la complementària a la trobada al pas
anterior, per tant és:
149 150
Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz

(-1 , -0.7067) U (0.7067 , 1).


7) Estadístic de prova. L’estadístic de prova t és: L’estimació de la funció original és eY = 4.91·10−30 ·X 55.9878 :
r ' n − 2 0.9696 8 − 2 Per tant, una predicció puntual de l'alçada quan el pes d’una persona és de 75kg, X0=75, és:
=t' = = 9.7038 .
1 − r '2 1 − 0.96962 =eY0 4.91·10−30=
·7555.9878 4.70768·10=
75
⇒ Yˆ0 ln 4.70768·10
= 75
174.2431 .
8) Conclusió 1. Com r’ i t’ pertanyen a la zona on s’accepta la H1, s’ha demostrat que el
Y ln a + b ln X :
S’arriba al mateix resultat si usem el model equivalent=
coeficient de correlació és significatiu i que existeix una relació lineal entre les variables
Yˆ0 = 174.2431 .
−67.4835 + 55.9878ln 75 =
logaritme del pes i alçada.
9) Càlcul del p-valor o nivell significació crític, α’c. Com la H1 és bilateral, cal buscar
Solució amb Excel.
l’àrea que hi ha a la dreta del valor absolut de l’estadístic de prova t’ a les taules de la t
de Student amb 6 graus de llibertat i multiplicar aquesta àrea per 2. Usant Excel o
En funcions que es puguin linealitzar i fent una transformació prèvia i adequada de les dades, el
qualsevol programa específic d’Estadística, tenim que el punt |t’| = 9.7038 deixa a la
programa Excel permet fer de manera automàtica els càlculs que calen per realitzar una
seva dreta una àrea de 3.44·10-5 (usant la t de Student amb 6 graus de llibertat) i, per tant,
regressió no lineal simple. Prèviament, hem de tenir instal·lat el mòdul de “Análisis de datos”.
el resultat del p-valor és α’c = = 2 · 3.44·10-5 = 6.87·10-5.
10) Conclusió 2. Si volem treballar amb α=0.05 i com α’c = 6.87·10-5 < α=0.05, s’accepta la
Per realitzar una regressió no lineal simple amb Excel cal seguir els passos següents:
H1, i, com abans, s’ha demostrat que el coeficient de correlació és significatiu i que
a) Quan tenim una funció no lineal que es pot linealitzar, el primer que cal fer és
existeix una relació lineal entre el logaritme del pes i l’alçada.
linealitzar la funció per tal de saber amb quines dades transformades hem de treballar.
En el nostre cas, tenim la funció eY = a·X b i aquesta funció es pot linealitzar prenent
i) Quina és l’estimació del paràmetre b de la funció original eY = a·X b ?
logaritmes.
Quan hem linealitzat la funció eY = a·X b hem trobat que:
Si prenem logaritmes, obtenim:
b' = b .
Y ln a + b ln X
=
Com bˆ ' = 55.9878 , llavors bˆ = 55.9878 . Aquesta equació és lineal ja que és de la forma:
j) Quina és l’estimació del paràmetre a de la funció original eY = a·X b ? Y =' a '+ b ' X '
Y b
Quan hem linealitzat la funció e = a·X hem trobat que: on:
a ' = ln a , • Variable dependent: Y ' = Y .
és a dir, • Variable independent: X ' = ln X .
a = ea ' . • Paràmetres: a ' = ln a i b ' = b .

Com aˆ ' = − 67.4835 , llavors


= −67.4835
a e= 4.92·10 −30
. Per tant, hem de treballar amb les variables X ' = ln X i Y ' = Y .
Y −30 55.9878
Llavors, l’estimació de la funció original és e = 4.91·10 ·X .
b) Introduïm les variables X ' = ln X i Y ' = Y al full de càlcul (cada variable en una

k) Quan el valor de la variable independent és igual a 75kg, quina és la predicció puntual de la columna). La Pantalla ens mostra com han de quedar les dades una vegada introduïdes

variable dependent, és a dir, quan una persona pesa 75kg, quina seria la seva alçada segons a Excel.

el model de l’enunciat eY = a·X b , o el seu model equivalent=


Y ln a + b ln X ?

151 152
Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz

d. Opciones de salida. Aquí triem on volem els resultats. Deixem marcada l’opció
En una hoja nueva.
f) El resultat apareix en una fulla nova. Hi han tres taules de resultats: taula “Estadísticas
de la regresión”, taula “Análisis de varianza” i una taula final amb els resultats de
l’estimació de la recta de regressió lineal i altres estadístics. Tots aquests resultats fan
referència a la funció linealitzada.
g) Taula Estadísticas de la regresión. Apareix el valor del coeficient de correlació r
Pantalla 18. Dades per fer regressió no lineal simple a Excel
(0.96958657), el valor del coeficient de determinació r2 (0.94009812), el
c) Del menú “Datos”, hem de triar “Análisis de datos”.
d) De les funcions que apareixen, triar “Regresión” i acceptar. Ha d’aparèixer el quadre coeficient de determinació corregit r 2 (0.93011447), el valor de l'error estàndard o

que es veu a la Pantalla. típic Su (2.19109243) i el nombre de dades (8).

Pantalla 20. Taula "Estadísticas de la regresión"

h) Taula Análisis de varianza. El més interessant d’aquesta taula és Valor crítico de F ja


que aquest valor és el nivell de significació crític o p-valor per valorar si hi ha una
relació lineal entre els logaritmes dels pesos i les alçades. En el nostre cas, tenim que
aquest p-valor és αc = 6.87348·10-5 (és el valor que ja havíem obtingut a la solució
anterior al pas h9).

Pantalla 19. Quadre de diàleg "Regresión"

e) Del quadre anterior, hem d’omplir:


a. Rango Y de entrada. Hem de seleccionar les caselles on es troben les dades de
Pantalla 21. Taula "Análisis de la varianza"
la variable Y’ una vegada s’ha linealitzat la funció original, en el nostre cas les
i) Taula final de resultats de la regressió. El més interessant d’aquesta taula es troba a les
dades de les alçades.
columnes “Coeficientes” i “Probabilidad”.
b. Rango X de entrada. Hem de seleccionar les caselles on es troben les dades de
la variable X’, una vegada s’ha linealitzat la funció original, en el nostre cas les
dades dels logaritmes dels pesos.
c. Rótulos. Hem de marcar aquesta casella si en Rango de entrada hem seleccionat
Pantalla 22. Taula final de resultats de la regressió
les cel·les on hi ha els rètols descriptius del nom de les variables de cada
a. Coeficientes -> Intercepción. És l'estimació de l'ordenada a l'origen de la
columna. Si no s’han posat aquests rètols descriptius o no s’han inclòs aquestes
funció linealitzada que millor ajusta les dades transformades. Aquest valor és
cel·les en Rango de entrada, no hem de marcar la casella Rótulos.
153 154
Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz

aˆ ' = − 67.4835048 (és el valor que ja havíem obtingut a la solució anterior, al


pas d). Personatge Hores estudi Alçada % Temps distret a Qualificació
b. Coeficientes -> X’: lnX. És l'estimació del pendent de la funció linealitzada que setmanals classe
Blancaneus 0.4 157 0 5.9
millor ajusta les dades transformades. Aquest valor és bˆ ' = 55.9877818 (és el
Caputxeta Vermella 3.1 178 16 5.7
valor que ja havíem obtingut a la solució anterior, al pas c) i és el coeficient que Ventafocs 1.5 190 10 6.2
Bella Dorment 4.6 162 3 9
acompanya a la variable X’ en la funció linealitzada. Per tant, com abans, tenim
Fada Ventafocs 5 172 34 5.5
que la funció linealitzada és: Príncep Blancaneus 2 186 18 7
Príncep Ventafocs 0 168 40 2
aˆ '+ bˆ 'ln X i =
Yˆ i = −67.4835048 + 55.9877818ln X i . Llop Caputxeta 2.7 174 19 6.8
Com en els passos i) i j) de la solució anterior, a partir de la funció linealitzada,
a) Quina és l'estimació del model de regressió lineal múltiple on la Qualificació és la variable
podríem trobar l’estimació dels paràmetres a i b de la funció original i obtenir:
Y −30 55.9878 dependent Y i les variables Hores d’estudi setmanals (X1), Alçada (X2) i Percentatge de
e = 4.91·10 ·X .
temps distrets (X3) són les variables independents del model?
c. Probabilidad -> X’: lnX. És el nivell de significació crític o p-valor per valorar
b) Quin és el coeficient de correlació lineal, el coeficient de determinació i l’error estàndard del
si hi ha una relació lineal entre els logaritmes dels pesos (variable X’) i les
model anterior?
alçades (variable Y’). Quan fem una regressió lineal simple aplicada a una
c) Quin és el p-valor que ens serveix per valorar si, en general, el model lineal anterior és
funció no lineal transformada, és exactament el mateix valor que hem trobat
significatiu o no? A quina conclusió arribem?
abans a la columna “Valor crítico de F” de la taula “Análisis de la varianza”. En
d) Quin és el p-valor que ens serveix per valorar si, en particular, la variable independent
el nostre cas, tornem a tenir que aquest p-valor és αc = 6.8735·10-5 (és el valor
"Hores d’estudi setmanals" està relacionada linealment amb la variable dependent
que ja havíem obtingut a la solució anterior, al pas h9) i, com és més petit que el
"Qualificació"? A quina conclusió arribem?
nivell d’error α=0.05 amb el que volem treballar, podem concloure, de nou, que
e) Quin és el p-valor que ens serveix per valorar si, en particular, la variable independent
existeix una relació lineal entre els logaritmes dels pesos (variable X’) i les
"Alçada" està relacionada linealment amb la variable dependent "Qualificació"? A quina
alçades (variable Y’), o, el que és el mateix, existeix una relació logarítmica
conclusió arribem?
entre els pesos (variable X) i les alçades (variable Y).
f) Quin és el p-valor que ens serveix per valorar si, en particular, la variable independent "%
Temps distret a classe" està relacionada linealment amb la variable dependent
"Qualificació"? A quina conclusió arribem?
7.3 Regressió lineal múltiple. g) Quan un estudiant, que fa 171 cm d’alçada, ha dedicat 3.5 hores setmanals a estudiar
Estadística i ha estat distret un 8% del temps de classe, quina és la predicció puntual de la
qualificació que traurà a l’examen d’Estadística?
Enunciat
Es vol veure si hi ha una relació entre la qualificació obtinguda en l’examen d’Estadística i
Solució amb Excel.
les hores d’estudi setmanals que hi dediquen els estudiants, l’alçada dels estudiants i el
percentatge del temps que els estudiants estan distrets a les classes. Per això, s’agafen les
El programa Excel permet fer de manera automàtica els càlculs que calen per realitzar una
dades d’aquestes variables de 8 “estudiants” d’Estadística i s’han obtingut el resultats
regressió lineal simple. Prèviament, hem de tenir instal·lat el mòdul de “Análisis de datos”.
següents:

155 156
Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz

l’alçada i el percentatge de temps distret a classe. S’han de seleccionar les


Per realitzar una regressió lineal múltiple amb Excel cal seguir els passos següents: dades de les tres columnes.
1) Per començar a fer qualsevol tipus d’anàlisi, primer hem de tenir les dades entrades en c. Rótulos. Hem de marcar aquesta casella si en Rango de entrada hem seleccionat
el full de càlcul. Hem de posar les dades de cada variable en columna i les variables les cel·les on hi ha els rètols descriptius del nom de les variables de cada
independents han d’estar en columnes adjacents. La Pantalla ens mostra com han de columna. Si no s’han posat aquests rètols descriptius o no s’han inclòs aquestes
quedar les dades una vegada introduïdes a Excel. cel·les en Rango de entrada, no hem de marcar la casella Rótulos.
d. Opciones de salida. Aquí triem on volem els resultats. Deixem marcada l’opció
En una hoja nueva.
5) El resultat apareix en una fulla nova. Hi han tres taules de resultats: taula “Estadísticas
de la regresión”, taula “Análisis de varianza” i una taula final amb els resultats de
l’estimació de la recta de regressió lineal i altres estadístics. A partir dels resultats
d’aquestes tres taules, podrem anar contestant les diverses preguntes plantejades.
Pantalla 23. Dades per fer regressió lineal múltiple a Excel
2) Del menú “Datos”, hem de triar “Análisis de datos”. a) Quina és l'estimació del model de regressió lineal múltiple on la Qualificació és la variable
3) De les funcions que apareixen, triar “Regresión” i acceptar. Ha d’aparèixer el quadre dependent Y i les variables Hores d’estudi setmanals (X1), Alçada (X2) i Percentatge de
que es veu a la Pantalla. temps distrets (X3) són les variables independents del model?
El model que volem ajustar és:
Qualificació = β0 + β1 · Hores estudi setmanals + β2 · Alçada + β3 · %Distret
L’estimació dels paràmetres βi els trobem a la taula final de resultats, a la columna
“Coeficientes”.

Pantalla 25. Estimació dels coeficients del model de regressió lineal múltiple a Excel

Aquesta estimació és: β̂ 0 =1.6872, β̂ 1 =0.6251, β̂ 2 =0.0269 i β̂ 3 =-0.1055.

Per tant, l’estimació del model que volem ajustar és:


Pantalla 24. Quadre de diàleg "Regresión" Qualificació = 1.6872 + 0.6251 · Hores estudi setmanals + 0.0269 · Alçada - 0.1055 · %Distret
4) Del quadre anterior, hem d’omplir: Fixem-nos que els signes positius dels coeficients que acompanyen a les variables Hores
a. Rango Y de entrada. Hem de seleccionar les caselles on es troben les dades de d’estudi setmanals i Alçada implica una relació directa amb la variable Qualificació, és a dir,
la variable Y, en el nostre cas les dades de les qualificacions. a més Hores d’estudi setmanals li correspondrà una Qualificació més alta i, al revés, a menys
b. Rango X de entrada. Hem de seleccionar les caselles on es troben les dades de Hores d’estudi setmanals li correspondrà una Qualificació més baixa (posteriorment veurem
la variable X, en el nostre cas les dades de les hores d’estudi setmanal, que realment la variable Alçada no té una relació lineal amb la variable Qualificació).

157 158
Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz

Per altra banda, el signe negatiu del coeficient que acompanya a la variable %Temps distret
a classe implica una relació inversa amb la variable Qualificació, és a dir, a més %Temps d) Quin és el p-valor que ens serveix per valorar si, en particular, la variable independent
distret a classe li correspondrà una Qualificació més baixa i, al revés, a menys %Temps "Hores d’estudi setmanals" està relacionada linealment amb la variable dependent
distret a classe li correspondrà una Qualificació més alta. "Qualificació"? A quina conclusió arribem?

b) Quin és el coeficient de correlació lineal, el coeficient de determinació i l’error estàndard del Aquest nivell de significació crític o p-valor el trobem a la taula final de resultats, a la
model anterior? columna “Probabilidad” i a la fila corresponent a la variable independent sobre la qual volem
Aquestes mesures, juntament amb el coeficient de determinació ajustat o corregit, les trobem fer el contrast, en aquest cas Hores d’estudi setmanals.
a la taula “Estadísticas de la regresión”.

Pantalla 28. P-valor del contrast particular Hores d’estudi setmanals-Qualificació


En aquest cas, tenim que aquest p-valor és αc=0.0275 i, podem afirmar que, agafant un nivell
Pantalla 26. Estadístics de la regressió lineal múltiple a Excel
de significació de α=0.05, la variable independent "Hores d’estudi setmanals" està
Tenim que el valor del coeficient de correlació r és 0.9407, el valor del coeficient de
relacionada linealment amb la variable dependent "Qualificació" ja que αc=0.0275 <
determinació r2 és 0.8849, el coeficient de determinació ajustat o corregit r 2 és 0.7986, el
α=0.05.
valor de l'error estàndard o típic Su és 0.8818 i el nombre de dades és 8.

e) Quin és el p-valor que ens serveix per valorar si, en particular, la variable independent
c) Quin és el p-valor que ens serveix per valorar si, en general, el model lineal anterior és "Alçada" està relacionada linealment amb la variable dependent "Qualificació"? A quina
significatiu o no? A quina conclusió arribem? conclusió arribem?

Aquest nivell de significació crític o p-valor el trobem a la taula “Análisis de la varianza”, a Aquest nivell de significació crític o p-valor el trobem a la taula final de resultats, a la
la columna “Valor crítico de F”. columna “Probabilidad” i a la fila corresponent a la variable independent sobre la qual volem
fer el contrast, en aquest cas Alçada.

Pantalla 27. Taula Análisis de la Varianza de la regressió lineal múltiple a Excel


En aquest cas, tenim que aquest p-valor és αc=0.0239 i, podem afirmar que, agafant un nivell
de significació de α=0.05, el model lineal anterior és significatiu ja que αc=0.0239 < α=0.05, Pantalla 29. P-valor del contrast particular Alçada-Qualificació

i, per tant, que les variables independents en conjunt (Hores estudi setmanal, Alçada i En aquest cas, tenim que aquest p-valor és αc=0.4214 i, podem afirmar que, agafant un nivell

%Temps distret a classe) són significatives per explicar de manera lineal els valors obtinguts de significació de α=0.05, la variable independent "Alçada" no està demostrat que estigui

de la variable Qualificació. relacionada linealment amb la variable dependent "Qualificació" ja que αc=0.4214 >
α=0.05.
159 160
Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz

f) Quin és el p-valor que ens serveix per valorar si, en particular, la variable independent "%
Temps distret a classe" està relacionada linealment amb la variable dependent
"Qualificació"? A quina conclusió arribem?

Aquest nivell de significació crític o p-valor el trobem a la taula final de resultats, a la


columna “Probabilidad” i a la fila corresponent a la variable independent sobre la qual volem Pantalla 31. Dades per fer la nova regressió lineal múltiple a Excel

fer el contrast, en aquest cas % Temps distret a classe.

Pantalla 30. P-valor del contrast particular %Temps distret a classe-Qualificació Pantalla 32. Estadístics de la nova regressió lineal múltiple a Excel

En aquest cas, tenim que aquest p-valor és αc=0.0122 i, podem afirmar que, agafant un nivell
de significació de α=0.05, la variable independent "% Temps distret a classe" està
relacionada linealment amb la variable dependent "Qualificació" ja que αc=0.0122 <
α=0.05.
Pantalla 33. Taula Análisis de la Varianza de la nova regressió lineal múltiple a Excel
g) Quan un estudiant, que fa 171 cm d’alçada, ha dedicat 3.5 hores setmanals a estudiar
Estadística i ha estat distret un 8% del temps de classe, quina és la predicció puntual de la
qualificació que traurà a l’examen d’Estadística?

L’estimació del model de regressió múltiple que hem ajustat ha estat:


Pantalla 34. Taula final de resultats de la nova regressió lineal múltiple a Excel
Qualificació = 1.6872 + 0.6251 · Hores estudi setmanals + 0.0269 · Alçada - 0.1055 · %Distret
Per tant, una predicció puntual de la qualificació quan un estudiant de 171cm d’alçada ha
L’estimació del nou model de regressió múltiple que hem ajustat ha estat:
dedicat 3.5 hores setmanals a estudiar Estadística i ha estat distret un 8% del temps de classe,
Qualificació = 6.2842 + 0.6260 · Hores estudi setmanals - 0.1019 · %Distret
és:
Per tant, una predicció puntual de la qualificació d’un estudiant que ha dedicat 3.5 hores
Qualificació = 1.6872 + 0.6251 · 3.5 + 0.0269 · 171 - 0.1055 · 8 = 7.63.
setmanals a estudiar Estadística i ha estat distret un 8% del temps de classe, és:
Qualificació = 1.6872 + 0.6260 · 3.5 - 0.1019 · 8 = 7.66.
Ara bé, cal considerar que la variable Alçada no s’ha demostrat que estigui relacionada
linealment amb la variable Qualificació i, realment, la variable Alçada s’hauria de treure del
Entre d’altres coses, fixem-nos que aquest nou model és millor que l’anterior ja que té un
model de manera que les variables independents només fossin Hores d’estudi setmanals i %
Temps distret a classe. En aquest cas, les dades i resultats obtinguts són: coeficient de determinació ajustat r 2 de 0.8066 que és més alt que l’obtingut amb el primer

161 162
Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz

model amb 3 variables independents que era de 0.7986. dispersió. Agafant l’exemple dels pesos i les alçades, els passos que cal seguir per fer gràfics de
dispersió són:

1) Posem les dades en dues columnes de manera que les dades de la variable independent,
7.4 Comparació de models de regressió. Pes, ocupin una columna i les de la variable dependent, Alçada, ocupin la columna de la
seva dreta.
Enunciat
La Caputxeta Vermella s’ha fet gran i ja va a la Universitat. El seu grup d’estudi està format per
8 companys/es. A les persones del grup d’estudi al qual pertany la Caputxeta se’ls hi ha mesurat
el seu pes i la seva alçada i s’han obtingut els resultats següents:

X (pes) 77 70 79 68 56 80 56 64

Y (alçada) 174 168 181 170 158 177 159 164


Pantalla 35. Dades per fer un gràfic de dispersió a Excel
Volem ajustar els models lineal, quadràtic, logarítmic, potencial i exponencial a aquestes dades 2) Seleccionem les dues columnes de dades.
de manera que la variable Pes sigui la variable independent (X) i la variable Alçada sigui la 3) Anem a Insertar -> Gráfico de dispersión. Triem el gràfic on només surten els punts,
variable dependent (Y) en tots aquests models. Una vegada ajustats aquests models, hem de sense cap mena de línia.
valorar quin és el millor model que ajusta aquestes dades.

a) Quina és l'estimació del model lineal Y = β0 + β1 X que millor ajusta les dades i el coeficient
de determinació d’aquest model?
b) Quina és l'estimació del model quadràtic Y = β0 + β1 X + β2 X2 que millor ajusta les dades i
el coeficient de determinació d’aquest model?
c) Quina és l'estimació del model logarítmic Y = β0 + β1 lnX que millor ajusta les dades i el
coeficient de determinació d’aquest model?
d) Quina és l'estimació del model potencial Y = β0 · Xβ1 que millor ajusta les dades i el
coeficient de determinació d’aquest model?
Pantalla 36. Insertar -> Gràfico de dispersión
e) Quina és l'estimació del model exponencial Y = β0 · eβ1·X que millor ajusta les dades i el
coeficient de determinació d’aquest model?
f) De tots els models anteriors, quin és el que ajusta millor les dades? Amb el gràfic que s’obté, podem ajustar diversos models a les dades. Els passos que hem de
seguir per fer els diversos ajustos a partir del gràfic obtingut són:
Solució amb Excel. 1) Cliquem, amb el botó dret, sobre una de les dades representades. Del menú que apareix,
triem “Agregar linea de tendencia”.
El programa Excel permet fer de manera automàtica els càlculs que calen per ajustar els models
lineal, quadràtic, logarítmic, potencial i exponencial de manera gràfica a partir de gràfics de
163 164
Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz

a) Quina és l'estimació del model lineal Y = β0 + β1 X que millor ajusta les dades i el coeficient
de determinació d’aquest model?
El gràfic que s’obté és:

Pantalla 37. “Agregar línia de tendència” a un gràfic de dispersió a Excel


2) A “Opciones de línia de tendencia” triem el model que volem ajustar. Si triem el model
polinomial, també hem d’indicar el grau del polinomi que hi volem ajustar. Per seguir
amb el nostre exemple, triem lineal.

Per tant, el model lineal ajustat i el r2 d’aquest model són:


Y = 111.32 + 0.8372 X
r2 = 0.9466

Pantalla 38. Triem el tipus de model que volem ajustar


b) Quina és l'estimació del model quadràtic Y = β0 + β1 X + β2 X2 que millor ajusta les dades i
el coeficient de determinació d’aquest model?
3) Anem a la part de baix de les opcions i marquem les caselles “Presentar ecuación en el
El gràfic que s’obté és:
gráfico” i “Presentar el valor R cuadrado en el gráfico”. D’aquesta manera al gràfic ens
apareixerà el model ajustat i el seu coeficient de determinació r2.

Pantalla 39. Triem que es mostri l’equació i el r2 al gràfic Per tant, el model quadràtic ajustat i el r2 d’aquest model són:
4) Al gràfic, ens ha d’aparèixer el model ajustat y = 0.8372x + 111.32 i el valor del Y = 135.65 + 0.1067 X + 0.0054 X2
2
coeficient de determinació r = 0.9466. r2 = 0.9485

165 166
Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz

r2 = 0.9464
c) Quina és l'estimació del model logarítmic Y = β0 + β1 lnX que millor ajusta les dades i el
coeficient de determinació d’aquest model? e) Quina és l'estimació del model exponencial Y = β0 · eβ1·X que millor ajusta les dades i el
El gràfic que s’obté és: coeficient de determinació d’aquest model?
El gràfic que s’obté és:

Per tant, el model logarítmic ajustat i el r2 d’aquest model són:


Y = -67.484 + 55-988 lnX
Per tant, el model exponencial ajustat i el r2 d’aquest model són:
r2 = 0.9401
Y = 119.84 · e0.005·X
r2 = 0.9513
d) Quina és l'estimació del model potencial Y = β0 · Xβ1 que millor ajusta les dades i el
coeficient de determinació d’aquest model?
f) De tots els models anteriors, quin és el que ajusta millor les dades?
El gràfic que s’obté és:
La mesura que usarem per comparar models és el coeficient de determinat ajustat o corregit,

r , i triarem el model que tingui un valor r més gran. La seva fórmula de càlcul és:
2 2

2 n −1
r =1− (1 − r 2 )
n − (k + 1)
on k + 1 és el nombre de paràmetres a estimar del model que es vol ajustar.
Hem de tenir en compte que en tots els model el valor de k + 1 és 2, perquè hi ha dos
paràmetres a estimar, menys en el model quadràtic on el valor de k + 1 és 3, perquè hi ha
tres paràmetres a estimar.
Podem construir una taula resum amb els models ajustats obtinguts, els seu valor de r2 i els
valors calculats del coeficient de determinació ajustat r 2 :
Model Funció r2 2
r
Lineal y = 0.8372x + 111.32 0.9466 0.9377
Per tant, el model potencial ajustat i el r2 d’aquest model són: Quadràtic y = 0.0054x2 + 0.1067x + 135.65 0.9485 0.9279
Logarítmic y = 55.988 ln x – 67.484 0.9401 0.9301
Y = 41.371 · X0.3329 Potencial y = 41.371x0.3329 0.9464 0.9375
167 168
Estadística: exercicis resolts pas a pas Josep Maria Mateo Sanz

Exponencial y = 119.84e0.005x 0.9513 0.9432

El model que té un valor r 2 més gran és el model exponencial i considerem que aquest és el
model que millor ajusta les dades.

169

You might also like