You are on page 1of 22

Matemàtiques II. Full 1. Estimadors puntuals. Solucions.

1) Donau per bo que la secreció diària mitjana de fel en un individu sa és de 0.6 l/dia, amb una desviació
típica de 0.45.
1) Si prenem una mostra aleatòria de 50 individus (suposadament) sans i mesuram la seva secreció
de fel un dia concret, quina és la probabilitat que la mitjana d’aquestes secrecions de fel sigui superior a
0.75 l? Si això és el que passàs, quines conclusions en podríem treure?
Diguem X a la v.a. “secreció de fel en un dia en un individu sa” i X a la v.a. definida per la mitjana
mostral de mostres de mida 50 de X. Ens demanen P (X > 0.75). Per calcular-ho, necessitam saber
la distribució de probabilitats de X.
Ara bé, com que n = 50 és grandet, podem aplicar el T.C.L., p que ens diu que la mitjana mostral
X en aquest cas segueix aproximadament una llei N (0.6, 0.45/ 50) = N (0.6, 0.064). Per tant
P (X > 0.75) = 1-pnorm(0.75,0.6,0.45/sqrt(50)) = 0.009

Veiem que el fet que aquesta mitjana sigui superior a 0.75 és molt improbable. Així doncs, si és
el que ha passat, una de tres: o hem estat molt desgraciats triant la nostra mostra (menys d’una de
cada cent possibles mostres tenen aquesta propietat); o ens han mentit amb les propietats de la X
(la mitjana o la desviació típica no són els que ens han dit); o la mostra en realitat no era d’individus
sans.
2) Suposem ara que la secreció diària de fel en un individu sa segueix una distribució normal, amb els
paràmetres donats abans. Si prenem una mostra aleatòria de 50 individus sans i mesuram la seva secreció
de fel un dia concret, quina és la probabilitat que la desviació típica mostral d’aquestes secrecions sigui
superior a 0.5?
Diguem SeX i SeX 2
a les vv.aa. definides per la desviació típica mostral i la variància mostral de
mostres de mida 50 de X, respectivament.
Ens demanen P (SeX > 0.5). Per calcular-ho, usarem que, com que la variable aleatòria poblacional
X és normal amb desviació típica = 0.45, sabem que
(n 1) · SeX
2
49 · SeX
2

2
= 2
0.45
té distribució 249 . Només hem de transformar P (SeX > 0.5) en la probabilitat d’un esdeveniment
sobre aquest quocient. Anem fent:
⇣ 49 · Se2 49 · 0.25 ⌘
P (SeX > 0.5) = P (SeX
2
> 0.52 ) = P (SeX
2
> 0.25) = P X
>
0.452 0.452
2
= P ( 49 > 60.5) = 1-pchisq(60.5,49) = 0.126
La probabilitat que la desviació típica mostral de les secrecions de fel en un dia en una mostra
aleatòria de 50 individus sans sigui superior a 0.5 és del 12.6%.

2) Segons dades de la «Federación Nacional de Donantes de Sangre», un 20% dels espanyols són Rh .
1) Quin és l’error estàndard de la proporció d’individus Rh en mostres aleatòries de 100 espanyols? I
en mostres aleatòries de 1000 espanyols?
Diguem pX a la proporció d’espanyols que són Rh , que ens diuen que és pX = 0.24, i pbX,n a la
variable aleatòria que ens dóna la proporció d’individus Rh en una mostra aleatòria de n espanyols.
Com que tant n = 100 com n = 1000 són relativament petits respecte del nombre total d’espanyols,
l’error estàndard d’aquest estimador en aquests casos és (per la definició pura i dura)
r r
pX (1 pX ) 0.2 · 0.8
n = 100 ) pbX,100 = = = 0.04
n 100
r r
pX (1 pX ) 0.2 · 0.8
n = 1000 ) pbX,1000 = = = 0.01265
n 1000

1
L’error estàndard quan n = 1000 ha donat gairebé un terç de l’error estàndard quan n = 100.
2) Què mesuren aquests errors estàndard? Era d’esperar que donàs més petit quan n = 1000 que quan
n = 100?
L’error estàndard de pbX,n és simplement la desviació típica de la variable aleatòria que pren una
m.a.s. de n espanyols i en dóna la proporció d’individus Rh . Com més gran és n, més esperam que
aquesta proporció s’acosti a la proporció poblacional i que per tant la variabilitat dels resultats, és a
dir, aquest error estándard, sigui més petita.
3) Si prenem una mostra aleatòria de 100 espanyols, quina és la probabilitat que com a mínim un 25%
siguin Rh ? I si prenem la mostra de 1000 espanyols, en lloc de 100? Calculau els dos valors emprant
una distribució binomial i l’aproximació donada pel T.C.L. i comparau els resultats.
n = 100) El nombre d’individus Rh en una m.a.s. de 100 espanyols segueix una distribució binomial
B(100, 0.2). La probabilitat «exacta» que el nombre S d’individus Rh en una mostra d’aquestes
sigui com a mínim un 25% és, per tant,

pX,100 > 0.25) = P (S > 25) = 1-pbinom(24,100,0.2) = 0.1313


P (b

D’altra banda, com que n = 100 és gran, pel T.C.L. tenim que pbX,100 segueix aproximadament
una llei N (pX , pbX,100 ) = N (0.2, 0.04). Usant aquesta aproximació,

pX,100 > 0.25) = 1-pnorm(0.25,0.2,0.04) = 0.1056


P (b

La diferència entre el valor real i l’aproximat està a les centèssimes d’unitat.


n = 1000) El nombre d’individus Rh en una m.a.s. de 1000 espanyols segueix una distribució
binomial B(1000, 0.2). La probabilitat «exacta» que el nombre S d’individus Rh en una mostra
d’aquestes sigui com a mínim un 25% és, per tant,

pX,1000 > 0.25) = P (S > 250) = 1-pbinom(249,1000,0.2) = 0.00007


P (b

D’altra banda, pel T.C.L. tenim que pbX,1000 segueix aproximadament una llei N (pX , bX,1000 )
p =
N (0.2, 0.01265). Usant aquesta aproximació,

pX,1000 > 0.01265) = 1-pnorm(0.25,0.2,0.01265) = 0.000034


P (b

La diferència entre el valor real i l’aproximat està en la 5a xifra decimal.


Podem veure les diferències entre les distribucions de les binomials i les aproximacions pel T.C.L.
quan n = 100 i n = 1000 en els gràfics produïts amb el codi següent:
# n =100
plot (5:35 , pbinom (5:35 ,100 ,0.2) , type = " h " , lwd =1.5 , xlab = " Nombre d ’ è xits " ,
ylab = " Probabilitat " , yaxp = c (0 ,1 ,10) , main = " Probabilitats acumulades , n =100 " )
curve ( pnorm ( x / 100 ,0.2 ,0.04) , col = " red " , lwd =2 , add = TRUE )
legend ( " topleft " , lty = c (1 ,1) , col = c ( " black " ," red " ) ,
legend = c ( " Binomial " ," Normal " ) )
#
# n =1000
plot (150:250 , pbinom (150:250 ,1000 ,0.2) , type = " h " , lwd =1.5 , xlab = " Nombre d ’ è xits " ,
ylab = " Probabilitat " , yaxp = c (0 ,1 ,10) , main = " Probabilitats acumulades , n =1000 " )
curve ( pnorm ( x / 1000 ,0.2 ,0.01265) , col = " red " , lwd =2 , add = TRUE )
legend ( " topleft " , lty = c (1 ,1) , col = c ( " black " ," red " ) ,
legend = c ( " Binomial " ," Normal " ) )

2
Probabilitats acumulades, n=100 Probabilitats acumulades, n=1000

1.0

1.0
Binomial Binomial
Normal Normal
0.9

0.9
0.8

0.8
0.7

0.7
0.6

0.6
Probabilitat

Probabilitat
0.5

0.5
0.4

0.4
0.3

0.3
0.2

0.2
0.1

0.1
0.0

0.0
5 10 15 20 25 30 35 160 180 200 220 240

Nombre d'èxits Nombre d'èxits

3) En un estudi sobre una població de falcons al nord-oest de Canadà, es marcaren 30 falcons. En una
segona captura, de 20 falcons capturats només 2 estaven marcats. Suposant que no hi hagué canvis en
la població entre les dues captures, estimau el nombre de falcons que vivien en aquella àrea.
Si empram l’estimador màxim versemblant, obtenim

b = 20 · 30 = 300
N
2
i estimam que hi vivien uns 300 falcons.
Si empram l’estimador de Chapman (que seria més adient, ja que la mostra és petita i en aquest
cas el de Chapman és menys esbiaixat que el màxim versemblant), obtenim

b = 21 · 31
N 1
3
i estimam que hi havia 216 falcons.
Quina és la resposta correcta? Ni idea, si ho sabéssim no caldria estimar-ho.

3
Matemàtiques II. Solucions del full 2 d’entrenament

1) En un grup de 60 malalts d’asma, 17 varen resultar ser al.lèrgics als àcars de la pols. A partir
d’aquesta dada, volem calcular un interval de confiança del 95% per a la proporció de malalts
d’asma que són al.lèrgics als àcars de la pols.
a) Quina és la variable aleatòria d’interès en aquest estudi? Què volem saber d’ella?
La variable és “Prenc un malalt d’asma i mir si és al.lèrgic als àcars de la pols”. És Bernoulli.
Volem estimar la seva probabilitat poblacional d’èxit, és a dir, la proporció de malalts d’asma
que són al.lèrgics als àcars de la pols.
b) Quina, o quines, fórmules (Clopper-Pearson, Wilson, etc.) podem emprar per calcular aquest
interval de confiança? Justificau la vostra resposta.
Podem emprar la fórmula de Clopper-Pearson perquè sempre la podem emprar. També
podem emprar la fórmula de Wilson, perquè la mida 60 és prou gran per poder emprar-la.
En canvi, no podem emprar la fórmula de Laplace perquè la mida 60 és massa petita per
poder emprar-la.
c) Independentment de la vostra resposta, calculau a mà l’interval del 95% amb la fórmula de
Laplace.
La fórmula és r
pbX (1
pbX )
pbX ± z q+1
2 n
amb n = 60, pbX = 17/60 i z q+1 = z0.975 = 1.96. Dóna:
2

s
17
17 60· 43
60
± 1.96 ) 0.283 ± 0.114 ) [0.169, 0.397]
60 60

d) Si volgués estimar la proporció de malalts d’asma que són al.lèrgics als àcars de la pols amb
un 95% de confiança i un marge d’error en el pitjor dels casos de 0.075, quina seria la mida
mínima de la mostra que hauria de prendre?
La fórmula és ✓ ◆2
z(q+1)/2
n>
2 · Mmax
on z q+1 = z0.975 = 1.96 i Mmax = 0.075. Dóna
2

✓ ◆2
1.96
n> = 170.7
2 · 0.075
El primer valor de n que satisfà aquesta condició és n = 171: aquesta és la mida demanada.
e) Estic segur que si prengués una mostra d’aquesta mida obtindria un IC95% de Laplace
d’amplada menor que 0.15, o després això ja dependria de la mostra?
Estic segur que amb una mostra d’aquesta mida obtindria un IC95% de Laplace d’amplada
menor que 0.15. El motiu és que he calculat la mida necessària per que l’IC 95% de Laplace
més ample possible (el que s’obté quan pbX = 0.5: en diem en el cas pitjor ) tengui amplada
com a màxim 0.15. Per tant, amb una mostra de mida 171, qualsevol interval de Laplace que
obtingui tendrà amplada 6 0.15, és a dir, error 6 0.075.

2) Una determinada marca de cigarretes afirma que el contingut mitjà de nicotina en aquestes
cigarretes és de 18 mg (el contingut dels Marlboro). Un investigador pren una mostra de 100
(5 capses de 20 cigarretes cada una), que podem entendre que és aleatòria, i ha obtingut una
mitjana de 16.8 mg de nicotina per cigarreta, amb una desviació típica mostral de 2.2 mg.
a) Quina és la variable aleatòria d’interès en aquest estudi? Què volem saber d’ella?
La variable és “Prenc una cigarreta i mir el seu contingut de nicotina, en mg”. Volem
estimar la seva mitjana.
b) Si volem calcular un interval de confiança del 95% per a la quantitat mitjana de nicotina
per cigarreta, podem fer servir la fórmula basada en la t de Student? Per què?
Sí. La fórmula basada en la t de Student es pot emprar quan la variable poblacional és
normal o quan la mostra és gran, posem de més de 30 subjectes. En aquest cas no sabem si
la variable aleatòria poblacional o no, però no cal: la mostra és gran, de mida 100.
c) Independentment de la vostra resposta a la pregunta anterior, calculau un interval de confi-
ança del 95% per a la quantitat mitjana de nicotina per cigarreta emprant la fórmula basada en
la t de Student.
La fórmula és
SeX
X ± tn 1,0.975 ·p
n
on X = 16.8, n = 100, tn 1,(1+q)/2 = t99,0.975 = qt(0.975,99) = 1.984 (⇡ 2, si voleu) i
SeX = 2.2 i per tant
2.2
16.8 ± 1.984 · p = 16.8 ± 0.436 ) [16.36, 17.24]
100
Per cert, si empràveu t99,0.975 = 2 donava el mateix resultat arrodonit a 2 xifres decimals.
d) A la vista de l’interval obtingut, què diríeu de l’afirmació del fabricant que aquesta quantitat
mitjana de nicotina per cigarreta és de 18 mg?
Estam bastant segurs que el contingut mitjà de nicotina en les cigarretes d’aquesta marca
és inferior als 18 mg, perquè estam molt segurs que aquest contingut mitjà en realitat està
entre 16.36 i 17.24 mg.

3) Volem estimar la proporció d’immigrants argentins a les Balears amb grup sanguini O . En un
grup de 120 immigrants argentins a les Balears sense cap relació familiar entre ells, 13 varen tenir
grup sanguini O . Suposau per ara que aquestes persones formen una mostra aleatòria simple
de la població immigrant argentina a les Balears.
a) Quina és la variable aleatòria d’interés en aquesta situació? Què volem saber d’ella?
La variable d’interès és X = “Prenc un immigrant argentí a les Balears i mir si és O ”, que
és Bernoulli. Volem estimar la seva probabilitat poblacional d’èxit, és a dir, la probabilitat p
que un immigrant argentí a les Balears sigui O .
b) Quina, o quines, fórmules podeu usar per calcular un interval de confiança del 95% per a la
fracció d’aquesta població que té aquest grup sanguini? Justificau la vostra resposta.
Totes: la de Clopper-Pearson es pot emprar sempre, la de Wilson es pot emprar perquè la
mostra és de més de 40 individus, i la de Laplace perquè la mostra és de més de 100 individus
i hi ha més de 10 èxits (individus O ) i més de 10 fracassos (individus no O ).
c) Independentment de la vostra resposta a la pregunta anterior, calculau aquest interval de
confiança emprant la fórmula de Laplace.
La fórmula de Laplace és r
pbX ) pbX (1
pbX ± z(1+q)/2
n
on pbX = 13/120, n = 120, q = 0.95 i z(1+q)/2 = z0.975 = 1.96. Obtenim l’interval
[0.053, 0.164]. Estimam amb un 95% de confiança que entre un 5.3% i un 16.4% dels im-
migrants argentins a les Balears són O .
d) A casa, o a classe si teniu l’ordinador a mà, calculau-les totes tres amb R i comparau els
resultats.
> binom.exact(13,120)
x n proportion lower upper conf.level
1 13 120 0.1083333 0.05895831 0.1781274 0.95
> binom.wilson(13,120)
x n proportion lower upper conf.level
1 13 120 0.1083333 0.06441141 0.1765536 0.95
> binom.approx(13,120)
x n proportion lower upper conf.level
1 13 120 0.1083333 0.05272501 0.1639417 0.95

e) Bé, en realitat la mostra va ser presa sense reposició, i la comunitat argentina a les Balears
l’any que es va fer l’estudi era d’un poc menys de 7000 individus. Creieu que per calcular
l’interval de confiança s’hauria de tenir en compte el factor de població finita? Tant si sí com si
no, calculau aquest interval de confiança del 95% tenint en compte el factor de població finita
(prenent N = 7000 per simplificar) i comparau el resultat amb l’anterior.
Una mostra de 120 individus diferents d’una població de 7000 és improbable que s’hagi
obtingut permetent repeticions: la probabilitat que, permetent repeticions, no se’n donàs cap
és
7000 ⇥ 6999 ⇥ · · · ⇥ 6881
= 0.36.
7000120
Per tant, és mal de creure que la mostra sigui simple: convé emprar el factor de població
finita.
Si empram la fórmula de Laplace amb el factor de correcció finita,
r r
pbX (1 pbX ) N n
pbX ± z(1+q)/2 ·
n N 1
on pbX = 13/120, n = 120, z(1+q)/2 = z0.975 = 1.96 i N = 7000, obtenim l’interval
[0.0532, 0.1634], un poc més estret que l’anterior.
Fixau-vos que la fórmula de Laplace amb el factor de correcció finita dóna sempre més
estreta que la fórmula sense la correcció, perquè l’amplada de la fórmula de Laplace és
r
pbX (1 pbX )
2z(1+q)/2
n
i la de la fórmula de Laplace amb el factor de correcció finita és
r r
pbX (1 pbX ) N n
2z(1+q)/2 ·
n N 1
i N n < N 1, per la qual cosa la segona amplada és igual a la primera multiplicada per
un nombre més petit que 1.

4) Un cardiòleg vol estudiar la pressió sistòlica mitjana dels homes amb sobrepès després de
caminar 6 km. En una mostra de 15 individus va obtenir x = 13 i se = 3.2. Suposau que aquesta
pressió sistòlica segueix una llei normal.
a) Quina és la variable aleatòria d’interès en aquesta situació?
X = “Prenem un home amb sobrepès, el fem caminar 6 km i mesuram la seva pressió sistò-
lica” (no ens donen les unitats, però pels valors que dóna segurament són cmHg, centímetres
de mercuri)
b) Trobau un interval de confiança del 90% per a la mitjana d’aquesta pressió sistòlica.
Com que suposam que la variable poblacional és normal, podem emprar la fórmula basada
en la t de Student que hem donat més a dalt. Fixau-vos que ara el nivell de confiança q és
0.9, per tant (1 + q)/2 = 0.95. Usant t14,0.95 = 1.76, obtenim [11.5, 14.5].
c) Trobau un interval de confiança del 90% per a la desviació típica de la pressió sistòlica en
aquestes condicions. Us ha quedat centrat en la desviació típica mostral? Tocava quedar-hi?
Com que suposam que la variable poblacional és normal, podem emprar la fórmula
2v v 3
u 2 u 2
4tu (n 1)e
s u (n 1)e
s 5,
2 ,t 2
n 1, 1+q
2 n 1, 1 2 q

on n = 15, se = 3.2 i com que q = 0.9, 2n 1,(q+1)/2 = 214,0.95 = 23.68, 2n 1,(1 q)/2 =
14,0.05 = 6.57 i obtenim [2.46, 4.67]. El centre és 3.565, diferent de s
e. No, no tocava quedar
2

centrat en se.
Matemàtiques II. Full 3c. Contrastos d’hipòtesis III

1) Un 10% de la població espanyola té entre 20 i 29 anys. He pres una m.a.s. de 200 diagnosticats
amb COVID-19 d’entre els casos recollits a l’“Actualitzación 54 sobre la enfermedad por el coronavirus
(COVID-19)” del Ministerio de Sanidad, i m’hi han sortit 13 malalts en aquesta franja d’edat. Amb
aquesta mostra, he obtingut evidència estadística que la proporció p d’espanyols malalts amb COVID-
19 que pertanyen a aquesta franja d’edat és inferior al 10%?

(a) Quina és la variable aleatòria d’interès?


(b) Quin contrast d’hipòtesis vull realitzar?
(c) Quins dels tests per a contrastos d’una proporció explicats a classe puc fer servir?
(d) Independentment de la vostra resposta, realitzau el contrast amb els dos mètodes. Per a cada
mètode:
• Digau quin és l’estadístic de contrast i la seva distribució quan la hipòtesi nul.la és vertadera
• Valor de l’estadístic a la meva mostra
• Calculau a mà el p-valor
• Calculau amb R l’interval de confiança del 95% del contrast
• Interpretau l’interval de confiança en el context específic d’aquest exercici
• Donau la conclusió amb un nivell de significació del 5%, amb la plantilla donada als apunts

(a) La variable d’interès és “Prenc un espanyol malalt de COVID-19 i mir si té entre 20 i 29


anys”.
(b) H0 : p = 0.1; H1 : p < 0.1
(c) Puc emprar els dos mètodes: el test binomial, perquè es pot fer servir sempre, i l’aproximat
perquè la mostra és de més de 40 subjectes.
(d) Test binomial:
(d.1) L’estadístic de contrast és S200 , el nombre de persones entre 20 i 29 anys en una m.a.s.
de 200 espanyols malalts de COVID-19. Si la hipòtesi nul·la és vertadera, té distribució
B(200, 0.1).
• A la meva mostra, l’estadístic de contrast ha valgut 13.
• El p-valor és P (S200 6 13) = pbinom(13,200,0.1) = 0.05656
• L’interval de confiança del 95% del contrast és
> binom . test (13 ,200 , p =0.1 , alternative = " less " ) $ conf . int
[1] 0.000000 0.101357

Estam molt segurs que la proporció de malalts de COVID-19 que tenen entre 20 i 29
anys és inferior al 10.1%.
• Conclusió: no hem obtingut evidència estadística que la proporció de malalts de COVID-
19 que tenen entre 20 i 29 anys sigui inferior al 10% (test binomial, p-valor 0.057, IC
95% de 0 a 0.101)
(d.2) Test aproximat
• L’estadístic de contrast és
pb200 0.1
Z=p
0.1 · 0.9/200
on pb200 indica la proporció mostral de persones entre 20 i 29 anys en una m.a.s. de
200 espanyols malalts de COVID-19. Si la hipòtesi nul·la és vertadera, té distribució
aproximadament N (0, 1)
• El valor de Z a la nostra mostra és
13
0.1
Z0 = p 200 = 1.65
0.1 · 0.9/200

• El p-valor és P (Z 6 1.65) = pnorm(-1.65) = 0.04947


• L’interval de confiança del 95% del contrast amb el mètode explicat al curs és
> prop . test (13 ,200 , p =0.1 , alternative = " less " , correct = FALSE ) $ conf . int
[1] 0.00000000 0.09987289

• Estam molt segurs que la proporció de malalts de COVID-19 que tenen entre 20 i 29
anys és inferior al 9.99%.
• Conclusió: hem obtingut evidència estadística que la proporció de malalts de COVID-
19 que tenen entre 20 i 29 anys és inferior al 10% (test aproximat, p-valor 0.049, IC
95% de 0 a 0.0999)

Vos promet que no he fet trampa. Han sortit conclusions diferents per pur atzar. En realitat,
Matemàtiques II. Full 3c. Contrastos d’hipòtesis III

2) Per avaluar una vacuna per al grip se seleccionà un grup de 300 individus de risc. Es triaren alea-
tòriament 150 d’ells i se’ls subministrà la vacuna; d’aquests, 20 tingueren el grip aquella temporada.
Dels altres 150 pacients sense vacunar, 30 tingueren el grip aquella temporada. Hi ha evidència que
la vacuna sigui efectiva?

(a) Donau les variables aleatòries d’interès i els seus paràmetres d’interès
(b) Quin contrast d’hipòtesis es vol realitzar? Plantejau-lo en termes de les probabilitats pv i pn que
un vacunat i un no vacunat tinguin el grip, respectivament.
(c) Les mostres són independents o aparellades?
(d) Quins dels tests per a contrastos de dues proporcions explicats a classe puc fer servir?
(e) En el que queda d’exercici, si podeu fer servir el test 2
, emprau-lo, i si no, el test de Fisher.
• Digau quin és l’estadístic de contrast i la seva distribució quan la hipòtesi nul.la és vertadera
• Valor de l’estadístic a la nostra mostra
• Calculau a mà el p-valor
• Calculau amb R l’interval de confiança del 95% del contrast
• Interpretau l’interval de confiança en el context específic d’aquest exercici
• Donau la conclusió amb un nivell de significació del 5%, amb la plantilla donada als apunts

(a) Les variables d’interès són:


• Xv = Prenem un vacunat i miram si ha tingut el grip, amb probabilitat poblacional pv
• Xn = Prenem un no vacunat i miram si ha tingut el grip, amb probabilitat poblacional
pn
(b) El contrast és H0 : pv = pn ; H1 : pv < pn
(c) Les mostres són independents, perquè hem separat el grup de subjectes enrolats en l’estudi
en dos a l’atzar.
(d) Com que les dues mostres són grans i els nombres d’èxits i fracassos són més grans que 5,
podem fer servir el test 2 , i el test exacte de Fisher es pot fer servir sempre.
(e) Efectuarem el test 2
.
• L’estadístic de contrast és
pbv pbn
Z=r ⇣ ⌘
E F 1 1
nv +nv · nv +nv nv + nn

on pbv i pbn són les proporcions mostrals de subjectes que tingueren el grip a les nostres
mostres de vacunats i no vacunats, respectivament; nv i nn les mides de les mostres
de vacunats i no vacunats, respectivament; i E i F els nombres totals de subjectes
que tingueren el grip i que no tingueren el grip en la unió de les nostres mostres,
respectivament.
Si H0 és vertadera, aqueste estadístic segueix una llei aproximadament N (0, 1).
• A la nostra mostra, pbv = 20/150 = 0.1333, pbn = 30/150 = 0.2, nv = nn = 150, E = 50
i F = 250, i per tant l’estadístic de contrast val
0.1333 0.2
Z0 = r ⇣ ⌘= 1.55
50 250 1 1
·
300 300 150 + 150
• El p-valor val
P (Z 6 Z0 ) = pnorm(-1.55) = 0.0606
• L’interval de confiança (del contrast explicat “a classe”) serà
> prop . test ( c (20 ,30) ,c (150 ,150) , alternative = " less " ,
correct = FALSE ) $ conf . int
[1] -1.000000000 0.003832862

• Estam molt segurs que la diferència pv pn és inferior a 0.004, és a dir, que la proporció
de vacunats que tenen el grip és com a màxim 0.4 punts percentuals menor que la dels
no vacunats que tenen el grip, i en particular poden ser iguals.
• Conclusió: No hem obtingut evidència estadística que la vacuna sigui efectiva (test
aproximat, p-valor, 0.06, IC 95% per a pv pn de -1 a 0.004).

3) Suposem que, per problemes de pressupost, per avaluar la vacuna anterior només poguérem enrolar
un grup de 60 individus de risc, dels quals en vacunàrem 30 escollits a l’atzar i deixàrem sense vacunar
els altres 30. Suposem també que obtinguérem les mateixes proporcions mostrals d’infectats entre
els vacunats i els no vacunats que a l’exercici anterior. Hauríem obtingut evidència que la vacuna és
efectiva? Responeu seguint l’esquema de l’exercici anterior.
Les variables d’interès i el contrast són els mateixos que a l’exercici anterior. Torna a ser un
contrast de proporcions amb dues mostres independents, pel mateix motiu que abans. Com que
cap de les dues mostres passa dels 40 subjectes, no podem fer servir el test 2 . Sí que podem
emprar el test exacte de Fisher, perquè es pot fer servir sempre.
Ens diuen que un 20/150 = 13.333% dels 30 vacunats tengueren el grip, són 4, i que un
30/150 = 20% dels 30 no vacunats tengueren el grip, són 6. La taula de freqüències és:

Vacunats No vacunats Total


Grip 4 6 10
No grip 26 24 50
Total 30 30 60

En el test de Fisher, l’estadístic de contrast és “el nombre de subjectes que han tingut el grip
en una mostra aleatòria sense reposició de 30 subjectes de la nostra mostra de 60 persones”, que
si l’hipòtesi nul·la és vertadera té distribució hipergeomètrica H(10, 50, 30). A la nostra mostra
val 4, per tant el p-valor és

P (H(10, 50, 30) 6 4) = phyper(4,10,50,30) = 0.365

També el podem calcular (i de pas calculam l’interval de confiança) amb


> fisher . test ( matrix ( c (4 ,6 ,26 ,24) , nrow =2 , byrow = TRUE ) , alternative = " less " )

Fisher ’s Exact Test for Count Data

data : matrix ( c (4 , 6 , 26 , 24) , nrow = 2 , byrow = TRUE )


p - value = 0.3653
alternative hypothesis : true odds ratio is less than 1
95 percent confidence interval :
0.000000 2.404957
sample estimates :
odds ratio
0.6203734

L’interval de confiança del 95%, de 0 a 2.405, és per a l’odds ratio de tenir el grip entre els
vacunats i els no vacunats,
pv
1 pv
pn .
1 pn

No és ni per a la diferència pv pn ni per al quocient pv /pn .


Per tant, estam molt segurs que l’odds ratio de tenir el grip entre els vacunats i els no vacunats
és inferior a 2.4, és a dir, que les odds que un vacunat tengui el grip són més petites que 2.4
vegades les d’un no vacunat, i en partidular aquestes odds (i per tant les probabilitats) poden
ser iguals.
Conclusió: No hem obtingut evidència estadística que la vacuna sigui efectiva (test de Fisher,
p-valor, 0.365, IC 95% per a OR de 0 a 2.4).
Matemàtiques II. Full 3b. Contrastos d’hipòtesis II. Més solucions

2) El pes mitjà de les dones europees d’entre 30 i 40 anys és de 58 kg. Volíem determinar si la dieta
vegetariana modifica aquest pes mitjà (en un sentit o l’altre). Per això, mesuràrem 16 dones escollids a
l’atzar d’aquestes edats que seguien una dieta vegetariana. Obtinguérem una mitjana dels pesos de 54 kg i
una desviació típica mostral de 5.1 kg. Suposant que el pes de les dones vegetarianes d’entre 30 i 40 anys
segueix una distribució normal, quina és la conclusió?
Sigui µ el pes mitjà de les dones d’entre 30 i 40 anys que segueixen una dieta vegetariana. Volem
saber si µ 6= 58, i per tant hem de fer el contrast

H0 : µ = 58
H1 : µ 6= 58

Com que la variable de la que hem extret la mostra (pes de dones vegetarianes d’entre 30 i 40 anys)
segueix una distribució normal, podem emprar el test basat en l’estadístic

X µ0
T = p
SeX / n

que segueix aproximadament una llei tn 1 quan la hipòtesi nul·la és vertadera.


Com que µ0 = 58, x = 54, sex = 5.1 i n = 16, el valor de l’estadístic és
54 58
t0 = p = 3.14
5.1/ 16

El p-valor és

2 · P (T > | 3.14|) = 2P (t15 > 3.14) = 2*(1-pt(3.14,15)) = 0.007

Com que és molt petit, podem rebutjar la hipòtesi nul.la en favor de l’alternativa, i concloure que el
pes mitjà de les dones que segueixen aquesta dieta és diferent del pes mitjà global.
L’interval de confiança del 95% per a µ és

se se
x tn 1,1 ↵2 · p , x tn 1,1 ↵ ·p = [51.34, 56.66]
n 2
n

Com que està completament a la dreta de 58, podem concloure amb un nivell de confiança del 95%
que el pes de les dones que segueixen aquesta dieta és més petit que el pes mitjà global. A més, la
diferència entre el pes mitjà global i l’extrem superior d’aquest interval és considerable: més de 1.3 kg.

3) Recentment s’ha portat a terme un estudi per determinar si la contaminació afecta la mida dels animals
marítims a la Mediterrània. Una de les dades recollides han estat els diàmetres dels exemplars de dues
mostres de 20 individus adults cadascuna d’una determinada espècie d’estrelles de mar: una en una zona no
contaminada (dades recollides en el vector N Cont) i l’altra en una zona considerada com a molt contaminada
(dades recollides en el vector Cont). Sabem que els diàmetres dels individus adults d’aquesta espècie
segueixen una llei normal, i suposarem que és el cas dels individus les dues zones estudiades.
Considerau la sessió de R següent (l’he netejada un poc perquè no ocupi massa espai innecessari):
> var . test ( NCont , Cont )
F = 1.7857 , num df = 19 , denom df = 19 , p - value = 0.2155
alternative hypothesis : true ratio of variances is not equal to 1
95 percent confidence interval :
0.706787 4.511389
sample estimates :
ratio of variances
1.785663
> t . test ( NCont , Cont , paired = TRUE )
t = 3.7102 , df = 19 , p - value = 0.001485

1
alternative hypothesis : true difference in means is not equal to 0
95 percent confidence interval :
0.1961435 0.7038565
sample estimates :
mean of the differences
0.45
> t . test ( NCont , Cont , paired = FALSE , var . equal = TRUE )
t = 3.1625 , df = 38 , p - value = 0.003071
alternative hypothesis : true difference in means is not equal to 0
95 percent confidence interval :
0.1619424 0.7380576
sample estimates :
mean of x mean of y
7.62 7.17
> t . test ( NCont , Cont , paired = FALSE , var . equal = FALSE )
t = 3.1625 , df = 35.2 , p - value = 0.003215
alternative hypothesis : true difference in means is not equal to 0
95 percent confidence interval :
0.161188 0.738812
sample estimates :
mean of x mean of y
7.62 7.17

Contestau les preguntes següents:

(a) Quines són les variables aleatòries d’interès i els seus paràmetres d’interès en aquest contrast?
(b) Quin és el contrast d’hipòtesis que es vol realitzar? Deixau clara quina és la hipòtesi nul·la i quina
l’alternativa;

(c) D’entre els tests realitzats en aquesta sessió, quin és el correcte per resoldre amb aquest experiment el
contrast plantejat? Per què és correcte emprar-lo?
(d) Quin és el p-valor obtingut en el test correcte? Quin és el significat d’aquest p-valor? Quina conclusió
del contrast obtenim amb aquest p-valor?

(e) Quin és l’interval de confiança al 95% obtingut en el test correcte? Per a quin valor és aquest interval
de confiança? Quin és el seu significat?

(a) Les variables d’interès són: X1 , diàmetre d’un individu adult d’aquesta espècie d’estrelles de mar
que visqui en zona no contaminada, de mitjana µ1 i desviació típica 1 ; i X2 , diàmetre d’un individu
adult d’aquesta espècie d’estrelles de mar que visqui en zona contaminada, de mitjana µ2 i desviació
típica 2 .
(b) Ens demanen que contrastem si la contaminació afecta la mida dels animalons, però no en quin
sentit, per tant és un contrast bilateral:

H0 : µ 1 = µ 2
H1 : µ1 6= µ2

(c) Les variables poblacionals ens diuen que són normals, per tant podem emprar un test t. Les mostres
són independents, per tant primer necessitam saber si les variàncies poblacionals són iguals o no.
Això es contrasta a la funció var.test del codi. El p-valor 0.2155 indica que podem suposar que
aquestes variàncies són iguals. Per tant el correcte és un test t de mostres independents i variàncies
iguals, que és el realitzat a t.test(NCont,Cont,paired=FALSE,var.equal=TRUE).
(d) El p-valor obtingut és 0.003071. És la probabilitat d’obtenir un estadístic tan o més gran, en valor
absolut, que l’obtingut si la hipòtesi nul·la és vertadera. Com que és molt petit, obtenim evidència
estadísticament significativa que µ1 6= µ2 .

2
(e) L’interval de confiança al 95% obtingut és [0.162, 0.738]. És un interval de confiança per a la
diferència µ1 µ2 , en el sentit que l’hem obtingut amb una fórmula que el 95% de les vegades que
l’aplicam a dues mostres aleatòries dóna un interval que conté la diferència de les seves mitjanes
poblacionals. Com que no conté el 0, també ens fa concloure amb un nivell de confiança del 95%
que µ1 6= µ2 .

4) Un investigador de la UIB va fer la hipòtesi que la gent amb la tensió alta pot reduir-la incorporant aranja
a la seva dieta. Per estudiar-ho, va triar de manera aleatòria un grup de 40 pacients amb la tensió alta. Se’ls
mesurà la tensió diastòlica (en mmHg), a continuació durant una setmana se’ls demanà que seguissin amb
la seva dieta habitual, excepte que havien de menjar una aranja amb el desdejuni i una altra amb el dinar,
i al cap d’una setmana se’ls tornà a mesurar la tensió diastòlica. Recollí les dades en dues llistes: A, amb
les tensions abans del tractament amb aranges, i B, amb les tensions després del tractament amb aranges.
En aquestes llistes els pacients hi estan representats en el mateix ordre. Suposarem que en els dos grups les
mesures de tensió diastòlica segueixen lleis normals.
L’investigador volia contrastar la seva hipòtesi amb un nivell de significació del 0.01. Sabia que havia de
fer un test t, però no tenia molt clar què fer, i va fer amb R tot el que se li va acudir (he netejat un poc la
sessió de R perquè no ocupi massa espai innecessari).
> var . test (A ,B , conf . level =0.99)
F = 1.9878 , num df = 39 , denom df = 39 , p - value = 0.03475
alternative hypothesis : true ratio of variances is not equal to 1
99 percent confidence interval :
0.8175843 4.4054442
sample estimates :
ratio of variances
1.987847
> t . test (A ,B , paired = TRUE , alternative = " greater " , conf . level =0.99)
t = 2.3456 , df = 39 , p - value = 0.01209
alternative hypothesis : true difference in means is greater than 0
99 percent confidence interval :
-0.07838908 Inf
sample estimates :
mean of the differences
2.291
> t . test (A ,B , var . equal = TRUE , alternative = " greater " , conf . level =0.99)
t = 2.4962 , df = 78 , p - value = 0.00733
alternative hypothesis : true difference in means is greater than 0
99 percent confidence interval :
0.03017636 Inf
sample estimates :
mean of x mean of y
9.857 7.566
> t . test (A ,B , var . equal = FALSE , alternative = " greater " , conf . level =0.99)
t = 2.4962 , df = 71.168 , p - value = 0.00744
alternative hypothesis : true difference in means is greater than 0
99 percent confidence interval :
0.02560322 Inf
sample estimates :
mean of x mean of y
9.857 7.566

Responeu les mateixes preguntes que a l’exercici anterior (però ara amb un nivell de significació donat de
0.01 i un nivell de confiança per a l’interval del 99%).

(a) Les variables d’interès són: X1 , tensió diastòlica d’un individu sota la dieta habitual, de mitjana µ1
i desviació típica 1 ; i X2 , tensió diastòlica d’un individu quan afegeix aranja a la dieta habitual,
de mitjana µ2 i desviació típica 2 .

3
(b) Ens demanen que contrastem ⇢
H0 : µ 1 = µ 2
H1 : µ 1 > µ 2

(c) Les variables poblacionals són normals, per tant podem emprar un test t. Les mostres són aparella-
des. Per tant el correcte és un test t de mostres aparellades, que és el realitzat a t.test(A,B,paired=TRUE,alternative
="greater",conf.level=0.99).

(d) El p-valor obtingut és 0.01209. És la probabilitat bla bla bla. Com que és més gran que el nivell de
significació prefixat, 0.01, amb aquest nivell de significació no podem concloure que l’aranja baixi
la tensió.
(e) L’interval de confiança al 99% obtingut és [ 0.08, 1). És un interval de confiança per a la diferència
µ1 µ2 , en el sentit bla bla bla. Com que conté el 0, la conclusió és la mateixa que abans (però
ara cal observar que el 0 no hi cau per molt poc).

4
Matemàtiques II. Full 3b. Contrastos d’hipòtesis. Algunes solucions

1) Una empresa farmacèutica productora d’un fàrmac per al mal de cap a causa de migranyes afirma que,
de mitjana, amb 2.6 pastilles d’aquest fàrmac s’elimina el mal de cap a causa de migranyes. Un neuròleg no
creu que aquest tractament sigui tan eficient, i fa el següent experiment: demana a 50 pacients escollits a
l’atzar d’entre els pacients del servei de neurologia d’un gran hospital tractats per la migranya amb aquest
fàrmac quantes pastilles necessiten perquè el mal de cap desaparegui. Obté un valor mitjà de 2.85 pastilles,
amb una desviació típica mostral de 0.92. Amb aquestes dades, pot aquest neuròleg concloure que aquest
nou tractament no és tan eficient com afirma l’empresa?
Donau:

(a) La variable aleatòria i el seu paràmetre d’interès;

(b) El contrast d’hipòtesis, deixant clara quina és la hipòtesi nul·la i quina l’alternativa;
(c) L’estadístic que emprareu en el vostre test i la distribució de probabilitats d’aquest estadístic quan la
hipòtesi nul·la és vertadera;
(d) La justificació per la qual l’ús d’aquest test és adient en aquest experiment;

(e) El p-valor i l’interval de confiança al 95% per al paràmetre d’interès, i llur significat;
(f) La conclusió amb un nivell de significació del 5%, explicant com s’obté aquesta conclusió.
(g) La conclusió amb un nivell de significació del 1%, explicant com s’obté aquesta conclusió.

La v.a. d’interès és

Prenc un pacient amb mal de cap per migranya i mir quantes pastilles necessita prendre
per eliminar el mal de cap

El neuròleg vol contrastar si el seu valor mitjà µ és més gran que 2.6 o no (que el tractament sigui
menys eficient significa que necessita més pastilles, no?). Per tant, el neuròleg vol fer el contrast

H0 : µ = 2.6
H1 : µ > 2.6

Com que la mostra és gran, encara que no sapiguem si prové d’una població normal podem emprar el
test basat en l’estadístic
X µ0
T = p
SeX / n
que segueix aproximadament una llei tn 1 quan la hipòtesi nul·la és vertadera.
Com que µ0 = 2.6, x = 2.85, sex = 0.92 i n = 50, el valor de l’estadístic és
2.85 2.6
t0 = p = 1.92
0.92/ 50

D’entrada ja veiem que podrem rebutjar la hipòtesi nul.la, perquè el llindar per rebutjar serà t49,0.95
que ronda el 1.7 (segons els quantils de la t que heu de saber, recordau?) i 1.92 és bastant més gran
que 1.7. Però bé, ens demanen el p-valor, i és

P (t49 > 1.92) = 1-pt(1.92,49) = 0.03

Aquest valor és la probabilitat d’obtenir un valor de l’estadístic tan o més extrem que l’obtingut en
aquest experiment si la hipòtesi nul·la és vertadera. Com que és més petit que el nivell de significació
0.05, el neuròleg pot rebutjar la hipòtesi nul.la amb aquest nivell de significació i concloure que calen
més de 2.6 pastilles de mitjana per eliminar el mal de cap.

1
En canvi, com que el p-valor és més gran que 0.01, amb nivell de significació 0.01 no es pot rebutjar
la hipòtesi nul.la, és a dir, no es pot rebutjar que bastin 2.6 pastilles de mitjana per eliminar el mal de
cap.
L’interval de confiança del 95% d’aquest contrast per al nombre mitjà µ de pastilles que calen per
eliminar el mal de cap és
 ◆  ◆
seX 0.92
X tn 1,1 ↵ · p , 1 = 2.85 1.68 · p , 1 = [2.63, 1)
n 50

Aquest interval conté el valor real de µ amb un 95% de confiança, en el sentit que hem emprat per
calcular-lo una fórmula que dóna un interval que conté el valor real de µ el 95% de les vegades que
l’aplicam a mostres aleatòries. Com que està completament a la dreta de 2.6, també permet concloure
amb aquest nivell de confiança que calen més de 2.6 pastilles de mitjana per eliminar el mal de cap.
Però no moltes més: per exemple, els resultats obtinguts són consistents amb que es necessitin, per
exemple, 2.64 pastilles, i ara tampoc no ens posarem estupendos per 4 centèssimes de pastilla: podria
haver estat que la companyia farmacèutica arrodonís 2.64 a 2.6.

2
Matemàtiques II. Full 3c. Contrastos d’hipòtesis III

4) Fa uns anys volguérem determinar si hi ha diferència en la facilitat d’aprovar els tests de Continguts
i els tests de R de Matemàtiques I. Per això, comptàrem els estudiants que aquell curs aprovaren (és
a dir, tregueren una nota mitjana > 5) cada tipus de tests, i obtinguérem la taula següent:

Continguts
Aprovat Suspès
R Aprovat 66 39
Suspès 30 38

Entendrem que aquest grup d’estudiants és una mostra aleatòria simple de la població virtual de
tots els possibles estudiants de Matemàtiques I que al llarg de la història puguin fer aquests tests.
Diguem pc i pr a les probabilitats d’aprovar els tests de Continguts i els tests de R de Matemàtiques
I, respectivament.
Podem concloure que qualcun dels tipus de tests és més fàcil d’aprovar (de mitjana) que l’altre?

(a) Donau les variables aleatòries d’interès i els seus paràmetres d’interès
(b) Quin contrast d’hipòtesis es vol realitzar? Plantejau-lo en termes de les probabilitats pc i pr .
(c) Les mostres són independents o aparellades?
(d) Quins dels tests explicats als apunts per realitzar aquest contrast podeu emprar?
(e) Independentment de la vostra resposta, emprau els dos tests. Per a cada un d’ells:
• Digau quin és l’estadístic de contrast i la seva distribució quan la hipòtesi nul.la és vertadera
• Valor de l’estadístic a la nostra mostra
• Calculau a mà el p-valor (en aquest exercici passarem dels intervals de confiança)
• Donau la conclusió amb un nivell de significació del 5%, amb la plantilla donada als apunts

(a) Les variables d’interès són:

• Xc : Prenc un estudiant de Matemàtiques I i mir si ha aprovat els tests de continguts,


de probabilitat poblacional d’èxit pc
• Xr : Prenc un estudiant de Matemàtiques I i mir si ha aprovat els tests de R, de
probabilitat poblacional d’èxit pr

(b) El contrast és H0 : pc = pr ; H1 : pc 6= pr
(c) Es tracta d’un contrast de dues proporcions amb mostres aparellades, ja que mesuram les
dues variables sobre el mateix conjunt d’individus.
(d) Com que el test és bilateral i el nombre de casos discordants és gran (39 + 30 = 69), podem
fer servir el test de McNemar. D’altra banda, també podem emprar el test binomial exacte
perquè es pot emprar sempre.
(e.1) Comencem amb el test de McNemar.
• L’estadístic de contrast és
(b c)2
Z2 =
b+c
(on b i c són els dos nombres de casos discordants) que segueix aproximadament una
llei 21 si la hipòtesi nul·la és vertadera.
• A la nostra mostra val
(39 30)2
= 1.174
39 + 30
• El p-valor és
P( 2
1 > 1.174) = 1-pchisq(1.174,1) = 0.28

> Dades = matrix ( c (66 ,39 ,30 ,38) , nrow =2 , byrow = TRUE )
> mcnemar . test ( Dades , correct = FALSE )

McNemar ’s Chi - squared test

data : Dades
McNemar ’s chi - squared = 1.1739 , df = 1 , p - value = 0.2786

• Conclusió: No hem obtingut evidència estadística que la dificultat d’aprovar aquests


dos tipus de tests sigui diferent (test de McNemar, p-valor 0.28).
(e.2) Passem al test binomial.
• L’estadístic de contrast és S69 : Nombre d’estudiants que hagin aprovat els tests de
continguts i suspès els tests de R en una mostra de 69 estudiants que hagin aprovat
alguns dels dos blocs de tests i suspès els altres.
Si la hipòtesi nul·la és vertadera, té distribució B(69, 0.5).
• Sobre la nostra mostra val 39
• El p-valor és

P (|S69 0.5 · 69| > |39 0.5 · 69|) = P (|S69 34.5| > 4.5) = P (S69 6 30) + P (S69 > 39)
= pbinom(30,69,0.5)+1-pbinom(38,69,0.5) = 0.336

• Conclusió: No hem obtingut evidència estadística que la dificultat d’aprovar aquests


dos tipus de tests sigui diferent (test binomial, p-valor 0.336).

5) Molts autors afirmen que els pacients amb depressió tenen una funció cortical per sota del normal
a causa d’una disminució en el reg sanguini cerebral. A dues mostres d’individus, 40 amb depressió
i 42 altres sense, se’ls va mesurar un índex que indica el flux sanguini en la matèria grisa (donat en
mg/(100g/min)). Els vectors de valors obtinguts varen ser:

Depressius=c(51,37,46,46,54,65,44,43,54,54,42,56,44,46,52,53,45,39,41,
43,41,50,33,61,50,50,48,47,50,46,54,57,50,41,29,50,39,35,45,49)
No.Depressius=c(47,44,45,59,53,45,56,68,47,53,53,60,67,66,48,65,45,60,53,56,
60,51,56,47,47,61,47,55,53,53,65,59,59,61,48,47,59,51,57,52,50,70)

Hi ha evidència significativa que els pacients amb depressió tenen el reg sanguini cerebral mitjà inferior
al dels pacients sense depressió?

(a) Donau les variables aleatòries d’interès i els seus paràmetres d’interès
(b) Quin contrast d’hipòtesis es vol realitzar? Plantejau-lo en termes de les mitjanes µv i µn d’aquest
índes en pacients amb i sense depressió, respectivament.
(c) Dibuixau un gràfic amb els boxplots d’aquests dos vectors i comentau el que hi veieu.
(d) Emprau un q-q-plot per veure si podeu acceptar que provenen de variables normals.
(e) Les mostres són independents o aparellades?
(f) Podeu fer servir un test t? Justificau la vostra resposta
(g) Per al test t, cal en principi saber si les variàncies són iguals o diferents? Per què?
(h) Independentment de la vostra resposta a la pregunta anterior, amb quin test decidiríeu si les
variàncies són iguals o diferents? Efectuau-lo. Quina és la conclusió?
(i) Si no poguessiu emprar un test t, quin contrast no paramètric és el més adient?
(j) Independentment de la vostra resposta a (f), realitzau un test t amb la funció t.test
(k) Donau la conclusió amb un nivell de significació del 5%, amb la plantilla donada als apunts

(a) Les variables d’interès són:


• Xd : Prenc un pacient amb depressió i mir el valor del seu índex que estic mesurant, de
mitjana µd i desviació típica d
• Xn : Prenc un pacient sense depressió i mir el valor del seu índex que estic mesurant,
de mitjana µn i desviació típica n
(b) El contrast és H0 : µd = µn ; H1 : µd < µn
(c) Els boxplots:
> boxplot ( Depressius , No . Depressius , names = c ( " Depressius " ,
" No depressius " ) )
70
60
50
40
30

Depressius No depressius

Veiem que els índexos dels individus sense depressió són consistentment més baixos que els
dels que no tenen depressió.
(d) Els q-q-plots:
> car :: qqPlot ( Depressius , distribution = " norm " , main = " Depressius " ,
mean = mean ( Depressius ) , sd = sd ( Depressius ) ,
ylab = " Quantils de la mostra " , xlab = " Quantils de normal " ,
pch =20 , id = FALSE )
> car :: qqPlot ( No . Depressius , distribution = " norm " , main = " No depressius " ,
mean = mean ( No . Depressius ) , sd = sd ( No . Depressius ) ,
ylab = " Quantils de la mostra " , xlab = " Quantils de normal " ,
pch =20 , id = FALSE )
Depressius No depressius

65

70
60

65
55
Quantils de la mostra

Quantils de la mostra

60
50
45

55
40

50
35

45
30

30 35 40 45 50 55 60 40 45 50 55 60 65 70

Quantils de normal Quantils de normal

Podem acceptar que la mostra dels depressius provengui d’una variable normal, però no la
dels no depressius.

(e) Com que no ens diuen el contrari i, a més, tenen mides diferents, les mostres deuen ser
independents.
(f) Podem fer servir un test t perquè les mostres són grans.

(g) Com que les mostres són independents, sí que cal decidir si les variàncies poblacionals són
iguals o diferents.
(h) Com que no podem acceptar que la dels no depressius provengui d’una variable normal, no
podem emprar un test F. Farem un test de Fligner:
> fligner . test ( list ( Depressius , No . Depressius ) )

Fligner - Killeen test of homogeneity of variances

data : list ( Depressius , No . Depressius )


Fligner - Killeen : med chi - squared = 0.019933 , df = 1 , p - value = 0.8877

Com que el p-valor és molt gran, acceptarem que les variàncies poblacionals són iguals.
(i) Com que les mostres són independents, empraríem un test de Mann-Whitney.
(j) El test t amb variàncies iguals:
> t . test ( Depressius , No . Depressius , alternative = " less " , var . equal = TRUE )

Two Sample t - test

data : Depressius and No . Depressius


t = -4.8268 , df = 80 , p - value = 3.271 e -06
alternative hypothesis : true difference in means is less than 0
95 percent confidence interval :
- Inf -5.054649
sample estimates :
mean of x mean of y
47.00000 54.71429

(k) Conclusió: Hem obtingut evidència estadística que l’índex mitjà a les persones amb depressió
és inferior que a les persones sense depressió (test t, p-valor 3·10 6 , IC 95% per a la diferència
de mitjanes de 1 a 5.06)

You might also like