Professional Documents
Culture Documents
Full4 2
Full4 2
edat 0–9 10–19 20–29 30–39 40–49 50–59 60–69 70–79 80 o més
% 9.3 10 10 13.2 17 14.9 11 8.4 6.2
En una mostra de 195 espanyols diagnosticats amb COVID-19, hem obtingut les freqüències d’edats següents:
edat 0–9 10–19 20–29 30–39 40–49 50–59 60–69 70–79 80 o més
freqs. 1 3 14 24 32 34 32 33 22
Ens demanam si hi ha evidència que la distribució per edats dels espanyols diagnosticats amb COVID-19 és
diferent de la de la població espanyola en general (i que per tant afecta més unes franges d’edat que altres).
(a) Quin és el contrast d’hipòtesis que es vol realitzar? Donau explícitament les hipòtesis nul·la i alternativa.
(b) Realitzau a mà el test 2 (emprant R per fer les operacions si voleu). Comprovau abans que les classes que
empreu satisfan les condicions per poder fer emprar aquest test. Recordau que si us cal agrupar classes,
que siguin les menys possibles.
(c) Realitzau el test 2
amb la funció adient de R. Procurau que doni més o menys el mateix . . .
(d) Quina és la conclusió amb un nivell de significació del 5%?
(a) El contrast és
⇢
H0 : La distribució per edats dels malalts espanyols de COVID-19 és la de la població en general
H1 : La distribució per edats dels malalts espanyols de COVID-19 no és la de la població en general
edat 0–9 10–19 20–29 30–39 40–49 50–59 60–69 70–79 80 o més
obsi 1 3 14 24 32 34 32 33 22
pi 0.093 0.1 0.1 0.132 0.17 0.149 0.11 0.084 0.062
esp.i 18.1 19.5 19.5 25.7 33.2 29.1 21.4 16.4 12.1
Totes les freqüències esperades són més grans que 5 i la mostra és més gran que 30, per tant puc aplicar
un test 2 .
edat 0–9 10–19 20–29 30–39 40–49 50–59 60–69 70–79 80 o més
obsi 1 3 14 24 32 34 32 33 22
esp.i 18.1 19.5 19.5 25.7 33.2 29.1 21.4 16.4 12.1
(obs.i esp.i)2 /esp.i 16.19 13.96 1.55 0.12 0.04 0.84 5.19 16.86 8.12
X02 = 16.19 + 13.96 + 1.55 + 0.12 + 0.04 + 0.84 + 5.19 + 16.86 + 8.12 = 62.87
El p-valor val:
P( 2
8 > 62.87) = 1-pchisq(62.87,8) = 10 10
1
Aquí convendria fer un petit raonament. Recordau que una distribució 28 és una suma de 8 quadrats de
normals estándard independents. A una normal estàndard li costa molt passar de ±2, i per tant a una normal
estàndard al quadrat li costa molt passar de 4. Llavors, a una suma de 8 quadrats de normals estàndard li
ha de costar molt, molt passar de 32. Passar de 62 ha de ser molt improbable.
(c) Amb R
> obs . i = c (1 , 3 , 14 ,24 , 32 , 34 , 32 , 33 , 22)
> pp . i = c (0.093 , 0.1 , 0.1 , 0.132 , 0.17 , 0.149 , 0.11 , 0.084 , 0.062)
> chisq . test ( obs .i , p = pp . i )
data : obs . i
X - squared = 62.878 , df = 8 , p - value = 1.266 e -10
(d) Conclusió: Hem obtingut evidència estadística que la distribució per edats dels espanyols diagnosticats
amb COVID-19 és diferent de la de la població espanyola en general (test 2 , p-valor 10 10 )
2
Matemàtiques II. Full 4a. Bondat d’ajust.
2) La llei de Benford estableix que, per als conjunts de nombres reals que són unions de mostres aleatòries de
moltes distribucions diferents (és a dir, conjunts de nombres que provenen de moltes fonts), la proporció pd
dels que comencen amb la xifra d tendeix a ser la donada a la taula següent:
d 1 2 3 4 5 6 7 8 9
pd 0.30 0.18 0.12 0.10 0.08 0.07 0.06 0.05 0.04
Aquesta llei s’usa per exemple per auditar quaderns de laboratori (alerta!) o dades econòmiques (declaracions
de renda, dades macroeconòmiques d’estats, etc.): si es pot rebutjar que les freqüències observades segueixen
la llei de Benford, sol ser senyal que qualque cosa estranya passa, i dóna peu a sospitar que les dades estan
amanyades.
A l’informe de dades macroeconòmiques del 2000 que Grècia presentà per avalar la seva sol.licitud d’entrada
a l’euro, les freqüències de primers dígits varen ser les següents (vegeu B. Rauch, M. Göttsche, “Fact and fiction
in EU-governmental economic data,” German Economic Review 12 (2011) pp. 243–255):
d 1 2 3 4 5 6 7 8 9
obsd 121 82 23 9 32 6 7 15 10
Hi ha evidència significativa que ens permeti rebutjar que aquestes dades segueixen la llei de Benford? Seguiu
el mateix esquema que a l’exercici anterior.
(b) Per poder fer servir el test 2 cal que la mostra sigui gran, i en aquest cas ho és perquè la seva mida
és
n = 121 + 82 + 23 + 9 + 32 + 6 + 7 + 15 + 10 = 305,
i que les freqüències esperades de cada classe siguin > 5. Calculem-les.
• Segons la distribució de Benford, un 30% dels nombres comencen amb 1. Per tant si la nostra
mostra satisfés la llei de Benford, hi esperaríem 0.3 ⇥ 305 = 91.5 nombres que comencen amb 1.
• Segons la distribució de Benford, un 18% dels nombres comencen amb 2. Per tant si la nostra
mostra satisfés la llei de Benford, hi esperaríem 0.18 ⇥ 305 = 54.9 nombres que comencen amb 2.
• etc.
> freq . obs = c (121 ,82 ,23 ,9 ,32 ,6 ,7 ,15 ,10)
> n = sum ( freq . obs )
> probs . bf = c (0.30 ,0.18 ,0.12 ,0.10 ,0.08 ,0.07 ,0.06 ,0.05 ,0.04)
> freq . esp = probs . bf * n
> freq . esp
[1] 91.50 54.90 36.60 30.50 24.40 21.35 18.30 15.25 12.20
d 1 2 3 4 5 6 7 8 9
obsd 121 82 23 9 32 6 7 15 10
pd 0.30 0.18 0.12 0.10 0.08 0.07 0.06 0.05 0.04
espd 91.5 54.9 36.6 30.5 24.4 21.35 18.3 15.25 12.2
1
d 1 2 3 4 5 6 7 8 9
obsd 121 82 23 9 32 6 7 15 10
espd 91.5 54.9 36.6 30.5 24.4 21.35 18.3 15.25 12.2
(obsd espd )2 /espd 9.511 13.377 5.054 15.156 2.367 11.036 6.978 0.004 0.397
X02 = 9.511 + 13.377 + 5.054 + 15.156 + 2.367 + 11.036 + 6.978 + 0.004 + 0.397 = 63.88
El p-valor és
P( 2
8 > 63.88) = 1-pchisq(63.88,8) = 8 · 10 11
(d) Conclusió: Hem obtingut evidència estadística que les dades macroeconòmiques del 2000 aportades
per Grècia no s’ajusten a la llei de Benford (test 2 , p-valor 8 · 10 11 ).
3) Tenim un camp de control aferrat a un camp on es cultiva una varietat de blat transgènic. Al cap d’un any,
al camp de control hi han crescut exemplars del blat transgènic i volem determinar si hi apareixen a l’atzar o
hi ha tendència a apareixer-ne més o menys segons la zona. Per estudiar-ho, hem dividit el camp de control en
una sèrie de quadrats d’àrees iguals, n’hem escollit una mostra aleatòria simple de 50 i hem comptat el nombre
de plantes de blat transgènic a cada quadrat. Si els exemplars de blat transgènic hi apareguessin a l’atzar, la
distribució d’aquests nombres seguiria una llei de Poisson. Els resultats han estat els següents:
nombre de plantes 0 1 3 4 5 7
nombre de zones 2 3 10 17 17 1
S’ajusten aquests nombres a una llei de Poisson? Realitzau el contrast amb nivell de significació del 5% i traduïu
la conclusió en termes de l’aparició, o no, a l’atzar d’exemplars de blat transgènic.
El contrast que volem realitzar és
⇢
H0 : Les dades segueixen una distribució de Poisson
H1 : Les dades no segueixen una distribució de Poisson
Per aplicar un test 2 , el primer que ha de passar és que les classes cobreixin tots els valors possibles:
falten el 2 i el 6, que els afegirem com a classes a part perquè hem d’intentar aconseguir el nombre màxim
de classes, i tots els valor a partir de 8, que els juntarem al 7 en una classe “7 o més” (si després aquesta
classe ens quedàs amb freqüència esperada més gran que 10, tornaríem enrera i la separaríem en “7” i “8 o
més” per veure si aquestes dues classes tenen totes dues freqüències esperades més grans o iguals qe 5):
classe 0 1 2 3 4 5 6 7 o més
obsi 2 3 0 10 17 17 0 1
Per calcular les freqüències esperades, primer estimam el valor de la com a mitjana de les observacions
> freq . obs = c (2 ,3 ,10 ,17 ,17 ,1)
> lambda = sum ( freq . obs * c (0 ,1 ,3 ,4 ,5 ,7) ) / 50
> lambda
[1] 3.86
Ara calculam les probabilitats de les classes i les freqüències esperades sota una variable de Poisson
P o(3.86).
2
> probs . teor = c ( dpois (0:6 , lambda ) ,1 - ppois (6 , lambda ) )
> round ( probs . teor ,4)
0.0211 0.0813 0.1570 0.2019 0.1949 0.1504 0.0968 0.0966
> freq . esp = probs . teor * 50
> round ( freq . esp ,2)
[1] 1.05 4.07 7.85 10.10 9.74 7.52 4.84 4.83
classe 0 1 2 3 4 5 6 7 o més
obsi 2 3 0 10 17 17 0 1
pi 0.0211 0.0813 0.157 0.2019 0.1949 0.1504 0.0968 0.0966
espi 1.05 4.07 7.85 10.1 9.74 7.52 4.84 4.83
Com que hi ha classes amb freqüència esperada més petita que 5, no podem aplicar tal qual el test 2
:
hem d’agrupar les dues primeres d’una banda, i les dues darreres de l’altra.
> freq . obs . agrup = c (5 ,0 ,10 ,17 ,17 ,1)
> probs . teor . agrup = c ( ppois (1 , lambda ) , dpois (2:5 , lambda ) ,1 - ppois (5 , lambda ) )
> freq . esp . agrup = probs . teor . agrup * 50
> round ( freq . esp . agrup ,2)
[1] 5.12 7.85 10.10 9.74 7.52 9.67
> round (( freq . obs . agrup - freq . esp . agrup ) ^2 / freq . esp . agrup ,3)
[1] 0.003 7.848 0.001 5.404 11.942 7.773
Per calcular el p-valor cal recordar que hem estimat la , per tant el nombre de graus de llibertat de la 2
p-valor = P ( 2
4 > 32.97) = 1-pchisq(32.97,4) = 10 6
Així doncs, hem obtingut evidència estadística que els nombres de plantes de blat transgènic per quadrat
no segueixen una llei de Poisson (test 2 , p-valor 10 6 ). Concloem que els exemplars de blat transgènic
no apareixen a l’atzar al nostre camp.
3
Matemàtiques II. Full 4a. Bondat d’ajust.
4) En una mostra aleatòria de respostes de 100 estudiants a un test de 10 preguntes de l’Aula Digital hem
obtingut els nombres següents d’errors:
Nombre d’errors 0 1 2 3 4 5
Freqüència 18 25 32 14 10 1
Realitzau a mà un test 2 per contrastar, amb un nivell de significació del 5%, si aquests nombres d’errors
s’ajusten a un distribució binomial amb n = 10. Traduïu la conclusió del contrast en un llenguatge planer sense
fer servir les paraules "distribució binomial"; és a dir, què significa la conclusió en un llenguatge no probabilístic
ni estadístic?
El contrast que volem realitzar és
⇢
H0 : Les dades segueixen una distribució binomial amb n = 10
H1 : No és veritat que les dades segueixin una distribució binomial amb n = 10
El primer que hem de fer és estimar la p. Com que el valor esperat d’una B(n, p) és np, el que farem
serà calcular la mitjana mostral X de la mostra i estimar p = X/n.
18 · 0 + 25 · 1 + 32 · 2 + 14 · 3 + 10 · 4 + 1 · 5 X 1.76
X= = 1.76 ) p = = = 0.176
100 n 10
Anirem construïnt la taula. Alguns punts a tenir en compte:
• Com que les classes han de cobrir tots els resultats possibles, que són tots els nombres naturals de
0 a 10, per ara ampliarem la darrera classe a “5 o més” i després ja veurem si ens n’empenedim i la
xapam en dues (si resulta que té freqüència esperada més gran que 10, igual la podem xapar en dues
classes de freqüències esperades més grans que 5)
Errors 0 1 2 3 4 5 o més
obsi 18 25 32 14 10 1
pi 0.1443 0.3082 0.2962 0.1687 0.0631 0.0194
espi 14.43 30.82 29.62 16.87 6.31 1.94
Arribats aquí, veiem que la darrera classe té freqüència esperada més petita que 5, per tant l’agruparem
amb l’anterior i continuarem:
Errors 0 1 2 3 4 o més
obsi 18 25 32 14 11
pi 0.1443 0.3082 0.2962 0.1687 0.0825
espi 14.43 30.82 29.62 16.87 8.25
1
> obs . i . agrup = c ( obs . i [1:4] , obs . i [5]+ obs . i [6])
> obs . i . agrup
[1] 18 25 32 14 11
> prob . i . agrup = c ( prob . i [1:4] , prob . i [5]+ prob . i [6])
> round ( prob . i . agrup ,4)
[1] 0.1443 0.3082 0.2962 0.1687 0.0825
> esp . i . agrup = prob . i . agrup * 100
> round ( esp . i . agrup ,2)
[1] 14.43 30.82 29.62 16.87 8.25
> round (( obs . i . agrup - esp . i . agrup ) ^2 / esp . i . agrup ,2)
[1] 0.88 1.10 0.19 0.49 0.92
> X0 = sum (( obs . i . agrup - esp . i . agrup ) ^2 / esp . i . agrup )
> round ( X0 ,2)
[1] 3.58
L’estadístic de contrast és, doncs, X02 = 0.88 + 1.1 + 0.19 + 0.49 + 0.92 = 3.58 i, com que hem emprat 5
classes i hem estimat un paràmetre, el p-valor és
P( 2
3 > 3.58) = 1-pchisq(3.58,3) = 0.31
No hem obtingut evidència estadística que els nombres d’errors no segueixin una llei binomial amb n = 10
(test 2 , p-valor 0.31). Acceptam, per tant, que aquests nombres d’errors segueixen una llei binomial .
Què significa això? Bàsicament, els nombres d’errors observats s’ajusten als que esperaríem si cada
pregunta de cada test tengués 6 opcions de resposta i només una de vertadera (1/0.176 = 5.7) i cada
estudiant hagués contestat cada pregunta escollint una resposta possible a l’atzar.
Amb R, ja agrupat:
> p . valor =1 - pchisq ( chisq . test ( obs . i . agrup , p = prob . i . agrup ) $ statistic , chisq . test (
obs . i . agrup , p = prob . i . agrup ) $ parameter -1)
> p . valor
X - squared
0.3105828
5) He pres una mostra aleatòria simple de 100 notes mitjanes actuals de tests de Matemàtiques II. Les freqüèn-
cies, agrupades per la part entera, han estat:
nota [0, 1) [1, 2) [2, 3) [3, 4) [4, 5) [5, 6) [6, 7) [7, 8) [8, 9) [9, 10]
freqs. 10 8 7 17 14 14 8 13 5 4
Vull decidir a partir d’aquesta mostra si les notes mitjanes dels tests de Matemàtiques II realitzats abans de
Pasqua s’ajusten a una distribució normal.
(a) Quin és el contrast d’hipòtesis que es vol realitzar? Donau explícitament les hipòtesis nul·la i alternativa.
(b) Realitzau a mà el test 2 (emprant R per fer les operacions si voleu). Comprovau abans que les classes que
empreu satisfan les condicions per poder fer emprar aquest test. Recordau que si us cal agrupar classes,
que siguin les menys possibles.
(c) Realitzau el test 2
amb les funcions adients de R. Procurau que doni el mateix . . .
(d) Quina és la conclusió?
(e) El q-q-plot d’aquesta mostra de notes és el següent:
2
xx
10
8
Quantils de la mostra
6
4
2
0
−2 0 2 4 6 8 10
Quantils de normal
El primer que hem de fer és estimar la µ i la . El que farem serà calcular la mitjana i la desviació típica
a seques d’una mostra formada per tantes còpies dels punts mitjans de les classes com les freqüències de
les classes. És a dir, per exemple
10 · 0.5 + 8 · 1.5 + 7 · 2.5 + 17 · 3.5 + 14 · 4.5 + 14 · 5.5 + 8 · 6.5 + 13 · 7.5 + 5 · 8.5 + 4 · 9.5
X=
100
> obs . i = c (10 ,8 , 7 ,17 ,14 ,14 ,8 ,13 ,5 ,4)
> mu = mean ( rep (0.5+0:9 , obs . i ) )
> mu
[1] 4.64
> sigma = sd ( rep (0.5+0:9 , obs . i ) ) * sqrt (99 / 100)
> round ( sigma ,3)
[1] 2.486
nota ( 1, 1) [1, 2) [2, 3) [3, 4) [4, 5) [5, 6) [6, 7) [7, 8) [8, 9) [9, 1)
freqs. 10 8 7 17 14 14 8 13 5 4
Per calcular les probabilitats teòriques de les classes, si diem N a una variable N (4.64, 2.486)
i després les freqüències esperades seran aquestes probabilitats teòriques per 100:
esp1 = p1 · 100 = 7.16, esp2 = p2 · 100 = 7.26, esp3 = p3 · 100 = 11.06, etc.
3
> Limits
[1] - Inf 1 2 3 4 5 6 7 8 9 Inf
> Lim . esq = Limits [ -11]
> Lim . dret = Limits [ -1]
> Lim . esq
[1] - Inf 1 2 3 4 5 6 7 8 9
> Lim . dret
[1] 1 2 3 4 5 6 7 8 9 Inf
> p . i = pnorm ( Lim . dret , mu , sigma ) - pnorm ( Lim . esq , mu , sigma )
> round ( p .i ,4)
[1] 0.0716 0.0726 0.1106 0.1437 0.1591 0.1503 0.1209 0.0830 0.0485 0.0397
> esp . i = p . i * 100
> round ( esp .i ,2)
[1] 7.16 7.26 11.06 14.37 15.91 15.03 12.09 8.30 4.85 3.97
> p . valor =1 - pchisq ( chisq . test ( obs . i . agrup , p = p . i . agrup ) $ statistic , chisq . test ( obs . i
. agrup , p = p . i . agrup ) $ parameter -2)
> p . valor
X - squared
0.2744419
4
Matemàtiques II. Full 4b. Contrastos d’independència i homogeneïtat
1) Davant la sospita que l’hàbit de fumar d’una embarassada pot influir en el pes del seu fill en néixer, es
prengué una mostra d’embarassades, es classificaren en fumadores i no fumadores, i es classificaren els seus fills
en tres categories en funció de la relació del seu pes amb els quantils Q0.1 i Q0.9 dels pesos de la població total
de nadons: petits, els que pesaven menys del quantil Q0.1 ; normals, els que pesaven entre el quantil Q0.1 i el
quantil Q0.9 ; i grans, els que pesaven més del quantil Q0.9 El resultat es recull en la taula següent:
A partir d’aquesta mostra, volem determinar si, en efecte, hi ha associació entre l’hàbit de fumar d’una emba-
rassada i i la classificació del pes del seu fill (en petit, normal o gran).
1
Mare fumadora? Petits Normals Grans Total
Sí 117 529 19 665
No 124 1147 117 1388
Total 241 1676 136 2053
No 1388·241
2053
1388·1676
2053
1388·136
2053 1388
Total 241 1676 136 2053
+
El p-valor serà
P( 2
(2 1)(3 1) > 50.3233) = P ( 2
2 > 50.3233) = 1-pchisq(X2,2) = 10 11
Amb R:
> chisq . test ( Dades )
data : Dades
X - squared = 50.323 , df = 2 , p - value = 1.182 e -11
(e) Conclusió: Hem obtingut evidència estadística que hi ha associació entre l’estat de fumador de la
mare i el pes dels nadons (test 2 , p-valor 10 11 ).
(f ) Anem a fer el segon contrast
(1) Per definició, per davall del quantil Q0.1 i per damunt del quantil Q0.9 hi ha un 10% de la població.
Per tant la probabilitat de ser petit és 0.1, de ser normal 0.8 i de ser gran 0.1.
(2) Volem realitzar el contrast
⇢
H0 : Els nadons petits, normals i grans de la mostra s’ajusten a la distribució de la població
H1 : Els nadons petits, normals i grans de la mostra no s’ajusten a la distribució de la població
(3) Dels 2053 nadons, n’esperaríem un 10% de petits, 205.3, un 10% de grans, 205.3, i la resta normals,
1642.4
(4) La mostra era de 2053 nins, gran, i la classificació en petits, normals i grans cobreix tots els casos
possibles. Les freqüències esperades són totes més grans que 5, podem continuar.
2
(5) L’estadístic de contrast és
Amb R
> chisq . test ( c (241 ,1676 ,136) ,p = c (0.1 ,0.8 ,0.1) )
(6) Conclusió: La distribució dels nadons de la mostra no s’ajusta a la distribució de la població (test 2
,
p-valor 3 · 10 7 )
(7) Hem rebutjat la hipòtesi nul·la, per tant podem haver comès un error de tipus I
3
Matemàtiques II. Full 4b. Contrastos d’independència i homogeneïtat
2) En un estudi (del 1994) es demanà a una mostra raonablement aleatòria de dones angleses embarassades si
volien fer-se un test de VIH. L’objectiu era determinar si hi ha associació entre la voluntat de fer-se aquest test i
l’estat matrimonial de la dona: Casada; Parella (viu amb la parella sense estar casats); Div./Vídua (divorciada,
separada, vídua); Fadrina (viu tota sola i no pertany a cap de les altres classes). Les dades obtingudes varen
ser les següents
Test VIH
Estat matrimonial Acceptà Rebutjà
Casada 71 415
Parella 41 181
Div./Vídua 7 23
Fadrina 15 35
• X: Prenc una embarassada (anglesa de 1994) i la classific segons el seu estat matrimonial
• Y : Prenc una embarassada (anglesa de 1994) i li deman si vol passar el test de VIH
1
Test VIH
Estat matrimonial Acceptà Rebutjà Total
Casada 71 415 486
Parella 41 181 222
Div./Vídua 7 23 30
Fadrina 15 35 50
Total 134 654 788
Parella 134·222
788
654·222
788 222
Div./Vídua 134·30
788
654·30
788 30
Fadrina 134·50
788
654·50
788 50
Total 134 654 788
+
El p-valor és
> p . val =1 - pchisq ( X2 ,3)
> p . val
[1] 0.02739162
Amb R:
> chisq . test ( VIH )
data : VIH
X - squared = 9.1476 , df = 3 , p - value = 0.02739
(f ) Conclusió: Hem obtingut evidència estadística que hi ha associació entre el fet que una embarassada
(anglesa de 1994) vulgui passar el test de VIH i el seu estat matrimonial (test 2 , p-valor 0.027).
(g) Ara volem calcular un interval de confiança del 95% per a la proporció p de dones angleses emba-
rassades que l’any 1994 acceptaven passar un test de VIH.
(1) Amb la mostra que estam considerant, sí que té sentit calcular-lo, perquè hem pres una mostra d’em-
barassades que sembla que pot passar per aleatòria
2
(2) Sí que podem emprar la fórmula de Laplace per calcular-lo, perquè la mostra és molt gran (n = 788)
i els nombres d’èxits i fraccassos també són grans (134 i 654, respectivament).
(3) L’interval de Laplace del 95% per a p és
r
pb · (1 pb)
pb ± z0.975
n
A la nostra mostra n = 788 i pb = 134/788 = 0.17, dóna
r
0.17 · 0.83
0.17 ± 1.96 = 0.17 ± 0.026 =) [0.144, 0.196]
788
(4) Estimam amb un 95% de confiança que entre un 14.4% i un 19.6% de les embarassades angleses del
1994 estaven disposades a passar un test de VIH.
3) En un estudi per determinar els bacteris causants de la diarrea per gastroenteritis, es prengué una mostra de
100 britànics amb gastroenteritis que durant els 15 dies anteriors no havien sortit de la seva ciutat; una mostra
de 100 britànics amb gastroenteritis que durant els 15 dies anteriors havien viatjat per la Gran Bretanya, però
no a l’estranger; una mostra de 100 britànics amb gastroenteritis que durant els 15 dies anteriors havien viatjat
a l’estranger, però no a un país mediterrani; i una mostra de 100 britànics amb gastroenteritis que durant els
15 dies anteriors havien viatjat a un país mediterrani. Entre altres bacteris, es determinà si donaren positiu en
Providencia alcalifaciens. Els resultats varen ser
Destí
P. alcalifaciens No viatjà GB Estranger Mediterrani
Positiu 5 4 6 11
Negatiu 95 96 94 89
Volem determinar si hi ha relació entre on hagi viatjat un britànic que hagi patit gastroenteritis i que doni
positiu en P. alcalifaciens.
(a) Quin és el contrast d’hipòtesis que es vol realitzar? Donau explícitament les hipòtesis nul·la i alternativa.
(b) Quin tipus de disseny té aquest estudi: d’independència o d’homogeneïtat?
(c) Se satisfan les condicions necessàries per poder emprar un test 2
? Per què?
(d) Independentment de la vostra resposta, realitzau a mà el test 2
(emprant R per fer les operacions) i amb
la funció adient de R (i procurau que doni el mateix . . . )
(e) Quina és la conclusió amb nivell de significació del 5%?
(f) Ja que hi sóm, m’interessa trobar un interval de confiança del 95% per a la proporció p de britànics amb
gastroenteritis que donen positiu en P. alcalifaciens.
(b) El disseny és d’homogeneïtat, perquè he pres una mostra estratificada, amb estrates l’estat viatger.
(c) Vaig a afegir les marginals a la taula:
3
> Diarrea = matrix ( c (5 ,4 ,6 ,11 ,95 ,96 ,94 ,89) , nrow =2 , byrow = TRUE )
> n = sum ( Diarrea )
> n
[1] 400
> freqs . viatge = colSums ( Diarrea )
> freqs . viatge
[1] 100 100 100 100
> freqs . PA = rowSums ( Diarrea )
> freqs . PA
[1] 26 374
Destí
P. alcalifaciens No viatjà GB Estranger Mediterrani Total
Positiu 5 4 6 11 26
Negatiu 95 96 94 89 374
Total 100 100 100 100 400
Negatiu 374·400
100
374·400
100
374·400
100
374·400
100 374
Total 100 100
100 100 400
+
No viatjà GB Estranger Mediterrani Total
Positiu 6.5 6.5 6.5 6.5 26
Negatiu 93.5 93.5 93.5 93.5 374
Total 100 100 100 100 400
El p-valor serà
> p . val =1 - pchisq ( X2 ,3)
> p . val
[1] 0.1892984
Amb R
> chisq . test ( Diarrea )
data : Diarrea
X - squared = 4.7717 , df = 3 , p - value = 0.1893
(e) Conclusió: No hem obtingut evidència estadística que hi hagi associació entre el fet que un britànic
amb gastroenteritis doni positiu de P. alcalifaciens i on hagi anat de viatge els 15 dies anteriors (test 2 ,
p-valor 0.19).
(f ) Ara volem calcular un interval de confiança del 95% per a la proporció p de britànics amb gastroen-
teritis que donen positiu en P. alcalifaciens.
4
(1) Amb la mostra que estam considerant, té sentit calcular-lo?
No, perquè hem pres una mostra estratificada amb nombres prefixats d’individus britànics que segu-
rament no és representativa de la població britànica amb gastroenteriitis: no crec que la proporció de
britànics amb gastroenteritis que 15 dies abans no s’hagin mogut de la ciutat sigui la mateixa que la
dels que 15 dies abans hagin visitat un pais mediterrani.
I per tant aquí s’atura aquest exercici.