You are on page 1of 17

Matemàtiques II. Full 4a. Bondat d’ajust.

1) La distribució per edats de la població espanyola és la següent:

edat 0–9 10–19 20–29 30–39 40–49 50–59 60–69 70–79 80 o més
% 9.3 10 10 13.2 17 14.9 11 8.4 6.2

En una mostra de 195 espanyols diagnosticats amb COVID-19, hem obtingut les freqüències d’edats següents:

edat 0–9 10–19 20–29 30–39 40–49 50–59 60–69 70–79 80 o més
freqs. 1 3 14 24 32 34 32 33 22

Ens demanam si hi ha evidència que la distribució per edats dels espanyols diagnosticats amb COVID-19 és
diferent de la de la població espanyola en general (i que per tant afecta més unes franges d’edat que altres).

(a) Quin és el contrast d’hipòtesis que es vol realitzar? Donau explícitament les hipòtesis nul·la i alternativa.
(b) Realitzau a mà el test 2 (emprant R per fer les operacions si voleu). Comprovau abans que les classes que
empreu satisfan les condicions per poder fer emprar aquest test. Recordau que si us cal agrupar classes,
que siguin les menys possibles.
(c) Realitzau el test 2
amb la funció adient de R. Procurau que doni més o menys el mateix . . .
(d) Quina és la conclusió amb un nivell de significació del 5%?

(a) El contrast és

H0 : La distribució per edats dels malalts espanyols de COVID-19 és la de la població en general
H1 : La distribució per edats dels malalts espanyols de COVID-19 no és la de la població en general

(b) La mostra és gran, n = 195. Vaig a calcular les freqüències esperades.


• La probabilitat teòrica de la classe 0–9 és del 9.3%, per tant esper que aquesta classe contengui
un 9.3% de les dades de la meva mostra: 0.093 · 195 = 18.1
• La probabilitat teòrica de la classe 10–19 és del 10%, per tant esper que aquesta classe contengui
un 10% de les dades de la meva mostra: 0.1 · 195 = 19.5
• etc
Obtenc:

edat 0–9 10–19 20–29 30–39 40–49 50–59 60–69 70–79 80 o més
obsi 1 3 14 24 32 34 32 33 22
pi 0.093 0.1 0.1 0.132 0.17 0.149 0.11 0.084 0.062
esp.i 18.1 19.5 19.5 25.7 33.2 29.1 21.4 16.4 12.1

Totes les freqüències esperades són més grans que 5 i la mostra és més gran que 30, per tant puc aplicar
un test 2 .

edat 0–9 10–19 20–29 30–39 40–49 50–59 60–69 70–79 80 o més
obsi 1 3 14 24 32 34 32 33 22
esp.i 18.1 19.5 19.5 25.7 33.2 29.1 21.4 16.4 12.1
(obs.i esp.i)2 /esp.i 16.19 13.96 1.55 0.12 0.04 0.84 5.19 16.86 8.12

L’estadístic de contrast val

X02 = 16.19 + 13.96 + 1.55 + 0.12 + 0.04 + 0.84 + 5.19 + 16.86 + 8.12 = 62.87

El p-valor val:
P( 2
8 > 62.87) = 1-pchisq(62.87,8) = 10 10

1
Aquí convendria fer un petit raonament. Recordau que una distribució 28 és una suma de 8 quadrats de
normals estándard independents. A una normal estàndard li costa molt passar de ±2, i per tant a una normal
estàndard al quadrat li costa molt passar de 4. Llavors, a una suma de 8 quadrats de normals estàndard li
ha de costar molt, molt passar de 32. Passar de 62 ha de ser molt improbable.

(c) Amb R
> obs . i = c (1 , 3 , 14 ,24 , 32 , 34 , 32 , 33 , 22)
> pp . i = c (0.093 , 0.1 , 0.1 , 0.132 , 0.17 , 0.149 , 0.11 , 0.084 , 0.062)
> chisq . test ( obs .i , p = pp . i )

Chi - squared test for given probabilities

data : obs . i
X - squared = 62.878 , df = 8 , p - value = 1.266 e -10

(d) Conclusió: Hem obtingut evidència estadística que la distribució per edats dels espanyols diagnosticats
amb COVID-19 és diferent de la de la població espanyola en general (test 2 , p-valor 10 10 )

2
Matemàtiques II. Full 4a. Bondat d’ajust.

2) La llei de Benford estableix que, per als conjunts de nombres reals que són unions de mostres aleatòries de
moltes distribucions diferents (és a dir, conjunts de nombres que provenen de moltes fonts), la proporció pd
dels que comencen amb la xifra d tendeix a ser la donada a la taula següent:

d 1 2 3 4 5 6 7 8 9
pd 0.30 0.18 0.12 0.10 0.08 0.07 0.06 0.05 0.04

Aquesta llei s’usa per exemple per auditar quaderns de laboratori (alerta!) o dades econòmiques (declaracions
de renda, dades macroeconòmiques d’estats, etc.): si es pot rebutjar que les freqüències observades segueixen
la llei de Benford, sol ser senyal que qualque cosa estranya passa, i dóna peu a sospitar que les dades estan
amanyades.
A l’informe de dades macroeconòmiques del 2000 que Grècia presentà per avalar la seva sol.licitud d’entrada
a l’euro, les freqüències de primers dígits varen ser les següents (vegeu B. Rauch, M. Göttsche, “Fact and fiction
in EU-governmental economic data,” German Economic Review 12 (2011) pp. 243–255):

d 1 2 3 4 5 6 7 8 9
obsd 121 82 23 9 32 6 7 15 10

Hi ha evidència significativa que ens permeti rebutjar que aquestes dades segueixen la llei de Benford? Seguiu
el mateix esquema que a l’exercici anterior.

(a) El contrast que volem realitzar és



H0 : Les dades s’ajusten a la distribució de la llei de Benford
H1 : Les dades no s’ajusten a la distribució de la llei de Benford

(b) Per poder fer servir el test 2 cal que la mostra sigui gran, i en aquest cas ho és perquè la seva mida
és
n = 121 + 82 + 23 + 9 + 32 + 6 + 7 + 15 + 10 = 305,
i que les freqüències esperades de cada classe siguin > 5. Calculem-les.
• Segons la distribució de Benford, un 30% dels nombres comencen amb 1. Per tant si la nostra
mostra satisfés la llei de Benford, hi esperaríem 0.3 ⇥ 305 = 91.5 nombres que comencen amb 1.
• Segons la distribució de Benford, un 18% dels nombres comencen amb 2. Per tant si la nostra
mostra satisfés la llei de Benford, hi esperaríem 0.18 ⇥ 305 = 54.9 nombres que comencen amb 2.
• etc.
> freq . obs = c (121 ,82 ,23 ,9 ,32 ,6 ,7 ,15 ,10)
> n = sum ( freq . obs )
> probs . bf = c (0.30 ,0.18 ,0.12 ,0.10 ,0.08 ,0.07 ,0.06 ,0.05 ,0.04)
> freq . esp = probs . bf * n
> freq . esp
[1] 91.50 54.90 36.60 30.50 24.40 21.35 18.30 15.25 12.20

d 1 2 3 4 5 6 7 8 9
obsd 121 82 23 9 32 6 7 15 10
pd 0.30 0.18 0.12 0.10 0.08 0.07 0.06 0.05 0.04
espd 91.5 54.9 36.6 30.5 24.4 21.35 18.3 15.25 12.2

Totes les freqüències esperades són majors que 5.


Calculem l’estadístic de contrast
> round (( freq . obs - freq . esp ) ^2 / freq . esp ,3)
[1] 9.511 13.377 5.054 15.156 2.367 11.036 6.978 0.004 0.397

1
d 1 2 3 4 5 6 7 8 9
obsd 121 82 23 9 32 6 7 15 10
espd 91.5 54.9 36.6 30.5 24.4 21.35 18.3 15.25 12.2
(obsd espd )2 /espd 9.511 13.377 5.054 15.156 2.367 11.036 6.978 0.004 0.397

> X0 = sum (( freq . obs - freq . esp ) ^2 / freq . esp )


> round ( X0 ,2)
[1] 63.88

X02 = 9.511 + 13.377 + 5.054 + 15.156 + 2.367 + 11.036 + 6.978 + 0.004 + 0.397 = 63.88
El p-valor és
P( 2
8 > 63.88) = 1-pchisq(63.88,8) = 8 · 10 11

(c) Realitzau el test 2


amb la funció adient de R. Procurau que doni el mateix . . .
> chisq . test ( freq . obs , p = probs . bf )

Chi - squared test for given probabilities

data : freq . obs


X - squared = 63.879 , df = 8 , p - value = 8.036 e -11

(d) Conclusió: Hem obtingut evidència estadística que les dades macroeconòmiques del 2000 aportades
per Grècia no s’ajusten a la llei de Benford (test 2 , p-valor 8 · 10 11 ).

3) Tenim un camp de control aferrat a un camp on es cultiva una varietat de blat transgènic. Al cap d’un any,
al camp de control hi han crescut exemplars del blat transgènic i volem determinar si hi apareixen a l’atzar o
hi ha tendència a apareixer-ne més o menys segons la zona. Per estudiar-ho, hem dividit el camp de control en
una sèrie de quadrats d’àrees iguals, n’hem escollit una mostra aleatòria simple de 50 i hem comptat el nombre
de plantes de blat transgènic a cada quadrat. Si els exemplars de blat transgènic hi apareguessin a l’atzar, la
distribució d’aquests nombres seguiria una llei de Poisson. Els resultats han estat els següents:

nombre de plantes 0 1 3 4 5 7
nombre de zones 2 3 10 17 17 1

S’ajusten aquests nombres a una llei de Poisson? Realitzau el contrast amb nivell de significació del 5% i traduïu
la conclusió en termes de l’aparició, o no, a l’atzar d’exemplars de blat transgènic.
El contrast que volem realitzar és

H0 : Les dades segueixen una distribució de Poisson
H1 : Les dades no segueixen una distribució de Poisson

Per aplicar un test 2 , el primer que ha de passar és que les classes cobreixin tots els valors possibles:
falten el 2 i el 6, que els afegirem com a classes a part perquè hem d’intentar aconseguir el nombre màxim
de classes, i tots els valor a partir de 8, que els juntarem al 7 en una classe “7 o més” (si després aquesta
classe ens quedàs amb freqüència esperada més gran que 10, tornaríem enrera i la separaríem en “7” i “8 o
més” per veure si aquestes dues classes tenen totes dues freqüències esperades més grans o iguals qe 5):

classe 0 1 2 3 4 5 6 7 o més
obsi 2 3 0 10 17 17 0 1

Per calcular les freqüències esperades, primer estimam el valor de la com a mitjana de les observacions
> freq . obs = c (2 ,3 ,10 ,17 ,17 ,1)
> lambda = sum ( freq . obs * c (0 ,1 ,3 ,4 ,5 ,7) ) / 50
> lambda
[1] 3.86

Ara calculam les probabilitats de les classes i les freqüències esperades sota una variable de Poisson
P o(3.86).

2
> probs . teor = c ( dpois (0:6 , lambda ) ,1 - ppois (6 , lambda ) )
> round ( probs . teor ,4)
0.0211 0.0813 0.1570 0.2019 0.1949 0.1504 0.0968 0.0966
> freq . esp = probs . teor * 50
> round ( freq . esp ,2)
[1] 1.05 4.07 7.85 10.10 9.74 7.52 4.84 4.83

classe 0 1 2 3 4 5 6 7 o més
obsi 2 3 0 10 17 17 0 1
pi 0.0211 0.0813 0.157 0.2019 0.1949 0.1504 0.0968 0.0966
espi 1.05 4.07 7.85 10.1 9.74 7.52 4.84 4.83

Com que hi ha classes amb freqüència esperada més petita que 5, no podem aplicar tal qual el test 2
:
hem d’agrupar les dues primeres d’una banda, i les dues darreres de l’altra.
> freq . obs . agrup = c (5 ,0 ,10 ,17 ,17 ,1)
> probs . teor . agrup = c ( ppois (1 , lambda ) , dpois (2:5 , lambda ) ,1 - ppois (5 , lambda ) )
> freq . esp . agrup = probs . teor . agrup * 50
> round ( freq . esp . agrup ,2)
[1] 5.12 7.85 10.10 9.74 7.52 9.67
> round (( freq . obs . agrup - freq . esp . agrup ) ^2 / freq . esp . agrup ,3)
[1] 0.003 7.848 0.001 5.404 11.942 7.773

classe 0o1 2 3 4 5 6 o més


obsi 5 0 10 17 17 1
pi 0.1204 0.157 0.2019 0.1949 0.1504 0.1934
espi 5.12 7.85 10.1 9.74 7.52 9.67
(obsi espi )2 /espi 0.003 7.848 0.001 5.404 11.942 7.773

L’estadístic de contrast val

X02 = 0.003 + 7.848 + 0.001 + 5.404 + 11.942 + 7.773 = 32.97

Per calcular el p-valor cal recordar que hem estimat la , per tant el nombre de graus de llibertat de la 2

serà el nombre de classes emprat menys 2

p-valor = P ( 2
4 > 32.97) = 1-pchisq(32.97,4) = 10 6

Amb R, i ja emprant les dades agrupades


> Test = chisq . test ( freq . obs . agrup , p = probs . teor . agrup )
> Test

Chi - squared test for given probabilities

data : freq . obs . agrup


X - squared = 32.969 , df = 5 , p - value = 3.817 e -06

> 1 - pchisq ( Test $ statistic , Test $ parameter -1)


X - squared
1.211881 e -06

Així doncs, hem obtingut evidència estadística que els nombres de plantes de blat transgènic per quadrat
no segueixen una llei de Poisson (test 2 , p-valor 10 6 ). Concloem que els exemplars de blat transgènic
no apareixen a l’atzar al nostre camp.

3
Matemàtiques II. Full 4a. Bondat d’ajust.

4) En una mostra aleatòria de respostes de 100 estudiants a un test de 10 preguntes de l’Aula Digital hem
obtingut els nombres següents d’errors:

Nombre d’errors 0 1 2 3 4 5
Freqüència 18 25 32 14 10 1

Realitzau a mà un test 2 per contrastar, amb un nivell de significació del 5%, si aquests nombres d’errors
s’ajusten a un distribució binomial amb n = 10. Traduïu la conclusió del contrast en un llenguatge planer sense
fer servir les paraules "distribució binomial"; és a dir, què significa la conclusió en un llenguatge no probabilístic
ni estadístic?
El contrast que volem realitzar és

H0 : Les dades segueixen una distribució binomial amb n = 10
H1 : No és veritat que les dades segueixin una distribució binomial amb n = 10

El primer que hem de fer és estimar la p. Com que el valor esperat d’una B(n, p) és np, el que farem
serà calcular la mitjana mostral X de la mostra i estimar p = X/n.

18 · 0 + 25 · 1 + 32 · 2 + 14 · 3 + 10 · 4 + 1 · 5 X 1.76
X= = 1.76 ) p = = = 0.176
100 n 10
Anirem construïnt la taula. Alguns punts a tenir en compte:

• Com que les classes han de cobrir tots els resultats possibles, que són tots els nombres naturals de
0 a 10, per ara ampliarem la darrera classe a “5 o més” i després ja veurem si ens n’empenedim i la
xapam en dues (si resulta que té freqüència esperada més gran que 10, igual la podem xapar en dues
classes de freqüències esperades més grans que 5)

• La probabilitat pi de observar i errors (i = 0, 1, 2, 3, 4) si el nombre d’errors segueix una llei


B(10, 0.176) és ✓ ◆
10
pi = 0.176i (1 0.176)10 i = dbinom(i,10,0.176)
i

• La probabilitat d’observar 5 o més errors és 1 (p0 + p1 + p2 + p3 + p4 ) = 1-pbinom(4,10,0.176)

> obs . i = c (18 ,25 ,32 ,14 ,10 ,1)


> prob . i = c ( dbinom (0:4 ,10 ,0.176) ,1 - pbinom (4 ,10 ,0.176) )
> round ( prob .i ,4)
[1] 0.1443 0.3082 0.2962 0.1687 0.0631 0.0194
> esp . i = prob . i * 100
> round ( esp .i ,2)
[1] 14.43 30.82 29.62 16.87 6.31 1.94

Errors 0 1 2 3 4 5 o més
obsi 18 25 32 14 10 1
pi 0.1443 0.3082 0.2962 0.1687 0.0631 0.0194
espi 14.43 30.82 29.62 16.87 6.31 1.94

Arribats aquí, veiem que la darrera classe té freqüència esperada més petita que 5, per tant l’agruparem
amb l’anterior i continuarem:

Errors 0 1 2 3 4 o més
obsi 18 25 32 14 11
pi 0.1443 0.3082 0.2962 0.1687 0.0825
espi 14.43 30.82 29.62 16.87 8.25

1
> obs . i . agrup = c ( obs . i [1:4] , obs . i [5]+ obs . i [6])
> obs . i . agrup
[1] 18 25 32 14 11
> prob . i . agrup = c ( prob . i [1:4] , prob . i [5]+ prob . i [6])
> round ( prob . i . agrup ,4)
[1] 0.1443 0.3082 0.2962 0.1687 0.0825
> esp . i . agrup = prob . i . agrup * 100
> round ( esp . i . agrup ,2)
[1] 14.43 30.82 29.62 16.87 8.25
> round (( obs . i . agrup - esp . i . agrup ) ^2 / esp . i . agrup ,2)
[1] 0.88 1.10 0.19 0.49 0.92
> X0 = sum (( obs . i . agrup - esp . i . agrup ) ^2 / esp . i . agrup )
> round ( X0 ,2)
[1] 3.58

L’estadístic de contrast és, doncs, X02 = 0.88 + 1.1 + 0.19 + 0.49 + 0.92 = 3.58 i, com que hem emprat 5
classes i hem estimat un paràmetre, el p-valor és

P( 2
3 > 3.58) = 1-pchisq(3.58,3) = 0.31

No hem obtingut evidència estadística que els nombres d’errors no segueixin una llei binomial amb n = 10
(test 2 , p-valor 0.31). Acceptam, per tant, que aquests nombres d’errors segueixen una llei binomial .
Què significa això? Bàsicament, els nombres d’errors observats s’ajusten als que esperaríem si cada
pregunta de cada test tengués 6 opcions de resposta i només una de vertadera (1/0.176 = 5.7) i cada
estudiant hagués contestat cada pregunta escollint una resposta possible a l’atzar.
Amb R, ja agrupat:

Chi - squared test for given probabilities

data : obs . i . agrup


X - squared = 3.5796 , df = 4 , p - value = 0.4659

> p . valor =1 - pchisq ( chisq . test ( obs . i . agrup , p = prob . i . agrup ) $ statistic , chisq . test (
obs . i . agrup , p = prob . i . agrup ) $ parameter -1)
> p . valor
X - squared
0.3105828

5) He pres una mostra aleatòria simple de 100 notes mitjanes actuals de tests de Matemàtiques II. Les freqüèn-
cies, agrupades per la part entera, han estat:

nota [0, 1) [1, 2) [2, 3) [3, 4) [4, 5) [5, 6) [6, 7) [7, 8) [8, 9) [9, 10]
freqs. 10 8 7 17 14 14 8 13 5 4

Vull decidir a partir d’aquesta mostra si les notes mitjanes dels tests de Matemàtiques II realitzats abans de
Pasqua s’ajusten a una distribució normal.

(a) Quin és el contrast d’hipòtesis que es vol realitzar? Donau explícitament les hipòtesis nul·la i alternativa.
(b) Realitzau a mà el test 2 (emprant R per fer les operacions si voleu). Comprovau abans que les classes que
empreu satisfan les condicions per poder fer emprar aquest test. Recordau que si us cal agrupar classes,
que siguin les menys possibles.
(c) Realitzau el test 2
amb les funcions adients de R. Procurau que doni el mateix . . .
(d) Quina és la conclusió?
(e) El q-q-plot d’aquesta mostra de notes és el següent:

2
xx

10
8
Quantils de la mostra

6
4
2
0
−2 0 2 4 6 8 10

Quantils de normal

Aquest gràfic, confirma o contradiu la conclusió del test 2


?
(f) He aplicat un test de Lilliefors a la mostra de notes, i he obtengut un p-valor 0.42. Aquest p-valor, confirma
o contradiu la conclusió del test 2 ?

El contrast que volem realitzar és



H0 : Les notes segueixen una distribució normal
H1 : Les notes no segueixen una distribució normal

El primer que hem de fer és estimar la µ i la . El que farem serà calcular la mitjana i la desviació típica
a seques d’una mostra formada per tantes còpies dels punts mitjans de les classes com les freqüències de
les classes. És a dir, per exemple
10 · 0.5 + 8 · 1.5 + 7 · 2.5 + 17 · 3.5 + 14 · 4.5 + 14 · 5.5 + 8 · 6.5 + 13 · 7.5 + 5 · 8.5 + 4 · 9.5
X=
100
> obs . i = c (10 ,8 , 7 ,17 ,14 ,14 ,8 ,13 ,5 ,4)
> mu = mean ( rep (0.5+0:9 , obs . i ) )
> mu
[1] 4.64
> sigma = sd ( rep (0.5+0:9 , obs . i ) ) * sqrt (99 / 100)
> round ( sigma ,3)
[1] 2.486

Per tant, estimam que µ = 4.64 i = 2.49.


Per que les classes cobreixin tots els valors possibles d’una variable normal, hem d’estendre fins a l’infinit
les dues classes dels extrems:

nota ( 1, 1) [1, 2) [2, 3) [3, 4) [4, 5) [5, 6) [6, 7) [7, 8) [8, 9) [9, 1)
freqs. 10 8 7 17 14 14 8 13 5 4

Per calcular les probabilitats teòriques de les classes, si diem N a una variable N (4.64, 2.486)

p1 = P (( 1, 1)) = P ( 1 < N < 1) = P (N < 1)


= pnorm(1,4.64,2.486) = 0.0716
p2 = P ([1, 2)) = P (1 6 N < 2) = P (N < 2) P (N < 1)
= pnorm(2,4.64,2.486)-pnorm(1,4.64,2.486) = 0.0726
p3 = P ([2, 3)) = P (2 6 N < 3) = P (N < 3) P (N < 2)
= pnorm(3,4.64,2.486)-pnorm(2,4.64,2.486) = 0.1106
etc.

i després les freqüències esperades seran aquestes probabilitats teòriques per 100:

esp1 = p1 · 100 = 7.16, esp2 = p2 · 100 = 7.26, esp3 = p3 · 100 = 11.06, etc.

3
> Limits
[1] - Inf 1 2 3 4 5 6 7 8 9 Inf
> Lim . esq = Limits [ -11]
> Lim . dret = Limits [ -1]
> Lim . esq
[1] - Inf 1 2 3 4 5 6 7 8 9
> Lim . dret
[1] 1 2 3 4 5 6 7 8 9 Inf
> p . i = pnorm ( Lim . dret , mu , sigma ) - pnorm ( Lim . esq , mu , sigma )
> round ( p .i ,4)
[1] 0.0716 0.0726 0.1106 0.1437 0.1591 0.1503 0.1209 0.0830 0.0485 0.0397
> esp . i = p . i * 100
> round ( esp .i ,2)
[1] 7.16 7.26 11.06 14.37 15.91 15.03 12.09 8.30 4.85 3.97

Ci ( 1, 1) [1, 2) [2, 3) [3, 4) [4, 5) [5, 6) [6, 7) [7, 8) [8, 9) [9, 1)


obsi 10 8 7 17 14 14 8 13 5 4
pi 0.0716 0.0726 0.1106 0.1437 0.1591 0.1503 0.1209 0.0830 0.0485 0.0397
espi 7.16 7.26 11.06 14.37 15.91 15.03 12.09 8.30 4.85 3.97

Haurem d’agrupar les dues darreres classes


> obs . i . agrup = c ( obs . i [1:8] , obs . i [9]+ obs . i [10])
> obs . i . agrup
[1] 10 8 7 17 14 14 8 13 9
> p . i . agrup = c ( p . i [1:8] , p . i [9]+ p . i [10])
> round ( p . i . agrup ,4)
[1] 0.0716 0.0726 0.1106 0.1437 0.1591 0.1503 0.1209 0.0830 0.0883
> esp . i . agrup = p . i . agrup * 100
> round ( esp . i . agrup ,2)
[1] 7.16 7.26 11.06 14.37 15.91 15.03 12.09 8.30 8.83
> round (( obs . i . agrup - esp . i . agrup ) ^2 / esp . i . agrup ,2)
[1] 1.13 0.08 1.49 0.48 0.23 0.07 1.39 2.67 0.00
> round ( sum (( obs . i . agrup - esp . i . agrup ) ^2 / esp . i . agrup ) ,2)
[1] 7.53

Ci ( 1, 1) [1, 2) [2, 3) [3, 4) [4, 5) [5, 6) [6, 7) [7, 8) [8, 1)


obsi 10 8 7 17 14 14 8 13 9
pi 0.0716 0.0726 0.1106 0.1437 0.1591 0.1503 0.1209 0.0830 0.0883
espi 7.16 7.26 11.06 14.37 15.91 15.03 12.09 8.30 8.83
(obsi espi )2 /espi 1.13 0.08 1.49 0.48 0.23 0.07 1.39 2.67 0.00

L’estadístic de contrast és, doncs,


X 2 = 1.13 + 0.08 + 1.49 + 0.48 + 0.23 + 0.07 + 1.39 + 2.67 + 0.00 = 7.53
i, com que hem emprat 9 classes i hem estimat dos paràmetre, el p-valor és
P( 2
6 > 7.53) = 1-pchisq(7.53,6) = 0.27
No hem obtingut evidència estadística que les notes no s’ajustin a una llei normal (test 2 , p-valor 0.18).
Per tant acceptam que aquestes notes segueixen una llei normal. És consistent amb el q-q-plot, ja que cap
punt surt de la franja de confiança, i amb el test de Lillifors, ja que té un p-valor molt gran.
Amb R, ja agrupat:
> chisq . test ( obs . i . agrup , p = p . i . agrup )

Chi - squared test for given probabilities

data : obs . i . agrup


X - squared = 7.5319 , df = 8 , p - value = 0.4805

> p . valor =1 - pchisq ( chisq . test ( obs . i . agrup , p = p . i . agrup ) $ statistic , chisq . test ( obs . i
. agrup , p = p . i . agrup ) $ parameter -2)
> p . valor
X - squared
0.2744419

4
Matemàtiques II. Full 4b. Contrastos d’independència i homogeneïtat

1) Davant la sospita que l’hàbit de fumar d’una embarassada pot influir en el pes del seu fill en néixer, es
prengué una mostra d’embarassades, es classificaren en fumadores i no fumadores, i es classificaren els seus fills
en tres categories en funció de la relació del seu pes amb els quantils Q0.1 i Q0.9 dels pesos de la població total
de nadons: petits, els que pesaven menys del quantil Q0.1 ; normals, els que pesaven entre el quantil Q0.1 i el
quantil Q0.9 ; i grans, els que pesaven més del quantil Q0.9 El resultat es recull en la taula següent:

Mare fumadora? Petits Normals Grans


Sí 117 529 19
No 124 1147 117

A partir d’aquesta mostra, volem determinar si, en efecte, hi ha associació entre l’hàbit de fumar d’una emba-
rassada i i la classificació del pes del seu fill (en petit, normal o gran).

(a) Quines són les variables d’interès?


(b) Quin és el contrast d’hipòtesis que es vol realitzar? Donau explícitament les hipòtesis nul·la i alternativa.
(c) Se satisfan les condicions necessàries per poder aplicar un test 2
a aquesta taula? Per què?
(d) Independentment de la vostra resposta, realitzau a mà el test 2
(emprant R per fer les operacions) i amb
la funció adient de R (i procurau que doni el mateix . . . )
(e) Quina és la conclusió amb nivell de significació del 5%?
(f) Si mirau la taula, segurament observareu que les freqüències observades de nadons petits, normals i grans
no se semblen a les que “tocaria”. Anem a contrastar-ho?
(1) Per la definició que hem donat, quines són les probabilitats que un nadó sigui petit, normal o gran?
(2) Quins serien els nombres esperats de nadons petits, normals i grans en aquesta mostra si s’ajustàs a
les probabilitats donades a (1)?
(3) Traduïu en un contrast de bondat d’ajust la pregunta que m’estic fent.
(4) Se satisfan les condicions necessàries per poder emprar un test 2
per fer-lo amb les classes donades?
Per què?
(5) Independentment de la vostra resposta, realitzau a mà el test 2
(emprant R per fer les operacions) i
amb la funció adient de R (i procurau que doni el mateix . . . )
(6) Quina és la conclusió amb nivell de significació del 5%?
(7) Quin tipus d’error podeu haver comès amb la conclusió?

(a) Les variables d’interès són:

• X: Prenc un nadó i el classific en petit, normal o gran


• Y : Prenc un nadó i mir si la mare és fumadora o no

(b) Volem realitzar el contrast



H0 : El fet que un nadó sigui petit, normal o gran és independent de l’estatus fumador de la mare
H1 : Hi ha associació entre el fet que un nadó sigui petit, normal o gran i l’estatus fumador de la mare

(c) Vaig a afegir les marginals a la taula:


> Dades = matrix ( c (117 ,529 ,19 ,124 ,1147 ,117) , nrow =2 , byrow = TRUE )
> n = sum ( Dades )
> n
[1] 2053
> freqs . nadons = colSums ( Dades )
> freqs . nadons
[1] 241 1676 136
> freqs . mares = rowSums ( Dades )
> freqs . mares
[1] 665 1388

1
Mare fumadora? Petits Normals Grans Total
Sí 117 529 19 665
No 124 1147 117 1388
Total 241 1676 136 2053

La mostra és molt gran. Calculem les freqüències esperades:

Mare fumadora? Petits Normals Grans Total


Sí 665·241
2053
665·1676
2053
665·136
2053 665

No 1388·241
2053
1388·1676
2053
1388·136
2053 1388
Total 241 1676 136 2053
+

Mare fumadora? Petits Normals Grans Total


Sí 78.06 542.88 44.05 665
No 162.94 1133.12 91.95 1388
Total 241 1676 136 2053

Totes són més grans que 5. Podem efectuar un test 2


.
(d) L’estadístic de contrast és:
> freqs . esp = freqs . mares % * % t ( freqs . nadons ) / n
> freqs . esp
[ ,1] [ ,2] [ ,3]
[1 ,] 78.06381 542.8836 44.05261
[2 ,] 162.93619 1133.1164 91.94739
> X2 = sum (( Dades - freqs . esp ) ^2 / freqs . esp )
> X2
[1] 50.3233

El p-valor serà

P( 2
(2 1)(3 1) > 50.3233) = P ( 2
2 > 50.3233) = 1-pchisq(X2,2) = 10 11

Amb R:
> chisq . test ( Dades )

Pearson ’s Chi - squared test

data : Dades
X - squared = 50.323 , df = 2 , p - value = 1.182 e -11

(e) Conclusió: Hem obtingut evidència estadística que hi ha associació entre l’estat de fumador de la
mare i el pes dels nadons (test 2 , p-valor 10 11 ).
(f ) Anem a fer el segon contrast

(1) Per definició, per davall del quantil Q0.1 i per damunt del quantil Q0.9 hi ha un 10% de la població.
Per tant la probabilitat de ser petit és 0.1, de ser normal 0.8 i de ser gran 0.1.
(2) Volem realitzar el contrast

H0 : Els nadons petits, normals i grans de la mostra s’ajusten a la distribució de la població
H1 : Els nadons petits, normals i grans de la mostra no s’ajusten a la distribució de la població

(3) Dels 2053 nadons, n’esperaríem un 10% de petits, 205.3, un 10% de grans, 205.3, i la resta normals,
1642.4
(4) La mostra era de 2053 nins, gran, i la classificació en petits, normals i grans cobreix tots els casos
possibles. Les freqüències esperades són totes més grans que 5, podem continuar.

2
(5) L’estadístic de contrast és

2 (241 205.3)2 (1676 1642.4)2 (136 205.3)2


= + + = 30.3
205.3 1642.4 205.3
El p-valor serà
P( 2
2 > 30.3) = 1-pchisq(30.3,2) = 3 · 10 7

Amb R
> chisq . test ( c (241 ,1676 ,136) ,p = c (0.1 ,0.8 ,0.1) )

Chi - squared test for given probabilities

data : c (241 , 1676 , 136)


X - squared = 30.288 , df = 2 , p - value = 2.649 e -07

(6) Conclusió: La distribució dels nadons de la mostra no s’ajusta a la distribució de la població (test 2
,
p-valor 3 · 10 7 )
(7) Hem rebutjat la hipòtesi nul·la, per tant podem haver comès un error de tipus I

3
Matemàtiques II. Full 4b. Contrastos d’independència i homogeneïtat

2) En un estudi (del 1994) es demanà a una mostra raonablement aleatòria de dones angleses embarassades si
volien fer-se un test de VIH. L’objectiu era determinar si hi ha associació entre la voluntat de fer-se aquest test i
l’estat matrimonial de la dona: Casada; Parella (viu amb la parella sense estar casats); Div./Vídua (divorciada,
separada, vídua); Fadrina (viu tota sola i no pertany a cap de les altres classes). Les dades obtingudes varen
ser les següents

Test VIH
Estat matrimonial Acceptà Rebutjà
Casada 71 415
Parella 41 181
Div./Vídua 7 23
Fadrina 15 35

(a) Quines són les variables d’interès?


(b) Quin és el contrast d’hipòtesis que es vol realitzar? Donau explícitament les hipòtesis nul·la i alternativa.
(c) Quin tipus de disseny té aquest estudi: d’independència o d’homogeneïtat?
(d) Se satisfan les condicions necessàries per poder aplicar un test 2
a aquesta taula? Per què?
(e) Independentment de la vostra resposta, realitzau a mà el test 2
(emprant R per fer les operacions) i amb
la funció adient de R (i procurau que doni el mateix . . . )
(f) Quina és la conclusió amb nivell de significació del 5%?
(g) Ja que hi sóm, m’interessa trobar un interval de confiança del 95% per a la proporció p de dones angleses
embarassades que l’any 1994 acceptaven passar un test de VIH
(1) Amb la mostra que estam considerant, té sentit calcular-lo?
(2) En cas afirmatiu, podeu emprar la fórmula de Laplace per calcular-lo?
(3) En cas afirmatiu a (1), però independentment de la vostra resposta a (2), calculau a mà l’interval de
Laplace per a p
(4) Si l’heu calculat, interpretau aquest interval de confiança en el context específic d’aquest exercici

(a) Les variables d’interès són:

• X: Prenc una embarassada (anglesa de 1994) i la classific segons el seu estat matrimonial
• Y : Prenc una embarassada (anglesa de 1994) i li deman si vol passar el test de VIH

(b) Volem realitzar el contrast


8
>
> H0 : El fet que una embarassada (anglesa de 1994) vulgui passar el test de VIH
<
és independent del seu estat matrimonial
> H1 : Hi ha associació entre el fet que una embarassada (anglesa de 1994)
>
:
vulgui passar el test de VIH i el seu estat matrimonial

(c) El disseny és d’independència, perquè he pres una mostra transversal.


(d) Vaig a afegir les marginals a la taula:
> VIH = matrix ( c (71 ,415 ,41 ,181 ,7 ,23 ,15 ,35) , nrow =4 , byrow = TRUE )
> n = sum ( VIH )
> n
[1] 788
> freqs . test = colSums ( VIH )
> freqs . test
[1] 134 654
> freqs . estat = rowSums ( VIH )
> freqs . estat
[1] 486 222 30 50

1
Test VIH
Estat matrimonial Acceptà Rebutjà Total
Casada 71 415 486
Parella 41 181 222
Div./Vídua 7 23 30
Fadrina 15 35 50
Total 134 654 788

La mostra és molt gran. Calculem les freqüències esperades:


Sí test No test Total
Casada 134·486
788
654·486
788 486

Parella 134·222
788
654·222
788 222

Div./Vídua 134·30
788
654·30
788 30

Fadrina 134·50
788
654·50
788 50
Total 134 654 788
+

Sí test No test Total


Casada 82.64 403.36 486
Parella 37.75 184.25 222
Div./Vídua 5.10 24.90 30
Fadrina 8.50 41.50 50
Total 134 654 788

Totes són més grans que 5. Podem efectuar un test 2


.
(e) L’estadístic de contrast és
> freqs . esp = freqs . estat % * % t ( freqs . test ) / n
> freqs . esp
[ ,1] [ ,2]
[1 ,] 82.644670 403.35533
[2 ,] 37.751269 184.24873
[3 ,] 5.101523 24.89848
[4 ,] 8.502538 41.49746
> X2 = sum (( VIH - freqs . esp ) ^2 / freqs . esp )
> X2
[1] 9.14759

El p-valor és
> p . val =1 - pchisq ( X2 ,3)
> p . val
[1] 0.02739162

Amb R:
> chisq . test ( VIH )

Pearson ’s Chi - squared test

data : VIH
X - squared = 9.1476 , df = 3 , p - value = 0.02739

(f ) Conclusió: Hem obtingut evidència estadística que hi ha associació entre el fet que una embarassada
(anglesa de 1994) vulgui passar el test de VIH i el seu estat matrimonial (test 2 , p-valor 0.027).
(g) Ara volem calcular un interval de confiança del 95% per a la proporció p de dones angleses emba-
rassades que l’any 1994 acceptaven passar un test de VIH.

(1) Amb la mostra que estam considerant, sí que té sentit calcular-lo, perquè hem pres una mostra d’em-
barassades que sembla que pot passar per aleatòria

2
(2) Sí que podem emprar la fórmula de Laplace per calcular-lo, perquè la mostra és molt gran (n = 788)
i els nombres d’èxits i fraccassos també són grans (134 i 654, respectivament).
(3) L’interval de Laplace del 95% per a p és
r
pb · (1 pb)
pb ± z0.975
n
A la nostra mostra n = 788 i pb = 134/788 = 0.17, dóna
r
0.17 · 0.83
0.17 ± 1.96 = 0.17 ± 0.026 =) [0.144, 0.196]
788

(4) Estimam amb un 95% de confiança que entre un 14.4% i un 19.6% de les embarassades angleses del
1994 estaven disposades a passar un test de VIH.

3) En un estudi per determinar els bacteris causants de la diarrea per gastroenteritis, es prengué una mostra de
100 britànics amb gastroenteritis que durant els 15 dies anteriors no havien sortit de la seva ciutat; una mostra
de 100 britànics amb gastroenteritis que durant els 15 dies anteriors havien viatjat per la Gran Bretanya, però
no a l’estranger; una mostra de 100 britànics amb gastroenteritis que durant els 15 dies anteriors havien viatjat
a l’estranger, però no a un país mediterrani; i una mostra de 100 britànics amb gastroenteritis que durant els
15 dies anteriors havien viatjat a un país mediterrani. Entre altres bacteris, es determinà si donaren positiu en
Providencia alcalifaciens. Els resultats varen ser

Destí
P. alcalifaciens No viatjà GB Estranger Mediterrani
Positiu 5 4 6 11
Negatiu 95 96 94 89

Volem determinar si hi ha relació entre on hagi viatjat un britànic que hagi patit gastroenteritis i que doni
positiu en P. alcalifaciens.

(a) Quin és el contrast d’hipòtesis que es vol realitzar? Donau explícitament les hipòtesis nul·la i alternativa.
(b) Quin tipus de disseny té aquest estudi: d’independència o d’homogeneïtat?
(c) Se satisfan les condicions necessàries per poder emprar un test 2
? Per què?
(d) Independentment de la vostra resposta, realitzau a mà el test 2
(emprant R per fer les operacions) i amb
la funció adient de R (i procurau que doni el mateix . . . )
(e) Quina és la conclusió amb nivell de significació del 5%?
(f) Ja que hi sóm, m’interessa trobar un interval de confiança del 95% per a la proporció p de britànics amb
gastroenteritis que donen positiu en P. alcalifaciens.

(1) Amb la mostra que estam considerant, té sentit calcular-lo?


(2) En cas afirmatiu, podeu emprar la fórmula de Laplace per calcular-lo?
(3) En cas afirmatiu a (1), però independentment de la vostra resposta a (2), calculau a mà l’interval de
Laplace per a p
(4) Si l’heu calculat, interpretau aquest interval de confiança en el context específic d’aquest exercici

(a) Volem realitzar el contrast


8
>
> H0 : El fet que un malalt britànic amb gastroenteritis doni positiu en P. alcalifaciens
<
és independent d’on hagi viatjat els 15 dies anteriors
>
> H 1 : Hi ha associació entre el fet que un malalt britànic amb gastroenteritis doni positiu
:
en P. alcalifaciens i on hagi viatjat els 15 dies anteriors

(b) El disseny és d’homogeneïtat, perquè he pres una mostra estratificada, amb estrates l’estat viatger.
(c) Vaig a afegir les marginals a la taula:

3
> Diarrea = matrix ( c (5 ,4 ,6 ,11 ,95 ,96 ,94 ,89) , nrow =2 , byrow = TRUE )
> n = sum ( Diarrea )
> n
[1] 400
> freqs . viatge = colSums ( Diarrea )
> freqs . viatge
[1] 100 100 100 100
> freqs . PA = rowSums ( Diarrea )
> freqs . PA
[1] 26 374

Destí
P. alcalifaciens No viatjà GB Estranger Mediterrani Total
Positiu 5 4 6 11 26
Negatiu 95 96 94 89 374
Total 100 100 100 100 400

La mostra és molt gran. Calculem les freqüències esperades:

No viatjà GB Estranger Mediterrani Total


Positiu 26·400
100
26·400
100
26·400
100
26·400
100 26

Negatiu 374·400
100
374·400
100
374·400
100
374·400
100 374
Total 100 100
100 100 400
+
No viatjà GB Estranger Mediterrani Total
Positiu 6.5 6.5 6.5 6.5 26
Negatiu 93.5 93.5 93.5 93.5 374
Total 100 100 100 100 400

Totes són més grans que 5. Podem efectuar un test 2


.
(d) L’estadístic de contrast és
> freqs . esp = freqs . PA % * % t ( freqs . viatge ) / n
> freqs . esp
[ ,1] [ ,2] [ ,3] [ ,4]
[1 ,] 6.5 6.5 6.5 6.5
[2 ,] 93.5 93.5 93.5 93.5
> X2 = sum (( Diarrea - freqs . esp ) ^2 / freqs . esp )
> X2
[1] 4.771699

El p-valor serà
> p . val =1 - pchisq ( X2 ,3)
> p . val
[1] 0.1892984

Amb R
> chisq . test ( Diarrea )

Pearson ’s Chi - squared test

data : Diarrea
X - squared = 4.7717 , df = 3 , p - value = 0.1893

(e) Conclusió: No hem obtingut evidència estadística que hi hagi associació entre el fet que un britànic
amb gastroenteritis doni positiu de P. alcalifaciens i on hagi anat de viatge els 15 dies anteriors (test 2 ,
p-valor 0.19).
(f ) Ara volem calcular un interval de confiança del 95% per a la proporció p de britànics amb gastroen-
teritis que donen positiu en P. alcalifaciens.

4
(1) Amb la mostra que estam considerant, té sentit calcular-lo?
No, perquè hem pres una mostra estratificada amb nombres prefixats d’individus britànics que segu-
rament no és representativa de la població britànica amb gastroenteriitis: no crec que la proporció de
britànics amb gastroenteritis que 15 dies abans no s’hagin mogut de la ciutat sigui la mateixa que la
dels que 15 dies abans hagin visitat un pais mediterrani.
I per tant aquí s’atura aquest exercici.

You might also like