You are on page 1of 19

El problema

Intervals de confiança Amb un estimador, estimam el paràmetre amb una certa


precisió, que depèn:

• De la variabilitat de la v.a. d’interès

• De la mida de la mostra

• De la variabilitat de l’estimador (que segurament recull


les dues anteriors)
• Del nivell de confiança de l’estimació: com de segurs
volem estar que l’estimació és correcta
1 / 74 2 / 74

El problema El problema

Per tant (per ara):


Amb 95% de confiança podem afirmar que entre un
73.1% i un 80.1% dels estudiants de la UIB
accepten. . .
3 / 74 4 / 74
Definicions bàsiques El problema
EPA d’octubre de 2013:
A l’Encuesta de Población Activa (EPA):
• El nombre estimat d’aturats a nivell nacional va ser de
5 904 700
• L’error de mostreig va ser d’un 0.87%
• Per tant, estam bastant segurs (nivell de confiança del
95%) que el nombre d’aturats estava entre

5 904 700−2·0.0087·5 904 700 = 5 904 700−102 742


http://www.ine.es/jaxi/tabla.do?per=03&type=db&divi=EPA&idtab=313 = 5 801 958 i
5 904 700+2·0.0087·5 904 700 = 5 904 700+102 742
= 6 007 442

• L’EPA de juny 2013 havia estimat el nombre d’aturats en


http://www.ine.es/docutrab/eval_epa/evaluacion_epa04.pdf 5 977 500
• No hi ha evidència que l’atur baixàs
5 / 74 6 / 74

Definicions bàsiques Exemple


Un interval de confiança del q% (abreviadament, un IC q%) En un experiment hem mesurat el percentatge d’augment
d’un paràmetre poblacional és un interval obtingut aplicant a d’alcohol en sang a 40 persones després de prendre 4 canyes
una m.a.s. una fórmula tal que: de cervesa. La mitjana i la desviació típica mostral d’aquests
percentatges d’increment han estat
l’interval que produeix conté el valor del paràmetre
poblacional el q% de les vegades que l’aplicam sobre x = 41.2, se = 2.1
m.a.s. preses a l’atzar
L’IC 95% per al percentatge d’augment mitjà d’alcohol en
sang d’una persona després de beure 4 canyes de cervesa
donarà 41.2 ± 0.67, és a dir, [40.53, 41.87].
Aquest interval s’obté amb una fórmula que el 95% de les
vegades (que l’aplicam bé) dóna un interval que conté la
mitjana poblacional que volem estimar
q% de confiança: el q% de les vegades que l’aplicam bé,
Nosaltres «confiam» estar dins aquest 95% d’encerts ,
encertam; però el (1 − q)% de les vegades ens equivocam, i no
sabem quin és el nostre cas
7 / 74 8 / 74
No confongueu. . . No confongueu. . .

• Interval de referència del q%: Interval que conté el valor • Interval de confiança del q%: Interval que conté el valor
de la v.a. en un individu amb probabilitat q%; es calcula a del paràmetre de la v.a. «amb probabilitat» q%; es
partir de la distribució poblacional (teòrica) calcula a partir d’una mostra
Un 95% dels individus sans tenen una concentració A partir d’una mostra de 100 individus sans, inferim que,
d’hemoglobina en sèrum entre 11.5 i 16 g/dl amb un 95% de probabilitat, la concentració mitjana
d’hemoglobina en sèrum d’un individu sa està entre 13.5 i
Un individu sa té, amb un 95% de probabilitat, una
concentració d’hemoglobina en sèrum entre 11.5 i 16 g/dl 14 g/dl
(perquè hem emprat una fórmula que encerta el 95% de
les vegades)

9 / 74 10 / 74

Alerta! Per què serveixen?


Que un IC q% per a un paràmetre sigui [a, b] tampoc significa
que el q% de la vegades que estimem el paràmetre sobre una Que un IC q% per a un paràmetre θ sigui [a, b] serveix
mostra, el valor obtingut estigui dins d’aquest interval • Per estimar θ amb aquest marge de confiança: Estam
Exemple: Que un IC 95% per a la concentració mitjana bastant segurs que el valor poblacional de θ està entre a i
d’hemoglobina sigui [13.5, 14] no significa que el 95% de la b (la fórmula emprada encerta sovint)
vegades que prenguem una m.a.s. d’individus i calculem la • Per poder rebutjar un valor concret de θ amb aquest
mitjana mostral dels seus nivells d’hemoglobina, aquesta marge de confiança: Estam bastant segurs que el valor
estigui entre 13.5 i 14 real de θ no està ni per sota de a ni per sobre de b
(Això en tot cas seria l’interval de referència del 95% de la
mitjana mostral)

11 / 74 12 / 74
Per què serveixen? Intervals de confiança
Exemple: Si un IC 95% per a la diferència µ1 − µ2 de les Dos mètodes bàsics de càlcul d’IC:
mitjanes de dues vv.aa. va de 2.5 a 4.7
• Paramètric: Usant alguna fórmula basada en la distribució
• Estam molt (95%) segurs que la diferència entre els seus mostral de l’estimador
valors està dins aquests límits
• Es basa en teoremes
• Tenim evidència amb un nivell de confiança del 95%
• Només serveix si la v.a. X i la m.a.s. satisfan
(estam molt segurs) que µ1 > µ2 (perquè estam un 95% (aproximadament) les hipòtesis del teorema
segurs que 2.5 6 µ1 − µ2 6 4.7)

13 / 74 14 / 74

Intervals de confiança Un exemple


Dos mètodes bàsics de càlcul d’IC: Suposem que tenim una X ∼ N(µ, σ)

• No paramètric: El més usat és el bootstrap: Prenem una m.a.s. de mida n, de mitjana X i variància
mostral SeX2
• De la mostra, es prenen a l’atzar moltes (∼ 1000) m.a.s.
Volem trobar un IC 95% per a µ
de la mateixa mida que la mostra, es calcula l’estimador
amb cada una d’aquestes mostres i s’usa el vector de Sabem que
resultats per estimar un IC (per exemple, prendríem com X −µ
a IC 95% l’interval entre els quantils 0.025 i 0.975
T = √ ∼ tn−1
SeX / n
d’aquest vector)
• Es pot usar sempre, el resultat és aproximat
• Empra un procés aleatori: en cada execució sobre les
mateixes dades pot donar un IC diferent

15 / 74 16 / 74
Un exemple Un exemple
Si podem trobar A, B ∈ R tals que P(A 6 T 6 B) = 0.95 significa que per al 95% de les m.a.s.
el valor de T està entre A i B
P(A 6 T 6 B) = 0.95,
Per tant
llavors: !
SeX SeX
! P X −B · √ 6µ6X −A· √ = 0.95
X −µ n n
0.95 = P A6 √ 6B
SeX / n ! significa que per al 95% de les m.a.s. la µ cau dins
SeX SeX
=P A· √ 6X −µ6B · √
n n
" #
SX
e SX
e
X −B · √ , X −A· √
!
SeX SeX n n
=P − X + A · √ 6 −µ 6 −X + B · √
n n
!
SeX SeX
=P X −B · √ 6µ6X −A· √ Per tant, això serà un IC 95% per a µ
n n

17 / 74 18 / 74

Un exemple Un exemple
Ens falta trobar els A, B tals que P(A 6 T 6 B) = 0.95
Emprarem quantils de la distribució de T : Si tn−1,0.975 és el Per tant, podem prendre
0.975-quantil d’una tn−1 , i emprant la simetria de la t, A = −tn−1,0.975 , B = tn−1,0.975
P(T 6 tn−1,0.975 ) = 0.975
P(T 6 −tn−1,0.975 ) = P(T > tn−1,0.975 ) = 0.025 i obtenim:
P(−tn−1,0.975 6 T 6 tn−1,0.975 ) = 0.95 Teorema
Si X ∼ N(µ, σ), un IC 95% per a µ és
" #
SeX SeX
X − tn−1,0.975 · √ , X + tn−1,0.975 · √
n n

L’escriurem
SeX
X ± tn−1,0.975 · √
n
19 / 74 20 / 74
Un exemple Un exemple
200 IC 95%

set . seed (42)

200
Poblacio = rnorm (10^7) # Poblaci ó N (0 ,1)
mu = mean ( Poblacio )
IC = function ( x ) { n = length ( x )
mean ( x ) + qt (0.975 , n -1) * ( sd ( x ) / sqrt ( n ) )

150
* c ( -1 ,1) }
M = replicate (200 ,
IC ( sample ( Poblacio ,50 , replace = TRUE ) ) )

Repeticions
plot (1 , type = " n " , xlim = c ( -0.8 ,0.8) ,

100
ylim = c (0 ,200) , main = " 200 IC 95% " ,
xlab = " Valors " , ylab = " Repeticions " )
seg . int = function ( i ) { color = " grey " ;
if (( mu < M [1 , i ]) | ( mu > M [2 , i ]) ) { color = " red " }

50
segments ( M [1 , i ] ,i , M [2 , i ] ,i ,
col = color , lwd =2) }
sapply (1:200 , FUN = seg . int )
abline ( v = mu , lwd =2)

0
−0.5 0.0 0.5
21 / 74 Valors 22 / 74

Intervals de confiança Intervals de confiança


Alerta! De mitjana, un IC 95% no contindrà el valor real de paràmetre
De mitjana, un IC q% NO conté el valor real del en un 5% de les ocasions
paràmetre en un (100 − q)% de les ocasions Probabilitat de qualque fracàs en una B(n,0.05)

1.0
Exemple: De mitjana, un IC 95% no contindrà el valor real del
paràmetre en un 5% de les ocasions

0.8
Per tant, si calculau molts IC 95% en un treball, augmenta la
probabilitat que algun «estigui malament»:

0.6
Probabilitat
Quan es calculen n IC 95%, el nombre dels que NO
contenen el valor real del paràmetre corresponent és

0.4
una v.a. B(n, 0.05)
A (100 − q)% se li diu el nivell de significació, i se sol indicar 0.2

amb α
0.0

0 20 40 60 80 100
23 / 74 24 / 74
n
Intervals de confiança Un exemple
En un experiment hem mesurat el percentatge d’augment
L’IC 95% per a µ
d’alcohol en sang a 40 persones després de prendre 4 canyes
SeX de cervesa. La mitjana i la desviació típica mostral d’aquests
X ± tn−1,0.975 · √ percentatges d’increment han estat
n
x = 41.2, se = 2.1
• Està centrat en X , per tant en cada càlcul estarà centrat Per calcular un IC 95% per al percentatge mitjà d’augment,
en la mitjana mostral suposarem que la mostra és aleatòria simple i que la v.a. que
• Tal i com l’hem calculat, la probabilitat que µ caigui fora dóna el percentatge d’augment d’alcohol en sang en una
d’aquest interval es reparteix per igual als dos costats: un persona després de prendre 4 canyes de cervesa és normal.
2.5% de les vegades la µ estarà a l’esquerra de l’extrem Llavors, com que tn−1,0.975 = qt(0.975,39) = 2.0227, un IC
inferior i un 2.5% de les vegades estarà a la dreta de 95% és
l’extrem superior 2.1
41.2 ± 2.0227 · √ ⇒ 41.2 ± 0.67 ⇒ [40.53, 41.87]
40
25 / 74 26 / 74

Un exemple IC per a la µ d’una normal


En un experiment [. . . ] Nivell de confiança q% ⇔ Nivell de confiança q := q/100 (en
Per calcular un IC 95% per al percentatge mitjà d’augment, tant per u)
suposarem que la mostra és aleatòria simple i que la v.a. que El mateix argument que abans, canviant 0.95 per q dóna:
dóna el percentatge d’augment d’alcohol en sang en una
persona després de prendre 4 canyes de cervesa és normal. Teorema
Si X ∼ N(µ, σ) i prenem una m.a.s. de mida n, un IC de nivell
I si no és normal?
de confiança q (en tant per u) per a µ és
• En aquest cas, com que n = 40 és gran, si X no és molt
diferent d’una normal, el resultat serà aproximadament un SeX
IC 95% (ja hi tornarem) X ± tn−1,(1+q)/2 · √
n
• Si n fos petit i X molt diferent d’una normal, no es pot
usar aquesta fórmula i cal buscar-se la vida (e.g.,
bootstrap amb la mostra) 95% ⇒ q = 0.95 ⇒ (1 + q)/2 = 1.95/2 = 0.975

27 / 74 28 / 74
IC per la µ en general Quantils que heu de saber
Usant el T.C.L. i algunes aproximacions, tenim: Recordau que si n és gran, tn−1,(1+q)/2 ≈ z(1+q)/2
«Teorema»
Alguns quantils de la N(0, 1) que heu de saber (i els
Sigui X una v.a. qualsevol de mitjana poblacional µ. Suposem corresponents de t9 , t39 , t99 , corresponents a mostres de mida
que prenem una m.a.s. de X de mida n gran (diguem, n = 10, n = 40 i n = 100, perquè compareu)
n > 40). Llavors, un IC de nivell de confiança q per a µ és
(aproximadament) (1 + q)/2 z(1+q)/2 t9,(1+q)/2 t39,(1+q)/2 t99,(1+q)/2
0.95 1.64 1.83 1.69 1.66
SeX 0.975 1.96 2.16 2.02 1.98
X ± tn−1,(1+q)/2 · √
n
Alguns quantils de la t que heu de saber:
• tn,q > zq si q > 0.5
L’aproximació és millor com més gran sigui n o més propera a
una normal sigui la X • tn,0.95 (per a n > 10) entre 1.64 i 1.8 ⇒ ≈ 1.7

L’heu de saber (cultura general científica) • tn,0.975 (per a n > 10) entre 1.96 i 2.2 ⇒ ≈ 2

29 / 74 30 / 74

IC per la µ en general Intervals de confiança


Observau l’estructura: Un IC de nivell de confiança q per a µ Observació
és Per a una mateixa mostra i una mateixa fórmula (paramètrica)
estimador per calcular l’IC, si el nivell de confiança creix, l’IC s’eixampla
±((1 + q)/2)-quantil de la distribució mostral
(Idea: Per estar més segurs que un interval conté un valor,
×error típic de la mostra
l’interval ha de ser més ample)
Aquesta estructura és molt típica (però de vegades és una En l’exemple anterior, n = 40, x = 41.2, se = 2.1:
altra) i satisfà: • IC 95%: q = 0.95 ⇒ tn−1,(1+q)/2 = t39,0.975 = 2.02,

• L’IC està centrat en el valor de l’estimador 2.1


IC : 41.2 ± 2.02 · √ ⇒ 41.2 ± 0.67
• La «probabilitat d’equivocar-se» es reparteix per igual als 40
dos costats de l’interval: una fracció q/2 de les vegades el • IC 99%: q = 0.99 ⇒ tn−1,(1+q)/2 = t39,0.995 = 2.71,
paràmetre estarà a l’esquerra de l’extrem inferior i una
2.1
fracció q/2 de les vegades estarà a la dreta de l’extrem IC : 41.2 ± 2.71 · √ ⇒ 41.2 ± 0.9
superior 40
31 / 74 32 / 74
Intervals de confiança Càlcul amb R
Si teniu la m.a.s., podeu calcular aquests IC basats en la t de
Observació Student amb la funció t.test
> set . seed (100)
Per a una mateixa mostra i una mateixa fórmula (paramètrica) > x = rnorm (100)
per calcular l’IC, si el nivell de confiança creix, el IC s’eixampla. > t . test (x , conf . level =0.95)
One Sample t - test
Però si canviau de mostra (o de fórmula, si n’hi ha més d’una)
data : x
per calcular l’IC, pot passar qualsevol cosa t = 0.028535 , df = 99 , p - value = 0.9773
alternative hypothesis : true mean is
not equal to 0
95 percent confidence interval :
-0.1996185 0.2054436
sample estimates :
mean of x
0.002912563

33 / 74 34 / 74

Exemple Exemple
L’empresa RX-print ofereix una impressora de radiografies Cal calcular l’interval de confiança per a µ amb
d’altíssima qualitat. En la seva publicitat afirma que els seus
cartutxos imprimeixen una mitjana de 500 radiografies amb n = 25, x = 518, se = 39.9, q = 0.1
l’especificació:
Serà
Dades tècniques: Mostra mensual de mida n = 25, se
x ± t24,0.95 √
població suposada normal, nivell de confiança del n
90% on t24,0.95 = qt(0.95,24) = 1.71
Uns radiòlegs desitgen comprovar aquestes afirmacions i Operant:
prenen una mostra a l’atzar de mida n = 25, obtenint una
mitjana de x = 518 radiografies i una desviació típica mostral 39.9
518 ± 1.71 × √ ⇒ 518 ± 13.65 ⇒ [504.35, 531.65]
se = 39.9 25
Amb aquesta mostra, la mitjana poblacional anunciada pel No conté el 500 (en benefici del consumidor)
fabricant cau dins de l’interval de confiança del 90%?

35 / 74 36 / 74
Exemple amb bootstrap Exemple amb bootstrap
Tenim les dades en un fitxer Dades.txt
Hem suposat que la v.a. era normal. Què passaria si no ho
> Dades = scan ( " Dades . txt " )
fos?
Read 25 items
Com que n = 25 no és gran, no podem aplicar la fórmula de > mean ( Dades )
l’IC donada. Vaig a emprar bootstrap: [1] 518
> sd ( Dades )
• Prendré 5000 m.a.s. de mida 25 de les dades [1] 39.89987
> set . seed (100)
• Calcularé la mitjana de cada una > Simulacions = replicate (5000 ,
mean ( sample ( Dades ,25 , rep = TRUE ) ) )
• Prendré com a IC 90% l’interval que va del quantil 0.05 > quantile ( Simulacions ,0.05)
5%
al quantil 0.95 d’aquest vector de mitjanes 505.238
> quantile ( Simulacions ,0.95)
95%
530.802

Obtenim l’interval [505.24, 530.8]; no està mal, no?


37 / 74 38 / 74

Exemple Mida de la mostra


S’ha pres una mostra de sang a 100 adults sans i s’hi ha
L’IC q% per a µ
mesurat la quantitat de calci (en mg per dl de sang). S’ha
obtingut una mitjana mostral de 9.5 mg/dl amb una desviació SeX
típica mostral de 0.5 mg/dl. X ± tn−1,(1+q)/2 · √
n
Trobau un interval de confiança del 95% per a la quantitat
mitjana de calci en sang en un adult sa és simètric i centrat en X . La seva amplada és la diferència
entre els seus extrems
Donau el resultat al Socrative, en la forma [a, b] i els extrems
arrodonits a 1 xifra decimal SeX
2tn−1,(1+q)/2 × √
n
El marge d’error (error, precisió) M en l’estimació de µ per
mitjà d’aquest IC és la meitat de la seva amplada:

SeX
M = tn−1,(1+q)/2 × √
n
39 / 74 40 / 74
Mida de la mostra Mida de la mostra
Exemple: En l’exemple del càlcul de l’IC 95% per al
Pregunta: Donat un marge d’error màxim Mmax , quant ha de percentatge d’augment de l’alcohol etc. hem obtingut, amb 40
valer n per poder esperar que M 6 Mmax ? persones, x = 41.2 i se = 2.1, i l’error ha estat
Per respondre:
2.1
• Aproximam la t de Student per una normal estàndard
t0.975,39 · √ = 0.67
40
(segurament la n haurà de ser gran)
Quantes persones haguéssim hagut d’emprar per obtenir un IC
tn−1,(1+q)/2 z(1+q)/2 95% amb un error de (com màxim) 0.5?

• Estimam SeX mitjançant la desviació típica mostral Se0 Empram l’exemple com a prova pilot:
d’una prova pilot (una mostra anterior)
z(1+q)/2 · se 2
   2
1.96 · 2.1
Llavors n> = = 67.77 ⇒ n = 68
Mmax 0.5
!2
Se0 z(1+q)/2 · Se0
M ≈ z(1+q)/2 × √ 6 Mmax =⇒ n >
n Mmax Naturalment, quan després prenguem la mostra pot passar
qualsevol cosa, però hem fet els deures
41 / 74 42 / 74

IC per a proporcions IC per a proporcions


Considerem la situació següent: Emprant que x és B(n, pX ):
• X una v.a. Bernoulli amb pX desconeguda
• Prenem una m.a.s. de X de mida n, amb nombre d’èxits Mètode «exacte» de Clopper-Pearson (1934)
x i per tant freqüència relativa d’èxits pbX = x/n Un IC de nivell de confiança q per a pX és [p0 , p1 ], on
Recordau que la distribució de x és B(n, pX )
n  
X n 1−q
p0 la solució de p0k (1 − p0 )n−k =
k=x
k 2
x  
X n k 1−q
p1 la solució de p1 (1 − p1 )n−k =
k=0
k 2

A mà és intractable, i en general dóna més ample del necessari


(degut a la natura discreta de la distribució binomial), però es
pot emprar sempre
43 / 74 44 / 74
IC per a proporcions IC per a proporcions
El paquet epitools porta
Suposem ara que prenem una m.a.s. de X de mida n gran
binom.exact(èxits,mida,conf.) (posem, n > 40) i freqüència relativa d’èxits pbX
per calcular-lo. En aquestes condicions (pel T.C.L.),
De 10 pacients tractats amb un medicament, 2 s’han curat. pbX − pX
Quin seria un IC 95% per a la proporció p de pacients que Z=q ≈ N(0, 1)
pX (1−pX )
aquest medicament cura? n

> install . packages ( " epitools " , dep = TRUE ) Per tant
> library ( epitools )
 
> round ( binom . exact (2 ,10 ,0.95) ,3)
x n proportion lower upper conf . level pbX − pX
1 2 10 0.2 0.025 0.556 0.95
P −z 1+q 6q 6 z 1+q  = q
2 pX (1−pX ) 2
n
Dóna [0.025, 0.556]

45 / 74 46 / 74

IC per a proporcions IC per a proporcions


Suposem finalment que prenem una m.a.s. de X de mida n
Aïllant pX obtenim: més gran i pbX enfora de 0 i 1. Per exemple, tal que:
Mètode de Wilson (1927) pX > 10, n(1 − pbX ) > 10
n > 100, nb
Si n és gran, un IC de nivell de confiança q per a pX és Aleshores l’interval de Wilson s’aproxima pel següent:
(aproximadament):
q
Fórmula de Laplace (1812)
2
z(1+q)/2 2
z(1+q)/2
pbX + 2n ± z(1+q)/2 pbX (1−b n
pX )
+ 4n2
En aquestes condicions, un IC de nivell de confiança q per a
2
z(1+q)/2 pX és (aproximadament):
1+ n r
pbX (1 − pbX )
pbX ± z q+1
2 n
Funció binom.wilson del paquet epitools

L’heu de saber (cultura general científica)


Funció binom.approx del paquet epitools
47 / 74 48 / 74
Exemple Exemple
En una mostra aleatòria de 500 famílies amb nins en edat X = «Aportar diàriament fruita a la dieta dels fills»
escolar es va trobar que 340 introduïen fruita de forma diària és Be(pX ), i cercam interval de confiança del 95% per a pX
en la dieta dels seus fills
Com que n = 500 > 100, nb pX = 340 > 10 i
Volem un interval de confiança del 95% per a la proporció real n(1 − pbX ) = 160 > 10, podem emprar la fórmula de Laplace
de famílies d’aquesta ciutat amb nins en edat escolar que
incorporen fruita fresca de forma diària en la dieta dels seus
r
pbX (1 − pbX )
fills pbX ± z q+1
2 n
amb
340
n = 500, pbX = = 0.68
500
Dóna (recordau q = 0.95 ⇒ z q+1 = z0.975 = 1.96)
2

[0.639, 0.721]
49 / 74 50 / 74

Exemple Exemple
Amb els altres mètodes: En un assaig d’un nou tractament de quimioteràpia, en una
> round ( binom . exact (340 ,500 ,0.95) ,3) mostra de n (gran) malalts tractats, cap desenvolupà càncer
x n proportion lower upper conf . level testicular com a efecte secundari. Quin seria un interval de
1 340 500 0.68 0.637 0.721 0.95 confiança al 95% per a la proporció de malalts tractats amb
> round ( binom . wilson (340 ,500 ,0.95) ,3) aquesta quimio que desenvolupen càncer testicular?
x n proportion lower upper conf . level
1 340 500 0.68 0.638 0.719 0.95
No podem emprar la fórmula de Laplace, perquè pbX = 0. Com
Donen: que n és gran, podem emprar el mètode de Wilson:

• Clopper-Pearson: [0.637, 0.721]

• Wilson: [0.638, 0.719]

• Laplace: [0.639, 0.721]

51 / 74 52 / 74
Exemple La regla del 3
Regla del 3
2
q 2
z(q+1)/2 pbX (1−bpX ) z(q+1)/2 Quan en una m.a.s. de mida n d’una v.a. de Bernoulli de
pbX + 2n
± z(q+1)/2 n
+ 4n2
2
paràmetre pX no hi trobam cap èxit, un IC 95% per a pX va,
z(q+1)/2
1+ n
aproximadament, de 0 a 3/n

Extrem superior d'un IC 95% en cas de 0 èxits


q
1.962 2
± 1.96 1.96

1.0
1.962 i h
Clopper−Pearson

2n 4n2
h 3.84 i Regla del 3

1.962
=⇒ 0, = 0,
1+ n + 1.962 n + 3.84

0.8
n

0.6
Extrem superior
Amb Clopper-Pearson és un dels pocs casos que es pot
resoldre analíticament: dóna

0.4
h  1 − q 1/n i
q=0.95
0, 1 − =⇒ [0, 1 − 0.0251/n ]
2

0.2
0.0
53 / 74 54 / 74
0 20 40 60 80 100

Exemple Exemple
En un assaig d’un tractament de quimioteràpia, en una mostra > prop . test (25 ,100)
de 100 pacients tractats, 25 desenvoluparen càncer testicular
secundari. Quin seria un IC 95% per a la proporció de pacients 1 - sample proportions test with continuity
tractats amb aquesta quimioteràpia que desenvolupen càncer correction
testicular? data : 25 out of 100 , null probability 0.5
Podem emprar els tres mètodes X - squared = 24.01 , df = 1 , p - value = 9.584 e -07
alternative hypothesis : true p is not equal to
> round ( binom . exact (25 ,100) ,4) 0.5
x n proportion lower upper conf . level 95 percent confidence interval :
1 25 100 0.25 0.1688 0.3466 0.95 0.1711755 0.3483841
> round ( binom . wilson (25 ,100) ,4) sample estimates :
x n proportion lower upper conf . level p
1 25 100 0.25 0.1755 0.343 0.95 0.25
> round ( binom . approx (25 ,100) ,4)
x n proportion lower upper conf . level https://en.wikipedia.org/wiki/Binomial_proportion_confidence_interval#
1 25 100 0.25 0.1651 0.3349 0.95 Wilson_score_interval_with_continuity_correction

55 / 74 56 / 74
Exemple Observacions
> prop . test (25 ,100 , correct = FALSE )
• El mètode de Wilson dóna un I.C. centrat en
1 - sample proportions test without continuity 2
z(q+1)/2 z2
correction pbX + 2n
pX + (q+1)/2
nb 2
2
z(q+1)/2
= 2
data : 25 out of 100 , null probability 0.5 1+ n + z(q+1)/2
n
X - squared = 25 , df = 1 , p - value = 5.733 e -07
alternative hypothesis : true p is not equal to • No es coneix una fórmula per al centre de l’I.C. de
0.5
Clopper-Pearson.
95 percent confidence interval :
0.1754521 0.3430446 • La fórmula de Laplace dóna un I.C. centrat en pbX
sample estimates :
p
0.25
> c ( binom . wilson (25 ,100) $ lower ,
binom . wilson (25 ,100) $ upper )
[1] 0.1754521 0.3430446

57 / 74 58 / 74

Amplada Amplada
r
pbX (1 − pbX )
L’error de l’interval de confiança de Laplace és M = z(q+1)/2
n
p
r El màxim de pbX (1 − pbX ) s’assoleix a pbX = 0.5
pbX (1 − pbX )
M = z(q+1)/2
n

0.5
No podem determinar la mida de la mostra a fi que l’interval
de confiança tingui un error màxim sense conèixer pbX , que no

0.4
coneixem sense una mostra

0.3
sqrt(x * (1 - x))
Podem usar una prova pilot, o donar un n que serveixi per tots
els pbX ∈ [0, 1]

0.2
0.1
0.0 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0

59 / 74 60 / 74
Amplada Exemple
r
pbX (1 − pbX )
M = z(q+1)/2 Per garantir un error de 0.05 en calcular un IC 95% per una
n
p proporció pX , hem d’emprar una mostra de mida n tal que
El màxim de pbX (1 − pbX ) s’assoleix a pbX = 0.5 !2 !2
z(1+q)/2 1.96
n> = = 384.16 ⇒ n = 385
2Mmax 0.1
Per tant, calcularem n per obtenir un error com a màxim Mmax
suposant que estam en el cas que dóna l’interval més ample
(el cas més desfavorable): suposant pbX = 0.5: Observau que n només depèn de la precisió i del nivell de
confiança, no de la natura de l’estudi
z(q+1)/2 2
r  
0.52 z(q+1)/2
Mmax > z(q+1)/2 = √ ⇒n>
n 2 n 2 · Mmax

60 / 74 61 / 74

Exemple Variància d’una població normal


Considerem ara la situació següent:
• X una v.a. normal amb µ i σ desconegudes
• X1 , . . . , Xn una m.a.s. de X i variància mostral SeX2

Teorema
En aquestes condicions

(n − 1)SeX2
σ2
q = 95%, n = 727. Quin error es comet en el cas més
desfavorable? Donau el resultat al Socrative en forma q% amb té distribució χ2n−1
q arrodonit a 2 xifres decimals

62 / 74 63 / 74
Variància d’una població normal Variància d’una població normal
1−q 1−q
Considerem ara la situació següent: P(χ2n−1 6 χ2n−1, 1−q ) = 2
, P(χ2n−1 > χ2n−1, 1+q ) = 2
:
2 2
• X una v.a. normal amb µ i σ desconegudes  
• X1 , . . . , Xn una m.a.s. de X i variància mostral SeX2 q=P χ2n−1, 1−q 6 χ2n−1 6 χ2n−1, 1+q
2 2
!
Teorema (n − 1)SeX2
=P χ2n−1, 1−q 6 2
6 χ2n−1, 1+q
En aquestes condicions, un IC de nivell de confiança q per a 2 σ 2

σ 2 és
!
2 2
" # (n − 1)SeX 2 (n − 1)SeX
(n − 1)SeX2 (n − 1)SeX2 =P 6 σ 6
, 2 , χ2n−1, 1+q χ2n−1, 1−q
χ2n−1, 1+q χn−1, 1−q 2 2
2 2

on χ2ν,r és el r -quantil de la distribució χ2ν I ara χ2n−1 no és simètrica, així que s’han de calcular χ2n−1, 1−q i
2
χ2n−1, 1+q
2

Observació: L’interval de confiança per σ 2 no està centrat en


SeX2
64 / 74 65 / 74

Exemple Exemple
" #
Un índex de qualitat d’un reactiu químic és el temps que triga (n − 1)SeX2 (n − 1)SeX2
I.C. per a σ 2 : , 2
a actuar. L’estàndard és que aquest ha de ser 6 30 segons. Se χ2n−1, 1+q χn−1, 1−q
2 2
suposa que la distribució del temps d’actuació del reactiu és
aproximadament normal. > Temps = c (12 ,13 ,13 ,14 ,14 ,14 ,15 ,15 ,16 ,17 ,
17 ,18 ,18 ,19 ,19 ,25 ,25 ,26 ,27 ,30 ,33 ,34 ,35 ,
Es realitzen 30 proves en les quals es mesura el temps
40 ,40 ,51 ,51 ,58 ,59 ,83)
d’actuació del reactiu: > length ( Temps ) # n
12, 13, 13, 14, 14, 14, 15, 15, 16, 17, 17, 18, 18, 19, 19, 25, [1] 30
> var ( Temps ) # vari à ncia mostral
25, 26, 27, 30, 33, 34, 35, 40, 40, 51, 51, 58, 59, 83 [1] 301.5506
Es demana calcular un interval de confiança per a la desviació > qchisq (0.975 ,29)
[1] 45.72229
típica amb nivell de confiança 95% > qchisq (0.025 ,29)
[1] 16.04707

66 / 74 67 / 74
Exemple «Poblacions finites»
L’interval serà Fins ara hem emprat mostres aleatòries simples
" # A la pràctica, es prenen mostres aleatòries sense reposició
(n − 1)SeX2 (n − 1)SeX2
, 2 Si la mida N de la població és molt més gran que la mida n de
χ2n−1, 1+q χn−1, 1−q
2 2 la mostra (posem N > 1000n), les fórmules donades fins ara
Obtenim funcionen (aproximadament) bé
  Però. . .
29 · 301.55 29 · 301.55
, = [191.26, 544.96]
45.72 16.05

Aquest era per a la variància! Per a la desviació típica


√ √
[ 191.26, 544.96] = [13.83, 23.34]

68 / 74 69 / 74

«Poblacions finites» «Poblacions finites»


Es dóna l’efecte de població finita quan N és relativament Considerem la situació següent:
petit • X una població de mida N que segueix una distribució
En aquest cas, a les fórmules que hem donat per als intervals amb mitjana poblacional µ desconeguda
de confiança per a µ o pX cal multiplicar l’error estàndard pel • X1 , . . . , Xn una m.a. sense reposició de X , amb mitjana X
factor corrector r • X normal o n gran
N −n
N −1 «Teorema»
En aquestes condicions, es recomana prendre com a IC
q · 100% per a µ
r
SeX N − n
X ± tn,(q+1)/2 √
n N −1

70 / 74 71 / 74
«Poblacions finites» «Poblacions finites»
Considerem la situació següent:
• X una població de mida N que segueix una distribució «Teorema»
Bernoulli amb p desconeguda En les condicions anteriors, per obtenir un interval de confiança
• X1 , . . . , Xn una m.a. sense reposició de X , amb n molt del (1 − α) · 100% per a p amb un marge d’error Mmax en el
gran i amb freqüència relativa d’èxits pbX no extrema cas més desfavorable caldrà prendre una mostra de mida
2
Nz(q+1)/2
«Teorema» n> 2 (N − 1) + z 2
4Mmax
En aquestes condicions, es recomana prendre com a IC (q+1)/2

q · 100% per a p
r r
pbX (1 − pbX ) N − n
pbX ± z(q+1)/2
n N −1

72 / 74 73 / 74

Exemple

Quin error màxim cometem en estimar amb un nivell de


confiança del 95% una probabilitat de la població total
d’estudiants de grau de la UIB emprant una m.a. sense
reposició de 727 individus? Donau el resultat al Socrative en
forma q% amb q arrodonit a 2 xifres decimals.

74 / 74

You might also like