Professional Documents
Culture Documents
• De la mida de la mostra
El problema El problema
• Interval de referència del q%: Interval que conté el valor • Interval de confiança del q%: Interval que conté el valor
de la v.a. en un individu amb probabilitat q%; es calcula a del paràmetre de la v.a. «amb probabilitat» q%; es
partir de la distribució poblacional (teòrica) calcula a partir d’una mostra
Un 95% dels individus sans tenen una concentració A partir d’una mostra de 100 individus sans, inferim que,
d’hemoglobina en sèrum entre 11.5 i 16 g/dl amb un 95% de probabilitat, la concentració mitjana
d’hemoglobina en sèrum d’un individu sa està entre 13.5 i
Un individu sa té, amb un 95% de probabilitat, una
concentració d’hemoglobina en sèrum entre 11.5 i 16 g/dl 14 g/dl
(perquè hem emprat una fórmula que encerta el 95% de
les vegades)
9 / 74 10 / 74
11 / 74 12 / 74
Per què serveixen? Intervals de confiança
Exemple: Si un IC 95% per a la diferència µ1 − µ2 de les Dos mètodes bàsics de càlcul d’IC:
mitjanes de dues vv.aa. va de 2.5 a 4.7
• Paramètric: Usant alguna fórmula basada en la distribució
• Estam molt (95%) segurs que la diferència entre els seus mostral de l’estimador
valors està dins aquests límits
• Es basa en teoremes
• Tenim evidència amb un nivell de confiança del 95%
• Només serveix si la v.a. X i la m.a.s. satisfan
(estam molt segurs) que µ1 > µ2 (perquè estam un 95% (aproximadament) les hipòtesis del teorema
segurs que 2.5 6 µ1 − µ2 6 4.7)
13 / 74 14 / 74
• No paramètric: El més usat és el bootstrap: Prenem una m.a.s. de mida n, de mitjana X i variància
mostral SeX2
• De la mostra, es prenen a l’atzar moltes (∼ 1000) m.a.s.
Volem trobar un IC 95% per a µ
de la mateixa mida que la mostra, es calcula l’estimador
amb cada una d’aquestes mostres i s’usa el vector de Sabem que
resultats per estimar un IC (per exemple, prendríem com X −µ
a IC 95% l’interval entre els quantils 0.025 i 0.975
T = √ ∼ tn−1
SeX / n
d’aquest vector)
• Es pot usar sempre, el resultat és aproximat
• Empra un procés aleatori: en cada execució sobre les
mateixes dades pot donar un IC diferent
15 / 74 16 / 74
Un exemple Un exemple
Si podem trobar A, B ∈ R tals que P(A 6 T 6 B) = 0.95 significa que per al 95% de les m.a.s.
el valor de T està entre A i B
P(A 6 T 6 B) = 0.95,
Per tant
llavors: !
SeX SeX
! P X −B · √ 6µ6X −A· √ = 0.95
X −µ n n
0.95 = P A6 √ 6B
SeX / n ! significa que per al 95% de les m.a.s. la µ cau dins
SeX SeX
=P A· √ 6X −µ6B · √
n n
" #
SX
e SX
e
X −B · √ , X −A· √
!
SeX SeX n n
=P − X + A · √ 6 −µ 6 −X + B · √
n n
!
SeX SeX
=P X −B · √ 6µ6X −A· √ Per tant, això serà un IC 95% per a µ
n n
17 / 74 18 / 74
Un exemple Un exemple
Ens falta trobar els A, B tals que P(A 6 T 6 B) = 0.95
Emprarem quantils de la distribució de T : Si tn−1,0.975 és el Per tant, podem prendre
0.975-quantil d’una tn−1 , i emprant la simetria de la t, A = −tn−1,0.975 , B = tn−1,0.975
P(T 6 tn−1,0.975 ) = 0.975
P(T 6 −tn−1,0.975 ) = P(T > tn−1,0.975 ) = 0.025 i obtenim:
P(−tn−1,0.975 6 T 6 tn−1,0.975 ) = 0.95 Teorema
Si X ∼ N(µ, σ), un IC 95% per a µ és
" #
SeX SeX
X − tn−1,0.975 · √ , X + tn−1,0.975 · √
n n
L’escriurem
SeX
X ± tn−1,0.975 · √
n
19 / 74 20 / 74
Un exemple Un exemple
200 IC 95%
200
Poblacio = rnorm (10^7) # Poblaci ó N (0 ,1)
mu = mean ( Poblacio )
IC = function ( x ) { n = length ( x )
mean ( x ) + qt (0.975 , n -1) * ( sd ( x ) / sqrt ( n ) )
150
* c ( -1 ,1) }
M = replicate (200 ,
IC ( sample ( Poblacio ,50 , replace = TRUE ) ) )
Repeticions
plot (1 , type = " n " , xlim = c ( -0.8 ,0.8) ,
100
ylim = c (0 ,200) , main = " 200 IC 95% " ,
xlab = " Valors " , ylab = " Repeticions " )
seg . int = function ( i ) { color = " grey " ;
if (( mu < M [1 , i ]) | ( mu > M [2 , i ]) ) { color = " red " }
50
segments ( M [1 , i ] ,i , M [2 , i ] ,i ,
col = color , lwd =2) }
sapply (1:200 , FUN = seg . int )
abline ( v = mu , lwd =2)
0
−0.5 0.0 0.5
21 / 74 Valors 22 / 74
1.0
Exemple: De mitjana, un IC 95% no contindrà el valor real del
paràmetre en un 5% de les ocasions
0.8
Per tant, si calculau molts IC 95% en un treball, augmenta la
probabilitat que algun «estigui malament»:
0.6
Probabilitat
Quan es calculen n IC 95%, el nombre dels que NO
contenen el valor real del paràmetre corresponent és
0.4
una v.a. B(n, 0.05)
A (100 − q)% se li diu el nivell de significació, i se sol indicar 0.2
amb α
0.0
0 20 40 60 80 100
23 / 74 24 / 74
n
Intervals de confiança Un exemple
En un experiment hem mesurat el percentatge d’augment
L’IC 95% per a µ
d’alcohol en sang a 40 persones després de prendre 4 canyes
SeX de cervesa. La mitjana i la desviació típica mostral d’aquests
X ± tn−1,0.975 · √ percentatges d’increment han estat
n
x = 41.2, se = 2.1
• Està centrat en X , per tant en cada càlcul estarà centrat Per calcular un IC 95% per al percentatge mitjà d’augment,
en la mitjana mostral suposarem que la mostra és aleatòria simple i que la v.a. que
• Tal i com l’hem calculat, la probabilitat que µ caigui fora dóna el percentatge d’augment d’alcohol en sang en una
d’aquest interval es reparteix per igual als dos costats: un persona després de prendre 4 canyes de cervesa és normal.
2.5% de les vegades la µ estarà a l’esquerra de l’extrem Llavors, com que tn−1,0.975 = qt(0.975,39) = 2.0227, un IC
inferior i un 2.5% de les vegades estarà a la dreta de 95% és
l’extrem superior 2.1
41.2 ± 2.0227 · √ ⇒ 41.2 ± 0.67 ⇒ [40.53, 41.87]
40
25 / 74 26 / 74
27 / 74 28 / 74
IC per la µ en general Quantils que heu de saber
Usant el T.C.L. i algunes aproximacions, tenim: Recordau que si n és gran, tn−1,(1+q)/2 ≈ z(1+q)/2
«Teorema»
Alguns quantils de la N(0, 1) que heu de saber (i els
Sigui X una v.a. qualsevol de mitjana poblacional µ. Suposem corresponents de t9 , t39 , t99 , corresponents a mostres de mida
que prenem una m.a.s. de X de mida n gran (diguem, n = 10, n = 40 i n = 100, perquè compareu)
n > 40). Llavors, un IC de nivell de confiança q per a µ és
(aproximadament) (1 + q)/2 z(1+q)/2 t9,(1+q)/2 t39,(1+q)/2 t99,(1+q)/2
0.95 1.64 1.83 1.69 1.66
SeX 0.975 1.96 2.16 2.02 1.98
X ± tn−1,(1+q)/2 · √
n
Alguns quantils de la t que heu de saber:
• tn,q > zq si q > 0.5
L’aproximació és millor com més gran sigui n o més propera a
una normal sigui la X • tn,0.95 (per a n > 10) entre 1.64 i 1.8 ⇒ ≈ 1.7
L’heu de saber (cultura general científica) • tn,0.975 (per a n > 10) entre 1.96 i 2.2 ⇒ ≈ 2
29 / 74 30 / 74
33 / 74 34 / 74
Exemple Exemple
L’empresa RX-print ofereix una impressora de radiografies Cal calcular l’interval de confiança per a µ amb
d’altíssima qualitat. En la seva publicitat afirma que els seus
cartutxos imprimeixen una mitjana de 500 radiografies amb n = 25, x = 518, se = 39.9, q = 0.1
l’especificació:
Serà
Dades tècniques: Mostra mensual de mida n = 25, se
x ± t24,0.95 √
població suposada normal, nivell de confiança del n
90% on t24,0.95 = qt(0.95,24) = 1.71
Uns radiòlegs desitgen comprovar aquestes afirmacions i Operant:
prenen una mostra a l’atzar de mida n = 25, obtenint una
mitjana de x = 518 radiografies i una desviació típica mostral 39.9
518 ± 1.71 × √ ⇒ 518 ± 13.65 ⇒ [504.35, 531.65]
se = 39.9 25
Amb aquesta mostra, la mitjana poblacional anunciada pel No conté el 500 (en benefici del consumidor)
fabricant cau dins de l’interval de confiança del 90%?
35 / 74 36 / 74
Exemple amb bootstrap Exemple amb bootstrap
Tenim les dades en un fitxer Dades.txt
Hem suposat que la v.a. era normal. Què passaria si no ho
> Dades = scan ( " Dades . txt " )
fos?
Read 25 items
Com que n = 25 no és gran, no podem aplicar la fórmula de > mean ( Dades )
l’IC donada. Vaig a emprar bootstrap: [1] 518
> sd ( Dades )
• Prendré 5000 m.a.s. de mida 25 de les dades [1] 39.89987
> set . seed (100)
• Calcularé la mitjana de cada una > Simulacions = replicate (5000 ,
mean ( sample ( Dades ,25 , rep = TRUE ) ) )
• Prendré com a IC 90% l’interval que va del quantil 0.05 > quantile ( Simulacions ,0.05)
5%
al quantil 0.95 d’aquest vector de mitjanes 505.238
> quantile ( Simulacions ,0.95)
95%
530.802
SeX
M = tn−1,(1+q)/2 × √
n
39 / 74 40 / 74
Mida de la mostra Mida de la mostra
Exemple: En l’exemple del càlcul de l’IC 95% per al
Pregunta: Donat un marge d’error màxim Mmax , quant ha de percentatge d’augment de l’alcohol etc. hem obtingut, amb 40
valer n per poder esperar que M 6 Mmax ? persones, x = 41.2 i se = 2.1, i l’error ha estat
Per respondre:
2.1
• Aproximam la t de Student per una normal estàndard
t0.975,39 · √ = 0.67
40
(segurament la n haurà de ser gran)
Quantes persones haguéssim hagut d’emprar per obtenir un IC
tn−1,(1+q)/2 z(1+q)/2 95% amb un error de (com màxim) 0.5?
• Estimam SeX mitjançant la desviació típica mostral Se0 Empram l’exemple com a prova pilot:
d’una prova pilot (una mostra anterior)
z(1+q)/2 · se 2
2
1.96 · 2.1
Llavors n> = = 67.77 ⇒ n = 68
Mmax 0.5
!2
Se0 z(1+q)/2 · Se0
M ≈ z(1+q)/2 × √ 6 Mmax =⇒ n >
n Mmax Naturalment, quan després prenguem la mostra pot passar
qualsevol cosa, però hem fet els deures
41 / 74 42 / 74
> install . packages ( " epitools " , dep = TRUE ) Per tant
> library ( epitools )
> round ( binom . exact (2 ,10 ,0.95) ,3)
x n proportion lower upper conf . level pbX − pX
1 2 10 0.2 0.025 0.556 0.95
P −z 1+q 6q 6 z 1+q = q
2 pX (1−pX ) 2
n
Dóna [0.025, 0.556]
45 / 74 46 / 74
[0.639, 0.721]
49 / 74 50 / 74
Exemple Exemple
Amb els altres mètodes: En un assaig d’un nou tractament de quimioteràpia, en una
> round ( binom . exact (340 ,500 ,0.95) ,3) mostra de n (gran) malalts tractats, cap desenvolupà càncer
x n proportion lower upper conf . level testicular com a efecte secundari. Quin seria un interval de
1 340 500 0.68 0.637 0.721 0.95 confiança al 95% per a la proporció de malalts tractats amb
> round ( binom . wilson (340 ,500 ,0.95) ,3) aquesta quimio que desenvolupen càncer testicular?
x n proportion lower upper conf . level
1 340 500 0.68 0.638 0.719 0.95
No podem emprar la fórmula de Laplace, perquè pbX = 0. Com
Donen: que n és gran, podem emprar el mètode de Wilson:
51 / 74 52 / 74
Exemple La regla del 3
Regla del 3
2
q 2
z(q+1)/2 pbX (1−bpX ) z(q+1)/2 Quan en una m.a.s. de mida n d’una v.a. de Bernoulli de
pbX + 2n
± z(q+1)/2 n
+ 4n2
2
paràmetre pX no hi trobam cap èxit, un IC 95% per a pX va,
z(q+1)/2
1+ n
aproximadament, de 0 a 3/n
1.0
1.962 i h
Clopper−Pearson
2n 4n2
h 3.84 i Regla del 3
1.962
=⇒ 0, = 0,
1+ n + 1.962 n + 3.84
0.8
n
0.6
Extrem superior
Amb Clopper-Pearson és un dels pocs casos que es pot
resoldre analíticament: dóna
0.4
h 1 − q 1/n i
q=0.95
0, 1 − =⇒ [0, 1 − 0.0251/n ]
2
0.2
0.0
53 / 74 54 / 74
0 20 40 60 80 100
Exemple Exemple
En un assaig d’un tractament de quimioteràpia, en una mostra > prop . test (25 ,100)
de 100 pacients tractats, 25 desenvoluparen càncer testicular
secundari. Quin seria un IC 95% per a la proporció de pacients 1 - sample proportions test with continuity
tractats amb aquesta quimioteràpia que desenvolupen càncer correction
testicular? data : 25 out of 100 , null probability 0.5
Podem emprar els tres mètodes X - squared = 24.01 , df = 1 , p - value = 9.584 e -07
alternative hypothesis : true p is not equal to
> round ( binom . exact (25 ,100) ,4) 0.5
x n proportion lower upper conf . level 95 percent confidence interval :
1 25 100 0.25 0.1688 0.3466 0.95 0.1711755 0.3483841
> round ( binom . wilson (25 ,100) ,4) sample estimates :
x n proportion lower upper conf . level p
1 25 100 0.25 0.1755 0.343 0.95 0.25
> round ( binom . approx (25 ,100) ,4)
x n proportion lower upper conf . level https://en.wikipedia.org/wiki/Binomial_proportion_confidence_interval#
1 25 100 0.25 0.1651 0.3349 0.95 Wilson_score_interval_with_continuity_correction
55 / 74 56 / 74
Exemple Observacions
> prop . test (25 ,100 , correct = FALSE )
• El mètode de Wilson dóna un I.C. centrat en
1 - sample proportions test without continuity 2
z(q+1)/2 z2
correction pbX + 2n
pX + (q+1)/2
nb 2
2
z(q+1)/2
= 2
data : 25 out of 100 , null probability 0.5 1+ n + z(q+1)/2
n
X - squared = 25 , df = 1 , p - value = 5.733 e -07
alternative hypothesis : true p is not equal to • No es coneix una fórmula per al centre de l’I.C. de
0.5
Clopper-Pearson.
95 percent confidence interval :
0.1754521 0.3430446 • La fórmula de Laplace dóna un I.C. centrat en pbX
sample estimates :
p
0.25
> c ( binom . wilson (25 ,100) $ lower ,
binom . wilson (25 ,100) $ upper )
[1] 0.1754521 0.3430446
57 / 74 58 / 74
Amplada Amplada
r
pbX (1 − pbX )
L’error de l’interval de confiança de Laplace és M = z(q+1)/2
n
p
r El màxim de pbX (1 − pbX ) s’assoleix a pbX = 0.5
pbX (1 − pbX )
M = z(q+1)/2
n
0.5
No podem determinar la mida de la mostra a fi que l’interval
de confiança tingui un error màxim sense conèixer pbX , que no
0.4
coneixem sense una mostra
0.3
sqrt(x * (1 - x))
Podem usar una prova pilot, o donar un n que serveixi per tots
els pbX ∈ [0, 1]
0.2
0.1
0.0 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
59 / 74 60 / 74
Amplada Exemple
r
pbX (1 − pbX )
M = z(q+1)/2 Per garantir un error de 0.05 en calcular un IC 95% per una
n
p proporció pX , hem d’emprar una mostra de mida n tal que
El màxim de pbX (1 − pbX ) s’assoleix a pbX = 0.5 !2 !2
z(1+q)/2 1.96
n> = = 384.16 ⇒ n = 385
2Mmax 0.1
Per tant, calcularem n per obtenir un error com a màxim Mmax
suposant que estam en el cas que dóna l’interval més ample
(el cas més desfavorable): suposant pbX = 0.5: Observau que n només depèn de la precisió i del nivell de
confiança, no de la natura de l’estudi
z(q+1)/2 2
r
0.52 z(q+1)/2
Mmax > z(q+1)/2 = √ ⇒n>
n 2 n 2 · Mmax
60 / 74 61 / 74
Teorema
En aquestes condicions
(n − 1)SeX2
σ2
q = 95%, n = 727. Quin error es comet en el cas més
desfavorable? Donau el resultat al Socrative en forma q% amb té distribució χ2n−1
q arrodonit a 2 xifres decimals
62 / 74 63 / 74
Variància d’una població normal Variància d’una població normal
1−q 1−q
Considerem ara la situació següent: P(χ2n−1 6 χ2n−1, 1−q ) = 2
, P(χ2n−1 > χ2n−1, 1+q ) = 2
:
2 2
• X una v.a. normal amb µ i σ desconegudes
• X1 , . . . , Xn una m.a.s. de X i variància mostral SeX2 q=P χ2n−1, 1−q 6 χ2n−1 6 χ2n−1, 1+q
2 2
!
Teorema (n − 1)SeX2
=P χ2n−1, 1−q 6 2
6 χ2n−1, 1+q
En aquestes condicions, un IC de nivell de confiança q per a 2 σ 2
σ 2 és
!
2 2
" # (n − 1)SeX 2 (n − 1)SeX
(n − 1)SeX2 (n − 1)SeX2 =P 6 σ 6
, 2 , χ2n−1, 1+q χ2n−1, 1−q
χ2n−1, 1+q χn−1, 1−q 2 2
2 2
on χ2ν,r és el r -quantil de la distribució χ2ν I ara χ2n−1 no és simètrica, així que s’han de calcular χ2n−1, 1−q i
2
χ2n−1, 1+q
2
Exemple Exemple
" #
Un índex de qualitat d’un reactiu químic és el temps que triga (n − 1)SeX2 (n − 1)SeX2
I.C. per a σ 2 : , 2
a actuar. L’estàndard és que aquest ha de ser 6 30 segons. Se χ2n−1, 1+q χn−1, 1−q
2 2
suposa que la distribució del temps d’actuació del reactiu és
aproximadament normal. > Temps = c (12 ,13 ,13 ,14 ,14 ,14 ,15 ,15 ,16 ,17 ,
17 ,18 ,18 ,19 ,19 ,25 ,25 ,26 ,27 ,30 ,33 ,34 ,35 ,
Es realitzen 30 proves en les quals es mesura el temps
40 ,40 ,51 ,51 ,58 ,59 ,83)
d’actuació del reactiu: > length ( Temps ) # n
12, 13, 13, 14, 14, 14, 15, 15, 16, 17, 17, 18, 18, 19, 19, 25, [1] 30
> var ( Temps ) # vari à ncia mostral
25, 26, 27, 30, 33, 34, 35, 40, 40, 51, 51, 58, 59, 83 [1] 301.5506
Es demana calcular un interval de confiança per a la desviació > qchisq (0.975 ,29)
[1] 45.72229
típica amb nivell de confiança 95% > qchisq (0.025 ,29)
[1] 16.04707
66 / 74 67 / 74
Exemple «Poblacions finites»
L’interval serà Fins ara hem emprat mostres aleatòries simples
" # A la pràctica, es prenen mostres aleatòries sense reposició
(n − 1)SeX2 (n − 1)SeX2
, 2 Si la mida N de la població és molt més gran que la mida n de
χ2n−1, 1+q χn−1, 1−q
2 2 la mostra (posem N > 1000n), les fórmules donades fins ara
Obtenim funcionen (aproximadament) bé
Però. . .
29 · 301.55 29 · 301.55
, = [191.26, 544.96]
45.72 16.05
68 / 74 69 / 74
70 / 74 71 / 74
«Poblacions finites» «Poblacions finites»
Considerem la situació següent:
• X una població de mida N que segueix una distribució «Teorema»
Bernoulli amb p desconeguda En les condicions anteriors, per obtenir un interval de confiança
• X1 , . . . , Xn una m.a. sense reposició de X , amb n molt del (1 − α) · 100% per a p amb un marge d’error Mmax en el
gran i amb freqüència relativa d’èxits pbX no extrema cas més desfavorable caldrà prendre una mostra de mida
2
Nz(q+1)/2
«Teorema» n> 2 (N − 1) + z 2
4Mmax
En aquestes condicions, es recomana prendre com a IC (q+1)/2
q · 100% per a p
r r
pbX (1 − pbX ) N − n
pbX ± z(q+1)/2
n N −1
72 / 74 73 / 74
Exemple
74 / 74