You are on page 1of 29

Bioestadística:

Inferència estadística, estimació


Grau en Infermeria
Bioestadística Epidemiologia Demografia

Àrea d’Estadística i Investigació Operativa


Departament d’Informàtica, Matemàtica Aplicada i Estadística
Universitat de Girona
Paràmetres poblacionals
Sovint estem interessats en estudiar una determinada característica
d’una població.

Exemple: X = Nombre de pulsacions cardíaques en estat de repòs dels


homes adults. Ens podem preguntar:
• Quina distribució de probabilitat segueix aquesta variable X?
normal?
• Quant val la seva esperança µ=E {X}? i la seva desviació
estàndard σ=desv{X}?
Els valors de µ i σ s’anomenen paràmetres de la població en
relació a la variable d’interès X.

Exemple: Una determinada infecció està afectant als ciutadans d’una


comarca catalana. Ens podem preguntar:
• Quina és la proporció p de persones afectades?
El valor de p és un paràmetre de la població en relació a
l’objecte d’estudi.
Paràmetres poblacionals

Habitualment la gran magnitud de la població impedeix conèixer els


valors reals d’aquests paràmetres -µ,σ,p,...- poblacionals → hem de
recórrer al mostreig.

La teoria del mostreig s’ocupa d’escollir una mostra representativa


de la població. L'Estadística va en contra de l'evidència anecdòtica
que sovint està basada en pocs casos no representatius de la població

MOLT IMPORTANT: Si la mostra no ha estat correctament escollida i


no és representativa de la població, totes les conclusions
[inferències] en relació a la població poden ser totalment
errònies.

L'obtenció de les dades necessàries per realitzar una estudi es pot fer
per observació o per experimentació.
Obtenció de les dades

Estudis observacionals: consisteixen en observar el procés o


fenomen d'interès i prendre nota dels valors de les variables que
interessa analitzar. No es controla cap de les altres variables que
poden influir en el procés.

• Estudi transversal
• Estudi de cohorts
• Estudi de casos i controls

Estudis experimentals: requereixen d’una planificació prèvia molt


precisa (disseny de l’experiment). És l’investigador qui fixa i controla
els valors que poden adquirir les variables que suposadament
influeixen en la variable resposta.
Inferència Estadística

En general, la inferència estadística s’ocupa de treure conclusions


sobre els paràmetres d’una determinada característica X d’una
població a partir de la informació continguda només en una mostra
“representativa” de la població.

Preguntes habituals
– Quina ha de ser la mida n de la mostra?
– Quina informació s’ha de recollir sobre la mostra que
proporcioni informació sobre els paràmetres poblacionals que
interessen?
– De quina manera podem traslladar al conjunt de la població la
informació recollida sobre una mostra representativa?
Inferència Estadística

Mostra
estadístics
(� �)
𝒙𝒙, 𝑺𝑺, 𝒑𝒑
Població Paràmetres (μ, σ, p)

Per tenir informació sobre determinats paràmetres de la característica


poblacional X que hom vol estudiar caldrà calcular determinats valors
sobre la mostra representativa de que es disposa.

Aquests valors calculats sobre la mostra s’anomenen estadístics mostrals


o, senzillament, estadístics.
Estimadors

Cada paràmetre poblacional té associat un determinat estadístic


que proporciona “bona informació” sobre el paràmetre. Aquest
estadístic s’anomena estimador del paràmetre.

Paràmetre Estimador (estadístic)


μ (esperança) 𝑥𝑥̅ (mitjana mostral)
σ (desviació) S (desviació mostral)
p (proporció) 𝑝𝑝̂ (proporció mostral)

ALERTA: El valor que adquireix un estimador sobre una determinada


mostra no té perquè coincidir amb el valor real del paràmetre, és una
aproximació, s’anomena estimació puntual.

ALERTA: Si prenem diverses mostres, de cada una obtenim una estimació


puntual diferent. El valor de l’estimador varia de mostra en mostra. És
el que s'anomena variabilitat mostral.
Variabilitat mostral
Exemple:

Suposem que una infecció està afectant un 20% de les persones d’una
gran població. És a dir, la proporció p de persones afectades és igual a
0.20. Per tant, en aquest cas el paràmetre poblacional és p=0.20.

Imaginem que traiem a l’atzar una mostra de n=10 persones


d’aquesta població. Quina proporció de persones afectades poden
haver-hi en la mostra?
Mostra 1: 𝑝𝑝̂ = 2/10 = 0.2

Mostra 2: �𝑝𝑝 = 1/10 = 0.1

Mostra 3: 𝑝𝑝̂ = 3/10 = 0.3

I si ho repetim 3000 vegades, quins valors de 𝑝𝑝̂ obtindrem?


Distribució mostral d’un estimador

Si a partir del coneixement del valor de l’estimador aspirem a fer


previsions sobre el valor desconegut del paràmetre estem obligats a
estudiar de quina forma varia el valor de l’estimador quan la mostra
canvia.

S’anomena distribució mostral d’un estimador a la llei de


probabilitat que segueixen els valors de l’estimador sobre les infinites
mostres de la mateixa mida (n) que es poden extreure de la població.

Paràmetre Estimador (estadístic) Distribució


μ (esperança) 𝑥𝑥̅ (mitjana mostral) Normal
σ (desviació) S (desviació mostral) No normal
p (proporció) 𝑝𝑝̂ (proporció mostral) Normal
Distribució mostral d’un estimador
Suposem que volem estimar el paràmetre μ a partir de la mitjana mostral
d’una mostra de mida n. La mitjana mostral té una distribució normal
centrada en el veritable valor del paràmetre i amb una certa variabilitat.


𝒙𝒙 �
𝒙𝒙 �
𝒙𝒙 � 𝒙𝒙
𝒙𝒙 �
� 𝒙𝒙 �
𝒙𝒙
µ

Estimadors mostrals

Podem tenir-ne infinits de diferents!!!!


Distribució mostral d’un estimador

95%
µ
ε

� estan a una distància ε del


El 95% dels estimadors mostrals 𝒙𝒙
paràmetre de la població (recordeu que el valor de ε és de 1.96
desviacions estàndard).

Podem fer un raonament semblant amb el 90% o 99%, a aquesta


probabilitat li direm 1-α
Interval de confiança
El 95% dels estimadors mostrals estan a
una distància ε del paràmetre de la
població


𝒙𝒙

ε ε 95%
Com que el paràmetre usualment és desconegut, intercanviem els
papers de l’estimador i el paràmetre


𝒙𝒙

ε ε

Per a un estimador mostral obtingut, la probabilitat que el paràmetre


de la població estigui dins una distància determinada és el 95%
Interval de confiança
Objectiu

Construir un interval (𝑥𝑥̅ -ε, 𝑥𝑥̅ +ε) al voltant del valor de l’estimador 𝒙𝒙

de manera que puguem “assegurar” que “el vertader valor del
paràmetre µ està dins d’aquest interval (𝑥𝑥̅ -ε, 𝑥𝑥̅ +ε) amb una
probabilitat 1-α”.

És a dir, de manera que si afirmem que “el vertader valor de µ està


dins d’aquest interval (𝑥𝑥̅ -ε, 𝑥𝑥̅ +ε)” només correm un risc α
d’equivocar-nos.

Aquest interval s’anomena interval de confiança de nivell 1-α de


l’esperança µ. El valor de ε s’anomena precisió de l’interval.
Hi ha 50 intervals de
confiança de nivell 95%:
observi’s que n’hi ha 2 que no
contenen el valor real de la µ.
Interval de confiança

En general, un interval al (1-α)100% de confiança per a un paràmetre


és un interval obtingut a partir d’un estadístic calculat utilitzant una
sola mostra. Aquest interval té una probabilitat 1-α de contenir el
veritable valor del paràmetre.

Habitualment els intervals seran:

estimador ± ε

on en el valor de la precisió ε hi intervindrà la confiança i la


distribució de l’estimador.

Habitualment els intervals es calculen al


90% de confiança 1-α =0.90 risc d’error α=0.1 (10%)
95% de confiança 1-α =0.95 risc d’error α=0.05 (5%)
99% de confiança 1-α =0.99 risc d’error α=0.01 (1%)
Interval de confiança per una µ
Sigui X una variable aleatòria amb esperança μ desconeguda. Suposem
que la desviació σ de la variable X és coneguda.
A partir d’una mostra de mida n: x1, ...,xn podem calcular el millor
estimador puntual: la mitjana mostral 𝒙𝒙
�.
𝜎𝜎
Es pot demostrar que 𝑋𝑋�𝑛𝑛 ~ 𝑁𝑁 𝜇𝜇, ,
http://onlinestatbook.com/stat_sim/sampling_dist/index.html
𝑛𝑛
per tant, una estimació per interval de confiança per μ serà
𝜎𝜎 𝜎𝜎
𝑥𝑥̅ − 𝑧𝑧𝛼𝛼/2 , 𝑥𝑥̅ + 𝑧𝑧𝛼𝛼/2 ε
𝑛𝑛 𝑛𝑛

Nivell de confiança α/2 𝒛𝒛𝜶𝜶/𝟐𝟐 interval


90% 0.05 1.645 𝑥𝑥̅ − 1.645
𝜎𝜎
, 𝑥𝑥̅ + 1.645
𝜎𝜎
𝑛𝑛 𝑛𝑛
95% 0.025 1.96 𝑥𝑥̅ − 1.96
𝜎𝜎
, 𝑥𝑥̅ + 1.96
𝜎𝜎
𝑛𝑛 𝑛𝑛
99% 0.005 2.576 𝑥𝑥̅ − 2.576
𝜎𝜎
, 𝑥𝑥̅ + 2.576
𝜎𝜎
𝑛𝑛 𝑛𝑛

El valor σ/ 𝑛𝑛 s’anomena error estàndard de la mitjana mostral


Interval de confiança per una µ
𝜎𝜎
La precisió de l’interval és 𝜀𝜀 = 𝑧𝑧𝛼𝛼/2 així
𝑛𝑛

• Com més gran n més precís és l’interval


• Com més gran σ menys precís és l’interval
• A més confiança, més gran zα/2 i menys precís és l’interval

Suposem un IC al 95% de confiança, σ=2 i amb


• n=10 aleshores 𝜀𝜀 = 1.96 ∗ 2/ 10 = 1.240
• n=25 aleshores 𝜀𝜀 = 1.96 ∗ 2/ 25 = 0.784
• n=50 aleshores 𝜀𝜀 = 1.96 ∗ 2/ 50 = 0.554

Suposem un IC al 95% de confiança, fixem n=25 i amb


• σ =0.5 aleshores 𝜀𝜀 = 1.96 ∗ 0.5/ 25 = 0.196
• σ =1 aleshores 𝜀𝜀 = 1.96 ∗ 1/ 25 = 0.392
• σ =2 aleshores 𝜀𝜀 = 1.96 ∗ 2/ 25 = 0.784

Suposem σ=2, n=25 i amb


• 90% i.e. zα/2=1.645 aleshores 𝜀𝜀 = 1.645 ∗ 2/ 25 = 0.658
• 95% i.e. zα/2=1.96 aleshores 𝜀𝜀 = 1.96 ∗ 2/ 25 = 0.784
• 99% i.e. zα/2=2.576 aleshores 𝜀𝜀 = 2.576 ∗ 2/ 25 = 1.030
Exemple d’interval de confiança per una µ
D’una v.a. X ens diuen que σ=2 però que µ és desconeguda. Ens demanen que
calculem una estimació al 95% confiança del valor de µ a partir de la mostra
aleatòria de n= 25 valors de la variable X

100.9 100.0 98.1 97.8 96.4 99.4 102.8 103.3 100.2 98.7
101.9 102.7 102.1 99.5 99.5 101.0 102.4 98.8 98.4 99.2
99.6 102.7 99.6 99.2 102.2

La mitjana d’aquesta mostra és igual a = 100.256.


L’interval calculat a partir de la mitjana d’aquesta mostra és igual a:

2 2
100.256 − 1.96 , 100.256 + 1.96 =(99.472, 101.040)
25 25

Podem dir, amb una confiança del 95%, que el valor desconegut de µ està
comprés entre 99.472 i 101.040.

Mai podrem estar segurs que el vertader valor de µ estigui dins d’aquest
interval ja que quan afirmem que “µ està comprés entre 99.472 i 101.040” ho
estem dient amb un nivell de confiança del 95% i per tant estem corrent un
risc d’equivocar-nos del 5%.
Correcció poblacions finites
Quan la mida de la població (N) és finita o petita en comparació amb la mida de
la mostra (n), és necessari fer alguns ajustaments en la forma de calcular l’error
estàndard de la mitjana mostral.

𝑛𝑛 𝑁𝑁−𝑛𝑛
• Quan ≥ 0.05 s’utilitza el factor de correcció
𝑁𝑁 𝑁𝑁−1

i l’interval de confiança per la mitjana és

𝜎𝜎 𝑁𝑁 − 𝑛𝑛 𝜎𝜎 𝑁𝑁 − 𝑛𝑛
𝑥𝑥̅ − 𝑧𝑧𝛼𝛼/2 , 𝑥𝑥̅ + 𝑧𝑧𝛼𝛼/2
𝑛𝑛 𝑁𝑁 − 1 𝑛𝑛 𝑁𝑁 − 1

𝑛𝑛
• Quan n<5% de la població o bé < 0.05, ignorem la correcció
𝑁𝑁
Interval de confiança per una µ, amb σ desconeguda
Dificultats pràctiques: sovint tampoc es coneix el valor del
paràmetre σ. En aquest casos, cal estimar el seu valor a partir de la
pròpia mostra calculant la desviació estàndard mostral S

Però no n’hi ha prou en substituir el valor de σ de l’interval pel valor


S, si es vol mantenir el mateix nivell de confiança cal fer l’interval
de confiança més ample. Això es fa substituint el valor de zα/2 per un
de més gran.

Així, l’interval de confiança per μ quan no es coneix σ és


𝑆𝑆 𝑆𝑆
𝑥𝑥̅ − 𝑡𝑡𝑛𝑛−1,𝛼𝛼/2 , 𝑥𝑥̅ + 𝑡𝑡𝑛𝑛−1,𝛼𝛼/2
𝑛𝑛 𝑛𝑛

El nou valor tn-1,α/2 cal calcular-lo a partir de la llei t-Student i


depèn del nivell de confiança i de la mida n de la mostra.

En cas de poblacions finites podem aplicar el mateix factor de


correcció (𝑁𝑁 − 𝑛𝑛)/(𝑁𝑁 − 1) vist abans.
Taules llei t-Student
υ a = 0.10 a = 0.05 a = 0.025 a = 0.01 a=0.005
1 3.078 6.314 12.706 31.821 63.657
2 1.886 2.920 4.303 6.965 9.925
3 1.638 2.353 3.182 4.541 5.841
4 1.533 2.132 2.776 3.747 4.604
5 1.476 2.015 2.571 3.365 4.032
6 1.440 1.943 2.447 3.143 3.707
7 1.415 1.895 2.365 2.998 3.499
8 1.397 1.860 2.306 2.896 3.355
9 1.383 1.833 2.262 2.821 3.250
10 1.372 1.812 2.228 2.764 3.169
11 1.363 1.796 2.201 2.718 3.106
12 1.356 1.782 2.179 2.681 3.055
... ... ... ... ... ...
23 1.319 1.714 2.069 2.500 2.807
24 1.318 1.711 2.064 2.492 2.797
25 1.316 1.708 2.060 2.485 2.787
... ... ... ... ... ...
120 1.289 1.658 1.980 2.358 2.617
∞ 1.282 1.645 1.960 2.326 2.576
Exemple d’interval de confiança per una µ
D’una v.a. X ens diuen que µ és desconeguda. No ens donen cap informació sobre la
σ. Ens demanen que calculem una estimació al 95% confiança del valor de µ a partir
de la mostra aleatòria de n= 25 valors de la variable X

100.9 100.0 98.1 97.8 96.4 99.4 102.8 103.3 100.2 98.7
101.9 102.7 102.1 99.5 99.5 101.0 102.4 98.8 98.4 99.2
99.6 102.7 99.6 99.2 102.2

̅ 100.256 i S=1.845 també sabem que n-1=24 i α/2 = 0.025 per tant 𝑡𝑡𝑛𝑛−1,𝛼𝛼/2 =2.064
𝑥𝑥=
L’interval calculat a partir de la mitjana d’aquesta mostra és igual a:

1.845 1.845
100.256 − 2.064 , 100.256 + 2.064 =(99.494, 101.018)
25 25

Podem dir, amb una confiança del 95%, que el valor desconegut de µ està
comprés entre 99.494 i 101.018.

Mai podrem estar segurs que el vertader valor de µ estigui dins d’aquest
interval ja que quan afirmem que “µ està comprés entre 99.494 i 101.018” ho
estem dient amb un nivell de confiança del 95% i per tant estem corrent un risc
d’equivocar-nos del 5%.
Exemple d’interval de confiança per una µ
Interval de confiança per una p
Es desconeix el valor p de la proporció d’unitats d’una població que
presenten una determinada característica d’interès.

A partir d’una mostra aleatòria de n unitats podem calcular el millor


estimador puntual: la proporció mostral 𝒑𝒑
� = 𝒎𝒎/𝒏𝒏.

Es pot demostrar que 𝑝𝑝̂ entesa com a v.a. es pot aproximar bastant bé
𝑝𝑝(1−𝑝𝑝)
(quan 𝑛𝑛𝑛𝑛 ≥ 10 i 𝑛𝑛(1 − 𝑝𝑝) ≥ 10) per una 𝑁𝑁 𝑝𝑝, , per tant, una
𝑛𝑛
estimació per interval de confiança per μ serà

𝑝𝑝(1 − 𝑝𝑝) 𝑝𝑝(1 − 𝑝𝑝)


𝑝𝑝̂ − 𝑧𝑧𝛼𝛼/2 , 𝑝𝑝̂ + 𝑧𝑧𝛼𝛼/2
𝑛𝑛 𝑛𝑛

a la pràctica, és impossible de calcular ja que en la seva expressió


hi apareix el valor de la proporció p que és desconeguda
Interval de confiança per una p, aproximacions
• Aproximació “grollera”: només si n és molt gran
𝑝𝑝(1
̂ − 𝑝𝑝)̂ 𝑝𝑝(1
̂ − 𝑝𝑝)̂
𝑝𝑝̂ − 𝑧𝑧𝛼𝛼/2 , 𝑝𝑝̂ + 𝑧𝑧𝛼𝛼/2
𝑛𝑛 𝑛𝑛

• Màxima indeterminació: prenem p=0.5 per tant p(1-p)=0.25=1/4


1 1
𝑝𝑝̂ − 𝑧𝑧𝛼𝛼/2 , 𝑝𝑝̂ + 𝑧𝑧𝛼𝛼/2
4𝑛𝑛 4𝑛𝑛

• Informació històrica: sovint se sap que p ≤ ph. Això permet


assegurar que p.(1-p) ≤ ph.(1-ph).

𝑝𝑝ℎ (1 − 𝑝𝑝ℎ ) 𝑝𝑝ℎ (1 − 𝑝𝑝ℎ )


𝑝𝑝̂ − 𝑧𝑧𝛼𝛼/2 , 𝑝𝑝̂ + 𝑧𝑧𝛼𝛼/2
𝑛𝑛 𝑛𝑛

• Existeixen altres solucions anomenades exactes


Exemple d’interval de confiança per una p

Es vol estimar al 95% de confiança la prevalença p de càries en una gran


població de nens d’edats compreses entre 10 i 12 anys. Es tria una
mostra aleatòria simple de n=1000 nens d’aquesta població.

Suposarem que la mostra ha estat triada “correctament” (sense biaixos


de selecció i per tant és una mostra representativa).

Dels 1000 nens/nenes n’hi ha 80 que tenen càries. Per tant, la


proporció mostral és igual a 𝒑𝒑
�=80/1000 = 0.08 [≡8%].

Donat que ens demanen de fer l’estimació de p a un nivell de confiança


de 0.95=(1-0.05), sabem que el valor z 0.05/2=1.960.
Exemple d’interval de confiança per una p

Aproximació “grollera”:
𝟎𝟎.𝟎𝟎𝟎𝟎 𝟏𝟏−𝟎𝟎.𝟎𝟎𝟎𝟎 𝟎𝟎.𝟎𝟎𝟎𝟎 (𝟏𝟏−𝟎𝟎.𝟎𝟎𝟎𝟎)
(𝟎𝟎. 𝟎𝟎𝟎𝟎 − 𝟏𝟏. 𝟗𝟗𝟗𝟗 , 𝟎𝟎. 𝟎𝟎𝟎𝟎 + 𝟏𝟏. 𝟗𝟗𝟗𝟗 ) = (0.063,0.097)
𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏 𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏

Principi de màxima indeterminació


𝟏𝟏 𝟏𝟏
(𝟎𝟎. 𝟎𝟎𝟎𝟎 − 𝟏𝟏. 𝟗𝟗𝟗𝟗 , 𝟎𝟎. 𝟎𝟎𝟎𝟎 + 𝟏𝟏. 𝟗𝟗𝟗𝟗 ) = (0.049,0.111)
𝟒𝟒𝟒𝟒𝟒𝟒𝟒𝟒 𝟒𝟒𝟒𝟒𝟒𝟒𝟒𝟒

Informació “històrica”: Se sap a partir d’estudis similars i anteriors


que la prevalència de càries en aquesta població mai ha superat el
15%. Hi ha motius per suposar que ara tampoc es superarà aquest
valor → p ≤ 0.15. Aleshores, un interval de p més ajustat és
𝟎𝟎.𝟏𝟏𝟏𝟏 𝟏𝟏−𝟎𝟎.𝟏𝟏𝟏𝟏 𝟎𝟎.𝟏𝟏𝟏𝟏 (𝟏𝟏−𝟎𝟎.𝟏𝟏𝟏𝟏)
(𝟎𝟎. 𝟎𝟎𝟎𝟎 − 𝟏𝟏. 𝟗𝟗𝟗𝟗 , 𝟎𝟎. 𝟎𝟎𝟎𝟎 + 𝟏𝟏. 𝟗𝟗𝟗𝟗 )= (0.058,0.102)
𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏 𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏
Interval de confiança per una p

𝑝𝑝(1−𝑝𝑝)
La precisió de l’interval és 𝜀𝜀 = 𝑧𝑧𝛼𝛼/2 així
𝑛𝑛

• Com més gran n més precís és l’interval


• Com més proper p a 0.5 menys precís és l’interval
• A més confiança, més gran zα/2 i menys precís és l’interval

Suposem un IC al 95% de confiança per tant zα/2=1.96 i suposem n=50


• p=0.1 aleshores p(1-p)=0.1*0.9=0.09 i 𝜀𝜀 = 1.96 ∗ 0.09/50 = 0.083
• p=0.2 aleshores p(1-p)=0.2*0.8=0.16 i 𝜀𝜀 = 1.96 ∗ 0.16/50 = 0.111
• p=0.5 aleshores p(1-p)=0.5*0.5=0.25 i 𝜀𝜀 = 1.96 ∗ 0.25/50 = 0.127
• P=0.8 aleshores p(1-p)=0.8*0.2=0.16 i 𝜀𝜀 = 1.96 ∗ 0.16/50 = 0.111
• P=0.9 aleshores p(1-p)=0.9*0.1=0.09 i 𝜀𝜀 = 1.96 ∗ 0.09/50 = 0.083
Correcció poblacions finites
Quan la mida de la població (N) és finita o petita en comparació amb la mida de
la mostra (n), és necessari fer alguns ajustaments en la forma de calcular l’error
estàndard de la proporció mostral.

𝑛𝑛 𝑁𝑁−𝑛𝑛
• Quan ≥ 0.05 s’utilitza el factor de correcció
𝑁𝑁 𝑁𝑁−1

𝑝𝑝(1 − 𝑝𝑝)(𝑁𝑁 − 𝑛𝑛) 𝑝𝑝(1 − 𝑝𝑝)(𝑁𝑁 − 𝑛𝑛)


𝑝𝑝̂ − 𝑧𝑧𝛼𝛼/2 , 𝑝𝑝̂ + 𝑧𝑧𝛼𝛼/2
𝑛𝑛(𝑁𝑁 − 1) 𝑛𝑛(𝑁𝑁 − 1)

𝑛𝑛
• Quan n<5% de la població o bé < 0.05, ignorem la correcció
𝑁𝑁

You might also like