You are on page 1of 37

Tema 5

Inferència sobre una mitjana poblacional

Departament d’Estadística i Investigació Operativa


Universitat de València
Tema 5: Inferència sobre una mitjana
poblacional

5.1 Estimació puntual de la mitjana i variància poblacionals

5.2 Contrastos d'hipòtesis sobre la mitjana poblacional

5.3 Estimació per intervals de la mitjana poblacional

5.4 Contrastos direccionals

5.5 Condicions de validesa

5.6 Contrastos no paramètrics

Estadística. Departament d’ Estadística i Investigació Operativa. 2


5.1 Estimació puntual de la mitjana i
variància poblacionals

 Població amb mitjana µ i desviació típica σ


 X és una variable numèrica
 Objectiu: Estimar el valor de µ i/o el valor de σ
 Si podem observar una mostra de grandària n
Població Mostra de grandària n

Mostreig aleatori x s
µ
x estarà “prop" de µ
σ s estarà “prop" de σ

 𝑥𝑥̅ i s són els estimadors puntuals de µ i de σ

Estadística. Departament d’ Estadística i Investigació Operativa. 3


Estimació puntual de µ i de σ
 𝑥𝑥� és un estimador de la mitjana de la població (µ)
 Un bon estimador de la desviació típica poblacional (σ) és s, la
desviació típica mostral (això no vol dir que siguen iguals)
 La mitjana mostral és el millor estimador de la mitjana
poblacional. Per a una mostra en particular, la mitjana mostral
( 𝑥𝑥̅ ) es una estimació puntual de µ
 𝑥𝑥̅ NO serà exactament igual a µ
 Si poguérem observar altres mostres, obtindríem altres valors
de 𝑥𝑥̅ , tots al voltant de µ
𝑋𝑋� és una variable aleatòria
σ2
X ~ N (µ ,σ 2 ) ⇒ X ~ N (µ , ) 𝑛𝑛
𝑋𝑋𝑖𝑖
n 𝑋𝑋� = �
𝑛𝑛
𝑖𝑖=1

Estadística. Departament d’ Estadística i Investigació Operativa. 4


Distribució en el mostreig de X
 σ 
X ~ N( µ, σ) X ≈ N  µ, 
Mostres de grandària n  n
.. .
.. .. ..
... .. .. . x1 , s1

. . ... .... . ... . ...


. . .. .
. . .. . .. . .
. ... .. ... . .
. . .. ... .. .. . ... x2 , s2
. . .. . . ..
. . .. ... .
. .. ...
. .. . .
POBLACIÓ: X
.
. Població: X

Estadística. Departament d’ Estadística i Investigació Operativa.


Influència de la grandària mostral
X ~ N( µ, σ) 𝑋𝑋� ~ N( µ, σ/√n)

X
n �
Pr(450≤𝑋𝑋≤550)
4 0.59

9 0.79

16 0.91
64 0.999 X

Estadística. Departament d’ Estadística i Investigació Operativa.


Error estàndard de l'estimació de la mitjana
σ2
X ~ N (µ ,σ 2 ) ⇒ X ~ N (µ , )
n
La possible diferència entre la mitjana mostral i la mitjana
poblacional ve mesurada (en termes de probabilitat) per la seua
desviació típica: σ
σX =
n
 Com σ és un paràmetre desconegut caldrà estimar-lo
mitjançant el corresponent estadístic en la mostra: la desviació
típica mostral s.

Li direm error estàndard de la m itjana a:


s
SE X =
n
Estadística. Departament d’ Estadística i Investigació Operativa. 7
Un exemple d’estimació puntual

 Exemple. En l’exemple del contingut mitjà de grasses en grams


per cada 100 gr de carn de porc, les dades observades eren les
següents (consultar full de càlcul Grasses en unitat2.xls):
24.1, 24.7, 25.3, 25.8, 26.3, 23.4, 25.2, 25.9, 24.7, 23.8, 24.4, 25.6
o Què podem dir sobre la mitjana de la població?
o I sobre la desviació típica de la població?

 Tenim un problema d’estimació. Quant valen els paràmetres de


la població?.

 Els estimadors puntuals són 𝑥𝑥 i s. Calculats per aquestes dades:

 Les estimacions puntuals són: 24.93 gr per a µ i 0.9 gr per a σ.


𝑠𝑠 0.9
 L’error estàndard de 𝑥𝑥 és: 𝑆𝑆𝑆𝑆𝑥𝑥̅ = = = 0.26
𝑛𝑛 12

Estadística. Departament d’ Estadística i Investigació Operativa. 8


Selecció de la grandària mostral
 En la planificació d’un experiment podem estar interessats en que la estimació
obtinguda a partir de les dades siga d’una precisió determinada
 Aquesta precisió ve determinada per la variància σ2 i per la grandària de la mostra
 No podem controlar la variància σ2 però si podem controlar n.
 Si desitgem augmentar aquesta precisió hem de calcular la grandària de la mostra
per obtindre un error estàndard adequat a les necessitats de l’experiment
 Podem especificar l’error estàndard destijat, i si tenim alguna estimació previa de
la desviació típica σ podem calcular la grandària n adequada

 Si en un experiment tenim:
𝑛𝑛 = 13 𝑥𝑥̅ = 7.22 𝑐𝑐𝑐𝑐 𝑠𝑠 = 1.22 𝑐𝑐𝑐𝑐 𝑆𝑆𝑆𝑆 = 0.34 𝑐𝑐𝑐𝑐
i volem reduir l’error estàndard de forma que siga menor o igual a 0.25 cm:
s 1.22 1.22
0.25 ≈ = =n = 4.88 n ≥ 24
n n 0.25
Estadística. Departament d’ Estadística i Investigació Operativa. 9
5.2 Contrastos d’hipòtesis sobre la
mitjana poblacional
Exemple (continuació). Es desitja estudiar el contingut mitjà de
grasses en grams per cada 100 gr de carn de porc.
Podríem dir que el contingut mitjà de grasses en la carn de porc és
de 24.2 gr per cada 100 gr de carn?

 Per a respondre a eixa pregunta plantegem un contrast:


 Si µ és la mitjana de la població les dues hipòtesis són:
 Hipòtesis Nul·la H0: µ = 24.2
 Hipòtesis Alternativa HA: µ ≠ 24.2
 Fixarem un nivell de significativitat α, habitualment α = 0.05

 Amb els resultats corresponents al contingut de grasses en la carn de 12


animals elegits a l’atzar, tenim que la mitjana mostral és de 24.93 gr.
(estimació puntual que està subjecta a error). En aquest cas l’error
estàndard de la mitjana és de 0.26 gr.
 Però les estimacions estan subjectes a error.

Estadística. Departament d’ Estadística i Investigació Operativa. 10


Contrast t-Student per a una mitjana

 Siga µ la mitjana d’una població i es vol contrastar:


 Hipòtesis Nul·la H0: µ = µ0
 Hipòtesis Alternativa HA: µ ≠ µ0

𝑥𝑥̅ − 𝜇𝜇0 𝑥𝑥̅ − 𝜇𝜇0


 L'estadístic de contrast és: 𝑡𝑡𝑠𝑠 = 𝑛𝑛 =
𝑠𝑠 𝑆𝑆𝑆𝑆𝑥𝑥�
 Si H0 és certa, ts~Tn-1

 El p-valor associat a eixe


estadístic s'obté utilitzant la
distribució t-Student amb n -1
graus de llibertat

 Es rebutja H0 si p-valor < α

Estadística. Departament d’ Estadística i Investigació Operativa. 11


La distribució t de Student

La t de Student amb infinits graus de llibertat és la Normal Estàndard


(Normal de mitjana 0 i desviació típica 1)

Estadística. Departament d’ Estadística i Investigació Operativa. 12


Aplicació del test t-Student
Exemple (continuació). H0: µ = 24.2
HA: µ ≠ 24.2
 Dades de grasses en carn de porcí, els estadístics mostrals són:
 n = 12, 𝑥𝑥 = 24.93, s = 0.90, SE=0,26
 Per a µ0 = 24.2 i α = 0.05, hem de resoldre el contrast
𝑥𝑥 − 𝜇𝜇0 24.93 −24.2
 Aleshores: 𝑡𝑡𝑠𝑠 = 𝑛𝑛 𝑠𝑠
= 12 0.9
= 2.82

t Student amb 11 gl
 p-valor = 2 × 0.0083 = 0.0167
àrea = 0.0083
àrea = 0.0083  Rebutgem la hipòtesis nul·la ja
que el p-valor < α

- ts=-2.82 ts=2.82

 Conclusió: No ens creiem que el contingut mitjà en grasses


siga de 24.2 gr de grassa per cada 100 gr de carn
Estadística. Departament d’ Estadística i Investigació Operativa. 13
Càlcul del p-valor

p-valor = 2 × 0.0083 = 0.0167

Estadística. Departament d’ Estadística i Investigació Operativa. 14


Contrast t-Student en R

Estadística. Departament d’ Estadística i Investigació Operativa. 15


Justificació del test t-Student
 Si les dades provenen d’una distribució Normal de mitjana µ0 i
desviació típica σ, aleshores 𝑥𝑥 és Normal amb mitjana µ0 i
desviació típica σ / 𝑛𝑛. Així:
𝑥𝑥̅ − 𝜇𝜇0
 𝑧𝑧 = 𝑛𝑛 𝜎𝜎

segueix una distribució Normal amb mitjana 0 i desviació típica 1

 Si utilitzem s en lloc de σ,
𝑥𝑥̅ − 𝜇𝜇0
 𝑡𝑡𝑠𝑠 = 𝑛𝑛 𝑠𝑠

ja no és una normal estàndard. És t de Student amb n-1 gl

 El test t-Student es justifica si 𝑥𝑥 és ‘aproximadament’ Normal

Estadística. Departament d’ Estadística i Investigació Operativa. 16


5.3 Estimació per intervals de la mitjana poblacional
 L'interval de confiança al 100γ % és el conjunt de valors en la
hipòtesis nul·la que no rebutjaríem a nivell de significació α =
1–γ
 Els valors de µ0 que no rebutja el test t-Student per α =0.05
són:
𝑥𝑥̅ − 𝜇𝜇0
 -t0,975 < 𝑛𝑛 < t0,975 , (t0,975 és quantil 0.975 de t-Student amb n -1 gl)
𝑠𝑠

Ζ
 Aïllant µ0 s'obté:

 IC95%(µ) = 𝑥𝑥 ± t0,975 𝑆𝑆𝑆𝑆𝑥𝑥̅ =


0.95
0.025 𝑠𝑠 𝑠𝑠
0.025 = (𝑥𝑥 - t0,975 , 𝑥𝑥 + t0,975 )
𝑛𝑛 𝑛𝑛
0 t0.975

 Per a altres nivells de confiança només cal canviar el quantil

Estadística. Departament d’ Estadística i Investigació Operativa. 17


Càlcul de percentils de la t-Student amb R
 Per calcular el IC95%(µ) per a les dades de contingut de grassa
necessitem el quantil 0.975 d’una t de Student amb gl=11

 En aquest cas: IC95%(µ) = 𝑥𝑥 ± t0,975 𝑆𝑆𝑆𝑆𝑥𝑥̅ = 24.93 ± 2.2 × 0.26 = (24.36, 25.51)

Estadística. Departament d’ Estadística i Investigació Operativa. 18


Intervals de confiança amb R
 Els intervals de confiança sobre una mitjana es calculen, en R, al
resoldre un contrast d’hipòtesis

 En la finestra del contrast podem especificar el nivell de confiança que


volem

Estadística. Departament d’ Estadística i Investigació Operativa. 19


Un altre exemple
 Exemple. Estem interessats en determinar quina és l’estatura
mitjana dels individus d’una població. Hem observat la següent
mostra:
159, 177, 175, 174, 170, 164, 181, 168, 170, 180, 169, 168, 175,
163, 170, 177, 160, 168, 165, 168, 162, 178, 179, 161 y 170
Volem calcular els intervals de confiança al 95 i al 90%

𝑠𝑠 6.53
 L’error estàndard de 𝑥𝑥 és: 𝑆𝑆𝑆𝑆𝑥𝑥̅ = 𝑛𝑛
= 25
= 1.31

 IC95%(µ) = 𝑥𝑥 ± t0,975 𝑆𝑆𝑆𝑆𝑥𝑥̅ = 170.04 ± 2.064 × 1.31 = (167.35, 172.73)

 IC90%(µ) = 𝑥𝑥 ± t0,95 𝑆𝑆𝑆𝑆𝑥𝑥̅ = 170.04 ± 1.711 × 1.31 = (167.81, 172.27)

Estadística. Departament d’ Estadística i Investigació Operativa. 20


Interpretació de l’interval de confiança

 Considerant un interval de confiança al 90%, si realitzem un mostreig


repetit de la població amb mostres de la mateixa grandària i per a cada
mostra construïm el corresponent interval de confiança, aleshores el 90%
d’aquests intervals contendrà a la mitjana de la població.
 En un experiment concret, només obtindrem una mostra i “confiem” en
que siga una d’eixe 90%, però no sabrem amb certesa si és així o no.

EXEMPLE: GRUIX DE LA CORFA DELS OUS


En la producció comercial d’ous el trencament és un dels problemes més
importants. El gruix de la corfa és una variable d’interès.
En un estudi s’observaren el gruix de la corfa dels ous produïts per una gran
quantitat de gallines White Leghorn, apreciant-se una distribució Normal
amb mitjana µ=0.38 mm i desviació típica σ=0.03 mm.

Estadística. Departament d’ Estadística i Investigació Operativa. 21


Interpretació de l’interval de confiança
n=75

.
.
.
.
.
.
.
.

.
.
.
.
a
Estadística. Departament d’ Estadística i Investigació Operativa. 22
Tipus d’error al aplicar una regla de decisió

 Al utilitzar una regla de decisió no sabem quina hipòtesis és la


correcta, per la qual cosa al aplicar-la pot ocórrer qualsevol
d’aquestes quatre conseqüències:
Estat real
H0 certa H0 falsa
Decisió
Error tipus I
Rebutjar H0 Decisió correcta
(probabilitat ≤ α )

Error tipus II
No Rebutjar H0 Decisió correcta
(probabilitat = β )

 La regla de decisió que hem emprat ens permet fixar l’error de


Tipus I: la probabilitat, α, serà tan menuda com vulguem.
 El ideal és que α i β, les dues probabilitats d’error, siguen
menudes. Però al disminuir α la probabilitat de cometre l’altre
error augmenta.

Estadística. Departament d’ Estadística i Investigació Operativa. 23


Errors d’un test
 Encara que nosaltres només tingam en compte la probabilitat de cometre
l’error de tipus I, els dos tipus d’error tenen importància i conseqüències ben
diferents
EXEMPLE. Si estem estudiant la influència d’una dieta (o d’un medicament)
per baixar el colesterol, plantejarem el següent contrast:

• H0: La dieta no és eficaç


• HA: La dieta és eficaç

 Si H0 és certa i la rebutgem (error de tipus I) aplicaríem una dieta que no


és eficaç i a lo millor no es continua investigant en altres tipus de tractaments
o dietes. Sense oblidar altres conseqüències com poden ser els efectes
secundaris del tractament/dieta en alguns malalts

 Si H0 és falsa i no la rebutgem (error de tipus II) no s‘aplicarà ni es


recomanarà una dieta/medicament que si és eficaç

Estadística. Departament d’ Estadística i Investigació Operativa. 24


Perquè el test t-Student?

 Siga µ la mitjana d’una població on es desitja contrastar:


 Hipòtesis Nul·la H0: µ = µ0
 Hipòtesis Alternativa HA: µ ≠ µ0

 Per a resoldre eixe contrast podrien utilitzar-se altres estadístics


distints del test t-Student i altres regles de decisió

 Per a dades normals, el test t-Student és el millor: és el test amb


el qual s’obtenen probabilitats d’error de tipus II més menudes
per al mateix α

 Tècnicament: Si la població observada és Normal, el test t-Student és el


contrast uniformement més potent entre els no esbiaixats

Estadística. Departament d’ Estadística i Investigació Operativa. 25


5.4 Contrasts direccionals
 Els contrasts que hem vist fins ara s’anomenen no direccionals
(bilaterals) perquè no indiquem una direcció per a la hipòtesis
alternativa (estudiem els dos ‘laterals’)
 En ocasions està clar que la desviació de la mitjana només pot
donar-se en un sentit o que només ens interessa demostrar que
eixa desviació es dona en un únic sentit
 En aquests casos utilitzarem una hipòtesis alternativa
direccional (unilateral) per indicar que rebutjarem la hipòtesis
nul·la només si la diferencia entre mostra i població és
significativa en la direcció (al ‘lateral’) que proposa la hipòtesis
alternativa:
H0: µ ≤ µ0 H0: µ ≥ µ0
HA: µ > µ0 HA: µ < µ0
Estadística. Departament d’ Estadística i Investigació Operativa. 26
Exemple de contrast direccional
El Departament de Salud dels Estats Units ha fixat en 70 el nombre mitjà
de bacteris per centímetre cúbic d’aigua per a les aigües en les quals es
practica la recollida de cloïsses. Un nivell mitjà superior a 70 és perillós
perquè menjar-se-les pot causar hepatitis.
S’ha pres una mostra de 9 observacions, obtenint-se els valores:
69 74 75 70 72 73 71 73 68
S’ha de prohibir la recollida de cloïsses en eixes aigües?

Només rebutjarem la hipòtesis nul·la si el resultat de l’estudi indica, amb un


nivell de significació de 0.05, que el nombre mitjà de bacteris és superior a 70

H0: El nombre mitjà de bacteris en l’aigua és de 70 (µ ≤ 70)

HA: El nombre mitjà de bacteris en l’aigua és superior a 70 ( µ > 70)

Estadística. Departament d’ Estadística i Investigació Operativa. 27


Contrastos direccionals

 En aquest cas només hem de canviar la forma de calcular el p-valor

 En primer lloc hem de comprovar que les dades estan en la mateixa


direcció que la hipòtesis alternativa. Si no es així, la conclusió serà no
rebutjar la hipòtesis nul·la.

 Si les dades estan en la mateixa direcció que la hipòtesis alternativa hem de


calcular el p-valor como l’àrea d’una única cua, la que correspon a la
direcció de la hipòtesis alternativa

HA: µ< µ0 HA: µ> µ0

Estadística. Departament d’ Estadística i Investigació Operativa. 28


Exemple de contrast direccional (cont.)

Càlcul dels estadístics de la mostra: x = 71.67, s =2.35

Comprovació de direccionalitat: x = 71.67 > 70

𝑥𝑥 − 𝜇𝜇0 71.67 −70.0


Estadístic de contrast: 𝑡𝑡𝑠𝑠 = 𝑛𝑛 𝑠𝑠
= 9
2.35
= 2.13

Càlcul del p-valor: l’àrea que està per davall de la corba d’una t de
Student, amb 8 graus de llibertat i a la dreta del 2.13, és 0.033

Com el p-valor és menor que 0.05, rebutgem la hipòtesis nul·la:


Hi ha evidència de que la mitjana del nombre de bacteris és
superior a 70, per la qual cosa ha de prohibir-se la recollida
de cloïsses en aquest aigua

Estadística. Departament d’ Estadística i Investigació Operativa. 29


Contrast direccional en R

Estadística. Departament d’ Estadística i Investigació Operativa. 30


Com elegir la forma de la hipòtesis alternativa

 La forma de la hipòtesis alternativa ha de triar-se d'acord amb


l’experiment que s'està fent.
 Elegirem una alternativa direccional si:
 No és raonable pensar en una desviació en l’altra direcció

o bé

Només ens interessa rebutjar la hipòtesis nul·la quan la


desviació es dona en una direcció

En qualsevol cas hem de triar la forma de la hipòtesis alternativa


abans d’obtenir les dades. En altre cas, si ho fem després
estaríem falsejant el sentit del nivell de significació del test
Estadística. Departament d’ Estadística i Investigació Operativa. 31
5.5 Condicions de validesa

a) CONDICIONS SOBRE EL DISENY DE L’EXPERIMENT

1.- Ha de ser raonable considerar les dades com una mostra aleatòria de
la població d’interès

2.- Les observacions de la mostra han de ser independents entre sí

b) CONDICIONS SOBRE LA DISTRIBUCIÓ DE LA POBLACIÓ

1.- Si n és menuda, la distribució de la població ha de ser aproximadament


normal

• Test de normalitat de Shapiro-Wilks


• Gràfiques de normalitat
2.- Si n és gran, no és necessari que la distribució de la població siga
aproximadament normal, el Teorema Central del Límit ens diu que ho és
la distribució de la mitjana mostral
Estadística. Departament d’ Estadística i Investigació Operativa. 32
Test de Normalitat de Shapiro-Wilk
H0: La distribució de la variable és Normal
HA: La distribució de la variable no és Normal

Si p-valor < 𝛼𝛼 (=0.05) Rebutgem la normalitat (H0)


Si p-valor ≥ 𝛼𝛼 No rebutgem la normalitat (H0)

EXEMPLE: Quantitat de grassa en la carn de porc

Asumim normalitat

Estadística. Departament d’ Estadística i Investigació Operativa. 33


Gráfiques de normalitat

Estadística. Departament d’ Estadística i Investigació Operativa. 34


5.6 Proves no paramètriques: test de Wilcoxon
Si les dades no provenen d’una distribució normal, per què hem rebutjat la
hipòtesis nul·la del test de Shapiro-Wilk, i no tenim una mostra suficientment
gran, no es pot aplicar cap contrast basat en la t de Student ni calcular intervals
de confiança per a la mitjana poblacional.

Aleshores, caldrà aplicar un test no paramètric i comparar un valor de la mediana


poblacional. Ho farem aplicant el test de Wilcoxon de rangs amb signe.

Test de Wilcoxon de rangs amb signe: prova no paramètrica per a comparar la


mediana d’una població no Normal

H0: La mediana poblacional és igual a M0


HA: La mediana poblacional no és igual a M0

En el menú de R caldrà seguir les instruccions següents:

EstadísticosTest no paramétricos Test de Wilcoxon para una muestra

Estadística. Departament d’ Estadística i Investigació Operativa. 43


Exemple de dades no Normals
En un experiment previ a provar-ho en humans, s'administrà a 14 cobais de
laboratori un nou medicament que, com efecte secundari, causa somnolència.
El temps transcorregut, en minuts, entre la ingesta d’aquest producte i la
entrada en fase de somni fou:
44, 27, 24, 24, 36, 36, 44, 44, 120, 29, 36, 36, 36, 36
La gràfica de normalitat i el resultat del test de Normalitat de Shapiro-Wilks es
mostren a continuació. Podem dir que les dades són normals?

Com p-valor < 0.05 Rebutgem la normalitat

Estadística. Departament d’ Estadística i Investigació Operativa. 36


Exemple de dades no Normals (Cont.)
Ens demanen contrastar si la mediana poblacional podria valdre 40, i aleshores
plantegem el contrast:
H0: La mediana poblacional és igual a 40
HA: La mediana poblacional no és igual a 40
Executem en R el test de Wilcoxon per a una mostra:

Com p-valor =0.1365 > 0.05,


no rebutgem H0

Estadística. Departament d’ Estadística i Investigació Operativa. 45

You might also like