Professional Documents
Culture Documents
Contrastos 12 Print
Contrastos 12 Print
1 / 81 2 / 81
Contrastos Contrastos
En un contrast d’hipòtesis, es comparen sempre dues hipòtesis Típicament, la hipòtesi nul·la H0 és «no hi ha diferència» o
alternatives: la hipòtesi nul·la H0 i la hipòtesi alternativa H1 l’equivalent en el context del contrast:
Se sol plantejar formalment • La moneda és honrada (50% de probabilitat de cara)
• Els tractaments A i B són igual d’efectius en la curació de
H0 : hipòtesi nul·la
H1 : hipòtesi alternativa la malaltia X
3 / 81 4 / 81
Contrastos Contrastos
La hipòtesi alternativa H1 planteja la diferència de la qual • Per defecte, estam disposats a acceptar H0 («no hi ha
cercam evidència: diferència»)
• Si obtenim evidència suficient de H1 , rebutjarem H0 en
• La moneda està trucada a favor de cara (més del 50% de
favor de H1 (decidirem que H1 és vertader)
probabilitat de cara)
En tendrem evidència si a la nostra sèrie de llençaments • Rebutjarem H0 quan les proves obtingudes la converteixin
la proporció de cares és molt superior al 50% en inversemblant (no vol dir que hàgim provat que sigui
impossible, ni tan sols que sigui improbable, tan sols mala
• A és més efectiu que B en la curació de la malaltia X de creure)
En tendrem evidència si en el nostre assaig la taxa de • Si no obtenim evidència suficient de H1 , les nostres dades
curació de la malaltia X amb el tractament A és molt més seran compatibles amb H0 i no podrem rebutjar-la
gran que la de B (acceptarem H0 )
• En aquest cas H0 és versemblant (però no probable; i
possible en principi ho és sempre)
5 / 81 6 / 81
Exemple Exemple
En un judici (on l’acusat és innocent si no es demostra el Un examen és un contrast d’hipòtesis:
contrari): Contrast:
Contrast:
H0 :
H0 : L’acusat és innocent
H1 : L’acusat és culpable H1 :
S’obtenen proves
Si el jurat troba prou incriminatòries les proves, «més enllà de
tot dubte raonable», declara culpable l’acusat (rebutja H0 en
favor de H1 )
Si no, el considera no culpable (no rebutja H0 )
Considerar no culpable 6= demostrar que és innocent
7 / 81 8 / 81
Exemple Exemple
Les dones, practiquen menys esport que els homes?
9 / 81 10 / 81
Exemple Exemple
Les dones practiquen de mitjana menys hores setmanals Les dones practiquen de mitjana menys hores setmanals
d’esport que els homes? d’esport que els homes?
Siguin: Procediment: Prenem mostres aleatòries de dones i d’homes i
• µd : mitjana d’hores setmanals d’esport en dones els demanam pels seus hàbits de pràctica d’esport
• X d : mitjana mostral d’hores setmanals d’esport en les
• µh : mitjana d’hores setmanals d’esport en homes
dones de la mostra
El contrast que volem realitzar és • X h : mitjana mostral d’hores setmanals d’esport en els
H0 : µ d = µ h homes de la mostra
H1 : µd < µh Si X d és suficientment més petit que X h , ho prendrem com a
evidència que µd < µh
En cas contrari, no podrem rebutjar que µd = µh
11 / 81 12 / 81
Exemple Atenció!
Què significa «suficientment més petit»? Fins on podem estar La falta d’evidència a favor de H1 no és evidència a
segurs que la nostra conclusió (en un sentit o l’altre) és favor de H0
correcta? Si no podem assegurar que les dones practiquin menys esport
que els homes (perquè no hem trobat evidència a favor
En capítols anteriors: Calcularíem un IC 95% per a µd − µh a
d’aquesta hipòtesi)
partir de la mostra
• Si està a l’esquerra del 0, amb un 95% de confiança això no significarà
podem concloure que µd < µh que hàgim trobat evidència que els homes i les dones
• En cas contrari (si conté el 0 o si està totalment a la practiquin la mateixa quantitat d’esport o que les dones en
dreta del 0), amb un 95% de confiança no podem practiquin més
concloure que µd < µh
Simplement, significarà que l’evidència a favor de H1 no ha
Però en els contrastos volem refinar una mica més això de la estat prou forta com per poder afirmar que és vertadera i
«confiança» acceptam que tothom practica la mateixa quantitat d’esport
13 / 81 14 / 81
Atenció! Atenció!
No val canviar de contrast a la vista de les dades No confongueu
Si estam interessats en el contrast H0 : µ d = µ h
H1 : µd < µh
H0 : µ d = µ h
H1 : µd < µh amb
H0 : µ d = µ h
i obtenim X d molt més gran que X h en la nostra mostra, és H1 : µd 6= µh
trampa dir
No hem trobat evidència que les dones practiquin menys La pregunta (el contrast) us la plantejau a priori a partir
esport que els homes, però si amb aquestes mateixes dades d’hipòtesis o suposicions prèvies
realitzam el contrast
H0 : µ d = µ h
H1 : µd > µh
sí que obtenim evidència que elles practiquen més esport que
ells
15 / 81 16 / 81
Com triar H0 i H1? Exemple
Les proves han de poder donar evidència de H1 Tenc una moneda, i crec que està trucada a favor de cara.
No podem esperar trobar evidència de µ = quelcom, en canvi Vull contrastar-ho.
sí de µ >, o µ <, o µ 6= quelcom
H0 : pCara = 0.5
Regles: H1 : pCara > 0.5
• H0 sempre ha de significar «no hi ha efecte», es defineix
La llanç en l’aire 3 vegades, obtenc 3 cares. És evidència
mitjançant =
suficient que està trucada?
• H1 es defineix mitjançant alguna cosa «estricta»:
X : Nombre de cares en 3 llançaments
• Hipòtesi unilateral (one-sided ; també d’una cua,
Si no està trucada, X ∼ B(3, 0.5) i per tant
one-tailed ): definida amb < o >
• Hipòtesi bilateral (two-sided ; també de dues cues,
P(X = 3) = 0.53 = 0.125
two-tailed ): definida amb =/
Els contrastos prenen el nom del tipus d’hipòtesi El resultat obtingut no és molt improbable amb una moneda
alternativa: contrast unilateral, de dues cues,. . . honrada (ho esperaríem 1 de cada 8 vegades): no és evidència
suficient que estigui trucada
17 / 81 18 / 81
21 / 81 22 / 81
23 / 81 24 / 81
Exemple p-valor
Tenc una moneda, i crec que està trucada a favor de creu.
Vull contrastar-ho. El p-valor d’un contrast (a partir d’una mostra) és la
probabilitat d’obtenir un resultat com a mínim tan extrem (en
H0 : pCara = 0.5 el sentit de H1 ) com l’obtingut si la hipòtesi nul·la és vertadera
H1 : pCara < 0.5
El p-valor és una evidencia indirecta inversa de H1 : Com més
Llanç la moneda a l’aire 10 vegades, obtenc 1 cara. És petit sigui el p-valor, més improbable és el que hem obtingut si
evidència suficient que pCara < 0.5? H0 és vertadera, i per tant més evidència tenim que H0 no pot
X : Nombre de cares en 10 llançaments ser vertadera
Si no està trucada, X ∼ B(10, 0.5) i per tant
p-valor El p-valor
El p-valor no és: Per exemple, p-valor = 0.03
• La probabilitat que H0 sigui vertadera condicionada al
• Significa que, si H0 és vertadera, la probabilitat que
nostre resultat
l’estadístic de contrast prengui un valor tan extrem o més
• La probabilitat que H1 sigui falsa condicionada al nostre que el que ha pres és 0.03
resultat
• El trobau petit? Ho preneu com a evidència que H0 és
És a l’inrevés: La probabilitat del nostre resultat (o quelcom falsa en favor de H1
més extrem) condicionada al fet que H0 sigui vertadera • No el trobau petit? No teniu evidència per rebutjar que
H0 és vertadera
En un contrast d’hipòtesis no obtenim cap
informació directa sobre la probabilitat de H0 • No significa:
• La probabilitat que H0 sigui vertadera és 0.03
• H0 és vertadera un 3% de les vegades
27 / 81 28 / 81
Exemple Exemple
Tenc una moneda, i crec que està trucada (en un o l’altre
Calculem aquesta probabilitat quan H0 és vertadera:
sentit). Vull contrastar-ho.
P(X > 8 o X 6 2) = P(X > 8) + P(X 6 2)
H0 : pCara = 0.5 = 1 − P(X 6 7) + P(X 6 2)
H1 : pCara 6= 0.5 = 1-pbinom(7,10,0.5)+pbinom(2,10,0.5)
= 0.11
La llanç en l’aire 10 vegades, obtenc 8 cares. És evidència En realitat no es pren p-valor = P(X > 8 o X 6 2), sinó
suficient que està trucada?
p-valor = 2 min{P(X > 8), P(X 6 8)}
X : Nombre de cares en 10 llançaments
• P(X > 8) = 1-pbinom(7,10,0.5) = 0.055
Si no està trucada, X ∼ B(10, 0.5)
• P(X 6 8) = pbinom(8,10,0.5) = 0.99
Ara, «obtenir quelcom com a mínim tan extrem com
Seria 2 × 0.055 = 0.11. Coincideix perquè B(10, 0.5) és
l’obtingut» és treure > 8 del mateix: > 8 cares o > 8 creus
simètrica, si no ho fos no té perquè coincidir.
(6 2 cares)
p-valor = P(X > 8 o X 6 2) Si la moneda no està trucada, el resultat obtingut és
improbable, però no gaire (1 de cada 9 vegades passaria).
29 / 81 30 / 81
• Error de Tipus I: Rebutjar H0 quan és certa • Error de Tipus II: Acceptar H0 quan és falsa
P(Error Tipus I) = P(Rebutjar H0 | H0 certa) = α P(Error Tipus II) = P(Acceptar H0 |H0 falsa) = β
α és el nivell de significació del contrast (probabilitat de 1 − β = P(Rebutjar H0 |H0 falsa) és la potència del
fals positiu) contrast (probabilitat de vertader positiu)
31 / 81 31 / 81
Tipus d’errors Tipus d’errors
En un test d’embaraç:
En un judici, s’ha de declarar un acusat innocent o culpable
H0 : No estàs embaraçada
H1 : Estàs embaraçada Contrast:
H0 : L’acusat és innocent
H1 : L’acusat és culpable
32 / 81 33 / 81
α β
34 / 81 35 / 81
Tipus d’errors Alerta!
Què se sol fer? Amb les regles donades per a un nivell de significació α,
1 Donar una regla de decisió per a un α (màxim) fixat Si efectuam n contrastos i tots tenen H0 vertadera,
el nombre de contrastos on rebutjaríem H0 té
2 Després, augmentar la mida n de la mostra per arribar a distribució B(n, α)
la β desitjada
De cada 100 vegades que H0 sigui vertadera, de
Aquesta segona part no la tractarem a fons en aquest curs (ho mitjana en 100α ocasions la rebutjarem (i ens
farà R per vosaltres) equivocarem)
https://xkcd.com/882/
36 / 81 37 / 81
38 / 81 39 / 81
Exemple: test t Exemple: test t
Idea: Rebutjarem H0 en favor de H1 si aquest estadístic de
Situació general: Una v.a. X ∼ N(µ, σ) contrast T pren un valor «suficientment gran» sobre la
Considerem el contrast mostra. Això significarà que X és «molts errors estàndard»
més gran que µ0 .
H0 : µ = µ 0
H1 : µ > µ0 Per concretar «suficientment gran» cal fixar α:
Per reduir la probabilitat permesa d’error de Tipus I,
Volem prendre una decisió a partir d’una m.a.s. hem de fer més difícil rebutjar H0 : el llindar per a T
Si H0 és vertadera, sabem a partir del qual rebutjarem H0 ha de ser més alt
Usualment es pren α = 0.05: La probabilitat d’equivocar-nos
X − µ0
T = √ ∼ tn−1 rebutjant H0 en favor de H1 és 0.05
SeX / n
0.05: Una mica menys que la probabilitat de treure 4 cares seguides amb
una moneda no trucada
40 / 81 41 / 81
nostra mostra
T0 T0
Rebutjarem H0 quan T0 sigui més gran que un cert llindar L0 ,
que determinam amb α: tn−1,1−α tn−1,1−α
42 / 81 43 / 81
Exemple: test t Exemple: test t
En el nostre exemple: Rebutjarem H0 quan T > tn−1,1−α
H0 : µ = 2.5 Si T pren el valor T0 sobre la nostra mostra
H1 : µ > 2.5
Rebutjarem H0 ⇐⇒ T0 > tn−1,1−α
x = 3.2, se = 1.5, n = 20: l’estadístic de contrast val ⇐⇒ P(T > T0 ) < P(T > tn−1,1−α )
3.2 − 2.5 ⇐⇒ P(T > T0 ) < α
T0 = √ = 2.09
1.5/ 20 Observau que P(T > T0 ) és el p-valor del contrast: la
Si α = 0.05: L0 = tn−1,1−α = qt(0.95,19) = 1.73 probabilitat que l’estadístic de contrast prengui un valor tan
extrem o més (en el sentit de H1 ) que l’obtingut
Com 2.09 > 1.73, concloem amb un nivell de significació de
0.05 que el nivell mitjà de calci en sang en els joves diabètics Rebutjarem H0 quan p-valor < α
és més gran que en els joves sans
44 / 81 45 / 81
46 / 81 47 / 81
Un experiment Un experiment
> set . seed (42) > mus = runif (100 ,2.5 ,3)
> mu0 =2.5 > p . error . Tipus . II = c ()
> sigma =0.5 > for ( j in 1: N ) {
> poblacio = rnorm (10^6 , mu0 , sigma ) poblacio = rnorm (10^5 , mus [ j ] , sigma )
> L = qt (0.95 ,19) # el llindar per n =20 i alfa Tes = replicate (200 , estadistic (20 , poblacio ) )
=0.05 p . error . Tipus . II = c ( p . error . Tipus . II ,
> estadistic = function (n , X ) { length ( which (( Tes <= L ) == TRUE ) ) / 200) }
mostra = sample (X , n ) > mean ( p . error . Tipus . II )
( mean ( mostra ) - mu0 ) / ( sd ( mostra ) / sqrt ( n ) ) } [1] 0.3549
> Tes = replicate (200 , estadistic (20 , poblacio ) ) Hem comés un 35.5% d’errors de Tipus II de mitjana
> p . error . Tipus . I = length ( which (( Tes > L ) == TRUE ) ) /
200 > round ( p . error . Tipus . II ,2) [1:50]
> p . error . Tipus . I [1] 0.22 0.02 0.02 0.19 0.10 0.68 0.02 0.16
[1] 0.055 [9] 0.01 0.98 0.03 0.62 0.95 0.51 0.09 0.02
[17] 0.88 0.02 0.92 0.24 0.53 0.45 0.00 0.03
Hem comés un 5.5% d’errors de Tipus I [25] 0.02 0.04 0.57 0.58 0.61 0.47 0.51 0.12
[33] 0.24 0.01 0.05 0.94 0.67 0.39 0.44 0.46
[41] 0.77 0.93 0.42 0.74 0.12 0.78 0.77 0.39
[49] 0.24 0.01
48 / 81 49 / 81
Un experiment La potència
Si augmentam la mida de la mostra, la potència augmenta
La potència 1 − β és la probabilitat de rebutjar H0 quan H1 és
> p . error . Tipus . II = c () vertadera
> for ( j in 1: N ) {
poblacio = rnorm (10^5 , mus [ j ] , sigma ) Exemple: En el nostre exemple del calci en diabètics la regla
Tes = replicate (200 , estadistic (200 , poblacio ) ) de rebuig era
p . error . Tipus . II = c ( p . error . Tipus . II , X − 2.5
length ( which (( Tes <= L ) == TRUE ) ) / 200) } T = √ > 1.73,
> mean ( p . error . Tipus . II ) SeX / n
[1] 0.1068 per tant
Amb mostres de mida 200, cometem un 10.7% d’errors de 1 − β = P(T > 1.73|µ > 2.5)
Tipus II de mitjana Aquesta probabilitat és difícil de calcular, però hi ha paquets
de R que ho saben fer
50 / 81 51 / 81
La potència La potència
Per a cada tipus de contrast es té una relació numèrica entre Usualment:
• La potència 1 − β • Fixam el nivell de significació desitjat
• La mida de la mostra n: la potència creix amb n • Prenem mostra de mida n i efectuam el contrast
• El nivell de significació α: la potència decreix amb α • Calculam la mida de l’efecte obtingut
• La mida de l’efecte (un valor que quantifica la diferència i empram la relació anterior per calcular a posteriori la
entre el paràmetre mostral i el valor contrastat): la potència del contrast
potència creix amb (el valor absolut de) la mida de
l’efecte
Aquesta relació permet calcular qualsevol dels quatre valors a
partir dels altres tres (amb R, paquet pwr)
52 / 81 53 / 81
54 / 81 55 / 81
Exemple: test t Exemple: test t
Considerem el contrast Considerem el contrast
H0 : µ = µ 0 H0 : µ = µ 0
H1 : µ 6= µ0 H1 : µ 6= µ0
56 / 81 57 / 81
58 / 81 59 / 81
Exemple: test t Exemple
Considerem el contrast
Sigui X una població normal. Volem fer el contrast
H0 : µ = µ 0
H1 : µ 6= µ0 H0 : µ = 20
H1 : µ > 20
per a una v.a. X ∼ N(µ, σ)
amb un nivell de significació de 0.05.
p-valor < α ⇐⇒ 2P(T > |T0 |) < α
Prenem una m.a.s. de n = 25 observacions i obtenim x = 20.7
⇐⇒ P(T > |T0 |) < α/2 i se = 1.8.
⇐⇒ Rebutjam H0
Per tant, perquè el nivell de significació sigui α
Rebutjarem H0 quan p-valor < α
60 / 81 61 / 81
Exemple Exemple
H0 : µ = 20
H1 : µ > 20 Sigui X una població normal. Volem fer el contrast
α = 0.05, n = 25, x = 20.7, se = 1.8
H0 : µ = 20
X − µ0 H1 : µ > 20
• Estadístic de contrast: T = √
SeX / n amb un nivell de significació de 0.01.
• Pren el valor
Amb la mateixa m.a.s. d’abans, què decidim?
20.7 − 20
T0 = √ = 1.944
1.8/ 25
• p-valor
64 / 81 65 / 81
Exemple Exemple
Sigui X una població normal. Volem fer el contrast Sigui X una població normal. Volem fer el contrast
H0 : µ = 20 H0 : µ = 20
H1 : µ > 20 H1 : µ 6= 20
66 / 81 67 / 81
Terminologia Terminologia
Donat un contrast: Donat un contrast:
• Nivell de significació, α: probabilitat de rebutjar H0 si • Estadístic de contrast: el que ens permet definir una regla
aquesta és vertadera (probabilitat d’error de Tipus I, de de rebuig de H0
fals positiu)
• Regió crítica o de rebuig: el rang de valors de l’estadístic
• Nivell de confiança, 1 − α: probabilitat d’acceptar H0 si de contrast per als qual rebutjam H0 (amb un nivell de
aquesta és vertadera (probabilitat de vertader negatiu) significació α donat)
• Error β: probabilitat d’acceptar H0 si H1 és vertadera • Regió d’acceptació: el complementari de la regió de rebuig
(probabilitat d’error de Tipus II, de fals negatiu)
• p-valor: La probabilitat que l’estadístic de contrast
• Potència, 1 − β: probabilitat de rebutjar H0 si H1 és prengui un valor tan o més extrem (en el sentit de H1 )
vertadera (probabilitat de vertader positiu) que l’obtingut sobre la nostra mostra si H0 és vertadera
68 / 81 69 / 81
70 / 81 71 / 81
Terminologia Exemple: IC en el test t
Donat un contrast: H0 : µ = µ 0
• Interval de confiança del (1 − α) · 100% (o de nivell de H1 : µ > µ0
confiança 1 − α) del contrast: un interval on el paràmetre Acceptam H0 amb nivell de significació α quan
poblacional té probabilitat 1 − α de pertànyer-hi (en el
sentit dels IC del tema anterior: produït amb una fórmula X − µ0
√ 6 tn−1,1−α
bla bla bla) SeX / n
S’obté imposant que l’estadístic de contrast pertanyi a la Aïllant µ0 :
regió d’acceptació per al nivell de significació α i aïllant el
SeX
paràmetre poblacional X − tn−1,1−α · √ 6 µ0
n
• Quan H1 és bilateral, coincideix amb l’IC donat en el El IC (1 − α) · 100% per a aquest contrast és
tema anterior " !
• Quan H1 és unilateral, tota la probabilitat sobrant va al SeX
costat definit per H1 X − tn−1,1−α · √ , ∞
n
72 / 81 73 / 81
Obtenim que, amb un nivell de confiança del 95%, la El IC (1 − α) · 100% per a aquest contrast és
concentració mitjana de calci en sang en els joves diabètics és
" #
SeX SeX
> 2.62, i que per tant (amb aquest nivell de confiança) no pot X − tn−1,1−α/2 · √ , X + tn−1,1−α/2 · √
n n
ser 2.5 (encara que per poc)
Us sona? Fent q = 1 − α, és el del tema anterior
74 / 81 75 / 81
Regles de rebuig Estadísticament significatiu
Si no establim un nivell de significació α,
Donat un contrast d’hipòtesis, podem decidir si rebutjam H0
en favor de H1 emprant: • Acceptam H0 si el p-valor és «gran» (> 0.1)
• La regió crítica: Si l’estadístic de contrast cau dins la • Rebutjam H0 si el p-valor és «petit» (< 0.05)
regió crítica per al nivell de significació α, rebutjam H0 En aquest cas, distingim tres franges de p-valor:
• Significatiu si és < 0.05
• El p-valor: Si el p-valor és més petit que el nivell de • Fortament significatiu si és < 0.01
significació α, rebutjam H0 • Molt significatiu si és < 0.001
76 / 81 77 / 81
El p-valor El p-valor
Acostumau-vos a donar el p-valor, no la franja de significació
on cau
Atès que rebutjam H0 si, i només si, p-valor < α, el p-valor
d’un contrast és
El nivell de significació més petit per al qual
rebutjaríem la hipòtesi nul·la
És a dir,
La probabilitat mínima d’equivocar-nos rebutjant la
hipòtesi nul·la si és vertadera (amb el valor de
l’estadístic de contrast obtingut)
https://xkcd.com/1478/
78 / 81 79 / 81
Significat estadístic? Significat estadístic?
Qualsevol treball pot donar un p-valor A més
estadísticament significatiu. . . que estigui malament Qualsevol estudi mal dissenyat o mal realitzat pot
donar un p-valor petit. . . que no signifiqui
El paquet statcheck de R (http://statcheck.io) revisa absolutament res
tots els càlculs d’un article (en un format concret en
psicologia) i en comprova els p-valors Feu les coses bé. . .
Els autors van analitzar 30,000 articles:
I no oblideu que
«Hem trobat que la meitat dels articles contenen
almenys un p-valor erroni. I un de cada vuit articles Qualsevol estudi pot donar per pur atzar un p-valor
conté un p-valor molt inconsistent que afecta la conclusió petit. . . que no signifiqui absolutament res
estadística.»
M. Nuijten et a el, “The prevalence of statistical reporting errors in psychology (1985–2013).” Behavior
research methods 48 (2016), 1205–1226
80 / 81 81 / 81