Professional Documents
Culture Documents
al contrast
d’hipòtesis
Antoni Cosculluela Mas
Albert Fornieles Deu
Jaume Turbany Oset
P08/10512/02520
© FUOC • P08/10512/02520 2 Introducció al contrast d’hipòtesis
© FUOC • P08/10512/02520 Introducció al contrast d’hipòtesis
Índex
Objectius ................................................................................................... 5
1. Introducció ......................................................................................... 7
Activitats .................................................................................................. 33
© FUOC • P08/10512/02520 Introducció al contrast d’hipòtesis
© FUOC • P08/10512/02520 5 Introducció al contrast d’hipòtesis
Objectius
En els materials didàctics d’aquest mòdul presentem els continguts i les eines
imprescindibles per a assolir els objectius següents:
5. Saber expresar de forma entenedora els resultats i poder plantejar noves in-
vestigacions.
1. Introducció
Contrast d’hipòtesi
Una de les aplicacions més habituals dels contrastos d’hipòtesi és quan es vol
comprovar l’efecte d’una determinada intervenció o tractament. Així, en el
nostre exemple general, podríem plantejar un estudi de com ha influït la nova
llei del tabac sobre el consum de cigarrets en el municipi. En aquest sentit, po-
dríem comparar la proporció de fumadors abans i després de la promulgació
de l’esmentada llei. L’afirmació que posaríem a prova seria la següent: la nova
© FUOC • P08/10512/02520 8 Introducció al contrast d’hipòtesis
llei del tabac ha disminuït la proporció de fumadors (dit d’una altra manera,
ha estat efectiva per a disminuir el consum de tabac). El contrast d’hipòtesi ens
permet prendre una decisió sobre si acceptem o rebutgem l’afirmació anterior
(que anomenarem hipòtesi), d’acord amb les dades que hem obtingut de la
mostra de 100 subjectes.
© FUOC • P08/10512/02520 9 Introducció al contrast d’hipòtesis
Taula 1
Prova
Veritat Negativa Positiva
Absència del virus Correcta Errònia
Presència del virus Errònia Correcta
Les files indiquen el verdader estat de la mostra de sang, mentre que les co-
lumnes indiquen la conclusió que el laboratori n’ha tret, que podria ser errò-
nia per moltes raons, per exemple que el procediment de laboratori sigui
incorrecte o que hi hagi manca de detectabilitat del virus.
© FUOC • P08/10512/02520 10 Introducció al contrast d’hipòtesis
Per tant, hi ha dues situacions en les quals es pren una decisió correcta i dues
situacions en les quals es comet un error.
podria ser una altra de diferent. Una vegada més, podem representar les di-
ferents conclusions i les situacions reals en una taula:
Taula 2
Conclusions a partir del nostre estudi
Diferent grau mitjà
Veritat Igual grau mitjà d’ansietat
d’ansietat
Igual grau mitjà
Correcta Errònia
d’ansietat
Diferent grau mitjà
Errònia Correcta
d’ansietat
© FUOC • P08/10512/02520 12 Introducció al contrast d’hipòtesis
Hipòtesi nul·la
Hipòtesi alternativa
Per exemple, al vídeo 19 del CD, en el control de qualitat dels quadres de cir-
cuits impresos de la fàbrica d’electrònica, un inspector usava el valor 100 com
a estàndard per a la qualitat de les soldadures. Si la mitjana de la població de
circuits impresos que es fabricaven fos 100, el procés de producció estaria con-
trolat. Per tant, la hipòtesi nul·la en aquest cas seria que la mitjana de la po-
© FUOC • P08/10512/02520 13 Introducció al contrast d’hipòtesis
blació és 100, mentre que la hipòtesi alternativa seria que la mitjana no és 100.
Expressem això d’una manera més formal per mitjà de la notació H0 per a la
hipòtesi nul·la, H1 (o Ha, com en el vídeo) per a la hipòtesi alternativa i μ per
a la mitjana de la població, de la manera següent:
Per acabar amb aquest apartat, posem un altre exemple que acabi d’establir el
tema: suposem que el propòsit d’un estudi en el municipi és constatar si hi ha
diferència en el grau d’ansietat entre els dos sexes. En aquest context la hipò-
tesi nul·la serà que no hi ha diferència entre el grau mitjà d’ansietat dels ho-
mes (definit per μ1) i el de les dones (definit per μ2), mentre que l’alternativa
serà que sí que hi ha diferències. Expressades formalment aquestes dues hipò-
tesis són les següents:
Ja hem utilitzat els intervals de confiança per a dur a terme un contrast d’hi-
pòtesi sense esmentar-ho de manera específica. Així, en el nostre exemple ge-
neral, hem plantejat una situació en què es pretén comprovar si la mitjana
d’ansietat dels habitants del municipi està dins dels estàndards habituals, que
corresponen a una puntuació de 25 en l’escala MAS. Hem plantejat les hipò-
tesis nul·la i alternativa per a aquest cas:
Hem vist en l’apartat anterior com podem fer un contrast d’hipòtesi a partir
del plantejament de l’interval de confiança corresponent. Si bé aquest és un
camí perfectament vàlid per a dur a terme un contrast d’hipòtesi, no és el que
habitualment s’utilitza. És molt més habitual fer el contrast d’hipòtesi mitjan-
çant un procediment equivalent a l’anterior, però que segueix uns passos una
mica diferents. La diferència més important resideix en el fet que en el proce-
diment vist fins ara utilitzem l’interval de confiança per a prendre la decisió
sobre les hipòtesis estadístiques, mentre que en el procediment del contrast
d’hipòtesi utilitzem el denominat estadístic de contrast.
Estadístic de contrast
En el nostre exemple, atès que comparem una mitjana mostral amb una mit-
jana poblacional, l’estadístic de contrast és el següent:
x − μ , on
t=
sx
t és el valor de la t de Student,
© FUOC • P08/10512/02520 16 Introducció al contrast d’hipòtesis
s
sx és l’error típic de la mitjana, que ja sabem com es calcula: sx =
n
Així, continuant amb el nostre exemple, i com que ja tenim calculats tots els
valors anteriors, l’estadístic de contrast és:
x − μ 22,06 − 25
t= = = −2,283
sx 1,288
3) Obtenir les regions d’acceptació i rebuig de la hipòtesi nul·la, a partir del valor
de l’estadístic de contrast teòric. A partir de la distribució corresponent de l’es-
tadístic de contrast (normal, t de Student, χ2, etc.), i especificant el nivell de con-
fiança assumit (o més habitualment, el seu complementari, que és el nivell de
significació α), s’obtenen els dos valors d’aquest estadístic de contrast que inclo-
uen el percentatge corresponent al nivell de confiança (95%). Aquests dos valors
es denominen valors crítics (superior i inferior) de l’estadístic de contrast, i la
regió compresa entre aquests dos valors es denomina regió d’acceptació de la
hipòtesi nul·la. La regió de rebuig de la hipòtesi nul·la és la compresa per sobre
del valor crític superior i per sota del valor crític inferior.
Prenem aquesta decisió comparant l’estadístic de contrast calculat amb les da-
des mostrals (en el nostre exemple –2,283), amb els valors crítics de la distri-
bució corresponent. Així, si el nostre estadístic de contrast calculat queda
entre aquests valors crítics, acceptem la hipòtesi nul·la (ja que som a la regió
d’acceptació de l’esmentada hipòtesi), mentre que si el nostre estadístic de
contrast calculat és més gran que el valor crític superior o menor que l’inferior,
rebutgem la hipòtesi nul·la i acceptem l’alternativa.
Com podem observar, les dues proves (interval de confiança i contrast d’hipò-
tesi) són equivalents, i lògicament ens porten al mateix resultat.
El contrast d’hipòtesi, tal com l’hem vist fins a aquest moment, pot tenir una
variant que és la utilitzada habitualment en els paquets estadístics informatit-
zats. Aquesta variant es denomina prova de significació, i consisteix a obtenir
directament la probabilitat de l’estadístic de contrast mostral calculat. Així, en
el nostre exemple anterior, l’estadístic de contrast calculat era de –2,283, i la
probabilitat d’aquest valor per a una t de Student de 99 (n – 1) graus de llibertat
és de 0,025 (es pot obtenir amb la funció “DISTR.T” de l’Excel, per a un valor
x de 2,283, amb 99 graus de llibertat i 2 cues).
Valor p
Nivell de significació α
Taula 3
Contrast d’hipòtesi Prova de significació
Determinar la hipòtesi nul·la i l’alternativa
Calcular el valor de l’estadístic de contrast amb les dades mostrals
Determinar les regions d’acceptació i rebuig de Obtenir la probabilitat (valor p) de l’estadístic
la hipòtesi nul·la (amb els valors crítics de de contrast
l’estadístic de contrast)
Prendre una decisió comparant el valor de Prendre una decisió comparant el valor p de
l’estadístic de contrast mostral o observat amb l’estadístic de contrast mostral o observat amb
els valors crítics de la distribució corresponent el nivell de significació α assumit
Interpretar la decisió anterior en el context de l’estudi realitzat
© FUOC • P08/10512/02520 19 Introducció al contrast d’hipòtesis
Tal com hem vist en apartats anteriors, sempre que prenem una decisió en un
contrast d’hipòtesi o en una prova de significació, podem haver encertat o ens
podem haver equivocat, ja que sempre hi ha una probabilitat que sigui certa
la hipòtesi nul·la, encara que l’hàgim rebutjat (de fet aquesta probabilitat és el
valor p), o que no sigui certa encara que l’hàgim acceptat d’acord amb les nos-
tres dades mostrals.
Així, podem compondre una taula similar a les taules 1 i 2 per a representar la
situació en el contrast d’hipòtesis estadístiques (taula 4).
Taula 4
Situació certa
Decisions basades en les dades H0 H1
Decisió incorrecta
Decisió correcta
H0 Error de tipus II
Probabilitat 1 – α
Probabilitat β
Decisió incorrecta
Decisió correcta
H1 Error de tipus I
Probabilitat 1 – β
Probabilitat α
En aquesta taula hem presentat dos termes que s’utilitzen per a les decisions
incorrectes que es poden prendre en aquesta situació:
Com es pot observar, la hipòtesi alternativa, de ser certa, també té la seva prò-
pia distribució de densitat (com la hipòtesi nul·la), i aquestes dues distribuci-
ons s’encavalquen (en aquest cas pel costat dret de la hipòtesi nul·la perquè la
prova és unilateral per la cua dreta). Així, el valor crític de l’estadístic de con-
trast és la línia vertical que divideix la gràfica en dos. Per sota (o a l’esquerra)
d’aquest valor hi ha la regió (o zona) d’acceptació de la hipòtesi nul·la, i per
sobre (o per la dreta) la regió de rebuig de l’esmentada hipòtesi nul·la. Això de-
termina dues àrees ratllades: una verticalment, que és la proporció de la distri-
bució de la H0 per sobre del valor crític de l’estadístic de contrast i que
correspon al grau de significació α o al valor p, i una altra horitzontalment,
que és la proporció de la H1 per sota d’aquest valor crític i que denominem β.
Si disminuïm la zona ratllada verticalment (és a dir, el grau de significació α),
desplacem la ratlla vertical cap a la dreta, i això comporta que augmenti la
zona ratllada horitzontalment, és a dir β, amb la qual cosa disminueix, en con-
seqüència, la regió 1 – β, que denominem potència de la prova.
© FUOC • P08/10512/02520 21 Introducció al contrast d’hipòtesis
Figura 1
L’estadístic de contrast continua sent el mateix, i per tant el seu valor calculat
a partir de les dades mostrals continua sent de –2,283.
El que canvia és el valor crític d’aquest estadístic de contrast, que hem d’ob-
tenir-lo per a una distribució t de Student amb 99 (n – 1) graus de llibertat i
α = 0,05, però aquest 0,05 acumulat tot en la cua esquerra de la distribució, i
per tant el valor de la t que deixa un 0,05 de la distribució per sota seu. Podem
trobar aquest valor amb la funció “DISTR.T.INV’ de l’Excel, però tenint en
compte que la probabilitat ara és de 0,10 (2α, el doble que per a la prova bila-
teral, que és la que fa l’Excel) i el valor de t és negatiu, ja que som a la cua es-
querra de la distribució (encara que la funció de l’Excel solament ens dóna el
valor positiu). Aquest valor llavors és de –1,66. Ara comparem aquest valor crí-
tic amb el calculat amb les nostres dades, i veiem que el calculat és menor que
aquest valor crític (–2,283 < –1,66), per la qual cosa continuem rebutjant la hi-
pòtesi nul·la i acceptant l’alternativa, i interpretant aquest resultat en el sentit
que la mitjana en ansietat dels habitants del municipi és inferior (són menys
ansiosos) al grau mitjà de la població en general.
© FUOC • P08/10512/02520 24 Introducció al contrast d’hipòtesis
En tot el que hem exposat sobre el contrast d’hipòtesi, hem donat per fet que
les dades amb què treballàvem (les observacions obtingudes) complien uns de-
terminats supòsits. No és que hàgim explicitat això en cap apartat anterior,
però sí que es pot deduir del que hem exposat en aquests apartats que, per
exemple, la variable estudiada (l’ansietat en el nostre cas pràctic general) ha
d’estar mesurada almenys amb una escala d’interval, ja que, a partir de les se-
ves dades, calculem uns estadístics (com la mitjana aritmètica o la desviació
estàndard) que solament es poden obtenir en variables mesurades amb les es-
mentades escales (d’interval o de raó). També parlàvem que la distribució de
l’estadístic de contrast s’ajusta a alguna distribució de probabilitat coneguda,
com la normal o la t de Student, per exemple. Tot això significa que els con-
trastos estadístics, tal com els hem plantejat fins a aquest moment, requerei-
xen per a la seva aplicació el compliment de determinats supòsits respecte a la
variable en la població, o respecte a les dades mostrals. Aquests supòsits (al-
menys els més bàsics) es refereixen a les tres característiques següents:
Per a il·lustrar la prova, l’aplicarem a les dades del nostre exemple pràctic ge-
neral per a la variable ansietat. L’objectiu de l’aplicació de l’esmentada prova
seria comprovar si la variable ansietat (puntuacions en el MAS) s’ajusta a una
distribució normal. Seguirem els passos habituals per a tot contrast d’hipòtesi:
2) Estadístic de contrast
D = màxim⏐F(x) – Fn(x)⏐
Taula 5
Valors Freqüències Percentatges F(x) zx Fn(x) F(x) – Fn(x)
A l’última columna tenim calculades les diferències entre F(x) i Fn(x), i podem
constatar que la diferència màxima (independentment del signe) és 0,055, per
tant el valor de l’estadístic de contrast observat és el següent: D = 0,055.
Per a l’obtenció del valor crític de l’estadístic de contrast hem de consultar la Recordeu que l’annex està
disponible al web de l’assignatura.
taula 9 bis de l’annex.
Com podem observar en aquesta taula, per al nostre exemple, amb n = 100
(mostra de 100 subjectes o observacions), i un nivell de significació α = 0,05
(p = 0,95 en la taula, perquè ens ofereix el nivell de confiança), el valor de l’es-
5) Decisió
tingut a les taules, i decidim en funció d’aquesta comparació i les regions de-
limitades pel valor crític. Així, en el nostre exemple acceptem la hipòtesi nul·la
perquè 0,055 és inferior a 0,136, és a dir, el valor de l’estadístic de contrast ob-
servat és inferior al valor crític de l’esmentat estadístic, i per tant aquest esta-
dístic de contrast observat cau dins de la regió d’acceptació de l’esmentada
hipòtesi nul·la.
6) Interpretació
Prova de Kolmogorov-Smirnov
Vídeo 21
2,0 0,4 0,7 2,0 –0,4 2,2 –1,3 1,2 1,1 2,3
El vídeo mostra els diversos passos necessaris per a formalitzar aquesta decisió:
El vídeo diu que podem utilitzar el valor d’1 per a la desviació estàndard de la
població, que s’ha establert després d’una llarga experiència amb aquest tipus
© FUOC • P08/10512/02520 31 Introducció al contrast d’hipòtesis
de dades (encara que també sabem que a la pràctica haurem d’estimar la des-
viació estàndard a partir de les dades mostrals), de manera que podem obtenir
l’error estàndard o típic de la mitjana mostral com 1/ 10 = 0,316. Ara podem
jutjar fins a quin punt la mitjana mostral d’1,02 és sorprenent localitzant-la
en la distribució de mitjana 0 i desviació estàndard 0,316 (fixeu-vos que al ví-
deo es fa servir la distribució normal perquè se suposa que la desviació estàn-
dard es coneix; a la pràctica, en estimar-la usaríem la distribució t). Trobem
que el resultat és molt sorprenent, ja que l’obtindríem amb una probabilitat
de només 0,0006.
Per tant, el valor p és sempre la probabilitat d’un resultat almenys tan extrem
com el resultat observat en la direcció o direccions donades per la hipòtesi al-
ternativa. Per a una hipòtesi alternativa unilateral calculem l’àrea d’una sola
cua, i per a una hipòtesi alternativa bilateral, l’àrea definida per dues cues.
© FUOC • P08/10512/02520 32 Introducció al contrast d’hipòtesis
© FUOC • P08/10512/02520 33 Introducció al contrast d’hipòtesis
Activitats
1. Hipòtesi nul·la i alternativa. Sempre continuant amb el nostre exemple pràctic general, ex-
presseu les hipòtesis nul·les i alternatives per a cada un dels possibles estudis següents (utilitzeu
una expressió verbal i després una de formal que incloguin els paràmetres de la població):
a) Volem estudiar si els habitants menors de 30 anys tenen diferent grau mitjà de depressió
que els habitants de 30 o més anys.
c) Volem comprovar si la mitjana d’edat dels habitants del municipi és igual a la mitjana
d’edat de tots els habitants de la seva comunitat autònoma, que és de 35 anys.
2. Ús dels intervals de confiança per a dur a terme un contrast d’hipòtesi. Volem estudiar
si el grau mitjà en depressió (mesurat amb el BDI) dels habitants del municipi del nostre
exemple general és igual al grau mitjà habitual de la població adulta, que és de 18 punts en
el BDI, amb un nivell de confiança del 95%. Plantegeu la hipòtesi nul·la i l’alternativa cor-
responent, i preneu la decisió adequada respecte d’aquestes hipòtesis (acceptar-ne una o una
altra), i justifiqueu la decisió presa. Interpreteu aquests resultats en el context de l’estudi
plantejat.
4.Contrastos unilaterals i bilaterals. Fem una activitat similar a les anteriors, però ara vo-
lem estudiar si el grau mitjà de depressió (mesurat amb el BDI) dels habitants del municipi
del nostre exemple general és superior al grau mitjà habitual de la població adulta, que és de
18 punts en el BDI. Plantegeu la hipòtesi nul·la i l’alternativa corresponent, i preneu la deci-
sió adequada respecte de les hipòtesis (acceptar-ne una o una altra), i justifiqueu la decisió
presa. Interpreteu aquests resultats en el context de l’estudi plantejat.
Fixeu-vos que en voler estudiar si el grau mitjà de la mostra (la mitjana mostral) és superior
a un determinat valor (paràmetre poblacional), la prova és ara unilateral però en el costat dret
de la distribució de l’estadístic de contrast corresponent (a diferència de l’exemple de l’ansi-
etat, que era al costat esquerre o cua esquerra de la distribució esmentada).