You are on page 1of 34

Introducció

al contrast
d’hipòtesis
Antoni Cosculluela Mas
Albert Fornieles Deu
Jaume Turbany Oset

P08/10512/02520
© FUOC • P08/10512/02520 2 Introducció al contrast d’hipòtesis
© FUOC • P08/10512/02520 Introducció al contrast d’hipòtesis

Índex

Objectius ................................................................................................... 5

1. Introducció ......................................................................................... 7

2. Contrast d’hipòtesis: prendre decisions ....................................... 9

3. Hipòtesi nul·la i alternativa ........................................................... 12

4. Ús dels intervals de confiança per a dur a terme


un contrast d'hipòtesi ...................................................................... 14

5. Contrast d’hipòtesi i proves de significació ............................... 15

6. Errors de tipus I i de tipus II .......................................................... 19

7. Potència d’un contrast d’hipòtesi o prova


de significació ..................................................................................... 20

8. Contrastos unilaterals i bilaterals ................................................ 22

9. Contrastos paramètrics i contrastos no paramètrics .............. 24

10. Proves de bondat d’ajustament ................................................... 26


10.1. Prova de Kolmogorov-Smirnov ..................................................... 26
10.2. Esquema de la prova de Kolmogorov-Smirnov ............................ 29

Resum dels vídeos ................................................................................... 30

Activitats .................................................................................................. 33
© FUOC • P08/10512/02520 Introducció al contrast d’hipòtesis
© FUOC • P08/10512/02520 5 Introducció al contrast d’hipòtesis

Objectius

En els materials didàctics d’aquest mòdul presentem els continguts i les eines
imprescindibles per a assolir els objectius següents:

1. Saber realitzar inferències estadístiques i estudiar associacions entre varia-


bles, tenint en conte el concepte de probabilitat que hi ha al darrere
d'aquestes decisions.

2. Saber utilitzar el raonament estadístic que li permeti enfrontar-se de mane-


ra satisfactoria als problemes derivats de la investigació que haurà d'abor-
dar durant el seu futur exercici professional.

3. Saber identificar correctament les variables implicades en una situació d’in-


vestigació real.

4. Saber prendre decisions correctes i relacionades amb la situació d’investi-


gació

5. Saber expresar de forma entenedora els resultats i poder plantejar noves in-
vestigacions.

6. Saber plantejar, desenvolupar i prendre la decisió d’una prova de relació


entre una variable categòrica amb dos valors i una variable quantitativa.
© FUOC • P08/10512/02520 6 Introducció al contrast d’hipòtesis
© FUOC • P08/10512/02520 7 Introducció al contrast d’hipòtesis

1. Introducció

En aquest mòdul entrarem en un dels temes fonamentals de l’estadística infe-


rencial, això és, el contrast d’hipòtesi que ens permetrà prendre decisions a
partir d’un conjunt de dades obtingudes empíricament. Aquest tema posarà
les bases per a un ampli conjunt de proves estadístiques que anirem desenvo-
lupant en els mòduls següents; totes elles, però, parteixen dels mateixos pos-
tulats i segueixen un mateix esquema per a la seva resolució.

En començar el tema anterior sobre inferència estadística, plantejàvem una sè-


rie de preguntes sobre possibles estudis que podien fer-se en el nostre exemple
pràctic general sobre el grau de salut dels habitants d’un municipi. Una de les
preguntes era la següent: podem tractar d’esbrinar si hi ha diferències en el
grau de depressió dels subjectes d’aquest municipi en funció de ser d’un sexe
o de l’altre? En aquest mòdul veurem que per a respondre aquesta pregunta
hem de plantejar un contrast d’hipòtesi que, d’acord amb la informació de
què disposem amb la mostra de 100 habitants del municipi, ens permetrà
prendre una decisió en un sentit o un altre, és a dir, ens permetrà poder arribar
a afirmar un dels dos enunciats següents: sí, hi ha diferències en el grau de de-
pressió dels habitants en funció que siguin d’un sexe o de l’altre, o bé: no, no
hi ha diferències. Com que la resposta a la pregunta volem que sigui vàlida per
a tots els habitants del municipi (la nostra població), i solament disposem de
la mostra de 100 subjectes estudiada, els procediments necessaris per a arribar
a una resposta pertanyen a l’àmbit de la inferència estadística, ja que volem
arribar a la comprovació d’hipòtesi sobre característiques de la població (parà-
metres) a partir de les dades obtingudes en una mostra aleatòria d’aquesta po-
blació (estadístics).

Contrast d’hipòtesi

El contrast d’hipòtesi, també anomenat prova de significació o prova


estadística, és un procediment que ens permet decidir si una afirmació
sobre certa característica o característiques de la població pot ser man-
tinguda o ha de ser rebutjada, d’acord amb les dades obtingudes en una
mostra d’aquesta població o en diverses.

Una de les aplicacions més habituals dels contrastos d’hipòtesi és quan es vol
comprovar l’efecte d’una determinada intervenció o tractament. Així, en el
nostre exemple general, podríem plantejar un estudi de com ha influït la nova
llei del tabac sobre el consum de cigarrets en el municipi. En aquest sentit, po-
dríem comparar la proporció de fumadors abans i després de la promulgació
de l’esmentada llei. L’afirmació que posaríem a prova seria la següent: la nova
© FUOC • P08/10512/02520 8 Introducció al contrast d’hipòtesis

llei del tabac ha disminuït la proporció de fumadors (dit d’una altra manera,
ha estat efectiva per a disminuir el consum de tabac). El contrast d’hipòtesi ens
permet prendre una decisió sobre si acceptem o rebutgem l’afirmació anterior
(que anomenarem hipòtesi), d’acord amb les dades que hem obtingut de la
mostra de 100 subjectes.
© FUOC • P08/10512/02520 9 Introducció al contrast d’hipòtesis

2. Contrast d’hipòtesis: prendre decisions

Hem vist en el mòdul anterior les distribucions mostrals de la mitjana i com


aquestes distribucions ens permeten definir un interval en el qual confiem que
hi haurà la mitjana de la població. Per exemple, en el nostre exemple pràctic
general vam veure que el grau d’ansietat mitjà, mesurat amb el test MAS, dels
habitants del municipi (la nostra població) estava entre 19,5 i 24,6 punts.
Aquestes dades podien servir-nos per a decidir si els habitants del municipi
són més o menys ansiosos (o igual d’ansiosos) que la població adulta en gene-
ral. Així, si es considerés que una puntuació de 25 indica un grau d’ansietat
mitjà en els subjectes adults, podríem concloure que el nostre municipi té un
grau d’ansietat mitjà una mica menor de l’habitual (serien subjectes una mica
menys ansiosos del que és habitual). En definitiva, hem pres una decisió (els
subjectes del municipi són una mica menys ansiosos que la població d’adults
en general) basant-nos en les dades mostrals sobre l’interval de confiança per
a estimar la mitjana poblacional. Ara precisarem més aquest procés de prendre
decisions.

Un exemple que permet il·lustrar els conceptes implicats en la presa de decisi-


ons estadístiques podria ser el de les proves d’un laboratori mèdic en el qual
intentem detectar un virus, per exemple el virus de la sida. Suposem que s’en-
via una mostra de sang a un laboratori perquè faci la prova d’anticossos HIV
(sida). Hi ha únicament dues possibilitats que ens interessen: que els anticos-
sos siguin presents a la sang o que no hi siguin, i en realitat només una
d’aquestes possibilitats és certa.

A la taula 1 representem aquestes dues possibilitades per a la situació real en


forma de dues files de la taula. Quan s’aplica la prova de laboratori determina-
da a la mostra de sang, s’arriba a una certa conclusió: la prova és positiva (el
virus és present a la sang) o negativa (el virus és absent). Ambdues possibilitats
es representen a les dues columnes de la taula 1.

Taula 1
Prova
Veritat Negativa Positiva
Absència del virus Correcta Errònia
Presència del virus Errònia Correcta

Les files indiquen el verdader estat de la mostra de sang, mentre que les co-
lumnes indiquen la conclusió que el laboratori n’ha tret, que podria ser errò-
nia per moltes raons, per exemple que el procediment de laboratori sigui
incorrecte o que hi hagi manca de detectabilitat del virus.
© FUOC • P08/10512/02520 10 Introducció al contrast d’hipòtesis

La taula mostra les quatre possibilitats diferents, que depenen de la conclusió


a la qual s’ha arribat i de què és la veritat:

• primera fila, primera columna: la prova és negativa i la veritat és que no hi


ha presència del virus de la sida; és una conclusió correcta;

• primera fila, segona columna: la prova és positiva, però la veritat és que no


hi ha presència del virus de la sida; és una conclusió falsa i els investigadors
mèdics sovint parlen d’un positiu fals;

• segona fila, primera columna: la prova és negativa, però la veritat és que hi


ha el virus i la prova ha fracassat a l’hora de detectar-lo: això és una con-
clusió falsa i es diu negatiu fals;

• segona fila, segona columna: la prova és positiva i veritablement hi ha pre-


sència del virus; aquesta és una conclusió correcta.

Per tant, hi ha dues situacions en les quals es pren una decisió correcta i dues
situacions en les quals es comet un error.

En el contrast d’hipòtesi tenim la mateixa situació. Nosaltres considerem dos


possibles estats de la població, que anomenem hipòtesi. A partir de les dades
d’una mostra cal decidir quina de les hipòtesis és correcta. La nostra decisió
també pot ser correcta de dues maneres, és a dir, decidint a favor de la hipòtesi
que és veritablement correcta, i pot ser equivocada de dues maneres, quan de-
cidim a favor de la hipòtesi falsa.

Per exemple, continuant amb el nostre cas pràctic general de la mitjana


d’ansietat dels habitants del municipi estudiat, podríem analitzar si el grau
d’ansietat (mesurat amb el MAS) d’aquests habitants es pot considerar que
és igual al grau habitual de la poblacional general o no (perquè és més alt
o més baix). Per a això hem fet una estimació d’aquest grau mitjà a partir
de 100 subjectes d’aquest municipi, i comparem aquesta estimació amb un
grau de 25 punts en el MAS que és el que es considera habitual en la pobla-
ció general. Això ens porta a prendre la decisió que el grau d’ansietat dels
subjectes del municipi no és igual al grau mitjà habitual en la població ge-
neral (ja que el valor 25 no entra dins de l’interval estimat que anava de
19,5 a 24,6 punts). Ara bé, en realitat aquesta decisió podria ser falsa, per-
què sabem que està basada en una estimació que hem fet del grau mitjà dels
habitants del municipi a partir de les dades de 100 habitants, i que, a causa
de la variabilitat mostral ja estudiada, aquesta estimació té una certa preci-
sió i un cert nivell de confiança, per la qual cosa mai no tindrà una certesa
del cent per cent. Així, si haguéssim escollit una altra mostra de 100 sub-
jectes, l’interval de confiança per a l’estimació de la mitjana poblacional
© FUOC • P08/10512/02520 11 Introducció al contrast d’hipòtesis

podria ser una altra de diferent. Una vegada més, podem representar les di-
ferents conclusions i les situacions reals en una taula:

Taula 2
Conclusions a partir del nostre estudi
Diferent grau mitjà
Veritat Igual grau mitjà d’ansietat
d’ansietat
Igual grau mitjà
Correcta Errònia
d’ansietat
Diferent grau mitjà
Errònia Correcta
d’ansietat
© FUOC • P08/10512/02520 12 Introducció al contrast d’hipòtesis

3. Hipòtesi nul·la i alternativa

En estadística tenim una manera formal de prendre decisions sobre paràme-


tres de la població com la mitjana, anomenada contrast d’hipòtesi. El primer
pas en la contrastació d’hipòtesi és formular dues hipòtesis entre les quals ne-
cessitem prendre una decisió. En primer lloc, poden ser descrites verbalment,
per exemple, “el grau mitjà d’ansietat dels habitants del municipi és el mateix
que el de la població en general” en oposició a la hipòtesi que “el grau mitjà
d’ansietat dels habitants del municipi no és el mateix que el de la població en
general”, o “no hi ha diferències en el grau d’ansietat entre homes i dones” en
oposició a “hi ha diferències en el grau d’ansietat entre homes i dones”, o “el
grau d’ansietat dels habitants no ha canviat en els últims 5 anys” en oposició
a la hipòtesi que “el grau d’ansietat dels habitants ha canviat en els últims
5 anys”. En cada context, una de les hipòtesis implica que no hi ha diferències
o que la situació no canvia, la denominem hipòtesi nul·la, i a la hipòtesi opo-
sada, que implica que sí que hi ha diferències o que la situació ha canviat,
l’anomenem hipòtesi alternativa.

Hipòtesi nul·la

La hipòtesi nul·la, representada per H0, és l’expressió formal que es posa


a prova en un contrast d’hipòtesi. Indica la “no diferència”, o el “sense
efecte”, i és la que suposem a l’hora de valorar si el resultat es deu a l’at-
zar. H0 expressa, per exemple, que un paràmetre de la població, com pot
ser la mitjana μ, pren un valor específic, o que aquesta mitjana μ és igual
en dos grups diferents de subjectes.

Hipòtesi alternativa

La hipòtesi alternativa, representada per H1, és l’expressió de l’efecte,


canvi o diferència que pot trobar-se en les dades estudiades (i que en
moltes ocasions, encara que no en totes, és la que esperem o sospitem).
La hipòtesi alternativa diu, per exemple, que un paràmetre de la pobla-
ció, com la mitjana μ, difereix d’un valor especificat, o que el mateix pa-
ràmetre μ obtingut en dos grups diferents difereix en el seu valor, en
una direcció determinada (unilateral o d’una cua) o en les dues direcci-
ons (bilateral o de dues cues).

Per exemple, al vídeo 19 del CD, en el control de qualitat dels quadres de cir-
cuits impresos de la fàbrica d’electrònica, un inspector usava el valor 100 com
a estàndard per a la qualitat de les soldadures. Si la mitjana de la població de
circuits impresos que es fabricaven fos 100, el procés de producció estaria con-
trolat. Per tant, la hipòtesi nul·la en aquest cas seria que la mitjana de la po-
© FUOC • P08/10512/02520 13 Introducció al contrast d’hipòtesis

blació és 100, mentre que la hipòtesi alternativa seria que la mitjana no és 100.
Expressem això d’una manera més formal per mitjà de la notació H0 per a la
hipòtesi nul·la, H1 (o Ha, com en el vídeo) per a la hipòtesi alternativa i μ per
a la mitjana de la població, de la manera següent:

• Hipòtesi nul·la: H0: μ = 100


• Hipòtesi alternativa: H1: μ ≠ 100

En el nostre exemple pràctic general, comparem la mitjana en ansietat dels ha-


bitants del municipi amb una mitjana considerada habitual en la població ge-
neral que és de 25. Així, o la mitjana en ansietat dels habitants del municipi
és 25 (igual a la de la població general) –la qual cosa correspondria a la hipòtesi
nul·la– , o bé és diferent –la hipòtesi alternativa. Fixeu-vos en una altra carac-
terística que diferencia la hipòtesi nul·la de l’alternativa:

• La hipòtesi nul·la habitualment (però no sempre) consisteix en una igual-


tat simple entre paràmetres o entre un paràmetre i un valor fix; en aquest
cas, la igualtat a la mitjana del grau d’ansietat.

• La hipòtesi alternativa consisteix normalment en moltes possibilitats; en


aquest cas, que la mitjana d’ansietat dels habitants del municipi sigui dife-
rent de la de la població general.

Igual que en l’exemple anterior, si definim la mitjana en ansietat de la pobla-


ció general com μ, les expressions formals de la hipòtesi nul·la i l’alternativa
serien les següents:

• Hipòtesi nul·la: H0: μ = 25


• Hipòtesi alternativa: H1: μ ≠ 25

Per acabar amb aquest apartat, posem un altre exemple que acabi d’establir el
tema: suposem que el propòsit d’un estudi en el municipi és constatar si hi ha
diferència en el grau d’ansietat entre els dos sexes. En aquest context la hipò-
tesi nul·la serà que no hi ha diferència entre el grau mitjà d’ansietat dels ho-
mes (definit per μ1) i el de les dones (definit per μ2), mentre que l’alternativa
serà que sí que hi ha diferències. Expressades formalment aquestes dues hipò-
tesis són les següents:

• Hipòtesi nul·la: H0: μ1 = μ2


• Hipòtesi alternativa: H1: μ1 ≠ μ2
© FUOC • P08/10512/02520 14 Introducció al contrast d’hipòtesis

4. Ús dels intervals de confiança per a dur a terme


un contrast d'hipòtesi

Ja hem utilitzat els intervals de confiança per a dur a terme un contrast d’hi-
pòtesi sense esmentar-ho de manera específica. Així, en el nostre exemple ge-
neral, hem plantejat una situació en què es pretén comprovar si la mitjana
d’ansietat dels habitants del municipi està dins dels estàndards habituals, que
corresponen a una puntuació de 25 en l’escala MAS. Hem plantejat les hipò-
tesis nul·la i alternativa per a aquest cas:

• Hipòtesi nul·la: H0: μ = 25


• Hipòtesi alternativa: H1: μ ≠ 25

En aquest apartat calculem un interval de confiança per a la mitjana en ansi-


etat dels subjectes del municipi, a partir de la mostra dels 100 subjectes de què
disposem. Aquest interval, amb un grau de confiança del 95%, estava entre
19,505 i 24,615. Per tant, confiem en un percentatge del 95% que la vertadera
mitjana de la població de referència nostra (els habitants del municipi) està
entre aquests límits i veiem que aquest interval no conté el valor 25. Atès que
volem comprovar que la mitjana de la població és 25, podem dir amb molta
seguretat que no és de 25. A partir dels càlculs fets per a establir els intervals
de confiança, diem que rebutgem la hipòtesi nul·la, on μ = 25, i per tant, ac-
ceptem la hipòtesi alternativa, on μ ≠ 25. Interpretem aquestes dades, dins del
context del nostre exemple general, de manera que el grau mitjà d’ansietat
dels habitants del municipi no és igual al grau mitjà de la població general.

En definitiva, si plantegem un estudi on volem comprovar si un valor mostral


(com la mitjana en ansietat dels 100 subjectes estudiats) és igual a un determi-
nat valor d'un paràmetre poblacional (com el valor de 25 dels estàndards ge-
nerals), podem plantejar un contrast d’hipòtesi en què la hipòtesi nul·la és que
sí que és igual el valor mostral al paràmetre, i una hipòtesi alternativa en què
no és igual. Llavors calculem, a partir de les dades mostrals recollides, l’inter-
val confidencial d’estimació del paràmetre corresponent (amb un nivell de
confiança prèviament establert), i si dins d’aquest interval de confiança hi ha
el valor del paràmetre poblacional acceptem la hipòtesi nul·la, i si no hi ha
l’esmentat valor, rebutgem la hipòtesi nul·la i acceptem l’alternativa.
© FUOC • P08/10512/02520 15 Introducció al contrast d’hipòtesis

5. Contrast d’hipòtesi i proves de significació

Hem vist en l’apartat anterior com podem fer un contrast d’hipòtesi a partir
del plantejament de l’interval de confiança corresponent. Si bé aquest és un
camí perfectament vàlid per a dur a terme un contrast d’hipòtesi, no és el que
habitualment s’utilitza. És molt més habitual fer el contrast d’hipòtesi mitjan-
çant un procediment equivalent a l’anterior, però que segueix uns passos una
mica diferents. La diferència més important resideix en el fet que en el proce-
diment vist fins ara utilitzem l’interval de confiança per a prendre la decisió
sobre les hipòtesis estadístiques, mentre que en el procediment del contrast
d’hipòtesi utilitzem el denominat estadístic de contrast.

Estadístic de contrast

Podem definir l’estadístic de contrast com un instrument estadístic cre-


at per a prendre decisions sobre la hipòtesi nul·la amb certa probabilitat.
Un estadístic de contrast es caracteritza per tenir una distribució mos-
tral coneguda (normal, t de Student, χ2, etc.). Per a cada tipus de con-
trast (d’una mitjana, de dues mitjanes, de dues proporcions, etc.) tenim
el seu estadístic de contrast corresponent.

Vegem quin és l’esquema general d’aquest contrast d’hipòtesi, i considerem


els diferents passos que s’han de dur a terme. Podem fer-ho utilitzant el mateix
exemple de l’apartat anterior sobre el grau mitjà d’ansietat dels habitants del
municipi (que volem comprovar si és igual als estàndards de 25 punts):

Els passos que s’han de seguir són els següents:

1) Plantejar la hipòtesi nul·la i l’alternativa.

• Hipòtesi nul·la: H0: μ = 25


• Hipòtesi alternativa: H1: μ ≠ 25

2) Obtenir, a partir de les dades mostrals, l’estadístic de contrast corresponent.

En el nostre exemple, atès que comparem una mitjana mostral amb una mit-
jana poblacional, l’estadístic de contrast és el següent:

x − μ , on
t=
sx

t és el valor de la t de Student,
© FUOC • P08/10512/02520 16 Introducció al contrast d’hipòtesis

x és la mitjana mostral obtinguda,

μ és la mitjana poblacional sota la hipòtesi nul·la,

s
sx és l’error típic de la mitjana, que ja sabem com es calcula: sx =
n

Així, continuant amb el nostre exemple, i com que ja tenim calculats tots els
valors anteriors, l’estadístic de contrast és:

x − μ 22,06 − 25
t= = = −2,283
sx 1,288

3) Obtenir les regions d’acceptació i rebuig de la hipòtesi nul·la, a partir del valor
de l’estadístic de contrast teòric. A partir de la distribució corresponent de l’es-
tadístic de contrast (normal, t de Student, χ2, etc.), i especificant el nivell de con-
fiança assumit (o més habitualment, el seu complementari, que és el nivell de
significació α), s’obtenen els dos valors d’aquest estadístic de contrast que inclo-
uen el percentatge corresponent al nivell de confiança (95%). Aquests dos valors
es denominen valors crítics (superior i inferior) de l’estadístic de contrast, i la
regió compresa entre aquests dos valors es denomina regió d’acceptació de la
hipòtesi nul·la. La regió de rebuig de la hipòtesi nul·la és la compresa per sobre
del valor crític superior i per sota del valor crític inferior.

En el nostre exemple, l’estadístic de contrast es distribueix segons una t de Stu-


dent amb n – 1 graus de llibertat. Així, per a un nivell de confiança del 95% (o
el que és el mateix, un nivell de significació α = 0,05), i 99 (n – 1) graus de lli-
bertat, els valors de la t de Student són: ± 1,984 (els podem obtenir amb la fun-
ció “DISTR.T.INV" de l’Excel). És a dir, que el 95% de la distribució t de Student
amb 99 graus de llibertat està entre els valors de –1,984 i +1,984. Aquests són
els denominats valors crítics per a aquest cas. Així, entre aquests dos valors tin-
drem la regió d’acceptació de la hipòtesi nul·la, mentre que per sobre i per sota
d’aquests límits tindrem la regió de rebuig de la hipòtesi nul·la.

4) Prendre la decisió d’acceptar o rebutjar la hipòtesi nul·la.

Prenem aquesta decisió comparant l’estadístic de contrast calculat amb les da-
des mostrals (en el nostre exemple –2,283), amb els valors crítics de la distri-
bució corresponent. Així, si el nostre estadístic de contrast calculat queda
entre aquests valors crítics, acceptem la hipòtesi nul·la (ja que som a la regió
d’acceptació de l’esmentada hipòtesi), mentre que si el nostre estadístic de
contrast calculat és més gran que el valor crític superior o menor que l’inferior,
rebutgem la hipòtesi nul·la i acceptem l’alternativa.

En el nostre cas, rebutgem la hipòtesi nul·la i acceptem l’alternativa, perquè el


nostre estadístic de contrast calculat (–2,283) és menor que el valor crític infe-
rior, que és de –1,984. Dit d’una altra manera, l’estadístic de contrast calculat
amb les nostres dades mostrals cau a la regió de rebuig de la hipòtesi nul·la.
© FUOC • P08/10512/02520 17 Introducció al contrast d’hipòtesis

5) Interpretem el resultat en el context de l’estudi realitzat.

En el nostre exemple, la conclusió a què arribem és la mateixa que la conclusió


a què vam arribar en fer l’interval de confiança en l’apartat anterior, això és,
el grau mitjà d’ansietat dels habitants del municipi no és igual al de la població
en general.

Com podem observar, les dues proves (interval de confiança i contrast d’hipò-
tesi) són equivalents, i lògicament ens porten al mateix resultat.

El contrast d’hipòtesi, tal com l’hem vist fins a aquest moment, pot tenir una
variant que és la utilitzada habitualment en els paquets estadístics informatit-
zats. Aquesta variant es denomina prova de significació, i consisteix a obtenir
directament la probabilitat de l’estadístic de contrast mostral calculat. Així, en
el nostre exemple anterior, l’estadístic de contrast calculat era de –2,283, i la
probabilitat d’aquest valor per a una t de Student de 99 (n – 1) graus de llibertat
és de 0,025 (es pot obtenir amb la funció “DISTR.T” de l’Excel, per a un valor
x de 2,283, amb 99 graus de llibertat i 2 cues).

Aquesta probabilitat de 0,025 és la probabilitat d’obtenir un estadístic de con-


trast almenys tan extrem com l’obtingut a partir de les nostres dades. Aquesta
probabilitat es denomina valor p.

Valor p

El valor p és la probabilitat d’observar el resultat (per exemple, el valor


de la mitjana mostral) o un resultat més extrem quan la hipòtesi nul·la
és certa. Com més petit és el valor p, més accentuada és l’evidència con-
tra la H0 proporcionada per les dades. Els valors p per sota del nivell de
significació α (habitualment de 0,05) s’anomenen convencionalment
significatius.

Per a prendre una decisió respecte a la hipòtesi nul·la, simplement comparem


aquest valor p amb el nivell de significació (α). Si el valor p és superior a α ac-
ceptem la hipòtesi nul·la, i si és més petit la rebutgem i acceptem l’alternativa
(llavors diem que el resultat és estadísticament significatiu).

Nivell de significació α

Nivell de significació α: probabilitat màxima α de cometre un error de


tipus I. S’estableix en funció del risc que s’està disposat a assumir abans
de reunir i analitzar les dades. Si el valor p del contrast és menor que α,
la hipòtesi nul·la es rebutja i diem que el resultat observat és estadísti-
cament significatiu al nivell de α.
© FUOC • P08/10512/02520 18 Introducció al contrast d’hipòtesis

Podem esquematitzar els passos per al contrast d’hipòtesi o la prova de signi-


ficació en la taula 3.

Taula 3
Contrast d’hipòtesi Prova de significació
Determinar la hipòtesi nul·la i l’alternativa
Calcular el valor de l’estadístic de contrast amb les dades mostrals
Determinar les regions d’acceptació i rebuig de Obtenir la probabilitat (valor p) de l’estadístic
la hipòtesi nul·la (amb els valors crítics de de contrast
l’estadístic de contrast)
Prendre una decisió comparant el valor de Prendre una decisió comparant el valor p de
l’estadístic de contrast mostral o observat amb l’estadístic de contrast mostral o observat amb
els valors crítics de la distribució corresponent el nivell de significació α assumit
Interpretar la decisió anterior en el context de l’estudi realitzat
© FUOC • P08/10512/02520 19 Introducció al contrast d’hipòtesis

6. Errors de tipus I i de tipus II

Tal com hem vist en apartats anteriors, sempre que prenem una decisió en un
contrast d’hipòtesi o en una prova de significació, podem haver encertat o ens
podem haver equivocat, ja que sempre hi ha una probabilitat que sigui certa
la hipòtesi nul·la, encara que l’hàgim rebutjat (de fet aquesta probabilitat és el
valor p), o que no sigui certa encara que l’hàgim acceptat d’acord amb les nos-
tres dades mostrals.

Així, podem compondre una taula similar a les taules 1 i 2 per a representar la
situació en el contrast d’hipòtesis estadístiques (taula 4).

Taula 4
Situació certa
Decisions basades en les dades H0 H1
Decisió incorrecta
Decisió correcta
H0 Error de tipus II
Probabilitat 1 – α
Probabilitat β
Decisió incorrecta
Decisió correcta
H1 Error de tipus I
Probabilitat 1 – β
Probabilitat α

En aquesta taula hem presentat dos termes que s’utilitzen per a les decisions
incorrectes que es poden prendre en aquesta situació:

1) L’anomenat error de tipus I

Error de tipus I és el que es comet en pronunciar-nos a favor de la hi-


pòtesi alternativa (és a dir, en rebutjar la hipòtesi nul·la) quan de fet la
hipòtesi certa és la nul·la.

La probabilitat d’aquest error de tipus I és igual a α (nivell de significa-


ció) o al valor p.

2) L’anomenat error de tipus II

Error tipus II és el que es comet en pronunciar-nos a favor de la hipò-


tesi nul·la quan la hipòtesi alternativa és la certa. La probabilitat de co-
metre un error de tipus II es representa per β i inicialment és
desconeguda.
© FUOC • P08/10512/02520 20 Introducció al contrast d’hipòtesis

7. Potència d’un contrast d’hipòtesi o prova


de significació

Com hem vist en l’apartat anterior, la probabilitat de cometre un error de ti-


pus II es denomina β, i en principi l’investigador la desconeix. El comple-
mentari d’aquest valor β, és a dir, 1 – β, és l’anomenada potència de la prova
estadística, i és la probabilitat de no equivocar-nos quan rebutgem una hipò-
tesi nul·la i acceptem, per tant, l’alternativa. Dit d’una altra manera, és la se-
guretat que tenim de no equivocar-nos en acceptar una hipòtesi alternativa
(que en força ocasions representa la hipòtesi de l’efectivitat d’una interven-
ció determinada, perquè expressa la diferència entre dos o més grups o mos-
tres de dades).

Com que el valor de β és desconegut inicialment, també ho és el valor de la


potència de la prova (1 – β), encara que sí que sabem la relació que té amb el
grau de significació i amb la mida de la mostra, per exemple.

La relació entre α i β, és a dir, entre la probabilitat de cometre un error de tipus I


i un error de tipus II, és un altre dels intercanvis característics en estadística,
perquè aquesta relació és inversa. Així, si volem disminuir la probabilitat de
cometre un error de tipus I (disminuint α), estem augmentant la probabilitat
de cometre un error de tipus II (augmentant β), i disminuïm en conseqüència
la potència de la prova estadística.

Aquest intercanvi entre α i β es pot apreciar millor en la figura 1.

Com es pot observar, la hipòtesi alternativa, de ser certa, també té la seva prò-
pia distribució de densitat (com la hipòtesi nul·la), i aquestes dues distribuci-
ons s’encavalquen (en aquest cas pel costat dret de la hipòtesi nul·la perquè la
prova és unilateral per la cua dreta). Així, el valor crític de l’estadístic de con-
trast és la línia vertical que divideix la gràfica en dos. Per sota (o a l’esquerra)
d’aquest valor hi ha la regió (o zona) d’acceptació de la hipòtesi nul·la, i per
sobre (o per la dreta) la regió de rebuig de l’esmentada hipòtesi nul·la. Això de-
termina dues àrees ratllades: una verticalment, que és la proporció de la distri-
bució de la H0 per sobre del valor crític de l’estadístic de contrast i que
correspon al grau de significació α o al valor p, i una altra horitzontalment,
que és la proporció de la H1 per sota d’aquest valor crític i que denominem β.
Si disminuïm la zona ratllada verticalment (és a dir, el grau de significació α),
desplacem la ratlla vertical cap a la dreta, i això comporta que augmenti la
zona ratllada horitzontalment, és a dir β, amb la qual cosa disminueix, en con-
seqüència, la regió 1 – β, que denominem potència de la prova.
© FUOC • P08/10512/02520 21 Introducció al contrast d’hipòtesis

Figura 1

L’única manera de disminuir tant la probabilitat de cometre un error de tipus


Enllaç recomanat
I com de tipus II i augmentar la potència de la prova estadística és augmentant
No ens estendrem més en
les mides mostrals. Així doncs, augmentar el nombre de subjectes de les mos- aquests conceptes perquè no
tres és l’única manera que tenim de disminuir les probabilitats de cometre un és objectiu d’aquest mòdul,
però se’n pot consultar una
error (sigui del tipus I o del II) en una prova estadística de significació. excel·lent il·lustració en la
web següent:
http://
www.psychstat.missouristate
.edu/introbook/sbk26.htm.
© FUOC • P08/10512/02520 22 Introducció al contrast d’hipòtesis

8. Contrastos unilaterals i bilaterals

Fins a aquest moment en obtenir els valors crítics de l’estadístic de contrast i


el valor p, hem trobat l’àrea en les dues cues de la distribució de la mitjana
mostral (així, en l’exemple de l’ansietat, l’estadístic de contrast eren ± 1,984,
que deixen entre ells el 95% de la distribució t amb 99 graus de llibertat). Això
és així perquè la hipòtesi alternativa que plantejàvem era que la mitjana en an-
sietat no era de 25 punts (μ ≠ 25). Aquesta hipòtesi alternativa es denomina
bilateral o de dues cues per aquesta raó, i la prova que duem a terme, una pro-
va bilateral. En l’exemple del vídeo sobre el canvi del sabor de les begudes de
cola, en el qual la hipòtesi nul·la és que hi ha canvi de dolçor, també parlem
d’una hipòtesi alternativa bilateral quan diem que hi ha hagut un canvi, però
no fem cap hipòtesi sobre la direcció d’aquest canvi.

Tanmateix, hi pot haver altres situacions en les quals la hipòtesi alternativa es


defineixi com una diferència en un sentit determinat. Així, en el nostre exem-
ple de la mitjana en ansietat, podíem haver plantejat l’estudi per a contrastar
si la mitjana en ansietat dels habitants del municipi és inferior als 25 punts
dels estàndards habituals. En aquest cas, la hipòtesi alternativa ja té una direc-
ció determinada, ja que no només diem que la mitjana en ansietat dels habi-
tants del municipi no és de 25 punts, sinó que diem que és inferior a 25 punts
(μ < 25) . En aquesta situació, parlem d’una hipòtesi alternativa unilateral o
d’una sola cua, i la prova que duem a terme és una prova unilateral.

Tant si la hipòtesi alternativa és unilateral com si és bilateral, la importància


que té és que això afecta el valor de l’estadístic de contrast i al valor p: per a
una prova bilateral, s’ha de calcular l’àrea de les dues cues de la distribució (es
distribueix el grau de significació α entre les dues cues de la distribució, i hi ha
un valor crític per a cada una d’elles), mentre que per a una prova unilateral
s’ha de calcular l’àrea d’una sola cua de la distribució (el grau de significació α
s’acumula tot en una sola cua de la distribució, i solament hi ha un valor crític,
que és l’inferior o el superior depenent del sentit de la H1). En altres paraules,
expressar una alternativa bilateral porta a un valor p que és dues vegades la del
valor p que hauríem obtingut per a les mateixes dades si s’hagués expressat
una hipòtesi alternativa unilateral amb antelació.

Que la H1 sigui unilateral o bilateral depèn de l’efecte que es vulgui compro-


var, i ve determinat per l’objectiu de la prova de significació.

Per a il·lustrar aquest apartat, suposarem que el nostre propòsit no és determi-


nar si la mitjana en ansietat dels habitants del municipi és de 25 punts, sinó
si és inferior a 25 punts. En aquesta nova situació, que es correspon amb una
© FUOC • P08/10512/02520 23 Introducció al contrast d’hipòtesis

prova unilateral, hem de fer alguns canvis respecte a la realitzada anterior-


ment.

Així, les hipòtesis nul·les i alternatives ara són les següents:

• Hipòtesi nul·la: H0: μ ≥ 25


• Hipòtesi alternativa: H1: μ < 25

Com veiem, ha canviat la hipòtesi alternativa, que ara és unilateral, i la nul·la,


que és la complementària.

L’estadístic de contrast continua sent el mateix, i per tant el seu valor calculat
a partir de les dades mostrals continua sent de –2,283.

El que canvia és el valor crític d’aquest estadístic de contrast, que hem d’ob-
tenir-lo per a una distribució t de Student amb 99 (n – 1) graus de llibertat i
α = 0,05, però aquest 0,05 acumulat tot en la cua esquerra de la distribució, i
per tant el valor de la t que deixa un 0,05 de la distribució per sota seu. Podem
trobar aquest valor amb la funció “DISTR.T.INV’ de l’Excel, però tenint en
compte que la probabilitat ara és de 0,10 (2α, el doble que per a la prova bila-
teral, que és la que fa l’Excel) i el valor de t és negatiu, ja que som a la cua es-
querra de la distribució (encara que la funció de l’Excel solament ens dóna el
valor positiu). Aquest valor llavors és de –1,66. Ara comparem aquest valor crí-
tic amb el calculat amb les nostres dades, i veiem que el calculat és menor que
aquest valor crític (–2,283 < –1,66), per la qual cosa continuem rebutjant la hi-
pòtesi nul·la i acceptant l’alternativa, i interpretant aquest resultat en el sentit
que la mitjana en ansietat dels habitants del municipi és inferior (són menys
ansiosos) al grau mitjà de la població en general.
© FUOC • P08/10512/02520 24 Introducció al contrast d’hipòtesis

9. Contrastos paramètrics i contrastos no paramètrics

En tot el que hem exposat sobre el contrast d’hipòtesi, hem donat per fet que
les dades amb què treballàvem (les observacions obtingudes) complien uns de-
terminats supòsits. No és que hàgim explicitat això en cap apartat anterior,
però sí que es pot deduir del que hem exposat en aquests apartats que, per
exemple, la variable estudiada (l’ansietat en el nostre cas pràctic general) ha
d’estar mesurada almenys amb una escala d’interval, ja que, a partir de les se-
ves dades, calculem uns estadístics (com la mitjana aritmètica o la desviació
estàndard) que solament es poden obtenir en variables mesurades amb les es-
mentades escales (d’interval o de raó). També parlàvem que la distribució de
l’estadístic de contrast s’ajusta a alguna distribució de probabilitat coneguda,
com la normal o la t de Student, per exemple. Tot això significa que els con-
trastos estadístics, tal com els hem plantejat fins a aquest moment, requerei-
xen per a la seva aplicació el compliment de determinats supòsits respecte a la
variable en la població, o respecte a les dades mostrals. Aquests supòsits (al-
menys els més bàsics) es refereixen a les tres característiques següents:

• La independència de les observacions. El supòsit d’independència de les


observacions és important perquè tal independència és exigida pels estadís-
tics de contrast que, com en el cas de la distribució mostral de la mitjana,
es basen en el supòsit que l’esmentada distribució es comporta com una va-
riable aleatòria, i per tant les dades mostrals són valors aleatoris indepen-
dents els uns dels altres. Per exemple, en el nostre cas pràctic general,
aquest supòsit d’independència de les observacions es concretaria en el fet
que l’ansietat (o el grau d’ansietat mesurat pel MAS) d’un qualsevol dels
subjectes de la mostra no ens proporciona cap informació sobre l’ansietat
de qualsevol dels altres subjectes. Així, per més que sapiguem el grau d’an-
sietat del primer subjecte de la nostra matriu de dades (que seria un subjec-
te qualsevol), això no ens diu res (no ens proporciona cap informació)
sobre el grau d’ansietat del segon dels subjectes de l’esmentada matriu. Dit
d’una altra manera, el grau d’ansietat (puntuació en el MAS) de cada un
dels 100 subjectes estudiats és independent del de tots els altres. Les obser-
vacions són independents les unes de les altres.

• Nivell de mesura. Ja hem comentat aquest supòsit anteriorment. Si volem


fer un contrast d’hipòtesi sobre un determinat paràmetre (per exemple la
mitjana aritmètica), la variable estudiada ha d’estar mesurada amb una es-
cala que permeti calcular l’esmentat estadístic. Així, per exemple, si la va-
riable està mesurada amb una escala ordinal, no hi ha possibilitat de fer un
contrast d’hipòtesi com els plantejats fins a aquest moment, perquè aques-
ta variable no permet calcular estadístics com la mitjana aritmètica o la
desviació estàndard.
© FUOC • P08/10512/02520 25 Introducció al contrast d’hipòtesis

• Aspectes de la distribució. L’aplicació d’alguns contrastos d’hipòtesi re-


quereix fer determinats supòsits sobre aspectes de la distribució. Hem vist
com en el contrast d’hipòtesi per a la mitjana a partir de l’interval de con-
fiança suposàvem que la variable estudiada tenia distribució normal en la
població o, com veurem en els mòduls posteriors, la comparació de diver-
ses poblacions utilitzant la mitjana requereix que les esmentades poblaci-
ons tinguin la mateixa variància (homogeneïtat de variàncies, com veurem
en tractar l’anàlisi de variància).

Tanmateix, hi ha un altre tipus de contrastos d’hipòtesi que no requereixen


supòsits tan restrictius com els esmentats anteriorment, sinó que solament es-
tableixen supòsits molt generals, com la simetria o la continuïtat.

En funció que es compleixin o no alguns dels supòsits esmentats, podrem apli-


car un tipus de contrast o un altre. Així, per als contrastos d’hipòtesi en els
quals es compleixi la independència de les observacions, el nivell de mesura
(almenys d’interval) i els supòsits requerits sobre els aspectes de la distribució,
aplicarem els contrastos denominats paramètrics, mentre que per als casos
en els quals no es compleixin aquests supòsits, o no estiguem segurs que es
compleixin (per exemple, perquè tenim mostres amb pocs subjectes i no po-
dem apel·lar el teorema del límit central), aplicarem els anomenats contrastos
no paramètrics, que són molt menys restrictius.

En els següents mòduls, on tractarem de diferents problemes de contrastos


d’hipòtesi, en funció dels tipus de variables estudiades o del nombre de mos-
tres comparades, presentarem el contrast d’hipòtesi paramètric corresponent
juntament amb l’alternativa no paramètrica per als casos en què no es com-
pleixin els supòsits del contrast paramètric.
© FUOC • P08/10512/02520 26 Introducció al contrast d’hipòtesis

10. Proves de bondat d’ajustament

Com hem vist en l’apartat immediatament anterior, alguns contrastos para-


mètrics requereixen el compliment de certs supòsits referents a aspectes de la
distribució, com pot ser el fet que aquesta distribució s’ajusti a la normal. Per
poder verificar aquest supòsit, s’apliquen uns contrastos d’hipòtesi que es de-
nominen de bondat d’ajustament, perquè permeten contrastar si una determi-
nada distribució de dades s’ajusta a una distribució de probabilitat o de
densitat coneguda, com pot ser la distribució normal. Hi ha diferents proves
de bondat d’ajustament (per exemple la de χ2 per a variables categòriques),
però en aquest apartat solament en comentarem una. Aquesta prova s’utilitza
habitualment per a contrastar l’ajustament d’una distribució de dades d’una
variable quantitativa (com poden ser les puntuacions en ansietat [MAS] del
nostre exemple general) a una distribució de densitat coneguda com la distri-
bució normal (que és la que més habitualment es fa). L’esmentat contrast d’hi-
pòtesi és la prova de Kolmogorov-Smirnov.

10.1. Prova de Kolmogorov-Smirnov

La prova de Kolmogorov-Smirnov ens permet contrastar si una distribució de


dades empírica (obtinguda mitjançant mostreig) s’ajusta a algun model teòric
de probabilitat. Habitualment, el model teòric de probabilitat és la distribució
normal, però la prova pot aplicar-se a qualsevol altre tipus de model teòric de
probabilitat (com pot ser una distribució uniforme o una de binomial).

Per a il·lustrar la prova, l’aplicarem a les dades del nostre exemple pràctic ge-
neral per a la variable ansietat. L’objectiu de l’aplicació de l’esmentada prova
seria comprovar si la variable ansietat (puntuacions en el MAS) s’ajusta a una
distribució normal. Seguirem els passos habituals per a tot contrast d’hipòtesi:

1) Hipòtesi nul·la i alternativa

H0: la variable es distribueix normalment; F(x) = normal


H1: la variable no es distribueix normalment; F(x) ≠ normal

2) Estadístic de contrast

D = màxim⏐F(x) – Fn(x)⏐

On: F(x) representa la proporció acumulada per a un determinat valor de la vari-


able, i Fn(x) representa la proporció acumulada sota el supòsit de la hipòtesi nul·la
(en el nostre exemple, suposant que les dades es distribueixen normalment).
© FUOC • P08/10512/02520 27 Introducció al contrast d’hipòtesis

És a dir, l’estadístic de contrast és la diferència màxima (en valor absolut) entre


les proporcions acumulades empíriques i teòriques (en hipòtesi nul·la).

3) Càlcul de l’estadístic de contrast:

En la taula 5 es presenten els càlculs necessaris per a l’obtenció de l’estadístic


de contrast del nostre exemple.

Taula 5
Valors Freqüències Percentatges F(x) zx Fn(x) F(x) – Fn(x)

0 4 4 0,04 –1,713 0,043 –0,003

1 1 5 0,05 –1,635 0,051 –0,001

2 2 7 0,07 –1,558 0,060 0,010

3 1 8 0,08 –1,480 0,069 0,011

4 2 10 0,1 –1,402 0,080 0,020

5 2 12 0,12 –1,325 0,093 0,027

6 1 13 0,13 –1,247 0,106 0,024

7 1 14 0,14 –1,169 0,121 0,019

8 4 18 0,18 –1,092 0,137 0,043

9 2 20 0,2 –1,014 0,155 0,045

10 3 23 0,23 –0,936 0,175 0,055

12 4 27 0,27 –0,781 0,217 0,053

14 4 31 0,31 –0,626 0,266 0,044

15 1 32 0,32 –0,548 0,292 0,028

16 1 33 0,33 –0,471 0,319 0,011

17 4 37 0,37 –0,393 0,347 0,023

18 5 42 0,42 –0,315 0,376 0,044

19 3 45 0,45 –0,238 0,406 0,044

20 3 48 0,48 –0,160 0,436 0,044

21 4 52 0,52 –0,082 0,467 0,053

22 2 54 0,54 –0,005 0,498 0,042

23 1 55 0,55 0,073 0,529 0,021

24 3 58 0,58 0,151 0,560 0,020

25 3 61 0,61 0,228 0,590 0,020

26 3 64 0,64 0,306 0,620 0,020

27 1 65 0,65 0,384 0,649 0,001

28 4 69 0,69 0,461 0,678 0,012

29 1 70 0,7 0,539 0,705 -0,005

31 7 77 0,77 0,694 0,756 0,014

32 2 79 0,79 0,772 0,780 0,010

34 1 80 0,8 0,927 0,823 –0,023


© FUOC • P08/10512/02520 28 Introducció al contrast d’hipòtesis

Valors Freqüències Percentatges F(x) zx Fn(x) F(x) – Fn(x)

35 1 81 0,81 1,005 0,843 –0,033

36 1 82 0,82 1,082 0,860 –0,040

37 2 84 0,84 1,160 0,877 –0,037

38 3 87 0,87 1,238 0,892 –0,022

39 2 89 0,89 1,315 0,906 –0,016

40 1 90 0,9 1,393 0,918 –0,018

41 2 92 0,92 1,471 0,929 –0,009

42 3 95 0,95 1,548 0,939 0,011

45 1 96 0,96 1,781 0,963 –0,003

46 2 98 0,98 1,859 0,968 0,012

48 2 100 1 2,014 0,978 0,022

On tenim la taula de freqüències de la variable ansietat (MAS), amb el percentatge


acumulat, F(x), i on zx representa la puntuació estandarditzada per a cada valor de
x (recordem que la mitjana de x és 22,06 i la seva desviació estàndard són 12,878),
i Fn(x) és la proporció acumulada en la distribució normal per a cada valor de zx
(podem obtenir-la amb la funció “DISTR.NORM.ESTAND” de l’Excel).

A l’última columna tenim calculades les diferències entre F(x) i Fn(x), i podem
constatar que la diferència màxima (independentment del signe) és 0,055, per
tant el valor de l’estadístic de contrast observat és el següent: D = 0,055.

4) Obtenció del valor crític de l’estadístic de contrast

Per a l’obtenció del valor crític de l’estadístic de contrast hem de consultar la Recordeu que l’annex està
disponible al web de l’assignatura.
taula 9 bis de l’annex.

Com podem observar en aquesta taula, per al nostre exemple, amb n = 100
(mostra de 100 subjectes o observacions), i un nivell de significació α = 0,05
(p = 0,95 en la taula, perquè ens ofereix el nivell de confiança), el valor de l’es-

tadístic D teòric és de 1,36 = 0,136 .


100

Aquest valor crític de l’estadístic de contrast determina les regions d’accepta-


ció i de rebuig de la hipòtesi nul·la:

Regió d’acceptació de la hipòtesi nul·la: D ≤ 0,136.

Regió de rebuig de la hipòtesi nul·la: D > 0,136.

5) Decisió

Per a prendre la decisió pertinent sobre acceptar o rebutjar la hipòtesi nul·la,


comparem el valor de l’estadístic de contrast observat amb el valor crític ob-
© FUOC • P08/10512/02520 29 Introducció al contrast d’hipòtesis

tingut a les taules, i decidim en funció d’aquesta comparació i les regions de-
limitades pel valor crític. Així, en el nostre exemple acceptem la hipòtesi nul·la
perquè 0,055 és inferior a 0,136, és a dir, el valor de l’estadístic de contrast ob-
servat és inferior al valor crític de l’esmentat estadístic, i per tant aquest esta-
dístic de contrast observat cau dins de la regió d’acceptació de l’esmentada
hipòtesi nul·la.

6) Interpretació

En funció de la decisió anterior, hem de concloure (amb un nivell de signifi-


cació de 0,05) que la variable ansietat (puntuacions en el MAS) es distribueix
normalment.

10.2. Esquema de la prova de Kolmogorov-Smirnov

Podem esquematitzar aquesta prova de Kolmogorov-Smirnov per a la bondat


d’ajustament a una distribució normal en el quadre següent.

Prova de Kolmogorov-Smirnov

• Hipòtesi nul·la i alternativa:


H0: la variable es distribueix normalment; F(x) = normal.
H1: la variable no es distribueix normalment; F(x) ≠ normal.
• Estadístic de contrast (Dobservat)
D = màxim⏐F(x) – Fn(x)⏐
On: F(x) representa la proporció acumulada per a un determinat valor de
la variable, i Fn(x) representa la proporció acumulada en el supòsit de la
hipòtesi nul·la.
Recordeu que l’annex està
disponible al web de l’assignatura.
• Obtenció del valor crític de l’estadístic de contrast (Dteòric)
Taula 9 bis de l’annex en funció del grau de significació (o grau de confi-
ança en la taula) i de la mida de la mostra (n)
• Determinació de les regions d’acceptació i rebuig de la hipòtesi nul·la
Regió d’acceptació de la hipòtesi nul·la: Dobservat ≤ Dteòric
Regió de rebuig de la hipòtesi nul·la: Dobservat > Dteòric
• Prendre la decisió adequada
• Interpretar els resultats en el context de l’estudi plantejat
© FUOC • P08/10512/02520 30 Introducció al contrast d’hipòtesis

Resum dels vídeos

Vídeo 21

Al vídeo es comença considerant diferents grups d’estudiants a punt de fer


l’anomenat SAT o scholastic aptitude test. Un grup d’estudiants ha rebut classes
particulars i aconsegueix millors puntuacions que el grup d’estudiants que no
les ha rebut. Podem afirmar que aquest fet és una bona evidència que les clas-
ses particulars milloren els resultats en el SAT? O potser el grup que rep classes
particulars té estudiants amb un millor rendiment solament per casualitat?
Aquest és el tipus de decisió que podem prendre aplicant el contrast d’hipò-
tesis estadístiques: el resultat de la mostra reflecteix una diferència real o po-
dria ser que s’hagués obtingut aquest resultat per casualitat?

Observem la proves de sabor de Nutrasweet, un edulcorant artificial que es fa ser-


vir a les begudes de cola de règim. Un grup de tastadors o tastadores valoren la
beguda de cola acabada de fer, quan l’edulcorant fins i tot està fresc, i després d’un
mes emmagatzemat a temperatures altes, que imiten els efectes de quatre mesos
d’emmagatzemament normal. Les nostres dades, que corresponen a la pèrdua de
sabor, és a dir, les diferències en les puntuacions de dolçor obtingudes pels 10 tas-
tadors, restant la segona valoració de la primera, són les següents:

2,0 0,4 0,7 2,0 –0,4 2,2 –1,3 1,2 1,1 2,3

La mitjana de la mostra, 1,02, dóna la pèrdua mitjana. Hem de decidir si


aquesta pèrdua de dolçor és real o si aquest resultat s’hauria pogut obtenir fà-
cilment per atzar.

El vídeo mostra els diversos passos necessaris per a formalitzar aquesta decisió:

• En primer lloc es posa en marxa la hipòtesi nul·la, segons la qual la dolçor


no ha canviat.
• Després es defineix la hipòtesi alternativa, segons la qual hi ha hagut una
pèrdua de dolçor.

El raonament de la prova de significació és el següent: comencem suposant


que la hipòtesi nul·la és certa. Sorprèn el resultat mostral x = 1,02? Per a res-
pondre fem servir els nostres coneixements sobre la variació de la mitjana
mostral. Si la mitjana poblacional és realment 0, llavors la mitjana de la mos-
tra també serà 0 amb una desviació estàndard (error típic) igual a la desviació
estàndard de la població dividida per n .

El vídeo diu que podem utilitzar el valor d’1 per a la desviació estàndard de la
població, que s’ha establert després d’una llarga experiència amb aquest tipus
© FUOC • P08/10512/02520 31 Introducció al contrast d’hipòtesis

de dades (encara que també sabem que a la pràctica haurem d’estimar la des-
viació estàndard a partir de les dades mostrals), de manera que podem obtenir
l’error estàndard o típic de la mitjana mostral com 1/ 10 = 0,316. Ara podem
jutjar fins a quin punt la mitjana mostral d’1,02 és sorprenent localitzant-la
en la distribució de mitjana 0 i desviació estàndard 0,316 (fixeu-vos que al ví-
deo es fa servir la distribució normal perquè se suposa que la desviació estàn-
dard es coneix; a la pràctica, en estimar-la usaríem la distribució t). Trobem
que el resultat és molt sorprenent, ja que l’obtindríem amb una probabilitat
de només 0,0006.

Aquesta probabilitat, la probabilitat que observi un resultat tan extrem com el


que tenim o més extrem encara, suposant que la hipòtesi nul·la sigui certa, es
denomina valor p de la prova. Quan el valor p és més petit de 0,05, diem que
el resultat és estadísticament significatiu amb un grau de significació del 5%
(α = 0,05).

En aquest exemple, la hipòtesi alternativa és que la diferència de mitjana és


més gran de 0 (la beguda de cola perd dolçor), de manera que hem usat la cua
superior de la distribució (o t) per a calcular el valor de p. Això es denomina
hipòtesi alternativa unilateral. La hipòtesi alternativa bilateral no especi-
ficaria la direcció del canvi, solament que la diferència no és zero. Es calcula
llavors el valor p com l’àrea en la corba de densitat en les dues cues, per sobre
d’1,02 i per sota de –1,02, la qual cosa dóna p = 0,0012 en aquest exemple (du-
es vegades 0,0006).

Per tant, el valor p és sempre la probabilitat d’un resultat almenys tan extrem
com el resultat observat en la direcció o direccions donades per la hipòtesi al-
ternativa. Per a una hipòtesi alternativa unilateral calculem l’àrea d’una sola
cua, i per a una hipòtesi alternativa bilateral, l’àrea definida per dues cues.
© FUOC • P08/10512/02520 32 Introducció al contrast d’hipòtesis
© FUOC • P08/10512/02520 33 Introducció al contrast d’hipòtesis

Activitats

1. Hipòtesi nul·la i alternativa. Sempre continuant amb el nostre exemple pràctic general, ex-
presseu les hipòtesis nul·les i alternatives per a cada un dels possibles estudis següents (utilitzeu
una expressió verbal i després una de formal que incloguin els paràmetres de la població):

a) Volem estudiar si els habitants menors de 30 anys tenen diferent grau mitjà de depressió
que els habitants de 30 o més anys.

b) Després d’aplicar durant un temps un tractament de psicoteràpia antidepressiva per als


subjectes amb graus més alts en aquesta variable, tornem a passar-los el BDI. Volem analitzar
si el tractament ha estat efectiu.

c) Volem comprovar si la mitjana d’edat dels habitants del municipi és igual a la mitjana
d’edat de tots els habitants de la seva comunitat autònoma, que és de 35 anys.

2. Ús dels intervals de confiança per a dur a terme un contrast d’hipòtesi. Volem estudiar
si el grau mitjà en depressió (mesurat amb el BDI) dels habitants del municipi del nostre
exemple general és igual al grau mitjà habitual de la població adulta, que és de 18 punts en
el BDI, amb un nivell de confiança del 95%. Plantegeu la hipòtesi nul·la i l’alternativa cor-
responent, i preneu la decisió adequada respecte d’aquestes hipòtesis (acceptar-ne una o una
altra), i justifiqueu la decisió presa. Interpreteu aquests resultats en el context de l’estudi
plantejat.

3. Contrast d’hipòtesi i proves de significació. En aquesta activitat farem el mateix estudi


que en l’activitat anterior, però en lloc de fer-ho amb l’interval de confiança, ho farem mit-
jançant un contrast d’hipòtesi o una prova de significació. Per tant, continuem volent estu-
diar si el grau mitjà de depressió (mesurat amb el BDI) dels habitants del municipi del nostre
exemple general és igual al grau mitjà habitual de la població adulta, que és de 18 punts en
el BDI. Per a valorar-lo, feu el contrast d’hipòtesi (explicitant els diferents passos que s’han
de seguir) corresponent a un nivell de significació α = 0,05. Feu també la prova d’hipòtesi per
al mateix estudi amb un nivell de significació α = 0,01. Compareu els resultats amb els ob-
tinguts en l’activitat anterior.

4.Contrastos unilaterals i bilaterals. Fem una activitat similar a les anteriors, però ara vo-
lem estudiar si el grau mitjà de depressió (mesurat amb el BDI) dels habitants del municipi
del nostre exemple general és superior al grau mitjà habitual de la població adulta, que és de
18 punts en el BDI. Plantegeu la hipòtesi nul·la i l’alternativa corresponent, i preneu la deci-
sió adequada respecte de les hipòtesis (acceptar-ne una o una altra), i justifiqueu la decisió
presa. Interpreteu aquests resultats en el context de l’estudi plantejat.

Fixeu-vos que en voler estudiar si el grau mitjà de la mostra (la mitjana mostral) és superior
a un determinat valor (paràmetre poblacional), la prova és ara unilateral però en el costat dret
de la distribució de l’estadístic de contrast corresponent (a diferència de l’exemple de l’ansi-
etat, que era al costat esquerre o cua esquerra de la distribució esmentada).

5. Prova de Kolmogorov-Smirnov. En aquesta activitat heu de comprovar si l’edat dels ciu-


tadans del municipi estudiat en el nostre exemple general segueix la distribució normal (ni-
vell de significació α = 0,05). Per a això, apliqueu la prova de contrast d’hipòtesi adequada, i
descriviu els diferents passos que comporta aquesta prova. Interpreteu-ne el resultat d’acord
amb l’objectiu que hem plantejat.

You might also like