Professional Documents
Culture Documents
Continguts
Material
1. Aquest document
2. De la bibliografia:
Índex
1 Introducció 1
1 Introducció
Fins ara hem vist com podem aproximar-nos al valor d’un determinat paràmetre poblacional mit-
jançant l’estimació. Moltes vegades, però, el que ens interessa no és tant saber quin pot ser el valor
d’aquest paràmetre sinó respondre alguna pregunta sobre el mateix. Per exemple, el salari mig d’a-
quest any superior és al de l’any passat? Ha augmentat la proporció de gent que pensa votar al P.P
respecte les darreres eleccions?
En aquests casos, doncs, els que ens interessa és comprovar si una determinada creença, idea o conjec-
tura sembla ser certa o no. Per fer-ho, per a contrastar la nostra hipòtesi, ens basarem en les dades que
tenim, la mostra ja que l’única informació que tenim prové d’ella. Podem aleshores definir de forma
més precisa el que s’entén per contrast d’hipòtesis.
Definició 1 Un contrast d’hipòtesis és una tècnica mitjançant la qual es comprova si les dades d’una mostra
donen suport a una determinada hipòtesis que es formula sobre algun paràmetre poblacional o si, al contrari,
rebutgen aquesta hipòtesi.
Població: Ens interessa una característica de la població que modelitzem amb una variable aleatòria
X. La seva distribució depèn d’un paràmetre θ desconegut.
Hipòtesi nul·la Establim que, almenys fins que el nostre experiment demostri el contrari que el parà-
metre θ respon a un valor o a algun rang de valors. L’objectiu del nostre experiment és precisa-
ment descartar o no aquesta hipòtesi.
Hipòtesi alternativa De vegades ens convé especificar-la, altres vegades és simplement la contrària
de la nul·la.
Mostra: Les nostres dades provenen d’una mostra aleatòria simple de grandària n. La mostra ve
representada per n còpies independents X1 , . . . , Xn que tenen idèntica distribució a la de X
(cadascuna representa un individu genèric de la població).
Estimador: Tenim algun estadístic θ̂ (quantitat aleatòria calculada a partir de la mostra) que permet
estimar el paràmetre desconegut θ.
Estadístic de contrast A partir de l’estimador calculem l’estadístic de contrast, usualment una ver-
sió estandarditzada (en algun sentit), de manera que coneixem la distribució de l’estadístic de
contrast.
Distribució de l’estadístic de contrast sota la nul·la Segons la situació, serà una Normal, una t d’Stu-
dent,. . .
Valors discrepants A partir d’això decidim quins valors de l’estadístic de contrast serien discrepants
amb la nul·la, quins valors ens donarien evidència en contra de la mateixa.
valor−p Amb tot això, podrem calcular la probabilitat d’obtenir un valor tan o més discrepant amb la
nul·la que el que hem obtingut amb la nostra mostra.
La prova de significació (o contrast d’hipòtesi) consisteix en establir aquests ítems i procedir al càlcul
del valor−p. Entenem que un valor−p petit dóna evidència en contra de la hipòtesi nul·la.
Noteu que la conclusió del contrast és sempre del tipus ’Rebutjar’ o ’No rebutjar’ la hipòtesi nul·la, mai
es parla de ’Acceptar’ la hipòtesi nul·la es cas de que no es rebutgi. L’explicació d’això és la següent:
si el resultat del contrast és que es rebutja, la interpretació és que les dades que tenim contradiuen la
hipòtesi que teníem i per tant tenim evidència empírica en contra d’aquesta hipòtesi. Pel contrari, si
la conclusió és que no es rebutja, aleshores l’únic que podem dir és que les dades no contradiuen la
nostra hipòtesi, però no tenim cap evidència empírica a favor d’ella.
2
2 Tipus de contrast d’hipòtesis
pots comprovar fins a quin punt és cert o no que la normal i la t s’assemblen. A partir de quin valor
de n? Què vol dir que s’assemblin? Fins a quants decimals han de coincidir els punts crítics?
Ens posarem d’acord (vegeu també Moore pàg. 433 i pàg. 497) que, quan la població no sigui normal,
podem aplicar aproximacions segons el següent criteri:
Si X és contínua, simètrica, d’alguna manera semblant a una normal, per mostres de grandària n ≥
15 es pot utilitzar la distribució t.
Si X és contínua, assimètrica o molt diferent d’una normal, per mostres de grandària n ≥ 40 es pot
utilitzar la distribució t
Si X és discreta n ha de ser de l’ordre de centenars per poder aplicar la aproximació normal segons
TCL.
Si X és Bernoulli(p) podem utilitzar l’aproximació normal del TCL si np > 10 i np(1 − p) > 10.
Els fabricants de begudes refrescants estudien noves fórmules per evitar la pèrdua de dolçor de les begudes
anomenades light. Uns tastadors experimentats avaluen la dolçor d’un nou refresc abans i després de passar un
temps al magatzem (donen puntuacions entre 0: gens dolçor i 10: extremadament dolçor). Tenim a continuació
les dades de pèrdua de dolçor (grau de dolçor abans - grau de dolçor després):
2.0, 0.4, 0.7, 2.0, −0.4, 2.2, −1.3, 1.2, 1.1, 2.3
Població: La variable X és la pèrdua de dolçor d’un refresc segons la mesura d’un catador professional. Se
suposa que X ∼ N (µ, σ 2 = 1). Fixa’t que de moment donem per coneguda la variància de la població (per
simplificar aquests primers exemples).
Hipòtesi nul·la H0 : µ = 0. Partim de la base que el refresc no ha perdut dolçor, volem que el nostre experiment
ho corrobori o ho contradigui.
Estimador: X̄, la mitjana mostral, és un bon estimador de µ (sabem que E(X̄) = µ).
X̄−µ
Estadístic de contrast EC = √
σ/ n
Distribució de l’estadístic de contrast sota la nul·la Com que σ és conegut i fixat, EC ∼ N (0, 1).
3
Valors discrepants Qualsevol valor gran positiu de X̄ (i per tant de EC) aniria a favor de H1 i en contra de
H0 .
Valor observat de l’estadístic de contrast Segons les dades que tenim, la mostra és
2.0, 0.4, 0.7, 2.0, −0.4, 2.2, −1.3, 1.2, 1.1, 2.3
> 1-pnorm(3.22)
[1] 0.000640953
En aquest cas hem vist com la hipòtesi alternativa especificava només µ > 0, indicant que només les
desviacions en un sentit ens preocupen. D’això en diem una prova unilateral de una cua (one tail
test).
Els contrastos poden ser d’una o de dues cues, segons quina sigui la hipòtesi alternativa corresponent.
1. Hipòtesi nul·la
És el valor de la mitjana poblacional que volem contrastar (µ0 = valor a contrastar)
H0 : µ = µ0
2. Hipòtesi alternativa
És allò que resulta cert si la hipòtesi nul·la és falsa. Depèn de quina informació tenim de la
mitjana poblacional sobre la que estem fent el contrast. Tenim 3 possibilitats
H1 : µ 6= µ0 Dues cues
H1 : µ > µ0 Una cua per la dreta
H1 : µ < µ0 Una cua per l’esquerra
3. Estadístic de Contrast
L’estadístic de contrast (EC) a utilitzar en aquest cas depèn de si la variància poblacional σ 2 és
coneguda o no.
σ 2 coneguda σ 2 desconeguda
EC = X−µq 0
σ2
EC = X−µ
q 0
s2
n n
4
En qualsevol d’aquests casos, el valor de l’estadístic observat de contrast (VOEC) s’obté substi-
tuint en la fórmula corresponent els valors corresponents, on
X: Mitjana mostral
µ0 : Valor de la hipòtesi nul·la
σ 2 : Variància poblacional
s2 : Variància mostral
n: Mida mostral
σ 2 coneguda σ 2 desconeguda
X−µ
q 0 ∼ N (0, 1) X−µ
q 0 ∼ tn−1
σ2 s2
n n
5. Valors discrepants
Els valors crítics a partir dels quals un valor es considera discrepant es trobaràn de manera dife-
rent segons sigui un contrast d’una o de dos cues, depenent de quina forma prengui la hipòtesi
alternativa.
• Contrast de dues cues. Correspon al cas en què tenim una hipòtesi alternativa del tipus
H1 : µ 6= µ0
Els valors crítics, −zα/2 , zα/2 i −tα/2 , tα/2 s’han de trobar amb zα/2 =qnorm(1-α/2) o
tα/2 =qt(1-α/2,n-1) segons sigui el cas de que coneixem σ 2 o no.
• Contrast d’una cua per la dreta. Correspon al cas en què tenim una hipòtesi alternativa del
tipus H1 : µ > µ0 .
Els valors crítics, zα i tα s’han de trobar amb qnorm(1-α) o qt(1-α,n-1) segons sigui el
cas de que coneixem σ 2 o no.
• Contrast d’una cua per l’Esquerra. Correspon al cas en què tenim una hipòtesi alternativa
del tipus H1 : µ < µ0 .
Els valors crítics, −zα i −tα s’han de trobar amb qnorm(α) o qt(α,n-1) segons sigui el
cas de que coneixem σ 2 o no
Exemple 2 Si en l’exemple anterior no prenguéssim σ = 1 com a coneguda, llavors canviaríem alguns detalls
de l’esquema:
Població: La variable X és la pèrdua de dolçor d’un refresc segons la mesura d’un catador professional. Se
suposa que X ∼ N (µ, σ 2 ).
Mostra: igual.
Estimador igual.
X̄−µ
Estadístic de contrast EC = √
S/ n
5
Distribució de l’estadístic de contrast sota la nul·la Com que σ és estimat per S, EC ∼ t9 .
Valor observat de l’estadístic de contrast Segons les dades que tenim, la mostra és
2.0, 0.4, 0.7, 2.0, −0.4, 2.2, −1.3, 1.2, 1.1, 2.3
> 1-pt(2.6967,9)
[1] 0.01226295
> dols = c(2.0, 0.4, 0.7, 2.0, -0.4, 2.2, -1.3, 1.2, 1.1, 2.3)
> mean(dols)
[1] 1.02
> sd(dols)
[1] 1.196105
> ec.observat = 1.02 / (1.1961/sqrt(10))
> ec.observat
[1] 2.696700
> 1-pt(2.6967,9)
[1] 0.01226295
Exemple 3 Una companyia d’assegurances de vida vol saber si el temps de vida mitjà dels individus
d’un cert col·lectiu ha deixat de ser inferior als 65 anys (suposició en què es basaven els càlculs de les
primes fins el moment).
(a) Descriu els detalls d’una prova de significació per aquest problema. Quines són les hipòtesis
nul·la i alternativa?
Es tracta d’estudiar la variable X = temps de vida d’un individu del col·lectiu. Aquesta variable no
6
té per què ser normal. Siguin µ i σ el valor esperat i desviació típica de X. Utilitzarem la mitjana
√
mostral estandarditzada como estadístic de contrast: (X̄ − µ)/(s/ n) i podrem utilitzar una tn−1 com a
distribució si n és més gran de 40.
La situació “de partida”, abans de realitzar el experiment, aquella en què ens basem per començar l’estudi,
serà la hipòtesi nul·la H0 : µ ≤ 65. L’alternativa serà H1 : µ > 65
(b) S’agafa una mostra de 50 casos i la mitjana mostral del temps de vida és 67.2 amb desviació
estàndard de 3.4 anys. Quin és el valor-p per una prova de significació de la hipòtesi nul·la?
El valor del estadístic de contrast és
(c) Explica les teves conclusions i els càlculs que has realitzat de forma que qualsevol agent d’asse-
gurances sense formació tècnica pugui entendre-ho.
Hem comprovat que l’edat mitjana dels nostres clients d’aquest col·lectiu ha agumentat, ja no podem su-
posar que està per sota de 65. Per comprovar-ho hem agafat una mostra de 50 clients que van morir en
l’últim any i hem obtingut 67.2 anys de mitjana. Aquest promig entre 50 clients al atzar no podria ser
tan alt, només una vegada de cada 10.000 podríem obtenir un promig de la mostra tan gran si realment el
promig fos de 65.
Fixeu-vos
En aquest exemple, la hipòtesi nul·la és composta i fins ara havíem treballat amb hipòtesi nul·les sim-
ples, és a dir, consistents en un sol valor. Aquesta té tot un rang de valors (µ < 65). Però per treballar
necessitem quedar-nos amb algun valor concret de µ. Ens quedem sempre amb el valor més proper a
l’alternativa.
1. Hipòtesi nul·la
És el valor de la mitjana poblacional que volem contrastar (p0 = valor a contrastar)
H0 : p = p0
2. Hipòtesi alternativa
És allò que resulta cert si la hipòtesi nul·la és falsa. Depèn de quina informació tenim de la
mitjana poblacional sobre la que estem fent el contrast tenim 3 possibilitats
H1 : p 6= p0 Dues cues
H1 : p > p0 Una cua per la dreta
H1 : p < p0 Una cua per l’esquerra
p̂ − p0
EC = p
p0 (1 − p0 )/n
7
En qualsevol d’aquests casos, el Valor de l’estadístic observat de contrast (VOEC) s’obté substi-
tuint en la fórmula corresponent els valors corresponents, on
p̂ − p0
p ∼ N (0, 1)
p0 (1 − p0 )/n
En aquest cas, el contrast es fa de la mateixa manera que en el cas de la mitjana mostral per σ 2
coneguda.
Exemple 4 Considerem una moneda d’un euro de la que sospitem que té biaix, que no és equilibrada.
Hipòtesi nul·la H0 : p = 1/2. Fins que no es demostri el contrari, posem que la moneda és equilibrada.
Mostra: Tirarem la moneda 100 vegades. La mostra és X1 , . . . , X100 on cada Xi representa un llançament, i
són per tant independents i amb idèntica distribució a la de X.
Estimador: La proporció mostral p̂ és un bon estimador de p (ja que sabem que E(p̂) = p).
p
Estadístic de contrast EC = (p̂ − p)/ (p(1 − p)/100) és la versió estandarditzada de p̂
Distribució de l’estadístic de contrast sota la nul·la Si suposem que H0 és certa, p = 1/2, tenim que
p
EC = (p̂ − 1/2)/ 1/400 = 20(p̂ − 1/2) segueix una normal estàndard.
Valors discrepants Si obtenim valors de EC molt grans en valor absolut, tant si són positius com negatius, els
hem de considerar valors discrepants, ja que la majoria de valors haurien d’estar prop de zero.
Valor observat de l’estadístic de contrast Ara fem l’experiment (fixa’t que fins ara no hem necessitat les
dades per res) i obtenim 39 cares i 61 creus, per tant,
valor−p La probabilitat d’obtenir valors tan o més extrems que −2.2 serà P (|Z| > 2.2) = 2.78%.
La solució amb R és,
2*(1-pnorm(2.2)).
Hem obtingut un valor−p molt petit que posa en qüestió que la moneda sigui realment equilibrada.
Exemple 5 Telefònica afirma que la probabilitat de ser atès en menys de 10 segons quan truques al
1004 és igual al 80%. Un grup de consumidors truca aleatòriament al número i, de les 200 trucades,
145 són ateses en menys de 10 segons. Contrasteu l’afirmació de Telefònica al nivell de significació del
5%.
8
0) Paràmetre d’interès: p
Prob[p̂ ≤ 0.725]
p̂ − 0.80 0.725 − 0.80
= Prob ≤
0.02828 0.02828
= Prob[Z ≤ −2.65]
= 1 − 0.9960 = 0.004
La zona de rebuig d’un contrast, donada la mida de la mostra, és el conjunt de valors de l’estadístic que dóna p ≤ α.
En el darrer exemple no ens limitem a fer una prova de significació com en els anteriors, sinó que s’ha
introduït la idea de nivell de significació i per tant la possibilitat d’una regla de decisió que decideixi
automàticament si es rebutja o no la hipòtesi nul·la.
En aquesta situació hem de introduir uns quants conceptes nous que aclarim:
Nivell de significació α Fixem per endavant un nivell α. Si el valor−p és més petit que el nivell de
significació prefixat rebutjarem la hipòtesi nul·la. Sovint prenem α = 0.05.
Punt crític del contrast És el valor de l’estadístic de contrast que correspon al nivell de significació, el
valor del EC que donaria un valor−p igual al nivell de significació.
Regla de decisió Serà una afirmació de la forma “Si el EC observat és superior al punt crític del con-
trast, rebutgem H0 ”. Serà equivalent a dir “Si el valor−p és inferior al nivell de significació,
rebutgem H0 .
Regió d’acceptació, de rebuig A partir del valor crític, i tenint en compte quins són els valors de EC
que donen evidència en contra de H0 podem definir la regió de rebuig, aquella que conté els valors
del EC que ens faran rebutjar H0 . La regió d’acceptació serà la que contingui els valors de EC que
no ens faran rebutjar la nul·la.
Error tipus I És l’error que cometem quan rebutgem una hipòtesi nul·la que és certa. La probabilitat
d’un error tipus I és α, coincideix amb el nivell de significació.
Error tipus II És l’error que cometem en no rebutjar una hipòtesi nul·la falsa. La probabilitat d’un er-
ror tipus II es denota amb β. Aquesta probabilitat depèn del valor concret que tingui el paràmetre
dintre de H1 .
9
Potència del contrast És 1 − β, la probabilitat de rebutjar correctament una hipòtesi nul·la falsa. Com
que també depèn del valor concret que tingui el paràmetre sota H1 , habitualment necessitem
donar una funció de potència, que ens dóna la potència per cada valor possible del paràmetre.
DECISIÓ
basada en la mostra
no rebutjar H0 rebutjar H0
acceptar H0 acceptar H1
H0 Decisió
hipòtesi Decisió incorrecta:
correcta
desconeguda
H1 Decisió
hipòtesi incorrecta: Decisió
Error tipus II (prob. β) correcta
alternativa
Tornem a l’exemple 1, el de la moneda. Plantegem ara que volem treballar amb un nivell de significació
α = 0.05. El punt crític serà el que deixa a les dues cues de la normal estàndard la probabilitat α. És a
dir, el 2.5% per sobre:
> qnorm(0.975)
[1] 1.959964
La regió de rebuig serà la donada per la unió de dues semirectes: (−∞, −1.96] ∪ [1.96, ∞).
La regla de decisió es pot escriure: Si −1.96 < EC < 1.96 acceptem la hipòtesi nul·la. Com que
EC = 20(p̂ − 1/2), podem reescriure la regla de decisió com:
10
3.2 Cas de l’exemple 2: la dolçor del refresc
Posem que en el cas de les proves de cata, per veure si el refresc ha perdut dolçor amb un nivell de
significació α = 0.10.
El punt crític serà el valor que deixa a la cua esquerra d’una t9 una probabilitat del 10%.
> qt(0.9, 9)
[1] 1.383029
Com que els valors que van a favor de l’alternativa són els valors grans de l’EC, el valor crític serà el
que deixa α per sobre en una t49 .
> qt(0.95,49)
[1] 1.676551
Per tant, per α = 0.05, el valor crític serà 1.677, la regió de rebuig serà [1.677, ∞) i la d’acceptació
(−∞, 1.677).
La proporció observada és significativament més baixa del que afirma l’empresa. El resultat és
significatiu al nivell del 5%. La zona de rebuig per aquest contrast i mida de la mostra 200 és
(−∞, −1.645]
La zona de rebuig d’un contrast, donada la mida de la mostra, és el conjunt de valors de l’estadístic
que dóna p ≤ α.
Altre cop, podem fer el contrast en R amb prop.test però si volem obtenir el mateix resultat que el
nostre test, hem de posar correct=FALSE
> prop.test(145,200,p=0.8,alternative="less")
11
0.8 95 percent confidence interval:
0.0000000 0.7759923
sample estimates:
p
0.725
1. Suposant que les notes tenen una distribució aproximadament normal, planteja la prova de
significació adequada per aquest problema.
2. Un cop efectuat un sorteig per seleccionar a l’atzar els 30 exàmens, es troba una mitjana
de 5.8 amb una desviació típica mostral de 2.1. Calcula el valor−p corresponent a la prova
establerta a l’apartat anterior.
2. Una peça de recanvi per als frens d’un cotxe té la forma d’un disc amb un diàmetre de 35 mm.
En una fàbrica es fa un control de qualitat del procés de fabricació per veure si el diàmetre mitjà
dels discos segueix el valor desitjat.
(b) Ara s’agafa una mostra de 40 discos i es calcula la mitjana dels diàmetres 35.05 mm, i una
desviació estàndard de 0.12 mm. Calculeu el p-valor i fes un comentari sobre l’actual quali-
tat de la producció.
3. El percentatge de dones joves de menys de 25 anys que fumen s’estimava que era del 32% al
2006. Aquest fet va causar una gran preocupació a Espanya. Les autoritats sanitàries van llençar
una campanya avisant dels perills de fumar. Després d’aquesta campanya, una empresa de
màrqueting va fer una enquesta per saber si el percentatge havia baixat.
12
(c) Durant una enquesta a dones d’aquest grup d’edat, la empresa de màrqueting va preguntar
si la dona fumava o no. De 1600 dones enquestades, 451 van respondre que fumaven.
Calcula el p-valor per testar la hipòtesi nul·la. Penses que el percentatge encara està tan
amunt com el 32%?
4. En el control del procés de producció d’un cert preparat farmacèutic es considera que el procés
està “sota control” si la taxa (proporció) de contaminants no supera el 1/1000. Sota la sospita
d’un increment en aquesta proporció, s’examina un lot de 10000 unitats. S’analitza una per una
i es fa el recompte de les unitats contaminades.
(a) Calculeu el màxim nombre esperat d’unitats contaminades per aquest lot suposant que el
procés està “sota control".
(b) Especifiqueu les hipòtesis nul·la i alternativa per contrastar si el procés està “sota control".
(c) Determineu l’estadístic de contrast i la seva distribució de probabilitat. Calculeu la proba-
bilitat d’obtenir exactament una unitat contaminada, exactament dues, dues com a molt.
(Nota: És correcte utlitzar aquí la aproximació normal a la binomial? Potser és millor uti-
litzar l’aproximació Poisson de la llei binomial. De tota manera, amb R podeu calcular les
probabilitats binomials exactes).
(d) Si en el lot seleccionat s’han trobat 12 unitats contaminades, calculeu el valor p corresponent
al test formulat a l’apartat (b).
(e) A quina conclusió arribeu?
5. Es coneix que el tractament “habitual” per a una certa malaltia té una durada mitjana de quinze
dies. Un grup de metges afirma que ha descobert una nova teràpia que redueix el nombre de
dies de tractament. Per tal de contrastar aquesta afirmació s’aplica la nova teràpia a 70 pacients
i es comptabilitza el temps de tractament necessari en cada cas.
6. El rendiment d’una reacció química es distribueix segons una llei normal de mitjana 0.7 i desvia-
ció estàndard 0.05. Es pensa que en afegir un additiu a la reacció, augmentarà el seu rendiment.
Es realitzen 100 proves on es mesura el rendiment de la reacció amb additiu, obtenint-se un ren-
diment mitjà de 0.712. Podem afirmar que l’additiu millora el rendiment de la reacció? Preneu un
nivell de significació de 0.01. (Nota: Podem suposar que afegir l’additiu no afecta a la normalitat
de la variable “rendiment de la reacció” ni a la corresponent desviació estàndard).
7. A partir de les dades de l’exercici anterior, contrasteu les hipòtesis següents amb un nivell de
significació de 0.01:
H0 : µ = 0.7,
H1 : µ 6= 0.7.
13