Professional Documents
Culture Documents
Material
1. Aquest document
2. De la bibliografia:
Newbold: 8.7 + 8.8 + 9.6 + 9.7.
Moore: 7.3 + 8.3.
Índex
1 Introducció 1
3 Anàlisi de la Variància 7
3.1 La idea de l’anàlisi de la variància . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
3.2 Supòsits de l’anàlisi de la variància . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3.3 L’exemple resolt, i amb R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1 Introducció
L’objectiu d’aquesta guia és examinar la situació en la què es disposa de mostres aleatòries i es pretén determinar
si existeixen diferències en mitjanes o en proporcions.
Els problemes de dues mostres poden sorgir d’un experiment comparatiu aleatoritzat que divideixi a l’atzar els
individus en dos grups i exposi a cadascun d’ells a dos tractaments diferents. La comparació de dues mostres
aleatòries seleccionades independentment de dues poblacions també és un problema de dues mostres.
Cal mencionar en aquest punt un problema que, tot i que pot semblar-ho a priori, no és un problema de dues
mostres: es tracta del problema del tractament de dades aparellades.
En ocasions disposem d’observacions que han estat mesurades sobre un mateix individu, com en l’exemple que
segueix:
Exemple 1. Les dades següents són els resultats de mesurar el ritme del pols de cinc nens abans i després de
veure un determinat programa de televisió:
Suposant normalitat de les observacions, volem determinar si aquest programa de televisió augmenta el ritme
del pols dels nens.
En realitat estem fent inferència sobre una sola població, la població de les diferències entre cada parell. No és
correcte ignorar els parells i analitzar les dades com si tinguéssim dues mostres: la dels nens abans i després de
veure el programa de televisió. Tal i com veurem pròximament, els procediments inferencials per a comparar
dues mostres es basen en que aquestes han estat obtingudes de manera independent. Aquest supòsit no és
cert quan els mateixos individus són considerats dues vegades. El problema es redueix aixı́ al contrast sobre la
mitjana d’una població, en aquest cas normal.
Anomenem X a la variable diferència. Suposarem X ⇠ N (µ, 2
).
Tenim X = 6 i S = 2.8284. Per a contrastar,
⇢
H0 : µ = 0
H1 : µ > 0
tenim que
ECobs = 4.7434
i per tant es pot concloure que amb qualsevol nivell de significació dels habituals, arribarem a la conclusió que
el programa fa augmentar el pols en els nens.
Podem resoldre el problema també en R. Primer entrem les observacions i obtenim la variable diferència:
abans <- c(96, 102, 108, 89, 85)
despres <- c(104, 112, 112, 93, 89)
dif <- despres-abans
Verifiquem els valors de la diferència,
dif
Ara demanem que es computi el test per a µ = 0 amb els valors que es troben a dif. Si només escrivim,
t.test(dif)
i obtenim,
One Sample t-test
data: dif
t = 4.7434, df = 4, p-value = 0.009014
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
2.488044 9.511956
sample estimates:
mean of x
6
2
Observa que amb R estaries fent un contrast per a µ = 0 però amb alternativa bilateral. Tot i que el valor de
l’estadı́stic observat seria el mateix, el p-valor correcte, per al nostre contrast d’alternativa unilateral H1 : µ > 0
correspondria a 0.009014
2 . No cal que ho resolguis, pots demanar la comanda a R amb l’alternativa unilateral
corresponent com segueix,
t.test(dif, alternative="greater")
amb els resultats,
One Sample t-test
data: dif
t = 4.7434, df = 4, p-value = 0.004507
alternative hypothesis: true mean is greater than 0
95 percent confidence interval:
3.303403 Inf
sample estimates:
mean of x
6
Finalment comentem que és possible indicar a R que estem treballant amb dades aparellades fent,
t.test(despres, abans, paired=TRUE, alternative="greater")
on obtenim els resultats,
Paired t-test
data: despres and abans
t = 4.7434, df = 4, p-value = 0.004507
alternative hypothesis: true mean is greater than 0
95 percent confidence interval:
3.303403 Inf
sample estimates:
mean of the differences
6
Estudiem ara el cas en què les mostres són independents. Suposem que estem estudiant dues variables aleatòries,
X1 ⇠ N (µ1 , 12 ) i X2 ⇠ N (µ1 , 22 ) independents. Aleshores, per a contrastar:
H0 : µ 1 µ2 = 0
1. 2
1,
2
2 conegudes;
(X1 X2 )
EC = q 2 2
⇠ N (0, 1)
n1 + n2
1 2
2. 2
1,
2
2 desconegudes però amb 2
1 = 2
2 = 2
.
Estimem la variància poblacional comuna per
3
(n1 1)S12 + (n2 1)S22
S2 =
(n1 + n2 2)
i aleshores,
(X1 X2 )
EC = r ⇣ ⌘ ⇠ tn1 +n2 2
S 2 n11 + n12
3. 2
1,
2
2 desconegudes, introduı̈m
(X1 X2 )
EC = q 2 (1)
S1 S22
n1 + n2
A diferència dels altres dos casos, aquest estadı́stic no té una distribució t. És més, la distribució exacta
canvia a mesura que les desviacions tı́piques poblacionals desconegudes 1 i 2 canvien. Malgrat això es
disposa d’una aproximació prou bona per la distribució. La distribució de l’estadı́stic en (1) és aproxima-
dament una distribució t amb els graus de llibertat donats per,
⇣ ⌘2
S12 S22
n1 + n2
gll = ⇣ 2
⌘2 ⇣ ⌘2
1 S1 1 S22
n1 1 n1 + n2 1 n2
Anomenem D a la distribució de referència en cadascun dels 3 casos; aleshores els corresponents p–valors s’ob-
tenen com
Observació 1. En ocasions la hipòtesi nul·la pren la forma H0 : µ1 µ2 0 o bé H0 : µ1 µ2 0, és a dir forma
composta i no pas simple, que és quan tenim una igualtat. Podem resoldre el problema amb la mateixa estratègia
que en el cas d’hipòtesi nul·la simple, definida per una igualtat. Intuı̈tivament podem entendre-ho com segueix:
si ens posem en la situació més extrema possible, això serà la definida per la igualtat, i encara refusem podem
pensar que refusarem en tots els altres valors de la hipòtesi nul·la, menys extrems que la frontera.
Observació 2. Cal remarcar finalment que la decisió entre la igualtat o no de variàncies es pot resoldre a nivell
inferencial, amb proves de significació paramètriques i també amb proves de significació no paramètriques. La
més comuna de les proves paramètriques és la prova F per la comparació de variàncies (atenció! No confondre
amb la F –ratio de l’anàlisi de la variància que veurem al següent apartat). Amb R podem realitzar aquesta prova
en cridar la funció var.test( ) El problema d’aquest procediment és que és extremadament sensible a la no
normalitat de les observacions i aquesta manca de robustesa no millora quan la mida de la mostra augmenta.
La recomanació seria doncs avaluar la normalitat de les observacions gràficament, posant especial èmfasi en la
detecció d’observacions atı́piques i de manca simetria de la distribució i utilitzar la versió de l’estadı́stic t que
no requereix la igualtat de variàncies.
Exemple 2. Un cable elèctric es fabrica de dues maneres. Es vol saber si el tipus de procés seguit en la fabricació
afecta la mitjana de resistència a la ruptura del cable. Es realitzen proves en el laboratori sotmetent els cables a
tensió i anotant les càrregues necessàries per arribar a trencar-los. Suposem que les dues mostres aleatòries d’un
i altre procés són independents i extretes de dues poblacions normals i amb la mateixa variància.
4
(a) Analitzeu les dades experimentals següents:
X1 := v.a. que mesura la resistència d’un cable triat a l’atzar entre els fabricats segons el primer procediment
⇠ N (µ1 , 2 ).
X2 := v.a. que mesura la resistència d’un cable triat a l’atzar entre els fabricats segons el segon procediment
⇠ N (µ2 , 2 ).
⇢
H0 : µ 1 µ2 = 0
H1 : µ 1 µ2 6= 0
Refusem la hipòtesi nul·la que les resistències promig són la mateixa en una i altra forma de fabricació.
Mirem de treballar sobre un nou exemple però ara amb l’ajut de R.
Exemple 3. Suposem que es mesura el temps (en dies) de recuperació d’una determinada malaltia quan als
pacients se’ls administra un nou medicament. Per tal de valorar-ne l’efectivitat (i evitar l’efecte placebo), s’ad-
ministra a un altre grup un placebo obtenint-se en conjunt els següents resultats:
amb medicament: 15 10 13 7 9 8 21 9 14 8
placebo: 15 14 12 8 14 7 16 10 15 12
Assumint normalitat i igualtat de variàncies, es demana determinar si el medicament es pot considerar o no
efectiu.
Denotem com a µ1 el temps mig de recuperació de la malaltia per als pacients del grup amb medicació i µ2 el
temps mig de recuperació de la malaltia per als pacients del grup placebo. Ens debatem entre H0 : µ1 µ2 = 0
contra l’alternativa que el grup amb medicació es recupera abans, H1 : µ1 µ2 < 0.
Entrem les dades a R,
med <- c(15, 10, 13, 7, 9, 8, 21, 9, 14, 8)
plac<- c(15, 14, 12, 8, 14, 7, 16, 10, 15, 12)
Ara demanem que es resolgui el test
t.test(med,plac,alt="less",var.equal=TRUE)
on hem indicat que l’alternativa és “més petit” i que assumim igualtat de variàncies. Obtenim,
Two Sample t-test
data: med and plac
t = -0.5331, df = 18, p-value = 0.3002
alternative hypothesis: true difference in means is less than 0
5
95 percent confidence interval:
-Inf 2.027436
sample estimates:
mean of x mean of y
11.4 12.3
Tenim un p–valor de 0.3002 la qual cosa indica que no podem rebutjar la hipòtesi nul·la i per tant no s’han
observat evidències a la mostra que avalin l’efectivitat del medicament.
Si volem contrastar H0 : p1 = p2 i denotem per p0 aquest valor comú, podem estimar p0 per,
n1 pˆ1 + n2 pˆ2
pˆ0 =
n1 + n2
(pˆ1 pˆ2 )
EC = q ⇡ N (0, 1)
pˆ0 (1 pˆ0 ) pˆ0 (1 pˆ0 )
n1 + n2
Exemple 4. Es realitza un estudi sobre la situació actual de les empreses de serveis per tal de pal·liar els efectes
de l’actual crisi econòmica. Hi ha indicis per pensar que la situació no és la mateixa en les diferents regions
europees i que, en concret, la regió B està menys adaptada que la regió A.
Un cop fet l’estudi, resulta que de les 250 empreses de serveis enquestades a la regió A, 95 tenien preparat un
pla d’adaptació. A la regió B, 56 de 240.
Creieu que les dades evidencien que la proporció d’empreses de serveis que tenen enllestit un pla d’adaptació
és mes alta en la regió A que en la regió B? (Utilitzeu un nivell de significació de 10%, és a dir ↵ = 0, 10).
Sigui pA la proporció d’empreses a la zona A que tenen preparat un pla d’adaptació i pB a la zona B.
Es contrasta,
⇢
H 0 : pA pB = 0
H 1 : pA pB > 0
6
Es té p̂A = 95
250 i p̂B = 240 .
56
L’estimació de la proporció poblacional comuna és
i per tant
95 56
250 240
ECobs = q = 3.5149
1 1
(0.3082 · (1 0.3082)) · ( 250 + 240 )
amb la qual cosa refusem la hipòtesi nul·la a pràcticament qualsevol nivell de significació. Conseqüentment hem
de concloure que la zona B està menys preparada que la zona A.
Amb R també podem resoldre el contrast. Utilitzarem la funció prop.test que cridarem amb prop.test(x,n)
sent x el nombre de casos favorables i n el total.
prop.test(c(95,56),c(250,240), alternative="greater", correct="FALSE")
Posem que no s’apliqui la correcció per continuı̈tat de Yates (correct = "FALSE") de la distribució de l’es-
tadı́stic de contrast, que és la manera com s’ha optat en la resolució del problema. L’output que n’obtenim
és,
2-sample test for equality of proportions without continuity correction
data: c(95, 56) out of c(250, 240)
X-squared = 12.3547, df = 1, p-value = 0.0002199
alternative hypothesis: greater
95 percent confidence interval:
0.079092 1.000000
sample estimates:
prop 1 prop 2
0.3800000 0.2333333
p
Observem que l’estadı́stic que calcula R correspon, numèricament, al quadrat del nostre 12.3547 = 3.5149. De
fet, calcula el estadı́stic 2 per la independència entre les piles i columnes de la següent taula de contingència:
Per finalitzar, observem amb aquest exemple la connexió entre les diferents tècniques que anem aprenent.
3 Anàlisi de la Variància
L’Anàlisi de la Variància és una tècnica que té com a objectiu comparar les mitjanes de K poblacions, per K 2.
Contrasta,
H0 : µ 1 = µ 2 = · · · = µ K
contra l’alternativa que existeix almenys una de les mitjanes poblacionals que difereix de les altres. Suposa-
rem que totes les poblacions tenen la mateixa variància desconeguda. Mirem de fixar les idees amb el següent
exemple:
7
Exemple 5. Dotze parcel·les de terreny es distribueixen aleatòriament en tres grups. Als dos primers grups se’ls
hi aplica el fertilitzant 1 i 2, i el tercer grup de parcel·les es considera com a unitat de control, sense aplicar-li cap
fertilitzant. Els resultats de la collita són,
A B C
75 74 60
70 78 64
66 72 65
69 68 55
H0 : µ 1 = µ 2 = · · · = µ K
8
Suma de quadrats entre els grups (SSG, sum of squares of groups):
K
X
SSG = ni (X i X)2
i=1
SSG
M SG =
K 1
SSW
M SW =
n K
La variabilitat total de les dades pot ser mesurada a través de la suma de quadrats total (sum of squares total),
nK
K X
X
SST = (Xij X)2
i=1 j=1
verificant-se que
SST = SSW + SSG
1. SSG
2 ⇠ 2
K 1 i per tant E[M SG] = 2
2. SSW
2 ⇠ 2
n K i per tant E[M SW ] = 2
3. M SG i M SW són independents
Si les mitjanes poblacionals no són iguals, M SG no serà un estimador no esbiaxat de la variància poblacional
comuna, tot el contrari, de fet ha d’excedir la variància poblacional comuna doncs incorporarà informació al
9
respecte de les diferències entre les mitjanes poblacionals reals. Si H0 és certa, esperem que el quocient entre
M SG i M SW sigui al voltant de 1. En ser independents,
2
K 1
M SG K 1
F ratio = = 2 ⇠ FK 1,n K
M SW n K
n K
Les distribucions F de Fisher-Snedecor són una famı́lia de distribucions amb dos paràmetres. Aquests són els
graus de llibertat que apareixen al numerador i denominador de l’estadı́stic F (sempre es menciona abans els
graus de llibertat del numerador: si intercanviem els graus la distribució canvia!) Les distribucions F de Fisher
són assimètriques a la dreta i presenten un pic en la corba de densitat al voltant de 1.
En base a la proposició anterior i als comentaris que en segueixen, la F –ratio serà l’estadı́stic de contrast per,
H0 : µ 1 = µ 2 = · · · = µ K
Els valors de M SG/M SW que afavoreixen la hipòtesi alternativa (alguna diferència entre les mitjanes) són
els més grans que 1 ja que MSW no canviaria però M SG augmentaria. El p–valor en aquest contrast serà
P (F –ratio > FK 1,n K ).
Aquesta informació es resumeix en la taula de l’Anàlisi de la Variància,
D’igual manera que amb altres procediments inferencials, l’ANOVA és vàlid sota certs requeriments. Aquests
són, tal i com hem comentat,
Aquests supòsits es poden relaxar una mica sense que l’anàlisi deixi de ser aplicable (Moore 9.2.2). Si la distri-
bució de les Xi en cada grup no són normals però són contı́nues simètriques i no hi ha observacions atı́piques,
l’anàlisi de la variància es pot aplicar fins i tot amb mostres petites (de 4 o 5 elements per grup). Evidentment, i
degut al TCL, com més grans siguin les mostres millor funcionarà la prova. Diem que la prova F de l’ANOVA
és robusta front a la manca de normalitat.
No és fàcil comprovar el supòsit que les poblacions tenen la mateixa variància, en part perquè les proves es-
tadı́stiques que es fan servir per verificar la igualtat de variàncies són molt sensibles a la manca de normalitat i,
en conseqüència, tenen poc valor a la pràctica... Com a regla pràctica, que és segura en gran part de les situacions,
direm que:
Els resultats de la prova F del ANOVA són aproximadament correctes quan la desviació tı́pica mos-
tral més gran no és superior que el doble de la desviació tı́pica mostral més petita.
10
3.3 L’exemple resolt, i amb R
Obtenim la taula ANOVA pel nostre cas. Sigui Xi la v.a. collita d’una parcel·la triada a l’atzar entre les que han
estat tractades amb el fertilitzant A (i = 1), fertilitzant B (i = 2) o Cap fertilitzant (i = 3).
n1 = 4 n2 = 4 n3 = 4
X 1 = 70 X 2 = 73 X 3 = 61
SSW = 42 + 52 + 62 = 156
p - valor=P (F2,9 > 9) = 1 pf (9, 2, 9) = 0.007127781 i per tant refusem la hipòtesi nul·la d’igualtat de mitjanes:
almenys hi ha un dels grups que, en mitjana, té collita diferent a la resta. es petit
Ara que hem treballat (i força!) sobre aquestes dades per mirar d’entendre el procediment de decisió, podem
passar a revisar el problema amb R.
Primer hem d’entrar les observacions i combinar-les en un únic conjunt de dades, que aconseguim amb la darrera
instrucció:
Abans de començar amb l’ANOVA, fem una exploració gràfica per mirar de detectar, a nivell exploratori, si hi
ha diferències entre les tres distribucions:
boxplot(collita) o millor stripchart(collita)
El resultat és,
11
75
70
65
60
55
a b c
on s’observa que, per a aquestes dades, les parcel.les sense fertilitzant, tenen una collita inferior a la resta. Mirem
de validar aquesta conjectura via l’anàlisi de la variància.
Si donem una ullada a les dades, veiem que, a hores d’ara tenen forma d’una llista amb les mostres per separat:
> collita
$a
[1] 75 70 66 69
$b
[1] 74 78 72 68
$c
[1] 60 64 65 55
Per tal de poder cridar a la funció de R que realitza l’ANOVA, hem de preparar les dades de manera que siguin
una única variable collita acompanyada d’un factor que assigna cada observació al seu grup. Ho aconseguim
amb,
collita = stack(collita)
on veiem que tenim els valors que hem entrat per a cadascuna de les parcel·les a la columna values i a ind
tenim l’indicador de grup.
Els noms de collita ens donen una idea de la nova estructura, quedarà més clar si fem
names(collita)<- c("pes.collita", "tipus.fert")
Ara ja podem realitzar l’ANOVA cridant la funció oneway.test( ) com segueix,
oneway.test(pes.collita ˜ tipus.fert, data=collita, var.equal=TRUE)
Obtenim com a output,
One-way analysis of means
data: values and ind F = 9, num df = 2, denom df = 9,
p-value = 0.007128
Se’ns facilita la F –ratio de la taula ANOVA, els graus de llibertat del numerador i del denominador i el p-
valor, que ja és el que havı́em obtingut prèviament. Tot i aixı́, trobem a faltar la taula ANOVA de resum del
12
procediment. Tenim la possibilitat de cridar una nova funció de R, que, en realitat forma part dels models lineals
(lineal models) lm( ); aquests són un extens conjunt de models entre els que es pot incloure també l’ANOVA.
Response: pes.collita
Df Sum Sq Mean Sq F value Pr(>F)
tipus.fert 2 312 156.000 9 0.007128 **
Residuals 9 156 17.333
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
on podem identificar termes amb els nostres càlculs previs i arribar a la mateixa conclusió sobre les diferències
en collita mitjana.
Corrector 1: 6.82 7.60 7.71 6.79 8.88 6.98 6.56 7.38 5.76 7.35
Corrector 2: 6.99 7.74 7.11 6.87 8.40 7.75 8.33 8.42 5.82 6.52
Suposant normalitat de les dades, es pot concloure que hi ha diferència en les mitjanes entre els dos cor-
rectors? Planteja clarament les hipòtesi nul·la i alternativa associades al test, calcula l’estadı́stic de contrast
i el p–valor corresponent.
2. R conté unes dades anomenades mtcars sobre algunes caracterı́stiques d’una sèrie de cotxes americans.
Fes ?mtcars per veure’n detalls. Volem comparar el consum (mpg) dels cotxes segons si tenen canvi
automàtic o manual. Quines són les mitjanes i les desviacions estàndards de cada tipus de cotxe? Fes-ho
primer amb un gràfic, i després amb una prova d’hipòtesi, explicant-ne tots els detalls.
3. En un estudi es realitza una enquesta al llarg de dues setmanes consecutives: es pretén determinar si hi ha
diferències entre l’acceptació del candidat abans (Setmana 1) i després (Setmana 2) d’un debat televisiu.
Les observacions són,
Setmana 1 Setmana 2
Favorable 45 56
No favorable 35 47
Estableix les hipòtesi nul·la i alternativa pel problema en decidir si es pot considerar que el grau d’accep-
tació ha augmentat després del debat.
4. Les notes del control de prova del grup 1 estan en el fitxer notes.dat. Pots utilitzar la següent instrucció
per posar noms a les variables (suposant que has anomenat notes a les dades del fitxer).
names(notes)<-c("grup", "nota")
Per comparar les notes dels grups, fes un boxplot de les notes segons el grup. També pots demanar les
mitjanes de cada grup fent, per exemple,
mean(notes$nota[notes$grup=="g102"])
13