You are on page 1of 7

J. Daoudi, L. di Gennaro, G. Garca, F.

Udina

Tema 5: An`alisi de la Vari`ancia (ANOVA)


LAn`alisi de la Vari`ancia (en angl`es Analysis of Variance, ANVOA) e s una t`ecnica que te com a objectiu comparar les
mitjanes de K poblacions, per K 2. Contrasta,
H0 : 1 = 2 = = K
contra la alternativa de que existeix alguna mitjana poblacional que difereix de les altres. Suposarem que totes les

poblacions tenen la mateixa vari`ancia desconeguda. Mirem de fixar les idees amb el seguent
exemple:
`
Exemple 1. Dotze parcel.les de terreny es distribueixen aleatoriament
en tres grups. Als dos primers grups sels hi
aplica el fertilitzant 1 i 2, i el tercer grup de parcel.les es considera com a unitat de control, sense aplicar-li cap fertilitzant.

Els resultats de la collita son,


A B C
75 74 60
70 78 64
66 72 65
69 68 55
Es pot parlar de difer`encies significatives entre els tractaments aplicats?

La idea de lan`alisi de la vari`ancia

La idea intutiva queda reflectida en els seguents


boxplots:

mostra 1

mostra 2

mostra 3

mostra 1

conjunta

Si tenim tres grups amb mitjanes iguals, i els reunim tots tres en una mostra conjunta (a la dreta), la
varianca del conjunt e s molt similar a les vari`ancies
dels grups individuals.

mostra 2

mostra 3

En canvi, si els grups tenien mitjanes diferents, en


reunir-los en una mostra conjunta (a la dreta) aquesta te una vari`ancia mes gran que les dels grups per
separat.

Per tant veiem que analitzant la vari`ancia podem decidir si les mitjanes eren realment diferents o no.
Siguin Xi N(i , 2 ), i = 1, . . . K independents. Ens proposem decidir entre,
H0 : 1 = 2 = = K
i lalternativa: alguna mitjana poblacional e s diferent.

conjunta

`
Observem que sota la hipotesi
nul.la, el formar part dun grup e s irrellevant i totes les observacions podrien ser con
Aix doncs, la hipotesi
`
siderades com a una mostra duna unica
poblacio.
nul.la especifica que les K poblacions tenen
una mitja comuna, que podem estimar pel que denotarem com a X.
La t`ecnica de lAn`alisi de la Vari`ancia est`a basada en la comparacio de dos tipus de variabilitat a la mostra: la variabilitat
dins dels grups i la variabilitat entre els grups.
Denotem Xij , i = 1, . . . , nj , j = 1, . . . , K la nostra mostra composada de K submostres, una de cada grup.
1. Variabilitat entre els grups.
Mesurem les difer`encies entre les mitjanes individuals a cada grup i la mitjana global.
(X1 X)2 , (X2 X)2 , . . . , (XK X)2
Suma de quadrats entre els grups (SSG, sum of squares of groups):
SSG =

K
X

ni (Xi X)2

i=1

Quadrat mig entre els grups (mean squares groups)


MSG =

SSG
K1

2. Variabilitat dins dels grups.


Calcularem, per cada grup, com es desvien les observacions de la seva mitjana mostral de grup.
Pn1
SS1 = j=1
(X X1 )2
Pn2 1j
SS2 = j=1 (X2j X2 )2
...
PnK
SSK = j=1
(XKj XK )2

Suma de quadrats dins dels grups (SSW, sum of squares within)


SSW =

K
X

SSi

i=1

Quadrat mig dins dels grups (mean squares within)


MSW =

SSW
nK

La variabilitat total de les dades pot ser mesurada a traves de la suma de quadrats total (sum of squares total),
SST =

nK
K X
X
(Xij X)2
i=1 j=1

verificant-se que
SST = SSW + SSG
Si les K poblacions tenen vari`ancia comuna 2 , resulta que tant SSW com SSG poden utilitzar-se per a estimar 2 .
Proposicio 1. Siguin Xi N(i , 2 ), i = 1, . . . , K independents.
Sota H0 : 1 = 2 = = K ,
2

1.

SSG
2

2.

SSW
2

2K1 i per tant E[MSG] = 2


2nK i per tant E[MSW] = 2

3. MSG i MSW son independents


iguals, MSG no ser`a un estimador no esbiaxat de la vari`ancia poblacional comuna;
Si les mitjanes poblacionals no son
tot el contrari, de fet ha dexcedir la vari`ancia poblacional comuna doncs incorporar`a informacio al respecte de les
difer`encies entre les mitjanes poblacionals reals. Si H0 e s certa, esperem que el quocient entre MSG i MSW sigui al
voltant de 1. En ser independents,
MSG
F=
=
MSW

2
K1
K1
2
nK
nK

FK1,nK

una famlia de distribucions amb dos par`ametres. Aquests son


els graus de
Les distribucions F de Fisher-Snedecor son
llibertat que apareixen al numerador i denominador de lestadstic F (sempre es menciona abans els graus de llibertat
assim`etriques a la
del numerador: si intercanviem els graus la distribucio canvia!) Les distribucions F de Fisher son
dreta i presenten un pic en la corba de densitat al voltant de 1.
En base a la proposicio anterior i als comentaris que en segueixen, la Fratio ser`a lestadstic de contrast per,
H 0 : 1 = 2 = = K
`
els mes grans
Els valors de MSG/MSW que afavoreixen la hipotesi
alternativa (alguna difer`encia entre les mitjanes) son
que 1 ja que MSW no canviaria pero` MSG augmentaria. El pvalor en aquest contrast ser`a P(Fratio > FK1,nK ).
Aquesta informacio es resumeix en la taula de lAn`alisi de la Vari`ancia,
Suma de Graus de
Font de
variacio
quadrats llibertat
Entre grups
SSG
K1
Dins grups
SSW
nK
Total
SST
n1

1.1

Quadrats
migs
SSG
MSG = K1
MSW = SSW
nK

F-ratio
MSG
MSW

Suposits
`
de lan`alisi de la vari`ancia

tal i
Digual manera que amb altres procediments inferencials, lANOVA e s v`alid sota certs requeriments. Aquests son,
com hem comentat,
`

1. K mostres aleatories
simples independents, una per a cada poblacio.
estem estudiant una variable aleatoria
`
2. A cada poblacio,
Xi amb distribucio normal de mitjana i . Es planteja
decidir entre,

H0 : 1 = 2 = = K
Ha : hi ha alguna i diferent
3. Totes les Xi tenen la mateixa desviacio tpica de valor desconegut.
`
Aquests suposits
es poden relaxar un tant sense que lan`alisi deixi de ser aplicable (Moore 9.2.2). Si la distribucio de
normals pero` son
contnues sim`etriques i no hi ha observacions atpiques, lan`alisi de la
les Xi en cada grup no son
vari`ancia es pot aplicar fins i tot amb mostres petites (de 4 o 5 elements per grup). Evidentment, i degut al TCL, com
mes grans siguin les mostres millor funcionar`a la prova.
` que les poblacions tenen la mateixa vari`ancia, en part perqu`e les proves estadstiques
No e s f`acil comprovar el suposit
molt sensibles a la manca de normalitat y, en consequ`
encia,
que es fan servir per verificar la igualtat de vari`ancies son
tenen poc valor a la pr`actica... Com a regla pr`actica, que e s segura en gran part de les situacions, direm que:
aproximadament correctes quan la desviacio tpica mostral mes
Els resultats de la prova F del ANOVA son
gran no e s superior que el doble de la desviacio tpica mostral mes petita.
3

1.2

Lexemple resolt, i amb R

Obtenim la taula ANOVA pel nostre cas. Sigui Xi la v.a. collita duna parcel.la triada a latzar entre les que han estat
tractades amb el fertilitzant A (i = 1), fertilitzant B (i = 2) o Cap fertilitzant (i = 3).
n1 = 4

n2 = 4

n3 = 4

1. Calculem les mitjanes mostrals:


X1 = 70

X2 = 73

X3 = 61

2. Estimem la mitja conjunta


X = 68
3. Variabilitat dins els grups:
A
(75 70)2
(70 70)2
(66 70)2
(69 70)2
42

B
(74 73)2
(78 73)2
(72 73)2
(68 73)2
52

C
(60 61)2
(64 61)2
(65 61)2
(55 61)2
62

SCD = 42 + 52 + 62 = 156
4. Variabilitat entre grups:
SSG = 4(70 68)2 + 4(73 68)2 + 4(61 68)2 = 312
Ara ja podem fer la taula de lAn`alisi de la Vari`ancia
Font de
Suma de
variacio
quadrats
Entre grups
312
Dins grups
156
Total
312 + 156

Graus de
llibertat
31=2
12 3 = 9
12 1 = 11

Quadrats
migs
MSG = 312
2 = 156
MSW = 156
9 = 17, 33

F-ratio
=9

156
17,33

`
p - valor=P(F2,9 > 9) = 1 pf(9, 2, 9) = 0.007127781 i per tant refusem la hipotesi
nul.la digualtat de mitjanes: almenys
nhi ha un dels grups que, en mitjana, te collita diferent a la resta.
podem passar
Ara que hem treballat (i forca!) sobre aquestes dades per mirar dentendre el procediment de decisio,

a revisar el problema amb R. Primer hem dentrar les observacions i combinar-les en un unic
conjunt de dades, que

aconseguim amb la darrera instruccio:


a<-c(75, 70, 66, 69)
b<-c(74, 78, 72, 68)
c<-c(60, 64, 65, 55)
collita = list(a=a, b=b, c=c)
Abans de comencar amb lANOVA, fem una exploracio gr`afica per mirar de detectar, a nivell exploratori, si hi ha
difer`encies entre les tres distribucions:
boxplot(collita) o millor stripchart(collita)
on sobserva que, per a aquestes dades, les parcel.les sense fertilitzant, tenen una collita inferior a la resta. Mirem de
validar aquesta conjectura via lan`alisi de la vari`ancia.
Si donem una ullada a les dades, veiem que, a hores dara tenen forma duna llista amb les mostres per separat:

> collita
$a
[1] 75 70 66 69
$b
[1] 74 78 72 68
$c
[1] 60 64 65 55
Per tal de poder cridar a la funcio de R que realitza lANOVA, hem de preparar les dades de manera que siguin una

unica
variable collita acompanyada dun factor que assigna cada observacio al seu grup. Ho aconseguim amb,
collita = stack(collita)
on veiem que tenim els valors que hem entrat per a cadascuna de les parcel.les a la columna values i a ind tenim
lindicador de grup.
Els noms de collita ens donen una idea de la nova estructura, quedar`a mes clar si fem
names(collita)<- c("pes.collita", "tipus.fert")
Ara ja podem realitzar lANOVA cridant la funcio oneway.test( ) com segueix,
oneway.test(pes.collita tipus.fert, data=collita, var.equal=TRUE)
Obtenim com a output,
One-way analysis of means
data: values and ind F = 9, num df = 2, denom df = 9,
p-value = 0.007128
Sens facilita la Fratio de la taula ANOVA, els graus de llibertat del numerador i del denominador i el p-valor, que ja
e s el que havem obtingut pr`eviament. Tot i aix, trobem a faltar la taula ANOVA de resum del procediment... Tenim
la possibilitat de cridar una nova funcio de R, que, en realitat forma part dels models lineals (lineal models) lm ( );
un extens conjunt de models entre els que es pot incloure tambe lANOVA.
aquests son
> anova(lm(pes.collita tipus.fert, data=collita))
Analysis of Variance Table
Response: pes.collita
Df Sum Sq Mean Sq F value
Pr(>F)
tipus.fert 2
312 156.000
9 0.007128 **
Residuals
9
156 17.333
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
on podem identificar termes amb els nostres c`alculs previs i arribar a la mateixa conclusio sobre les difer`encies en collita
mitjana.

Exercicis amb solucions


1. Trobareu al fitxer notes.dat, les notes del control de prova del grup 1 les podem carregar amb:
Per comparar les notes dels grups, fes un boxplot de les notes segons el grup. Tambe pots demanar les mitjanes
de cada grup fent, per exemple,
mean(notes$nota[notes$grup=="g102"])
i de manera similar les desviacions tpiques.
Et sembla que hi ha difer`encies entre els grups? Mira qu`e et diu als respecte un an`alisi ANOVA.
Solucio:

No hi ha difer`encies estadsticament significatives:

> oneway.test(notagrup, data=notes)


One-way analysis of means (not assuming equal variances)
data: nota and grup
F = 0.5098, num df = 3.000, denom df = 38.276, p-value = 0.6779
> oneway.test(notagrup, data=notes, var.equal=TRUE)
One-way analysis of means
data: nota and grup
F = 0.5009, num df = 3, denom df = 76, p-value = 0.6828
> anova(lm(notagrup, data=notes))
Analysis of Variance Table
Response: nota
Df Sum Sq Mean Sq F value Pr(>F)
grup
3
6.07 2.0235 0.5009 0.6828
Residuals 76 307.00 4.0395
2. Considerem el fitxer miete.dat que conte els lloguers de pisos per a apartaments en una ciutat alemanya.
Guardarem les dades del fitxer en una varible que anomenarem rent. Tambe conte dos factors que, es pensa,
poden influir en el preu: lany de construccio (codificat en franges temporals) i si lapartament est`a en la planta
baixa, en el primer pis, segon... fins a la planta quarta. Quan carreguem les dades, veiem que rent e s una matriu
la segona (Lage) indica el pis i la tercera (Miete)
de tres columnes: la primera (Baujahr indica lany de construccio,
els preus. Pots comprovar-ho demanant rent i despres names(rent) a R.
(a) Amb la instruccio
names(rent)<-c("any", "pis", "preu")
qu`e aconsegueixes? Fes-ho!
(b) Amb la instruccio preu <- rent[, 3] podem separar la columna 3 de la matriu rent. Fes-ho i seguint
aquest esquema defineix dues noves variables, que pots anomenar planta i any que continguin els registres
corresponents a cada pis.
(c) Volem examinar si el nivell del pis influeix en el preu final del lloguer.
i. Comenca per fer un boxplot que et permeti comparar el preu segons el pis.
`

ii. Enuncia les hipotesi


nul.la i alternativa per a decidir en aquesta questi
o.

iii. Quin e s el p-valor que has obtingut? Quina e s la teva conclusio?


(d) Repeteix lapartat anterior pero` amb la influ`encia del factor any sobre el preu. A quina conclusio arribes?
Solucio:

Les instruccions que necessitem per obtenir les variables planta i any son,
planta <- rent[, 2]
any <- rent[, 1]
`
Comencem pel primer test. Es tracta dun an`alisi de la vari`ancia amb hipotesi
nula.la que el preu mitj`a dels pisos
e s el mateix en tots els nivells de planta contra lalternativa que nhi ha algun de diferent. Demanem el contrast,
oneway.test(preuplanta, var.equal=T)
i obtenim
One-way analysis of means
data: preu and planta
F = 0.4157, num df = 4, denom df = 495, p-value = 0.7974
El pvalor obtingut e s 0.7974 la qual cosa indica que els pisos son homogenis en preu mig, respecte del nivell de
planta en que shi troben.
6

Pel que fa al segon contrast, podem procedir de manera similar doncs es tracta dan`alisi de la vari`ancia amb
`
hipotesi
nula.la que el preu mitj`a dels pisos e s el mateix independentment la franja temporal en que han estat
construits contra lalternativa que nhi ha alguna franja en la que els pisos tenen preu mig diferent. Podem cridar
la mateixa funcio de R que hem fet abans, o be demanar el procediment dan`alisi de la vari`ancia dins els models
lineals.
anova(lm(preu
any, data=rent))
dona com a resultat,
Analysis of Variance Table
Response: preu
Df
Sum Sq Mean Sq F value Pr(>F)
any
4
735.26 183.81
92.976
< 2.2e-16 *** --Residuals 495 978.62 1.98
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
en base al pvalor que e s menor que 2.2e 16, que la franja temporal si influencia sobre el preu
amb la conclusio,
mig dels lloguers.

You might also like