Tema5 Anova

J. Daoudi, L. di Gennaro, G. Garca, F.
Udina
Tema 5: Anàlisi de la Variància (ANOVA)

LAnàlisi de la Variància (en anglès Analysis of Variance, ANVOA) e s una tècnica que te com a objectiu comparar les
mitjanes de K poblacions, per K 2. Contrasta,
H0 : 1 = 2 = = K
contra la alternativa de que existeix alguna mitjana poblacional que difereix de les altres. Suposarem que totes les
poblacions tenen la mateixa variància desconeguda. Mirem de fixar les idees amb el seguent
exemple:
`
Exemple 1. Dotze parcel.les de terreny es distribueixen aleatoriament
en tres grups. Als dos primers grups sels hi
aplica el fertilitzant 1 i 2, i el tercer grup de parcel.les es considera com a unitat de control, sense aplicar-li cap fertilitzant.
Els resultats de la collita son,

A B C
75 74 60
70 78 64
66 72 65
69 68 55
Es pot parlar de diferències significatives entre els tractaments aplicats?
La idea de lanàlisi de la variància
La idea intutiva queda reflectida en els seguents

boxplots:
mostra 1
mostra 2
mostra 3
mostra 1
conjunta
Si tenim tres grups amb mitjanes iguals, i els reunim tots tres en una mostra conjunta (a la dreta), la
varianca del conjunt e s molt similar a les variàncies
dels grups individuals.
mostra 2
mostra 3
En canvi, si els grups tenien mitjanes diferents, en

reunir-los en una mostra conjunta (a la dreta) aquesta te una variància mes gran que les dels grups per
separat.
Per tant veiem que analitzant la variància podem decidir si les mitjanes eren realment diferents o no.
Siguin Xi N(i , 2 ), i = 1, . . . K independents. Ens proposem decidir entre,
H0 : 1 = 2 = = K
i lalternativa: alguna mitjana poblacional e s diferent.
conjunta
`
Observem que sota la hipotesi
nul.la, el formar part dun grup e s irrellevant i totes les observacions podrien ser con
Aix doncs, la hipotesi
`
siderades com a una mostra duna unica
poblacio.
nul.la especifica que les K poblacions tenen
una mitja comuna, que podem estimar pel que denotarem com a X.
La tècnica de lAnàlisi de la Variància està basada en la comparacio de dos tipus de variabilitat a la mostra: la variabilitat
dins dels grups i la variabilitat entre els grups.
Denotem Xij , i = 1, . . . , nj , j = 1, . . . , K la nostra mostra composada de K submostres, una de cada grup.
1. Variabilitat entre els grups.
Mesurem les diferències entre les mitjanes individuals a cada grup i la mitjana global.
(X1 X)2 , (X2 X)2 , . . . , (XK X)2
Suma de quadrats entre els grups (SSG, sum of squares of groups):
SSG =
K
X
ni (Xi X)2
i=1
Quadrat mig entre els grups (mean squares groups)

MSG =
SSG
K1
2. Variabilitat dins dels grups.

Calcularem, per cada grup, com es desvien les observacions de la seva mitjana mostral de grup.
Pn1
SS1 = j=1
(X X1 )2
Pn2 1j
SS2 = j=1 (X2j X2 )2
...
PnK
SSK = j=1
(XKj XK )2
Suma de quadrats dins dels grups (SSW, sum of squares within)

SSW =
K
X
SSi
i=1
Quadrat mig dins dels grups (mean squares within)

MSW =
SSW
nK
La variabilitat total de les dades pot ser mesurada a traves de la suma de quadrats total (sum of squares total),
SST =
nK
K X
X
(Xij X)2
i=1 j=1
verificant-se que
SST = SSW + SSG
Si les K poblacions tenen variància comuna 2 , resulta que tant SSW com SSG poden utilitzar-se per a estimar 2 .
Proposicio 1. Siguin Xi N(i , 2 ), i = 1, . . . , K independents.
Sota H0 : 1 = 2 = = K ,
2
1.
SSG
2
2.
SSW
2
2K1 i per tant E[MSG] = 2

2nK i per tant E[MSW] = 2
3. MSG i MSW son independents

iguals, MSG no serà un estimador no esbiaxat de la variància poblacional comuna;
Si les mitjanes poblacionals no son
tot el contrari, de fet ha dexcedir la variància poblacional comuna doncs incorporarà informacio al respecte de les
diferències entre les mitjanes poblacionals reals. Si H0 e s certa, esperem que el quocient entre MSG i MSW sigui al
voltant de 1. En ser independents,
MSG
F=
=
MSW
2
K1
K1
2
nK
nK
FK1,nK
una famlia de distribucions amb dos paràmetres. Aquests son

els graus de
Les distribucions F de Fisher-Snedecor son
llibertat que apareixen al numerador i denominador de lestadstic F (sempre es menciona abans els graus de llibertat
assimètriques a la
del numerador: si intercanviem els graus la distribucio canvia!) Les distribucions F de Fisher son
dreta i presenten un pic en la corba de densitat al voltant de 1.
En base a la proposicio anterior i als comentaris que en segueixen, la Fratio serà lestadstic de contrast per,
H 0 : 1 = 2 = = K
`
els mes grans
Els valors de MSG/MSW que afavoreixen la hipotesi
alternativa (alguna diferència entre les mitjanes) son
que 1 ja que MSW no canviaria pero` MSG augmentaria. El pvalor en aquest contrast serà P(Fratio > FK1,nK ).
Aquesta informacio es resumeix en la taula de lAnàlisi de la Variància,
Suma de Graus de
Font de
variacio
quadrats llibertat
Entre grups
SSG
K1
Dins grups
SSW
nK
Total
SST
n1
1.1
Quadrats
migs
SSG
MSG = K1
MSW = SSW
nK
F-ratio
MSG
MSW
Suposits
`
de lanàlisi de la variància
tal i
Digual manera que amb altres procediments inferencials, lANOVA e s vàlid sota certs requeriments. Aquests son,
com hem comentat,
`
1. K mostres aleatories
simples independents, una per a cada poblacio.
estem estudiant una variable aleatoria
`
2. A cada poblacio,
Xi amb distribucio normal de mitjana i . Es planteja
decidir entre,

H0 : 1 = 2 = = K
Ha : hi ha alguna i diferent
3. Totes les Xi tenen la mateixa desviacio tpica de valor desconegut.
`
Aquests suposits
es poden relaxar un tant sense que lanàlisi deixi de ser aplicable (Moore 9.2.2). Si la distribucio de
normals pero` son
contnues simètriques i no hi ha observacions atpiques, lanàlisi de la
les Xi en cada grup no son
variància es pot aplicar fins i tot amb mostres petites (de 4 o 5 elements per grup). Evidentment, i degut al TCL, com
mes grans siguin les mostres millor funcionarà la prova.
` que les poblacions tenen la mateixa variància, en part perquè les proves estadstiques
No e s fàcil comprovar el suposit
molt sensibles a la manca de normalitat y, en consequ`
encia,
que es fan servir per verificar la igualtat de variàncies son
tenen poc valor a la pràctica... Com a regla pràctica, que e s segura en gran part de les situacions, direm que:
aproximadament correctes quan la desviacio tpica mostral mes
Els resultats de la prova F del ANOVA son
gran no e s superior que el doble de la desviacio tpica mostral mes petita.
3
1.2
Lexemple resolt, i amb R
Obtenim la taula ANOVA pel nostre cas. Sigui Xi la v.a. collita duna parcel.la triada a latzar entre les que han estat
tractades amb el fertilitzant A (i = 1), fertilitzant B (i = 2) o Cap fertilitzant (i = 3).
n1 = 4
n2 = 4
n3 = 4
1. Calculem les mitjanes mostrals:

X1 = 70
X2 = 73
X3 = 61
2. Estimem la mitja conjunta

X = 68
3. Variabilitat dins els grups:
A
(75 70)2
(70 70)2
(66 70)2
(69 70)2
42
B
(74 73)2
(78 73)2
(72 73)2
(68 73)2
52
C
(60 61)2
(64 61)2
(65 61)2
(55 61)2
62
SCD = 42 + 52 + 62 = 156
4. Variabilitat entre grups:
SSG = 4(70 68)2 + 4(73 68)2 + 4(61 68)2 = 312
Ara ja podem fer la taula de lAnàlisi de la Variància
Font de
Suma de
variacio
quadrats
Entre grups
312
Dins grups
156
Total
312 + 156
Graus de
llibertat
31=2
12 3 = 9
12 1 = 11
Quadrats
migs
MSG = 312
2 = 156
MSW = 156
9 = 17, 33
F-ratio
=9
156
17,33
`
p - valor=P(F2,9 > 9) = 1 pf(9, 2, 9) = 0.007127781 i per tant refusem la hipotesi
nul.la digualtat de mitjanes: almenys
nhi ha un dels grups que, en mitjana, te collita diferent a la resta.
podem passar
Ara que hem treballat (i forca!) sobre aquestes dades per mirar dentendre el procediment de decisio,
a revisar el problema amb R. Primer hem dentrar les observacions i combinar-les en un unic
conjunt de dades, que
aconseguim amb la darrera instruccio:

a<-c(75, 70, 66, 69)
b<-c(74, 78, 72, 68)
c<-c(60, 64, 65, 55)
collita = list(a=a, b=b, c=c)
Abans de comencar amb lANOVA, fem una exploracio gràfica per mirar de detectar, a nivell exploratori, si hi ha
diferències entre les tres distribucions:
boxplot(collita) o millor stripchart(collita)
on sobserva que, per a aquestes dades, les parcel.les sense fertilitzant, tenen una collita inferior a la resta. Mirem de
validar aquesta conjectura via lanàlisi de la variància.
Si donem una ullada a les dades, veiem que, a hores dara tenen forma duna llista amb les mostres per separat:
> collita
$a
[1] 75 70 66 69
$b
[1] 74 78 72 68
$c
[1] 60 64 65 55
Per tal de poder cridar a la funcio de R que realitza lANOVA, hem de preparar les dades de manera que siguin una
unica
variable collita acompanyada dun factor que assigna cada observacio al seu grup. Ho aconseguim amb,
collita = stack(collita)
on veiem que tenim els valors que hem entrat per a cadascuna de les parcel.les a la columna values i a ind tenim
lindicador de grup.
Els noms de collita ens donen una idea de la nova estructura, quedarà mes clar si fem
names(collita)<- c("pes.collita", "tipus.fert")
Ara ja podem realitzar lANOVA cridant la funcio oneway.test( ) com segueix,
oneway.test(pes.collita tipus.fert, data=collita, var.equal=TRUE)
Obtenim com a output,
One-way analysis of means
data: values and ind F = 9, num df = 2, denom df = 9,
p-value = 0.007128
Sens facilita la Fratio de la taula ANOVA, els graus de llibertat del numerador i del denominador i el p-valor, que ja
e s el que havem obtingut prèviament. Tot i aix, trobem a faltar la taula ANOVA de resum del procediment... Tenim
la possibilitat de cridar una nova funcio de R, que, en realitat forma part dels models lineals (lineal models) lm ( );
un extens conjunt de models entre els que es pot incloure tambe lANOVA.
aquests son
> anova(lm(pes.collita tipus.fert, data=collita))
Analysis of Variance Table
Response: pes.collita
Df Sum Sq Mean Sq F value
Pr(>F)
tipus.fert 2
312 156.000
9 0.007128 **
Residuals
9
156 17.333
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
on podem identificar termes amb els nostres càlculs previs i arribar a la mateixa conclusio sobre les diferències en collita
mitjana.
Exercicis amb solucions

1. Trobareu al fitxer notes.dat, les notes del control de prova del grup 1 les podem carregar amb:
Per comparar les notes dels grups, fes un boxplot de les notes segons el grup. Tambe pots demanar les mitjanes
de cada grup fent, per exemple,
mean(notes$nota[notes$grup=="g102"])
i de manera similar les desviacions tpiques.
Et sembla que hi ha diferències entre els grups? Mira què et diu als respecte un anàlisi ANOVA.
Solucio:
No hi ha diferències estadsticament significatives:
> oneway.test(notagrup, data=notes)

One-way analysis of means (not assuming equal variances)
data: nota and grup
F = 0.5098, num df = 3.000, denom df = 38.276, p-value = 0.6779
> oneway.test(notagrup, data=notes, var.equal=TRUE)
data: nota and grup
F = 0.5009, num df = 3, denom df = 76, p-value = 0.6828
> anova(lm(notagrup, data=notes))
Response: nota
Df Sum Sq Mean Sq F value Pr(>F)
grup
3
6.07 2.0235 0.5009 0.6828
Residuals 76 307.00 4.0395
2. Considerem el fitxer miete.dat que conte els lloguers de pisos per a apartaments en una ciutat alemanya.
Guardarem les dades del fitxer en una varible que anomenarem rent. Tambe conte dos factors que, es pensa,
poden influir en el preu: lany de construccio (codificat en franges temporals) i si lapartament està en la planta
baixa, en el primer pis, segon... fins a la planta quarta. Quan carreguem les dades, veiem que rent e s una matriu
la segona (Lage) indica el pis i la tercera (Miete)
de tres columnes: la primera (Baujahr indica lany de construccio,
els preus. Pots comprovar-ho demanant rent i despres names(rent) a R.
(a) Amb la instruccio
names(rent)<-c("any", "pis", "preu")
què aconsegueixes? Fes-ho!
(b) Amb la instruccio preu <- rent[, 3] podem separar la columna 3 de la matriu rent. Fes-ho i seguint
aquest esquema defineix dues noves variables, que pots anomenar planta i any que continguin els registres
corresponents a cada pis.
(c) Volem examinar si el nivell del pis influeix en el preu final del lloguer.
i. Comenca per fer un boxplot que et permeti comparar el preu segons el pis.
`
ii. Enuncia les hipotesi

nul.la i alternativa per a decidir en aquesta questi
o.
iii. Quin e s el p-valor que has obtingut? Quina e s la teva conclusio?

(d) Repeteix lapartat anterior pero` amb la influència del factor any sobre el preu. A quina conclusio arribes?
Solucio:
Les instruccions que necessitem per obtenir les variables planta i any son,
planta <- rent[, 2]
any <- rent[, 1]
`
Comencem pel primer test. Es tracta dun anàlisi de la variància amb hipotesi
nula.la que el preu mitjà dels pisos
e s el mateix en tots els nivells de planta contra lalternativa que nhi ha algun de diferent. Demanem el contrast,
oneway.test(preuplanta, var.equal=T)
i obtenim
data: preu and planta
F = 0.4157, num df = 4, denom df = 495, p-value = 0.7974
El pvalor obtingut e s 0.7974 la qual cosa indica que els pisos son homogenis en preu mig, respecte del nivell de
planta en que shi troben.
6
Pel que fa al segon contrast, podem procedir de manera similar doncs es tracta danàlisi de la variància amb
`
hipotesi
nula.la que el preu mitjà dels pisos e s el mateix independentment la franja temporal en que han estat
construits contra lalternativa que nhi ha alguna franja en la que els pisos tenen preu mig diferent. Podem cridar
la mateixa funcio de R que hem fet abans, o be demanar el procediment danàlisi de la variància dins els models
lineals.
anova(lm(preu
any, data=rent))
dona com a resultat,
Response: preu
Df
Sum Sq Mean Sq F value Pr(>F)
any
4
735.26 183.81
92.976
< 2.2e-16 *** --Residuals 495 978.62 1.98
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
en base al pvalor que e s menor que 2.2e 16, que la franja temporal si influencia sobre el preu
amb la conclusio,
mig dels lloguers.

Tema5 Anova

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Tema5 Anova

Uploaded by

Copyright:

Available Formats

J. Daoudi, L. di Gennaro, G. Garca, F.

Tema 5: An`alisi de la Vari`ancia (ANOVA)

Els resultats de la collita son,

La idea de lan`alisi de la vari`ancia

La idea intutiva queda reflectida en els seguents

En canvi, si els grups tenien mitjanes diferents, en

Quadrat mig entre els grups (mean squares groups)

2. Variabilitat dins dels grups.

Suma de quadrats dins dels grups (SSW, sum of squares within)

Quadrat mig dins dels grups (mean squares within)

2K1 i per tant E[MSG] = 2

3. MSG i MSW son independents

una famlia de distribucions amb dos par`ametres. Aquests son

Lexemple resolt, i amb R

1. Calculem les mitjanes mostrals:

2. Estimem la mitja conjunta

aconseguim amb la darrera instruccio:

Exercicis amb solucions

No hi ha difer`encies estadsticament significatives:

> oneway.test(notagrup, data=notes)

ii. Enuncia les hipotesi

iii. Quin e s el p-valor que has obtingut? Quina e s la teva conclusio?

You might also like