Professional Documents
Culture Documents
Tema5 Anova
Tema5 Anova
Udina
poblacions tenen la mateixa vari`ancia desconeguda. Mirem de fixar les idees amb el seguent
exemple:
`
Exemple 1. Dotze parcel.les de terreny es distribueixen aleatoriament
en tres grups. Als dos primers grups sels hi
aplica el fertilitzant 1 i 2, i el tercer grup de parcel.les es considera com a unitat de control, sense aplicar-li cap fertilitzant.
mostra 1
mostra 2
mostra 3
mostra 1
conjunta
Si tenim tres grups amb mitjanes iguals, i els reunim tots tres en una mostra conjunta (a la dreta), la
varianca del conjunt e s molt similar a les vari`ancies
dels grups individuals.
mostra 2
mostra 3
Per tant veiem que analitzant la vari`ancia podem decidir si les mitjanes eren realment diferents o no.
Siguin Xi N(i , 2 ), i = 1, . . . K independents. Ens proposem decidir entre,
H0 : 1 = 2 = = K
i lalternativa: alguna mitjana poblacional e s diferent.
conjunta
`
Observem que sota la hipotesi
nul.la, el formar part dun grup e s irrellevant i totes les observacions podrien ser con
Aix doncs, la hipotesi
`
siderades com a una mostra duna unica
poblacio.
nul.la especifica que les K poblacions tenen
una mitja comuna, que podem estimar pel que denotarem com a X.
La t`ecnica de lAn`alisi de la Vari`ancia est`a basada en la comparacio de dos tipus de variabilitat a la mostra: la variabilitat
dins dels grups i la variabilitat entre els grups.
Denotem Xij , i = 1, . . . , nj , j = 1, . . . , K la nostra mostra composada de K submostres, una de cada grup.
1. Variabilitat entre els grups.
Mesurem les difer`encies entre les mitjanes individuals a cada grup i la mitjana global.
(X1 X)2 , (X2 X)2 , . . . , (XK X)2
Suma de quadrats entre els grups (SSG, sum of squares of groups):
SSG =
K
X
ni (Xi X)2
i=1
SSG
K1
K
X
SSi
i=1
SSW
nK
La variabilitat total de les dades pot ser mesurada a traves de la suma de quadrats total (sum of squares total),
SST =
nK
K X
X
(Xij X)2
i=1 j=1
verificant-se que
SST = SSW + SSG
Si les K poblacions tenen vari`ancia comuna 2 , resulta que tant SSW com SSG poden utilitzar-se per a estimar 2 .
Proposicio 1. Siguin Xi N(i , 2 ), i = 1, . . . , K independents.
Sota H0 : 1 = 2 = = K ,
2
1.
SSG
2
2.
SSW
2
2
K1
K1
2
nK
nK
FK1,nK
1.1
Quadrats
migs
SSG
MSG = K1
MSW = SSW
nK
F-ratio
MSG
MSW
Suposits
`
de lan`alisi de la vari`ancia
tal i
Digual manera que amb altres procediments inferencials, lANOVA e s v`alid sota certs requeriments. Aquests son,
com hem comentat,
`
1. K mostres aleatories
simples independents, una per a cada poblacio.
estem estudiant una variable aleatoria
`
2. A cada poblacio,
Xi amb distribucio normal de mitjana i . Es planteja
decidir entre,
H0 : 1 = 2 = = K
Ha : hi ha alguna i diferent
3. Totes les Xi tenen la mateixa desviacio tpica de valor desconegut.
`
Aquests suposits
es poden relaxar un tant sense que lan`alisi deixi de ser aplicable (Moore 9.2.2). Si la distribucio de
normals pero` son
contnues sim`etriques i no hi ha observacions atpiques, lan`alisi de la
les Xi en cada grup no son
vari`ancia es pot aplicar fins i tot amb mostres petites (de 4 o 5 elements per grup). Evidentment, i degut al TCL, com
mes grans siguin les mostres millor funcionar`a la prova.
` que les poblacions tenen la mateixa vari`ancia, en part perqu`e les proves estadstiques
No e s f`acil comprovar el suposit
molt sensibles a la manca de normalitat y, en consequ`
encia,
que es fan servir per verificar la igualtat de vari`ancies son
tenen poc valor a la pr`actica... Com a regla pr`actica, que e s segura en gran part de les situacions, direm que:
aproximadament correctes quan la desviacio tpica mostral mes
Els resultats de la prova F del ANOVA son
gran no e s superior que el doble de la desviacio tpica mostral mes petita.
3
1.2
Obtenim la taula ANOVA pel nostre cas. Sigui Xi la v.a. collita duna parcel.la triada a latzar entre les que han estat
tractades amb el fertilitzant A (i = 1), fertilitzant B (i = 2) o Cap fertilitzant (i = 3).
n1 = 4
n2 = 4
n3 = 4
X2 = 73
X3 = 61
B
(74 73)2
(78 73)2
(72 73)2
(68 73)2
52
C
(60 61)2
(64 61)2
(65 61)2
(55 61)2
62
SCD = 42 + 52 + 62 = 156
4. Variabilitat entre grups:
SSG = 4(70 68)2 + 4(73 68)2 + 4(61 68)2 = 312
Ara ja podem fer la taula de lAn`alisi de la Vari`ancia
Font de
Suma de
variacio
quadrats
Entre grups
312
Dins grups
156
Total
312 + 156
Graus de
llibertat
31=2
12 3 = 9
12 1 = 11
Quadrats
migs
MSG = 312
2 = 156
MSW = 156
9 = 17, 33
F-ratio
=9
156
17,33
`
p - valor=P(F2,9 > 9) = 1 pf(9, 2, 9) = 0.007127781 i per tant refusem la hipotesi
nul.la digualtat de mitjanes: almenys
nhi ha un dels grups que, en mitjana, te collita diferent a la resta.
podem passar
Ara que hem treballat (i forca!) sobre aquestes dades per mirar dentendre el procediment de decisio,
a revisar el problema amb R. Primer hem dentrar les observacions i combinar-les en un unic
conjunt de dades, que
> collita
$a
[1] 75 70 66 69
$b
[1] 74 78 72 68
$c
[1] 60 64 65 55
Per tal de poder cridar a la funcio de R que realitza lANOVA, hem de preparar les dades de manera que siguin una
unica
variable collita acompanyada dun factor que assigna cada observacio al seu grup. Ho aconseguim amb,
collita = stack(collita)
on veiem que tenim els valors que hem entrat per a cadascuna de les parcel.les a la columna values i a ind tenim
lindicador de grup.
Els noms de collita ens donen una idea de la nova estructura, quedar`a mes clar si fem
names(collita)<- c("pes.collita", "tipus.fert")
Ara ja podem realitzar lANOVA cridant la funcio oneway.test( ) com segueix,
oneway.test(pes.collita tipus.fert, data=collita, var.equal=TRUE)
Obtenim com a output,
One-way analysis of means
data: values and ind F = 9, num df = 2, denom df = 9,
p-value = 0.007128
Sens facilita la Fratio de la taula ANOVA, els graus de llibertat del numerador i del denominador i el p-valor, que ja
e s el que havem obtingut pr`eviament. Tot i aix, trobem a faltar la taula ANOVA de resum del procediment... Tenim
la possibilitat de cridar una nova funcio de R, que, en realitat forma part dels models lineals (lineal models) lm ( );
un extens conjunt de models entre els que es pot incloure tambe lANOVA.
aquests son
> anova(lm(pes.collita tipus.fert, data=collita))
Analysis of Variance Table
Response: pes.collita
Df Sum Sq Mean Sq F value
Pr(>F)
tipus.fert 2
312 156.000
9 0.007128 **
Residuals
9
156 17.333
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
on podem identificar termes amb els nostres c`alculs previs i arribar a la mateixa conclusio sobre les difer`encies en collita
mitjana.
Les instruccions que necessitem per obtenir les variables planta i any son,
planta <- rent[, 2]
any <- rent[, 1]
`
Comencem pel primer test. Es tracta dun an`alisi de la vari`ancia amb hipotesi
nula.la que el preu mitj`a dels pisos
e s el mateix en tots els nivells de planta contra lalternativa que nhi ha algun de diferent. Demanem el contrast,
oneway.test(preuplanta, var.equal=T)
i obtenim
One-way analysis of means
data: preu and planta
F = 0.4157, num df = 4, denom df = 495, p-value = 0.7974
El pvalor obtingut e s 0.7974 la qual cosa indica que els pisos son homogenis en preu mig, respecte del nivell de
planta en que shi troben.
6
Pel que fa al segon contrast, podem procedir de manera similar doncs es tracta dan`alisi de la vari`ancia amb
`
hipotesi
nula.la que el preu mitj`a dels pisos e s el mateix independentment la franja temporal en que han estat
construits contra lalternativa que nhi ha alguna franja en la que els pisos tenen preu mig diferent. Podem cridar
la mateixa funcio de R que hem fet abans, o be demanar el procediment dan`alisi de la vari`ancia dins els models
lineals.
anova(lm(preu
any, data=rent))
dona com a resultat,
Analysis of Variance Table
Response: preu
Df
Sum Sq Mean Sq F value Pr(>F)
any
4
735.26 183.81
92.976
< 2.2e-16 *** --Residuals 495 978.62 1.98
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
en base al pvalor que e s menor que 2.2e 16, que la franja temporal si influencia sobre el preu
amb la conclusio,
mig dels lloguers.