You are on page 1of 40

Tema 1.

Modelo de dise
no de experimentos
(un factor)

Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 1: Dise


no de experimentos (un factor) 1
Introducci
on

El objetivo del Analisis de la Varianza es estudiar si existe relacion


entre el valor medio de una variable respuesta o caracterstica (por
ej. el nivel de contaminaci on) y una variable cualitativa, atributo o
factor (por ej. la localizaci
on del lugar de medida).
Ejemplo 1.1: Se mide la contaminaci on de un ro analizando la
cantidad de oxgeno que contiene en disolucion el agua. Se toman
muestras en cuatro lugares diferentes del ro (a 10, 25, 50 y 100
km. del nacimiento), obteniendose:

A 100 km. 4,8 5,2 5 4,7 5,1


A 50 km. 6 6,2 6,1 5,8
A 25 km. 5,9 6,1 6,3 6,1 6
A 10 km. 6,3 6,6 6,4 6,4 6,5
Queremos averiguar si existen diferencias significativas en el nivel
medio de contaminacion a distintas alturas del cauce.
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 1: Dise
no de experimentos (un factor) 2
Tenemos una muestra de n = 19 elementos que se diferencian en
un factor. En cada elemento de la muestra observamos una
caracterstica continua (Y ), que vara aleatoriamente de un
elemento a otro.
Otros posibles ejemplos:
Existe diferencia entre el salario medio mensual entre hombre
y mujer?
Existen diferencias entre las calificaciones medias de
estudiantes de la misma asignatura, pero de distintos grupos?
Diferencias entre el consumo medio de carburante en coches
de la misma categora pero distintas marcas.

Para determinar si hay diferencias significativas entre las respuestas


medias a distintos niveles del factor, el Analisis de la Varianza
descompone la variabilidad de un experimento en componentes
independientes que se asignan a causas distintas.

Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 1: Dise


no de experimentos (un factor) 3
El modelo

En el Ejemplo 1.1 el factor toma I = valores (los niveles, grupos


o tratamientos del factor). Se mide la cantidad de oxgeno en
disolucion n1 = veces a 100 km. del nacimiento del ro, n2 =
veces a 50 km., n3 = veces a 25 km. y n4 = veces a 10 km.
ni = no de observaciones de la respuesta para el nivel i del factor
Si n1 = n2 = . . . = nI se dice que el dise
no es equilibrado.
XI
n= ni = no total de observaciones de Y
i=1
yij = j-esimo valor observado de la respuesta en el nivel i,
i = 1, . . . , I , j = 1, . . . , ni
Ejemplo 1.1 (cont.):

Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 1: Dise


no de experimentos (un factor) 4
Ejemplo 1.1 (cont.):

6.5

6
y

5.5

4.5
1 2 3 4
i

Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 1: Dise


no de experimentos (un factor) 5
Suponemos que, en el nivel i del factor, la respuesta Y oscila
aleatoriamente en torno a un nivel desconocido i , la media de la
poblacion i-esima: E (Yij ) = i . Cada observaci
on yij resulta de
una perturbacion aleatoria uij en torno al valor medio i .

El modelo de Analisis de la Varianza (ANOVA) unifactorial es el


modelo lineal

Yij = i + Uij , para j = 1, . . . , ni , i = 1, . . . , I ,

con las siguientes hipotesis basicas del modelo:


a) E (Uij ) = 0 para todo i, j (linealidad)
b) Var(Uij ) = 2 para todo i, j (homocedasticidad)
c) E (Uij Ukl ) = 0 para todo i 6= k, j 6= l (independencia)
d) Uij Normal para todo i, j (normalidad)

A las Uij tambien se las llama error experimental.

Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 1: Dise


no de experimentos (un factor) 6
Las anteriores hipotesis equivalen a
a) E (Yij ) = i para todo i, j
b) Var(Yij ) = 2 para todo i, j
c) E (Yij Ykl ) = 0 para todo i 6= k, j 6= l
d) Yij Normal para todo i, j

Seg
un el modelo las ni observaciones yi1 , yi2 , . . . , yini de la
poblacion i son una muestra aleatoria de una N(i , 2 ).

Si estas hipotesis no se cumplen las conclusiones del Analisis de la


Varianza pueden ser incorrectas.

Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 1: Dise


no de experimentos (un factor) 7
Estimaci
on de los par
ametros del modelo

El modelo ANOVA con un factor depende de I + 1 parametros


un 2 . Los
desconocidos: las medias 1 ,. . . ,I y la varianza com
estimamos mediante el metodo de maxima verosimilitud (MV):
ni
1 X

i = yij = yi
ni
j=1

y
iI n I
1 XX X ni
2 =
(yij yi )2 = s 2,
n n i
i=1 j=1 i=1
Pni
donde si2 = j=1 (yij yi )2 /ni es la varianza muestral en la
poblacion i-esima. Por tanto, 2 es la media de las si2 ponderada
por la proporcion de observaciones en cada nivel del factor.

Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 1: Dise


no de experimentos (un factor) 8
Ejemplo 1.1 (cont.):

i yij ni yi si2
1 4,8 5,2 5 4,7 5,1
2 6 6,2 6,1 5,8
3 5,9 6,1 6,3 6,1 6
4 6,3 6,6 6,4 6,4 6,5
n= 2 =

Los residuos del modelo son valores observados de las


perturbaciones Uij :
eij = yij yi
En general en todos los temas de esta asignatura se define

Residuo (eij ) = Valor observado (yij ) - Valor previsto (


yij )

Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 1: Dise


no de experimentos (un factor) 9
Ejemplo 1.1 (cont.):
i eij
1
2
3
4

Los n residuos del modelo verifican las ecuaciones de restriccion


Xni
eij = 0, i = 1, . . . , I .
j=1

olo n I son linealmente


Es decir, de los n residuos s
independientes: los residuos tienen n I grados de libertad.

Grados de libertad (g.l.) de los residuos = Numero total de residuos


N umero de restricciones lineales entre ellos = n I
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 1: Dise
no de experimentos (un factor) 10
Propiedades de los estimadores de los par
ametros
ni
2
 
1 X
Yi = Yij N i ,
ni ni
j=1

2
n
2nI
2 no es centrado
2
Un estimador insesgado de 2 es la varianza residual
I ni
1 XX n
sR2 = eij2 = 2,

nI nI
i=1 j=1

que verifica
(n I )sR2
2nI .
2
Ejemplo 1.1 (cont.):

Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 1: Dise


no de experimentos (un factor) 11
Usando estas propiedades obtenemos intervalos de confianza para
los parametros:
 r 
1
IC1 (i ) = yi tnI ;/2 sR
ni
!
2
2
(n I ) sR (n I ) sR2
IC1 ( ) = ,
2nI ;/2 2nI ;1/2

Ejemplo 1.1 (cont.):

Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 1: Dise


no de experimentos (un factor) 12
El contraste de igualdad de medias

Bajo el modelo ANOVA unifactorial queremos contrastar

H0 : 1 = 2 = . . . = I =
(todas las medias son iguales, el factor no influye)
H1 : i 6= j para alg
un par i 6= j.
(las medias difieren en al menos dos de los niveles,
el factor influye)

El contraste compara las diferencias entre medias muestrales con la


variabilidad experimental, medida por sR2 , para decidir si esta ha
podido generar esas diferencias o no.

Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 1: Dise


no de experimentos (un factor) 13
La descomposici
on de la variabilidad

Cada dato yij se puede expresar as

yi y ) + eij
yij = y + (

donde
i I n
1 XX
y = yij
n
i=1 j=1

es la media global e yi y es la modificaci


on debida al grupo.

Esto permite descomponer la variabilidad entre los datos y la


media global en dos terminos: la variabilidad entre las medias por
grupos y la media general, y la variabilidad residual, o variabilidad
dentro del grupo.

Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 1: Dise


no de experimentos (un factor) 14
De hecho, se cumple que

VT = VE + VNE,

donde el termino de la izquierda es la variabilidad total


ni
I X
X
VT = (yij y )2 ,
i=1 j=1

I
X
VE = yi y )2
ni (
i=1
denota la variabilidad explicada por el modelo o por las diferencias
entre niveles del factor y
ni
I X
X
VNE = eij2 = (n I )sR2
i=1 j=1

denota la variabilidad no explicada o residual.


Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 1: Dise
no de experimentos (un factor) 15
Las propiedades de los estimadores de los parametros implican que
VNE
2nI .
2
Ademas, cuando la hip otesis nula H0 de igualdad de medias es
cierta, se verifica que
VE
2I 1
2
VNE VE
y los terminos y 2 son independientes entre s.
2
Esto nos permite construir el siguiente contraste.

Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 1: Dise


no de experimentos (un factor) 16
La tabla ANOVA y el contraste
Los terminos de la descomposici
on de la variabilidad se disponen
en la tabla ANOVA
Fuentes de Suma de Grados de
variacion cuadrados libertad Varianzas
I
X VE
Explicada VE = yi y )2
ni ( I 1 se2 =
I 1
i=1
ni
I X
X
Residual VNE = eij2 nI sR2
i=1 j=1
ni
I X
X VT
Total (yij y )2 n1 sy2 =
n1
i=1 j=1

Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 1: Dise


no de experimentos (un factor) 17
Si la hipotesis nula de igualdad de medias H0 : 1 = 2 = . . . = I
es cierta entonces
s2
F = e2 FI 1,nI .
sR
Una region de rechazo para el contraste

H0 : 1 = 2 = . . . = I =
H1 : i 6= j para alg
un par i 6= j.

al nivel de significacion es

R = {F > FI 1,nI , }.

Observemos que, para I = 2 poblaciones, este contraste es


matematicamente equivalente al contraste t de Student que
compara dos medias de distribuciones normales homocedasticas.

Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 1: Dise


no de experimentos (un factor) 18
Ejemplo 1.1 (cont.):

Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 1: Dise


no de experimentos (un factor) 19
Ejemplo 1.2: Se examina el contenido de azufre en cinco
yacimientos de carbon en Texas. Se toman muestras aleatorias de
cada uno de los yacimientos y se analizan, obteniendose los
siguientes datos del porcentaje de azufre por muestra.
Yacimientos 1 2 3 4 5
Contenido 1.51 1.69 1.56 1.30 0.73
de 1.92 0.64 1.22 0.75 0.80
azufre 1.08 0.90 1.32 1.26 0.90
2.04 1.41 1.39 0.69 1.24
2.14 1.01 1.33 0.62 0.82
1.76 0.84 1.54 0.90 0.72
1.17 1.28 1.04 1.20 0.57
1.59 2.25 0.32 1.18
1.49 0.54
1.30

Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 1: Dise


no de experimentos (un factor) 20
Ejemplo 1.2 (cont.): Contrastar la igualdad de niveles medios de
azufre en los cinco yacimientos.

1.5
y

0.5

0 1 2 3 4 5 6
i

Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 1: Dise


no de experimentos (un factor) 21
El coeficiente de determinaci
on

Una medida relativa de la variabilidad explicada por los grupos o


niveles del factor es el coeficiente de determinaci
on
VE
R2 = .
VT
Es la proporcion de variabilidad total de las observaciones y
explicada por el modelo lineal establecido.

on: 0 R 2 1
Observaci

Ejemplo 1.1 (cont.):

Ejemplo 1.2 (cont.):

Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 1: Dise


no de experimentos (un factor) 22
An
alisis de las diferencias entre medias

Si aceptamos H0 en el contraste

H0 : 1 = 2 = . . . = I =
H1 : i 6= j para alg
un par i 6= j.

entonces estimamos la media global mediante y . Bajo las


hipotesis basicas del modelo ANOVA unifactorial, un intervalo de
confianza para al nivel de confianza 1 es
 
sy
IC() = y tn1,/2 ,
n

on: Bajo H0 un estimador insesgado de 2 = Var(Y ) es


Observaci
sy2 .

Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 1: Dise


no de experimentos (un factor) 23
Si se rechaza H0 queremos determinar que parejas de medias son
distintas entre s y estimar las diferencias i j . Utilizando que
yi yj (i j )
q tnI ,
sR n1i + n1j

construimos un intervalo de confianza para i j


" s #
1 1
IC1 (i j ) = yi yj tnI ;/2 sR + .
ni nj

Tambien podemos contrastar H0 : i = j frente a H1 : i 6= j a


nivel de significacion . La region de rechazo es

y y ( )
i j i j
R = q > tnI ;/2 .
1
+ 1

s R ni nj

Esto equivale a rechazar H0 : i = j si 0


/ IC1 (i j ).
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 1: Dise
no de experimentos (un factor) 24
Ejemplo 1.1 (cont.):

Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 1: Dise


no de experimentos (un factor) 25
Contrastes m
ultiples
 
I I!
Es posible formar c = = parejas de medias
2 2!(I 2)!
distintas i , j . Luego podemos realizar c contrastes H0 : i = j .

Ejemplo 1.1 (cont.):

Supongamos que tenemos I = 3 poblaciones y hemos rechazado


H0 : 1 = 2 = 3 = en el modelo Yij = i + Uij , para
i = 1, 2, 3, j = 1, . . . , ni . Entonces tenemos que decidir si 1 6= 2 ,
o si 2 6= 3 , o si 1 6= 3 .

Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 1: Dise


no de experimentos (un factor) 26
Cuando tomo 100 muestras de Y puedo construir 100 intervalos de
confianza para 1 2 , para 3 2 y para 1 3 :

y1(1) , . . . , yn(1) IC(1)


0.95 (1 2 ) IC(1)
0.95 (3 2 ) IC(1)
0.95 (1 3 )
y1(2) , . . . , yn(2) IC(2)
0.95 (1 2 ) IC(2)
0.95 (3 2 ) IC(2)
0.95 (1 3 )
y1(3) , . . . , yn(3) IC(3)
0.95 (1 2 ) IC(3)
0.95 (3 2 ) IC(3)
0.95 (1 3 )
.. .. .. ..
. . . .
y1(100) , . . . , yn(100) IC(100)
0.95 (1 2 ) IC(100)
0.95 (3 2 ) IC(100)
0.95 (1 3 )

Aprox. 95 de los 100 Aprox. 95 de los 100 Aprox. 95 de los 100


intervalos contienen intervalos contienen intervalos contienen
a 1 2 . a 3 2 . a 1 3 .

Puede que s
olo para 90 de las 100 muestras se verifique simult
aneamente
que 1 2 IC0.95 (1 2 ), 3 2 IC0.95 (3 2 )
y 1 3 IC0.95 (1 3 ).

6 j al nivel .
Se puede razonar igual con los contrastes H0 : i =
Utilizamos el metodo de Bonferroni para calcular intervalos de
confianza o contrastes multiples.
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 1: Dise
no de experimentos (un factor) 27
Buscamos el nivel individual tal que para el 95%(=1 T =nivel
global) de las muestras se verifique simultaneamente que
1 2 IC1 (1 2 ), 3 2 IC1 (3 2 ) y
1 3 IC1 (1 3 ).
En el metodo de Bonferroni se toma = T /c = 0.05/3, pues
1 T = P {1 2 IC1 (1 2 ),
3 2 IC1 (3 2 ), 1 3 IC1 (1 3 )}

T = P {1 2
/ IC1 (1 2 )
o 3 2
/ IC1 (3 2 )
o 1 3
/ IC1 (1 3 )}
P{1 2
/ IC1 (1 2 )}
+P{3 2
/ IC1 (3 2 )}
+P{1 3
/ IC1 (1 3 )} = c
Observacion: Quiza rechacemos H0 : 1 = 2 = . . . = I en
ANOVA y no encontremos diferencias entre ning un i , j con
Bonferroni, pues es un metodo conservador si c es grande.
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 1: Dise
no de experimentos (un factor) 28
I

Ejemplo 1.1 (cont.): Tomo T = 0.05. Como c = 2 = 6,
tenemos que = 0.05
6 = 0.0083 2 = 0.0041.


r
1 1
IC0.9917 (1 2 ) = [
y1 y2 t15,0.0041 0.0266 + ]
5 4
= [1.3874, 0.7426] Rechazo H0 : 1 = 2
IC0.9917 (1 3 ) = [1.42, 0.82] Rechazo H0 : 1 = 3
IC0.9917 (1 4 ) = [1.78, 1.18] Rechazo H0 : 1 = 4
IC0.9917 (2 3 ) = [0.38, 0.27] No rechazo H0 : 2 = 3
IC0.9917 (2 4 ) = [0.74, 0.09] Rechazo H0 : 2 = 4
IC0.9917 (3 4 ) = [0.66, 0.06] Rechazo H0 : 3 = 4

Con un nivel global de confianza del 95% podemos afirmar que


1 < 2 , 3 < 4 , pero no rechazamos que 2 = 3 .

Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 1: Dise


no de experimentos (un factor) 29
Diagnosis del modelo

Consiste en estudiar si los datos de nuestro problema son


coherentes con las hip otesis basicas del modelo y que problemas se
derivan si no se verifica alguna.

La diagnosis se realiza a traves del analisis de los residuos eij .


Podemos obviar que los residuos no son independientes si el
tamano total muestral n es grande comparado con el n umero de
poblaciones, I .

Un primer paso en el analisis de los residuos consiste en la


representacion grafica de los mismos, por ejemplo, mediante
diagramas de puntos si el tama no muestral n es pequeno (n < 20)
o, en caso contrario, mediante histogramas o diagramas de cajas.
Esto permite verificar si los residuos incumplen la hipotesis de
normalidad y si existen datos atpicos.

Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 1: Dise


no de experimentos (un factor) 30
Ejemplo 1.1 (cont.): Histograma de los residuos

2.5

1.5

0.5

0
0.3 0.2 0.1 0 0.1 0.2 0.3

Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 1: Dise


no de experimentos (un factor) 31
Ejemplo 1.2 (cont.): Histograma de los residuos

1.5

0.5

0
0.5 0 0.5

Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 1: Dise


no de experimentos (un factor) 32
Ejemplo 1.2 (cont.): Si retiramos el dato atpico 2.25 de la
poblacion 3,

Fuentes de Suma de
variacion cuadrados g.l. Varianzas F
Explicada VE = 3.4855 4 se2 = 0.8714 F = 8.4958
Residual VNE = 3.7949 36 sR2 = 0.1026
Total VT = 7.2804 40
F4,36,0.05 = 2.63 Seguimos rechazando la igualdad del contenido
medio de azufre en las cinco minas de carb
on.

Cuando existen datos atpicos (outliers, valores anormalmente


grandes o peque nos comparados con el resto de observaciones), se
debe buscar la causa de esta discrepancia. Si es debido a un error
en la observacion de la muestra o por cambios inesperados en las
condiciones experimentales, quiza debamos eliminar el dato.

Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 1: Dise


no de experimentos (un factor) 33
Ejemplo 1.2 (cont.): Histograma de los residuos tras retirar el
dato atpico

0.15

0.1

0.05

0
0.6 0.4 0.2 0 0.2 0.4 0.6
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 1: Dise
no de experimentos (un factor) 34
Un grafico que permite evaluar la normalidad de los residuos es el
diagrama probabilstico normal, en el que se representan los
residuos ordenados de menor a mayor frente a los correspondientes
estadsticos de orden normales. Bajo la hip
otesis de normalidad los
puntos dibujados se ajustan aproximadamente a una lnea recta.
Ejemplo 1.1 (cont.): Grafico probabilstico normal de los residuos

0.98
0.95
0.90

0.75

0.50

0.25

0.10
0.05
0.02
0.2 0.1 0 0.1 0.2

Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 1: Dise


no de experimentos (un factor) 35
Ejemplo 1.2 (cont.): Grafico probabilstico normal de los residuos
(sin retirar atpico)

0.99
0.98
0.95
0.90
0.75

0.50

0.25
0.10
0.05
0.02
0.01
0.5 0 0.5
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 1: Dise
no de experimentos (un factor) 36
Para comprobar la hip
otesis de normalidad de manera mas rigurosa
tambien podemos hacer algun contraste de bondad de ajuste.
El fallo de la hipotesis de normalidad afecta al calculo de intervalos
de confianza para 2 , aunque no al contraste de igualdad de
medias ni al analisis de las diferencias entre medias. El analisis de
la varianza es robusto frente a desviaciones de la normalidad.
Para comprobar la hip otesis de homocedasticidad representamos
los residuos eij frente a los valores previstos yij = yi . As
comprobamos que la variabilidad no depende del nivel medio de la
respuesta.
La heterocedasticidad tambien influye en la estimacion de 2 .
Respecto a los contrastes de igualdad de medias, se consideran
validos si el dise
no es bastante equilibrado.

Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 1: Dise


no de experimentos (un factor) 37
Ejemplo 1.1 (cont.):

0.3

0.2

0.1
Residuos

0.1

0.2

0.3

0.4
4.5 5 5.5 6 6.5
Valores previstos

Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 1: Dise


no de experimentos (un factor) 38
Ejemplo 1.2 (cont.):

0.8

0.6

0.4
Residuos

0.2

0.2

0.4

0.6
0.8 1 1.2 1.4 1.6 1.8
Valores previstos

Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 1: Dise


no de experimentos (un factor) 39
Si las varianzas de los residuos varan marcadamente como funcion
del nivel medio de la respuesta, o se detectan desviaciones
importantes respecto a la normalidad, se puede probar a
transformar la variable respuesta.
Algunas transformaciones frecuentes son log(y ) o y k .
Entonces se contrastara que el nivel medio de la respuesta
transformada no depende del nivel del factor, pero ya no
H 0 : 1 = . . . = I .
Ver Ejemplo 5 de ANOVA con Excel.

Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 1: Dise


no de experimentos (un factor) 40

You might also like