You are on page 1of 6

UNIVERSIDAD DE CHILE

FACULTAD DE CIENCIAS VETERINARIAS Y PECUARIAS


DEPARTAMENTO DE MEDICINA PREVENTIVA ANIMAL
BIOESTADSTICA

ANALISIS DE VARIANZA

Es un mtodo que presenta amplias aplicaciones en el estudio de la variacin, y que fue
introducido y desarrollado por Ronald Fisher.

Una de las aplicaciones ms frecuentes es el anlisis de la diferencia entre dos o ms
medias aritmticas. Se ha visto que el procedimiento de eleccin en la comparacin de
dos medias aritmticas usa el estadgrafo " t" , con el mtodo comnmente conocido
como la "prueba de t". Podra pensarse que en un ensayo destinado a comparar por
ejemplo 8 medias entre si, sera adecuada la comparacin de dos de ellas cada vez;
esta solucin adems de requerir un total de 28 comparaciones incrementa en forma
importante el nivel del error alfa lo que determinara la obtencin de conclusiones
errneas en algunas de las comparaciones.

La utilizacin del anlisis de varianza para el anlisis de informacin requiere que se
cumplan ciertos requisitos o supuestos.

La caracterstica bsica del anlisis de varianza ms simple, en el que se estudian
diversos grupos o muestras, es que la variabilidad total de cada observacin se puede
dividir o analizar en sus elementos: la variabilidad entre grupos y la variabilidad
dentro de cada grupo.
La variabilidad total se evala mediante la suma total de cuadrados de desvos, la
variabilidad entre grupos mediante la suma de cuadrados de desvos entre grupos y
aqulla dentro de grupo mediante la suma de cuadrados de desvos dentro de grupos.
De aqu en adelante se omitir la palabra desvos y la primera se designar suma total
de cuadrados, la segunda suma de cuadrados entre grupos y la tercera suma de
cuadrados dentro de grupos o suma de cuadrados el error.

Con este procedimiento se persigue obtener diferentes estimaciones de la varianza
poblacional y compararlas.

Veamos la siguiente presentacin tabular


Observaciones
TRATAMIENTOS
1 2 3
1
2
3
4
5
6
9
9
10
11
9
6
7
9
4
3
3
4
8
7
ij
X
45 35
25

=105
ij
X

n


5

5



5 a*n = 15
i
X

9 7
5 X = 7

ij X
2


419

263

147

ij
X
2
=829


(X
ij
)
2
/n


405

245
125
( )
an
X
ij
2

= 735
En la tabla las muestras estn numeradas de i= 1 hasta i= a. Los individuos dentro de
cada muestra se simbolizan como X
i j
_ y estn numerados de j = 1 a n; se usa n
i
si las
muestras son de distinto tamao. En esta tabla se observa que hay a muestras con n
individuos por muestra.
ij
X simboliza la suma de los valores individuales de cada
muestra y
ij
X simboliza la suma de las sumas de los valores individuales.
i
X

simboliza la media de cada muestra y como una forma de simplificar la simbologa
usamos X para identificar la media general o gran media.

ij X
2
simboliza la suma
de los cuadrados de los valores individuales por grupos o muestras y

ij
X
2
la
suma de la suma de los cuadrados de los valores individuales por grupo. El total de
observaciones corresponde a a*n (para igual tamao de muestra) y si las muestras son
de distinto tamao, se usa n. o n
i
.

Con los datos de la tabla se desarrollar el procedimiento de anlisis de varianza.
El anlisis de varianza se desarrolla con 2 modelos: el modelo I o modelo de efectos
fijos que compara diferencias entre medias y el modelo II o modelo de efectos aleatorios
que estima componentes de la varianza.

Modelo I.
Supngase que se comparan a = 3 tratamientos con el objeto de determinar si las
medias de estos tratamientos difieren. Se dispone de un total de 15 individuos, los
cuales son asignados al azar a los diferentes tratamientos (ver tabla).

Tenemos a muestras. El problema se puede sintetizar con la siguiente pregunta:
Cmo distinguir las diferencias aleatorias de las diferencias experimentales?
A grandes rasgos la solucin del problema planteado exige:
a) Hacer una distincin de la variabilidad intramuestras (diferencias de las
observaciones de cada muestra respecto de la media muestral correspondiente),
la variabilidad intermuestra (diferencia de cada media muestral respecto de la
gran media) y la variabilidad total (diferencias de observaciones respecto de la
gran media).
b) Hacer el siguiente razonamiento: si cada muestra ha sido obtenida al azar a partir
de una distribucin normal, y por otra parte, los individuos que forman cada
muestra han recibido exactamente el mismo tratamiento, es lgico pensar que la
variabilidad intramuestras no se debe al efecto de los tratamientos. Ella refleja la
variacin aleatoria ms intrnsecamente individual. Es la variacin no controlada
o error, que siempre subsiste al trabajar con variables biolgicas.
c) Obtener a partir de la variabilidad intramuestras y de la variabilidad
intermuestras sendas estimaciones de
2
a fin de compararlas.


Etapas del desarrollo del anlisis de varianza._

1. Determinacin de las sumas de cuadrados.

Determinacin de la suma total de cuadrados(SCT).
Para obtener esta suma de cuadrados se considera el total de observaciones de todas
las muestras abordando el conjunto de medidas como una gran muestra. Esta suma
total de cuadrados (suma de cuadrados de desvos) define la variabilidad total de la
experiencia. Compara, mediante un desvo, cada individuo de esta gran muestra con la
media general, este desvo se eleva al cuadrado y se suman todos los desvos as
obtenidos. En forma simblica se anota mediante la siguiente expresin:

SCT = ( )


2
X X
ij
= (6 - 7)
2
+ (9 -7)
2
+ .........+(7 - 7)
2
= 94

Otra forma de obtener esta SCT es usando la siguiente expresin

ij
X
2
-
( )
an
X
ij
2

= 829-735 =94

donde
( )
an
X
ij
2

= 735 se conoce como factor de correccin.



Determinacin de la suma de cuadrados entre las muestras (SCM):
Esta suma de cuadrados simboliza la variabilidad que existe entre las diversas muestras
o grupos. Consiste en comparar cada una de las medias de las muestras o grupos con
respecto de la media general, es decir, se construye el desvo ( ) X X
i
para cada una
de las muestras, se elevan al cuadrado estos desvos los que se ponderan por el
nmero de observaciones del grupo, y estos productos ponderados se suman.
La ponderacin realizada sita el desvo a nivel individual con lo que se logra el objeto
de obtener una estimacin de la varianza poblacional, al constituir esta suma de
cuadrados el numerador de uno de los estimadores de
2
como veremos ms
adelante.

SCM = ( )


2
X X n
i
= 5(9-7)
2
+ 5(7-7)
2
+ 5(5-7)
2
= 20 + 0 + 20 = 40
Un procedimiento abreviado para el clculo es:

SCM =
( )
n
X
ij
2
- factor de correccin.

= 405 + 245 + 125- 735 = 40


Cuando las medias de las muestras no difieren entre ellas esta suma de cuadrados de
desvos sera igual a cero. Si existiera elevada variacin entre las medias esta suma
debera ser muy grande.

Determinacin de la suma de cuadrados dentro de las muestras o suma de cuadrados
del error (SCE).

En la determinacin de esta suma de cuadrados se considera cada una de las muestras
individualmente. La comparacin de cada individuo respecto de su propia media refleja
la variacin ms intrnsecamente individual ya que no es influida por los tratamientos
implicados. Se le conoce como la variacin incontrolada o error experimental y permite
la ms fiel estimacin de
2
.
Esta suma de cuadrados se obtiene comparando cada individuo respecto de la media
de su propia muestra, construyendo cada desvo ( )
i ij
X X , desvos que se elevan al
cuadrado, se suman todos los desvos dentro de cada muestra. Este mismo
procedimiento se repite con el resto de las muestras sumndose las anteriores
sumas.

SCE = ( )


2
i ij
X X
= (6-9)
2
+(9-9)
2
+(9-9)
2
+(10-9)
2
+(11-9)
2
= 9 + 0 + 0 + 1 + 4 = 14
(9-7)
2
+(6-7)
2
+(7-7)
2
+(9-7)
2
+(4-7)
2
= 4 + 1 + 0 + 4 + 9 = 18
(3-5)
2
+(3-5)
2
+(4-5)
2
+(8-5)
2
+(7-5)
2
= 4 + 4 + 1 + 9 + 4 = 22

14 + 18 + 22 =54
Un procedimiento de clculo abreviado usa la siguiente

frmula:

( )


(
(

n
X
X
ij
ij
2
2



(419- 405) + (263-245) + (147 - 125) =54


Ntese que la suma de cuadrados entre muestras ms la suma de cuadrados dentro de
muestras es igual a la suma total de cuadrados, lo que se conoce como el principio de
aditividad de las sumas de cuadrados.

SCT = SCM + SCE

Es til aplicar este principio para obtener las sumas de cuadrados: se calcula la suma
total de cuadrados, la suma de cuadrados entre muestras y por diferencia entre stas, la
suma de cuadrado del error. (SCE = SCT SCM).

2. Determinacin de los grados de libertad.

La condicin de aditividad tambin se aplica a los grados de libertad.
A cada suma de cuadrados se asocia un determinado nmero de grados de libertad.
Si el total de observaciones es an, los grados de libertad para el total, en el ejemplo,
sern an-1 = 15 - 1 = 14.

Se tienen a muestras, por lo tanto los grados de libertad para muestras sern (a - 1) =
(3- 1) = 2.

Dentro de cada muestra existen(n- 1) grados de libertad, y como hay a muestras,
entonces el total de grados de libertad para el error es a(n-1)= an a = 12. Esta frmula es
aplicable slo cuando las muestras son de igual tamao. Si el nmero de observaciones
difiere se usara
(n
i
-1).

3. Obtencin de las estimaciones de la
2
o cuadrados medios.
Una estimacin independiente de la
2
, varianza poblacional, se obtiene dividiendo la
suma de cuadrados entre muestras por sus respectivos grados de libertad, expresin
conocida como cuadrado medio entre muestras.(CMM)

CMM = SCM / (a - 1) = 40/2 = 20

Otra estimacin de la varianza poblacional, independiente de la anterior, es el cuadrado
medio del error (CME) que se calcula dividiendo la suma de cuadrados del error por
sus grados de libertad.

CME = SCE /(an-a) = 54/12 = 4,5

4. Obtencin de la razn de las varianzas: clculo de F.

La ltima etapa del desarrollo del anlisis de varianza consiste en la comparacin entre
los cuadrados medios. Esto se logra dividiendo el cuadrado medio entre muestras por el
cuadrado medio del error; la cantidad obtenida se conoce como F.

F = CMM / CME = 20/4,5 =4,44

Esta razn tiene una distribucin de probabilidades que fue descubierta por Fisher.
Esta distribucin est determinada por dos valores de grados de libertad, designados
como
1
, los grados de libertad del numerador de la razn de la varianza y
2
los grados
de libertad del denominador de esta razn. As, para cada combinacin de estos valores
existe una distribucin de F.

Los resultados que se obtienen del desarrollo de un anlisis de varianza suelen
presentarse en la siguiente tabla:



Fuente de
variacin
Suma de
cuadrados
Grados de
libertad
Cuadrados
medios
F
Entre grupos

S.C.M. a - 1 C.M.M. C.M.M. C.M.E.
Dentro de
grupos(error)
S.C.E. an - a C.M.E.
Total

S.C.T. an - 1


Prueba de hiptesis de la comparacin entre medias aritmticas.

a) Planteamiento de hiptesis.

H
0
:
1
=
2
=
3
. Una forma equivalente es (
i
-)
2
= 0. En palabras, las muestras
provienen, en lo que a las medias se refiere, de una misma poblacin.

H
1
Existe al menos una diferencia entre las medias. Por lo tanto, no todas provienen de
la misma poblacin. (
i
-)
2
0

Nivel de significacin : = 0,01

c) Estadgrafo a usar: F.

d) Regin de rechazo. Para establecer la regin de rechazo en esta prueba, los
elementos considerados son: el nivel de significacin, los grados de libertad del
numerador y los del denominador. (en el ejemplo son = 0,01;2 y 12 grados de libertad
respectivamente). La distribucin de F para 2 y 12 grados de libertad, = 0,01 muestra
un valor de 6,93.

e) Clculo de F.
Se ejecutan todas las etapas del anlisis de varianza, ya descritas, que culminan con
el clculo del estadgrafo F, en el ejemplo 4,44

f) Decisin
El valor de F obtenido con los datos muestrales no supera el valor tabular, lo que
determina que no puede rechazarse la hiptesis nula.

g) Interpretacin. Las medias no difieren significativamente.

Fuente de
variacin
Suma de
cuadrados
Grados de
libertad
Cuadrados
medios
F
Entre grupos

40 2 20 4,44
Dentro de
grupos(error)
54 12 4,5
Total

94 14


Supuestos o requisitos del anlisis de varianza.

1. La aleatoriedad. El muestreo o seleccin de los individuos debe ser al azar; el
cumplimiento de este requisito comnmente se refleja en el logro de otros supuestos.
Existen mtodos de muestreo que garantizan la obtencin de muestras aleatorias.

2. La independencia. Cada unidad de observacin en un estudio en que se comparan
grupos, puede expresarse mediante un modelo conocido como modelo aditivo lineal y
que se expresa como

X
ij
= + T
i
+
ij

X
ij
= + (
i
- )+ (X
ij
-
i
)


El ltimo componente, llamado error individual debe ser independiente; expresado de
otra forma, las diferentes observaciones deben ser independientes entre s.

3. La normalidad. Los errores individuales del modelo aditivo lineal deben distribuirse
normalmente.
Tanto la independencia como la normalidad de la distribucin de los errores pueden
alcanzarse mediante la seleccin de muestras aleatorias.

4. Homogeneidad de las varianzas: las varianzas de las diferentes poblaciones deben
ser estadsticamente iguales, igualdad que se conoce con el nombre de
homocedasticidad.

5. La aditividad. Esto significa que una observacin cualquiera pueda definirse
mediante componentes relacionados por el signo ms.

Algunos de estos supuestos no siempre son cumplidos a cabalidad por las
observaciones o resultados de las experiencias por diversos motivos. Sin embargo, los
datos pueden ser analizados por medio del anlisis de varianza, realizando las
modificaciones adecuadas.

Si los supuestos del anlisis de varianza, previamente anotados se cumplen, la
esperanza de los cuadrados medios se presenta en la siguiente tabla

Esperanzas de los cuadrados medios.

Fuente de variacin Cuadrados medios E(CM)

Grupos

Error
CMM

CME

2
+ n(
i
- )
2
/(a-1)


2



A partir de esta tabla se puede evidenciar que:
F = CMM / CME es una estimacin de
2
+ n(
i
- )
2
/(a-1) /
2

lo cual nos ha permitido probar la hiptesis nula planteada.