You are on page 1of 5

Análisis de la Varianza

El análisis de la varianza o ANOVA (Analysis of variance) es una técnica para comparar


dos o más medias, el cuál intenta eliminar los inconvenientes de contrastar más de dos
medias utilizando repetidamente el contraste basado en la t de Student.

La dificultad mayor de seguir este último procedimiento radica en que al realizar


simultánea e independientemente varios contrastes de hipótesis, la probabilidad de
encontrar alguno significativo por azar aumentaría. En cada contraste se rechaza la H 0 si
la t supera el nivel crítico, si la hipótesis nula es cierta hay una probabilidad α de errar
en cada una de las pruebas. Si se realizan m contrastes independientes, la probabilidad
de que si la hipótesis nula es cierta, ningún estadístico supere el valor crítico es (1 - α)m,
por lo tanto, la probabilidad de que alguno lo supere es 1 - (1 - α)m, que para valores de
α próximos a 0 es aproximadamente igual a αm. Una primera solución, denominada
método de Bonferroni, consiste en bajar el valor de α, usando en su lugar α/m, aunque
resulta un método muy conservador.

Consideremos K poblaciones normales con medias μ1, μ2, ..., μK.


Se desea contrastar las hipótesis:

H0: μ1 = μ2 =... = μK
H1: al menos un par de medias son diferentes

De cada población tenemos una muestra de n1, n2, ..., nK observaciones independientes y
obtenidas de forma aleatoria. Si designamos de forma general cada observación como
yij, el subíndice i indica el grupo al que pertenece, j es el número de la observación
dentro de ese grupo. Por ejemplo:
• y35 corresponde al valor observado en el quinto sujeto del tercer grupo;
• en el grupo 2 tenemos las observaciones y21, y22, ... hasta y2n2.

Si se reúnen todas las observaciones N = n1 + n2 + ... + nK, se puede obtener la media


global, que se denomina y y se calcula como:
K ni

∑∑ y
i =1 j=1
ij
.
y=
N

También puede calcularse la media dentro de cada uno de los K grupos. La media para
el grupo i se designa como yi y se calcula como:
ni

∑y
j=1
ij

yi =
ni

Es obvio que la diferencia entre cada observación yij y la media global y se puede
descomponer de la siguiente forma:

yij - y = (yij - yi )+( yi - y )


Es decir, que la diferencia entre el valor observado y la media global es igual a la suma
de la diferencia de la observación con la media de su grupo y de la diferencia de la
media del grupo con la media global.

Se puede comprobar que si cada término de esa expresión se eleva al cuadrado y se


suma para todas las observaciones, se mantiene la igualdad:

∑∑ ( y
i j
ij − y) 2 = ∑∑ ( yij − yi ) 2 + ∑∑ ( yi − y) 2
i j i j

∑∑ ( y
i j
ij − y) = ∑∑ ( y ij − y i ) + ∑ n i ( yi − y) 2
2

i j
2

Cada uno de los términos es una suma de desviaciones cuadráticas, que denominaremos
de forma abreviada como suma de cuadrados (SC). La primera SC del lado de la
derecha corresponde a las desviaciones de cada observación respecto de la media de su
propio grupo, por lo que se la conoce como "dentro de grupos" o "intra grupos" (en
inglés within), también se le conoce como suma de cuadrados del error. El segundo
sumando de la derecha corresponde a las desviaciones de la media de cada grupo
respecto de la media global, por lo que cuantifica las diferencias medias entre los
grupos, y se conoce como suma de cuadrados "entre grupos" (en inglés between):

SCTotal = SCDentro grupo+ SCEntre grupos

Si H0 es cierta, entonces el valor de SCE será pequeño, por lo que SCD se acercará a
SCTotal.

Se define el cuadrado medio dentro de grupos (CMD), como el cociente entre la suma
de cuadrados dentro de grupos (SCD) y los grados de libertad, o sea:

SC D
CM D =
N−K

y se puede comprobar que CMD es una media ponderada de las varianzas muestrales de
cada grupo, o sea:

(n1 − 1)S12 + (n 2 − 1)S22 + ... + (n K − 1)S2K (n1 − 1)S12 + ... + (n K − 1)S2K


CM D = =
(n1 − 1) + (n 2 − 1) + ... + (n K − 1) N−K
2
que constituye una estimación de la varianza común σ .

De manera similar se define el cuadrado medio entre grupos (CME), como el cociente
entre la suma de cuadrados entre grupos (SCE) y los grados de libertad, o sea:

SC E
CM E =
K −1

Si la media de todos los grupos es la misma, CME también es una estimación de la


varianza común σ2. Ahora bien, si las medias de los grupos son diferentes, CME no sólo
contiene el valor de la varianza σ2, sino que además estará aumentada según las
variaciones entre las medias de los tratamientos, y será tanto mayor cuanto mayor sean
estas diferencias.

Para contrastar las hipótesis se construye el siguiente estadígrafo:

CM E
Fobs =
CM D
Si la hipótesis nula es cierta, tanto el numerador como el denominador del cociente son
estimaciones válidas de la varianza común de las poblaciones que se estudian. Este
cociente se ajusta a la distribución F. Si la hipótesis nula es falsa el numerador del
cociente en realidad es una estimación inflada de σ2; el denominador sigue siendo una
estimación válida. Bajo estas condiciones, el valor F será muy grande, y se puede
concluir que la hipótesis nula es falsa.

Los resultados de un ANOVA se suelen representar en una tabla como la siguiente:

Fuente de variación Suma de g.l Cuadrado Fobs


Cuadrados Medio
Entre grupos CME CM E
(Tratamientos) SCE K-1 = SCE/(K-1)
CM D
Dentro grupos CMD
SCD N-K = SCD/(N-K)
(Error)
Total SCT N-1

Para las hipótesis:

H0: μ1 = μ2 =... = μK
H1: al menos un par de medias son diferentes

la región de rechazo es: Fobs > F1-α(K-1,N-K)

Ejemplo:
Una analista de una cadena de supermercados, quiere saber si tres tiendas tienen el
mismo promedio en dólares por compra. Se elige una muestra aleatoria de seis compras
en cada tienda. La tabla siguiente presenta los datos recolectados de esta muestra.
Realizar una prueba con un nivel de significación de 0,01.
Tienda 1 Tienda 2 Tienda 3
1 12,05 15,17 9,48
2 23,94 18,52 6,92
3 14,63 19,57 10,47
4 25,78 21,40 7,63
5 17,52 13,59 11,90
6 18,45 20,57 5,92
Media 18,73 18,14 8,72

Media global = 15,20


N = n1 + n2 + n3 = 6 + 6 + 6 = 18
K=3

La hipótesis nula que se quiere probar es que todas las poblaciones de las que se
obtuvieron los datos muestrales tienen la misma media. La hipótesis alternativa es que
las poblaciones no tienen la misma media (o sea, que al menos en dos poblaciones
difieren las medias). Las medias muestrales de las 2 primeras tiendas sugieren que la
hipótesis nula es cierta, ya que son muy cercanas. La tercera media muestral, es
considerablemente más pequeña que las otras dos. Pero, ¿se debe esta diferencia a la
aleatoriedad del muestreo o al hecho de que las poblaciones tienen medias distintas?
Esta es la pregunta que vamos a responder con el procedimiento de ANOVA.

Cálculos:

Tienda 1:
(12,05–18,73)2+(23,94–18,73)2+(14,63–18,73)2+(25,78–18,73)2+(17,52–18,73)2+(18,45–18,73)2
= 139,82

Tienda 2:
(15,17–18,14)2+(18,52–18,14)2+(19,57–18,14)2+(21,40–18,14)2+(13,59–18,14)2+(20,57–18,14)2
= 48,25

Tienda 3:
(9,48–8,72)2 +(6,92–8,72)2+(10,47–8,72)2 +(7,63–8,72)2 +(11,90–8,72)2 +(5,92–8,72)2
= 26,02

Suma de cuadrados dentro:


SCD = 139,82 + 48,25 + 26,02 = 214,09

SCE = 6(18,73–15,20)2+6(18,14-15,20)2+6(8,72–15,20)2 = 378,38

La tabla ANOVA para este ejemplo será.

Suma de Cuadrado
Fuente de variación g.l Fobs
Cuadrados Medio
Entre grupos
378,38 2 189,19 13,26
(Tratamientos)
Dentro grupos
214,09 15 14,27
(Error)
Total 592,47 17

Como se puede ver en la tabla de ANOVA, la estimación “entre” de σ2, produce un valor
de 189,19, mientras que la estimación “dentro” es de 14,27. El cociente F indica que la
estimación “entre” es 13,26 veces mayor que el valor de la estimación “dentro”. ¿Se
debe esta diferencia al error de muestreo, o se debe a que la hipótesis nula es falsa? Para
contestar a esta pregunta se consulta la tabla F y se determina un valor crítico.

El numerador del Fobs, tiene 2 grados de libertad y el denominador tiene 15 grados de


libertad. De la tabla F el percentil 0,99 es 6,36 para estos grados de libertad. El valor F
calculado de 13,26 es mayor que el percentil, lo que significa que se tiene suficiente
evidencia muestral para rechazar la hipótesis nula de medias poblacionales iguales.

You might also like