Professional Documents
Culture Documents
H0: μ1 = μ2 =... = μK
H1: al menos un par de medias son diferentes
De cada población tenemos una muestra de n1, n2, ..., nK observaciones independientes y
obtenidas de forma aleatoria. Si designamos de forma general cada observación como
yij, el subíndice i indica el grupo al que pertenece, j es el número de la observación
dentro de ese grupo. Por ejemplo:
• y35 corresponde al valor observado en el quinto sujeto del tercer grupo;
• en el grupo 2 tenemos las observaciones y21, y22, ... hasta y2n2.
∑∑ y
i =1 j=1
ij
.
y=
N
También puede calcularse la media dentro de cada uno de los K grupos. La media para
el grupo i se designa como yi y se calcula como:
ni
∑y
j=1
ij
yi =
ni
Es obvio que la diferencia entre cada observación yij y la media global y se puede
descomponer de la siguiente forma:
∑∑ ( y
i j
ij − y) 2 = ∑∑ ( yij − yi ) 2 + ∑∑ ( yi − y) 2
i j i j
∑∑ ( y
i j
ij − y) = ∑∑ ( y ij − y i ) + ∑ n i ( yi − y) 2
2
i j
2
Cada uno de los términos es una suma de desviaciones cuadráticas, que denominaremos
de forma abreviada como suma de cuadrados (SC). La primera SC del lado de la
derecha corresponde a las desviaciones de cada observación respecto de la media de su
propio grupo, por lo que se la conoce como "dentro de grupos" o "intra grupos" (en
inglés within), también se le conoce como suma de cuadrados del error. El segundo
sumando de la derecha corresponde a las desviaciones de la media de cada grupo
respecto de la media global, por lo que cuantifica las diferencias medias entre los
grupos, y se conoce como suma de cuadrados "entre grupos" (en inglés between):
Si H0 es cierta, entonces el valor de SCE será pequeño, por lo que SCD se acercará a
SCTotal.
Se define el cuadrado medio dentro de grupos (CMD), como el cociente entre la suma
de cuadrados dentro de grupos (SCD) y los grados de libertad, o sea:
SC D
CM D =
N−K
y se puede comprobar que CMD es una media ponderada de las varianzas muestrales de
cada grupo, o sea:
De manera similar se define el cuadrado medio entre grupos (CME), como el cociente
entre la suma de cuadrados entre grupos (SCE) y los grados de libertad, o sea:
SC E
CM E =
K −1
CM E
Fobs =
CM D
Si la hipótesis nula es cierta, tanto el numerador como el denominador del cociente son
estimaciones válidas de la varianza común de las poblaciones que se estudian. Este
cociente se ajusta a la distribución F. Si la hipótesis nula es falsa el numerador del
cociente en realidad es una estimación inflada de σ2; el denominador sigue siendo una
estimación válida. Bajo estas condiciones, el valor F será muy grande, y se puede
concluir que la hipótesis nula es falsa.
H0: μ1 = μ2 =... = μK
H1: al menos un par de medias son diferentes
Ejemplo:
Una analista de una cadena de supermercados, quiere saber si tres tiendas tienen el
mismo promedio en dólares por compra. Se elige una muestra aleatoria de seis compras
en cada tienda. La tabla siguiente presenta los datos recolectados de esta muestra.
Realizar una prueba con un nivel de significación de 0,01.
Tienda 1 Tienda 2 Tienda 3
1 12,05 15,17 9,48
2 23,94 18,52 6,92
3 14,63 19,57 10,47
4 25,78 21,40 7,63
5 17,52 13,59 11,90
6 18,45 20,57 5,92
Media 18,73 18,14 8,72
La hipótesis nula que se quiere probar es que todas las poblaciones de las que se
obtuvieron los datos muestrales tienen la misma media. La hipótesis alternativa es que
las poblaciones no tienen la misma media (o sea, que al menos en dos poblaciones
difieren las medias). Las medias muestrales de las 2 primeras tiendas sugieren que la
hipótesis nula es cierta, ya que son muy cercanas. La tercera media muestral, es
considerablemente más pequeña que las otras dos. Pero, ¿se debe esta diferencia a la
aleatoriedad del muestreo o al hecho de que las poblaciones tienen medias distintas?
Esta es la pregunta que vamos a responder con el procedimiento de ANOVA.
Cálculos:
Tienda 1:
(12,05–18,73)2+(23,94–18,73)2+(14,63–18,73)2+(25,78–18,73)2+(17,52–18,73)2+(18,45–18,73)2
= 139,82
Tienda 2:
(15,17–18,14)2+(18,52–18,14)2+(19,57–18,14)2+(21,40–18,14)2+(13,59–18,14)2+(20,57–18,14)2
= 48,25
Tienda 3:
(9,48–8,72)2 +(6,92–8,72)2+(10,47–8,72)2 +(7,63–8,72)2 +(11,90–8,72)2 +(5,92–8,72)2
= 26,02
Suma de Cuadrado
Fuente de variación g.l Fobs
Cuadrados Medio
Entre grupos
378,38 2 189,19 13,26
(Tratamientos)
Dentro grupos
214,09 15 14,27
(Error)
Total 592,47 17
Como se puede ver en la tabla de ANOVA, la estimación “entre” de σ2, produce un valor
de 189,19, mientras que la estimación “dentro” es de 14,27. El cociente F indica que la
estimación “entre” es 13,26 veces mayor que el valor de la estimación “dentro”. ¿Se
debe esta diferencia al error de muestreo, o se debe a que la hipótesis nula es falsa? Para
contestar a esta pregunta se consulta la tabla F y se determina un valor crítico.