You are on page 1of 27

CAPÍTULO IV: ANÁLISIS DE VARIANZA

1. INTRODUCCIÓN
Los estudios estadísticos se clasifican como experimentales u observacionales. En un estudio estadístico experimental se
realiza un experimento para obtener los datos. Un experimento empieza por la identificación de la variable de interés.
Después se identifican y controlan una o más variables que se consideran relacionadas con la variable de interés, para
después recoger datos de la influencia de estas variables sobre la variable de interés.
En un estudio observacional, los datos suelen obtenerse mediante inspección de una muestra y no mediante un experimento
controlado. En estos estudios, aunque también se emplean los principios para un buen estudio, no es posible tener el control
riguroso que se tiene en un estudio experimental. Por ejemplo, en un estudio para entender la relación entre fumar y el
cáncer de pulmón, el investigador no puede asignarle a un sujeto el hábito de fumar. El investigador sólo puede observar
los efectos de fumar en las personas que ya tienen este hábito y los efectos de no fumar en las personas que no lo tienen.
En este capítulo se presentan tres tipos de diseños de experimentos: un diseño completamente aleatorizado (D.C.A.), un
diseño de bloques completamente aleatorizado (D.B.C.A) y un experimento factorial (2 a más factores). Para cada tipo de
diseño se indica cómo usar el procedimiento estadístico conocido como análisis de varianza (ANOVA, por sus siglas en
inglés) para analizar los datos de una variable. Cuando se desea comparar más de dos medias, el análisis de varianza
(ANOVA) es de gran utilidad. El ANOVA también se usa para analizar los datos obtenidos mediante un estudio
observacional. Por ejemplo, se verá que el ANOVA también se usa en los diseños completamente aleatorizados para probar
la igualdad de tres o más medias poblacionales de datos obtenidos mediante un estudio observacional.
En el capítulo siguiente se verá que, además, el ANOVA tiene gran importancia en el análisis de los resultados de estudios
de regresión, tanto de datos experimentales como observacionales.

2. ANÁLISIS DE VARIANZA (ANOVA)


ANOVA está diseñada específicamente para probar si dos o más poblaciones tienen la misma media. Aun cuando el
propósito de ANOVA es hacer pruebas para hallar las diferencias en las medias poblacionales, implica un examen de las
varianzas muestrales; de allí el término análisis de varianza. Más específicamente, el procedimiento se puede utilizar para
determinar si cuando se aplica un “tratamiento” en particular a una población, éste tendrá un impacto significativo en su
media.
El uso de ANOVA originado en el campo de la agricultura, en donde el término tratamiento se utiliza de la misma manera
que cuando se tratan varias parcelas de tierra con diferentes fertilizantes y se notan las diferencias en los rendimientos
promedio de los cultivos. Hoy en día el término tratamiento se utiliza ampliamente, para referirse al tratamiento de los
clientes respecto a diferentes despliegues publicitarios observando las diferencias subsiguientes en las compras promedio,
o también al tratamiento de tres grupos de empleados ante tres tipos diferentes de programas de capacitación y observando
las diferencias que ocurren en los niveles promedio de productividad o, en general, en toda situación en la cual se desea
una comparación de las medias.
Consideremos como ejemplo el interés en medir los efectos relativos en la producción de los empleados de tres programas
de capacitación. Estos tres tipos de formación adicional pueden ser 1) autodidactas, 2) impartido por computador, o 3)
enseñado por un supervisor. Los administradores querían saber, con qué tipo de capacitación los trabajadores podían
producir más unidades en una semana. En un estudio ANOVA, las unidades experimentales son los objetos que reciben
el tratamiento. En nuestro ejemplo sobre capacitación, los empleados constituyen las unidades experimentales. El factor
es la fuerza o variable cuyo impacto en tales unidades experimentales se desea medir. En este caso, “capacitación” es el
factor de interés. Finalmente, los tres tipos de capacitación constituyen los tratamientos o poblaciones, o niveles del

1
factor, del factor “capacitación”. En experimentos más complejos caben múltiples factores; los factores pueden ser
cualitativos o cuantitativos.
Los tres tratamientos o tipo de capacitación constituyen las tres poblaciones de interés del experimento. Una población
está formada por todos los trabajadores que reciben el tipo “autodidacta”, otra población es la de todos los trabajadores
que reciben el tipo “impartido por computador” y otra población es la de todos los trabajadores que reciben el tipo
“enseñado por supervisor”. Observe que en cada población la variable dependiente o variable respuesta es el número de
unidades que se producen por semana, y el objetivo estadístico del experimento es determinar si el número medio producido
por semana es el mismo en las tres poblaciones (con los tres tipos de capacitación).

La forma como se seleccionan los tratamientos determina si se está utilizando un modelo de efectos fijos o un modelo de
efectos aleatorios. El modelo descrito anteriormente sobre el programa de capacitación para los empleados es un modelo
de efectos fijos. Los tres programas de entrenamiento se seleccionaron o se fijaron antes de realizar el estudio. Se sabe cuál
de los tres programas se desea probar desde el comienzo del estudio. Las conclusiones del estudio se aplican sólo a los tres
programas incluidos en el estudio.

Modelos de efectos fijos: En el cual se seleccionan tratamientos específicos o se


fijan antes del estudio.

En contraste, en otro ejemplo se supone que Apex Manufacturing tenía muchos programas de capacitación distintos, y
deseaban saber si los programas de capacitación en general tenían efectos diferentes en el desempeño de los empleados.
Estos tres programas de capacitación utilizados en el estudio se consideran como una muestra de todos los programas de
entrenamiento que la empresa puede utilizar. No importa cuál de los tres métodos se utilice en el estudio para hacer la
comparación. Toda conclusión del estudio se considera aplicable a toda la población de programas de capacitación. Este
procedimiento produciría un modelo de efectos aleatorios.

Modelos de efectos aleatorios: En el cual los niveles (tratamientos) utilizados en el


estudio se seleccionan aleatoriamente de una población de niveles posibles.

La intención de este capítulo se concentrará en los modelos de efectos fijos.

El análisis de varianza se basa en una comparación de la cantidad de variación en cada uno de los tratamientos. Si de un
tratamiento al otro la variación es significativamente alta, puede concluirse que los tratamientos tienen efectos diferentes
en las poblaciones. En el ejemplo sobre capacitación se pueden identificar tres tipos o fuentes de variación. Vale la pena
destacar que la primera variación es la suma de las otras dos.
1. Existe variación entre el número total de observaciones. No todos los trabajadores produjeron el mismo número de
unidades. Esta se llama variación total.
2. Existe variación entre los diferentes tratamientos (muestras). Los trabajadores del programa 1 no produjeron el mismo
número de unidades que los del programa 2 y 3. Esto se denomina variación entre muestras.
3. Existe variación dentro de un tratamiento dado (muestra). No todos los trabajadores de la primera muestra produjeron
el mismo número de unidades. Esto es lo que se denomina variación dentro de la muestra.
Es al comparar estas fuentes diferentes de variación que se puede utilizar el análisis de varianza para probar la igualdad de
las medias poblacionales diversas. Toda diferencia que los tratamientos puedan tener en la productividad de los
trabajadores se detectará mediante una comparación de estas formas de variación.

2
Si un número de tratamientos de designa como 𝒕, el conjunto de hipótesis de prueba es

𝐻0 : 𝜇1 = 𝜇2 = 𝜇3 = ⋯ = 𝜇𝑡

𝐻1 : 𝑁𝑜 𝑡𝑜𝑑𝑎𝑠 𝑙𝑎𝑠 𝑚𝑒𝑑𝑖𝑎𝑠 𝑠𝑜𝑛 𝑖𝑔𝑢𝑎𝑙𝑒𝑠

La letra 𝒕 se utiliza para el número de tratamientos. Como se demostrará más adelante, el análisis de varianza (ANOVA)
es el procedimiento estadístico que se emplea para determinar si las diferencias observadas entre las tres medias muestrales
son lo suficientemente grandes para rechazar 𝐻0 .

2.1. Suposiciones para el análisis de varianza


Son tres las suposiciones para emplear el análisis de varianza.
1. En cada población, la variable respuesta tiene una distribución normal. Por tanto: en el experimento sobre
capacitación, el número de unidades producida por semana (variable respuesta) con cada uno de los tipos de
capacitación debe estar distribuida en forma normal.
2. La varianza de la variable respuesta, que se denota 𝝈𝟐 , es la misma en todas las poblaciones. Por tanto: en el
experimento de sobre capacitación, con los tres tipos de capacitación, la varianza en el número de unidades producida
por semana debe ser la misma.
3. Las observaciones deben ser independientes. Por tanto: en el experimento sobre capacitación la cantidad de
unidades producida por semana por un empleado debe ser independiente el número de unidades producidas por
semana por cualquier otro empleado.

3. PRINCIPIOS BÁSICOS DE UN DISEÑO EXPERIMENTAL


Son tres principios básicos del diseño experimental: reproducción, aleatorización y control total.
3.1. Reproducción: Se entiende como reproducción a la repetición del experimento básico. Las razones del porqué la
reproducción es deseable son: 1) proporciona una estimación del error experimental que actúa como una “unidad básica
de medida” para indicar el significado de las diferencias observadas o para determinar la amplitud de un intervalo de
confianza. 2) como, bajo ciertas suposiciones, el error experimental puede ser estimado en la ausencia de reproducción, es
claro establecer también que la reproducción proporciona algunas veces una estimación más aproximada del error
experimental. 3) nos capacita para obtener una estimación más precisa del efecto medio de cualquier factor.
Como conclusión, la reproducción proporciona una estimación del error experimental que puede usarse para indicar el
significado de las diferencias observadas. Es decir, la reproducción hace una prueba de significancia posible.
El término error experimental describe el fracaso de llegar a resultados idénticos con dos unidades experimentales tratadas
idénticamente. Algunas recomendaciones generales, que son posibles técnicas, para reducir la magnitud del error
experimental son: 1) usar material experimental más homogéneo o estratificar cuidadosamente el material disponible. 2)
utilizar información proporcionada por las variables aleatorias relacionadas. 3) tener más cuidado al dirigir el experimento.
4) usar un diseño experimental más eficiente.
3.2. Aleatorización: La aleatorización hace válida la prueba de significancia, haciéndola apropiada para analizar los datos
como si la suposición de errores (observaciones) independientes fuera cierta. Observe que no hemos dicho que la
aleatorización garantiza la independencia, sino sólo que la aleatorización nos permite proceder como si la independencia
fuera un hecho.

3
Además, asignando tratamientos al azar a las unidades experimentales, estamos tratando de certificar que los tratamientos
no serán favorecidos continuamente o perjudicados por fuentes extrañas de variación, sobre las que no tenga control el
experimentador o sobre las cuales decida no ejercer control. En otras palabras, la aleatorización es como un seguro; siempre
es una buena idea y algunas veces es aún mejor de lo que esperamos.
3.3. Control Local: Control local se refiere a la cantidad de balanceo, bloqueo y agrupamiento de las unidades
experimentales que se emplean en el diseño estadístico adoptado. La función o propósito del control local es hacer al diseño
experimental más eficiente. Es decir, el control local hace más sensitiva cualquier prueba de significancia o, hace más
poderosos a los procedimientos de prueba. Este aumento de eficiencia (o sensibilidad o potencia) resulta porque el uso
adecuado del control reducirá la magnitud de la estimación del error experimental.
Agrupamiento: Colocación de un conjunto de unidades experimentales homogéneas en grupos, de modo que los
diferentes grupos puedan sujetarse a distintos tratamientos. Estos grupos, por supuesto, pueden constar de diferente
número de unidades experimentales.
Bloqueo: Distribución de las unidades experimentales en bloques, de tal manera que las unidades dentro de un bloque
sean relativamente homogéneas. Usando los conocimientos previos del investigador, concernientes a la naturaleza
de las unidades experimentales, el estadístico puede diseñar el experimento de tal manera que gran parte de la
variación prevista no sea una parte del error experimental.
Balanceo: Es la obtención de las unidades experimentales, el agrupamiento, el bloqueo y la asignación de los
tratamientos a las unidades experimentales en tal modo que resulte una configuración balanceada.
Existen dos ventajas para escoger un diseño equilibrado o balanceado. En primer lugar, si las muestras son del mismo
tamaño, la estadística de la prueba es relativamente insensible a pequeñas desviaciones de la suposición de igualdad
de varianzas en los 𝒕 tratamientos. Éste no es el caso para muestras de tamaño diferente. En segundo lugar, el poder
de la prueba se maximiza si las muestras son del mismo tamaño.
El control local puede ejercerse de varias maneras, algunas técnicas están también relacionadas con la reducción del error
(se ha sugerido anteriormente en el último párrafo de la sección 3.1).

4. ANOVA DE UN SOLO FACTOR: DISEÑO COMPLETAMENTE ALEATORIZADO (D.C.A.)


Hay varias formas en las cuales puede diseñarse un experimento ANOVA. Quizá el más común es el diseño completamente
aleatorizado (D.C.A.) o ANOVA a una vía. El término proviene del hecho que varios sujetos o unidades experimentales
se asignan aleatoriamente a diferentes niveles de un solo factor.
Como se dijo, en la sección anterior, es preferible trabajar con diseños balanceados. ANOVA también puede usarse en el
caso de un D.C.A. no balanceado, pero se tiene que hacer algunas ligeras modificaciones a las fórmulas de las sumas de
cuadrados, como se verá más adelante.

Supongamos que se desea comparar 𝒕 tratamientos o niveles de un factor único. La respuesta que se observa en cada uno
de los 𝒕 tratamientos es una variable aleatoria. Se usaría un diseño completamente aleatorizado (D.C.A), donde 𝑛𝑖 unidades
experimentales se sujetan al 𝑖-ésimo tratamiento (𝑖 = 1, … , 𝑡) y únicamente se obtiene una observación por unidad
experimental, los datos aparecerían como en la tabla 1.

4
Tabla 1. Representación simbólica de los datos en un D.C.A.
(número desiguales de observaciones para cada tratamiento)
Tratamiento
Total
1 2 . . . 𝒕
𝑌11 𝑌21 𝑌𝑡1
𝑌12 𝑌22 𝑌𝑡2
. . .
Observaciones
. . .
. . .
𝑌1𝑛1 𝑌2𝑛2 . . . 𝑌𝑡𝑛𝑡
𝑡
Totales 𝑇1 𝑇2 𝑇𝑡 𝑇 = ∑ 𝑇𝑖
𝑖=1
𝑡
Número de observaciones 𝑛1 𝑛2 𝑛𝑡 ∑ 𝑛𝑖
𝑖=1
𝑡
Medias 𝑌̅1 𝑌̅2 𝑌̅𝑡 𝑌̅ = 𝑇⁄∑ 𝑛𝑖
𝑖=1

Usando las ecuaciones

∑ 𝑌 2 = 𝑠𝑢𝑚𝑎 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 = 𝑠𝑢𝑚𝑎 𝑑𝑒 𝑙𝑜𝑠 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 𝑑𝑒 𝑡𝑜𝑑𝑎𝑠 𝑙𝑎𝑠 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑐𝑖𝑜𝑛𝑒𝑠


𝑡 𝑛𝑖

= ∑ ∑ 𝑌𝑖𝑗2 … … … … … … … … … 𝒆𝒄𝒖𝒂𝒄𝒊ó𝒏 𝟏
𝑖=1 𝑗=1

𝑀𝑦𝑦 = 𝑠𝑢𝑚𝑎 𝑑𝑒 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 𝑑𝑒𝑏𝑖𝑑𝑜𝑠 𝑎 𝑙𝑎 𝑚𝑒𝑑𝑖𝑎


𝑡

= 𝑇 2 ⁄∑ 𝑛𝑖 … … … … … … … … … 𝒆𝒄𝒖𝒂𝒄𝒊ó𝒏 𝟐
𝑖=1

𝑇𝑦𝑦 = 𝑠𝑢𝑚𝑎 𝑑𝑒 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 𝑒𝑛𝑡𝑟𝑒 𝑡𝑟𝑎𝑡𝑎𝑚𝑖𝑒𝑛𝑡𝑜𝑠


𝑡 𝑡

= ∑ 𝑛𝑖 (𝑌̅𝑖 − 𝑌 ̅ )2 = ∑ 𝑇𝑖2 ⁄𝑛𝑖 − 𝑀𝑦𝑦 … … … … … … … … … 𝒆𝒄𝒖𝒂𝒄𝒊ó𝒏 𝟑


𝑖=1 𝑖=1

𝐸𝑦𝑦 = 𝑠𝑢𝑚𝑎 𝑑𝑒 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 𝑑𝑒𝑙 𝑒𝑟𝑟𝑜𝑟 𝑒𝑥𝑝𝑒𝑟𝑖𝑚𝑒𝑛𝑡𝑎𝑙


𝑡 𝑛𝑖
2
= ∑ ∑(𝑌𝑖𝑗 − 𝑌̅𝑖 ) = ∑ 𝑌 2 − 𝑀𝑦𝑦 − 𝑇𝑦𝑦 … … … … … … … 𝒆𝒄𝒖𝒂𝒄𝒊ó𝒏 𝟒
𝑖=1 𝑗=1

el ANOVA mostrado en la tabla 2 es el correspondiente.

5
Tabla 2. ANOVA para los datos de la tabla 1
Fuente de Variación Grados de libertad Suma de cuadrados Cuadrado medio
Media 1 𝑀𝑦𝑦 𝐶𝑀𝑀 = 𝑀𝑦𝑦 ⁄1
Entre tratamientos 𝑡−1 𝑇𝑦𝑦 𝐶𝑀𝑇𝑟 = 𝑇𝑦𝑦 ⁄(𝑡 − 1)
𝑡 𝑡
Error experimental ∑(𝑛𝑖 − 1) 𝐸𝑦𝑦 𝐶𝑀𝐸 = 𝐸𝑦𝑦 ⁄∑(𝑛𝑖 − 1)
𝑖=1 𝑖=1
𝑡
Total ∑ 𝑛𝑖 ∑ 𝑌2 …………………
𝑖=1

Si cada 𝑛𝑖 = 𝑛 esto es, si el número de unidades experimentales por tratamiento es el mismo para todos los tratamientos,
la tabla 1 se modificaría y nos quedaría como se muestra en la tabla 3.

Tabla 3. Representación simbólica de los datos en un D.C.A.


(igual número de observaciones para cada tratamiento)
Tratamiento
Total
1 2 . . . 𝒕
𝑌11 𝑌21 𝑌𝑡1
𝑌12 𝑌22 𝑌𝑡2
. . .
Observaciones
. . .
. . .
𝑌1𝑛 𝑌2𝑛 . . . 𝑌𝑡𝑛
𝑡
Totales 𝑇1 𝑇2 𝑇𝑡 𝑇 = ∑ 𝑇𝑖
𝑖=1
Número de observaciones 𝑛 𝑛 𝑛 𝑡𝑛
Medias 𝑌̅1 𝑌̅2 𝑌̅𝑡 𝑌̅ = 𝑇⁄𝑡𝑛

Las ecuaciones 1 a 4 nos quedarían como:

𝑡 𝑛

∑ 𝑌 = ∑ ∑ 𝑌𝑖𝑗2 … … … … … … … 𝒆𝒄𝒖𝒂𝒄𝒊ó𝒏 𝟓
2

𝑖=1 𝑗=1

𝑀𝑦𝑦 = 𝑇 2 ⁄𝑡𝑛 … … … … … … … … 𝒆𝒄𝒖𝒂𝒄𝒊ó𝒏 𝟔


𝑡

𝑇𝑦𝑦 = (∑ 𝑇𝑖2 )⁄𝑛 − 𝑀𝑦𝑦 … … … … … … . 𝒆𝒄𝒖𝒂𝒄𝒊ó𝒏 𝟕


𝑖=1

𝐸𝑦𝑦 = ∑ 𝑌 2 − 𝑀𝑦𝑦 − 𝑇𝑦𝑦 … … … … … … … 𝒆𝒄𝒖𝒂𝒄𝒊ó𝒏 𝟖

6
y el ANOVA resultante se muestra en la tabla 4.

Tabla 4. ANOVA para los datos de la tabla 3


Fuente de Variación Grados de libertad Suma de cuadrados Cuadrado medio
Media 1 𝑀𝑦𝑦 𝐶𝑀𝑀 = 𝑀𝑦𝑦 ⁄1
Entre tratamientos 𝑡−1 𝑇𝑦𝑦 𝐶𝑀𝑇𝑟 = 𝑇𝑦𝑦 ⁄(𝑡 − 1)
Error experimental 𝑡(𝑛 − 1) 𝐸𝑦𝑦 𝐶𝑀𝐸 = 𝐸𝑦𝑦 ⁄(𝑡(𝑛 − 1))
Total 𝑡𝑛 ∑ 𝑌2 …………………

La estimación de 𝜎 2 entre tratamientos, se llama cuadrado medio debido a los tratamientos y se denota 𝐶𝑀𝑇𝑟.
La estimación de 𝜎 2 dentro de los tratamientos, se llama cuadrado medio debido al error y se denota 𝐶𝑀𝐸.
Antes de que puedan usarse los análisis precedentes de varianza para fines de deducción estadística, deberán hacerse ciertas
suposiciones respecto a las observaciones. Algunas de estas suposiciones ya se han mencionado en la sección 2.1. En
general, las suposiciones básicas del análisis de varianza son las mismas que las comúnmente asociadas con el análisis de
regresión. Estas son: de aditividad, linealidad, normalidad, independencia y varianzas homogéneas. Esto es, el modelo
estadístico más frecuentemente supuesto en aplicaciones de análisis de varianza es un modelo lineal al cual se añaden
algunas restricciones acerca de las observaciones independientes de distribuciones normales.
La consideración básica para un diseño completamente aleatorizado con una observación por unidad experimental, es que
las observaciones pueden ser representadas por el modelo estadístico lineal

𝑌𝑖𝑗 = 𝜇 + 𝜏𝑖 + 𝜀𝑖𝑗 … … … … … … … 𝒆𝒄𝒖𝒂𝒄𝒊ó𝒏 𝟖

𝑖 = 1, ⋯ , 𝑡 𝑗 = 1, ⋯ , 𝑛𝑖 (𝑛ú𝑚𝑒𝑟𝑜𝑠 𝑑𝑒𝑠𝑖𝑔𝑢𝑎𝑙𝑒𝑠)
ó
𝑗 = 1, ⋯ , 𝑛 (𝑛ú𝑚𝑒𝑟𝑜𝑠 𝑖𝑔𝑢𝑎𝑙𝑒𝑠)

donde 𝜇 es el efecto medio verdadero, 𝜏𝑖 es el efecto verdadero del 𝑖 -ésimo tratamiento y 𝜀𝑖𝑗 es el efecto verdadero de la
𝑗-ésima unidad experimental sujeta al 𝑖 -ésimo tratamiento (𝜀𝑖𝑗 también incluye los efectos de todos los otros factores
extraños. Sin embargo, contamos con el proceso de aleatorización para evitar esos efectos de contaminación de nuestros
resultados). En suma, es costumbre considerar que 𝜇 es una constante, mientras que los 𝜀𝑖𝑗 están normal e
independientemente distribuidos con media 0 y desviación estándar 𝜎 (𝐷𝑁𝐼(0, 𝜎)).

Sin embargo, la especificación del modelo aún está incompleta, nada se ha dicho respecto a 𝜏𝑖 . El investigador tiene dos
alternativas respecto a lo que puede decir de 𝜏𝑖 , a saber: 1) ∑𝑡𝑖=1 𝜏𝑖 = 0, lo cual refleja la decisión del investigador de
que únicamente está interesado con los 𝑡 tratamientos presentes en su experimento, o 2) los 𝜏𝑖 están 𝐷𝑁𝐼(0, 𝜎𝜏 ), lo cual
refleja la decisión del investigador de que sólo está interesado con una población de tratamientos, de los cuales únicamente
una muestra al azar (los 𝑡 tratamientos) están presentes en su experimento. Esto conduce a tener que elegir entre el modelo
de efectos fijos (análisis de varianza) y el modelo de efectos aleatorios (componente de varianza).
Como ya se dijo en la sección 2, la intención de este capítulo se concentrará en los modelos de efectos fijos. Y habiendo
efectuado los cálculos anteriormente indicados, estamos preparados para para proceder a la elaboración de conclusiones
estadísticas. Los tipos exactos de las deducciones que se harán, por supuesto, dependen del objeto para el cual se elaboró

7
el experimento. Comúnmente interesan tres conclusiones en los siguientes problemas: 1) hipótesis acerca del efecto relativo
de tratamientos, 2) estimación de la magnitud de los componentes de varianza, y 3) estimación de los efectos medios de
los tratamientos individuales. A continuación nuestro interés serán las conclusiones 1) y 3). Queda como tarea, la
investigación acerca de la conclusión 2).
Consideraremos primero la hipótesis de “no diferencia entre los efectos de los 𝒕 tratamientos en el experimento”. De esta
manera la hipótesis puede expresarse como

𝐻0 : 𝜏𝑖 = 0 (𝑖 = 1, ⋯ , 𝑡) 𝐻0 : 𝜇1 = 𝜇2 = 𝜇3 = ⋯ = 𝜇𝑡
ó
𝐻1 : 𝜏𝑖 ≠ 0 (𝑖 = 1, ⋯ , 𝑡) 𝐻1 : 𝑁𝑜 𝑡𝑜𝑑𝑎𝑠 𝑙𝑎𝑠 𝑚𝑒𝑑𝑖𝑎𝑠 𝑠𝑜𝑛 𝑖𝑔𝑢𝑎𝑙𝑒𝑠

Un examen de los cuadrados medios en las tablas 2 y 4 indica (en cada caso) que, si 𝐻0 es verdadera, tanto el cuadrado
medio del error experimental como el cuadrado medio entre tratamientos, son estimaciones de 𝜎 2 . Así, si 𝐻0 es verdadera,
la relación

𝐶𝑀𝑇𝑟 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜 𝑚𝑒𝑑𝑖𝑜 𝑝𝑎𝑟𝑎 𝑡𝑟𝑎𝑡𝑎𝑚𝑖𝑒𝑛𝑡𝑜𝑠


𝐹= = … … … … … … … … 𝑒𝑐𝑢𝑎𝑐𝑖ó𝑛 10
𝐶𝑀𝐸 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜 𝑚𝑒𝑑𝑖𝑜 𝑑𝑒𝑙 𝑒𝑟𝑟𝑜𝑟 𝑒𝑥𝑝𝑒𝑟𝑖𝑚𝑒𝑛𝑡𝑎𝑙

está distribuida como 𝐹, con 𝑣1 = 𝑡 − 1 y 𝑣2 = ∑𝑡𝑖=1(𝑛𝑖 − 1) grados de libertad debido a que los 𝜀𝑖𝑗 se supusieron
𝐷𝑁𝐼(0, 𝜎). Si el valor de F especificado por la ecuación 10 excede a 𝐹(1−𝛼,𝑣1 ,𝑣2 ) donde el nivel de significancia elegido es
100𝛼%, 𝐻0 será rechazada y la conclusión alcanzada es que hay diferencias significantes entre los 𝒕 tratamientos.

Aplicación:
Un ejemplo de un estudio estadístico experimental es el problema que se le presentó a la empresa Chemitech, Inc.; dicha
empresa elaboró un sistema de filtración para los suministros de aguas municipales. Los componentes del sistema de
filtración se comprarían a varios proveedores y Chemitech armaría el sistema de filtración en su fábrica en Columbia,
Carolina del Sur. El grupo de ingenieros industriales era el encargado de determinar el mejor método para armar el sistema
de filtración. Después de considerar varios métodos, quedaron sólo tres alternativas: el método A, el método B y el método
C. La diferencia entre estos métodos era el orden en los pasos para armar el sistema. Los administradores de Chemitech,
querían saber con qué método se podían producir más sistemas en una semana. Se tomaron 15 trabajadores, y a cada cinco
trabajadores se les asigna en forma aleatoria uno de los métodos para armar el sistema de filtración. Como cada uno de
estos métodos es asignado a cinco trabajadores, se dice que se obtienen cinco réplicas.
Objetivo: el objetivo estadístico del experimento es determinar si el número medio de sistemas producido por semana es
el mismo con los tres métodos.
Factor o variable independiente: el método para armar el sistema (cualitativo).
Tratamientos: los métodos para armar el sistema A, B y C. Estos tres tratamientos o métodos para armar el sistema
constituyen las tres poblaciones de interés del experimento de Chemitech. Una población está formada por todos los
trabajadores que emplean el método A, otra población es la de todos los trabajadores que emplean el método B y otra
población es la de todos los trabajadores que emplean el método C.
Variable dependiente o variable respuesta: en cada población la variable dependiente o variable de respuesta es el número
de sistemas de filtración que se arman por semana.
Unidad experimental: la muestra aleatoria de 15 trabajadores son las unidades experimentales.
En la figura 3.1 se presenta el diseño completamente aleatorizado para el experimento de Chemitech.

8
FIGURA 3.1. D.C.A. para evaluar el método experimental de armar el sistema de Chemitech

Obtención de datos: Una vez satisfechos con el diseño del experimento, se procede a obtener y analizar los datos. En el
caso de Chemitech, se les explicará a los trabajadores cómo emplear el método que les ha sido asignado y empezarán a
armar los sistemas de filtración con ese método. En la tabla 3.1 se presenta el número de unidades armadas por cada
empleado en una semana. En esta tabla se dan también los totales, el número de observaciones y la media muestral
obtenidos con cada método de ensamblado. Así, la media muestral del número de unidades producidas con el método A
es 62; la media muestral con el método B es 66 y la media muestral usando el método C es 52. De acuerdo con estos datos,
parece que con el método B se obtienen más unidades por semana que con los otros dos métodos.

Tabla 3.1. Número de unidades producidas por 15 trabajadores


Tratamiento
Total
A B C
58 58 48
64 69 57
Observaciones 55 71 59
66 64 47
67 68 49
Totales 310 330 260 900
Número de observaciones 5 5 5 15
Medias 62 66 52 60

Lo que importa es si las tres medias muestrales observadas difieren lo suficiente para poder concluir que las medias de las
poblaciones correspondientes a estos tres métodos son diferentes. Aunque nunca se podrá saber cuáles son los verdaderos
valores de 𝜇1 , 𝜇2 y 𝜇3 , se van a usar las medias muestrales para probar la hipótesis siguiente.

𝐻0 : 𝜏𝑖 = 0 (𝑖 = 1,2,3) 𝐻0 : 𝜇1 = 𝜇2 = 𝜇3
ó
𝐻1 : 𝜏𝑖 ≠ 0 (𝑖 = 1,2,3) 𝐻1 : 𝑁𝑜 𝑡𝑜𝑑𝑎𝑠 𝑙𝑎𝑠 𝑚𝑒𝑑𝑖𝑎𝑠 𝑝𝑜𝑏𝑙𝑎𝑐𝑖𝑜𝑛𝑎𝑙𝑒𝑠 𝑠𝑜𝑛 𝑖𝑔𝑢𝑎𝑙𝑒𝑠

Para llevar a cabo esta hipótesis necesitamos de los cálculos de

9
∑ 𝑌 2 = 19330 + 21886 + 13644 = 54860

𝑀𝑦𝑦 = 9002 ⁄15 = 54000

𝑇𝑦𝑦 = (96100 + 108900 + 67600)⁄5 − 54000 = 520


y
𝐸𝑦𝑦 = 54860 − 54000 − 520 = 340

que se presentan resumidos en la tabla 3.2, con dos columnas adicionales: una para la prueba F y otra para la significancia.

Tabla 3.2. ANOVA para los datos del experimento de Chemitech de la tabla 3.1
Fuente de Variación Grados de libertad Suma de cuadrados Cuadrado medio F Valor - P
Media 1 54000 54000
Entre tratamientos 2 520 260 9.177 0.0038
Error experimental 12 340 28.333
Total 15 54860 …………………

La prueba F usa el estadístico:

𝐶𝑀𝑇𝑟 260
𝐹= = = 9.177
𝐶𝑀𝐸 28.333

que está distribuido como 𝐹, con 𝑣1 = 2 y 𝑣2 = 12 grados de libertad.


Si nos planteamos una confianza del 95% ó error 𝛼 = 0.05 (en la cola superior o derecha), entonces 𝐹(0.95,2,12) = 3.885.
Ya que 𝐹 = 9.177 > 𝐹(0.95,2,12) = 3.885, la hipótesis 𝐻0 será rechazada.

También se puede trabajar con el valor-P (probabilidad superior o a la derecha) de 𝐹(9.177,2,12) = 0.0038, ya que se planteó
una confianza del 95% ó error 𝛼 = 0.05 (en la cola superior o derecha). Ya que 𝐹(9.177,2,12) = 0.0038 < 𝛼 = 0.05, la
hipótesis 𝐻0 será rechazada.
La prueba proporciona evidencias suficientes para concluir que las medias de las tres poblaciones no son iguales. En otras
palabras, el análisis de varianza favorece la conclusión de que las medias poblacionales del número de unidades producidas
por semana, con cada uno de los tres métodos para armar los sistemas de filtración, no son iguales.

5. ANOVA DE UN SOLO FACTOR EN BLOQUES: DISEÑO EN BLOQUES COMPLETAMENTE


ALEATORIZADO (D.B.C.A.)
Hasta ahora sólo se ha considerado el diseño completamente aleatorizado. Como se recordará, para probar la diferencia
entre las medias de los tratamientos se calcula el valor de F mediante el cociente

𝐶𝑀𝑇𝑟
𝐹=
𝐶𝑀𝐸
Sin embargo, si diferencias debidas a factores extraños (factores no considerados en el experimento) hacen que en este
cociente el término CME se vuelva más grande, pueden surgir problemas. En estos casos, en la ecuación 10 el valor de F
será más pequeño, haciendo que se concluya que no hay diferencia entre las medias de los tratamientos cuando en realidad
sí la hay.

10
En esta sección se presenta un diseño experimental conocido como diseño en bloques aleatorizado. El objetivo en este
diseño es controlar algunas fuentes extrañas de variación eliminándolas del término CME. Este diseño tiende a
proporcionar una mejor estimación de la varianza del error y conduce a pruebas de hipótesis más robustas en términos de
la posibilidad de detectar diferencias entre medias de tratamientos.
Un diseño en bloque completamente aleatorizado (D.B.C.A.) es aquél en el que: 1) las unidades experimentales se
distribuyen en grupos o bloques, de manera tal que las unidades experimentales dentro de un bloque sean relativamente
homogéneas y que el número de unidades experimentales dentro de un bloque sea igual al número de tratamientos por
investigar, y 2) los tratamientos se asignan al azar a las unidades experimentales dentro de cada bloque. En lo anterior, la
formación de bloques refleja el criterio del investigador respecto a las respuestas diferenciales potenciales de las diversas
unidades experimentales, mientras que el procedimiento de aleatorización actúa como una justificación de la suposición
de independencia.

La suposición básica para un D.B.C.A con una observación por unidad experimental, es que las observaciones pueden
representarse mediante el siguiente modelo estadístico lineal

𝑌𝑖𝑗 = 𝜇 + 𝛽𝑖 + 𝜏𝑖 + 𝜀𝑖𝑗 … … … … … … … 𝒆𝒄𝒖𝒂𝒄𝒊ó𝒏 𝟏𝟏

𝑖 = 1, ⋯ , 𝑏 𝑗 = 1, ⋯ , 𝑡

donde 𝜇 es el verdadero efecto medio, 𝛽𝑖 es el verdadero efecto del 𝑖 -ésimo bloque, 𝜏𝑖 es el verdadero efecto del 𝑗-ésimo
tratamiento, y 𝜀𝑖𝑗 es el verdadero efecto de la unidad experimental en el 𝑖 -ésimo bloque que está sujeta al 𝑗-ésimo
tratamiento. Además,
𝑏

∑ 𝛽𝑖 = 0 y 𝜀𝑖𝑗 𝑒𝑠𝑡á 𝐷𝑁𝐼(0, 𝜎)


𝑖=1

Como en el D.C.A., con respecto a 𝜏𝑖 nos concentraremos en los modelos de efectos fijos.
Usando el simbolismo indicado en la tabla 5:

Tabla 5. Representación simbólica de los datos en un D.B.C.A.


con una observación por unidad experimental
Tratamiento
Bloque Total Media
1 . . . j . . . 𝒕
1 𝑌11 . . . 𝑌1𝑗 . . . 𝑌1𝑡 𝐵1 𝑌̅1∙
. . . .
. . . .
. . . .
𝒊 𝑌𝑖1 . . . 𝑌𝑖𝑗 . . . 𝑌𝑖𝑡 𝐵𝑖 𝑌̅𝑖∙
. . . .
. . . .
. . . .
𝒃 𝑌𝑏1 . . . 𝑌𝑏𝑗 . . . 𝑌𝑏𝑡 𝐵𝑏 𝑌̅𝑏∙
Total 𝑇1 . . . 𝑇𝑗 . . . 𝑇𝑡 𝑇
Media 𝑌̅∙1 . . . 𝑌̅∙𝑗 . . . 𝑌̅∙𝑡 𝑌̅∙∙

11
y las siguientes ecuaciones:

∑ 𝑌 2 = 𝑠𝑢𝑚𝑎 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠


𝑏 𝑡

∑ 𝑌 = ∑ ∑ 𝑌𝑖𝑗2 … … … … … … … 𝒆𝒄𝒖𝒂𝒄𝒊ó𝒏 𝟏𝟐
2

𝑖=1 𝑗=1

𝑀𝑦𝑦 = 𝑠𝑢𝑚𝑎 𝑑𝑒 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 𝑑𝑒𝑏𝑖𝑑𝑜𝑠 𝑎 𝑙𝑎 𝑚𝑒𝑑𝑖𝑎

𝑀𝑦𝑦 = 𝑇 2 ⁄𝑏𝑡 … … … … … … … … 𝒆𝒄𝒖𝒂𝒄𝒊ó𝒏 𝟏𝟑

𝐵𝑦𝑦 = 𝑠𝑢𝑚𝑎 𝑑𝑒 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 𝑒𝑛𝑡𝑟𝑒 𝑏𝑙𝑜𝑞𝑢𝑒𝑠


𝑏

𝐵𝑦𝑦 = (∑ 𝐵𝑖2 )⁄𝑡 − 𝑀𝑦𝑦 … … … … … … … 𝒆𝒄𝒖𝒂𝒄𝒊ó𝒏 𝟏𝟒


𝑖=1

𝑇𝑦𝑦 = 𝑠𝑢𝑚𝑎 𝑑𝑒 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 𝑒𝑛𝑡𝑟𝑒 𝑡𝑟𝑎𝑡𝑎𝑚𝑖𝑒𝑛𝑡𝑜𝑠


𝑡

𝑇𝑦𝑦 = (∑ 𝑇𝑗2 )⁄𝑏 − 𝑀𝑦𝑦 … … … … … … . 𝒆𝒄𝒖𝒂𝒄𝒊ó𝒏 𝟏𝟓


𝑗=1
y

𝐸𝑦𝑦 = 𝑠𝑢𝑚𝑎 𝑑𝑒 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 𝑑𝑒𝑙 𝑒𝑟𝑟𝑜𝑟 𝑒𝑥𝑝𝑒𝑟𝑖𝑚𝑒𝑛𝑡𝑎𝑙

𝐸𝑦𝑦 = ∑ 𝑌 2 − 𝑀𝑦𝑦 − 𝐵𝑦𝑦 − 𝑇𝑦𝑦 … … … … … … … 𝒆𝒄𝒖𝒂𝒄𝒊ó𝒏 𝟏𝟔

se obtiene en ANOVA mostrado en la tabla 6.

Tabla 6. ANOVA generalizado para los datos de la tabla 5


Fuente de Variación Grados de libertad Suma de cuadrados Cuadrado medio
Media 1 𝑀𝑦𝑦 𝐶𝑀𝑀 = 𝑀𝑦𝑦 ⁄1
Bloques 𝑏−1 𝐵𝑦𝑦 𝐶𝑀𝐵 = 𝐵𝑦𝑦 ⁄(𝑏 − 1)
Tratamientos 𝑡−1 𝑇𝑦𝑦 𝐶𝑀𝑇𝑟 = 𝑇𝑦𝑦 ⁄(𝑡 − 1)
Error experimental (𝑏 − 1)(𝑡 − 1) 𝐸𝑦𝑦 𝐶𝑀𝐸 = 𝐸𝑦𝑦 ⁄((𝑏 − 1)(𝑡 − 1))
Total 𝑏𝑡 ∑ 𝑌2 …………………

Apegándonos a la línea de razonamiento establecida en el D.C.A., puede verificarse fácilmente que la hipótesis
𝐻0 : 𝜏𝑗 = 0 (𝑗 = 1, ⋯ , 𝑡) ó 𝐻0 : 𝜇1 = 𝜇2 = 𝜇3 = ⋯ = 𝜇𝑡

puede probarse mediante el cálculo de

𝐶𝑀𝑇𝑟 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜 𝑚𝑒𝑑𝑖𝑜 𝑝𝑎𝑟𝑎 𝑡𝑟𝑎𝑡𝑎𝑚𝑖𝑒𝑛𝑡𝑜𝑠


𝐹= = … … … … … … … … 𝑒𝑐𝑢𝑎𝑐𝑖ó𝑛 17
𝐶𝑀𝐸 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜 𝑚𝑒𝑑𝑖𝑜 𝑑𝑒𝑙 𝑒𝑟𝑟𝑜𝑟 𝑒𝑥𝑝𝑒𝑟𝑖𝑚𝑒𝑛𝑡𝑎𝑙

12
la que está distribuida como 𝐹 con 𝑣1 = 𝑡 − 1 y 𝑣2 = (𝑏 − 1)(𝑡 − 1) grados de libertad, si 𝐻0 es verdadera. Si el
valor de F especificado por la ecuación 17 excede a 𝐹(1−𝛼,𝑣1 ,𝑣2) donde 100𝛼% es el nivel de significancia elegido, 𝐻0 será
rechazada y la conclusión alcanzada es que hay diferencias significantes entre los 𝒕 tratamientos.

Aplicación:
Como resultado de un estudio para medir la fatiga y el estrés de los controladores del tráfico aéreo, se propusieron
modificaciones y rediseños al puesto de trabajo. Después de considerar diversos diseños del puesto de trabajo, se
seleccionaron tres alternativas consideradas con el mayor potencial para reducir el estrés en los controladores. La pregunta
clave es: ¿En qué medida difieren estas tres alternativas en su efecto sobre el estrés de los controladores? Para responder
esta pregunta se necesita diseñar un experimento que proporcione mediciones del estrés de los controladores del tráfico
aéreo bajo cada una de estas alternativas.
Si se empleara un diseño completamente aleatorizado, una muestra aleatoria de controladores sería asignada a cada uno de
los alternativos puestos de trabajo. Pero, se entiende que los controladores difieren sustancialmente en su habilidad para
manejar situaciones estresantes. Lo que para un controlador es un gran estrés, para otro puede ser sólo un estrés moderado
e incluso pequeño. Por tanto, al considerar la fuente de variación dentro del grupo (CME), hay que tener en cuenta que
esta variación comprende tanto el error aleatorio como el error debido a las diferencias individuales de los controladores.
En efecto, los administradores consideran que la variabilidad entre los controladores será la contribución principal al
término CME.
Una manera de hacer a un lado el efecto de las diferencias individuales es usar el diseño de bloques aleatorizado. En ese
diseño, se identifica la variabilidad debida a las diferencias individuales de los controladores y se elimina del término
CME. En el diseño de bloques aleatorizado se emplea una sola muestra de 16 controladores. Cada uno de los controladores
de la muestra se prueba con cada una de las tres alternativas de puestos de trabajo.

Objetivo: el objetivo estadístico del experimento es determinar si la medición del estrés es el mismo con los tres diseños
del puesto de trabajo.
Factor o variable independiente: el puesto de trabajo (cualitativo).
Tratamientos: las tres alternativas de puesto de trabajo. Para simplificar, a las tres alternativas del puesto de trabajo se les
designará como sistema A, sistema B y sistema C.
Bloques: los controladores (habilidad para manejar situaciones estresantes)
Variable dependiente o variable respuesta: en cada población la variable dependiente o variable de respuesta es la
medición o puntaje del estrés.
Unidad experimental: la muestra aleatoria de 16 trabajadores (controladores de tráfico aéreo) son las unidades
experimentales.
Obtención de datos: Para obtener los datos necesarios, en el Centro de Control Cleveland en Oberlin, Ohio, se instalaron
las tres alternativas de puesto de trabajo. Se seleccionaron seis controladores en forma aleatoria y se asignó cada uno a uno
de los sistemas para que lo operara. Después de practicar una entrevista y un examen médico a cada uno de los participantes
en el estudio se obtuvieron las mediciones del estrés de cada controlador en cada uno de los sistemas. En la tabla 3.3 se
presentan estos datos.

13
TABLA 3.3 D.B.C.A. para la prueba de estrés en los controladores de tráfico aéreo.

En la tabla 3.4 aparece un resumen de los datos de estrés recolectados. En esta tabla se presentan también los totales de las
columnas (tratamientos) y los totales de los renglones (bloques) así como algunas medias muestrales necesarias que serán
útiles para hacer los cálculos de la suma de los cuadrados del ANOVA. Como valores bajos de estrés se consideran mejores,
los datos muestrales parecen favorecer al sistema B, en el que la media de las mediciones del estrés es 13. Sin embargo, la
pregunta persiste: ¿los resultados muestrales justifican la conclusión de que las medias poblacionales de los niveles de
estrés, con estos tres sistemas, difieren? Es decir, ¿son las diferencias estadísticamente significativas? Para responder esta
pregunta estadística se emplea un análisis del cálculo de la varianza, similar al empleado en el D.C.A.

TABLA 3.4 Resumen de los datos de estrés obtenidos en la prueba de estrés aplicada a los controladores aéreos
Tratamiento
Bloque Total Media
A B C
Contr. 1 15 15 18 48 16
Contr. 2 14 14 14 42 14
Contr. 3 10 11 15 36 12
Contr. 4 13 12 17 42 14
Contr. 5 16 13 16 45 15
Contr. 6 13 13 13 39 13
Total 81 78 93 252
Media 13.5 13 15.5 14

Primero planteamos la hipótesis

𝐻0 : 𝜏𝑖 = 0 (𝑖 = 1,2,3) 𝐻0 : 𝜇1 = 𝜇2 = 𝜇3
ó
𝐻1 : 𝜏𝑖 ≠ 0 (𝑖 = 1,2,3) 𝐻1 : 𝑁𝑜 𝑡𝑜𝑑𝑎𝑠 𝑙𝑎𝑠 𝑚𝑒𝑑𝑖𝑎𝑠 𝑝𝑜𝑏𝑙𝑎𝑐𝑖𝑜𝑛𝑎𝑙𝑒𝑠 𝑠𝑜𝑛 𝑖𝑔𝑢𝑎𝑙𝑒𝑠

Para llevar a cabo esta hipótesis necesitamos de los cálculos de

∑ 𝑌 2 = 3598

𝑀𝑦𝑦 = 2522 ⁄(6 × 3) = 3528


𝐵𝑦𝑦 = (2304 + 1764 + 1296 + 1764 + 2025 + 1521)⁄3 − 3528 = 30

𝑇𝑦𝑦 = (6561 + 6084 + 8649)⁄6 − 3528 = 21

𝐸𝑦𝑦 = 3598 − 3528 − 30 − 21 = 19

14
que se presentan resumidos en la tabla 3.5, con dos columnas adicionales: una para la prueba F y otra para la significancia.

Tabla 3.5. ANOVA para los datos del experimento de Controladores de Tráfico Aéreo.
Fuente de Variación Grados de libertad Suma de cuadrados Cuadrado medio F Valor - P
Media 1 3528 3528
Entre bloques 5 30 6
Entre tratamientos 2 21 10.5 5.526 0.0242
Error experimental 10 19 1.9
Total 18 3598 …………………

La prueba F usa el estadístico:

𝐶𝑀𝑇𝑟 10.5
𝐹= = = 5.526
𝐶𝑀𝐸 1.9

que está distribuido como 𝐹, con 𝑣1 = 2 y 𝑣2 = 10 grados de libertad.

Si nos planteamos una confianza del 95% ó error 𝛼 = 0.05 (en la cola superior o derecha), entonces 𝐹(0.95,2,10) =
4.103. Ya que 𝐹 = 5.526 > 𝐹(0.95,2,10) = 4.103, la hipótesis 𝐻0 será rechazada.

También se puede trabajar con el valor-P (probabilidad superior o a la derecha) de 𝐹(5.526,2,10) = 0.0242, ya que se
planteó una confianza del 95% ó error 𝛼 = 0.05 (en la cola superior o derecha). Ya que 𝐹(95.526,2,10) = 0.0242 < 𝛼 =
0.05, la hipótesis 𝐻0 será rechazada.
La prueba proporciona evidencias suficientes para concluir que las medias de las tres poblaciones no son iguales. En otras
palabras, el análisis de varianza favorece la conclusión de que las medias poblacionales de los niveles de estrés en las tres
alternativas de puesto de trabajo no son iguales.
Acerca de este diseño de bloques aleatorizado se pueden hacer algunos comentarios generales. El diseño de experimentos
descrito en esta sección es un diseño de bloques completo; la palabra “completo” indica que cada bloque se somete a todos
los 𝑡 tratamientos. Es decir, todos los controladores (bloques) fueron probados con los tres sistemas (tratamientos). A los
diseños de experimentos en los que a cada bloque se le aplican algunos, pero no todos, los tratamientos se les llaman
diseños de bloques incompletos. El estudio del diseño de bloques incompletos queda fuera del alcance de este capítulo.

6. ANOVA PARA EXPERIMENTOS FACTORIALES


Los diseños de experimentos vistos hasta ahora permiten obtener conclusiones estadísticas acerca de un solo factor. Sin
embargo, en algunos experimentos se desean obtener conclusiones acerca de más de un factor o variable. Un experimento
factorial es un diseño experimental que permite obtener, simultáneamente, conclusiones acerca de dos o más factores. El
término factorial se emplea debido a que las condiciones experimentales comprenden todas las posibles combinaciones de
los factores. Por ejemplo, si se tienen aniveles del factor A y b niveles del factor B, se obtendrán datos de ab combinaciones
de tratamientos. En esta sección se verá un experimento factorial para dos factores. La idea básica se extiende a
experimentos factoriales con más de dos factores.
Si ahora estamos informados que los 𝒕 tratamientos son en realidad todas las combinaciones de 𝒂 niveles del factor 𝑨 y
𝒃 niveles del factor 𝑩 (esto es, 𝒕 = 𝒂𝒃), el modelo estadístico se puede volver a escribir como

𝑌𝑖𝑗 = 𝜇 + 𝛼𝑖 + 𝛽𝑗 + (𝛼𝛽)𝑖𝑗 + 𝜀𝑖𝑗𝑘 … … … … … … … 𝒆𝒄𝒖𝒂𝒄𝒊ó𝒏 𝟏𝟖

15
𝑖 = 1, ⋯ , 𝑎 𝑗 = 1, ⋯ , 𝑏 𝑘 = 1, ⋯ , 𝑛

donde 𝜇 es el efecto medio verdadero, 𝛼𝑖 es el efecto verdadero del 𝑖 -ésimo nivel del factor 𝐴, 𝛽𝑗 es el efecto verdadero
del 𝑗-ésimo nivel del factor 𝐵, 𝛼𝛽𝑖𝑗 es el efecto verdadero de la interacción del 𝑖 -ésimo nivel del factor 𝐴 con el 𝑗-ésimo
nivel del factor 𝐵 y 𝜀𝑖𝑗𝑘 es el efecto verdadero de la 𝑘-ésima unidad experimental sujeta a la 𝑖𝑗-ésima combinación de
tratamiento. Como siempre, se supone que 𝜇 es una constante y que las 𝜀𝑖𝑗𝑘 están 𝐷𝑁𝐼(0, 𝜎).

La disposición general de los datos para un diseño bifactorial se muestra en la tabla 7.


Tabla 7. Representación simbólica de los datos para un Diseño Bifactorial
con una observación por unidad experimental
Factor B
Factor A Total Media
1 . . . 𝒋 . . . 𝒃
𝑌111 , 𝑌112 , . . . 𝑌1𝑗1 , 𝑌1𝑗2 , . . 𝑌1𝑏1 , 𝑌1𝑏2 ,
1 . 𝐴1 𝑌̅1∙
⋯ , 𝑌11𝑛 ⋯ , 𝑌1𝑗𝑛 ⋯ , 𝑌1𝑏𝑛
. . . .
. . . .
. . . .
𝑌𝑖11 , 𝑌𝑖12 , . . . 𝑌𝑖𝑗1 , 𝑌𝑖𝑗2 , . . 𝑌𝑖𝑏1 , 𝑌𝑖𝑏2 ,
𝒊 . 𝐴𝑖 𝑌̅𝑖∙
⋯ , 𝑌𝑖1𝑛 ⋯ , 𝑌𝑖𝑗𝑛 ⋯ , 𝑌𝑖𝑏𝑛
. . . .
. . . .
. . . .
𝑌𝑎11 , 𝑌𝑎12 , . . . 𝑌𝑎𝑗1 , 𝑌𝑎𝑗2 , . . 𝑌𝑎𝑏1 , 𝑌𝑎𝑏2 ,
𝒂 . 𝐴𝑎 𝑌̅𝑎∙
⋯ , 𝑌𝑎1𝑛 ⋯ , 𝑌𝑎𝑗𝑛 ⋯ , 𝑌𝑎𝑏𝑛
Total 𝐵1 . . . 𝐵𝑗 . . . 𝐵𝑏 𝑇
Media 𝑌̅∙1 . . . 𝑌̅∙𝑗 . . . 𝑌̅∙𝑏 𝑌̅∙∙ = 𝑌̅

Los cálculos para ∑ 𝑌 2 , 𝑀𝑦𝑦 , 𝑇𝑦𝑦 y 𝐸𝑦𝑦 se harán todas como antes. Sin embargo, si adoptamos la siguiente notación:

𝐴𝑖 = 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑡𝑜𝑑𝑎𝑠 𝑙𝑎𝑠 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑐𝑖𝑜𝑛𝑒𝑠 𝑎𝑠𝑜𝑐𝑖𝑎𝑑𝑎𝑠 𝑐𝑜𝑛 𝑒𝑙 𝑖é𝑠𝑖𝑚𝑜 𝑛𝑖𝑣𝑒𝑙 𝑑𝑒𝑙 𝑓𝑎𝑐𝑡𝑜𝑟 𝐴
𝑏 𝑛

= ∑ ∑ 𝑌𝑖𝑗𝑘 … … … … … … … … 𝒆𝒄𝒖𝒂𝒄𝒊ó𝒏 𝟏𝟗
𝑗=1 𝑘=1

𝐵𝑗 = 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑡𝑜𝑑𝑎𝑠 𝑙𝑎𝑠 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑐𝑖𝑜𝑛𝑒𝑠 𝑎𝑠𝑜𝑐𝑖𝑎𝑑𝑎𝑠 𝑐𝑜𝑛 𝑒𝑙 𝑗é𝑠𝑖𝑚𝑜 𝑛𝑖𝑣𝑒𝑙 𝑑𝑒𝑙 𝑓𝑎𝑐𝑡𝑜𝑟 𝐵
𝑎 𝑛

= ∑ ∑ 𝑌𝑖𝑗𝑘 … … … … … … … 𝒆𝒄𝒖𝒂𝒄𝒊ó𝒏 𝟐𝟎
𝑖=1 𝑘=1

y
𝑇𝑖𝑗 = 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑡𝑜𝑑𝑎𝑠 𝑙𝑎𝑠 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑐𝑖𝑜𝑛𝑒𝑠 𝑎𝑠𝑜𝑐𝑖𝑎𝑑𝑎𝑠 𝑐𝑜𝑛 𝑒𝑙 𝑖é𝑠𝑖𝑚𝑜 𝑛𝑖𝑣𝑒𝑙 𝑑𝑒𝑙 𝑓𝑎𝑐𝑡𝑜𝑟 𝐴 𝑦
𝑒𝑙 𝑗é𝑠𝑖𝑚𝑜 𝑑𝑒𝑙 𝑓𝑎𝑐𝑡𝑜𝑟 𝐵

16
𝑛

= ∑ 𝑌𝑖𝑗𝑘 … … … … … … . 𝒆𝒄𝒖𝒂𝒄𝒊ó𝒏 𝟐𝟏
𝑘

puede demostrarse que

𝐴𝑦𝑦 = 𝑠𝑢𝑚𝑎 𝑑𝑒 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 𝑎𝑠𝑜𝑐𝑖𝑎𝑑𝑜𝑠 𝑐𝑜𝑛 𝑙𝑜𝑠 𝑑𝑖𝑓𝑒𝑟𝑒𝑛𝑡𝑒𝑠 𝑛𝑖𝑣𝑒𝑙𝑒𝑠 𝑑𝑒 𝐴


𝑎

= 𝑏𝑛 ∑(𝑌̅𝑖. − 𝑌̅)2
𝑖=1
𝑎

= ∑ 𝐴2𝑖 ⁄𝑏𝑛 − 𝑀𝑦𝑦 … … … … … … … 𝒆𝒄𝒖𝒂𝒄𝒊ó𝒏 𝟐𝟐


𝑖=1

𝐵𝑦𝑦 = 𝑠𝑢𝑚𝑎 𝑑𝑒 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 𝑎𝑠𝑜𝑐𝑖𝑎𝑑𝑜𝑠 𝑐𝑜𝑛 𝑙𝑜𝑠 𝑑𝑖𝑓𝑒𝑟𝑒𝑛𝑡𝑒𝑠 𝑛𝑖𝑣𝑒𝑙𝑒𝑠 𝑑𝑒 𝐵


𝑏
2
= 𝑎𝑛 ∑(𝑌̅.𝑗 − 𝑌̅)
𝑗=1
𝑏

= ∑ 𝐵𝑗2⁄𝑎𝑛 − 𝑀𝑦𝑦 … … … … … … … 𝒆𝒄𝒖𝒂𝒄𝒊ó𝒏 𝟐𝟑


𝑗=1

𝑆𝑎𝑏 = 𝑠𝑢𝑚𝑎 𝑑𝑒 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 𝑒𝑛𝑡𝑟𝑒 𝑠𝑢𝑏𝑐𝑙𝑎𝑠𝑒𝑠 (𝑐𝑒𝑙𝑑𝑎𝑠), 𝑝𝑎𝑟𝑎 𝑙𝑎 𝑡𝑎𝑏𝑙𝑎 𝑎 × 𝑏


𝑎 𝑏
Entre subclases 2
= 𝑛 ∑ ∑(𝑌̅𝑖𝑗 − 𝑌̅)
𝑖=1 𝑗=1
𝑎 𝑏

= ∑ ∑ 𝑇𝑖𝑗2 ⁄𝑛 − 𝑀𝑦𝑦 … … … … … … … … 𝒆𝒄𝒖𝒂𝒄𝒊ó𝒏 𝟐𝟒


𝑖=1 𝑗=1

Usando los resultados precedentes, se podrá verificar que

𝐴𝐵𝑦𝑦 = 𝑠𝑢𝑚𝑎 𝑑𝑒 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 𝑎𝑠𝑜𝑐𝑖𝑎𝑑𝑎 𝑐𝑜𝑛 𝑙𝑎 𝑖𝑛𝑡𝑒𝑟𝑎𝑐𝑐𝑖ó𝑛 𝑒𝑛𝑡𝑟𝑒 𝑙𝑜𝑠 𝑓𝑎𝑐𝑡𝑜𝑟𝑒𝑠 𝑎 𝑦 𝑏


= 𝑆𝑎𝑏 − 𝐴𝑦𝑦 − 𝐵𝑦𝑦 … … … … … … … 𝒆𝒄𝒖𝒂𝒄𝒊ó𝒏 𝟐𝟓
Entre subclases
Estos resultados están condensados en forma de ANOVA en la tabla 8.

Tabla 8. ANOVA generalizado para un factorial de 2 factores en un D.C.A


Fuente de Variación Grados de libertad Suma de cuadrados Cuadrado medio
Media 1 𝑀𝑦𝑦 𝐶𝑀𝑀 = 𝑀𝑦𝑦 ⁄1
Tratamientos
A 𝑎−1 𝐴𝑦𝑦 𝐶𝑀𝐴 = 𝐴𝑦𝑦 ⁄(𝑎 − 1)
B 𝑏−1 𝐵𝑦𝑦 𝐶𝑀𝐵 = 𝐵𝑦𝑦 ⁄(𝑏 − 1)
AB (𝑎 − 1)(𝑏 − 1) 𝐴𝐵𝑦𝑦 𝐶𝑀𝐴𝐵 = 𝐴𝐵𝑦𝑦 ⁄((𝑎 − 1)(𝑏 − 1))
Error experimental 𝑎𝑏(𝑛 − 1) 𝐸𝑦𝑦 𝐶𝑀𝐸 = 𝐸𝑦𝑦 ⁄(𝑎𝑏(𝑛 − 1))
Total 𝑎𝑏𝑛 ∑ 𝑌2 …………………
17
Habiendo explicado el cálculo de las diversas sumas de cuadrados, la atención deberá dirigirse ahora a las suposisiones
asociadas con 𝛼𝑖 , 𝛽𝑗 y 𝛼𝛽𝑖𝑗 . Existen 4 conjuntos posibles de suposiciones que pueden hacerse con respecto a los efectos
verdaderos de tratamiento, de los cuáles sólo se desarrollará el modelo de efectos fijos. Este modelo se supone cuando el
investigador se interesa únicamente en los a niveles del factor A y en los b niveles del factor B, presentes el experimento.
Matemáticamente, estas suposiciones se resumen en:
𝑎 𝑏 𝑎 𝑏

∑ 𝛼𝑖 = ∑ 𝛽𝑖 = ∑ 𝛼𝛽𝑖𝑗 = ∑ 𝛼𝛽𝑖𝑗 = 0
𝑖=1 𝑗=1 𝑖=1 𝑗=1

Las hipótesis adecuadas son


𝐻1 : 𝛼𝑖 = 0 (𝑖 = 1, ⋯ , 𝑎)
𝐻2 : 𝛽𝑗 = 0 (𝑗 = 1, ⋯ , 𝑏)

𝐻3 : 𝛼𝛽𝑖𝑗 = 0 (𝑖 = 1, ⋯ , 𝑎 ; 𝑗 = 1, ⋯ , 𝑏)

y las respectivas pruebas F especificadas son


𝐹1 = 𝐶𝑀𝐴⁄𝐶𝑀𝐸
𝐹2 = 𝐶𝑀𝐵⁄𝐶𝑀𝐸
𝐹3 = 𝐶𝑀𝐴𝐵⁄𝐶𝑀𝐸

Aplicación:
Para ilustrar los experimentos factoriales para dos factores, se considerará un estudio realizado en relación con un examen
de admisión para estudiantes con licenciatura que desean hacer un estudio sobre administración de negocios. Las
puntuaciones que se pueden obtener en este examen de admisión van de 200 a 800, las puntuaciones más altas reflejan
mejores aptitudes para el estudio en el futuro.
Como ayuda para la preparación de este examen, una institución ofrece los tres programas siguientes.
1. Una sesión de repaso de tres horas, en la que se revisa el tipo de preguntas que suelen encontrarse en el examen.
2. Un programa de un día en el que se ve el material más importante que se necesita saber para el examen y se hace
un examen muestra que es incluso calificado.
3. Un curso intensivo de diez semanas en el que se determinan las debilidades de cada estudiante y se establece un
programa individualizado para superar esas debilidades.
Por tanto, un factor en este estudio es el programa de preparación para el examen de admisión. Para este factor hay tres
tratamientos: un repaso de tres horas, un programa de un día y un curso de 10 semanas. Se quiere determinar el efecto de
cada uno de los programas sobre las puntuaciones obtenidas en este examen de admisión.
Por lo común este examen lo hacen estudiantes de tres licenciaturas, administración, ingeniería y ciencias. En
consecuencia, el segundo factor que interesa en este estudio es si la licenciatura del estudiante influye en la calificación en
el examen de admisión. Para este segundo factor hay también tres tratamientos, administración, ingeniería y ciencias. En
el diseño factorial de este experimento en el que hay tres tratamientos para el factor A, programa de preparación, y tres
tratamientos para el factor B, tipo de licenciatura, habrá en total 3 × 3 = 9 combinaciones de tratamientos. En la tabla 3.6
se resumen estas combinaciones de tratamientos o condiciones experimentales.

18
TABLA 3.6 Las nueve combinaciones de tratamientos en el experimento
con dos factores del examen de admisión

Factor A: Factor B: Licenciatura


Programa de preparación Administración Ingeniería Ciencias
Repaso de 3 horas 1 2 3
Programa de un día 4 5 6
Curso de 10 semanas 7 8 9

Suponga que se toma una muestra de dos estudiantes para cada una de las combinaciones de tratamientos de la tabla 3.6:
dos estudiantes de administración participarán en el repaso de tres horas, dos participarán en el programa de un día y dos
participarán en el curso de 10 semanas. Además, dos estudiantes de ingeniería y dos estudiantes de ciencias participarán
en cada uno de los tres programas. En la terminología del diseño de experimentos, el tamaño muestral de dos para cada
combinación de tratamientos indica que se tienen dos replicaciones. Se pueden usar también más replicaciones y tamaños
muestrales mayores, pero en esta aplicación se quisieron minimizar los cálculos para hacer más claro este ejemplo.
En este diseño experimental se requiere que de cada una de las licenciaturas (administración, ingeniería y ciencias) se
tomen aleatoriamente seis estudiantes que pretendan realizar este examen de admisión y, que después, dos estudiantes de
cada licenciatura sean asignados de manera aleatoria a cada uno de los programas de preparación para el examen, con lo
que en total participan 18 estudiantes en este estudio.
En la tabla 3.7 se presentan las puntuaciones obtenidas en el examen por estos estudiantes después de haber participado en
los programas de preparación para el examen.
TABLA 3.7 Puntuaciones en el examen de admisión del experimento
de dos factores

Factor B
Factor A
Administración (B1) Ingeniería (B2) Ciencias (B3)
500 540 480
Repaso de 3 horas (A1)
580 460 400
460 560 420
Programa de un día (A2)
540 620 480
560 600 480
Curso de 10 semanas (A3)
600 580 410

Los cálculos para el análisis de varianza con los datos de la tabla 3.7 permitirán responder las preguntas siguientes:
• Efecto principal (factor A): ¿Tienen los programas de preparación efectos diferentes sobre la puntuación obtenida
en el examen de admisión?
• Efecto principal (factor B): ¿Tienen las licenciaturas efectos diferentes sobre la puntuación obtenida en el examen
de admisión?
• Efecto de interacción (factor A y B): ¿Es uno de los programas de preparación mejor para los estudiantes que
vienen de una de las tres licenciaturas, mientras que para los de otras licenciaturas es mejor otro de los programas?
El término interacción se refiere a un nuevo efecto que es posible estudiar debido a que se emplea un experimento factorial.
Si el efecto interacción tiene algún impacto significante sobre las puntuaciones del examen de admisión, se podrá concluir
que el efecto del tipo de programa de preparación depende de la licenciatura
En la tabla 3.8 aparece un resumen de los datos de puntuaciones en el examen de admisión. En esta tabla se presentan
también los totales de las celdas (tratamientos), los totales de las filas (niveles del factor A) y los totales de las columnas

19
(niveles del factor B) así como algunas medias muestrales necesarias que serán útiles para hacer los cálculos de la suma
de los cuadrados del ANOVA.
TABLA 3.8 Resumen de los datos de puntuaciones en el examen de admisión del experimento
de dos factores

Factor B
Factor A Total Media
B1 B2 B3
500 540 480
A1 580 460 400 2960 493.333
1080 1000 880
460 560 420
A2 540 620 480 3080 513.333
1000 1180 900
560 600 480
A3 600 580 410 3230 538.333
1160 1180 890
Total 3240 3360 2670 9270
Media 540 560 445 515

Planteamos las hipótesis


𝐻1 : 𝛼𝑖 = 0 (𝑖 = 1, ⋯ , 𝑎)
𝐻2 : 𝛽𝑗 = 0 (𝑗 = 1, ⋯ , 𝑏)

𝐻3 : 𝛼𝛽𝑖𝑗 = 0 (𝑖 = 1, ⋯ , 𝑎 ; 𝑗 = 1, ⋯ , 𝑏)

Para llevar a cabo estas hipótesis necesitamos de los cálculos de

∑ 𝑌 2 = (5002 + 5802 + 5402 + 4602 + ⋯ + 5802 + 4802 + 4102 ) = 4856500

𝑀𝑦𝑦 = (92702 )⁄(3 × 3 × 2)) = 4774050

𝐴𝑦𝑦 = ((8761600 + 9486400 + 10432900)⁄(3 × 2)) − 4774050

= (28680900⁄6) − 4774050 = 6100


𝐵𝑦𝑦 = ((10497600 + 11289600 + 7128900)⁄(3 × 2)) − 4774050

= (28916100⁄6) − 4774050 = 45300

𝑆𝑎𝑏 = ((10802 + 10002 + 8802 + ⋯ + 11802 + 8902 )⁄2) − 4774050

= ((9673300)⁄2) − 4774050 = 62600


𝐴𝐵𝑦𝑦 = 62600 − 6100 − 45300 = 11200

𝐸𝑦𝑦 = 4856500 − 4774050 − 6100 − 45300 − 11200 = 19850

que se presentan resumidos en la tabla 3.9, con dos columnas adicionales: una para la prueba F y otra para la significancia.

20
Tabla 3.9. ANOVA para los datos en el examen de admisión del experimento de dos factores
Fuente de Variación Grados de libertad Suma de cuadrados Cuadrado medio F Valor - P
Media 1 4774050 4774050
Tratamientos
A 2 6100 3050 1.3829 0.29944
B 2 45300 22650 10.2695 0.00475
AB 4 11200 2800 1.2695 0.35033
Error experimental 9 19850 2205.556
Total 18 4856500 …………………

En la tabla 3.9 se presenta los resultados para el análisis de varianza del experimento factorial de dos factores del examen
de admisión. El 𝑣𝑎𝑙𝑜𝑟 − 𝑝 para probar si hay diferencias significativas entre los tres programas de preparación (factor
A) es 0.29944. Como este 𝑣𝑎𝑙𝑜𝑟 − 𝑝 = 0.29944 es mayor a 𝛼 = 0.05, se concluye que los programas de preparación no
hacen que haya diferencia significativa entre las medias de las puntuaciones obtenidas en los exámenes de admisión. Sin
embargo, en relación con el efecto de la licenciatura (factor B), el 𝑣𝑎𝑙𝑜𝑟 − 𝑝 = 0.00475 es menor que 𝛼 = 0.05; por
tanto, entre las tres licenciaturas sí hay una diferencia significativa en las medias de las puntuaciones en el examen de
admisión.
Por último, como el 𝑣𝑎𝑙𝑜𝑟 − 𝑝 = 0.35033, correspondiente al efecto de la interacción es mayor que 𝛼 = 0.05, no hay un
efecto significativo de interacción. Por tanto, en este estudio no se encuentran razones para pensar que los tres programas
de preparación difieran en su capacidad de preparación, para este examen de admisión, de estudiantes de las distintas
licenciaturas.
Se encontró que la licenciatura sí era un factor significativo. Al revisar los cálculos de la tabla 3.8, se ve que las medias
muestrales son: estudiantes de administración 𝑌̅.1 = 540, estudiantes de ingeniería 𝑌̅.2 = 560 y estudiantes de ciencias
𝑌̅.3 = 445. Es posible realizar pruebas para los distintos tratamientos; sin embargo, después de observar las tres medias
muestrales es de anticipar que no hay diferencia entre los estudiantes con las licenciaturas de ingeniería y administración.
Pero, los estudiantes de ciencias parecen estar menos preparados para este examen que los estudiantes de las otras dos
licenciaturas. Quizás esta observación haga que la universidad busque otras opciones para ayudar a estos estudiantes a
prepararse para el examen de admisión.

7. COMPARACIÓN ENTRE TRATAMIENTOS


Muchos métodos de comparaciones múltiples utilizan el concepto de contraste. En general, si se tiene 𝑎 tratamientos, un
contraste es una combinación lineal de parámetros de la forma
𝑎

Γ = ∑ 𝑐𝑖 𝜇𝑖
𝑖=1

donde las constantes de los contrastes 𝑐1 , 𝑐2 , ⋯ , 𝑐𝑎 suman cero; es decir, ∑𝑎𝑖=1 𝑐𝑖 = 0.


En muchas situaciones, los experimentadores pueden no conocer de antemano cuáles son los contrastes que quieren
comparar, o pueden tener interés en más de 𝑎 − 1 posibles comparaciones. En muchos experimentos de exploración, las
comparaciones de interés sólo se descubren después del examen preliminar de los datos. En esta sección se tratará los
métodos en los cuáles no es necesario tener información acerca de la naturaleza de los tratamientos.
7.1. Para comparar todos los contrastes: Método de Scheffé
Scheffé ha propuesto un método para comparar todos y cada uno de los contrastes posibles entre las medias de los
tratamientos. En el método de Scheffé, el erro tipo I es a lo sumo 𝛼 para cualquiera de las comparaciones posibles.
Suponga que se ha determinado un conjunto de 𝑚 contrastes
21
Γ𝑢 = 𝑐1𝑢 𝜇1 + 𝑐2𝑢 𝜇2 + ⋯ + 𝑐𝑎𝑢 𝜇𝑎 𝑢 = 1,2, ⋯ , 𝑚 (𝑒𝑐. 26)
en las medias de los tratamientos de interés. El contraste correspondiente de los promedios de los tratamientos 𝑌̅𝑖 es
𝐶𝑢 = 𝑐1𝑢 𝑌̅1 + 𝑐2𝑢 𝑌̅2 + ⋯ + 𝑐𝑎𝑢 𝑌̅𝑎 𝑢 = 1,2, ⋯ , 𝑚 (𝑒𝑐. 27)
y el error estándar de este contraste es

𝑎
2⁄ )
𝑆𝐶𝑢 = √𝐶𝑀𝐸 ∑(𝑐𝑖𝑢 𝑛𝑖 (𝑒𝑐. 28)
𝑖=1

donde 𝑛𝑖 es el número de observaciones en el tratamiento 𝑖é𝑠𝑖𝑚𝑜. Puede demostrarse que el valor crítico contra el que
deberá compararse 𝐶𝑢 es

𝑆𝛼,𝑢 = 𝑆𝐶𝑢 √(𝑎 − 1)𝐹𝛼,𝑎−1,𝑁−𝑎 (𝑒𝑐. 29)

Para probar la hipótesis de que el contraste Γ𝑢 difiere de manera significativa de cero, se compara 𝐶𝑢 con el valor crítico.
Si |𝐶𝑢 | > 𝑆𝑎,𝑢 , se rechaza la hipótesis de que el contraste Γ𝑢 es igual a cero.
El procedimiento de Scheffé puede usarse también para formar intervalos de confianza para todos los contrastes posibles
entre las medias de los tratamientos. Los intervalos resultantes, por ejemplo 𝐶𝑢 − 𝑆𝑎,𝑢 ≤ Γ𝑢 ≤ 𝐶𝑢 + 𝑆𝑎,𝑢 , son intervalos
de confianza simultáneos por cuanto la probabilidad de que todos ellos sean verdaderos simultáneamente es al menos
1 − 𝛼.
Para ilustrar el procedimiento, consideremos las aplicaciones anteriores. Para el D.C.A. suponga que los contrastes de
interés son
Γ1 = 𝜇1 + 𝜇2 − 2𝜇3
y
Γ2 = 𝜇1 − 𝜇3
Los valores numéricos de estos contrates son
𝐶1 = 𝑌̅1 + 𝑌̅2 − 2𝑌̅3
𝐶1 = 62 + 66 − 2(52) = 24

𝐶2 = 𝑌̅1 − 𝑌̅3
𝐶2 = 62 − 52 = 10
y los errores estándar se encuentran con la ecuación 28 como

3
2⁄ )
𝑆𝐶1 = √𝐶𝑀𝐸 ∑(𝑐𝑖1 𝑛𝑖 = √28.333 (1 + 1 + 4)⁄5 = 5.831
𝑖=1

3
2⁄ )
𝑆𝐶2 = √𝐶𝑀𝐸 ∑(𝑐𝑖2 𝑛𝑖 = √28.333 (1 + 1)⁄5 = 3.366
𝑖=1

Por la ecuación 29, los valores críticos de 5% son

22
𝑆0.05,1 = 𝑆𝐶1 √(𝑎 − 1)𝐹0.05,𝑎−1,𝑁−𝑎 = 5.831√(3 − 1)𝐹0.05,3−1,15−3 = 5.831√(3 − 1)3.885 = 16.254

𝑆0.05,2 = 𝑆𝐶2 √(𝑎 − 1)𝐹0.05,𝑎−1,𝑁−𝑎 = 3.366√(3 − 1)𝐹0.05,3−1,15−3 = 3.366√(3 − 1)3.885 = 9.383

Puesto que |𝐶1 | = 24 > 16.254 = 𝑆0.05,1, se concluye que el contraste Γ1 = 𝜇1 + 𝜇2 − 2𝜇3 no es igual a cero; es decir,
los números medios de sistemas de los tratamientos 1 y 2 como grupo difieren significativamente del número medio de
sistemas del tratamiento 3. Además, como |𝐶2 | = 10 > 9.383 = 𝑆0.05,2 se concluye que el contraste Γ2 = 𝜇1 − 𝜇3 no es
igual a cero; es decir, los números medios de sistemas de los tratamientos 1 y 3 difieren significativamente.
7.2. Para comparar pares de medias de tratamientos
En muchas situaciones prácticas, querrán compararse sólo pares de medias. Frecuentemente, es posible determinar cuáles
son las medias que difieren probando las diferencias entre todos los pares de medias de los tratamientos. Por lo tanto, el
interés se encuentra en los contrastes de la forma Γ = 𝜇𝑖 − 𝜇𝑗 para toda 𝑖 ≠ 𝑗. Aun cuando el método de Scheffé podría
aplicarse fácilmente a este problema, no es el procedimiento más sensible para tales comparaciones. Se pasa ahora a la
consideración de los métodos diseñados específicamente para las comparaciones por pares entre todas las 𝑎 medias
poblacionales.
Suponga que el interés se encuentra en comparar todos los pares de 𝑎 medias de tratamientos y que las hipótesis nulas que
quieren probarse son 𝐻0 : 𝜇𝑖 = 𝜇𝑗 para toda 𝑖 ≠ 𝑗. A continuación se presentan algunos métodos para hacer estas
comparaciones.
7.2.1. Prueba de Tukey
Suponga que, después de un ANOVA en el que se ha rechazado la hipótesis nula de la igualdad de las medias de los
tratamientos, quieren probarse todas las comparaciones de las medias por pares:
𝐻0 : 𝜇𝑖 = 𝜇𝑗

𝐻0 : 𝜇𝑖 ≠ 𝜇𝑗

para toda 𝑖 ≠ 𝑗. Tukey propuso un procedimiento para probar hipótesis para las que el nivel de significanción global es
exactamente 𝛼 cuando los tamaños de las muestras son iguales y es a lo sumo 𝛼 cuando los tamaños de las muestras no
son iguales. Este procedimiento puede usarse también para obtener los intervalos de confianza para las diferencias en todos
los pares de medias. Para estos intervalos, el nivel de confianza simultáneo es de 100(1 − 𝛼)% cuando los tamaños de las
muestras son iguales y de al menos 100(1 − 𝛼)% cuando los tamaños de las muestras no son iguales. Se trata de un
procedimiento excelente para curiosear sobre los datos cuando el interés se centra en pares de medias.
El procedimiento de Tukey hace uso de la distribución del estadístico del rango studentizado
𝑌̅𝑚á𝑥 − 𝑌̅𝑚í𝑛
𝑞=
√𝐶𝑀𝐸/𝑛

donde 𝑌̅𝑚á𝑥 y 𝑌̅𝑚í𝑛 son las medias muestrales mayor y menor, respectivamente, sacadas de un grupo de 𝑝 medias
muestrales. La tabla 1 contiene los valores de 𝑞𝛼 (𝑝, 𝑓), los puntos porcentuales 𝛼 superiores de 𝑞, donde 𝑓 es el número
de grados de libertad asociados con CME.
Para tamaños de las muestras iguales, la prueba de Tukey declara que dos medias son significativamente diferentes si el
valor absoluto de sus diferencias muestrales excede

𝐶𝑀𝐸
𝑇𝛼 = 𝑞𝛼 (𝑎, 𝑓)√ (𝑒𝑐. 30)
𝑛

23
De manera equivalente, podría construirse una serie de intervalos de confianza de 100(1 − 𝛼)% para todos los pares de
medias de la siguiente manera:

𝐶𝑀𝐸 𝐶𝑀𝐸
(𝑌̅𝑖 − 𝑌̅𝑗 ) − 𝑞𝛼 (𝑎, 𝑓)√ ≤ 𝜇𝑖 − 𝜇𝑗 ≤ (𝑌̅𝑖 − 𝑌̅𝑗 ) + 𝑞𝛼 (𝑎, 𝑓)√ , 𝑖≠𝑗 (𝑒𝑐. 31)
𝑛 𝑛

Cuando los tamaños de las muestras no son iguales, las ecuaciones 30 y 31 quedan como

𝑞𝛼 (𝑎, 𝑓) 1 1
𝑇𝛼 = √𝐶𝑀𝐸 ( + ) (𝑒𝑐. 32)
√2 𝑛𝑖 𝑛𝑗

𝑞𝛼 (𝑎, 𝑓) 1 1 𝑞𝛼 (𝑎, 𝑓) 1 1
(𝑌̅𝑖 − 𝑌̅𝑗 ) − √𝐶𝑀𝐸 ( + ) ≤ 𝜇𝑖 − 𝜇𝑗 ≤ (𝑌̅𝑖 − 𝑌̅𝑗 ) + √𝐶𝑀𝐸 ( + ) , 𝑖≠𝑗 (𝑒𝑐. 33)
√2 𝑛𝑖 𝑛𝑗 √2 𝑛𝑖 𝑛𝑗

Respectivamente. A la versión para tamaños de las muestras diferentes se le llama en ocasiones el procedimiento Tukey-
Kramer.
Para ilustrar la prueba de Tukey, consideremos las aplicaciones anteriores. Para el D.C.A., con 𝛼 = 0.05 y 𝑓 = 12 grados
de libertad para el error, en la tabla 1 se obtiene 𝑞0.05 (3,12) = 3.77. Por lo tanto, por la ecuación 30,

𝐶𝑀𝐸 28.333
𝑇0.05 = 𝑞0.05 (3,12)√ = 3.77√ = 8.974
𝑛 5

Por lo tanto, cualquier par de promedios de los tratamientos que difieran en valor absoluto por más de 8.974 implicaría que
el par correspondiente de medias poblacionales son significativamente diferentes.
Los tres promedios de los tratamientos son 𝑌̅1 = 62, 𝑌̅2 = 66, 𝑌̅3 = 52 y los valores absolutos de las diferencias en los
promedios son
|𝑌̅1 − 𝑌̅2 | = |−4| = 4
|𝑌̅1 − 𝑌̅3 | = |10| = 10 ∗
|𝑌̅2 − 𝑌̅3 | = |14| = 14 ∗

Los valores marcados con asterisco indican pares de medias que son significativamente diferentes. Suele ser útil trazar
una gráfica, como la de la figura 3.2, donde se subraya a los pares de medias que no difieren significativamente. Esta
gráfica da una indicación de que las medias de los tratamientos forman 2 grupos: grupo 1 (𝜇1 y 𝜇2 ) y grupo 2 (𝜇3 ). Si no
es muy claro la formación de grupos, las comparaciones por pares con intervalos de confianza nos pueden a ayudar
verificar las diferencias.
Figura 3.2. Resultados de la prueba de Tukey

𝑌̅3 𝑌̅1 𝑌̅2


_______ _____________

7.2.2. Método de la Diferencia Significativa Mínima (LSD) de Fisher


En este procedimiento se utiliza el estadístico F para probar 𝐻0 : 𝜇𝑖 = 𝜇𝑗

24
𝑌̅𝑖 − 𝑌̅𝑗
𝑡0 = (𝑒𝑐. 34)
1 1
√𝐶𝑀𝐸 (𝑛 + 𝑛 )
𝑖 𝑗

Suponiendo una hipótesis alternativa de dos colas, los pares de medias 𝜇𝑖 y 𝜇𝑗 se declararían significativamente diferentes

si |𝑌̅𝑖 − 𝑌̅𝑗 | > 𝑡𝛼⁄2,𝑁−𝑎 √𝐶𝑀𝐸(1⁄𝑛𝑖 + 1⁄𝑛𝑗 ). A la cantidad

1 1
𝐿𝑆𝐷 > 𝑡𝛼⁄2,𝑁−𝑎 √𝐶𝑀𝐸 ( + ) (𝑒𝑐. 35)
𝑛𝑖 𝑛𝑗

se le llama diferencia significativa mínima. Si el diseño es balanceado, 𝑛1 = 𝑛2 = ⋯ = 𝑛𝑎 = 𝑛, y

2𝐶𝑀𝐸
𝐿𝑆𝐷 = 𝑡𝛼⁄2 ,𝑁−𝑎 √ (𝑒𝑐. 36)
𝑛

Para usar el procedimiento LSD de Fisher, simplemente se compara la diferencia observada entre cada par de promedios
con la LSD correspondiente. Si |𝑌̅𝑖 − 𝑌̅𝑗 | > 𝐿𝑆𝐷, se concluye que las medias poblacionales 𝜇𝑖 y 𝜇𝑗 difieren.

Para ilustrar el procedimiento, si se usan los datos del experimento del D.C.A., la LSD con 𝛼 = 0.05 es

2𝐶𝑀𝐸 2(28.333)
𝐿𝑆𝐷 = 𝑡0.025 ,15−3 √ = 2.179√ = 7.336
𝑛 5

Por lo tanto, cualquier par de promedios de los tratamientos que difiera del valor absoluto por más de 7.336 implicaría que
el par correspondiente de medias poblacionales es significativamente diferente. Las diferencias absolutas en los promedios
son
|𝑌̅1 − 𝑌̅2 | = |62 − 66| = 4
|𝑌̅1 − 𝑌̅3 | = |62 − 52| = 10 ∗
|𝑌̅2 − 𝑌̅3 | = |66 − 52| = 14 ∗
Los valores marcados con asterisco indican pares de medias que son significativamente diferentes. En la figura 3.3 se
resumen los resultados. Evidentemente, el único par de medias que no difiere significativamente es 1 y 2, y el tratamiento
3 produce un número medio de sistemas significativamente menor que los otros tratamientos.
Figura 3.3. Resultados del procedimiento LSD

𝑌̅3 𝑌̅1 𝑌̅2


_______ _____________

Observe que el riesgo global 𝛼 puede inflarse de manera considerable al utilizar este método. Específicamente, cuando 𝛼
se hace más grande, el error tipo I del experimento se hace grande.
7.2.3. Prueba del rango múltiple de Duncan
Un procedimiento muy utilizado para comparar todos los pares de medias es la prueba del rango múltiple desarrollada
por Duncan. Para aplicar la prueba del rango múltiple de Duncan cuando los tamaños de las muestras son iguales, los 𝑎
promedios de los tratamientos se arreglan en orden ascendente, y el error estándar de cada promedio se determina por

25
𝐶𝑀𝐸
𝑆𝑌̅𝑖 = √ (𝑒𝑐. 37)
𝑛

Para tamaños de las muestras desiguales, se sustituye 𝑛 en la ecuación 37 con la media armónica 𝑛ℎ del {𝑛𝑖 }, donde
𝑎
𝑛ℎ = (𝑒𝑐. 38)
∑𝑎𝑖=1(1⁄𝑛𝑖 )

Observe que si 𝑛1 = 𝑛2 = ⋯ = 𝑛𝑎 , 𝑛ℎ = 𝑛. En la tabla de Duncan de los rangos significativos (tabla 2) se obtienen los
valores 𝑟𝛼 (𝑝, 𝑓) para 𝑝 = 2,3, … , 𝑎, donde 𝛼 es el nivel de significación y 𝑓 es el número de grados de libertad del error.
Estos rangos se convierten en un conjunto de 𝑎 − 1 rangos mínimos de significación (por ejemplo, 𝑅𝑝 ) para 𝑝 = 2,3, … , 𝑎
calculando
𝑅𝑝 = 𝑟𝛼 (𝑝, 𝑓)𝑆𝑌̅𝑖 𝑝𝑎𝑟𝑎 𝑝 = 2,3, … , 𝑎 (𝑒𝑐. 39)

Entonces, se prueban las diferencias observadas entre las medias, empezando con la más grande contra la menor, la cual
se compararía con el rango mínimo de significación 𝑅𝑎 . Después se calcula la diferencia de la mayor y la segunda menor
y se compara con el rango mínimo de significación 𝑅𝑎−1 . Estas comparaciones se continúan hasta que todas las medias se
han comparado con la media mayor. Por último, se calcula la diferencia entre la segunda media mayor y la menor y se
compara con el rango mínimo de significación 𝑅𝑎−1 . Este proceso se continúa hasta que se han considerado las diferencias
entre todos los 𝑎(𝑎 − 1)/2 pares de medias posibles. Si una diferencia observada es mayor que el rango de significación
mínima correspondiente, se concluye que el par de medias en cuestión es significativamente diferente. Para evitar
contradicciones, ninguna de las diferencias entre un par de medias se considera significativa si las dos medias en cuestión
se localizan entre otras dos medias que no difieren significativamente.
La prueba del rango múltiple de Duncan puede aplicarse al experimento del D.C.A. Recuerde que CME=28.333, N=15,
n=5, y hay 12 grados de libertad del error. Al arreglar los promedios de los tratamientos en orden ascendente, se tiene
𝑌̅3 = 52, 𝑌̅1 = 62, 𝑌̅2 = 66

El error estándar de cada promedio es 𝑆𝑌̅𝑖 = √28.333⁄5 = 2.38. En el conjunto de rangos significativos de la tabla 2 para
12 grados de libertad y 𝛼 = 0.05, se obtiene 𝑟0.05 (2,12) = 3.08 y 𝑟0.05 (3,12) = 3.23. Por lo tanto, los rangos de
significación mínima son
𝑅2 = 𝑟0.05 (2,12)𝑆𝑌̅𝑖 = (3.08)(2.38) = 7.33

𝑅3 = 𝑟0.05 (3,12)𝑆𝑌̅𝑖 = (3.23)(2.38) = 7.69

Los resultados de las comparaciones serían


Tratamientos Comparaciones
2 𝑣𝑠. 3: 66 − 52 = 14 > 7.69 (𝑅3 ) *
2 𝑣𝑠. 1: 66 − 62 = 4 < 7.33 (𝑅2 )
1 𝑣𝑠. 3: 62 − 52 = 10 > 7.33 (𝑅2 ) *

Por el análisis se observa que hay diferencias significativas entre todos los pares de medias con excepción de la 2 vs. 1. En
la figura 3.4 se muestra una gráfica en la que esas medias que no son significativamente diferentes aparecen subrayadas.
Figura 3.4. Resultados de la prueba de rango múltiple de Duncan

𝑌̅3 𝑌̅1 𝑌̅2


_______ _____________

26
El procedimiento de Duncan tiene una gran potencia; es decir, es muy eficaz para detectar diferencias entre medias cuando
existen diferencias reales. Por esta razón, la prueba del rango múltiple de Duncan es muy popular.
7.2.4. ¿Qué método de comparación por pares debe usarse?
Ciertamente, una pregunta lógica en este punto es qué método de comparación por pares debe usarse. Desafortunadamente,
no hay una respuesta precisa para esta pregunta, y los especialistas en estadística están con frecuencia en desacuerdo en
cuanto a la utilidad de los diferentes procedimientos. Carmer y Swanson han realizado estudios de simulación Montecarlo
con varios procedimientos de comparaciones múltiples, incluyendo algunos que no se han considerado aquí. Estos autores
reportan que el método de la diferencia significativa mínima es una prueba muy eficaz para detectar diferencias reales en
las medias si se aplica sólo después de que la prueba 𝐹 en el análisis de varianza sea significativa en 5%. Reportan asimismo
un buen desempeño en la detección de diferencias reales con la prueba del rango múltiple de Duncan. Esto no es motivo
de sorpresa, ya que estos dos métodos son los más poderosos de los que se han comentado aquí. Sin embargo, estos métodos
no incluyen el índice de error en el modo del experimento. Debido a que el método de Tukey efectúa un control sobre el
índice de error global, muchos experimentadores prefieren su uso.

27