Métodos Estadísticos II Prof.

Nelfi González – Escuela de Estadística
1
DISEÑO DE EXPERIMENTOS
• Planeación de pruebas experimentales, de forma que los datos generados se analicen estadísticamente para obtener
conclusiones válidas y objetivas sobre un proceso.
• Técnicas estadísticas para manipular un proceso con el fin de obtener la mayor información posible.
• Determinar qué pruebas y cómo realizarlas, y el análisis estadístico de los datos recolectados para extraer conclusiones
y tomar decisiones sobre un proceso.

ALGUNAS APLICACIONES DEL DISEÑO EXPERIMENTAL
En la industria:
• Comparar proveedores del mismo material para elegir el que mejor cumple especificaciones.
• Comparar sistemas de medición para verificar si trabajan con la misma precisión y exactitud.
• Proponer nueva manera de operar un proceso, variar sus condiciones y hacer cambios para reducir defectos
• Determinar factores o fuentes de variabilidad con impacto en la capacidad del proceso para cumplir requerimientos.
• Localizar condiciones de operación para desempeño óptimo del proceso.
• Proponer métodos de muestreo efectivos y más económicos.
• Reducir tiempo de ciclo del proceso.
• Hacer proceso robusto a oscilaciones de variables no controlables.
• Apoyar en el diseño o rediseño del producto o proceso.

En la investigación:
• Validar una hipótesis mediante evidencia objetiva.
• Generar conocimiento y aprendizaje de forma eficiente. Dirección del aprendizaje: conocimiento, conjeturas,
imaginación, experimentación, análisis y reflexión.

Métodos Estadísticos II Prof. Nelfi González – Escuela de Estadística
2
CONSIDERACIONES PRÁCTICAS
Las metodologías estadísticas por sí solas no garantizan investigaciones exitosas:
• El conocimiento no estadístico es vital: Se requiere buen conocimiento técnico y práctico del proceso para seleccionar
mejor factores y el diseño, mejor análisis estadístico e interpretación y conclusión.
• Reconocer entre significancia estadística e importancia práctica: diferencias estadísticas no siempre corresponden a
diferencias prácticas de importancia.
• Preferir la experimentación secuencial que un experimento único y definitivo: La experimentación secuencial alcanza
paulatinamente mayor precisión en los conocimientos y soluciones. Seguir una estrategia bien definida y pensada. No
confundir secuencia con “mover un factor a la vez”.

CONCEPTOS BÁSICOS
Experimento: Cambio deliberado en las condiciones de operación de un proceso, con el fin de medir el efecto sobre una o
varias propiedades del producto (Obtención de conocimiento).

Unidad experimental: Objetos u individuos básicos sobre los cuales se obtiene una medición o datos representativo:
• Una pieza: En el estudio de la resistencia a la tracción de cierta componente
• Un lote o grupo de piezas: En el estudio de la proporción de defectuosos en una operación.

En todo proceso intervienen distintos tipos de variables o factores y existen unas preguntas a responder:
¿Cuáles variables respuesta se van a medir?
¿Cuáles factores controlables incluir en el experimento?
¿Qué niveles debe usarse de cada factor?
¿Cuál diseño experimental es adecuado?

Variable respuesta: Característica, variable de salida o propiedad medida en cada unidad, cuyos cambios se desean
estudiar.

Métodos Estadísticos II Prof. Nelfi González – Escuela de Estadística
3
Factores controlables: Variables del proceso que se pueden fijar en un valor o nivel de operación, ya que existe el
mecanismo para cambiar su nivel. También se les llama variables de entrada, condiciones de proceso, o variables de diseño.
Ej. Temperatura, velocidad, presión, concentración, tiempo de aplicación, etc.

Factores no controlables o de ruido: Variables que no se pueden controlar durante la operación normal del proceso. Ej.
Variables ambientales, usos de un producto por los usuarios, etc.

Factores estudiados: Variables cuyos efectos sobre la respuesta se investigan en el experimento: Pueden ser controlables o
no controlables (posibles de controlar durante el experimento). Se requiere probarlos en al menos dos niveles. Los factores en
principio pueden afectar la media o la variabilidad de la variable respuesta.

Niveles: Valores asignados a cada factor de estudio.

Tratamiento o punto de diseño: Combinación de niveles de factores. Ej.

Error aleatorio: Variabilidad observada que no se puede explicar por los factores estudiados, es debido a “causas comunes o
aleatorias”, que generan la “variabilidad inherente del proceso”. Incluye efectos pequeños de factores no estudiados,
variabilidad de las mediciones hechas bajo mismas condiciones, y el error experimental.

Error experimental: Componente del error aleatorio que representa los errores del experimentador en la planeación y
ejecución del experimento. Si el factor o factores estudiados son influyentes sobre la variable respuesta, se espera que la
variabilidad observada en ésta durante la experimentación, sea explicada significativamente por tales factores y en menor
medida por el error aleatorio, y que éste último sea realmente aleatorio.

NOTA: No se deben dejar variar libremente a factores que pueden ser influyentes sobre la respuesta: Principio de bloqueo.

Métodos Estadísticos II Prof. Nelfi González – Escuela de Estadística
4
Un ejemplo: Factores y variables en la fabricación de un envase plástico:

POSIBLES OBJETIVOS DE LA EXPERIMENTACIÓN
• Encontrar condiciones de operación para los factores controlables con el fin de optimizar la variable respuesta.
• Investigar efectos de factores no controlables buscando alcanzar un proceso robusto (insensible) a tales factores.
• Prevención y control.
• Generación de aprendizaje y conocimiento.

ETAPAS DEL DISEÑO EXPERIMENTAL
Varias preguntas deben resolverse antes de la experimentación:
¿Cuántos tratamientos van a ser estudiados?
¿Cuántas veces observar cada tratamiento (réplicas)?
¿Cuáles son las unidades experimentales?
¿Cómo se aplicarán los tratamientos a las unidades experimentales disponibles y luego observar las respuestas?
¿Puede el diseño resultante ser analizado o se pueden hacer las comparaciones deseadas?

Métodos Estadísticos II Prof. Nelfi González – Escuela de Estadística
5
PRINCIPIOS DEL DISEÑO
1. Aleatorización: Es la base para el desarrollo de la teoría para un análisis correcto. Una correcta aleatorización
previene la introducción de sesgo sistemático en el experimento. Si no usamos la aleatorización, no podemos decir si una
diferencia observada es debida a las diferencias entre los tratamientos o debida al método sistemático usado para asignar los
tratamientos a las unidades experimentales.

2. Bloqueo:
• Mientras más parecidas sean las unidades experimentales, mejor serán las comparaciones entre los tratamientos.
• En la mayoría de los experimentos es imposible seleccionar todas las unidades experimentales idénticas.
• La no similaridad entre las unidades experimentales contribuye al ruido.
• Los experimentos pueden ser mejorados si agrupamos las unidades experimentales dentro de grupos de unidades
cercanamente similares, llamadas unidades homogéneas.
• Los tratamientos pueden ser comparados sobre las unidades experimentales similares donde la variación de grupo
puede ser considerada para el análisis. Los grupos de unidades similares u homogéneas son denominados bloques.

2.1. Objetivo del bloqueo: Seleccionar y agrupar el material experimental de modo que el ruido o error experimental en el
experimento sea reducido. Así, las unidades experimentales sobre las cuales los tratamientos van a ser comparados deberían
ser tan parecidas como sea posible para que la menor diferencia significativa entre dos tratamientos pueda ser detectada.

2.2. Control factores de bloque y de ruido - Controles posibles sobre fuentes de variación adicionales a factores de
estudio:
• Bloqueo activo durante el experimento, lo que implica que el factor de ruido es parte del estudio y aparece
explícitamente. En la práctica sólo controlar factores de bloque que se saben son influyentes y económicamente
factibles de fijar en distintos niveles: operadores, tipos de producto, lotes, turnos, tipos de material, etc.
• Nulificar los efectos al mantenerlos fijos en valor usual durante estudio: Resultados son válidos sólo para nivel
seleccionado.
• Aplicar aleatorización para nulificar efecto indeseable de factores de ruido: Posible efecto es repartido “equitativamente”
en todos los tratamientos, y no se puede medir tal efecto posible. E.j. Variables ambientales, cansancio operadores,
calentamiento equipo, variables que en general se mueven solas con el tiempo.

Métodos Estadísticos II Prof. Nelfi González – Escuela de Estadística
6
3. Replicación
• Una estimación de la varianza del error no puede obtenerse a menos que algunos o todos los tratamientos sean
replicados.
• Una replicación de un tratamiento es una observación independiente del tratamiento, e.g. dos replicaciones de un
tratamiento deben involucrar a dos unidades experimentales.
• Muy a menudo los investigadores usan muestras duplicadas o partidas para generar dos observaciones y las llaman
réplicas cuando en realidad son submuestras o medidas repetidas y no replicaciones.

3.1. Replicación vs. Repetición
Ejemplo 1: Dos medidas independientes de la altura de una persona no proporcionan un medida de la verdadera variación en
las alturas de la población; tan sólo son dos submuestras o repeticiones.

Ejemplo 2: Considere un experimento para comparar las habilidades de tres preservativos para inhibir el crecimiento de
hongos sobre cierto tipo de torta. El panadero hace una torta con cada preservativo. Después de nueve días de
almacenamiento, se mide el número de esporas de hongos por cm3 de torta. El panadero quería 10 replicaciones para el
análisis, así que dividió cada torta en 10 porciones y obtuvo el conteo de esporas en cada parte. Sin embargo, esas 10
mediciones no resultaron de 10 aplicaciones independientes del preservativo. La variación medida por sus submuestras es un
índice de la variación dentro de la torta y no de la variación de unidad experimental a unidad experimental. Para tener 10
replicaciones, el panadero necesita batir 10 tortas con cada preservativo, cada una mezclada independientemente de las
demás.

Diferenciar entre una repetición y una replicación es importante pues la varianza del error estimada con las submuestras es en
general considerablemente menor que la varianza del error estimada con replicaciones o unidades experimentales diferentes.
El estadístico de la prueba F construido usando la varianza del error estimada con las submuestras será mucho mayor que lo
que debería ser, llevando a determinar más diferencias significativas de las que realmente lo son.

ESTRUCTURA DE UN DISEÑO EXPERIMENTAL
Un diseño experimental consiste de dos estructuras básicas, y es muy importante ser capaz de identificarlas y diferenciarlas, a
saber:
• Estructura de tratamientos
• Estructura de diseño

Métodos Estadísticos II Prof. Nelfi González – Escuela de Estadística
7
El diseño experimental comprende:
• elección de la estructura de tratamiento,
• elección de la estructura de diseño y el método de aleatorización
ESTRUCTURA DE TRATAMIENTOS:
Consiste del conjunto de tratamientos, combinaciones de tratamientos, o poblaciones que el experimentador ha seleccionado
para estudiar y/o comparar.
• Estructura de tratamiento de un sólo factor.
• Estructura de tratamientos factoriales (dos o más factores)
• Estructura de tratamientos 2kEstructura de tratamientos factoriales fraccionados

ESTRUCTURA DE DISEÑO:
Agrupamiento de las unidades experimentales dentro de grupos homogéneos o bloques:
• Diseño completamente aleatorizado
• Diseño bloqueado:
o De bloques completos aleatorizados: Cuadrados latinos y grecolatinos
o De bloques incompletos

CLASIFICACIÓN DE LOS DISEÑOS EXPERIMENTALES
Para comparar dos o más tratamientos:
• Completamente aleatorizados
• En bloques completos e imcompletos
• Cuadrados latinos y grecolatinos
Métodos Estadísticos II Prof. Nelfi González – Escuela de Estadística
8
Para estudiar el efecto de varios factores sobre una o más variables respuestas:
• Factoriales 2
k
y 3
k
• Factoriales fraccionados 2
k-p

Diseños para optimizar procesos:
• Diseños para modelos de primer orden:
o Diseños Factoriales 2
k
y 2
k-p

o Diseños de Plakett-Burman
o Diseños simplex
• Diseños para modelos de segundo orden:
o Diseño central compuesto
o Diseño de Box-Behnken
o Diseños factoriales 3
k
y 3
k-p

Diseños robustos:
• Arreglos ortogonales (diseños factoriales)
• Diseño con arreglo interno y externo
Diseño de mezclas (mezclas de ingredientes o formulación):
• Diseño lattice-simplex
• Diseño simplex con centroide
• Diseño con restricciones
• Diseño axial
Diseños con unidades experimentales de distinto tamaño:
• Diseños experimentales split - plot
• Diseños de medidas repetidas
Estos diseños están construidos de estructuras de diseño de bloques incompletos y estructuras de tratamiento de arreglos
factoriales que incluyen dos o más factores o tipos de tratamientos.

Métodos Estadísticos II Prof. Nelfi González – Escuela de Estadística
9
LA INVESTIGACIÓN EXPERIMENTAL
La investigación experimental es esencialmente de tipo secuencial, un experimento antecede a otro ganándose cierto
conocimiento en el proceso y proponiéndose nuevos interrogantes que pueden mejorar los resultados del proceso
experimental.

En este tipo de investigación el investigador está interesado en encontrar los factores que tienen influencia sobre las
ejecuciones de cierto proceso. Por ejemplo, uno puede estar interesado en si el grado de concentración de un compuesto
químico, el tiempo de cocción, la temperatura de horneado, el grado de refrescante, y la cantidad de presión tiene un efecto ya
sea individual y/o conjunto sobre la ruptura de un tipo de plato de cerámica. El procedimiento obvio aquí, es variar los niveles
de esos factores y comparar la ejecución de las diferentes combinaciones de niveles.

Por el contrario, la investigación no experimental es la que se realiza sin manipular deliberadamente las variables
independientes, se basa en variables que ya ocurrieron o se dieron en la realidad sin la intervención directa del investigador.
La investigación no experimental es conocida como investigación expost facto (los hechos y las variables ya ocurrieron) y
observa variables y relaciones entre éstas en su contexto natural.

CARACTERÍSTICAS DE LOS DISEÑOS EXPERIMENTALES
Simplicidad. Selección de los tratamientos y la disposición experimental hecha de la forma más simple posible.
Grado de precisión. El experimento deberá tener la capacidad de medir diferencias entre tratamientos con los grados de
precisión deseados. Se deberá partir de un diseño y un número de repeticiones adecuados.
Métodos Estadísticos II Prof. Nelfi González – Escuela de Estadística
10
Ausencia de error sistemático. Se debe planear un experimento para asegurar que las unidades experimentales que reciban
un tratamiento no difieran sistemáticamente de aquellas que reciben otro tratamiento, procurando así obtener una estimación
insesgada del efecto de tratamientos.
Rango de validez de las conclusiones. Deberá ser tan amplio como sea posible. Los experimentos que contribuyen a
aumentar el rango de validez del experimento son los experimentos replicados y los experimentos con estructuras factoriales.
Cálculo del grado de incertidumbre. En todo experimento existe algún grado de incertidumbre en cuanto a la validación de
las conclusiones. El experimento deberá ser concebido de modo que sea posible calcular la probabilidad de obtener los
resultados observados debido únicamente al azar.

ANÁLISIS DE VARIANZA - ANOVA
• Herramienta estadística para estudiar la relación entre una variable respuesta y una o más variables explicatorias.
• No requiere ningún supuesto acerca de la relación estadística entre la variable respuesta y las predictoras.
• No requiere que las variables predictoras sean cuantitativas.ANOVA VS. REGRESIÓN

Regresión:
• Estudia la relación estadística entre una o más variables predictoras y un variable respuesta.
• La función de regresión establece la naturaleza de la relación entre la respuesta media y los niveles de las variables
predictoras.
ANOVA:
• Los niveles de las variables predictoras son tratados como poblaciones separadas, cada una conduciendo a una
distribución de probabilidad diferenciada por su media.
Métodos Estadísticos II Prof. Nelfi González – Escuela de Estadística
11
• Las diferencias cuantitativas entre niveles de un factor y sus relaciones estadísticas con los valores separados de la
variable respuesta no son consideradas.

ELECCIÓN ENTRE ANOVA Y REGRESIÓN
• Si las variables explicatorias son cualitativas, trabajar con variables indicadoras en la regresión o usar modelos ANOVA.
Ambos métodos llevan a los mismos resultados, sin embargo, el ANOVA simplifica computación; de cualquier modo no
es fundamental elegir entre regresión y un modelo ANOVA.
• Si variables predictoras son cuantitativas, elegir entre los dos tipos de modelación. Se puede reconocer explícitamente
la naturaleza cuantitativa de las variables predictoras con un modelo de regresión. Otra posibilidad es establecer clases
o rangos para cada variables cuantitativa y emplear bien sea variables indicadoras en un modelo de regresión o un
modelo ANOVA.La estrategia de establecer clases para las variables predictoras cuantitativas es algunas veces usada
en estudios a gran escala como un medio para obtener un ajuste de regresión no paramétrica cuando hay duda
sustancial acerca de la naturaleza de la relación estadística. En este caso también el análisis de regresión y los modelos
ANOVA conducen al mismo resultado.Los modelos de análisis de varianza son aplicados cuando es de interés estudiar
los efectos de una o más variables predictoras sobre una variables respuesta. Las variables predictoras son
denominadas factores o tratamientos.

USOS DEL ANOVA
Básicamente para analizar los efectos de las variables explicatorias bajo estudio sobre la variable respuesta.Específicamente,
los estudios de un sólo factor son utilizados para comparar los efectos de diferentes niveles del factor, para determinar “el
mejor nivel del factor”,En los estudios multifactoriales, los modelos ANOVA se usan para determinar si los diferentes factores
interactúan, cuáles factores son claves, cuáles combinaciones de los factores son “las mejores”, etc.

MODELO LINEAL DE LA VARIABLE RESPUESTA
• Cada respuesta medible, está representada matemáticamente en un modelo lineal.
• La idea general de un modelo es expresar las observaciones generalmente denotadas por Y, en términos de “efectos”
que contribuyen a Y.
• Esos efectos se pueden clasificar en tres categorías:
o Efectos de Tratamiento,
o Efectos de Diseño y
o Efectos de Error.
Métodos Estadísticos II Prof. Nelfi González – Escuela de Estadística
12
Los efectos de tratamientos, son un reflejo del efecto de diseño como también de los tratamientos simples o combinaciones
de factores.
Los efectos de diseño, son determinados por el diseño de control de error, en particular, efectos debidos a las varias clases
de bloqueo.
Los efectos de error, representan diferentes clases de variación aleatoria. Estos son: (1) el error experimental y (2) el error
observacional.

EXPERIMENTOS CON UN SOLO FACTOR
Comprende experimentos que se usan cuando el objetivo es comparar más de dos tratamientos pero que corresponden a
niveles de un mismo factor:
• Comparar dos o tres máquinas
• Comparar varios procesos para la obtención de un producto o resultado dado
• Comparar varios materiales,
• Comparar varias dietas
• Etc.
Con el fin de tomar una decisión en la solución de un problema real.
Por lo general las comparaciones se hacen en términos de las medias poblacionales, aunque también es importante la
comparación de varianzas y capacidad actual para cumplir ciertas especificaciones.

Las estructuras de diseños pueden ser en este caso:
Diseño
Factores
de bloque
Técnicas
estadísticas
Modelo
estadístico
Completamente
al aleatorizado
0
ANOVA, con un solo criterio de
clasificación
ij i ij
Y µ o c = + +
En bloques completos
aleatorizados
1
ANOVA con dos criterios de
clasificación
ij i j ij
Y µ o | c = + + +
En cuadrado latino 2
ANOVA con tres criterios de
clasificación
ijk i j k ijk
Y µ o | ¸ c = + + + +
En cuadrado grecolatino 3
ANOVA con cuatro criterios de
clasificación
ijkl i j k l ijkl
Y µ o | ¸ o c = + + + + +
Notación: Y es la variable respuesta; µ la media global;
i
o el efecto del i-ésimo tratamiento;
j
| ,
k
¸ , y
l
o , efectos de
bloques y c es el error aleatorio.
Métodos Estadísticos II Prof. Nelfi González – Escuela de Estadística
13
DISEÑO COMPLETAMENTE ALEATORIZADO
Es el más simple de todos los diseños, pues contempla sólo dos fuentes de variabilidad: los tratamientos y el error aleatorio.
Se denominan completamente aleatorizados porque las corridas experimentales se realizan en orden aleatorio completo, dado
que no hay restricciones impuestas por factores de bloqueo.

MODELO PARA UN DISEÑO COMPLETAMENTE ALEATORIZADO, UN FACTOR EFECTOS FIJOS
ij i ij
Y µ c = + (1)
Yij = Variable aleatoria que representa la respuesta de la j-sima unidad experimental asignada al i-ésimo tratamiento, i=1, 2, ...,
a y j=1, 2, ..., ni. µi = Respuesta esperada al i-ésimo tratamiento si se ésta es observada bajo condiciones experimentales
idénticas y medida sin error. cij = El error aleatorio.

Una forma alternativa del modelo es reemplazar a µi por µ+oi, de modo que
ij i ij
Y µ o c = + + (2)
Donde µ denota la respuesta global promedio y oi es la desviación o el efecto del i-ésimo tratamiento sobre el promedio
global. Por tanto el examen de diferencias entre las medias de tratamiento µi, es equivalente a examinar las diferencias entre
los efectos oi, bajo la restricción lineal
1
0
a
i i
i
no oo o
= == =
= == =
¿ ¿¿ ¿
, para una solución única del sistema de ecuaciones de mínimos
cuadrados

(1) es conocido como modelo de medias de tratamientos, en tanto que (2) es conocido como modelo de efectos de
tratamientos. En cualquiera de los dos modelos (1) y (2), se establecen lo siguientes supuestos: Los errores son variables
aleatorias que se distribuyen: Normales, Independientes, De media cero y Varianza constante o
2
. Los parámetros del modelo
a estimar son las constantes µ, µi, oi y o
2
.
Métodos Estadísticos II Prof. Nelfi González – Escuela de Estadística
14
ANOVA PARA EL DISEÑO COMPLETAMENTE ALEATORIZADO (DCA)
TABLA DE ENTRADA DE DATOS
NIVELES FACTOR A
A1 A2 ... Aa
Y11 Y21 ... Ya1
Y12 Y22 ... Ya2
.
.
.
.
.
.
.
.
.
.
.
. D
A
T
O
S
R
E
S
P
U
E
S
T
A
Y1n
1
Y2n
2
... Yan
2
totales Y1. Y2. Ya.
Donde:
1
i
n
i ij
i
Y Y

=
=
¿
Suma de las observaciones en el nivel o tratamiento i.
1 1
i
n a
ij
i j
Y Y
••
= =
=
¿ ¿
Suma o total de todas las N observaciones en el experimento
Con estas cantidades se obtiene los siguientes estimadores (ver ANEXO 2: Funciones estimables de los parámetros):
1
1
ˆ
a
i
i
Y
Y Y
N N
µ
••
•• •
=
= = =
¿
,
ˆ
i
i i
i
Y
Y
n
µ


= = ,
ˆ
i i
Y Y o
• ••
= ÷ .
Es fácil ver que las respuestas ajustadas para el tratamiento i es
ˆ
ij i
Y Y

= . Por tanto los residuales del modelo
corresponden a
ˆ
ij ij i
Y Y c

= ÷
Las sumas de cuadrados del modelo ANOVA SST=SSA+SSE, son:

Figura 1:
Métodos Estadísticos II Prof. Nelfi González – Escuela de Estadística
15
( )
2
2 2
1 1 1 1
i i
n n a a
ij ij i
i j i j
SST Y Y Y NY
•• •
= = = =
= ÷ = ÷
¿ ¿ ¿ ¿
, o variabilidad total observada en la respuesta, con 1 N ÷ ÷÷ ÷ grados
de libertad.
( )
2
2 2
1 1 1
i
n a a
i i i i
i j i
SSA Y Y nY NY
• •• • •
= = =
= ÷ = ÷
¿ ¿ ¿
, o variabilidad en la respuesta explicada por el factor A, con 1 a ÷ ÷÷ ÷
grados de libertad.
( )
2
1 1
i
n a
ij i
i j
SSE Y Y SST SSA

= =
= ÷ = ÷
¿ ¿
, o variabilidad en la respuesta explicada por la aleatoriedad, N a ÷ ÷÷ ÷ con
grados de libertad.

La prueba hipótesis fundamental asociada al ANOVA, es la siguiente:
0 1 2 1
: vs. : algún para
a i j
H H µ µ µ µ µ = = = = , o equivalentemente,
0 1 2 1
0 0 : vs. : algún
a i
H H o o o o = = = = =
Si F0 es grande, se rechaza la hipótesis nula, en tanto que si es pequeño, no se tiene suficiente evidencia en contra de H0.
ANOVA
Fuente de
variación g.l
Suma de
cuadrados
Cuadrados
Medios
Valores esperados
Cuadrados
medios F0 Valor P
Factor a-1 SSA MSA=SSA/(a-1)
2
2 1
1
a
i i
i
n
a
o
o
=
¿
+
÷
MSA/MSE
( )
1 0 , a N a
P f F
÷ ÷
>
Error N-a SSE MSE=SSE/(N-a)
2
o
Total N-1 SST
DISTRIBUCIONES MUESTRALES DE LOS ESTIMADORES
Puede demostrarse que
2
, Y N
N
o
µ
••
| |
|
\ .
,
2
,
i i
i
Y N
n
o
µ

| |
|
\ .
, y que
2
1 1
0
ˆ
,
i
i
N
n N
o o
| |
(
÷
|
(
|
¸ ¸
\ .

Por tanto, los correspondientes errores estándar e intervalos de confianza están dados por:

Métodos Estadísticos II Prof. Nelfi González – Escuela de Estadística
16
Estimador Error estándar I.C del (1-¸ ¸¸ ¸)100%
Y
•• •• •• ••
Y
MSE
S
N
•• •• •• ••
= == =
2 / ,N a Y
Y t S
¸ ¸¸ ¸
µ µµ µ
•• •• •• ••
•• ÷ •• ÷ •• ÷ •• ÷
e ± × e ± × e ± × e ± ×
i
Y
• •• •
i
Y
i
MSE
S
n
• •• •
= == =
2 / ,
i
i i N a Y
Y t S
¸ ¸¸ ¸
µ µµ µ
• •• •
• ÷ • ÷ • ÷ • ÷
e ± × e ± × e ± × e ± ×
ˆ
i
o
1 1
ˆ
i
i
S MSE
n N
o
| |
= ÷
|
\ .
2 ˆ / ,
ˆ
i
i i N a
t S
¸ o ¸ o ¸ o ¸ o
o o o o o o o o
÷ ÷÷ ÷
e ± × e ± × e ± × e ± ×
VALIDACIÓN DE SUPUESTOS DEL MODELO ANOVA
Para cada supuesto sobre los errores del modelo existen pruebas analíticas y gráficas, éstas últimas aunque no son exactas,
funcionan relativamente bien con pocos datos, y se requiere que una fuerte evidencia visual en contra de un supuesto esté
soportada por más de dos puntos para concluir que no se cumple. Cuando sólo un par de puntos se alejan del
comportamiento esperado en una gráfica de diagnóstico, esto puede tratarse como un problema de datos atípicos.

Supuesto Hipótesis test Gráfico
Normalidad
0
1
: Normal vs.
: no son Normales
ij
ij
H
H
c
c

Shapiro Wilk Gráfico de probabilidad normal sobre
residuales, o residuales estandarizados
Varianza
Constante
2 2 2
0 1 2
2 2
1
: vs.
: algún par
a
i j
H
H
o o o
o o
= = =
=

Bartlet,
Cochran,
Leven
Gráfico de residuales vs. valores
ajustado, residuales vs. niveles del factor
Independencia
( )
( )
0
1
0
0
´ ´
´ ´
: , ´
: , para algún ´
ij i j
ij i j
H corr j j
H corr j j
c c
c c
= ¬ =
= =
Durbin –
Watson
Lung-Box
Gráfico de residuales (comunes o
estandarizados) vs. orden de corrida
Adicionalmente, se chequean:
• La forma del modelo (ajuste del modelo), es decir, si realmente las respuestas medias de los tratamientos son
adecuadamente descritos por el modelo lineal postulado
i i
µ µ o = + mediante el gráfico de residuales
estandarizados vs. niveles del factor. Patrones no aleatorios alrededor de la línea cero de este gráfico son indicios de
carencia de ajuste.
• Outliers, mediante gráfico de residuales estandarizados vs. niveles del factor; si tolas presunciones del modelo se
cumplen incluyendo la normalidad, aproximadamente el 68% de los residuales estandarizados deberían estar entre –1 y
Métodos Estadísticos II Prof. Nelfi González – Escuela de Estadística
17
+1, aproximadamente el 95% entre –2 y +2, y aproximadamente 99.7% entre –3 y +3. Si hay muchos outliers, los
niveles de confianza son más bajos de los esperados.

NOTAS:
• El supuesto de independencia debe verificarse antes de los otros supuestos. La no independencia en los errores puede
ser causada por la similaridad de las unidades experimentales cercanamente juntas en el tiempo o espacio. La no
independencia causa que los verdaderos niveles de significancia de las pruebas de hipótesis sean mucho más altas
que las establecidas y que los niveles de confianza y las potencias de las pruebas sean más bajas que lo esperado.
• Las pruebas formales sobre igualdad de varianzas (ver en ANEXO 3, test de Bartlett) tienden a ser poco potentes con
pocas réplicas por nivel y muy sensibles a no normalidad. Una regla de dedo que usualmente se aplica es que el
estadístico F de la ANOVA y los métodos de comparaciones múltiples de medias son apropiadas, si se ha probado que
la razón de la estimación de la varianza más grande a la varianza más pequeña de los a tratamientos es no es mayor de
tres (3); sin embargo hay que ser cuidadosos con esta regla porque aún cuando las presunciones del modelo son
correctas tal razón de varianzas puede dar mayor que 3.
• La violación del supuesto de varianza constante es preocupante en particular cuándo los diseños son desbalanceados
(número de réplicas no son iguales). Si el nivel con mayor varianza es el menos replicado, entonces los procedimientos
estadísticos son más liberales y se tiene mayor probabilidad de cometer error tipo I, y menores niveles de confianza que
los esperados. Por el contrario, si el tratamiento o nivel de mayor varianza es el más replicado, entonces los
procedimientos estadísticos son más conservadores, es decir, niveles de significancia son más bajos y niveles de
confianza más altos de los esperados. En general se recomienda trabajar con diseños balanceados.
• Pequeñas desviaciones de la normalidad no afectan fuertemente a los niveles de significancia, niveles de confianza o la
potencia. Con diseños balanceados el caso de mayor preocupación es cuando la distribución tiene colas más pesadas
que la normal, y en ese caso deberían usarse métodos de análisis de varianza no paramétricos (ej. Kruskall – Wallis).

Soluciones al problema de varianza no constante:
• transformaciones de la variable respuesta para estabilizar varianza
• Análisis con varianzas de error desiguales

Soluciones al problema de no normalidad:
• Métodos no paramétricos
• Transformar la variable respuesta, tal como la transformación logarítmica. Aunque a veces transformar puede originar
problemas de varianza no constante que no existía con los datos originales.
Métodos Estadísticos II Prof. Nelfi González – Escuela de Estadística
18
• Si la varianza no es constante, hay suficientes datos por nivel del factor, analizar la normalidad por separado en cada
nivel.

Soluciones al problema de no independencia: La no independencia es difícil de corregir; si hay una clara tendencia en el
gráfico de residuales tal como una línea recta, es posible incorporar al modelo términos que representen el efecto temporal o
espacial. Por ejemplo, con una tendencia lineal en el tiempo, el modelo adecuado sería
( )
2
0
,
,
iid
ij i ij ij ij
Y t N µ o ì c c o = + + + y
ij
t es el tiempo en el cual la observación j del tratamiento i fue tomada.
Este modelo es uno denominado de análisis de covarianza.
Problema 1: Un administrador compiló datos sobre mejoramientos de la productividad en los últimos tres años para una
muestra de firmas productoras de equipos de computación. Las firmas fueron clasificadas de acuerdo a nivel de sus gastos en
investigación y desarrollo en los pasados tres años, en bajo, moderado y alto. Los resultados del estudio sobre la mejora de la
productividad (mprod, medida en una escala de 0 a 100) se presentan en la tabla anexa. Asumiendo que un modelo de efectos
fijos es apropiado:
obs
ID 1 2 3 4 5 6 7 8 9 10 11 12
alto 8.5 9.7 10.1 7.8 9.6 9.5
bajo 7.6 8.2 6.8 5.8 6.9 6.6 6.3 7.7 6.0
medio 6.7 8.1 9.4 8.6 7.8 7.7 8.9 7.9 8.3 8.7 7.1 8.4
a) Plantee un modelo estadístico apropiado para el ANOVA. Identifique sus términos y los supuestos necesarios.
b) Haga un análisis descriptivo de los datos. ¿Qué puede concluir de estos en cuanto al promedio de mejoramiento de la
productividad? ¿La variabilidad dentro de cada nivel del gasto en investigación y desarrollo puede considerarse o no
aproximadamente constante?
c) Calcule la tabla ANOVA, la tabla de parámetros estimados para los datos y la tabla de medias. Analice los resultados
y pruebe a un nivel de significancia de 0.05, si la media de mejoramiento de la productividad difiere según el nivel de gastos en
investigación y desarrollo. NOTA: Tenga en cuenta en sus cálculos que este problema es un caso de diseño desbalanceado
d) Dé una expresión general para el cálculo de los residuales. Analice los gráficos de residuales y úselos para validar los
supuestos del modelo. Así mismo use los resultados de la prueba de bartlett.
e) Calcule intervalos de confianza del 95% para la mejora media de productividad para cada nivel de gasto en inversión y
desarrollo.
c) Estime los efectos de cada nivel del factor y sus respectivos errores estándar, y pruebe la significancia de cada uno:
1. usando para cada prueba un nivel de significancia de 0.05
2. Controlando la tasa de error experimental a un nivel de 0.05 para las tres pruebas
Métodos Estadísticos II Prof. Nelfi González – Escuela de Estadística
19
NOTA: En los casos donde aplique exprese apropiadamente la prueba de hipótesis, el estadístico de prueba, el criterio de
rechazo.

/*LECTURA DE DATOS EN S /*LECTURA DE DATOS EN S /*LECTURA DE DATOS EN S /*LECTURA DE DATOS EN SAS:*/ AS:*/ AS:*/ AS:*/
options nodate nocenter nonumber;
goptions colors=(black,black,black) cback=white ftext=simplex ftitle=simplex htitle=1.0 htext=0.9;
data productividad;
do i=1 to 6;
id='alto';
output;
end;
do i=7 to 15;
id='bajo';
output;
end;
do i=16 to 27;
id='medi';
output;
end;
run;
data productividad(drop=i);
set productividad;
input mprod @@;
cards;
8.5 9.7 10.1 7.8 9.6 9.5 7.6 8.2 6.8 5.8 6.9 6.6 6.3 7.7
6.0 6.7 8.1 9.4 8.6 7.8 7.7 8.9 7.9 8.3 8.7 7.1 8.4
;
run;
/*GRAFICACIÓN DE LOS DATOS POR NIVEL DEL FACTOR /*GRAFICACIÓN DE LOS DATOS POR NIVEL DEL FACTOR /*GRAFICACIÓN DE LOS DATOS POR NIVEL DEL FACTOR /*GRAFICACIÓN DE LOS DATOS POR NIVEL DEL FACTOR*/ */ */ */
proc sort data=productividad;
by id;
run;
TITLE1'Boxplot comparativo';
TITLE2'Indice de productividad por nivel gasto en I.D';
proc boxplot data=productividad;
plot mprod*id/BOXCONNECT=MEAN CCONNECT=RED NOSERIFS CBOXES=black CBOXFILL=YELLOW CFRAME=CXF7E1C2;
run;quit;
TITLE1'Grafico de comparacion de medias';
TITLE2'Indice de productividad por nivel gasto en I.D';
proc gplot data=productividad;
plot mprod*id/frame;
symbol1 i=stdj v=dot c=black;
run;quit;

Los dos gráficos obtenidos son como se presentan a continuación:
La forma de leer los datos depende de la
estructura de estos y si el ingreso es por
teclado o si se leerán desde un archivo
externo.
Métodos Estadísticos II Prof. Nelfi González – Escuela de Estadística
20
/*ANÁLISIS DE VARIANZA TEST DE BARTLETT, ESTIMACIONES E I.C PARA MEDIAS Y EFECTOS:*/ /*ANÁLISIS DE VARIANZA TEST DE BARTLETT, ESTIMACIONES E I.C PARA MEDIAS Y EFECTOS:*/ /*ANÁLISIS DE VARIANZA TEST DE BARTLETT, ESTIMACIONES E I.C PARA MEDIAS Y EFECTOS:*/ /*ANÁLISIS DE VARIANZA TEST DE BARTLETT, ESTIMACIONES E I.C PARA MEDIAS Y EFECTOS:*/
proc glm data=productividad;
class id;
model mprod=id/ss1 clparm; /*obtiene tabla ANOVA*/
means id/clm T hovtest=bartlett;
estimate 'efecto id alto' id 2 -1 -1/divisor=3;
estimate 'efecto id bajo' id -1 2 -1/divisor=3;
estimate 'efecto id medio' id -1 -1 2/divisor=3;
output out=sal p=yhat r=res;run;quit;

Lo anterior produce las siguientes salidas SAS:

The GLM Procedure
Class Level Information
Class Levels Values
id 3 alto bajo medi
Number of observations 27
Dependent Variable: mprod
Sum of
Source DF Squares Mean Square F Value Pr > F
Model 2 20.12518519 10.06259259 15.72 <.0001
Error 24 15.36222222 0.64009259
Corrected Total 26 35.48740741
R-Square Coeff Var Root MSE mprod Mean
0.567108 10.06128 0.800058 7.951852

Source DF Type I SS Mean Square F Value Pr > F
id 2 20.12518519 10.06259259 15.72 <.0001

Bartlett's Test for Homogeneity of mprod Variance
Source DF Chi-Square Pr > ChiSq
id 2 0.1294 0.9374

t Confidence Intervals for mprod
Alpha 0.05
Error Degrees of Freedom 24
Error Mean Square 0.640093
Critical Value of t 2.06390

95% Confidence
id N Mean Limits
alto 6 9.2000 8.5259 9.8741
medi 12 8.1333 7.6567 8.6100
bajo 9 6.8778 6.3274 7.4282

Estimación de efectos: Los
coeficientes usados se obtienen de la
expresión de cada uno de ellos como
un contraste de las medias de niveles
del factor
Métodos Estadísticos II Prof. Nelfi González – Escuela de Estadística
21
Dependent Variable: mprod
Standard
Parameter Estimate Error t Value Pr > |t|
efecto id alto 1.12962963 0.24747409 4.56 0.0001
efecto id bajo -1.19259259 0.22223830 -5.37 <.0001
efecto id medio 0.06296296 0.20847800 0.30 0.7652

Parameter 95% Confidence Limits
efecto id alto 0.61886820 1.64039106
efecto id bajo -1.65126989 -0.73391529
efecto id medio -0.36731449 0.49324041
/*GRÁFICOS PARA ANÁLISIS DE RESIDUALES*/ /*GRÁFICOS PARA ANÁLISIS DE RESIDUALES*/ /*GRÁFICOS PARA ANÁLISIS DE RESIDUALES*/ /*GRÁFICOS PARA ANÁLISIS DE RESIDUALES*/
TITLE1'Graficos de residuales';
proc gplot data=sal;
plot res*(yhat id)/vref=0;
run;
quit;
TITLE1'Graficos QQ normal residuales';
proc univariate data=sal noprint normaltest;
var res;
probplot res;
inset normaltest probn;run;quit;

Y los gráficos resultantes son:
Métodos Estadísticos II Prof. Nelfi González – Escuela de Estadística
22
INFERENCIAS PARA MEDIAS DE TRATAMIENTOS ANOVA UN FACTOR, DCA
Luego de un ANOVA donde se rechazó la hipótesis nula asociada, es necesario determinar cuáles tratamientos son
estadísticamente distintos. Para ello, se recurre a diferentes técnicas de comparación de medias de tratamiento:
• Comparaciones entre pares de medias
• Comparaciones múltiples o pruebas de rango múltiple.
• Comparaciones por contrastes
• Comparaciones de tratamientos con un control

Veremos los tres primeros casos:

COMPARACIONES DE PARES DE MEDIAS DE TRATAMIENTOS – MÉTODO LSD
Para un par dado de medias de tratamientos, las comparaciones pueden realizarse probando la igualdad de tales medias o
construyendo el I.C para la diferencia. En particular, se podrían realizar todas las a(a-1)/2 comparaciones entre pares de
medias. Un método sencillo es el método LSD (mínima diferencia significativa), en la cual se tiene (para i=j):

0 1
: vs. :
i j i j
H H µ µ µ µ = = .
El estadístico de prueba, bajo los supuestos del modelo lineal ANOVA un factor efectos fijos es:
i j
D Y Y
• •
= ÷ el cual se
compara con la LSD (mínima diferencia significativa) a un nivel de significancia ¸, dada por
2
1 1
/ , N a
i j
LSD t MSE
n n
¸ ÷
| |
= +
|
|
\ .
. Se rechaza H0 si D>LSD.

Ej. Suponga que en un DCA se compararon los tiempos de cuatro métodos de ensamble A, B, C, y D, usando cuatro réplicas
con cada método. El ANOVA arrojo los siguientes resultados en donde visiblemente la hipótesis de igualdad de todos los
tiempos promedios de ensamble de las cuatro métodos es rechazada al 5% de significancia:

Las medias muestrales por tratamiento, fueron respectivamente 7.25, 8.50,
12.75, y 10.50 y la media global de 9.75. todas las ni=4. A continuación se
presentan las comparaciones por pares de medias, a un nivel de significancia
de 0.05, donde LSD=2.42:

FUENTE SC g.l CM F0 VALOR P
Métodos 69.5 3 23.17 9.42 0.0018
Error 29.5 12 2.46
Total 99.0 15
Métodos Estadísticos II Prof. Nelfi González – Escuela de Estadística
23
Con este procedimiento se concluye que los las medias de tratamientos
estadísticamente iguales pueden agruparse así:
GRUPO 1: µA = µB
GRUPO 2: µB = µD
GRUPO 3: µC = µD
Como puede observarse hay traslape entre estos grupos. Sin embargo este
método no es potente porque no controla la tasa de error experimental de
todas las comparaciones. Dicha tasa es definida como la probabilidad de
cometer error tipo I en al menos una de las a(a-1)/2 comparaciones entre
pares.
Existen otros métodos de comparación múltiple más potentes para detectar diferencias no nulas entre pares de medias, que
controlan la tasa de error experimental conocidos como comparaciones múltiples o pruebas de rango múltiple , entre ellos
el método de Tukey.

MÉTODO DE TUKEY PARA COMPARAR TODOS LOS PARES, O RANGO ESTUDENTIZADO DE TUKEY
Es un método de comparación de pares de medias más conservador que el anterior (menos potente para detectar pequeñas
diferencias) pero que sí controla la tasa de error experimental; sin embargo proporciona intervalos de confianza para
diferencias por pares más cortos que los arrojados por métodos de Bonferroni y Scheffé (los cuales no se estudian aquí) y
puede usarse en diseños de bloques completos aleatorizados y diseños de bloques incompletos balanceados. Para un diseño
DCA de un solo factor efectos fijos las diferencias absolutas de pares de medias se comparan a un nivel de significancia ¸ con
el valor crítico:
1 1 1
2
( , . )
i j
T q a g l MSE
n n
¸ ¸
| |
= +
|
|
\ .
Donde ( , . ) q a g l
¸
es el valor crítico del rango estudentizado los cuales se hayan tabulados, y gl los grados de libertad del
MSE. Los pares de medias de tratamientos µi y µj difieren significativamente cuando: | |
i i
D Y Y T
¸ • •
= ÷ > . También puede
construirse los I.C de Tukey para las diferencias de medias. Si el cero no pertenece a tal intervalo entonces las dos medias
correspondientes son estadísticamente distintas:
( )
1 1 1
2
( , . )
i j i j
i j
Y Y q a g l MSE
n n
¸
µ µ
• •
| |
| |
|
÷ e ÷ ± +
|
|
|
\ .
\ .
Diferencia
Poblacional
Diferencia
muestral
absoluta
Decisión
µA - µB
1.25<2.42 Iguales
µA - µC
5.50>2.42 Diferentes
µA - µD
3.25>2.42 Diferentes
µB - µC
4.25>2.42 Diferentes
µB - µD
2.00<2.42 Iguales
µC - µD
2.25<2.42 Iguales
Métodos Estadísticos II Prof. Nelfi González – Escuela de Estadística
24
Ej. De nuevo considere el caso de comparación de los cuatro métodos de ensamble: La mínima diferencia significativa es
0 05 0 05
1 2
4 12 4 20 0 78 3 28
4
2
. .
( , ) . . . T q MSE
| |
= = × =
|
\ .

Con este procedimiento se concluye que los las medias de tratamientos
estadísticamente iguales pueden agruparse así:
GRUPO 1: µA = µB = µD
GRUPO 2: µC = µD
Como puede observarse hay un traslape entre estos dos grupos.

COMPARACIONES MEDIANTE CONTRASTES
Un contraste es una combinación lineal de parámetros del mismo tipo, por ejemplo,
• contraste de medias de tratamientos
1
a
i i
i
W c µ
=
=
¿
,
• contraste de efectos de tratamientos
1
a
i i
i
V bo
=
=
¿
,
donde
1
0
a
i
i
c
=
=
¿
y
1
0
a
i
i
b
=
=
¿
, respectivamente.
Muchas veces, el interés en la experimentación es obtener información para probar alguna hipótesis relativa a un contraste
dado. Para hacer inferencias sobre un contraste de medias nos basamos en la distribución muestral del contraste estimado,
bajo las suposiciones del DCA:

2
2
1 1 1
ˆ
~ ,
a a a
i i i i i
i
i i i
W c Y N c c
n
o
µ

= = =
| |
=
|
|
\ .
¿ ¿ ¿
(3)

Pruebas de hipótesis sobre un contraste: Bajo los supuestos del DCA, el estadístico de prueba para los test relativos a
contrastes de medias de tratamientos, es:
Diferencia
Poblacional
Diferencia
muestral
absoluta
Decisión
µA - µB
1.25<3.28 Iguales
µA - µC
5.50>3.28 Diferentes
µA - µD
3.25<3.28 Iguales
µB - µC
4.25>3.28 Diferentes
µB - µD
2.00<3.28 Iguales
µC - µD
2.25<3.28 Iguales
Métodos Estadísticos II Prof. Nelfi González – Escuela de Estadística
25
0
0
2
1
ˆ
~
N a
a
i
i
i
W W
T t
c
MSE
n
÷
=
÷
=
¿
(4)

En particular, el test de significancia de un contraste, es decir cuando H0: W=0
vs. H1: W=0, también puede realizarse a través de un ANOVA, determinando la
suma de cuadrados del contraste SSW:
2
2
1
ˆ
/
W
a
i i
i
W
SS
c n
=
=
| |
|
|
\ .
¿
que tiene un grado de libertad, y construyendo el estadístico F para la prueba como la razón de SSW sobre el MSE del modelo.
Es decir:

0
0 1,
/ ~
H
W N a
F SS MSE f
÷
= . H0 es rechazada si
0 1 , . N a
F f
¸ ÷
> o bien si
( )
1 0 , N a
VP P f F ¸
÷
= > < , ¸ el nivel
de significancia usado.

Ejemplo: Un experimento fue llevado a cabo para determinar el desempeño relativo de siete filtros de membrana para
soportar el crecimiento de colonias de bacterias. Los siete tipos de filtros son considerados como los siete niveles del factor y
son codificados de 1 a 7. Los tipos de filtros 1, 4 y 7 fueron recibidos preesterilizados. Se recolectaron datos sobre los
conteos de las colonias de coliformes fecales de una muestra de agua de río que crecieron en cada filtro. Tres filtros de cada
tipo fueron observados y los conteos promedios por colonia fueron:
1 2 3 4 5 6 7
36 0 18 0 27 7 28 0 28 3 37 7 30 3 . , . , . , . , . , . , . Y Y Y Y Y Y Y
• • • • • • •
= = = = = = = ; el MSE=21.6. Suponga que se desea
probar la hipótesis de que los filtros preesterilizados no difieren de los no preesterilizados en términos de los conteos promedio
de colonias, contra la hipótesis alternativa bilateral de que sí difieren. La hipótesis de interés involucra un contraste de medias
dado por ( ) ( )
1 4 7 2 3 5 6
1 1
3 4
W µ µ µ µ µ µ µ = + + ÷ + + + , de donde 3 508
ˆ
. W = y SSW=(3.508)
2
/(7/12). La hipótesis a probar
es H0: W=0, vs. H1; W=0, y el estadístico de prueba F0=SSW/MSE=2.931; el valor crítico al 0.05 de significancia es
F.05,1,14,=4.6. Luego no se obtuvo evidencia suficiente en contra de H0, y se concluye que los filtros preesterilizados no difieren
significativamente de los que no se preesterilizaron. Un intervalo de confianza del 95% para el contraste dado es
( )
0 025 14
3 508 21 6 7 36 0 888 7 904
. ,
. . / . , . t ± × = ÷ .
Tests Rechazar H0 si VP
H0: W=W0
H1: W=W0
|T0|>t
¸/2,N-a
P(|t,N-a|>|T0|)
H0: W=W0
H1: W>W0
T0> t
¸,N-a P(t,N-a>T0)
H0: W=W0
H1: W<W0
T0<- t
¸,N-a P(t,N-a<T0)
Métodos Estadísticos II Prof. Nelfi González – Escuela de Estadística
26
Problema 2: Se llevó a cabo un experimento para probar los efectos de un fertilizante nitrogenado en la producción de
lechuga. Se aplicaron cinco dosis diferentes de nitrato de amonio a cuatro parcelas (las réplicas) en un diseño totalmente
aleatorizado. Los datos son el número de lechugas cosechadas de las parcelas.
Tratamiento
(lb N/acre)
0 104 114 90 140
50 134 130 144 174
100 146 142 152 156
150 147 160 160 163
200 131 148 154 163
lechuga/parcelas
a) Especifique la estructura de tratamiento y de diseño empleado en este experimento Escriba el modelo ANOVA
apropiado con sus supuestos y restricciones.
b) Realice un análisis descriptivo de los datos experimentales establezca conclusiones preliminares sobre los
posibles efectos en la producción promedio de los diferentes niveles de aplicación de nitrato.
c) Realice el test de hipótesis asociado al modelo ANOVA, interprete a la luz del problema.
d) Si el factor de tratamientos es significativo, agrupe las medias de producción según nivel de nitrato y pruebe si
“aplicar nitrato produce una producción promedio diferente respecto a no aplicar nitrato”. También pruebe si
“aplicar nitrato eleva la producción promedio respecto a no aplicar nitrato”.
e) Valide los supuestos del modelo ANOVA de este experimento. Analice el gráfico de residuos.

A continuación, un programa SAS para el ANOVA, la obtención de los I.C de TUKEY, y LSD, la prueba de homogeneidad de
varianza de Bartlett, las estimaciones de los efectos principales y sus intervalos de confianza, la estimación y el test de
significancia de un contraste, la obtención de residuales, los tests de normalidad y loas gráficas de residuales
options ps=60 ls=80 nodate nonumber nocenter;
goptions colors=(black,black,black) cback=white
ftext=simplex ftitle=simplex htitle=1.0 htext=0.9;
/*ENTRAD /*ENTRAD /*ENTRAD /*ENTRADA DE DATOS DE LA TABLA */ A DE DATOS DE LA TABLA */ A DE DATOS DE LA TABLA */ A DE DATOS DE LA TABLA */
data lechuga;
do nitrato=0 to 200 by 50;
do ob=1 to 4;
input nlechug @;
output;
end;
end;
cards;
104 114 90 140
134 130 144 174
146 142 152 156
147 160 160 163
131 148 154 163
;
run;

Métodos Estadísticos II Prof. Nelfi González – Escuela de Estadística
27
/*OBTENCIÓN DE BOXPLOT COMPARATIVOS PARA LOS /*OBTENCIÓN DE BOXPLOT COMPARATIVOS PARA LOS /*OBTENCIÓN DE BOXPLOT COMPARATIVOS PARA LOS /*OBTENCIÓN DE BOXPLOT COMPARATIVOS PARA LOS DATOS EXPERIMENTALES*/ DATOS EXPERIMENTALES*/ DATOS EXPERIMENTALES*/ DATOS EXPERIMENTALES*/
PROC SORT DATA=lechuga;
BY nitrato;
RUN;
TITLE1'BOXPLOTS PRODUCCION DE LECHUGA';
TITLE2'COMPARACION POR NIVEL DE NITRATO';
PROC BOXPLOT DATA=lechuga;
PLOT nlechug*nitrato/BOXCONNECT=MEAN CCONNECT=RED CBOXES=black CBOXFILL=YELLOW CFRAME=CXF7E1C2;
run;quit;
/*REALIZACIÓN DEL ANÁLISIS DE VARIANZA, OBTENCIÓN DE I.C PARA DIEFERENCIAS DE MEDIAS, TEST DE BARTLETT, ESTIMACIÓN /*REALIZACIÓN DEL ANÁLISIS DE VARIANZA, OBTENCIÓN DE I.C PARA DIEFERENCIAS DE MEDIAS, TEST DE BARTLETT, ESTIMACIÓN /*REALIZACIÓN DEL ANÁLISIS DE VARIANZA, OBTENCIÓN DE I.C PARA DIEFERENCIAS DE MEDIAS, TEST DE BARTLETT, ESTIMACIÓN /*REALIZACIÓN DEL ANÁLISIS DE VARIANZA, OBTENCIÓN DE I.C PARA DIEFERENCIAS DE MEDIAS, TEST DE BARTLETT, ESTIMACIÓN
DE EFECTOS Y CONTRASTE DE INTERÉS*/ DE EFECTOS Y CONTRASTE DE INTERÉS*/ DE EFECTOS Y CONTRASTE DE INTERÉS*/ DE EFECTOS Y CONTRASTE DE INTERÉS*/
proc glm data=lechuga alpha=0.05;
class nitrato;
model nlechug=nitrato/SS1 CLPARM;
means nitrato/CLDIFF TUKEY LSD HOVTEST=BARTLETT;
contrast 'con nitrato vs. sin nitrato' nitrato -4 1 1 1 1;
estimate 'con nitrato vs. sin nitrato' nitrato -4 1 1 1 1/divisor=4;
estimate 'efecto nitrato0' nitrato 4 -1 -1 -1 -1/divisor=5;
estimate 'efecto nitrato50' nitrato -1 4 -1 -1 -1/divisor=5;
estimate 'efecto nitrato100' nitrato -1 -1 4 -1 -1/divisor=5;
estimate 'efecto nitrato150' nitrato -1 -1 -1 4 -1/divisor=5;
estimate 'efecto nitrato200' nitrato -1 -1 -1 -1 4/divisor=5;
output out=sal r=res p=pred;
run;quit;
/*OBTENCIÓN DE PRUEBAS DE NORMALIDAD PARA LOS ERRORES DEL MODELO ANOVA*/ /*OBTENCIÓN DE PRUEBAS DE NORMALIDAD PARA LOS ERRORES DEL MODELO ANOVA*/ /*OBTENCIÓN DE PRUEBAS DE NORMALIDAD PARA LOS ERRORES DEL MODELO ANOVA*/ /*OBTENCIÓN DE PRUEBAS DE NORMALIDAD PARA LOS ERRORES DEL MODELO ANOVA*/
proc univariate data=sal normaltest;
var res;
ods select testsfornormality;
run;
/*GRAFICAS DE RESIDUALES*/;
TITLE1'GRAFICOS DE RESIDUALES MODELO ANOVA PRODUCCION DE LECHUGA SEGUN NIVELES DE NITRATO';
proc gplot data=sal;
plot res*pred=nitrato/VREF=0 LVREF=2;
SYMBOL1 I=NONE V='1' C=RED h=1;
SYMBOL2 I=NONE V='2' C=BLACK h=1;
SYMBOL3 I=NONE V='3' C=BLUE h=1;
SYMBOL4 I=NONE V='4' C=ORANGE h=1;
SYMBOL5 I=NONE V='5' C=BROWN h=1;
RUN;QUIT;

Métodos Estadísticos II Prof. Nelfi González – Escuela de Estadística
28
TABLA ANOVA: Dependent Variable: nlechug TABLA ANOVA: Dependent Variable: nlechug TABLA ANOVA: Dependent Variable: nlechug TABLA ANOVA: Dependent Variable: nlechug
Sum of Sum of Sum of Sum of
Source DF Squares Mean Square F Value Pr > F Source DF Squares Mean Square F Value Pr > F Source DF Squares Mean Square F Value Pr > F Source DF Squares Mean Square F Value Pr > F
Model 4 4994.800000 1248.700000 5.61 0.0058
Error 15 3338.000000 222.533333
Corrected Total 19 8332.800000
R-Square Coeff Var Root MSE nlechug Mean
0.599414 10.46112 14.91755 142.6000
Source DF Source DF Source DF Source DF Type I SS Mean Square F Value Pr > F Type I SS Mean Square F Value Pr > F Type I SS Mean Square F Value Pr > F Type I SS Mean Square F Value Pr > F
nitrato 4 4994.800000 1248.700000 5.61 0.0058
TEST DE BARTLET DE HOMOGENEIDAD DE VARIANZAS TEST DE BARTLET DE HOMOGENEIDAD DE VARIANZAS TEST DE BARTLET DE HOMOGENEIDAD DE VARIANZAS TEST DE BARTLET DE HOMOGENEIDAD DE VARIANZAS
Bartlett's Test for Homogeneity of nlechug Variance
Source DF Chi-Square Pr > ChiSq
nitrato 4 5.7049 0.2223
COMPARACIONES DE PARES DE MEDIAS MÉTODO LSD COMPARACIONES DE PARES DE MEDIAS MÉTODO LSD COMPARACIONES DE PARES DE MEDIAS MÉTODO LSD COMPARACIONES DE PARES DE MEDIAS MÉTODO LSD
t Tests (LSD) for nlechug
NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.
Alpha 0.05
Error Degrees of Freedom 15
Error Mean Square 222.5333
Critical Value of t 2.13145
Least Significant Difference 22.483
Comparisons significant at the 0.05 level are indicated by ***.
Difference
nitrato Between 95% Confidence
Comparison Means Limits
150 - 200 8.50 -13.98 30.98
150 - 100 8.50 -13.98 30.98
150 - 50 12.00 -10.48 34.48
150 - 0 45.50 23.02 67.98 ***
200 - 100 0.00 -22.48 22.48
200 - 50 3.50 -18.98 25.98
200 - 0 37.00 14.52 59.48 ***
100 - 50 3.50 -18.98 25.98
100 - 0 37.00 14.52 59.48 ***
50 - 0 33.50 11.02 55.98 ***
COMPARACIONES DE PARES DE MEDIAS MÉTODO DE TUKEY COMPARACIONES DE PARES DE MEDIAS MÉTODO DE TUKEY COMPARACIONES DE PARES DE MEDIAS MÉTODO DE TUKEY COMPARACIONES DE PARES DE MEDIAS MÉTODO DE TUKEY
Tukey's Studentized Range (HSD) Test for nlechug
NOTE: This test controls the Type I experimentwise error rate.
Alpha 0.05
Error Degrees of Freedom 15
Error Mean Square 222.5333
Critical Value of Studentized Range 4.36699
Minimum Significant Difference 32.572
Comparisons significant at the 0.05 level are indicated by ***.

Difference Simultaneous
nitrato Between 95% Confidence
Comparison Means Limits
150 - 200 8.50 -24.07 41.07
150 - 100 8.50 -24.07 41.07
150 - 50 12.00 -20.57 44.57
150 - 0 45.50 12.93 78.07 ***
200 - 100 0.00 -32.57 32.57
200 - 50 3.50 -29.07 36.07
200 - 0 37.00 4.43 69.57 ***
100 - 50 3.50 -29.07 36.07
100 - 0 37.00 4.43 69.57 ***
50 - 0 33.50 0.93 66.07 ***
Métodos Estadísticos II Prof. Nelfi González – Escuela de Estadística
29
ESTIMACIÓN DE EFECTOS DE CADA NIVEL DE NITRATO Y SUS INTERVALOS DE CONFIANZA ESTIMACIÓN DE EFECTOS DE CADA NIVEL DE NITRATO Y SUS INTERVALOS DE CONFIANZA ESTIMACIÓN DE EFECTOS DE CADA NIVEL DE NITRATO Y SUS INTERVALOS DE CONFIANZA ESTIMACIÓN DE EFECTOS DE CADA NIVEL DE NITRATO Y SUS INTERVALOS DE CONFIANZA
Dependent Variable: nlechug
Standard Standard Standard Standard
Parameter Estimat Parameter Estimat Parameter Estimat Parameter Estimate Error t Value Pr > |t| 95% Confidence Limits e Error t Value Pr > |t| 95% Confidence Limits e Error t Value Pr > |t| 95% Confidence Limits e Error t Value Pr > |t| 95% Confidence Limits
efecto nitrato0 -30.6000000 6.67133170 -4.59 0.0004 -44.8196069 -16.3803931
efecto nitrato50 2.9000000 6.67133170 0.43 0.6700 -11.3196069 17.1196069
efecto nitrato100 6.4000000 6.67133170 0.96 0.3526 -7.8196069 20.6196069
efecto nitrato150 14.9000000 6.67133170 2.23 0.0412 0.6803931 29.1196069
efecto nitrato200 6.4000000 6.67133170 0.96 0.3526 -7.8196069 20.6196069
RESULTADOS PARA EVALUAR SIGNIFICANCIA DEL CONTRASTE DE MEDIAS CON NITRATO VS. RESULTADOS PARA EVALUAR SIGNIFICANCIA DEL CONTRASTE DE MEDIAS CON NITRATO VS. RESULTADOS PARA EVALUAR SIGNIFICANCIA DEL CONTRASTE DE MEDIAS CON NITRATO VS. RESULTADOS PARA EVALUAR SIGNIFICANCIA DEL CONTRASTE DE MEDIAS CON NITRATO VS. SIN NITRATO SIN NITRATO SIN NITRATO SIN NITRATO
Source DF Type I SS Mean Square F Value Pr > F Source DF Type I SS Mean Square F Value Pr > F Source DF Type I SS Mean Square F Value Pr > F Source DF Type I SS Mean Square F Value Pr > F
nitrato 4 4994.800000 1248.700000 5.61 0.0058
Contrast DF Contrast SS Mean Square F Value Pr > F
con nitrato vs. sin nitrato 1 4681.800000 4681.800000 21.04 0.0004
Standard Standard Standard Standard
Parameter Estimate Error t Value Pr > |t| 95% Confidence Limits Parameter Estimate Error t Value Pr > |t| 95% Confidence Limits Parameter Estimate Error t Value Pr > |t| 95% Confidence Limits Parameter Estimate Error t Value Pr > |t| 95% Confidence Limits
con nitrato vs. sin nitrato 38.2500000 8.33916463 4.59 0.0004 20.4754913 56.0245087
TEST DE NORMALIDAD SOBRE LOS ERROR TEST DE NORMALIDAD SOBRE LOS ERROR TEST DE NORMALIDAD SOBRE LOS ERROR TEST DE NORMALIDAD SOBRE LOS ERRORES DEL MODELO ANOVA ES DEL MODELO ANOVA ES DEL MODELO ANOVA ES DEL MODELO ANOVA
The UNIVARIATE Procedure
Variable: res
Tests for Normality
Test --Statistic--- -----p Value------
Shapiro-Wilk W 0.944656 Pr < W 0.2932
Kolmogorov-Smirnov D 0.148708 Pr > D >0.1500
Cramer-von Mises W-Sq 0.057475 Pr > W-Sq >0.2500
Anderson-Darling A-Sq 0.408977 Pr > A-Sq >0.2500
Problema 3: Para el problema 1 sobre mejora de la productividad:
a) Use el procedimiento de Tukey con un nivel de 0.05, para construir todos los intervalos de confianza posibles para las
diferencias de medias por pares. Establezca los grupos de medias.
b) Formule, estime y pruebe la significancia del contraste apropiado para probar si el promedio de mejora en
productividad a un nivel alto de gasto en investigación y desarrollo, es:
1. Significativamente diferente a los otros dos niveles
Métodos Estadísticos II Prof. Nelfi González – Escuela de Estadística
30
2. Significativamente mayor que el de los otros dos niveles

ANEXO 1: SINTAXIS BÁSICA DEL PROC GLM:
PROC GLM: Sintaxis básica: Las siguientes declaraciones están disponibles en el PROC GLM.

PROC GLM < opciones > ; PROC GLM < opciones > ; PROC GLM < opciones > ; PROC GLM < opciones > ;
CLASS variables ; CLASS variables ; CLASS variables ; CLASS variables ;
MODEL dependientes=independientes < / opciones > ; MODEL dependientes=independientes < / opciones > ; MODEL dependientes=independientes < / opciones > ; MODEL dependientes=independientes < / opciones > ;
CONTRAST 'etiqueta' valores efecto < ... valores efecto > < / opciones > ; CONTRAST 'etiqueta' valores efecto < ... valores efecto > < / opciones > ; CONTRAST 'etiqueta' valores efecto < ... valores efecto > < / opciones > ; CONTRAST 'etiqueta' valores efecto < ... valores efecto > < / opciones > ;
ESTIMATE 'etiqueta' val ESTIMATE 'etiqueta' val ESTIMATE 'etiqueta' val ESTIMATE 'etiqueta' valores efecto < ... valores efecto > < / opciones > ; ores efecto < ... valores efecto > < / opciones > ; ores efecto < ... valores efecto > < / opciones > ; ores efecto < ... valores efecto > < / opciones > ;
LSMEANS effectos < / opciones > ; LSMEANS effectos < / opciones > ; LSMEANS effectos < / opciones > ; LSMEANS effectos < / opciones > ;
MEANS effectos < / opciones > ; MEANS effectos < / opciones > ; MEANS effectos < / opciones > ; MEANS effectos < / opciones > ;
OUTPUT < OUT=SAS OUTPUT < OUT=SAS OUTPUT < OUT=SAS OUTPUT < OUT=SAS- -- -data data data data- -- -set > keyword=nombres < ... keyword=nombres > < / opciones > ; set > keyword=nombres < ... keyword=nombres > < / opciones > ; set > keyword=nombres < ... keyword=nombres > < / opciones > ; set > keyword=nombres < ... keyword=nombres > < / opciones > ;
RANDOM efectos < / opciones > ; RANDOM efectos < / opciones > ; RANDOM efectos < / opciones > ; RANDOM efectos < / opciones > ;
Para usar el PROC GLM, son necesarias las declaraciones PROC GLM y MODEL. Sólo puede especificarse una declaración
MODEL. Los factores o variables de clasificación deben ser listadas en una declaración CLASS, la cual debe aparecer antes
de la declaración MODEL.

ANEXO 2: FUNCIONES DE PARÁMETROS ESTIMABLES:
Una función de los parámetros de cualquier modelo se dice estimable si y sólo sí puede escribirse como el valor esperado de
una combinación lineal de las variables respuesta. Sólo las funciones estimables de los parámetros tienen estimadores
lineales insesgados. Es importante que el análisis de un experimento incluya sólo funciones estimables. Para un ANOVA de
un solo factor efectos fijos, cada función estimable es de la forma:
( )
1 1 1
i
n a a
ij ij i i
i j i
E a Y b µ o
= = =
(
= +
(
¸ ¸
¿¿ ¿
, con
1
i
n
i ij
j
b a
=
=
¿
números reales.
No hay valores de
i
b que den
1 2
, , , ,
a
µ o o o … separadamente como valores esperados, por tanto, estos parámetros
no son individualmente estimables, sino cada
i
µ o + .
ANEXO 3: TEST DE BARTLETT DE HOMOGENEIDAD DE VARIANZAS:
Suponga que se tienen a poblaciones o tratamientos independientes, cada uno con distribución normal N(µi, oi
2
), i=1, 2, ..., a,
con varianzas desconocidas. Se quiere probar la hipótesis de igualdad de varianzas:
2 2 2
0 1 2
2 2
1
: vs.
: algún par
a
i j
H
H
o o o
o o
= = =
=

Métodos Estadísticos II Prof. Nelfi González – Escuela de Estadística
31
El estadístico de prueba está dado por
2 2
0 1
/
a
M C _ _
÷
= con
( ) ( )
2 2
1
1 log log
a
p i i
i
M N a S n S
=
= ÷ ÷ ÷
¿
, y
( )
1
1 1 1
1
3 1 1
a
i
i
C
a n N a
=
| |
= + ÷
|
÷ ÷ ÷
\ .
¿
,
( )
2
2
1
1
a
i i
i
p
n S
S MSE
N K
=
÷
= =
÷
¿
donde
2
i
S es la varianza muestral de los ni valores observados de la respuesta con el tratamiento i. Se rechaza H0 aun nivel
de significancia ¸ si
2 2
0 1 ,a ¸
_ _
÷
> . Esta prueba es altamente sensible a no normalidad por lo cual debe comprobarse primero
tal supuesto.

ANEXO 4: OBTENCIÓN RESULTADOS PARA PROBLEMA 1 Y 3 MEDIANTE R:
#ENTRADA DE DATOS: #ENTRADA DE DATOS: #ENTRADA DE DATOS: #ENTRADA DE DATOS:
ID<-c(rep("alto",6),rep("bajo",9),rep("medio",12))

mprod<-c(8.5, 9.7, 10.1, 7.8, 9.6, 9.5, 7.6, 8.2, 6.8, 5.8, 6.9, 6.6, 6.3, 7.7, 6.0, 6.7, 8.1, 9.4, 8.6, 7.8, 7.7,
8.9, 7.9, 8.3, 8.7, 7.1, 8.4)

diseno<-data.frame(ID=factor(ID),mprod=mprod)

#TRES FORMAS DE OBTENER EL MISMO BOXPLOT: #TRES FORMAS DE OBTENER EL MISMO BOXPLOT: #TRES FORMAS DE OBTENER EL MISMO BOXPLOT: #TRES FORMAS DE OBTENER EL MISMO BOXPLOT:
plot(as.factor(ID),mprod) #hace boxplot
boxplot(split(mprod,as.factor(ID)))
boxplot(mprod~as.factor(ID))

#UN BOXPLOT MÁS ELABORADO: #UN BOXPLOT MÁS ELABORADO: #UN BOXPLOT MÁS ELABORADO: #UN BOXPLOT MÁS ELABORADO:
aux<-split(mprod,as.factor(ID))
medias<-sapply(aux,mean)

medias
alto bajo medio
9.200000 6.877778 8.133333
var<-sapply(aux,var)
var
alto bajo medio
0.7520000 0.6619444 0.5733333

boxplot(mprod~as.factor(ID),col=c("yellow","cyan","red"))
points(c(1:3),medias,pch=19,col=1)
lines(c(1:3),medias,lty=2,col="blue")
legend(locator(),c(paste("media ID alto=",round(medias[[1]],digits=3)),paste("media ID
bajo=",round(medias[[2]],digits=3)),paste("media ID medio=",round(medias[[3]],digits=3)),paste("var ID
alto=",round(var[[1]],digits=3)),paste("var ID bajo=",round(var[[2]],digits=3)),paste("var ID
medio=",round(var[[3]],digits=3))),ncol=1,bty="n",cex=0.7)

#ANÁLISIS DE VARIANZA: #ANÁLISIS DE VARIANZA: #ANÁLISIS DE VARIANZA: #ANÁLISIS DE VARIANZA:
analys.var<-aov(mprod~ID,diseno)
analys.var

Métodos Estadísticos II Prof. Nelfi González – Escuela de Estadística
32
Call:
aov(formula = mprod ~ ID, data = diseno)

Terms:
ID Residuals
Sum of Squares 20.12518 15.36222
Deg. of Freedom 2 24

Residual standard error: 0.8000579
Estimated effects may be unbalanced

#OBTENIENDO TABLA ANOVA #OBTENIENDO TABLA ANOVA #OBTENIENDO TABLA ANOVA #OBTENIENDO TABLA ANOVA
anova(analys.var)
Analysis of Variance Table
Response: mprod
Df Sum Sq Mean Sq F value Pr(>F)
ID 2 20.1252 10.0626 15.720 4.331e-05 ***
Residuals 24 15.3622 0.6401
---
Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1

#OTRA FORMA DE OBTENER LA TABLA ANOVA: #OTRA FORMA DE OBTENER LA TABLA ANOVA: #OTRA FORMA DE OBTENER LA TABLA ANOVA: #OTRA FORMA DE OBTENER LA TABLA ANOVA:
summary(analys.var)
Df Sum Sq Mean Sq F value Pr(>F)
ID 2 20.1252 10.0626 15.720 4.331e-05 ***
Residuals 24 15.3622 0.6401
---
Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1

#ESTIMACIÓN DE LOS EFECTOS PRINCIPALES: #ESTIMACIÓN DE LOS EFECTOS PRINCIPALES: #ESTIMACIÓN DE LOS EFECTOS PRINCIPALES: #ESTIMACIÓN DE LOS EFECTOS PRINCIPALES:
model.tables(analys.var,type = "effects",se=TRUE)
Design is unbalanced - use se.contrast for se's
Tables of effects
ID
alto bajo medio
1.248 -1.074 0.1815
rep 6.000 9.000 12.0000

#OBTENIENDO MEDIAS POR NIVEL DEL FACTOR #OBTENIENDO MEDIAS POR NIVEL DEL FACTOR #OBTENIENDO MEDIAS POR NIVEL DEL FACTOR #OBTENIENDO MEDIAS POR NIVEL DEL FACTOR
model.tables(analys.var,type = "means",se=TRUE)
Design is unbalanced - use se.contrast for se's
Tables of means
Grand mean

7.951852

ID
alto bajo medio
9.2 6.878 8.133
rep 6.0 9.000 12.000

#CÁLCULO ERROR ESTÁNDAR DEL CONTRASTE ID: ALTO VS. DEMÁS: #CÁLCULO ERROR ESTÁNDAR DEL CONTRASTE ID: ALTO VS. DEMÁS: #CÁLCULO ERROR ESTÁNDAR DEL CONTRASTE ID: ALTO VS. DEMÁS: #CÁLCULO ERROR ESTÁNDAR DEL CONTRASTE ID: ALTO VS. DEMÁS:
se.contrast(analys.var,list(ID=="alto",ID=="bajo", ID=="medio"),coef=c(1,-0.5,-0.5))
[1] 0.3712111

#CÁLCULO DE ERRORES ESTÁNDAR DE LOS EFECTOS: #CÁLCULO DE ERRORES ESTÁNDAR DE LOS EFECTOS: #CÁLCULO DE ERRORES ESTÁNDAR DE LOS EFECTOS: #CÁLCULO DE ERRORES ESTÁNDAR DE LOS EFECTOS:
se.efect.alto<-se.contrast(analys.var,list(ID=="alto",ID=="bajo", ID=="medio"),coef=c(2/3,-1/3,-1/3))
se.efect.alto
[1] 0.2474741

Métodos Estadísticos II Prof. Nelfi González – Escuela de Estadística
33
se.efect.bajo<-se.contrast(analys.var,list(ID=="alto",ID=="bajo", ID=="medio"),coef=c(-1/3,2/3,-1/3))
se.efect.bajo
[1] 0.2222383

se.efect.medio<-se.contrast(analys.var,list(ID=="alto",ID=="bajo", ID=="medio"),coef=c(-1/3,-1/3,2/3))
se.efect.medio
[1] 0.208478

#OBTENIENDO RESIDUOS Y SUS GRÁFICOS #OBTENIENDO RESIDUOS Y SUS GRÁFICOS #OBTENIENDO RESIDUOS Y SUS GRÁFICOS #OBTENIENDO RESIDUOS Y SUS GRÁFICOS
residuos<-residuals(analys.var)
nf<-layout(rbind(c(1,1,2,2),c(3,3,4,4)))
plot(analys.var)
nf<-layout(rbind(c(0,1,1,0),c(0,2,2,0)))
plot(residuos,as.factor(ID),main="Residuales vs. Factor ID") #hace gráfico de punto horizontales
plot(as.factor(ID),residuos,main="Residuales vs. factor") #hace Boxplot

#INVOCANDO LA PRUEBA DE BARTLETT: #INVOCANDO LA PRUEBA DE BARTLETT: #INVOCANDO LA PRUEBA DE BARTLETT: #INVOCANDO LA PRUEBA DE BARTLETT:
bartlett.test(mprod~ID,data=diseno)

Bartlett test for homogeneity of variances
data: mprod by ID
Bartlett's K-squared = 0.1294, df = 2, p-value = 0.9374

#INVOCANDO PRUEBA DE NORMALIDAD: #INVOCANDO PRUEBA DE NORMALIDAD: #INVOCANDO PRUEBA DE NORMALIDAD: #INVOCANDO PRUEBA DE NORMALIDAD:
shapiro.test(residuos)

Shapiro-Wilk normality test
data: residuos
W = 0.9738, p-value = 0.7033

#INTERVALOS DE TUKEY #INTERVALOS DE TUKEY #INTERVALOS DE TUKEY #INTERVALOS DE TUKEY
TukeyHSD(analys.var)
Tukey multiple comparisons of means
95% family-wise confidence level
Métodos Estadísticos II Prof. Nelfi González – Escuela de Estadística
34
Fit: aov(formula = mprod ~ ID, data = diseno)

$ID
diff lwr upr
bajo-alto -2.322222 -3.3752471 -1.26919735
medio-alto -1.066667 -2.0656538 -0.06767956
medio-bajo 1.255556 0.3745317 2.13657937
#O BIEN ASÍ: #O BIEN ASÍ: #O BIEN ASÍ: #O BIEN ASÍ:
TukeyHSD(analys.var,ordered=T,conf.level = 0.95)

TukeyHSD(analys.var,ordered=T)
Tukey multiple comparisons of means
95% family-wise confidence level
factor levels have been ordered

Fit: aov(formula = mprod ~ ID, data = diseno)

$ID
diff lwr upr
medio-bajo 1.255556 0.37453174 2.136579
alto-bajo 2.322222 1.26919735 3.375247
alto-medio 1.066667 0.06767956 2.065654

nf<-layout(rbind(c(0,1,1,0),c(0,2,2,0)))

#OBTEBIENDO GRÁFICOS DE INTERVALOS DE TUKEY: #OBTEBIENDO GRÁFICOS DE INTERVALOS DE TUKEY: #OBTEBIENDO GRÁFICOS DE INTERVALOS DE TUKEY: #OBTEBIENDO GRÁFICOS DE INTERVALOS DE TUKEY:
plot(TukeyHSD(analys.var,ordered=T,conf.level = 0.95))
plot(TukeyHSD(analys.var,conf.level = 0.95))

Bibliografía
KUELH, R.O. (2001). “Diseño de Experimentos”. Thomson Learning.
MONTGOMERY, D. C. (2001) “Design and analysis of experiments”. 5
th
Edition. John Wiley & Sons.
NETER, N. et. Al. (1996) Applied Linear Statistical Models. Irwin.

Sign up to vote on this title
UsefulNot useful