Diseños Unifactoriales

Modelo de diseo unifactorial completamente aleatorizado
Introduccin y ejemplos
Este modelo es el ms sencillo del diseo de experimentos, en el cual la variable respuesta puede depender de la inuencia de un nico factor, de forma que el resto de las causas de variacin se engloban en el error experimental. Se supone que el experimento ha sido aleatorizado por completo, es decir, todas las unidades experimentales han sido asignadas al azar a los tratamientos. Vamos a considerar dos tipos de modelos: el de efectos jos y el de efectos aleatorios. Se presentan ambos tipos mediante dos ejemplos: Ejemplo 1. Una rma comercial desea conocer la inuencia que tiene el nivel cultural de las familias en el xito de una campaa publicitaria sobre cierto producto. Para ello, aprovecha los resultados de una encuesta anterior clasicando las respuestas en tantos grupos como niveles culturales ha establecido. Estamos ante un modelo de un solo factor, ya que la rma slo est interesada en averiguar si los distintos niveles culturales inuyen o no de la misma manera sobre las ventas, no importndole la inuencia del resto de los factores que pueden inducir a una mayor o menor tendencia a la compra. El modelo es de diseo jo porque la rma aplicar los resultados de la investigacin exclusivamente a los niveles culturales establecidos por ella, que pueden abarcar o no la gama completa de formacin cultural. Ejemplo 2. En una fbrica se han observado anomalas en la calidad de las piezas pro1
ducidas por un tipo de mquinas: por haber sido revisadas recientemente se piensa que los defectos puedan deberse a los trabajadores. Para contrastar esta hiptesis se toma una muestra aleatoria de trabajadores y se controla la calidad de las distintas piezas que cada uno obtiene. Al igual que en el ejemplo anterior el modelo de comportamiento es de un solo factor, la calidad del trabajo de los trabajadores, pero al extender el resultado del anlisis a toda la poblacin de la que procede la muestra de obreros, el modelo es aleatorio, ya que de l deduciremos si los obreros que integran la poblacin estudiada realizan un trabajo de la misma calidad o no. En el Ejemplo 1, la rma tena una gama de formaciones culturales muy amplia, pero slo le interesaban unas determinadas. Para ella, la poblacin de niveles estaba compuesta por los elegidos en el estudio, por lo cual los resultados slo se pueden aplicar a ellos. En este caso, los niveles del factor se han elegido de forma determinista, basndose en datos histricos. Por el contrario, en el Ejemplo 2, no interesa la calidad del trabajo de los trabajadores, sino poder atribuir la aparicin de piezas defectuosas a todos los trabajadores o a las mquinas. Si del anlisis se deduce que la muestra de trabajadores no presenta diferencias de calidades, se inferir que en la poblacin tampoco, por lo cual se pueden atribuir los fallos a las mquinas. En este caso, los niveles del factor se han elegido de forma aleatoria, pudindose inferir los resultados a toda la poblacin de trabajadores. As, se pueden considerar dos posibles variantes de diseo unifactorial: (i ) Los niveles del factor se seleccionan de modo especco por el experimentador. Esto constituye el llamado modelo de efectos jos. (ii ) Los niveles de un factor son una muestra aleatoria de una poblacin mayor de tratamientos. Esto es el modelo de efectos aleatorios.
Modelo de efectos jos

Sea Y la variable respuesta que deseamos analizar. Podemos resolver dos tipos de problemas: 1. Consideramos a poblaciones diferentes y comparamos la respuesta a un tratamiento, o nico nivel de un factor. En la poblacin i -sima (i = 1, . . . , a) se toman ni observaciones. La respuesta se cuantica mediante yij , donde i = 1, . . . , a se reere a la poblacin en estudio y j = 1, . . . , ni se reere a la observacin j -sima. 2. Consideramos ahora un factor con a niveles, es decir, en total a tratamientos, y una nica poblacin. Se observa la respuesta yij del tratamiento i -simo a ni observaciones de la poblacin. En cualquiera de los dos casos el modelo se puede expresar como: yij = i + ij donde i = 1, . . . , a; j = 1, . . . , ni y
a X i=1
ni = N, siendo i el valor medio de Y, la variable
respuesta, en la poblacin o nivel i -simo, y ij es el error aleatorio que incluye a todos los factores que inuyen en la respuesta y no estn incluidos en el modelo. Alternativamente, se puede expresar de esta manera: yij = + i + ij donde i = 1, . . . , a; j = 1, . . . , n, suponiendo grupos de igual tamao. De este modo, (i ) yij es la observacin (i, j ) - sima. (ii ) es la media global. (iii ) i es el efecto del i -simo tratamiento. 3
(iv ) ij es el error aleatorio, tal que ij N (0, 2 ) independientes entre s, E [ij ] = 0 y V ar [ij ] = 2 . Se supone, adems, que las unidades experimentales estn en un ambiente uniforme, lo cual lleva a un diseo completamente aleatorizado. En el modelo de efectos jos, los efectos de los tratamientos i se denen como desviaciones respecto a la media general, por lo que
a n X X j =1 i=1 a X
i = 0
i=1 a X i=1
n i = 0 = i = 0
La esperanza del tratamiento i es E [yij ] = + i donde i = 1, . . . , a. De este modo es igual al trmino de la media general ms el efecto del tratamiento i. El problema que se trata de analizar es H0 1 = 2 = = a H1 i 6= j (para al menos un par) y esto es equivalente a H0 1 = 2 = = a H1 i 6= 0, i
El problema se puede resumir en la siguiente tabla:
Nivel 1 2 . . . a
Observaciones y11 y12 y1n y21 y22 y2n ya1
Totales Promedios y1 y 1 y2 y 2 ya y y a y
ya2 yan
La idea es descubrir cmo se reparte la variabilidad total de la muestra. Una posible medida de variabilidad total es la suma de cuadrados, denominada total, o suma total de cuadrados corregida: SCT = donde y =
n a X X i=1 j =1 a
(yij y )2
n
Se puede desomponer en dos partes esta suma total de cuadrados: SCT = = n

a X i=1 n a X X i=1 j =1
1 XX yij n a i=1 j =1
n a X X i=1 j =1
(yij y )2 =
n a X X i=1 j =1
(( yi y ) + (yij y i ))2 =
( yi y )2 +
(yij y i )2 =
= SCT ra + SCE. ya que 2 = 2 pero

n X j =1
n a X X i=1 j =1 a X i=1
( yi y ) (yij y i ) =
n X j =1
( yi y )
(yij y i )
(yij y i ) = ny i ny i = 0
y as los dobles productos se hacen 0. Las diferencias entre los promedios observados de los tratamientos y el promedio general, da una medida de las diferencias entre los tratamientos. 5
Las diferencias de las observaciones dentro de los tratamientos con respecto al promedio del tratamiento, se considera error aleatorio. Grados de libertad. Se tiene un total de a n observaciones y de a tratamientos. SCT tiene (an 1) grados de libertad. SCT ra tiene (a 1) grados de libertad. SCE tiene a(n 1) grados de libertad, porque hay n rplicas dentro de cada tratamiento, es decir, se tienen (n 1) grados de libertad para estimar el error experimental. Al tener a tratamientos, se tiene un total de a(n 1) grados de libertad. Observaciones. Se tiene que SCE =
n a X X i=1 j =1
(yij y i )2 =
" n a X X
i=1 j =1
(yij y i )2 .
Si el trmino entre parntesis se divide entre n 1, se obtiene la cuasivarianza del tratamiento i : s2 i 1 X = (yij y i )2 . n 1 j =1
n
Se puede estimar la varianza poblacional combinando dichas varianzas por grupos: " n # a X X (yij y i )2 2 2 (n 1)s2 i=1 j =1 1 + (n 1)s2 + + (n 1)sa = = a X (n 1) + (n 1) + + (n 1) (n 1)
i=1
SCE = N a
donde N = a n. Si no hay diferencias entre los a tratamientos, se puede estimar la varianza poblacional 2 como n SCT ra = a1
a X i=1
( yi y )2
a1
cuando las medias de los tratamientos son iguales, ya que el trmino

a X i=1
( yi y )2 a1
sera un estimador de la varianza de la media muestral: 2 /n. Se dispone, as de dos posibles estimadores de 2 : MCT ra = SCT ra a1 SCE MCE = N a
Cuando no existen diferencias entre las medias de los tratamientos, las estimaciones deben ser similares. Si consideramos las medias de cuadrados anteriores, entonces, se puede demostrar, sustituyendo, que E (MCE ) = 2 E (MCT ra) = +
2
Pa
2 i . a1
i=1
De este modo, si para algn i 6= 0, entonces E (MCT ra) > 2 . La idea bsica es disear un contraste que tenga en cuenta estas diferencias entre los dos estimadores de 2 . Como los errores ij se distribuyen independientemente entre s, segn una N (0, ), entonces, por el lema de Fisher SCE 2 N a 2 SCT ra 2 a1 2 siempre que i = 0, i. NOTA: Teorema de Cochran :
Sea zi N (0, 1) independientes entre s, para i = 1, 2, . . . v y sea

v X i=1
zi2 = Q1 + Q2 + + Qs
donde s v y cada Qi tiene vi grados de libertad (i = 1, 2, . . . s), entonces Q1 , Q2 , . . . , Qs son v.a. independientes distribuidas como una chi cuadrado con v1 , v2 , . . . , vs grados de libertad respectivamente, si y slo si v = v1 + v2 + . . . + vs Si se aplica el teorema de Cochran, se tiene que lo que si i = 0, i, entonces F0 =
SCT ra a1 SCE N a SSE 2
SST ra 2
son independientes, por
MCT ra MCE
se distribuye como una F de Snedecor, Fa1,N a . Si algn i 6= 0, entonces E (MST ra) > 2 entonces el valor del estadstico F0 es mayor, obtenindose una regin crtica superior, de modo que se rechaza, a nivel , la hiptesis nula de igualdad de tratamientos, si F0 > F,a1,N a Resumen: Tabla ANOVA. H0 1 = 2 = a H1 i 6= 0, F. Variacin Factor Error Total S. Cuadrados a P SCT ra = n ( yi y )2 SCE = SCT =
n a P P i=1 j =1 a P n P i=1
i gl M. Cuadrados MCT ra =
SCT ra a1
F0 Fo =
MCT ra MCE
a1
(yij y i )2
N a MCE = N 1
SCE na
i=1 j =1
(yij y )2
Se rechaza H0 a nivel cuando F0 > F,a1,N a . 8
Estimacin de los parmetros.

Dado el modelo yij = + i + ij donde i = 1, . . . , a; j = 1, . . . , n, se pueden estimar los parmetros y i por el mtodo de los mnimos cuadrados, de modo que no se necesita suponer normalidad de los errores ij . la suma de los cuadrados de los errores es L=
a X n X i=1 j =1
2 ij
a X n X i=1 j =1
(yij i )2 ,
de modo que los estimadores de y i son los valores y i que minimizan el funcional L. Derivando respecto cada uno de los parmetros, se obtiene un total de (a + 1) ecuaciones: XX L (yij i ) = 0 = 0 = 2 i=1 j =1
a n
n X L = 0 = 2 (yij i ) = 0, i j =1
i = 1, 2, . . . , a
se obtiene 2 + + n a = y N + n 1 + n n +n 1 = y1 n +n 2 = y2 . . . . . . n +n a = ya
Estas se denominan ecuaciones normales de mnimos cuadrados. Si se suman las ltimas a ecuaciones, se obtiene la primera ecuacin, de modo que no forman un sistema independiente de ecuaciones y no existe solucin nica. Para evitar esto, se considera la restriccin
a X i=1
i = 0, 9
obtenindose, entonces, los estimadores = y i = y i y para i = 1, 2, . . . , a. Si se asume que los errores estn distribuidos segn una normal, entonces cada y i N (i , 2 /n) . De este modo, cuando 2 es desconocida un intervalo de conanza al 100(1 ) % es " " y i t ,N a 2 r # MCE . n r 2MCE . n #
De la misma manera,
( yi y ) t ,N a 2
Diseo desequilibrado. Si el nmero de observaciones es diferente segn cada tratamiento i: ni donde i = 1, 2, . . . , a, las expresiones previas son iguales salvo que se sustituye n por ni :
ni ni a X a X X X y2 2 2 SCT = (yij y ) = yij N i=1 j =1 i=1 j =1
ni a X a 2 X X yi y2 2 ( yi y ) = SCT ra = ni N i=1 j =1 i=1
SCE = SCT SCT ra
Para resolver las ecuaciones normales se considera la restriccin

a X i=1
ni i = 0
y se resuleve del mismo modo. Si el diseo es no balanceado o desequilibrado, aumenta la sensibilidad del anlisis unifactorial a la falta de igualdad entre las varianzas de cada grupo (heterocedasticidad).
10
Ejemplo 1 Un ingeniero de desarrollo de productos est interesado en maximizar la resistencia a la tensin de una nueva bra sinttica que se emplear en la manufactura de tela para camisas de hombre. El ingeniero sabe por experiencia que la resistencia est inuida por el porcentaje de algodn presente en la bra. Adems, sospecha que el contenido de algodn debe estar aproximadamente entre un 10 y 40 % para que la tela resultante tenga otras caractersticas de calidad que se desean (como la capacidad de recibir un tratamiento de planchado permanente). El ingeniero decide probar muestras a cinco niveles de porcentaje de algodn: 15, 20, 25, 30 y 35 %. Asimismo, decide ensayar cinco muestras a cada nivel de contenido de algodn. Las 25 observaciones deben asignarse al azar. Para ilustrar la forma en que puede aleatorizarse el orden de ejecucin, supngase que las observaciones se numeran como sigue: % algodn 15 1 2 3 4 5 20 6 7 8 9 10 25 11 12 13 14 15 30 16 17 18 19 20 35 21 22 23 24 25 Ahora se elige al azar un nmero entre 1 y 25. Supongamos que es el 8, entonces la observacin 8a se ejecuta primero (es decir, a un 20 % de algodn). A continuacin se elige un nmero al azar entre 1 y 25, quitando el 8. Supongamos que es el 4, entonces la observacin 4a se ejecuta en segundo lugar (a un 15 % de algodn). Se repite el proceso hasta completar las 25 observaciones. Esta secuencia de prueba aleatorizada es necesaria para evitar que los resultados se contaminen por los efectos de variables desconocidas que pueden salir de control durante el experimento. Para ilustrar esto, supngase que se ejecutan las 25 muestras de prueba en el orden no aleatorizado original (esto es, las 5 muestras con un 15 % de algodn se prueban primero, luego las 5 muestras con un 20 % de algodn, y as sucesivamente). Si la mquina que prueba la resistencia a la tensin presenta un efecto de calentamiento tal que 11
a mayor tiempo de funcionamiento menores lecturas de resistencia a la tensin, entonces dicho efecto contaminar los datos de resistencia e invalidar el experimento. Supngase ahora que el ingeniero ejecuta la prueba en el orden aleatorio que hemos determinado. Las observaciones obtenidas acerca de la resistencia a la tensin son: % de algodn 15 20 25 30 35 Observaciones 7 7 15 11 9 12 17 12 18 18 14 18 18 19 19 19 25 22 19 23 7 10 11 15 11 Suma Media 49 9.8 77 15.4 88 17.6 108 21.6 54 10.8 376 15.04
Representamos el diagrama de dispersin para la resistencia frente al porcentaje de algodn, y.el diagrama de cajas para la resistencia a la tensin a cada nivel de porcentaje de algodn.
diagrama de dispersin
25 22 19 16 13 10 7 15 20 25 30 35 25 22 19 16 13 10 7 observaciones medias
porcentaje de algodn
12
Diagrama de cajas
25
observaciones
22 19 16 13 10 7 15 20 25 30 35
porcentaje de algodn
Ambas grcas indican que la resistencia a la tensin aumenta con el contenido de algodn hasta el 30 %. Mas all del 30 % ocurre un notable decrecimiento en la resistencia. No hay una fuerte evidencia que sugiera que la variabilidad en la resistencia alrededor de la media dependa del porcentaje de algodn. Se sospecha, no obstante, que el porcentaje de algodn inuye en la resistencia a la tensin. Se disponen los datos en una tabla como esta: Observaciones y11 , , y1n1 . . . yI 1 , , yInI Sumas y1 . . . yI y Medias y 1 . . . y I y
A) Hiptesis del modelo Las principales hiptesis del modelo son: Normalidad: ij sigue una distribucin normal. Linealidad: E (ij ) = 0 Homocedasticidad: V ar(ij ) = 2 13
Independencia: ij son independientes entre s. Estas hiptesis son equivalentes a las siguientes: Normalidad: yij sigue una distribucin normal. E (yij ) = i Homocedasticidad: V ar(yij ) = 2 Independencia: yij son independientes entre s.
B) Metodologa En nuestro anlisis vamos a seguir los siguientes pasos: Estimar los parmetros del modelo. Contrastar si el factor inuye en la respuesta, es decir, si los valores medios de Y son diferentes al cambiar el nivel del factor. Si el factor inuye en la variable respuesta, es decir, las medias no son iguales, buscar las diferencias entre poblaciones (o niveles del factor). Diagnosis del modelo: comprobar si las hiptesis del modelo son ciertas mediante el anlisis de los residuos.
C) Estimacin de los parmetros En este ejemplo, a = 5, ni = 5 y N = 25. Las estimaciones puntuales de los parmetros son las siguientes:
14
1 = y 1 = 9,8 2 = 15,4 2 = y 3 = y 3 = 17,6 4 = 21,6 4 = y 5 = 10,8 5 = y Por ejemplo, el intervalo de conanza para 1 , al nivel (1 ) = 0,95, es: " # r MCE y i t = ,N a 2 n # " r 8,06 = = 9,8 t0,025,20 5 [7,1515, 12,4485]
D) Anlisis de la varianza El contraste de hiptesis que vamos a abordar es el siguiente: H0 : 1 = = a (el factor no inuye) H1 : algn factor es diferente (el factor inuye) nivel de signicacin FV Tratamiento Error Total SC P SCT ra = a ni ( yi y )2 Pa i=1 Pni SCE = i=1 j =1 (yij y i )2 Pa Pni SCT = i=1 j =1 (yij y )2 GL F a 1 F0 = N a N 1
SCT ra/(a1) SCE/(N a)
siendo FV = Fuente de variacin, SC = Suma de Cuadrados, GL = Grados de libertad. Las sumas de cuadrados tambin se pueden calcular de la siguiente forma: SCT = SCT ra = XX X
2 2 yij ny
2 2 ni y i ny
SCE = SCT SCT ra 15
Cuando slo hay dos poblaciones (un factor con dos niveles), este contraste es idntico al contraste de la t para comparar las medias de dos poblaciones normales e idependientes con la misma varianza. Analizamos a continuacin la tabla de anlisis de la varianza del ejemplo 1
SCT =
= 72 + 72 + 152 + ... + 152 + 112 25 15,042 = = 636,96
XX
2 2 ny = yij
SCT ra =
= 5(9,82 + ... + 10,82 ) 25 15,042 = = 475,76
2 2 i = ni y ny
SCE = SCT SCT ra = 636,96 475,76 = 161,2 La tabla ANOVA es: F.V. S.C. G.L. M.C. F Tratamiento 475.76 4 118.94 14.76 Error 161.2 20 8.06 Total 636.96 24
F4,20;0,1 = 2,2489 F4,20;0,05 = 2,8661 F4,20;0,01 = 4,4307 Por lo tanto, rechazamos H0 a los niveles anteriores y concluimos que hay diferencias entre los tratamientos. Ejemplo 2. Analizaremos los siguientes conjuntos de datos:
16
Primer caso Sumas 20 19 20 21 80 22 22 22 22 88 24 24 23 25 96 264 Medias 20 22 24 22
Segundo caso Sumas 45 0 10 25 80 8 30 38 12 88 15 44 2 35 96 264 Medias 20 22 24 22
Las medias son iguales en los dos casos, con lo cual la diferencia de medias debera ser igual en ambos casos. Los diagramas de puntos, considerando en abscisas los grupos y en ordenadas las observaciones, son:
Primer caso
25 24 23 22 21 20 19 1 2 3 2 4 2
Segundo caso
50 40 30 20 10 0 1 2 3
17
Debido a las diferentes dispersiones (varianzas) que existen en los dos casos, la impresin visual es muy distinta. En el segundo caso no se aprecia diferencia entre los tres grupos (el factor no parece inuir), mientras que en el primer caso, la cosa no est tan clara. Entonces, no es suciente slo con comparar las medias de cada grupo, la variabilidad tambi inuye. Lo que vamos a hacer es comparar la variabilidad entre las medias con la variabilidad dentro de cada grupo, mediante el anlisis de la varianza. Vamos a construir la tabla ANOVA: Caso 1 :
a X ( yi y )2 = 32 SCT ra = i=1
ni a X X (yij y )2 = 36. SCT = i=1 j =1
SCE = SCT SCT ra = 36 32 = 4
La tabla ANOVA es: F.V. S.C. G.L. M.C. F Tratamiento 32 2 16 36 Error 4 9 0.444 Total 36 11 Como F2,9;0,05 = 4,2565, rechazamos la hiptesis nula y concluimos que el factor inuye en la respuesta. Caso 2 :
SCT = SCT ra =
XX X
2 2 ny = 8692 12 222 = 2884. yij
2 2 ni y i = 5840 12 222 = 32 ny
SCE = SCT SCT ra = 2884 32 = 2852. La tabla ANOVA es: 18
F.V. S.C. G.L. M.C. F Tratamiento 32 2 16 0.05 Error 2852 9 316.889 Total 2884 11 Como F2,9;0,05 = 4,2565, no rechazamos la hiptesis nula y concluimos que el factor no inuye en la respuesta al nivel = 0,05..
19
Comparaciones entre medias

Una vez obtenidas diferencias signicativas entre los tratamientos, conviene estudiar por qu se rechaza la igualdad entre medias, comparando todos los pares de medias, porque puede ser que se rechace la igualdad de medias porque haya un par de medias diferentes entre s. Se considera, entonces, los siguientes contrastes: H0 i = j , H0 i 6= j , i 6= j i 6= j
Los mtodos generales son las comparaciones mltiples y los tests de recorrido studentizado.
Comparaciones mltiples.
LSD de Fisher (Least signicant dierence) Se contrasta i = j , para todo i 6= j, (i, j = 1, . . . , a). Se tiene que se distribuye como una t de Student: j ) i j ( yi y q tN a 1 1 n + nj i
As, un Intervalo de Conanza para i j a nivel es [( yi y j ) LSD ] y se denomina LSD = tN a, 2 s
1 1 + ni nj
1. Si |y i y j | > LSD = Se rechaza que i = j a nivel . j | < LSD = Se acepta que i = j a nivel . 2. Si |y i y Denicin. (Distribucin de recorrido estudentizada ) 20
Si Z1 , . . . , Za N (0, 1) U 2 m independientemente, entonces, Q = m ax

i6=j
se distribuye con una distribucin de recorrido estudentizado de parmetros a y m.
|Zi Zj | Z(a) Z(1) q q = qa,m

U m U m
Mtodo de Tukey Se requiere que ni = n, i = 1, . . . , a. Si esto no se cumple, entonces se toma n = m ni {ni } . j | > qa,N a; 1. Si |y i y j | < qa,N a; 2. Si |y i y q q
1 n 1 n
= Se rechaza que i = j a nivel . = Se acepta que i = j a nivel .
Mtodo de Bonferroni En este criterio se rechaza i = j (i 6= j ) si |y i y j | > tN a, 2 p
1 1 + ni nj a . 2
donde p es el nmero de comparaciones que se pueden obtener: 1 p por una normal: Se puede aproximar tN a, 2 p tv, = z + siendo z N (0, 1). 1 3 z z , 4v
21
Ejemplos. En el problema de comparacin del porcentaje de algodn en las prendas, las medias muestrales eran: y i Se tiene que a=5 n=5 N = 25 2 = 8,06 N a = 20. LSD de Fisher LSD = tN a, 2 Mtodo de Tuckey HSD = qa,N a, = n Mtodo de Bonferroni Como 5 p= = 10 2 1 1 + = t20, 00 05 20 ni nj r 2 5 r 8,06 q5,20,00 05 = 1,269 4,24 = 5,38 5 s 1 1 + = t20,00 025 ni nj r 2 = 3,745 5 y 1 y 2 y 3 y 4 y 5 9,8 15,4 17,6 21,6 10,8
8,06
luego hay 10 posibles comparaciones: s B = tN a, 2 p Como
8,06
t20, 00 05 = t20,00 0025 z0,0025 +

20
luego
1 3 z0,0025 z0,0025 = 4 20 1 2,813 2,81 = 3,052 = 2,81 + 80 r 2 8,06 = 3,052 5 r 8,06 2 = 5,48. 5
B = t20, 00 05
20
As la tabla de diferencias es: 22
(i, j ) ( yi y j ) LSD = 3,745 HSD = 5,38 B (1,2) 5,6 6 = 6 = (1,3) 7,8 6 = 6 = (1,4) 11,8 6= 6= (1,5) 1,0 = = (2,3) 2,2 = = (2,4) 6,2 6= 6 = (2,5) 4,6 6= = (3,4) 4 6= = (3,5) 6,8 6= 6 = (4,5) 10,8 6= 6=
= 5,48 6= 6= 6= = = 6= = = 6= 6=
Tests de recorrido studentizado

En estos tests, se requiere que ni = n, i = 1, . . . , a. Si esto no se cumple, entonces se toma la media armnica: 1 1 + + n=a n1 na Los tests principales son: El test de Duncan El test de Newman-Keuls En ambos tests se siguen los siguientes pasos: (i ) Se ordenan de manera creciente las medias muestrales a comparar: y (1) < y (2) < < y (a) (ii ) Se comparan las diferencias entre dos medias separadas por p posiciones con p = a, a 1, . . . , 2 usando los siguientes puntos crticos: Duncan. dp = rp,N a, n donde rp,N a, se obtiene a partir de la tabla de intervalos signicativos de Duncan. 23 1
Newman-Keuls. NKp = qp,N a, n donde qp,N a, se obtiene a partir de la tabla de la distribucin de recorrido studentizado. Por ejemplo, para p = a se contrasta si 1 n r 1 (1) | > qa,N a; |y (a) y n (1) | > ra,N a; |y (a) y Para p = a 1 se contrasta si |y (a) y (2) | > ra1,N a; r r
1 n r 1 (1) | > ra1,N a; |y (a1) y n r
1 n r 1 (1) | > qa1,N a; |y (a1) y n |y (a) y (2) | > qa1,N a; (iii ) Se van declarando diferentes o no a las parejas de medias. Si no se declaran diferentes, se conectan con una lnea base. Al nal slo se declaran diferentes las medias que no estn conectadas por ninguna lnea. (iv ) Si un grupo de medias no es signicativamente diferente, ningn subgrupo de ellas lo es.
Se tiene que la relacin entre ambas tablas es la siguiente: rp,N a; = qp,N a;1(1)p1 Si comparamos los respectivos puntos crticos con N a = 20, por ejemplo: 24
p rp,20,00 01 qp,20,00 01
2 3 4 5 6 7 8 4.02 4.22 4.33 4.4 4.47 4.53 4.58 4.02 4.64 5.02 5.29 5.51 5.69 5.84
Se observa que rp,20,00 01 qp,20,00 01 , con lo cual se tiene que d,p = rp,N a, < NK,p = qp,N a, , n n es decir, el test de Newman-Keuls es ms conservador que el de Duncan, de modo que si se rechaza la H0 aplicando el test de Newman-Keuls, tambin se rechaza aplicando el test de Duncan. Ejemplo. En el problema de comparacin del porcentaje de algodn en las prendas, se ordenan las medias muestrales de menor a mayor:
y i
y 1 y 5 y 2 y 3 y 4 9,8 10,8 15,4 17,6 21,6
Test de Newman-Keuls: p=5 p=4 p=3 p=2 Test de Duncan: p=5 p=4 p=3 p=2 De este modo, r5,20,00 05 r4,20,00 05 r3,20,00 05 r2,20,00 05 = 3,25 = 3,18 = 3,10 = 2,95 d5 d4 d3 d2 = 4,12 = 4,04 = 3,93 = 3,74 q5,20,00 05 q4,20,00 05 q3,20,00 05 q2,20,00 05 = 4,24 = 3,96 = 3,58 = 2,95 NK5 NK4 NK3 NK2 = 5,38 = 5,03 = 4,54 = 3,74
25
p 5 4
|y i y j | |y 1 y 4 | = 11,8 |y 1 y 3 | = 7,8 4 | = 10,8 |y 5 y |y 1 y 2 | = 5,6 3 | = 6,8 |y 5 y 4 | = 6,2 |y 2 y |y 1 y 5 | = 1 2 | = 4,6 |y 5 y 2 | = 2,2 |y 3 y 4 | = 4 |y 3 y
Newman-Keuls > 5,38 > 5,03 > 5,03 > 4,54 > 4,54 > 4,54 < 3,74 > 3,74 < 3,74 > 3,74
Duncan > 4,12 > 4,03 > 4,03 > 3,93 > 3,93 > 3,93 < 3,74 > 3,74 < 3,74 > 3,74
Como conclusin, se obtiene que 4 > i para i = 1, 2, 3, 5 de manera signicativa segn ambos criterios. Y el resultado es: 1 5 x______ y 2 3 x______ y 4
Contrastes Ortogonales (mtodo de Sche)

En general, un contraste entre k medias poblacionales se puede denir como una combinacin lineal = c1 1 + c2 2 + + ca a tales que c1 , . . . , ca son constantes de suma nula: Un estimador de es Pa
j =1 cj
= 0.
= c1 x 1 + c2 x 2 + + ca x a y la estimacin de la varianza de es 2 = MCE c2 c2 1 + + a n1 na .
En particular, por ejemplo, la diferencia entre dos medias cualesquiera equivale a un contraste = ci i + cj j 26
con ci = 1 y cj = 1 y cero para el resto de trminos. El procedimiento se Sche se aplica de la siguiente forma: reem(i ) Especicar as como los coecientes que determinan el contraste. Calcular plazando las medias muestrales por las poblacionales. (ii ) Estimar 2 y calcular la razn (iii ) Si la razn . q (a 1)Fa1,N a, ,
se rechaza la hiptesis H0 = 0 al nivel . Ejemplo. Supongamos que se trata de contrastar
>
1 = 1 + 3 4 5 2 = 1 4 Las estimas son 1 = x 1 + x 3 x 4 x 5 = 9,8 + 17,6 21,6 10,8 = 5,0 2 = x 1 x 4 = 9,8 21,6 = 11,8 v r u 5 u X c2 4 i t MCE = 8,06 = 2,54 1 = n 5 i=1 i r 2 2 = 8,06 = 1,8 5 p = F4,20,00 01 = 4,43, de modo que (a 1)Fa1,N a, = 4 4,43 = 4,21 1 5,0 = = 1,97 < 4,21 1 2,54
y como Fa1,N a,
se acepta la H0 . 27
se rechaza la H0 .
2 2
11,8 = 6,56 > 4,21 1,8
Aunque el mtodo de Sche permite plantear muchas posibles comparaciones entre medias, cuando se estudian slo diferencias entre medias resulta menos ecaz que los tests especcos para diferencias de pares de medias.
28
Estudio de la adecuacin del modelo

La mayor parte de las desviaciones de las hiptesis bsicas del modelo, se pueden estudiar a travs de los residuos: ij eij = yij y al igual que se hace, habitualmente en Regresin. As, el dibujo de los errores de modo secuencial a como aparecen las observaciones permite detectar correlaciones entre los mismos y, de este modo, se observa si se cumple la hiptesis de independencia. Si no es as, es un problema difcil de corregir en la prctica, como no sea repitiendo el experimento y aleatorizando de modo conveniente. Tambin se puede considerar la grca de los errores frente a los valores predichos i , que no debera presentar tendencias en cuanto a su aspecto. Si lo hace, es un y ij = y signo de la existencia de varianza no constante o heterocedasticidad. Cuando ni = n, para i = 1, . . . a la existencia de varianzas heterogneas entre los grupos, apenas afecta al contraste de la F . Sin embargo, si los tamaos muestrales son desiguales, la probabilidad de cometer error de tipo I puede ser diferente al valor prejado. Para comprobar este supuesto, se puede considerar el test de Levene o el test de Barlett. Sin embargo, la prueba de Levene tiene la ventaja de que no se ve afectada por la falta de normalidad del modelo, y se puede aplicar a tamaos muestrales desiguales. El estadstico de contraste de la prueba de Levene es Pa Pni i=1 j =1 dij di /(N a) F0 = Pa i=1 ni di d /(a 1) i | , dij = |yij y Pni j =1 dij i = d , ni Pa Pni i=1 j =1 dij = . d N 29
donde
Si las varianzas son homogneas, entonces este estadstico F0 se distribuye como una F de Snedecor, Fa1,N a, , siendo el nivel de signicacin elegido.
Transformaciones para conseguir homocedasticidad

Cuando se presenta homocedasticidad se debe a menudo a que la varianza cambia cuando lo hace la media. Si i es la media del grupo i -simo y i su desviacin tpica, entonces i = f (i ) para alguna funcin f. Para estabilizar la varianza se busca una funcin T tal que T (x) tenga varianza constante. En la prctica se usa T (xij ) = 6= 0 x ij log(xij ) =0
En particular se suele considerar una funcin f de la forma f (i ) = k i de modo que i = k i Se puede demostrar que para conseguir la homocedasticidad, se debe usar la transformacin con parmetro = 1 . Para estimar se usan los diagramas rango-media. Se asume el ajuste a una ecuacin del tipo = k y as log( ) = log(k) + log() ser la pendiente de la recta que pasa por los puntos del grco, esto es, de la correspondiente recta de regresin. Una vez estimado se calcula = 1 . Observaciones (i ) Las transformaciones estabilizadoras de la vrainza se denen slo para conjuntos de datos positivos. En caso contrario, hay que sumar una constante a los datos. 30
(ii ) En general se considera una rejilla de valores de y se va probando con mltiplos . de 1 2 (iii ) Frecuentemente la transformacin no slo estabiliza la varianza sino que normaliza los datos, cuando estos no se distribuyen como una normal.
31
Modelo de efectos aleatorios

Si el nmero de niveles del factor no est jado de antemano, sino que es una muestra aleatoria de una poblacin de niveles, entonces se tiene un modelo de efectos aleatorios. El modelo se expresa igual que antes yij = + i + ij donde i = 1, 2, . . . , a y j = 1, 2, . . . , n, siendo, en este caso, i y ij variables aleatorias. Si se asume que i y ij son independientes, y que i tiene como varianza 2 , entonces la varianza de una observacin dada es
2 V ar(yij ) = 2 + .
2 Se denomina a 2 y a como los componentes de la varianza y se supone que
ij N (0, 2 ) i N (0, 2 ) independientemente entre s. Ahora carece de sentido contrastar hiptesis basadas en tratamientos individuales, por lo que se contrasta: H0 2 = 0 H1 2 > 0
2 Todos los tratamientos sern iguales si 2 = 0. Sin embargo, si > 0 existe variabi-
lidad entre los tratamientos. En este caso, si H0 es cierta, 2 = 0, entonces F0 =

SCT ra a1 SCE N a
MCT ra Fa1,N a MCE
32
Si se consideran los valores esperados de las medias de cuadrados, entonces 1 E [MCT ra] = E [SCT ra] = a1 # " a X y2 y2 1 i = E = 2 + n 2 . a1 n N i=1 E [MCE ] = 2 . Si la hiptesis alternativa es cierta, entonces el valor esperado del numerador en F0 es mayor que el esperado del denominador. As, se rechaza H0 para valores altos de F0 , con lo cual, la regin crtica es unilateral superior, rechazndose si F0 > Fa1,N a, El procedimiento de clculo es igual que en el modelo de efectos jos, aunque las conclusiones se aplican a toda la poblacin de tratamientos.
Del mismo modo, se obtiene que
Estima de los componentes de la varianza

Si se igualan los valores esperados de las medias de cuadrados con los valores observados, se obtiene MCT ra = 2 + n 2 MCE = 2 de donde 2 = MCE 2 = NOTA: Si ni , para i = 1, . . . , a son distintos entre s, se sustituye en la expresin anterior n por # " a Pa 2 X n 1 ni Pia=1 i . n0 = a 1 i=1 i=1 ni 33 MCT ra MCE n
Ejemplo. Una fbrica de maquinillas de afeitar utiliza una gran cantidad de mquinas en la produccin. Se desea que las mquinas sean homogneas para producir objetos de la misma calidad. Para investigar si existen variaciones signicativas entre las mquinas, se seleccionan 4 al azar y se mide el porcentaje de un cierto componente de la hoja. El experimento se realiza con orden aleatorio. yi 390 366 383 388 y = 1527
Mquina Mquina Mquina Mquina
1 2 3 4
98 91 96 95
97 90 95 96
99 93 97 99
96 92 95 98
Se obtiene la siguiente tabla ANOVA: F.V. Explicada Residual Total Como F3,12,00 05 = 3,49 < 15,68 Se rechaza H0 = 0. Estimacin de los componentes de la varianza: 2 = MCE = 1,90 2 = MCT ra MCE 29,73 1,90 = = 6,96. n 4 S.C. G.L. M.C. F0 89.19 3 29.73 15.68 22.75 12 1.90 11.94 15
La estimacin de la varianza de cualquier observacin de la muestra es 2 + 2 = 1,90 + 6,96 = 8,86 y la mayor parte de la variabilidad se debe a diferencias entre las mquinas. 34
Intervalos de conanza para los componentes de la varianza

El intervalo de conanza para 2 al 100(1 ) % es (N a)MCE (N a)MCE 2 2 N a, 2 N a,1
2 2
El intervalo de conanza para 2 no se puede calcular de modo exacto, dado que depende de una combinacin lineal de 2 s. Por tanto se calcula el intervalo para el cociente 2 . 2 + 2 Se denomina l1 l2 ! MCT ra 1 1 MCE Fa1,N a , 2 ! 1 1 MCT ra = 1 n MCE Fa1,N a,1 2 1 = n
entonces el intervalo de conanza al 100(1 ) % es 2 l2 l1 2 2 . 1 + l1 + 1 + l2 Ejemplo. En el caso de la fbrica de maquinillas de afeitar, = F3,12,0,025 = 4,47 Fa1,N a , 2 = F3,12,0,975 = Fa1,N a,1 2 De este modo l1 l2 ! 1 MCT ra 1 = 0,625 MCE Fa1,N a , 2 ! 1 1 MCT ra = 1 = 54,883 n MCE Fa1,N a,1 2 1 = n 1 F12,3,0,025 = 0,070.
35
de modo que l1 2 l2 2 2 1 + l1 + 1 + l2 2 0,625 54,883 2 2 1, 625 + 55,883 2 0,98 0,39 2 + 2 Esto es, la variabilidad de las mquinas justica entre el 40 % y el 98 % de la variabilidad total.
36
Test de Kruskal-Wallis
Cuando no est justicado asumir normalidad, se puede utilizar la metodologa no paramtrica. El test de Kruskal-Wallis propone como hiptesis nula que los a tratamientos son iguales, frente a la hiptesis alternativa de que algunas observaciones son mayores que otras entre los tratamientos. Se puede considerar que este test es adecuado para contrastar la igualdad entre las medias. Procedimiento. Se calculan rangos de cada una de las observaciones yij de manera creciente y se reemplaza por su rango Rij , donde la menor observacin tendra el valor 1. En caso de empates, se asigna a todas las observaciones empatadas el valor medio de sus correspondientes rangos. Se denota como Ri la suma de los rangos del i -simo tratamiento de modo que el estadstico es " a # 2 2 N ( N + 1) 1 X Ri H= 2 S i=1 ni 4
donde ni es el nmero de observaciones que hay en el tratamiento i, N es el nmero total de observaciones y " a n # i 2 XX 1 N ( N + 1) R2 . S2 = N 1 i=1 j =1 ij 4
Se puede observar que S 2 es simplemente la varianza de los rangos. Si no hay empates, entonces S 2 =
N (N +1) 12
y el test se simplica, quedando el estadstico X R2 12 i H= 3(N + 1). N (N + 1) i=1 ni

a
Para valores ni > 5, H se distribuye aproximadamente como una 2 a1 si la hiptesis nula es cierta. Por tanto, si H > 2 a1, se rechaza la hiptesis nula a un nivel . Ejemplo. En el ejemplo de las camisas fabricadas segn su porcentaje de algodn, se tenan los siguientes datos:
37
% de algodn 15 20 25 30 35
7 12 14 19 7
Observaciones 7 15 11 9 17 12 18 18 18 18 19 19 25 22 19 23 10 11 15 11
Si se calculan los correspondientes rangos, se obtiene: Rangos R1j R2j R3j R4j R5j As, calculando " a n # i 2 XX 1 N ( N + 1) S2 = R2 = N 1 i=1 j =1 ij 4 1 25 262 5497,79 = 53,03 24 4 " a # 2 2 N ( N + 1) 1 X Ri = H = S 2 i=1 ni 4 1 25 262 = 52,45 = 19,25. 53,03 4 Como H > 2 4,0,01 = 13,28, entonces se rechaza la hiptesis nula obtenindose la misma conclusin que en el caso de usar el test clsico paramtrico. Suma 27.5 66 85 113 33.5
2 2 12.5 7 4 9.5 14 9.5 16.5 16.5 11 16.5 16.5 20.5 20.5 20.5 25.5 23 20.5 24 2 5 7 12.5 7
38
Test de aleatorizacin y test Bootstrap

Se pueden realizar tests de aleatorizacin sobre los errores para contrastar medias. El algoritmo es 1. Calcular el estadstico F0 del modo habitual sobre los datos originales. 2. Calcular el residuo para cada observacin, como la diferencia entre cada observacin y la media de todas las observaciones dentro de su grupo correspondiente. 3. Asignar aleatoriamente los residuos en los grupos del mismo tamao sumndolos a las medias de cada grupo, y calcular F1 , el estadstico de la F de Snedecor obtenido sobre los nuevos datos generados. 4. Repetir el paso (3) un nmero N de veces para generar los valores F1 , F2 , . . . , FN 5. Declarar que F0 es signicativo a un nivel si es mayor que el valor correspondiente al percentil (1 ) de los valores F1 , F2 , . . . , FN . Se puede modicar este algoritmo, cambiando el paso (3) remuestreando los residuos con reemplazamiento para producir nuevos conjuntos de datos. Este mtodo da un test Bootstrap de signicacin que tiene propiedades similares al anterior. Sin embargo, hay una diferencia entre ambos mtodos: El test basado en aleatorizacin, se basa en la idea de que los residuos aparecen orden aleatorio, mientras que el mtodo Bootstrap se basa en una aproximacin a la distribucin F de Snedecor que se obtendra remuestreando de las poblaciones de donde vienen los datos originales.
39
Seleccin del tamao de una muestra

En diseo de experimentos un problema importante es el de determinar el nmero de rplicas que se tienen que realizar para cada tratamiento. Una tcnica frecuentemente empleada se basa en jar el error de tipo II. Observaciones. Se puede cometer error de tipo I: = P {Rechazar H0 |H0 es cierta} o bien = P {No Rechazar H0 |H0 es falsa} Se llama potencia de un test a la P {Rechazar H0 |H0 H1 } , de modo que 1 = P {Rechazar H0 |H0 es falsa} coincide con la potencia del test cuando H0 es falsa. Se trata de construir contrastes que tengan un tamao jo y una potencia mxima (es decir un valor pequeo) cosa que cumplen, por ejemplo, los test UMP (de uniformemente mxima potencia). En este caso = 1 P {F0 > Fa1,N a, |H0 es falsa} . Para calcular esta probabilidad, se necesita conocer la distribucin de F0 =
MCT ra MCE
cuando
la hiptesis nula es falsa. Se puede demostrar que en ese caso, se distribuye como una F no centrada con a 1 y N a grados de libertad y un cierto parmetro de centralidad. Se utilizan curvas caractersticas que dibujan la probabilidad de error de tipo II ( ) frente a un parmetro donde n 2 =
a X
2 i = 40
i=1 a 2
a X i=1
ni 2 i
a 2
La cantidad 2 est relacionada con el parmetro de centralidad, y se presentan habitualmente curvas para = 0,05 y = 0,01. El parmetro anterior, depende de 1. Los valores 1 , . . . , a o bien 1 , . . . , a para los que se consideran medias distintas, ya que obviamente dichos valores no son conocidos previamente. 2. El valor de 2 , que al ser tambin desconocido, se suele usar el valor que se obtiene mediante una muestra piloto. 3. El nmero de rplicas por tratamiento. As, jados los valores de i y el valor de 2 se debe determinar n para que la potencia sea (1 ). Una manera de hacerlo es buscando en las tablas de curvas caractersticas de operacin. Ejemplo. Supongamos que en el ejemplo de las prendas el experimentador est interesado en rechazar la igualdad entre los tratamientos con una probabilidad mnima de 0,9 (error de tipo II: = 0,1). Se asumen unas medias poblacionales por grupo igual a 1 = 11, 2 = 12, 3 = 15, 4 = 18, 5 = 19 de modo que la media total es =
11+12+15+18+19 5
= 15.
Supongamos una estimacin previa (mediante e.g. una muestra piloto) de 2 = 9 y que el nivel elegido es 0,01. Se tiene que i = i , de manera que 1 = 11 15 = 4 2 = 12 15 = 3 3 = 15 15 = 0 4 = 18 15 = 3 5 = 19 15 = 4 41
Entonces n 2 =
5 X
2 i =
i=1 2
n(16 + 16 + 9 + 9) = 1,11 n 59
Se construye una tabla, dando distintos valores a n : n 2 g.l. (a 1, a(n 1)) (1- ) Potencia 4 4,44 2,11 (4, 15) 0,3 0,7 5 5,55 2,36 (4, 20) 0,15 0,85 6 6,66 2,58 (4, 25) 0,04 0,96 Por tanto es necesario realizar, al menos, 6 rplicas.
Lectura de las Curvas de Operacin

(i ) Se elige la curva de operacin. Para ello se calculan los grados de libertad: a 1 = 5 1 = 4, y se elige la curva con v1 = 4. (ii ) Se ja el haz de curvas correspondiente al valor de elegido: en el ejemplo, sera = 0,01. (iii ) Se elige la curva correspondiente a v2 = a(n 1). Por ejemplo, si n = 4, se tomara v2 = 15. (iv ) En el eje X se busca el valor del parmetro y se ja la ordenada para ese valor de que muestra la curva de operacin elegida en (iii ). Por ejemplo, para n = 4, v2 = 15, el valor est cerca de 0,30. (v ) El valor de la probabilidad de error de tipo II est en la ordenada. En el ejemplo es 0.30, de manera que la potencia es (1 ) = 0,70. A menudo resulta difcil seleccionar las medias para cada tratamiento que se quieren usar, para determinar el tamao de la muestra. Una alternativa consiste en considerar el valor de la mxima diferencia posible entre las medias: D. 42
Se puede demostrar que el valor mnimo de 2 es 2 = D2 n . 2a 2
Como es el valor mnimo, entonces se obtiene el tamao muestral adecuado para obtener como mnimo la potencia especicada.
Modelo de efectos aleatorios

En este modelo, se contrasta H0 = 0 H1 > 0 En este caso, si H1 es cierta, entonces F0 = MCT ra Fa1,N a MCE
de manera que se pueden usar las tablas habituales de la F de Snedecor para determinar el tamao muestral. Tambin se pueden usar curvas de operacin caracterstica, donde aparecen las grcas del error de tipo II, frente al parmetro = r 1+ n 2 2
2 Los trminos 2 y al ser desconocidos se jan dependiendo de la sensibilidad deseada
para el experimento.
43
Aplicacin con R
Se puede usar la librera Rcmdr de R, y ejecutar las siguientes sentencias en la ventana de arriba de Rcmdr:
library(Rcmdr) Datos <- read.table("C:/CursoCIII/Disenno/Practicas06/dat1Fac.txt", header=TRUE, sep="", na.strings="NA", dec=".", strip.white=TRUE) Datos$grupo <- factor(Datos$grupo, labels=c('15%','20%','25%','30%','35%')) tapply(Datos$medida, Datos$grupo, var, na.rm=TRUE) levene.test(Datos$medida, Datos$grupo) tapply(Datos$medida, Datos$grupo, var, na.rm=TRUE) bartlett.test(medida ~ grupo, data=Datos) anova(lm(medida ~ grupo, data=Datos)) tapply(Datos$medida, tapply(Datos$medida, tapply(Datos$medida, tapply(Datos$medida, Datos$grupo, Datos$grupo, Datos$grupo, Datos$grupo, mean, na.rm=TRUE) # means sd, na.rm=TRUE) # std. deviations function(x) sum(!is.na(x))) # counts median, na.rm=TRUE)
kruskal.test(medida ~ grupo, data=Datos) plotMeans(Datos$medida, Datos$grupo, error.bars="conf.int", level=0.95) boxplot(medida~grupo, ylab="medida", xlab="grupo", data=Datos) #...................................................................
Alternativamente, se puede hacer lo mismo con R pero mediante sentencias:

# Con Sintaxis setwd("c:/Curso/ ") datos <- read.table("dat1Fac.txt", header=T) attach(datos) elgrupo <- factor(grupo, labels=c('15%','20%','25%','30%','35%')) # Para ver transformaciones de Box-Cox: # Se busca el maximo de la funcion de verosimilitud library(MASS) boxcox(medida ~ grupo, data=datos, lambda=seq(-3, 3)) # De modo artesanal: premedias <- lapply(1:5,function(eso){mean(medida[grupo==eso])}) predesv <- lapply(1:5,function(eso){sqrt(var(medida[grupo==eso]))}) medias <- NULL medias <- for (i in 1: 5) {medias <- c(medias,premedias[[i]]) } desv <- NULL desv <- for (i in 1: 5) {desv <- c(desv,predesv[[i]]) }
44
lmedias <- log(medias) ldesv <- log(desv) mod <- lm(ldesv~lmedias) summary(mod) # El coeficiente de la transformacion es (1-pendiente) # redondeado al valor mas proximo a multiplos de 0.5 lambda <- 1-mod$coefficients[[2]] boxplot(medida ~ elgrupo, main="Distribucin de medidas por grupos") fac1 <- aov(medida ~ elgrupo) summary(fac1) coefficients(fac1) # Graficas por defecto de aov par(mfrow=c(2,2)) plot(fac1) #................................................................... # Graficos de ajuste varios # Grafica de ajuste a normalidad qqnorm(fac1$res) qqline(fac1$res) plot(fac1$fit,fac1$res,xlab="Valores Ajustados",ylab="Residuos", main="Residuos frente a niveles") abline(h=0,lty=2) # Analizo los residuos para verificar que cumple con las hiptesis plot(fitted.values(fac1),rstandard(fac1), xlab="Valores Ajustados", ylab="Residuos Estandarizados",pch=20) plot(jitter(fac1$fit),fac1$res,xlab="Fitted",ylab="Residuos", main="Grafico Jittered") #...................................................................
Se puede considerar un test no paramtrico, de modo alternativo:

# test de no parametrico de Kruskal-Wallis krus <- kruskal.test(medida,elgrupo) krus
45
Para comparaciones mltiples se pueden considerar el test de LSD, el de Bonferroni y el test de Tukey. El test de LSD hay que programarlo:
# test de LSD n1 <- sum(fac1$model$grupo=="1") n4 <- sum(fac1$model$grupo=="4") s <- sqrt(sum((fac1$residuals)^2)/fac1$df.residual) tcrit <- qt(0.025, fac1$df.residual, lower.tail=F) LSD <- tcrit*s*sqrt((1/n1)+(1/n4)) LSD # Metodo de Bonferroni library(stats) pairwise.t.test(medida,elgrupo,p.adjust.method="bonferroni")
# test de Tukey TukeyHSD(aov(medida ~ elgrupo))
46
Aplicacin con SAS

options ls=75 nodate nonumber; title 'ANOVA UNIFACTORIAL DE EFECTOS FIJOS'; data ano1; input grupo medida; cards; 1 7 1 7 1 15 1 11 1 9 2 12 2 17 2 12 2 18 2 18 3 14 3 18 3 18 3 19 3 19 4 19 4 25 4 22 4 19 4 23 5 7 5 10 5 11 5 15 5 11 ; proc anova; class grupo; model medida=grupo; means grupo /duncan snk lsd tukey; run;
ANOVA UNIFACTORIAL DE EFECTOS FIJOS The ANOVA Procedure Class Level Information Class grupo Levels 5 Values 1 2 3 4 5
Number of observations
25
47
Dependent Variable: medida Sum of Squares 475.7600000 161.2000000 636.9600000
Source Model Error Corrected Total R-Square 0.746923
DF 4 20 24
Mean Square 118.9400000 8.0600000
F Value 14.76
Pr > F <.0001
Coeff Var 18.87642
Root MSE 2.839014
medida Mean 15.04000
Source grupo
DF 4
Anova SS 475.7600000
Mean Square 118.9400000
F Value 14.76
Pr > F <.0001
t Tests (LSD) for medida NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.
Alpha Error Degrees of Freedom Error Mean Square Critical Value of t Least Significant Difference
0.05 20 8.06 2.08596 3.7455
Means with the same letter are not significantly different.
t Grouping A B B B C C C
Mean 21.600 17.600 15.400 10.800 9.800
N 5 5 5 5 5
grupo 4 3 2 5 1
48
Duncan's Multiple Range Test for medida NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.
Alpha Error Degrees of Freedom Error Mean Square
0.05 20 8.06
Number of Means Critical Range
2 3.745
3 3.931
4 4.050
5 4.132
Duncan Grouping A B B B C C C
Mean 21.600 17.600 15.400 10.800 9.800
N 5 5 5 5 5
grupo 4 3 2 5 1
49
Student-Newman-Keuls Test for medida NOTE: This test controls the Type I experimentwise error rate under the complete null hypothesis but not under partial null hypotheses.
Alpha Error Degrees of Freedom Error Mean Square
0.05 20 8.06
Number of Means Critical Range
2 3.7454539
3 4.5427095
4 5.0256316
5 5.3729604
SNK Grouping A B B B C C C
Mean 21.600 17.600 15.400 10.800 9.800
N 5 5 5 5 5
grupo 4 3 2 5 1
Tukey's Studentized Range (HSD) Test for medida NOTE: This test controls the Type I experimentwise error rate, but it generally has a higher Type II error rate than REGWQ.
Alpha Error Degrees of Freedom Error Mean Square Critical Value of Studentized Range Minimum Significant Difference
0.05 20 8.06 4.23186 5.373
Tukey Grouping A A A C C C
Mean 21.600 17.600 15.400 10.800 9.800
N 5 5 5 5 5
grupo 4 3 2 5 1
B B B D D D
50
options ls=75 nodate nonumber; title 'ANOVA UNIFACTORIAL DE EFECTOS ALEATORIOS'; data ano1; input caja peso; cards; 1 48 1 49 2 46 2 49 2 49 3 51 3 50 3 50 3 52 3 49 4 51 4 51 4 52 4 53 5 52 5 50 5 53 6 50 6 50 6 51 6 49 ; proc glm; class caja; model peso=caja; random caja/ test; proc varcomp method=type1; class caja; model peso=caja; run;
ANOVA UNIFACTORIAL DE EFECTOS ALEATORIOS The GLM Procedure Class Level Information Class caja Levels 6 Values 1 2 3 4 5 6
Number of observations
21
51
Dependent Variable: peso Sum of Squares 36.69285714 21.11666667 57.80952381
Source Model Error Corrected Total R-Square 0.634720
DF 5 15 20
Mean Square 7.33857143 1.40777778
F Value 5.21
Pr > F 0.0057
Coeff Var 2.361750
Root MSE 1.186498
peso Mean 50.23810
Source caja Source caja
DF 5 DF 5
Type I SS 36.69285714 Type III SS 36.69285714
Mean Square 7.33857143 Mean Square 7.33857143
F Value 5.21 F Value 5.21
Pr > F 0.0057 Pr > F 0.0057
Source caja
Type III Expected Mean Square Var(Error) + 3.4476 Var(caja)
Tests of Hypotheses for Random Model Analysis of Variance Dependent Variable: peso Source caja Error: MS(Error) DF 5 15 Type III SS 36.692857 21.116667 Mean Square 7.338571 1.407778 F Value 5.21 Pr > F 0.0057
Variance Components Estimation Procedure Class Level Information Class caja Levels 6 Values 1 2 3 4 5 6
Number of observations 21 Dependent Variable: peso
52
Type 1 Analysis of Variance Sum of Squares 36.692857 21.116667 57.809524
Source caja Error Corrected Total
DF 5 15 20
Mean Square 7.338571 1.407778 .
Type 1 Analysis of Variance Source caja Error Corrected Total Expected Mean Square Var(Error) + 3.4476 Var(caja) Var(Error) .
Type 1 Estimates Variance Component Var(caja) Var(Error) Estimate 1.72026 1.40778
53

Diseños Unifactoriales

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Diseños Unifactoriales

Uploaded by

Copyright:

Available Formats

Modelo de diseo unifactorial completamente aleatorizado

Modelo de efectos jos

ni = N, siendo i el valor medio de Y, la variable

El problema se puede resumir en la siguiente tabla:

Observaciones y11 y12 y1n y21 y22 y2n ya1

Se puede desomponer en dos partes esta suma total de cuadrados: SCT = = n

= SCT ra + SCE. ya que 2 = 2 pero

cuando las medias de los tratamientos son iguales, ya que el trmino

Sea zi N (0, 1) independientes entre s, para i = 1, 2, . . . v y sea

son independientes, por

Se rechaza H0 a nivel cuando F0 > F,a1,N a . 8

Estimacin de los parmetros.

ni a X a 2 X X yi y2 2 ( yi y ) = SCT ra = ni N i=1 j =1 i=1

SCE = SCT SCT ra

Para resolver las ecuaciones normales se considera la restriccin

SCE = SCT SCT ra 15

= 72 + 72 + 152 + ... + 152 + 112 25 15,042 = = 636,96

= 5(9,82 + ... + 10,82 ) 25 15,042 = = 475,76

Primer caso Sumas 20 19 20 21 80 22 22 22 22 88 24 24 23 25 96 264 Medias 20 22 24 22

Segundo caso Sumas 45 0 10 25 80 8 30 38 12 88 15 44 2 35 96 264 Medias 20 22 24 22

ni a X X (yij y )2 = 36. SCT = i=1 j =1

SCE = SCT SCT ra = 36 32 = 4

2 2 ny = 8692 12 222 = 2884. yij

SCE = SCT SCT ra = 2884 32 = 2852. La tabla ANOVA es: 18

Comparaciones entre medias

As, un Intervalo de Conanza para i j a nivel es [( yi y j ) LSD ] y se denomina LSD = tN a, 2 s

Si Z1 , . . . , Za N (0, 1) U 2 m independientemente, entonces, Q = m ax

se distribuye con una distribucin de recorrido estudentizado de parmetros a y m.

|Zi Zj | Z(a) Z(1) q q = qa,m

= Se rechaza que i = j a nivel . = Se acepta que i = j a nivel .

Mtodo de Bonferroni En este criterio se rechaza i = j (i 6= j ) si |y i y j | > tN a, 2 p

luego hay 10 posibles comparaciones: s B = tN a, 2 p Como

t20, 00 05 = t20,00 0025 z0,0025 +

As la tabla de diferencias es: 22

Tests de recorrido studentizado

1 n r 1 (1) | > ra1,N a; |y (a1) y n r

y 1 y 5 y 2 y 3 y 4 9,8 10,8 15,4 17,6 21,6

|y i y j | |y 1 y 4 | = 11,8 |y 1 y 3 | = 7,8 4 | = 10,8 |y 5 y |y 1 y 2 | = 5,6 3 | = 6,8 |y 5 y 4 | = 6,2 |y 2 y |y 1 y 5 | = 1 2 | = 4,6 |y 5 y 2 | = 2,2 |y 3 y 4 | = 4 |y 3 y

Contrastes Ortogonales (mtodo de Sche)

= c1 x 1 + c2 x 2 + + ca x a y la estimacin de la varianza de es 2 = MCE c2 c2 1 + + a n1 na .

se rechaza la hiptesis H0 = 0 al nivel . Ejemplo. Supongamos que se trata de contrastar

11,8 = 6,56 > 4,21 1,8

Estudio de la adecuacin del modelo

Transformaciones para conseguir homocedasticidad

Modelo de efectos aleatorios

2 Se denomina a 2 y a como los componentes de la varianza y se supone que

lidad entre los tratamientos. En este caso, si H0 es cierta, 2 = 0, entonces F0 =

MCT ra Fa1,N a MCE

Del mismo modo, se obtiene que

Estima de los componentes de la varianza

Mquina Mquina Mquina Mquina

Intervalos de conanza para los componentes de la varianza

y el test se simplica, quedando el estadstico X R2 12 i H= 3(N + 1). N (N + 1) i=1 ni

Test de aleatorizacin y test Bootstrap

Seleccin del tamao de una muestra

Lectura de las Curvas de Operacin

Se puede demostrar que el valor mnimo de 2 es 2 = D2 n . 2a 2

Modelo de efectos aleatorios

2 Los trminos 2 y al ser desconocidos se jan dependiendo de la sensibilidad deseada

Alternativamente, se puede hacer lo mismo con R pero mediante sentencias:

Se puede considerar un test no paramtrico, de modo alternativo:

# test de Tukey TukeyHSD(aov(medida ~ elgrupo))

Aplicacin con SAS