ANALISIS DE VARIANZA (ANOVA) Introducción.

El análisis de la varianza (o Anova: Analysis of variance) es un método para comparar dos o más medias, que es necesario porque cuando se quiere comparar más de dos medias es incorrecto utilizar repetidamente el contraste basado en la t de Student. Por dos motivos: En primer lugar, y como se realizarían simultánea e independientemente varios contrastes de hipótesis, la probabilidad de encontrar alguno significativo por azar aumentaría. En cada contraste se rechaza la H0 si la t supera el nivel crítico, para lo que, en la hipótesis nula, hay una probabilidadα . Si se realizan m contrastes independientes, la probabilidad de que, en la hipótesis nula, ningún estadístico supere el valor crítico es (1 - α ) m, por lo tanto, la probabilidad de que alguno lo supere es 1 - (1 - α ) m, que para valores de α próximos a 0 es aproximadamente igual a α m. Una primera solución, denominada método de Bonferroni, consiste en bajar el valor deα , usando en su lugar α /m, aunque resulta un método muy conservador. Por otro lado, en cada comparación la hipótesis nula es que las dos muestras provienen de la misma población, por lo tanto, cuando se hayan realizado todas las comparaciones, la hipótesis nula es que todas las muestras provienen de la misma población y, sin embargo, para cada comparación, la estimación de la varianza necesaria para el contraste es distinta, pues se ha hecho en base a muestras distintas. El método que resuelve ambos problemas es el Anova, aunque es algo más que esto: es un método que permite comparar varias medias en diversas situaciones; muy ligado, por tanto, al diseño de experimentos y, de alguna manera, es la base del análisis multivalente.

Consideremos una variable sobre la que actúa un factor que puede presentarse bajo un determinado número de niveles. t.Arreglo Matricial. Por ejemplo podemos considerar un fármaco que se administra a t=3grupos de personas y se les realiza cierta medición del efecto causado: De modo general podemos representar la t muestras (o niveles) del siguiente modo: . ANOVA de un factor Se denomina modelo factorial con un factor o ANOVA con un factor al modelo (lineal) en el que la variable analizada la hacemos depender de un sólo factor de tal manera que las causas de su variabilidad son englobadas en una componente aleatoria que se denomina error experimental: Vamos a exponer esto con más claridad.

En este caso decimos que se trata del modelo no equilibrado. provienen de una variable Xij de forma que todas tienen la misma varianza --hipótesis de homocedasticidad: • O lo que es lo mismo. - OBSERVACIÓN De ahora en adelante asumiremos que las siguientes condiciones son verificadas por la t muestras: • • Las observaciones proceden de poblaciones normales. . Además. De este modo es el valor esperado para las observaciones del nivel i. no tienen por qué ser iguales. Las t muestras son aleatorias e independientes. dentro de cada nivel las observaciones son independientes entre sí. En el modelo de un factor suponemos que las observaciones del nivel i. xij. y los errores son variables aleatorias independientes. con valor esperado nulo.Donde por supuesto. y con el mismo grado de dispersión para todas las observaciones. los tamaños de cada muestra ni.

según la ley gaussiana: • Ésta es la condición de homocedasticidad. de ESPECIFICACIÓN DEL MODELO ANOVA DE UN FACTOR Con todo lo anterior. y es fundamental en el análisis de la varianza. α. el modelo ANOVA de un factor puede escribirse como Y con la siguiente interpretación: • • es una constante común a todos los niveles. Obsérvese que ahora podemos escribir el contraste de que los diferentes niveles no tienen influencia sobre la observación de la variable como: . es la parte de la variable Xij no explicada por µ ni α . y considerar los efectos modo que: introducidos por los niveles. y que se distribuye del mismo modo (aunque independientemente) para cada observación. de los niveles no son independientes. Al sumarlos todos deben compensarse los efectos negativos con los positivos para que la media común a todos los niveles sea realmente µ. es el efecto producido por el i-ésimo nivel. Esto implica en particular que los efectos.Otro modo de escribir lo mismo consiste en introducir una cantidad que sea el valor esperado para una persona cualquiera de la población (sin tener en cuenta los diferentes niveles).

En primer lugar tenemos: . que se conocen con el nombre de error experimental. conocidos o no. NOTACIÓN DEL MODELO ANOVA DE UN FACTOR Este apartado está dedicado a introducir alguna notación para escribir los términos que serán más importantes a la hora de realizar un contraste por el método ANOVA. Si mediante los contrastes estadísticos adecuados la variación producida por cierto factor es significativamente mayor que la producida por el error experimental podemos aceptar la hipótesis de que los distintos niveles del factor actúan de forma distinta. Teóricamente es posible dividir la variabilidad de la variable que se estudia en dos partes: • • La originada por el factor en cuestión. controlables o no.O bien Se utiliza el nombre de análisis de la varianza ya que el elemento básico del análisis estadístico será precisamente el estudio de la variabilidad. La producida por los restantes factores que entran en juego.

ligadas por una De este modo el número de grados de libertad de este estadístico es N1 (recuérdese la noción de grados de libertad de un estadístico). es de esperar que la cuasivarianza total sea . Para ello utilizamos la proposición: Dónde: En el cálculo del estadístico relación: intervienen N cantidades. Cuando la diferencia entre los efectos de los diferentes niveles sea muy baja. Por razones análogas tenemos que el número de grados de libertad de es N-t y el de es t-1. Así introducimos los siguientes estadísticos: Estos son los estadísticos que realmente nos interesan a la hora de realizar el contraste de igualdad de medias.Usando estos términos vamos a desglosar la variación total de la muestra en variación total dentro de cada nivel (intravariación) más la variación entre los distintos niveles (intravariación).

Las hipótesis de que los distintos factores no producen ningún efecto y de que no existe interacción se contrastan mediante el análisis de la varianza de dos vías con interacción. Experimento factorial con dos factores de variación y el mismo número de observaciones por casilla. y la variabilidad debida a la interacción con la variabilidad dentro de los grupos o residual. o lo que es lo mismo. Se dispone de un conjunto de observaciones homogéneas y se asigna los tratamientos (combinación de niveles de los dos factores) aleatoriamente a las unidades. . (ab)ij es el efecto conjunto (interacción) y eij es el error. la variabilidad entre los niveles del factor B. comparando la variabilidad entre los niveles del factor A. Los datos resultantes serían los siguientes El modelo matemático es ahora Donde ai es el efecto debido al bloque.próxima a la intravarianza. -Análisis estadístico: Análisis de la varianza de dos vías. que la intervarianza sea pequeña en relación con la intravarianza. bj es el efecto debido al tratamiento.

. rs(t-1) Total rst-1 Los estimadores de los efectos de los bloques y tratamientos se estiman a partir de Y la parte propia de cada observación (o residual) Los residuales pueden servirnos para la validación de las hipótesis básicas de la misma manera que en el diseño de una vía. Estimador Fexp Filas s-1 Columnas r-1 Interacc.Fuente Suma de cuadrados g.l. (r-1)(s1) Resid.

se distribuye como una Fk−1. La tabla ANOVA Todo se reduce a obtener el valor del estadístico (4) que bajo las condiciones iniciales de independencia. Se trata de disponer en forma de tabla ciertas cantidades que conducen a la obtención de F. El método está incorporado en los paquetes estadísticos más habituales. . Un método computacional conocido como tabla ANOVA facilita los cálculos. La comparación con el valor teórico correspondiente nos dirá si debemos aceptar o rechazar H0. normalidad y homocedasticidad.Cuadro de resultados. n−k.

Posteriormente se les realiza una prueba de recuerdo de dichas palabras. con un nivel de significación del 5%? Solución: Comenzamos calculando los totales y los cuadrados de los totales divididos por el número de observaciones: A continuación calculamos los cuadrados de las observaciones y su total: . asignados al azar a un grupo de sujetos. obteniéndose los siguientes resultados: ¿Qué conclusiones pueden sacarse acerca de las cuatro formas de presentación.Ejemplos: 2..Una lista de palabras sin sentido se presenta en la pantalla del ordenador con cuatro procedimientos diferentes.

4 CM (Intra) = 86/22 = 3.9 = 7.03 El valor de la F teórica con 3 y 22 grados de libertad.2 Los cuadrados medios serán: CM (Entre) = 82.8 = 82.A partir de estas cantidades básicas calculamos las Sumas de Cuadrados: SC (Total) = 988 – 819.05.2/3 = 27.9 Por consiguiente el estadístico de contraste vale: F = 27. Por consiguiente se rechaza la hipótesis nula y se concluye que los cuatro procedimientos de presentación producen diferencias significativas.8 = 168. .2 SC (Intra) = 988 – 902 = 86 SC (Entre) = 902 – 819.4/ 3. a un nivel de confianza del 95% es 3.

El Análisis de Varianza (ANOVA) se utiliza en situaciones donde las variables son aleatorias. La estadística es una herramienta muy eficaz para la industria para poder demostrar las situaciones del proceso u errores de ellos. también para ver que ten efectivo es la calidad u eficiencia de la empresa que se está usando la estadística. En este tema de análisis de varianza se pueden observar que tiene como función de una herramienta que es de gran utilidad en la industria. se puede utilizar para el control de procesos y métodos analíticos. donde ocupan de 2 o más variables.Conclusión. . Porque se observó en este tema de ANOVA que es simplemente la herramientas que se necesita para poder demostrar con los cálculos y formulas las variables que indican que el proceso de la empresa esta saliendo defectuosos o que se produzca una probabilidad de que salga mal el producto y esto afecte a la empresa y a clientes. quiere decir que hasta (n) porque en la distribución de t de Student solo se utiliza con variables bien concretas.