You are on page 1of 12

ANALISIS DE VARIANZA (ANOVA) Introduccin.

El anlisis de la varianza (o Anova: Analysis of variance) es un mtodo para comparar dos o ms medias, que es necesario porque cuando se quiere comparar ms de dos medias es incorrecto utilizar repetidamente el contraste basado en la t de Student. Por dos motivos: En primer lugar, y como se realizaran simultnea e independientemente varios contrastes de hiptesis, la probabilidad de encontrar alguno significativo por azar aumentara. En cada contraste se rechaza la H0 si la t supera el nivel crtico, para lo que, en la hiptesis nula, hay una probabilidad . Si se realizan m contrastes independientes, la probabilidad de que, en la hiptesis nula, ningn estadstico supere el valor crtico es (1 - ) m, por lo tanto, la probabilidad de que alguno lo supere es 1 - (1 - ) m, que para valores de prximos a 0 es aproximadamente igual a m. Una primera solucin, denominada mtodo de Bonferroni, consiste en bajar el valor de , usando en su lugar /m, aunque resulta un mtodo muy conservador. Por otro lado, en cada comparacin la hiptesis nula es que las dos muestras provienen de la misma poblacin, por lo tanto, cuando se hayan realizado todas las comparaciones, la hiptesis nula es que todas las muestras provienen de la misma poblacin y, sin embargo, para cada comparacin, la estimacin de la varianza necesaria para el contraste es distinta, pues se ha hecho en base a muestras distintas. El mtodo que resuelve ambos problemas es el Anova, aunque es algo ms que esto: es un mtodo que permite comparar varias medias en diversas situaciones; muy ligado, por tanto, al diseo de experimentos y, de alguna manera, es la base del anlisis multivalente.

Arreglo Matricial. ANOVA de un factor Se denomina modelo factorial con un factor o ANOVA con un factor al modelo (lineal) en el que la variable analizada la hacemos depender de un slo factor de tal manera que las causas de su variabilidad son englobadas en una componente aleatoria que se denomina error experimental:

Vamos a exponer esto con ms claridad. Consideremos una variable sobre la que acta un factor que puede presentarse bajo un determinado nmero de niveles, t. Por ejemplo podemos considerar un frmaco que se administra a t=3grupos de personas y se les realiza cierta medicin del efecto causado:

De modo general podemos representar la t muestras (o niveles) del siguiente modo:

Donde por supuesto, los tamaos de cada muestra ni, no tienen por qu ser iguales. En este caso decimos que se trata del modelo no equilibrado.

OBSERVACIN

De ahora en adelante asumiremos que las siguientes condiciones son verificadas por la t muestras:

Las observaciones proceden de poblaciones normales; Las t muestras son aleatorias e independientes. Adems, dentro de cada nivel las observaciones son independientes entre s. En el modelo de un factor suponemos que las observaciones del nivel i, xij, provienen de una variable Xij de forma que todas tienen la misma varianza --hiptesis de homocedasticidad:

O lo que es lo mismo,

De este modo

es el valor esperado para las observaciones del nivel i, y los

errores son variables aleatorias independientes, con valor esperado nulo, y con el mismo grado de dispersin para todas las observaciones.

Otro modo de escribir lo mismo consiste en introducir una cantidad que sea el valor esperado para una persona cualquiera de la poblacin (sin tener en cuenta los diferentes niveles), y considerar los efectos modo que: introducidos por los niveles, de

ESPECIFICACIN DEL MODELO ANOVA DE UN FACTOR Con todo lo anterior, el modelo ANOVA de un factor puede escribirse como

Y con la siguiente interpretacin:


es una constante comn a todos los niveles; es el efecto producido por el i-simo nivel. Al sumarlos todos deben compensarse los efectos negativos con los positivos para que la media comn a todos los niveles sea realmente . Esto implica en particular que los efectos, , de los niveles no son independientes; es la parte de la variable Xij no explicada por ni , y que se distribuye del mismo modo (aunque independientemente) para cada observacin, segn la ley gaussiana:

sta es la condicin de homocedasticidad, y es fundamental en el anlisis de la varianza. Obsrvese que ahora podemos escribir el contraste de que los diferentes niveles no tienen influencia sobre la observacin de la variable como:

O bien

Se utiliza el nombre de anlisis de la varianza ya que el elemento bsico del anlisis estadstico ser precisamente el estudio de la variabilidad. Tericamente es posible dividir la variabilidad de la variable que se estudia en dos partes:

La originada por el factor en cuestin; La producida por los restantes factores que entran en juego, conocidos o no, controlables o no, que se conocen con el nombre de error experimental.

Si mediante los contrastes estadsticos adecuados la variacin producida por cierto factor es significativamente mayor que la producida por el error experimental podemos aceptar la hiptesis de que los distintos niveles del factor actan de forma distinta. NOTACIN DEL MODELO ANOVA DE UN FACTOR Este apartado est dedicado a introducir alguna notacin para escribir los trminos que sern ms importantes a la hora de realizar un contraste por el mtodo ANOVA. En primer lugar tenemos:

Usando estos trminos vamos a desglosar la variacin total de la muestra en variacin total dentro de cada nivel (intravariacin) ms la variacin entre los distintos niveles (intravariacin). Para ello utilizamos la proposicin:

Dnde:

En el clculo del estadstico relacin:

intervienen N cantidades, ligadas por una

De este modo el nmero de grados de libertad de este estadstico es N1 (recurdese la nocin de grados de libertad de un estadstico). Por razones anlogas tenemos que el nmero de grados de libertad de es N-t y el de es t-1. As introducimos los siguientes estadsticos:

Estos son los estadsticos que realmente nos interesan a la hora de realizar el contraste de igualdad de medias. Cuando la diferencia entre los efectos de los diferentes niveles sea muy baja, es de esperar que la cuasivarianza total sea

prxima a la intravarianza, o lo que es lo mismo, que la intervarianza sea pequea en relacin con la intravarianza.

Experimento factorial con dos factores de variacin y el mismo nmero de observaciones por casilla. Se dispone de un conjunto de observaciones homogneas y se asigna los tratamientos (combinacin de niveles de los dos factores) aleatoriamente a las unidades. Los datos resultantes seran los siguientes

El modelo matemtico es ahora

Donde ai es el efecto debido al bloque, bj es el efecto debido al tratamiento, (ab)ij es el efecto conjunto (interaccin) y eij es el error. -Anlisis estadstico: Anlisis de la varianza de dos vas. Las hiptesis de que los distintos factores no producen ningn efecto y de que no existe interaccin se contrastan mediante el anlisis de la varianza de dos vas con interaccin, comparando la variabilidad entre los niveles del factor A, la variabilidad entre los niveles del factor B, y la variabilidad debida a la interaccin con la variabilidad dentro de los grupos o residual.

Fuente

Suma de cuadrados

g.l.

Estimador

Fexp

Filas

s-1

Columnas

r-1

Interacc.

(r-1)(s1)

Resid.

rs(t-1)

Total

rst-1

Los estimadores de los efectos de los bloques y tratamientos se estiman a partir de

Y la parte propia de cada observacin (o residual)

Los residuales pueden servirnos para la validacin de las hiptesis bsicas de la misma manera que en el diseo de una va.

Cuadro de resultados. La tabla ANOVA Todo se reduce a obtener el valor del estadstico (4) que bajo las condiciones iniciales de independencia, normalidad y homocedasticidad, se distribuye como una Fk1, nk. La comparacin con el valor terico correspondiente nos dir si debemos aceptar o rechazar H0. Un mtodo computacional conocido como tabla ANOVA facilita los clculos. Se trata de disponer en forma de tabla ciertas cantidades que conducen a la obtencin de F. El mtodo est incorporado en los paquetes estadsticos ms habituales.

Ejemplos: 2.- Una lista de palabras sin sentido se presenta en la pantalla del ordenador con cuatro procedimientos diferentes, asignados al azar a un grupo de sujetos. Posteriormente se les realiza una prueba de recuerdo de dichas palabras, obtenindose los siguientes resultados:

Qu conclusiones pueden sacarse acerca de las cuatro formas de presentacin, con un nivel de significacin del 5%? Solucin: Comenzamos calculando los totales y los cuadrados de los totales divididos por el nmero de observaciones:

A continuacin calculamos los cuadrados de las observaciones y su total:

A partir de estas cantidades bsicas calculamos las Sumas de Cuadrados: SC (Total) = 988 819,8 = 168,2 SC (Intra) = 988 902 = 86 SC (Entre) = 902 819,8 = 82,2 Los cuadrados medios sern: CM (Entre) = 82,2/3 = 27,4 CM (Intra) = 86/22 = 3,9 Por consiguiente el estadstico de contraste vale: F = 27,4/ 3,9 = 7,03 El valor de la F terica con 3 y 22 grados de libertad, a un nivel de confianza del 95% es 3,05. Por consiguiente se rechaza la hiptesis nula y se concluye que los cuatro procedimientos de presentacin producen diferencias significativas.

Conclusin.

En este tema de anlisis de varianza se pueden observar que tiene como funcin de una herramienta que es de gran utilidad en la industria, se puede utilizar para el control de procesos y mtodos analticos. El Anlisis de Varianza (ANOVA) se utiliza en situaciones donde las variables son aleatorias, donde ocupan de 2 o ms variables, quiere decir que hasta (n) porque en la distribucin de t de Student solo se utiliza con variables bien concretas. La estadstica es una herramienta muy eficaz para la industria para poder demostrar las situaciones del proceso u errores de ellos, tambin para ver que ten efectivo es la calidad u eficiencia de la empresa que se est usando la estadstica. Porque se observ en este tema de ANOVA que es simplemente la herramientas que se necesita para poder demostrar con los clculos y formulas las variables que indican que el proceso de la empresa esta saliendo defectuosos o que se produzca una probabilidad de que salga mal el producto y esto afecte a la empresa y a clientes.

You might also like