Estad´ ıstica B´sica.

a

Mayo 2004

1

An´lisis de la varianza a ANOVA
Francisco Montes Departament d’Estad´ ıstica i I. O. Universitat de Val`ncia e http://www.uv.es/~montes

Estad´ ıstica B´sica. a

Mayo 2004

2

Comparaci´n de k medias o

Estad´ ıstica B´sica. a

Mayo 2004

3

Estatura y voz Los datos de la tabla que sigue se han extra´ de Hand, D. ıdo J., Daly, F., Lunn, A. D., McConway, K.J. y Ostrowski E. (1994) Small Data Sets. London: Chapman and Hall, p.276, y corresponden a las estaturas, expresadas en metros, de cantores masculinos de la Sociedad Coral de Nueva York. Los cantores se han agrupado seg´n su tono de voz en orden u decreciente de tonalidad (de Tenor 1 a Bajo 2). Se sospecha que las voces bajas corresponden a personas de mayor estatura.

88 1.91 1.75 1.73 1.73 1.85 1.80 1.78 1.78 1.70 1.80 1.78 .68 1.80 1.91 1.83 1.78 1.75 1.68 1.80 1.73 1.75 1.83 1.80 1.78 1.78 1.83 1.80 1.78 1.83 1.75 1.78 1. a Mayo 2004 4 Estatura y voz: los datos 1.73 1.70 1.73 1.78 1.88 1.83 Bajo 2 1.80 1.80 1.68 1.83 1.73 1.75 1.85 1.73 1.78 1.73 1.91 1.73 1.83 1.68 1.73 1.78 1.85 1.68 1.78 1.80 1.63 1.91 1.78 1.83 1.75 1.65 1.88 1.80 1.83 1.80 1.75 Tenor 1 1.73 1.75 1.88 1.83 1.88 1.93 1.83 1.63 1.88 1.91 1.91 1.78 1.80 1.80 1.83 1.91 1.83 1.75 1.63 Tenor 2 1.91 1.73 1.Estad´ ıstica B´sica.85 1.93 1.75 1.78 1.83 Bajo 1 1.73 1.70 1.75 1.85 1.68 1.80 1.78 1.80 1.68 1.83 1.70 1.75 1.

media global o gran media media del grupo .Estad´ ıstica B´sica... a Mayo 2004 5 Estatura y voz: un gr´fico a 1 2 3 4 - Tenor 1 Tenor 2 Bajo 1 Bajo 2 ..

a Mayo 2004 6 Estatura y voz: hip´tesis a contrastar o Si µi . H0 : µ1 = µ2 = µ3 = µ4 . por e ejemplo.Estad´ ıstica B´sica. . µ1 = µ2 = µ3 = µ4 . 4 designa la media de la poblaci´n i. . . . . Obs´rvese que H1 puede significar muchas cosas. frente a H1 : las medias son distintas. µ1 = µ2 = µ3 = µ4 . .. i = 1.. lo o primero que debemos hacer es contrastar que dichas medias no son iguales.

donde n es el ıa n´mero de comparaciones. a o Si las 6 comparaciones condujeran a aceptar µi = µj con un nivel α = 0.Estad´ ıstica B´sica. u k = 6 → n = 15 → α ≈ 0. 26. 05. 5 . pero 2 adem´s hay un problema con el nivel de significaci´n final. a Mayo 2004 7 ¿C´mo contrastar la igualdad de k medias? o Si empleamos el test de la t de Student para 2 muestras independientes hemos de efectuar 4 comparaciones. ser´ α = 0. el nivel de significaci´n para o H0 : µ1 = µ2 = µ3 = µ4 . En general α = 1 − (1 − α)n .

σi ). Para ello parte de 3 requisitos previos: Independencia: las k muestras son independientes. . . Como su nombre indica. . . El test que lo permite es el test ANOVA (de ANalysis Of VAriance). .Estad´ ıstica B´sica. compara varianzas aunque lo que contrastamos sean medias. 2 Normalidad: Xi ∼ N (µi . y 2 2 2 Homocedasticidad: σ1 = σ2 = · · · = σk = σ 2 . a Mayo 2004 8 Una comparaci´n simult´nea: ANOVA o a Necesitamos poder comparar simult´neamente todas la a medias. i = 1. k.

x1n1 medias varianzas x1 s2 1 2 x21 x22 . . .Estad´ ıstica B´sica. xini xi s2 i ··· ··· ··· ··· ··· ··· ··· k xk1 xk2 . a Mayo 2004 9 Fundamentos del ANOVA (1) k grupos 1 x11 x12 . . . . . xknk xk s2 k . . x2n2 x2 s2 2 ··· ··· ··· ··· ··· ··· ··· i xi1 xi2 . .

o σ = ˆ 2 s2 1 = k k s2 i i=1 (1) y σ = ˆ 2 ns2 x n = k−1 k (¯i −¯)2 (2) x x i=1 .Estad´ ıstica B´sica. n E(s2 ) = σ 2 . lo que nos permite dos estimaciones diferentes para σ 2 cuando disponemos de k muestras de una misma poblaci´n. ¿Por qu´? Recordemos que la media y la varianza e muestral verifican σ2 var(¯) = x . a Mayo 2004 10 Fundamentos del ANOVA (2) El ANOVA se basa en la comparaci´n de la variabilidad o media que hay entre los grupos con la que hay dentro de los grupos.

(H0 es cierta) y tanto o (1) como (2) son v´lidos. mientras que (2) y (3) describen la variabilidad entre los grupos. si las k muestras provienen de la misma poblaci´n todas la medias son iguales. a ¿Qu´ ocurre cuando las medias no son iguales? Si e suponemos que µi = µ + αi entonces ns2 x 1 =σ + ˆ k−1 2 k ni αi ˆ2 i=1 (3) Obs´rvese que (1) describe la variabilidad dentro de los e grupos. .Estad´ ıstica B´sica. a Mayo 2004 11 Fundamentos del ANOVA (3) En la tabla anterior.

con µi = µ + αi .Estad´ ıstica B´sica. . ∀i. a Mayo 2004 12 El test del ANOVA Si la observaci´n j-´sima del grupo i es de la forma o e Xij = µi + εij . las hip´tesis o H0 : αi = 0. frente a H1 : alg´n αi = 0 ⇐⇒ las µi son distintas. u se contrastan mediante el cociente de varianzas F0 = ns2 x s2 = σ2 + ˆ 1 k−1 k i=1 ni αi ˆ2 σ2 ˆ (4). ∀i ⇐⇒ µi = µ.

Yn son muestras 2 2 independientes de N (µ1 .Estad´ ıstica B´sica. . σ1 ) y N (µ2 . una F de Fisher con m − 1 gl en el numerador y n − 1 gl en el denominador. . Y2 . Xm y Y1 .n−1 . . X2 . . σ2 ). un test para comparar la igualdad de varianzas se basa en que el cociente corregido de varianzas muestrales. S2 /σ2 σ 1 S2 se distribuye como una Fm−1. a Mayo 2004 13 Comparaci´n de varianzas o Si X1 . . . 2 2 2 2 S1 /σ1 σ 2 S1 F = 2 2 = 2 · 2. . . respectivamente. .

a Mayo 2004 14 La tabla ANOVA Todo se reduce a obtener el valor del estad´ ıstico (4) que bajo las condiciones iniciales de independencia.n−k .Estad´ ıstica B´sica. Se trata de disponer en forma de tabla a ciertas cantidades que conducen a la obtenci´n de F . El o m´todo est´ incorporado en los paquetes estad´ e a ısticos m´s a habituales. se distribuye como una Fk−1. Un m´todo computacional conocido como tabla ANOVA e facilita los c´lculos. . normalidad y homocedasticidad. La comparaci´n con el valor te´rico correspondiente nos dir´ si o o a debemos aceptar o rechazar H0 .

Estad´ ıstica B´sica. a Mayo 2004 15 Estructura de la tabla ANOVA SS Entre SSE = = Dentro SSD = = Total SST = k i=1 k i=1 k i=1 ni x j=1 (¯i GL − x)2 ¯ k−1 MS MSE = SSE k−1 F M SE M SD ni (¯i − x)2 x ¯ ni j=1 (xij − xi )2 ¯ n−k MSD = SSD n−a k i=1 (ni k i=1 − 1)x2 i − xi)2 ¯ n−1 ni j=1 (xij .

por ejemplo el de Kolmogorv-Smirnov. La independencia es el investigador quien debe garantizarla mediante una adecuada toma de muestras. . La normalidad debe contrastarse mediante un test apropiado. a Mayo 2004 16 An´lisis de los datos de los tenores a En primer lugar habr´ que comprobar que los requisitos a iniciales se cumplen.Estad´ ıstica B´sica. La homocedasticidad debe tambi´n contrastarse con un e test apropiado: el de la F o el de Levene.

2) SORT CASES BY voz . a Mayo 2004 17 Datos de los tenores: Flujo SPSS 1) GET DATA /TYPE=XLS /FILE=’C:\directorio\datos’ /CELLRANGE=full /READNAMES=on . SEPARATE BY voz . 4) ONEWAY estatura BY voz /STATISTICS DESCRIPTIVES HOMOGENEITY /MISSING ANALYSIS . .Estad´ ıstica B´sica. SPLIT FILE . 3) NPAR TESTS /K-S(NORMAL)= estatura /MISSING ANALYSIS.

Estad´ ıstica B´sica. a Mayo 2004 18 Datos de los tenores: Prueba de Normalidad .

a Mayo 2004 19 Datos de los tenores: Comparaci´n de medias o .Estad´ ıstica B´sica.

pero en este caso las preguntas a intentar responder n son ¿entre que grupos hay diferencias? ¿es posible establecer conjuntos homog´neos de medias? e . a Mayo 2004 20 Datos de los tenores: Resultados Como el p-valor asociado al valor de F encontrado es menor que α = 0. 05. Si hubi´ramos aceptado H0 no habr´ m´s que e ıa a a˜adir. rechazamos la hip´tesis nula y aceptamos o que hay diferencias entre las medias de las estaturas de los 4 grupos.Estad´ ıstica B´sica.

. La llevaremos a cabo con m´todos e que corrigen los problemas que surgen con el nivel de significaci´n final.05).Estad´ ıstica B´sica. o ONEWAY estatura BY voz /STATISTICS HOMOGENEITY /MISSING ANALYSIS /POSTHOC = TUKEY SCHEFFE ALPHA(. de las que hemos huido al principio. a Mayo 2004 21 Comparaciones m´ltiples u Las respuestas a las anteriores preguntas exigen llevar a cabo todas las posibles comparaciones dos a dos.

Estad´ ıstica B´sica. a Mayo 2004 22 Resultados de las comparaciones m´ltiples u 2 opu rgbus 1 opu rgbu s .

a Mayo 2004 23 Violaci´n de las condiciones previas o La normalidad previa de los datos es de menor importancia que la exigencia de homocedasticidad. porque el Teorema Central del L´ ımite implica que las medias muestrales deben ser aproximadamente normales. es posible llevar a cabo una transformaci´n de los datos para o conseguirla. Si la igualdad de varianzas no puede ser asumida. Lo ilustraremos con un ejemplo .Estad´ ıstica B´sica.

1 2 8. 0 8 1. 0 5 2. 0 8 3. 0 2 0. 0 1 2. 0 8 8. 0 2 6. 0 1 II I o ne neV sot neim at a rT La tabla recogen el tiempo de supervivencia (en unidades de 10 horas) de animales que fueron envenenados y se les administr´ un tratamiento. 0 6 3. 0 6 4. 0 5 4. 0 2 9. 0 6 6. 0 3 4. o Veneno. 0 8 3. 1 6 5. 0 2 2. 0 9 2. 0 5 3. 0 3 2. 0 0 1.III 3 3. 0 1 3. 0 4 2 2. 0 3 4. 0 6 7. 0 5 4. 0 3 2. 0 1 7. 0 7 3. 0 0 3. 0 4 2. 0 4 4. tratamiento y tiempo de supervivencia Estad´ ıstica B´sica. 0 4 2. 0 1 6. 0 0 3. a Mayo 2004 24 . 0 0 4. 0 3 9 2. 0 0 4. 0 1 3. 0 6 3. 0 3 6. 1 9 4. 0 2 3 2. 0 1 3. 0 1 7. 0 5 4. 0 2 7.

Estad´ ıstica B´sica. Doce. y contrastamos la ´ homogeneidad de las varianzas. a Mayo 2004 25 Heterocedasticidad Definimos un factor unico. .

Estad´ ıstica B´sica. a Mayo 2004 26 Estimaci´n de la potencia o La homogeneidad de varianzas puede conseguirse mediante una transformaci´n de los datos del tipo y = xλ . . El valor de o λ nos lo proporciona el Gr´fico de Estimaci´n de la potencia a o del procedimiento Explorar en el SPSS.

Estad´ ıstica B´sica. . que nos indica la transformaci´n a a o realizar. λ ≈ −1 ⇒ y = 1/x. a Mayo 2004 27 Gr´fico de la estimaci´n de la potencia a o El resultado es el gr´fico. se tratar´ por tanto de un ıa ´ ındice de morbilidad.

. a Mayo 2004 28 ´ Indice de morbilidad y homocedasticidad Definida la nueva variable.Estad´ ıstica B´sica.

Estad´ ıstica B´sica. El test de Kruskal-Wallis es una alternativa no param´trica al ANOVA. a Mayo 2004 29 Una alternativa no param´trica: el test de e Kruskal-Wallis En ocasiones las condiciones de normalidad y homocedasticidad no pueden asumirse. e .

a Mayo 2004 30 Un ejemplo del test de Kruskal-Wallis NPAR TESTS /K-W=piezas BY m´quina(1 3) a /MISSING ANALYSIS.Estad´ ıstica B´sica. .

ν = t2 . . a Mayo 2004 31 Equivalencia entre el test t y el ANOVA (1) Si los grupos a comparar son 2 podemos recurrir al test de la t de Student y al ANOVA.Estad´ ıstica B´sica. ¿Podemos encontrar resultados diferentes? No porque entre las distribuciones t de Student y F de Fisher existe la siguiente relaci´n o F1. ν siendo ν = n1 + n2 − 2 el n´mero de grados de libertad de u la t de Student o del denominador de la F de Fisher.

a Mayo 2004 32 Equivalencia entre el test t y el ANOVA (2) Veamos la comparaci´n de la estaturas del Tenor 1 y Tenor o 2.Estad´ ıstica B´sica. .