You are on page 1of 10

ANOVA - REGRESIN

Diferencias significativas de muestras


Anlisis estadstico 3 o ms muestras: Los test paramtricos son tcnicas estadsticas que se aplican suponiendo que las variables en estudio siguen una distribucin normal. Se utilizan para datos de escalas de intervalo y magnitud. Se calcula un estadstico y se compara con un valor tabulado de acuerdo al test que se realiza. Se realizan suposiciones acerca de las poblaciones y de los resultados que se espera obtener con el experimento. Estos supuestos reciben el nombre de hiptesis y pueden adoptar dos formas. El supuesto de no existencia de diferencia entre muestras, se conoce como hiptesis nula. Esta hiptesis estadstica se acepta o rechaza en base al anlisis estadstico de los resultados experimentales. El otro supuesto consiste en asumir que existen diferencias entre las muestras, se conoce como hiptesis alterna o hiptesis de investigacin. Los resultados de las pruebas estadsticas se expresan indicando la probabilidad de que un resultado especfico pueda ocurrir por casualidad y no sea una diferencia real. Si un resultado ocurre por casualidad 5 de cada loo veces, se dice que la probabilidad es de 0,05. Por lo general, un resultado estadstico se considera significativo solamente si tiene una probabilidad de 0,05 o menos. Con este nivel de probabilidad, la hiptesis nula se rechazara 5 de cada 100 veces, cuando en realidad debera ser aceptada. Cuando se afirma que una diferencia es significativa al nivel de 5% (probabilidad de 0,05), lo que se quiere decir es que en 95 de cada 100 casos, existe una diferencia real. El nivel de significancia a adoptar en una prueba sensorial debe determinarse antes de iniciar la prueba, a fin de que la decisin no se vea influida por los resultados de la prueba. Por lo general se utilizan los niveles de 0,05 y de 0,01. Con el nivel de significancia de 0,05, resulta ms fcil detectar una diferencia, si sta realmente existe (hay ms probabilidades de que la diferencia identificada se deba a la casualidad) [Watts, 1992]. El anlisis de la varianza (ANOVA) es un mtodo estadstico para comparar dos o ms medias poblacionales, basndose en las varianzas.

Hay dos grandes tipos de Anlisis de Varianza: Simple, o de un factor (p.ej. consumidores) y la denominada De varios factores (p.ej. jueces y muestras). Los puntajes numricos para cada muestra, se tabulan y analizan por ANOVA, para determinar si existen diferencias significativas en el promedio de los puntajes asignados a las muestras. La varianza total se divide en varianza asignada a diferentes uentes especficas. La varianza de las medias entre muestras se compara con la varianza de dentro de la muestra (llamada tambin error experimental aleatorio)1. Si las muestras no son diferentes, la varianza de las medias entre muestras ser similar al error experimental. La varianza correspondiente a los panelistas o a otros efectos de agrupacin en bloque, puede tambin compararse con el error experimental aleatorio.

Dado que la varianza total dentro de las muestras es resultado de combinar las varianzas individuales de dentro de las muestras, un supuesto necesario es que las varianzas verdaderas dentro de las muestras son idnticas. Existen pruebas formales que pueden hacerse para comprobar la igualdad de las varianzas dentro de las muestras Csari Matilde 1

ANOVA - REGRESIN La medida de la varianza total para la prueba, es la suma total de los cuadrados SC(T). La varianza medida entre las medias de las muestras, es la suma de los cuadrados de los tratamientos o SC(Tr). La medida de la varianza entre las medias de panelistas es la sumade los cuadrados de los panelistas SC(P). La suma de los cuadrados del error SC(E) o MEC, es la medida de la varianza debida al error experimental o aleatorio. Los cuadrados medios (CM) para el tratamiento, los panelistas y el error, se calculan dividiendo cada SC entre sus respectivos grados de libertad (gl). Luego se calculan as razones entre CM(Tr) y CM(E) y entre CM(P) y CM(E). Estas razones se conocen como valores F o F estadstica. Los valores F calculados se comparan con los valores F tabulares a fin de determinar si existen diferencias significativas entre las medias del tratamiento o de los panelistas. Si el valor F calculado es superior al valor F tabulado, para el mismo nmero de grados de libertad, habr evidencia de que hay diferencias significativas. Una vez detectada una diferencia significativa, pueden hacerse pruebas de comparacin mltiple, para determinar cules son las medias del tratamiento o de la poblacin que difieren entre s. Los resultados de este tipo de test se resumen en un cuadro:

En qu se diferencian las muestras?


Pruebas de Contraste (comparaciones entre medias) Pruebas de comparacin mltiple de medias, se utilizan para identificar muestras que difieren entre s, una vez que se ha confirmado la presencia de dife rencias estadsticas mediante anlisis de varianza.

Existen muchas pruebas de comparacin mltiple, tales como la Nueva Prueba de Rangos Mltiples de Duncan, Prueba de Tukey, Prueba de la Menor Diferencia Significativa (MDS) y Prueba de Scheffe. De stas, la prueba de MDS resulta ser la ms poderosa y liberal, seguida de las pruebas de Duncan, Tukey y Scheffe. La prueba MDS har ms probable que se encuentren diferencias significativas entre dos muestras sin embargo, tambin puede identificar diferencias que en realidad no existen. La prueba de Scheffe, por otra parte, es bastante cautelosa o conservadora y puede no encontrar diferencias cuando stas en realidad existen. Duncan y Tukey son utilizadas frecuentemente para datos sensoriales ya que no son consideradas liberales o conservadoras[Watts, 1992].

Csari Matilde

ANOVA - REGRESIN Dos medias diferirn estadsticamente, si su diferencia supera la mnima diferencia significativa calculada por la prueba de comparaciones mltiples elegida.Mediasque no difieran significativamente, se identifican con la misma letra. Diferencia mnima significativa de Fisher LSD: es muy sensible porque acepta la diferencia an cuando es pequea. No es recomendable para comparar ms de 3-5 muestras. Se comparan las medias entre s y se verifica si la diferencia es mayor o igual o menor que FSD, si es la diferencia es significativa estadsticamente, para el nivel de significacin que se estableci para el estudio.

Qu es el anlisis de regresin lineal?


Es modelar la dependencia de la variable Y de la variable X a travs de una recta Ejercicio Modelo: En una ciudad de Canad, las personas al comprar casas se interesan por el precio del costo de la calefaccin. Se ha determinado que un grupo de factores pueden estar relacionados con el costo (en dlares): Temperatura exterior. (Grados Fahrenheit) Aislante trmico en el desvn. (en pulgadas) Antigedad del calefactor. rea de la sala principal del apartamento. (en metros cuadrados). Un cliente le ha preguntado a un vendedor: Si usted me brinda la informacin de las variables anteriores de un apartamento, cmo puedo saber yo aproximadamente cuanto pagar en calefaccin?. Cuan confiable ser la informacin que usted me brinde?

Clculo de la recta de regresin que expresa la relacin entre: Temperatura y Costo

Y = 0 + 1X +
0 y 1 parmetros; error aleatorio. 0 y 1 son estimados a partir de la muestra obteniendo la recta 0 Constante de regresin 1 Coeficiente de regresin

Interpretacin de la pendiente: Cunto cambia la variable dependiente Y, por cada unidad que vare la variable independiente X. Estimacin de los parmetros: Mtodo de los mnimos cuadrados. La recta de regresin hace mnimos los cuadrados de las distancias verticales desde cada punto de una observacin a la recta.

Csari Matilde

ANOVA - REGRESIN
Yi es un valor observado real de la variable Y i es un valor de la recta predicho por la ecuacin

(Yi Yi )2 = min
min es el nmero ms pequeo que se puede obtener si se suman estas desviaciones verticales elevadas al cuadrado entre los puntos y la recta.

Yi Yi

a1 =

( xy ) ( x )( y ) 2 n x 2 ( x )

Los coeficientes a1 y a0 se obtienen mediante las expresiones

a 0 = y a1 x
Sobre el ejemplo realizamos el Anlisis de Regresin Salida:
r Adjusted r r Std. Error 20 1 Costo 0.659 0.640 -0.812 63.553 observations predictor variable is the dependent variable

Csari Matilde

ANOVA - REGRESIN

ANOVA table Source Regression Residual Total variables intercept Temp SS 140,214.9411 72,700.8089 212,915.7500 coefficients 388.8020 -4.9342 df 1 18 19 confidence interval t (df=18) 11.355 -5.892 p-value 1.22E-09 1.41E-05 95% lower 316.8646 -6.6936 95% upper 460.7393 -3.1748 std. error 34.2408 0.8374 MS 140,214.9411 4,038.9338 F 34.72 p-value 1.41E-05

Regression output

Recta de regresin estimada

Y = 388,8020 - 4,9342X
Esta es la ecuacin de la recta de regresin pintada en el diagrama de dispersin, que fue mostrada anteriormente. Es importante destacar que la pendiente -4.9342 tiene signo negativo, sugiriendo que la relacin es inversa, anlogo al signo del coeficiente de correlacin (-.812). El valor de la pendiente significa que por cada grado que descienda la temperatura exterior habr un aumento promedio de 5 dlares en el costo de la calefaccin. El clculo de intervalos de confianza para la estimacin de parmetros son tcnicas que nos permiten hacer declaraciones sobre qu valores podemos esperar para un parmetro. El intervalo calculado depender de lo estimado en la muestra (porcentaje, media) El intervalo de confianza esta formado por valores ligeramente menores y mayores que la aproximacin ofrecida por la muestra; as como depender del tamao muestral, Cuantos ms datos hayan participado en el clculo, ms pequeo esperamos que sea la diferencia entre el valor estimado y el valor real desconocido y por ltimo de la probabilidad (nivel de confianza) con la que el mtodo dar una respuesta correcta. Niveles de confianza habituales para os intervalos de confianza son el 95% y el 99%. Puede parecer sorprendente que no busquemos respuestas con una confianza del 100%, pero ocurre que en ese caso, los intervalos seran tan grandes que no seran de gran provecho. La eleccin de un nivel de confianza como el 95% es un compromiso entre hacer declaraciones con una razonable probabilidad de acertar, y que adems el intervalo declarado, sea lo suficientemente pequeo como para suscitar algn inters. El nivel de confianza hay que interpretarlo como que disponemos de un mtodo de calcular intervalos que seguido con rigor, en cierto porcentaje de casos acierta (nivel de confianza) y en el resto falla. En multitud de ocasiones al utilizar un programa estadstico encontramos junto a las ms diversas estimaciones como una media, una proporcin, un coeficiente de regresin, un coeficiente de asimetra, etc., una cantidad misteriosa denominada error estndar o tambin error tpico o residuos. El error estndar2 tiene mucho que ver con los intervalos de confianza. Para muchos parmetros, su intervalo de confianza es habitualmente la estimacin obtenida sobre la muestra (proporcin, media,...), y un margen de error que nos es ms que un mltiplo del error estndar. Un ejemplo muy comn, consiste en elegir niveles de confianza del 95%. Para ello un margen de error de dos errores estndar es habitualmente la respuesta. 1. Clculo del Coeficiente de Determinacin Mide el poder explicativo del modelo de regresin, es decir, la parte de la variacin de Y explicada por la variacin de X.
2

Es una medida de la variabildad del estimador. Su clculo exacto es salvo excepciones y sin hacer simplificaciones, excesivamente complicado. Estas simplificaciones suelen ser del tipo que la variable en estudio tiene una distribucin conocida, o que la muestra es lo suficientemente grande para considerar algunas aproximaciones adecuadas Csari Matilde 5

ANOVA - REGRESIN

r2 =

2 Variacin explicada ( Y Y ) = 2 Variacin total ( Yi Y )

El valor de r2 ha de estar entre 0 y 1, si r 2 = 0,70 significa que el 70% de la variacin de Y est explicada por las variaciones de X. Es evidente que cuanto mayor sea r2, mayor poder explicativo tendr nuestro modelo. En nuestro ejemplo Si analizamos el valor del coeficiente de determinacin r=0.659, apreciamos que aproximadamente el 66% de la variabilidad del costo esta determinado por la variabilidad en la Temperatura exterior.

Csari Matilde

ANOVA - REGRESIN

2. Prueba de Hiptesis para analizar si la pendiente es significativa Para tomar una decisin podemos comparar el valor de un estadstico con H0 : 1 = 0 un percentil, o utilizar un criterio equivalente, usado en los paquetes de H1 : 1 0 Estadstica: Comparar el p-valor con el nivel de significacin Regla de Decisin: Rechazar Ho si p < . En este caso decimos que 1 0 , la pendiente es significativa. En el ejemplo p = 1.41E-05 < 0.05, as que rechazamos H0 por lo que el valor de la pendiente es significativamente diferente de cero. Conclusin: La relacin entre la Temperatura Exterior y el Costo es significativa. Los intervalos de confianza proporcionan un rango de valores que es probable que contengan los parmetros del modelo. Se construyen de forma que la probabilidad de que el intervalo contenga el parmetro desconocido sea 1-, donde denota el nivel de significacin y 1- el nivel de confianza. Tambin son tiles para probar hiptesis estadsticas sobre los parmetros de la regresin. 3. Lmites del intervalo de confianza para la respuesta media Si los intervalos de confianza mostrados son del 95% significa que si se construye un gran nmero de ellos, el 95% de ellos contendr a la media. En la prctica se obtiene solamente una muestra y se calcula con ella un intervalo de confianza, dicho intervalo contiene o no contiene a la media, no es razonable asignar una probabilidad a este evento. La proposicin adecuada es que el intervalo contiene a la media con una confianza del 95%. La longitud del intervalo de confianza (-l) es una medida de la calidad de la informacin obtenida en la muestra, al semi intervalo -q, o q-l se le llama Precisin del estimador. Intervalo para la Media (Varianza conocida) Se tiene una poblacin con media desconocida , pero se supone conocida la varianza 2. Se toma una muestra aleatoria (X1,X2,...,XN). Con esta muestra se calcula el estadstico x , el cual es un estimador puntual insesgado para la media desconocida. Se puede obtener un intervalo de confianza del 100(1-) % para si consideramos los siguientes hechos acerca de la distribucin de: 1- Si la poblacin es Normal, la distribucin de x es Normal 2- Si la poblacin no es Normal, el Teorema del lmite central3 nos garantiza una distribucin de x aproximadamente normal cuando N

x es ( x es insesgado) 4- La varianza de x es 2/N


3- La media de De acuerdo a lo anterior, podemos suponer que la variable:
Z= X N

tiene una distribucin N(0,1) y P{-z/2 Z z/2 }=1-. Con lo cual el intervalo de confianza del 100(1-)% para la media es
X Z
2

X +Z N N 2

Ejemplo: Los siguientes son datos de conductividad trmica de cierto tipo de hierro (en BTU/hr-ft-F): 41.60 41.48 42.34 41.95 41.86 42.18 41.72 42.26 41.81 42.04
3

Teorema del Lmite Central: Afirma que la media muestral tiene una distribucin Normal aunque la poblacin original no la tenga, siempre y cuando la muestra sea muy grande (de manera prctica N>30) Csari Matilde 7

ANOVA - REGRESIN Una estimacin puntual para la media, es x = 41.924. Hallar un intervalo de confianza del 95 % y uno del 99% para la media. Se supone que la poblacin tiene una distribucin Normal con =0.3 l = 41.924 - 1.96(0.3)/10 = 41.738, u = 41.924+1.96(0.3)/10 = 42.110 Entonces el intervalo de confianza del 95% es 41.738 42.11. Y la longitud de este intervalo es 3.92/N Intervalo para la Media (Varianza desconocida) Si no se conoce la varianza 2 de la poblacin, una posibilidad es utilizar la varianza muestral S 2 en las ecuaciones obtenidas para estimar intervalos en el caso de varianza conocida. Este procedimiento funciona para muestras grandes (N>30), por ello los intervalos de confianza anteriores se les suele llamar intervalos de confianza para muestras grandes. Si las muestras son pequeas el enfoque anterior no funciona y para lograr un procedimiento vlido se supondr que la poblacin tiene una distribucin Normal Si la poblacin es Normal, la siguiente estadstica:
T= X S N
tiene una distribucin t con N-1 grados de libertad y P{-t/2,N-1 T t/2,N-1 }=1-. Con lo cual el intervalo de confianza del 100(1-a)% para la media es

X T(1

2 ),Gl( n 1)

S2 X + T(1 ),Gl( n 1) 2 n

S2 n

Si de una muestra aleatoria de tamao 25 se obtiene: x = 12 y S = 10 con el fin de calcular la amplitud, el intervalo de confianza (1 - ) para est dado por:

LI = X T(1

2 ),Gl( n 1)

S2 y S2 LS = X + T(1 ),Gl(n 1) 2 n n
2 10 = 12 2.063899 10 25 = 7.87 25

Entonces la amplitud es: A = LS LI. Reemplazando con los valores propuestos queda:

LI = 12 T(0.975),Gl(24) LS = 12 + T(0.975),Gl(24)

10 = 16.13 25

En este ejemplo, la amplitud es 8.26 unidades y se obtuvo con una muestra de tamao 25 4. Clculo del error estndar de la estimacin Mide la variabilidad o dispersin de los valores observados alrededor de una lnea de regresin

Se y sobre
Donde:

( Y Y) n - k -1

(7)

Y = valores obtenidos mediante la ecuacin de estimacin que corresponde a cada valor de Y. Y = valores de la variable dependiente. n = nmero de observaciones k = nmero de variables independientes
Si se trabaja con una recta, se puede calcular el error mediante:

Se y

sobre x

y 2 a 0 y a 1 xy
n2

(8)

Csari Matilde

ANOVA - REGRESIN Mientras ms grande sea el error estndar de la estimacin, mayor ser la dispersin de los puntos alrededor de la lnea de regresin. 5. Predicciones 1) Clculo de una prediccin puntual. Suponga que se desea un estimador puntual del costo de un apartamento, si la y = 8,8020 - 4,9342x y = 8,8020 - 4,9342 * 35 temperatura exterior es de 35 grados y = 216,05 Sol: Sustitucin del valor de x = 35, en la ecuacin de la recta para obtener un valor Los estimadores puntuales son tambin variables aleatorias y, por lo tanto, no se puede esperar que en una realizacin cualesquiera den un valor idntico al parmetro que estiman. Por ello, se desea que una estimacin puntual est acompaada de alguna medida del posible error de esa estimacin. Esto puede hacerse indicando el error estndar del estimador o dando un intervalo que incluya al verdadero valor del parmetro con un cierto nivel de confianza. 2) Clculo de un intervalo de Prediccin Clculo del Intervalo de Confianza para el Costo Promedio de todos los apartamentos, para una temperatura dada.

Csari Matilde

ANOVA - REGRESIN

Para muestras pequeas utilizamos t student. Podemos elaborar fcilmente contrastes sobre los coeficientes del modelo de regresin, basndonos en el estadstico t. Uno de especial inters prctico corresponde a contrastar si la pendiente de la recta de regresin poblacional es cero, lo que implicara que la esperanza condicional de Y no se vera afectada (linealmente) por el valor de la variable independiente. De hecho, dado que los resultados obtenidos se basan en una muestra, es lgico preguntarse si realmente existe alguna relacin a nivel poblacional, ya que podra ser que debido al error de muestreo los parmetros poblacionales fuesen cero. Se trata de comprobar si la estimacin es vlida en el sentido de si es significativa de forma que la variable explicativa X es relevante para explicar el comportamiento de la variable dependiente Y. Es conveniente, por tanto, contrastar si la pendiente de la recta de regresin poblacional es significativamente distinta de cero. Se desea calcular una estimacin por intervalo con un nivel del confianza del 95% para el apartamento especfico en un da considerado con temperatura de 35 grados. Aqu calculamos un intervalo de prediccin.

Y t 1 / 2 (n 2) * S p
S p = Se 1 +

(9)
2

( x x0 ) 1 + n x 2 nx 2

(10a)

En la que: X0 = valor especifico de x en el que deseamos predecir el valor de Y Se = error de estimacin.

En el ejemplo: calculamos el intervalo de prediccin del valor de prediccin de inters, 35. La salida obtenida con el programa es
Predicted values for: Costo Temp Predicted 35 216.105 95% Confidence Interval lower upper 186.000 246.211 95% Prediction Interval lower upper 79.234 352.976 Leverage 0.051

Nota: Observe que el tamao del intervalo de confianza (para todos los apartamentos con temperatura exterior de 35 grados), es menor que el intervalo de prediccin (para un solo apartamento con temperatura exterior de 35 grados). Es de una amplitud mucho menor, ya que habr mayor variacin en el estimado del costo para una observacin que para un grupo. Conclusiones: El costo por la calefaccin de un apartamento con Temperatura de 35 grados es de 216,105 dlares. Con un nivel de confianza del 95% el costo por la calefaccin de un apartamento con Temperatura de 35 grados oscila entre 79,234 y 352,976$ El costo promedio de la calefaccin de los apartamentos para una temperatura de 35 grados se encuentra entre 186,000 246,211 $; con una confianza del 95%.

Csari Matilde

10

You might also like