1

Análisis de Regresión y Correlación
El análisis de regresión consiste en emplear métodos que permitan determinar la mejor relación funcional entre dos o más variables concomitantes (o relacionadas). El análisis de correlación estudia el grado de asociación de dos o más variables. Analisis de Regresion Una relacion funcional matemáticamente hablando, está dada por: Y = f(x1,...,xn; θ1,...,θm) donde: Y : Variable respuesta (o dependiente) xi : La i-ésima variable independiente (i=1,..,n) θj : El j-ésimo parámetro en la función (j=1,..,m) f : La función Para elegir una relación funcional particular como la representativa de la población bajo investigación, usualmente se procede: 1) Una consideración analítica del fenómeno que nos ocupa, y 2) Un examen de diagramas de dispersión. Una vez decidido el tipo de función matemática que mejor se ajusta (o representa nuestro concepto de la relación exacta que existe entre las variables) se presenta el problema de elegir una expresión particular de esta familia de funciones; es decir, se ha postulado una cierta función como término del verdadero estado en la población y ahora es necesario estimar los parámetros de esta función (ajuste de curvas). Como los valores de los parámetros no se pueden determinar sin errores por que los valores observados de la variable dependiente no concuerdan con los valores esperados, entonces la ecuación general replanteada, estadísticamente, sería: Y = f(x1,...xn;θ1,...,θm) + ε donde ε respresenta el error cometido en el intento de observar la característica en estudio, en la cual muchos factores contribuyen al valor que asume ε. Regresion Lineal Simple Cuando la relación funcional entre las variables dependiente (Y) e independiente (X) es una línea recta, se tiene una regresión lineal simple, dada por la ecuación Y = ßo + ß1X + ε

F. de Mendiburu

Existe una subpoblacion de valores Y normalmente distribuido para cada valor de X. de Mendiburu . SCY = ∑ y − y . que represente a ßo y ß1. Empleando el método de los mínimos cuadrados. Los supuestos del 3 al 6 equivalen a decir que los errores son aleatorios. Los valores de Y están nomalmente distribuidos y son estadísticamente independientes. i ( ) 2 SCX = ∑ xi − x ( ) 2 . deben hallarse valores como bo y b1 de la muestra. x= ∑ xi n Sumas de cuadrados y productos de X e Y. es decir. 5. que se distribuyen normalmente con media cero y variancia σ². 2. ß1 : El coeficiente de regresión poblacional (pendiente de la línea recta) ε : El error. es decir minimizando la suma de cuadrados de los errores. Las variancias de las subpoblaciones de Y son todas iguales. Los valores de la variable independiente X son "fijos". así: F. Todas las medias de las subpoblaciones de Y están sobre la misma recta. SPXY = ∑ x i − x y i − y ( )( ) SCY tambien corresponde a la suma de cuadrados total = SC total Estimación de parámetros La función de regresión lineal simple es expresado como: Y = ßo + ß1X + ε la estimación de parámetros consiste en determinar los parámetros ßo y ß1 a partir de los datos muestrales observados. Terminologia: Promedios y= ∑ yi n . 4. se determinan los valores de bo y b1.2 donde: ßo : El valor de la ordenada donde la línea de regresión se intersecta al eje Y. respectivamente. La variable X se mide sin error (se desprecia el error de medición en X) 3. Suposiciones de la regresión lineal 1. 6.

Sus desviaciones estandares respectivas son: Sb0 = CMresidual..∑ X i2 n. la ecuación de regresión es: y = bo + b1X El coeficiente de regresión (b1) . se dice que no existe relación lineal entre las dos variables. de Mendiburu . representa la tasa de cambio de la respuesta Y al cambio de una unidad en X. Si b1=0.SCX Sb1 = CMresidual SCX Luego.3 Q = ∑ ei2 = ∑ y i − β 0 − β 1 x ( )2 bo = y − b1 x b1 = spxy scx b0 : es el valor que representa (estimador) a ß0 constituye el intercepto cuando X=0. b1 : es el valor que representa (estimador) a ß1. F.pendiente de la recta de regresión.

4 Fuentes de variación en la regresión lineal Los cálculos de regresión pueden ser vistos como un proceso de partición de la suma total de cuadrados. así. gráficamente se tiene: ) − y)+ ( − ) ) ( y − y ) = (y y y i i i i F. de Mendiburu .

Suma de Cuadrados del Error.SPXY Residual: Error Total n-2 n-1 Diferencia SC Y Cuadrados Medios (CM) b1. simbolicamente. No existe una regresión lineal entre X e Y. Existe regresion lineal de Y en función de X. Suma de Cuadrados residual (inexplicada. Este término se utiliza para el cálculo de la variancia de la muestra. SCE) mide la dispersión de los valores Y observados respecto a la recta de regresión Y (es la cantidad que se minimiza cuando se obtiene la recta de regresión). que generalmente se presenta en un cuadro de la siguiente forma: Cuadro del ANVA. F. de Mendiburu . Suma de Cuadrados explicada (Suma de Cuadrados debido a la Regresión. Fuentes Grados de Suma de Cuadrados (SC) Libertad Regresion 1 b1. mide la dispersión (variación total) en los valores observados de Y.5 Se observa que la desviación total para un Yi en particular es igual a la suma de las desviaciones explicada e inexplicada. la técnica es conocida cono analisis de variancia (ANVA). Análisis de Variancia para la regresión lineal simple Cuando cada partición se asocia a una porción correspondiente del total de grados de libertad.SPXY SC(residual) / (n2) Fc CM(regresion)/ CM(residual) La prueba estadística “F” evalua las hipótesis: Hp: ß1 = 0. Ha: ß1 ≠ 0. Luego: 2 2 ) 2 ) ∑ yi − y = ∑ yi − y + ∑ ( yi − yi ) ( ) ( ) SC total = SC regresion + SC residual Suma de Cuadrados del Total (SCT). SCR) mide la variabilidad total en los valores observados de Y en consideración a la relación lineal entre X e Y.

8 105526 Pr>F 0.9941 5.24 495.30 (9. F. Intervalos de Confianza Intervalos de confianza para ß1 (tasa) En muchos casos es de interés conocer entre que valores se encuentra el coeficiente de regresión de la población ß1 para un cierto grado de confianza fijada.92 482.67 Regression Residual Total Gl 1 8 9 SC CM F F0. Sb1 = 9.78 630.05. así: b1 . SC X = 82.42 Significa que el crecimiento anual es de 24 mil metros cubicos.27 590.72 Con estos resultados se puede afirmar al 95% de confianza que la tasa de crecimiento en madera aserrada es positiva y por lo menos se tendra un crecimiento de 3 mil metros cubicos por año. 8 = 2.42 Tasa = 24.31 56303 7037.6 Para el ejemplo del grafico (año base 1990 = 0) Años (X) 0 1 2 3 4 5 6 7 8 9 Madera Aserrada (Y) 489.42 + 24.23) = 3. R² = (49223 / 105526) *100% = 46% Intercepto = 467.42 – 2.22 624.5.23 Limite Inferior = 24.72 585.25 475.0295 Modelo de regresion estimado: Total de Madera aserrada (miles de m3 ) = 467.30 (9.n-2).42 X X = El periodo.27 834. de Mendiburu .2 565.12 Limite Superior = 24. este procedimiento permite hallar los valores llamados límites de confianza.42 + 2.t0 Sb1 ≤ ß1 ≤ b1 + to Sb1 donde: t0 es el valor "t" tabular al nivel de significación α y n-2 grados de libertad ( t0 = tα.05 49223 49223 6. t 0.30.23) = 45.

es decir.55 + 2.98) = 502 Limite Superior = 760. Para obtener limites de confianza para estos valores predecidos. donde Fc=CMR/CME y Fo=Fα(1.55 Estas proyecciones son puntuales. utilice la siguiente formula:   1 x −x S _ Pr edicho = CMresidual 1 + + 0 SCX  n  ( )  2    Limites : Valor Predicho ± (t0. es decir.30 (111. F. resulta una producción de 711 mil m3 de madera aserrada. para la prueba de esta hipótesis se usa el estadístico t de Student.7 736. esto supone un valor ß1 distinto de cero y se concluye que Y se puede expresar en terminos de X linealmente. El valor t calculado es hallado mediante la expresión: tc = (b1-ß10)/Sb1 Si tc > tα se rechaza la hipótesis planteada. en base al modelo. los limites de confianza son: Limite Inferior = 760.55 – 2.n-2)gl. se rechaza la hipóteis planteada. Prueba de Hipotesis Se plantea los siguientes casos: a) Cuando ß1 = 0. Si Fc>Fo. Esto equivale a plantear la hipótesis Hp: ß1=0. donde tα es el valor de la tabla al nivel α y n-2 gl. se estima una produccion de madera aserrada entre 502 a 1018 miles de m3.n-2 ) (S_predicho) Para el 2002. En este caso. si la variable Y no esta relacionada linealmente con la variable X.12 760. y vía una prueba F comparar el valor de F calculado (Fc) con el valor F tabular (Fo).30 (111. X=10.7 En función del modelo se puede hacer estimaciones para los siguientes años: 2000 2001 2002 711. de Mendiburu . Hp: ß1=ß10. se debe determinar sus desviaciones estandar correspondiente.98) = 1018 Esta información significa que para el año 2002.05. para año 2000. b) Cuando ß1 tiene un valor específico distinto de cero ß10.

a valores altos de una variable le corresponde valores bajos a la otra variable.68 (105525. también la asociación es perfecta pero directa.17 = 0. Si r=0. la asociación es perfecta pero inversa. independiente de las unidades en que se miden las variables.8 Para el ejemplo planteado. existe una asociación de 0. para que una ecuación de regresión sea razonable los puntos muestrales deben estar ceñidos a la ecuación de regresión. Analisis de Correlacion El análisis de correlación emplea métodos para medir la significación del grado o intensidad de asociación entre dos o más variables. Si r=+1. esto significa que existe una relación lineal significativa del tiempo y la producción de madera aserrada total. y cuando se aproxima a cero la asociación disminuye o desaparece.5) Coeficiente de Determinacion (R²) F. pues. El concepto de correlación está estrechamente vinculado al concepto de regresión. de Mendiburu . r= 2015. Coeficiente de correlacion Lineal Simple ( r). esto es: -1 ≤ r ≤ 1. y pequeño cuando es bajo.86)(82. Luego puede verse que a medida que r se aproxime a -1 ó +1 la asociación es mayor. no existe asociación entre las dos variables. es decir. además el coeficiente de correlación debe ser: grande cuando el grado de asociación es alto (cerca de +1 o -1. Su valor varía entre -1 y +1. y viceversa. Es un número que indica el grado o intensidad de asociación entre las variables X e Y. El coeficiente de correlación está dada por: r= SPXY SCX .68. cerca de cero. se rechaza la hipotesis planteada.SCY Para los datos de la producción de madera aserrada total entre los años 1990 a 1999. Si r = -1.

De la descomposición de la suma de cuadrados total. explicada por la variable independiente. Para el ejemplo. se puede obtener el R² ajustado que es la relacion entre cuadrados medios. resulta: R² ajustado = 1 – 70378 / (105526 / 9 ) = 0.39 y R² = 1 – 56302. se tiene: 1 = SCR/SCT + SCE/SCT de este resultado. resulten similares. R² es un valor positivo. Tambien. Este valor podria ser negativo en algunos casos. para dar una confianza al coeficiente de determinación. asi: R² ajustado = 1 – CME / CM Total.7 / 105525. SCE = Suma de cuadrados residual (error). Lo que se espera que ambos R².86 = 0. se deduce que 0 ≤ R² ≤ 1. dividiendo ambos miembros por la SCT.SCE/SCT = SCR/SCT R² = SC regresion / SC total Como SCR ≤ SCT. se define el coeficiente de determinacion como: R² = 1 .46 F.9 Mide el porcentaje de variación en la variable respuesta. se obtuvo: SCT = SCR + SCE SCR = Suma de cuadrados de la regresión. expresado en porcentaje es menor de 100. Interpretación de R²: Se interpreta como una medida de ajuste de los datos observados y proporciona el porcentaje de la variación total explicada por la regresión. de Mendiburu .

Sign up to vote on this title
UsefulNot useful