You are on page 1of 9

1

Anlisis de Regresin y Correlacin


El anlisis de regresin consiste en emplear mtodos que permitan determinar la mejor relacin funcional entre dos o ms variables concomitantes (o relacionadas). El anlisis de correlacin estudia el grado de asociacin de dos o ms variables. Analisis de Regresion Una relacion funcional matemticamente hablando, est dada por: Y = f(x1,...,xn; 1,...,m) donde: Y : Variable respuesta (o dependiente) xi : La i-sima variable independiente (i=1,..,n) j : El j-simo parmetro en la funcin (j=1,..,m) f : La funcin Para elegir una relacin funcional particular como la representativa de la poblacin bajo investigacin, usualmente se procede: 1) Una consideracin analtica del fenmeno que nos ocupa, y 2) Un examen de diagramas de dispersin. Una vez decidido el tipo de funcin matemtica que mejor se ajusta (o representa nuestro concepto de la relacin exacta que existe entre las variables) se presenta el problema de elegir una expresin particular de esta familia de funciones; es decir, se ha postulado una cierta funcin como trmino del verdadero estado en la poblacin y ahora es necesario estimar los parmetros de esta funcin (ajuste de curvas). Como los valores de los parmetros no se pueden determinar sin errores por que los valores observados de la variable dependiente no concuerdan con los valores esperados, entonces la ecuacin general replanteada, estadsticamente, sera: Y = f(x1,...xn;1,...,m) + donde respresenta el error cometido en el intento de observar la caracterstica en estudio, en la cual muchos factores contribuyen al valor que asume . Regresion Lineal Simple Cuando la relacin funcional entre las variables dependiente (Y) e independiente (X) es una lnea recta, se tiene una regresin lineal simple, dada por la ecuacin Y = o + 1X +

F. de Mendiburu

2 donde: o : El valor de la ordenada donde la lnea de regresin se intersecta al eje Y. 1 : El coeficiente de regresin poblacional (pendiente de la lnea recta) : El error. Suposiciones de la regresin lineal 1. Los valores de la variable independiente X son "fijos". 2. La variable X se mide sin error (se desprecia el error de medicin en X) 3. Existe una subpoblacion de valores Y normalmente distribuido para cada valor de X. 4. Las variancias de las subpoblaciones de Y son todas iguales. 5. Todas las medias de las subpoblaciones de Y estn sobre la misma recta. 6. Los valores de Y estn nomalmente distribuidos y son estadsticamente independientes. Los supuestos del 3 al 6 equivalen a decir que los errores son aleatorios, que se distribuyen normalmente con media cero y variancia . Terminologia: Promedios
y=

yi
n

; x=

xi
n

Sumas de cuadrados y productos de X e Y. SCY = y y ; i

SCX = xi x

; SPXY = x i x y i y

)(

SCY tambien corresponde a la suma de cuadrados total = SC total Estimacin de parmetros La funcin de regresin lineal simple es expresado como: Y = o + 1X + la estimacin de parmetros consiste en determinar los parmetros o y 1 a partir de los datos muestrales observados; es decir, deben hallarse valores como bo y b1 de la muestra, que represente a o y 1, respectivamente. Empleando el mtodo de los mnimos cuadrados, es decir minimizando la suma de cuadrados de los errores, se determinan los valores de bo y b1, as:

F. de Mendiburu

Q = ei2 = y i 0 1 x

)2

bo = y b1 x
b1 =
spxy scx

b0 : es el valor que representa (estimador) a 0 constituye el intercepto cuando X=0; b1 : es el valor que representa (estimador) a 1. Sus desviaciones estandares respectivas son:

Sb0 =

CMresidual. X i2 n.SCX

Sb1 =

CMresidual SCX

Luego, la ecuacin de regresin es: y = bo + b1X El coeficiente de regresin (b1) .- pendiente de la recta de regresin, representa la tasa de cambio de la respuesta Y al cambio de una unidad en X. Si b1=0, se dice que no existe relacin lineal entre las dos variables.

F. de Mendiburu

Fuentes de variacin en la regresin lineal Los clculos de regresin pueden ser vistos como un proceso de particin de la suma total de cuadrados; as, grficamente se tiene:

) ) ( y y ) = (y y ) + ( y y )
i i i i

F. de Mendiburu

Se observa que la desviacin total para un Yi en particular es igual a la suma de las desviaciones explicada e inexplicada, simbolicamente. Luego:
2 2 ) 2 ) yi y = yi y + ( yi yi )

SC total = SC regresion + SC residual Suma de Cuadrados del Total (SCT), mide la dispersin (variacin total) en los valores observados de Y. Este trmino se utiliza para el clculo de la variancia de la muestra. Suma de Cuadrados explicada (Suma de Cuadrados debido a la Regresin, SCR) mide la variabilidad total en los valores observados de Y en consideracin a la relacin lineal entre X e Y. Suma de Cuadrados residual (inexplicada, Suma de Cuadrados del Error, SCE) mide la dispersin de los valores Y observados respecto a la recta de regresin Y (es la cantidad que se minimiza cuando se obtiene la recta de regresin). Anlisis de Variancia para la regresin lineal simple Cuando cada particin se asocia a una porcin correspondiente del total de grados de libertad, la tcnica es conocida cono analisis de variancia (ANVA), que generalmente se presenta en un cuadro de la siguiente forma: Cuadro del ANVA. Fuentes Grados de Suma de Cuadrados (SC) Libertad Regresion 1 b1.SPXY Residual: Error Total n-2 n-1 Diferencia SC Y

Cuadrados Medios (CM) b1.SPXY SC(residual) / (n2)

Fc CM(regresion)/ CM(residual)

La prueba estadstica F evalua las hiptesis: Hp: 1 = 0. No existe una regresin lineal entre X e Y. Ha: 1 0. Existe regresion lineal de Y en funcin de X.

F. de Mendiburu

6 Para el ejemplo del grafico (ao base 1990 = 0)

Aos (X) 0 1 2 3 4 5 6 7 8 9 Madera Aserrada (Y) 489.25 475.24 495.72 585.2 565.78 630.22 624.92 482.27 590.27 834.67

Regression Residual Total

Gl 1 8 9

SC CM F F0.05 49223 49223 6,9941 5,31 56303 7037.8 105526

Pr>F 0,0295

Modelo de regresion estimado: Total de Madera aserrada (miles de m3 ) = 467,42 + 24,42 X X = El periodo. R = (49223 / 105526) *100% = 46% Intercepto = 467,42 Tasa = 24,42 Significa que el crecimiento anual es de 24 mil metros cubicos. Intervalos de Confianza Intervalos de confianza para 1 (tasa) En muchos casos es de inters conocer entre que valores se encuentra el coeficiente de regresin de la poblacin 1 para un cierto grado de confianza fijada, este procedimiento permite hallar los valores llamados lmites de confianza, as: b1 - t0 Sb1 1 b1 + to Sb1 donde: t0 es el valor "t" tabular al nivel de significacin y n-2 grados de libertad ( t0 = t,n-2). t 0.05, 8 = 2,30; SC X = 82.5; Sb1 = 9,23 Limite Inferior = 24,42 2,30 (9,23) = 3.12 Limite Superior = 24,42 + 2,30 (9,23) = 45,72 Con estos resultados se puede afirmar al 95% de confianza que la tasa de crecimiento en madera aserrada es positiva y por lo menos se tendra un crecimiento de 3 mil metros cubicos por ao.

F. de Mendiburu

En funcin del modelo se puede hacer estimaciones para los siguientes aos:
2000 2001 2002 711.7 736.12 760.55

Estas proyecciones son puntuales, en base al modelo; para ao 2000, X=10, resulta una produccin de 711 mil m3 de madera aserrada. Para obtener limites de confianza para estos valores predecidos, se debe determinar sus desviaciones estandar correspondiente; utilice la siguiente formula:
1 x x S _ Pr edicho = CMresidual 1 + + 0 SCX n

)
2

Limites : Valor Predicho (t0.05,n-2 ) (S_predicho) Para el 2002, los limites de confianza son: Limite Inferior = 760,55 2,30 (111,98) = 502 Limite Superior = 760,55 + 2,30 (111,98) = 1018 Esta informacin significa que para el ao 2002, se estima una produccion de madera aserrada entre 502 a 1018 miles de m3.

Prueba de Hipotesis
Se plantea los siguientes casos: a) Cuando 1 = 0; es decir, si la variable Y no esta relacionada linealmente con la variable X. Esto equivale a plantear la hiptesis Hp: 1=0, y va una prueba F comparar el valor de F calculado (Fc) con el valor F tabular (Fo), donde Fc=CMR/CME y Fo=F(1,n-2)gl. Si Fc>Fo, se rechaza la hipteis planteada, esto supone un valor 1 distinto de cero y se concluye que Y se puede expresar en terminos de X linealmente. b) Cuando 1 tiene un valor especfico distinto de cero 10; es decir, Hp: 1=10. En este caso, para la prueba de esta hiptesis se usa el estadstico t de Student. El valor t calculado es hallado mediante la expresin: tc = (b1-10)/Sb1 Si tc > t se rechaza la hiptesis planteada, donde t es el valor de la tabla al nivel y n-2 gl.

F. de Mendiburu

8 Para el ejemplo planteado, se rechaza la hipotesis planteada, esto significa que existe una relacin lineal significativa del tiempo y la produccin de madera aserrada total.

Analisis de Correlacion
El anlisis de correlacin emplea mtodos para medir la significacin del grado o intensidad de asociacin entre dos o ms variables. El concepto de correlacin est estrechamente vinculado al concepto de regresin, pues, para que una ecuacin de regresin sea razonable los puntos muestrales deben estar ceidos a la ecuacin de regresin; adems el coeficiente de correlacin debe ser: grande cuando el grado de asociacin es alto (cerca de +1 o -1, y pequeo cuando es bajo, cerca de cero. independiente de las unidades en que se miden las variables.

Coeficiente de correlacion Lineal Simple ( r).


Es un nmero que indica el grado o intensidad de asociacin entre las variables X e Y. Su valor vara entre -1 y +1; esto es: -1 r 1. Si r = -1, la asociacin es perfecta pero inversa; es decir, a valores altos de una variable le corresponde valores bajos a la otra variable, y viceversa. Si r=+1, tambin la asociacin es perfecta pero directa. Si r=0, no existe asociacin entre las dos variables. Luego puede verse que a medida que r se aproxime a -1 +1 la asociacin es mayor, y cuando se aproxima a cero la asociacin disminuye o desaparece. El coeficiente de correlacin est dada por: r= SPXY SCX .SCY

Para los datos de la produccin de madera aserrada total entre los aos 1990 a 1999, existe una asociacin de 0.68.

r=

2015,17 = 0.68 (105525,86)(82,5)

Coeficiente de Determinacion (R)

F. de Mendiburu

9 Mide el porcentaje de variacin en la variable respuesta, explicada por la variable independiente. De la descomposicin de la suma de cuadrados total, se obtuvo: SCT = SCR + SCE SCR = Suma de cuadrados de la regresin. SCE = Suma de cuadrados residual (error). dividiendo ambos miembros por la SCT, se tiene: 1 = SCR/SCT + SCE/SCT de este resultado, se define el coeficiente de determinacion como: R = 1 - SCE/SCT = SCR/SCT R = SC regresion / SC total Como SCR SCT, se deduce que 0 R 1. Interpretacin de R: Se interpreta como una medida de ajuste de los datos observados y proporciona el porcentaje de la variacin total explicada por la regresin. R es un valor positivo, expresado en porcentaje es menor de 100. Tambien, se puede obtener el R ajustado que es la relacion entre cuadrados medios, asi: R ajustado = 1 CME / CM Total; Este valor podria ser negativo en algunos casos. Lo que se espera que ambos R, resulten similares, para dar una confianza al coeficiente de determinacin. Para el ejemplo, resulta: R ajustado = 1 70378 / (105526 / 9 ) = 0,39 y R = 1 56302,7 / 105525,86 = 0,46

F. de Mendiburu