You are on page 1of 20

Regresión lineal

En estadística la regresión lineal o ajuste lineal es un método matemático que modela la relación entre una variable dependiente Y, las variables independientes Xi y un término aleatorio ε. Este modelo puede ser expresado como:

: variable dependiente, explicada o regresando. : variables explicativas, independientes o regresores. : parámetros, miden la influencia que las variables explicativas tienen sobre el regresando. donde es la intersección o término "constante", las son los parámetros respectivos a cada variable independiente, y es el número de parámetros independientes a tener en cuenta en la regresión. La regresión lineal puede ser contrastada con la regresión no lineal.

El modelo de regresión lineal
El modelo lineal relaciona la variable dependiente Y con K variables explicativas (k = 1,...K), o cualquier transformación de éstas, que generan un hiperplano de parámetros desconocidos: (2) donde es la perturbación aleatoria que recoge todos aquellos factores de la realidad no controlables u observables y que por tanto se asocian con el azar, y es la que confiere al modelo su carácter estocástico. En el caso más sencillo, con una sola variable explicativa, el hiperplano es una recta: (3) El problema de la regresión consiste en elegir unos valores determinados para los parámetros desconocidos , de modo que la ecuación quede completamente especificada. Para ello se necesita un conjunto de observaciones. En una observación cualquiera i-ésima (i= 1,... I) se registra el comportamiento simultáneo de la variable dependiente y las variables explicativas (las perturbaciones aleatorias se suponen no observables). (4)

Los valores escogidos como estimadores de los parámetros, , son los coeficientes de regresión, sin que se pueda garantizar que coinciden con parámetros reales del proceso generador. Por tanto, en (5) Los valores son por su parte estimaciones de la perturbación aleatoria o errores.

El modelo de regresión lineal
El modelo lineal relaciona la variable dependiente Y con K variables explicativas (k = 1,...K), o cualquier transformación de éstas, que generan un hiperplano de parámetros desconocidos: (2) donde es la perturbación aleatoria que recoge todos aquellos factores de la realidad no controlables u observables y que por tanto se asocian con el azar, y es la que confiere al modelo su carácter estocástico. En el caso más sencillo, con una sola variable explicativa, el hiperplano es una recta: (3) El problema de la regresión consiste en elegir unos valores determinados para los parámetros desconocidos , de modo que la ecuación quede completamente especificada. Para ello se necesita un conjunto de observaciones. En una observación cualquiera i-ésima (i= 1,... I) se registra el comportamiento simultáneo de la variable dependiente y las variables explicativas (las perturbaciones aleatorias se suponen no observables). (4) Los valores escogidos como estimadores de los parámetros, , son los coeficientes de regresión, sin que se pueda garantizar que coinciden con parámetros reales del proceso generador. Por tanto, en (5) Los valores son por su parte estimaciones de la perturbación aleatoria o errores.

CONCEPTO DE REGRESIÓN LINEAL SIMPLE La regresión lineal simple, es una herramienta muy importante para la econometría, que

entre los cuales se pueden citar los siguientes:      Linealidad Normalidad y equidistribución de los residuos. Cuenta con varios parámetros. es una extención de la regresión lineal solo que con un mayor número de variables independientes. Al momento de aplicar la regresión múltiple se tienen ciertos requisitos y limitaciones. Cuando existe una posible relación entra varias variables independientes y otra dependiente se hace necesario el uso de la REGRESIÓN MULTIPLE. asi mismo. ya que no podemos saber el nivel de renta en un futuro. junto con la del concepto de correlación El modelo de regresión lineal simple. Analiza el efecto de dos o más variables dependientes o independientes. La regresión múltiple se usa con mayor frecuencia en las publicaciones de las investigaciones cuando se requiere crear un modelo donde se seleccionan variables que pueden infuir en la respuesta. Regresion múltiple Es un método para analizar el efecto de dos o mas variables independientes sobre una dependiente. descartando aquellas que no aportan información. pero si podemos saber si el promedio de la renta aumentará o disminuirá determinando con cierta exactitud la cantidad. Es un procedimiento que se presenta cuando dos o más variables independientes influyen sobre una variable dependiente. Número de variables independientes. busca encontrar la recta de Y = β0 +regresión que relacione dos variables (X e Y) de forma que β1• X + error Un ejemplo de dicha regresión lineal. El inventor de dicha teoría fue Francis Galton.estudia la dependencia existente entre una variable dependiente y una o más variables explicativas. Colinealidad Observaciones anómalas. La Regresión lineal múltiple maneja varias variables independientes. cuando la relacion que existe entre una variable y otra la cual nos permite predecir los valores de una variable a partir de los valores obserbados de otra hablamos de una regresion multiple. cuando se requiere detectar la interacción entre variables independientes que afectan a la variable y cuando se requiere identificar variables confusoras. Es decir sirve para predecir el valor de una variable dependiente conociendo el valor y la influencia de las variables independientes incluidas en el análisis. . es la renta. por lo que sólo cuenta con dos parámetros. En la Regresión lineal simple sólo se maneja una variable independiente.

.

la correlación de Pearson es independiente de la escala de medida de las variables. siendo la expresión que nos permite calcularlo: .Coeficiente de correlación En estadística. De manera menos formal. el coeficiente de correlación de Pearson es un índice que mide la relación lineal entre dos variables aleatorias cuantitativas. podemos definir el coeficiente de correlación de Pearson como un índice que puede utilizarse para medir el grado de relación de dos variables siempre y cuando ambas sean cuantitativas. A diferencia de la covarianza. el coeficiente de correlación de Pearson se simboliza con la letra . En el caso de que se esté estudiando dos variables aleatorias x e y sobre una población estadística.

existe una correlación positiva.1]:      Si r = 1. existe una correlación positiva perfecta. . Si 0 < r < 1. El índice indica una dependencia total entre las dos variables denominada relación directa: cuando una de ellas aumenta. existe una correlación negativa perfecta. la otra también lo hace en proporción constante. Si r = -1. El índice indica una dependencia total entre las dos variables llamada relación inversa: cuando una de ellas aumenta. Si r = 0. denotado como a: Interpretación El valor del índice de correlación varía en el intervalo [-1. existe una correlación negativa.Donde:    es la covarianza de es la desviación típica de la variable es la desviación típica de la variable De manera análoga podemos calcular este coeficiente sobre un estadístico muestral. Si -1 < r < 0. Pero esto no necesariamente implica que las variables son independientes: pueden existir todavía relaciones no lineales entre las dos variables. no existe relación lineal. la otra disminuye en proporción constante.

Un diagrama de dispersión es un tipo de diagrama matemático que utiliza las coordenadas cartesianas para mostrar los valores de dos variables para un conjunto de datos.X. Los datos se muestran como un conjunto de puntos. Por lo tanto.COEFICIENTE DE DETERMINACIÓN El coeficiente de determinación es una medida que nos dice qué tan bien se ajusta la recta de regresión muestral a los datos. . entre mayor sea la medida de la intersección. es decir.X. Este gráfico sugiere que por lo general hay dos "tipos" de erupciones: uno de corta espera y corta duración y otro de larga espera y larga duración. Wyoming.Y X. Y Yi FRM Debido al residuo total Debido a la regresión Y media Media condicional X 22 Xi. EE.Y. mayor será la variación en Y que es explicada por la X.Y. cada uno con el valor de una variable que determina la posición en el eje horizontal y el valor de la otra variable determinado por la posición en el eje vertical. la intersección de los dos círculos indica la medida en la cual la variación en Y es explicada por la variación en X.YX El círculo Y representa la variación en la variable dependiente Y y el círculo X representa la variación en la variable X.[1] Un diagrama de dispersión se llama también gráfico de dispersión. Diagrama de dispersión El tiempo de espera entre las erupciones y la duración de la erupción del géiser Old Faithful en el Parque Nacional Yellowstone. es una medida de bondad de ajuste [el se encuentra entre 0 y 1].UU.

Para una correlación lineal. sin embargo. se le denomina parámetro de control o variable independiente = eje de x y habitualmente se representa a lo largo del eje horizontal. Si no existe una variable dependiente. Una ecuación para la correlación entre las variables puede ser determinada por procedimientos de ajuste. la hoja de verificación. Además.Descripción Se emplea cuando una variable está bajo el control del experimentador. el procedimiento de ajuste es conocido como regresión lineal y garantiza una solución correcta en un tiempo finito. el diagrama de Ishikawa y el (diagrama de flujo). Un diagrama de dispersión puede sugerir varios tipos de correlaciones entre las variables con un intervalo de confianza determinado. Se puede dibujar una línea de ajuste (llamada también "línea de tendencia") con el fin de estudiar la correlación entre las variables. La variable medida o dependiente = eje de y usualmente se representa a lo largo del eje vertical. el diagrama de Pareto. los gráficos de control. o nula (las variables no están correlacionadas). estas relaciones son visualmente evidentes como patrones superpuestos. es su capacidad para mostrar las relaciones no lineales entre las variables. El diagrama de dispersión es una de las herramientas básicas de control de calidad. si los datos son representados por un modelo de mezcla de relaciones simples. Uno de los aspectos más poderosos de un gráfico de dispersión. La correlación puede ser positiva (aumento). que incluyen además el histograma. negativa (descenso). cualquier variable se puede representar en cada eje y el diagrama de dispersión mostrará el grado de correlación (no causalidad) entre las dos variables. . Si existe un parámetro que se incrementa o disminuye de forma sistemática por el experimentador.

.

formula para calcular el coeficiente de correlacion formula para encontrar la ecuación de regresión .

(ΣX)2) Interceptar(a) = (ΣY .1 = 186 60 * 60 = 3600 61 3. b =La pendiente de la recta de regresión a =El punto de intersección de la recta de regresión y el eje Y.6 62 3.. ΣXY. intersección y usarla para formar la ecuación de regresión.6 61 * 61 = 3721 62 3. lo primero que se encuentra pendiente.8 63 4 65 4. ΣX = 311 . N=5 Paso 2:Buscar XY.6 = 219.1 61 3.1 60 * 3. ΣY.(ΣX)(ΣY)) / (NΣX2 .1 65 * 4.1 = 266.6 62 * 62 = 3844 63 4 63 * 4 = 252 63 * 63 = 3969 65 4. ΣX2. X2 Consulte la tabla siguiente X Valor Y Relación X*Y X*X 60 3.1 Para encontrar la ecuación de regresión. N =Número de valores o elementos X = Primera puntuación Y =La puntuación de Segunda ΣXY = Suma del producto de las puntuaciones primero y segundo ΣX =La suma de las puntuaciones Primera ΣY = Suma de las puntuaciones de segunda ΣX2 = Suma de cuadrados Puntuación Primero Ejemplo de regresión: Para encontrar la simple / Regresión lineal de X Valores Y Valores 60 3.Regresión de la Fórmula: La ecuación de regresión(y) = a + bx Pendiente(b) = (NΣXY .8 = 235.b(ΣX)) / N donde x e y son las variables. Paso 1:Cuente el número de valores.6 61 * 3.5 65 * 65 = 4225 Paso 3:Buscar ΣX.8 62 * 3.

09)/5 = -40.6)/(96795 .19(64).16 = 4. La ecuación de regresión(y) = a + bx = -8.59.5 .96721) = 13.6 . Interceptar(a) = (ΣY . Slope(b) = (NΣXY .19x.49/5 = -8.(ΣX)2) = ((5)*(1159.(ΣX)(ΣY)) / (NΣX2 .19 Paso 5:Ahora.5784. Se considera que dos variables cuantitativas están correlacionadas cuando los valores de una de ellas varían sistemáticamente con respecto a los valores homónimos de la otra: si tenemos dos variables (A y B) existe correlación si al aumentar los valores de A lo hacen también los de B y viceversa.7 ΣX2 = 19359 Paso 4:Suplente en la fórmula de la pendiente por encima de determinado. formula para calcular el coeficiente de correlacion ¿Qué mide el Coeficiente de Correlación? En la Wikipedia podemos encontrar esta buena explicación de lo que es la correlación: “La correlación es la medida de asociación entre variables.b(ΣX)) / N = (18.9/74 = 0. la correlación indica la fuerza y la dirección de una relación lineal entre dos variables aleatorias. En probabilidad y estadística. Entonces podemos sustituir el valor en la ecuación anterior. = -8.6 ΣXY = 1159. de nuevo suplente en la fórmula anterior interceptar dado.06 Este ejemplo le guía para encontrar la relación entre dos variables mediante el cálculo de la regresión de los pasos anteriores.” .0.7)-(311)*(18.6 .19(311))/5 = (18.098 Paso 6:A continuación.098 + 0.ΣY = 18.098 + 12. sustituir estos valores en la ecuación de regresión fórmula La ecuación de regresión(y) = a + bx = -8. Supongo que si queremos saber el valor y aproximada de la variable x = 64.6))/((5)*(19359)-(311)2) = (5798.098 + 0.

Desde 150 USD Vea Demo ! www.Y) la covarianza entre las series temporales X e Y. Facil de Manejar. La UCI cuenta con dos circuitos por los cuales se mide el consumo de Energía Eléctrica. como puede ser la covarianza. el coeficiente de correlación tiene un valor acotado entre -1 y +1. Por el contrario. .20 y +0. mientras que los valores cercanos a menos uno indican una asociación fuerte pero inversa. si el coeficiente de correlación es menor que -0. si el coeficiente de correlación entre dos activos financieros es mayor que 0. El coeficiente de correlación se puede calcular con Excel mediante el comando “COEF. La ventaja que tiene este coeficiente sobre otras herramientas para medir la correlación. es que los resultados del coeficiente de correlación están acotados entre -1 y +1.worldoffice. Valores cercanos a uno indican una asociación fuerte. ellos son el circuito 1590 que suministra el servicio a la residencia y el 1600 que lo hace en los edificios docentes.coEnlaces patrocinados 2da parte Aplicación. la correlación será baja. podemos decir que están muy correlacionados positivamente.com.70 existirá una gran correlación. pero negativa.70.20. Esta característica nos permite comparar diferentes correlaciones de una manera más estandarizada.DE.CORREL”. Capítulo 4: Coeficiente de determinación  Software Contable Ecuador Listo para NIIF.El coeficiente de correlación sirve para medir la correlación entre 2 variables. Los valores cercanos a cero indican que no hay asociación entre las variables. También se puede calcular mediante la fórmula: Siendo Cov (X. si el valor de este coeficiente está entre -0. Integrado. y σX e σY las desviaciones estándar de X e Y. Por último. Por ejemplo. Interpretación Como he mencionado antes.

Se calculó el coeficiente correlación de Pearson entre las variables que se de finen mediante la ecuación (I): Y: Consumo de energía (Dependiente) X: Temperatura ambiente (Independiente) r = 0. calculando los parámetros de la regresión: . nos dice que existen otros factores que también pudieran estar condicionando el nivel de consumo.05 Hipótesis a ser evaluadas Mediante la ecuación (II) obtenemos a t de las observaciones el cual es 7.Se tomaron los consumos de energía eléctrica en MW-h de los 108 primeros días del año en curso medidos en los diferentes circuitos. y también la temperatura ambiente en distintos horarios del día.72 Como el valor de "t obs" excede el valor crítico obtenido de la tabla se deduce que hay evidencia suficiente para señalar que existe correlación lineal entre el consumo de energía y la temperatura ambiente. Para ello es necesario realizar una inferencia acerca del coeficiente de correlación a través de una prueba de hipótesis utilizando el estadígrafo t student con un 95 % de confianza queda a = 0.52 Lo que indica que existe una relación lineal entre las variables pues este valor a pesar de no estar muy lejos de cero. En las tablas que aparecen de anexo se muestran los valores de temperaturas y consumo de energía en los días que se realizó el estudio. Para verificar la relación funcional que eventualmente puede existir entre las variables que se estudian se realizó un análisis de regresión lineal. El estudio parte cuando queda demostrado a través de la prueba de necesidad realizada en el departamento de Gestión Energética que los puntos claves y equipos que más influencia ejercen en el consumo son los aires condicionados. con el propósito de analizar si existe una relación entre el consumo de energía eléctrica con la temperatura ambiente.

y se aproxima a la distribución normal. 3.64 Por lo que se rechaza H0 y se concluye que el modelo de regresión lineal simple es adecuado. .82 mayor 1.A partir de esta expresión se puede predecir el comportamiento del consumo de enrgia una vez conocida la temperatura ambiente. ya que la muestra excede los 30 datos. Con la finalidad de comprobar estadísticamente si las variables X y Y presentan la supuesta relación lineal se realizó un análisis de varianza completando la tabla ANVA descrita anteriormente. En este caso el valor crítico se seleccionó de la tabla de distribución normal.

Ecuación del error estándar de estimación El error estándar de estimación representado por el símbolo Syx mide la dispersión de los valores observados alrededor de la línea de regresión. pero si se analiza que en las diferentes áreas de la universidad existe una gran diversidad de equipos electrónicos entre ellos aire acondicionados demuestra que estos ejercen una influencia significativa en los valores de consumo. Año 2002 2003 2004 2005 2006 2007 2008 Importación 500 680 700 680 745 800 920 Exportación 400 520 650 480 600 700 780 Colocamos los datos en Microsoft Excel. y2 . Calcula los totales de (x). x2. lo que quiere decir que la variación del consumo de energía de la UCI esta explicada a través de un 27 % con respecto a la temperatura ambiente que exista. aparentemente es un porcentaje bajo.Utilizando la expresión (III) calculamos ión De donde se obtiene un 27 %. El resultado se obtiene a través de la siguiente ecuación: Desarrollemos el siguiente ejercicio Se desea calcular el error estándar de estimación de los montos de importación y exportación. expresados en millones. (y). de un país en los últimos 7 años. desde la celda A1 hasta C8 y seguimos los siguientes pasos: 1. (x)(y).

Reemplaza los datos en la ecuación de error estándar de estimación.2. . 3. Obtén los coeficientes de intercepción y tamaño utilizando el método mínimo de cuadrados. Entonces la ecuación estará representada de la siguiente forma.

1403394. Luego clic sobre la opción ANÁLISIS DE DATOS 3. realizando los siguientes pasos: 1. que representa la variabilidad alrededor de la recta de regresión. Seleccione el menú DATOS 2. 2. Aparece el cuadro de diálogo ANÁLISIS DE DATOS y seleccione la función REGRESIÓN.El error estándar de estimación es 53. Análisis de datos utilizando Microsoft Excel 2007 Podemos obtener los mismos resultados haciendo uso de la herramienta Análisis de datos que ofrece Microsoft Excel 2007. después clic en ACEPTAR. .

El siguiente recuadro define los rangos que serán analizados. entre otros. Define las opciones de salida y presione ACEPTAR. Para el rango de entrada Y seleccione desde la celda C2 hasta la celda C8 y para el rango X seleccione desde la celda B2 hasta la celda B8. El resultado indica los valores del modelo de regresión lineal y el error estándar de estimación. ingresando los datos correspondientes. .4.

Los resultados de los coeficientes permiten predecir el monto de exportación (Y) para el próximo año. El error típico muestra la variabilidad alrededor de la recta de regresión. dependiento de los montos de importación (X) según la muestra analizada. Solo se reemplaza el siguiente monto de importación en la variable X. .