You are on page 1of 17

EL MODELO DE REGRESIÓN LINEAL

CAPITULO 1

1.1. EL ANÁLISIS DE REGRESIÓN 1.1.1 Interpretación
El inglés Francis Galton1 (1822 - 1911) fue el primero en introducir el término regresión. Cuando estudiaba la relación entre las estaturas de los hijos y los padres observó que la estatura de los hijos era alta o baja cuando los padres eran altos o bajos, respectivamente. Sin embargo, la estatura promedio de los hijos cuyos padres tenían una estatura dada, tendía a moverse o converger hacia el promedio de la población. Así, determinó una regresión de la estatura de los hijos hacia el promedio o, en términos de Galton, “una regresión hacia la mediocridad”. La Ley de Regresión Universal de Galton fue confirmada, años después, por Karl Pearson, quien realizó un estudio similar utilizando más de mil observaciones. Con el estudio de Pearson se confirmó que la estatura promedio de los hijos de un grupo de padres altos era menor que la estatura de sus padres y la estatura promedio de los hijos de padres de estatura baja era mayor que la de sus padres. Así, se observa que los hijos de estatura alta o baja, “regresan” en forma similar hacia la estatura promedio de la población. En este sentido, la regresión de una variable aleatoria Y sobre otra variable X fue entendida como la media de Y condicional en X, a través de una relación funcional entre X e Y. El estimador de los coeficientes involucrados en esta forma funcional fue hallado utilizando el criterio de estimación de Mínimos Cuadrados Ordinarios (MCO), que será estudiado en el siguiente capítulo, y las observaciones muestrales de X e Y. Una interpretación más moderna de regresión indica que la misma es cualquier aproximación de la distribución de probabilidad de Y condicionada a los valores de las observaciones de X,
1

Francis Galton, “Family Likeness in Stature”, Proceedings of Royal Society, Londres,vol, 40, 1886, pp. 42-72.

Como ejemplo concreto. la relación intertemporal entre las tasas de interés y el consumo o la relación entre éste y los precios de los bienes relacionados de un bien. El problema asociado a la presencia de regresores (variables exógenas) estocásticos. A menudo se confunden los términos regresión y correlación. x2 .1. 5 Son las funciones de probabilidad generadas por el comportamiento aleatorio conjunto de dos o más variables y se utilizan en el estudio de las relaciones existentes entre éstas. etc. es decir son fijos en el muestreo repetido. Se sabe por nociones básicas de estadística que la función de probabilidad conjunta se puede plantear de la siguiente forma: f( y/ x1 . por el momento. la cual afirma que por cada punto porcentual que caiga la tasa de desempleo el producto tiende a crecer 3 puntos porcentuales.Econometría Moderna El Modelo de Regresión Lineal siendo Y una función de X. el análisis de regresión estudia la relación existente entre una variable endógena o dependiente (Y) y una o más variables exógenas o independientes (X). se necesitará utilizar simultáneamente datos de ambas variables. x3 ) = F ( y/ x1 . 2 El coeficiente de correlación entre dos variables aleatorias expresa el grado de dependencia entre el comportamiento de dichas variables. Ahora. Por un lado el análisis de correlación pretende medir el grado de asociación lineal entre dos variables a través del coeficiente de correlación2. se puede estar interesado en conocer la correlación entre la cuenta de capitales y la tasa de interés. Por ejemplo. En otras palabras. Esto significa que existe una relación negativa entre las dos variables y. son algunos de los tantos ejemplos que se encuentran en el análisis empírico en economía. resulta más clara la relación entre el estudio de Galton y la definición moderna del término regresión. X ) (σ x )(σ y ) Se debe resaltar que las variables explicativas pueden ser de naturaleza estocástica. dependiente o endógena) utilizando valores fijos3 de las variables explicativas (también llamadas independientes o exógenas) . se puede citar la Ley de Okun4. será abordado en otro capítulo. x2 . x3 ) * f (x1 . En el análisis econométrico.2 ¿Cómo se conecta el análisis económico con el análisis de regresión? El análisis económico toma en consideración diversas variables en conjunto. 1. x3 ) (1. Para ello. Se puede expresar matemáticamente de la siguiente manera: 3(un −u+ ) = (Q+1 −Q f ) . cuando se analiza una regresión se trata de estimar o de predecir el valor promedio de una variable (llamada explicada. los cuales están estrechamente ligados a pesar de que existen diferencias substanciales entre ellos. con el objeto de estimar la media o valor promedio poblacional de la primera en términos de los valores conocidos o fijos de las últimas. entre la tasa de encaje y créditos del sistema bancario. y tal como se indicó anteriormente. Utilizando el ejemplo anterior. puede ser que se desee predecir el saldo de la cuenta de capitales teniendo información muestral de la tasa de interés o que se desee predecir el monto total de créditos conociendo la tasa de encaje bancaria. x2 . Así. De hecho este supuesto deberá imponerse al momento de querer obtener estimados de los verdaderos parámetros. pero por simplicidad para el análisis de regresión se asume que los valores de X no cambian en diversas muestras. Formalmente: 3 ρ= Cov (Y . para contrastar el modelo. La relación entre las tasas de inflación y el desempleo. entre los términos de intercambio y la balanza comercial. se busca estimar la distribución condicional mientras que la marginal no se utilizará. 4 9 .1) Siendo la primera la función de probabilidad condicional y la segunda la marginal. y conociendo la relación existente entre estas variables a través de un análisis de regresión. se deben utilizar distribuciones de probabilidad conjuntas o multivariadas5. será posible predecir valores de la variable dependiente utilizando realizaciones de las independientes. donde un y Qf 1 indican que el producto está en pleno empleo y por tanto la tasa de desempleo (u) es la natural. En cambio.

1.3) Un punto importante que debe notarse es que la estructura de la relación entre la variable explicada y las variables explicativas se supone que es lineal lo cual puede ser un aproximación muy gruesa de la realidad porque de hecho muchos eventos o fenómenos que se pretenden explicar son de naturaleza no lineal. Yd. En todo caso el modelo de regresión lineal puede pensarse como una aproximación lineal de Taylor de un problema no lineal. Formalmente: 7 ∂Y ∂X i = β i es decir. Yd. sin embargo.. El otro miembro de la ecuación indica la relación exacta entre la variable explicada (C) y las demás variables llamadas explicativas. 10 .3 Definiciones Básicas Una vez que hemos entendido el concepto de regresión como la modelación de la media condicional de una distribución de probabilidades es deseable realizar algunas definiciones básicas que vamos a utilizar a lo largo del libro. ésta nos indica que el consumo es una función de la tasa de interés. y tal como se indicó en la introducción del libro. En consecuencia. el ingreso disponible.. una regresión de C sobre las demás variables se interpreta como el valor esperado de la distribución de probabilidad de C dado los valores de las variables r.. para luego proceder a la estimación y comprobación del mismo a partir de los datos muestrales. El modelo econométrico especificado en la expresión (1. Los β son conocidos como parámetros y recogen los efectos ocasionados por las variaciones de las variables r. Yd.. Se supone que u es una variable aleatoria y tiene una distribución de probabilidad conocida que será materia de estudio en un capítulo posterior. tiene como objetivo estimar el valor del consumo sobre la base de valores fijos de las variables explicativas. y tal como se dijo en la primera parte de este capítulo. Yd. uno de los objetivos de la econometría es formular un modelo econométrico a partir de un modelo económico.. w.Econometría Moderna El Modelo de Regresión Lineal De esta manera. w. En términos matemáticos 7. El modelo de regresión lo podemos plantear de manera general de la siguiente forma: y t = β1 + β 2 x 2 t + β3 x 3t + . La función anterior expresa únicamente una relación matemática.2) donde u es el componente estocástico o aleatorio. Las 6 Este modelo será estudiado en el Capítulo III. Formalmente: E (C /r.. w y Yp. Por tanto. se debe transformar la función anterior en un modelo econométrico. . una regresión puede interpretarse como la media condicional de Y dado X. cada parámetro representa la derivada parcial de la variable dependiente con respecto a cada variable explicativa. es el componente determinístico (o predecible) del modelo... Yp ) = f (Xi) (1. + β k x kt + µt La variable Y que es aquella que condicionamos a los valores que adopte las demás variables (X) recibe indistintamente le nombre de variable explicada. que recoge los efectos de variables no incluidas en el modelo que no afectan de manera sistemática a la variable endógena o explicada (el consumo). y Yp sobre la variable C que se desea explicar. Yp).. cada parámetro indica la sensibilidad de la variable dependiente ante un cambio unitario en la variable independiente. utilizando un conjunto de datos muestrales. es decir. endógena o dependiente. por ejemplo consideremos el siguiente modelo de regresión lineal6: C = β0 + β1 r + β2 Yd + β3 w + β4 Yp + µ (1. es decir.2). el salario y el ingreso permanente.. si se tiene la siguiente función conjunta: C = f (r. w.1..

Dado que la economía busca estudiar el comportamiento económico de las personas no podemos pensar en encontrar relaciones exactas que gobiernen el comportamiento de los agentes económicos. • La parte aleatoria o estocástica que viene representada por el término de error ( µ ). Datos de Corte Transversal: En este caso lo fijo es la unidad de tiempo y lo que varían son los individuos. Un ejmplo podría ser el individuo PERU para el cual se miden a lo largo del tiempo los valores del producto bruto interno. Estos factores pueden ser importantes en un momento determinado pero no afectan de manera permanente a la variable dependiente... Etc.. Esta será la parte explicada por nuestro modelo de los valores de Y. empresas o el Estado se desenvuelven en un contexto estocástico debido a que existen muchos factores no controlables como los estados de la naturaleza. Los datos pueden clasificarse de la siguiente manera: • Datos de Series de Tiempo: En este caso podemos pensar que el individuo sobre el cual se mide la variable es el mismo y se observa éste a lo largo del tiempo. Podríamos pensar en encuestas o mediciones que se hacen a distintos individuos en • • 11 . Datos Longitudinales: Esta tercera categoría es una combinación de las dos anteriores.. Así. la predicción será aquel valor que esperamos tenga nuestra variable dependiente con mayor probabilidad. Dado el carácter de media condicional.. este fenómeno aparece de manera inesperada y no se sabe cada qué tiempo afecta al Perú.... exógenas o independientes. Un ejemplo de ello puede ser la presencia del fenómeno del niño. pero si se produce el fenómeno del niño. factores políticos o los descubrimientos de nuevos productos y tecnologías que pueden afectar de manera inesperada cualquier relación que queramos estimar. la parte sistemática representa lo que en promedio se dará cuando los valores de las X estén dados. Las personas. nutrición.Econometría Moderna El Modelo de Regresión Lineal variables a la derecha del modelo reciben el nombre de variables explicativas.. Dado el concepto de media condicional de la regresión. Otro concepto que debemos utilizar es el referido al tipo de datos que podemos encontrar en la realización de trabajos empíricos. Como vemos el modelo es un modelo lineal el cual supone que los efectos de cada una de las variables explicativas se pueden agrupar de manera separada y el efecto conjunto se da de manera aditiva. + βk x kt Esta es la parte que es sugerida por el investigador y establece una relación sistemática y de dependencia entre la variable explicada y las variables explicativas. Si utilizamos nuestra relación estimada podríamos obtener algún resultado esperado.. educación. Un ejemplo de esto son las encuestas que se hacen en un momento determinado del tiempo. El plantear el modelo de esta manera nos permite decir que lo que estamos haciendo es separar a la variable explicada en dos conjuntos: • La parte sistemática o determinística que viene representada por : β1 + β2 x 2t + β3 x 3t + . movimientos bruscos en el mercado. Otra forma de apreciar esta parte es que representa lo que nosotros podremos predecir con nuestro modelo.. . nos podríamos alejar considerablemente del valor que el modelo nos arroja como el más probable. Como sabemos. en un determinado año podríamos tener que todas las variables que afectan la producto de manera sistemática (incluidas en la parte explicada de la regresión) tengan un determinado valor. En el Perú tenemos varios casos de encuestas realizadas como la Encuesta Nacional de Niveles de Vida (ENNIV) que sirve para analizar la calidad de vida de las personas a través de la medición de ingresos y acceso a servicios básicos como la salud.

En el Perú son pocos los casos en donde se han construido estos paneles de datos. se deduce que una estimación es el valor numérico que resulta de la aplicación de esta función a un conjunto de datos muestrales específicos. β es un vector columna que contiene a los k parámetros del modelo. Por ello.4) modelo empírico En este caso hemos optado por expresar el modelo de manera general donde X es una matriz que contiene todos los datos de las variables explicativas. en el modelo empírico se ha reemplazado al parámetro verdadero y desconocido ( β) ˆ por su estimador ( β). 12 . Por lo tanto. El modelo planteado por el investigador sobre la base de consideraciones teóricas o apreciaciones intuitivas es un modelo desconocido al cual llamaremos modelo teórico. el orden de la matriz X será nxk.Econometría Moderna El Modelo de Regresión Lineal diferentes períodos de tiempo. conocemos los valores muestrales tanto de la variable dependiente como de la dependiente.8 Según los expuesto. Sin embargo. Como estos no son los verdaderos sino aproximaciones que esperamos cumplan con ciertas condiciones deseables que veremos más adelante. los parámetros verdaderos (los β´s) son desconocidos. De igual manera ocurre con los errores teóricos ( µ ) y los errores empíricos (e). Lo ideal es que exista cierta conexión entre el modelo teórico y el empírico. 1. Un estimador se define como cualquier fórmula o función de los datos que permite obtener estimaciones de los parámetros desconocidos. 8 Esto implica que para otra muestra (la cual puede variar debido al método de muestreo) puedo obtener distintos estimados de los parámetros a pesar de que el estimador (función donde se reemplazan los datos) sea el mismo para todas las muestras posibles. Esto implica construir un panel de datos cuya realización es costosa porque implica hacer un seguimiento a los individuos a fin de poder ubicarlos para realizar la recolección de la información a lo largo del tiempo. Una vez realizada esta definición de conceptos básicos es de suma utilidad iniciar el estudio de los métodos y formas que se encuentran disponibles para la obtención de los parámetros de los modelos que pretendamos estimar. Por ello. En este punto es conveniente tener claro el concepto de estimación. De manera similar el orden del vector Y y del vector de errores (sean teóricos o empíricos) será de nx1 y . empresas privadas han invertido en la construcción de estos paneles dado que proveen muy buena información acerca de cambios en los patrones de consumo e ingresos de las personas.4 ¿Cómo obtener los parámetros? Si analizamos nuestro modelo. debemos desarrollar una estrategia que nos permita realizar una estimación adecuada de los mismos. el énfasis estará centrado en la estimación de los parámetros. Así. los errores tampoco serán los verdaderos sino aproximaciones.1. veremos que dada una muestra determinada. El modelo con el cual trabajaremos en la práctica implicará que se reemplazará los parámetros desconocidos por los estimadores correspondientes. Sin embargo. Denotaremos al número de variables explicativas como k y tendremos n datos. Esto lo podemos ilustrar con las siguientes expresiones: Y=Xβ u + modelo teórico ⇒ ˆ Y=Xβ +e (1. antes de proceder a explicar el proceso de estimación debemos hacer ciertas aclaraciones. Si bien son dos las magnitudes desconocidas en este modelo (los parámetros y los errores) debe notarse que una vez que obtenemos los estimados de los parámetros quedan determinados los errores empíricos.Como se puede apreciar.

la estructura de la función es elegida por el investigador y lo que varía es el error de predicción para cada observación muestral de X e Y. En la práctica. En consecuencia. existen distintas funciones de pérdida interesantes y. 13 . i) Pérdida cuadrática: La función de pérdida cuadrática es: L (u) ≡ u2 (1.8) En este caso. la idea es que la función de pérdida sea lo más pequeña posible.6) (1.Econometría Moderna El Modelo de Regresión Lineal La estimación de los parámetros se deriva de un problema de predicción condicional. Dicho predictor resuelve un problema de minimización de la siguiente forma: Min E [L (Y . el valor del mejor predictor depende sólo de la distribución de probabilidad de Y condicional en X. Esta función debe satisfacer la siguiente condición: 0<u<v ⇒ 0=L(0)≤ L(u)≤ L(v) 0 = L(0) ≤ L(-u ) ≤ L(-v ) (1. Si la función de pérdida es fija. muchas maneras de interpretar formalmente la posición de una variable aleatoria. Sin embargo. deberá elegirse aquel estimador que haga mínima la diferencia dada una función de pérdida. En este punto debemos introducir el concepto de función de pérdida. cuando P es usado para predecir Y. la cual recibe este nombre debido a que la presencia de un estimador implica que existe un predictor que trata de explicar o aproximarse lo más posible al verdadero valor de Y.P) / X] P Observado Estimado Siendo la función de pérdida L. Ellos describen brevemente la manera cómo varía Y ante cambios en los regresores (X). los mejores predictores son los que se estudian más detalladamente en el análisis de regresión. y recordando que la regresión es el valor esperado de la distribución condicional de Y dado X. donde u y v son los valores para el error de predicción (Y – P).7) (1. el mejor predictor resulta la media condicional de Y en X. Este resultado se obtiene mediante el método de estimación de Mínimos Cuadrados Ordinarios. En consecuencia. deducimos que el mejor predictor se obtiene mediante una regresión. En dicho problema se observa la realización de un vector aleatorio X y se desea predecir la realización de una variable aleatoria Y. como veremos en el siguiente capítulo. En este sentido. P denota un predictor de Y y E (L (Y – P) / X ) es la pérdida esperada.5) Evidentemente. Algo que no debe perderse de vista es que la proximidad entre el valor predicho y el valor verdadero dependerá de la elección del estimador. a su vez. el valor del mejor predictor o estimador dependerá sólo de la distribución de probabilidad mencionada. el planteamiento de una función de pérdida tiene como objetivo lograr que el modelo sujeto a estimación se parezca lo más posible a lo observado en la realidad. A continuación se presentan algunas funciones de pérdida conocidas y los distintos predictores que se derivan de ellas. Por ello. el mejor predictor será aquél que minimice la pérdida esperada de una función de pérdida específica. condicional en X. En otras palabras. Así.

la media. los cuales se definirán a continuación y posteriormente se discutirán en detalle. Por otro lado. En ello radica la importancia de escoger una adecuada función de pérdida aunque dicha necesidad disminuye sólo si uno cuenta con alguna información acerca de la distribución. debe reflejar cuán cerca están las predicciones del modelo con respecto a las observaciones reales. se puede realizar una estimación no paramétrica. En el problema de predicción descrito. dependiendo de la información previa a la que el investigador tiene acceso. Por ejemplo. el mejor predictor es el punto medio del intervalo de longitud 2δ que tiene la más alta probabilidad de contener a Y. Esos métodos son los más utilizados y responden a diferentes criterios con sus respectivas funciones de pérdida pero debe tenerse en cuenta que son arbitrarios. o viceversa . el mejor predictor es la mediana de Y condicional en X.11) En este caso. concepto que está fuera del alcance del presente libro9. el de Momentos Muestrales o el de Máxima Verosimilitud. en otras palabras. La media como regresión puede ser lineal en X mientras que la mediana puede no serlo. Dicha función debe reflejar las pérdidas asociadas al error de predicción. puede ser posible que una regresión aumente con X mientras la otra decrezca. δ ) L ( u ) ≡ 0 si  < δ u L ( u ) ≡ 1 si  ≥ δ u (1. la función de pérdida discreta sería: L( * . 14 .9) Si tomamos esta función de pérdida. 1. si no se cuenta con información acerca de la forma de la regresión o no es de interés la estimación de un forma particular y sólo se quiere haceruna aproximación general de la función de densidad. la mediana y la moda de la regresión de Y en X difieren entre sí. En general.Econometría Moderna El Modelo de Regresión Lineal ii) Pérdida absoluta: Cuya función de pérdida es la siguiente: L (u) ≡   u (1. la función de pérdida escogida determina la regresión sujeta a análisis. iii) Pérdida discreta: Dada una constante positiva δ . lo que implica que distintos predictores se comporten similarmente. o ambas pueden ser lineales pero con diferentes pendientes. si se quiere trabajar con un modelo de regresión paramétrica existen distintos métodos de estimación que se pueden entre los cuales se puede n mencionar los siguientes: El método de Mínimos Cuadrados Ordinarios.2 Métodos de estimación de los parámetros Cuando se efectúa una regresión se puede seleccionar el método de estimación más adecuado. De otro modo. el mejor predictor se aproximará a la moda de Y condicional en X. En la medida en que δ se aproxime a cero. i) Mínimos Cuadrados Ordinarios (MCO) 9 El lector interesado puede revisar el trabajo de Pagan y Ullah (1999) “Nonparametric Econometrics” Cambridge University Press. Su utilización generalizada obedece a que cumplen con una serie de propiedades deseables que facilitan su aplicación.10) (1.

Econometría Moderna El Modelo de Regresión Lineal El método de Mínimos Cuadrados es uno de los más usados. eficaces y conocidos del análisis de regresión debido al contenido de las propiedades estadísticas que posee. podemos tener errores positivos muy grandes y errores negativos muy grandes que se compensan por lo que la suma podría ser cero pero ello no implicaría que la regresión estimada sería buena dado que los errores tendrían una magnitud considerable. tal como un valor esperado o una desviación estándar.12) La minimización de los errores al cuadrado presenta una ventaja con respecto a la minimización de la suma de errores sin elevar al cuadrado dado que ésta puede verse afectada por los signos de los errores. El principio sobre el cual descansa esta metodología consiste en hacer mínimos la norma del vector de errores o perturbaciones del modelo10. Así. Formalmente este criterio de puede establecer de la siguiente forma: Min ∑e = ∑( y 2 i i =1 n i ˆ − x i β) 2 (1. Esto se puede apreciar en la siguiente figura: Y E(Y/X) = β0 + β1 X i 10 Debe tenerse en cuenta que la minimización de la norma de un vector implica la minización de la raíz cuadrada de la sumatoria de cada uno de los elementos del vector elevados al cuadrado. De este modo. ii) Método de Momentos El objetivo de este método consiste en aproximar lo más posible los momentos muestrales a los poblacionales. si sólo se cuenta con la muestra. es aquella que muestra el lugar geométrico de las medias condicionales o esperanzas de la variable endógena para los valores fijos de la(s) variable(s) exógena(s). 1. Recordemos que un momento es un estadístico que resume algunas características de una distribución de probabilidad. Para ello se plantea como supuesto que la variable Y tiene una distribución de probabilidad y se desea lograr que dicho supuesto inicial sea lo más verosímil posible. Este método ha sido generalizado por Hansen y Singleton (1982) en donde podemos utilizar más de un momento para la estimación de cada parámetro de un modelo. los coeficientes estimados son aquellos que hacen máxima la probabilidad de que la muestra pertenezca a la distribución supuesta. Es decir. Si la función de pérdida está fijada en términos de la distancia entre los momentos poblacionales y los muestrales la elección de los parámetros será aquella que minimice esta distancia. Las ecuaciones a partir de las cuales se determinan los parámetros se obtienen al reemplazar los supuestos poblacionales por sus contrapartes muestrales. 15 . de hecho podemos representar geométricamente este concepto a través de una línea o curva de regresión. una curva de regresión llamada poblacional.3 Significado de la línea de regresión Cuando se define la regresión como la media condicional de Y dado los valores de las observaciones de X. iii) Máxima Verosimilitud Este método consiste en maximizar la probabilidad de que una muestra dada pertenezca a determinada distribución.

el valor de una variable explicada para una observación en particular se encuentra alrededor de su esperanza condicional. Asimismo. µ i es llamado perturbación estocástica o estructural e introduce el elemento aleatorio a la ecuación de regresión.14) en (1.. En otras palabras. en el modelo de regresión lineal simple (donde sólo se incluye una variable explicativa) se puede tener la siguiente función lineal de X: E( Y/X ) = β 0 + β 1Xi (1. pudiendo tomar valores positivos o negativos para cada observación muestral. De este modo.. β 0 es el llamado intercepto y β 1 es el coeficiente de la pendiente.1 Línea de regresión poblacional La figura muestra cómo para cada X existen valores poblacionales de Y. queda: Yi = E (Y / X i ) + µi (1. Así.16) y reemplazando la ecuación (1.Econometría Moderna El Modelo de Regresión Lineal X1 X2 X3 X Figura 1. se define formalmente la regresión como: E(Y/X ) = f (Xi) (1.17) Como se mencionó en la sección anterior. y una media condicional correspondiente. . . 16 . Precisamente.13) y. En el análisis de regresión lo que se busca es estimar los parámetros desconocidos teniendo como base las observaciones de X e Y.14) Los parámetros o coeficientes de regresión son los β de la ecuación anterior. Sin embargo.15) (1. n (1.16) resulta: Yi = β 0 + β1 X i + µ i i=1.2. se debe tomar en cuenta que a cada valor de X no necesariamente le corresponde un valor de Y que se encuentre sobre la línea de regresión. se puede expresar la desviación o perturbación de un valor de Y alrededor de su media o esperado de la siguiente forma: µi = Yi − E (Y / X i ) Despejando la ecuación. la línea o curva de regresión pasa por las medias condicionales de la variable Y. y denota alguna función de la variable dependiente X.

aún cuando nunca se llegue a conocerlos. El siguiente capítulo se ocupará de abordar dicho problema empezando con el análisis de un modelo de regresión lineal simple. En este sentido. Por ello. lo importante en el análisis de regresión consiste en diseñar una regla o método que consiga que dicha aproximación se acerque lo más posible a los verdaderos valores de los parámetros. en algunos casos. de modo que cuando se reemplacen los valores estimados para β 0 y β 1 se hallará la siguiente ecuación. es importante advertir que en los procesos económicos. Este matemático planteó diez supuestos. sino también en hacer inferencia acerca de los verdaderos valores de los parámetros (β 0. válidos tanto para el análisis de regresión simple como para el modelo de regresión lineal múltiple. o cuán cerca está el valor estimado de Y de la verdadera E(Y/X). o bien se utilizan formas más complicadas que la lineal. Así y debido a que la función de regresión poblacional de Y. cabe mencionar que el modelo clásico de regresión lineal se atribuye al matemático alemán Carl Friedrich Gauss. Es decir. o de más de un regresor. Sin embargo. el valor estimado de Y puede hallarse sobre la línea de regresión poblacional y como consecuencia presentar un error positivo o el valor estimado de Y puede encontrarse bajo la línea de regresión poblacional. también llamada función de regresión muestral: ˆ ˆ ˆ Yi = β 0 + β1 X i (1.18) La ecuación muestra las estimaciones de los coeficientes de regresión. se desea saber cuán cerca están los estimadores de sus contrapartes poblacionales. La inclusión del término de error se debe a las siguientes razones: 17 .Econometría Moderna El Modelo de Regresión Lineal Cabe mencionar que en la mayoría de casos. expresado por el término de error (µ i). β 1). A pesar de ello. dado que en la práctica solamente se cuenta con una muestra de valores de Y que corresponden a los valores fijos de X. Antes de proceder con la descripción de los supuestos. Esta función es una ˆ aproximación a la ecuación de regresión poblacional. es necesaria una especificación de la forma como se generan las variables explicativas y los errores. por eso se dice. 2 SUPUESTOS DEL MODELO DE REGRESIÓN LINEAL El objetivo de un análisis de regresión no sólo consiste en estimar los coeficientes de regresión. En otras palabras. y por lo tanto presentar un error negativo. se precisa de más de una causa para explicar de forma adecuada el comportamiento de una variable aleatoria. depende de las variables X y de µ i. por lo general. por quien también recibe el nombre de Modelo de Gauss. Con dicha información muestral se deberá estimar la función de regresión anterior. cuyo estudio detallado será materia del Capítulo 3. resulta necesario plantear ciertos supuestos sobre el proceso generador de las variables endógenas (Y). es conveniente realizar una primera aproximación analizando la especificación más sencilla. En este sentido. no es posible disponer de todas las observaciones de la población. Primer supuesto: El modelo es estocástico Esto se debe a la inclusión de un componente aleatorio en el modelo. los supuestos que se plantean a continuación resultan críticos para interpretar en forma válida los estimadores de una regresión lineal. que Yi sobreestima o subestima la verdadera E(Y/X). de modo que luego se podrá comprender con menor dificultad el modelo de regresión lineal múltiple o general.

debido a que en la realidad existen otros factores que afectan el comportamiento de la variable explicada que no son incluidos en el modelo. es idéntico a cero. Esto se expresa de la siguiente manera: E(µ i) = 0 (1. Por otro lado. Aquellas variables no incluidas en el modelo pero que afectan de manera sistemática son recogidas por el intercepto del modelo. etc. cualquier intento de relacionar el gasto agregado con el consumo agregado es una aproximación. consideremos un modelo donde se busca explicar la demanda a través de la utilidad que brinda el consumo de un determinado bien. el gasto agregado intenta resumir un conjunto de decisiones individuales de gasto. Pretender que las variables independientes pueden explicar la estructura o predecir exactamente el comportamiento de la variable dependiente es una ilusión. En muchos casos. Por ejemplo. la diferencia se le atribuye al término de error. la relación existente entre la variable endógena y las exógenas es un intento por resumir un conjunto de observaciones individuales en un agregado económico. puesto que las personas no tienen un patrón preestablecido de preferencias. Esto ocurre frecuentemente debido a que las estimaciones de Y se realizan sobre la base de muestras finitas. Así. Por ejemplo. En este sentido. • • Como ya se mencionó existe una distinción entre el error teórico o poblacional (µ i) y el error de estimación o empírico. Agregación de variables. en promedio no presentan ningún efecto sobre la variable dependiente del modelo. y debido a que las relaciones individuales son probablemente distintas entre individuos. De este modo. entonces no amerita su inclusión. puede suceder que las variables explicativas sean muy difíciles de medir. En este sentido. debe definir adecuadamente las variables exógenas y la endógena.Econometría Moderna • • El Modelo de Regresión Lineal Las respuestas humanas son impredecibles. este supuesto garantiza que las variables que no están incluidas en el modelo (y que por tanto están incorporadas en µ i). De hecho. si dichas variables pueden medirse pero su impacto sobre Y no es significativo. El primero responde a la necesidad de introducir un elemento aleatorio en el modelo por razones antes expuestas mientras que el error de estimación se define ˆ) como la diferencia entre el estimado de la variable dependiente ( Xβ y la verdadera E (Y/X). la cuantificación y medición de la variable utilidad resulta una tarea bastante difícil debido al carácter subjetivo de la misma. el investigador debe decidir con cuidado el papel que desempeña cada variable. no trasmiten ningún efecto sistemático sobre la media condicional de Y dado X. Tercer supuesto: La varianza del error es constante (el error es homocedástico). Segundo supuesto: La esperanza matemática del término de error o perturbación es cero. Por ello.19) Este supuesto indica que el valor de la media condicional del término de error para cualquier variable explicativa X dada. En efecto. Errores de medición en la variable endógena (Y). En términos más sencillos. Omisión de variables explicativas que deberían incluirse en el modelo. Formalmente: 18 . Por ello. es decir. la falta de información muestral conduciría a una mala medición o a la omisión de una variable relevante. además de que dicha variable puede no ajustarse a la teoría económica que el investigador desea contrastar. los valores negativos de µ i se compensan con sus realizaciones positivas. hábitos de consumo.

En consecuencia. en el eje de la variable X suponemos que sus distintos valores están fijos lo que se refleja en las líneas discontinuas que parten de los valores x1 y x2 .2 Como podemos apreciar. y dados los valores de X.. n (1. 19 .21) El subíndice i indica que la varianza del término de error no es constante ya que presenta un valor distinto para cada observación de X. Entonces una forma de entender le presente supuesto es que implica que la varianza de cada una de las distribuciones de los distintos errores aplicables para cada observación es la misma.3. En otras palabras. se dice que el término de perturbación es heterocedástico.3.2. Estas distintas posibilidades (y sus probabilidades respectivas) determinan la función de distribución de los errores... Ante estos valores fijos de la variable explicativa tenemos diversas posibilidades de que ocurran diversos eventos lo que se refleja en todas la posibilidades de valores que puede tomar la variable dependiente (y). la varianza del error no cambia para distintas observaciones11.... no todos los valores de Y. El siguiente gráfico ilustra los conceptos que hemos mencionado hasta el momento: Z Y Y = +β α X Y = Xβ + µ E(Y) = Xβ Var(Y) = Var(µ ) x0 x1 X Figura 1. Aquí debemos mencionar que un supuesto implícito en el modelo de regresión lineal es que cada uno de los errores proviene de una distribución de probabilidades. serán de igual importancia y confianza como indicadores 11 Evidentemente.n (1. posee una dispersión diferente para cada observación.Econometría Moderna Var(µ i) = σ 2 El Modelo de Regresión Lineal i = 1.20) Esto implica que el término de error tiene igual(homo) dispersión(cedasticidad). cada término de error representa la realización de un proceso estocástico y lo que se asume a través de este supuesto es que las distribuciones de donde son “extraídos” estos errores presentan igual dispersión. es decir. que corresponden a distintos valores de X. El valor que observamos del error para cada observación es la realización de la variable aleatoria ante la ocurrencia de un determinado evento.. Cuando no se verifica este supuesto. Formalmente: Var(µ i) = σ 2 i i = 1.2..

Un ejemplo típico donde se detecta la presencia de autocorrelación positiva ocurre bajo el modelo de expectativas adaptativas. En este sentido. Si analizamos con cuidado la expresión (1. para cada caso. al plantear sus expectativas de inflación futura lo hacen sobre la base de expectativas sobre las futuras políticas económicas. En cambio. Por lo tanto. es decir. si se habla de información muestral de corte transversal o de series de tiempo. de dimensión NxN o TxT. Cuarto supuesto: Ausencia de autocorrelación entre los errores. de este modo se requiere que los valores observados sean indicadores confiables de la posición de la línea de regresión poblacional. Supongamos que los agentes económicos realizan su pronóstico de la inflación futura basados en la inflación pasada. Formalmente: ˆ ˆ ˆ ˆ P e +1 = P e + v( P − P e ) (1. De lo anterior se puede inferir que los errores no son sistemáticos o no presentan correlación alguna. solamente. etc. ya sea porque conocen y entienden el modelo que esta utilizando el Estado para hacer política económica o simplemente conocen al modelo que explica la economía. E(Y/X). esto es. se mide la confiabilidad por la cercanía con la cual se distribuyen los valores de Y alrededor de sus medias. si disponemos de datos de series de tiempo.12) notaremos que el error que se minimiza es la diferencia entre el valor observado (Yi) y el estimado . Por consiguiente su matriz de varianza y covarianzas es simétrica y definida positiva. se dice que un error µ t para un periodo de tiempo t. y en la medida en que los errores cometidos en el periodo actual se trasmiten al próximo a través del mecanismo descrito en (1.22) ∀i≠ j Lo anterior implica que no existe autocorrelación o correlación serial entre los términos de error µ i y µ j. µ t+2. sobre la línea de regresión poblacional. Formalmente: Cov(µ i. En este sentido. está correlacionado con los términos de error µ t+1.Econometría Moderna El Modelo de Regresión Lineal de la posición de la línea de regresión. µ j) = 0 (1. El vector de errores del modelo es de dimensión Nx1 o Tx1. Esto se ilustra con la siguiente expresión: 20 . esto es. .23). el pronóstico de la inflación evidenciará cierta inercia. Los supuestos tercero y cuarto pueden resumirse en uno solo si pensamos en el moelo planteado de forma matricial. dadas las observaciones xi y xj. En otras palabras. respectivamente. estará autocorrelacionado con el error de predicción registrado en este periodo.23) Esta ecuación implica que la expectativa de la inflación de mañana es una combinación lineal de la expectativa para el período actual y el error de predicción registrado en este periodo. si se considera un modelo de expectativas racionales sabemos que los agentes económicos utilizan eficientemente toda la información disponible. podemos definir el término autocorrelación como la correlación entre miembros de series de observaciones ordenadas en el tiempo (información de series de tiempo) o en el espacio (en información de corte tranversal). Se dicen que son confiables cuando poseen menor dispersión. y µ t-1. es decir..

Sexto supuesto: El modelo es lineal en los parámetros. Formalmente: Cov(xi. se puede expresar como una función lineal de X o de alguna transformación de ella.. De este modo. µ 2 ) . y de verificarse los dos supuestos antes analizados.  Cov ( µ n . µ n )   . Como ya hemos mencionado el análisis de regresión lo que hace es descomponer a la variable dependiente en dos partes: una explicada o determinística y otra aleatoria o no explicada... Quinto supuesto: Las variables explicativas y los errores son ortogonales entre sí. se supone que las variables exógenas y los errores son dos partes separadas y aditivas de la variable a explicar (Y). que no presentan intersección).. Por tanto.24) Esto usualmente se conoce como el supuesto general de que los errores del modelo son esféricos. Por otro lado..µ i) = 0 (1.. 21 . determina que los elementos fuera de la diagonal principal son cero. el supuesto que estamos presentando implica que se puede descomponer dicho conjunto en dos subconjuntos disjuntos (es decir. Al respecto. 3. Estos garantizan que el estimador de mínimos cuadrados ordinarios es eficiente propiedad que analizaremos en los capítulos 3 y 4.25) Este supuesto implica que los errores y las variables independientes no presentan correlación. 4 y 5. Por otro lado.Econometría Moderna El Modelo de Regresión Lineal  Var ( µ1 )  Cov ( µ 2. Si tomamos que Y representa un conjunto.. cuando se especifica el modelo. Parte aleatoria Parte determinística µ i β 0 +β 1Xi Yi =β 0 +β 1Xi +µ i Los supuestos 2.    Var ( µ n )   En términos de esta matriz el tercer supuesto implica que todos los elementos de la diagonal principal son iguales. µ1 )  Cov ( µ1 . Se dice que un modelo tiene una especificación lineal cuando la variable endógena Y. 3 y 4 garantizan que los errores del modelo son ruidos blancos. µ1 ) E ( µ µ ) = Var ( µ) =  '  . son también conocidos como las condiciones de Gauss-Markov. Var ( µ 2 ) . Cov ( µ n .. los supuestos 2. este supuesto implica que si no existe relación entre las variables explicativas (que son el componente esencial de la parte explicada) y aquella parte no explicada. la matriz anterior se puede escribir como: Var(µ )=σ 2In (1. En otras palabras. Cov ( µ1 . el supuesto de ausencia de autocorrelación. podemos descomponer el espacio donde está definida la variable dependiente en dos subespacios que son ortogonales entre sí12... µ 2 ) . consideremos las siguientes relaciones: 12 Podemos ampliar el concepto utilizando conceptos de teoría de conjuntos. o alguna transformación monotónica de la misma.

si la estructura que modela la variable dependiente se mantiene inalterada a lo largo de todo el intervalo muestral.26) muestra una relación lineal simple. mientras que la (1.Econometría Moderna Y = α + β X +µ El Modelo de Regresión Lineal (1. El análisis de regresión supone la existencia de una relación causal desde las variables independientes (X) hacia la variable dependiente (Y). el modelo deberá ser transformado de la siguiente manera: Q =α β e µ P (1. podemos asumir que esta misma estructura se mantiene para periodos fuera del intervalo de la muestra y utilizar la misma para predecir. el investigador debe decidir el papel que le otorga a las diferentes variables de modo que sólo exista una dirección en la relación de causalidad. éste implica que los coeficientes del modelo de regresión lineal son constantes en el tiempo. Así. Así. En cambio. como la variable a explicar (considerada aleatoria). Conocido también como el supuesto de estabilidad temporal.27) (1. ni tampoco puede reducirse a una función que exprese una relación lineal. Por otro lado. de ahora en adelante cuando se diga que una regresión es lineal se referirá a una regresión que es lineal en los parámetros.26) (1. y de acuerdo al supuesto de linealidad. sin embargo. Sin que esto necesariamente implique que también lo sea en las variables explicativas (X). Formalmente: 22 . se supone que el modelo es idéntico para todas las observaciones de la muestra. Ahora se considera el siguiente modelo que busca predecir la cantidad demandada(Q) dadas las observaciones muestrales de la variable explicativa precio(P). la ecuación (1. este supuesto resulta esencial no sólo si se pretende modelar la estructura que gobierna el comportamiento de la variable dependiente sobre la base de las independientes. A manera de ejemplo. Octavo supuesto: Causalidad unidireccional.29) (1. El análisis de este modelo implica la estimación de los parámetros α y β . Cabe mencionar que desde un punto de vista meramente estadístico. recordemos que la teoría cuantitativa del dinero afirma que el volumen de transacciones en una economía es igual a la cantidad de dinero que rota en la misma. este procedimiento es conocido como extrapolación. por consiguiente. Es decir. al plantear un modelo econométrico se debe tener cuidado al especificar las variables.28) Y = β 0 + β 1 X + β 2 X2 + β 3 X3 +µ Y=β 0+β 2 1 X1+ √ β 2 X2 +µ La ecuación (1. Séptimo supuesto: Los parámetros son constantes entre observaciones. de la misma manera como se puede estimar una regresión de una variable dependiente Y sobre otra variable independiente X. se puede estimar una regresión de modo inverso.30) LnQ = lnα +β lnP +µ La linealiadad en los parámetros es relevante para el análisis de regresión. más no en las variables. el modelo de regresión no necesariamente tiene una connotación de causalidad. Igualmente. y definir tanto las explicativas (consideradas fijas).27) es un modelo lineal en parámetros. De hecho.28) no es lineal en parámetros. sino principalmente si se busca que el modelo realice predicciones confiables.

sin embargo. que son realizaciones del proceso que gobierna el comportamiento de la variable explicada. cuando los retardos (o rezagos) son incluidos en el modelo de regresión como variables explicativas. el investigador debe decidir a priori cuál es la especificación que va a utilizar sobre la base de la teoría que busca verificar y una vez decidida. los valores observados de las variables exógenas no deben cambiar. Este supuesto implica que de poderse repetir el proceso de muestreo numerosas veces. (1. muy restrictivos y será interesante analizar cuáles son los efectos de la relajación de los mismos sobre los distintos estimadores que estudiaremos más adelante.31) En la ecuación anterior existe una relación causal que va de M hacia P. Este problema es conocido como multicolinealidad. puesto que el nivel de precios es una variable aleatoria (endógena). Habiendo establecido el lenguaje común que utilizaremos a partir de ahora es importante iniciar la exploración de los distintos caminos con los que contamos para a obtención de los parámetros desconocidos de nuestro modelo. el cuál será abordado con detalle en el Capítulo (9) Décimo supuesto: Las variables independientes son fijas o determinísticas (no aleatorias) Si revisamos con cuidado el análisis hasta ahora expuesto. notaremos que este supuesto ha estado implícito desde el inicio del capítulo. en términos estadísticos podríamos estimar una relación de este tipo. una regresión de la cantidad de dinero sobre el nivel de precios. mientras que M es fija o determinística (exógena). es decir. analizaremos el estimador de mínimos 23 . es común la aparición de valores retardados de la variable explicada (Y) como variables explicativas. se supone una única dirección causal Noveno supuesto: Las variables explicativas son linealmente independientes. ya que a veces las variables económicas no toman de inmediato el valor esperado por los agentes. De este modo. 3. Este supuesto implica que ninguna de las variables explicativas involucradas en el modelo puede expresarse en términos de una combinación lineal exacta de las demás. A MODO DE RESUMEN En este capítulo hemos revisado los conceptos básicos que están detrás del análisis de regresión así como aquellos relevantes respecto a las variables incluidas en el modelo.Econometría Moderna El Modelo de Regresión Lineal P. Este caso específico se analizará en un capítulo posterior. el nivel de precios es explicado por la cantidad de dinero en la economía. En este sentido. Sin embargo. esto es. Debe entenderse que estos supuestos son. Cuando se trabaja con datos de series temporales. esta especificación no tendría ningún sustento teórico. En primer lugar. Si alguna de las variables explicativas fuera una combinación lineal de otra significaría que la primera no aporta nada adicional al modelo o que los efectos individuales que ésta puede tener sobre la variable dependiente se confunden con los de la segunda.V donde: P= precio Q= producto M= dinero V= velocidad de circulación constante. y de ese modo incorporan cierta inercia.Q=M. en algunos casos. Sin duda. De la misma manera hemos revisado los principales supuestos que se realizan con respecto al modelo lineal general que analizaremos en buena parte del libro. se dice que son predeterminadas o en términos más formales. no se cumple lo contrario.

Econometría Moderna El Modelo de Regresión Lineal cuadrados ordinarios que es uno de los más analizados y el mejor cuando trabajamos con modelos lineales. 24 .