You are on page 1of 13

EL MODELO DE REGRESIÓN LINEAL MÚLTIPLE

1 Ajuste mínimo-cuadrático del hiperplano de regresión
En el modelo de regresión múltiple que vamos a presentar se considera que el regresando es una función lineal de k-1 regresores y de una perturbación aleatoria, existiendo además un regresor ficticio correspondiente al término independiente. Designando por Yt al regresando, por X2t, X3t, ..., Xkt a los regresores y por ut a la perturbación aleatoria, el modelo teórico de regresión lineal viene dado, para la observación genérica t-ésima, por la siguiente expresión: Modelo de regresión múltiple

Yt = β1 + β 2 X 2t +

+ β k X kt +ut

t = 1, 2,

,T

(1)

Siendo T el tamaño de la muestra y dando valores a t desde t=1 hasta t=T, se obtiene el siguiente sistema de ecuaciones: Y1 = β1 + β 2 X 21 + β 3 X 31 + Y2 = β1 + β 2 X 22 + β 3 X 32 + YT = β1 + β 2 X 2T + β 3 X 3T +
+ β k X k 1 + u1 + β k X k 2 + u2 + β k X kT + uT

(2)

El sistema de ecuaciones anteriores se puede expresar de forma más compacta utilizando notación matricial. Así, vamos a denominar
 Y1  Y  y =  2  ...    YT     1 X 21 1 X 22 X= ... ...   1 X 2T  X 31 X 32 ... X 3T ... X k 1  ... X k 2   ... ...   ... X kT    β1  β  β =  2  ...     βT     u1  u  u =  2  ...    uT   

El modelo de regresión lineal múltiple (1) expresado en notación matricial es el siguiente:  Y1   1 X 21 Y   1 X 22  2 =   ...  ... ...    YT   1 X 2T    X 31 X 32 ... X 3T ... X k 1   β1   u1  ... X k 2   β 2   u2   +  ... ...   ...   ...      ... X kT   βT  uT     

(3)

Si tenemos en cuenta las denominaciones dadas a vectores y matrices, el modelo de regresión lineal múltiple se puede expresar de forma compacta de la siguiente forma:

1

. X es una matriz T × k . véase el anexo 1 de Econometría aplicada. es decir. 2 . expresados mediante productos matriciales. respecto a un vector. u T ]  2  = ∑ ut2  .Xβ (6) Denominando S a la suma de los cuadrados de los residuos.2β′X′y + β′X′Xβ (8) Para llegar a la última igualdad de la expresión anterior se ha tenido en cuenta que ˆ ˆ β′X′y = y ′Xβ ya que un escalar es igual a su traspuesto.Xβ)′(y .. en la expresión (8) 1 y se iguala a 0 : 1 Para la derivación de escalares. Para ello se calcula la primera derivada de S ˆ con respecto al vector de coeficientes mínimo-cuadráticos.y = Xβ + u (4) donde y es un vector T ×1 . ˆ ˆ ˆ u = y .y ′Xβ + β′X′Xβ ˆ ˆ ˆ = y ′y .β′X′y .. se obtiene ˆ ˆ S = (y ..Xβ) = ˆ ˆ ˆ ˆ = y'y .y = y . El correspondiente modelo ajustado será el siguiente ˆ ˆ y = Xβ (5) El vector de residuos es igual a la diferencia entre valores observados y ajustados. se tiene que: ˆ u1  u  T ˆ ˆ ˆ . ˆ ˆ (β′X′y )′ = y ′Xβ Aplicar el criterio mínimo-cuadrático expuesto anteriormente es equivalente a minimizar el escalar S. es decir. β es un vector T ×1 y u es un vector T x 1.  t =1   u T  ˆ  ˆ ˆ ˆ ˆ S = u′u = [u 1 u 2 (7) Teniendo en cuenta (6). β .

se debe cumplir que el rango de la matriz X′X sea igual a k. se obtiene específicamente el sistema de ecuaciones normales del hiperplano el cuál no es susceptible de ser representado físicamente. b). distinto de cero. cuando k>3. con respecto al origen. Para comprobarlo. entre el regresando y los regresores. cuando k=3. (9) ˆ X′Xβ = X′y (10) Al sistema anterior se le denomina genéricamente sistema de ecuaciones normales del hiperplano. es el siguiente:   T  T  ∑ X 2t  t =1  T ∑ X  t =1 kt  Obsérvese que: a) X′X / T es la matriz de momentos muestrales de segundo orden. Si se cumple esta condici6n. Cuando k=2. ya que la matriz de segundas derivadas.∂S ˆ = . con respecto al origen. es definida positiva. 2 X′X . Entonces. de los regresores. se obtiene el sistema de ecuaciones normales de la recta. T (11) premultiplicar ambos miembros de (10) por [ X′X ] ˆ Para poder resolver el sistema (10) respecto a β unívocamente. consideremos el vector a.. de orden k × 1 . ∑ X 2t t =1 T T ∑X t =1 2 2t ∑X t =1 T kt X 2t   T  X kt  ∑  ∑ Yt  t =1 ˆ   β1   t =1  T   T  ˆ  … ∑ X 2t X kt   β 2   ∑ X 2tYt  = t =1     t =1      ˆ  βk   T  T   2  ∑ X Y  … ∑ X kt   t =1 kt t  t =1    . se pueden −1 [ X′X] −1 −1 ˆ X′Xβ = [ X′X ] X′y con lo cual se obtiene la expresión del vector de estimadores mínimo-cuadráticos: −1 ˆ β = [ X′X ] X′y (12) ˆ S presenta un mínimo en β . 3 .2X′y + 2 X′Xβ = 0 ˆ ∂β Por tanto. En notación matricial expandida el sistema de ecuaciones normales.. se obtiene el sistema de ecuaciones normales del plano. finalmente. X′y / T es el vector de momentos muestrales de segundo orden.

Obsérvese que. evidentemente. 2. . ˆ Y =Y (17) 4 . se concluye que necesariamente debe cumplirse (13). al dividir por T. al ser X′X definida positiva. que 2 X′X también es definida positiva. al cumplirse (13).a′X′Xa = [ Xa ]′ [ Xa ] será el producto escalar del vector [ Xa ]′ su transpuesto.T (14) Si sumamos para las T observaciones se obtiene: ˆ ∑ u = ∑ Y − T βˆ t =1 t t =1 t T T 1 ˆ − β 2 ∑ X 2t − t =1 T ˆ − β k ∑ X kt t =1 T (15) Por otra parte. Por definición de residuo ˆ ˆ ˆ ˆ ut = Yt − Yt = Yt − β1 − β 2 X 2t − ˆ − β k X kt t = 1. la primera ecuación del sistema de ecuaciones normales (11) es igual a ˆ ˆ T β1 + β 2 ∑ X 2t + t =1 T ˆ + β k ∑ X kt = ∑ Yt t =1 t =1 T T (16) Al comparar (15) y (16). Si el rango de X′X es k. Propiedades descriptivas en la regresión lineal múltiple Las propiedades que se exponen a continuación son propiedades derivadas exclusivamente de la aplicación del método de estimación por mínimos cuadrados al modelo de regresión (1) en el que se incluye como primer regresor el término independiente. 2. La suma de los residuos mínimo-cuadráticos es igual a cero: ˆ ∑u t =1 T t =0 (13) Demostración. producto que no será negativo. Por otra parte. 1. se sigue. por ser una suma de cuadrados. entonces queda garantizado que dicho producto es positivo. se cumplirá también que ∑ Yt = ∑ Yˆt t =1 t =1 T T y.

En efecto. si se tiene en cuenta (16) y (20) resulta que (20) ′ ˆ ˆ  ˆ ˆ ˆ ˆ ˆ y ′u =  Xβ  u = βX′u = β0 = 0 3 Hipótesis estadísticas básicas del modelo I Hipótesis sobre la forma funcional Yt = β1 + β 2 X 2t + + β k X kt +ut t = 1. X k ). . Los momentos de segundo orden entre cada regresor y los residuos son iguales a 0. en forma matricial. Para el conjunto de los regresores se puede expresar así: ˆ X′u = 0 Demostración. .X′y = 0 Para llegar a la última igualdad se ha tenido en cuenta (6).2. ˆ ˆ y ′u = 0 Demostración.X′Xβ = X′y . El hiperplano de regresión pasa necesariamente por el punto ( Y .T o. Los momentos de segundo orden entre y y los residuos son 0. ˆ ˆ  ˆ X′u = X′  y . 2. y = Xβ + u (21) II Hipótesis sobre el vector de perturbaciones aleatorias La perturbación aleatoria ut es una variable aleatoria no observable. En efecto. (19) ˆ 4. En efecto. 5 . es decir. dividiendo la ecuación (16) por T se obtiene: ˆ ˆ Y = β1 + β 2 X 2 + ˆ + βk X k (18) 3. X 2 . a) La esperanza matemática del vector de perturbaciones aleatorias es cero.Xβ  = X′y .

2.) En concreto.E (u) = 0 b) Las perturbaciones aleatorias son homoscedásticas (22) E (ut ) 2 = σ 2 t = 1. la matriz de covarianzas del vector de perturbaciones es la siguiente: E [u − E (u) ][u − E (u) ]′ = E [u − 0][u − 0]′ = E [u ][u ]′  u1  u  = E  2  [u1 u2     uT     E (u12 ) E (u1u2 )  2 E (u2u1 ) E (u2 ) =    E (uT u1 ) E (uT u2 )   u12 u1u2  2 uu u2 uT ] = E  2 1   uT u1 uT u2  E (u1uT )  σ 2 0   E (u2uT )   0 σ 2 =     2 E (uT )   0 0   u1uT   u2uT   2  uT   0  0   σ2  Para llegar a la última igualdad se ha tenido en cuenta que las varianzas de cada uno de los elementos del vector es constante e igual a σ 2 de acuerdo con (23) y que las covarianzas entre cada par de elementos es 0 de acuerdo con (24). El resultado anterior se puede expresar de forma sintética: E (uu′) = σ 2 I d) La perturbación aleatoria tiene una distribución normal multivariante Todas las hipótesis sobre el vector de perturbaciones se pueden formular de la siguiente forma: u ~ N (0. σ 2 I ) (26) (25) 6 . T (23) c) Las perturbaciones aleatorias con distintos subíndices son independientes entre sí.… . (La matriz de covarianzas de un vector que contiene T variables aleatorias es una matriz cuadrada y simétrica de orden T × T . E (ut us ) = 0 t≠s (24) La formulación de las hipótesis b) y c) permiten especificar la matriz de covarianzas del vector de perturbaciones. en cuya diagonal principal aparecen las varianzas de cada uno de los elementos del vector y fuera de la diagonal principal aparecen las covarianzas entre cada par de elementos.

Es importante señalar que los resultados que se obtienen utilizando este supuesto se mantendrían prácticamente idénticos si supusiéramos que los regresores son estocásticos. lo cual implica que no puede existir una relación lineal exacta entre ningún subconjunto de regresores. c) La matriz de regresores. debe ser igual o mayor que el numero de regresores. Este supuesto alternativo se puede formular así: a*) La matriz de regresores. con lo cual no se podrían determinar los valores del vector de estimadores de los parámetros del modelo. es una matriz fija. correspondientes a los k regresores del modelo. La hipótesis b) tiene dos implicaciones: 1. y no por experimentación. Si existe una relación lineal aproximada – es decir. no exacta –. Para que dicho supuesto se cumpliera. tiene rango k. X.III Hipótesis sobre el regresor X a) La matriz de regresores. X. se distribuye independientemente del vector de perturbaciones aleatorias E ( X′u) = 0 b) La matriz de regresores. En este último caso se dice que existe multicolinealidad no perfecta. y. en el que es poco viable experimentar. y T filas. k. los regresores deberían ser susceptibles de ser controlados por parte del investigador. T. El número de observaciones. el rango de la matriz X sería menor que k. X. no contiene errores de observación o de medida Ésta es una hipótesis que raramente se cumple en la práctica. ya que los instrumentos de medición en economía son escasamente fiables (piénsese en la multitud de errores que es posible cometer en una recogida de información. X. Los datos se obtienen por observación. Si se diera este caso se dice que existe multicolinealidad perfecta. la naturaleza del problema y. Todas las columnas de la matriz de regresores deben ser linealmente independientes. por tanto. si bien la fiabilidad de los mismos quedaría afectada. Aunque es difícil encontrar instrumentos para contrastar esta hipótesis. 2. los distintos regresores del modelo toman los mismos valores para diversas muestras del regresando. sobre los presupuestos familiares). siempre que introdujéramos el supuesto adicional de independencia entre los regresores y la perturbación aleatoria. la matriz X′X sería singular (carecería de inversa). (27) ρ ( X) = k (28) Recordemos que la matriz de regresores contiene k columnas. sobre 7 . De acuerdo con esta hipótesis. mediante encuesta. correspondientes al número de observaciones. entonces se pueden obtener estimaciones de los parámetros. En caso contrario. Éste es un supuesto fuerte en el caso de las ciencias sociales.

8 . aunque no se mencionen. En todo caso. seguirá también una distribución normal. por la hipótesis II d). 4 Propiedades probabilísticas del modelo Distribución del regresando El regresando es función lineal del vector de perturbaciones aleatorias. σ 2 I ) (31) Distribución y propiedades del vector de estimadores Teniendo en cuenta (12) y (21). y. puede ser aceptable que los parámetros del modelo se mantienen estables en el tiempo (si no se trata de períodos muy extendidos) o en el espacio (si está relativamente acotado). IV Hipótesis sobre el vector de parámetros β El vector de parámetros β es constante. que. el regresando. escalar. e1 regresando. serán Var (y ) = E ( y − Xβ )( y − Xβ )′  = E (uu′) = σ 2 I     (30) En consecuencia. sigue una distribución normal. teniendo en cuenta las hipótesis II a) a II c). y. σ 2I . podemos expresar el vector de ˆ estimadores β en función del vector de perturbaciones: −1 −1 ˆ β = [ X′X ] X′ [ Xβ + u ] = β + [ X′X ] X′u (32) 2 Las hipótesis de los bloques III y IV se tendrán implícitamente en cuenta. y ~ N (Xβ. teniendo en cuenta la hipótesis II a)2. La esperanza matemática de y. Por lo tanto. tiene una distribución normal multivariante con vector de medias β y con una matriz de varianzas-covarianzas. viene dada por E (y ) = E [ Xβ + u ] = Xβ + E (u) = Xβ (29) La matriz de varianzas covarianzas.todo. la procedencia de los datos utilizados pueden ofrecer evidencia favorable o desfavorable a la hipótesis enunciada. Si no se adopta esta hipótesis el modelo de regresión sería muy complicado de manejar.

ˆ a) El vector de estimadores. 9 . si se cumplen las hipótesis estadísticas básicas son estimadores lineales. es un estimador lineal: ˆ El vector de estimadores. además de las hipótesis de homoscedasticidad y no autocorrelación recogidas en (25). ˆ De acuerdo con lo anterior. insesgados y óptimos3. β . es decir ˆ β ~ N (β. Por tanto. ˆ también lo será la matriz A. β . la expresión (36) muestra que el vector β 3 El cumplimiento de la hipótesis de normalidad no es necesario para que los estimadores mínimocuadráticos tengan estas propiedades.Aplicando el operador esperanza a la expresión (32). el vector de estimadores. σ 2 [ X′X]−1 ) (35) Las propiedades que se van a enunciar a continuación son propiedades que se deducen conjuntamente de la aplicación del método de estimación de mínimos cuadrados y de las hipótesis estadísticas básicas formuladas en el epígrafe 3. se obtiene −1 ˆ E (β) = β + [ X′X ] X′E (u) = β (33) La matriz de varianzas-covarianzas del vector de estimadores mínimocuadráticos viene dada por  ˆ  ˆ ′ ˆ ˆ ˆ ˆ ′ ˆ Var (β) = E  β − E (β)  β − E (β)   = E  β − β  β − β             −1 −1 −1 −1 = E [ X′X ] X′uu′X [ X′X ]  = [ X′X ] X′E [uu′] X [ X′X ]   (34) −1 = [ X′X ] X′σ 2 IX [ X′X ] = σ 2 [ X′X ] X′X [ X′X ] = σ 2 [ X′X ] −1 −1 −1 −1 En la deducción anterior se han tenido en cuenta (32) y (33). de acuerdo con (32) se puede expresar del siguiente modo ˆ β = β + Au donde A = [ X′X ] X′ −1 (36) Puesto que X es una matriz de regresores fijos. según la hipótesis III a). tiene una distribución normal multivariante con vector de medias β y matriz de varianzascovarianzas σ 2 [ X′X]−1 . teniendo en cuenta que β y X son no aleatorios y aplicando (22). β . Los estimadores mínimo-cuadráticos.

se cumplirá que ˆ var( β i ) ≤ var( β i ) i = 1. Esta propiedad. β es un estimador óptimo o eficiente (teorema de GaussMarkov). es un estimador lineal. β .X [ X′X ] X′   (41) 10 . Es decir. y. ˆ E (β) = β (37) ˆ Es decir. de acuerdo con (33). que no demostraremos. a las varianzas de cualquiera otros estimadores que sean lineales e insesgados.… . k (39) ˆ ˆ donde β i y β i son elementos de los vectores β y β respectivamente Distribución del vector de residuos Teniendo en cuenta (6) y (12). La propiedad anterior implica que las varianzas de cada uno de los estimadores mínimo-cuadráticos son inferiores. se puede enunciar de forma global para el vector de estimadores de la siguiente forma:  ˆ   ′   ˆ ′ E   β − β   β − β   ≤ E  β − β  β − β          (38) donde β es cualquier otro vector arbitrario de estimadores que cumpla la propiedad de ser lineal e insesgado.es una combinación lineal del vector de perturbaciones. 2.Xβ = y . es decir. β tiene mínima ˆ varianza. β es un estimador insesgado. ya que la esperanza del vector de estimadores es igual al vector parámetros que trata de estimar.X [ X′X ] X′y = I . ˆ c) Dentro de la clase de estimadores lineales e insesgados. vamos a expresar el vector de residuos en función del regresando −1 −1 ˆ ˆ u = y . o a lo sumo iguales.X [ X′X ] X′ y = My   (40) donde −1 M = I . en consecuencia. ˆ b) El vector de estimadores. es un estimador insesgado En efecto.

b) AA = A ) De forma alternativa se puede expresar el vector de los residuos en función del vector de las perturbaciones: −1 −1 ˆ u = I .X [ X′X ] X′ y = I . para la estimación de σ 2 se utilizan los residuos obtenidos a partir de la regresión mínimo cuadrática. Para ver cuál es el estimador más conveniente de σ 2 . que es precisamente el numerador de la varianza residual. la suma de cuadrados de los residuos los podemos expresar de la siguiente forma ˆ ˆ u′u = u′M′Mu = u′Mu (46) 11 . de acuerdo con la hipótesis II b).Xβ + I − X [ X′X ] X′ u = I − X [ X′X ] X′ u     = Mu −1 La esperanza del vector de residuos es la siguiente: ˆ E [u ] = E [ Mu ] = ME [u ] = M0 = 0 y su matriz de covarianzas viene dada por ˆ ˆˆ Var [u ] = E [uu′] = E [ Muu′M′] = ME [uu′] M = Mσ 2 IM = σ 2 MM = σ 2 M ˆ En consecuencia.X [ X′X ] X′Xβ + u −  X [ X′X ] X′β  u   (42) −1 = Xβ . vamos a analizar previamente las propiedades de la suma de cuadrados de los residuos. En ambos casos es necesario estimarlos. De acuerdo con (42). Al igual que el vector de ˆ coeficientes ( β ) del modelo de regresión. se mantiene constante para las T perturbaciones aleatorias. (Una matriz idempotente A se caracteriza por cumplir estas dos propiedades: a) A = A′ . σ 2 M ) (45) (44) (43) Estimación de la varianza de las perturbaciones La varianza de las perturbaciones es.donde M es una matriz idempotente. el vector u tiene la siguiente distribución: ˆ u ~ N (0. la varianza de las perturbaciones ( σ 2 ) es un parámetro desconocido.X [ X′X ] X′ [ Xβ + u ]     −1 −1 = Xβ . Para la ˆ estimación de β se utilizan las observaciones muestrales sobre el regresando y los regresores.

ya que un escalar se puede considerar como una matriz de orden 1×1 . un estimador insesgado de la varianza vendrá dado por ˆ σ2 = ˆ ˆ u′u . según se ve a continuación: −1 −1 trM = tr IT ×T − X [ X′X] X′ = trIT ×T − trX [ X′X] X′   = trIT ×T − trI k ×k = T − k (48) Del resultado obtenido en (47). que se define como la suma de los elementos de la diagonal principal de una matriz cuadrada: a) La traza de un escalar es el mismo escalar. Este resultado está justificado por el hecho de que las ecuaciones normales del hiperplano imponen k restricciones sobre los residuos. 2 ˆ ˆ ˆ ˆ  u′u  E (u′u) σ (T − k ) 2 ˆ2) = E  E (σ  = T −k = T −k =σ . b) tr ( AB) = tr (BA) La propiedad b) permite calcular la trM . despejando se obtiene que σ2 = ˆ ˆ E [u′u ] T −k (49) A la vista de la expresión anterior. de acuerdo con (47). T −k (50) puesto que.Con objeto de tener información para poder construir un estimador insesgado de σ 2 . vamos a calcular la esperanza matemática de la expresión anterior: ˆ ˆ E [u′u ] = E [u′Mu ] = trE [u′Mu ] = E [tru′Mu ] = E [trMuu′] = trME [uu′] = trMσ 2 I = σ trM = σ (T − k ) 2 2 (47) En la deducción anterior se han utilizado las siguientes propiedades del operador traza (tr). T − k  (51) El denominador de (50) son los grados de libertad correspondientes a la suma de cuadrados de los residuos que aparecen en el numerador. 12 . con lo que coincide su diagonal principal con el propio escalar. Por lo tanto. el número de grados de libertad de la suma de cuadrados de los residuos es igual al número de observaciones (T) menos el número de restricciones (k).

Estimación de la matriz de covarianzas de los estimadores La matriz de covarianzas de los estimadores (teórica). los elementos de esta última matriz los hemos denominado de la siguiente forma:  v11 v12  21 v v 22 −1 [ X′X] =    k1 vk 2 v  v1k   v2k    v kk   13 . vendrá dada por ˆ σ 2 v ii = ˆ ˆ u′u ii v T −k (54) donde v ii es el elemento ii-ésimo de la diagonal principal de la matriz [ X′X]−1 . es función del parámetro desconocido σ 2 . como puede verse en (34). Cuando se sustituye σ 2 por su ˆ estimador σ 2 se obtiene un estimador de matriz de covarianzas de los estimadores: ˆ ˆ u′u ˆ ˆ ˆ Var (β) = σ 2 [ X′X]−1 = [ X′X]−1 T −k (52 El estimador anterior es un estimador insesgado. Así pues. ya que ˆ ˆ ˆ ˆ E (Var (β)) = E (σ 2 )[ X′X]−1 = σ 2 [ X′X]−1 = Var (β) (53) ˆ La varianza de un coeficiente individual β i .