You are on page 1of 291

Capítulo 1

El Modelo de Regresión Lineal Clásico con Dos Variables

En este capítulo nos ocuparemos de estudiar la relación entre dos variables económicas,
en donde una de ellas depende de la otra. Aunque los modelos económicos suelen
involucrar a más de dos variables, empezaremos con un modelo simple que solo
considera a estas dos variables, asumiendo que la influencia de cualquier otra variable
es irrelevante o no interfiere en la relación entre estas. Este análisis sencillo será de
mucha utilidad para la presentación de conceptos econométricos importantes, los cuales
serán extendidos más adelante en el capítulo 4 sobre el modelo multivariado.

En la teoría económica no es difícil encontrar ejemplos de relaciones entre dos


variables. Por ejemplo, la relación entre la cantidad demandada de un bien y el precio
(la ley de la demanda), la relación entre el número de empresas y los márgenes de
ganancia, o la relación entre los salarios y la educación. Los modelos matemáticos que
usan los economistas deducen relaciones exactas entre estas variables (las llamadas
“curvas”). Estas relaciones perfectas son relaciones determinísticas, tal como se
presenta en el lado izquierdo de la figura 1.1. En ausencia de elementos perturbadores,
(es decir, otras variables), se esperaría que las variables bajo estudio se comporten así.

No obstante, es muy frecuente que tales asociaciones no sean tan perfectas cuando se
presentan datos de la vida real en forma visual mediante gráficos de dispersión. De
hecho, en economía ni siquiera las llamadas “leyes económicas” se cumplen a la
perfección mostrando siempre relaciones imperfectas y contaminadas por otros
elementos no tomados en cuenta por la teoría.

¿Cómo podemos trabajar con este tipo de relaciones empíricas? En el lado derecho de la
figura 1.1 se muestra una relación estadística, tal como se encuentra con observaciones
reales. Mientras que los modelos económicos muestran relaciones determinísticas, los
datos reales muestran relaciones estadísticas. Por ejemplo, si X es el nivel educativo e Y
es el salario, se espera que exista una relación positiva, aunque es probable que no todas
las observaciones se ajusten a una recta. ¿Por qué ocurre esto? Quizás porque el salario
depende no solo de la educación sino que también puede depender de otros factores,
como la experiencia, la edad del trabajador, su sexo, etc. Todos esos factores afectan al
salario Y, y con lo cual la relación observada entre esta variable y la educación deja de
ser perfecta. En la modelación estadística de la relación entre X e Y nuestro objetivo es

9
proponer un modelo que reproduzca a la relación estadística descrita, en donde X ejerce
una fuerte influencia sobre Y pero donde también existen otros factores que alejan a las
observaciones de lo esperado teóricamente.

Figura 1.1
Relaciones determinísticas y estadísticas

Y Y

X X
Una relación determinística Una relación estadística

Adicionalmente, a los economistas no solo nos interesa describir las relaciones entre las
variables sino estudiar las posibles relaciones causales entre ellas. Por ejemplo, si un
consumidor observa que el precio de un bien se eleva, esto debería causar que el
consumidor adquiera menos unidades del bien. Sí más empresas ingresan a un mercado
ofreciendo un mismo bien (o un sustituto muy parecido), esto provocaría que las
empresas que operan en él tengan menores ganancias. También, si las personas
decidieran educarse más, esto causaría que la paga que obtengan en el mercado laboral
sea más alta. Por lo tanto, en la modelación de la relación entre dos variables
económicas deberíamos tener alguna idea de qué variable causa a cuál.

1.1 El análisis de regresión

La econometría desde sus inicios se ha apoyado en el análisis de regresión para estos


tipos de estudios. Este análisis consiste en usar técnicas estadísticas para el estudio de la
relación entre una variable 𝑌 (llamada variable dependiente) y otra o más variables 𝑋
(llamadas variables independientes). El objetivo del análisis de regresión es explicar y
pronosticar el comportamiento de la variable dependiente a través del comportamiento
de la o las variables independientes.

10
Bajo ciertas condiciones el análisis de regresión puede ser una herramienta útil para
analizar relaciones causales entre las variables económicas. Si podemos observar que
variaciones de la variable endógena 𝑌 son explicados por variaciones en las variables
exógenas 𝑋, podríamos suponer que hay ciertos indicios que la asociación entre 𝑋 e 𝑌
puede ir más allá de una mera asociación estadística, sino que podría estar
representando una relación causal. Al menos podemos pensar que si dos variables están
unidas por una relación de causalidad, al menos debería existir una asociación
estadística entre ellas. Sin embargo, observar que dos variables están asociadas
estadísticamente no necesariamente implica que exista una relación causal entre ellas.

La cuestión causal es importante para decidir cuál de las dos variables es la endógena.
Por ejemplo, imaginemos que analizamos el efecto de la cantidad de cierto fertilizante
sobre la producción de manzanas. Sin necesidad de mirar ningún dato podríamos
deducir teóricamente que existe una relación causal entre las cantidades de estas
variables, en donde esperaríamos que al aumentar la cantidad de fertilizantes esto
debería causar una mayor producción (obviamente sin exceder cierto límite que pueda
ser perjudicial para las plantas). Es obvio que más fertilizantes causan una mayor
producción y no que mayor producción provoca que se usen más fertilizantes.

En un análisis de regresión que busque implicaciones causales debe tomar a la


producción de manzanas como la variable dependiente y a la cantidad de fertilizantes
como independiente. Invertir esta relación puede explicar estadísticamente que mayores
cantidades de fertilizantes ocurren cuando se ha observado una mayor producción. Esto
puede ser cierto, de hecho si observo que algunos manzanos presentan mayor
producción podría inferir que es muy probable que ellos hayan recibido una mayor
cantidad de fertilizantes. Así hemos logrado explicar a los fertilizantes en función de la
producción de manzanas. No obstante, este último análisis de regresión “invertido” no
tiene ninguna implicación causal, solo podemos decir que ambas variables están
asociadas o correlacionadas. En economía los análisis de regresión que se lleven a cabo
deben tener un trasfondo causal en donde es la teoría económica la que debe dictar qué
variables son las dependientes y qué variables son las explicativas.

Cabe mencionar que el análisis de regresión, como herramienta estadística, no tiene en


sí mismo una interpretación causal. Somos los economistas quienes vamos a atribuirle

11
una connotación causal cuando sea posible. Como veremos más adelante en este libro,
solo bajo ciertas condiciones es posible darle tal connotación al análisis de regresión.

Otra herramienta estadística es el análisis de correlación, la cual se utiliza para evaluar


la fuerza con la que dos o más variables aleatorias podrían estar asociadas. Los análisis
de regresión y correlación están fuertemente relacionados; sin embargo,
conceptualmente son distintos. En el análisis de correlación, ambas variables son
tratadas en forma simétrica, en el sentido que no se establece ningún tipo de
dependencia causal entre ellas. Por el contrario, en el análisis de regresión se trata de
explicar el comportamiento de 𝑌 a través de variaciones en 𝑋, con el fin de hacer
pronósticos.

1.2 El modelo de regresión lineal clásico con dos variables

El modelo de regresión lineal clásico (MRLC) con dos variables es un ejemplo de


modelo econométrico, en el cual se enfatiza la relación de dependencia entre dos
variables. En este modelo, una de ellas () depende del comportamiento de la otra (X).
Aunque este modelo se construye sobre la base de supuestos muy restrictivos y poco
realistas, es la piedra inicial del análisis econométrico. Se presentará este modelo
econométrico en forma exhaustiva con los siguientes objetivos:

(a) Clarificar el alcance que tienen los supuestos de un modelo econométrico, es


decir cómo estos supuestos pueden afectar las conclusiones e inferencia del
modelo.

(b) Utilizarlo como punto de referencia para modelos más generales que lo superen
tanto en la presentación de supuestos menos restrictivos y por lo tanto de alcance
más general, como en la aplicación de métodos de estimación distintos al
método preferido por el MRLC, que es el de Mínimos Cuadrados Ordinarios.

(c) Entrenar al estudiante en el uso de herramientas estadísticas y de análisis


econométrico.

1.2.1 La muestra de observaciones

12
Antes de presentar los supuestos del modelo, vale la pena comentar algo más sobre las
observaciones que se utilizan en el trabajo econométrico. Se supone que se cuenta con
n observaciones de las variables aleatorias 𝑋 e 𝑌, es decir, tenemos 𝑛 pares (𝑌𝑖 , 𝑋𝑖 ),
donde i = 1, 2, …, n, siendo esta la forma típica de presentar los datos de corte
transversal. Cuando los datos son de series de tiempo, se suele colocar el subíndice t
señalando el correspondiente periodo, (𝑌𝑡 , 𝑋𝑡 ), para t = 1, … , T, mientras que si los
datos son de panel, se requiere indicar a la entidad y el periodo, (𝑌𝑖𝑡 , 𝑋𝑖𝑡 ).
Presentaremos el modelo en un contexto que sea común para datos de corte transversal
y de series de tiempo, aunque naturalmente surgirán propiedades y características del
modelo que son más aplicables a uno de los dos tipos de datos mencionados.

La manera como se consigue una muestra de datos puede generar problemas


econométricos que más adelante en el libro quedarán aclarados. Por ejemplo, no es lo
mismo que se obtenga una muestra aleatoria simple de estas observaciones sobre un
universo claramente definido en donde cada observación tiene la misma probabilidad de
haber sido escogida, a que se obtengan datos de algún grupo específico que por alguna
razón no represente al universo poblacional bajo estudio. Un ejemplo bastante
esclarecedor sobre los problemas de hacer inferencias sobre muestras que exhiban algún
tipo de condicionamiento o sesgo es aquél de las encuestas por teléfono en los
programas de radio o televisión. En este tipo de muestreo, la información obtenida no se
puede generalizar para toda la población porque está sesgada a las personas que ven o
escuchan esos programas.

En el modelo que vamos a desarrollar, la muestra no tiene estos sesgos en el sentido que
en buena medida representa a la población, y de acuerdo a los supuestos que vamos a
plantear a continuación, esta muestra se comporta de forma muy parecida a una que se
hubiera obtenido de un muestreo aleatorio simple.

Otro aspecto importante de la muestra es cómo entenderla, en términos de la


aleatoriedad de las variables. Como se mencionó, las 𝑛 observaciones pueden ser un
número igual de realizaciones de las variables aleatorias. Alternativamente se puede dar
una mirada distinta a las mismas observaciones tomando a 𝑋𝑖 o 𝑌𝑖 como variables
aleatorias con distribuciones de probabilidad idénticas para cada individuo 𝑖, e iguales a
las de la variable 𝑋 e 𝑌, siendo entonces las observaciones solo unas realizaciones de
estas variables aleatorias. Luego, 𝑋1 , 𝑋2 , … 𝑋𝑛 y 𝑌1 , 𝑌2 , … , 𝑌𝑛 serían conjuntos de

13
variables aleatorias idénticamente distribuidas, en donde lo observado es una
realización de cada una de las variables de esta secuencia. Según conveniencia se
utilizarán cualquiera de las dos interpretaciones.

1.2.2 Supuestos del modelo clásico

En esta subsección vamos a presentar los principales supuestos del modelo de regresión
lineal clásico, cuya función es configurar las principales propiedades estadísticas de las
variables aleatorias. El modelo resultante debe reproducir la relación estadística entre
las variables 𝑋 e 𝑌.

Antes empezaremos señalando que la variable 𝑌 se descompone en dos partes, aquella


explicada por 𝑋 (llamada Función de Regresión Poblacional, FRP) y aquella parte no
explicada por 𝑋 (llamada error o perturbación, 𝑢). La FRP representa la relación entre 𝑋
e 𝑌 que señala la teoría económica, mientras que el error incluye a todos los demás
factores que puedan afectar a 𝑌.

𝑌𝑖 = 𝐹𝑅𝑃𝑖 + 𝑢𝑖 𝑖 = 1, … , 𝑛

En la expresión anterior, el subíndice i indica que para cada individuo i se cumple esta
propiedad.

Los supuestos del MRLC son los siguientes:

Supuesto 1: La relación entre 𝑋 e 𝑌 es una relación lineal en parámetros

𝑌𝑖 = 𝛽1 + 𝛽2 𝑋𝑖 + 𝑢𝑖 𝑖 = 1, … , 𝑛 (1.1)

En este modelo 𝑌 toma el nombre de “variable dependiente” o “endógena” y 𝑋 es la


“variable independiente” o “exógena”. A 𝑋 también se le conoce como variable
“explicativa” o “regresor”.

La ecuación (1.1) nos dice que la Función de Regresión Poblacional (FRP) es una
función lineal de la variable aleatoria Xi , siendo por lo tanto 𝐹𝑅𝑃𝑖 = 𝛽1 + 𝛽2 𝑋𝑖 . Esta
ecuación resume en una expresión lineal la “verdadera relación” existente entre la
variable 𝑋 e 𝑌. En la ecuación (1.1), 𝛽1 y 𝛽2 son dos parámetros poblacionales que
deben ser estimados. 𝛽1 es el intercepto el cual multiplica al número 1 (la constante).
𝛽2 es el “efecto marginal”, “pendiente” o impacto de 𝑋 sobre 𝑌, 𝜕𝑌/𝜕𝑋.

14
En cuanto al término 𝑢𝑖 , es una variable aleatoria no es observable que captura a toda
aquellas variables que puedan afectar a la endógena 𝑌 pero que quedan fuera de la
“verdadera relación”, dejando claro que la relación entre 𝑋 e 𝑌 no es exacta. En sí
mismo, 𝑢𝑖 captura el efecto de cualquier otra variable sobre 𝑌 que no ha sido incluida en
la regresión.

Ejemplo 1.1: Considere el efecto que puedan tener los años de educación (𝑋) sobre los
salarios (𝑌). La teoría económica indica que al elevarse el nivel educativo de una
persona, la productividad marginal del trabajo debería elevarse. Luego, si en el mercado
de trabajo las empresas maximizan beneficios, en el equilibrio del mercado en ausencia
de imperfecciones, el salario recibido debería ser directamente proporcional a la
productividad del trabajo. Deberíamos de esperar una relación positiva entre el salario y
la educación. En la figura 1.2 representamos datos de 22,674 observaciones del
logaritmo ingresos por hora y los años de estudios de trabajadores dependientes de áreas
urbanas en el Perú, utilizando la Encuesta Nacional de Hogares 2016. Nótese que al
menos visualmente se aprecia una clara asociación positiva entre las variables, aunque
es evidente que existen muchos factores no considerados en esta asociación que
explican la variabilidad notable de los ingresos laborales, más allá de lo que pueda
explicar la variable años de educación. La línea continua muestra lo que podría ser la
verdadera relación entre la educación y los salarios.

15
Figura 1.2
Relación entre los años de educación y los ingresos laborales

La línea recta en la figura 1.2 es la recta de regresión poblacional, la cual según la teoría
debería tener a 𝛽2 > 0 indicando que mientras mayores sean los años de educación,
mayor debería ser la remuneración laboral. Esta recta es invisible para el investigador
pues contiene a los parámetros poblacionales 𝛽1 y 𝛽2. Cualquier desviación observada
respecto a la recta “teórica” es considerada como una perturbación. Simplificando lo
mostrado en la figura 1.2, la figura 1.3 nos muestra que las perturbaciones se calculan
verticalmente, y que para cada observación habrá un valor realizado de tal perturbación.
En la figura, el valor 𝑢1 > 0 es la perturbación realizada de un individuo, definido como
la diferencia entre el valor observado (el punto) y lo que según la teoría debería ser el
ingreso para una persona con esa educación (la recta). Para esta persona se observa está
ganando más de lo que la teoría predice para su nivel educativo. Por otra parte, el valor
𝑢2 es negativo, mostrando que –por alguna razón no explicada por el modelo– el
ingreso es más bajo que lo que teóricamente debería ocurrir para esta persona.

16
Figura 1.3
La recta de regresión poblacional y el término de perturbación

𝑢1 𝐸[𝑌𝑖 𝑋𝑖 ] = 𝛽1 + 𝛽2 𝑋𝑖
𝑢2

Volviendo a la discusión inicial, la propiedad de linealidad del supuesto 1 es una


propiedad de los parámetros 𝛽1 y 𝛽2, no de las variables. Por ejemplo, el modelo
𝑌𝑖 = 𝛽1 + 𝛽2 𝑋𝑖 2 + 𝑢𝑖 es un modelo lineal en parámetros aunque es no lineal en la
relación entre 𝑋 e 𝑌, la cual es cuadrática. No obstante, esta ecuación cumple con el
supuesto 1 mencionado, aunque si quisiéramos graficar esta relación, se mostraría no
como lo que se ve en las figuras 1.2 y 1.3, sino como un conjunto de puntos que
describen un arco.1

Algunos modelos no lineales en parámetros como el modelo 𝑌𝑖 = 𝑒 𝛽1 𝑋𝑖 𝛽2 𝑒 𝑢𝑖 pueden


ser linealizados tomando logaritmos, quedando en este ejemplo el modelo lineal doble-
logarítmico ln(𝑌𝑖 ) = 𝛽1 + 𝛽2 ln(𝑋𝑖 ) + 𝑢𝑖 .2

1
Una forma sencilla de probar la linealidad de la FRP es tomado derivadas parciales de esta función
respecto a los parámetros. Este vector de derivadas no debe depender de los β. Por ejemplo, para 𝑌𝑖 =
𝜕𝑌 𝜕𝑌𝑖
𝛽1 + 𝛽2 𝑋𝑖2 + 𝑢𝑖 , derivando se tiene que [𝜕𝛽𝑖 𝜕𝛽2
] = [1 𝑋𝑖2 ], luego, es lineal en parámetros. En el caso
1
𝛽 ∂Y ∂Yi ∂Yi 𝛽 𝛽
de 𝑌𝑖 = 𝛽1 + 𝛽2 𝑋𝑖 3 + 𝑢𝑖 se tiene que [∂β i ∂β2 ∂β3
] = [1 𝑋𝑖 3 𝛽2 𝑋𝑖 3 ln(𝑋𝑖 )] y por lo tanto no es
1
lineal en parámetros.
2
Otros modelos no lineales pueden ser linealizados mediante expansiones de Taylor. Sin embargo en este
libro no profundizaremos sobre esta alternativa.

17
Supuesto 2: La esperanza condicional del término de perturbación dados los valores de
𝑋 es igual a cero.

𝐸[𝑢𝑖 𝑋𝑖 ] = 0 𝑖 = 1, … , 𝑛 (1.2)

En términos simples, (1.2) dice que para algún valor dado de 𝑋𝑖 siempre esperaremos
que el valor esperado del término de perturbación sea cero. Si pensamos en qué
significa este supuesto en términos de las figuras 1.1 y 1.2, podemos hacer el ejercicio
de “fijar” un valor de los años de estudio y luego estudiar verticalmente cómo se
distribuyen todos los términos de perturbación posibles, alrededor de la recta. Por
ejemplo, en la figura 1.2 si observamos el nivel educativo 𝑋 = 6 años de educación
(primaria completa), podemos ver con claridad que algunos errores serán positivos,
otros negativos, pero en promedio se espera un valor cero de estos errores. Lo mismo
ocurre con, por ejemplo, 𝑋 = 11 (secundaria completa) y también para todos los valores
de 𝑋, y por lo tanto el supuesto 2 se cumple en ese ejemplo. Es altamente razonable
pensar que las observaciones de una muestra (los “puntos” de las figuras 1.2 y 1.3) por
lo general se encontrarán “alrededor” de la recta, salpicados aleatoriamente por encima
y por debajo, y a lo largo de la recta poblacional.

Para clarificar este supuesto, pensemos en cómo se vería un diagrama de dispersión


como el de la figura 1.3 si no se cumpliera este supuesto. En la figura 1.4 tenemos un
ejemplo, en donde las perturbaciones son positivas cuando los valores de 𝑋 son muy
pequeños o muy grandes, y son negativas cuando los valores de 𝑋 son medianos. Tal
como se señala en la figura, el valor esperado de 𝑢𝑖 dado 𝑋𝑖 será en ocasiones negativo
y en otras positivo.

Evidentemente, la figura 1.4 muestra una relación curvada entre las variables 𝑋 e 𝑌, la
cual pudo haber sido modelada de mejor manera con el modelo 𝑌𝑖 = 𝛽1 + 𝛽2 𝑋𝑖 2 + 𝑢𝑖 ,
el cual es lineal en parámetros pero no lineal en 𝑋. Si en vez de ese modelo proponemos
una ecuación lineal en parámetros y variables, 𝑌𝑖 = 𝛽1 + 𝛽2 𝑋𝑖 + 𝑢𝑖 , como la línea recta,
nuestro modelo no se ajustará bien a los datos y por tanto no cumplirá con el supuesto 2.
En este caso se dice que el modelo está mal especificado, pues la forma funcional
propuesta no es la correcta. En capítulos posteriores discutiremos sobre algunas otras
formas de cometer error de especificación en los modelos propuestos.

18
Figura 1.4
Un caso donde no se cumple el Supuesto 2.

𝐸[𝑢𝑖 𝑋𝑖 = 10] > 0

𝐸[𝑢𝑖 𝑋𝑖 = 60] < 0

Volviendo al caso en que se cumple el supuesto 2, este supuesto equivale a decir que la
FRP es igual a 𝐸[𝑌𝑖 𝑋𝑖 ]. En el ejemplo que estamos presentando, el salario por hora
esperado para cada cantidad de años de educación es igual a lo que la regresión indica
que debería ser el salario para esa cantidad de años de educación. Dada la ecuación del
modelo econométrico (1.1), tomamos el valor esperado condicional tenemos:

𝐸[𝑌𝑖 𝑋𝑖 ] = 𝐸[𝛽1 + 𝛽2 𝑋𝑖 + 𝑢𝑖 𝑋𝑖 ] = 𝛽1 + 𝛽2 𝑋𝑖 + ⏟
𝐸[𝑢𝑖 𝑋𝑖 ]
=0

𝐸[𝑌𝑖 𝑋𝑖 ] = 𝛽1 + 𝛽2 𝑋𝑖 (1.3)

En términos gráficos, el supuesto 2 implica que la recta de regresión pasa por las medias
condicionales de 𝑌 dado 𝑋.

Algunas implicaciones que se derivan del supuesto 2.

 La media incondicional del término de error es cero 𝐸[𝑢𝑖 ] = 0.

La demostración es simple. Aplicando la ley de expectativas totales

𝐸[𝑢𝑖 ] = 𝐸X [𝐸[𝑢𝑖 𝑋𝑖 ]] = 𝐸X [0] = 0

En la última expresión debemos notar que 𝐸[𝑢𝑖 𝑋𝑖 ] es en sí misma una variable


aleatoria cuya distribución de probabilidades es la misma que la distribución de
probabilidades de 𝑋. Entonces, 𝐸X se calcula sobre las probabilidades de los
posibles 𝑋.

19
 𝐸[𝑋𝑖 𝑢𝑖 ] = 0, es decir 𝑋𝑖 y 𝑢𝑖 son “ortogonales” en el sentido estadístico.

La demostración requiere el uso de la ley de expectativas y la linealidad de las


esperanzas condicionales.

𝐸[𝑋𝑖 𝑢𝑖 ] = 𝐸X [𝐸[𝑋𝑖 𝑢𝑖 𝑋𝑖 ]] = 𝐸X [𝑋𝑖 𝐸[𝑢𝑖 𝑋𝑖 ]] = 0

Esto es cierto dado que 𝐸[𝑢𝑖 𝑋𝑖 ] = 0.

 𝐶𝑜𝑣(𝑋𝑖 , 𝑢𝑖 ) = 0. El regresor no está correlacionado con el término de error.

De la definición de covarianza,

𝐶𝑜𝑣(𝑋𝑖 , 𝑢𝑖 ) = 𝐸[(𝑋𝑖 − 𝐸[𝑋𝑖 ])(𝑢𝑖 − 𝐸[𝑢𝑖 ])]


= 𝐸[𝑋𝑖 𝑢𝑖 − 𝐸[𝑋𝑖 ]𝑢𝑖 − 𝑋𝑖 𝐸[𝑢𝑖 ] + 𝐸[𝑋𝑖 ]𝐸[𝑢𝑖 ]]

Como los valores esperados no son aleatorios, el operador 𝐸[. ] se aplica solo a
las variables. Luego,

𝐶𝑜𝑣(𝑋𝑖 , 𝑢𝑖 ) = 𝐸[𝑋𝑖 𝑢𝑖 ] − 𝐸[𝑋𝑖 ]𝐸[𝑢𝑖 ] − 𝐸[𝑋𝑖 ]𝐸[𝑢𝑖 ] + 𝐸[𝑋𝑖 ]𝐸[𝑢𝑖 ]

= 𝐸[𝑋𝑖 𝑢𝑖 ] − 𝐸[𝑋𝑖 ]𝐸[𝑢𝑖 ]

Por las propiedades anteriores 𝐸[𝑋𝑖 𝑢𝑖 ] = 0 y 𝐸[𝑢𝑖 ] = 0. Luego esta covarianza


es cero.

Este último resultado es muy importante. Bajo el supuesto 2 del modelo clásico no debe
existir ningún tipo de covarianza ni correlación entre el regresor 𝑋𝑖 y el error 𝑢𝑖 .
Pensemos por un momento en el ejemplo sobre la educación y los salarios. En 𝑢𝑖 se
incluye a cualquier otro factor que afecta a los salarios, como por ejemplo, la
experiencia laboral, las habilidades, la edad, el sexo, etc. El supuesto 2 implica que la
variable X años de educación no se relaciona con ninguna de estas variables que se
encuentran en u. En caso que pudiera existir algún tipo de correlación –como podría
ocurrir en el caso de la educación y las habilidades–, entonces no se cumpliría este
supuesto.

Intuitivamente también se puede entender a la ecuación (1.2) como que 𝑢𝑖 no es una


función de 𝑋𝑖 para diversos valores de 𝑋. En la figura 1.2 es razonable pensar que

20
E[𝑢𝑖 𝑋𝑖 ] no es una función de Xi , mientras que en la figura 1.4 𝐸[𝑢𝑖 𝑋𝑖 ] sí cambia con
los valores de 𝑋𝑖 .

Más adelante veremos que el cumplimiento del supuesto 2 es crucial para la


confiabilidad en las estimaciones de este modelo.3

Supuesto 3: Las perturbaciones son “esféricas”. Con este término nos referimos a dos
características de la distribución de u.

𝑉𝑎𝑟(𝑢𝑖 𝑋𝑖 ) = 𝜎 2 ∀𝑖 = 1, … , 𝑛 “Homocedasticidad” (1.4)

𝐶𝑜𝑣(𝑢𝑖 , 𝑢𝑗 |𝑋𝑖 , 𝑋𝑗 ) = 0 ∀𝑖 ≠ 𝑗 “No autocorrelación” (1.5)

La primera ecuación quiere decir que la varianza del término de perturbación


condicionada a algún valor de 𝑋 es una constante 𝜎 2 para cualquier valor que pueda
tomar la variable aleatoria 𝑋𝑖 . A este supuesto se le suele llamar “homocedasticidad
condicional”. Debemos recordar que la varianza es una medida de dispersión de una
variable aleatoria. En este caso, la variable aleatoria 𝑢𝑖 puede presentar dispersión en
sus valores, positivos o negativos. Condicional a algún valor de 𝑋𝑖 , podemos tener
variabilidad de 𝑢𝑖 según se aleje verticalmente por encima o por debajo de la recta
poblacional, tal como se ve por ejemplo en la figura 1.2. El supuesto dice que esa
variabilidad de ui es constante para todo 𝑋𝑖 , es decir a lo largo de la recta.

En términos del ejemplo 1.1 y la figura 1.2, condicionando o fijando un valor de años
de estudio, digamos 10 años, la distribución condicionada de 𝑢 muestra una varianza
igual a 𝜎 2 . Esta varianza debería ser la misma si condicionamos a diferentes valores de
𝑋, por ejemplo, para personas con 5 o 10 años de educación. En realidad en la figura 1.2
se observa que la dispersión de las perturbaciones es ligeramente mayor cuando 𝑋 = 11
y cuando 𝑋 = 16. No obstante, asumamos que la varianza se mantiene constante,
dejando para un capítulo posterior el caso en que la varianza pueda variar con 𝑋𝑖 .

En la figura 1.5 se muestran este supuesto de Homocedasticidad condicional. Podemos


apreciar que la dispersión de las remuneraciones –la amplitud de las “campanas”– se

3
En el apéndice de este capítulo se presenta información adicional sobre el supuesto 2, cuya lectura es
opcional.

21
mantiene constante a lo largo de la recta, es decir para cada valor de Años de
Educación.

Figura 1.5
Homocedasticidad

Densidad

Remuneraciones

5
𝐸[𝑌𝑖 𝑋𝑖 ] = 𝛽1 + 𝛽2 𝑋𝑖
10
15

𝑋
Años de educación

La definición de homocedasticidad condicional puede ser rescrita de la siguiente forma:

𝑉𝑎𝑟(𝑢𝑖 𝑋𝑖 ) = 𝐸[𝑢𝑖 2 𝑋𝑖 ] − 𝐸[𝑢𝑖 𝑋𝑖 ]2 = 𝐸[𝑢𝑖 2 𝑋𝑖 ] = 𝜎 2

Esto último es cierto pues 𝐸[𝑢𝑖 𝑋𝑖 ]2 = 0.

La otra parte del supuesto que dice que 𝐶𝑜𝑣(𝑢𝑖 , 𝑢𝑗 |𝑋𝑖 , 𝑋𝑗 ) = 0 lleva el nombre de “no
autocorrelación” o “no correlación serial”. Simplemente señala que las variables
aleatorias 𝑢𝑖 y 𝑢𝑗 , correspondientes a dos individuos distintos con características 𝑋𝑖 y
𝑋𝑗 , presentan una covarianza o correlación nula.

Este supuesto tiene connotaciones distintas según estemos trabajando con datos de corte
transversal o de series de tiempo. Tal como está planteado se aplica mejor para datos de
corte transversal. Por ejemplo, si tenemos una muestra de 𝑛 personas, la no
autocorrelación implica que la perturbación de cada persona no se relaciona con la de
ninguna otra persona. Sabiendo que la perturbación 𝑢𝑖 incluye a variables no
observables tales como las habilidades, preferencias, actitudes, costumbres, etc., el
supuesto de no autocorrelación afirma que estas variables no están relacionadas entre

22
ningún par de individuos. En la práctica este supuesto no se cumple con frecuencia, tal
como se verá en el Capítulo 9. Por ejemplo, en una muestra de personas a nivel
nacional, puede ocurrir que grupos de personas de alguna región en particular
compartan costumbres, actitudes, creencias religiosas, etc., y por lo tanto sería probable
que la covarianza entre los errores de dos individuos de la misma región no sea igual a
cero.

En los datos de series temporales, es conveniente reescribir la definición (1.5) de no


autocorrelación así

𝐶𝑜𝑣(𝑢𝑡 , 𝑢𝑠 𝑋𝑡 , 𝑋𝑠 ) = 0 ∀𝑡 ≠ 𝑠

Recordar que con series de tiempo se tiene datos de un mismo individuo en diferentes
periodos. Por ello la no autocorrelación se refiere a que las perturbaciones de distintos
periodos 𝑡 y 𝑠 no están relacionadas, para cualquier par de periodos 𝑡 y 𝑠, sin importar
qué valores tome la variable aleatoria X. En el Capítulo 9 se verá que este supuesto
podría no cumplirse en series de tiempo, en donde la perturbación 𝑢𝑡 es una alteración o
shock que afecta a 𝑌 y que no ha sido explicada por el regresor 𝑋. Si ocurre un shock
que dure varios periodos y que lentamente se vaya diluyendo, entonces existirá algún
tipo de correlación entre perturbaciones de diferentes periodos.

Supuesto 4: la variable aleatoria 𝑋 se encuentra “fija” en muestras repetidas.

Asumir que los 𝑋 son fijos quiere decir que en repetidas muestras de 𝑋, los valores
obtenidos 𝑋1 , 𝑋2 , … , 𝑋𝑛 van a ser siempre los mismos, es decir, dejan de ser aleatorios.
Es decir, si obtenemos muchas muestras de tamaño n de los años de estudio, siempre
obtendríamos los mismos valores.

Este supuesto es poco realista y en realidad no es necesario para poder desarrollar la


econometría del modelo clásico, sin embargo, simplifica notablemente los cálculos y la
notación. Dado que el modelo clásico lo asume, así lo haremos en este capítulo, aunque
en capítulos más avanzados podría levantarse el supuesto.

Bajo este supuesto ya no es necesario hablar de esperanzas condicionales. Los supuestos


del modelo clásico de (1.2), (1.4) y (1.5) se reducen a:

Supuesto 2a: 𝐸[𝑢𝑖 ] = 0.

23
Supuesto 3a: 𝑉𝑎𝑟(𝑢𝑖 ) = 0

𝐶𝑜𝑣(𝑢𝑖 , 𝑢𝑗 ) = 0.

El modelo tiene más supuestos que por el momento no vamos a mencionar pues no es
necesario para lo que se desarrolla en las siguientes secciones.

1.3 A manera de conclusión

Con estos supuestos hemos definido al modelo de regresión lineal clásico, que para
fines económicos pretende expresar mediante relaciones estadísticas a las relaciones de
causalidad entre dos variables. Sin embargo, aún es de poca utilidad dado que los
parámetros que lo componen no son observables por el investigador. En el siguiente
capítulo vamos a ver de qué manera podemos tener una aproximación empírica basada
en datos de este modelo, y cómo podríamos obtener estimaciones de los parámetros que
lo componen.

Otro aspecto que vale la pena resaltar es que, en el modelo econométrico, estamos
diciendo explícitamente que la variable 𝑋 afecta o causa a 𝑌. En ese sentido, para fines
económicos no tiene sentido que invirtamos la ecuación (1.1) y digamos que el efecto
de 𝑌 sobre 𝑋 es 1/𝛽2 . Aunque en términos estadísticos podríamos decir que
efectivamente 𝑋 y 𝑌 están asociadas y que estadísticamente hablando cada vez que 𝑌
varía se observa en promedio una variación de 1/𝛽2 en X, en términos económicos la
expresión 1/𝛽2 no tienen ningún sentido pues nuestra teoría económica nos dice
claramente qué variable es la exógena y cuál es la endógena, y que las exógenas causan
a las endógenas y no al revés.

Otro asunto que vale la pena mencionar es sobre las demás variables que afectan a la
endógena. No queremos decir que X sea la única variable que causa a 𝑌, de hecho
reconocemos que existen otros factores, los cuales están incluidos en la perturbación. El
diagrama de flechas de la Figura 1.6 muestra las relaciones causales que implícitamente
propone el modelo de dos variables:

24
Figura 1.6
Relación causal propuesta entre las variables

A diferencia del análisis clásico en donde a la perturbación se le atribuía un origen


desconocido, en el análisis que proponemos decimos que u también puede incorporar a
otros factores que quizás conocemos pero que por el momento no nos interesa analizar.
El supuesto 2 del modelo clásico afirma que esos factores no se relacionan con el
regresor 𝑋, lo cual es coherente con la inexistencia de una flecha causal entre 𝑢 y 𝑋.

Apéndice

El Supuesto 2 en contextos más generales

En la presentación del supuesto 2, con fines netamente didácticos hemos establecido


que la media del error 𝑢𝑖 dado el valor de 𝑋𝑖 es igual a cero, lo cual calzaba muy bien
con el ejemplo de la relación entre el ingreso laboral y los años de educación. Aunque
correcta, esta presentación no es suficiente para abarcar otros modelos, en especial para
los modelos que utilizan datos de series temporales. En este apéndice mostraré bajo qué
contexto conviene afirmar que 𝐸[𝑢𝑖 𝑋𝑖 ] = 0, y cuándo es mejor usar una forma más
general.

Con mayor generalidad, el supuesto 2 puede ser presentado así:

𝐸[𝑢𝑖 𝑋1 , 𝑋2 , … , 𝑋𝑛 ] = 0 (1.6)

Es decir, el valor esperado de la perturbación dados todos los valores de 𝑋𝑖 en la


muestra es cero. Analizando esta ecuación en el ejemplo de los salarios y los años de
educación, es difícil imaginar de qué manera (al menos potencialmente) los años de
educación de otras personas (𝑋𝑗 para 𝑗 ≠ 𝑖 ) podrían condicionar los valores de los
errores de alguna persona en particular (𝑢𝑖 ), de manera que sea necesario asumir que tal
influencia no existe. Esto se debe a que normalmente en datos de corte transversal no se

25
espera que exista mucha influencia entre individuos, excepto en el caso de
agrupamientos, familias o clanes que presenten algún tipo de correlación fuerte entre
ellos. Si asumimos que la muestra es aleatoria, cada par de observaciones (𝑋𝑖 , 𝑌𝑖 ) será
independiente de cualquier otro par (𝑋𝑗 , 𝑌𝑗 ). Este parece ser el caso más apropiado para
datos de corte transversal. Luego como 𝑢𝑖 = 𝑌𝑖 − 𝛽1 − 𝛽2 𝑋𝑖 , entonces 𝑢𝑖 no se
relacionará con algún 𝑋𝑗 de otro individuo. En ese caso,

𝐸[𝑢𝑖 𝑋1 , 𝑋2 , … , 𝑋𝑛 ] = 𝐸[𝑢𝑖 𝑋𝑖 ].

Si los datos son de series de tiempo, la intuición de (1.2) y (1.6) es completamente


distinta. Para este tipo de datos, (1.2) puede escribirse así

𝐸[𝑢𝑡 𝑋𝑡 ] = 0 (1.7)

Lo cual quiere implica que 𝐶𝑜𝑣(𝑋𝑡 , 𝑢𝑡 ) = 0, es decir no existe correlación en el mismo


periodo entre el regresor y el error. Por el contrario, (1.6) se escribe como

𝐸[𝑢𝑡 𝑋1 , 𝑋2 , … , 𝑋𝑇 ] = 0 (1.8)

La expresión (1.8) implica que el error en un periodo 𝑡 no se correlaciona con valores


pasados, presentes o futuros del regresor 𝑋𝑡 . Para un modelo en donde 𝑋𝑡 y 𝑌𝑡 son series
temporales es difícil que (1.7) sea suficiente para afirmar que 𝑋 es una variable
exógena. Es sabido que las series temporales suelen tener una fuerte relación con sus
valores pasados y por ello no es raro que en un modelo 𝑌𝑡 = 𝛽1 + 𝛽2 𝑋𝑡 + 𝑢𝑡 pueda
existir alguna relación entre 𝑢𝑡 y valores pasados de 𝑋𝑡 .

Es posible que (1.8) imponga demasiadas restricciones, como la de no correlación con


valores futuros de 𝑋. Una versión más simple de (1.8) es la que asume que 𝑢𝑡 no se
relaciona con valores presentes y pasados de 𝑋.

𝐸[𝑢𝑡 𝑋1 , 𝑋2 , … , 𝑋𝑡 ] = 0 (1.9)

En cualquier caso, (1.8) o (1.9) se van a dar bajo condiciones muy particulares en un
modelo de series de tiempo, por lo que el cumplimiento de este supuesto debe evaluarse
con atención.

26
Ejercicios

1.1. Defina media poblacional, varianza poblacional y covarianza poblacional.


Distíngalos de la media muestral, varianza muestral y covarianza muestral.
1.2. Imagine que usted está interesado en estudiar el efecto de las lluvias (𝑋) sobre las
cosechas (𝑌). La variable Lluvia solo cuenta con dos valores, 1 si hubo lluvia
abundante en una localidad en el año, y 0 si hubo sequía. Por su parte la variable
cosechas también cuenta con dos valores: 30 toneladas si hubo una mala cosecha y
100 toneladas si hubo buena cosecha. Se cree que las lluvias podrían determinar si
las cosechas son buenas o malas. Aunque en la vida real uno no cuenta con la
siguiente información, imaginemos que contamos con las probabilidades conjuntas
de estas variables resumidas en la siguiente tabla:

Sequía Lluvia abundante


Pr(Y)
(X = 0) (X = 1)
Mala Cosecha
0.35 0.08 0.43
(Y = 30)
Buen Cosecha
0.15 0.42 0.57
(Y = 100)
Pr(X) 0.50 0.50 1

Los valores en el cuadrante central nos indican las probabilidades conjuntas de que
los eventos ocurran simultáneamente, por ejemplo, la probabilidad de que se
observe sequía y buena cosecha es solo 0.15. Los valores en los márgenes son las
probabilidades marginales, indicando por ejemplo que hay un 50% de posibilidades
de tener lluvia o sequía, y que es más probable que uno tenga buenas cosechas que
malas cosechas. Con la información de la tabla, calcule:

a. Las probabilidades condicionales de 𝑌 dado 𝑋.


b. Calcule la esperanza condicional de la cosecha dadas las lluvias, 𝐸[𝑌𝑖 𝑋𝑖 = 1]
y 𝐸[Yi Xi = 0]. Recuerde que las esperanzas condicionales se definen como
𝑚

𝐸[𝑌 𝑋 = 𝑥] = ∑ 𝑌𝑖 Pr(𝑌 = 𝑦𝑖 𝑋 = 𝑥)
𝑖=1

siendo en este ejemplo 𝑥 ∈ {0,1}.

27
c. Grafique estas esperanzas condicionales. ¿Podría deducir de su gráfico qué
valores tomará los parámetros poblacionales 𝛽1 y 𝛽2, si modelamos esta
relación entre variables como en la ecuación (1.1)?
d. Comprobar con los valores de la tabla y los resultados de la parte b que
𝐸[𝑌𝑖 ] = 𝐸X [𝐸[𝑌𝑖 𝑋𝑖 ]].
e. Calcule las varianzas condicionales, definidas como
m

𝑉𝑎𝑟(𝑌 𝑋 = 𝑥) = ∑(𝑌𝑖 − 𝐸[𝑌 𝑋 = 𝑥])2 Pr(𝑌 = 𝑦𝑖 𝑋 = 𝑥)


i=1

siendo en este ejemplo x ∈ {0,1} ¿Es esta varianza homocedástica?

f. Calcule la covarianza entre X e Y, definida como

n m

𝐶𝑜𝑣(Xi , Yi ) = ∑ ∑(𝑌𝑖 − 𝐸[𝑌])(𝑋𝑗 − 𝐸[𝑋])Pr(𝑌 = 𝑦𝑗 , 𝑋 = 𝑥𝑗 )


j=1 i=1

1.3. Extendiendo el ejemplo anterior, supongamos que tenemos una mejor medición de
la lluvia medida en milímetros. Los valores de la variable X son 200 milímetros,
1000 milímetros y 2000 milímetros. La tabla de probabilidades conjuntas y
marginales es:
Sequía Normal Abundante
Pr(Y)
(X = 200) (X = 1000) (X = 2000)
Mala Cosecha
0.20 0.18 0.15 0.53
(Y = 30)
Buen Cosecha
0.05 0.32 0.10 0.47
(Y = 100)
Pr(X) 0.25 0.50 0.25 1

Obtenga lo mismo que se pide en la pregunta 2. ¿Podría afirmarse que no se está


cumpliendo el supuesto 1?

1.4. Se suele afirmar que los salarios guardan una relación no lineal con la edad de las
personas, de manera que durante la juventud estos salarios se incrementan
rápidamente, para luego crecer a menor velocidad en la madurez, y finalmente
decaer en la vejez. Si nos proponemos estudiar la relación entre la edad de las
personas y los salarios mediante un modelo de dos variables de regresión lineal del
tipo 𝑆𝑎𝑙𝑎𝑟𝑖𝑜𝑖 = 𝛽1 + 𝛽2 𝐸𝑑𝑎𝑑𝑖 + 𝑢𝑖 , ¿qué supuesto del modelo de regresión lineal
clásico cree usted que se esté violando?

28
1.5. Para el modelo de dos variables (1.1), muestre que la covarianza 𝐶𝑜𝑣(𝑋𝑖 , 𝑌𝑖 )
definida como 𝐶𝑜𝑣(𝑋𝑖 , 𝑌𝑖 ) = 𝐸[(𝑋𝑖 − 𝐸[𝑋𝑖 ])(𝑌𝑖 − 𝐸[𝑌𝑖 ])] es igual a 𝛽2 𝑉𝑎𝑟(Xi ).
𝐶𝑜𝑣(𝑋𝑖 ,𝑌𝑖 )
Muestre también que a correlación definida como 𝐶𝑜𝑟𝑟(𝑋𝑖 , 𝑌𝑖 ) =
√𝑉𝑎𝑟(𝑋𝑖 )√𝑉𝑎𝑟(𝑌𝑖 )

es igual a 𝛽2 √𝑉𝑎𝑟(𝑋𝑖 )/√𝑉𝑎𝑟(𝑌𝑖 ).


1.6. Juzgue si los siguientes modelos son lineales o no lineales en parámetros o
variables.
a. 𝑌𝑖 = 𝛽1 + 𝛽2 𝑋𝑖 𝛽3 + 𝑢𝑖
b. 𝑌𝑖 = 𝛽1𝑋𝑖 𝛽2 𝑢𝑖
c. 𝑌𝑖 = 𝛽1 + 𝛽2 (1/𝑋𝑖 ) + 𝑢𝑖
d. 𝑌𝑖 = 𝛽1 + 𝛽2 𝑋𝑖 2 + 𝑢𝑖
e. 𝑙𝑛(𝑌𝑖 ) = 𝛽1 + 𝛽2 𝑋𝑖 + 𝑢𝑖

29
Capítulo 2
Estimación del Modelo por Mínimos Cuadrados Ordinarios y sus Propiedades

Una parte importante del análisis econométrico es la obtención de una versión muestral
de la regresión a partir de los datos disponibles para el investigador. Como se vio, la
recta de regresión queda completamente caracterizada mediante sus parámetros, por lo
que la primera tarea consiste en la estimación de estos parámetros utilizando inferencia
estadística. En esta parte la econometría se apoya en los métodos de estimación
provenientes de la estadística, como por ejemplo el método de mínimos cuadrados, el de
máxima verosimilitud o el método de los momentos.

En este capítulo presentaremos los temas concernientes a la estimación del modelo de


regresión clásico bivariado por el ampliamente conocido método de mínimos cuadrados
ordinarios. No solamente se obtendrán los estimadores sino que se discutirá con
bastante detalle las principales propiedades numéricas y estadísticas de estas
estimaciones. Hacia la parte final del capítulo se presentará una primera forma de
evaluar el ajuste del modelo a los datos a través del coeficiente de determinación R-
cuadrado.

2.1 La Función de Regresión Muestral

La función de regresión poblacional 𝐸[Y|X] presentada en el supuesto 1 no es


observable, lo cual representa un problema para poder responder a la pregunta
cuantitativa sobre el efecto de X sobre Y. Lo único que vemos es un conjunto de
observaciones de las variables, presentados en forma de puntos o pares ordenados
(𝑋𝑖 , 𝑌𝑖 ). Nuestro objetivo entonces será encontrar una aproximación a la FRP utilizando
esta muestra de observaciones y aplicando técnicas de inferencia estadística.

Definimos la Función de Regresión Muestral (FRM) como:

𝑌̂𝑖 = 𝛽̂1 + 𝛽̂2 𝑋𝑖 (2.1)

donde 𝑌̂𝑖 es un estimador de 𝐸[𝑌𝑖 |𝑋𝑖 ], 𝛽̂1 es un estimador del parámetro poblacional 𝛽1 y
𝛽̂2 es un estimador del parámetro poblacional 𝛽2 . Nótese que se está definiendo una
función lineal en los estimadores. En ocasiones llamamos a la ecuación (2.1)
simplemente como recta estimada.

30
Gráficamente, en el ejemplo de remuneraciones y años de educación, continuando con
lo mostrado en la Figura 1.3, en la Figura 2.1 volvemos a dibujar a la FRP como la línea
continua y agregamos a la recta estimada o FRM como la línea punteada. Digamos que
si nuestra estimación de la recta es “buena”, ambas rectas deberían ser muy parecidas,
aunque no hay nada que diga que deban ser exactamente iguales o que alguna tenga una
pendiente mayor o menor que la otra. No obstante, el investigador no tiene cómo saber
qué tan parecidas son las rectas pues la FRP es invisible mientras que la FRM es
calculada por el econometrista. Adicionalmente, aunque existe una sola relación
poblacional FRP, pueden existir infinidad de regresiones muestrales FRM, pues
depende cada una de ellas de la muestra con que se trabaje.

Figura 2.1
Rectas de regresión poblacional y muestral

En la Figura 2.1 se muestran las distancias entre dos puntos de observaciones y lo


estimado por la recta. Estas distancias son los residuos, definidos como

𝑒𝑖 = 𝑌𝑖 − 𝑌̂𝑖 = 𝑌𝑖 − 𝛽̂1 − 𝛽̂2 𝑋𝑖

En comparación con los términos de perturbación, no hay nada que diga que los
residuos 𝑒𝑖 sean más grandes o más pequeños que las perturbaciones 𝑢𝑖 . Inclusive para
un mismo individuo 𝑒𝑖 y 𝑢𝑖 podrían tener signos distintos.

Alternativamente, la ecuación de residuos puede escribirse como

31
𝑌𝑖 = 𝛽̂1 + 𝛽̂2 𝑋𝑖 + 𝑒𝑖 (2.2)

Llamaremos a la ecuación (2.2) el modelo estimado, el cual viene a ser una versión
estimada de la ecuación (1.1) del capítulo anterior.

Antes de proseguir vale la pena aclarar algunos términos para evitar confusiones.
Fundamentalmente tenemos dos grupos de ecuaciones: las poblacionales y las
muestrales. Llamamos modelo econométrico a la expresión 𝑌𝑖 = 𝛽1 + 𝛽2 𝑋𝑖 + 𝑢𝑖 , de la
cual la regresión o función de regresión poblacional es 𝐸[𝑌𝑖 |𝑋𝑖 ] = 𝛽1 + 𝛽2 𝑋𝑖 . Existen
también sus contrapartidas muestrales, vamos a llamar el modelo estimado a 𝑌𝑖 = 𝛽̂1 +
𝛽̂2 𝑋𝑖 + 𝑒𝑖 , de la cual la recta estimada o función de regresión muestral es 𝑌̂𝑖 = 𝛽̂1 +
𝛽̂2 𝑋𝑖 .

2.2 Estimación por Mínimos Cuadrados Ordinarios

Existen métodos para calcular la FRM, siendo el más popular el de Mínimos Cuadrados
Ordinarios (MCO). Intuitivamente, este método busca trazar una recta estimada que
pase entre los puntos de las observaciones de tal manera que las distancias de cada
punto respecto a la recta estimada (es decir, los residuos) sean las más pequeñas
posibles. Para evaluar que estas distancias sean pequeñas, una forma podría ser
minimizar la suma de todos los residuos. No obstante, debido a que algunos residuos
son positivos y otros negativos, no tendría mucho sentido hacer una suma simple de
ellos. Por el contrario, elevando los residuos al cuadrado y sumándolos tendríamos una
mejor manera de evaluar la recta de regresión estimada propuesta en comparación con
otras rectas alternativas. La recta que mejor se ajuste a los datos será aquella que
presente la menor suma de cuadrados de los residuos.

No es necesario probar diferentes rectas estimadas, pues matemáticamente es posible


encontrar la mejor recta utilizando cálculo. Para ello se define a la sumatoria de
cuadrados de los residuos (SCR) como:

𝑆𝐶𝑅 = ∑𝑛𝑖=1 𝑒𝑖 2 = ∑𝑛𝑖=1(𝑌𝑖 − 𝛽̂1 − 𝛽̂2 𝑋𝑖 )2 (2.3)

32
El método de mínimos cuadrados ordinarios consiste en escoger los valores de β̂1 y β̂2 ,
tal que se minimice la SCR. Derivando la ecuación (2.3) respecto a los parámetros se
obtienen las condiciones necesarias de 1er orden de esta minimización:

𝜕𝑆𝐶𝑅
̂1 = −2 ∑𝑛𝑖=1(𝑌𝑖 − 𝛽̂1 − 𝛽̂2 𝑋𝑖 ) = 0 (2.4)
𝜕𝛽

𝜕𝑆𝐶𝑅
̂2 = −2 ∑𝑛𝑖=1(𝑌𝑖 − 𝛽̂1 − 𝛽̂2 𝑋𝑖 ) . 𝑋𝑖 = 0 (2.5)
𝜕𝛽

Estas dos ecuaciones son conocidas como las “ecuaciones normales” de la estimación
MCO, y de las cuales se desprenden algunas propiedades que se verán más adelante. En
sí son dos ecuaciones con dos incógnitas (𝛽̂1 y 𝛽̂2) que debemos resolver. Omitiendo los
subíndices de las sumatorias, de la ecuación (2.4) se cumple que

∑𝑛𝑖=1(𝑌𝑖 − 𝛽̂1 − 𝛽̂2 𝑋𝑖 ) = 0

y desarrollando el paréntesis, ∑ 𝑌𝑖 = 𝑛𝛽̂1 + 𝛽̂2 ∑ 𝑋𝑖 . Dividiendo ambos lados de la


ecuación por 𝑛, se obtiene

𝑌̅ = 𝛽̂1 + 𝛽̂2 𝑋̅ (2.4b)

La ecuación (2.4b) nos dice que la recta estimada pasa necesariamente por la
combinación de valores (𝑋̅, 𝑌̅) pues esos puntos satisfacen la ecuación. Podemos
despejar el valor de 𝛽̂1 y obtener
𝛽̂1 = 𝑌̅ − 𝛽̂2 𝑋̅ (2.4c)

De la ecuación (2.5), ∑𝑛𝑖=1(𝑌𝑖 − 𝛽̂1 − 𝛽̂2 𝑋𝑖 ) . 𝑋𝑖 = 0

Desarrollando el paréntesis, aplicando la sumatoria, omitiendo los límites de la


sumatoria por simplicidad y despejando se obtiene

∑ 𝑋𝑖 𝑌𝑖 = 𝛽̂1 ∑ 𝑋𝑖 + 𝛽̂2 ∑ 𝑋𝑖 2

Reemplazando (2.4c) en la última expresión,

∑ 𝑋𝑖 𝑌𝑖 = (𝑌̅ − 𝛽̂2 𝑋̅) ∑ 𝑋𝑖 + 𝛽̂2 ∑ 𝑋𝑖 2

∑ 𝑋𝑖 𝑌𝑖 − 𝑌̅ ∑ 𝑋𝑖 = 𝛽̂2 (∑ 𝑋𝑖 2 − 𝑋̅ ∑ 𝑋𝑖 )

33
Luego, el estimador de mínimos cuadrados de la pendiente es

∑ 𝑋𝑖 𝑌𝑖 − 𝑌̅ ∑ 𝑋𝑖
𝛽̂2 =
∑ 𝑋𝑖 2 − 𝑋̅ ∑ 𝑋𝑖

Después de algunas manipulaciones algebraicas se puede comprobar que la última


expresión es igual a

∑(𝑋𝑖 − 𝑋̅) (𝑌𝑖 − 𝑌̅)


𝛽̂2 = 2 (2.6)
∑(𝑋𝑖 − 𝑋̅)

Una vez calculado, se puede obtener el valor estimado de β̂1 de la ecuación (2.4c).

2.3 Algunas características de la estimación por MCO

Los estimadores de los parámetros por MCO, expresados en las ecuaciones (2.4c) y
(2.6) generan algunas propiedades numéricas muy importantes para la estimación. Estas
propiedades son:

a) Los estimadores puntuales 𝛽̂1 y 𝛽̂2 están expresados en términos de las


observaciones únicamente.

Tal propiedad resalta el hecho que, para obtener los valores estimados, lo único
que se necesita es reemplazar los valores de las variables de la muestra en las
fórmulas (2.4c) y (2.6). No es necesario hacer ningún supuesto adicional ni
calcular otros parámetros para obtener estas estimaciones. Un detalle adicional
es que, al depender íntegramente de las muestras aleatorias, estos estimadores
son en sí mismos variables aleatorias.

b) ∑ 𝑒𝑖 = 0

El hecho que la suma de los residuos sea exactamente igual a cero es un


resultado que se deduce directamente de las ecuaciones normales. La ecuación
(2.4) dice explícitamente que esta suma es igual a cero recordando que el residuo
se define como 𝑒𝑖 = 𝑌𝑖 − 𝛽̂1 − 𝛽̂2 𝑋𝑖 . De esta característica se desprende

34
directamente que el promedio de los residuos es igual a cero, 𝑒̅ = 0.1 Es
importante no confundir esta propiedad numérica de la estimación MCO con el
supuesto 2 sobre la nulidad del valor esperado del término de perturbación,
𝐸[𝑢𝑖 ] = 0. Esto último es un supuesto, mientras que la propiedad que estamos
explicando es un producto del proceso de minimización.

c) ∑ 𝑒𝑖 𝑋𝑖 = 0

De la misma forma que el anterior, la ecuación (2.5) muestra este resultado. En


palabras quiere decir que los residuos de la estimación MCO y la variable
explicativa son ortogonales.

d) ∑ 𝑒𝑖 𝑌̂𝑖 = 0

Esta propiedad puede deducirse de las dos anteriores.

∑ 𝑒𝑖 𝑌̂𝑖 = ∑ 𝑒𝑖 (𝛽̂1 + 𝛽̂2 𝑋𝑖 ) = 𝛽̂1 ∑ 𝑒𝑖 + 𝛽̂2 ∑ 𝑒𝑖 𝑋𝑖 = 0

e) La recta de regresión estimada pasa por el punto de los promedios (𝑋̅, 𝑌̅).

f) 𝑌̅̂ = 𝑌̅

Este resultado quiere decir que promediando los valores de 𝑌̂𝑖 se obtiene ̅𝑌.2

2.4 El modelo en desviaciones respecto a las medias

Para las variables 𝑋 e 𝑌, definimos las desviaciones (en minúscula y cursiva) respecto a
sus promedios como:

𝑦𝑖 = 𝑌𝑖 − 𝑌̅

𝑥𝑖 = 𝑋𝑖 − 𝑋̅

Estas desviaciones cumplen las siguientes propiedades3:

1
El lector puede notar que si el modelo econométrico no incluyera al intercepto, es decir si en el modelo
𝛽1 = 0, entonces en el proceso de estimación no habría minimizar la SCR respecto a 𝛽̂1 . Luego, no
existiría la ecuación (2.4) y por lo tanto ya no se cumpliría esta característica.
2
Se deja al lector esta demostración.

35
1. ∑ 𝑥i = 0, ∑ 𝑦i = 0

2. ∑ 𝑥i Xi = ∑ 𝑥i2 , ∑ 𝑦i Yi = ∑ 𝑦i2

3. ∑ 𝑥i 𝑦i = ∑ 𝑥i Yi = ∑ Xi 𝑦i

El modelo econométrico a estimar se puede presentar en términos de las desviaciones


respecto a las medias de las variables. Esta nueva presentación tiene ciertas ventajas en
términos de claridad expositiva de algunos conceptos que veremos más adelante,
aunque en la econometría aplicada no tiene mayor uso.

Partiendo del modelo estimado 𝑌𝑖 = 𝛽̂1 + 𝛽̂2 𝑋𝑖 + 𝑒𝑖 , si lo promediamos obtenemos


𝑌̅ = 𝛽̂1 + 𝛽̂2 𝑋̅ + 𝑒̅. Restando una expresión de la otra obtenemos

𝑌𝑖 − 𝑌̅ = 𝛽̂1 + 𝛽̂2 𝑋𝑖 − 𝛽̂1 − 𝛽̂2 𝑋̅ + 𝑒𝑖 − 𝑒̅

𝑌𝑖 − 𝑌̅ = 𝛽̂2 (𝑋𝑖 − 𝑋̅) + 𝑒𝑖 − 𝑒̅


𝑦𝑖 = 𝛽̂2 𝑥𝑖 + 𝑒𝑖 − 𝑒̅
Asumamos que 𝑒̅ = 0 , luego
𝑦𝑖 = 𝛽̂2 𝑥𝑖 + 𝑒𝑖 (2.7)

La ecuación (2.7) es el modelo estimado en desviaciones respecto a la media. Nótese


que esta ecuación solo tiene un parámetro, 𝛽̂2, habiendo desaparecido el parámetro 𝛽̂1.
También puede notarse que el residuo e i es exactamente el mismo que el que aparece

en el modelo estimado en niveles 𝑌𝑖 = 𝛽̂1 + 𝛽̂2 𝑋𝑖 + 𝑒𝑖 , donde también se cumple que


𝑒̅ = 0.

En términos gráficos, trabajar con las variables en desviaciones respecto a las medias
equivale a desplazar las observaciones hacia el origen, haciendo que el punto de los
promedios de las variables sea el (0, 0). Esto puede observarse en la Figura 2.2, en
donde los puntos negros corresponden a los datos en sus niveles originales y los puntos
grises son los datos en desviaciones respecto a las medias. Puesto que se trata de un
simple desplazamiento, la pendiente de una regresión que pase por esos puntos será la
misma, es decir tal pendiente 𝛽̂2 no se ve alterada por el desplazamiento. En cambio en

3
Se dejan estas demostraciones como ejercicio.

36
el modelo en desviaciones la estimación de 𝛽̂1 es igual a cero pues se fuerza a que la
recta pase por el origen.

Figura 2.2
Estimación del modelo en niveles y en desviaciones respecto a las medias

Vamos a estimar el modelo en desviaciones por mínimos cuadrados ordinarios. La suma


de cuadrados de los residuos es en este caso

𝑛 𝑛

𝑆𝐶𝑅 = ∑ 𝑒𝑖 = ∑(𝑦𝑖 − 𝛽̂2 𝑥𝑖 )2


2

𝑖=1 𝑖=1

Derivando respecto al único parámetro se obtiene

𝜕SCR
= −2(𝑦i − β̂2 𝑥i )𝑥i = 0 (2.8)
𝜕β̂2

De la ecuación (2.8) despejamos a 𝛽̂2:

∑(𝑥i 𝑦i − 𝛽̂2 𝑥i 2 ) = 0

∑ 𝑥i 𝑦i = 𝛽̂2 ∑ 𝑥i 2

∑ 𝑥i 𝑦i
𝛽̂2 = (2.9)
∑ 𝑥i 2

37
Este resultado de la ecuación (2.9) es exactamente el mismo que la ecuación (2.6), por
lo que ambas expresiones se pueden usar en forma alternativa.

Ejemplo 2.1: Supongamos que contamos con datos de 12 personas sobre sus años de
educación (𝑋) y sus salarios (𝑌), y queremos estimar el modelo de regresión lineal (1.1)
por mínimos cuadrados ordinarios utilizando estos datos. Vamos a computar en primer
lugar las variables en desviaciones respecto a sus promedios, para luego hacer el cálculo
de los valores estimados. En la Tabla 2.1 las columnas 𝑋 e 𝑌 muestran los datos
hipotéticos con los que vamos a hacer el ejercicio. En la parte inferior de las columnas
𝑋 e 𝑌 se han calculado las sumas y los promedios de estas columnas.

Tabla 2.1
Cálculo de las variables del modelo en desviaciones
Obs. X Y x y x2 xy
1 4 225 -4.08 -307.17 16.67 1254.26
2 6 155 -2.08 -377.17 4.34 785.76
3 3 700 -5.08 167.83 25.84 -853.15
4 10 600 1.92 67.83 3.67 130.01
5 8 675 -0.08 142.83 0.01 -11.90
6 8 350 -0.08 -182.17 0.01 15.18
7 7 456 -1.08 -76.17 1.17 82.51
8 11 485 2.92 -47.17 8.51 -137.57
9 13 650 4.92 117.83 24.17 579.35
10 11 820 2.92 287.83 8.51 839.51
11 14 1150 5.92 617.83 35.01 3655.51
12 2 120 -6.08 -412.17 37.01 2507.35

Suma 97 6386 0.00 0.00 164.92 8846.83


Promedio 8.0833 532.1667

La cuarta y quinta columna corresponden a los cálculos de las variables en desviaciones


respecto a sus promedios. En la sexta columna tenemos las desviaciones de 𝑋 al
cuadrado y en la última columna tenemos al producto de las desviaciones de 𝑋 y las
desviaciones de 𝑌. En la parte inferior tenemos las sumas de estas desviaciones.

Para hacer el cálculo del estimador de la pendiente, 𝛽̂2, nos apoyamos en la ecuación
(2.9) (que es lo mismo que (2.6)), y obtenemos

38
8846.83
𝛽̂2 = = 53.6443
164.92

El estimador del intercepto, 𝛽̂1, se obtiene de la ecuación (2.4c), que sería en este caso

𝛽̂1 = 532.1667 − 53.6443 × 8.0833 = 98.5422

El lector no debería tener problemas en realizar por su cuenta estos cálculos. Asimismo,
el parámetro β̂2 se puede obtener de expresiones equivalentes a (2.6). Estas son:

∑ 𝑋𝑖 𝑌𝑖 − 𝑌̅ ∑ 𝑋𝑖 60467 − 6386 × 97
𝛽̂2 = = = 53.6443
∑ 𝑋𝑖 2 − 𝑋̅ ∑ 𝑋𝑖 949 − 8.0833 × 97

Para este cálculo es necesario calcular ∑ 𝑋𝑌, y ∑ 𝑋 2 a partir de la información de la


Tabla 2.1. En este mismo ejemplo, vamos a calcular a 𝑌̂𝑖 , y a los residuos del modelo. El
cálculo de 𝑌̂𝑖 responde a la fórmula

𝑌̂𝑖 = 98.5422 + 53.6443 ∙ 𝑋𝑖

La Tabla 2.2 complementa la información de la Tabla 2.1, incluyendo a 𝑌̂𝑖 , a 𝑒𝑖 y al


cuadrado de estos residuos. Comparando los valores de 𝑌 contra los de 𝑌̂, estos últimos
son la predicción lineal o lo que el modelo dice que serán los salarios para cada nivel de
salario 𝑋, y evidentemente no coincidirán con los verdaderos salarios 𝑌. La diferencia
son los residuos, que capturan un componente de variabilidad de 𝑌 que no ha sido
explicado por 𝑋. La última columna muestra los residuos al cuadrado, siendo la
sumatoria de residuos al cuadrado igual a 504737.8. No hay ningún otro par de valores
para 𝛽̂1 y 𝛽̂2 que produzcan una SCR de menor valor.

Tabla 2.2

Calculo de ̂
Y y de los residuos
Obs. X Y 𝑌̂ e e2
1 4 225 313.12 -88.12 7765.00
2 6 155 420.41 -265.41 70441.29
3 3 700 259.47 440.53 194062.29
4 10 600 634.98 -34.98 1223.94
5 8 675 527.70 147.30 21698.38
6 8 350 527.70 -177.70 31575.98
7 7 456 474.05 -18.05 325.88

39
8 11 485 688.63 -203.63 41464.81
9 13 650 795.92 -145.92 21291.96
10 11 820 688.63 131.37 17258.31
11 14 1150 849.56 300.44 90263.05
12 2 120 205.83 -85.83 7366.91

Suma 97 6386 6386.00 0.00 504737.80


Promedio 8.0833 532.1667 532.1667

2.5 Propiedades estadísticas de los estimadores de MCO

Como bien sabemos los estimadores obtenidos 𝛽̂1 y 𝛽̂2 son variables aleatorias pues sus
resultados varían según las muestras aleatorias tomadas. En esta sección vamos a ver
cuáles serán sus valores esperados y varianzas, y discutiremos sus propiedades.

Empezaremos con la media de la pendiente 𝛽̂2 . Partiendo de la ecuación (2.9) y


recordando las propiedades de las desviaciones, podemos reescribir esta ecuación como

∑ 𝑥𝑖 𝑦𝑖 ∑ 𝑥𝑖 (𝑌𝑖 − 𝑌̅) ∑ 𝑥𝑖 𝑌𝑖 − 𝑌̅ ∑ 𝑥𝑖 ∑ 𝑥𝑖 𝑌𝑖
β̂2 = = = =
∑ 𝑥𝑖 2 ∑ 𝑥𝑖 2 ∑ 𝑥𝑖 2 ∑ 𝑥𝑖 2

Reemplazando la expresión de Yi del modelo econométrico se tiene

∑ 𝑥𝑖 (𝛽1 + 𝛽2 𝑋𝑖 + 𝑢𝑖 ) 𝛽1 ∑ 𝑥𝑖 𝛽2 ∑ 𝑥𝑖 𝑋𝑖 ∑ 𝑥𝑖 𝑢𝑖
𝛽̂2 = = + +
∑ 𝑥𝑖 2 ∑ 𝑥𝑖 2 ∑ 𝑥𝑖 2 ∑ 𝑥𝑖 2

Dado que ∑ 𝑥𝑖 = 0 y que ∑ 𝑥𝑖 𝑋𝑖 = ∑ 𝑥𝑖2 , la expresión se reduce a:

∑ 𝑥𝑖 𝑢𝑖
𝛽̂2 = 𝛽2 + (2.10)
∑ 𝑥𝑖 2
Tomando valor esperado a la expresión en (2.10) obtenemos

∑ 𝑥𝑖 𝑢𝑖 ∑ 𝑥𝑖 𝑢𝑖
𝐸[𝛽̂2 ] = 𝐸 [𝛽2 + ] = 𝛽2 + 𝐸 [ ]
∑ 𝑥𝑖 2 ∑ 𝑥𝑖 2

Bajo el supuesto 4,

1
𝐸[𝛽̂2 ] = 𝛽2 + ∑ 𝑥 2 ∑ 𝑥𝑖 𝐸[𝑢𝑖 ]
𝑖

40
Dado el supuesto 2, el valor esperado del término de perturbación es cero, con ello
resulta que 𝛽̂2 es un estimador insesgado.

𝐸[𝛽̂2 ] = 𝛽2

Esto quiere decir que aunque 𝛽̂2 pueda tomar valores en forma aleatoria, en promedio
esperaremos que este estimador de MCO entregue un valor que sea igual al poblacional,
siempre y cuando se cumplan los supuestos aludidos del modelo econométrico. No debe
pensarse que la propiedad de insesgadez asegura que 𝛽̂2 = 𝛽2, pues debido a las
variabilidades muestrales eso ocurrirá solo por cuestión de suerte. Lo que si ocurrirá es
que si se tomaran infinitas muestras y si se calculara en cada una de ellas el valor de 𝛽̂2,
el promedio de todos esos valores calculados sí coincidirá con el verdadero valor
poblacional.

Ejemplo 2.2: Para ilustrar la insesgadez consideremos un ejemplo hipotético similar al


Ejemplo 2.1. En este ejercicio se construye una función de regresión poblacional con
valores 𝐹𝑅𝑃 = 80 + 65𝑋𝑖 , y se generan cuatro muestras aleatorias sumando a la FRP
un término de perturbación aleatorio con media cero. Las cuatro muestras aleatorias
quedan dibujadas en la Figura 2.3 mediante los puntos negros, y sobre ellas se realizan
estimaciones de la FRM por mínimos cuadrados ordinarios. Para cada muestra aleatoria
hay una FRM representada por la línea punteada, las cuales son aproximaciones de la
única y verdadera función poblacional representada por la línea sólida. Obsérvese que
las pendientes estimadas 𝛽̂2 no coincidirán con el parámetro poblacional (en este caso
β2 = 65), aunque siempre tomarán valores cercanos. Si se pudiera repetir este
experimento miles de veces, el promedio de todos los 𝛽̂2 debería ser igual al valor
poblacional.

41
Figura 2.3
Cuatro muestras aleatorias y las estimaciones MCO

Calculemos ahora el valor esperado del estimador del intercepto, 𝛽̂1. Partiendo del
modelo econométrico 𝑌𝑖 = 𝛽1 + 𝛽2 𝑋𝑖 + 𝑢𝑖 , lo podemos promediar aplicándole
sumatoria y dividiéndolo entre el número de observaciones de la muestra obteniendo
𝑌̅ = 𝛽1 + 𝛽2 𝑋̅ + 𝑢̅. Reemplazando esta expresión en la ecuación (2.4c) se obtiene

𝛽̂1 = 𝛽1 + 𝛽2 𝑋̅ + 𝑢̅ − 𝛽̂2 𝑋̅

= 𝛽1 + 𝑋̅(𝛽2 − 𝛽̂2 ) + 𝑢̅ (2.11)

Tomando el valor esperado a (2.11)

𝐸[𝛽̂1 ] = 𝐸[𝛽1 + 𝑋̅(𝛽2 − 𝛽̂2 ) + 𝑢̅] = 𝛽1 + 𝑋̅(𝛽2 − 𝐸[𝛽̂2 ]) + 𝐸[𝑢̅]

∑𝑢 ∑ 𝐸[𝑢 ]
Dado que 𝐸[𝛽̂2 ] = 𝛽2 , queda 𝐸[𝛽̂1 ] = 𝛽1 + 𝐸[𝑢̅] = 𝛽1 pues 𝐸[𝑢̅] = 𝐸 [ 𝑛 𝑖 ] = 𝑛 𝑖 =

0. Por lo tanto el estimador 𝛽̂1 también es insesgado.

A continuación, vamos a calcular las varianzas de estos estimadores. Empezaremos con


la varianza de 𝛽̂2. Por la definición de varianza,

42
2
𝑉𝑎𝑟(𝛽̂2 ) = 𝐸 [𝛽̂2 − 𝐸[𝛽̂2 ]]

Dado que 𝛽̂2 es insesgado y utilizando la ecuación (2.10) se obtiene que

2
∑ 𝑥𝑖 𝑢𝑖 1 2
𝑉𝑎𝑟(𝛽̂2 ) = 𝐸 [ ] = 𝐸 [(∑ 𝑥𝑖 𝑖 ]
𝑢 )
∑ 𝑥𝑖 2 (∑ 𝑥𝑖 2 )2

1
= 𝐸 [∑ 𝑥𝑖 2 𝑢𝑖 2 + 2 ∑ ∑ 𝑥𝑖 𝑥𝑗 𝑢𝑖 𝑢𝑗 ]
(∑ 𝑥𝑖 2 )2
𝑖<𝑗

1
= [∑ 𝑥𝑖 2 𝐸[𝑢𝑖 2 ] + 2 ∑ ∑ 𝑥𝑖 𝑥𝑗 𝐸[𝑢𝑖 𝑢𝑗 ]]
(∑ 𝑥𝑖 2 )2
𝑖<𝑗

Bajo el supuesto de perturbaciones esféricas y 𝑋 fijo, se cumple que 𝑉𝑎𝑟(𝑢𝑖 ) =


2
𝐸[𝑢𝑖 − 𝐸[𝑢𝑖 ]] = 𝐸[𝑢𝑖 2 ] = 𝜎 2 y también se cumple bajo dicho supuesto que
𝐶𝑜𝑣(𝑢𝑖 𝑢𝑗 ) = 𝐸[(𝑢𝑖 − 𝐸[𝑢𝑖 ])(𝑢𝑗 − 𝐸[𝑢𝑗 ])] = 𝐸[𝑢𝑖 𝑢𝑗 ] = 0, entonces

1 𝜎2
𝑉𝑎𝑟(𝛽̂2 ) = [∑ 𝑥𝑖
2 2
𝜎 ] = ∑ 𝑥𝑖 2
(∑ 𝑥𝑖 2 )2 (∑ 𝑥𝑖 2 )2

𝜎2
𝑉𝑎𝑟(𝛽̂2 ) = (2.12)
∑ 𝑥𝑖 2
Obsérvese en (2.12) que la variabilidad de 𝛽̂2 es directamente proporcional a la varianza
del término de perturbación e inversamente proporcional a la variabilidad de 𝑋 respecto
a su media. Es decir, la estimación de 𝛽̂2 será más imprecisa mientras más grande sea la
varianza 𝜎 2 , que es a su vez la varianza de la variable endógena 𝑌. Por otro lado, si la
variable 𝑋 muestra una gran amplitud de valores, esto brindará más información para
poder calcular el efecto de 𝑋 sobre 𝑌. Si 𝑋 presenta una mínima variabilidad alrededor
de su promedio, la varianza de la estimación aumentará4.

De la ecuación (2.11), la varianza de 𝛽̂1 es,


2 2
𝑉𝑎𝑟(𝛽̂1 ) = 𝐸 [𝛽̂1 − 𝐸[𝛽̂1 ]] = 𝐸[𝛽̂1 − 𝛽1 ]
2 2
= 𝐸[𝑋̅(𝛽2 − 𝛽̂2 ) + 𝑢̅] = 𝐸[−𝑋̅(𝛽̂2 − 𝛽2 ) + 𝑢̅]

4
Se sugiere al lector trazar diagramas de dispersión considerando variaciones en 𝑋 e 𝑌 grandes y
pequeñas, con el fin de observar estas propiedades.

43
2
= 𝐸 [𝑋̅ 2 (𝛽̂2 − 𝛽2 ) + 𝑢̅2 − 2𝑋̅(𝛽̂2 − 𝛽2 )𝑢̅]
= 𝑋̅ 2 𝑉𝑎𝑟(𝛽̂2 ) + 𝐸[𝑢̅2 ] − 2𝑋̅𝐸(𝛽̂2 − 𝛽2 )𝑢̅

Dado que 𝑉𝑎𝑟(𝑢̅) = 𝐸[𝑢̅2 ] − 𝐸[𝑢̅]2 , entonces reemplazando términos,


𝜎2
= 𝑋̅ 2 + 𝑉𝑎𝑟(𝑢̅) + 𝐸[𝑢̅]2 − 2𝑋̅𝐸(𝛽̂2 − 𝛽2 )𝑢̅
∑ 𝑥𝑖 2
𝜎2
Como 𝐸[𝑢̅] = 0 y 𝑉𝑎𝑟(𝑢̅) = , y usando (2.10) en la última expresión, entonces,
𝑛

𝜎2 𝜎2 ∑ 𝑥𝑖 𝑢𝑖 ∑ 𝑢𝑖
= 𝑋̅ 2 + − 2𝑋̅𝐸 [ . ]
∑ 𝑥𝑖 2 𝑛 ∑ 𝑥𝑖 2 𝑛

El último término de esta ecuación es cero pues

∑ 𝑥𝑖 𝑢𝑖 ∑ 𝑢𝑖 1
𝐸[ . ]= 𝐸 [∑ 𝑥𝑖 𝑢𝑖 ∑ 𝑢𝑖 ]
∑ 𝑥𝑖 2 𝑛 𝑛 ∑ 𝑥𝑖 2

1
= 𝐸 [∑ 𝑥𝑖 𝑢𝑖 2 ∑ ∑ 𝑢𝑖 𝑢𝑗 (𝑥𝑖 + 𝑥𝑗 )]
𝑛 ∑ 𝑥𝑖 2

1
= [𝜎 2 ∑ 𝑥𝑖 + ∑ ∑ 𝐶𝑜𝑣(𝑢𝑖 𝑢𝑗 )(𝑥𝑖 + 𝑥𝑗 )] = 0

𝑛 𝑥𝑖 2

pues ∑ 𝑥i = 0 y 𝐶𝑜𝑣(𝑢𝑖 𝑢𝑗 ) = 0. Luego,


1 𝑋̅ 2
̂ 2
𝑉𝑎𝑟(𝛽1 ) = 𝜎 ( + ) (2.13)
𝑛 ∑ 𝑥𝑖 2
También se puede comprobar (ver el apéndice de este capítulo) que
𝑋̅𝜎 2
𝐶𝑜𝑣(𝛽̂1 , 𝛽̂2 ) = −
∑ 𝑥𝑖2

2.6 Estimación de 𝝈𝟐

Las varianzas de los parámetros calculadas en la sección anterior se encuentran


expresadas en términos de los datos y del parámetro 𝜎 2 . Para tener una estimación
numérica de estas varianzas, es necesario tener una estimación del parámetro 𝜎 2 .

Si a la ecuación (1.1) le restamos 𝑌̅ = 𝛽1 + 𝛽2 𝑋̅ + 𝑢̅ se obtiene

𝑦𝑖 = 𝛽2 𝑥𝑖 + (𝑢𝑖 − 𝑢̅) (2.14)

De la ecuación (2.7) se pueden escribir a los residuos como

44
𝑒𝑖 = 𝑦𝑖 − 𝛽̂2 𝑥𝑖 (2.15)

Remplazando la ecuación (2.14) en (2.15) y reordenando términos tenemos

𝑒𝑖 = −(𝛽̂2 − 𝛽2 )𝑥𝑖 + (𝑢𝑖 − 𝑢̅)

Elevando al cuadrado esta expresión, y aplicando sumatoria

𝑒𝑖 2 = (𝛽̂2 − 𝛽2 )2 𝑥𝑖2 + (𝑢𝑖 − 𝑢̅)2 − 2(𝛽̂2 − 𝛽2 )𝑥𝑖 (𝑢𝑖 − 𝑢̅)

∑ 𝑒𝑖 2 = (𝛽̂2 − 𝛽2 )2 ∑ 𝑥𝑖2 + ∑(𝑢𝑖 − 𝑢̅)2 − 2(𝛽̂2 − 𝛽2 ) ∑ 𝑥𝑖 (𝑢𝑖 − 𝑢̅)

y tomando el valor esperado,

𝐸 [∑ 𝑒𝑖 2 ] = 𝐸(𝛽̂2 − 𝛽2 )2 ∑ 𝑥𝑖2 + 𝐸 [∑(𝑢𝑖 − 𝑢̅)2 ] − 2𝐸 [(𝛽̂2 − 𝛽2 ) ∑ 𝑥𝑖 (𝑢𝑖 − 𝑢̅)]

Multiplicamos y dividimos el segundo término del lado derecho por 𝑛 − 1 (para darle la
forma de la varianza muestral de 𝑢𝑖 , esto es ∑(ui − u̅)2 /(n − 1), aplicando las
propiedades de las desviaciones en el tercer término del lado derecho, y utilizando la
ecuación (2.10) obtenemos

∑(𝑢𝑖 − 𝑢̅)2 ∑ 𝑥𝑖 𝑢𝑖
𝐸 [∑ 𝑒𝑖 2 ] = 𝑉𝑎𝑟(𝛽̂2 ) ∑ 𝑥𝑖2 + (𝑛 − 1)𝐸 [ ] − 2𝐸 [ ∑ 𝑥𝑖 𝑢𝑖 ]
𝑛−1 ∑ 𝑥𝑖 2

2
∑ 𝑥𝑖 𝑢𝑖
= 𝑉𝑎𝑟(𝛽̂2 ) ∑ 𝑥𝑖2 + (𝑛 − 1)𝑉𝑎𝑟(𝑢𝑖 ) − 2 ∑ 𝑥𝑖2 𝐸 [( ) ]
∑ 𝑥𝑖 2

= 𝑉𝑎𝑟(𝛽̂2 ) ∑ 𝑥𝑖2 + (𝑛 − 1)𝑉𝑎𝑟(𝑢𝑖 ) − 2 ∑ 𝑥𝑖2 𝑉𝑎𝑟(𝛽̂2 )

Reemplazando las respectivas varianzas se obtiene,

𝐸 [∑ 𝑒𝑖 2 ] = 𝜎 2 + (𝑛 − 1)𝜎 2 − 2𝜎 2 = (𝑛 − 2)𝜎 2

Luego proponemos un estimador de 𝜎 2 llamado 𝑠 2

∑ 𝑒𝑖 2
𝑠2 = (2.16)
𝑛−2

Este es un estimador insesgado pues

45
∑ 𝑒𝑖 2 1
𝐸(𝑠 2 ) = 𝐸 [ ]= 𝐸 [∑ 𝑒𝑖 2 ]
𝑛−2 𝑛−2

[𝑛 − 2] 2
= 𝜎 = 𝜎2
[𝑛 − 2]

Ejemplo 2.3: Continuando con el Ejemplo 2.1, calculemos el estimador de σ2 y las


varianzas de los parámetros. A partir de la ecuación (2.14) y de la Tabla 2.1, como la
504737.80
SCR es igual a 504737.80, y como 𝑛 = 12, luego s2 = = 50473.78. Para
10

calcular las varianzas de los parámetros, nótese que estas varianzas dependen del
parámetro poblacional no observable 𝜎 2 . Entonces utilizaremos al estimador s2 en su
lugar en las ecuaciones (2.12) y (2.13), teniendo entonces a las varianzas estimadas
siguientes:
1 𝑋̅ 2 1 (8.0833)2
̂ 2
𝑉𝑎𝑟(𝛽1 ) = 𝑠 ( + ) = 50473.78 ( + ) = 24203.9499
𝑛 ∑ 𝑥𝑖 2 12 164.92
𝑠2 50473.78
𝑉𝑎𝑟(𝛽̂2 ) = = = 306.0536
∑ 𝑥𝑖 2 164.92

2.7 El teorema de Gauss-Markov

Los estimadores de mínimos cuadrados ordinarios son combinaciones lineales de la


variable estocástica 𝑌𝑖 , por ello se dice que son estimadores lineales. Por ejemplo, en el
caso de 𝛽̂2,
∑ 𝑥𝑖 𝑦𝑖 1 𝑥𝑖
𝛽̂2 = = ∑ 𝑥𝑖 𝑌𝑖 = ∑ ( ) 𝑌 = ∑ 𝑤𝑖 𝑌𝑖 (2.17)
∑ 𝑥𝑖 2 ∑ 𝑥𝑖 2 ∑ 𝑥𝑖 2 𝑖

La ecuación (2.17) nos dice que 𝛽̂2 es igual a la suma ponderada de 𝑌𝑖 , en donde los
𝑥
ponderadores son las expresiones 𝑤𝑖 = ∑ 𝑥𝑖 2 . Además, como se comprobó que estos
𝑖

estimadores son insesgados, se afirma que los estimadores MCO pertenecen a la clase
de estimadores lineales e insesgados.

El teorema de Gauss-Markov dice que los estimadores de MCO tienen la menor


varianza dentro de la clase de los estimadores lineales e insesgados. Por ello se dice que
el estimador MCO es el mejor estimador lineal insesgado (MELI).

46
Para probar este teorema, planteamos otro estimador lineal que sea insesgado.
Definamos este estimador como 𝑏2 = ∑ 𝑐𝑖 𝑌𝑖 , en donde los valores ci son ponderadores
no aleatorios, que podrían ser cualquier número. Reemplazando la expresión del modelo
econométrico en 𝑏2 se obtiene

𝑏2 = ∑ 𝑐𝑖 (𝛽1 + 𝛽2 𝑋𝑖 + 𝑢𝑖 ) = 𝛽1 ∑ 𝑐𝑖 + 𝛽2 ∑ 𝑐𝑖 𝑋𝑖 + ∑ 𝑐𝑖 𝑢𝑖

Tomando el valor esperado a esta expresión nos queda

𝐸[𝑏2 ] = 𝛽1 ∑ 𝑐𝑖 + 𝛽2 ∑ 𝑐𝑖 𝑋𝑖 + ∑ 𝑐𝑖 𝐸[𝑢𝑖 ] = 𝛽1 ∑ 𝑐𝑖 + 𝛽2 ∑ 𝑐𝑖 𝑋𝑖

Para que 𝑏2 sea insesgado se requiere que ∑ 𝑐𝑖 = 0 , ∑ 𝑐𝑖 𝑋𝑖 = 1. Luego,

𝑏2 = 𝛽2 + ∑ 𝑐𝑖 𝑢𝑖

La varianza de este estimador insesgado es,

2
𝑉𝑎𝑟(𝑏2 ) = 𝐸[(𝑏2 − 𝛽2 )2 ] = 𝐸 [(∑ 𝑐𝑖 𝑢𝑖 ) ] = 𝐸 [∑ 𝑐𝑖 2 𝑢𝑖 2 + 2 ∑ ∑ 𝑐𝑖 𝑐𝑗 𝑢𝑖 𝑢𝑗 ]
𝑖<𝑗

= ∑ 𝑐𝑖 2 𝐸[𝑢𝑖 2 ] + 2 ∑ ∑ 𝑐𝑖 𝑐𝑗 𝐸[𝑢𝑖 𝑢𝑗 ] = 𝜎 2 ∑ 𝑐𝑖 2
𝑖<𝑗

Formulemos, 𝑐𝑖 = 𝑤𝑖 + (𝑐𝑖 − 𝑤𝑖 ) donde wi es el mismo de (2.17). Elevando al


cuadrado y aplicando sumatorias,

𝑐𝑖 2 = 𝑤𝑖 2 + (𝑐𝑖 − 𝑤𝑖 )2 + 2𝑤𝑖 (𝑐𝑖 − 𝑤𝑖 )

∑ 𝑐𝑖 2 = ∑ 𝑤𝑖 2 + ∑(𝑐𝑖 − 𝑤𝑖 )2 + 2 ∑ 𝑤𝑖 (𝑐𝑖 − 𝑤𝑖 ) (2.18)

El último término en (2.18) es cero pues

∑ 𝑥𝑖 𝑐𝑖 𝑥𝑖 2
∑ 𝑤𝑖 (𝑐𝑖 − 𝑤𝑖 ) = ∑ 𝑤𝑖 𝑐𝑖 − ∑ 𝑤𝑖 2 = − ∑ ( )
∑ 𝑥𝑖 2 ∑ 𝑥𝑖 2

1 ∑ 𝑥𝑖 2
= − =0
∑ 𝑥𝑖 2 (∑ 𝑥𝑖 2 )2

47
Esto es cierto dado que ∑ 𝑐𝑖 𝑥𝑖 = 1. Volviendo a la expresión (2.18), multiplicamos todo
por σ2 y tenemos

𝜎 2 ∑ 𝑐𝑖 2 = 𝜎 2 ∑ 𝑤𝑖 2 + 𝜎 2 ∑(𝑐𝑖 − 𝑤𝑖 )2

𝜎 2
No es difícil comprobar que 𝑉𝑎𝑟(𝛽̂2 ) = ∑ 𝑥 2 = 𝜎 2 ∑ 𝑤𝑖 2 . Luego,
𝑖

𝑉𝑎𝑟(𝑏2 ) = 𝑉𝑎𝑟(𝛽̂2 ) + 𝜎 2 ∑(𝑐𝑖 − 𝑤𝑖 )2

Al ser el último término mayor o igual a cero, resulta que 𝑉𝑎𝑟(𝑏2 ) ≥ 𝑉𝑎𝑟(𝛽̂2 ).

Ejemplo 2.4: Consideremos un estimador alternativo de la pendiente. Sea este


𝑦
∑( 𝑖 )
𝑥𝑖
estimador 𝑏2 = . Este estimador es lineal en 𝑌𝑖 pues
𝑛

1 𝑌𝑖 − 𝑌̅ 1 𝑌𝑖 1 𝑌̅
𝑏2 = ∑( ) = ∑( ) − ∑( )
𝑛 𝑥𝑖 𝑛 𝑥𝑖 𝑛 𝑥𝑖
1 1 1 1
= ∑ ( ) 𝑌𝑖 − 𝑌̅ ∑ ( )
𝑛 𝑥𝑖 𝑛 𝑥𝑖
1 1 1 1 1
= ∑ ( ) 𝑌𝑖 − ∑ ( ) ( ∑ 𝑌𝑖 )
𝑛 𝑥𝑖 𝑛 𝑥𝑖 𝑛
1 1 1 1
= ∑ ( ) 𝑌𝑖 − 2 ∑ ( ) ∑ 𝑌𝑖
𝑛 𝑥𝑖 𝑛 𝑥𝑖

Podemos comprobar que también es insesgado. Como 𝑦𝑖 = 𝛽2 𝑥𝑖 + 𝑢𝑖 − 𝑢̅ ,


1 𝛽2 𝑥𝑖 + 𝑢𝑖 − 𝑢̅ 1 𝑢𝑖 − 𝑢̅
𝑏2 = ∑( ) = 𝛽2 + ∑ ( )
𝑛 𝑥𝑖 𝑛 𝑥𝑖
Luego,
1 𝑢𝑖 − 𝑢̅ 1 𝐸[𝑢𝑖 ] − 𝐸[𝑢̅]
𝐸[𝑏2 ] = 𝛽2 + 𝐸 [ ∑ ( )] = 𝛽2 + ∑ ( ) = 𝛽2
𝑛 𝑥𝑖 𝑛 𝑥𝑖
Según el teorema de Gauss-Markov, este estimador tiene una varianza mayor a la del
estimador de mínimos cuadrados ordinarios.

2.8 Descomposición de la suma de cuadrados

Recordemos que el objetivo del análisis de regresión es explicar las variaciones de la


variable endógena Y. Una forma de estudiar la variabilidad de Y es a través de su
varianza. La varianza muestral de Y se calcula respecto a desviaciones respecto al
promedio, cuya fórmula de cálculo es

48
∑(𝑌𝑖 − 𝑌̅)2
𝑆𝑌2 =
𝑛−1

En esta ecuación, el denominador es una constante por lo que para estudiar la


variabilidad de Y basta con ver la dispersión que se observa en el numerador, que son
las desviaciones al cuadrado respecto a la media de Y. Llamemos sumatoria de
cuadrados totales de la endógena (SCT) a la expresión ∑(𝑌𝑖 − 𝑌̅)2 = ∑ 𝑦𝑖2 .

Para relacionar a la SCT con la recta estimada, elevamos al cuadrado a (2.7) y aplicando
sumatorias resulta en

∑ 𝑦𝑖2 = 𝛽̂22 ∑ 𝑥𝑖2 + ∑ 𝑒𝑖2 + 2𝛽̂2 ∑ 𝑥𝑖 𝑒𝑖

El último término del lado derecho es igual a cero pues en el modelo en desviaciones,
∑ 𝑥𝑖 𝑒𝑖 = 0. Luego,

∑ 𝑦𝑖2 = 𝛽̂22 ∑ 𝑥𝑖2 + ∑ 𝑒𝑖2 (2.19)

El término a la izquierda en (2.19) es la SCT que acabamos de definir, y el último de la


derecha del igual es la SCR. El término intermedio es 𝛽̂22 ∑ 𝑥𝑖2 es la sumatoria de
cuadrados explicada por la regresión, SCE. Es decir (2.19) es

SCT = SCE + SCR.

La SCE depende de la variabilidad de 𝑋 respecto a su media y del cuadrado del


estimador 𝛽̂2. Mediante el método de mínimos cuadrados ordinarios, al minimizarse la
SCR se está maximizando la SCE, es decir lo que las variaciones de 𝑋 podrían explicar
de las variaciones de 𝑌.

Con base en estas definiciones, podemos evaluar el ajuste de un modelo econométrico


estimado a través de qué fracción de la varianza de 𝑌 ha sido explicada por el regresor
del modelo. Definimos el coeficiente de determinación R-cuadrado o simplemente R2
como

𝑆𝐶𝑅 𝑆𝐶𝐸
𝑅2 = 1 − =
𝑆𝐶𝑇 𝑆𝐶𝑇

El R-cuadrado es una medida de bondad de ajuste. Toma los valores entre 0 y 1, en


donde se acerca a cero cuando el ajuste es bajo (SCE tiende a cero), y tiende a uno

49
cuando el ajuste es alto, en el sentido que las variaciones de 𝑋 se relacionan fuertemente
con las variaciones observadas de Y (SCR tiende a cero).

En el caso extremo donde el R-cuadrado es igual a 1, la relación entre 𝑋 e 𝑌 es


determinística, y todos los puntos de la muestra caen en la recta de la regresión, así la
variable 𝑋 explica perfectamente a 𝑌. En econometría no esperamos obtener un R-
cuadrado igual a 1. En caso que ocurra así, debemos pensar que es posible que haya
algún error en nuestros datos, o que estamos analizando una relación determinística (por
ejemplo, alguna identidad contable) que no necesita análisis estadístico ni econométrico.

En el otro extremo tenemos el caso de un R-cuadrado igual a 0. Esto ocurrirá si no


existe ninguna relación estadística entre las variables bajo estudio. Existen diversos
patrones de dispersión que podrían generar un R-cuadrado igual a 0, por ejemplo, si el
diagrama de dispersión toma la forma de un círculo, una circunferencia, un aspa, un
cuadrado, un rombo equiángulo, un disco, etc. En todos los casos la recta estimada por
MCO, la cual es completamente horizontal. Esto ocurre pues a partir de (2.19), la SCE
es cero si 𝛽̂2 = 0.

Lo más común es tener valores de R-cuadrado entre 0 y 1. En la Figura 2.4 mostramos


dos conjuntos de datos con una recta estimada por MCO, y el R-cuadrado respectivo. En
la figura superior se observa una dispersión mayor de las observaciones alrededor de la
recta que en la figura inferior. Correspondientemente, el R-cuadrado de la figura
superior es apenas de 0.5767 mientras que en el gráfico inferior es de 0.9429. Por esa
razón los datos del panel inferior muestran un mejor ajuste en el sentido que un mayor
porcentaje de variabilidad de Y coincide con variaciones en 𝑋.

Cabe mencionar que no existe un mínimo valor de R-cuadrado como para juzgar si los
resultados de una estimación son “buenos” o “malos”. De hecho, en la práctica se suele
observar ciertas regularidades de los valores de R-cuadrado según el tipo de datos. Con
frecuencia se observa que con datos de corte transversal –especialmente si son datos
microeconómicos a nivel de personas o familias– el R-cuadrado se encuentra por debajo
de 0.30. Una posible explicación a este fenómeno radica en que en los modelos que
explican la conducta de los individuos existen innumerables factores que afectan los
resultados de la variable endógena 𝑌. En un modelo con un solo regresor, la
perturbación u incorpora a todos estos factores, y por lo tanto es de esperar que 𝑋
explique solo una fracción pequeña de la variabilidad de 𝑌. Esto no quiere decir que 𝑋

50
sea un mal regresor. Por ejemplo, en la relación entre la educación y los salarios, tal
como se ve en la Figura 1.2 del capítulo anterior, no se puede dudar que más educación
(variaciones en la educación) se relaciona con más ingresos (variaciones en los
salarios). No obstante, se aprecia en el gráfico que con mucha frecuencia existen puntos
que se alejan verticalmente de la recta. Tales alejamientos se deben a los demás factores
incluidos en 𝑢. Por ejemplo, si un trabajador tiene más experiencia laboral que otro
pueda ganar un poco más pese a tener ambos la misma educación; o si algún otro sufre
problemas de salud, esto puede provocar que gane menos, etc.5 Sin embargo, el modelo
de dos variables nos muestra que sí se puede esperar que con mayores niveles de
educación se espere un salario mayor.

En el caso de los datos de series de tiempo, como por ejemplo los datos
macroeconómicos, las regresiones entre estas variables suelen arrojar valores de R-
cuadrado relativamente altos, muchos por encima de 0.7. Por ejemplo, una regresión
bivariada del Consumo Privado contra el Producto Bruto Interno como variable
explicativa puede arrojar valores de R-cuadrado cercanos a 0.99. Esto se debe tomar con
cuidado pues muchas series de tiempo se comportan siguiendo patrones crecientes en el
tiempo o tendencias. El R-cuadrado puede estar reflejando esta tendencia común de
ambas series, sobreestimando entonces la fortaleza de la relación entre estas series
macroeconómicas. En estos casos puede ser mejor transformar los datos a tasas de
crecimiento, las cuales limpian el efecto de las tendencias.

Adicionalmente, se puede comprobar que en el modelo de regresión bivariado, el R-


cuadrado es exactamente igual al cuadrado del coeficiente de correlación muestral

∑(𝑋𝑖 − 𝑋̅)(𝑌𝑖 − 𝑌̅)


𝑟𝑋𝑌 = 𝑛−1
̅ ̅ 2
√∑(𝑋𝑖 − 𝑋) √∑(𝑌𝑖 − 𝑌)
2
𝑛−1 𝑛−1

Luego, 𝑅2 = (𝑟𝑋𝑌 )2. Se deja al lector esta demostración.

5
En el capítulo 4 se extiende el modelo de regresión lineal agregando más regresores. Pese a ello el R-
.cuadrado en corte transversal con datos microeconómicos sigue siendo “bajo”, pues la cantidad de
variables disponibles suele ser limitada en comparación con los miles de factores que afectan a 𝑌.

51
Por último, se debe tener en cuenta que el R-cuadrado solamente es una medida
estadística acerca de la asociación entre las variables 𝑋 e 𝑌, pero no se le debe tomar
como un indicador que valide algún tipo de causalidad entre las variables. Es posible
que una regresión entre dos variables no unidas causalmente muestre un R-cuadrado
muy alto.

Figura 2.4
Dos conjuntos de datos y sus R2

2.9 Ejemplos de una estimación por MCO en Stata

Utilizaremos los datos hipotéticos del Ejemplo 2.1 para hacer una estimación por
mínimos cuadrados ordinarios en Stata. Como primer paso, luego de abrir el programa
podríamos introducir los datos de las columnas 𝑋 e 𝑌 de la Tabla 2.1 en el editor de

52
datos. Para acceder a este editor, se selecciona el menú Data, luego la opción Data
Editor, y luego Data Editor (Edit), o directamente haciendo click en el ícono de Data
Editor.

Luego de introducir los datos manualmente, las columnas aparecen con títulos var1 y
var2. Estos títulos son los nombres de las variables, y pueden ser cambiados haciendo
doble click en los encabezados de las columnas. Llamemos a la primera columna “x”, y
a la segunda “y”. Finalmente se cierra la ventana del Data Editor.

Inmediatamente después se escribe en la línea de comandos lo siguiente:

regress y x

Tras ello aparecerá la siguiente tabla de resultados de la estimación por mínimos


cuadrados ordinarios que se presenta en la Tabla 2.3. En primer lugar, ubicamos a los
coeficientes de la estimación MCO en la columna llamada Coef., la cual muestra que
el coeficiente de la variable X es 53.644 y el coeficiente de la constante es 98.542,
siendo los mismos números que calculamos manualmente en el Ejemplo 2.1.

Tabla 2.3
Tabla de resultados de Stata

Source SS df MS Number of obs = 12


F( 1, 10) = 9.40
Model 474581.87 1 474581.87 Prob > F = 0.0119
Residual 504737.797 10 50473.7797 R-squared = 0.4846
Adj R-squared = 0.4331
Total 979319.667 11 89029.0606 Root MSE = 224.66

y Coef. Std. Err. t P>|t| [95% Conf. Interval]

x 53.64426 17.49446 3.07 0.012 14.66417 92.62436


_cons 98.54219 155.5762 0.63 0.541 -248.1032 445.1875

En la columna Std. Err. se muestra las desviaciones estándar estimadas de los


parámetros, que vienen a ser las raíces cuadradas de las varianzas estimadas del ejemplo
2.3.

En la parte superior izquierda de la tabla de resultados de Stata tenemos la


descomposición de la suma de cuadrados, que se ven en la columna titulada SS. El
valor correspondiente a Total es la suma de cuadrados totales, es decir SCT =
979319.667. La suma de cuadrados explicada es la que aparece con la etiqueta Model,
SCE = 474581.87. Se deja al lector el cálculo de estas sumas. La suma de cuadrados de

53
los residuos figura como Residual, es SCR = 504737.797, y es igual al valor que se
calculó en la Tabla 2.2.

Por último, en la parte superior derecha hay algunos indicadores de la regresión. En


primer lugar, está el número de observaciones, que aparece como Number of obs.
También se observa al R-cuadrado que se presenta como R-squared = 0.4846, y más
abajo figura Root MSE, que no es otra cosa que la raíz cuadrada de 𝑠 2 , es decir la
desviación estándar de la regresión.

En la tabla también aparecen otros indicadores y estadísticos, que se irán explicando


poco a poco en los siguientes capítulos.

Ahora mostraremos los resultados de la estimación por MCO usando datos reales de la
relación entre los años de educación de una persona (llamada aquí escolaridad) y el
logaritmo de la remuneración promedio por hora (llamada aquí salario). Usaremos los
datos del Ejemplo 1.1 del Capítulo 1. El modelo a ser estimado es

ln(𝑆𝑎𝑙𝑎𝑟𝑖𝑜𝑖 ) = 𝛽1 + 𝛽2 𝐸𝑠𝑐𝑜𝑙𝑎𝑟𝑖𝑑𝑎𝑑𝑖 + 𝑢𝑖

A este modelo en donde la variable endógena se encuentra en logaritmo mientras que el


regresor no se le se suele llamar el “modelo semi-logarítmico” o “semi-log”,

ln(𝑌𝑖 ) = 𝛽1 + 𝛽2 𝑋𝑖 + 𝑢𝑖 .

Una particularidad de este modelo es que el coeficiente 𝛽2 mide el cambio porcentual


𝑑𝑙𝑛𝑌
del Y ante un cambio discreto en 𝑋. Esto es así pues 𝛽2 = ≈ 𝑙𝑛𝑌|𝑋+1 − 𝑙𝑛𝑌|𝑋 , lo
𝑑𝑋

cual multiplicado por 100% es aproximadamente el cambio porcentual. En el ejemplo


de salarios y escolaridad, 𝛽2 × 100% es el cambio porcentual en los salarios por tener
un año más de educación.

El resultado de la estimación se puede observar en la Tabla 2.4,

54
Tabla 2.4
Estimación de la relación entre la educación y los salarios

. reg lnsalario escolaridad

Source SS df MS Number of obs = 22,668


F(1, 22666) = 5162.29
Model 2196.304 1 2196.304 Prob > F = 0.0000
Residual 9643.27945 22,666 .425451312 R-squared = 0.1855
Adj R-squared = 0.1855
Total 11839.5834 22,667 .522326883 Root MSE = .65227

lnsalario Coef. Std. Err. t P>|t| [95% Conf. Interval]

escolaridad .0800427 .001114 71.85 0.000 .0778591 .0822263


_cons .8278309 .0139315 59.42 0.000 .8005242 .8551377

Podemos ver que el signo del intercepto estimado es positivo, siendo 𝛽̂1 = 0.8278309.
Tomando el exponencial a este valor se obtiene el valor 2.2883, lo que indica que para
las personas que no tienen educación el salario por hora es apenas de 2.29 soles. A partir
de ahí, por cada año adicional de educación el salario por hora se incrementa en
promedio aproximadamente en 8%.

Por otro lado, el R-cuadrado en esta estimación es 0.1855, lo cual indica que la
variabilidad de la educación explica el 18.5% de la variabilidad de los salarios. Aunque
este indicador pueda parecer bajo, para ser una estimación por corte transversal se puede
considerar como aceptable.

Apéndice
𝑋̅ 𝜎2
Demostración de que 𝐶𝑜𝑣(𝛽̂1 , 𝛽̂2 ) = − ∑ 𝑥 2 .
𝑖

De la definición de covarianza,
𝐶𝑜𝑣(𝛽̂1 , 𝛽̂2 ) = 𝐸[(𝛽̂1 − 𝐸[𝛽̂1 ])(𝛽̂2 − 𝐸[𝛽̂2 ])]

Utilizando (2.11)

= 𝐸[(−𝑋̅(𝛽̂2 − 𝛽2 ) + 𝑢̅)(𝛽̂2 − 𝛽2 )]

55
2
= −𝑋̅𝐸 [(𝛽̂2 − 𝛽2 ) ] + 𝐸[𝑢̅(𝛽̂2 − 𝛽2 )]

De (2.12) y (2.10),

𝑋̅𝜎 2 ∑ 𝑢𝑖 ∑ 𝑥𝑖 𝑢𝑖
=− + 𝐸 [ ∙ ]
∑ 𝑥𝑖2 𝑛 ∑ 𝑥𝑖2

Como se demostró, el último término es igual a cero, con lo cual se completa la prueba.

Ejercicios
2.1 Demuestre que cuando usted regresiona a una variable Yi contra una constante y

nada más, es decir se estima el modelo 𝑌𝑖 = 𝛽1 + 𝑢𝑖 , el estimador MCO β̂1 es igual


al promedio simple de los Yi y que los residuos son iguales a la variable en
desviaciones. (Ayuda: Plantee la SCR y derive respecto al único estimador).
2.2 En el modelo bivariado 𝑌𝑖 = 𝛽1 + 𝛽2 𝑋𝑖 + 𝑢𝑖 , demuestre que 𝑌̅̂ = 𝑌̅.
2.3 Suponga que en el modelo bivariado, 𝐸[𝑢𝑖 ] = 𝑐, donde c es una constante,
manteniéndose los demás supuestos del modelo. ¿A qué será igual 𝐸[𝛽̂1 ] y 𝐸[𝛽̂2 ]?
2.4 En el modelo bivariado sin intercepto, 𝑌𝑖 = 𝛽𝑋𝑖 + 𝑢𝑖 , obtenga el estimador MCO
de su parámetros, verifique la insesgadez y calcule su varianza.
2.5 Si en el modelo 𝑌𝑖 = 𝛽1 + 𝛽2 𝑋𝑖 + 𝑢𝑖 los datos de 𝑋 e 𝑌 son multiplicados por una
constante M. ¿Qué diferencia habrá entre los parámetros estimados del nuevo
modelo 𝛽̂1∗ y 𝛽̂2∗ respecto a los parámetros estimados con los datos originales, 𝛽̂1 y
𝛽̂2?
2.6 Contamos con datos de producción para 22 firmas en cierta industria, donde
𝑌 = ln(𝑝𝑟𝑜𝑑𝑢𝑐𝑐𝑖ó𝑛) y 𝑋 = ln(𝑡𝑟𝑎𝑏𝑎𝑗𝑜) medido en horas: 𝑌̅ = 20, 𝑋̅ = 10,
∑(𝑌𝑖 − 𝑌̅)2 = 100, ∑(𝑋𝑖 − 𝑋̅)2 = 60 y ∑(𝑋𝑖 − 𝑋̅)(𝑌𝑖 − 𝑌̅) = 30. Calcule los
estimadores mínimos cuadráticos del modelo bivariado.
2.7 En el contexto del modelo de regresión lineal clásico con dos variables, evalúe en
función de la esperanza y la varianza cuál es el mejor estimador de los siguientes
estimadores de la pendiente 𝛽2:
∑Y ∑ Xi Y i 1 𝑌
𝑏1 = ∑ Xi 𝑏2 = ∑ X2i
𝑏3 = n ∑ (X𝑖 )
i i

2.8 Suponga que las variables X e Y están relacionadas de acuerdo con la función de
regresión poblacional 𝑌𝑖 = 𝛽2 𝑋𝑖 + 𝑢𝑖 , la cual no tiene intercepto. Suponga que

56
equivocadamente usted regresiona el modelo con intercepto por MCO obteniendo
𝑌𝑖 = 𝛽̂1 + 𝛽̂2 𝑋𝑖 . Calcule la esperanza de los estimadores y la varianza 𝑉𝑎𝑟(𝛽̂2 ).
2.9 Si en el modelo 𝑌𝑖 = 𝛽1 + 𝛽2 𝑋𝑖 + 𝑢𝑖 los datos de 𝑋 e 𝑌 son transformados de la
siguiente manera: 𝑌𝑖∗ = 𝑚 + 𝑞𝑌𝑖 , 𝑋𝑖∗ = 𝑐 + 𝑑𝑋𝑖 . ¿Qué ocurrirá con los parámetros
estimados del nuevo modelo 𝑌𝑖∗ = 𝛽1 + 𝛽2 𝑋𝑖∗ + 𝑣𝑖 , respecto a los parámetros
estimados con los datos originales? Muestre que el R-cuadrado no cambia.
2.10 Se sabe que 𝑅 2 = 0.08, 𝑠 2 = 9.8 y 𝑛 = 100. Calcule la SCE y la SCT.
2.11 Teniendo en cuenta la siguiente tabla

Año 1 2 3 4 5 6 7 8 9 10 11 12
Consumo (C) 15.6 6.4 9.2 14.9 7.2 7.6 7.2 7.2 7.9 8.8 4.1 11.1
Ingreso (I) 16.3 6.8 8.6 15.3 8.7 7.8 8.7 8.3 9.4 10.8 5.1 11.6

Estime el modelo 𝐶𝑖 = 𝛽1 + 𝛽2 𝐼𝑖 + 𝑢𝑖 . Halle las varianzas de los estimadores y el


coeficiente de determinación R-cuadrado.

57
Capítulo 3
Inferencia Estadística en el Modelo de Dos Variables

En el capítulo anterior presentamos al modelo de regresión lineal clásico y la estimación


de sus parámetros por Mínimos Cuadrados Ordinarios. No obstante, el trabajo
econométrico va más allá y busca realizar pruebas de hipótesis sobre los coeficientes
estimados. Como sabemos, el trabajo con datos de muestras tiene márgenes de error que
podrían ser en ocasiones tan grandes que invalidarían cualquier interpretación
apresurada con los valores estimados. No basta con saber que bajo los supuestos
“clásicos” los estimadores de MCO son insesgados y que tienen la menor varianza
posible. Debemos ser conscientes de los posibles márgenes de error de estas
estimaciones, dada su naturaleza aleatoria.

En este capítulo tenemos como objetivo la evaluación de los resultados de las


estimaciones usando criterios estadísticos. Para ello, vamos a trabajar con intervalos de
confianza y realizaremos pruebas de hipótesis. Para este fin se tendrá que hacer un
supuesto adicional al modelo clásico que introduzca en la discusión el tema de las
distribuciones de probabilidades de las variables aleatorias en cuestión.

3.1 El supuesto de normalidad de los errores

Hasta el momento solo hemos supuesto que el término de perturbación 𝑢𝑖 tiene media
cero y varianza 𝜎 2 . Vamos a hacer un supuesto acerca de la distribución de 𝑢𝑖 .

Supuesto 5: Los términos de perturbación siguen una distribución normal condicional


con media cero y varianza 𝜎 2 ,

𝑢𝑖 |𝑋𝑖 ~𝑁(0, 𝜎 2 ) ∀𝑖

Si la variable 𝑋 es fija en muestras repetidas, podemos escribir el supuesto simplemente


como

𝑢𝑖 ~𝑁(0, 𝜎 2 ) ∀𝑖 . (3.1)

Nótese que estamos haciendo una suposición acerca de la distribución de una variable
aleatoria que no podemos observar. Sin embargo, existen algunas justificaciones para

58
hacer este supuesto. En primer lugar, la distribución normal posee algunas propiedades
conocidas que resultan útiles en el análisis. El hecho que la suma de variables aleatorias
con distribuciones normales siempre genere nuevas variables aleatorias con esa
distribución, y que sus parámetros principales –media y varianza– sean fácilmente
calculables permite trabajar con distribuciones exactas para los parámetros estimados1.
En segundo lugar, la propiedad de simetría y el hecho que el peso de sus colas decaiga
conforme la variable se aleja de su media parece también apropiada para describir la
ocurrencia de los términos de perturbación alrededor de la recta poblacional, tal como
parece sugerir la figura 1.2 del capítulo 1. Otra razón reside en la idea del Teorema del
Límite Central –que se presentará formalmente en el capítulo 7. Según este teorema,
bajo ciertas condiciones el promedio de numerosas variables aleatorias puede converger
a una variable con distribución normal, sin importar la distribución de probabilidades de
las variables aleatorias promediadas. Si recordamos que la perturbación u es la
sumatoria de todos los demás factores que afectan a 𝑌, es posible que esta perturbación
se distribuya aproximadamente como una normal.

Sin embargo, el supuesto de normalidad de los errores es cuestionado en la econometría


moderna, pues impone una distribución particular a una variable no observable. Como
veremos en capítulos posteriores, las aplicaciones de la teoría asintótica vuelven
innecesario asumir este supuesto. No obstante, respetaremos el planteamiento del
modelo clásico y lo incluiremos en la exposición, lo cual será útil en la construcción de
pruebas de hipótesis.

Si 𝑢𝑖 sigue una distribución normal condicionada a 𝑋𝑖 , entonces 𝑌𝑖 también seguirá una


distribución normal condicionada a 𝑋𝑖 con una media igual a 𝛽1 + 𝛽2 𝑋𝑖 y varianza 𝜎 2 .
Esto quiere decir que para algún valor de 𝑋 dado, los valores de 𝑌 por encima o por
debajo de la recta de regresión se distribuyen con una media 𝛽1 + 𝛽2 𝑋𝑖 y varianza igual
a 𝜎 2.

Luego, dado que los estimadores de MCO son combinaciones lineales de la variable
endógena 𝑌𝑖 , entonces estos estimadores 𝛽̂1 y 𝛽̂2 también seguirán esta distribución

1
Algunas propiedades de las distribuciones normal son: (i) si 𝑋~𝑁(𝜇𝑋 , 𝜎𝑋2 ) y 𝑌~𝑁(𝜇𝑌 , 𝜎𝑌2 ) son dos
variables aleatorias independientes, entonces si 𝑎 y 𝑏 son escalares, 𝑎𝑋 + 𝑏𝑌~𝑁(𝑎𝜇𝑋 + 𝑏𝜇𝑌 , 𝑎2 𝜎𝑋2 +
𝑏 2 𝜎𝑌2 ); (ii) si 𝑎 y 𝑏 son escalares, entonces 𝑎𝑋 + 𝑏~𝑁(𝑎𝜇𝑋 + 𝑏, 𝑎2 𝜎𝑋2 ); (iii) para cualquier 𝑋~𝑁(𝜇𝑋 , 𝜎𝑋2 ),
se cumple (𝑋 − 𝜇𝑋 )/𝜎𝑋 ~𝑁(0,1), lo que se conoce como la “estandarización de una normal”; (iv) la
densidad de la normal es simétrica en torno a su media.

59
normal condicionada. Esto se ve con mayor claridad en la expresión (2.10) en donde
∑𝑥 𝑢 𝑥
𝛽̂2 = 𝛽2 + ∑ 𝑥𝑖 2𝑖 = 𝛽2 + ∑ (∑ 𝑥𝑖 2 ) 𝑢𝑖 , y por lo tanto 𝛽̂2 es una combinación lineal de
𝑖 𝑖

variables aleatorias normales. De manera simplificada y omitiendo el condicionamiento


se tiene que

1 2
𝑋̅
𝛽̂1 ~𝑁 (𝛽1 , 𝜎 2 (𝑛 + ∑ 𝑥 2 )) (3.2)
𝑖

1
En el caso de 𝛽̂1, de (2.11) se tiene que 𝛽̂1 = 𝛽1 + 𝑋̅(𝛽2 − 𝛽̂2 ) + (𝑛) ∑ 𝑢𝑖 , luego

también es una combinación lineal de variables aleatorias normales, entonces

𝜎 2
𝛽̂2 ~𝑁 (𝛽2 , ∑ 𝑥 2 ) (3.3)
𝑖

Con este resultado podemos construir intervalos de confianza alrededor de los


estimadores puntuales 𝛽̂1 y 𝛽̂2.2

3.2 Intervalos de confianza para los parámetros

Los parámetros estimados son variables aleatorias cuya variabilidad natural hace que
rara vez sean iguales a los parámetros poblacionales. En ocasiones desearíamos tener un
intervalo o rango de valores sobre el cual podamos afirmar o confiar que el verdadero
parámetro poblacional se encuentre en dicho intervalo con una alta probabilidad. En
esta sección mostraremos como podemos construir a tales intervalos a partir de las
estimaciones puntuales, procedimiento que en estadística se conoce como estimación de
intervalos.

Un intervalo de confianza es un rango de valores sobre el cual tenemos la confianza de


que el parámetro poblacional posiblemente se encuentre en ese intervalo. Debe quedar
claro que los intervalos no garantizan ningún tipo de certeza absoluta sobre la ubicación
del parámetro poblacional. Siempre existirá la posibilidad de que el parámetro
poblacional esté ya sea fuera o dentro del intervalo, aunque podemos tener alguna idea
acerca de las probabilidades de que eso ocurra.

2
En realidad la distribución de 𝛽̂1 y 𝛽̂2 es la de una normal conjunta con covarianza igual a
𝑋̅𝜎 2
𝐶𝑜𝑣(𝛽̂1 , 𝛽̂2 ) = − 2 .
∑ 𝑥𝑖

60
En primer lugar, construiremos un intervalo para el parámetro 𝛽2. Para ello
trabajaremos con su estimador 𝛽̂2 el cual puede ser estandarizado como

𝛽̂2 − 𝛽2
~𝑁(0,1) (3.4)
√𝜎 2 / ∑ 𝑥𝑖 2

Definimos un nivel de confianza de (1 − 𝛼) × 100%, en donde ocurrirá que

𝛽̂2 − 𝛽2
Pr (𝑧𝛼 < < 𝑧1−𝛼 ) = 1 − 𝛼
2 √𝜎 2 / ∑ 𝑥𝑖 2 2

En esta expresión, 𝑧𝛼⁄2 y 𝑧1−𝛼⁄2 son los percentiles 𝛼/2 y 1 − 𝛼/2 de la distribución
normal estándar que se obtiene de la tabla de probabilidades correspondiente. En la
figura 3.1 se muestra la ubicación de los límites de este intervalo en el conocido gráfico
de la “Campana de Gauss”, que es el gráfico de la función de densidad de la
distribución normal estándar. Dado que esta densidad es simétrica alrededor de 0, se
cumple que 𝑧𝛼⁄2 = −𝑧1−𝛼⁄2 . Luego reescribimos los límites del intervalo así:

𝛽̂2 − 𝛽2
Pr (−𝑧1−𝛼 < < 𝑧1−𝛼 ) = 1 − α (3.5)
2 √𝜎 2 / ∑ 𝑥𝑖 2 2

̂2 −𝛽2
𝛽
La expresión (3.5) nos dice que la variable aleatoria se encuentra entre los
√𝜎2 / ∑ 𝑥𝑖 2

límites señalados con (1 − 𝛼)% de probabilidad. Trabajando sobre la ecuación (3.5), se


puede operar las desigualdades dentro de la expresión de probabilidad, despejando a 𝛽2
en la parte central con lo que se obtiene,

𝜎2 𝜎2
Pr (𝛽̂2 − 𝑧1−𝛼 . √ < 𝛽2 < ̂
𝛽2 + 𝑧 𝛼 . √ )=1−α
2 ∑ 𝑥𝑖 2 1−
2 ∑ 𝑥𝑖 2

En esta expresión, en el centro ha quedado el parámetro poblacional 𝛽2 (un número fijo


𝜎 2
pero desconocido) entre dos límites aleatorios 𝛽̂2 ± 𝑧1−𝛼 . √∑ 𝑥 2. Aunque la expresión
2 𝑖

parece indicar que la probabilidad de que 𝛽2 se ubique entre los dos límites es 1 − 𝛼, en
realidad la interpretación es ligeramente distinta. El parámetro 𝛽2 no es aleatorio; es el
intervalo el que cambiará aleatoriamente de ubicación según las muestras que tengamos.

61
La expresión dice que, en muchas muestras repetidas, se confía que en (1 − 𝛼)% de las
veces el intervalo aleatorio abarque o tenga dentro de sí al parámetro poblacional 𝛽2.

Luego, dando valores a 𝛼 se puede definir los intervalos. Por ejemplo, para 𝛼 = 0.05
los valores máximo y mínimo del intervalo de confianza al 95% para 𝛽2 serían

𝜎2
𝛽̂2 ± 𝑧0.975 √ 𝑧0.975 = 1.96
∑ 𝑥𝑖 2

Figura 3.1
Función de densidad de la normal estándar

área = 𝛼/2 área = 𝛼/2


área = 1 

𝑧𝛼⁄2 0 𝑧1−𝛼⁄2
= −𝑧1−𝛼⁄2

Sin embargo, por lo general el parámetro poblacional 𝜎 2 no es un valor conocido. Si


utilizamos en (3.4) en su reemplazo el valor estimado 𝑠 2 , el intervalo se construye en la
distribución t-Student con 𝑛 − 2 grados de libertad.

Para comprobar esta afirmación, utilizamos un resultado conocido3,

(𝑛 − 2)𝑠 2 2
~𝜒(n−2) (3.6)
𝜎2

A partir de las expresiones (3.4) y (3.6) definimos una variable aleatoria con
distribución t-Student como4

3
Este resultado será demostrado en el capítulo siguiente.

62
𝛽̂2 − 𝛽2
√𝜎 2 / ∑ 𝑥𝑖 2 𝛽̂2 − 𝛽2
= ~𝑡 − 𝑆𝑡𝑢𝑑𝑒𝑛𝑡(𝑛−2)
(𝑛 − 2)𝑠 2 /𝜎 2 √𝑠 2 / ∑ 𝑥 2
𝑖
𝑛−2

Entonces, definimos la probabilidad de que esta variable aleatoria caiga entre dos
límites con (1 − 𝛼)% de probabilidad como

𝛽̂2 − 𝛽2
Pr (−𝑡1−𝛼 (𝑛 − 2) < < 𝑡1−𝛼 (𝑛 − 2)) = 1 − 𝛼
2 √𝑠 2 / ∑ 𝑥𝑖 2 2

En esta expresión, 𝑡1−𝛼⁄2 (𝑛 − 2) es el percentil 1 − 𝛼 ⁄2 de la distribución t-Student


que se obtiene de la tabla de probabilidades correspondiente con 𝑛 − 2 grados de
libertad. Despejando a 𝛽2 en la parte central de las desigualdades se obtiene el intervalo
de confianza para 𝛽2

𝑠2 𝑠2
Pr (𝛽̂2 − 𝑡1−𝛼 (𝑛 − 2). √ < 𝛽2 < ̂
𝛽2 + 𝑡 𝛼 (𝑛 − 2). √ )=1−𝛼
2 ∑ 𝑥𝑖 2 1−
2 ∑ 𝑥𝑖 2

siendo los límites inferior y superior del intervalo

𝑠2
𝛽̂2 ± 𝑡1−𝛼 (𝑛 − 2). √ (3.7)
2 ∑ 𝑥𝑖 2

En el caso del intervalo para el parámetro 𝛽1, mediante un procedimiento similar se


puede obtener que los límites superior e inferior son

1 𝑋̅ 2
𝛽̂1 ± 𝑡1−𝛼 (𝑛 − 2). √𝑠 2 ( + ) (3.8)
2 𝑛 ∑ 𝑥𝑖 2

Ejemplo 3.1: Continuando con el Ejemplo 2.1 del capítulo 2 sobre años de educación y
salarios con datos simulados, se obtuvieron las estimaciones puntuales 𝛽̂1 = 98.5422 y
𝛽̂2 = 53.6443. También se calculó que 𝑠 2 = 50473.7797 y se sabe que 𝑛 = 12,
𝑋̅ = 8.0833 y que ∑ 𝑥i 2 = 164.9167. El valor de 𝑡1−α (10) se puede obtener de las
2

2
4
Debe recordarse que si 𝑧~𝑁(0,1) y 𝑥~𝜒(𝑞) donde q son los grados de libertad, y si 𝑧 y 𝑥 son
independientes, entonces 𝑧/√𝑥 ⁄𝑞 ~𝑡(q) . En el caso que nos interesa, se puede comprobar que 𝛽̂2 y 𝑠 2 son
independientes, por lo que se cumple la definición de la 𝑡 − 𝑆𝑡𝑢𝑑𝑒𝑛𝑡.

63
tablas t-Student que se encuentran al final de este libro, o pueden calcularse usando MS
Excel ® con la fórmula = 𝐼𝑁𝑉. 𝑇. 2𝐶(𝛼, 𝑛 − 2), o mediante Stata con el comando
display invt(𝑛 − 2,1 − 𝛼). Éste es igual a 1.812, 2.228 y 3.169 para los valores
de α de 0.10, 0.05 y 0.01 respectivamente, los intervalos de confianza de los
parámetros al 90%, 95% y 99% de confianza para 𝛽̂2 utilizando la ecuación (3.7) son

Tabla 3.1
Intervalos de confianza para  2
Límite Límite
(1 − α) × 100%
Inferior Superior
90% 21.9362 85.3523
95% 14.6642 92.6244
99% -1.8005 109.0890

En el caso del intervalo al 95%, confiamos que el verdadero parámetro cae en el rango
14.67 y 92.62 con una probabilidad de 95%. Nótese que para valores de confianza
mayores (valores de  más pequeños), el intervalo se vuelve más amplio. Se deja al
lector el cálculo de los intervalos de confianza para β1 utilizando la ecuación (3.8).

3.3 Prueba de hipótesis

En econometría, un procedimiento rutinario para evaluar una teoría mediante un modelo


econométrico es a través de pruebas de hipótesis. En el modelo de dos variables, las
hipótesis que se pueden proponer se refieren usualmente a valores del parámetro
poblacional 𝛽2.

Ejemplo 3.2: Imaginemos que tenemos datos de precios y cantidades demandadas de un


bien, y deseamos estimar el siguiente modelo

ln(𝑄𝑖 ) = 𝛽1 + 𝛽2 ln(𝑃𝑖 ) + 𝑢𝑖

En este modelo ln(𝑄𝑖 ) y ln(𝑃𝑖 ) son el logaritmo de la cantidad y el precio


respectivamente. A este tipo de modelo en donde las variables 𝑋 y 𝑌 están expresadas
en logaritmos se le conoce como el modelo “doble logarítmico” o “log-log”. Tal como
se explicó en el capítulo 1, este modelo puede provenir de un modelo no lineal en

64
parámetros que ha sido linealizado aplicando el logaritmo natural. Una particularidad de
este modelo es que el coeficiente 𝛽2 se puede interpretar como una elasticidad. Es decir,

𝜕ln(𝑄𝑖 ) ∆%𝑄
𝛽2 = ≈
𝜕ln(𝑃𝑖 ) ∆%𝑃

En el ejemplo, 𝛽2 corresponde a la estimación de la elasticidad-precio de la demanda de


un modelo de elasticidad constante. En algunos modelos, es interesante evaluar si la
elasticidad es igual a −1, es decir la demanda tiene elasticidad “unitaria”. En ese caso,
deseamos saber si los datos que disponemos son consistentes con un modelo en donde
𝛽2 = −1. Esta sería la hipótesis que nos interesa probar. 

Supongamos que alguna teoría económica nos dice que el parámetro β2 debería ser
igual a cierto valor conocido, digamos 𝑎. Escribimos esta hipótesis en la forma usual
como

𝐻0 : 𝛽2 = 𝑎 Hipótesis nula
𝐻1 : 𝛽2 ≠ 𝑎 Hipótesis alternativa

La mera observación del parámetro estimado 𝛽̂2 no puede considerarse como una
contrastación de la hipótesis planteada, pues al ser 𝛽̂2 una variable aleatoria continua,
prácticamente nunca será igual al valor 𝑎, salvo cuestión de azar.

Para hacer el contraste de hipótesis utilizaremos lo que se dedujo en la sección 3.2 bajo
el supuesto de normalidad de los errores. Ahí se dedujo que

𝛽̂2 − 𝛽2
~ 𝑡 − 𝑆𝑡𝑢𝑑𝑒𝑛𝑡(n−2) (3.9)
√𝑠 2 / ∑ 𝑥𝑖 2

Nosotros queremos evaluar 𝐻0 : 𝛽2 = 𝑎. Supongamos por el momento que esta hipótesis


es cierta, luego si en (3.9) reemplazamos a 𝛽2 por 𝑎 tenemos

𝛽̂2 − 𝑎
(3.10)
√𝑠 2 / ∑ 𝑥𝑖 2

Este resultado debería distribuirse como t-Student si la hipótesis nula es cierta. Ahora
supongamos que la hipótesis es falsa, es decir 𝛽2 ≠ 𝑎. En ese caso, (3.10) no se

65
distribuye como una t-Student pues, como se sabe, las variables aleatorias t-Student
tienen media cero, lo que ocurre en (3.9) pero no está garantizado en (3.10). Lo más
probable es que (3.10) se aleje de cero.

Una diferencia entre (3.9) y (3.10) es que la última puede ser calculada por nosotros.
Este análisis sugiere que si calculamos (3.10) y observamos su valor podríamos tener
una idea sobre si la hipótesis es cierta o falsa. Llamemos a (3.10) el “estadístico 𝑡” o
̂2 −𝑎
𝛽
simplemente “𝑡”, 𝑡 = , el cual es una variable aleatoria. Luego, si este
̂2 )
̂ (𝛽
√𝑉𝑎𝑟

estadístico se encuentra entorno a cero es posible que la hipótesis sea verdadera


mientras que si se aleja mucho de cero lo más probable es que sea falsa.

Para poder definir qué tan grande o tan pequeño debe ser el estadístico 𝑡 para rechazar o
no la hipótesis, tomaremos los percentiles de la distribución t-Student. En la figura 3.2
se muestra la función de densidad de esta distribución con un determinado número de
grados de libertad. Tiene cierto parecido a la densidad de la normal estándar, y de hecho
se aproxima a ella mientras más grande sea sus grados de libertad.

Según los percentiles marcados en el gráfico, podemos tomar estos percentiles como
puntos de corte o límites para decir si el estadístico 𝑡 es lo suficientemente grande o no.
Si 𝑡 > 𝑡1−𝛼 (𝑛 − 2) o si 𝑡 < −𝑡1−𝛼 (𝑛 − 2), entonces podemos afirmar que, en
2 2

magnitud, el estadístico 𝑡 está muy lejos de cero como para que se le pueda considerar
como una variable aleatoria t-Student. Entonces, rechazaríamos la hipótesis nula
H0 : 𝑎 = 0. En cambio, si se encuentra entre los límites mencionados, no podríamos
rechazar la hipótesis mencionada.

Las dos condiciones para rechazar la hipótesis se pueden resumir en una sola usando el
valor absoluto del estadístico. Se “rechazará” la hipótesis si

|𝑡| > 𝑡1−𝛼 (𝑛 − 2) (3.11)


2

Similarmente, “no se rechazará” la hipótesis (se “aceptará”) si

|𝑡| < 𝑡1−𝛼 (𝑛 − 2).


2

Debe notarse que “rechazar” la hipótesis no significa que estemos seguros que la
hipótesis es falsa. En la figura 3.2 se encuentran sombreadas las regiones de

66
“aceptación” y “rechazo” de la hipótesis. Si el estadístico 𝑡 cae en la región de rechazo,
aun así es posible que 𝑡 se distribuya como t-Student, siendo entonces la hipótesis
verdadera. Según el gráfico, con 𝛼% de posibilidades una variable aleatoria t-Student
cae en la región de rechazo. En otras palabras, existe un 𝛼% de posibilidades de que
rechacemos una hipótesis que es verdadera, lo que se conoce como el Error Tipo I.
Luego, en el momento de realizar una prueba de hipótesis, es importante señalar con
qué valor 𝛼 se está realizando la prueba, dado que este es la probabilidad del cometer tal
error. Dada la importancia de 𝛼, en estadística se le conoce como el nivel de
significancia.

Figura 3.2
Función de densidad de la t-Student

á𝑟𝑒𝑎 = 1 − 𝛼
𝛼 𝛼
á𝑟𝑒𝑎 = á𝑟𝑒𝑎 =
2 2

−𝑡1−α (𝑛 − 2) 𝑡1−α (𝑛 − 2)
2 0 2
Zona de rechazo Zona de aceptación Zona de rechazo

Cabe mencionar que el resultado de la prueba podría variar según el nivel de


significancia 𝛼 elegido para la prueba. Como en los intervalos de confianza, en las
pruebas de hipótesis se suele elegir arbitrariamente valores pequeños, digamos 𝛼 =
0.10, 𝛼 = 0.05 o 𝛼 = 0.01. Es fácil ver que 𝑡1−𝛼⁄2 (𝑛 − 2) aumenta cuando 𝛼
disminuye. El efecto es que la región de rechazo se vuelve más pequeña (la región de
aceptación es más grande) cuando 𝛼 disminuye. Por ejemplo, podría ocurrir que se
rechace una hipótesis con un 𝛼 = 0.05 pero que se acepte con un valor 𝛼 = 0.01.

67
Así mismo, debe tenerse claro que aceptar una hipótesis nula no significa que hayamos
comprobado que la hipótesis sea verdadera. Pueden existir diversas hipótesis nulas,
𝐻0 : 𝛽2 = 𝑎1, 𝐻0 : 𝛽2 = 𝑎2 , … etc. que produzcan estadísticos 𝑡 que caigan en la zona de
aceptación. Obviamente no todas ellas pueden ser verdad al mismo tiempo. Al “aceptar”
la hipótesis nula solo se está diciendo que los datos son consistentes o compatibles con
la hipótesis propuesta.5

Es más, supongamos que deseamos reducir la probabilidad de cometer el Error Tipo I


eligiendo valores de 𝛼 cada vez más pequeños. Con estas decisiones lo que va a ocurrir
es que la región de aceptación de la figura 3.2 se vuelva cada vez más grande, por lo que
podríamos aceptar valores de 𝑡 que se encuentren ya no tan cerca de cero. Con ello se
incrementa la posibilidad de que terminemos aceptando una hipótesis que sea falsa, lo
que se conoce como el Error Tipo II. Es decir, al reducirse la probabilidad de cometer el
primer tipo de error se incrementa la probabilidad de cometer el otro, y viceversa.

Existe una relación directa entre la prueba de hipótesis y los intervalos de confianza
calculados en la sección anterior. De (3.11) sabemos que se rechaza si

𝑡 > 𝑡1−𝛼 (𝑛 − 2) ó 𝑡 < −𝑡1−𝛼 (𝑛 − 2)


2 2

̂2 −𝑎
𝛽 ̂2 −𝑎
𝛽
> 𝑡1−𝛼 (𝑛 − 2) ó < −𝑡1−𝛼 (𝑛 − 2)
√𝑉𝑎𝑟 ̂2 )
̂ (𝛽 2 √𝑉𝑎𝑟 ̂2 )
̂ (𝛽 2

𝛽̂2 − 𝑎 > 𝑡1−𝛼 (𝑛 − 2)√𝑉𝑎𝑟


̂ (𝛽̂2 ) ó 𝛽̂2 − 𝑎 < −𝑡1−𝛼 (𝑛 − 2)√𝑉𝑎𝑟
̂ (𝛽̂2 )
2 2

Despejando a 𝑎 se obtiene,

𝑎 < 𝛽̂2 − 𝑡1−𝛼 (𝑛 − 2). √𝑉𝑎𝑟


̂ (𝛽̂2 ) ó 𝑎 > 𝛽̂2 + 𝑡1−𝛼 (𝑛 − 2). √𝑉𝑎𝑟
̂ (𝛽̂2 ) .
2 2

Es decir, rechazar la hipótesis nula utilizando el estadístico 𝑡 equivale a decir que el


valor 𝑎 propuesto por la hipótesis cae fuera de intervalo de confianza 100 × (1 − 𝛼)%.
Similarmente, la hipótesis es aceptada si y solo si 𝑎 cae dentro del intervalo.

La intuición detrás de este criterio de aceptación o rechazo de la hipótesis tiene que ver
con la confianza existente en que el verdadero parámetro caiga entre los límites del
5
Actualmente muchos estadísticos prefieren decir “no rechazar” en lugar de “aceptar”. Más adelante
volveremos sobre estos términos y la conveniencia de su uso.

68
intervalo. Si la hipótesis propone un valor 𝑎 que cae fuera del intervalo de confianza de
𝛽2, lo más probable es que 𝛽2 ≠ 𝑎.

La figura 3.3a ilustra un caso en donde se rechazaría la hipótesis nula. En esta figura las
regiones de aceptación y rechazo están definidas sobre el intervalo de confianza de 𝛽2,
no sobre los valores de 𝑡 como en la figura 3.2, aunque son equivalentes. En la figura
3.3a el valor 𝑎 está muy a la izquierda del intervalo. En la figura 3.3b se acepta la
hipótesis propuesta. Nuevamente, es importante notar que “aceptar (no rechazar)” la
hipótesis no garantiza que 𝛽2 = 𝑎, solo dice que 𝛽2 y 𝑎 podrían caer en un mismo
intervalo.

Figura 3.3a
Rechazo de la hipótesis nula

𝑎 𝛽2

Rechazo 𝛽̂2 Rechazo

Región de aceptación

Figura 3.3b
Aceptación (no rechazo) de la hipótesis nula

𝑎 𝛽2

Rechazo 𝛽̂2 Rechazo

Región de aceptación

Usando diagramas similares a los de las figuras 3.3, se puede ilustrar los errores que se
pueden cometer en las pruebas de hipótesis. En la figura 3.4a se rechaza la hipótesis
pese a que 𝛽2 = 𝑎, y por ello la hipótesis debería ser considerada como verdadera. Este
es el error tipo I que mencionamos antes y ocurre cuando se rechaza una hipótesis
cierta. En la figura 3.3b se acepta la hipótesis 𝛽2 = 𝑎 pese a que 𝛽2 y 𝑎 toman valores
muy lejanos. Este es el error tipo II, cuando se acepta una hipótesis que es falsa.

69
Figura 3.4a
El Error Tipo I

𝑎 𝛽2

Rechazo 𝛽̂2 Rechazo


Región de aceptación

Figura 3.4b
El Error tipo II

𝑎 𝛽2

𝛽̂2
Rechazo Rechazo
Región de aceptación

Obsérvese en cualquiera de los diagramas anteriores que el resultado de la prueba de


hipótesis puede cambiar drásticamente si (a) el intervalo aleatorio (construido con base
en la variable aleatoria 𝛽̂2) se ubica en un lugar distinto; (b) se construyen intervalos de
confianza más anchos o más angostos. En el segundo caso, la aceptación o rechazo de la
hipótesis está influido por el valor de 𝛼 con el que se construyó el intervalo de
confianza.

Valores pequeños de 𝛼 están asociados a valores grandes de 𝑡1−𝛼⁄2 (𝑛 − 2), lo cual


incrementa la amplitud del intervalo, tal como se mostró en la tabla 3.1. Intervalos muy
grandes (o muy pequeños) pueden inducirnos a cometer un error en la prueba. Con
intervalos muy pequeños, el valor 𝑎 podría caer fuera del intervalo con facilidad
haciendo más probable que se rechace una hipótesis aun si esta es verdadera (error tipo
I). Por otro lado, si los intervalos son muy grandes, no será difícil que el valor 𝑎 caiga
dentro del intervalo incrementándose entonces la probabilidad de cometer el error tipo
II. Evidentemente, al aumentar la probabilidad de cometer uno de los errores ser reduce
la probabilidad de que ocurra el otro, existiendo un trade-off entre estas dos
probabilidades.

70
¿Cuál es el valor de 𝛼 que deberíamos usar en una prueba hipótesis? La respuesta está
en qué error considera más importante el investigador, según lo que quiera probar.
Algunas pruebas de hipótesis pueden tener un mayor énfasis en la aceptación que en el
rechazo, mientras que en otras puede existir lo contrario. En el ejemplo 3.2 hay un
mayor interés en la aceptación de la hipótesis, pues la teoría dice que la elasticidad es
igual a −1. En ese caso, si aceptamos debemos ser conscientes del error tipo II que se
puede estar cometiendo. En la mayoría de aplicaciones en regresión lineal, como se ve a
continuación en la sección 3.4, el énfasis puede estar en el rechazo.

3.4 Prueba de la significancia de un coeficiente

Desde un principio, nuestro interés recae en ver si la variable aleatoria 𝑋 que hemos
propuesto regresor es capaz de explicar el comportamiento de la variable endógena 𝑌,
según el modelo 𝑌𝑖 = 𝛽1 + 𝛽2 𝑋𝑖 + 𝑢𝑖 . Usando el análisis de las secciones anteriores,
proponemos las hipótesis nula y alternativa

𝐻0 : 𝛽2 = 0 𝐻1 : 𝛽2 ≠ 0
Este es un caso especial de la prueba con 𝑎 = 0, y que quiere decir que de ser cierta la
hipótesis nula, 𝑋 no tiene ningún impacto sobre 𝑌. Si se rechaza, las variaciones en 𝑋 sí
se relacionan o explican a las variaciones de 𝑌. En esta prueba el énfasis está puesto en
el rechazo, pues nosotros mismos elegimos a 𝑋, no para probar que no explica sino para
probar que sí explica a 𝑌, y queremos ver si existe alguna evidencia estadística de que
su impacto no es nulo. En este tipo de pruebas conviene hablar de “rechazar” o “no
rechazar” la hipótesis. Si rechazamos la hipótesis nula, debemos preocuparnos por la
probabilidad de estar cometiendo el error tipo I. Nótese que no nos interesa mucho el
error tipo II pues no estamos interesados en aceptar sino en rechazar.

Para estar seguros de la fortaleza del rechazo de la hipótesis, sometemos la prueba a


niveles de significancia 𝛼 cada vez más pequeños. Si pese a reducir el valor de 𝛼
seguimos rechazando la hipótesis eso significa que nuestra prueba tiene una baja
probabilidad de cometer el error tipo I, lo que incrementa la fortaleza de la afirmación.
Además, debido a que se está rechazando la hipótesis no se está cayendo en el error tipo
II. Cuando se logra este objetivo, se dice que el parámetro estimado es “significativo”, o
que se ha rechazado la hipótesis con 𝛼% de significancia. Es aquí que la palabra

71
“significativo” cobra especial connotación, pues estamos afirmando que la relación
entre 𝑋 e 𝑌 no se produce al azar sino que existe evidencia estadística de esta relación.

En este caso, el valor absoluto del estadístico t es simplemente

𝛽̂2
|𝑡| = || || (3.12)
̂ (𝛽̂2 )
√𝑉𝑎𝑟

Este valor es comparado con el valor 𝑡1−𝛼 (𝑛 − 2) que se obtiene de la tabla t-Student.
2

Si |𝑡| > 𝑡1−𝛼 (𝑛 − 2) se rechaza la hipótesis nula con 𝛼% de significancia.


2

Ejemplo 3.3: Continuando con el ejemplo 3.1, con datos hipotéticos sobre años de
educación y salarios, se han calculado los estadísticos 𝑡 según la ecuación (3.12).

Tabla 3.2
Prueba t de significancia de los parámetros
Valores críticos de t1  / 2 ( n  2)
(Nivel de sig. 𝛼)
1.812 2.228 3.169
(0.10) (0.05) (0.01)
H0 : β1 = 0 | t | = 0.633 No rechazo No rechazo No rechazo
H0 : β2 = 0 | t | = 3.066 Rechazo Rechazo No rechazo

Tal como puede verse en la tabla, la aceptación o rechazo de la hipótesis depende del
nivel de significancia escogido. En el caso del parámetro 𝛽1, para los tres niveles de
significancia se acepta (no se puede rechazar) la hipótesis nula de no significancia de
ese parámetro. Para el parámetro 𝛽2, se puede rechazar la hipótesis 𝛽2 = 0 con niveles
de significancia de 10% y 5%, pero no se puede rechazar al 1%.

Vale la pena cerrar esta sección con un pequeño comentario sobre la aceptación o
rechazo de una hipótesis. Definitivamente ambos aspectos de la prueba no son
“simétricos”, en el sentido que inclinarnos por uno u otro lado tiene diferentes
implicaciones sobre la evidencia que soporte la veracidad de una afirmación.
Recordemos que estamos usando la herramienta estadística de pruebas de hipótesis para
descartar o no teorías económicas. En ese contexto, la hipótesis nula 𝐻0 : 𝛽2 = 0 afirma
que 𝑋 no tiene relación con 𝑌, con lo cual 𝑋 no podría ser capaz de predecir a 𝑌 en

72
ningún momento ni lugar. Esta es una afirmación universal expresada en forma
negativa (“no hay efecto”) cuya veracidad es difícil de probar pues debería ser válida en
todo momento y lugar. No obstante, por lógica sabemos que basta con un contraejemplo
para derribar cualquier afirmación universal.6 La hipótesis alternativa es una afirmación
particular que niega la afirmación universal.

La inexactitud de los datos estadísticos añade un elemento interesante a la discusión. En


el momento que se rechaza la hipótesis nula 𝐻0 : 𝛽2 = 0, solo podemos decir que existe
alguna muestra, escenario, o base de datos en donde se ha encontrado evidencia
estadística que 𝛽2 ≠ 0, con los márgenes de error ya mencionados debido a la
aleatoriedad de las muestras. Cabe preguntarse si se obtendría el mismo resultado con
cualquier otra muestra. Si se obtienen otras muestras aleatorias de la misma población,
podríamos decir que casi siempre se obtendrá el mismo resultado.

¿Son los datos económicos muestras aleatorias de una población? ¿Sobre qué población
estamos aplicando la teoría económica que deseamos probar? Estas son dos preguntas
muy importantes que el econometrista debería responder en el momento de evaluar
hipótesis de estudio. Los datos económicos muchas veces no son muestras aleatorias,
por ello el investigador debe estar atento a que el resultado de la prueba pueda cambiar
respecto a otros estudios. Asimismo, debe quedar claro a qué población representan esos
datos. ¿Lo que se cumple para la región 𝐴 también se cumple para la región 𝐵? ¿Podría
hacer inferencia para la macro-región 𝐴 ∪ 𝐵? El hecho de haber rechazado la hipótesis
con una muestra particular no garantiza que suceda lo mismo con otras muestras, o en
otros escenarios, y por ello no deberíamos generalizar tan fácilmente la afirmación
particular 𝛽2 ≠ 0 a otros contextos. Se necesita información adicional para generalizar
los resultados.

En conclusión, rechazar la hipótesis nula nos da una conclusión más sólida que no
rechazarla, aunque surge la discusión sobre la generalización de los resultados. De ahí
nace el interés en ver si podemos rechazar la hipótesis, y es la razón por la que muchos
economistas prefieren decir que “no rechazan” la hipótesis en vez de “aceptarla” pues
esta última palabra puede significar que afirmemos que 𝛽2 = 0. En caso que no
logremos rechazar la hipótesis, eso no quiere decir necesariamente que la teoría

6
Por ejemplo, si la afirmación universal fuera: “no existe vida extraterrestre”, esta afirmación sería
rebatida contundentemente si se encontrara vida en algún lugar del cosmos. No obstante, no podemos
probar que no existe vida más allá de nuestro planeta.

73
propuesta sea incorrecta. Afirmar que 𝑋 no tiene efecto sobre 𝑌 a partir de una sola
muestra es una conclusión débil.

3.5 El p-value

En la tabla 3.2, se observa que la hipótesis 𝛽2 = 0 es rechazada al 5% pero no al 1%.


Cabría preguntarse si la hipótesis podría ser rechazada al 4% de significancia, o al 3% o
2%. De hecho será así pues ocurre que 𝑡1−0.04 (10) = 2.359, 𝑡1−0.03 (10) = 2.527,
2 2

y𝑡1−0.02 (10) = 2.764, el estadístico |𝑡| es mayor a todos esos valores. ¿Existirá algún
2

nivel de significancia entre 2% y 1% en el cual estemos indiferentes entre rechazar y no


rechazar la hipótesis propuesta?

Los programas estadísticos y econométricos suelen añadir en la tabla de estimación de


una regresión, un valor llamado “p-value”, “probabilidad” o “P > |𝑡|”. Este valor indica
el menor nivel de significancia con el cual podemos rechazar la hipótesis nula. En el
ejemplo que estamos desarrollando, podríamos encontrar este valor simplemente
repitiendo el test con valores de α entre 0.02 y 0.01, y buscando en qué momento
cambiamos de “rechazar” a “aceptar” la hipótesis. Tal inspección nos entrega el valor
0.012 ó 1.2%.

Los programas econométricos utilizan una fórmula exacta cuando se trata de la hipótesis
de significancia individual (𝐻0 : 𝛽𝑗 = 0), la cual es:

̂𝑗
𝛽 ̂𝑗
𝛽
P − 𝑣𝑎𝑙𝑢𝑒 = 2 × (1 − F (|| ||, 𝑛 − 𝑘)) = 2 × F (−|| ||, 𝑛 − 𝑘)
√𝑉𝑎𝑟 ̂𝑗 )
̂ (𝛽 ̂𝑗 )
̂ (𝛽
√𝑉𝑎𝑟

en donde F(. ) es la función de distribución acumulada de la t-Student, y k es igual a 2


en el modelo de dos variables. Utilizando MS Excel, el p-value puede calcularse con el
comando =DISTR.T(ABS(t), 𝑛 − 𝑘, 2), mientras que en Stata se obtiene manualmente
con el comando display 2*(1−t(𝑛 − 𝑘,abs(t))).

En términos gráficos, el p-value es igual al área sombreada de la figura 3.5 en la función


de densidad de la variable aleatoria t-Student.

74
Figura 3.5
El p-value

-|t| 0 |t|

En los ensayos e investigaciones académicas puede resultar confuso hablar de niveles de


significancia muy variados, como por ejemplo que algo sea significativo al 6.4%, o que
lo sea al 1.7%. Por ello, el uso estándar en la jerga econométrica sugiere hablar del nivel
de significancia de los parámetros en tres niveles: al 10%, 5% y 1%. La regla práctica
para clasificar el p-value en estas tres categorías es:

 Si p-value > 0.10, el parámetro no es significativo,

 Si 0.10  p-value > 0.05, el parámetro es significativo al 10%,

 Si 0.05  p-value > 0.01, el parámetro es significativo al 5%,

 Si p-value  0.01, el parámetro es significativo al 1%.

3.6 Interpretando los resultados de pruebas de hipótesis en STATA

Continuando con el ejemplo presentado en la sección 2.8, la tabla 3.3 reproduce los
mismos resultados de la tabla 2.3. En esta tabla podemos ver los resultados de las
pruebas de hipótesis sobre la significancia del coeficiente de la variable X. En dicha

75
tabla se obtiene que 𝛽̂2 es igual a 53.64 y su desviación estándar es 17.49, y con ello es
estadístico t es igual a 3.07. El valor crítico de la tabla t-Student con 10 grados de
libertad al 95% a dos colas es 2.23 (no mostrado en la tabla 3.3), con lo cual se rechaza
la hipótesis nula que tal coeficiente es igual a cero al 5% de significancia. El valor
crítico a 1% de significancia es 3.17, por lo que no se puede rechazar la hipótesis tal
como quedó establecido en la tabla 3.2. Otra forma de realizar esta prueba es
observando el intervalo de confianza, en donde se puede ver que el intervalo es [14.66,
92.62] no abarca al valor 0. Por último, el p-value de este coeficiente nos muestra un
valor de 0.012, lo que significa que se puede rechazar la hipótesis nula de no
significancia hasta el 1.2% de significancia.

Tabla 3.3
Tabla de resultados de Stata

Source SS df MS Number of obs = 12


F( 1, 10) = 9.40
Model 474581.87 1 474581.87 Prob > F = 0.0119
Residual 504737.797 10 50473.7797 R-squared = 0.4846
Adj R-squared = 0.4331
Total 979319.667 11 89029.0606 Root MSE = 224.66

y Coef. Std. Err. t P>|t| [95% Conf. Interval]

x 53.64426 17.49446 3.07 0.012 14.66417 92.62436


_cons 98.54219 155.5762 0.63 0.541 -248.1032 445.1875

La tabla 3.3 también muestra los valores del estadístico t y el p-value respectivo para el
intercepto. Con los valores calculados se tiene que 𝛽̂1= 98.54 y su desviación estándar
es 155.57. Dividiendo estos valores se obtiene al estadístico t, el cual es igual a 0.63 y
que coincide con los valores que se calcularon en la tabla 3.2. Con este valor tan bajo no
se puede rechazar la hipótesis de que tal parámetro es igual a cero, ni al 10%, 5% o 1%.
La tabla 3.3 nos dice que solo se podría rechazar la hipótesis con un 54.1% de
significancia (probabilidad de cometer el error tipo I), lo cual no es aceptable en los
estándares de la estadística ni de la econometría, por lo que finalmente se concluye en
no rechazar esa hipótesis.

Ejercicios

3.1. Se tiene el siguiente modelo Yi = β1 + β2 Xi + ui y dados los siguientes datos:

76
∑ Xi = 44 ∑ Yi = 76.3 ∑ Xi Yi = 427.55 ∑ X2i = 245.5 ∑ Y2i = 751.39

∑̂
Yi = 76.3 ∑ xi yi = 54.53 ∑ x2i = 30.39 ∑ y2i = 104.54 n = 9

Halle los intervalos de confianza para β1, β2 y σ2 al 95% de confianza. Contraste la


hipótesis β2 = 0.

3.2. Continuando con el ejercicio 12 del capítulo 2, pruebe la hipótesis que β2 = 0.

3.3. La siguiente tabla muestran información relacionada con la producción y el costo


total de producción de un bien en el corto plazo.

Producción 1 2 3 4 5 6 7 8 9 10
Costo total 193 226 240 244 257 260 274 297 350 420

Se desea estimar la función de costos Costoi = β1 + β2 Produccióni + ui .


a. Grafique el diagrama de dispersión de las observaciones de la tabla y estime
̂ i = β̂1 +
los parámetros del modelo por MCO. Calcule el costo estimado Costo
β̂2 Produccióni y grafíquelo junto con el gráfico de dispersión. ¿Considera usted
que el modelo se ajusta bien a los datos?
b. Obtenga los residuos y grafíquelos para cada nivel de producción.
c. Obtenga el estimador s 2 y las varianzas estimadas de β̂ 1 y β̂ 2 . Obtenga también
el R-cuadrado.
d. Construya un intervalo de confianza para la pendiente. Pruebe la hipótesis que
los parámetros son iguales a cero.
3.4. Se tiene el siguiente modelo Yi = β1 + β2 Xi + ui donde Y es la demanda de
alimentos y X es el ingreso disponible. Además, se sabe que:

∑ Xi Yi = 1973.67 ∑ Y2i = 1813.53 Y̅ = 8.765

∑ X i2 = 2165.18 ̅
X = 8.765 n = 20

a. Estimar los parámetros β1 y β2 por MCO. Interprete.


b. Hallar el R-cuadrado y estimar la varianza de u.
c. Calcular los intervalos de confianza al 95%.
d. Pruebe la hipótesis H0 : β2 = 0.

77
3.5. Dados los siguientes datos de un modelo bivariado,
X 3 5 6 4 2 7 8 9 10
Y 2 4 6 3 4 8 10 14 12
a. Encuentre la SCT, SCE, SCR y calcule el R-cuadrado
b. Encuentre la varianza de β̂ 1 y β̂ 2 .
c. Pruebe la hipótesis: H0 : β1 = 0 y construya un intervalo de confianza al 95%
para β1 y β2 .

78
Capítulo 4
El Modelo de Regresión Lineal con k Variables

En los tres capítulos anteriores se desarrolló la econometría del modelo clásico de dos
variables. No obstante, este modelo es muy simple y poco aplicable a la realidad, pues
en economía suele observarse relaciones entre más de dos variables. Así, en el ejemplo
de los años de educación y su relación con los salarios, es difícil sostener que estos
últimos dependen únicamente de cuanta educación tengan las personas. Existen estudios
que señalan que los salarios varían con la edad de las personas, a la par con el ciclo de
vida. En la juventud los salarios son bajos, aunque crecen año tras año, para luego de
llegar a un valor máximo con la madurez. También es conocido que los salarios pueden
variar con la experiencia de los trabajadores, en donde el mercado laboral premia a los
que han adquirido mayores conocimientos por la práctica. Asimismo, los salarios
responden a diferencias en el género y el origen étnico de los trabajadores, existiendo
investigaciones que señalan que existen evidencias de discriminación laboral. Es posible
también encontrar diferencias regionales en los salarios asociadas a diferentes niveles de
desarrollo de las regiones y a diferentes costos de vida. Por otro lado, se pueden
encontrar diferencias salariales relacionadas con el tipo de trabajo, en donde el trabajo
más riesgoso podría recibir algún pago adicional. De esta manera, estos y otros
determinantes de los salarios probarían que el modelo bivariado es una aproximación
muy incompleta del comportamiento de los salarios.

Ignorar a los demás determinantes de los salarios puede generar importantes sesgos en
la estimación de los parámetros por mínimos cuadrados ordinarios, tal como se
comprobará en este capítulo. Existirían también problemas para hacer predicciones
sobre el comportamiento futuro de la variable endógena del modelo, pues en un modelo
con un solo regresor, esta variable exógena solo explica una parte de la variabilidad de
la endógena.

Pero hacer el modelo de regresión lineal más completo con más variables acarrea
algunas dificultades de orden operativo y también econométrico. En primer lugar, ya no
puede encontrarse a los estimadores de los parámetros utilizando sumatorias como en el
capítulo 2. Con un modelo de tres variables explicativas (la constante, y dos exógenas
𝑋), el cálculo de los estimadores puede hacerse, pero con ciertas dificultades de orden

79
algebraico. Con más de tres variables explicativas, el cálculo manual utilizando
sumatorias es simplemente inmanejable.

Sin embargo, podemos tomar ventaja del algebra matricial para poder estimar un
modelo con k variables donde k es un número natural, y encontrar tanto teórica como
empíricamente a los estimadores del modelo. Es por esta razón que a partir de este
capítulo los desarrollos de ejercicios y demostraciones se apoyarán fuertemente en el
algebra matricial. El estudiante que desee repasar los conceptos mínimos de algebra
matricial para seguir la exposición puede revisar el apéndice respectivo en este libro o
consultar algún texto de matemáticas.

4.1 El modelo de regresión lineal clásico con k variables.

Como se mencionó en la presentación del capítulo, este modelo es una extensión natural
del modelo bivariado. La extensión de la ecuación (1.1) del capítulo 1 es la siguiente:

𝑌𝑖 = 𝛽1 + 𝛽2 𝑋2𝑖 + 𝛽3 𝑋3𝑖 + ⋯ + 𝛽𝑘 𝑋𝑘𝑖 + 𝑢𝑖 𝑖 = 1,2, … , 𝑛 (4.1)

En la ecuación (4.1) hay 𝑘 variables explicativas al lado derecho del signo igual. La
primera de ellas, 𝑋1 , no se muestra pues es igual a 1 para todo 𝑖 y lleva el nombre de
“constante”. Ella multiplica al parámetro 𝛽1 que es el “intercepto”. Las demás son 𝑘 − 1
variables explicativas propiamente dichas, desde 𝑋2 hasta 𝑋𝑘 , y cada una de ellas
multiplica a un parámetro poblacional 𝛽𝑗 , el cual es su respectivo coeficiente o
“pendiente”. El subíndice i resalta que la ecuación presentada expresa valores de estas
variables para cada individuo u observación 𝑖. El término de perturbación 𝑢𝑖 y la
variable endógena 𝑌𝑖 se definen exactamente igual que en el modelo de dos variables del
capítulo 1.

Vamos a presentar el modelo (4.1) en términos matriciales. Para ello usaremos a lo


largo de este libro la notación convencional, en donde los vectores son representados
por letras minúsculas y en negrita; las matrices rectangulares se representan con letras
mayúsculas y en negrita. Los elementos dentro de las matrices no se escriben en negrita.
Normalmente los parámetros son representados por letras del alfabeto griego y las
variables por letras del alfabeto romano.

80
Una primera forma de simplificar a (4.1) es definiendo el vector fila de observaciones
del individuo 𝑖 como 𝒙𝑖 = [1 𝑋2𝑖 ⋯ 𝑋𝑘𝑖 ] . Luego, (4.1) queda

𝛽1
𝛽2
𝑌𝑖 = 𝒙𝑖 𝜷 + 𝑢𝑖 𝑖 = 1, … , 𝑛 donde 𝜷 = [ ].

𝛽𝑘

Otra forma es apilar cada observación de la ecuación (4.1) verticalmente desde la


primera hasta la n-ésima. La expresión matricial es la siguiente:

𝑌1 1 𝑋21 𝑋31 … 𝑋𝑘1 𝛽1 𝑢1


𝑌2 1 𝑋22 𝑋32 … 𝑋𝑘2 𝛽2 𝑢2
[ ]=[ ][ ] + [ ⋮ ] (4.2)
⋮ ⋮ ⋮ ⋮ ⋱ ⋮ ⋮
𝑌𝑛 1 𝑋2𝑛 𝑋3𝑛 … 𝑋𝑘𝑛 𝛽𝑘 𝑢𝑛

La presencia de la “constante” que multiplica a 𝛽1 explica por qué en la primera


columna de la matriz rectangular del lado derecho de (4.2) sea una columna de unos.
Las demás columnas de esta matriz corresponden a las 𝑛 observaciones de cada una de
las variables explicativas. Esta es la presentación en forma extensiva del modelo, en
donde se hace explícita a cada una de las observaciones de la variable endógena y de
todas las exógenas, y los 𝑛 valores del término de perturbación.

La ecuación (4.2) se puede expresar en forma compacta usando letras que identifiquen a
los vectores y matrices.

𝒚 = 𝑿 𝜷 + 𝒖 (4.3)
𝑛×1 𝑛×𝑘 𝑘×1 𝑛×1

Los números debajo de las letras indican la dimensión de filas y columnas de los
vectores y matrices.

A continuación, vamos a rescribir los supuestos del modelo de regresión clásico, en su


versión multivariada y en notación matricial.

Supuesto 1: La relación entre la variable endógena 𝑌 y las variables exógenas es lineal


en parámetros, mostrándose esta relación en las ecuaciones (4.1) y (4.3).

En el caso matricial, la linealidad queda clara al post-multiplicar el vector 𝜷 a la matriz


𝑿. En otras palabras, la función de regresión problacional FRP es una forma lineal del
vector de parámetros: 𝑭𝑹𝑷 = 𝑿𝜷.

81
Supuesto 2: La esperanza condicional del término de perturbación es igual a cero dados
los valores de las variables exógenas.

𝐸 [𝑢1 |𝑿] 0
[
𝐸 𝑢2 |𝑿 ] 0
𝐸 [𝒖|𝑿] = [ ]=[ ]=𝟎 (4.4)
⋮ ⋮
𝐸[𝑢𝑛 |𝑿] 0

Este supuesto, también conocido como el de “exogeneidad estricta”, quiere decir que el
valor esperado de cada 𝑢𝑖 condicionado a todas las observaciones de 𝑿 es cero. Cabe
aclarar que no solo se condiciona a los valores de las exógenas de la i-ésima
observación 𝐱 𝑖 sino a todas las observaciones.1 Al igual que antes, se puede comprobar
que el cumplimiento de (4.4) implica que 𝐸 [𝒖] = 𝟎 y 𝐶𝑜𝑣[𝑿, 𝒖] = 𝟎.

De la misma manera que en el capítulo 1, este supuesto también equivale a decir que la
Función de Regresión Poblacional es igual a la esperanza condicional de 𝒚 dado 𝑿.

𝐸 [𝒚|𝑿] = 𝐸 [𝑿𝜷 + 𝒖|𝑿] = 𝑿𝜷 + 𝐸 [𝒖|𝑿] = 𝑿𝜷 = 𝑭𝑹𝑷


(4.5)

Supuesto 3: Las perturbaciones son “esféricas”. Se cumple que

𝑉𝑎𝑟(𝒖|𝑿) = 𝜎 2 𝑰 (4.6)

donde la matriz identidad en la expresión (4.6) es de dimensión n × n. Explicando un


poco más, la varianza condicional en (4.6) es la varianza de un vector columna 2, la cual
se define como

𝑉𝑎𝑟(𝒖|𝑿) = 𝐸 [(𝒖 − 𝐸 [𝒖|𝑿])(𝒖 − 𝐸 [𝒖|𝑿])′|𝑿]

Dado que 𝐸[𝒖|𝑿] = 𝟎, la varianza de 𝒖 se reduce a

1
El lector interesado en la distinción entre condicionar sobre 𝑿 y condicionar sobre 𝒙𝑖 puede darle
opcionalmente una mirada al apéndice del capítulo 1.
2
Para un vector aleatorio 𝒃, su varianza es 𝑉𝑎𝑟(𝒃) = 𝐸 [(𝒃 − 𝐸(𝒃))(𝒃 − 𝐸(𝒃))′].

82
𝑢12 𝑢1 𝑢2 … 𝑢1 𝑢𝑛
𝑉𝑎𝑟(𝒖|𝑿) = 𝐸 [𝒖𝒖′|𝑿] = 𝐸 𝑢1 𝑢2 𝑢22 … 𝑢2 𝑢𝑛 |𝑿
⋮ ⋮ ⋱ ⋮
[[𝑢1 𝑢𝑛 𝑢2 𝑢𝑛 … 𝑢𝑛2 ] ]
𝐸[𝑢12 |𝑿] 𝐸[𝑢1 𝑢2 |𝑿] … 𝐸 [𝑢1 𝑢𝑛 |𝑿]
[
= 𝐸 𝑢1 𝑢2 |𝑿
] 𝐸 [𝑢22 |𝑿] … 𝐸 [𝑢2 𝑢𝑛 |𝑿]
⋮ ⋮ ⋱ ⋮
[𝐸 [𝑢1 𝑢𝑛 |𝑿] 𝐸 [𝑢2 𝑢𝑛 |𝑿] … 𝐸 [𝑢𝑛2 |𝑿] ]

El producto 𝒖𝒖′ es el producto externo del vector columna 𝒖, y es una matriz cuadrada
de dimensión 𝑛 × 𝑛. Aplicando el valor esperado a cada una de las celdas obtenemos la
matriz de varianzas y covarianzas de 𝒖.

𝑉𝑎𝑟(𝑢12 |𝑿) 𝐶𝑜𝑣 (𝑢1 𝑢2 |𝑿) … 𝐶𝑜𝑣(𝑢1 𝑢𝑛 |𝑿)


(
𝑉𝑎𝑟(𝒖|𝑿) = 𝐶𝑜𝑣 𝑢2 𝑢1 |𝑿
) 𝑉𝑎𝑟(𝑢22 |𝑿) … 𝐶𝑜𝑣(𝑢2 𝑢𝑛 |𝑿) (4.7)
⋮ ⋮ ⋱ ⋮
[𝐶𝑜𝑣(𝑢𝑛 𝑢1 |𝑿) 𝐶𝑜𝑣(𝑢𝑛 𝑢2 |𝑿) … 𝑉𝑎𝑟(𝑢𝑛2 |𝑿) ]

El supuesto 3 afirma que los elementos de la diagonal principal de esta matriz (las
varianzas) son todas iguales a una constante σ2 (homocedasticidad), y que todas las
casillas fuera de la diagonal principal (las covarianzas) son iguales a cero (no
autocorrelación). Adicionalmente, obsérvese que la matriz de varianzas y covarianzas (a
veces llamada matriz var-cov) es simétrica. Con todo ello (4.7) se escribe como

𝜎2 0 … 0
𝑉𝑎𝑟(𝒖|𝑿) = [ 0 𝜎2 … 0 ] = 𝜎2𝑰
⋮ ⋮ ⋱ ⋮
0 0 … 𝜎2

Supuesto 4: Las variables exógenas son fijas en muestras repetidas.

Aunque este supuesto no es muy realista, simplifica notablemente el álgebra al ser


innecesario trabajar con esperanzas condicionales. Los supuestos 2 y 3 bajo este
supuesto toman la forma,

Supuesto 2.1. 𝐸 [𝒖] = 0

Supuesto 3.1. 𝐸 [𝒖𝒖′] = 𝑉𝑎𝑟(𝒖) = 𝜎 2 𝑰

83
Supuesto 5: Los términos de perturbación siguen una distribución normal multivariada
del tipo

𝒖~𝑁(𝟎, 𝜎 2 𝑰) (4.8)

Este supuesto es la versión matricial del supuesto 5 del modelo bivariado en el capítulo
3. Así los términos de perturbación siguen una distribución normal, tienen varianza
constante y las covarianzas entre estos términos son iguales a cero.

Supuesto 6: El número de observaciones es mayor al número de variables, 𝑛 > 𝑘, y el


rango de 𝑿 es igual a 𝑘.

Este supuesto afirma que las variables explicativas (las columnas de la matriz 𝑿) deben
ser linealmente independientes, lo que quiere decir que ninguna de las variables
exógenas puede ser una combinación lineal exacta de otra u otras variables explicativas.
En caso que hubiera dependencia lineal entre las variables, una de ellas estaría
brindando información redundante, es decir estaría repitiendo información que ya ha
sido contada en otras variables. Cuando esto ocurre surge el problema de la
multicolinealidad perfecta, que será analizado en el capítulo 6. En caso de no cumplirse
el supuesto 6 existirán problemas en el momento de la estimación de los parámetros.

El supuesto también dice que el número de observaciones debe ser mayor al número de
parámetros en el vector 𝜷. Si el número de observaciones fuera menor al número de
parámetros, 𝑛 < 𝑘, el rango de 𝑿 no podría ser nunca igual a 𝑘. Más adelante veremos
que en este caso la estimación se volvería imposible. Si 𝑛 = 𝑘, la estimación se vuelve
trivial. Para aclarar este punto, imagine un modelo bivariado con 𝑛 = 2. Al existir
solamente dos observaciones (dos puntos en el plano), la única recta estimada posible
será aquella que pase por los dos únicos puntos. Por esta razón es deseable que 𝑛 sea
mayor a 𝑘, y de preferencia mucho mayor que 𝑘. Así, con más observaciones se tendría
una mayor libertad para elegir valores estimados de los parámetros, y que se puedan
considerar como buenas aproximaciones de los verdaderos parámetros poblacionales.

4.2 Estimación del modelo por Mínimos Cuadrados Ordinarios

El procedimiento es similar al descrito en el capítulo 2. En esta sección seguiremos los


mismos pasos, donde la novedad estará en el trabajo con algebra matricial.

84
La función de regresión muestral en matrices es

𝒚 ̂
̂ = 𝑿𝜷 (4.9)

la cual no se puede graficar en dos dimensiones como una recta porque es


multidimensional. Sin embargo, la idea básica es la misma que la que se presentó en el
modelo bivariado, siendo esta expresión el pronóstico del modelo sobre los valores que
tomará la variable endógena dados los valores de las variables exógenas.

Definimos al vector de residuos como el vector 𝑛 × 1

̂ = 𝒚 − 𝑿 ̂
𝒆 = 𝒚 − 𝒚 𝜷 (4.10)
𝑛×1 𝑛×1 𝑛×1 𝑛×1 𝑛×𝑘𝑘×1

̂ , por lo que estos residuos se definen hipotéticamente y


Aun no tenemos estimaciones 𝜷
son básicamente la distancia en unidades de 𝑌 entre lo observado y lo pronosticado por
el modelo. Aplicando las propiedades del algebra de matrices, la Suma de Cuadrados de
los Residuos, SCR, es el producto interno del vector columna 𝒆, esto es 𝑆𝐶𝑅 = 𝒆′𝒆.
Remplazando (4.10) en esta expresión y operando el producto se tiene


̂ ) (𝒚 − 𝑿𝜷
𝑆𝐶𝑅 = (𝒚 − 𝑿𝜷 ̂ ) = 𝒚′ 𝒚 − 𝒚′𝑿𝜷
̂−𝜷
̂ ′ 𝑿′ 𝒚 + 𝜷
̂ ′𝑿′𝑿𝜷
̂

̂ y 𝜷
Nótese que 𝒚′ 𝑿𝜷 ̂ ′𝑿′𝒚 son expresiones de dimensión 1 1 , y al ser una la
transpuesta de la otra, son exactamente iguales. Por conveniencia, la suma de ambas
̂ . Luego
queda formulada como 2𝒚′ 𝑿𝜷

̂+𝜷
𝑆𝐶𝑅 = 𝒚′𝒚 − 2𝒚′𝑿𝜷 ̂ ′𝑿′𝑿𝜷
̂ (4.11)

̂.
El método consiste en minimizar esta suma de cuadrados respecto a los estimadores 𝜷
̂ , tal como
Normalmente, se debe derivar a la SCR por cada una de los k parámetros en 𝜷
se hizo en el modelo de dos variables. En esta ocasión, mediante matrices vamos a
realizar todas estas k derivaciones en un solo procedimiento. Derivamos (4.11) respecto
̂ ,3
al vector 𝜷

𝜕𝑆𝐶𝑅
̂= 𝟎
= −2𝑿′ 𝒚 + 2𝑿′𝑿𝜷 (4.12)
̂
𝜕𝜷 𝑘×1

3 ̂ , y una
Obsérvese que al hacer la derivación, la expresión matemática (4.11) tiene una parte lineal, 𝒚′ 𝑿𝜷
̂ . Según las reglas de derivación, la derivada de la forma lineal 𝒚 = 𝑨𝒙 es 𝜕𝒚 =
̂ ′ 𝑿′ 𝑿𝜷
forma cuadrática, 𝜷 𝜕𝒙
𝜕𝒛
𝑨′, mientras que la derivada de la forma cuadrática 𝒛 = 𝒙′𝑨𝒙 es 𝜕𝒙 = 2𝑨𝒙.

85
La ecuación (4.12) es una ecuación matricial que resume el hecho que la SCR debe ser
derivada por cada uno de los parámetros β. La expresión en forma extensiva es

𝜕𝑆𝐶𝑅
̂1
𝜕𝛽 0
𝜕𝑆𝐶𝑅
0
𝜕𝛽̂2 =[ ]
⋮ ⋮
𝜕𝑆𝐶𝑅 0
[ 𝜕𝛽̂
𝑘 ]

Es decir, en total tenemos k ecuaciones normales, que deben resolverse para los
parámetros 𝛽̂1 , 𝛽̂2 , … , 𝛽̂𝑘 . (4.12) no es otra cosa que una forma compacta de presentar a
estas ecuaciones, en donde el vector 𝟎 tiene dimensión 𝑘 × 1. De estas 𝑘 ecuaciones se
obtiene la solución de los 𝑘 estimadores de los parámetros. De (4.12), cancelando el
̂ = 𝑿′𝒚. Luego multiplicando a ambos lados por
número 2, y reordenando queda 𝑿′ 𝑿𝜷
(𝐗 ′ 𝐗)−1 queda

̂ = (𝑿′𝑿)−1 𝑿′𝒚
𝜷 (4.13)

La expresión (4.13) es una forma compacta de mostrar a los 𝑘 estimadores de mínimos


cuadrados ordinarios de los 𝑘 parámetros poblacionales 𝜷. A diferencia del
procedimiento seguido en el capítulo 2, en donde se calculaba uno por uno a los
estimadores 𝛽̂1 y 𝛽̂2 , en este caso todos los estimadores han sido calculados de una sola
vez mediante operaciones matriciales. El método matricial tiene muchas ventajas
respecto al procedimiento con sumatorias del capítulo 2, pues si quisiéramos calcular
los parámetros en un modelo con cuatro variables, el procedimiento con sumatorias
sería extremadamente largo y confuso. Con más variables es prácticamente imposible de
resolver manualmente. En cambio trabajando con matrices, se pueden obtener los
estimadores de muchos parámetros, en donde la única dificultad sería la obtención de la
matriz inversa (𝑿′𝑿)−1 . Sin embargo, las computadoras modernas pueden hacer estos
cálculos en fracciones de segundo, por lo que esta dificultad está superada. La obtención
de (4.13) requiere del supuesto 6, pues si no se cumpliera que el rango de la matriz 𝑿 es
igual a 𝑘, no existiría la inversa de la matriz 𝑿′ 𝑿.

Por último, la generalización del modelo estimado es la expresión

̂+𝒆
𝒚 = 𝑿𝜷 (4.14)

86
Ejemplo 4.1: Comprobaremos que la estimación matricial arroja los mismos resultados
que la estimación realizada en el capítulo 2 para el modelo con un solo regresor X, es
decir, el caso 𝑘 = 2.

La matriz de datos de las exógenas en el modelo bivariado sería una matriz que contiene
una columna de unos y a la columna de datos del único regresor. Ella, la
correspondiente matriz 𝑿′ 𝑿 y su inversa son,

1 𝑋1
1 𝑋2 𝑛 ∑ 𝑋𝑖 1 ∑ 𝑋𝑖2 − ∑ 𝑋𝑖
𝑿=[ ] 𝑿′ 𝑿 = [ ] (𝑿′𝑿)−1 = [ ]
⋮ ⋮ ∑ 𝑋𝑖 ∑ 𝑋𝑖2 ∆ − ∑ 𝑋𝑖 𝑛
1 𝑋𝑛

∆= 𝑛 ∑ 𝑋𝑖2 − (∑ 𝑋𝑖 )2 es el determinante de la matriz 𝑿′𝑿. Similarmente, la columna de


la endógena y la matriz 𝑿′𝒚 son

𝑌1
𝑌 ∑ 𝑌𝑖
𝒚 = [ 2] 𝑿′ 𝒚 = [ ]
⋮ ∑ 𝑋𝑖 𝑌𝑖
𝑌𝑛

Luego, el vector de estimadores es

∑ 𝑋𝑖2 ∑ 𝑌𝑖 −∑ 𝑋𝑖 ∑ 𝑋𝑖 𝑌𝑖

̂ = (𝑿′𝑿)−𝟏 𝑿′𝒚 = 1 [ ∑ 𝑋𝑖2 − ∑ 𝑋𝑖 ∑ 𝑌𝑖 𝑛 ∑ 𝑋𝑖2 −(∑ 𝑋𝑖 )2 𝛽̂


𝜷 ][ ]=[ ] = [ 1]
∆ −∑𝑋
𝑖 𝑛 ∑ 𝑋𝑖 𝑌𝑖 𝑛 ∑ 𝑋𝑖 𝑌𝑖 −∑ 𝑋𝑖 ∑ 𝑌𝑖 𝛽̂2
𝑛 ∑ 𝑋𝑖2 −(∑ 𝑋𝑖 )2

Estos son los mismos resultados que se obtuvieron en el capítulo 2, con la diferencia
que falta desarrollarlos matemáticamente. En el caso de 𝛽̂2 , basta con multiplicar por
(1/𝑛) en el numerador y el denominador para obtener el mismo resultado.

1
(𝑛 ∑ 𝑋𝑖 𝑌𝑖 − ∑ 𝑋𝑖 ∑ 𝑌𝑖 ) ∑ 𝑋𝑖 𝑌𝑖 − 𝑌̅ ∑ 𝑋𝑖
𝛽̂2 = 𝑛 =
1
𝑛
(𝑛 ∑ 𝑋𝑖2 −(∑ 𝑋𝑖 )2) ∑ 𝑋𝑖2 − 𝑋̅ ∑ 𝑋𝑖

En el caso de 𝛽̂1 se requiere mayor manipulación algebraica. Para comprobarlo, vamos a


manipular algebraicamente al determinante para expresarlo en términos de la variable
exógena en desviaciones respecto a su media.

∑ 𝑋𝑖 2
∆= 𝑛 ∑ 𝑋𝑖2 − 𝑛2 ( ) = 𝑛(∑ 𝑋𝑖2 − 𝑛𝑋̅ 2 ) = 𝑛 ∑ 𝑥𝑖2 .
𝑛

87
Luego, dado que ∑ 𝑥𝑖2 = ∑ 𝑋𝑖2 − 𝑛𝑋̅ 2 , y por lo tanto ∑ 𝑋𝑖2 = ∑ 𝑥𝑖2 + 𝑛𝑋̅ 2 , entonces 𝛽̂1
es

(∑ 𝑥𝑖2 + 𝑛𝑋̅ 2 ) ∑ 𝑌𝑖 − ∑ 𝑋𝑖 ∑ 𝑋𝑖 𝑌𝑖 ∑ 𝑥𝑖2 ∑ 𝑌𝑖 𝑛𝑋̅ 2 ∑ 𝑌𝑖 − ∑ 𝑋𝑖 ∑ 𝑋𝑖 𝑌𝑖


𝛽̂1 = = +
𝑛 ∑ 𝑥𝑖2 𝑛 ∑ 𝑥𝑖2 𝑛 ∑ 𝑥𝑖2

∑ 𝑋𝑖 ̅
∑ 𝑋𝑖 ∑ 𝑋𝑖 𝑌𝑖 − 𝑛 ( ) ∑
𝑛 𝑋 𝑌𝑖 ∑ 𝑋𝑖 (∑ 𝑋𝑖 𝑌𝑖 − 𝑋̅ ∑ 𝑌𝑖 )
= 𝑌̅ − = 𝑌̅ −
𝑛 ∑ 𝑥𝑖2 𝑛 ∑ 𝑥𝑖2

(∑ 𝑋𝑖 𝑌𝑖 − 𝑋̅ ∑ 𝑌𝑖 )
= 𝑌̅ − 𝑋̅ = 𝑌̅ − 𝛽̂2 𝑋̅
∑ 𝑋𝑖2 − 𝑛𝑋̅ 2

Con ello hemos comprobado que son las mismas fórmulas del capítulo 2.

4.3 Algunas propiedades matemáticas de la estimación MCO

En esta sección presentamos algunas características o propiedades numéricas de los


estimadores de mínimos cuadrados ordinarios. Estas propiedades se cumplen en forma
exacta pues son resultado del proceso de derivación de la sección 4.2, y en su mayoría
son generalizaciones matriciales de aquellas presentadas en el capítulo 2.

1. 𝑿 y 𝒆 son ortogonales

𝑿′ 𝒆 = 𝟎 (4.15)

La ortogonalidad del vector columna de residuos y cada una de las columnas de la


matriz 𝑿 se deduce directamente de las ecuaciones normales. De (4.12) obtenemos

̂=𝟎
𝑿′𝒚 − 𝑿′𝑿𝜷

̂ ) = 𝟎, lo que completa la
Tras factorizar 𝑿′ por la izquierda, se obtiene 𝑿′(𝒚 − 𝑿𝜷
prueba.

Este resultado incluye a aquel resultado del modelo bivariado que decía que la suma de
los residuos es igual a cero, ∑ 𝑒𝑖 = 0. Cuando en el modelo se incluye a un intercepto,
la primera columna de 𝑿 es la columna de unos. Luego en el producto (4.15) ocurre que

88
𝒊′ 𝒆 = 𝟎, donde 𝒊 es un vector columna de 𝑛 unos.4 Por el contrario, cuando el modelo
no incluye un intercepto, no existe la columna de unos en la matriz 𝑿. Luego, aunque
(4.15) seguirá siendo cierto, ya no será verdad que ∑ 𝑒𝑖 = 0.

2. ̂
𝑌̅ = 𝐱̅𝜷

̅ = [1
donde 𝒙 𝑋̅2 𝑋̅3 … 𝑋̅𝑘 ] es el vector fila de promedios de todas las exógenas.
Probaremos este resultado con el fin de afianzar el dominio del algebra matricial. Sea 𝒊
un vector columna de unos, a partir de la expresión (4.14), premultiplicando por 𝒊′ se
tiene

̂ + 𝒊′ 𝒆.
𝒊′ 𝒚 = 𝒊′ 𝑿𝜷

Al premultiplicar por 𝒊′ hemos conseguido sumar todos los elementos de las columnas.
El último término desaparece porque 𝒊′𝒆 = ∑ 𝑒𝑖 = 0. Dividiendo ambos lados de la
1 1
̂ , lo que es igual a 𝑌̅ =
ecuación entre 𝑛 se obtienen los promedio (𝑛) 𝒊′ 𝒚 = (𝑛) 𝒊′𝑿𝜷

̅𝜷
𝒙 ̂.

Este resultado es una generalización del resultado del capítulo 2 que afirmaba que la
recta estimada pasaba por el punto del promedio de la endógena y la exógena.

3. 𝑌̅ = 𝑌̅̂

En palabras, el promedio de la variable endógena es igual al promedio de la predicción


del modelo 𝒚 ̂ . De (4.14), multiplicamos todo por 𝒊′ quedando 𝒊′𝒚 = 𝒊′𝒚
̂ = 𝑿𝜷 ̂ + 𝒊′𝒆.
̂, que quiere decir que
Dado que el último término es igual a cero, solo queda 𝒊′𝒚 = 𝒊′𝒚
la sumatoria de los valores observados de la variable endógena son iguales a la
sumatoria de los valores pronosticados por la “recta estimada” de MCO. Dividiendo
ambos lados de esta ecuación entre el número de observaciones se completa la prueba.

4. La matriz generadora de residuos

Un resultado bastante útil es la aparición de una matriz capaz de generar residuos de una
estimación por mínimos cuadrados ordinarios. A partir de (4.9), remplazando el
resultado de la ecuación (4.12) en ella se obtiene

4
El lector puede comprobar esta propiedad en forma un poco más explícita transponiendo la matriz 𝑿 en
la ecuación (4.2) y multiplicándola por una columna de n residuos.

89
̂ = 𝒚 − 𝑿(𝑿′𝑿)−1 𝑿′𝒚 = [𝑰 − 𝑿(𝑿′𝑿)−1 𝑿′]𝒚 = 𝑴𝒚
𝒆 = 𝒚 − 𝑿𝜷 (4.16)

donde 𝑴 es una matriz 𝑛 × 𝑛 que tiene algunas propiedades que vale la pena resaltar.

• 𝑴 es simétrica: Se cumple que 𝑴′ = 𝑴

𝑴′ = [𝑰 − 𝑿(𝑿′𝑿)−1𝑿′]′ = 𝑰′ − (𝑿′)′ ((𝑿′𝑿)−1 )′𝑿′ = 𝑰 − 𝑿(𝑿′𝑿)−1𝑿′

• 𝑴 es idempotente: Se cumple que 𝑴𝑴 = 𝑴

𝑴𝑴 = [𝑰 − 𝑿(𝑿′𝑿)−1 𝑿′][𝑰 − 𝑿(𝑿′𝑿)−1 𝑿′]


= 𝑰 − 𝑿(𝑿′𝑿)−1𝑿′ − 𝑿(𝑿′𝑿)−1𝑿′ + 𝑿(𝑿′𝑿)−1 ⏟
𝑿′ 𝑿(𝑿′𝑿)−1 𝑿′
𝑰

= 𝑰 − 𝑿(𝑿′𝑿)−1𝑿′ = 𝑴

• 𝑴 es ortogonal a 𝑿: Se cumple que 𝑴𝑿 = 𝟎.

𝑴𝑿 = [𝑰 − 𝑿(𝑿′𝑿)−1𝑿′]𝑿 = 𝑿 − 𝑿 ⏟
(𝑿′ 𝑿)−1 𝑿′𝑿 = 𝑿 − 𝑿 = 𝟎
𝑰

• 𝑴 es generadora de residuos pues si premultiplicamos a un vector columna 𝒛


por esta matriz, el resultado, 𝑴𝒛 es el vector de residuos de la regresión MCO
de ese vector columna contra las variables explicativas 𝑿 que conforman a 𝑴.

• Si 𝑿 = 𝒊, la matriz 𝑴 genera desviaciones respecto a la media. Conviene llamar


a esta matriz 𝑨, que se define como
1
𝑨 = 𝑰 − 𝒊(𝒊′ 𝒊)−𝟏 𝒊′ = 𝑰 − 𝒊(𝑛)−𝟏 𝒊′ = 𝑰 − 𝒊𝒊′
𝑛

Si 𝑨 premultiplica a un vector columna 𝒚 se obtiene

𝑦1 − 𝑌̅
1 1 ̅
𝑨𝒚 = [𝑰 − 𝒊𝒊′ ] 𝒚 = 𝒚 − 𝒊𝒊′ 𝒚 = 𝒚 − 𝒊𝑌̅ = 𝑦2 − 𝑌
𝑛 𝑛 ⋮
[𝑦𝑛 − 𝑌̅ ]

• El rango de 𝑴 es igual a 𝑛 − 𝑘: Un teorema matemático afirma que el rango de


una matriz idempotente es igual a la traza de esa matriz. Aplicando la traza a 𝑴
y sus propiedades (ver anexo de algebra matricial),
tr(𝑴) = tr[𝑰 − 𝑿(𝑿′𝑿)−1 𝑿′] = tr(𝑰𝑛 ) − tr(𝑿(𝑿′𝑿)−1 𝑿′)
= 𝑛 − tr(𝑿′𝑿(𝑿′𝑿)−1 ) = 𝑛 − tr(𝑰𝑘 ) = 𝑛 − 𝑘

90
Este resultado nos indica que la matriz 𝑴 no tiene rango lleno pues su rango es
menor a su dimensión 𝑛 × 𝑛. Luego será cierto que el determinante de 𝑴 es
cero y que no tiene inversa.

5. La matriz de proyección

Reemplazando (4.13) en (4.9) se obtiene

̂ = 𝑿(𝑿′𝑿)−1 𝑿′𝒚 = 𝑷𝒚
𝒚

En esta expresión 𝑷 = 𝑿(𝑿′𝑿)−1𝑿′ = 𝑰 − 𝑴 es también una matriz simétrica e


idempotente, y se le conoce como la matriz de proyección. Ella genera los valores
estimados del modelo, cuando se regresiona por MCO a la endógena contra todas las
variables exógenas que están incluidas en la matriz 𝑿.

̂
4.4 Propiedades estadísticas del estimador de mínimos cuadrados ordinarios 𝜷

En esta sección nos concentraremos en ver dos propiedades importantes, la insesgadez


del estimador obtenido por mínimos cuadrados ordinarios y su eficiencia. Por eficiencia
nos referimos a la propiedad de tener la menor varianza posible en comparación con
otros estimadores similares.

En primer lugar, calcularemos la esperanza matemática del estimador de MCO. Previo a


este cálculo, a partir de la ecuación (4.12), remplazando 𝒚 por la definición del modelo
econométrico (4.3) se tiene

̂ = (𝑿′𝑿)−1 𝑿′𝒚 = (𝑿′ 𝑿)−1𝑿′(𝑿𝜷 + 𝒖) = (𝑿′𝑿)−1 𝑿′𝑿𝜷 + (𝑿′𝑿)−1 𝑿′𝒖


𝜷

̂ = 𝜷 + (𝑿′𝑿)−1 𝑿′𝒖.
𝜷 (4.17)

Esta ecuación puede considerarse como un análogo de la ecuación (2.10). Tomamos el


valor esperado a la expresión (4.17), dado que el vector 𝜷 contiene a números fijos (no
son variables aleatorias), este vector queda fuera del valor esperado. Adicionalmente,
bajo el supuesto que las variables en 𝑿 son fijas, ellas también quedarían fuera del valor
esperado. Luego, el valor esperado se aplica solamente al término de perturbación.

̂ ] = 𝐸 [𝜷 + (𝑿′𝑿)−1 𝑿′𝒖] = 𝜷 + (𝑿′𝑿)−1 𝑿′𝐸 [𝒖].


𝐸[𝜷

91
̂ ] = 𝜷, y por lo tanto los estimadores de
Dado que 𝐸[𝒖] = 𝟎, se demuestra que 𝐸[𝜷
mínimos cuadrados ordinarios son insesgados. Este resultado es una generalización del
que se obtuvo en el modelo de dos variables.

En segundo lugar, calculamos la varianza de los estimadores de mínimos cuadrados


ordinarios. Para ello trabajamos con las definiciones de matrices de varianzas y
covarianzas pues estamos hablando de la varianza de un vector de k parámetros. La
definición de esta matriz de varianzas y covarianzas es

̂ ] = 𝐸[(𝜷
𝑉𝑎𝑟[𝜷 ̂ − 𝐸[𝜷
̂ ])(𝜷
̂ − 𝐸[𝜷
̂ ])′]

̂ − 𝜷)(𝜷
= 𝐸[(𝜷 ̂ − 𝜷)′].

Utilizando a (4.17) y reemplazándola en la última expresión se tiene

̂ ] = 𝐸[(𝑿′ 𝑿)−1𝑿′𝒖𝒖′𝑿(𝑿′𝑿)−1 ] = (𝑿′𝑿)−1 𝑿′𝐸 [𝒖𝒖′]𝑿(𝑿′𝑿)−1


𝑉𝑎𝑟[𝜷

En la segunda parte de la línea anterior se ha tomado en cuenta que 𝑿 es fija. Dado que
𝑉𝑎𝑟(𝒖) = 𝐸[𝒖𝒖′] = 𝜎 2 𝑰 por el supuesto de perturbaciones esféricas, luego de cancelar
algunos términos se obtiene

̂ ] = 𝜎 2 (𝑿′𝑿)−1 .
𝑉𝑎𝑟[𝜷 (4.18)

Esta es la matriz de varianzas y covarianzas de los estimadores, de dimensión 𝑘 × 𝑘. En


su diagonal principal contiene a las varianzas de cada uno de los estimadores de los
parámetros y fuera de la diagonal se tiene a las respectivas covarianzas.

Ejemplo 4.2: Para comprobar que (4.18) es una generalización de lo que se desarrolló
en el capítulo 2, veamos paso a paso como se configuraría esta matriz de var-cov en el
caso 𝑘 = 2. En el ejemplo 4.1 se mostró que

1 ∑ 𝑋𝑖2 − ∑ 𝑋𝑖
(𝑿′𝑿)−1 = [ ] ∆= 𝑛 ∑ 𝑋𝑖2 − (∑ 𝑋𝑖 )2 = 𝑛 ∑ 𝑥𝑖2 .
∆ − ∑ 𝑋𝑖 𝑛

Luego,
∑ 𝑋𝑖2 ∑ 𝑋𝑖

𝑉𝑎𝑟(𝛽̂1 ) 𝐶𝑜𝑣(𝛽̂1 , 𝛽̂2 ) 𝑛 ∑ 𝑥𝑖2 𝑛 ∑ 𝑥𝑖2
̂) = [
𝑉𝑎𝑟(𝜷 ] = 𝜎2
𝐶𝑜𝑣(𝛽̂1 , 𝛽̂2 ) 𝑉𝑎𝑟(𝛽̂2 ) ∑ 𝑋𝑖 1

[ 𝑛 ∑ 𝑥𝑖2 ∑ 𝑥𝑖2 ]

92
Es evidente que la varianza de 𝛽̂2 es igual a la que se obtuvo en la ecuación (2.12) del
capítulo 2. En el caso de la varianza de 𝛽̂1 , tomando en cuenta que ∑ 𝑥𝑖2 = ∑ 𝑋𝑖2 − 𝑛𝑋̅ 2

𝜎 2 ∑ 𝑋𝑖2 𝜎 2 (∑ 𝑥𝑖2 + 𝑛𝑋̅ 2 ) 1 𝑋̅ 2


𝑉𝑎𝑟(𝛽̂1 ) = = = 𝜎 2
( + ).
𝑛 ∑ 𝑥𝑖2 𝑛 ∑ 𝑥𝑖2 𝑛 ∑ 𝑥𝑖2

También es igual a la que se obtuvo en la ecuación (2.13) del capítulo 2.

4.5 El estimador de 𝜎 2

En esta sección vamos a encontrar un estimador del parámetro σ2 , utilizando las


propiedades de las matrices. Partiendo de la expresión (4.3) y remplazándola en (4.16)
tenemos

𝒆 = 𝑴𝒚 = 𝑴(𝑿𝜷 + 𝒖) = 𝑴𝑿𝜷 + 𝑴𝒖 = 𝑴𝒖

pues 𝑴𝑿 = 𝟎. Luego la suma de cuadrados de los residuos es

𝒆′ 𝒆 = 𝒖′𝑴𝑴𝒖 = 𝒖′𝑴𝒖 = tr(𝒖′𝑴𝒖) = tr(𝒖𝒖′𝑴).

La penúltima igualdad de la expresión anterior se explica porque 𝒖′ 𝑴𝒖 es una matriz de


dimensión 1 × 1, y por ello trivialmente es igual a su traza. La última igualdad es una
aplicación de las propiedades de la traza5. Tomando el valor esperado tenemos,

𝐸 [𝒆′𝒆] = 𝐸 [tr(𝒖𝒖′𝑴)] = tr(𝐸 [𝒖𝒖′]𝑴) = tr(𝜎 2 𝑰𝑴)

en donde se observa que el valor esperado se introduce en el operador de la traza, pues


ella es simplemente una sumatoria. Adicionalmente se toma en cuenta que al ser la
matriz 𝑿 fija, 𝑴 también será fija. Por último, se toma en cuenta el supuesto de
perturbaciones esféricas 𝑉𝑎𝑟(𝒖) = 𝐸[𝒖𝒖′] = 𝜎 2 𝑰. Continuando con el desarrollo, y
según lo que se vio en la sección 4.3 sobre las propiedades de 𝑴,

𝐸 [𝒆′𝒆] = 𝜎 2 tr(𝑴) = 𝜎 2 . (𝑛 − 𝑘 )

Con base en este resultado definimos al estimador de la varianza del término de


perturbación, 𝜎 2 , como

5
Véase el apéndice de algebra matricial al final del libro.

93
𝑒′𝑒
𝑠2 = (4.19)
𝑛−𝑘

Este estimador es insesgado pues

𝒆′ 𝒆 𝐸 [𝒆′ 𝒆] 𝜎 2 . (𝑛 − 𝑘 )
𝐸 [𝑠 2 ] = 𝐸 [ ]= = = 𝜎2
𝑛−𝑘 𝑛−𝑘 𝑛−𝑘

Asimismo, en el Apéndice 4.2 se comprueba que la varianza de este estimador es

2𝜎 4
𝑉𝑎𝑟[𝑠 2 ] =
𝑛−𝑘

Un resultado de mucha utilidad que involucra al estimador 𝑠 2 es que dado el supuesto


de normalidad de los errores, será cierto que

(𝑛 − 𝑘)𝑠 2 2
2
~ 𝜒(𝑛−𝑘) (4.20)
𝜎

Este resultado se demuestra en el Apéndice 4.1.

Ejemplo 4.3: Consideremos los siguientes datos hipotéticos de un modelo de tres


variables, 𝑌𝑖 = 𝛽1 + 𝛽2 𝑋2𝑖 + 𝛽3 𝑋3𝑖 + 𝑢𝑖 ,

3 1 2 4
2 1 5 7
𝒚= 6 𝑿= 1 3 8.
4 1 2 3
[1] [1 6 2]

Se puede comprobar sin dificultad que las matrices 𝑿′𝑿 y 𝑿′ 𝒚 son

5 18 24 16
𝑿′𝑿 = [18 78 85 ] 𝑿′ 𝒚 = [48].
24 85 142 88

Utilizando algún software estadístico o matemático se puede encontrar que

2.18931211 −0.2933485 −0.1944287


(𝑿′𝑿)−1 = [−0.2933485 0.0761796 0.0039795 ].
−0.1944287 0.0039795 0.0375213

Realizando los productos matriciales se obtiene el vector de parámetros estimados

94
𝛽̂1 3.838544
̂ = [𝛽̂2 ] = (𝑿′𝑿)−1 𝑿′𝒚 = [−0.6866753]
𝜷
𝛽̂3 0.382035

Con estos valores calculamos a los valores ajustados de la variable endógena.

1 2 4 3.9932
1 5 7 3.838544 3.0790
𝒚 ̂
̂ = 𝑿𝜷 = 1 3 8 [−0.6866753] = 4.8346 .
1 2 3 0.382035 3.6111
[1 6 2] [0.4821]

El vector de residuos puede obtenerse mediante la ecuación (4.9),

3 3.9932 −0.9932
2 3.0790 −1.0790
̂ = 𝒚−𝒚
𝒆 = 𝒚 − 𝑿𝜷 ̂ = 6 − 4.8346 = 1.1654
4 3.6111 0.3889
[1] [0.4821] [ 0.5179 ]

Los residuos han sido redondeados a cuatro decimales. La suma de cuadrados de


residuos se consigue con el producto interno del vector de residuos 𝒆, siendo esta suma
igual a 𝒆′𝒆 = 3.9284. Con este valor, el estimador de 𝜎 2 es igual a

3.9284
𝑠2 = = 1.9642
5−3

̂ es igual a
Por último, la matriz de varianzas y covarianzas estimada de 𝜷

4.3002 −0.5762 −0.3819


𝑉𝑎𝑟 ̂ ] = 𝑠 2 (𝑿′𝑿)−1 = [−0.5762
̂ [𝜷 0.1496 0.0078 ]
−0.3819 0.0078 0.0737

4.6 El Teorema de Gauss – Markov

Este importante teorema señala que, bajo los supuestos del modelo clásico, el estimador
de mínimos cuadrados es el mejor estimador lineal e insesgado (MELI) dentro de la
clase de estimadores lineales e insesgados. Es decir, no hay otro estimador lineal
insesgado que tenga una menor varianza que el de mínimos cuadrados ordinarios.

En el capítulo 2 se demostró este teorema para el estimador de la pendiente β̂2. Se


̂ .6 Definimos otro
puede hacer esta demostración para el vector de parámetros 𝜷

6
Esta demostración ha sido tomada de Novales (1993), página 71.

95
̃=𝑨
estimador lineal de 𝜷, 𝜷 ̃ 𝒚 donde 𝑨
̃ es una matriz 𝑘 × 𝑛. Recordando que el
̂ = (𝑿′𝑿)−1 𝑿′𝒚, definamos una matriz de diferencia 𝑫 =
estimador de MCO es 𝜷
̃ −(𝑿′ 𝑿)−1 𝑿′. Entonces
𝑨

̃=𝑨
𝜷 ̃ 𝒚 = [𝑫 + (𝑿′𝑿)−1 𝑿′]𝒚 = [𝑫 + (𝑿′𝑿)−1 𝑿′](𝑿𝜷 + 𝒖)

= 𝑫𝑿𝜷 + (𝑿′𝑿)−1 𝑿′𝑿𝜷 + (𝑫 + (𝑿′𝑿)−1 𝑿′)𝒖 (4.21)

Tomamos esperanza a (4.21) y simplificando términos,

̃ ] = 𝑫𝑿𝜷 + 𝜷 + (𝑫 + (𝑿′𝑿)−1 𝑿′) 𝐸⏟


𝐸[𝜷 [𝒖] = 𝑫𝑿𝜷 + 𝜷
=0

̃ sea insesgado se debe cumplir que 𝑫𝑿 = 𝟎. Bajo esta condición, la ecuación


Para que 𝜷
(4.21) es

̃ = 𝜷 + (𝑫 + (𝑿′𝑿)−1 𝑿′)𝒖
𝜷 (4.22)

La matriz de varianzas y covarianzas del estimador insesgado propuesto es

̃ ] = 𝐸[(𝜷
𝑉𝑎𝑟[𝜷 ̃ − 𝜷)(𝜷
̃ − 𝜷)′]

Reemplazando (4.22) en la última expresión y aplicando el valor esperado se obtiene,

̃ ] = 𝐸 [(𝑫 + (𝑿′𝑿)−1 𝑿′)𝒖𝒖′(𝑫′ + 𝑿(𝑿′𝑿)−𝟏)]


𝑉𝑎𝑟[𝜷
= (𝑫 + (𝑿′𝑿)−1 𝑿′)𝐸[𝒖𝒖′](𝑫′ + 𝑿(𝑿′𝑿)−𝟏)

Bajo el supuesto de perturbaciones esféricas, 𝐸 [𝒖𝒖′] = 𝜎 2 𝑰, luego operando los


productos y dado que 𝑫𝑿 = 𝟎, se obtiene

̃ ] = 𝜎 2 𝑫𝑫′ + 𝜎 2 (𝑿′𝑿)−𝟏
𝑉𝑎𝑟[𝜷

̃ ] > 𝑉𝑎𝑟[𝜷
La matriz 𝑫𝑫′ es no negativa definida, entonces 𝑉𝑎𝑟[𝜷 ̂ ] quedando el

teorema demostrado.7

4.7 El modelo en desviaciones respecto a las media

7
Nota Matemática: Si 𝑨 es una matriz 𝑛 × 𝑘 con rango lleno y 𝑛 > 𝑘, entonces 𝑨′𝑨 es positiva definida
y 𝑨𝑨′ es definida no negativa.

96
Utilizando a la matriz 𝑨 que fue definida en la sección 4.3 plantearemos el estimador
MCO en desviaciones respecto a la media.

Multiplicando el modelo estimado (4.13) por 𝐀 se obtiene,

̂ + 𝑨𝒆
𝑨𝒚 = 𝑨𝑿𝜷

Particionamos a la matriz 𝑿 en su primera columna (columna de unos, 𝒊) y el resto de


las variables explicativas en una matriz llamada 𝑿2 , quedando

𝛽̂1
𝑨𝒚 = 𝑨[𝒊 ⋮ 𝑿2 ] [ ⋯ ] + 𝑨𝒆
𝜷̂2

̂ 2 es un vector 𝑘 − 1 × 1 de estimadores de las pendientes del


En la última expresión, 𝜷
modelo. Dado que 𝑨𝒆 = 𝒆 (pues el promedio de 𝒆 es igual a cero), y como 𝑨𝒊 = 𝟎
resulta

̂ 2 + 𝒆.
𝑨𝒚 = 𝑨𝑿2 𝜷 (4.23)

La expresión (4.23) es la generalización matricial de la ecuación (2.7) del capítulo 2. En


̂ 1.
ambas no aparece el estimador del intercepto 𝜷

De (4.23) se puede deducir que el estimador MCO de las pendientes es

̂ 2 = ((𝑨𝑿2)′𝑨𝑿2 )−1 (𝑨𝑿2)′𝑨𝒚


𝜷

= (𝑿′2 𝑨′𝑨𝑿2 )−1 𝑿′2𝑨′𝑨𝒚

= (𝑿′2 𝑨𝑿2 )−1 𝑿′2𝑨𝒚 (4.24)

Ejemplo 4.4: Mostraremos que (4.24) es equivalente al estimador de la pendiente del


capítulo 2. En este caso 𝑘 = 2,

1 𝑋1 𝑋1 − 𝑋̅ 𝑥1
1 𝑋2 ̅ 𝑥
𝑨𝑿𝟐 = 𝑋2 − 𝑋 = [ ⋮ ]
2
𝑿=[ ] 𝑿′2 𝑨𝑿2 = ∑ 𝑥𝑖2
⋮ ⋮ ⋮
1 𝑋𝑛 [𝑋𝑛 − 𝑋̅] 𝑥𝑛

𝑦1
𝑦
𝑿′2 𝑨𝒚 = 𝑿′2 𝑨′𝑨𝒚 = [𝑥1 𝑥2 ⋯ 𝑥𝑛 ] [ 2 ] = ∑ 𝑥𝑖 𝑦𝑖

𝑦𝑛

97
̂ 2 = (𝑿′2 𝑨𝑿2 )−1𝑿′2 𝑨𝒚 = (∑ 𝑥𝑖2 )−1 ∑ 𝑥𝑖 𝑦𝑖 = ∑ 𝑥𝑖 𝑦2 𝑖.
Luego, 𝜷 ∑𝑥 𝑖

Si estuviéramos en el caso 𝑘 = 3, el modelo en desviaciones sería 𝑦𝑖 = 𝛽̂2 𝑥2𝑖 +


𝛽̂3 𝑥3𝑖 + 𝑒. En matrices

𝑥21 𝑥31
𝑥22 𝑥32 ∑ 𝑥2𝑖 ∑ 𝑥2𝑖 𝑥3𝑖 ∑ 𝑥2𝑖 𝑦𝑖
𝑨𝑿𝟐 = [ ⋮ ⋮ ] 𝑿′2 𝑨𝑿2 = [ ] 𝑿′2 𝑨𝒚 = [ ]
∑ 𝑥2𝑖 𝑥3𝑖 ∑ 𝑥3𝑖 ∑ 𝑥3𝑖 𝑦𝑖
𝑥2𝑛 𝑥3𝑛

̂
̂ 2 = [𝛽2 ] = (𝑿′2 𝑨𝑿2 )−1 𝑿′2 𝑨𝒚 = [ ∑ 𝑥2𝑖 ∑ 𝑥2𝑖 𝑥3𝑖 −1 ∑ 𝑥2𝑖 𝑦𝑖
Entonces, 𝜷 ] [ ]
𝛽̂3 ∑ 𝑥2𝑖 𝑥3𝑖 ∑ 𝑥3𝑖 ∑ 𝑥3𝑖 𝑦𝑖

∑ 𝑥3𝑖 ∑ 𝑥2𝑖 𝑦𝑖 −∑ 𝑥2𝑖 𝑥3𝑖 ∑ 𝑥3𝑖 𝑦𝑖


1 ∑ 𝑥3𝑖 − ∑ 𝑥2𝑖 𝑥3𝑖 ∑ 𝑥2𝑖 𝑦𝑖 ∑ 𝑥 ∑ 𝑥 −(∑ 𝑥 𝑥 )2
= ∑ 𝑥 ∑ 𝑥 −(∑ 𝑥 𝑥 )2 [ ][ ] = [∑ 𝑥 ∑2𝑖𝑥 𝑦3𝑖−∑ 𝑥 𝑥2𝑖 3𝑖 ]
2𝑖 3𝑖 2𝑖 3𝑖 − ∑ 𝑥2𝑖 𝑥3𝑖 ∑ 𝑥2𝑖 ∑ 𝑥3𝑖 𝑦𝑖 2𝑖 3𝑖 𝑖 2𝑖 3𝑖 ∑ 𝑥2𝑖 𝑦𝑖
∑ 𝑥2𝑖 ∑ 𝑥3𝑖 −(∑ 𝑥2𝑖 𝑥3𝑖 )2

4.8 Error de especificación: Omisión de variables relevantes

Los importantes resultados de las estimaciones por mínimos cuadrados ordinarios


obtenidos en las secciones 4.4 y 4.6 se sustentan en el cumplimiento de los supuestos 1-
6 de la sección 4.1. No obstante, existe un supuesto implícito importante sin el cual ni la
insesgadez de los estimadores ni el teorema de Gauss-Markov se cumplirían. Este
supuesto tiene que ver con la correcta especificación del modelo. En un sentido amplio,
la especificación del modelo se refiere a varios aspectos de él, como que el modelo sea
realmente lineal en parámetros, a la apropiada distribución probabilística de las
variables aleatorias, o si las variables explicativas que están siendo consideradas en el
modelo son las correctas. En esta sección y en la siguiente nos concentramos en el
último caso mencionado pues es el problema más frecuente que enfrenta el
econometrísta aplicado que trabaja con modelos multivariados.

Empezaremos el desarrollo de esta sección con un ejemplo usando datos reales.

Ejemplo 4.5: Ahora veamos un ejemplo de una estimación en Stata con 𝑘 = 3


regresores usando datos reales. Continuando con el ejemplo 2.6 del capítulo 2, en el
modelo de determinantes de los salarios ahora agregamos la variable “tamaño de la
empresa”, medida como el número de trabajadores que laboran en la empresa del

98
trabajador 𝑖. Esta variable será tomada en logaritmos y se llama “lntamano”. En la tabla
4.1 se presenta la estimación para trabajadores dependientes de 14 a 65 años en zonas
urbanas del Perú, y con fines comparativos también se presenta la estimación de la
regresión sin el tamaño de la empresa (similar al ejemplo 2.6) pero considerando la
muestra de la regresión anterior. Ésta es un poco más pequeña pues el tamaño de la
empresa presenta 568 datos faltantes, lo que en términos prácticos reduce el tamaño de
la muestra.

Tabla 4.1a
Regresión de ln(salarios) contra los años de educación y ln(tamaño de la
empresa)

. reg lnsalario escolaridad lntamano

Source SS df MS Number of obs = 21,523


F(2, 21520) = 3292.64
Model 2594.99208 2 1297.49604 Prob > F = 0.0000
Residual 8480.15808 21,520 .39405939 R-squared = 0.2343
Adj R-squared = 0.2342
Total 11075.1502 21,522 .514596699 Root MSE = .62774

lnsalario Coef. Std. Err. t P>|t| [95% Conf. Interval]

escolaridad .0585036 .0012601 46.43 0.000 .0560337 .0609735


lntamano .0550953 .0014376 38.32 0.000 .0522775 .0579132
_cons .8246058 .0140975 58.49 0.000 .7969737 .8522378

Tabla 4.1b
Regresión de ln(salarios) solo contra los años de educación

. reg lnsalario escolaridad if e(sample)

Source SS df MS Number of obs = 21,523


F(1, 21521) = 4789.87
Model 2016.22117 1 2016.22117 Prob > F = 0.0000
Residual 9058.92899 21,521 .420934389 R-squared = 0.1820
Adj R-squared = 0.1820
Total 11075.1502 21,522 .514596699 Root MSE = .64879

lnsalario Coef. Std. Err. t P>|t| [95% Conf. Interval]

escolaridad .0803676 .0011612 69.21 0.000 .0780915 .0826437


_cons .8129071 .0145669 55.81 0.000 .784355 .8414592

Nota: La opción “if e(sample)” señala que la estimación tomará en cuenta solamente a las
observaciones de la regresión anterior, es decir de la tabla 4.1a.

99
Comparando ambos resultados vemos que el retorno a la educación se reduce de
8.036% a 5.850% cuando se controla por el tamaño de la empresa. Cabe preguntarse si
el retorno calculado en la tabla 4.1b está sobreestimado. Si existiera una fuerte relación
entre el tamaño de la empresa y los años de educación de los trabajadores, es posible
que el efecto de la educación (8.036%) en la tabla 4.1b también esté incorporando cierto
efecto del tamaño de la empresa.

En el Perú muchas micro empresas y empresas unipersonales son conducidas por


personas de nivel educativo mediano a bajo, mientras que las empresas grandes suelen
contratar a personal más calificado. La Figura 4.1 muestra los conocidos “gráficos de
caja” o “graph box”, en donde la línea blanca dentro de la caja negra señala la mediana
de los años de escolaridad según diferentes tamaños de empresa. La parte superior e
inferior de la caja sombreada señala los percentiles 75 y 25 de la escolaridad. Según el
gráfico es evidente que existe una relación positiva entre estas dos variables. Esto nos
lleva a concluir que el efecto calculado de 8.04% de la tabla 4.1b no solo incorpora el
efecto de la educación sobre los salarios sino que también incluye algo del efecto del
tamaño de la empresa sobre los salarios, a través de la variable escolaridad.

Figura 4.1
Gráficos de Caja de la escolaridad y el tamaño de la empresa
20
15
escolaridad

10
5
0

hasta 20 personas de 21 a 50 personas de 51 a 100 personas de 101 a 500 personas más de 500 personas

100
En el ejemplo que acabamos de mostrar, parece que la omisión de la variable “tamaño
de la empresa” (medida como el número de trabajadores) tiene consecuencias
importantes en la estimación de la relación entre la educación y los salarios. Al parecer,
si omitimos a esa variable estaríamos en un caso de “omisión de variables relevantes”.

En el trabajo de modelos con muchas variables, el econometrista suele omitir variables


importantes de la regresión. Usualmente esto ocurre debido a que:

- No existe información sobre algunas variables o no está disponible.

- Por error o un manejo inadecuado de las teorías económicas, el econometrista no


incluye variables que son importantes.

En cualquiera de los dos casos, la omisión de variables relevantes puede tener


consecuencias negativas sobre el trabajo econométrico pues provoca en la mayoría de
los casos un sesgo en las estimaciones.

Antes de pasar al desarrollo formal, vale la pena indicar que decimos que una variable
exógena es relevante cuando tiene un efecto causal sobre la variable endógena. En ese
caso, el correspondiente parámetro poblacional 𝛽 debería ser un valor distinto de cero.
En economía se exige además que sea lo suficientemente grande en magnitud para que
se le considere alguna significancia económica. Esto último es ambiguo y puede llevar a
controversia acerca de qué tan grande debería ser un parámetro para considerarlo como
relevante, o que tan cercano a cero podría ser para considerarlo irrelevante. Sabemos
que las unidades de medida de las variables exógenas podrían influir en la magnitud de
𝛽, pero en ocasiones, algunas variables omitidas ni siquiera tienen unidades de medida
(por ejemplo, las preferencias). Por ello solo la experiencia del investigador en el tema
le podría dar algunas luces para discernir a priori entre una variable que es realmente
relevante y otra que no lo es.

Pasando al desarrollo formal, consideremos un modelo con 𝑘 variables explicativas (una


de ellas es constante), todas ellas relevantes, en donde solo algunas de ellas han sido
incluidas en el momento de realizar las estimaciones. Llamamos 𝑿1 a la matriz que
contiene a las 𝑘1 variables incluidas y 𝑿2 a las 𝑘2 variables que son excluidas, donde
𝑘1 + 𝑘2 = 𝑘. Podemos presentar al modelo en forma particionada de la siguiente
manera,

101
𝜷1
𝒚 = 𝑿𝜷 + 𝒖 = [𝑿1 ⋮ 𝑿2 ] [ ⋯ ] + 𝒖
𝜷2

𝒚 = 𝑿1 𝜷1 + 𝑿2 𝜷2 + 𝒖 (4.25)

Se puede ver en (4.25) que la matriz 𝑿 ha sido partida en dos submatrices, y lo mismo
ha ocurrido con el vector de parámetros 𝜷, el cual ha sido partido en dos vectores
columna, 𝜷1 y 𝜷2 , que están apilados. El producto de las matrices particionadas8 es
similar al producto de vectores y matrices.

El modelo (4.25) es el modelo completo o correcto. Si se omite el grupo de variables


𝑿2 , entonces estaríamos trabajando con el modelo incorrecto

𝒚 = 𝑿1 𝜷1 + 𝒗 (4.26)

En (4.26), 𝒗 = 𝑿2 𝜷2 + 𝒖 pues todo lo omitido siempre recaerá en el error, y 𝐸 [𝒗] =


𝑿2 𝜷2. Dado que las variables omitidas son relevantes, 𝜷2 ≠ 𝟎, y entonces nada
garantiza que el valor esperado de 𝐯 sea igual a cero.

La estimación MCO de 𝜷1 del modelo (4.26) es

̂ 1 = (𝑿1′𝑿1)−𝟏 𝑿1′𝒚
𝜷

Nuestra tarea es probar que este vector de estimadores es sesgado. En primer lugar,
remplazamos (4.25) en esta última expresión y tenemos

̂ 1 = (𝑿1 ′𝑿1)−𝟏 𝑿1′(𝑿1 𝜷1 + 𝑿2 𝜷2 + 𝒖)


𝜷

= 𝜷1 + (𝑿1 ′𝑿1 )−𝟏 𝑿1 ′𝑿2 𝜷2 + (𝑿1′𝑿1)−𝟏 𝑿1′𝒖 (4.27)

Tomando el valor esperado a (4.27), y bajo los supuestos del modelo clásico tenemos
que

̂ 1 ] = 𝜷1 + (𝑿1 ′𝑿1)−𝟏 𝑿1′𝑿2 𝜷2 .


𝐸[𝜷 (4.28)

Se observa en (4.28) que existe un sesgo igual a (𝑿1′𝑿1)−𝟏 𝑿1′𝑿2𝜷2 . Este sesgo
desaparece si 𝑿1 ′𝑿2 = 𝟎 o si 𝜷2 = 𝟎. En el primer caso, cada una de las variables
omitidas es ortogonal a cada una de las variables incluidas, algo poco frecuente pero no

8
Ver el apéndice sobre algebra de matrices.

102
imposible. En el segundo caso, no habría sesgo si las variables omitidas fueran
irrelevantes, y con ello se cumplirían los resultados de las secciones anteriores. Si 𝜷2 no
es igual a cero pero es muy pequeño, el sesgo sería también pequeño.

La ecuación (4.28) nos ayuda a entender el ejemplo 4.3. Si se omite al tamaño de la


empresa (tabla 4.1b), la estimación del retorno a la educación se encuentra sesgada
hacia arriba pues el tamaño de la empresa es una variable relevante (con 𝛽 positivo) y
que tiene una relación positiva con la escolaridad.

Ejemplo 4.6: En el ejemplo 4.5 se pudo evitar el sesgo por omisión de variables
simplemente añadiendo a la variable relevante. No obstante, en ocasiones la variable
omitida no puede ser añadida porque no existe en nuestra base de datos. Imaginemos
que los salarios dependen de la educación y de la “habilidad” de las personas. Esta
última variable puede ser tomada en un sentido muy amplio, y puede significar muchas
cosas como por ejemplo el coeficiente intelectual de una persona, sus habilidades
sociales, algunos rasgos positivos o negativos de su personalidad, etc. Luego, un
modelo más completo que el del Ejemplo 1.1 podría ser el siguiente.

ln(𝑊𝑖 ) = 𝛽1 + 𝛽2 𝐸𝑑𝑢𝑐𝑎𝑐𝑖ó𝑛𝑖 + 𝛽3 𝐻𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑𝑖 + 𝑢𝑖

En este modelo, la variable “Habilidad” es una variable relevante para el estudio


siempre y cuando 𝛽3 sea distinto de cero. Sin embargo, no es observable por el
investigador, y en general será excluida de la regresión. 9

4.9 Error de especificación: Inclusión de Variables Irrelevantes

Hemos visto que omitir variables relevantes puede generar sesgos en las estimaciones.
Cabe preguntarse por el caso contrario, ¿qué ocurrirá si se incluyen variables
irrelevantes en el modelo? Supongamos que por error el econometrista incluye variables
que no tienen un efecto causal sobre la variable endógena en el modelo. Así, si el

9
En el capítulo 10 se discutirá qué ocurre cuando una variable no observable es reemplazada por una
variable muy similar o aproximada, pero que no es la auténtica variable.

103
modelo correcto es 𝒚 = 𝑿𝜷 + 𝒖, el investigador propone el siguiente modelo
incorrecto.

𝒚 = 𝑿𝜷 + 𝑿3 𝜷3 + 𝒗 (4.29)

La matriz 𝑿3 contiene a variables que son innecesarias, y donde 𝜷3 ≈ 𝟎. Vamos a


estudiar el efecto que tiene la inclusión de estas nuevas variables sobre las propiedades
de los estimadores de 𝜷, que son nuestros parámetros de interés. Agrupando a (4.29)
resulta 𝜷

𝜷
𝒚 = [𝑿 ⋮ 𝑿3 ] [ ⋯ ] + 𝒗
𝜷3

Si llamamos 𝑿∗ = [𝑿 ⋮ 𝑿3 ] y 𝜷∗′ = [𝜷′ ⋮ 𝜷′3 ], la ecuación (4.29) se puede


escribir como 𝒚 = 𝑿∗ 𝜷∗ + 𝒗. Las ecuaciones normales de la estimación MCO son

̃ ∗ = 𝑿∗ ′𝒚
(𝑿∗ ′𝑿∗)𝜷

̃ ∗′ = [𝜷
Donde 𝜷 ̃′ ⋮ ̃ ′3 ]
𝜷 son los estimadores de los parámetros en el modelo
incorrecto. Reemplazando las matrices con (*) por sus expresiones, la última ecuación
se puede escribir como

𝑿′ ̃
𝜷 𝑿′
([ ⋯ ] [𝑿 ⋮ 𝑿3 ]) [ ⋯ ] = [ ⋯ ] 𝒚
𝑿′3 ̃3
𝜷 𝑿′3

𝑿′𝑿 ⋮ 𝑿′𝑿3 𝜷 ̃ 𝑿′
[⋯ ⋯ ⋯ ⋯⋯ ][⋯] = [⋯]𝒚
𝑿′3 𝑿 ⋮ 𝑿′3 𝑿3 𝜷
̃3 𝑿′3

que se puede mostrar como dos ecuaciones matriciales

̃ + (𝑿′𝑿3)𝜷
(𝑿′𝑿)𝜷 ̃ 3 = 𝑿′𝒚

̃ + (𝑿′3 𝑿3 )𝜷
(𝑿′3 𝑿)𝜷 ̃ 3 = 𝑿′3 𝒚

Resolviendo estas dos ecuaciones con algebra matricial (ver el Apéndice 4.3) se obtiene
el estimador de los parámetros de las variables de interés 𝐗 (las variables relevantes).

̃ = (𝑿′𝑴3 𝑿)−1 𝑿′𝑴3 𝒚


𝜷 (4.30)

104
donde 𝑴3 = 𝑰 − 𝑿3 (𝑿′3 𝑿3 )−1𝑿′3 es la matriz generadora de residuos. De forma análoga
se puede deducir que el estimador de las pendientes de las variables irrelevantes es
̃ 3 = (𝑿′3 𝑴𝑿3)−1 𝑿′3 𝑴𝒚 donde 𝑴 = 𝑰 − 𝑿(𝑿′𝑿)−𝟏 𝑿′.
𝜷

̃ es un estimador insesgado de 𝜷 con la inclusión de las variables


Nos interesa ver si 𝜷
irrelevantes. Reemplazando el modelo correcto en (4.27)

̃ = (𝑿′ 𝑴3 𝑿)−1𝑿′𝑴3 (𝑿𝜷 + 𝒖) = 𝜷 + (𝑿′𝑴3 𝑿)−1 𝑿′𝑴3 𝒖


𝜷

̃ es insesgado dados los supuestos del


Tomando el valor esperado, se comprueba que 𝜷
modelo,

̃ ] = 𝜷 + (𝑿′ 𝑴3 𝑿)−1𝑿′𝑴3 𝐸 [𝒖] = 𝜷


𝐸[𝜷

Es decir, cuando se agregan variables innecesarias al modelo, esto no produce ningún


sesgo en las estimaciones. No obstante, vamos a mostrar que esta inclusión sí
incrementa la varianza de los estimadores. Definiendo la matriz de varianzas y
̃,
covarianzas de 𝜷

̃ ] = 𝐸[(𝜷
𝑉𝑎𝑟[𝜷 ̃ − 𝐸[𝜷
̃ ])(𝜷
̃ − 𝐸[𝜷
̃ ])′] = 𝐸 [(𝑿′𝑴3 𝑿)−1 𝑿′𝑴3 𝒖𝒖′𝑴′𝟑𝑿(𝑿′𝑴3 𝑿)−1]

= (𝑿′𝑴3 𝑿)−1 𝑿′𝑴3 𝐸[𝒖𝒖′]𝑴′𝟑𝑿(𝑿′𝑴3 𝑿)−1

Como 𝐸 [𝒖𝒖′] = 𝜎 2 𝑰 y 𝑴3 es simétrica e idempotente, la matriz de varianzas y


covarianzas resulta en

̃ ] = 𝜎 2 (𝑿′𝑴3 𝑿)−1
𝑉𝑎𝑟[𝜷 (4.31)

̂=
Comparando estos resultados con el estimador MCO del modelo correcto 𝜷
̂ ] = 𝜎 2 (𝑿′𝑿)−1 , esta última varianza es
(𝑿′𝑿)−1 𝑿′𝒚, donde su varianza es 𝑉𝑎𝑟[𝜷
menor que la varianza en (4.28)10.

̂ ] < 𝑉𝑎𝑟[𝜷
𝑉𝑎𝑟[𝜷 ̃]

Como conclusión, incluir variables irrelevantes no sesga la estimación de 𝜷 pero sí


incrementa la varianza de las estimaciones.

10
En el Apéndice 4.4 se puede encontrar esta demostración.

105
Ejemplo 4.7: Agregamos dos variables irrelevantes al modelo. Una de ellas es el mes
en que se efectuó la encuesta, el cual no se relaciona con los salarios. La otra variables
es el número de conglomerado o cluster, el cual solo es un código geográfico no
relacionado con los salarios. En la tabla 4.2 se presenta la estimación por MCO.
Comparando estos resultados con aquellos de la tabla 4.1a, podemos ver que las
estimaciones de las variables 𝑒𝑠𝑐𝑜𝑙𝑎𝑟𝑖𝑑𝑎𝑑 y 𝑙𝑛𝑡𝑎𝑚𝑎𝑛𝑜 son prácticamente las mismas
en ambas tablas, sin embargo se observan mayores desviaciones estándar de estas
estimaciones en la tabla 4.2.

Tabla N° 4.2
Estimación con la inclusión de variables irrelevantes

. reg lnsalario escolaridad lntamano mes conglomerado

Source SS df MS Number of obs = 21,523


F(4, 21518) = 1646.18
Model 2595.00946 4 648.752364 Prob > F = 0.0000
Residual 8480.14071 21,518 .394095209 R-squared = 0.2343
Adj R-squared = 0.2342
Total 11075.1502 21,522 .514596699 Root MSE = .62777

lnsalario Coef. Std. Err. t P>|t| [95% Conf. Interval]

escolaridad .0585098 .0012635 46.31 0.000 .0560332 .0609864


lntamano .0550931 .0014378 38.32 0.000 .0522748 .0579113
mes .0002168 .0012814 0.17 0.866 -.0022949 .0027285
conglomerado -2.63e-07 2.20e-06 -0.12 0.905 -4.57e-06 4.04e-06
_cons .8251529 .0247227 33.38 0.000 .7766946 .8736112

4.10 El teorema de Frisch-Waugh

Cuando comparamos los resultados de las tablas 4.1a y 4.1b, dijimos que en la segunda
estimación la relación entre los salarios y la educación estaba sobreestimada debido a la
influencia (no incluida) del tamaño de la empresa sobre ambas variables. Un diagrama
que pueda reflejar estas relaciones es el 4.2, en donde las flechas señalan posibles
relaciones causales. A mayor nivel educativo, el mercado pagará mejores salarios. Si el
tamaño de la empresa es más grande, el stock de capital será mayor lo que eleva la
productividad marginal del trabajo y consecuentemente se elevan los salarios. Por
último, en cuanto a la relación entre la educación y el tamaño de las empresas, es
posible que las personas se eduquen según los requerimientos de la estructura de
empresas en el país (la educación depende del tamaño de la empresa), como que las

106
empresas se adapten al nivel educativo encontrado en la población (tamaño de la
empresa en función de la educación). De esta relación bidireccional se observará que las
empresas más grandes contratarán trabajadores de mayor calificación, mientras que las
pequeñas preferirán mano de obra poco calificada.

Figura 4.2
Relación entre los salarios, la escolaridad y el tamaño de la empresa

Escolaridad Salarios

Tamaño de la
empresa

Intuitivamente, si deseamos estudiar el impacto “puro” de la educación sobre los


salarios se debería limpiar el efecto del tamaño de la empresa. Para ello, vamos a seguir
un procedimiento en tres etapas:

(a) Regresionamos a la escolaridad contra el tamaño de la empresa y calculamos los


residuos de esta relación. Estos residuos son aquella parte de la escolaridad que
no es explicada por el tamaño de la empresa.
𝐸𝑠𝑐𝑜𝑙𝑎𝑟𝑖𝑑𝑎𝑑𝑖 = 𝛼1 + 𝛼2 ln(𝑇𝑎𝑚𝑎ñ𝑜𝑖 ) + 𝜀𝑖
Los residuos estimados son:
𝑒𝑖𝑒𝑠𝑐𝑜𝑙𝑎𝑟𝑖𝑑𝑎𝑑 = 𝐸𝑠𝑐𝑜𝑙𝑎𝑟𝑖𝑑𝑎𝑑𝑖 − 𝛼̂1 − 𝛼̂2 ln(𝑇𝑎𝑚𝑎ñ𝑜𝑖 )

(b) Regresionamos al logaritmo de los salarios contra el tamaño de la empresa y


también calculamos los residuos de esta relación. De esta manera se obtiene la
variabilidad de los salarios sin influencia del tamaño de la empresa.
ln(𝑆𝑎𝑙𝑎𝑟𝑖𝑜𝑖 ) = 𝛾1 + 𝛾2 ln(𝑇𝑎𝑚𝑎ñ𝑜𝑖 ) + 𝑣𝑖
Los residuos son:
𝑒𝑖𝑠𝑎𝑙𝑎𝑟𝑖𝑜 = ln(𝑠𝑎𝑙𝑎𝑟𝑖𝑜𝑖 ) − 𝛾̂1 − 𝛾̂2 ln(𝑇𝑎𝑚𝑎ñ𝑜𝑖 )

107
(c) Regresionamos a los residuos de los salarios contra los residuos de la
escolaridad en un modelo sin intercepto11.

𝑒𝑖𝑠𝑎𝑙𝑎𝑟𝑖𝑜 = 𝛽𝑒𝑖𝑒𝑠𝑐𝑜𝑙𝑎𝑟𝑖𝑑𝑎𝑑 + 𝜉𝑖

El teorema de Frisch-Waugh afirma que el estimador 𝛽̂ en el paso (c) es exactamente el


mismo que el estimador de la pendiente de la escolaridad obtenido por MCO del modelo

ln(𝑆𝑎𝑙𝑎𝑟𝑖𝑜𝑖 ) = 𝛽1 + 𝛽1 𝐸𝑠𝑐𝑜𝑙𝑎𝑟𝑖𝑑𝑎𝑑𝑖 + 𝛽2 ln(𝑇𝑎𝑚𝑎ñ𝑜𝑖 ) + 𝑢𝑖

En otras palabras, incorporar a ln(𝑇𝑎𝑚𝑎ñ𝑜) como un regresor equivale a “limpiar” el


efecto de ln(𝑇𝑎𝑚𝑎ñ𝑜) de las demás variables del modelo.

Ejemplo 4.8: Comprobaremos el teorema de Frisch-Waugh utilizando los datos del


ejemplo 4.5. En las estimaciones debemos tener cuidado de que el número de
observaciones sea el mismo en todas ellas. Podemos apreciar en la tabla 4.3 que la
relación entre la escolaridad y el tamaño de la empresa medido como el número de
trabajadores es positiva y significativa. Lo mismo se observa en la tabla 4.4 con la
relación entre los salarios y el tamaño de la empresa. Finalmente en la tabla 4.5 se
obtiene el efecto neto de la escolaridad sobre los salarios. Este efecto es exactamente el
mismo que se obtuvo en la tabla 4.1a. La conclusión de este ejercicio es que añadir a la
variable ln(𝑡𝑎𝑚𝑎ñ𝑜) en el modelo ha permitido controlar el efecto de esta variable
sobre la escolaridad y los salarios (nuestras variables de interés). En ese sentido, el
tamaño de la empresa es una variable de control o covariable en el modelo.

11
La regresión se hace sin intercepto pues se sabe que 𝑒 𝑠𝑎𝑙𝑎𝑟𝑖𝑜 y 𝑒 𝑒𝑠𝑐𝑜𝑙𝑎𝑟𝑖𝑑𝑎𝑑 son residuos cuyo promedio
es exactamente cero. Como la recta estimada pasa por el punto correspondiente a los promedios de la
endógena y la exógena, la recta estimada necesariamente pasará por el origen (0,0).

108
Tabla 4.3
Regresión entre la escolaridad y el tamaño de la empresa
. reg escolaridad lntamano

Source SS df MS Number of obs = 21,523


F(1, 21521) = 5548.73
Model 63986.0288 1 63986.0288 Prob > F = 0.0000
Residual 248172.871 21,521 11.5316607 R-squared = 0.2050
Adj R-squared = 0.2049
Total 312158.9 21,522 14.5041771 Root MSE = 3.3958

escolaridad Coef. Std. Err. t P>|t| [95% Conf. Interval]

lntamano .5165275 .0069342 74.49 0.000 .5029359 .530119


_cons 9.611956 .0390236 246.31 0.000 9.535467 9.688445

. predict e_escolaridad, resid

Tabla 4.4
Regresión entre ln(salario) y el tamaño de la empresa
. reg lnsalario lntamano

Source SS df MS Number of obs = 21,523


F(1, 21521) = 4026.62
Model 1745.57863 1 1745.57863 Prob > F = 0.0000
Residual 9329.57153 21,521 .433510131 R-squared = 0.1576
Adj R-squared = 0.1576
Total 11075.1502 21,522 .514596699 Root MSE = .65841

lnsalario Coef. Std. Err. t P>|t| [95% Conf. Interval]

lntamano .085314 .0013445 63.46 0.000 .0826788 .0879493


_cons 1.38694 .0075663 183.31 0.000 1.372109 1.40177

. predict e_salario, resid

109
Tabla 4.5
Regresión entre los residuos de ln(salario) y escolaridad

. reg e_salario e_escolaridad, noc

Source SS df MS Number of obs = 21,523


F(1, 21522) = 2155.75
Model 849.413458 1 849.413458 Prob > F = 0.0000
Residual 8480.1581 21,522 .394022772 R-squared = 0.0910
Adj R-squared = 0.0910
Total 9329.57155 21,523 .433469849 Root MSE = .62771

e_salario Coef. Std. Err. t P>|t| [95% Conf. Interval]

e_escolaridad .0585036 .00126 46.43 0.000 .0560338 .0609733

Todos estos resultados se pueden generalizar usando matrices particionadas. Según el


teorema, dado un modelo de regresión en matrices 𝒚 = 𝑿1𝜷1 + 𝑿2 𝜷2 + 𝒖, se puede
̂ 1, libre
obtener los estimadores de MCO de la pendiente de las variables 𝑿1, es decir 𝜷
del efecto de las variables en 𝑿2 en tres pasos como sigue:

a) Estimar 𝒚 = 𝑿2 𝜷2 + 𝒗 por MCO y calcular los residuos 𝒆𝑦 = 𝑴2 𝒚 donde


𝑴𝟐 = 𝑰 − 𝑿2 (𝑿′2 𝑿2 )−𝟏𝑿′𝟐.
b) Estimar 𝑿1 = 𝑿2 𝜷2 + 𝒘 por MCO y calcular los residuos con 𝒆𝑋1 = 𝑴2 𝑿1.
̂ 1 = (𝒆𝑋′ 𝒆𝑋 )−𝟏 𝒆𝑋′ 𝒆𝑦 .
c) Estimar 𝒆𝑦 = 𝒆𝑋1 𝜷1 + 𝒛 por MCO. Este estimador es 𝜷 1 1 1

̂ 1 se obtiene
Reemplazando las expresiones de los residuos en 𝜷
̂ 1 = (𝒆𝑋′ 𝒆𝑋 )−𝟏 𝒆𝑋′ 𝒆𝑦 = (𝑿1′ 𝑴′2 𝑴2 𝑿1 )−𝟏 𝑿1′ 𝑴′2 𝑴2 𝒚 = (𝑿1′ 𝑴2 𝑿1 )−𝟏 𝑿1′ 𝑴2 𝒚
𝜷 1 1 1

̂2
Este es el mismo resultado que en (4.30). Similarmente, el vector de parámetros 𝜷
̂ 2 = (𝑿′2 𝑴1 𝑿2 )−𝟏𝑿′2 𝑴1𝒚,
puede obtenerse mediante regresiones de residuos, siendo 𝜷
donde 𝑴1 = 𝑰 − 𝑿1 (𝑿1′ 𝑿1)−𝟏 𝑿1′. La idea principal de este teorema es que al
regresionarse con los residuos, se han eliminado los efectos de las demás variables.

4.11 Descomposición de la suma de cuadrados

En forma similar al capítulo 2, calcularemos la suma de cuadrador totales 𝑆𝐶𝑇 =


∑(𝑌𝑖 − 𝑌̅ )2 . En términos matriciales, para obtener la sumatoria de cuadrados totales,

110
̂ 2 + 𝒆,
tenemos que realizar el producto interno del vector 𝑨𝒚. De (4.23), 𝑨𝒚 = 𝑨𝑿2 𝜷
luego

̂ 2 + 𝒆)′(𝑨𝑿2 𝜷
𝒚′𝑨′ 𝑨𝒚 = (𝑨𝑿2 𝜷 ̂ 2 + 𝒆)

̂ ′2 𝑿′2 𝑨′𝑨𝑿2 𝜷
=𝜷 ̂2 + 𝜷
̂ ′2 𝑿′2𝑨′𝒆 + 𝒆′𝑨𝑿2 𝜷
̂ 2 + 𝒆′ 𝒆

Contando con las propiedades de simetría e idempotencia de 𝑨, y sabiendo que 𝑨′ 𝒆 = 𝒆


y que 𝑿′2 𝒆 = 𝟎, la última ecuación se reduce a

̂ ′2 𝑿′2 𝑨𝑿2𝜷
𝒚′𝑨𝒚 = 𝜷 ̂ 2 + 𝒆′ 𝒆

En esta ecuación 𝒚′ 𝑨𝒚 es la suma de cuadrados totales (SCT), ̂ ′2 𝑿′2𝑨𝑿2 𝜷


𝜷 ̂ 2 es la
suma de cuadrados explicada por la regresión (SCE), y 𝒆′𝒆 es la suma de cuadrados de
los residuos (SCR).

Estas expresiones tienen versiones equivalentes, donde las equivalencias son fácilmente
comprobables12. Se cumple que 𝒚′𝑨𝒚 es equivalente a 𝒚′𝒚 − 𝑛𝑌̅ 2 . También es cierto
̂ ′2 𝑿′2 𝑨𝑿2 𝜷
que la 𝑆𝐶𝐸 = 𝜷 ̂ 2 es equivalente a 𝜷
̂ ′𝟐 𝑿′𝟐 𝑨𝒚, y es exactamente igual a
̂ ′𝑿′𝑿𝜷
𝜷 ̂ − 𝑛𝑌̅ 2 .13

Utilizando cualquiera de estas expresiones podemos construir al coeficiente de


determinación R-cuadrado como

𝑆𝐶𝐸 𝜷 ̂ ′𝟐 𝑿′𝟐 𝑨𝒚 𝜷̂ ′2 𝑿′2 𝑨𝑿2𝜷


̂2 𝒆′ 𝒆
2
𝑅 = = = = 1− ′
𝑆𝐶𝑇 𝒚′𝑨𝒚 𝒚′𝑨𝒚 𝒚 𝑨𝒚

El R-cuadrado en el modelo multivariado tiene el problema que siempre aumenta


cuando se incorporan nuevas variables explicativas en la regresión. Este aumento se
produce inclusive si agregamos variables irrelevantes al modelo. Si consideramos que
tener un R-cuadrado alto es algo “bueno” para la estimación, el investigador puede
verse tentado en adicionar muchas variables al modelo con el fin de elevar este
indicador, pues el R-cuadrado aumentará aun si se añaden variables irrelevantes. Esto
acarrea problemas dado el efecto que puede producirse sobre las varianzas de los
estimadores cuando se agregan variables irrelevantes a la regresión.

12
Se deja al lector la comprobación de estas equivalencias.
13
Véase el Apéndice 4.5 para una de estas pruebas.

111
Para evitar la distorsión en el R-cuadrado, existe una versión corregida de este indicador
de bondad de ajuste. El R-cuadrado ajustado se define como

𝑠2
𝑅2 𝑎𝑗𝑢𝑠𝑡𝑎𝑑𝑜 = 1 −
𝑆𝑦2

Normalmente 𝑆𝑦2 > 𝑠 2 pues la variabilidad de 𝑌 incluye no solo la variabilidad del error
sino también la variabilidad debido a la regresión sobre 𝑋. En cambio, si 𝑋 no influye
en 𝑌 (lo que en un modelo bivariado significaría una recta de regresión horizontal),
ocurrirá que 𝑆𝑦2 ≈ 𝑠 2 , y con ello 𝑅2 𝑎𝑗𝑢𝑠𝑡 ≈ 0.

Reemplazando por las definiciones de 𝑆𝑦2 y 𝑠 2 ,

𝑆𝐶𝑅
𝑛 − 1 𝑆𝐶𝑅
𝑅2 𝑎𝑗𝑢𝑠𝑡𝑎𝑑𝑜 = 1 − 𝑛 − 𝑘 = 1 − ( )
𝑆𝐶𝑇 𝑛 − 𝑘 𝑆𝐶𝑇
𝑛−1

Comparando esta definición con la del R-cuadrado, en el R-cuadrado ajustado se ha


corregido a las sumatorias de cuadrado residual y total por sus grados de libertad. Esta
fórmula castiga la inclusión de muchas variables, en el sentido que si k aumenta, la SCR
𝑛−1
disminuye y paralelamente (𝑛−𝑘) aumenta. Luego para que el R-cuadrado ajustado

aumente, el efecto de la inclusión sobre la SCR debe ser más fuerte que el ocasionado
𝑛−1
en (𝑛−𝑘). Si ocurre así, se podría pensar que la variable incluida sí es relevante.

Existen otros criterios utilizados para comparar o decidir la inclusión o exclusión de


variables, similares al R-cuadrado ajustado. Uno de ellos es el criterio de información
de Akaike14, que se calcula como

𝑆𝐶𝑅 2𝑘
Criterio de Información de Akaike = ln ( )+ (4.32)
𝑛 𝑛

Otro criterio similar es el criterio de información de Schwarz15,

𝑆𝐶𝑅 𝑘
Criterio de Información de Schwarz = ln ( ) + ln(𝑛) (4.33)
𝑛 𝑛

En ambos casos, el efecto de la adición de una nueva variable se analiza en forma


similar que en el R-cuadrado ajustado, pues involucra el efecto de esta variable sobre la

14
Akaike (1973).
15
Schwarz (1978).

112
SCR, y también considerando el castigo por esta adición, que en estos casos se observa
en la última expresión de lado derecho. Se trata de encontrar la especificación que
minimice estos criterios, la cual es especialmente útil en modelos de rezagos
distribuidos, en donde una variable explicativa aparece como múltiples rezagos
temporales en la regresión, y se debe seleccionar cuántos rezagos incluir en el modelo 16.

Ejemplo 4.9: Utilizando los resultados del ejemplo 4.5, en la tabla 4.6 se evalúa la
inclusión del tamaño de la empresa en el modelo de salarios. Se observa que cuando se
agrega esta variable, el R-cuadrado ajustado aumenta de 0.1820 a 0.2342. Por el lado de
los criterios de Akaike y Schwarz, ambos disminuyen. Como conclusión, vale incluir al
tamaño de la empresa como un regresor de los salarios.

Tabla 4.6
Evaluación de la inclusión del tamaño de la empresa como determinante de los salarios

Regresores SCR R2-ajustado Akaike Schwarz


Escolaridad 9058.92899 0.1820 -0.86518538 -0.86444414

Escolaridad y Tamaño de 8480.15808 0.2342 -0.93111427 -0.9300024


la empresa

4.12 Tabla de análisis de la varianza

El análisis de varianza muestra la descomposición de la variabilidad de la endógena y


en términos de las fuentes de variación. En nuestro caso esta variabilidad (la SCT) ha
sido descompuesta en aquella parte explicada por el modelo y aquella parte residual. La
correspondiente tabla de análisis de varianza es como sigue:

16
Las fórmulas (4.32) y (4.33) son una versión simplificada de las fórmulas originales de
Akaike y Schwarz. Las fórmulas originales son usadas en Stata con el comando estat ic que
se aplica inmediatamente después de la estimación MCO. Estas son:
𝐞′ 𝐞 2𝑘
𝐶𝐼𝐴 = 𝑛 (ln ( ) + + ln(2π) + 1)
n 𝑛
𝐞′ 𝐞 𝑘
𝐶𝐼𝑆 = 𝑛 (ln ( ) + ln(𝑛) + ln(2π) + 1)
n 𝑛

113
Tabla 4.1
Análisis de Varianza

Fuente de variación Suma de Cuadrados Grados de libertad Media del cuadrado

Modelo ̂ ′2 𝑿′2 𝑨𝑿2 𝜷


𝜷 ̂2 𝑘−1 ̂ ′2 𝑿′2 𝑨𝑿2 𝜷
𝜷 ̂ 2/(𝑘 − 1)

Residuos 𝒆′𝒆 𝑛−𝑘 𝒆′𝒆/(𝑛 − 𝑘)

Total 𝒚′ 𝑨𝒚 𝑛−1 𝒚′𝑨𝒚/(𝑛 − 1)

En la tercera columna se presentan los grados de libertad de la variable 𝑌 en


desviaciones, de los residuos y de la parte explicada. En el caso de la suma de cuadrados
totales, ella proviene del vector columna de valores de la endógena en desviaciones,
llamado 𝑨𝒚. Este vector es n-dimensional, pero pierde un grado de libertad al estar
sujeto a la restricción de que ∑(𝑌𝑖 − 𝑌̅) = 0. En el caso de los residuos, también son un
vector n-dimensional, pero han perdido 𝑘 grados de libertad pues se debe cumplir que
∑ 𝑒𝑖 = 0, ∑ 𝑒𝑖 𝑋2𝑖 = 0, … , ∑ 𝑒𝑖 𝑋𝑘𝑖 = 0. Finalmente, la suma de cuadrados explicada
implica calcular a 𝑘 − 1 parámetros para obtener este valor, y por ello sus grados de
libertad son igual al número de esos parámetros.

En el programa Stata, cuando se estima por mínimos cuadrados ordinarios se presenta


por defecto esta tabla de análisis de varianza. Véase por ejemplo la tabla 2.3 del capítulo
2.

114
Apéndice 4.1
(𝑛−𝑘)𝑠2
Demostrar que ~χ2(𝑛−𝑘) .
𝜎2

De la definición de 𝑠 2 , y como 𝒆 = 𝑴𝒚 = 𝑴𝒖, según se vio en el la sección 4.5,


(𝑛 − 𝑘)𝑠 2 𝒆′𝒆 𝒖′𝑴𝒖 𝒖 ′ 𝒖
2
= 2
= 2
= ( ) 𝑴( )
𝜎 𝜎 𝜎 𝜎 𝜎
𝒖
Dado que 𝒖~𝑁(𝟎, 𝜎 2 𝑰), entonces no es difícil verificar que ~𝑁(0, 𝑰). En estadística
𝜎

se sabe que si un vector cualquiera 𝒛 tiene una distribución normal conjunta estándar,
𝒛~𝑁(0, 𝑰), y además si 𝑴 es una matriz idempotente, entonces 𝒛′𝑴𝒛~χ2 cuyos grados
de libertad son iguales al rango de 𝑴. Además, por matemáticas, si 𝑴 es una matriz
idempotente, entonces 𝑟𝑎𝑛𝑔𝑜 (𝑴) = 𝑡𝑟𝑎𝑧𝑎(𝑴). Como se comprobó en la sección 4.5,
la traza de 𝑴 es igual a 𝑛 − 𝑘, luego
𝒖 ′ 𝒖 2
( ) 𝑴 ( ) ~𝜒(𝑛−𝑘)
𝜎 𝜎
Con ello se completa la demostración.

Apéndice 4.2
2𝜎4
Demostración que 𝑉𝑎𝑟[𝑠 2 ] = 𝑛−𝑘.

Utilizando el resultado (4.20), y recordando que la varianza de una variable aleatoria


Chi-cuadrado es igual a dos veces sus grados de libertad, será cierto que
(𝑛 − 𝑘)𝑠 2 (𝑛 − 𝑘)2
𝑉𝑎𝑟 [ ] = 𝑉𝑎𝑟[𝑠 2 ] = 2(𝑛 − 𝑘 )
𝜎2 (𝜎 2 )2
Despejando se obtiene que
2𝜎 4 (𝑛 − 𝑘 ) 2𝜎 4
𝑉𝑎𝑟[𝑠 2 ] = =
(𝑛 − 𝑘)2 𝑛−𝑘

Apéndice 4.3
Cálculo de la expresión (4.27).
Llamemos
̃ + (𝑿′𝑿3 )𝜷
(𝑿′𝑿)𝜷 ̃ 3 = 𝑿′𝒚 (1)

̃ + (𝑿′3 𝑿3 )𝜷
(𝑿′3 𝑿)𝜷 ̃ 3 = 𝑿′3 𝒚 (2)

̃ 3 = (𝑿′3 𝑿3)−1 [𝑿′3 𝒚 − 𝑿′3 𝑿𝜷


De (2) se despeja 𝜷 ̃ ]. Reemplazando en (1),
̃ + (𝑿′𝑿3 )(𝑿′3𝑿3 )−1 [𝑿′3 𝒚 − 𝑿′3 𝑿𝜷
(𝑿′𝑿)𝜷 ̃ ] = 𝑿′𝒚

115
̃ − (𝑿′𝑿3 )(𝑿′3𝑿3 )−1 𝑿′3 𝑿𝜷
(𝑿′𝑿)𝜷 ̃ = 𝑿′ 𝒚 − (𝑿′𝑿3 )(𝑿′3𝑿3 )−1 𝑿′3 𝒚
̃ = [𝑿′ − (𝑿′𝑿3 )(𝑿′3𝑿3 )−1 𝑿′3 ]𝒚
[𝑿′ − (𝑿′𝑿3 )(𝑿′3𝑿3 )−1 𝑿′3]𝑿𝜷
̃ = 𝑿′[𝑰 − 𝑿3 (𝑿′3 𝑿3)−1 𝑿′3 ]𝒚
𝑿′[𝑰 − 𝑿3 (𝑿′3𝑿3 )−1 𝑿′3 ]𝑿𝜷
̃ = 𝑿′𝑴3 𝒚
𝑿′𝑴3 𝑿𝜷
̃ = (𝑿′𝑴3 𝑿)−1 𝑿′𝑴3 𝒚
𝜷

Apendice 4.4
̂ ] < 𝑉𝑎𝑟[𝜷
Demostración que 𝑉𝑎𝑟[𝜷 ̃ ].

Para esta demostración partiremos de la afirmación que la varianza del estimador MCO
̂ es menor que la varianza del estimador del
del modelo correctamente especificado, 𝜷
̃ . Luego, en el desarrollo
modelo que contiene a más variables de las necesarias, 𝜷
veremos que nada contradice esta afirmación. Entonces,
𝜎 2 (𝑿′𝑿)−1 ≤ 𝜎 2 (𝑿′𝑴3 𝑿)−1
𝑿 ′ 𝑿 ≥ 𝑿 ′ 𝑴3 𝑿
Para probar que 𝑿′𝑿 ≥ 𝑿′𝑴3 𝑿, usaremos la definición matemática que dice que dadas
dos matrices 𝑨 y 𝑩, 𝑨 > 𝑩 si es positiva semidefinida. Luego, la diferencia es
𝑿 ′ 𝑿 − 𝑿 ′ 𝑴3 𝑿
𝑿′ [𝑰 − 𝑴3 ]𝑿 = 𝑿′[𝑿3 (𝑿′3 𝑿3)−1 𝑿′3 ]𝑿
𝑿3 (𝑿′3 𝑿3)−1 𝑿′3 es una matriz 𝑛 × 𝑛 cuya traza es 𝑘3 < 𝑛. Además, al ser idempotente,
sus raíces características serán 𝑘3 unos y 𝑛 − 𝑘3 ceros. Luego, 𝑿3 (𝑿′3 𝑿3 )−1 𝑿′3 es
positiva (no negativa) definida.
Considerando la propiedad que afirma que si una matriz 𝑨 es positiva definida y 𝑩 tiene
rango lleno, entonces 𝑩′𝑨𝑩 es positiva definida, resulta que 𝑿′[𝑿3 (𝑿′3𝑿3 )−1 𝑿′3 ]𝑿 es
̂ ] < 𝑉𝑎𝑟[𝜷
también positiva definida. Entonces, es verdad que 𝑉𝑎𝑟[𝜷 ̃ ].

Apéndice 4.5
̂ + 𝒆, el producto interno es
Otra forma equivalente de hallar SCT, partiendo de 𝒚 = 𝑿𝜷
̂ ′𝑿′)(𝑿𝜷
𝒚′𝒚 = (𝒆′ + 𝜷 ̂ + 𝒆)
̂ ′ 𝑿′𝑿𝜷
𝒚′ 𝒚 = 𝜷 ̂+𝜷
̂ ′ 𝑿′ 𝒆 + ⏟
⏟ ̂ + 𝒆′ 𝒆
𝒆′ 𝑿𝜷
𝟎 𝑿′ 𝒆=𝟎
̂ ′𝑿′𝑿𝜷
𝒚′ 𝒚 = 𝜷 ̂ + 𝒆′ 𝒆
Restamos 𝑛𝑌̅ 2 a ambos lados obtenemos la SCT

116
̂ ′𝑿′𝑿𝜷
𝒚′ 𝒚 − 𝑛𝑌̅ 2 = 𝜷 ̂ − 𝑛𝑌̅ 2 + 𝒆′ 𝒆

Ejercicios
4.1. Demuestre que si 𝑿 es una matriz de orden n × k, y con rango igual a 𝑘, 𝑴 = 𝑰𝑛 −
𝑿(𝑿′𝑿)−1 𝑿′ es una matriz simétrica e idempotente, y que tr(𝑴) = 𝑛 − 𝑘.

4.2. En un modelo trivariado obtenga las ecuaciones normales y los estimadores de los
parámetros utilizando la notación de sumatorias.

4.3. Con los datos del Ejemplo 4.2 se puede encontrar que los valores en desviaciones
respecto a las medias son:
−0.2 −1.6 −0.8
−1.2 1.4 2.2
𝑨𝒚 = 2.8 𝑨𝑿2 = −0.6 3.2
0.8 −1.6 −1.8
[−2.2] [ 2.4 −2.8]
a. Estime las “pendientes” del modelo utilizando los datos en desviaciones, mediante
̂ 2 = (𝑿′2 𝑨𝑿2)−1 𝑿′2 𝑨𝒚, y compare con lo obtenido en el ejemplo 4.2
la fórmula 𝜷
b. Encuentre la sumatoria de cuadrados de total, explicada y de residuos usando estas
matrices.
̂2
c. Calcule 𝑠 2 y la matriz de Varianzas y Covarianza de las pendientes estimadas 𝜷
̂ 2 ) = 𝑠 2 (𝑿′2𝑨𝑿2 )−1 .
̂ (𝜷
mediante la fórmula 𝑉𝑎𝑟

4.4. Dados los siguientes datos:


Y 7 3 8 3 5 1

X2 6 3 5 2 4 1

X3 8 5 6 4 6 4

Estimar el modelo lineal con intercepto por MCO usando matrices y obtenga el 𝑅2
y la SCR . Estime lo mismo, pero sin intercepto.

4.5. Suponga que desea estimar el modelo 𝒚 = 𝑿𝜷 + 𝒖, el cual es un modelo trivariado


(dos exógenas y una constante). Se sabe que: 𝑌̅ = 12, 𝑋̅2 = 12 y 𝑋̅3 = 𝑩.
−14 𝑬 4
𝑿′2 𝑨𝒚 = [ ] 𝑿′2 𝑨𝑿2 = [ ] 𝒆′𝒆 = 91.846
20 4 40

117
1 12 7 4 1
1 8 1 0 −5
1 9 5 1 −1
𝑿= 1 𝑪 8 𝑨𝑿2 = 2 𝑫
1 4 6 −4 0
1 6 6 −2 0
[1 7 9 ] [−1 3 ]
7 56 42
(𝑿′2 𝑨𝑿2)−1 = [ 0.02403846 −0.00240385
] 𝑿′𝑿 = [56 490 𝑭 ]
−0.00240385 0.02524038
42 𝑮 292
14 2
8 −4
7 −5
𝒚 = 𝑯 𝑨𝒚 = 1
14 2
19 7
[9] [−3]
2.3592033 −0.17788462 −0.13221154
(𝑿′𝑿)−1 = [−0.17788462 0.02403846 −0.00240385]
−0.13221154 −0.00240385 0.02524038

a. Halle B, C, D, E, F, G y H
b. Estimar los parámetros 𝜷 por MCO.
c. Encuentre la SCT, SCE y la SCR.
d. Calcule el R-cuadrado, el R-cuadrado ajustado y los valores de los criterios de
información Akaike y Schwarz.
e. Encuentre la varianza de 𝛽̂2 , la varianza de 𝛽̂3 y la 𝐶𝑜𝑣(𝛽̂2 , 𝛽̂3 ).

4.6. Considere los siguientes datos para seis empresas.


Y 7.5 9 12 16 20 25

X2 2 3 3.5 3 3.25 4

X3 6 9 12 18 24 30

Se desea estimar una función 𝑌𝑖 = 𝛽1 + 𝛽2 𝑋2𝑖 + 𝛽3 𝑋3𝑖 + 𝑢𝑖 . Se tiene además los


siguientes datos en matrices:
6 𝑨 99

𝑿 𝑿 = [18.75 60.8125 𝑩 ]
99 𝑩 𝐶
6.167387 −2.423631 0.095341
(𝑿′𝑿)−1 = [−2.423631 1.095101 −0.060519 ]
0.095341 −0.060519 0.005684

118
0.2947887
−0.491595
𝑫
0.2832613
𝑿′𝒚 = [ 297 ] 𝒆= 𝒆′ 𝒆 = 0.582793
0.0166907
1788
−0.341739
[ 0.2385927 ]

a. Los valores de A, B, C y D son:


b. Calcule los estimadores de MCO, sus desviaciones estándar y sus respectivos
estadísticos t que prueben la significancia de estos parámetros.
c. Calcule el R-cuadrado, el R-cuadrado ajustado y los criterios de Akaike y
Schwatrz.

4.7. Muestre que el estimador MCO con datos en desviaciones con respecto a las
̂ 2 = (𝑿′2 𝑨𝑿2)−1 𝑿′2 𝑨𝒚 es simplemente un caso especial de regresiones
medias 𝜷
particionadas en donde la partición de la matriz 𝑿 es: 𝑿 = [𝒊 𝑿2 ], donde 𝒊 es una
columna de unos y 𝑿2 incluye a todas las demás variables exógenas.

4.8. Usando algebra matricial muestre que la suma de cuadrados explicada de la


estimación del modelo que incluye intercepto 𝒚 = 𝑿𝜷 + 𝒖, se puede expresar de
tres formas equivalente:
𝑆𝐶𝐸 𝜷 ̂ ′𝟐 𝑿′𝟐 𝑨𝒚 𝜷̂ ′2 𝑿′2 𝑨𝑿2 𝜷
̂2
= =
𝑆𝐶𝑇 𝒚′ 𝑨𝒚 𝒚′ 𝑨𝒚
̂ ′2 𝑿′2 𝑨𝑿2 𝜷
𝑆𝐶𝐸 = 𝜷 ̂2 = 𝜷
̂ ′𝟐 𝑿′𝟐 𝑨𝒚 = 𝜷
̂ ′𝑿′ 𝑿𝜷
̂ − 𝑛𝑌̅2
̂ 2 es el vector k − 1 × 1 que incluye a todos los parámetros estimados
donde 𝜷
excepto el intercepto, y 𝑿2 es la matriz de todas las variables menos la columna de
unos.
Muestre también que
𝑛

𝑆𝐶𝑇 = ∑(𝑌𝑖 − 𝑌̅ )2 = 𝒚′ 𝑨𝒚 = 𝒚′𝒚 − 𝑛𝑌̅ 2


𝑖=1

4.9. Suponga que el modelo econométrico verdadero es 𝑌𝑖 = 𝛽0 + 𝛽1 𝑋𝑖 + 𝛽2 𝑍𝑖 +


𝛽3 𝑊𝑖 + 𝑢𝑖 . Sin embargo, estima el modelo 𝑌𝑖 = 𝛽0 + 𝛽1 𝑋𝑖 . Evalúe el sesgo por
omisión de variables relevantes.

119
4.10. Usando la base de datos auto.dta © incorporada en el programa Stata, Se desea
estimar un modelo de determinantes de los precios de los automóviles, teniéndose
la siguiente ecuación:
𝑝𝑟𝑖𝑐𝑒𝑖 = 𝛽1 + 𝛽2 𝑤𝑒𝑖𝑔ℎ𝑡𝑖 + 𝛽3 𝑙𝑒𝑛𝑔𝑡ℎ𝑖 + 𝑢𝑖
donde price es el precio en dólares de un auto nuevo, weight es el peso del auto en
libras y length es la longitud del auto en pulgadas. Con una muestra de 74 vehículos
se obtiene la siguiente estimación por MCO.

Source | SS df MS Number of obs = 74


-------------+------------------------------ F( 2, 71) = 18.91
Model | 220725280 2 110362640 Prob > F = 0.0000
Residual | 414340116 71 5835776.28 R-squared = 0.3476
-------------+------------------------------ Adj R-squared = 0.3292
Total | 635065396 73 8699525.97 Root MSE = 2415.7

------------------------------------------------------------------------------
price | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
weight | 4.699065 1.122339 4.19 0.000 2.461184 6.936946
length | -97.96031 39.1746 -2.50 0.015 -176.0722 -19.84838
_cons | 10386.54 4308.159 2.41 0.019 1796.316 18976.76
------------------------------------------------------------------------------

a. Comente los resultados de esta estimación basándose en la significancia de los


parámetros, los signos, y el R-cuadrado.
b. Usando la información de la misma tabla, ¿cuánto sería el valor de los criterios
de Akaike y Schwarz?
c. Se decide agregar al modelo dos variables más. Estas son: mpg = millas que
recorre por galón de gasolina, y trunk = espacio en la maletera medido en pies
cúbicos. Al agregarse este valor se obtiene la siguiente tabla incompleta.

Source | SS df MS Number of obs = 74


-------------+------------------------------ F( 4, 69) = 9.62
Model | 227368175 4 56842043.6 Prob > F = 0.0000
Residual | 407697222 69 5908655.39 R-squared = 0.3580
-------------+------------------------------ Adj R-squared = 0.3208
Total | 635065396 73 8699525.97 Root MSE = 2430.8

------------------------------------------------------------------------------
price | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
weight | 4.387537 1.178452 3.72 0.000 2.036589 6.738484
length | -109.0618 43.03521 -2.53 0.014 -194.9147 -23.2089
mpg | -86.16235 84.54034 -1.02 0.312 -254.8157 82.49101
trunk | 25.59388 97.06998 0.26 0.793 -168.0554 219.2432
_cons | 14896.45 6080.278 2.45 0.017 2766.627 27026.27
------------------------------------------------------------------------------

El valor de la tabla t-Student es 𝑡1−α (n − k) = 1.9925435 para α = 0.05.


2

120
Complete las casillas en blanco en la tabla, y explique cómo se obtienen los
valores de la columna P > |𝑡|.
d. ¿Considera apropiada la inclusión de estas variables en el modelo? Sustente su
respuesta con cálculos apropiados. ¿Por qué aumentan las desviaciones estándar
de las variables weight y length al agregar a mpg y trunk?

121
Capítulo 5
Pruebas de hipótesis, estimación con restricciones lineales y predicción en el
modelo de K variables

En el capítulo 3, se trabajó el tema de inferencia estadística en el modelo clásico de dos


variables. En tal capítulo, la única prueba de hipótesis de interés fue sobre el valor del
parámetro de la pendiente de la recta de regresión. En el modelo con 𝑘 variables este
tema se extiende notablemente debido al surgimiento de numerosas posibilidades de
pruebas de hipótesis sobre los parámetros correspondientes a las variables incluidas en
el modelo. Además de hacer pruebas para cada uno de los parámetros del modelo, es
posible hacer pruebas de hipótesis que involucren a más de un parámetro al mismo
tiempo.

Otro tema que se explora en este capítulo es la estimación del modelo de regresión
lineal cuando se sujeta esta estimación a restricciones lineales sobre los parámetros.
Esta estimación restringida es vinculada con las pruebas de hipótesis, siendo esta
vinculación muy importante para el diseño de pruebas de hipótesis con modelos más
generales que engloban a numerosos modelos que son casos especiales de ellos.

Finalmente, un tema importante tiene que ver con las predicciones o pronósticos que se
pueden hacer luego de haberse estimado el modelo. Cuando se estima un modelo, no
solo nos interesa conocer los impactos de las variables exógenas sobre las endógenas
sino también queremos tener alguna idea de qué valores tomaría la variable endógena
para ciertos valores de las exógenas. Por ejemplo, supongamos que hemos estimado un
modelo que explica los determinantes del crecimiento económico (variación porcentual
del producto bruto interno), y ahora deseamos tener un pronóstico sobre cuál será el
crecimiento para el próximo año. Otro ejemplo es el caso de un modelo de
determinantes de los salarios y su relación con los años, de educación. Si contamos con
un dato fuera de la muestra de una persona que tiene, por ejemplo, 12 años de
educación, ¿cuánto esperaríamos que gane esta persona? ¿Seríamos capaces no solo de
hacer una estimación puntual de su salario sino de tener un intervalo de confianza para
la predicción? Las respuestas a estas interrogantes se obtienen de un análisis de la
predicción del modelo.

122
5.1. Pruebas de hipótesis lineales

̂ se
Bajo el supuesto 5 de normalidad de los errores, el vector de estimadores 𝜷
distribuye como una normal multivariada

̂ ~ 𝑁(𝜷, 𝜎 2 (𝑿′ 𝑿)−1 )


𝜷 (5.1)

Esta expresión es cierta si los términos de perturbación siguen una distribución normal,
al ser los parámetros estimados combinaciones lineales de estos errores normales.1 Por
las propiedades de las distribuciones normales se cumplirá que estos parámetros siguen
también una distribución normal multivariada y exacta.

Otro resultado importante y relevante para el tema de pruebas de hipótesis es el que se


probó en el Apéndice 4.1 y que reescribimos aquí.

(𝑛 − 𝑘)𝑠 2
~ 𝜒 2 (𝑛 − 𝑘) (5.2)
𝜎2

5.1.1. Prueba de hipótesis sobre un coeficiente

Supongamos que deseamos hacer una prueba de hipótesis sobre alguno de los
parámetros en el vector 𝜷. Esta prueba se hará de manera similar a la presentada en el
capítulo 3. Supongamos que tenemos una hipótesis sobre el coeficiente del j-ésimo
regresor 𝑋𝑗 . Sea tal hipótesis nula 𝐻0 : 𝛽𝑗 = 𝑎, luego podemos usar el estadístico t igual
que en la sección 3.3 del modelo de dos variables, en donde para la construcción de tal
estadístico se resta el valor de la hipótesis y se divide entre la desviación estándar del
estimador. Bajo la hipótesis nula, este estadístico se distribuye como una t-Student con
𝑛 − 𝑘 grados de libertad.

𝛽̂𝑗 − 𝑎
𝑡𝑗 = ~𝑡(𝑛 − 𝑘) (5.3)
√𝑠 2 𝑐𝑗𝑗

En (5.3), 𝑐𝑗𝑗 es el j-ésimo elemento de la diagonal de la matriz (𝑿′ 𝑿)−1, y por lo tanto

√𝑠 2 𝑐𝑗𝑗 es la desviación estándar estimada de 𝛽̂𝑗 . Luego, en una prueba de hipótesis


𝛼
estándar a dos colas ocurrirá que si el valor absoluto de 𝑡𝑗 es mayor al percentil 1 − 2 de

1 ̂ = 𝜷 + (𝑿′ 𝑿)−1 𝑿′ 𝒖, en donde queda claro que 𝜷


Recordar de (4.17) que 𝜷 ̂ es una transformación lineal
del vector normal 𝒖.

123
la distribución t-Student con 𝑛 − 𝑘 grados de libertad, entonces se rechaza la hipótesis
nula propuesta con α% de significancia. En símbolos,

si |𝑡𝑗 | > 𝑡1−𝛼 (𝑛 − 2) se rechaza la 𝐻0 : 𝛽𝑗 = 𝑎


2

Luego, la prueba de significancia individual puede aplicarse naturalmente, simplemente


reemplazando el valor a por cero.

5.1.2. Pruebas de hipótesis lineales

En los modelos econométricos que abarcan a muchos parámetros, puede ocurrir que las
hipótesis involucren a combinaciones lineales de varios parámetros a la vez, en lugar de
hipótesis sobre parámetros individuales. Veamos dos ejemplos y sus planteamientos
matriciales.

Ejemplo 5.1: Prueba de rendimientos constantes a escala en la estimación de la función


de producción Cobb-Douglas.

Consideremos a la conocida función de producción Cobb-Douglas, 𝑄 = 𝐴𝐾𝛽2 𝐿𝛽3 ,


donde 𝐾 y 𝐿 son las cantidades de capital y trabajo que utiliza una empresa
respectivamente, y 𝐴, 𝛽2, y 𝛽3 son parámetros tecnológicos. Esta expresión es
determinística, y por ello se requiere de una versión econométrica, de preferencia lineal
en parámetros. Afortunadamente el paso de este modelo no lineal a uno lineal es
sencillo cuando se toma el logaritmo natural. Con esta transformación la función de
producción queda como

𝑙𝑛𝑄 = 𝑙𝑛𝐴 + 𝛽2 𝑙𝑛𝐾 + 𝛽3 𝑙𝑛𝐿

Agregando un término de perturbación y el subíndice 𝑖 para indicar a la í-ésima


observación se tiene el modelo econométrico lineal,

𝑙𝑛𝑄𝑖 = 𝛽1 + 𝛽2 𝑙𝑛𝐾𝑖 + 𝛽3 𝑙𝑛𝐿𝑖 + 𝑢𝑖

donde 𝛽1 = 𝑙𝑛𝐴. Como es sabido por la teoría microeconómica, una función de


producción Cobb-Douglas exhibe rendimientos constantes a escala cuando la suma de
sus parámetros 𝛽2 y 𝛽3 es igual a uno. En ecuaciones, la hipótesis es:

𝐻0 : 𝛽2 + 𝛽3 = 1

124
Obsérvese que esta expresión es lineal en los parámetros. Puesto que el modelo es
trabajado en notación matricial, la hipótesis planteada es igual a

𝛽1
𝐻0 : [0 ] 𝛽
1 1 2 ] = 1.
[ (5.4)
𝛽3

Nótese que en (5.4) estamos incluyendo a 𝛽1 pese a que no participa en la hipótesis. En


los planteamientos matriciales incluiremos a todos los parámetros 𝛽.

Ejemplo 5.2: Ecuación de determinantes de los salarios.

Las teorías económicas de determinantes de los salarios, como por ejemplo la teoría de
Mincer (1974), indican que los salarios no solo dependen de los años de educación sino
también de la experiencia laboral y su cuadrado. Consideremos este modelo sencillo en
donde el logaritmo natural de los salarios depende de estas variables.

ln(𝑊𝑖 ) = 𝛽1 + 𝛽2 𝑆𝑖 + 𝛽3 𝐸𝑥𝑝𝑖 + 𝛽4 𝐸𝑥𝑝𝑖2 + 𝑢𝑖

donde 𝑊𝑖 es el salario del individuo i, 𝑆𝑖 son los años de educación del mismo
trabajador, y 𝐸𝑥𝑝𝑖 son los años de experiencia del trabajador i en el mercado laboral. Se
incluye a la experiencia al cuadrado esperando capturar el efecto declinante de los
salarios cuando el trabajador tiene una edad avanzada.

A manera de ejemplo, podríamos probar la hipótesis que la educación y los años de


experiencia tienen el mismo impacto sobre 𝑊𝑖 y que no se observa un efecto declinante
de los salarios cuando el trabajador acumula muchos años de experiencia. En símbolos,
la hipótesis contiene dos ecuaciones, 𝐻0 : 𝛽2 = 𝛽3 , 𝛽4 = 0. En matrices, las dos
ecuaciones se comprimen en la expresión,

𝛽1
0 1 −1 0 𝛽2 0
[ ][ ] = [ ] (5.5)
0 0 0 1 𝛽3 0
𝛽4

Ejemplo 5.3: En el ejemplo anterior, queremos probar la significancia conjunta de la


regresión. Es decir, probemos si todos los parámetros en 𝜷 excepto el intercepto son
iguales a cero. La hipótesis nula es 𝐻0 : 𝛽2 = 0, 𝛽3 = 0, 𝛽4 = 0, la cual en matrices se
presenta como,

125
𝛽1
0 1 0 0 𝛽 0
2
[0 0 1 0] [ ] = [0] (5.6)
𝛽3
0 0 0 1 0
𝛽4

Esta prueba es una generalización de la prueba de significancia de la sección 3.4 del


capítulo 3, solo que aplicable a todos los coeficientes del modelo. La aceptación de la
hipótesis significa que ninguna de las variables exógenas incluidas en el modelo es
importante a la hora de explicar el comportamiento de la variable endógena, y por lo
tanto, el modelo propuesto no tiene sentido. La hipótesis alternativa es que al menos
alguno de los parámetros 𝛽 es estadísticamente distinto de cero.

Saliendo del contexto del ejemplo, se puede generalizar la prueba de hipótesis de


significancia conjunta en una regresión con 𝑘 variables a

𝐻0 : 𝛽2 = 0, 𝛽3 = 0, … , 𝛽𝑘 = 0

𝐻1 : Al menos alguno de los  es distinto de cero.

En matrices, la hipótesis nula sería, usando matrices particionadas,

𝛽1
𝐻0 : [𝟎 ⋮ 𝑰𝒌−𝟏 ] [ ⋯ ] = [𝟎]
𝜷𝟐

En esta expresión, el vector columna 𝜷𝟐 contiene a todos los coeficientes de las


variables explicativas del modelo, e 𝑰𝒌−𝟏 es una matriz identidad de dimensión 𝑘 − 1 ×
𝑘 − 1.

Generalizando la presentación de las hipótesis nulas en (5.4), (5.5) o (5.6), en términos


más compactos, una hipótesis nula que incluye a 𝑞 ecuaciones lineales de los
parámetros se escribe como

𝐻0 : 𝑹𝜷 = 𝒓 (5.7)

En (5.7) la matriz 𝑹 es una matriz 𝑞 × 𝑘 de valores no estocásticos, 𝜷 es el conocido


vector columna de 𝑘 parámetros incluyendo al intercepto, y 𝒓 es un vector columna

126
𝑞 × 1 de valores no estocásticos.2 Tanto 𝑹 como 𝒓 son expresiones matriciales que
contienen a números fijos, no a variables aleatorias ni parámetros.

Para el contraste de hipótesis lineales, la prueba t del capítulo 3 es en general


insuficiente3. Se requiere otra prueba más general, que vamos a mostrar a continuación.
Cuando la hipótesis nula (5.7) es cierta se puede demostrar que la siguiente expresión
llamada estadístico 𝐹 sigue exactamente una distribución 𝐹 de Fisher con 𝑞 grados de
libertad en el numerador y n − k grados de libertad en el denominador (la demostración
se presenta en el apéndice 5.2 de este capítulo).

̂ − 𝒓)′ [𝑹(𝑿′ 𝑿)−𝟏 𝑹′ ]−𝟏 (𝑹𝜷


(𝑹𝜷 ̂ − 𝒓)/𝑞
𝐹= (5.8)
𝒆′ 𝒆/(𝑛 − 𝑘)
̂ ≈ 𝒓 y por lo tanto el valor del
Bajo la hipótesis nula (5.7), se esperaría que 𝑹𝜷
estadístico 𝐹 debería ser cercano a cero. Por el contrario, si la hipótesis nula no es
̂ sea muy distinto de 𝒓,
cierta, entonces 𝑹𝜷 ≠ 𝒓 y también sería muy probable que 𝑹𝜷
con lo cual el estadístico 𝐹 podría tomar valores bastante grandes, lo cual es poco
probable (aunque no imposible) en una distribución F de Fisher. Por ello, grandes
valores de 𝐹 serían una señal del posible no cumplimiento de la hipótesis nula.

¿Qué tan grande debería ser 𝐹 para poder afirmar que se rechaza la hipótesis? En
términos más formales, definiendo un nivel de significancia 𝛼 y dados los grados de
libertad en el numerador y denominador, 𝑞 y 𝑛 − 𝑘 respectivamente, se puede calcular
el valor crítico para el rechazo de la hipótesis nula. De la distribución F de Fisher, el
valor crítico es el percentil (1 − 𝛼 ) de la distribución, es decir 𝐹1−𝛼 (𝑞, 𝑛 − 𝑘), tal
como lo muestra la figura 5.1 en donde el área sombreada es el valor 𝛼. Si la hipótesis
nula es falsa, 𝐹 sería grande ubicándose más a la derecha con lo cual superaría al valor
crítico. No obstante, existe la posibilidad de cometer el error tipo I (rechazar algo
verdadero) pues aun si la hipótesis es verdadera es posible que 𝐹 > 𝐹1−𝛼 (𝑞, 𝑛 − 𝑘),
pues la F-Fisher puede tomar valores hasta +∞. La probabilidad de cometer este error
es justamente el área sombreada 𝛼.

En resumen, la regla para la comprobación de la hipótesis es la siguiente:

2
En los ejemplos 5.1, 5.2 y 5.3, los valores de 𝑞 son 1, 2 y 𝑘 − 1 respectivamente.
3
Se puede plantear un estadístico 𝑡 válido para el caso 𝑞 = 1, en donde el 𝑡 de la sección 5.1.1 es un caso
especial. No obstante, no es válido para hipótesis que tengan 𝑞 > 1.

127
Si 𝐹 > 𝐹1−𝛼 (𝑞, 𝑛 − 𝑘), se rechaza la 𝐻0 con α% de significancia.

Si 𝐹 < 𝐹1−𝛼 (𝑞, 𝑛 − 𝑘), no se rechaza la H 0 con α% de significancia.

Figura 5.1
Distribución F de Fisher y valor crítico de la prueba de hipótesis

𝐹1−𝛼 (𝑞, 𝑛 − 𝑘)

5.2 Relación entre las pruebas 𝒕 y 𝑭

Si se aplica la prueba 𝐹 a una hipótesis que involucra un solo coeficiente, se obtiene el


mismo resultado que si aplicáramos la prueba 𝑡. Así, la hipótesis nula sobre el
coeficiente 𝛽𝑗 , 𝐻0 : 𝛽𝑗 = 𝑎 se puede escribir en términos matriciales como,

𝛽1
𝛽2

[0 0 … 0 1 0 … 𝛽
0] 𝑗−1 = [𝑎]
𝛽𝑗 ⏟

𝒓
𝑹 𝛽𝑗+1

[ 𝛽𝑘 ]

̂ − 𝒓 = 𝛽̂𝑗 − 𝑎.
Utilizando estas definiciones de 𝑹 y 𝒓, se comprueba fácilmente que 𝑹𝜷
El cálculo de 𝑹(𝑿′ 𝑿)−𝟏 𝑹′ arroja que esta operación matemática extrae el j-ésimo
elemento de la diagonal de la matriz (𝑿′ 𝑿)−𝟏, llamando a tal valor 𝑐𝑗𝑗 . Entonces,
remplazando estos resultados parciales en (5.8) se obtiene

128
2
(𝛽̂𝑗 − 𝑎)2 𝛽̂𝑗 − 𝑎
𝐹= =| | = 𝑡2
𝑠 2 𝑐𝑗𝑗 𝑠√𝑐𝑗𝑗

En palabras, el valor del estadístico 𝐹 cuando se prueba una hipótesis sobre el valor de
un coeficiente es exactamente igual al valor del estadístico 𝑡 que prueba la misma
hipótesis pero elevado al cuadrado. Esta equivalencia asegura que ambas pruebas de
hipótesis llegarán a la misma conclusión sobre la aceptación o rechazo de la hipótesis.

Siendo un poco más general, se puede aplicar la prueba 𝑡 a un caso de hipótesis lineales
con 𝑞 = 1. Por ejemplo, en el caso del modelo Cobb-Douglas, para la hipótesis
𝐻0 : 𝛽2 + 𝛽3 = 1 se puede plantear el estadístico 𝑡 así:

𝛽̂2 + 𝛽̂3 − 1
𝑡= .
̂ (𝛽̂2 ) + 𝑉𝑎𝑟
√𝑉𝑎𝑟 ̂ (𝛽̂3 ) + 2𝐶𝑜𝑣
̂ (𝛽̂2 , 𝛽̂3 )

̂ − 𝒓 = 𝛽̂2 +
Si calculamos el estadístico 𝐹 para este caso, no es difícil encontrar que 𝑹𝜷
𝑹𝑽𝒂𝒓(𝜷)𝑹 ̂𝑉𝑎𝑟 ′
̂ (𝛽2 )+𝑉𝑎𝑟 ̂ ̂ ̂ ̂ ̂
̂ (𝛽3 )+2𝐶𝑜𝑣(𝛽2 ,𝛽3 )
𝛽̂3 − 1, y que 𝑹(𝑿′ 𝑿)−1 𝑹′ = = . Reemplazando
𝑠2 𝑠2

estos valores en (5.8) se obtiene (se deja al lector los cálculos),

2
(𝛽̂2 + 𝛽̂3 − 1)
𝐹= = 𝑡2.
̂ (𝛽̂2) + 𝑉𝑎𝑟
𝑉𝑎𝑟 ̂ (𝛽̂3 ) + 2𝐶𝑜𝑣̂ (𝛽̂2, 𝛽̂3 )

5.3 Relación entre la prueba de significancia conjunta y el R-cuadrado

Generalizando el ejemplo 5.3 para 𝑘 parámetros, en este caso, 𝑹 = [ 𝟎 ⋮ 𝑰𝒌−𝟏 ]


y 𝒓 = [𝟎𝑘−1×1 ]. Al premultiplicarse y postmultiplicarse (𝑿′ 𝑿)−1 por 𝑹 se selecciona la
submatriz cuadrada inferior de orden 𝑘 − 1 × 𝑘 − 1, la cual es igual a (ver apéndice
5.2)

𝑹(𝑿′ 𝑿)−1 𝑹′ = (𝑿′𝟐 𝑨𝑿𝟐 )−1

̂=𝜷
También 𝑹𝜷 ̂ 𝟐 , donde el vector columna 𝜷
̂ 𝟐 contiene a todos los coeficientes de las
variables explicativas del modelo (las “pendientes”). Nótese que en una prueba de
significancia conjunta, el número de ecuaciones en la hipótesis nula es igual al número
de “pendientes” desde 𝛽2 hasta 𝛽𝑘 , donde cada una ha sido igualada a cero, por eso

129
𝑞 = 𝑘 − 1. Reemplazando estos resultados en la formulación general (5.8) se tiene que
el estadístico 𝐹 es:

̂ ′2 𝑿′2 𝑨𝑿2 𝜷
𝜷 ̂ 2 /(𝑘 − 1)
𝐹= (5.9)
𝒆′ 𝒆/(𝑛 − 𝑘)

̂ ′2 𝑿′2 𝑨𝑿2 𝜷
En la sección 4.9 del capítulo 4 se encontró que 𝜷 ̂ 2 es la suma de cuadrados
explicada por la regresión (SCE). Usando esta definición en (5.9) el estadístico 𝐹 que
prueba la significancia conjunta de los parámetros es igual a

𝑆𝐶𝐸/(𝑘 − 1)
𝐹=
𝑆𝐶𝑅/(𝑛 − 𝑘)

𝑆𝐶𝑅 𝑆𝐶𝐸
Recordemos de la definición de R-cuadrado que 𝑅 2 = 1 − 𝑆𝐶𝑇 = 𝑆𝐶𝑇 , entonces 𝑆𝐶𝐸 =

𝑅 2 . 𝑆𝐶𝑇 y 𝑆𝐶𝑅 = (1 − 𝑅 2 ). 𝑆𝐶𝑇. Luego, reemplazando estos valores en F tenemos

𝑅 2 /(𝑘 − 1)
𝐹=
(1 − 𝑅 2 )/(𝑛 − 𝑘)

Esta relación no es mera coincidencia. Cuando el R-cuadrado es más alto, el estadístico


𝐹 que prueba la significancia conjunta de la regresión será más grande con lo cual se
rechazará la hipótesis nula que ninguna de las variables exógenas explica a la endógena.
También ocurrirá que si el R-cuadrado es pequeño, F tenderá a ser un valor también
pequeño.

Sabemos que el R-cuadrado está limitado al rango [0, 1]. Pero en el caso de 𝐹, no está
limitado superiormente, aunque inferiormente se sabe que no puede ser negativo. En la
práctica, 𝐹 podría tomar valores desde un dígito hasta varios miles de puntos. Quizás
los valores críticos 𝐹1−𝛼 (𝑞, 𝑛 − 𝑘) que se obtienen de la tabla estadística de la
distribución F de Fisher nos puedan dar una idea sobre qué se puede considerar como 𝐹
grande o pequeño. En las pruebas de hipótesis lineales de significancia conjunta, los
grados de libertad en el numerador son en la práctica mucho más pequeños que los
grados de libertad en el denominador. Estos últimos normalmente superan los 30 grados
de libertad. Para 𝑛 − 𝑘 = 30, los valores críticos 𝐹0.95 (𝑞, 30) disminuyen desde 4.17 a
1.63 conforme 𝑞 aumenta desde 1 a más. Para infinitos grados de libertad en el
denominador, 𝐹0.95 (𝑞, ∞) toma valores desde 3.84 a 1.30 conforme 𝑞 aumenta.

130
En datos microeconómicos en donde abundan las observaciones –y por ello los grados
de libertad del denominador se cuentan por cientos o miles, puede ocurrir que el R-
cuadrado sea pequeño (digamos inferior a 0.10) pero que se rechace la hipótesis nula de
no significancia conjunta. No se debe pensar que hay una contradicción en este
resultado.

5.4 Estimación del modelo de regresión lineal sujeto a restricciones lineales

En las secciones anteriores vimos un planteamiento general para probar hipótesis


lineales sobre los parámetros. En esta ocasión, en vez de probar la hipótesis nula
̂ = 𝒓, es decir
𝑹𝜷 = 𝒓 vamos a estimar los coeficientes imponiendo la restricción 𝑹𝜷
forzando a que los parámetros estimados por MCO cumplan las ecuaciones de
̂=𝒓
restricción mencionadas. Esto se puede hacer de dos formas: (1) Reemplazando 𝑹𝜷
̂ + 𝒆 y minimizando la SCR; (2) Minimizando la SCR sujeta a 𝑹𝜷
en 𝒚 = 𝑿𝜷 ̂ = 𝒓.

Para el desarrollo de esta sección, veamos unos ejemplos que clarifican la idea de los
modelos restringidos y los no restringidos.

Ejemplo 5.4: Estimación de la función de producción Cobb-Douglas con rendimientos


constantes a escala. En el Ejemplo 5.1 se vio el problema de la estimación del modelo
linealizado de la función de producción Cobb-Douglas, en donde 𝑌𝑖 = 𝑙𝑛𝑄𝑖 , 𝑋2𝑖 =
𝑙𝑛𝐾𝑖 , y 𝑋3𝑖 = 𝑙𝑛𝐿𝑖 , y

𝑌𝑖 = 𝛽1 + 𝛽2 𝑋2𝑖 + 𝛽3 𝑋3𝑖 + 𝑢𝑖 (5.10)

(5.10) es un modelo irrestricto, dado que no se ha planteado ninguna restricción a los


valores de los 𝛽s. El modelo irrestricto estimado por MCO en donde no se ha impuesto
ninguna restricción a los estimadores es

𝑌𝑖 = 𝛽̂1 + 𝛽̂2 𝑋2𝑖 + 𝛽̂3 𝑋3𝑖 + 𝑒𝑖 (5.11)

Mientras que en el ejemplo 5.1 se planteaba la hipótesis 𝛽2 + 𝛽3 = 1, si imponemos


esta restricción el modelo se transforma en:

𝑌𝑖 = 𝛽1 + 𝛽2 𝑋2𝑖 + (1 − 𝛽2 )𝑋3𝑖 + 𝑢𝑖

𝑌𝑖 − 𝑋3𝑖 = 𝛽1 + 𝛽2 (𝑋2𝑖 − 𝑋3𝑖 ) + 𝑢𝑖 (5.12)

131
En (5.12), 𝑌𝑖 − 𝑋3𝑖 = 𝑙𝑛𝑄𝑖 − 𝑙𝑛𝐿𝑖 = ln(𝑄𝑖 /𝐿𝑖 ) mientras que 𝑋2𝑖 − 𝑋3𝑖 = ln(𝐾𝑖 /𝐿𝑖 ).
Entonces, (5.12) es un modelo restringido y consiste en regresionar al producto per
cápita contra el capital per cápita, en donde se asume que los rendimientos a escala son
constantes. En la versión estimada por MCO se debe cumplir que la suma de las
pendientes es igual a 1, es decir se debe forzar la estimación para que la suma de los
estimadores refleje los rendimientos constantes a escala. Esto se consigue con la
estimación del modelo

𝑌𝑖 − 𝑋3𝑖 = 𝛽̃1 + 𝛽̃2 (𝑋2𝑖 − 𝑋3𝑖 ) + 𝑒̃𝑖 (5.13)

En (5.13) no solamente se ha empleado la ecuación de rendimientos constantes a escala,


sino que se resalta mediante tildes ~ que los estimadores con restricciones son distintos
a los estimadores sin restricciones. El residuo con restricciones también será diferente al
residuo del modelo sin restricciones. La estimación de este modelo transformado por
MCO entrega los valores 𝛽̃1 y 𝛽̃2, que son los estimadores sujetos a la restricción
mencionada. El estimador 𝛽̃3 se obtiene de la condición 𝛽̃2 + 𝛽̃3 = 1.

Alternativamente, se pudo haber obtenido a estos estimadores mediante un


procedimiento de minimización de la sumatoria de cuadrados de los residuos sujeta a la
restricción. Tal problema matemático es

𝑛 𝑛

min{𝛽̃1 ,𝛽̃2,𝛽̃3 } ∑ 𝑒̃𝑖2 = ∑(𝑌𝑖 − 𝛽̃1 − 𝛽̃2 𝑋2𝑖 − 𝛽̃3 𝑋3𝑖 )2


𝑖=1 𝑖=1

𝑠𝑢𝑗𝑒𝑡𝑜 𝑎 𝛽̃2 + 𝛽̃3 = 1

Este procedimiento es totalmente equivalente a la estimación MCO del modelo


transformado (5.12).

Ejemplo 5.5: En la ecuación de salarios del ejemplo 5.2, el modelo irrestricto estimado
es

ln(𝑊𝑖 ) = 𝛽̂1 + 𝛽̂2 𝑆𝑖 + 𝛽̂3 𝐸𝑥𝑝𝑖 + 𝛽̂4 𝐸𝑥𝑝𝑖2 + 𝑒𝑖 .

Supongamos que consideramos que las variables de experiencia laboral no son


importantes y por lo tanto las retiramos del modelo. Quitarlas de la regresión equivale a
estimar el modelo imponiendo la restricción 𝛽̂3 = 0 y 𝛽̂4 = 0. Luego el modelo
restringido: es uno más corto,
132
ln(𝑊𝑖 ) = 𝛽̃1 + 𝛽̃2 𝑆𝑖 + 𝑒̃𝑖 .

La estimación por MCO del modelo restringido entrega 𝛽̃1 y 𝛽̃2, así como 𝑒̃𝑖 . No es
necesario tener estimaciones de los demás parámetros porque hemos impuesto que
𝛽̃3 = 0 y 𝛽̃4 = 0.

Presentaremos ahora la obtención de los parámetros restringidos por mínimos cuadrados


ordinarios. Nuestro objetivo es, en primer lugar obtener una expresión general del
̃ , y su relación con los estimadores MCO sin
estimador MCO con restricciones 𝜷
̂ . En general, el problema de minimización de la SCR es
restricciones 𝜷


̃ ) (𝒚 − 𝑿𝜷
min 𝒆̃′ 𝒆̃ = (𝒚 − 𝑿𝜷 ̃)

̃ = 𝒓.
s. a 𝑹𝜷

Planteamos el lagrangiano de este problema, que sería,

̃ )′ (𝒚 − 𝑿𝜷
ℒ = (𝒚 − 𝑿𝜷 ̃ ) + 𝝀′ (𝒓 − 𝑹𝜷
̃ ).

En el lagrangiano, 𝝀 es un vector q × 1 de multiplicadores de Lagrange, que multiplican


̃ = 𝒓. Desarrollando los paréntesis,
a las 𝑞 restricciones en 𝑹𝜷

̃+𝜷
ℒ = 𝒚′ 𝒚 − 2𝒚′ 𝑿𝜷 ̃ ′ 𝑿′ 𝑿𝜷
̃ − 𝝀′ 𝑹𝜷
̃ + 𝝀′ 𝒓.

̃ y los
Derivando el lagrangiano respecto al vector de parámetros restringidos 𝜷
multiplicadores4,

𝜕ℒ
̃ − 𝑹′ 𝝀 = 𝟎
= −2𝑿′ 𝒚 + 2𝑿′ 𝑿𝜷 (5.14)
̃
𝜕𝜷

𝜕ℒ
̃=𝟎
= 𝒓 − 𝑹𝜷 (5.15)
𝜕𝝀

De la ecuación (5.14) se obtiene,

̃ = 2𝑿′ 𝒚 + 𝑹′ 𝝀
2𝑿′ 𝑿𝜷

̃ = (𝑿′ 𝑿)−1 𝑿′ 𝒚 + 1 (𝑿′ 𝑿)−1 𝑹′ 𝝀


𝜷 (5.16)
2

4
Seguimos las reglas de derivación de matrices.

133
̂ , tenemos
Premultiplicando (5.16) por 𝑹, dado que (𝑿′ 𝑿)−1 𝑿′ 𝒚 = 𝜷

̂ + 1𝑹(𝑿′ 𝑿)−1 𝑹′ 𝝀
⏟̃ = 𝑹𝜷
𝑹𝜷 2
𝒓

̃ = 𝒓. Despejamos a 𝝀,
Se ha tomado en cuenta que 𝑹𝜷

̂ = 1𝑹(𝑿′ 𝑿)−1 𝑹′ 𝝀
𝒓 − 𝑹𝜷 2

̂ ) = 𝑹(𝑿′ 𝑿)−1 𝑹′ 𝝀
2(𝒓 − 𝑹𝜷

̂)
𝝀 = 2(𝑹(𝑿′ 𝑿)−1 𝑹′ )−1 (𝒓 − 𝑹𝜷

Finalmente reemplazando este resultado en (5.16)

̃=𝜷
𝜷 ̂ + (𝑿′ 𝑿)−1 𝑹′ (𝑹(𝑿′ 𝑿)−1 𝑹′ )−1 (𝒓 − 𝑹𝜷
̂) (5.17)

Esta es la expresión general de los estimadores de 𝜷 por MCO sujetos a cualquier


̂ = 𝒓. Obsérvese que en general los estimadores
restricción lineal del tipo 𝑹𝜷
̃ serán diferentes de los estimadores MCO sin restricciones 𝜷
restringidos 𝜷 ̂ , en donde la
̂.
diferencia entre ellos depende de qué tan diferentes sean 𝒓 de 𝑹𝜷

Aplicando el valor esperado a (5.17),

̃ ] = 𝐸[𝜷
𝐸[𝜷 ̂ ] + (𝑿′ 𝑿)−1 𝑹′ (𝑹(𝑿′ 𝑿)−1 𝑹′ )−1 (𝒓 − 𝑹𝐸[𝜷
̂ ])

= 𝜷 + (𝑿′ 𝑿)−1 𝑹′ (𝑹(𝑿′ 𝑿)−1 𝑹′ )−1 (𝒓 − 𝑹𝜷)

Podemos observar que los estimadores restringidos son insesgados únicamente si la


restricción es correcta, es decir si es cierto que 𝑹𝜷 = 𝒓. En cualquier otro caso, los
estimadores sujetos a restricciones serán sesgados. Este resultado es más general que el
discutido en el capítulo 4 en donde se afirmó que la omisión de variables relevantes
provoca sesgo en las estimaciones. Dichas omisiones son un caso especial de la
imposición de restricciones lineales, tal como se vio en el ejemplo 5.5.

Ahora vamos a calcular la sumatoria de cuadrados de residuos del modelo restringido y


compararla con la del modelo sin restricciones. Definamos los residuos del modelo
restringido como

̃
𝒆̃ = 𝒚 − 𝑿𝜷 (5.18)

134
Estos residuos no tienen por qué ser iguales a los residuos del modelo irrestricto
̂ . Despejando 𝒚, y remplazándolo en la ecuación (5.18)
𝒆 = 𝒚 − 𝑿𝜷

̂ − 𝑿𝜷
𝒆̃ = 𝒆 + 𝑿𝜷 ̃ = 𝒆 − 𝑿(𝜷
̃−𝜷
̂)

La sumatoria de cuadrados de residuos del modelo restringido es entonces,

̃−𝜷
𝒆̃′ 𝒆̃ = 𝒆′ 𝒆 + (𝜷 ̂ )′𝑿′𝑿(𝜷
̃−𝜷
̂) (5.19)

En este resultado se ha tomado en cuenta que 𝐞′ 𝐗 = 𝟎. Operando se tiene,

̃−𝜷
𝒆̃′ 𝒆̃ − 𝒆′ 𝒆 = (𝜷 ̂ )′𝑿′𝑿(𝜷
̃−𝜷
̂) (5.20)

El lado derecho de (5.20) es una forma cuadrática positiva semidefinida, y por lo tanto
se cumple que 𝒆̃′ 𝒆̃ ≥ 𝒆′ 𝒆. En palabras, los residuos del modelo restringido son mayores
o iguales a los residuos irrestrictos, lo cual no debe extrañarnos pues estos últimos se
obtienen de una minimización sin restricciones.

̃−𝜷
De la ecuación (5.17), despejamos (𝜷 ̂)

̃−𝜷
𝜷 ̂ = (𝑿′ 𝑿)−1 𝑹′ (𝑹(𝑿′ 𝑿)−1 𝑹′ )−1 (𝒓 − 𝑹𝜷
̂)

̃−𝜷
Multiplicamos por la izquierda por (𝜷 ̂ )′𝑿′𝑿,

(𝜷 ̂ )′ 𝑿′ 𝑿(𝜷
̃−𝜷 ̃−𝜷
̂ ) = (𝜷 ̂ )′ ⏟
̃−𝜷 ̂)
𝑿′ 𝑿(𝑿′ 𝑿)−1 𝑹′ (𝑹(𝑿′ 𝑿)−1 𝑹′ )−1 (𝒓 − 𝑹𝜷
𝑰

⏟̃ − 𝜷
̂ ′ )𝑹′ (𝑹(𝑿′ 𝑿)−1 𝑹′ )−1 (𝒓 − 𝑹𝜷
̂)

= (𝜷
̃ ′ 𝑹′ −𝜷
(𝜷
⏟ ̂ ′ 𝑹′ )
𝒓′

̂ )′ (𝑹(𝑿′ 𝑿)−1 𝑹′ )−1 (𝒓 − 𝑹𝜷


= (𝒓 − 𝑹𝜷 ̂)

̂ − 𝒓)′(𝑹(𝑿′ 𝑿)−1 𝑹′ )−1 (𝑹𝜷


= (𝑹𝜷 ̂ − 𝒓)

Luego, reemplazando en (5.20)

̂ − 𝒓)′[𝑹(𝑿′ 𝑿)−1 𝑹′ ]−1 (𝑹𝜷


𝒆̃′ 𝒆̃ − 𝒆′ 𝒆 = (𝑹𝜷 ̂ − 𝒓)

Esta expresión es igual al numerador de la fórmula del estadístico 𝐹 en (5.8), excepto


por la división entre q. Esta equivalencia es importante en términos de la prueba de

135
hipótesis lineales 𝑹𝜷 = 𝒓, la cual se puede realizar con la expresión (5.8) o con su
equivalente

(𝒆̃′ 𝒆̃ − 𝒆′ 𝒆)/𝑞
𝐹= (5.21)
𝒆′ 𝒆/(𝑛 − 𝑘)

Esta nueva fórmula en ocasiones puede ser más fácil de calcular que (5.8), pues esta
última requiere de operaciones matriciales, mientras que (5.21) solo involucra unos
pocos cálculos. Si se conoce la 𝑆𝐶𝑅 del modelo restricto y del irrestricto, la prueba de
hipótesis sobre las hipótesis lineales aplicadas en el modelo restricto es muy simple.

Ejemplo 5.6: Contamos con información de producción, capital y trabajo de 27


empresas, y deseamos estimar la función de producción. Supongamos que tenemos dos
modelos alternativos para estimar una función de producción Cobb-Douglas logarítmica

𝑙𝑛𝑄𝑖 = 𝛽1 + 𝛽2 𝑙𝑛(𝐾𝑖 ) + 𝛽3 𝑙𝑛(𝐿𝑖 ) + 𝑢𝑖

y la Translogarítmica,

𝑄𝑖 = 𝛼1 + 𝛼2 𝑙𝑛(𝐾𝑖 ) + 𝛼3 𝑙𝑛(𝐿𝑖 ) + 𝛼4 [𝑙𝑛(𝐾𝑖 )]2 + 𝛼5 [𝑙𝑛(𝐿𝑖 )]2 + 𝛼6 𝑙𝑛(𝐾𝑖 )


∗ 𝑙𝑛(𝐿𝑖 ) + 𝑢𝑖

Contamos la siguiente información de la estimación del modelo Cobb-Douglas,

Y también tenemos la información de la matriz (𝑿′ 𝑿)−1 en donde el orden de las


variables en la matriz de datos 𝑿 es: {constante, ln(𝐾), ln(𝐿)}

3.009364 0.033501 −0.558981


(𝑿′ 𝑿)−1 = [ 0.033501 0.205268 −0.27099 ]
−0.558981 −0.27099 0.447074

(a) Probar la hipótesis de rendimientos constantes a escala 𝐻0 : 𝛽2 + 𝛽3 = 1.

En primer lugar, definamos a 𝑹 = [0 1 1] y 𝒓 = [1]. Luego


136
1.170644
̂ − 𝒓 = [0 1 1] [. 3757101] − 1 = −0.021291
𝑹𝜷
. 6029995

3.009364 0.033501 −0.558981 0


′ −1 ′
𝑹(𝑿 𝑿) 𝑹 = [0 1 1] [ 0.033501 0.205268 −0.27099 ] [1] = 0.110355
−0.558981 −0.27099 0.447074 1

Reemplazando estos resultados en (5.8) se obtiene

(−0.021291)(0.110355)−1 (−0.021291)/1
𝐹= = 0.115
0.851634084/24

El valor crítico de la tabla F-Fisher es 𝐹(1,24) = 4.25, por lo tanto no se rechaza la


hipótesis nula de rendimientos constantes a escala.

(b) Estimar el modelo Cobb-Douglas imponiendo la restricción de rendimientos


constantes a escala.

̃ según (5.13) y usando los datos de la parte (a).


Calculamos 𝜷

1.170644 3.009364 0.033501 −0.558981 0


̃ = [. 3757101] + [ 0.033501 0.205268 −0.27099 ] [1] [0.110355]−1 ∗ (0.021291)
𝜷
. 6029995 −0.558981 −0.27099 0.447074 1

1.069265
̃
𝜷 = [0.3630298]
0.6369702

(c) Estimar lo mismo transformando el modelo original en uno restricto tal como se
mencionó en el Ejemplo 5.4.

𝑙𝑛(𝑄𝑖 ) = 𝛽̃1 + 𝛽̃2 𝑙𝑛(𝐾𝑖 ) + (1 − 𝛽̃2 )𝑙𝑛(𝐿𝑖 ) + 𝑒̃𝑖

𝑙𝑛(𝑄𝑖 ) − 𝑙𝑛(𝐿𝑖 ) = 𝛽̃1 + 𝛽̃2 (𝑙𝑛(𝐾𝑖 ) − 𝑙𝑛(𝐿𝑖 )) + 𝑒̃𝑖

Para estimar este modelo usando Stata, se requiere la creación de las variables producto
per cápita y capital per cápita 𝑙𝑛𝑞𝑙 = 𝑙𝑛(𝑄) − 𝑙𝑛(𝐿), y 𝑙𝑛𝑘𝑙 = 𝑙𝑛(𝐾) − 𝑙𝑛(𝐿).

137
Source SS df MS Number of obs = 27
F( 1, 25) = 23.18
Model .793327071 1 .793327071 Prob > F = 0.0001
Residual .855741541 25 .034229662 R-squared = 0.4811
Adj R-squared = 0.4603
Total 1.64906861 26 .063425716 Root MSE = .18501

lnql Coef. Std. Err. t P>|t| [95% Conf. Interval]

lnkl .3630298 .075408 4.81 0.000 .2077241 .5183356


_cons 1.069265 .1317588 8.12 0.000 .7979026 1.340627

La estimación por MCO arroja los mismos resultados de los parámetros 𝛽̃1 y 𝛽̃2 de la
parte (a), tal como se esperaba.

(d) Estimar los modelos Cobb Douglas y Translogarítmico y decida qué modelo es más
apropiado para los datos.

Las estimaciones del modelo translogarítmico requiere la creación de nuevas variables


en Stata. Estas son 𝑙𝑛𝑘2 = ln(𝐾)2 , 𝑙𝑛𝑙2 = ln(𝐿)2 , y 𝑙𝑛𝑘𝑙𝑛𝑙 = ln(𝐾) . ln(𝐿). Se obtiene,

Source SS df MS Number of obs = 27


F( 5, 21) = 88.85
Model 14.3832702 5 2.87665403 Prob > F = 0.0000
Residual .679927316 21 .032377491 R-squared = 0.9549
Adj R-squared = 0.9441
Total 15.0631975 26 .57935375 Root MSE = .17994

lnq Coef. Std. Err. t P>|t| [95% Conf. Interval]

lnk -1.893117 1.016261 -1.86 0.077 -4.006547 .2203136


lnl 3.613644 1.548073 2.33 0.030 .3942489 6.833038
lnk2 .0426461 .1463045 0.29 0.774 -.2616108 .3469031
lnl2 -.482029 .3536924 -1.36 0.187 -1.217573 .2535147
lnklnl .3123908 .4389274 0.71 0.484 -.6004087 1.22519
_cons .9441974 2.910757 0.32 0.749 -5.109053 6.997448

El modelo Cobb-Douglas es un caso especial del Translogarítmico que impone la


restricción 𝛼4 = 𝛼5 = 𝛼6 = 0. Podemos usar estos resultados para probar la
hipótesis 𝐻0 : 𝛼4 = 𝛼5 = 𝛼6 = 0. Tomando al modelo Cobb-Douglas como el modelo
restringido, calculamos el estadístico 𝐹 empleando las sumatorias de cuadrados de los
residuos de estas tablas. Se obtiene,

(𝒆̃′ 𝒆̃ − 𝒆′ 𝒆)/𝑞 (0.851634084 − .679927316)/3


𝐹= = = 1.76
𝒆′ 𝒆/(𝑛 − 𝑘) . 679927316/(27 − 6)

El valor crítico al 5% de significancia de la tabla F de Fisher es 𝐹(3,21) = 3.0725, por lo


tanto no se rechaza la hipótesis nula.

138
5.5 Predicción en el modelo de k variables

Después de haberse estimado el modelo de regresión lineal 𝒚 = 𝑿𝜷 + 𝒖 por mínimos


̂ , podríamos preguntarnos: ¿qué valor
̂ = 𝑿𝜷
cuadrados ordinarios y haber obtenido, 𝒚
tomará la variable endógena 𝑌 si las variables exógenas toman algún valor en
particular? La respuesta natural a esta pregunta consiste en tomar a la fórmula de la
“recta” estimada y evaluarla en los valores específicos de las variables exógenas.
Llamemos 𝐱 𝐟 al vector fila de valores de las variables exógenas sobre las cuales se
quiere hacer la predicción.

𝒙 𝒇 = [1 𝑋2𝑓 𝑋3𝑓 … 𝑋𝑘𝑓 ]

Luego, la predicción puntual del modelo es simplemente

̂ = 𝛽1 + 𝛽̂2 𝑋2𝑓 + 𝛽̂3 𝑋3𝑓 + ⋯ + 𝛽̂𝑘 𝑋𝑘𝑓


𝑌̂𝑓 = 𝒙𝒇 𝜷 (5.22)

Esta predicción corresponde al valor de 𝑌 sobre la recta estimada, aunque en un


contexto de 𝑘 variables, tal recta estimada no puede ser graficada. La Figura 5.2 nos
muestra la recta estimada, en el caso del modelo de dos variables, con cinco
observaciones. Luego, la predicción cuando la variable 𝑋 toma el valor 𝑋𝑓 es la imagen
en la función de regresión muestral.

Es de esperarse que en el trabajo con muestras aleatorias, exista cierta variabilidad


muestral que provoque que el valor observado de 𝑌 cuando 𝑋 = 𝑋𝑓 no tenga que ser
necesariamente el mismo que 𝑌̂𝑓 . Nos interesa tener alguna idea acerca de un rango de
valores en el que podríamos tener la confianza de que el verdadero valor de la endógena
podría caer con cierta probabilidad cuando se dé el hecho que 𝑋 = 𝑋𝑓 . El gráfico
también muestra este intervalo, expresado con sus límites inferior y superior aunque aun
no sabemos exactamente los valores de este intervalo para la predicción.

Para empezar la construcción del intervalo, primero notemos que el valor esperado de la
predicción 𝑌̂𝑓 es igual a

̂ ] = 𝒙𝒇 𝐸[𝜷
𝐸[𝑌̂𝑓 ] = 𝐸[𝒙𝒇 𝜷 ̂ ] = 𝒙𝒇 𝜷

Esto quiere decir que en promedio esperaríamos que nuestra predicción coincida con lo
que la regresión poblacional indica. Sin embargo, este valor esperado es en general

139
diferente del verdadero valor observado (o que se observará) de 𝑌 cuando las exógenas
tomen los valores en 𝒙𝒇 .

Yf = 𝒙𝒇 𝜷 + 𝑢𝑓 (5.23)

La diferencia radica en el componente 𝑢𝑓 que es la parte no explicada del


comportamiento de 𝑌. Como la predicción se hacen en base a la parte explicada del
modelo, o sea 𝑿𝜷 y su estimación, ellas no pronostican nada sobre el término de
perturbación 𝒖𝒇 . En sí, este error es un shock aleatorio imprevisible por el modelo, y es
necesario hacer supuestos acerca de la distribución de esta variable aleatoria. Es típico
que se asuma que este shock tenga la misma distribución y las mismas propiedades que
los términos de perturbación de la muestra, pues no tenemos ninguna información a
priori de que esto no sea así.

Figura 5.2
Ilustración de la predicción y su intervalo

Y
𝑌̂𝑖 = 𝛽̂1 + 𝛽̂2 𝑋𝑖

Límite Superior

𝑌̂𝑓

Límite Inferior

X1 X2 X3 X4 X5

𝑋𝑓

Volviendo a la predicción 𝑌̂𝑓 , nos interesa comparar esta predicción con el verdadero
valor que tomará la endógena 𝑌 cuando 𝑿 sea igual a 𝒙𝒇 . Definimos al error de
predicción 𝑒𝑓 como

𝑒𝑓 = 𝑌𝑓 − 𝑌̂𝑓 (5.24)

140
donde 𝑌𝑓 es el valor real de 𝑌 cuando 𝑿 = 𝒙𝒇 . Reemplazando (5.22) y (5.23) en (5.24)
tenemos

̂ = −𝒙𝒇 (𝜷
𝑒𝑓 = 𝒙𝒇 𝜷 + 𝒖𝒇 − 𝒙𝒇 𝜷 ̂ − 𝜷) + 𝑢𝑓 (5.25)

En la ecuación (5.25) se puede ver que el error de predicción tiene dos componentes: el
̂ − 𝜷), es el error debido a la imprecisión en la estimación de 𝜷,
primero, −𝒙𝒇 (𝜷
mientras que el segundo, 𝑢𝑓 , es la perturbación imprevisible mencionado líneas arriba.

Tomando el valor esperado al error de predicción, resulta ser igual a cero.

̂ − 𝜷)] + 𝐸[𝑢𝑓 ] = 0
𝐸[𝑒𝑓 ] = −𝒙𝒇 𝐸[(𝜷

̂ ] ≠ 𝜷, como podría ocurrir si se omiten variables relevantes, existiría


Nótese que si 𝐸[𝜷
un sesgo en la predicción. Calculando la varianza del error de predicción y asumiendo
que 𝑢𝑓 se comporta como un término de perturbación más,

̂ − 𝜷))
𝑉𝑎𝑟(𝑒𝑓 ) = 𝑉𝑎𝑟(𝑢𝑓 − 𝒙𝒇 (𝜷

̂ − 𝜷)) − 2𝐶𝑜𝑣(𝒙𝒇 (𝜷
= 𝑉𝑎𝑟(𝑢𝑓 ) + 𝑉𝑎𝑟 (𝒙𝒇 (𝜷 ̂ − 𝜷), 𝑢𝑓 )

La covarianza es cero pues

̂ − 𝜷), 𝑢𝑓 ) = 𝐸[𝒙𝒇 (𝜷
𝐶𝑜𝑣(𝒙𝒇 (𝜷 ̂ − 𝜷). 𝑢𝑓 ] =

= 𝐸[𝒙𝒇 (𝑿′𝑿)−𝟏 𝒖 . 𝑢𝑓 ] = 𝒙𝒇 (𝑿′𝑿)−𝟏 𝐸[𝒖. 𝑢𝑓 ]

Al ser 𝑢𝑓 un escalar y 𝒖 el vector columna de 𝑛 términos de perturbación, el esperado


𝐸[𝒖. 𝑢𝑓 ] es un vector columna de ceros, pues 𝑢𝑓 no está correlacionado con ninguno de
los elementos de la columna 𝒖 (supuesto de no autocorrelación). Luego,

′ ′
̂ − 𝜷)(𝜷
𝑉𝑎𝑟[𝑒𝒇 ] = 𝜎 2 + 𝐸 [𝒙𝒇 (𝜷 ̂ − 𝜷) 𝒙′𝒇 ] = 𝜎 2 + 𝒙𝒇 𝐸 [(𝜷
̂ − 𝜷)(𝜷
̂ − 𝜷) ] 𝒙′𝒇

= 𝜎 2 + 𝜎 2 𝒙𝒇 (𝑿′𝑿)−𝟏 𝒙′𝒇 = 𝜎 2 [1 + 𝒙𝒇 (𝑿′𝑿)−𝟏 𝒙′𝒇 ]

̂ y 𝑢𝑓 se distribuyen normalmente, 𝑒𝑓 también seguirá una distribución


Dado que 𝜷
normal, con lo que la estandarización da como resultado:

141
𝑒𝑓
~𝑁(0,1)
𝜎√1 + 𝒙𝒇 (𝑿′𝑿)−𝟏 𝒙′𝒇

Al reemplazar a 𝜎 por 𝑠, el residuo estandarizado se distribuirá como una t -Student con


n × 𝑘 grados de libertad.

𝑒𝑓 𝑌𝑓 − 𝑌̂𝑓
= ~ 𝑡(𝑛 − 𝑘)
𝑠√1 + 𝒙𝒇 (𝑿′𝑿)−𝟏 𝒙′𝒇 𝑠√1 + 𝒙𝒇 (𝑿′𝑿)−𝟏 𝒙′𝒇

Luego, definido un nivel de confianza para el intervalo de (1 − α)100%, ocurrirá que

𝑌𝑓 − 𝑌̂𝑓
𝑃𝑟 −𝑡1−𝛼 (𝑛 − 𝑘) < < 𝑡1−𝛼 (𝑛 − 𝑘) = 1−𝛼
2 2
𝑠√1 + 𝒙𝒇 (𝑿′𝑿)−𝟏 𝒙′𝒇
( )

Despejando obtenemos el intervalo de confianza para 𝑌𝑓

𝑌̂𝑓 ± 𝑡1−𝛼 (𝑛 − 𝑘). 𝑠√1 + 𝒙𝒇 (𝑿′𝑿)−𝟏 𝒙′𝒇 (5.26)


2

Ejemplo 5.7: Predicción en el modelo Cobb-Douglas.

Continuando con el Ejemplo 5.6, utilizando las estimaciones del modelo Cobb-Douglas
ln(𝑄𝑖 ) = 𝛽1 + 𝛽2 ln(𝐾𝑖 ) + 𝛽3 ln(𝐿𝑖 ) + 𝑢𝑖 sin restricciones sobre los parámetros,
queremos pronosticar cuál sería la producción de una empresa típica si utilizara 5,000
unidades de capital y 500 de trabajo. Tomando logaritmo natural a estos valores resulta
en ln(𝐾 = 5000) = 8.517193 y ln(𝐿 = 5000) = 6.2146081. Reemplazando los
valores en la estimación puntual se obtiene

𝑌̂𝑓 = 1.17064 + 0.37571 ∗ 8.517193 + 0.60299 ∗ 6.2146081 = 8.118046

Como el modelo se ha estimado en logaritmos, la producción pronosticada por el


modelo es 𝑄̂𝑓 = exp(8.118046) = 3354.46. Considerando una desviación estándar
estimada 𝑠 = 0.18837, el intervalo de confianza de la predicción al 95% de confianza
se calcula según (5.26) (mostrando los datos solo con 3 decimales) como

3.009364 0.033501 −0.558981 1


8.118046 ± 2.063.0.188√1 + [1 8.517 6.215] [ 0.033501 0.205268 −0.27099 ] [8.517]
−0.558981 −0.27099 0.447074 6.215

142
Esto da como resultado los valores del intervalo en [7.7099,8.529]. Tomando el
exponencial a estos valores diríamos que esperamos que la producción de una empresa
con estas cantidades de capital y trabajo se encuentre entre 2230.47 y 5044.83 unidades.

143
Apéndice 5.1

̂ por 𝑹, tenemos un vector 𝑹𝜷


Premultiplicando a 𝜷 ̂ de dimensión 𝑞 × 1 (recuérdese que
𝑞 es el número de ecuaciones en la hipótesis nula). Es fácil comprobar que la media y la
̂ son iguales a
varianza de 𝑹𝜷

̂ ] = 𝑹𝜷
𝐸[𝑹𝜷

̂ ] = 𝜎 2 𝑹(𝑿′𝑿)−1 𝑹′
𝑉𝑎𝑟[𝑹𝜷

̂ se distribuye como una normal multivariada, 𝑹𝜷


Dado que 𝜷 ̂ también se distribuirá
como una normal multivariada, por lo tanto

̂ ~ 𝑁(𝑹𝜷, 𝜎 2 𝑹(𝑿′𝑿)−1 𝑹′)


𝑹𝜷

Sustrayendo el valor 𝑹𝜷, la distribución queda centrada en cero como

̂ − 𝑹𝜷 ~ 𝑁(0, 𝜎 2 𝑹(𝑿′𝑿)−1 𝑹′)


𝑹𝜷

Podemos transformar este vector aleatorio para definir una variable aleatoria 𝜒 2 con 𝑞
grados de libertad5

̂ − 𝑹𝜷)′[𝜎 2 𝑹(𝑿′ 𝑿)−1 𝑹′ ]−1 (𝑹𝜷


(𝑹𝜷 ̂ − 𝑹𝜷) ~ 𝜒 2 (𝑞) (5.27)

Por otro lado, de (5.2) sabemos que 𝒆′ 𝒆⁄𝜎 2 ~𝜒 2 (𝑛 − 𝑘), y que 𝒆′ 𝒆⁄𝜎 2 es
̂ y 𝒆 son independientes. Entonces la siguiente expresión
independiente de (5.27) pues 𝜷
se distribuye exactamente como una 𝐹 de Fisher con 𝑞 grados de libertad en el
numerador y 𝑛 − 𝑘 grados de libertad en el denominador.

̂ − 𝑹𝜷)′[𝜎 2 𝑹(𝑿′ 𝑿)−1 𝑹′ ]−1 (𝑹𝜷


(𝑹𝜷 ̂ − 𝑹𝜷)/𝑞
(5.28)
𝒆′ 𝒆
/(𝑛 − 𝑘)
𝜎2

La última expresión no es calculable directamente pues contiene a los parámetros


poblacionales en 𝜷. Si la hipótesis nula es cierta se cumple que 𝑹𝜷 = 𝒓. Reemplazando
esto en la última expresión y cancelando el término 𝜎 2 tenemos al estadístico 𝐹

5
Si 𝒛 es un vector 𝑛 × 1 donde 𝒛~𝑁(𝟎, ∑), entonces 𝒛′ ∑−1 𝒛 ∼ 𝜒 2 (𝑛).

144
̂ − 𝒓)′[𝑹(𝑿′ 𝑿)−1 𝑹′ ]−1 (𝑹𝜷
(𝑹𝜷 ̂ − 𝒓)/𝑞
~𝐹(𝑞,𝑛−𝑘)
𝒆′ 𝒆/(𝑛 − 𝑘)

Este valor es perfectamente calculable con los datos. Cabe notar que si la hipótesis nula
es falsa, el estadístico 𝐹 es distinto a (5.28) y por lo tanto no se distribuiría como una F
de Fisher.

Apéndice 5.2

Queremos demostrar que 𝑹(𝑿′ 𝑿)−1 𝑹′ = (𝑿′2 𝑨𝑿2 )−1 cuando 𝑹 = [𝟎 𝑰𝒌−𝟏 ], donde
𝑿2 es la matriz de datos que incluye a todas las variables menos la constante, y 𝑨 es la
matriz que genera desviaciones respecto a los promedios.

Sea 𝑿 = [𝒊 ⋮ 𝑿2 ], luego

𝑛 ⋮ 𝒊′ 𝑿2

𝑿 𝑿 = [⋯ ⋯ ⋯ ⋯ ⋯ ].
𝑿′2 𝒊 ⋮ 𝑿′2 𝑿2

𝒂 ⋮ 𝒃
La inversa de esta matriz es (𝑿′ 𝑿)−1 = [⋯ ⋯ ⋯]. Utilizando las fórmulas de la
𝒄 ⋮ 𝒅
inversa de una matriz particionada del anexo de matrices, se cumple que la submatriz 𝒅
es

−1 −1
1 1
𝒅 = [𝑿′2 𝑿2 − 𝑿′2 ( ) 𝒊′𝑿2 ] = [𝑿′2 [𝑰 − 𝒊𝒊′] 𝑿2 ] = (𝑿′2 𝑨𝑿2 )−1
𝑛 𝑛

Por otro lado, como 𝑹 = [𝟎 ⋮ 𝑰𝒌−𝟏 ] el producto 𝑹(𝑿′ 𝑿)−1 𝑹′ selecciona la submatriz
cuadrada inferior derecha 𝑘 − 1 × 𝑘 − 1 de (𝑿′ 𝑿)−1 , es decir la matriz 𝒅. Por lo tanto
se comprueba lo que se estaba buscando.

145
Ejercicios

5.1 Dados los datos del modelo, 𝑌𝑖 = 𝛽1 + 𝛽2 𝑋2𝑖 + 𝛽3 𝑋3𝑖 + 𝑢𝑖

Y X2 X3
3 3 5
8 5 6
3 2 4
5 4 6
1 1 4
2 1 2
1 3 1
donde 𝒆′ 𝒆 = 2275.159

𝛽̂1 −1.5789474 0.960526 −0.10088 −0.13596


̂
[𝛽2 ] = [−27.035088] (𝑿′𝑿) −1
= [−0.10088 0.112573 −0.05117]
𝛽̂3 0.56140351 −0.13596 −0.05117 0.068713

Pruebe que: (a) 𝛽2 = 0, 𝛽3 = 0; (b) 𝛽2 = 0; (c) 𝛽2 + 𝛽3 = 0.

5.2 Dado el siguiente modelo bivariado 𝑌𝑖 = 𝛽1 + 𝛽2 𝑋𝑖 + 𝑢𝑖 donde supondremos que


𝐸[𝑢𝑖 ] = 0 y 𝐸[𝑢𝑖2 ] = 𝜎 2 , y dispone de los siguientes datos muestrales

Y 120 130 150 160 180 200


X 4 25 30 36 40 49

Hacer una predicción puntual y por intervalo cuando 𝑋 = 42.

5.3 Dados los siguientes datos:


2 1 3 3
4 1 4 6 𝛽̂1 −0.548
𝒚= 5 𝑿= 1 2 7 [𝛽̂2 ] = [ 0.126 ]
1 1 1 2 𝛽̂3 0.73
[3] [1 5 4]

1.851 −0.236 −0.215


(𝑿′ 𝑿)−1 = [−0.236 0.106 −0.018] 𝒆′ 𝒆 = 0.1175
−0.215 −0.018 0.061

Probar las siguientes hipótesis: a. 𝛽1 + 𝛽2 = 1; b. 𝛽2 = 0, 𝛽3 = 0.

5.4 Considere el modelo 𝑌𝑖 = 𝛽1 + 𝛽2 𝑋2𝑖 + 𝛽3 𝑋3𝑖 + 𝑢𝑖 . Se tienen los siguientes datos,

𝑌̅ = 367.963 ∑ 𝑦 2 = 66042269 𝑋̅2 = 402.760 ∑ 𝑥22 = 84855.096

∑ 𝑥2 𝑦 = 74788.346 𝑋̅3 = 8 ∑ 𝑥32 = 280 ∑ 𝑥3 𝑦 = 4250.90

146
𝑛 = 15 ∑ 𝑥2 𝑥3 = 4796

̂ 2 = (𝑿′2 𝑨𝑿2 )−1 𝑿′2 𝑨𝒚, donde


a. Estime los parámetros 𝛽2 y 𝛽3 usando la fórmula 𝜷
̂ ′2 = [𝛽̂2
𝜷 𝛽̂3 ], 𝑿2 es la matriz que contiene a las variables 𝑿2𝑖 y 𝑿3𝑖 y 𝑨 es la
matriz generadora de desviaciones. Verifique la significancia individual y
conjunta de los parámetros.
b. Imponga la restricción 𝛽2 + 𝛽3 = 0 y estime los parámetros restringidos. Use la
̃ ′2 = [𝛽̃2
siguiente fórmula alternativa a (5.13), para estimar únicamente a 𝜷 𝛽̃3 ]
̃𝟐 = 𝜷
𝜷 ̂ 𝟐 + (𝑿′2 𝑨𝑿2 )−1 𝑹′[𝑹(𝑿′2 𝑨𝑿2 )−1 𝑹′ ]−1 (𝒓 − 𝑹𝜷
̂ 𝟐)

donde 𝑹 = [1 1] solo está considerando a 𝛽2 y 𝛽3. Calcule también la


varianza de los estimadores restringidos mediante la fórmula

̃ 𝟐 ) = 𝜎 2 {(𝑿′2 𝑨𝑿2 )−1 − (𝑿′2 𝑨𝑿2 )−1 𝑹′[𝑹(𝑿′2 𝑨𝑿2 )−1 𝑹′ ]−1 𝑹(𝑿′2 𝑨𝑿2 )−1 }
𝑉𝑎𝑟(𝜷

5.5 Consideremos un modelo de regresión lineal


𝜷𝟏
𝒚 = 𝑿𝜷 + 𝒖 = [𝑿𝟏 ⋮ 𝑿𝟐 ] [ ⋯ ] + 𝒖 = 𝑿𝟏 𝜷𝟏 + 𝑿𝟐 𝜷𝟐 + 𝒖,
𝜷𝟐
𝑿𝟏 es una matriz 𝑛 × 𝑘1 y 𝑿𝟐 es una matriz 𝑛 × 𝑘2 . Supongamos que decidimos
omitir al grupo de variables relevantes 𝑿𝟐 de este modelo, lo que equivale a imponer
̂ = 𝒓. Señale cómo serían las matrices 𝑹 y 𝒓 en este
restricciones lineales del tipo 𝑹𝜷
caso, indicando su contenido y dimensiones. Considere el estimador MCO sujeto a
restricciones lineales
̃=𝜷
𝜷 ̂ + (𝑿′𝑿)−1 𝑹′(𝑹(𝑿′ 𝑿)−1 𝑹′ )−1 (𝒓 − 𝑹𝜷
̂)
Compruebe que si se cumple que 𝑿′𝟏 𝑿𝟐 = 𝟎, entonces

𝜷𝟏
̃
𝐸[𝜷] = [ ⋯ ].
𝟎

Ayuda: Recuerde que la inversa de una matriz diagonal por bloques es:

𝐀 ⋮ 𝟎 −1 𝐀−1 ⋮ 𝟎
[⋯ ⋯ ⋯ ⋯] = [ ⋯ ⋯ ⋯ ]
𝟎 ⋮ 𝐁 𝟎 ⋮ 𝐁 −1

5.6 Considere el estimador de restricciones MCO sujeto a restricciones lineales


̃=𝜷
𝜷 ̂ + (𝑿′ 𝑿)−1 𝑹′ (𝑹(𝑿′ 𝑿)−1 𝑹′ )−1 (𝒓 − 𝑹𝜷
̂)

147
̃ − 𝑬[𝜷
a. Muestre que 𝜷 ̃ ] = (𝜷
̂ − 𝜷) − (𝑿′ 𝑿)−1 𝑹′ (𝑹(𝑿′ 𝑿)−1 𝑹′ )−1 𝑹(𝜷
̂ − 𝜷)

b. Muestre que
̃ ) = 𝑬[(𝜷
𝑉𝑎𝑟(𝜷 ̃ − 𝑬[𝜷
̃ ])(𝜷
̃ − 𝑬[𝜷
̃ ])′]

= 𝜎 2 (𝑿′ 𝑿)−1 − 𝜎 2 (𝑿′ 𝑿)−1 𝑹′ (𝑹(𝑿′ 𝑿)−1 𝑹′ )−1 𝑹(𝑿′ 𝑿)−1

5.7 Suponga que se estima la siguiente función lineal de costos


𝐶𝑖 = 𝛽0 + 𝛽1 𝑊1𝑖 + 𝛽2 𝑊2𝑖 + 𝛽3 𝑌1𝑖 + 𝑢𝑖

por MCO, obteniendo los siguientes resultados


Variable Coeficiente Error Estándar
C 50 8.5
W1 0.8 0.003
W2 0.9 0.5
Y -0.5 0.005
donde C son los costos promedio (medidos en dólares), 𝑊1 es el precio de la mano
de obra (medido en dólares por hora), 𝑊2 es el precio del capital (medio en dólares
por hora) e Y es el producto total.

a. Interprete el coeficiente de 𝑌.
b. Pruebe la hipótesis de que 𝛽1 = 0 a un 95% de confianza
c. Suponga que la empresa incrementa el producto de 10 a 100 unidades.
Manteniendo todo lo demás constante, ¿Cuál es la predicción para el cambio en
el costo promedio?
d. Suponga que la empresa produce 100 unidades de producto, el precio de la
mano de obra es 10 US$/hora y el precio de alquiler del capital es 5US$/hora
¿Cuál es la predicción del costo promedio?
e. Explique paso a paso como probaría la siguiente hipótesis 𝛽1 = 𝛽2 . Provea el
test estadístico apropiado

5.8 Un investigador ha realizado un estudio sobre el comportamiento del gasto familiar


en función de los gastos en comida familiar y la renta familiar, estimando la
siguiente regresión:
𝑌̂𝑖 = 0.9285379 + 0.0206822𝑋1𝑖 + 0.0125𝑋2𝑖

donde Y = gasto familiar (en miles de dólares), 𝑋1 = gasto en familiar en alimentos


(en miles de dólares), 𝑋2 = renta familiar (en miles de dólares). Además, se dispone
de la siguiente información:

148
5.286077 −0.453358 −0.022368
̂ ) = [−0.453358
𝑉𝑎𝑟(𝜷 0.039594 0.001672 ] 𝑆𝐶𝑇 = 1.792244
−0.022368 0.001672 0.000214

[0.1818 −0.5915 0.0531 −0.4612 0.7078 …


(𝑴𝒚)′ =
−0.5256 0.1352 0.1236 0.4087 −0.0321]

a. ¿Considera significativo el modelo a un 95% de confianza? Es decir, se pide que


contraste lo siguiente 𝐻0 : 𝛽1 = 𝛽2 = 0. Tome en cuenta que el modelo
poblacional es 𝑌𝑖 = 𝛽0 + 𝛽1 𝑋1𝑖 + 𝛽2 𝑋2𝑖 + 𝑢𝑖 .
b. Si sabe que en el mes siguiente los gastos en alimentos serán 50,000 dólares y la
renta familiar será de 350,000 dólares. ¿Entre qué valores espera que estén los
gastos familiares a un 95% de confianza?

149
Capítulo 6
Otros temas en regresión lineal múltiple

Existen algunos temas adicionales en el modelo de regresión lineal clásico que van a ser
tratados en este capítulo. Un primer tema a desarrollar es el problema de la
multicolinealidad, el cual ocurre cuando las variables exógenas o explicativas están
fuertemente correlacionadas entre sí. Aunque a simple vista parezca un problema
menor, se puede comprobar que tiene importantes implicaciones en la precisión de las
estimaciones por mínimos cuadrados ordinarios, y sobre los resultados de las pruebas de
hipótesis de los parámetros. En este capítulo se abordan algunas maneras de detectar el
problema y cómo solucionarla.

En este capítulo también se trabaja el tema de las variables cualitativas. Estas variables
se diferencian de las cuantitativas porque no expresan ninguna cantidad sino que
representan alguna característica o atributo de las unidades de análisis. La conversión de
los atributos a números es una tarea relativamente sencilla así como su inclusión en el
modelo de regresión lineal clásico. No obstante, el capítulo trabaja con cuidado el uso
de estas variables y sobretodo la interpretación de los coeficientes estimados. Es
frecuente en los estudiantes de econometría que atribuyan erróneamente
interpretaciones incorrectas a sus estimaciones, por no tener claridad acerca del
fundamento de estas variables.

Por último, en este capítulo misceláneo estudiamos el cambio estructural en los


modelos. Un supuesto implícito en el modelo clásico es que los parámetros son
constantes en toda la muestra. Sin embargo, es normal que esto no se cumpla cuando,
por ejemplo con datos de series de tiempo, la muestra de datos abarca periodos largos
que incluyen cambios importantes o reformas en la economía que han podido cambiar
los parámetros poblacionales que gobiernan las relaciones entre las variables. Otro
ejemplo aparece en datos de corte transversal cuando la muestra comprende a zonas
geográficas o grupos poblacionales que se comportan en forma distinta y que es de
esperarse que presenten parámetros poblacionales de la regresión lineal diferentes. Tal
es el caso de estimaciones en zonas urbanas o rurales, o cuando se estudia con datos
agregados de grupos étnicos distintos.

150
6.1. Multicolinealidad

En los modelos de regresión lineal con muchas variables explicativas suele ocurrir que
se incluyen numerosas variables que suelen estar muy relacionadas entre sí. En los
diversos estudios económicos se reportan situaciones de este tipo. Por ejemplo, cuando
se busca estimar funciones de producción, las típicas variables incluidas son los factores
de producción capital y trabajo, como los principales determinantes. Aunque en la teoría
económica no se mencione que deba existir una relación entre estas variables, en el
momento de trabajar con datos resulta que cuando se consiguen estos valores para una
muestra de diversas empresas, ambas se encuentran relacionadas a través de la escala de
producción. Así, para una empresa que tenga un alto nivel de producción también será
muy probable que tenga altos valores de capital y trabajo, y similarmente, otra
observación de una empresa con una producción de menor cuantía también podría estar
asociada a bajos niveles de capital y trabajo.

Otro ejemplo en donde se observa esta alta correlación entre variables se presenta en los
modelos microeconométricos, en donde las variables explicativas están naturalmente
agrupadas pues describen aproximadamente una característica de la unidad de análisis.
Tal es el caso de diversos estudios en donde las características del hogar o las
características regionales son determinantes de una variable endógena de interés. Por
ejemplo, el tipo de materiales de la vivienda, el acceso a servicios de agua o desagüe, el
equipamiento de la vivienda, el área y los ingresos del hogar suelen estar fuertemente
correlacionados. Lo mismo ocurre con el nivel educativo del jefe de hogar y su
cónyuge.

En los datos de series temporales también existe este tipo de correlaciones fuertes entre
variables que tienen tendencias comunes, aunque este tema merece un tratamiento
especial.

En todos los casos, la multicolinealidad se refiere a la alta correlación entre las variables
independientes, lo cual podría traer dificultades (en ocasiones serias) para el análisis de
regresión, tanto en aquellas de orden estadístico como en la posible interpretación
causal de las estimaciones.

Empezaremos la exposición reconociendo dos casos: multicolinealidad perfecta e


imperfecta.

151
6.1.1. Multicolinealidad Perfecta

En este caso, una de las variables explicativas es una combinación lineal exacta de otra
u otras variables explicativas. Así, no se cumple el supuesto de rango lleno de la matriz
de datos 𝑿. Luego, no existe la inversa de la matriz 𝑿′𝑿 y por lo tanto no se puede
̂.
calcular 𝜷

La presencia de multicolinealidad perfecta significa que hay redundancia en la


información que aporta una variable, pues tal información ya ha sido introducida en la
regresión mediante otras variables.

Ejemplo 6.1: Supongamos que estamos interesados en explicar el comportamiento del


gasto familiar en alimentos, y para ello pensamos relacionarlo con los ingresos del
hogar. En un principio pensamos que puede ser importante desagregar a los ingresos en
ingresos laborales y no laborales. La justificación para esta separación reside en que los
ingresos no laborales suelen provenir de transferencias usualmente exógenas tales como
rentas, remesas, intereses, etc., mientras que los ingresos laborales son el resultado de la
decisión del miembro del hogar por participar en el mercado laboral y resultan de la
elección de las horas trabajadas. Asimismo, estos ingresos laborales dependen del
salario pagado por cada hora trabajada, el cual es un precio relativo a tomar en cuenta.
Por estas razones, es posible que el efecto de estos ingresos sobre el gasto sea
diferenciado según el tipo de ingreso.

También estamos interesados en el efecto del ingreso total, definido como la suma de
los ingresos laborales y los no laborales, pues pensamos que los hogares pobres pueden
presentar patrones de consumo muy distintos al de los hogares con más ingresos. Con
estas ideas, planteamos el modelo,

𝐺. 𝐴𝑙𝑖𝑚𝑒𝑛𝑡𝑜𝑠𝑖 = 𝛽1 + 𝛽2 𝐼𝑛𝑔. 𝐿𝑎𝑏𝑜𝑟𝑎𝑙𝑖 + 𝛽3 𝐼𝑛𝑔. 𝑁𝑜. 𝐿𝑎𝑏𝑜𝑟𝑎𝑙𝑖 + 𝛽4 𝐼𝑛𝑔. 𝑇𝑜𝑡𝑎𝑙𝑖 + 𝑢𝑖

Este modelo no puede ser estimado por mínimos cuadrados ordinarios por el problema
mencionado. Evidentemente la información provista por la variable Ingreso Total ya se
encuentra repartida entre las dos modalidades de ingreso mencionadas, y por ello no
aporta ninguna información adicional. La multicolinealidad perfecta ocurre por una
mala especificación del modelo econométrico, pues el efecto del ingreso total, 𝛽4 , ya se
encuentra representado en 𝛽2 y 𝛽3.

152
6.1.2. Multicolinealidad Imperfecta

A diferencia del caso anterior, la correlación entre las variables explicativas es alta pero
no perfecta. Este caso suele ser más frecuente que el anterior; los ejemplos mencionados
en los párrafos introductorios de la sección 6.1 corresponden todos ellos al caso
imperfecto.

Cuando las variables explicativas en el modelo presentan multicolinealidad imperfecta,


el supuesto 6 de independencia lineal de las variables se cumple y por tanto es posible
calcular la inversa de la matriz 𝑿′ 𝑿. No obstante, el efecto de la multicolinealidad es un
incremento sustancial de las varianzas de los estimadores, lo cual será demostrado más
̂ serán estimados con baja precisión,
adelante. Esto significa que los estimadores 𝜷
existiendo una alta probabilidad de que el valor estimado se encuentre lejos del
̂ insesgado. Esta varianza alta no solo afecta a los
parámetro poblacional 𝜷, pese a ser 𝜷
posibles valores estimados sino también que distorsiona las pruebas de hipótesis basada
en el estadístico 𝑡. Dado que la desviación estándar del estimador se encuentra en el
denominador del estadístico 𝑡, en presencia de multicolinealidad es posible que estos
estadísticos presenten valores más bajos de los esperados, lo que nos conduciría a
aceptar la hipótesis de no significancia del parámetro, aún si el regresor es relevante.
Este es un problema importante pues podríamos llegar a conclusiones erróneas sobre el
modelo.

Antes de presentar la demostración formal del incremento de las varianzas, veamos un


par de ejemplos.

Ejemplo 6.2: Ahora deseamos estudiar la relación entre el consumo con los ingresos y
la riqueza. El modelo propuesto es

𝐶𝑜𝑛𝑠𝑢𝑚𝑜𝑖 = 𝛽1 + 𝛽2 𝐼𝑛𝑔𝑟𝑒𝑠𝑜𝑖 + 𝛽3 𝑅𝑖𝑞𝑢𝑒𝑧𝑎𝑖 + 𝑢𝑖

Aquí no hay multicolinealidad perfecta, pero es muy probable que el ingreso y la


riqueza estén altamente correlacionados. Si uno observa hogares con ingresos altos, es
muy probable que tengan una riqueza acumulada importante, pero no puede haber
certeza total pues es posible que la persona u hogar tenga tales ingresos elevados
recientemente, sin que haya podido acumular riqueza.

153
Ejemplo 6.3: Supongamos que deseamos estudiar la influencia del nivel educativo de
los padres sobre el rendimiento escolar. Es esperable que padres con mayor nivel
educativo puedan apoyar académicamente a sus hijos en sus estudios, lo que podría
incrementar su rendimiento educativo. Podemos preguntarnos si el nivel educativo de la
madre o del padre influye más en este rendimiento. Planteamos el modelo que describe
el rendimiento del niño 𝑖 como:

𝑅𝑒𝑛𝑑𝑖𝑚𝑖𝑒𝑛𝑡𝑜𝑖 = 𝛽1 + 𝛽2 𝑁𝑖𝑣. 𝐸𝑑𝑢𝑐. 𝑃𝑎𝑑𝑟𝑒𝑖 + 𝛽3 𝑁𝑖𝑣. 𝐸𝑑𝑢𝑐. 𝑀𝑎𝑑𝑟𝑒𝑖 + 𝑢𝑖

En este ejemplo, es de esperar que los niveles educativos de los padres (medidos en
años de educación) estén fuertemente correlacionados, por lo que las estimaciones de
los efectos sufrirán de los problemas mencionados. El problema radica en que la
estimación por mínimos cuadrados ordinarios no será capaz de obtener estimaciones
confiables de 𝛽2 y 𝛽3. Supongamos que retiramos del modelo al nivel educativo de la
madre, con lo cual estimamos el modelo

𝑅𝑒𝑛𝑑𝑖𝑚𝑖𝑒𝑛𝑡𝑜𝑖 = 𝛽1 + 𝛽2 𝑁𝑖𝑣. 𝐸𝑑𝑢𝑐. 𝑃𝑎𝑑𝑟𝑒𝑖 + 𝑢𝑖

Este modelo no presenta multicolinealidad imperfecta, y no sería extraño que la


estimación de 𝛽̂2 sea positiva y significativa. Sin embargo, no seríamos capaces de
atribuir a 𝛽̂2 el efecto del nivel educativo del padre, pues en él también se incorpora
parte del efecto de la educación de la madre.

Para demostrar la afirmación de que la multicolinealidad imperfecta incrementa la


varianza de los estimadores, consideremos un modelo de regresión lineal con 𝑘
variables,

𝑌𝑖 = 𝛽1 + 𝛽2 𝑊2𝑖 + ⋯ + 𝛽𝑘−1 𝑊𝑘−1𝑖 + 𝛽𝑧 𝑍𝑖 + 𝑢𝑖

En este modelo la correlación entre la variable Z y las variables W es alta. En el


Apéndice 6.1 se comprueba que

𝜎2
𝑉𝑎𝑟(𝛽̂𝑧 ) = (6.1)
(1 − 𝑅𝑧2 ) ∑(𝑍𝑖 − 𝑍̅)2

En (6.1), 𝑅𝑧2 es el R-cuadrado de la regresión de 𝑍 contra todas las variables 𝑊. Luego,


si 𝑅𝑧2 → 1 entonces 𝑉𝑎𝑟(𝛽̂𝑧 ) → ∞. Lo opuesto ocurriría si 𝑍 fuera ortogonal a todas las
variables 𝑊, provocando que 𝑅𝑧2 = 0. En tal caso, la varianza del parámetro 𝛽̂𝑧

154
dependerá solamente de 𝜎 2 y de la variabilidad de 𝑍, tal como ocurre en el modelo
bivariado. Entonces, el hecho que exista esta correlación entre una variable exógena y
las demás incrementará la varianza del estimador correspondiente a la variable que sufre
multicolinealidad.

Ejemplo 6.4: Continuando con el ejemplo 6.3, utilizamos datos de la encuesta


“Evaluación Muestral 2013” del Ministerio de Educación del Perú, la cual mide el
rendimiento escolar de una muestra de estudiantes de sexto grado de primaria a nivel
nacional. En la siguiente tabla mostramos la estimación del modelo para la región
Cajamarca, en donde la endógena es el rendimiento en Matemáticas según una prueba
estandarizada, y las exógenas son los años de educación de los padres. La correlación
entre educación de los padres es 0.6966.

Tabla N° 6.1
Relación entre el rendimiento en matemáticas y la
educación de los padres
VARIABLES (1) (2) (3)

EducMadre 1.924** 5.999***


(0.801) (0.607)
EducPadre 6.376*** 7.764***
(0.851) (0.626)
Constante 452.1*** 479.7*** 454.4***
(6.522) (5.565) (6.475)

Observaciones 849 849 849


2
R 0.159 0.103 0.154
2
R -ajustado 0.157 0.102 0.153
F 80.15 97.72 153.7
Desviaciones estándar en paréntesis
*** p<0.01, ** p<0.05, * p<0.1

Se puede observar que cuando se regresiona por separado al rendimiento en matemática


contra los niveles educativos de los padres (columnas (2) y (3)), ambos son altamente
significativos, revelando que por cada año adicional de educación, el rendimiento
aumenta entre 6 o 7.7 puntos. En cambio, al considerar ambas variables en la misma
regresión (columna (1)), las desviaciones estándar de ambas estimaciones se
incrementan hasta en un 30% con respecto a las observadas en las columnas (2) y (3).
La significancia de la educación de la madre se reduce y el efecto parece ser mucho
menor.

155
¿Cómo podemos saber si nuestros datos sufren de este problema? Existen varias formas
de detectar la multicolinealidad imperfecta. Algunas estrategias mencionadas en los
libros de econometría son1:

 Presencia de estadísticos 𝑡 bajos, y estadístico de significancia conjunta 𝐹 alto.


Dado que las varianzas de los estimadores son muy grandes cuando hay
multicolinealidad, es de esperarse los estadísticos 𝑡 sean pequeños, pues su
denominador se incrementaría, lo cual llevaría a aceptar las hipótesis de no
significancia individual. Por otro lado, si paralelamente la prueba de
significancia conjunta rechaza la hipótesis de no significancia de todos los
coeficientes, entonces las pruebas 𝑡 y 𝐹 estarían mostrando resultados
contradictorios. Esta contradicción sería explicada porque las variables
altamente correlacionadas en conjunto estarían explicando la variabilidad de la
endógena, pero no lo pueden hacer por separado.2

 ̂ cambian abruptamente al aumentar las observaciones. Este


Los estimadores 𝜷
hecho sería resultado de la gran variabilidad que podrían mostrar las
estimaciones. No necesariamente es una señal de multicolinealidad, podría
deberse a un cambio estructural en los parámetros poblacionales del modelo.

 Signos incorrectos. No necesariamente sería un indicio de multicolinealidad. El


hecho que los signos sean incorrectos podría deberse a un error en el modelo
teórico, o a una mala especificación del modelo econométrico.

 Matriz de Correlaciones distinta a la matriz identidad. Esta matriz se define


como

1 𝑟12 𝑟13 … 𝑟1𝑘


𝑟12 1 𝑟23 … 𝑟2𝑘
𝑟13 𝑟23 1 … 𝑟3𝑘
⋮ ⋮ ⋮ ⋱ ⋮
[𝑟1𝑘 𝑟2𝑘 𝑟3𝑘 … 1]

En esta matriz el valor 𝑟𝑖𝑗 es la correlación muestral de las variables 𝑋𝑖 y 𝑋𝑗 . Si


los valores fuera de la diagonal son “altos”, entonces existe multicolinealidad. El

1
Por ejemplo, Johnston y Dinardo (2001), Gujarati y Porter (2010).
2
Cabe mencionar que no siempre se observa estadísticos 𝑡 bajos y 𝐹 alto en presencia de
multicolinealidad.

156
problema con esta matriz es que solo ve colinealidades entre pares de variables,
y no queda muy claro cuál es el nivel mínimo de la correlación para considerarlo
como alto.

 Factor de Inflación de Varianzas (Variance Inflation Factor - VIF). En la


expresión (6.6), el término 1/(1 − 𝑅𝑧2 ) es el factor de inflación de la varianza,
pues es igual a cero si las variables explicativas son ortogonales e infinito si son
combinaciones lineales perfectas. VIF nos dice en cuantas veces se incrementa la
varianza en comparación con la situación de ortogonalidad entre las explicativas.
El factor es calculado para cada variable. Se sugiere que existe multicolinealidad
si el más alto VIF es mayor que 10.

Ejemplo 6.5: Consideremos a manera de ejemplo un modelo trivariado del tipo


𝑌𝑖 = 𝛽0 + 𝛽1 𝑋1𝑖 + 𝛽2 𝑋2𝑖 + 𝛽3 𝑋3𝑖 + 𝑢𝑖 , en donde la endógena es el precio de venta de
los automóviles (variable price), 𝑋1𝑖 es el peso del automóvil en libras (weight), 𝑋2𝑖 es
el peso al cuadrado (weightsq) y 𝑋3𝑖 es la capacidad de la maletera del automóvil en
pies cúbicos (variable trunk). Para estimar este modelo usamos la base de datos de
Stata auto.dta que viene incorporada en el programa. La Tabla 6.2 nos muestra la
estimación por mínimos cuadrados ordinarios y a continuación se efectúa el comando
vif que calcula la tabla con los valores de 𝑉𝐼𝐹, mediante regresiones auxiliares. Así, el
valor de 59.53 de 𝑉𝐼𝐹 para weightsq es el resultado de la regresión de esta variable
contra weight y trunk; el valor 58.98 es el resultado de utilizar el R-cuadrado de la
regresión entre weight contra weightsq y trunk; y así sucesivamente. Notamos que hay
una muy alta correlación entre weight y weightsq, lo que se refleja en el valor 𝑉𝐼𝐹 muy
alto, y por lo tanto la multicolinealidad es un problema fuerte en este caso. Quizás por
esta razón el coeficiente de la variable weight es negativo, lo que contradice al sentido
común pues se esperaría que los autos más pesados tengan un precio mayor. En la parte
final del cuadro está la regresión omitiendo a weightsq, la cual muestra el signo correcto
y una desviación estándar mucho menor de la variable weight. Asimismo, la variable
trunk también ha cambiado pues la colinealidad con weightsq no es nada despreciable.

157
Tabla 6.2
Cálculo del factor de inflación de varianzas
. sysuse auto
(1978 Automobile Data)

. generate weightsq=weight^2

. regress price weight weightsq trunk

Source SS df MS Number of obs = 74


F( 3, 70) = 15.78
Model 256210250 3 85403416.8 Prob > F = 0.0000
Residual 378855146 70 5412216.37 R-squared = 0.4034
Adj R-squared = 0.3779
Total 635065396 73 8699525.97 Root MSE = 2326.4

price Coef. Std. Err. t P>|t| [95% Conf. Interval]

weight -7.213932 2.690548 -2.68 0.009 -12.58006 -1.847804


weightsq .0015589 .0004355 3.58 0.001 .0006903 .0024276
trunk -90.39657 86.39788 -1.05 0.299 -262.7117 81.91858
_cons 14049.21 4040.337 3.48 0.001 5991.012 22107.41

. vif

Variable VIF 1/VIF

weightsq 59.53 0.016800


weight 58.98 0.016956
trunk 1.84 0.542857

Mean VIF 40.12

. regress price weight trunk

Source SS df MS Number of obs = 74


F( 2, 71) = 14.80
Model 186872936 2 93436468.2 Prob > F = 0.0000
Residual 448192460 71 6312569.86 R-squared = 0.2943
Adj R-squared = 0.2744
Total 635065396 73 8699525.97 Root MSE = 2512.5

price Coef. Std. Err. t P>|t| [95% Conf. Interval]

weight 2.266182 .5110542 4.43 0.000 1.247169 3.285195


trunk -60.03885 92.85726 -0.65 0.520 -245.191 125.1133
_cons 148.5533 1203.406 0.12 0.902 -2250.97 2548.077

Existen algunas soluciones planteadas al problema de la multicolinealidad imperfecta,


aunque ninguna llega a ser del todo convincente. Brevemente estas estrategias son,

 Regresión “Ridge”. Si las variables en la matriz 𝑿 están fuertemente


correlacionadas, entonces la matriz 𝑿′𝑿 tendrá valores fuera de la diagonal
principal muy grandes o “pesados” (en el caso de ortogonalidad perfecta de las
explicativas, la matriz 𝑿′𝑿 sería una matriz diagonal). Luego, para contrarrestar
este efecto se le da un mayor “peso” a la diagonal multiplicándola por un
escalar 𝜆. El estimador corregido tendría la forma

̂ 𝑅𝑖𝑑𝑔𝑒 = (𝑿′ 𝑿 + 𝝀𝑰)−1 𝑿′𝒚


𝜷

158
el cual es un estimador sesgado pero que debería mostrar menores varianzas que
el de MCO. Es de poco uso práctico en econometría aplicada por ser sesgado
(Greene, 2008).

 Métodos de reducción de dimensiones. Algunos métodos como el de los


componentes principales, el análisis factorial y el análisis de correspondencias
múltiples construyen variables indicadoras a partir de grupos de variables
altamente colineales. Estos “índices” capturan un porcentaje de la variabilidad
mostrada por las variables colineales, y son utilizados en las regresiones en
reemplazo de las variables que representan. Por ejemplo, supongamos que
regresionamos al rendimiento escolar contra dos grandes grupos de variables
llamados “características del hogar” y “características de la escuela”. Dentro de
las características del hogar tenemos al nivel educativo del padre, el nivel
educativo de la madre, el número de hermanos, los ingresos familiares; y dentro
del grupo de características de la escuela tenemos a el número de estudiantes por
aula, el número de libros en la biblioteca, el equipamiento del laboratorio de
computación, y la calidad de los materiales de construcción de la escuela. En
este ejemplo, es muy probable que las variables en cada uno de los dos grupos
estén fuertemente correlacionadas. Mediante los métodos estadísticos
mencionados es posible construir una variable índice para cada grupo a partir de
las variables incluidas, y tener una regresión como

𝑌𝑖 = 𝛽1 + 𝛽2 𝐼𝐶𝐻 + 𝛽3 𝐼𝐶𝐸 + 𝑢𝑖

en donde ICH es el índice de características del hogar e ICE es el índice de


características de la escuela. Aunque se supera el problema de multicolinealidad,
los coeficientes 𝛽2 y 𝛽3 son de difícil interpretación al no quedar claras las
unidades de medida de los índices. Por otro lado, si nuestra variable de interés es
una de las variables con los que se construyeron los índices (por ejemplo, el
número de hermanos), entonces el método no solucionaría nuestra pregunta de
interés.

Como conclusión, si bien es cierto que la multicolinealidad genera problemas


importantes en la precisión de las estimaciones y en las pruebas de hipótesis, aun no hay
una solución que sea plenamente satisfactoria. El investigador debe conocer si sus datos

159
sufren de este problema, tener una idea de su magnitud y en ocasiones deberá aprender a
convivir con el problema.

6.2. Variables Cualitativas

Imaginemos que estamos estudiando los determinantes de los salarios en una economía,
y además de considerar a la educación recibida, la edad y los años de experiencia
pensamos incluir otras variables como el sexo de la persona y el lugar donde vive. En
nuestra “teoría” pensamos que podría existir algún tipo de discriminación por género
contra las mujeres en el sentido que el mercado laboral les paga menos salarios solo por
el hecho de ser mujeres, en comparación con personas similares que desempeñan el
mismo trabajo. Igualmente, pensamos que podrían existir diferencias a nivel regional o
de ámbito, debido a un desigual desarrollo de la economía en un territorio. Entonces,
¿cómo podríamos medir a las variables “sexo” y “región”?

Estas variables expresan una cualidad o atributo, no una cantidad. Como la estimación
de los efectos requiere que las variables estén expresadas en números, podemos
convertir a los atributos a una forma numérica utilizando variables binarias.
Explicaremos la conversión con dos ejemplos sencillos.

Ejemplo 6.4: Consideremos dos variables cualitativas: sexo y región en donde vive la
persona. El primer paso para convertir estas variables a versiones binarias o “dummy”
requiere la definición de las categorías de cada una de ellas. Estas categorías deben ser
mutuamente excluyentes (ningún individuo puede ser clasificado en más de una
categoría) y exhaustivas (todos los individuos de la población bajo estudio son
clasificables en alguna de las categorías). Para nuestras variables definimos las
categorías,

−𝑁𝑜𝑟𝑡𝑒
−ℎ𝑜𝑚𝑏𝑟𝑒
𝑆𝑒𝑥𝑜 = { 𝑅𝑒𝑔𝑖ó𝑛 = {−𝐶𝑒𝑛𝑡𝑟𝑜
−𝑚𝑢𝑗𝑒𝑟
−𝑆𝑢𝑟

Para la variable sexo se define una variable binaria por cada categoría. Así surgen las
variables S1 y S2 definidas como

160
1 𝑠𝑖 𝑖 𝑒𝑠 ℎ𝑜𝑚𝑏𝑟𝑒 1 𝑠𝑖 𝑖 𝑒𝑠 𝑚𝑢𝑗𝑒𝑟
𝑆1𝑖 = { 𝑆2𝑖 = {
0 𝑠𝑖 𝑖 𝑒𝑠 𝑚𝑢𝑗𝑒𝑟 0 𝑠𝑖 𝑖 𝑒𝑠 ℎ𝑜𝑚𝑏𝑟𝑒

En el caso de la variable regional tenemos tres variables binarias o dummy según la


región del país,

1 𝑠𝑖 𝑖 𝑣𝑖𝑣𝑒 𝑒𝑛 𝑒𝑙 𝑁𝑜𝑟𝑡𝑒 1 𝑠𝑖 𝑖 𝑣𝑖𝑣𝑒 𝑒𝑛 𝑒𝑙 𝐶𝑒𝑛𝑡𝑟𝑜


𝐴1𝑖 = { 𝐴2𝑖 = {
0 𝑒𝑛 𝑜𝑡𝑟𝑜 𝑐𝑎𝑠𝑜 0 𝑒𝑛 𝑜𝑡𝑟𝑜 𝑐𝑎𝑠𝑜

1 𝑠𝑖 𝑖 𝑣𝑖𝑣𝑒 𝑒𝑛 𝑒𝑙 𝑆𝑢𝑟
𝐴3𝑖 = {
0 𝑒𝑛 𝑜𝑡𝑟𝑜 𝑐𝑎𝑠𝑜

Como consecuencia de las características mencionadas sobre las categorías, las


variables dummy cumplirán que la suma de todas las dummy de una variable cualitativa
es exactamente igual a un vector columna de unos. También ocurrirá que las dummy de
una misma variable cualitativa serán ortogonales entre sí. Así,

𝑆1𝑖 + 𝑆2𝑖 = 1 ∀𝑖 𝐴1𝑖 + 𝐴2𝑖 + 𝐴3𝑖 = 1 ∀𝑖

∑ 𝑆1𝑖 𝑆2𝑖 = 0 , ∑ 𝐴1𝑖 𝐴2𝑖 = 0 , ∑ 𝐴1𝑖 𝐴3𝑖 = 0 , ∑ 𝐴2𝑖 𝐴3𝑖 = 0

Ahora vamos a introducir a estas variables en la regresión. Supongamos que en el


modelo bivariado 𝑌𝑖 = 𝛽1 + 𝛽2 𝑋𝑖 + 𝑢𝑖 , la variable endógena 𝑌 es el logaritmo del
salario y la variable 𝑋 representa a la educación medida en años de estudio. A este
modelo queremos agregarle al sexo como una variable que explique el comportamiento
de los salarios. Una primera forma de hacerlo es añadiendo las dos variables dummy 𝑆1
y 𝑆2 .

𝑌𝑖 = 𝛽1 + 𝛽2 𝑋𝑖 + 𝛽3 𝑆1𝑖 + 𝛽4 𝑆2𝑖 + 𝑢𝑖 (6.2)

El modelo (6.2) no puede ser estimado por sufrir de multicolinealidad perfecta, dado
que la suma de 𝑆1 y 𝑆2 es igual a 1 para todo 𝑖, generando en la matriz de datos una
columna de unos que es colineal con la columna de unos de la constante. La
imposibilidad de incluir a todas las dummy de todas las categorías se le suele llamar la
“trampa de las variables dummy”.

Para evitar este problema, se toma una dummy como categoría base y se le excluye de
la regresión. Si tomamos a S2 como “base”, el modelo (6.2) se reduce a

𝑌𝑖 = 𝛽1 + 𝛽2 𝑋𝑖 + 𝛽3 𝑆1𝑖 + 𝑢𝑖 (6.3)

161
Para entender el significado de la inclusión de esta variable en la función de regresión
poblacional, tomaremos el valor esperado a (6.3) condicional a los valores de 𝑆1 y 𝑋.

𝐸[𝑌𝑖 |𝑆1𝑖 = 1, 𝑋𝑖 ] = (𝛽1 + 𝛽3 ) + 𝛽2 𝑋𝑖 : Hombres

𝐸[𝑌𝑖 |𝑆1𝑖 = 0, 𝑋𝑖 ] = 𝛽1 + 𝛽2 𝑋𝑖 : Mujeres

en donde 𝐸[𝑢𝑖 |𝑆1𝑖 , 𝑋𝑖 ] = 0 por el supuesto 2 del MRLC. Estas dos expresiones son las
funciones de regresión poblacionales para los hombres y las mujeres. Comparándolas,
podemos ver que el coeficiente 𝛽3 de la variable dummy en (6.3) equivale a un
incremento (o reducción si 𝛽3 < 0) de los salarios para las hombres respecto a las
mujeres independientemente de los años de educación. En forma gráfica, la figura 6.1
muestra las dos funciones de regresión poblacional, en donde se hace evidente que la
𝐹𝑅𝑃 de los hombres es un desplazamiento paralelo de la función respectiva de las
mujeres. Matemáticamente, el parámetro 𝛽3 es la diferencia entre las ordenadas en el
origen de las dos funciones. 𝛽1 es el intercepto en la regresión de las mujeres y 𝛽1 + 𝛽3
el intercepto para los hombres. Obsérvese que la recta de la categoría base (mujeres) es
la que no tiene al coeficiente 𝛽3, por ello la interpretación se hace respecto a la categoría
base. Si se estima el modelo (6.3) y el parámetro 𝛽3 es significativo, tendríamos una
primera evidencia de discriminación en el mercado laboral.

Otra forma de evitar la trampa de las dummy es excluir al intercepto y dejar las dos
variables 𝑆1𝑖 y 𝑆2𝑖 . En ese caso, el modelo es

𝑌𝑖 = 𝛽2 𝑋𝑖 + 𝛼1 𝑆1𝑖 + 𝛼2 𝑆2𝑖 + 𝑢𝑖 (6.4)

En el modelo (6.4), las funciones de regresión poblacional de los hombres y mujeres son
respectivamente.

𝐸[𝑌𝑖 |𝑋𝑖 , 𝑆1𝑖 = 1] = 𝛼1 + 𝛽2 𝑋𝑖

𝐸[𝑌𝑖 |𝑋𝑖 , 𝑆2𝑖 = 1] = 𝛼2 + 𝛽2 𝑋𝑖

Podemos observar que si estimamos a (6.4) por MCO, 𝛼1 es el intercepto de los


hombres y 𝛼2 el de las mujeres. Comparando con (6.3) se puede afirmar que ambos
modelos son estimables por MCO y sus resultados son equivalentes. Se cumple que
𝛼2 = 𝛽1 y 𝛼1 = 𝛽1 + 𝛽3. El gráfico es exactamente el mismo que 6.1.

162
Como puede verse en la figura 6.1, las pendientes de las dos 𝐹𝑅𝑃 son iguales. Veamos
ahora un caso un poco más completo en donde deseamos ver si el sexo también afecta a
la pendiente de la 𝐹𝑅𝑃, es decir, un modelo donde hay diferentes retornos a la
educación por género. Proponemos el siguiente modelo,

𝑌𝑖 = 𝛽1 + 𝛽2 𝑋𝑖 + 𝛽3 𝑆1𝑖 + 𝛽4 (𝑆1 × 𝑋)𝑖 + 𝑢𝑖 (6.5)

Figura 6.1
Funciones de regresión poblacional de los hombres y las mujeres

Ln(Salario) FRP de Hombres


Y

FRP de Mujeres
𝛽3

𝛽1 + 𝛽3

𝛽1

X
Años de Educación

En este nuevo modelo se está generando una nueva variable, S1 × X que es el resultado
de multiplicar a la dummy de hombres por los años de educación. A esta variable se le
suele llamar dummy interactiva, pues es el resultado de la multiplicación de una dummy
con otra variable3. Tomando el valor esperado condicional al igual que antes,

𝐸[𝑌𝑖 |𝑆1𝑖 = 1, 𝑋𝑖 ] = (𝛽1 + 𝛽3 ) + (𝛽2 + 𝛽4 )𝑋𝑖 : Hombres

𝐸[𝑌𝑖 |𝑆1𝑖 = 0, 𝑋𝑖 ] = 𝛽1 + 𝛽2 𝑋𝑖 : Mujeres

En este caso podemos ver que el parámetro 𝛽4 es la variación de las pendientes de las
rectas entre hombres y mujeres. La figura 6.2 nos muestra este nuevo caso con variación
en el intercepto y pendiente para hombres y mujeres, en donde se está asumiendo que
𝛽3 > 0 y 𝛽4 > 0. Si en una estimación obtuviéramos 𝛽̂4 > 0 y significativo, tendríamos
3
También hay variables dummy interactivas que son el resultado del producto de dos dummy.

163
una evidencia estadística de que el sexo de las personas afecta a los retornos de la
educación.4

Figura 6.2
FRP de hombres y mujeres con cambios en intercepto y
pendiente.
Ln(Salario)
FRP de los Hombres
Y

FRP de las Mujeres

𝛽1 + 𝛽3

𝛽1

X
Años de Educación

Ahora vamos a incluir a las variables dummy de la región donde la persona vive, y para
no complicar demasiado el ejemplo, no vamos a considerar a la interacción entre el sexo
y los años de educación. En ese caso también se debe elegir a una categoría base, y
tomaremos a la categoría Norte (𝐴1 ) para este fin. Luego, el modelo es una extensión
del modelo (6.3) agregando a las variables 𝐴2 y 𝐴3 .

𝑌𝑖 = 𝛽1 + 𝛽2 𝑋𝑖 + 𝛽3 𝑆1𝑖 + 𝛾2 𝐴2𝑖 + 𝛾3 𝐴3𝑖 + 𝑢𝑖 (6.6)

En donde las categorías base son las variables 𝑆2 (mujer) y 𝐴1 (norte). Al tomar el valor
esperado condicional, debemos hacerlo para las diferentes combinaciones de las dos
variables cualitativas incluidas. Así tendremos al final seis funciones de regresión
poblacional, como resultado de combinar las categorías {hombre, mujer} con {norte,
centro, sur}. Como se está tomando como categorías base a {mujer} y {norte}, todas las
demás 𝐹𝑅𝑃 serán interpretadas como desviaciones respecto a esta base. Las funciones
son,

4
La versión alternativa de (6.5) excluyendo a la constante y a 𝑋 por la multicolinealidad es
𝑌𝑖 = 𝛼1 𝑆1𝑖 + 𝛼2 𝑆2𝑖 + 𝛼3 (𝑆1 × 𝑋)𝑖 + 𝛼4 (𝑆2 × 𝑋)𝑖 + 𝑢𝑖
Respecto a (6.5), se cumplen las equivalencias: 𝛼1 = 𝛽1 + 𝛽3 , 𝛼2 = 𝛽1 , 𝛼3 = 𝛽3 + 𝛽4 , y 𝛼4 = 𝛽3 .

164
(𝑎): 𝐸[𝑌𝑖 |𝑆1𝑖 = 0, 𝐴2𝑖 = 0, 𝐴3𝑖 = 0, 𝑋𝑖 ] = 𝛽1 + 𝛽2 𝑋𝑖 Mujeres del norte

(𝑏): 𝐸[𝑌𝑖 |𝑆1𝑖 = 1, 𝐴2𝑖 = 0, 𝐴3𝑖 = 0, 𝑋𝑖 ] = (𝛽1 + 𝛽3 ) + 𝛽2 𝑋𝑖 Hombres del norte

(𝑐): 𝐸[𝑌𝑖 |𝑆1𝑖 = 0, 𝐴2𝑖 = 1, 𝐴3𝑖 = 0, 𝑋𝑖 ] = (𝛽1 + 𝛾2 ) + 𝛽2 𝑋𝑖 Mujeres del centro

(𝑑): 𝐸[𝑌𝑖 |𝑆1𝑖 = 1, 𝐴2𝑖 = 1, 𝐴3𝑖 = 0, 𝑋𝑖 ] = (𝛽1 + 𝛽3 + 𝛾2 ) + 𝛽2 𝑋𝑖 Hombres del centro

(𝑒): 𝐸[𝑌𝑖 |𝑆1𝑖 = 0, 𝐴2𝑖 = 0, 𝐴3𝑖 = 1, 𝑋𝑖 ] = (𝛽1 + 𝛾3 ) + 𝛽2 𝑋𝑖 Mujeres del sur

(𝑓): 𝐸[𝑌𝑖 |𝑆1𝑖 = 1, 𝐴2𝑖 = 0, 𝐴3𝑖 = 1, 𝑋𝑖 ] = (𝛽1 + 𝛽3 + 𝛾3 ) + 𝛽2 𝑋𝑖 Hombres del sur

En estas ecuaciones, β3 sigue siendo el diferencial entre hombres y mujeres, y es el


mismo para las tres regiones, lo que se puede comprobar haciendo una substracción de
las esperanzas condicionales por cada región:

Diferencial hombres y mujeres (norte) = (𝑏) − (𝑎) = 𝛽3

Diferencial hombres y mujeres (centro) = (𝑑) − (𝑐) = 𝛽3

Diferencial hombres y mujeres (sur) = (𝑓) − (𝑒) = 𝛽3

Respecto a los parámetros 𝛾2 y 𝛾3, ellos también se interpretan respecto a la categoría


base. Así, 𝛾2 es el diferencial en el intercepto entre personas del centro en respecto a las
personas que viven en el norte. Este diferencial es el mismo para hombres y mujeres.

Diferencial centro-norte (hombres) = (𝑑) − (𝑏) = 𝛾2

Diferencial centro-norte (mujeres) = (𝑐) − (𝑎) = 𝛾2

Similarmente, el parámetro γ3 es el diferencial de la zona sur respecto al norte, válido


para hombres y mujeres.

Diferencial sur-norte (hombres) = (𝑓) − (𝑏) = 𝛾3

Diferencial sur-norte (mujeres) = (𝑒) − (𝑎) = 𝛾3

Por último si deseamos que estos efectos regionales no sean constantes para hombres y
mujeres, o –equivalentemente- si queremos que los efectos de género no sean los
mismos en todas las regiones debemos agregar las variables dummy interactivas 𝑆1 × 𝐴2
y 𝑆1 × 𝐴3 al modelo (6.6) teniendo el modelo,

165
𝑌𝑖 = 𝛽1 + 𝛽2 𝑋𝑖 + 𝛽3 𝑆1𝑖 + 𝛾2 𝐴2𝑖 + 𝛾3 𝐴3𝑖 + 𝛼1 (𝑆1 × 𝐴2 )𝑖 + 𝛼2 (𝑆1 × 𝐴3 )𝑖 + 𝑢𝑖 (6.7)

En este caso, se puede comprobar que el parámetro 𝛼1 captura la diferencia en los


salarios específicamente por ser hombre y vivir en la región central, mientras que el
parámetro 𝛼2 captura la diferencia específica por ser hombre que vive en la región sur.
Por ejemplo, las diferencias centro-norte y sur-norte para hombres y mujeres serán5,

Diferencial centro-norte (hombres) = 𝛾2 + 𝛼1

Diferencial centro-norte (mujeres) = 𝛾2

Diferencial sur-norte (hombres) = 𝛾3 + 𝛼2

Diferencial sur-norte (mujeres) = 𝛾3

Debe notarse que la interpretación de las variables dummy se vuelve confusa cuando se
agregan muchos grupos de variables como en las ecuaciones (6.6) y (6.7). Es normal en
modelos con datos microeconómicos que algunas variables dummy tengan más de cinco
categorías. Por esa razón, se aconseja solo agregar variables dummy interactivas cuando
realmente se considera que es necesario, o de lo contrario, la interpretación de tantas
variables dummy puede volverse un problema inmanejable6. Por otra parte, si una
variable cuantitativa ha sido convertida a categorías ordinales (como por ejemplo, los
años de estudio a niveles educativos), es mejor trabajar con la variable cuantitativa en lo
posible a menos que se desee estudiar algo en particular de las categorías. Otra
consideración importante sobre las variables dummy es que no debe olvidarse que solo
deben interpretarse respecto a las categorías base. Esta última recomendación es
especialmente importante porque la significancia de los coeficientes de las dummy
puede cambiar bruscamente cuando se cambia la categoría base. El investigador debe
estar atento de qué es lo que realmente están midiendo estas variables.

Por último, el uso de la variables dummy puede ser una herramienta efectiva para el
análisis de discriminación. En el apéndice 6.2 de este capítulo se presenta un análisis un
poco más detallado de la brecha salarial por género, conocido como el enfoque de
Oaxaca-Blinder.

5
Se deja al lector esta comprobación.
6
Este último consejo puede dejarse de lado cuando la interpretación de los coeficientes de las dummy no
es de nuestro interés, sino que deseamos “saturar” el modelo con numerosas variables cualitativas y
cuantitativas que puedan explicar la variabilidad de la endógena.

166
6.3. Cambio Estructural

Cuando en el modelo de regresión lineal clásico definimos el supuesto 1 sobre la


linealidad del modelo, implícitamente estábamos diciendo que el modelo lineal
propuesto 𝑌𝑖 = 𝛽1 + 𝛽2 𝑋2𝑖 + ⋯ + 𝛽𝑘 𝑋𝑘𝑖 + 𝑢𝑖 era válido para todas las observaciones
bajo estudio. Por esa razón utilizamos a las observaciones de las variables para inferir el
valor de los parámetros. Pero, qué ocurriría si en realidad los parámetros 𝛽 del modelo
no fueran válidos para todas las observaciones, es decir, si estos parámetros tomaran
valores diferentes para distintos grupos de observaciones.

Evidentemente, si esto fuera así tendríamos un problema de mala especificación del


modelo. Por ejemplo, si deseamos ver el efecto de los retornos a la educación, es
razonable pensar que los parámetros entre hombres y mujeres podrían ser distintos, y
por ello un modelo bien especificado debería incluir variables dummy que permitan
cierta variabilidad de estos coeficientes según los dos grupos mencionados. La no
constancia de parámetros a lo largo de la muestra en modelos de corte transversal
microeconómicos puede abordarse con facilidad con los modelos de variables dummy
de la sección 6.2.

En el caso de datos de series de tiempo, el hecho que los parámetros 𝛽 puedan variar en
distintas observaciones ocurrirá cuando dichos parámetros dejen de ser constantes en el
tiempo, y más bien se observen algunos cambios o “saltos” bruscos. Estos cambios
ocurren especialmente cuando la serie de tiempo toma un largo periodo de
observaciones en donde se han producido cambios importantes en la economía, tales
como crisis económicas severas, guerras, reformas en el sistema económico, etc. Estos
cambios bruscos en la economía suelen observarse en los datos, los cuales reflejan el
cambio estructural que ha sufrido el proceso generador de datos.

En la exposición siguiente nos centraremos fundamentalmente en una breve


introducción al estudio de cambios estructurales con datos de series de tiempo, en el
contexto del modelo de regresión lineal clásico.

6.3.1. Cambio estructural incluyendo variables dummy

Ilustraremos esta exposición mediante un ejemplo ficticio.

167
Ejemplo 6.5: Supongamos que estudiamos la relación entre dos variables, el consumo
(𝑌) y el ingreso (𝑋) en dos periodos: Guerra y Paz. El modelo es:

𝑌𝑡 = 𝛽1 + 𝛽2 𝑋𝑡 + 𝑢𝑡 (6.8)

El subíndice 𝑡 señala la observación en el periodo 𝑡, considerando un total de 40


observaciones o periodos. Con el fin de hacer el estudio del efecto de un cambio
estructural en las estimaciones MCO de los parámetros, generamos datos ficticios de las
variables. Asumimos que la exógena 𝑋 crece en el tiempo, pero con cierto “ruido”. Los
valores de 𝑋 fluctúan entre 3240 en el primer periodo y 4080 en el último. Los datos de
la variable endógena son el resultado de estas fórmulas

𝑌𝑡 = 200 + 0.6𝑋𝑡 + 𝑢𝑡 para los primeros 29 periodos (Periodo de “Paz”)

𝑌𝑡 = 200 + 0.8𝑋𝑡 + 𝑢𝑡 desde el periodo 30 al 40 (Periodo de “Guerra”)

Los valores de 𝑢𝑡 son números aleatorios distribuidos normalmente con media cero y
con desviación estándar igual a 30. Nótese que se produce un cambio en el parámetro
poblacional 𝛽2 el cual aumenta de 0.6 a 0.8 a partir del periodo 30 en donde se inicia la
guerra. El parámetro poblacional 𝛽1 se mantiene en 200 en toda la muestra. La figura
6.3 muestra el gráfico de dispersión de los datos generados por nuestro procedimiento.

Figura 6.3
Gráfico de dispersión de X e Y con el cambio estructural en la pendiente

168
Ahora estimamos el modelo (6.7) por MCO con los datos de los 40 periodos que
acabamos de generar. La estimación arroja los valores 𝛽̂1 = −2881.0569 y 𝛽̂2 =
1.4979. Note como el cambio estructural provoca que los estimadores MCO estén muy
alejados de los parámetros poblacionales. Los resultados completos se presentan en la
tabla 6.2.

Tabla 6.3
Estimación del modelo ignorando el cambio estructural

Source SS df MS Number of obs = 40


F( 1, 38) = 105.46
Model 7018250.39 1 7018250.39 Prob > F = 0.0000
Residual 2528770.22 38 66546.5849 R-squared = 0.7351
Adj R-squared = 0.7282
Total 9547020.62 39 244795.4 Root MSE = 257.97

y Coef. Std. Err. t P>|t| [95% Conf. Interval]

x 1.497909 .1458592 10.27 0.000 1.202632 1.793185


_cons -2881.057 538.8548 -5.35 0.000 -3971.911 -1790.202

Para mejorar la especificación del modelo, podemos utilizar a una variable dummy e
introducirla en la regresión. Definamos a la variable 𝐷 que toma el valor de cero para
los periodos 1 a 29 (periodos de paz) y es igual a uno para los periodos 30 a 40
(periodos de guerra).

Hay varias posibilidades de especificación del modelo. Por ejemplo, si flexibilizamos


solamente el intercepto, el modelo que captura el cambio en el intercepto en periodos de
paz y guerra es el modelo

𝑌𝑡 = 𝛽1 + 𝛽2 𝑋𝑡 + 𝛽3 𝐷𝑡 + 𝑢𝑡 (6.9)

Luego, la 𝐹𝑅𝑃 en periodo de paz es 𝐸[𝑌𝑡 |𝐷𝑡 = 0] = 𝛽1 + 𝛽2 𝑋𝑡 , y la FRP en periodo de


guerra 𝐸[𝑌𝑡 |𝐷𝑡 = 1] = (𝛽1 + 𝛽3 ) + 𝛽2 𝑋𝑡 . Los valores de las estimaciones por MCO del
modelo (6.9) son 𝛽̂1 = 173.6005, 𝛽̂2 = 0.6097 y 𝛽̂3 = 789.5197. Los resultados
completos se presentan en la tabla 6.4. Vemos que con la inclusión de la dummy, los
estimadores se aproximan mucho más a los parámetros poblacionales 𝛽1 = 200 y
𝛽2 = 0.6, aunque el modelo estimado no captura el salto de 0.2 en la pendiente, sino
que la presenta como un cambio en el intercepto.

169
Tabla 6.4
Estimación del modelo incluyendo una dummy aditiva

Source SS df MS Number of obs = 40


F( 2, 37) = 7031.60
Model 9521968.5 2 4760984.25 Prob > F = 0.0000
Residual 25052.1156 37 677.084204 R-squared = 0.9974
Adj R-squared = 0.9972
Total 9547020.62 39 244795.4 Root MSE = 26.021

y Coef. Std. Err. t P>|t| [95% Conf. Interval]

x .6097446 .0207314 29.41 0.000 .5677388 .6517503


d 789.5197 12.98349 60.81 0.000 763.2126 815.8268
_cons 173.6005 74.0116 2.35 0.024 23.63874 323.5622

Otra alternativa es evaluar el cambio en el intercepto y pendiente, entonces el modelo


más general sería

𝑌𝑡 = 𝛽1 + 𝛽2 𝑋𝑡 + 𝛽3 𝐷𝑡 + 𝛽4 (𝐷𝑡 × 𝑋𝑡 ) + 𝑢𝑡 (6.10)

Según (6.10), la 𝐹𝑅𝑃 en periodo de paz es 𝐸[𝑌𝑡 |𝐷𝑡 = 0] = 𝛽1 + 𝛽2 𝑋𝑡 , y la 𝐹𝑅𝑃 en


periodo de guerra es 𝐸[𝑌𝑡 |𝐷𝑡 = 1] = (𝛽1 + 𝛽3 ) + (𝛽2 + 𝛽4 )𝑋𝑡 . Las estimaciones de la
ecuación (6.10) se presentan en la tabla 6.5. Obsérvese que los estimadores por MCO se
aproximan bastante bien a los parámetros poblacionales, y además el coeficiente 𝛽̂3 no
es significativo, lo que es consistente con el hecho que no hubo ningún cambio en el
intercepto.

Tabla 6.5
Estimación del modelo incluyendo dummy aditiva e interactiva

Source SS df MS Number of obs = 40


F( 3, 36) = 5222.23
Model 9525133.12 3 3175044.37 Prob > F = 0.0000
Residual 21887.495 36 607.985973 R-squared = 0.9977
Adj R-squared = 0.9975
Total 9547020.62 39 244795.4 Root MSE = 24.657

y Coef. Std. Err. t P>|t| [95% Conf. Interval]

x .6041232 .019799 30.51 0.000 .563969 .6442773


d -661.1914 635.9869 -1.04 0.305 -1951.033 628.6498
dx .3629679 .1590941 2.28 0.029 .04031 .6856257
_cons 193.6263 70.6806 2.74 0.010 50.27936 336.9732

Generalizando este enfoque de cambio estructural con variables dummy para el caso de
k variables, consideremos los siguientes modelos:

170
(1) 𝑌𝑡 = 𝛽1 + 𝛽2 𝑋2𝑡 + ⋯ + 𝛽𝑘 𝑋𝑘𝑡 + 𝑢𝑡
(2) 𝑌𝑡 = 𝛽1 + 𝛽2 𝑋2𝑡 + ⋯ + 𝛽𝑘 𝑋𝑘𝑡 + 𝛽𝑘+1 𝐷𝑡 + 𝑢𝑡
(3) 𝑌𝑡 = 𝛽1 + 𝛽2 𝑋2𝑡 + ⋯ + 𝛽𝑘 𝑋𝑘𝑡 + 𝛽𝑘+1 𝐷𝑡 + 𝛽𝑘+2 (𝐷𝑡 × 𝑋2𝑡 ) + ⋯ + 𝛽2𝑘 (𝐷𝑡 ×
𝑋2𝑡 ) + 𝑢𝑡

Luego, para la prueba de hipótesis sobre un cambio estructural en el intercepto se toma


al modelo (1) como restringido y al (2) como irrestricto. La hipótesis nula es 𝐻0 : 𝛽𝑘+1 =
0, y en el estadístico 𝐹 tenemos 𝑞 = 1 y el total de grados de libertad en el denominador
es 𝑛 − (𝑘 + 1) al tener el segundo modelo 𝑘 + 1 parámetros. El estadístico 𝐹 sería

(𝑆𝐶𝑅1 − 𝑆𝐶𝑅2 )/1


𝐹= (6.11)
𝑆𝐶𝑅2 /(𝑛 − (𝑘 + 1))

Para una prueba de hipótesis sobre diferencias en todas las pendientes, la hipótesis nula
es 𝐻0 : 𝛽𝑘+2 = 0, 𝛽𝑘+3 = 0, … , 𝛽2𝑘 = 0 teniendo que compararse los modelos (2) y (3).
En el estadístico 𝐹 se cumple que 𝑞 = 𝑘 − 1, y los grados de libertad de la suma de
cuadrados de residuos del modelo (3) son iguales a 𝑛 − 2𝑘. Luego el estadístico 𝐹 es

(𝑆𝐶𝑅2 − 𝑆𝐶𝑅3 )/(𝑘 − 1)


𝐹= (6.12)
𝑆𝐶𝑅3 /(𝑛 − 2𝑘)

Si se desea hacer una prueba para diferentes interceptos y pendientes, se comparan los
modelos (1) y (3), siendo la hipótesis nula 𝐻0 : 𝛽𝑘+1 = 0, 𝛽𝑘+2 = 0, 𝛽𝑘+3 = 0, … , 𝛽2𝑘 =
0, por lo tanto 𝑞 = 𝑘. Luego el estadístico 𝐹 es

(𝑆𝐶𝑅1 − 𝑆𝐶𝑅3 )/𝑘


𝐹= (6.13)
𝑆𝐶𝑅3 /(𝑛 − 2𝑘)

Ejemplo 6.6: Con los datos del Ejemplo 6.5 se obtiene que SCR1 = 2528770.22 y
SCR 2 = 25052.1156. Probamos primero si se produjo un cambio en el intercepto, para
lo cual el estadístico 𝐹 de (6.11) es el apropiado. Dado que 𝑘 = 2, se reemplaza estos
valores en (6.11) y se obtiene

(2528770.22 − 25052.1156)/1
𝐹= = 3697.7942
25052.1156/37

El valor crítico 𝐹1−𝛼 (1,37) para 𝛼 = 0.01 es 7.3734, con lo cual se rechaza la nula de
interceptos iguales. Nótese que el test nos dice que los datos son consistentes con un
cambio en el intercepto, aunque nosotros sabemos que el cambio realmente fue en la

171
pendiente. Es evidente que debemos ser siempre cautelosos con las conclusiones que
podemos derivar de las pruebas de hipótesis. Ni siquiera un rechazo de la hipótesis con
mucha holgura, como en este caso, nos puede garantizar que la hipótesis sea verdadera.

Ahora analicemos un posible cambio en la pendiente, asumiendo que los interceptos son
distintos. En el mismo ejemplo podemos ver que 𝑆𝐶𝑅3 = 21887.495, y 𝑘 = 2.
Reemplazando en (6.12) se realiza el test para cambio en pendiente, obteniéndose

(25052.1156 − 21887.495)/1
𝐹= = 5.20508
21887.495/36

Comparando con los valores críticos de la tabla de la distribución F-Fisher que se


encuentra al final de este libro se puede encontrar que 𝐹1−𝛼 (1,36) es igual a 4.1131 al
5% de significancia y 7.3955 al 1% de significancia. Entonces se puede rechazar la
hipótesis de pendientes iguales al 5% pero no al 1%, asumiendo que los interceptos son
distintos. Aquí, el test parece fallar pues nosotros sabemos por la construcción de los
datos que sí hubo un cambio en la pendiente, pero no en el intercepto. Quizás el hecho
que se permita interceptos distintos no permite visualizar el verdadero cambio en la
pendiente que sí ocurrió.

Ahora realizamos el test de cambio en interceptos y pendientes, en donde la hipótesis


nula es de no cambio estructural, mientras que la alternativa señala que hubo algún
cambio, en intercepto o en pendiente. Si tomamos al modelo (6.10) como el modelo
irrestricto y al modelo (6.8) como el modelo restringido, reemplazando los valores de
𝑆𝐶𝑅1 y 𝑆𝐶𝑅3 en (6.13) se obtiene

(2528770.22 − 21887.495)/2
𝐹= = 2061.6287
21887.495/36

Este número es muy superior al valor crítico 𝐹(2,36) = 5.2478 al 1% de significancia,


con lo que se rechaza la hipótesis nula de no cambio estructural.

El modelo verdadero tenía interceptos iguales y pendientes distintas. Acomodándonos a


este caso podemos plantear un modelo que tenga interceptos iguales y pendientes
distintas, al que llamamos en términos generales modelo (4),

(4) 𝑌𝑡 = 𝛽1 + 𝛽2 𝑋2𝑡 + ⋯ + 𝛽𝑘 𝑋𝑘𝑡 + 𝛽𝑘+1 (𝐷𝑡 × 𝑋2𝑡 ) + ⋯ + 𝛽2𝑘−1 (𝐷𝑡 × 𝑋2𝑡 ) + 𝑢𝑡

172
Si se desea comparar este modelo contra otro que no tenga diferencias en las pendientes,
el estadístico 𝐹 apropiado es,

(𝑆𝐶𝑅1 − 𝑆𝐶𝑅4 )/(𝑘 − 1)


𝐹=
𝑆𝐶𝑅𝐼𝑉 /(𝑛 − 2𝑘 + 1)

Para el ejemplo que estamos estudiando, el modelo (4) es 𝑌𝑡 = 𝛽1 + 𝛽2 𝑋𝑡 + 𝛽4 (𝐷𝑡 ×


𝑋𝑡 ) + 𝑢𝑡 . El correspondiente modelo restricto es el (6.8). La 𝑆𝐶𝑅4 es igual a
22544.6255 (no se muestra la tabla de resultados).Con los datos del ejemplo y con
𝑘 = 2, la prueba sería

(2528770.22 − 22544.6255)/1
𝐹= = 4113.1908
22544.6255/37

Por lo tanto, se rechaza largamente la hipótesis nula de pendientes iguales al ser


𝐹1−𝛼 (1,37) = 4.1054, por lo que el modelo (4) es preferido al modelo (1). De hecho, el
estadístico 𝐹 es el más alto de los que se han computado en este ejemplo, quizás porque
en esta ocasión hemos utilizado en el test al modelo (4) que es el correctamente
especificado. El lector puede comprobar que si comparamos al modelo (4) (restricto)
versus el (3) (irrestricto), el 𝐹 es igual a 1.0808, por lo que nuevamente deberíamos
preferir al modelo (4). No obstante no podemos comparar a los modelos (2) y (4) pues
ninguno es el restricto del otro, es decir no se encuentran “anidados”.

6.3.2. Estimación recursiva y las pruebas CUSUM para cambio estructural

Hay otra forma de estudiar el cambio de los parámetros en el tiempo, y es por medio de
la estimación recursiva de ellos. Estas estimaciones consisten en hacer los cálculos
empezando con una cantidad limitada de periodos iniciales, para luego ir agregando
observaciones de periodos de uno en uno, observando el comportamiento de los
parámetros estimados.

Sea 𝑿𝝉 la matriz que contiene a las primeras τ filas de la matriz de datos 𝑿, desde el
periodo 1 hasta el periodo 𝜏, donde 𝑘 < 𝜏 ≤ 𝑛. Sea definida de manera similar a las
observaciones de la endógena 𝒚𝝉 . Luego, estimamos los parámetros del modelo por
MCO mediante

173
̂ 𝝉 = (𝑿′𝝉 𝑿𝝉 )−1 𝑿′𝝉 𝒚𝝉
𝜷 (6.14)

Repetimos la estimación para 𝜏 = 𝑘 + 1, 𝑘 + 2, … , 𝑛 y graficamos las series de los


parámetros estimados.

Ejemplo 6.7: Utilizando los datos ficticios de los ejemplos previos, calculamos la
estimación recursiva del modelo de la ecuación (6.8), empezando en 𝜏 = 3. En las
figuras 6.4 y 6.5 mostramos los resultados de estas estimaciones, en donde las líneas
continuas son los valores estimados y las líneas punteadas son los intervalos de
confianza al 95%. En ambas figuras se puede notar que hasta el periodo 29 los valores
estimados se estabilizan entorno a los verdaderos valores poblacionales (𝛽1 = 200 y
𝛽2 = 0.6). Luego del cambio estructural en la pendiente en el periodo 30, las
estimaciones empiezan a sufrir serias distorsiones, la cual no solo afecta al estimador 𝛽̂2
sino también a 𝛽̂1, pues ambos estimadores están negativamente correlacionados.

Figura 6.4
Estimación recursiva del parámetro 𝜷𝟐

174
Figura 6.5
Estimación recursiva del parámetro 𝜷𝟏

La lección que nos deja la estimación recursiva de los parámetros es que si se han
producido cambios bruscos en alguno de los parámetros poblacionales, esto afectará a
todos los parámetros estimados. Lamentablemente el análisis gráfico propuesto no nos
permite definir con claridad cuál de los dos parámetros (o si los dos) sufrió un cambio
estructural. No obstante, esta es una herramienta útil para detectar cambios
estructurales. Uno debería sospechar fuertemente de la existencia de estos cambios
cuando los gráficos muestran fuertes ondulaciones y caídas o alzas bruscas. Por otro
lado, deberíamos pensar que no hay mayores cambios si los valores estimados parecen
converger a números definidos y los intervalos de confianza se vuelven cada vez más
angostos.

Otra forma de observar el cambio estructural en el modelo es por medio de las pruebas
CUSUM y CUSUM-cuadrado7. Son pruebas estadísticas que permiten verificar si hubo
o no algún cambio estructural en algún punto del tiempo. En ambas pruebas se utilizan
̂ 𝝉 el vector de parámetros
las estimaciones recursivas mencionadas arriba. Sea 𝜷
estimado utilizando las τ primeras observaciones como en la ecuación (6.14), entonces
definimos el error de predicción “un paso adelante” como

̂𝝉
𝑒𝜏+1 = 𝑌𝜏+1 − 𝒙𝝉+𝟏 𝜷

donde 𝑌𝜏+1 es el valor de 𝑌 en el periodo 𝜏 + 1, y 𝒙𝝉+𝟏 es el vector fila de datos de las


exógenas en el periodo 𝜏 + 1. Este error hacia adelante es la diferencia entre lo

7
Véase, Brown, Durbin y Evans (1975). Seguimos la exposición de Johnston y Dinardo (1997).

175
observado de la endógena y lo que el modelo predeciría a futuro utilizando las
estimaciones de los parámetros realizadas con τ datos pasados. Como este error es en sí
mismo un error de predicción, se le aplican los resultados obtenidos en el capítulo 5.
Luego, 𝐸[𝑒𝜏+1 ] = 0 y 𝑉𝑎𝑟[𝑒𝜏+1 ] = 𝜎 2 [1 + 𝒙𝝉+𝟏 (𝑿′𝝉 𝑿𝝉 )−1 𝒙′𝝉+𝟏 ], donde 𝑿𝝉 es la matriz
𝑿 con las primeras 𝜏 observaciones.

Definimos el residuo re-escalados como

𝑒𝜏+1
𝑤𝜏+1 = ~𝑁(0, 𝜎 2 )
√1 + 𝒙𝝉+𝟏 (𝑿′𝝉 𝑿𝝉 )−1 𝒙′𝝉+𝟏

Esta serie es calculada para valores de 𝜏 + 1 = 𝑘 + 1 hasta el último periodo. Tanto los
residuos “un paso adelante” como los residuos re-escalados deberían tomar valores
entorno a cero cuando el modelo es estable en parámetros. Pero desde el momento en
que se produce un quiebre estructural, la información histórica hasta el periodo 𝜏 ya no
es útil para predecir lo que ocurrirá en el periodo siguiente, lo que generará errores de
predicción grandes, alejándose por lo tanto la serie 𝑤τ de cero.

En la figura 6.6 tenemos la gráfica de la serie de tiempo 𝑤τ para los datos del ejemplo
que estamos desarrollando. Evidentemente en el periodo 30 los residuos se alejan
notablemente del eje horizontal, indicando que a partir de ese periodo se ha producido
un cambio estructural.

Figura 6.6
Residuos “un paso adelante”

176
Existen dos tests similares que trabajan con la serie 𝑤τ 8. El primero de ellos calcula la
suma acumulada de 𝑤t , por lo que toma el nombre de 𝐶𝑈𝑆𝑈𝑀. Se define a la serie de
sumas acumuladas 𝑊𝑡 como

𝑤𝑘+1 𝑤𝑘+2 𝑤𝑡 ∑𝑡𝑗=𝑘+1 𝑤𝑗


𝑊𝑡 = + +⋯+ = 𝑡 = 𝑘 + 1, … , 𝑇
𝜎̂ 𝜎̂ 𝜎̂ 𝜎̂

En la última ecuación estamos llamando 𝑇 al último periodo, y


2 𝑤𝑘+1 𝑤𝑘+1
𝜎̂ = √∑𝑇𝑗=𝑘+1(𝑤𝑗 − 𝑤
̅) /(𝑇 − 𝑘 − 1). Por ejemplo, 𝑊𝑘+1 = ̂
, 𝑊𝑘+2 = ̂
+
𝜎 𝜎
𝑤𝑘+2 𝑤𝑘+1 𝑤𝑘+2 𝑤𝑘+3
̂
, 𝑊𝑘+3 = ̂
+ ̂
+ ̂
,… y así sucesivamente hasta llegar al último periodo
𝜎 𝜎 𝜎 𝜎

𝑇. Cuando no hay cambio estructural en los parámetros, deberíamos esperar que los 𝑤t
sean valores alrededor de cero dado que los parámetros calculados hasta el periodo
𝑡 − 1 explican bien el comportamiento de las variables en el periodo 𝑡. Luego la suma
acumulada 𝑊𝑡 de estos valores también estará cerca a cero para todo 𝑡. Si se produce un
quiebre estructural, entonces los valores 𝑤t serán distintos de cero desde el momento
del quiebre en adelante, y por lo tanto 𝑊𝑡 se aleja de cero. La figura 6.7 muestra la suma
acumulada del ejemplo junto con dos bandas que son líneas rectas que unen los puntos
(𝑘, ±𝑎. (𝑇 − 𝑘)1/2 ) y (𝑘, ±3𝑎. (𝑇 − 𝑘)1/2 ), donde 𝑎 = 0.948 para un 95% de
confianza. Cuando la serie 𝐶𝑈𝑆𝑈𝑀 cruza las bandas se rechaza la hipótesis de
parámetros estables. Nótese que desde el periodo 30 la suma acumulada empieza a
aumentar sostenidamente tal como se esperaba.

8
Brown, Durbin y Evans (1975).

177
Figura 6.7
Serie de suma acumulada CUSUM

Una alternativa es el 𝐶𝑈𝑆𝑈𝑀-cuadrado, la cual trabaja con el cuadrado de los residuos


re-escalados. Esta serie se define como la serie

1 2 2
∑𝑡𝑗=𝑘+1 𝑤𝑗 2
𝑆𝑡 = (𝑤𝑘+1 + 𝑤𝑘+2 +⋯+ 𝑤𝑡2 ) = 𝑡 = 𝑘 + 1, … , 𝑇
∑𝑇𝑗=𝑘+1 𝑤𝑗 2 ∑𝑇𝑗=𝑘+1 𝑤𝑗 2

1 2
donde 𝐸[𝑆𝑡 ] ≈ (𝑡 − 𝑘)/(𝑡 − 𝑇). La serie está compuesta por 𝑆𝑘+1 = ∑𝑇 2 (𝑤𝑘+1 ),
𝑗=𝑘+1 𝑤𝑗

1 2 2 1 2 2 2
𝑆𝑘+2 = ∑𝑇 2 (𝑤𝑘+1 + 𝑤𝑘+2 ), 𝑆𝑘+3 = ∑𝑇 2 (𝑤𝑘+1 + 𝑤𝑘+2 + 𝑤𝑘+3 ), y así
𝑗=𝑘+1 𝑤𝑗 𝑗=𝑘+1 𝑤𝑗

1 2 2
sucesivamente hasta 𝑆𝑇 = ∑𝑇 2
(𝑤𝑘+1 + 𝑤𝑘+2 + ⋯ + 𝑤𝑇2 ) = 1. A diferencia de la
𝑗=𝑘+1 𝑤𝑗

serie 𝐶𝑈𝑆𝑈𝑀, en 𝐶𝑈𝑆𝑈𝑀-cuadrado la suma acumulada siempre va a aumentar pues se


agregan valores estrictamente positivos, y en el último periodo necesariamente la suma
acumulada llegará a ser igual a 1. Cuando no hay cambio estructural en los parámetros,
la serie 𝐶𝑈𝑆𝑈𝑀 cuadrado aumentará en forma permanente y estable, tal como se
presenta en la figura 6.8, usando los datos hipotéticos del ejemplo 6.5 para los periodos
1-29.

178
Figura 6.8
Serie de CUSUM-cuadrado sin cambio estructural

Igualmente se suele graficar con sus bandas de confianza 𝐸[𝑆𝑡 ] ± 𝑐𝑜 donde 𝑐𝑜 depende
de 𝑛 − 𝑘. Si la serie 𝑆𝑡 cruza las bandas de confianza, entonces podemos afirmar que
hay evidencia de un cambio estructural. En la figura 6.9 se dibuja la serie 𝐶𝑈𝑆𝑈𝑀-
cuadrado para los 40 periodos del ejemplo, en donde a partir del periodo 30 se ha
producido el cambio estructural. Obsérvese que en esta ocasión la suma acumulada
presenta un salto importante desde el periodo 30. Como al final la serie está forzada a
terminar en el valor 1, entre los periodos 29 y 30 se aprecia un importante quiebre hacia
abajo en la serie 𝐶𝑈𝑆𝑈𝑀-cuadrado. Por esta razón 𝐶𝑈𝑆𝑈𝑀-cuadrado es más sensible a
cambios estructurales que el 𝐶𝑈𝑆𝑈𝑀 simple, en donde la serie sale de las bandas recién
varios periodos después del quiebre.

179
Figura 6.9
Serie de CUSUM-cuadrado con cambio estructural

Ejemplo 6.8: Cambio estructural en la función consumo


Consideremos datos del consumo y del producto interno bruto de Perú entre los años
1950 y 2013. Durante este largo periodo, la economía de este país sufrió importantes
cambios estructurales, destacando aquella ocurrida a inicios de la década de 1970 en
donde se aplicó una política de estatizaciones de empresas privadas, así como la reforma
agraria, la cual entregó las tierras de los grandes hacendados a los trabajadores. Tal
estructura se mantuvo aproximadamente hasta comienzos de la década de 1990, en
donde se aplicaron nuevas reformas que buscaron reducir la participación estatal en la
economía, promoviéndose la inversión privada mediante leyes que flexibilizaron
mercados clave como el mercado laboral y los mercados de capitales. Utilizando la
información de consumo privado nacional y del producto interno bruto disponible en el
sitio web del Banco Central de Reserva del Perú, vamos a estimar un modelo sencillo de
dos variables de la función consumo9.

𝐶𝑜𝑛𝑠𝑢𝑚𝑜𝑡 = 𝛽1 + 𝛽2 𝑃𝐼𝐵𝑡 + 𝑢𝑡

En la figura 6.10 presentamos las series de tiempo de las variables Producto Bruto
Interno y Consumo Privado del Perú en el periodo mencionado. Nótese en la figura que
entre 1970 y 1990 estas dos series económicas han presentado fluctuaciones

9
En el capítulo 10 se explica que esta ecuación presenta el problema conocido como “endogeneidad de
los regresores”. Sin embargo, para fines del ejercicio, ignoraremos este problema para concentrarnos en la
inestabilidad de los parámetros en el tiempo.

180
importantes. En la figura 6.11 se muestra la serie 𝐶𝑈𝑆𝑈𝑀, en donde se observa que la
serie 𝐶𝑈𝑆𝑈𝑀 tiene un comportamiento altamente inestable desde los años 70 en
adelante. Por su parte, la figura 6.12 presenta la serie 𝐶𝑈𝑆𝑈𝑀-cuadrado que muestra
con mayor claridad los quiebres estructurales producidos alrededor de 1975 y otro un
poco después de 1995. Como las reformas en la economía fueron aplicadas a comienzos
de las décadas del 70 y 90 del siglo XX, es posible que los cambios en el patrón de
consumo nacional se hayan materializado en cambios en parámetros unos pocos años
después.

Figura 6.10
Consumo y Producto Interno Bruto del Perú (1950-2013)

Figura 6.11
Serie CUSUM de los residuos de la Ecuación del Consumo

181
Figura 6.12
Serie CUSUM-cuadrado de los residuos de la Ecuación del Consumo

182
Apéndice 6.1

Consideremos un modelo de regresión lineal con 𝑘 variables, en donde las primeras


𝑘 − 1 variables toman el nombre de “Ws” y llamamos a la última “Z”. El modelo queda
como

𝑌𝑖 = 𝛽1 + 𝛽2 𝑊2𝑖 + ⋯ + 𝛽𝑘−1 𝑊𝑘−1𝑖 + 𝛽𝑧 𝑍𝑖 + 𝑢𝑖

Se asume que en este modelo la correlación entre la variable 𝑍 y las variables 𝑊 es alta.
Queremos demostrar que la varianza del estimador MCO 𝛽̂𝑧 , es

𝜎2
𝑉𝑎𝑟(𝛽̂𝑧 ) =
(1 − 𝑅𝑧2 ) ∑(𝑍𝑖 − 𝑍̅)2

Aquí, 𝑅𝑧2 es el R-cuadrado de la regresión de 𝑍 contra todas las variables 𝑊𝑗 . Definamos


en forma matricial el modelo como

𝒚 = 𝑾𝜷 + 𝒛𝜷𝒛 + 𝒖

̂𝒛 =
Por el teorema de Frisch-Waugh presentado en el capítulo 5, sabemos que 𝜷
̂ 𝒛 ) = 𝜎 2 (𝒛′ 𝑴𝒘 𝒛)−1. Obsérvese que 𝒛′ 𝑴𝒘 𝒛 es de
(𝒛′ 𝑴𝒘 𝒛)−1 𝒛′ 𝑴𝒘 𝒚 y que 𝑉𝑎𝑟(𝜷
̂ 𝒛 se puede escribir como
dimensión 1 1 , entonces la varianza de 𝜷

𝜎2 𝜎2
̂ 𝒛) =
𝑉𝑎𝑟(𝜷 =
𝒛′ 𝑴′𝒘 𝑴𝒘 𝒛 𝒆′𝒛 𝒆𝒛

El vector 𝒆𝒛 es el vector de residuos de la regresión de 𝑍𝑖 contra las variables W, cuyo


𝒆′ 𝒆
R-cuadrado es 𝑅𝑧2 = 1 − ∑(𝑍𝒛−𝑍𝒛̅)2 . Despejando y reemplazando se obtiene lo que
𝑖

queríamos hallar.

𝜎2
̂ 𝒛) =
𝑉𝑎𝑟(𝜷
(1 − 𝑅𝑧2 ) ∑(𝑍𝑖 − 𝑍̅)2

183
Apéndice 6.2

Descomposición de la brecha salarial de Oaxaca y Blinder

Esta descomposición fue planteada paralelamente por Oaxaca (1973) y Blinder (1973),
y nos permite explicar qué explica la diferencia o brecha salarial entre hombres y
mujeres. Haremos una presentación de ese enfoque usando los modelos de variables
dummy de este capítulo.

Partiendo de la ecuación (6.5), donde 𝑆1𝑖 es la dummy que es igual a 1 si 𝑖 es hombre y 0


si es mujer, proponemos el modelo alternativo excluyendo al intercepto y la variable 𝑋,
e incluyendo a la dummy 𝑆2𝑖 que corresponde a las mujeres, así como su interacción.

𝑌𝑖 = 𝛼ℎ 𝑆1𝑖 + 𝛼𝑚 𝑆2𝑖 + 𝛽ℎ (𝑆1 × 𝑋)𝑖 + 𝛽𝑚 (𝑆2 × 𝑋)𝑖 + 𝑢𝑖 (6.17)

En este modelo, los subíndice “ℎ” y “𝑚” se refieren a los hombres y mujeres
respectivamente. Como se ha mostrado en este capítulo, existen equivalencias entre los
parámetros de este último modelo y el (6.5), siendo estas 𝛽1 = 𝛼𝑚 , 𝛽2 = 𝛽𝑚 , 𝛽3 =
𝛼ℎ − 𝛼𝑚 , 𝛽4 = 𝛽ℎ − 𝛽𝑚 . Reemplazando esas equivalencias en (6.5) nos queda

𝑌𝑖 = 𝛼𝑚 + 𝛽𝑚 𝑋𝑖 + (𝛼ℎ − 𝛼𝑚 )𝑆1𝑖 + (𝛽ℎ − 𝛽𝑚 )(𝑆1 × 𝑋)𝑖 + 𝑢𝑖 (6.18)

Estimando (6.5) (o (6.18)) por MCO y bajo la propiedad de que la recta pasa por los
puntos medios de las variables se obtiene,

̅̅̅̅̅̅̅̅̅̅̅
𝑌̅ = 𝛼̂𝑚 + 𝛽̂𝑚 𝑋̅ + (𝛼̂ℎ − 𝛼̂𝑚 )𝑆1̅ + (𝛽̂ℎ − 𝛽̂𝑚 )(𝑆 1 × 𝑋) (6.19)

Notando 𝑆1̅ y (1 − 𝑆1̅ ) son la proporción de hombres y mujeres respectivamente en la


muestra, entonces

𝑌̅ = 𝑆1̅ 𝑌̅ℎ + (1 − 𝑆1̅ )𝑌̅𝑚 = 𝑆1̅ (𝑌̅ℎ − 𝑌̅𝑚 ) + 𝑌̅𝑚

𝑋̅ = 𝑆1̅ 𝑋̅ℎ + (1 − 𝑆1̅ )𝑋̅𝑚 = 𝑆1̅ (𝑋̅ℎ − 𝑋̅𝑚 ) + 𝑋̅𝑚

̅̅̅̅̅̅̅̅̅̅̅
(𝑆 ̅ ̅
1 × 𝑋) = 𝑆1 𝑋ℎ

Reemplazando estos valores en la ecuación (6.19) y tomando en cuenta que 𝑌̅𝑚 = 𝛼̂𝑚 +
𝛽̂𝑚 𝑋̅𝑚 , luego de despejar términos se obtiene,

𝑌̅ℎ − 𝑌̅𝑚 = (𝛼̂ℎ − 𝛼̂𝑚 ) + 𝛽̂𝑚 (𝑋̅ℎ − 𝑋̅𝑚 ) + (𝛽̂ℎ − 𝛽̂𝑚 )𝑋̅ℎ

184
Esta ecuación muestra a qué se debe que los hombres y las mujeres puedan tener
salarios observados distintos. El primer componente (𝛼̂ℎ − 𝛼̂𝑚 ) es puramente
discriminatorio, en donde los hombres ganan esta diferencia adicional, la que no es
explicada por ninguna variable. El segundo componente 𝛽̂𝑚 (𝑋̅ℎ − 𝑋̅𝑚 ) captura las
diferencias entre los valores de 𝑋 promedio entre hombres y mujeres (a menudo
llamadas “dotaciones”). Por ejemplo, si 𝑋 son los años de educación y los hombres
tuvieran en promedio más años de educación que las mujeres, esto se traduce en un
incremento en los salarios debido a esta razón. Nótese que se multiplica por 𝛽̂𝑚 , con lo
cual 𝛽̂𝑚 (𝑋̅ℎ − 𝑋̅𝑚 ) sería –hipotéticamente– el incremento que experimentarían las
mujeres si su educación se equiparara con la de los hombres. En tercer componente
(𝛽̂ℎ − 𝛽̂𝑚 )𝑋̅ℎ depende de cuánto pague el mercado laboral por cada año adicional de
estudios, reflejado en los 𝛽̂𝑗 , 𝑗 = 𝑚, ℎ. Si hay diferencias en estos coeficientes, entonces
esto contribuirá a explicar la diferencia de salarios.

Ejercicios

6.1 En su trabajo de tesis Ud. está investigando sobre los determinantes del turismo en
el Perú (medido como el número de turistas extranjeros que llegan al Perú al año).
El modelo que usted ha propuesto es

𝑇𝑡 = 𝛽0 + 𝛽1 𝑉𝑡−1𝑖 + 𝛽2 𝑃𝐴𝑡 + 𝑢𝑡

donde 𝑇𝑡 es el número de turistas extranjeros que visitaron el Perú en el año t, Vt es


la tasa de crecimiento de la economía mundial, y PAt es el precio promedio real de
los pasajes aéreos. Además, usted trabaja con datos anuales en el periodo 1990-
2013.
a. Su asesor de tesis le sugiere que analice el efecto de la elección de la ciudadela
inca de Machu Picchu como una de las Siete Maravillas del Mundo en el año
2007 y del lanzamiento de spots publicitarios sobre el Perú a nivel internacional
desde el año 2011 en adelante. ¿Cómo modificaría el modelo? ¿Cómo verificaría
si estos eventos tuvieron efecto sobre el número de turistas extranjeros?
b. ¿Cómo probaría la hipótesis que estas campañas publicitarias tuvieron algún
efecto?

185
c. Se cree que desde el atentado terrorista en Nueva York del año 2001 el mundo
aerocomercial cambió debido al temor por viajar en avión además de las
numerosas restricciones y medidas de seguridad en los vuelos que encarecieron
los pasajes y desanimaron a los turistas. ¿Cómo evaluaría un cambio estructural
desde esa fecha?

6.2 Se han utilizado datos trimestrales para estimar la función

𝑌𝑡 = 𝛼 + 𝜃1 𝐷1𝑡 + 𝜃2 𝐷2𝑡 + 𝜃3 𝐷3𝑡 + 𝜃4 𝐷4𝑡 + 𝛽𝑋𝑡 + 𝑢𝑡

donde 𝐷𝑗𝑡 es una variable ficticia que toma el valor de 1 en el trimestre j-ésimo y 0
en los demás
a. Indique qué parámetros son estimables. Explique por qué.
b. Un investigador impone la restricción 𝛼 = 0 y otro impone la restricción 𝜃1 = 0.
¿Serán las estimaciones de 𝜃4 diferentes en ambos casos? ¿Por qué?
c. Considere el modelo con 𝛼 = 0. Suponga que cuenta con los siguientes datos

tiempo trim Y X tiempo trim Y X


1 1 75 1115 11 3 66 1650
2 2 50 1335 12 4 88 1699
3 3 55 1400 13 1 97 1300
4 4 65 1450 14 2 70 1884
5 1 85 950 15 3 68 1789
6 2 60 1450 16 4 85 1900
7 3 62 1556 17 1 105 1410
8 4 77 1580 18 2 75 2007
9 1 90 1189 19 3 78 2028
10 2 60 1770 20 4 100 2113

Estime una regresión de 𝑌 contra 𝑋, y luego 𝑌 contra 𝑋 y las dummy trimestrales.


Compare resultados.

6.3 Dada la siguiente función de la demanda de alimentos:

𝐷𝑡 = 𝛽0 + 𝛽1 𝑃𝑡 + 𝛽2 𝐼𝑡 + 𝑢𝑡

Construya un modelo utilizando variables dummy para probar la hipótesis que la


función de demanda se traslada y cambia de pendiente respecto al precio y el
ingreso en periodo de control de precios.

186
6.4 Se desea estimar una ecuación de salarios del tipo

ln(𝑤𝑖 ) = 𝛽1 + 𝛽2 𝑆𝑖 + 𝛽3 𝐸𝑥𝑝𝑖 + 𝛽4 𝐸𝑥𝑝𝑖2 + 𝑢𝑖

𝑆𝑖 son los años de escolaridad y 𝐸𝑥𝑝𝑖 son los años de experiencia.


a. Se piensa que el ámbito rural o urbano, podría influir también como un
determinante de los salarios. Para ello, un investigador añade a la ecuación de
arriba una variable dummy 𝐷𝑖 que toma el valor de 1 si la persona vive en áreas
urbanas y 0 en áreas rurales, con lo cual la ecuación que estima es:
ln(𝑤𝑖 ) = 𝛽1 + 𝛽2 𝑆𝑖 + 𝛽3 𝐸𝑥𝑝𝑖 + 𝛽4 𝐸𝑥𝑝𝑖2 + 𝛼1 𝐷𝑖 + 𝑢𝑖

donde 𝑆𝑖 son los años de escolaridad y 𝐸𝑥𝑝𝑖 son los años de experiencia.
Interprete el coeficiente 𝛼1 . ¿Cuál sería la esperanza condicional de una persona
que tiene 10 años de escolaridad, 5 de experiencia y vive en las zonas urbanas?
¿Cuál será la misma esperanza condicional si vive en las zonas rurales?
b. Ahora se desea ver si la tasa de retorno de la educación 𝛽2 varía según ámbito
urbano o rural. ¿Qué modificación haría a la ecuación de la parte a? Presente la
nueva versión e indique cómo comprobaría si hay o no diferencias por ámbito.
c. Se piensa que todos los parámetros del modelo cambian según el ámbito rural o
urbano. Vuelva a plantear el modelo econométrico utilizando la variable dummy
𝐷 e indique cómo se podría llevar a cabo un test de cambio estructural de este
tipo.

6.5 En un estudio sobre el comportamiento de los salarios (𝑊) se supuso que estos
dependían de dos variables: la experiencia laboral (𝐸𝐿), medida en años de trabajo
y de los años de estudio (𝐴𝐸). Se recogieron datos correspondientes a 30
individuos, 15 varones y 15 mujeres. El modelo original que se busca estimar es:

𝑊𝑖 = 𝛽1 + 𝛽2 𝐸𝐿𝑖 + 𝛽3 𝐴𝐸𝑖 + 𝑢𝑖

Se quiere ver si existe algún efecto del sexo del individuo sobre los salarios. Para
ello se utilizan los siguientes modelos de cambio estructural en versión matricial
(los subíndices H y M corresponden a datos de hombres y mujeres
respectivamente). A saber,
Modelo I: Los salarios no se ven afectados por el género de los individuos

187
𝛽1
𝑊 𝑖 𝐸𝐿𝐻 𝐴𝐸𝐻
( 𝐻) = [ 𝐻 𝛽
] . [ 2] + 𝑢
𝑊𝑀 𝑖𝑀 𝐸𝐿𝑀 𝐴𝐸𝑀
𝛽3
Modelo II: El género de los individuos afecta únicamente a los niveles autónomos
del salario
𝛽1𝐻
𝑊 𝑖 0 𝐸𝐿𝐻 𝐴𝐸𝐻 𝛽1𝑀 𝑢𝐻
( 𝐻) = [ 𝐻 ].[ ] + [𝑢 ]
𝑊𝑀 0 𝑖𝑀 𝐸𝐿𝑀 𝐴𝐸𝑀 𝛽2 𝑀
𝛽3

Modelo III: El género de los individuos afecta a los niveles autónomos y a las
pendientes.
𝛽1𝐻
𝛽2𝐻
𝑊𝐻 𝑖 𝐸𝐿𝐻 𝐴𝐸𝐻 0 0 0 𝛽 𝑢𝐻
( )=[𝐻 ] . 3𝐻 + [𝑢 ]
𝑊𝑀 0 0 0 𝑖𝑀 𝐸𝐿𝑀 𝐴𝐸𝑀 𝛽1𝑀 𝑀
𝛽2𝑀
[𝛽3𝑀 ]

Se estiman por MCO los tres modelos obteniéndose los siguientes resultados.
Modelo I: ̂ = 73.0348 + 4.9839 × 𝐸𝐿 + 0.1780 × 𝐴𝐸
𝑊
𝑅 2 = 0.7305 𝑆𝐶𝑅𝐼 = 1289.757
Modelo II: 𝐷𝐻 = {1 = ℎ𝑜𝑚𝑏𝑟𝑒, 0 = 𝑚𝑢𝑗𝑒𝑟},
𝐷𝑀 = {0 = ℎ𝑜𝑚𝑏𝑟𝑒, 1 = 𝑚𝑢𝑗𝑒𝑟}
̂ = 79.3864 × 𝐷𝐻 + 73.6603 × 𝐷𝑀 + 5.0119 × 𝐸𝐿 − 0.0762 × 𝐴𝐸
𝑊
𝑅 2 = 0.7760 𝑆𝐶𝑅𝐼𝐼 = 1071.682
Modelo III:
̂ = 97.5315 × 𝐷𝐻 + 5.728 × 𝐸𝐿𝐻 − 1.6408 × 𝐴𝐸𝐻 + 63.0251 × 𝐷𝑀
𝑊
+ 2.8435 × 𝐸𝐿𝑀 + 1.7681 × 𝐴𝐸𝑀
𝑅 2 = 0.9827 𝑆𝐶𝑅𝐼𝐼𝐼 = 82.4042
Asumiendo que 𝒖 se distribuyen exactamente como una 𝑁(𝟎, 𝜎 2 𝑰) pruebe la
hipótesis 𝐻0 : 𝛽1𝐻 = 𝛽1𝑀 (interceptos iguales) mediante el estadístico 𝐹.

6.6 Sean 𝑆1 una variable dummy que toma el valor de 1 si el individuo es hombre y 0 si
es mujer, mientras que 𝑆2 es igual a 1 si el individuo es mujer y 0 si es hombre.
¿Qué interpretación tienen los parámetros de la regresión: 𝑦𝑖 = 𝛼1 𝑆1𝑖 + 𝛼2 𝑆2𝑖 +
𝑢𝑖 ? ¿Y si estima esta ecuación por MCO, a qué será igual α
̂1 y α
̂2 ?

188
6.7 Considere los siguientes modelos que relacionan los salarios (𝑦) con el sexo de las
personas:
Modelo A: 𝑦𝑖 = 𝛽1 + 𝛽2 𝑆1 + 𝑢𝑖
Modelo B: 𝑦𝑖 = 𝛼1 𝑆1 + 𝛼2 𝑆2 + 𝑢𝑖
donde 𝑆1 es una variable dummy que toma el valor de 1 si la persona es hombre y 0
si es mujer, mientras que 𝑆2 es una variable dummy que toma el valor de 1 si la
persona es mujer y 0 si es hombre. Demuestre que estimando ambos modelos por
mínimos cuadrados ordinarios se obtiene que 𝛽̂1 = 𝛼̂2 y que 𝛽̂2 = 𝛼̂1 − 𝛼̂2 .

6.8 Considere el siguiente modelo:


𝑦𝑖 = 𝛼1 + 𝛼2 𝐸2𝑖 + 𝛼3 𝐸3𝑖 + 𝑢𝑖
El cual se estima por MCO, donde 𝐸2 y 𝐸3 son variables dummy que representan la
pertenencia al segundo y tercer nivel educativo respectivamente. Demostrar que las
estimaciones de las variables son:
𝛼̂1 = 𝑌̅1 𝛼̂2 = 𝑌̅2 − 𝑌̅1 𝛼̂3 = 𝑌̅3 − 𝑌̅1

6.9 Dada la siguiente función de demanda de alimentos:


𝐷𝑡 = 𝛽0 + 𝛽1 𝑃𝑡 + 𝛽2 𝐼𝑡 + 𝑢𝑡

Donde D= Logaritmo de la demanda de alimentos, P = Logaritmo del precio de


alimentos, I = Logaritmo del ingreso. Se estima en base a una encuesta que incluía
preguntas sobre nivel educativo del jefe de hogar (sin educación, primaria,
secundaria y superior) y tamaño familiar (Número de integrantes de la familia).

a. Construya un modelo (utilizando variables dummy) en el que se puede verificar


si el componente autónomo de la demanda cambia según el nivel educativo.
b. Construya un modelo en donde se pueda verificar si la elasticidad ingreso de la
demanda varía según nivel educativo.
c. Construya un modelo en donde se pruebe si la elasticidad precio de la demanda
es diferente para familias con más de 5 miembros.

6.10 Considere los siguientes datos de la economía peruana sobre exportaciones y tipo
de cambio y el producto bruto mundial. Estime el modelo de regresión lineal
𝐸𝑥𝑝𝑜𝑟𝑡𝑡 = 𝛽1 + 𝛽2 𝑊𝑃𝐼𝐵 + 𝛽3 𝑇𝐶 + 𝛽4 𝐼𝑛𝑑𝑖𝑐𝑒𝑡 + 𝑢𝑡
por mínimos cuadrados ordinarios, donde Export son las exportaciones reales
peruanas, 𝑊𝑃𝐼𝐵 es el PBI mundial real, 𝑇𝐶 es el tipo de cambio Nuevos Soles por

189
Dólar, y Índice es el índice de precios de las exportaciones. Luego calcule la
estimación recursiva de los parámetros, y las series 𝐶𝑈𝑆𝑈𝑀 y 𝐶𝑈𝑆𝑈𝑀-cuadrado, y
evalúe si se ha producido algún cambio estructural en el periodo 1994-2013.

PBI Mundial en Tipo de Cambio Exportaciones Índice de Precios


US$ de 2005 Nominal reales en US$ de de Exportaciones
(miles de mill.) (promedio anual) 2005 (mill.) (2007=100)
1994 32629.7 2.20 11204.0 100.0
1995 33621.2 2.26 11825.3 117.8
1996 34735.8 2.45 12874.0 116.3
1997 36046.0 2.66 14560.5 115.9
1998 36957.5 2.93 15372.3 103.0
1999 38230.5 3.38 16546.6 95.1
2000 39931.4 3.49 17868.9 98.4
2001 40642.8 3.51 19089.2 93.6
2002 41474.8 3.52 20529.8 96.5
2003 42639.3 3.48 21794.6 105.4
2004 44420.0 3.41 25113.8 129.3
2005 46041.3 3.30 28931.9 151.1
2006 47912.2 3.27 29163.2 205.6
2007 49810.6 3.13 31161.0 235.2
2008 50502.4 2.93 33375.0 243.4
2009 49436.3 3.01 33132.0 90.6
2010 51413.0 2.83 33571.6 118.2
2011 52859.4 2.75 35893.8 143.7
2012 54062.2 2.64 37228.7 140.5
2013 54888.6 2.70 36886.5 132.8

190
Capítulo 7
Propiedades Asintóticas de los Estimadores MCO

En los capítulos anteriores se ha discutido las diversas propiedades de los estimadores


de mínimos cuadrados ordinarios. En ellos se trabaja con una muestra fija de 𝑛
observaciones, y sus propiedades estadísticas dependen de los supuestos sobre las
perturbaciones. No obstante, en la econometría moderna se toma ventaja de las
propiedades de los estimadores cuando las muestras son muy grandes, lo cual es
estudiado por la teoría asintótica. Estas propiedades son presentadas en este capítulo, y
permiten en cierta medida relajar algunos de los supuestos estadísticos del modelo
clásico, entregando resultados más robustos. Así, sería útil no depender demasiado de
supuestos sobre distribuciones exactas como la distribución normal de los errores, sino
trabajar con versiones “aproximadas” o “asintóticas” que son válidas solamente cuando
𝑛 es muy grande. Algunas propiedades como la consistencia de los estimadores –que
consiste en que el parámetro estimado tiende al valor poblacional cuando la muestra
crece infinitamente– se vuelve clave para evaluar estimadores de parámetros.

En este capítulo presentaremos algunos conceptos de teoría asintótica en forma un tanto


intuitiva con el fin de contar con herramientas para la evaluación de estimadores en un
contexto de muestras grandes. Posteriormente en el capítulo vamos a ver cuáles son las
principales propiedades de los estimadores de mínimos cuadrados ordinarios, bajo la luz
de la teoría asintótica.

7.1 Propiedades estadísticas y asintóticas de los promedios muestrales

Nuestro primer objetivo es estudiar el comportamiento de los promedios muestrales y


sus propiedades estadísticas cuando el tamaño de la muestra se incrementa
enormemente. En la teoría asintótica se ha encontrado que estos promedios y sus
distribuciones de probabilidades presentan algunas propiedades regulares que
analizaremos en este capítulo. Aunque en esta sección nos ocuparemos solamente de los
promedios muestrales simples, definidos como la suma de n valores divididos entre n,
las propiedades se cumplen también para promedios ponderados.

Es importante estudiar a los promedios muestrales pues, como recordaremos de la


sección 2.7 del capítulo 2, los estimadores de mínimos cuadrados también son una
especie de promedios ponderados de la variable aleatoria 𝑌𝑖 , debido a la propiedad de

191
linealidad. Los promedios muestrales simples y ponderados también son combinaciones
lineales de 𝑌𝑖 , y por ello comparten las mismas propiedades asintóticas que los
estimadores de mínimos cuadrados ordinarios.

Supongamos que contamos con una muestra aleatoria simple de una variable aleatoria
𝑌, siendo esta muestra de tamaño 𝑛. La muestra es la colección 𝑌1 , 𝑌2 , … , 𝑌𝑛 , en ella
cada una de las observaciones puede entenderse como una variable aleatoria
independiente de las demás variables pero idénticamente distribuida (usualmente
denotado como “𝑖. 𝑖. 𝑑.”) que 𝑌.

Supongamos que cada 𝑌𝑖 tiene como media a 𝜇𝑦 y como varianza a 𝜎𝑦2 . El promedio
simple de esta muestra es

1
𝑌̅𝑛 = ∑𝑛𝑖=1 𝑌𝑖 (7.1)
𝑛

En (7.1) el subíndice 𝑛 del promedio enfatiza que el valor de este estadístico depende
del tamaño de muestra. Este estadístico es un estimador de la media poblacional 𝜇𝑦 . El
valor esperado del promedio muestral es

1 1 1
𝐸[𝑌̅𝑛 ] = 𝐸 [𝑛 ∑𝑛𝑖=1 𝑌𝑖 ] = 𝑛 ∑𝑛𝑖=1 𝐸[𝑌𝑖 ] = 𝑛 𝑛𝜇𝑦 = 𝜇𝑦

(7.2)

Nótese que este valor esperado no depende del número de observaciones. En el caso de
la varianza del promedio muestral,

1 1
𝑉𝑎𝑟[𝑌̅𝑛 ] = 𝑉𝑎𝑟 [𝑛 ∑𝑛𝑖=1 𝑌𝑖 ] = 𝑛2 𝑉𝑎𝑟[∑𝑛𝑖=1 𝑌𝑖 ]

1 1 1 𝜎𝑦2
= 𝑛2 [∑𝑛𝑖=1 𝑉𝑎𝑟[𝑌𝑖 ] + 2 ∑𝑖<𝑗 ∑ 𝐶𝑜𝑣(𝑌𝑖 , 𝑌𝑗 )] = 𝑛2 [∑𝑛𝑖=1 𝜎𝑦2 ] = 𝑛2 𝑛𝜎𝑦2 = (7.3)
𝑛

Observamos que la varianza de la media muestral se reduce conforme se incrementan


las observaciones. Es decir, mientras tengamos más observaciones, la precisión con la
que se estima a 𝜇𝑦 es mejor. Cabe mencionar que los resultados mostrados en (7.2) y
(7.3) son válidos sin importar cuál sea la distribución de probabilidades de la variable
𝑌𝑖 .

192
A estas alturas cabe preguntarnos ¿Qué ocurrirá con el valor de 𝑌̅𝑛 cuando 𝑛 tiende a
infinito?, ¿Cuál será la distribución de probabilidades de 𝑌̅𝑛 , y cómo se altera esta
distribución cuando el tamaño de la muestra aumenta?

Para tener una idea de la respuesta a estas preguntas, veamos un ejemplo sencillo.

Ejemplo 7.1: Supongamos que deseamos calcular el promedio de hijos naturales que
una mujer puede tener en su vida. Supongamos que 𝑌𝑖 representa el número de hijos que
una mujer puede tener en su vida. Como se trata de eventos discretos (nacimientos) que
ocurren en un intervalo continuo (en el rango de 15 a 49 años), estamos ante un proceso
de Poisson. Denotamos esta distribución como 𝑌𝑖 ~𝑃(𝜆) que indica que 𝑌𝑖 tiene una
distribución de Poisson con parámetro 𝜆, en donde por la teoría de probabilidades se
𝑒 −𝜆 𝜆𝑌𝑖
sabe que Pr(𝑌𝑖 ) = , 𝐸[𝑌𝑖 ] = 𝜆 y 𝑉𝑎𝑟[𝑌𝑖 ] = 𝜆. Asumamos 𝜆 = 1.
𝑌!

Supongamos que obtenemos una muestra aleatoria simple 𝑌1 , 𝑌2 , … , 𝑌𝑛 de 𝑛 mujeres que


ya superaron los 49 años y por lo tanto ya no tendrán más hijos naturales. Veamos ahora
cómo se comporta el promedio muestral 𝑌̅𝑛 ante diferentes tamaños de muestra 𝑛. En el
caso 𝑛 = 2, tenemos 𝑌̅2 = (𝑌1 + 𝑌2 )/2. Los posibles valores de 𝑌1 son {0, 1, 2, … } y los
de 𝑌2 son también {0, 1, 2, … }. Entonces los posibles valores de la variable aleatoria 𝑌̅2
son {0, 0.5, 1, 1.5, 2, … } pues son el resultado de promediar diferentes combinaciones de
dos números naturales.

Para tener la distribución de probabilidades completa debemos calcular las


probabilidades de cada uno de los posibles resultados de 𝑌̅2. Para que 𝑌̅2 = 0, es
necesario que 𝑌1 = 0 y 𝑌2 = 0. Dado que son independientes, la probabilidad que esto
ocurra es el producto de las probabilidades de cada una, las cuales vienen dadas por la
expresión. Luego,

Pr(𝑌̅2 = 0) = Pr(𝑌1 = 0, 𝑌2 = 0) = Pr(𝑌1 = 0) . Pr(𝑌2 = 0) = 0.368 ∙ 0.368


= 0.135335

Simplificando la notación, escribamos Pr(𝑌1 = 𝑎, 𝑌2 = 𝑏) = Pr(𝑎, 𝑏) = Pr(a) . Pr(b) .


Luego, el caso 𝑌̅2 = 1/2 ocurrirá solo si una mujer tiene un hijo y la otra no, y la
probabilidad será la suma de estas dos posibilidades,

Pr(𝑌̅2 = 0.5) = Pr(1) . Pr(0) + Pr(0) . Pr(1) =

193
= 0.3678 × 0.3678 + 0.3678 × 0.3678 = 0.2706705

Similarmente, el caso de promedio igual a 1 ocurre si ambas tienen un hijo, o una mujer
tiene dos y la otra cero.

Pr(𝑌̅2 = 1) = Pr(1) . Pr(1) + Pr(0) . Pr(2) + Pr(2) . Pr(0) = 0.2706705

Las demás probabilidades se calculan de manera similar.

Pr(𝑌̅2 = 1.5) = 2. Pr(1) . Pr(2) + 2. Pr(0) . Pr(3) = 0.18044704

Pr(𝑌̅2 = 2) = Pr(2) . Pr(2) + 2. Pr(1) . Pr(3) + 2. Pr(0) . Pr(4) = 0.09022352

Pr(𝑌̅2 = 2.5) = 2 Pr(2) Pr(3) + 2 Pr(1) Pr(4) + 2 Pr(0) Pr(5) = 0.03608941

Mediante cálculos en computadora se pueden obtener que, por ejemplo, Pr(𝑌̅2 =


3) =0.0120298, Pr(𝑌̅2 = 3.5) =0.00343, etc. En el primer panel de la figura 7.1 se
presenta el gráfico de la distribución de probabilidades de 𝑌̅2 cuando los 𝑌𝑖 son
independientes Poisson con parámetro 𝜆 = 1.

En el caso de una muestra de tamaño 𝑛 = 3, tenemos 𝑌̅3 = (𝑌1 + 𝑌2 + 𝑌3 )/3. Los


1 2 3 4 5 6 7 8
posibles valores que puede tomar 𝑌̅3 son {0, 3 , 3 , 3 , 3 , 3 , 3 , 3 , 3 , … }. Las probabilidades

has sido calculadas en una computadora y son (0.050, 0.149, 0.224, 0.224, 0.168, … ), y
se presentan en el segundo panel de la figura 7.2. En el resto de la figura 7.1 se presenta
los gráficos de las distribuciones para los casos 𝑛 = 2, 3, 5, 20, 50 y 100.

Obsérvese que cuando el tamaño muestral n es pequeño, la distribución observable es la


de una variable aleatoria discreta y asimétrica con una cola larga derecha. Sin embargo,
al aumentar el tamaño de la muestra está ocurriendo que los valores posibles de 𝑌̅𝑛 se
vuelve más numerosos, y que las probabilidades empiezan a describir una forma de
campana y simétrica respecto a la media uno, similar a la distribución normal.
Adicionalmente, la varianza de la media muestral se hace cada vez más pequeña
observándose una concentración alrededor de la media. No es difícil imaginar que si
𝑛 → ∞, los valores posibles de 𝑌̅𝑛 serán un continuo de valores y que la distribución
debería parecerse a una normal, aunque el hecho que 𝑉𝑎𝑟(𝑌̅𝑛 ) = 𝜆/𝑛 tienda a cero hará
que sea una normal degenerada.

194
Figura 7.1
Distribuciones del Promedio Muestral

7.2 Convergencia en probabilidad, convergencia media cuadrática y consistencia

Al aumentar sucesivamente el tamaño de muestra en la expresión (7.1), lo que estamos


obteniendo es una sucesión de promedios simples que dependen del tamaño de la
muestra 𝑛. En matemáticas, una sucesión de valores 𝑆1 , 𝑆2 , … , 𝑆𝑛 , … denotada {𝑆𝑛 }∞
𝑛=1 o

simplemente {𝑆𝑛 } es una función de 𝑆: ℕ → ℝ𝑛 , que consiste en una secuencia ordenada


(según los números naturales) de elementos que pertenecen al espacio ℝ𝑛 . Los
elementos de la sucesión podrían ser determinísticos o estocásticos. En ocasiones, las
sucesiones de valores determinísticos pueden converger a valores fijos, lo que ocurre
cuando los límites de estas sucesiones existen, lim𝑛→∞ 𝑆𝑛 = 𝑐, donde 𝑐 es una
constante.

195
Cuando los elementos de las sucesiones son aleatorios, como en el caso de 𝑌̅𝑛 , es
necesario definir su convergencia para lo cual existe más de una definición.1 Veamos
algunos de esos conceptos.

 Convergencia en probabilidad

Sea {𝑆𝑛 } una sucesión de variables aleatorias decimos que la sucesión converge en
probabilidad a una constante finita 𝑐 si:

lim Pr(|𝑆𝑛 − 𝑐| > 𝛿) = 0 , ∀𝛿 > 0 (7.4)


𝑛→∞

𝑝
En notación abreviada se escribe 𝑆𝑛 → 𝑐 o Plim𝑆𝑛 = 𝑐. Intuitivamente, la
convergencia en probabilidad dice que la sucesión estará muy próxima al límite
mencionado con alta probabilidad.

 Convergencia medio-cuadrática

Existe otro tipo de convergencia que es fácil de comprobar. Sea {𝑆𝑛 } una sucesión de
variables aleatorias 𝑖. 𝑖. 𝑑., se dice que la sucesión converge medio-cuadráticamente al
límite fijo 𝑐 si

lim 𝐸[(𝑆𝑛 − 𝑐)2 ] = 0.


𝑛→∞

𝑚.𝑐
Se denota como 𝑆𝑛 → 𝑐.

En palabras, la definición dice que si la distancia media al cuadrado de 𝑆𝑛 respecto al


límite fijo 𝑐 desaparece cuando 𝑛 tiende a infinito, entonces se habrá producido la
convergencia medio-cuadrática. Esta definición de convergencia se puede definir de
forma equivalente notando que

(𝑆𝑛 − 𝑐)2 = (𝑆𝑛 − 𝐸[𝑆𝑛 ] + 𝐸[𝑆𝑛 ] − 𝑐)2

= (𝑆𝑛 − 𝐸[𝑆𝑛 ])2 + (𝐸[𝑆𝑛 ] − 𝑐)2 + 2(𝑆𝑛 − 𝐸[𝑆𝑛 ])(𝐸[𝑆𝑛 ] − 𝑐)

Tomado el valor esperado y luego límites se obtiene:

1
Ver Rao (1973) para detalles más formales. Véase también Hamilton (1994), capítulo 7.

196
lim 𝐸[(𝑆𝑛 − 𝑐)2 ] = lim 𝑉𝑎𝑟(𝑆𝑛 ) + lim (𝐸[𝑆𝑛 ] − 𝑐)2 (7.5)
𝑛→∞ 𝑛→∞ 𝑛→∞

Luego, si lim 𝐸(𝑆𝑛 ) = 𝑐 y lim 𝑉𝑎𝑟(𝑆𝑛 ) = 0, entonces se cumple la definición de


𝑛→∞ 𝑛→∞

convergencia media cuadrática. Adicionalmente, si la media de 𝑆𝑛 es constante e igual a


𝑐 para todo 𝑛, basta con probar que la varianza se desvanece al aumentar 𝑛 para
comprobar que la convergencia medio cuadrática se cumple.2

Esta convergencia es más fuerte que la convergencia en probabilidad, en el sentido que


la implica, pues se cumple que

𝑚.𝑐 𝑝
si 𝑆𝑛 → 𝑐 , entonces 𝑆𝑛 → 𝑐 (7.6)

La condición lim 𝑉𝑎𝑟(𝑆𝑛 ) = 0 es suficiente pero no necesaria en la convergencia en


𝑛→∞

probabilidad.

Ejemplo 7.2: Considere la variable aleatoria zn , que toma el valor de 1 con


probabilidad Pr(𝑧𝑛 = 1) = 1/𝑛, y es igual a 0 con probabilidad Pr(𝑧𝑛 = 1) =
(𝑛 − 1)/𝑛. Es fácil comprobar que 𝐸(𝑧𝑛 ) = 1/𝑛 y 𝑉𝑎𝑟(𝑧𝑛 ) = (𝑛 − 1)/𝑛2. Es claro
𝑚.𝑐
entonces que lim 𝐸(𝑧𝑛 ) = 0 y lim 𝑉𝑎𝑟(𝑧𝑛 ) = 0, con ello se cumple que zn → 0.
𝑛→∞ 𝑛→∞
𝑝
Esto implica que 𝑧𝑛 → 0, aunque podríamos comprobar esto último directamente
notando que la convergencia en probabilidad a cero se cumplirá si lim Pr(|𝑧𝑛 − 0| >
𝑛→∞

𝜀) = 0, para todo 𝜀 > 0. Como 𝑧𝑛 no es negativo nunca, el límite mencionado se reduce


a lim Pr(𝑧𝑛 > 𝜀). Luego desarrollando este término, tenemos
𝑛→∞

𝑛−1
lim Pr(𝑧𝑛 > 𝜀) = 1 − lim Pr(𝑧𝑛 < 𝜀) = 1 − lim Pr(𝑧𝑛 = 0) = 1 − lim = 1 − 1 = 0.
𝑛→∞ 𝑛→∞ 𝑛→∞ 𝑛→∞ 𝑛

Esto completa la prueba.

 Ley de los grandes números

En el caso de la media muestral, la sucesión de promedios {𝑌̅𝑛 }∞


𝑛=1 converge en

probabilidad a la media 𝜇𝑦 . Esta afirmación es la llamada Ley Débil de los Grandes

2
Estas son condiciones suficientes pero no necesarias.

197
Números, que dice que, bajo ciertas condiciones regulares, la media muestral converge
en probabilidad a 𝜇𝑦 .3 Formalmente, si 𝑌1 , 𝑌2 , … , 𝑌𝑛 es una colección de variables
aleatorias 𝑖. 𝑖. 𝑑. , si el 𝐸[𝑌𝑖 ] = 𝜇𝑦 , si 𝑉𝑎𝑟(𝑌𝑖 ) = 𝜎𝑦2 < ∞, entonces se cumplirá que

𝑝
𝑌̅𝑛 → 𝜇𝑦 o Plim𝑌̅𝑛 = 𝜇𝑦

Se puede probar la ley de los grandes números utilizando la conocida desigualdad de


Chebychev. Aplicando esta desigualdad al caso del promedio muestral, se cumple que

𝑉𝑎𝑟(𝑌̅𝑛 )
Pr(|𝑌̅𝑛 − 𝜇| > 𝜀) ≤
𝜀2

𝜎 2
Dado que la varianza del promedio es 𝑉𝑎𝑟(𝑌̅𝑛 ) = 𝑛 , entonces tomando el límite a

ambos lados de la desigualdad se obtiene que Pr(|𝑌̅𝑛 − 𝜇| > 𝜀) = 0, y con ello


Plim𝑌̅𝑛 = 𝜇.

El cumplimiento de esta ley puede verse en forma gráfica. En el ejemplo 7.1, es cierto
que 𝐸[𝑌𝑖 ] = 1 y 𝑉𝑎𝑟(𝑌𝑖 ) = 1 < ∞. Luego los gráficos muestran que conforme 𝑛
aumenta, 𝑌̅𝑛 toma valores cada vez más cercanos a 1, y que la varianza de la
distribución se reduce cada vez más. Esto significa que 𝑌̅𝑛 está convergiendo en
probabilidad al límite 1, cumpliéndose entonces la ley mencionada pues la probabilidad
de que 𝑌̅𝑛 sea distinto de 1 tiende a cero.

Ejemplo 7.3: Para la serie de medias muestrales, 𝑌̅𝑛 , dadas las ecuaciones (7.2) y (7.3)
𝑚.𝑐
se comprueba fácilmente que lim 𝑉𝑎𝑟(𝑌 ̅𝑛 →
̅ 𝑛 ) = 0, con lo cual se cumple que 𝑌 𝜇𝑦 .
𝑛→∞
𝑝
Luego, debido a (7.6) también será cierto que 𝑌̅𝑛 → 𝜇𝑦 .

 Consistencia e insesgadez asintótica

Existen dos conceptos adicionales que vale la pena mencionar en esta sección:
consistencia e insesgadez asintótica. Ambos son definidos en el contexto de la
estimación de parámetros. Si 𝜃̂ es un estimador de un parámetro 𝜃, diremos que 𝜃̂ es un

3
Véase, Greene (2008) o Stock y Watson (2003) para los detalles formales.

198
𝑝
estimador consistente de 𝜃 si 𝜃̂ → 𝜃, que también se escribe como Plim 𝜃̂ = 𝜃. Será
inconsistente si Plim𝜃̂ = 𝜃 + 𝑏.4

Por otro lado, 𝜃̂ será asintóticamente insesgado si se cumple que lim 𝐸(𝜃
̂𝑛 ) = 𝜃. Este
𝑛→∞

último concepto no es una definición de convergencia, solo dice que el sesgo que
pudiera tener 𝜃̂ desaparece cuando 𝑛 crece indefinidamente. Además, se puede afirmar
que el hecho que un estimador sea consistente no implica que sea asintóticamente
insesgado, ni que insesgadez asintótica implique consistencia.

7.3 El operador 𝐏𝐥𝐢𝐦

El término “Plim” puede ser usado como un operador matemático muy efectivo para
probar la consistencia (o la inconsistencia) de algunos estimadores. Aquí algunas de sus
propiedades.

Sean 𝑋𝑛 y 𝑌𝑛 dos variables aleatorias que son sucesiones en 𝑛, donde Plim 𝑋𝑛 = 𝑎 y


Plim 𝑌𝑛 = 𝑏. Sean 𝑐 y 𝑑 dos escalares. Entonces,

1. Plim (𝑋𝑛 + 𝑌𝑛 ) = Plim 𝑋𝑛 + Plim 𝑌𝑛 = 𝑎 + 𝑏

2. Plim (𝑋𝑛 . 𝑌𝑛 ) = Plim 𝑋𝑛 . Plim 𝑌𝑛 = 𝑎𝑏

𝑋 Plim 𝑋𝑛 𝑎
3. Plim ( 𝑌𝑛) = = 𝑏 si 𝑏 ≠ 0
𝑛 Plim 𝑌𝑛

4. Plim 𝑐 = 𝑐

5. Plim (𝑐𝑋𝑛 + 𝑑) = 𝑐𝑎 + 𝑑

6. Si 𝑔(. ) es una función continua, Plim(𝑔(𝑋𝑛 )) = 𝑔(Plim(𝑋𝑛 )).

7. Si 𝑋𝑛 no es aleatoria, Plim𝑋𝑛 = limn→∞ 𝑋𝑛 .

8. Si 𝑾𝑛 es una matriz de variables aleatorias, tal que Plim 𝑾𝑛 = 𝛀. Entonces


Plim 𝐖n−1 = 𝛀−1.

9. Si 𝑿𝒏 y 𝒀𝒏 son matrices aleatorias con Plim 𝑿𝒏 = 𝑨 y Plim 𝒀𝒏 = 𝑩,


entonces Plim (𝑿𝒏 𝒀𝒏 ) = 𝑨𝑩.

4
Suele llamarse al término 𝑏 como “sesgo”, aunque no necesariamente coincide con la definición de
sesgo, la cual es 𝑠𝑒𝑠𝑔𝑜 = 𝐸(𝜃̂) − 𝜃.

199
Ejemplo 7.4: Consistencia de la varianza muestral

Dada una variable aleatoria 𝑌 con media 𝜇𝑦 y varianza 𝜎𝑌2 < ∞, y dada una muestra
aleatoria de 𝑛 observaciones, se define a la varianza muestral de 𝑌 como

∑𝑛𝑖=1(𝑌𝑖 − 𝑌̅)2
𝑆𝑌2 =
𝑛−1

Este estadístico es un estimador de la varianza poblacional 𝜎𝑌2 . Usando las propiedades


de la probabilidad límite Plim probaremos que 𝑆𝑌2 es un estimador consistente de 𝜎𝑌2 .
Escribimos a 𝑆𝑌2 como,

𝑛 ∑𝑛𝑖=1(𝑌𝑖2 − 2𝑌̅𝑌𝑖 + 𝑌̅ 2 ) 𝑛 ∑𝑛𝑖=1 𝑌𝑖2 ∑𝑛𝑖=1 𝑌𝑖


𝑆𝑌2 = ( ) =( )( − 2𝑌̅ + 𝑌̅ 2 )
𝑛−1 𝑛 𝑛−1 𝑛 𝑛

En esta expresión, Plim puede aplicarse como un operador matemático, luego,

𝑛 ∑𝑛𝑖=1 𝑌𝑖2 ∑𝑛𝑖=1 𝑌𝑖


Plim𝑆𝑌2 = Plim ( ) . Plim ( ̅
− 2𝑌 + 𝑌̅ 2 )
𝑛−1 𝑛 𝑛

∑𝑛𝑖=1 𝑌𝑖2 ∑𝑛𝑖=1 𝑌𝑖


= 1 × (Plim ̅
− 2Plim(𝑌). Plim ( ) + Plim(𝑌̅ 2 )
𝑛 𝑛

En la última expresión se está aplicando 𝑃𝑙𝑖𝑚 a promedios simples, por lo que podemos
∑ 𝑋𝑖
aplicar la ley de los grandes números que dice que Plim = 𝐸[𝑋𝑖 ]. También es cierto
𝑛
2
que Plim(𝑌̅ 2 ) = (Plim(𝑌̅)) . Entonces,

Plim𝑆𝑌2 = 𝐸[𝑌𝑖2 ] − 2𝐸[𝑌𝑖 ]. 𝐸[𝑌𝑖 ] + 𝐸[𝑌𝑖 ]2 = 𝐸[𝑌𝑖2 ] − 𝐸[𝑌𝑖 ]2 = 𝜎𝑌2

Con ello termina la demostración.

Ejemplo 7.5: Consistencia de la covarianza muestral

La covarianza muestral obtenida de 𝑛 datos de dos variables aleatorias 𝑋 e 𝑌 es

∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)(𝑌𝑖 − 𝑌̅)


𝑆𝑋𝑌 =
𝑛−1

200
Este estadístico es un estimador de la covarianza poblacional 𝜎𝑋𝑌 = 𝐸[(𝑋𝑖 −
𝐸[𝑋𝑖 ])(𝑌𝑖 − 𝐸[𝑌𝑖 ])] = 𝐸[𝑋𝑖 𝑌𝑖 ] − 𝐸[𝑋𝑖 ]𝐸[𝑌𝑖 ]. Vamos a probar que 𝑆𝑋𝑌 es un estimador
consistente de 𝜎𝑋𝑌 .

Escribimos a 𝑆𝑋𝑌 como:

∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)(𝑌𝑖 − 𝑌̅) 𝑛 ∑𝑛𝑖=1(𝑋𝑖 𝑌𝑖 − 𝑋̅𝑌𝑖 − 𝑌̅𝑋𝑖 + 𝑋̅𝑌̅)


𝑆𝑋𝑌 = =( )
𝑛−1 𝑛−1 𝑛

𝑛 ∑𝑛𝑖=1 𝑋𝑖 𝑌𝑖
=( )( − 𝑋̅𝑌̅)
𝑛−1 𝑛

Aplicando 𝑃𝑙𝑖𝑚,

𝑛 ∑𝑛𝑖=1 𝑋𝑖 𝑌𝑖
Plim 𝑆𝑋𝑌 = Plim ( ) . (Plim − Plim𝑋̅. Plim𝑌̅)
⏟ 𝑛−1 𝑛
=1

= 𝐸[𝑋𝑖 𝑌𝑖 ] − 𝐸[𝑋𝑖 ]𝐸[𝑌𝑖 ] = 𝜎𝑋𝑌

7.4 Convergencia en Distribución y Teorema de Límite Central

Otro resultado asintótico que se cumple para el promedio simple tiene que ver con los
cambios en su distribución de probabilidades cuando 𝑛 → ∞. Si sabemos que cada 𝑌𝑖
tiene la misma distribución con la misma media y varianza, ¿cuál será entonces la
distribución de probabilidades de 𝑌̅𝑛 ?

En ocasiones, no es difícil encontrar tal distribución exacta, por ejemplo si cada 𝑌𝑖 sigue
una distribución normal, entonces este promedio 𝑌̅𝑛 también se distribuirá exactamente
como una normal, debido a las propiedades de las distribuciones normales5. En el
ejemplo 7.1, encontramos con algo de trabajo la distribución exacta de 𝑌̅𝑛 cuando 𝑌𝑖
sigue una distribución de Poisson. Pero cuando 𝑌𝑖 sigue otra distribución poco
convencional, la suma o el promedio de estas variables tiene una distribución exacta en
general desconocida o difícil de obtener. El problema se agranda si no tenemos la
certeza de cuál es la distribución de cada 𝑌𝑖 .

5
Recordemos que la suma de dos o más variables aleatorias normales e independientes da como resultado
una variable que también se distribuye como normal. Lo mismo se cumple con las sumas ponderadas, y
las combinaciones lineales, y eso es lo que ocurre con los promedios simples.

201
La teoría asintótica nos da una ayuda respecto a este problema. Bajo el enfoque
asintótico, aunque no conozcamos la distribución exacta del promedio simple, podemos
usar un importante teorema para conocer hacia donde converge su distribución de
probabilidades. Pero antes, aclaremos a qué nos referimos con una convergencia en
distribución.

En la figura 7.1 tenemos una sucesión de gráficas que son justamente la sucesión de
distribuciones de probabilidad de los promedios simples 𝑌̅𝑛 . No es difícil imaginar que
esta sucesión converge a una distribución degenerada cuando 𝑛 → ∞. Sin embargo, si a
𝑌̅𝑛 le restamos la media 𝜇𝑦 y lo dividimos entre su desviación estándar 𝜎/√𝑛,
observaremos que las distribuciones convergen a una normal estándar, tal como se
muestra en la siguiente figura.

Ejemplo 7.6: Distribuciones estandarizadas de 𝑌̅𝑛

En la figura 7.2 tenemos las distribuciones estandarizadas del promedio muestral del
ejemplo 7.1. Para realizar los gráficos, se ha restado una unidad a los promedios, si se
les ha dividido entre 1/√𝑛. Acompañados a estos gráficos de barra se dibujan unas
líneas continuas que representan las típicas curvas de la función de densidad de la
normal estándar.6

Obsérvese que para 𝑛 = 2,3 y 5, la distribución de 𝑌̅𝑛 estandarizado es diferente a la de


una normal. Sin embargo, cuando 𝑛 aumenta, la distribución se aproxima cada vez más
a la de una normal estándar.

6
Para trazar estas líneas de la normal estándar junto al gráfico de barras de las probabilidades en una
escala comparable, se ha dividido la densidad de la normal estándar 𝜙(𝑥) por √𝑛.

202
Figura 7.2
Distribuciones del Promedio Muestral Estandarizado

Formalmente, dada una sucesión de variables aleatorias {𝑆𝑛 } con funciones de


distribución acumuladas 𝐹𝑆1 (𝑥), 𝐹𝑆2 (𝑥), … , 𝐹𝑆𝑛 (𝑥), …, , diremos que 𝑆𝑛 converge en
distribución (o en Ley) a 𝑆 con función de distribución acumulada 𝐹𝑆 (𝑥) si las funciones
de distribución convergen a la distribución límite 𝐹𝑆 (𝑥) en cada punto de 𝑥 donde 𝐹 es
continua cuando 𝑛 tiende a infinito. En símbolos, lim𝑛→∞ 𝐹𝑆𝑛 (𝑥) = 𝐹𝑆 (𝑥), y

𝑑
𝑆𝑛 → 𝑆

En el problema mencionado de la distribución del promedio, cuando la muestra n es


muy grande, la media muestral converge a una distribución límite bastante precisa y
definida según el siguiente teorema.

203
Teorema del Límite Central: Sea {𝑌𝑛 } una secuencia de variables aleatorias 𝑖. 𝑖. 𝑑. con
𝐸[𝑌𝑖 ] = 𝜇𝑦 y 𝑉𝑎𝑟[𝑌𝑖 ] = 𝜎𝑦2 < ∞. Cuando 𝑛 → ∞ la sucesión √𝑛(𝑌̅𝑛 − 𝜇𝑦 )/𝜎𝑦
converge a una distribución normal estándar, o en símbolos,

√𝑛(𝑌̅𝑛 − 𝜇𝑦 ) 𝑑
→ 𝑁(0,1) (7.7)
𝜎𝑦

Esto se cumple sin importar la distribución de 𝑌𝑖 . Equivalentemente, se cumplirá que

𝑑
√𝑛(𝑌̅𝑛 − 𝜇𝑦 ) → 𝑁(0, 𝜎𝑦2 ) (7.7’)

Este es el teorema del límite central de Lindeberg-Levy.

7.5 Distribución Asintótica

Aunque los resultados anteriores son muy importantes y útiles, cabe notar que en
econometría solemos trabajar con un número finito de observaciones. Cabría
preguntarnos, qué ocurrirá cuando el número de observaciones es grande pero finito
(como en las figuras 7.1 y 7.2 donde 𝑛 solo llega a 100). Ya sabemos que la distribución
del estadístico puede ser desconocida, pero si contamos con un número grande de
observaciones –en donde la palabra “grande” debe tomarse en un sentido amplio–,
podemos confiar que la distribución desconocida será muy parecida a una normal. Si
eso es así, para fines de inferencia estadística podemos tomar a la conocida distribución
normal para realizar pruebas de hipótesis, como una buena aproximación. Además,
podemos confiar que cualquier error derivado del uso de distribuciones de probabilidad
aproximadas será más pequeño mientras más grande sea el número de observaciones.

Dado (7.7) diremos que el promedio estandarizado se distribuye asintóticamente o


aproximadamente como una normal estándar cuando n es grande pero finito.

√𝑛(𝑌̅𝑛 − 𝜇𝑦 ) 𝑎
~ 𝑁(0,1)
𝜎𝑦

Esto se observa en la figura 7.2 en donde la aproximación a la normal es cercana para


𝑛 = 50 y 𝑛 = 100. También será cierto que, tal como se vio en la figura 7.1,

𝑎
𝑌̅𝑛 ~ 𝑁(𝜇𝑦 , 𝜎𝑦2 /𝑛).

204
La expresión 𝜎𝑦2 /𝑛 es la varianza asintótica del promedio muestral, denotada como
𝐴𝑉𝑎𝑟(𝑌̅𝑛 ).

En términos generales, si sabemos que un estadístico converge en distribución a una


distribución conocida (como la normal, chi-cuadrado, etc.), entonces para muestras
grandes pero finitas podemos tomar a estas distribuciones límite como aproximaciones
de la verdadera distribución.

Un aspecto no muy bien definido es el número mínimo de observaciones para garantizar


la convergencia. Es frecuente encontrar en textos de estadística aplicada que las
convergencias en probabilidad y distribución mencionadas en la ley de los grandes
números y el teorema del límite central se cumplen cuando 𝑛 ≥ 30. En realidad, la
velocidad con que se produzca la convergencia tiene que ver con algunas características
de la distribución de la variable aleatoria originaria 𝑌𝑖 . Por ejemplo, las distribuciones
simétricas podrían converger más rápido que las asimétricas. Por otro lado, en la
econometría aplicada estándar, 30 observaciones es considerado como un número bajo
de observaciones como para aplicar los principios de la teoría asintótica. Con datos
microeconómicos, una “muestra grande” debería tener unos cuantos cientos de
observaciones. En series de tiempo, las series de alta frecuencia –como las series diarias
bursátiles– suelen contar con miles de observaciones, pero las series de baja frecuencia
como las series anuales con suerte llegan a 50 observaciones, y el uso de la teoría
asintótica siempre será materia de discusión en estos contextos.

7.6 Propiedades asintóticas de los estimadores 𝑴𝑪𝑶

En los capítulos anteriores se presentaron las propiedades estadísticas de los


estimadores 𝑀𝐶𝑂 bajo los supuestos del modelo clásico. Se encontró por ejemplo que
estos estimadores eran insesgados, tenían la menor varianza (teorema de Gauss-
Markov), y se distribuían exactamente como una normal. En esta sección estudiaremos
algunas propiedades adicionales basadas en la teoría asintótica. Estas propiedades
podrían basarse en supuestos un tanto más relajados que los supuestos clásicos, pero
solo son válidas con muestras muy grandes.

7.6.1. Consistencia del estimador de 𝑀𝐶𝑂

205
La primera propiedad es la consistencia. Como se mencionó líneas arriba, un estimador
es consistente cuando la sucesión de estimadores generados al aumentar las
observaciones converge en probabilidad al parámetro que está estimando. Esta
propiedad puede cumplirse inclusive en estimadores que son sesgados pero cuyos
sesgos se diluyen conforme el número de observaciones crece al infinito.

̂ obtenidos por 𝑀𝐶𝑂, estos son consistentes


En el caso de los estimadores 𝜷
cumpliéndose que

̂=𝜷
Plim𝜷 (7.8)

Para probar (7.8) usaremos las propiedades del operador de la probabilidad límite que se
̂ = (𝑿´𝑿)−𝟏 𝑿′𝒚, sabemos que podemos
presentaron en la sección 7.3. A partir de 𝜷
expresar este vector como

̂ = 𝜷 + (𝑿´𝑿)−𝟏 𝑿′𝒖
𝜷

Hacemos una transformación, multiplicamos y dividimos por n obteniendo

−𝟏
̂ = 𝜷 + ( 1 𝑿´𝑿)
𝜷
1
(𝑛 𝑿′𝒖).
𝑛

Tomamos el operador Plim a la expresión anterior,

−𝟏
̂ = 𝜷 + (Plim 1 𝑿´𝑿)
Plim𝜷
1
(Plim 𝑛 𝑿′𝒖).
𝑛

Como las variables exógenas en 𝑿 son fijas, su probabilidad límite es lo mismo que el
límite, por lo que podemos escribir la expresión anterior como

−𝟏
1 1
̂ = 𝜷 + ( lim
Plim𝜷 𝑿´𝑿) (Plim 𝑿′𝒖)
𝑛→∞ 𝑛 𝑛

Analizando el segundo término del lado derecho de esta ecuación, no queda muy claro
1
cuál será el resultado de lim𝑛→∞ 𝑛 𝑿´𝑿. En primer lugar, la matriz 𝑿´𝑿 está compuesta

por sumatorias que podrían explotar pues su límite 𝑛 → ∞. El hecho de dividir entre n
puede atenuar esta explosión. Para ilustrar este punto, consideremos el caso bivariado en
donde ocurrirá que

206
∑𝑛𝑖=1 𝑋𝑖
1 1
𝑛
𝑿´𝑿 = 𝑛 𝑛
𝑛 ∑𝑖=1 𝑋𝑖 ∑𝑖=1 𝑋𝑖2
[ 𝑛 𝑛 ]

Nada garantiza a priori que los elementos de esta matriz no exploten al infinito cuando
𝑛 → ∞, aunque podría sonar razonable que en muchos casos los límites converjan a
valores fijos. Por ejemplo, la si la variable 𝑋 fuera la edad de las personas,
∑𝑛
𝑖=1 𝑋𝑖 ∑𝑛 2
𝑖=1 𝑋𝑖
lim𝑛→∞ es simplemente la edad promedio de la población, y lim𝑛→∞ es el
𝑛 𝑛

promedio de las edades al cuadrado. De ninguna manera se podría pensar que estos dos
primeros momentos exploten cuando 𝑛 tiende a infinito. Si el modelo tuviera tres
∑𝑛
𝑖=1 𝑋2𝑖 𝑋3𝑖
variables exógenas, las casillas contendrían a lim que es la sumatoria de
𝑛→∞ 𝑛

productos cruzados de estas variables, una suerte de covarianza entre ellas. Sería raro
pensar que estas covarianzas puedan explotar al aumentar la muestra.

Un caso donde explotarían estas casillas es aquél en donde la variable exógena fuera
∑𝑛
𝑖=1 𝑋𝑖 𝑛+1 ∑𝑛 2
𝑖=1 𝑋𝑖
igual a los números naturales 1, 2, . . . , 𝑛. En este caso, = y =
𝑛 2 𝑛
(𝑛+1)(2𝑛+1)
. Ambas sumatorias explotan cuando 𝑛 → ∞. En nuestra comprobación,
6
1
vamos a descartar aquellos casos que hacen que lim 𝑿´𝑿 tenga casillas que exploten,
𝑛→∞ 𝑛

mediante el siguiente supuesto

1
lim 𝑿´𝑿 = 𝑸 (7.9)
𝑛→∞ 𝑛

̂,
𝑸 es una matriz definida positiva y finita. Continuando con la expresión de Plim 𝜷
usando a (7.9) nos queda

1
̂ = 𝜷 + 𝑸−𝟏 Plim ( 𝑿′𝒖)
Plim 𝜷
𝑛

1
Para completar la demostración, bastaría con probar que Plim (𝑛 𝑿′𝒖) = 0. Utilizando
1 𝑚.𝑐
lo aprendido en la sección 7.2, vemos que 𝑛 𝑿′𝒖 → 𝟎, pues

1 1
𝐸 [ 𝑿′𝒖] = 𝑿′𝐸[𝒖] = 𝟎
𝑛 𝑛

207
1 1 1 1 1 𝜎2 1
𝑉𝑎𝑟 [ 𝑿′𝒖] = 𝐸 [ 𝑿′𝒖𝒖′𝑿 ] = 𝑿′𝐸[𝒖𝒖′]𝑿 = ( 𝑿′𝑿)
𝑛 𝑛 𝑛 𝑛 𝑛 𝑛 𝑛

Tomando límites,

1 𝜎2 1
lim 𝑉𝑎𝑟 [ 𝑿′𝒖] = lim ( ) × lim ( 𝑿′𝑿) = 0 × 𝑸 = 𝟎
𝑛→∞ 𝑛 𝑛→∞ 𝑛 𝑛→∞ 𝑛

1
Luego, 𝑿′𝒖 converge medio-cuadráticamente a cero, lo que implica que
𝑛
1
̂ = 𝜷.
Plim (𝑛 𝑿′ 𝒖) = 0, y por lo tanto, Plim 𝜷

Una forma gráfica de observar esta propiedad se presenta en la figura 7.3. Mediante
números aleatorios se generan una muestra de dos variables, 𝑋 y 𝑌, con 40 datos en
donde la relación entre estas variables es 𝑌𝑡 = 200 + 0.6𝑋𝑡 + 𝑢𝑡 , donde los valores de
𝑢𝑡 son números aleatorios distribuidos normalmente con media cero y con desviación
estándar igual a 30. En la figura 7.3 se presenta la estimación sucesiva de la pendiente
por 𝑀𝐶𝑂 agregando observaciones hasta llegar a las 40. Al aumentar las observaciones
40 el estimador 𝑀𝐶𝑂 se aproxima cada vez más a su valor poblacional 0.6, con una
varianza que tiende a cero.

̂ de 𝑀𝐶𝑂
7.6.2. Normalidad asintótica del estimador 𝜷

Otra propiedad asintótica importante de los estimadores 𝑀𝐶𝑂 tiene que ver con la
distribución asintótica de sus estimadores. Cuando habíamos asumido que cada término
de perturbación se distribuye como una normal, el resultado inmediato era que los
estimadores 𝑀𝐶𝑂 también tienen exactamente una distribución normal. Pero si los
términos de perturbación no se distribuyen normalmente, entonces la distribución exacta
̂ es en general desconocida. Esto puede ser una seria dificultad para realizar las
de 𝜷
pruebas de hipótesis del capítulo 5, pues todas ellas dependen del supuesto de
normalidad de los errores.

208
Figura 7.3
Estimación recursiva del y convergencia del estimador

Nota: Las líneas punteadas son el intervalo de confianza al 95% (aprox.  2 desv. estándar)

Sin embargo, aun si el supuesto de normalidad de los errores no se cumple, si asumimos


que las observaciones son independientes podemos aplicar el Teorema del Límite
Central resultando que

𝑑
̂ − 𝜷) →
√𝑛(𝜷 𝑁(𝟎, 𝜎 2 𝑸−1 ) (7.10)

Una variante del teorema del límite central mencionado líneas arriba se aplica en este
caso porque los estimadores de mínimos cuadrados ordinarios son combinaciones
lineales o promedios ponderados de las observaciones de la variable aleatoria 𝑌. Este
teorema se cumplirá siempre y cuando cada 𝑌𝑖 tenga media y varianza finita, siendo
además cada 𝑌𝑖 independiente e idénticamente distribuida (lo mismo ocurrirá para los
términos de perturbación 𝑢𝑖 ).7

Luego diremos que si 𝑢𝑖 ~𝑖. 𝑖. 𝑑. con media cero y varianza finita y los regresores no son
estocásticos, se cumplirá que para muestras grandes y finitas

𝑎 𝜎 2
̂~
𝜷 𝑁 (𝜷, 𝑛 𝑸−1 ) (7.11)

7
La demostración del resultado (7.10) puede encontrarse en el libro de Greene (2012), capítulo 4.

209
2
̂ ) = (𝜎 ) 𝑸−1 se estima con 𝑠 2 (𝑿′ 𝑿)−1
En la práctica, la varianza asintótica 𝐴𝑉𝑎𝑟(𝜷 𝑛
𝒆𝒆 ′
̂ es la misma que la
donde 𝑠 2 = 𝑛−𝑘. Para estos estimadores, la varianza asintótica de 𝜷
̂ en muestras finitas.
varianza de 𝜷

Este resultado es de suma importancia en econometría pues nos revela que, pese a que
los términos de perturbación puedan tener o seguir cualquier distribución de
probabilidades, los estimadores 𝑀𝐶𝑂 tendrán distribuciones aproximadamente normales
cuando la muestra es grande. Así, el supuesto de normalidad de los errores –el cual es
un supuesto bastante fuerte- se vuelve innecesario cuando se trate de realizar pruebas de
hipótesis sobre las estimaciones.

7.6.3. Consistencia de 𝑠 2

El estimador de la varianza de los errores, al que hemos llamado 𝑠 2 , es también un


estimador consistente de 𝜎 2 , o Plim 𝑠 2 = 𝜎 2 . La prueba de esta consistencia recae
2𝜎4
nuevamente en la afirmación (7.8). Dado que 𝐸[𝑠 2 ] = 𝜎 2 , y que 𝑉𝑎𝑟[𝑠 2 ] = 𝑛−𝑘 en
𝑚.𝑐 𝑝
donde lim 𝑉𝑎𝑟[𝑠 2 ] = 0, se cumplirá que 𝑠 2 → 𝜎 2 . Entonces, 𝑠 2 → 𝜎 2, o
𝑛→∞

Plim 𝑠 2 = 𝜎 2 .

7.7 Otras convergencias notables8

En el capítulo 5 se derivó las distribuciones exactas de los estadísticos 𝑡 y 𝐹, bajo la


hipótesis nula. Estas distribuciones eran la 𝑡 −Student y la 𝐹 −Fisher respectivamente,
y el resultado dependía del supuesto de normalidad de los errores. A la luz de lo
discutido en este capítulo cabe preguntarnos, ¿cómo serán estas distribuciones si los
términos de perturbación no son normales pero la muestra es grande?

Consideremos primero el caso del estadístico t para probar la hipótesis nula 𝐻0 : 𝛽𝑘 = 𝑎.


El estadístico es:

𝛽̂𝑘 − 𝑎
𝑡=
√𝑠 2 (𝑿′ 𝑿)−1
𝑘𝑘

8
En esta sección seguimos a Greene (2008).

210
En la definición, (𝑿′ 𝑿)−1
𝑘𝑘 es el k-ésimo elemento de la diagonal principal de la matriz

(𝑿′ 𝑿)−1 . Multiplicando y dividiendo por √𝑛, y tomando en cuenta que para cualquier
−1
matriz no singular 𝑨 y cualquier escalar 𝜆 ≠ 0 se cumple que ((1/ 𝜆)𝑨) = 𝜆𝑨−1,
entonces,

√𝑛(𝛽̂𝑘 − 𝑎) √𝑛(𝛽̂𝑘 − 𝑎)
𝑡= =
√𝑛√𝑠 2 (𝑿′ 𝑿)−1
𝑘𝑘 −1
√𝑠 2 (1 𝑿′ 𝑿)
𝑛 𝑘𝑘

Si los términos de perturbación tienen una distribución distinta a la normal, la


distribución exacta de t es desconocida. Si la hipótesis nula es cierta, entonces podemos
tener una idea acerca de la convergencia en distribución de 𝑡. Pero a partir de (7.10),
𝑑
para el k-ésimo parámetro se cumplirá que √𝑛(𝛽̂𝑘 − 𝛽𝑘 ) → −1 ),
𝑁(0, 𝜎 2 𝑄𝑘𝑘 en donde
−1
𝑄𝑘𝑘 es el elemento k-ésimo de la diagonal principal de la matriz 𝑸−1 según se definió
en (7.8)9. Por otra parte, Plim(𝑠 2 ((1/𝑛)𝑿′ 𝑿)−1 2 −1
𝑘𝑘 ) = 𝜎 𝑄𝑘𝑘 , y también será cierto por las

propiedades de la probabilidad límite que

1 1
Plim ( ) = Plim ( )
√𝑠 2 ((1/𝑛)𝑿′ 𝑿)−1
𝑘𝑘
−1
√𝜎 2 𝑄𝑘𝑘

Luego, aplicando el teorema de Cramer10 se tiene que

1 𝑑 1
𝑡= . √𝑛(𝛽̂𝑘 − 𝛽𝑘 ) → −1 )
𝑁(0, 𝜎 2 𝑄𝑘𝑘
√𝑠 2 ((1/𝑛)𝑿′ 𝑿)−1
𝑘𝑘
−1
√𝜎 2 𝑄𝑘𝑘

Lo cual es lo mismo que

𝑑
𝑡→ 𝑁(0,1).

9
Si el lector no está muy convencido de esta afirmación, note que en términos matriciales el k-ésimo
parámetro beta se obtiene premultiplicando al vector 𝜷 por un vector fila llamado 𝑹 de ceros y un solo 1
en la k-ésima casilla (tal como se hizo en la sección 5.2 del capítulo 5). Luego, si (7.9) es cierto, también
𝑑
será cierto que √𝑛(𝑹𝜷 ̂ − 𝑹𝜷) → 𝑁(𝟎, 𝜎 2 𝑹𝑸−𝟏 𝑹′ ), en donde 𝑹𝜷 ̂ = 𝛽̂𝑘 y 𝑹𝑸−𝟏 𝑹′ = 𝑸−1 𝑘𝑘 . Con esta
notación, se cumple que lim𝑛→∞ 𝑹((1/𝑛)𝑿 𝑿) 𝑹 = lim ((1/𝑛)𝑿 𝑿)−1
′ −1 ′ ′ −𝟏 ′
𝑘 = 𝑹𝑸 𝑹 = 𝑸𝑘𝑘 .
−1
𝑛→∞
𝑑 𝑑
10
Teorema de Cramer: Si 𝑋𝑛 → 𝑋 y Plim(𝑌𝑛 ) = 𝑏, entonces 𝑋𝑛 𝑌𝑛 → 𝑏𝑋.

211
Con ello se demuestra que el estadístico 𝑡 bajo la hipótesis nula converge en
distribución a una normal estándar.

Eso quiere decir que si el tamaño de la muestra es muy grande y no tenemos la certeza
que los términos de perturbación son normales, podemos usar como valores críticos a
aquellos de la distribución normal estándar, cuando tratamos de probar hipótesis o
cuando construimos intervalos de confianza.

En el caso del estadístico 𝐹 que prueba q restricciones lineales

̂ − 𝒓)′[𝑹(𝑿′ 𝑿)−1 𝑹′ ]−1 (𝑹𝜷


(𝒆̃′ 𝒆̃ − 𝒆′ 𝒆)/𝑞 (𝑹𝜷 ̂ − 𝒓)/𝑞
𝐹= ′ =
𝒆 𝒆/(𝑛 − 𝑘) 𝑠2

̂ − 𝒓)′[𝑹(𝑿′ 𝑿)−1 𝑹′ ]−1 (𝑹𝜷


(𝑹𝜷 ̂ − 𝒓)
=
𝑠2𝑞

Cuando los términos de perturbación se distribuyen normalmente, la distribución exacta


de 𝐹 es 𝐹(𝑞,𝑛−𝑘) .

Si 𝑢𝑖 sigue otra distribución, debemos calcular la distribución límite de 𝐹. Dividiendo el


numerador y el denominador por 𝜎 2 ,

1 ̂ − 𝒓)′[𝑹𝜎 2 (𝑿′ 𝑿)−1 𝑹′ ]−1 (𝑹𝜷


(𝑹𝜷 ̂ − 𝒓)
𝐹= 2 ×
𝑠 𝑞
( 2)
𝜎

Sabemos que Plim 𝑠 2 = 𝜎 2 entonces el denominador tiende a uno. Luego la


distribución límite de F es la distribución de

𝑑
𝑞𝐹 → 𝜒 2 (𝑞)

212
Ejercicios

7.1 Sea {x1 , x2 , … , xn } una muestra aleatoria de n observaciones independientes de una


variable aleatoria x la cual tiene media μx y varianza σ2x . Dada una variable
1 1 1 2
aleatoria 𝑦𝑛 = (𝑛−1) ∑𝑛𝑖=1 𝑋𝑖 + (𝑛 ∑𝑛𝑖=1 𝑋𝑖 − 𝜇𝑥 ) − (𝑛 ∑𝑛𝑖=1 𝑋𝑖 ) , ¿a qué será igual

Plim 𝑦𝑛 ?
𝑑
7.2 Supongamos que la variable 𝑧𝑛 → 𝑧 donde 𝑧 es una normal estándar, y sea 𝑦𝑛 otra
variable aleatoria tal que Plim 𝑦𝑛 = 𝑐. Entonces, ¿a qué converge 𝑦𝑛 𝑧𝑛 ?
7.3 Supongamos que queremos estimar un modelo bivariado 𝑌𝑖 = 𝛽1 + 𝛽2 𝑋𝑖 + 𝑢𝑖 ,
donde 𝑢𝑖 tiene una distribución desconocida pero centrada en cero. ¿Qué
inconvenientes tendríamos que enfrentar si intentamos hacer inferencia sobre los
parámetros 𝛽̂1 y 𝛽̂2 estimados por 𝑀𝐶𝑂 si la muestra es pequeña? ¿Se mantendrá el
problema si la muestra es grande?
7.4 En su tesis, usted ha estimado una función de producción bajo los siguientes
1 1
supuestos: Plim (𝑛 𝑿′𝒖) = 𝟎 y Plim (𝑛 𝑿′𝑿) = 𝑸 es una matriz finita, fija y no

estocástica. Sus datos consisten en datos de corte transversal de un gran número de


empresas. La ecuación de la función de producción es: 𝑌𝑖 = 𝛽1 + 𝛽2 𝑋𝑖 + 𝑢𝑖 , por lo
tanto la matriz X contiene a una columna de unos y a los datos de 𝑋𝑖 . También 𝑌𝑖 es
el ln(Producto de la firma i) y 𝑋𝑖 es el ln(insumo de la firma i). Su asesor de tesis
sospecha que su primer supuesto no se cumple pues considera probable que el
término estocástico contiene un efecto productividad específico a cada firma que
está correlacionado con Xi .
Si su asesor de tesis está en lo correcto, ¿cuál será la consecuencia sobre su
̂ = (𝑿′ 𝑿)−𝟏 𝑿′𝒚? Demuestre su respuesta.
estimador 𝜷
̂y𝜷
7.5 Sean 𝜷 ̃ dos estimadores del parámetro poblacional β tales que sus dos primeros

momentos son:
2 2 −2𝑛+2
̂ ] = (𝑛 −1) 𝜷
𝐸[𝜷 ̂ 2 ] = (𝑛
𝐸[𝜷 ) 𝜷2
𝑛2 +1 𝑛2

2 2 +3𝑛+1
̃ ] = (𝑛 +1) 𝜷
𝐸[𝜷 ̂ 2 ] = (𝑛
𝐸[𝜷 ) 𝜷2
𝑛2 −1 𝑛2

213
donde 𝑛 es el tamaño de la muestra utilizada para la estimación. ¿Son estos
estimadores asintóticamente insesgados? ¿Son consistentes? ¿Cuál de los dos es
asintóticamente más eficiente?
𝑌
7.6 Sea 𝑊𝑛 = 𝑍 + 𝑛, donde la 𝑍~𝑁(0,1) y 𝑌 es una variable aleatoria independiente de

𝑍 para la cual 𝑉𝑎𝑟(𝑌) es infinito. Muestre que, si 𝑛 → ∞, la varianza asintótica de


𝑊𝑛 existe, pese a que 𝑉𝑎𝑟(𝑊𝑛 ) sea infinito para cada 𝑛 finito.
7.7 Sea {𝑍𝑛 , 𝑛 ≥ 1} una secuencia de variables aleatorias tal que Pr(𝑍𝑛 = 0) =
(𝑛 − 1)/𝑛 y Pr(𝑍𝑛 = 1) = 1/𝑛.
𝑝
(a) Muestre que 𝑍𝑛 → 0 cuando 𝑛 → ∞
(b) Halle lim𝑛→∞ 𝑍𝑛 y la media asintótica de 𝑍𝑛 .
(c) Demuestre que {𝑍𝑛 } converge a cero en media cuadrática.

214
Capítulo 8
Estimación del MRLC por Máxima Verosimilitud

Desde el capítulo 2 en adelante se ha presentado el método de estimación de mínimos


cuadrados ordinarios y se ha discutido extensamente sus propiedades bajo el modelo de
regresión lineal clásico. En este capítulo presentamos un método de estimación
alternativo, el de máxima verosimilitud, que presenta un nuevo conjunto de
estimaciones y propiedades distintas a aquellas de los estimadores de mínimos
cuadrados. Una ventaja importante de estos estimadores es que explotan toda la
información posible de las distribuciones de las variables aleatorias, lo cual los hace
eficientes. De hecho, estos estimadores son los más eficientes (de menor varianza)
dentro de una amplia gama de estimadores.

8.1 Los estimadores de máxima verosimilitud

Este método parte del hecho que diferentes poblaciones generan diferentes muestras.
Dado que contamos con una muestra cabe preguntarse, ¿de qué población proviene esta
muestra? O siendo un poco más preciso, ¿qué distribución de probabilidades es la que
con mayor probabilidad generó estos datos y cuáles son sus parámetros?

Una forma interesante de presentar a los estimadores de máxima verosimilitud es la


siguiente. Supongamos que contamos con una muestra de siete observaciones de una
variable aleatoria 𝑌, siendo estas 𝑌1 , 𝑌2 , … , 𝑌7 . No sabemos qué distribución generó estos
datos, pero supongamos que fue una variable aleatoria normalmente distribuida1. Como
sabemos, la distribución normal queda plenamente definida con los valores de su media
𝜇𝑌 y su varianza 𝜎𝑌2 . Entonces, la pregunta que nos hacemos es ¿qué valores de estos
parámetros 𝜇𝑌 y 𝜎𝑌2 generaron a los datos observados con mayor probabilidad? La
figura 8.1 nos presenta algunas alternativas de distribuciones normales para los datos
observados, mediante sus gráficas de densidad2. Observando los datos, vemos que es
muy poco probable que la observación 𝑌7 haya provenido de la distribución punteada
izquierda, y lo mismo se puede afirmar sobre la observación 𝑌3 respecto a la
distribución punteada de la derecha. Es más probable que tanto 𝑌3 como Y7 provengan

1
Pudo ser cualquier otra distribución conocida.
2
Solo se presentan tres alternativas aunque en realidad existen infinitas posibilidades.

215
de la distribución central3. Observando los demás valores, entre estas tres alternativas la
distribución representada por la línea continua parece ser más probable de ser la que
generó los datos observados, que las otras dos distribuciones normales.

Obviamente el método no se basa en una inspección visual, sino en el cálculo de


estimadores de los parámetros que configuren una distribución más probable según los
datos observados.

Figura 8.1
Datos observados y distribuciones alternativas

𝑌3 𝑌6 𝑌2 𝑌1 𝑌4 𝑌5 𝑌7

Siendo un poco más formales4, sea 𝑌1 , 𝑌2 , … , 𝑌𝑛 una muestra aleatoria simple, con lo
cual las 𝑌𝑖 son variables aleatorias 𝑖. 𝑖. 𝑑. con función de densidad 𝑓(𝑌𝑖 ; 𝜽) donde
𝜽′ = [𝜃1 , 𝜃2 , … , 𝜃𝑘 ] es un vector de parámetros desconocidos. Bajo el supuesto de
independencia, la función de densidad conjunta es

𝑓(𝑌1 , 𝑌2 , … , 𝑌𝑛 ; 𝜽) = 𝑓(𝑌1 ; 𝜽). 𝑓(𝑌2 ; 𝜽) … 𝑓(𝑌𝑛 ; 𝜽) = ∏ 𝑓(𝑌𝑖 ; 𝜽) (8.1)


𝑖=1

Esta densidad conjunta indica la probabilidad de obtener la muestra 𝑌1 , 𝑌2 , … , 𝑌𝑛 dado el


vector de parámetros 𝜽. El enfoque de máxima verosimilitud intenta entender a (8.1) de

3
La forma de medir qué tan probable es un resultado según alguna distribución es mediante la altura
desde el valor 𝑋3 hasta la curva de densidad. En inglés esta altura se conoce como “likelihood” que se
traduce como verosimilitud, y que debe distinguirse del término “probability” que se refiere a una
probabilidad. En variables aleatorias continuas, “likelihood” y “probability” son cosas distintas.
4
No pretendemos desarrollar aquí toda la teoría del método de máxima verosimilitud sino solamente
hacer una breve presentación. El lector debe estar familiarizado con el método mediante cursos previos de
estadística.

216
una forma alternativa. En lugar de indicar la probabilidad de observar los datos
𝑌1 , 𝑌2 , … , 𝑌𝑛 dada una distribución con parámetros 𝜽, ahora se trata de entender que tan
probable o verosímil es una distribución con parámetros 𝜽 dados los datos 𝑌1 , 𝑌2 , … , 𝑌𝑛 .
Esta es básicamente la idea mostrada en la figura 8.1. En términos matemáticos, la
expresión (8.1) es entendida como una función de los parámetros 𝜽 dadas las
observaciones de 𝑌, tomando en ese caso el nombre de función de verosimilitud 5

𝐿(𝜽; 𝑌1 , 𝑌2 , … , 𝑌𝑛 ) = ∏ 𝑓(𝑌𝑖 ; 𝜽) (8.2)


𝑖=1

̂ 𝑀𝑉 que
El método de máxima verosimilitud consiste en encontrar un vector de valores 𝜽
maximicen la expresión (8.2). Usualmente se toma el logaritmo natural a la función de
verosimilitud (8.2) pues en muchas ocasiones esto facilita el proceso de optimización.
El logaritmo de la función de verosimilitud es

ln𝐿(𝜽; 𝑌1 , 𝑌2 , … , 𝑌𝑛 ) = ln ∏ 𝑓(𝑌𝑖 ; 𝜽) (8.3)


𝑖=1

Derivando (8.3) respecto a 𝜽 e igualando a cero se tiene

𝜕ln𝐿(𝜽; 𝑌1 , 𝑌2 , … , 𝑌𝑛 )
= 𝜽
⏟ (8.4)
𝜕𝜽 𝑘×1

̂ 𝑀𝑉 que resuelven las 𝑘


Los estimadores de máxima verosimilitud (MV) son aquellos 𝜽
ecuaciones en (8.4). Dependiendo de las funciones de densidad, en ocasiones no es
posible encontrar una solución analítica para el sistema (8.4), y por ello solo podemos
obtener los valores estimados para una cierta muestra mediante métodos numéricos6.

Las varianzas de los estimadores de máxima verosimilitud pueden ser calculadas en


forma analítica (como en el caso de los estimadores de MCO) para algunos casos
sencillos. En otros casos es necesario emplear métodos numéricos o simulaciones de
Monte Carlo. Estas varianzas alcanzan la cota mínima de Cramér-Rao (a veces

5
Se puede hacer la definición de función de verosimilitud para muestras aleatorias no simples, en cuyo
caso la independencia de las variables podría no cumplirse. Así, la función de verosimilitud sería
simplemente la probabilidad conjunta.
6
Estos cálculos se hacen mediante iteraciones hechas en computadora. Algunos métodos de optimización
son, por ejemplo, el de Newton-Raphson, y el Algoritmo del Simplex.

217
solamente cuando 𝑛 → ∞, otras veces para cualquier tamaño de muestra), definida esta
cota como el límite mínimo que la varianza de cualquier estimador podría alcanzar.

Los estimadores MV cumplen una serie de propiedades asintóticas importantes:

(a) Consistencia. Todos los estimadores máximo-verosímiles son consistentes.

̂ 𝑀𝑉 = 𝜽
Plim𝜽

(b) Normalidad Asintótica. Cuando la muestra es muy grande, la distribución de


̂ 𝑀𝑉 es asintóticamente normal, para cualquier función de densidad 𝑓(𝑌𝑖 ; 𝜽),
𝜽

𝑑
̂ 𝑀𝑉 − 𝜽) ⟶ 𝑁(𝟎, 𝑛𝑰−1 (𝜽)),
√𝑛(𝜽

alcanzando la cota mínima de Cramér-Rao 𝑛𝑰−1 (𝜽), en donde 𝑰−1 (𝜽) es la


inversa de la matriz de información de Fischer definida como

𝜕 2 𝑙𝑛𝐿
𝑰(𝜽) = −𝐸 [ ]
𝜕𝜽𝜕𝜽′

̂ 𝑀𝑉 es
También, para 𝑛 grande se cumple que la distribución asintótica de 𝜽

𝑎
̂ 𝑀𝑉 ~
𝜽 𝑁(𝜽, 𝑰−1 (𝜽)).

̂ 𝑀𝑉 ) = 𝑰−1 (𝜽), la que se usa


La varianza asintótica de este estimador es 𝐴𝑉𝑎𝑟(𝜽
como aproximación de la varianza.

(c) Eficiencia Asintótica. Los estimadores de máxima verosimilitud son los


estimadores más eficientes, dentro de la clase de estimadores consistentes,
asintóticamente insesgados y asintóticamente normales.

̂ 𝑀𝑉 es un estimador de máxima verosimilitud y 𝒘 = 𝑔(𝜽) es una


(d) Invarianza. Si 𝜽
función continua de 𝜽, entonces 𝒘 ̂ 𝑀𝑉 ) es el estimador máximo verosímil
̂ = 𝑔(𝜽
de 𝒘.

En la estimación por máxima verosimilitud también se pueden imponer restricciones,


lineales o no lineales. Si queremos estimar un vector de parámetros 𝜽 por este método
pero sujeto a que se cumpa la 𝐶(𝜽) = 𝒓, el problema de optimización a resolver es

max ln𝐿(𝜽) sujeto a 𝐶(𝜽) = 𝒓.

218
El lagrangiano de este problema es

ℒ = ln𝐿(𝜽) + 𝝀(𝒓 − 𝐶(𝜽)).

Las condiciones de primer orden son

𝜕ℒ 𝜕ln𝐿(𝜽) 𝜕𝐶(𝜽)
= −𝝀 =𝟎
𝜕𝜽 𝜕𝜽 𝜕𝜽

𝜕ℒ
= 𝒓 − 𝐶(𝜽) = 𝟎
𝜕𝝀

La solución a estas ecuaciones es el estimador de máxima verosimilitud restringido


̃𝑴𝑽 . Este planteamiento puede ser extendido para un vector de parámetros 𝛉.
𝜽

Ejemplo 8.1: Considere una muestra 𝑌1 , 𝑌2 , … , 𝑌𝑛 , la cual se presume que proviene de


una distribución Poisson con función de densidad 𝑓(𝑌𝑖 ; 𝜃) = 𝑒 −𝜃 𝜃 𝑌𝑖 /𝑌𝑖 !. La densidad
conjunta de esta muestra bajo el supuesto de independencia es

𝑛
𝑒 −𝑛𝜃 𝜃 ∑ 𝑌𝑖
𝑓(𝑌1 , 𝑌2 , … , 𝑌𝑛 ; 𝜃) = ∏ 𝑓(𝑌𝑖 ; 𝜃) = 𝑛 = 𝐿(𝜃)
∏𝑖=1 𝑌𝑖 !
𝑖=1

Tomando logaritmo natural a la expresión anterior tenemos

ln 𝐿(𝜃) = −𝑛𝜃 + ln(𝜃) ∑ 𝑌𝑖 − ∑ ln(𝑌𝑖 !).

Derivando esta expresión con respecto a 𝜃 e igualando a cero se obtiene

𝜕 ln L(𝜃) ∑ 𝑌𝑖
= −𝑛 + = 0.
𝜕𝜃 𝜃

∑𝑌
Despejando 𝜃 se obtiene el estimado de máxima verosimilitud 𝜃̂𝑀𝑉 = 𝑛 𝑖 = 𝑌̅. La
𝜕2 ln 𝐿(𝜃) ∑ 𝑌𝑖
segunda derivada es =− . Entonces la matriz de información (que en este
𝜕𝜃2 𝜃2

caso es una matriz 1 × 1 pues solo hay un parámetro) es

𝜕 2 𝑙𝑛 𝐿(𝜃) ∑ 𝑌𝑖 1 1 𝑛𝜃 𝑛
𝐼(𝜃) = −𝐸 [ ] = 𝐸 [ ] = ∑ 𝐸[𝑌𝑖 ] = ∑ 𝜃 = = .
𝜕𝜃 2 𝜃2 𝜃2 𝜃2 𝜃2 𝜃

Luego la varianza asintótica de este estimador es 𝐴𝑉𝑎𝑟(𝜃̂𝑀𝑉 ) = 𝜃/𝑛, que se desvanece


𝑑
cuando 𝑛 → ∞. También es cierto que √𝑛(𝜃̂ − 𝜃) ⟶ 𝑁(0, 𝜃̂ ).

219
Ejemplo 8.2: Dada una muestra aleatoria simple 𝑌1 , 𝑌2 , … , 𝑌𝑛 , asumiendo que la
distribución subyacente es la normal, 𝑁(𝜇, 𝜎 2 ), la densidad de 𝑌𝑖 es 𝑓(𝑌𝑖 ) =
2
(𝑌𝑖 −𝜇)
1 −
√2𝜋𝜎2
𝑒 2𝜎 2
, y la estimación por máxima verosimilitud de los parámetros se obtiene

de maximizar la función de verosimilitud

𝑛 𝑛 𝑛
2) 2)
𝑒𝑥𝑝(−(𝑌𝑖 − 𝜇)2 /2𝜎 2 ) 1 2
𝐿(𝜇, 𝜎 = ∏ 𝑓(𝑌𝑖 ; 𝜇, 𝜎 =∏ =( ) 𝑒𝑥𝑝(−(𝑌𝑖 − 𝜇)2 /2𝜎 2 )
√2𝜋𝜎 2 2𝜋𝜎 2
𝑖=1 𝑖=1

Tomando el logaritmo natural a esta expresión se obtiene

𝑛 𝑛 1
ln 𝐿(𝜇, 𝜎 2 ) = − ln(2𝜋) − ln(𝜎 2 ) − 2 ∑(𝑌𝑖 − 𝜇)2
2 2 2𝜎

Derivando respecto a los parámetros,

∂ln L(𝜇,𝜎2 ) 1
= 𝜎2 ∑(𝑌𝑖 − 𝜇) = 0 (8.5)
𝜕𝜇

∂ln L(𝜇,𝜎2 ) 𝑛 1
= − 2𝜎2 + 2(𝜎2 )2 ∑(𝑌𝑖 − 𝜇)2 = 0 (8.6)
𝜕𝜎2

∑ 𝑌𝑖
De (8.5), es directo que 𝜇̂ 𝑀𝑉 = 𝑛
. Reemplazando en (8.6) y despejando se obtiene que
2
el otro estimador es 𝜎̂𝑀𝑉 = ∑(𝑌𝑖 − 𝑌̅)2 /𝑛. Se puede comprobar que 𝜇̂ es insesgado, pero
2
𝜎̂𝑀𝑉 sí es sesgado, aunque es asintóticamente insesgado.7

8.2 Estimación del modelo de regresión lineal clásico de dos variables por máxima
verosimilitud

Consideremos ahora el caso de dos variables aleatorias 𝑌 y 𝑋 que se relacionan entre sí


mediante un modelo de regresión lineal 𝑌𝑖 = 𝛽1 + 𝛽2 𝑋𝑖 + 𝑢𝑖 . En la sección anterior se
mostró el método MV para 𝑛 observaciones de una sola variable aleatoria, pero ahora
tenemos 𝑛 observaciones de dos variables aleatorias (𝑋𝑖 , 𝑌𝑖 ), las cuales se distribuyen en
conjunto según alguna función de densidad 𝑔(𝑋𝑖 , 𝑌𝑖 ). De la definición de densidad
condicional, se sabe que 𝑔(𝑋𝑖 , 𝑌𝑖 ) = 𝑓(𝑌𝑖 |𝑋𝑖 ) × ℎ(𝑋𝑖 ), donde ℎ(𝑋𝑖 ) es la densidad
marginal de 𝑋𝑖 y 𝑓(𝑌𝑖 |𝑋𝑖 ) es la distribución condicional de 𝑌𝑖 dado 𝑋𝑖 . Bajo el supuesto
de 𝑋𝑖 fijos ℎ(𝑋𝑖 ) pierde interés, por lo que plantearemos la verosimilitud basada en la
densidad condicional 𝑓(𝑌𝑖 |𝑋𝑖 ).

7
Se dejan al lector estas comprobaciones.

220
Debido al supuesto 5 del capítulo 3, 𝑌𝑖 |𝑋𝑖 ~𝑁(𝛽1 + 𝛽2 𝑋𝑖 , 𝜎 2 ), siendo la densidad
2
(𝑌𝑖 −𝛽1 −𝛽2 𝑋𝑖 )
1 −
𝑓(𝑌𝑖 |𝑋𝑖 ) = √2𝜋𝜎2 𝑒 2𝜎 2
.

Asumiendo que las observaciones son independientes, la densidad conjunta de toda la


muestra es la productoria de las densidades individuales, lo cual puede tomarse como
función de verosimilitud.

𝑛 𝑛 𝑛
1 2 (𝑌 −𝛽 −𝛽 𝑋 )2 1 2 −∑(𝑌𝑖−𝛽1 −𝛽2 𝑋𝑖 )
2
2) − 𝑖 1 22 𝑖
𝐿(𝛽1 , 𝛽2 , 𝜎 = ( ) ∏𝑒 2𝜎 =( ) 𝑒 2𝜎 2
2𝜋𝜎 2 2𝜋𝜎 2
𝑖=1

Tomando el logaritmo natural,

𝑛 𝑛 1
ln 𝐿(𝛽1 , 𝛽2 , 𝜎 2 ) = − ln(2𝜋) − ln(𝜎 2 ) − 2 ∑(𝑌𝑖 − 𝛽1 − 𝛽2 𝑋𝑖 )2
2 2 2𝜎

Derivando respecto a los parámetros,

∂ln L(𝛽1 ,𝛽2 ,𝜎2 ) 1


= 𝜎2 ∑(𝑌𝑖 − 𝛽1 − 𝛽2 𝑋𝑖 ) = 0 (8.7)
𝜕 𝛽1

∂ln L(𝛽1 ,𝛽2 ,𝜎2 ) 1


= 𝜎2 ∑(𝑌𝑖 − 𝛽1 − 𝛽2 𝑋𝑖 )𝑋𝑖 = 0 (8.8)
𝜕 𝛽2

∂ln L(𝛽1 ,𝛽2 ,𝜎2 ) 𝑛 1 2


= − 2𝜎2 + 2(𝜎2 )2 ∑(𝑌𝑖 − 𝛽1 − 𝛽2 𝑋𝑖 ) = 0 (8.9)
𝜕𝜎2

1
De (8.7) y (8.8), descontando al término > 0, estas ecuaciones se resuelven
𝜎2

exactamente como las ecuaciones normales del capítulo 2. La solución de ambas


ecuaciones son las mismas que las de mínimos cuadrados ordinarios.

∑ 𝑋 𝑌 −𝑛𝑋̅ 𝑌̅
𝛽̂1 = 𝑌̅ − 𝛽̂2 𝑋̅ y 𝛽̂2 = ∑ 𝑋𝑖 2𝑖−𝑛𝑋̅ 2
𝑖

De forma similar al ejemplo 8.2, reemplazando 𝛽̂1 y 𝛽̂2 en (8.9) y despejando,

2
2
∑(𝑌𝑖 − 𝛽̂ 1 − 𝛽̂ 2 𝑋𝑖 ) 𝑆𝐶𝑅
𝜎̂ = =
𝑛 𝑛

8.3 Estimación del MRLC con 𝒌 variables por máxima verosimilitud

221
Generalizamos lo visto en la sección anterior considerando el modelo de regresión
lineal,

𝒚 = 𝑿𝜷 + 𝒖 𝒖|𝑿~𝑁(𝟎, 𝜎2 𝑰).

La distribución condicional de 𝒚 dado 𝑿 es 𝒚|𝑿~𝑁(𝑿𝜷, 𝜎 2 𝑰), con una densidad


conjunta de todos los 𝑌𝑖 dado 𝑿 igual a

1 1
− 2 (𝒚−𝑿𝜷)′ (𝒚−𝑿𝜷)
𝑓(𝒚|𝑿) = 𝑛 𝑒 2𝜎 = 𝐿(𝜷, 𝜎2 ) (8.10)
(2𝜋𝜎2 ) 2

Tomamos el logaritmo natural a (8.10) resultando

𝑛 𝑛 1
ln 𝐿(𝜷, 𝜎2 ) = − 2 ln(2𝜋) − 2 ln(𝜎2 ) − 2𝜎2 (𝒚 − 𝑿𝜷)′ (𝒚 − 𝑿𝜷) (8.11)

El objetivo es buscar los valores de 𝜷 y 𝜎 2 que maximicen (8.11). Las condiciones de


primer orden de este problema de optimización son

𝜕 ln 𝐿 1
= − 2𝜎2 (−2𝑿′𝒚 + 2𝑿′𝑿𝜷) = 𝟎 (8.12)
𝜕𝜷

𝜕 ln 𝐿 𝑛 1
= − 2𝜎2 + 2𝜎4 (𝒚 − 𝑿𝜷)′ (𝒚 − 𝑿𝜷) = 𝟎 (8.13)
𝜕𝜎2

De (8.12), resulta que 𝑿′ 𝑿𝜷 = 𝑿′ 𝒚, y despejando se obtiene

̂ 𝑀𝑉 = (𝑿′ 𝑿)−𝟏 𝑿′𝒚


𝜷 (8.14)

Este es exactamente igual al estimador de mínimos cuadrados ordinarios. De la


ecuación (8.13) se puede despejar a 𝜎 2 , y remplazando (8.14) en lugar de 𝜷 se obtiene el
estimador de máxima verosimilitud


̂ 𝑴𝑽 ) (𝒚 − 𝑿𝜷
(𝒚 − 𝑿𝜷 ̂ 𝑴𝑽 ) 𝒆′ 𝒆
σ2MV =
̂ = (8.15)
𝑛 𝑛

El estimador (8.15) no es igual al de mínimos cuadrados ordinarios, 𝑠 2 . De hecho es un


estimador sesgado pero asintóticamente insesgado. Veamos,

2 ]
𝒆′ 𝒆 1 (𝑛 − 𝑘)𝜎 2
𝐸[𝜎̂𝑀𝑉 = 𝐸 [ ] = 𝐸[𝒆′ 𝒆] = ≠ 𝜎2
𝑛 𝑛 𝑛

Podemos decir que es asintóticamente insesgado pues

222
𝑛−𝑘
lim 𝐸[𝜎̂ 2𝑀𝑉 ] = lim ( ) 𝜎2 = 𝜎2
𝑛→∞ 𝑛→∞ 𝑛

Estos dos estimadores que hemos encontrado cumplen las propiedades típicas de los
estimadores máximo-verosímiles. En concreto nos interesa resaltar que se cumplirá que
son consistentes, y también son asintóticamente normales.

̂ 𝑀𝑉 ) = 𝜷
Plim(𝜷 Plim(𝜎̂ 2𝑀𝑉 ) = 𝜎2

̂
𝜷 𝑎 𝜷 −1
[ 𝑀𝑉 2
2 ] ~ 𝑁 ([ 2 ] , 𝑰 (𝜷, 𝜎 )).
̂ 𝑀𝑉
𝜎 𝜎

̂ 𝑀𝑉 y 𝜎̂𝑀𝑉
Para calcular la matriz de varianzas y covarianzas asintótica de 𝜷 2
debemos
hacer el cálculo de la matriz de información, la cual requiere el cálculo de las segundas
derivadas del logaritmo de la verosimilitud. Derivamos nuevamente a (8.12) y (8.13) y
tenemos8

𝜕 2 ln 𝐿 1
= − 2 𝑿′ 𝑿
𝜕𝜷𝜕𝜷′ 𝜎

𝜕 2 ln 𝐿 1 1 1
= (−2𝑿′ 𝒚 + 2𝑿′ 𝑿𝜷) = − 4 𝑿′ (𝒚 − 𝑿𝜷) = − 4 𝑿′ 𝒖
𝜕𝜷𝜕𝜎 2 2(𝜎 )
2 2 𝜎 𝜎

𝜕 2 ln 𝐿 𝑛 1
= 4 − 6 𝒖′𝒖
𝜕(𝜎 )2 2 2𝜎 𝜎

Multiplicando por (-1) y tomado el valor esperado se obtiene

𝜕 2 𝑙𝑛 𝐿 1
−𝐸 [ ] = 𝑿′𝑿
𝜕𝜷𝜕𝜷′ 𝜎2

𝜕 2 ln 𝐿 1
−𝐸 [ ] = 4 𝑿′ 𝐸[𝒖] = 𝟎
𝜕𝜷𝜕𝜎 2 𝜎

𝜕 2 ln 𝐿 𝑛 1 𝑛 𝑛 𝑛 𝑛 𝑛
−𝐸 [ ] = − 4 + 6 𝐸[𝒖′ 𝒖] = − 4 + 6 𝜎2 = − 4 + 4 = 4
𝜕𝜎 2 2𝜎 𝜎 2𝜎 𝜎 2𝜎 𝜎 2𝜎

Luego la matriz de la información es,

8
Nótese que se toma derivada respecto a 𝜎 2 y no respecto a 𝜎.

223
𝜕 2 ln 𝐿 𝜕 2 ln 𝐿 1
−𝐸 [ ′
] −𝐸 [ ] 𝑿′𝑿 𝟎
𝜕𝜷𝜕𝜷 𝜕𝜷𝜕 𝜎 2
2
𝑰(𝜷, 𝜎2 ) = 2 2 = [𝜎 𝑛 ]
𝜕 ln 𝐿 𝜕 ln 𝐿
−𝐸 [ 2 ] −𝐸 [ ] 𝟎′
[ 𝜕 𝜎 𝜕𝜷 𝜕 𝜎2 ] 2𝜎4

Invirtiendo esta matriz obtenemos la matriz de varianzas y covarianzas asintótica

−1
𝜎2 ( 𝑿 ′ 𝑿 ) 𝟎
2)
𝐴𝑉𝑎𝑟(𝜷, 𝜎 =[ 2𝜎4 ] (8.16)
𝟎′ 𝑛

8.4 Los tests de Razón de Verosimilitud, Wald y Multiplicadores de Lagrange

Son tres pruebas de hipótesis muy generales basadas en estimaciones de máxima


verosimilitud, y que son de mucha aplicación en estudios econométricos empíricos.
Asimismo, en muestras grandes, estos tests tienden a coincidir, siendo por lo tanto
asintóticamente equivalentes.

8.4.1. Test de Razón de Verosimilitud

Sea 𝜽 un vector de 𝑘 parámetros. Deseamos comprobar la hipótesis 𝐻0 : 𝐶(𝜽) = 𝒓,


̂ el estimador de máxima
donde 𝐶(. ) es una función continua de ℝ𝑘 → ℝ𝑞 . Sea 𝜽
̃ el estimador de máxima verosimilitud que maximiza ln 𝐿(𝜽) pero
verosimilitud y sea 𝜽
sujeta a la restricción 𝐶(𝜽) = 𝒓 (estimadores restringidos). Luego la razón de
verosimilitud se define como

̃)
𝐿(𝜽
𝛾= 0≤𝛾≤1
̂)
𝐿(𝜽

Intuitivamente, si la hipótesis nula es cierta (y por lo tanto la restricción es válida), los


̂ ) y 𝐿(𝜽
valores 𝐿(𝜽 ̃ ) deberían estar muy cerca uno del otro, y por lo tanto la razón de

verosimilitud sería cercana a 1. En caso contrario, γ tomará valores próximos a cero. En


𝑎
muestras grandes, si la hipótesis nula es cierta ocurrirá que −2 ln 𝛾 ~ 𝜒 2 (𝑞) donde los
grados de libertad 𝑞 son iguales al número de ecuaciones en 𝐶(. ). Si −2 ln 𝛾 >
2
𝜒1−𝛼 (𝑞) entonces se rechaza la 𝐻0 con 𝛼% de significancia. Nótese además que

̃) − ln 𝐿(𝜽
−2 ln 𝛾 = −2[ln 𝐿(𝜽 ̂ )]

224
Ejemplo 8.3: Restricciones lineales en el modelo de regresión lineal. Supongamos que
queremos probar las hipótesis lineales del tipo 𝐻0 : 𝑹𝜷 = 𝒓 del capítulo 5, usando el test
de Razón de Verosimilitud. Para este test se necesitan los estimadores restringidos e
irrestrictos del vector 𝜷. Las expresiones (8.14) y (8.15) nos entrega los estimadores sin
restricciones. Para obtener los estimadores de máxima verosimilitud sujetos a 𝑹𝜷 = 𝒓
se tendría que maximizar (8.11) sujeto a esta restricción. El lagrangiano de esta
maximización es

𝑛 𝑛 1
ℒ = − ln(2𝜋) − ln(𝜎2 ) − (𝒚 − 𝑿𝜷)′ (𝒚 − 𝑿𝜷) + 𝝀′(𝒓 − 𝑹𝜷)
2 2 2𝜎2

Inspeccionando al lagrangiano, podemos notar que maximizar esta función con respecto
1
a 𝜷 sujeta a 𝑹𝜷 = 𝒓 es lo mismo que minimizar 2𝜎 2
(𝒚 − 𝑿𝜷)′ (𝒚 − 𝑿𝜷) respecto a 𝜷
sujeta a 𝑹𝜷 = 𝒓. Matemáticamente, se obtendrán los mismos estimadores restringidos
de mínimos cuadrados ordinarios que se calcularon en la expresión (5.17) del capítulo 5.

̃=𝜷
𝜷 ̂ + (𝑿′ 𝑿)−1 𝑹′ (𝑹(𝑿′ 𝑿)−1 𝑹′ )−1 (𝒓 − 𝑹𝜷
̂)

Al derivar el lagrangiano con respecto a 𝜎 2 se obtendrá una expresión similar a (8.13).


̃ es el
Luego, el estimador restringido de la varianza es 𝜎̃ 2 = 𝒆̃′ 𝒆̃/𝒏, donde 𝒆̃ = 𝒚 − 𝑿𝜷
vector de residuos del modelo restringido.

̂ y 𝜎̂ 2 en (8.11) se obtiene
Reemplazando 𝜷

𝑛 𝑛 1
̂ , 𝜎̂ 2 ) = − ln(2𝜋) − ln(𝜎̂ 2 ) −
ln 𝐿(𝜷 2
̂ )′ (𝒚 − 𝑿𝜷
(𝒚 − 𝑿𝜷 ̂)
2 2 ̂
2𝜎

𝑛 𝑛 𝒆′ 𝒆 𝟏 𝒏 𝑛 𝒆′ 𝒆 𝑛
= − ln(2𝜋) − 𝒍𝒏 ( ) − ′ = − ln(2𝜋) − ln ( ) − .
2 2 𝒏 𝒆 𝒆 𝟐 2 𝑛 2
𝟐 𝒏

̃, 𝜎̃ 2 ) y simplificada es
Análogamente, el logaritmo de la verosimilitud evaluada en (𝜷

𝑛 𝑛 𝒆̃ ′ 𝒆̃ 𝑛
̃, 𝜎̃ 2 ) = − ln(2𝜋) − ln (
ln 𝐿(𝜷 )−
2 2 𝑛 2

225
Luego, el estadístico del test de razón de verosimilitud es

𝒆̃′ 𝒆̃ 𝒆′ 𝒆
̃ , 𝜎̃ 2 ) − ln 𝐿(𝜷
−2 ln 𝛾 = −2[ln 𝐿(𝜷 ̂ , 𝜎̂ 2 )] = 𝑛 [ln ( ) − ln ( )]
𝑛 𝑛

𝒆̃ ′ 𝒆̃ 𝒆′ 𝒆
−2 ln 𝛾 = −2[ln 𝐿(𝜷 ̂ , 𝜎̂ 2 )] = 𝑛 [ln (
̃, 𝜎̃ 2 ) − ln 𝐿(𝜷 ) − ln ( )]
𝑛 𝒏

−2 ln 𝛾 = 𝑛[ln(𝒆̃′ 𝒆̃) − ln(𝒆′ 𝒆)] (8.17)

(8.17) se distribuye asintóticamente como un Chi-cuadrado con 𝑞 grados de libertad si


la hipótesis nula es cierta. Este valor es comparado con el valor crítico de la distribución
Chi-cuadrada con 𝑞 grados de libertad. Este test puede tomarse como una alternativa a
la prueba 𝐹 cuando se trata de probar hipótesis lineales sobre los parámetros 𝜷.

8.4.2. Test de Wald

Es un test alternativo al anterior y que prueba la misma hipótesis 𝐻0 : 𝐶(𝜽) = 𝒓


basándose en estimadores de máxima verosimilitud. A diferencia del test de razón de
verosimilitud, esta prueba solamente requiere el cálculo de los parámetros del modelo
̂ . No obstante, asintóticamente debe dar los mismos resultados que el test de
irrestricto, 𝜽
razón de verosimilitud.

El estadístico 𝑊 de Wald es,

𝑊 = (𝐶(𝜽 ̂ ) − 𝒓)]−1 (𝐶(𝜽


̂ ) − 𝒓)′[𝑉𝑎𝑟(𝐶(𝜽 ̂ ) − 𝒓) (8.18)

Bajo la hipótesis nula, (8.18) se distribuye asintóticamente como un 𝜒 2 (𝑞). El cálculo


̂ ) − 𝒓) = 𝑉𝑎𝑟 (𝐶(𝜽
de 𝑊 requiere obtener 𝑉𝑎𝑟(𝐶(𝜽 ̂ )). La varianza puede calcularse

en forma aproximada mediante el método delta,

𝜕𝐶 ′ 𝜕𝐶
̂ ) − 𝒓) ≈ (
𝑉𝑎𝑟(𝐶(𝜽 ̂ ). ( )
) . 𝑉𝑎𝑟(𝜽
𝜕𝜽 𝜕𝜽

𝜕𝐶 ′
(𝜕𝜽) es la matriz jacobiana 𝑞 × 𝑘 de 𝐶(. ): ℝ𝑘 → ℝ𝑞 , y donde las derivadas son
̂ . Luego, si 𝑊 > 𝜒1−𝛼
evaluadas en 𝜽 2
(𝑞) se rechaza la hipótesis nula con α% de

226
2
significancia, en donde 𝜒1−𝛼 (𝑞) es el percentil 1 − 𝛼 de la distribución Chi-cuadrado
con 𝑞 grados de libertad.

Ejemplo 8.4: En el modelo de regresión lineal, queremos probar 𝐻0 : 𝑹𝜷 = 𝒓 con el


estadístico de Wald, el cual tomará la siguiente forma,

𝑊 = (𝑹𝜷 ̂ − 𝒓)]−1 (𝑹𝜷


̂ − 𝒓 )′[𝑉𝑎𝑟(𝑹𝜷 ̂ − 𝒓 ).

̂ − 𝒓) puede deducirse mediante el método delta9 o


La expresión 𝑉𝑎𝑟(𝑹𝜷
̂ − 𝒓) = 𝑹𝜎 2 (𝑿′𝑿)−1 𝑹′. Utilizando a 𝜎̂ 2 en
directamente10, siendo igual a 𝑉𝑎𝑟(𝑹𝜷
lugar de 𝜎 2 , y reemplazando resulta en

̂ − 𝒓 )′ [𝑹(𝑿′ 𝑿)−1 𝑹′ ]−𝟏 (𝑹𝜷


(𝑹𝜷 ̂−𝒓)
𝑊= (8.19)
𝜎̂ 2

Nótese que (8.19) es muy parecido al estadístico F de la ecuación (5.8) del capítulo 5.
Evidentemente (8.19) solo requiere el cómputo de los estimadores sin restricciones, al
igual que el estadístico 𝐹. Adicionalmente, si 𝑛 es muy grande será cierto que

1
𝑊 ≈ 𝐹.
𝑞

Para fines del modelo de regresión lineal clásico resulta conveniente transformar a
(8.19) en términos de las sumas de cuadrados de los residuos del modelo restringido y
del irrestricto. Como se comprobó en la expresión (5.21) del capítulo 5, el numerador de
(8.19) es igual a la diferencia de las sumas de cuadrados residuales restricta e irrestricta.
Luego, (8.19) es igual a

𝒆̃′ 𝒆̃ − 𝒆′ 𝒆 𝑛(𝒆̃′ 𝒆̃ − 𝒆′ 𝒆)
𝑊= = (8.20)
𝒆′ 𝒆/𝑛 𝒆′ 𝒆

8.4.3. Test de Multiplicadores de Lagrange (LM)

𝜕𝐶(𝜷)
9
Aplicando el método delta para la función 𝐶(𝜷) = 𝑹𝜷, resulta que = 𝑹′, y se sabe que 𝑉𝑎𝑟(𝜷) =
𝜕𝜷
𝜎 2 (𝑿′𝑿)−1 . Luego, 𝑉𝑎𝑟(𝑹𝜷̂ − 𝒓 ) = 𝑹𝑉𝑎𝑟(𝜷 ̂ )𝑹′ = 𝜎 2 𝑹(𝑿′𝑿)−1 𝑹′ .
10
𝑉𝑎𝑟(𝑹𝜷 ̂ − 𝒓 ) = 𝑉𝑎𝑟(𝑹𝜷 ̂ ) = 𝐸[(𝑹𝜷 ̂ − 𝐸[𝑹𝜷 ̂ ])(𝑹𝜷
̂ − 𝐸[𝑹𝜷 ̂ ])′] = 𝐸[𝑹(𝜷 ̂ − 𝜷)(𝜷 ̂ − 𝜷)′𝑹′] =
𝑹𝑉𝑎𝑟(𝜷 ̂ )𝑹′ .

227
A diferencia de la prueba de Wald, este test se basa en los estimadores restringidos de
̃. En ocasiones puede ser más fácil calcular estos estimadores
máxima verosimilitud, 𝜽
restringidos que los irrestrictos, por lo que el test 𝐿𝑀 podría ser más conveniente.
Intuitivamente, el test se construye sobre las condiciones de primer orden del problema
̂)
𝜕 ln 𝐿(𝜽
de optimización irrestricta. De (8.4), sabemos que = 𝟎, pero si la hipótesis
𝜕𝜽

𝐻0 : 𝐶(𝜽) = 𝒓 es cierta entonces los estimadores restringidos e irrestrictos deberían ser


̃≈𝜽
similares, 𝜽 ̂ , entonces la primera derivada (llamada score) evaluada en los
̃)
𝜕 ln 𝐿(𝜽
parámetros restringidos debería ser un valor cercano a cero ≈ 𝟎.
𝜕𝜽

El estadístico 𝐿𝑀 es

̃) ′ ̃
𝐿𝑀 = (
𝜕 ln 𝐿(𝜽
̃)]−1 (𝜕 ln 𝐿(𝜽))
) [𝑰(𝜽 (8.21)
𝜕𝜽 𝜕𝜽

el cual se distribuye asintóticamente como un 𝜒 2 (𝑞) bajo la hipótesis nula. Luego si la


hipótesis es cierta, lo más probable es que 𝐿𝑀 tome valores pequeños cercanos a cero
(pero no negativos), y si la hipótesis es falsa, 𝐿𝑀 tomará valores grandes. Por ello, si el
2
valor 𝐿𝑀 calculado es mayor que el percentil 𝜒1−𝛼 (𝑞) se rechaza la hipótesis nula con
𝛼% de significancia.

Ejemplo 8.5: En el modelo de regresión lineal, nuevamente queremos probar la


hipótesis 𝐻0 : 𝑹𝜷 = 𝒓, ahora con el test 𝐿𝑀. Partiendo de las derivadas parciales, El
̃ , 𝜎̃ 2 ) es
vector de derivadas parciales (8.12) y (8.13) evaluadas en (𝜷

𝜕 ln 𝐿 1 1
̃ , 𝜎̃ 2 ) =
(𝜷 ̃) =
𝑿′(𝒚 − 𝑿𝜷 𝑿′𝒆̃
𝜕𝜷 𝜎̃ 2 𝜎̃ 2

𝜕 ln 𝐿 𝑛 𝒆̃′𝒆̃ 𝑛 𝑛𝜎̃ 2
̃ , 𝜎̃ 2 ) = −
(𝜷 + = − + =0
𝜕𝜎 2 2𝜎̃ 2 2𝜎̃ 4 2𝜎̃ 2 2𝜎̃ 4

Utilizando la inversa de la matriz de información de (8.16) evaluada en los parámetros


restringidos, y reemplazando los valores en (8.21) se obtiene

−1
1 𝜎̃ 2 (𝑿′ 𝑿) 𝟎 1
𝐿𝑀 = [ 2 𝒆̃′𝑿 0] [ 4 ] [𝜎 𝑿′𝒆̃]
2𝜎̃ ̃2
𝜎̃ 𝟎′
𝑛 0

𝒆̃′𝑿(𝑿′𝑿)−1 𝑿′𝒆̃ 𝑛𝒆̃′𝑿(𝑿′𝑿)−1 𝑿′𝒆̃


= = .
𝜎̃ 2 𝒆̃′𝒆̃
228
Evidentemente, 𝐿𝑀 solo requiere de la estimación de los parámetros del modelo sujeto
a las restricciones. Sin embargo, este estadístico también puede expresarse en términos
de las sumatorias de cuadrados de los residuos restringidos e irrestrictos.

𝑛𝒆̃′ 𝑿(𝑿′ 𝑿)−𝟏 𝑿′ 𝒆̃ 𝑛𝒆̃′ [𝑰 − 𝑴]𝒆̃ 𝑛[𝒆̃′ 𝒆̃ − 𝒆̃′ 𝑴𝒆̃]


𝐿𝑀 = = =
𝒆̃′ 𝒆̃ 𝒆̃′ 𝒆̃ 𝒆̃′ 𝒆̃

̃−𝜷
Recordando de la sección 5.4 del capítulo 5 que 𝒆̃ = 𝒆 − 𝑿(𝜷 ̂ ), multiplicando esta
expresión por 𝑴 y dado que 𝑴𝑿 = 𝟎 y que 𝑿′ 𝒆 = 𝟎,

̃−𝜷
𝑴𝒆̃ = 𝑴𝒆 − 𝑴𝑿(𝜷 ̂ ) = 𝑴𝒆 = (𝑰 − 𝑿(𝑿′ 𝑿)−1 𝑿′ )𝒆 = 𝒆.

Luego 𝒆̃′ 𝑴𝒆̃ = 𝒆′ 𝒆, entonces

𝑛[𝒆̃′ 𝒆̃ − 𝒆′ 𝒆]
𝐿𝑀 = (8.22)
𝒆̃′ 𝒆̃

Dado que 𝑴𝒆̃ = 𝒆, el vector 𝒆 es el residuo de una regresión lineal auxiliar de 𝒆̃ contra
𝑿. Luego, tomando a 𝒆̃′ 𝒆̃ como la suma de cuadrados totales y a 𝒆′ 𝒆 como la
sumatoria de cuadrados de los residuos de esta regresión auxiliar, resulta que (8.22) se
puede expresar como,

𝒆′ 𝒆 2
𝐿𝑀 = 𝑛 (1 − ) = 𝑛𝑅𝑎𝑢𝑥
𝒆̃′ 𝒆̃

2
Aquí, 𝑅𝑎𝑢𝑥 ̂ + 𝐞.
es el R-cuadrado resultante de una regresión del tipo 𝐞̃ = 𝐗𝛅

Comparando los tres tests mencionados, en general las expresiones (8.17), (8.20) y
(8.22) no arrojan los mismos valores. De hecho 𝑊 ≥ 𝑅𝑉 ≥ 𝐿𝑀, es decir Wald tiende a
rechazar con más frecuencia que LM y RV, considerando que los tres estadísticos se
comparan con el mismo percentil de la distribución Chi-cuadrado. Sin embargo, tales
diferencias se reducen a cero cuando 𝑛 → ∞, con lo cual los tres tests son
asintóticamente equivalente, pues 𝑊 = 𝐿𝑅 = 𝐿𝑀. Por ello es recomendable que estos
tests sean utilizados solamente en muestras grandes.

229
Ejercicios

8.1 (Tomado de Greene (2008)) Suponga que una variable aleatoria tiene la siguiente
distribución:

𝛽
𝑓(𝑥) = 𝛼𝛽𝑥 𝛽−1 𝑒 −𝛼𝑥 𝛼, 𝛽 > 0, 𝑥 ≥ 0

a. Obtenga el logaritmo de la función de verosimilitud para una muestra de 𝑛


observaciones.
b. Asuma que 𝛽 = 1 Encuentre la función de verosimilitud restringida, el
estimador 𝑀𝑉 de 𝛼 y su distribución asintótica.
c. Usando los resultados de la parte b, defina un intervalo de confianza para probar
la hipótesis 𝐻0 : 𝛼 = 𝛼0 al 95% de confianza. Nota: El valor de la normal
estándar es 1.96. Dado el intervalo, en qué caso rechazaría la hipótesis y en qué
caso no la rechazaría.
d. Utilizando 20 observaciones, la estimación de los parámetros del modelo
irrestricto en la parte (a) es la siguiente: 𝛼̂ = 1.179 y 𝛽̂ = 1.11, y la inversa de
la matriz de información es:
0.04506 −0.2673
𝐼 −1 ( 𝛼̂, 𝛽̂ ) = [ ]
−0.2673 0.041477

Lleve a cabo un test de Wald para probar que 𝛽 = 1.

e. Utilizando los mismos datos se obtiene la estimación de 𝛼 de la parte b,


𝛼̃ = 0.88496. Aunque no tenga todos los datos, explique cómo llevaría a cabo
un test de Razón de Verosimilitud para probar la hipótesis que 𝛽 = 1.
8.2 Dada la distribución de Poisson, con función de probabilidad 𝑓(𝑥𝑖 ) = 𝑒 −𝜃 𝜃 𝑥𝑖 /𝑥𝑖 !,
encuentre el estimador de 𝑀𝑉 del parámetro 𝜃 y su varianza. Escriba el estadístico
de Wald apropiado para probar la hipótesis 𝐻0 : 𝜃 = 𝜃0 .
8.3 Deseamos estimar los determinantes del número de cigarrillos consumidos por las
personas. Para ello contamos con datos de una encuesta a 800 personas. Las
variables obtenidas son
age = Edad en años
age2 = Edad al cuadrado
yearsed = Años de escolaridad
white = dummy, 1 si es blanco, 0 si no lo es

230
income = Ingreso anual
cigprice = Precio promedio del paquete de cigarrillos en la localidad
numcigs = Número de cigarrillos fumados al día. lncigp = ln(cigprice)
lninc = ln(income)
whiteage=white*age
whiteage2=white*age2
whiteyearsed=white*yearsed

Se estima en primer lugar un modelo (Modelo I) con pocas variables:

Source SS df MS Number of obs = 800


F( 5, 794) = 7.32
Model 6622.66996 5 1324.53399 Prob > F = 0.0000
Residual 143733.299 794 181.024306 R-squared = 0.0440
Adj R-squared = 0.0380
Total 150355.969 799 188.180186 Root MSE = 13.455

numcigs Coef. Std. Err. t P>|t| [95% Conf. Interval]

age .7794564 .1617753 4.82 0.000 .4618986 1.097014


age2 -.0091032 .0017635 -5.16 0.000 -.0125649 -.0056415
yearsed -.4991941 .1681278 -2.97 0.003 -.8292216 -.1691665
lncigp -1.597562 5.79202 -0.28 0.783 -12.96704 9.771921
lninc .7064667 .7329148 0.96 0.335 -.7322129 2.145146
_cons .5826171 24.10262 0.02 0.981 -46.72977 47.895

Luego se decide añadir algunas variables más (Modelo II).

Source SS df MS Number of obs = 800


F( 9, 790) = 4.21
Model 6885.26551 9 765.029501 Prob > F = 0.0000
Residual 143470.703 790 181.608485 R-squared = 0.0458
Adj R-squared = 0.0349
Total 150355.969 799 188.180186 Root MSE = 13.476

numcigs Coef. Std. Err. t P>|t| [95% Conf. Interval]

age .3399001 .4061741 0.84 0.403 -.457408 1.137208


age2 -.0046067 .0042587 -1.08 0.280 -.0129664 .0037531
yearsed -.4600612 .4518072 -1.02 0.309 -1.346946 .4268234
lncigp -1.627404 5.820343 -0.28 0.780 -13.05257 9.797763
lninc .6839871 .7362371 0.93 0.353 -.7612253 2.1292
white -9.820395 10.11392 -0.97 0.332 -29.67372 10.03293
whiteage .5177987 .4392782 1.18 0.239 -.3444918 1.380089
whiteage2 -.005333 .0046369 -1.15 0.250 -.0144352 .0037691
whiteyearsed -.0415803 .4845992 -0.09 0.932 -.9928346 .909674
_cons 9.235009 26.08465 0.35 0.723 -41.96842 60.43844

Variable VIF 1/VIF

whiteage 361.64 0.002765


whiteage2 236.62 0.004226
age 209.92 0.004764
age2 197.54 0.005062
white 47.58 0.021016
whiteyearsed 25.34 0.039464
yearsed 8.39 0.119154
lninc 1.21 0.828701
lncigp 1.01 0.986022

Mean VIF 121.03

a. Compare los resultados de las dos regresiones. ¿Por qué las variables que eran
estadísticamente significativas en el Modelo I con la prueba “𝑡” dejan de serlo
en el Modelo II? ¿Por qué a pesar que ninguna variable es significativa en el

231
modelo II la prueba F de significancia conjunta señala que el modelo es
“bueno”?
b. Calcule los estadísticos de Razón de Verosimilitud, Wald y Multiplicadores de
Lagrange que probaría la hipótesis nula que los coeficientes de las variables
white, whiteage, whiteage2 y whiteyearsed son iguales a cero. Calcule
también el estadístico F que probaría la misma hipótesis.
8.4 Dada una muestra aleatoria, encuentre en cada caso el estimador por Máxima
Verosimilitud de θ de las siguientes funciones de densidad.
a. 𝑓(𝑋, 𝜃) = 𝑒 −(𝑋−𝜃) − ∞ < 𝑋 < ∞ ; −∞ < 𝜃 < ∞
1
b. 𝑓(𝑋, 𝜃) = 2 𝑒 −|𝑋−𝜃| − ∞ < 𝑋 < ∞ ; −∞ < 𝜃 < ∞
𝜃𝑋 𝑒 −𝜃
c. 𝑓(𝑋, 𝜃) = 𝑋 = 0,1,2, … ; 0 ≤ 𝜃 < ∞ 𝐹(0,0) = 1
𝑋𝑖 !

d. 𝑓(𝑋, 𝜃) = 𝜃𝑋 𝜃−1 0< 𝑋 < 1; 0 <𝜃 < ∞


1
e. 𝑓(𝑋, 𝜃) = (𝜃) 𝑒 −𝑋/𝜃 0 < 𝑋 < ∞ ; 0 < 𝜃 < ∞

8.5 Con los datos del ejercicio 6.5 del capítulo 6,


a. Suponiendo que 𝒖~𝑁(𝟎, 𝜎 2 𝑰) y estima los modelos por Máxima Verosimilitud.
Pruebe la hipótesis 𝐻0 : β1H = β1M (interceptos iguales) con el test de Razón de
Verosimilitud, con el test de Wald y con el test de Multiplicadores de Lagrange.
b. Pruebe ahora la hipótesis que el intercepto y las pendientes son diferentes, con
los mismos tests.
8.6 Con la información de los ejemplos 5.4 y 5.6 del capítulo 5, pruebe la hipótesis de
rendimientos constantes a escala mediante los tests de Wald, Razón de
Verosimilitud y Multiplicadores de Lagrange.

232
Capítulo 9
El Modelo de Regresión Lineal con Perturbaciones No Esféricas

El modelo de regresión lineal clásico presentado desde el capítulo 1 al 6 se construye en


base a supuestos que en la realidad suelen no cumplirse. Uno de los supuestos más
fuertes de ese modelo es el de perturbaciones esféricas. Cuando se trabaja con modelos
microeconómicos, es razonable poner en duda que las varianzas condicionales de los
términos de perturbación sean iguales para todas las entidades de la muestra. Lo que
suele caracterizar a los modelos con datos microeconométricos es justamente la
heterogeneidad de esas variaciones medias, relacionadas con los regresores. Asimismo,
cuando se trabaja con datos de series temporales, por razones que explicaremos en los
siguientes párrafos los términos de error suelen presentar algún tipo de correlación
temporal con otros errores. En ambos casos estaríamos ante una situación en donde el
supuesto mencionado dejaría de ser cierto.

¿Qué consecuencias tiene el no cumplimiento de este supuesto? ¿Afectará las


propiedades estadísticas del estimador de mínimos cuadrados ordinarios? ¿Se alterarán
las pruebas de hipótesis en esos casos? En este capítulo veremos el modelo de regresión
lineal cuando se levanta el supuesto de perturbaciones esféricas.

9.1 Perturbaciones no esféricas

A diferencia de lo que se asumió en el capítulo 4, en el modelo asumiremos que

𝑉𝑎𝑟(𝒖|𝑿) = 𝑽 ≠ 𝜎 2 𝑰 (9.1)

La matriz 𝑽 puede contener elementos distintos en su diagonal principal y elementos


diferentes de cero fuera de esta diagonal,

𝜎12 𝜎12 … 𝜎1𝑛


𝑽 = 𝜎12 𝜎22 … 𝜎2𝑛
⋮ ⋮ ⋱ ⋮
[𝜎1𝑛 𝜎2𝑛 … 𝜎𝑛2 ]

Es decir, la varianza no es necesariamente constante y la covarianza entre diferentes


perturbaciones podría ser diferente de cero. Cuando la varianza condicional de 𝑢𝑖 no es
constante sino que puede cambiar entre los individuos se dice que hay

233
heterocedasticidad condicional y si las covarianzas entre los términos de perturbación
son distintas de cero hay correlación serial o autocorrelación. Como seguiremos con el
supuesto de que las variables en 𝑿 son fijas, podemos hablar de heterocedasticidad a
secas sin mencionar el término condicional.

̂ de MCO en presencia de perturbaciones no


9.2 Propiedades del estimador 𝛃
esféricas
Veamos ahora como se alteran algunas de las propiedades estadísticas del estimador
̂ 𝑀𝐶𝑂 en presencia de perturbaciones no esféricas. Nos interesa ver la esperanza, la
𝜷
varianza de este estimador y su eficiencia.

 ̂ 𝑀𝐶𝑂
Media de 𝜷

̂ en este contexto,
Tomando el valor esperado de 𝜷

̂ 𝑀𝐶𝑂 ] = 𝜷 + (𝑿′ 𝑿)−1 𝑿′ 𝐸[𝒖] = 𝜷.


𝐸[𝜷

Por lo tanto el estimador sigue siendo insesgado pues 𝐸[𝒖] = 𝟎 como antes.

 ̂ 𝑀𝐶𝑂
Varianzas y Covarianzas de 𝜷

Calculando la matriz de varianzas y covarianzas,

̂ 𝑀𝐶𝑂 ] = 𝐸[(𝜷
𝑉𝑎𝑟[𝜷 ̂ − 𝐸[𝜷
̂ ])(𝜷
̂ − 𝐸[𝜷
̂ ])′] = 𝐸[(𝑿′ 𝑿)−1 𝑿′ 𝒖𝒖′𝑿(𝑿′ 𝑿)−1 ]

= (𝑿′ 𝑿)−1 𝑿′ 𝐸[𝒖𝒖′ ]𝑿(𝑿′ 𝑿)−1 = (𝑿′ 𝑿)−1 𝑿′ 𝑽𝑿(𝑿′ 𝑿)−1 (9.2)

Este resultado nos muestra que la matriz de varianzas y covarianzas ya no es la


expresión (4.18), es decir 𝜎 2 (𝑿′ 𝑿)−1 , sino la expresión (9.2). Por lo tanto las fórmulas
de los estadísticos 𝑡 y 𝐹 en las ecuaciones (5.3) y (5.8) no son válidas pues se basan en
(4.18) bajo el supuesto de perturbaciones esféricas. Si las perturbaciones no son
esféricas, dichos estadísticos deberían ser reformulados en base a estimaciones de la
varianza en (9.2).

 ̂ 𝑀𝐶𝑂
Consistencia de 𝜷

Se puede comprobar que el estimador MCO es consistente aún en presencia de


heterocedasticidad o autocorrelación.

 ̂ 𝑀𝐶𝑂
Ineficiencia del estimador 𝜷
234
Cuando se viola el supuesto 3 de perturbaciones esféricas, los estimadores de MCO ya
no son los mejores estimadores lineales a insesgados, es decir no se cumple el teorema
de Gauss-Markov. Como se mostrará más adelante, existe otro estimador, llamado de
Mínimos Cuadrados Generalizados que tiene menor varianza (es decir, es más eficiente)
que el estimador de MCO.

9.3 Heterocedasticidad

Es un caso especial de perturbaciones esféricas que se presenta cuando la varianza de


los términos de perturbación no es la misma para cada individuo o unidad de análisis.
Por simplicidad asumiremos que no hay autocorrelación en esta exposición. En este
caso tenemos que la matriz 𝑽 es diagonal no escalar.

𝜎12 0 … 0
𝑉𝑎𝑟(𝒖|𝑿) = 0 𝜎22 … 0
⋮ ⋮ ⋱ ⋮
[0 0 … 𝜎𝑛2 ]

Nótese que ya no tenemos un parámetro σ2 constante en la diagonal sino “𝑛”


parámetros σ12 , σ22 , … , σ2n . Contando con los 𝑘 parámetros 𝛽1 , 𝛽2 , … , 𝛽𝑘 tenemos en total
𝑛 + 𝑘 parámetros a estimar, lo cual es imposible con 𝑛 observaciones a menos que
hagamos algunos supuestos adicionales. Con el fin de tener alguna idea sobre qué
supuestos aplicar, debemos discutir brevemente acerca del origen o la naturaleza de la
heterocedasticidad.

9.3.1 Naturaleza de la heterocedasticidad

En los modelos econométricos es frecuente pensar que la varianza de los errores esté
relacionada de alguna manera con una o más de las variables exógenas, siendo la
relación del tipo

𝜎𝑖2 = 𝑓(𝒙𝑖 )

En esta función, 𝒙𝑖 es un vector de variables explicativas. Por ejemplo, en la relación


entre el Consumo de Alimentos y el Ingreso Familiar, podría pensarse que el consumo
es más variable para personas de ingresos altos debido a sus mejores capacidades de
ahorro y endeudamiento, mientras que, para individuos de ingresos bajos, la variación

235
en el consumo podría ser menor. En la figura 9.1 se presenta el diagrama de dispersión
de los gastos familiares en alimentos contra el ingreso familiar neto anual en el
Departamento de Lima. Se puede observar con claridad que la variabilidad del gasto en
alimentos es cada vez más grande al aumentar el ingreso familiar.

Figura 9.1
Relación entre Gasto en Alimentos e Ingresos Familiares en el Departamento
de Lima

Fuente: Encuesta Nacional de Hogares (ENAHO) 2013. Solo se dibujan hogares con ingresos
inferiores a 250 mil soles anuales. Elaboración: Propia.

La figura 9.2 muestra esta relación entre la dispersión de los errores y la única variable
𝑋 en un modelo bivariado, siendo este gráfico análogo a la figura 1.2 del capítulo 1 pero
con heterocedasticidad.

En algunos modelos de series temporales la heterocedasticidad se presenta de una


manera distinta, en donde la variabilidad del error puede ser más grande en algunos
periodos de mayor inestabilidad económica, y más pequeña en periodos de calma. Tal
comportamiento se ha visto en la llamada “crisis financiera internacional” del año 2008,
en donde se vivió un periodo de alta inestabilidad (gran varianza) de las variables
económicas, seguido y precedido por un periodo de calma (menor varianza).

236
Figura 9.2
Heterocedasticidad

Densidad

X1
X2
X3

9.3.2 Detección de Heterocedasticidad

Existen numerosas pruebas estadísticas para detectar la existencia de heterocedasticidad.


En esta sección presentamos a dos de ellas: el test de White1 y el de Breusch-Pagan2.
Ambos parten de la idea de que la varianza de 𝑢𝑖 está en función de los regresores 𝑋.

 Test de White

Se parte de la idea que la heterocedasticidad está relacionada con las variables


explicativas del modelo, mediante una relación funcional

𝜎𝑖2 = 𝑓(𝑋2 , 𝑋3 , … , 𝑋𝑘 )

donde 𝑓(. ) es una función polinómica. Los pasos del test son:

Paso 1: Estimar por MCO el modelo 𝒚 = 𝑿𝜷 + 𝒖, calcular los residuos 𝑒𝑖 y 𝑒𝑖2 .

Paso 2: Estimar un modelo auxiliar tomando a 𝑒𝑖2 como endógena contra las
explicativas, sus cuadrados y productos cruzados. Por ejemplo, si es un modelo
donde las explicativas son 𝑋2𝑖 , 𝑋3𝑖 y la constante, la regresión auxiliar es

1
White, H. "A heteroskedasticity-consistent covariance matrix estimator and a direct test for
heteroskedasticity." Econometrica, 48, 1980, 817-838.
2
Breusch, T. S., and A. R. Pagan. 1979. A simple test for heteroscedasticity and random coefficient
variation. Econometrica 47: 1287-1294.

237
2 2
𝑒𝑖2 = 𝛼0 + 𝛼1 𝑋2𝑖 + 𝛼2 𝑋3𝑖 + 𝛼3 𝑋2 + 𝛼4 𝑋3 + 𝛼5 𝑋2 𝑋3 + 𝜀𝑖

Paso 3: La hipótesis nula de homocedasticidad es 𝐻0 : 𝛼1 = 𝛼2 = 𝛼3 = 𝛼4 = 𝛼5 = 0.


2 𝑎
Bajo esta hipótesis, el estadístico 𝑛 × 𝑅𝑎𝑢𝑥 ~ 𝜒 2 (𝑞), donde 𝑞 es igual a 5 en este
2 2
ejemplo y 𝑅𝑎𝑢𝑥 es el R-cuadrado de la regresión del paso 2. Si 𝑛 × 𝑅𝑎𝑢𝑥 es mayor
2
que el valor crítico definido por el percentil 𝜒1−𝛼 (𝑞) se rechaza la hipótesis nula de
homocedasticidad con α% de significancia.

Ejemplo 9.1: Deseamos estimar la relación entre el gasto en alimentos y el ingreso


familiar. Para ello contamos con datos de la Encuesta Nacional de Hogares del Perú del
año 2013, en donde usaremos los datos del Departamento de Lima (que incluye a Lima
Metropolitana y 9 provincias). Las variables obtenidas son: galim = gasto anual en
alimentos (en miles de nuevos soles), ingreso = ingreso total neto del hogar (en miles
de nuevos soles), ingreso2 = ingreso al cuadrado, miembros = número total de
miembros en el hogar, edad = edad promedio de los miembros del hogar, urbano =
variable dummy igual a 1 si el hogar vive en zonas urbanas y 0 si vive en zonas rurales,
costa = dummy igual a 1 si el hogar vive en la costa peruana (sin contar a Lima
Metropolitana), sierra = dummy igual a 1 si el hogar vive en la sierra peruana.

Como primer paso, estimamos el modelo para hogares con ingresos por debajo de 250
mil soles anuales (para evitar valores extremos de ingresos) y generamos
inmediatamente después a los residuos y residuos al cuadrado, a los que llamo ehat y
ehat2 respectivamente. Estos resultados se presentan en la tabla 9.1.

238
Tabla 9.1
Estimación MCO del modelo de gasto en alimentos
. reg galim ingreso ingreso2 miembros edad urbano costa sierra if ingreso<250

Source SS df MS Number of obs = 4072


F( 7, 4064) = 400.79
Model 41634.904 7 5947.84343 Prob > F = 0.0000
Residual 60310.2728 4064 14.8401262 R-squared = 0.4084
Adj R-squared = 0.4074
Total 101945.177 4071 25.0418022 Root MSE = 3.8523

galim Coef. Std. Err. t P>|t| [95% Conf. Interval]

ingreso .077327 .0050117 15.43 0.000 .0675013 .0871526


ingreso2 -.0002095 .0000266 -7.86 0.000 -.0002618 -.0001573
miembros .8534999 .0398614 21.41 0.000 .7753496 .9316502
edad -.0256213 .0042009 -6.10 0.000 -.0338573 -.0173853
urbano 1.062358 .2667515 3.98 0.000 .5393786 1.585337
costa -.7289174 .1668161 -4.37 0.000 -1.055968 -.4018664
sierra -1.732385 .3133782 -5.53 0.000 -2.346778 -1.117992
_cons 2.538324 .384054 6.61 0.000 1.785367 3.29128

. predict ehat, resid

. gen ehat2=ehat^2

Luego realizamos la regresión de los residuos al cuadrado del paso 2, lo que se muestra
en la tabla 9.2. En esta regresión auxiliar se incluirán a todas las variables de la
regresión, más el cuadrado de las continuas, y el producto cruzado de las continuas. En
el caso de las variables dummy, se incluyen además de ellas, el producto de las dummy
contra las continuas y el producto de rural contra costa, sierra y selva. El resultado de la
regresión auxiliar se presenta en la tabla 9.2, en donde por razones de espacio solo se
presenta la primera parte de la tabla.

El programa ha generado a las variables al cuadrado y los productos cruzados.3 En el


2
paso 3 calculamos 𝑛 × 𝑅𝑎𝑢𝑥 = 4072 ∗ 0.07908377 = 322.02912.4 El percentil
χ20.95 (29) es igual a 42.556968, y por lo tanto se rechaza la hipótesis nula de
homocedasticidad.5

Una forma alternativa y más rápida de realizar este test es efectuar el comando oficial
de Stata estat imtest, white, inmediatamente después de la regresión
principal. Los resultados son los mismos a lo obtenido manualmente.

3
El operador c. indica que las variables que se están multiplicando son continuas. Consúltese el manual
de Stata para más detalles sobre operadores factoriales.
4
Se puede escribir en Stata después de la regresión auxiliar, el comando display e(r2)*e(N) para
el cálculo del estadístico de White.
5
El valor crítico de la tabla Chi-cuadrado se puede obtener en Stata con la instrucción display
invchi2(29,0.95).

239
Tabla 9.2
Estimación MCO de la regresión auxiliar de residuos al cuadrado
. reg ehat2 ingreso ingreso2 miembros edad urbano costa sierra ///
> c.(ingreso ingreso2 miembros edad urbano costa sierra)#c.(ingreso ///
> ingreso2 miembros edad urbano costa sierra) if ingreso < 250
Source SS df MS Number of obs = 4072
F( 29, 4042) = 11.97
Model 309213.9 29 10662.5483 Prob > F = 0.0000
Residual 3600739.95 4042 890.831259 R-squared = 0.0791
Adj R-squared = 0.0725
Total 3909953.85 4071 960.440641 Root MSE = 29.847

ehat2 Coef. Std. Err. t P>|t| [95% Conf. Interval]

ingreso .4162054 .3256356 1.28 0.201 -.2222198 1.054631


ingreso2 -.0029836 .003735 -0.80 0.424 -.0103063 .0043391
miembros 1.626696 2.298955 0.71 0.479 -2.880521 6.133914
edad .1022035 .2809076 0.36 0.716 -.4485302 .6529372
urbano 3.398638 10.39871 0.33 0.744 -16.98856 23.78584
costa -6.606914 7.8504 -0.84 0.400 -21.99802 8.784196
sierra 1.626912 12.9457 0.13 0.900 -23.7538 27.00762

(El resto de la tabla ha sido omitida)

 Test Breusch Pagan/Godfrey

Se supone que 𝜎𝑖2 = ℎ(𝛼1 + 𝛼2 𝑤2 + ⋯ + 𝛼𝑝 𝑤𝑝 ) donde ℎ(. ) es una función, como


𝑒 𝛼1 +𝛼2 𝑤2 +⋯+𝛼𝑝 𝑤𝑝 , por ejemplo, y 𝑤1 , 𝑤2 , … . , 𝑤𝑝 son algunas variables conocidas
(podrían ser las mismas variables X, o algunas transformaciones de ellas como sus
inversas, logaritmos, etc.) Aunque la función ℎ(. ) sea desconocida, es posible probar
que este modelo puede ser transformado en una versión lineal.6

Los pasos del test son:

Paso 1: Estimar la ecuación principal 𝒚 = 𝑿𝜷 + 𝒖 y calcular los residuos y los residuos


al cuadrado. Calcular también 𝜎̂ 2 = 𝒆′ 𝒆/𝑛.

Paso 2: Regresionar 𝑒𝑖2 /𝜎̂ 2 contra 𝑤1 , 𝑤2 , … . , 𝑤𝑝 y calcular la SCE de la regresión


𝑒2
auxiliar. Esta es 𝜎̂𝑖2 = 𝛼0 + 𝛼1 𝑤1 + ⋯ + 𝛼𝑝 𝑤𝑝 + 𝑣𝑖 .

1 𝑎
Paso 3: Bajo la H0 de homocedasticidad 2 𝑆𝐶𝐸~𝜒 2 (𝑝). Si este estadístico es mayor a
2
𝜒1−𝛼 (𝑝) entonces se rechaza la hipótesis nula de homocedasticidad con 𝛼% de
significancia. Este procedimiento es válido para cualquier ℎ(. ), pero se debe de conocer
a las variables 𝑤𝑖 .

6
Véase Johnston y Dinardo (1997) para más detalles.

240
Ejemplo 9.2: Con los datos del ejemplo anterior, tomamos como variables 𝑤 a todas las
exógenas y regresionamos a los residuos al cuadrado divididos entre 𝜎̂ 2 contra estas
variables. Los resultados son

Tabla 9.3
Regresión auxiliar para el test de Breusch-Pagan
. qui reg galim ingreso ingreso2 miembros edad urbano costa sierra if ingreso<250

. predict ehat, resid

. gen ehat2=ehat^2

. gen e2=ehat2*e(N)/e(rss)

. reg e2 ingreso ingreso2 miembros edad urbano costa sierra if ingreso<250

Source SS df MS Number of obs = 4072


F( 7, 4064) = 42.17
Model 1207.03063 7 172.432947 Prob > F = 0.0000
Residual 16616.9453 4064 4.08881527 R-squared = 0.0677
Adj R-squared = 0.0661
Total 17823.9759 4071 4.37827951 Root MSE = 2.0221

e2 Coef. Std. Err. t P>|t| [95% Conf. Interval]

ingreso .009977 .0026307 3.79 0.000 .0048195 .0151345


ingreso2 4.07e-06 .000014 0.29 0.771 -.0000234 .0000315
miembros .1037471 .0209234 4.96 0.000 .0627257 .1447685
edad -.0044309 .0022051 -2.01 0.045 -.008754 -.0001078
urbano -.010684 .140019 -0.08 0.939 -.2851979 .2638298
costa -.2368462 .0875625 -2.70 0.007 -.4085166 -.0651758
sierra -.2799678 .1644935 -1.70 0.089 -.6024652 .0425296
_cons .423362 .2015915 2.10 0.036 .0281322 .8185918

. display 0.5*e(mss)
603.51532

Los resultados de la tabla 9.3 confirman que existe una fuerte relación entre los residuos
al cuadrado (estimador de la varianza 𝜎𝑖2 ) con el nivel de ingreso, el número de
1
miembros y con la región donde vive. Luego, 𝑆𝐶𝐸 = 603.51532, que es mayor al
2

valor crítico χ20.95 (7) = 14.06714 y por lo tanto se rechaza la hipótesis nula de
homocedasticidad. Este mismo procedimiento puede ser realizado directamente en Stata
mediante el comando estat hettest, rhs que se aplica inmediatamente después
de estimar la ecuación principal. 

9.3.3 Estimación de la matriz de varianzas y covarianzas

̂ de MCO es insesgado y consistente, entonces podemos trabajar con ese


Dado que 𝜷
estimador pero debemos corregir la estimación de la matriz de varianzas y covarianzas.
La matriz correcta viene dada por (9.2), pero requiere estimar a 𝑽. Si 𝑛 es muy grande,
White propone este estimador de la varianza consistente con heterocedasticidad:
241
𝑉𝑎𝑟 ̂ 𝑀𝐶𝑂 ) = (𝑿′ 𝑿)−1 𝑿′ 𝑽
̂ (𝜷 ̂ 𝑿(𝑿′ 𝑿)−1 (9.3)

̂ es una matriz diagonal que tienen en su diagonal principal a los residuos al


La matriz 𝐕
cuadrado de la estimación MCO del modelo.

𝑒12 0 … 0
̂= 0
𝑽 𝑒22 … 0
⋮ ⋮ ⋱ ⋮
[0 0 … 𝑒𝑛2 ]

Ejemplo 9.3: Estimando el modelo con la matriz de varianzas y covarianzas consistente


de White (9.3) se obtiene los resultados mostrados en la tabla 9.4.

Tabla 9.4
Estimación MCO con errores estándar robustos de White

. reg galim ingreso ingreso2 miembros edad urbano costa sierra if ingreso<250, robust

Linear regression Number of obs = 4072


F( 7, 4064) = 401.23
Prob > F = 0.0000
R-squared = 0.4084
Root MSE = 3.8523

Robust
galim Coef. Std. Err. t P>|t| [95% Conf. Interval]

ingreso .077327 .006035 12.81 0.000 .065495 .0891589


ingreso2 -.0002095 .0000376 -5.58 0.000 -.0002832 -.0001359
miembros .8534999 .0488376 17.48 0.000 .7577514 .9492485
edad -.0256213 .0038454 -6.66 0.000 -.0331604 -.0180823
urbano 1.062358 .218744 4.86 0.000 .6334997 1.491216
costa -.7289174 .1488613 -4.90 0.000 -1.020767 -.4370676
sierra -1.732385 .2509526 -6.90 0.000 -2.22439 -1.240381
_cons 2.538324 .3569431 7.11 0.000 1.83852 3.238128

Nótese que los coeficientes estimados son los mismos de la regresión MCO, pero
valores de las desviaciones estándar, los estadísticos 𝑡 y el estadístico 𝐹 de significancia
conjunta han cambiado, al ser ahora todos ellos consistentes con heterocedasticidad.

9.3.4 Estimación por Mínimos Cuadrados Generalizados

Supongamos que hemos encontrado que en nuestro modelo hay heterocedasticidad, y


por lo tanto la estimación MCO no es la más eficiente. Cabe preguntarse, ¿qué otro
estimador tendría menor varianza que MCO?

Para encontrar este estimador partimos de la idea de que los datos 𝑋 provocan el
fenómeno de heterocedasticidad. Luego, si transformamos adecuadamente los datos del

242
modelo podemos obtener un nuevo modelo que cumpla que tenga perturbaciones
esféricas.

Veamos este procedimiento con un ejemplo. Supongamos que tenemos el modelo


𝑌𝑖 = 𝛽1 + 𝛽2 𝑋2𝑖 + ⋯ + 𝛽𝑘 𝑋𝑘𝑖 + 𝑢𝑖 donde tenemos la certeza de que la variable 𝑋2 está
2
relacionada con la varianza de 𝑢𝑖 de la forma 𝑉𝑎𝑟(𝑢𝑖 ) = 𝜎 2 𝑋2𝑖 . Si dividimos todo el
modelo por 𝑋2𝑖 se obtiene un modelo transformado

𝑌𝑖 1 𝑋3𝑖 𝑋𝑘𝑖 𝑢𝑖
= 𝛽1 + 𝛽2 + 𝛽3 + ⋯ + 𝛽𝑘 +
𝑋2𝑖 𝑋2𝑖 𝑋2𝑖 𝑋2𝑖 𝑋2𝑖

𝑌𝑖∗ = 𝛽1 𝑋1∗ + 𝛽2 + 𝛽3 𝑋3∗ + ⋯ + 𝛽𝑘 𝑋𝑘∗ + 𝑢𝑖∗ (9.4)

𝑢 𝐸[𝑢𝑖 ] 𝑢
En este modelo, 𝐸[𝑢𝑖∗ ] = 𝐸 [𝑋 𝑖 ] = = 0, y también 𝑉𝑎𝑟(𝑢𝑖∗ ) = 𝑉𝑎𝑟 (𝑋 𝑖 ) =
2𝑖 𝑋2𝑖 2𝑖
2
1 𝜎2 𝑋2𝑖
2 𝑉𝑎𝑟(𝑢𝑖 ) = 2 = 𝜎 2 . Luego, el modelo transformado (9.3) es homocedástico y por
𝑋2𝑖 𝑋2𝑖

lo tanto la estimación MCO de este modelo entrega estimadores que cumplen el teorema
de Gauss-Markov.

En términos matriciales, (9.4) se consigue mediante una matriz transformadora 𝑷, la


cual en este ejemplo tiene esta forma:

1
0 … 0
𝑋21
1
𝑷= 0 … 0
𝑋22
⋮ ⋮ ⋱ ⋮
1
0 0 …
[ 𝑋2𝑛 ]

Así, al aplicar 𝑷 sobre las variables es equivalente a dividirlas por la variable 𝑋2.
Entonces, multiplicando el modelo matricial por 𝑷,

𝑷𝒚 = 𝑷𝑿𝜷 + 𝑷𝒖

𝒚∗ = 𝑿∗ 𝜷 + 𝒖∗ (9.5)

(9.5) es la versión matricial de (9.4) en donde 𝑉𝑎𝑟(𝒖∗ ) = 𝜎 2 𝑰, y cumple con todos los
supuestos del modelo de regresión lineal clásico. Por lo tanto, su estimador MCO es el

243
mejor estimador lineal e insesgado, de acuerdo con el teorema de Gauss-Markov. Este
estimador al que llamaremos de Mínimos Cuadrados Generalizados (MCG) es

̂ 𝑀𝐶𝐺 = (𝑿∗ ′ 𝑿∗ )−1 𝑿∗ ′ 𝒚∗ = (𝑿′ 𝑷′ 𝑷𝑿)−1 𝑿′ 𝑷′ 𝑷𝒚


𝜷 (9.6)

Existe una relación entre la matriz 𝑷 y la matriz 𝑽. Como 𝒖∗ = 𝑷𝒖, se puede


comprobar que

𝑉(𝒖∗ ) = 𝑷𝑉𝑎𝑟(𝒖)𝑷′ = 𝑷𝑽𝑷′

𝜎 2 𝑰 = 𝑷𝑽𝑷′

Premultiplicando por la inversa de 𝑷 y posmultiplicando por la inversa de 𝑷′ ,

𝜎 2 𝑷−𝟏 (𝑷′ )−1 = 𝑽

𝜎 2 (𝑷′ 𝑷)−1 = 𝑽

𝑷′ 𝑷 = 𝜎 2 𝑽−1

Reemplazando esta última expresión en (9.6),

̂ 𝑀𝐶𝐺 = (𝑿′ 𝑽−1 𝑿)−1 𝑿′ 𝑽−1 𝒚.


𝜷 (9.7)

Tanto (9.6) como (9.7) son expresiones numéricamente idénticas.

Mediante los mismos procedimientos de capítulos anteriores podemos encontrar que


̂ 𝑀𝐶𝐺 es insesgado y que la matriz de varianzas y covarianzas es7
𝜷

̂ 𝑀𝐶𝐺 ] = (𝑿′ 𝑽−1 𝑿)−1


𝑉𝑎𝑟[𝜷 (9.8)

̂ MCG es lineal, insesgado y su varianza es incluso menor que la varianza


El estimador 𝛃
de MCO de la ecuación (9.2). Lo que acabamos de mencionar es el Teorema de Aitken:
para el modelo de perturbaciones no esféricas, el estimador MCG es el de menor
varianza dentro de la clase de estimadores lineales e insesgados.

Si la matriz 𝑽 es conocida, tal como ocurre en el modelo (9.4), se puede aplicar (9.7)
para el cálculo de los estimadores y (9.8) para su matriz de varianzas y covarianzas. Por
el contrario, si 𝑽 es una matriz desconocida, en la práctica se suele asumir que 𝑽 posee
alguna estructura particular y se busca trabajar con alguna estimación consistente de
7
Se deja al lector estas demostraciones.

244
̂ . Utilizando a esta estimación en (9.7) tenemos al estimador
ella, digamos una matriz 𝑽
de MCG factible el cual es un estimador consistente de 𝜷.

̂ 𝑀𝐶𝐺𝐹 = (𝑿′ 𝑽
𝜷 ̂ −1 𝑿)−1 𝑿′ 𝑽
̂ −1 𝒚

9.4 Correlación Serial o Autocorrelación

Este fenómeno ocurre cuando la covarianza entre los términos de perturbación no es


cero sino

𝐶𝑜𝑣(𝑢𝑖 , 𝑢𝑗 |𝑿) ≠ 0 para algún i≠j (9.9)

o asumiendo que los regresores son fijos sería simplemente

𝐶𝑜𝑣(𝑢𝑖 , 𝑢𝑗 ) ≠ 0 para algún i≠j

La autocorrelación normalmente es frecuente en las series de tiempo, pero también


puede ocurrir en datos de corte transversal mediante la llamada “correlación espacial”.
No obstante, en este capítulo nos ocuparemos del caso de series de tiempo. Por tal razón
haremos un pequeño cambio en la notación, indizando cada observación con un
subíndice “𝑡” en lugar de “𝑖”.

9.4.1 Naturaleza de la Autocorrelación

¿Por qué ocurre la autocorrelación? Muchas de las series temporales mantienen


relaciones en el tiempo consigo mismas, en donde los valores presentes de una variable
se explican fuertemente por valores pasados de sí misma. Ante esta situación, es posible
que las perturbaciones también puedan estar relacionadas con perturbaciones pasadas.
Algunos ejemplos son:

 Un shock inesperado que afecta la economía durante varios periodos provoca


correlación entre las perturbaciones de periodos contiguos.
 La manipulación de los datos. Por ejemplo, no es igual trabajar con datos
macroeconómicos en unidades monetarias que en tasas de crecimiento. Estas
últimas involucran la transformación del modelo usando datos pasados, lo que
también transforma a la perturbación, relacionándola con el pasado. Más
adelante veremos un ejemplo sobre ello.

245
 La omisión de variables relevantes que tienen una fuerte inercia. Por ejemplo, si
los gustos y las preferencias se encuentran en el error, es posible que exista
correlación con errores de periodos pasados.
 La omisión de rezagos de la variable dependiente también puede provocar
autocorrelación, además de otros problemas de sesgo por mala especificación.
 La presencia de series no estacionarias. La estacionariedad es una propiedad que
se aplica a series cuyas propiedades estadísticas se mantienen invariables en el
tiempo (típicamente la media, la varianza y las autocovarianzas). Cuando las
series presentan patrones que cambian en el tiempo –como en el caso de las
tendencias–, las series no son estacionarias y las regresiones que las involucran
pueden presentar autocorrelación.

9.4.2 Modelos de autocorrelación

Se trata de modelar de qué manera se produce la autocorrelación de los errores. Se


reconocen dos familias de modelos: los que presentan una autocorrelación que persiste
durante muchísimos periodos (“memoria larga”), y los que presentan autocorrelación
que solo dura un número muy limitado de periodos (“memoria corta”).

Veamos dos modelos básicos:

 Modelo Autorregresivo de Primer Orden – 𝐴𝑅(1):

Consideremos un modelo con k variables en donde el término de perturbación presenta


correlación serial con la perturbación inmediatamente anterior,

𝑌𝑡 = 𝛽1 + 𝛽2 𝑋2𝑡 + ⋯ + 𝛽𝑘 𝑋𝑘𝑡 + 𝑢𝑡 (9.10)

𝑢𝑡 = 𝜙𝑢𝑡−1 + 𝜀𝑡 , |𝜙| < 1

En este modelo la perturbación 𝑢𝑡 se encuentra relacionada con la perturbación del


periodo 𝑢𝑡−1 a través del parámetro 𝜙. Tal relación no es perfecta pues se permite la
existencia de un nuevo ruido desconocido e imprevisible 𝜀𝑡 , donde se asume que
𝐸[𝜀𝑡 ] = 0, 𝑉𝑎𝑟[𝜀𝑡 ] = 𝜎𝜀2 y 𝐶𝑜𝑣(𝜀𝑡 , 𝜀𝑡−𝑠 ) = 0, ∀𝑠 ≠ 0. A 𝜀𝑡 se le conoce en la jerga
econométrica como ruido blanco. Llamemos a las autocovarianzas de 𝑢𝑡 con 𝑢𝑡−𝑠

246
como 𝛾𝑠 = 𝐶𝑜𝑣(𝑢𝑡 , 𝑢𝑡−𝑠 ) = 𝐸(𝑢𝑡 . 𝑢𝑡−𝑠 ). Si 𝜎 2 es la varianza de 𝑢𝑡 , es algebraicamente
sencillo calcular que las autocovarianzas en el caso 𝐴𝑅(1) son8

𝛾1 = 𝜙𝜎 2 𝛾2 = 𝜙 2 𝜎 2 … γs = ϕs σ2 s≥1

Las autocorrelación entre 𝑢𝑡 con 𝑢𝑡−𝑠 para todo 𝑠 > 1 es

𝐶𝑜𝑣(𝑢𝑡 , 𝑢𝑡−𝑠 ) 𝛾𝑠
𝜌𝑠 = =
√𝑉𝑎𝑟(𝑢𝑡 )√𝑉𝑎𝑟(𝑢𝑡−𝑠 ) 𝜎2

En la última expresión se ha asumido homocedasticidad al tener 𝑉𝑎𝑟(𝑢𝑡 ) = 𝑉𝑎𝑟(𝑢𝑡−𝑠 ).


Luego las correlaciones en el 𝐴𝑅(1) son (ver el apéndice),

𝛾 𝛾
𝜌1 = 𝜎12 = 𝜙 𝜌2 = 𝜎22 = 𝜙 2 … 𝜌𝑠 = 𝜙 𝑠 𝑠≥1

La matriz de varianzas y covarianzas de las perturbaciones del modelo (9.10) es

1 𝜙 𝜙2 … 𝜙 𝑛−1
𝜙 1 𝜙 … 𝜙 𝑛−2
2
𝑽=𝜎 𝜙2 𝜙 1 … 𝜙 𝑛−3 (9.11)
⋮ ⋮ ⋮ ⋱ ⋮
[𝜙 𝑛−1 𝜙 𝑛−2 𝜙 𝑛−3 … 1 ]

1
Se puede comprobar que 𝜎 2 = 𝜎𝜀2 1−𝜙2. Nótese que la matriz en (9.11) queda

plenamente identificada conociéndose a su único parámetro 𝜙. Obsérvese también que


al ser 𝜙 un parámetro menor que 1 en valor absoluto, en la matriz (9.11) las celdas que
se alejen de la diagonal principal tendrán valores absolutos cada vez más pequeños.

Existen otros modelos 𝐴𝑅 con más rezagos, como por ejemplo el 𝐴𝑅(2):

𝑢𝑡 = 𝜙1 𝑢𝑡−1 + 𝜙2 𝑢𝑡−2 + 𝜀𝑡

Se deja al lector que calcule las covarianzas en este caso.

 Modelo de Promedios Móviles – 𝑀𝐴(1):

Consideremos el modelo siguiente con un cambio en la estructura de autocorrelación de


los errores.

𝑌𝑡 = 𝛽1 + 𝛽2 𝑋2𝑡 + ⋯ + 𝛽𝑘 𝑋𝑘𝑡 + 𝑢𝑡

8
Véase el apéndice de este capítulo para el detalle de los cálculos.

247
𝑢𝑡 = 𝜀𝑡 + 𝜃𝜀𝑡−1

Nótese que el término de perturbación es una combinación lineal de dos ruidos blancos,
donde el parámetro 𝜃 es el peso del shock pasado sobre el futuro.

Calculando las varianzas, covarianzas tal como se hizo en el Ejemplo 9.6 encontramos
que9

𝑉𝑎𝑟(𝑢𝑡 ) = 𝜎 2 = (1 + 𝜃 2 )𝜎𝜀2

𝛾1 = 𝐶𝑜𝑣(𝑢𝑡 , 𝑢𝑡−1 ) = 𝜃𝜎2𝜀

𝛾𝑠 = 𝐶𝑜𝑣(𝑢𝑡 , 𝑢𝑡−𝑠 ) = 0

Las autocorrelaciones son 𝜌1 = 𝜃/(1 + 𝜃2 ), ρs = 0, ∀𝑠 ≥ 2. La matriz de varianzas


y covarianzas toma la forma:

𝜃
1 0 … 0
1+𝜃2
𝜃 𝜃
2
1 … 0
2 1+𝜃 1+𝜃2
𝑉𝑎𝑟(𝑢𝑡 ) = 𝜎 𝜃 (9.12)
0 1 … 0
1+𝜃2
⋮ ⋮ ⋮ ⋱ ⋮
[ 0 0 0 … 1]

 Modelos combinados – 𝐴𝑅𝑀𝐴:

Contienen como ponentes tanto 𝐴𝑅 como 𝑀𝐴. Por ejemplo, el modelo 𝐴𝑅𝑀𝐴(1,1) para
las perturbaciones sería

𝑢𝑡 = 𝜙𝑢𝑡−1 + 𝜀𝑡 + 𝜃𝜀𝑡−1

9.4.3 Detección de Autocorrelación

(a) Análisis Gráfico

Después de haber estimado un modelo por mínimos cuadrados ordinarios, la


observación de la serie de residuos puede dar algunos indicios acerca de la presencia de
correlación serial, dado que los residuos pueden ser considerados como una

9
Ver en el apéndice de este capítulo los cálculos completos.

248
aproximación a los términos de perturbación. Si esta serie 𝑒𝑡 graficada contra el tiempo
muestra algún patrón sinuoso, es muy probable que exista autocorrelación.

Complementariamente podemos calcular el correlograma muestral, que no es otra cosa


que el gráfico de las correlaciones muestrales de 𝑒𝑡 y 𝑒𝑡−𝑠 para diferentes valores de 𝑠.
Este gráfico debe ser comparado con el correlograma poblacional que son las
correlaciones de 𝑢𝑡 con respecto a 𝑢𝑡−𝑠 , para diferentes valores de 𝑠. Este último se
obtiene de las primeras filas de la matriz en (9.11) para el caso 𝐴𝑅(1) y (9.12) para el
𝑀𝐴(1). En la figura 9.3 se representan estos correlogramas de proceso 𝐴𝑅(1) y 𝑀𝐴(1)
para valores particulares de 𝜙 y 𝜃.

Figura 9.3
Correlogramas de procesos AR(1) y MA(1)

(b) El test de Durbin y Watson

249
Otra forma de detectar autocorrelación es mediante el clásico test de Durbin y Watson10.
Supongamos un modelo como (9.10) donde se sospecha que 𝑢𝑡 sigue un proceso
𝐴𝑅(1). Se plantea la hipótesis nula 𝐻0 : 𝜙 = 0 (no autocorrelación) y la hipótesis
alternativa 𝐻1 : 𝜙 ≠ 0. El test se basa en el cálculo del estadístico de Durbin-Watson
(𝐷𝑊) a partir de los residuos de la regresión del modelo estimado por MCO.

∑𝑛𝑡=2(𝑒𝑡 − 𝑒𝑡−1 )2
𝐷𝑊 = (9.13)
∑𝑛𝑡=1 𝑒𝑡2

Se puede comprobar que DW es aproximadamente11:

∑𝑛𝑡=2 𝑒𝑡 𝑒𝑡−1
𝐷𝑊 ≈ 2 (1 − ) = 2(1 − 𝜙̂) (9.13′ )
∑𝑛𝑡=1 𝑒𝑡2

En (9.13’), 𝜙̂ es aproximadamente el coeficiente estimado por MCO de la regresión sin


intercepto entre 𝑒𝑡 y 𝑒𝑡−1 . Observando (9.13’) podemos inferir que si 𝜙̂ ≈ 0, entonces el
estadístico 𝐷𝑊 toma valores alrededor de 2, indicando esto que no habría
autocorrelación. Si 𝜙̂ se acerca a 1, entonces 𝐷𝑊 se acerca a 0, habiendo entonces
autocorrelación positiva. Por el contrario, si 𝜙̂ se aproxima a -1, entonces 𝐷𝑊 se acerca
a 4, siendo una señal de la existencia de autocorrelación negativa.

El valor calculado de DW se compara con los valores críticos de las tablas de Durbin y
Watson, los cuales dependen del número de observaciones y del número de variables
del modelo. Los valores críticos vienen en parejas (𝑑𝐿 , 𝑑𝑈 ). En la figura 9.4 se
representa la toma de decisiones para el test de Durbin-Watson.

En el gráfico están claramente definidas las zonas de aceptación y rechazo de la


hipótesis. Obsérvese que hay dos zonas en donde el test no puede afirmar ni negar la
hipótesis, lo que es un problema, pues lo deseable es tener un test que siempre tenga una
respuesta.

10
Durbin, J., and G. S. Watson. 1950. Testing for serial correlation in least squares regression. I.
Biometrika 37: 409–428. Durbin, J., and G. S. Watson. 1951. Testing for serial correlation in least
squares regression. II. Biometrika 38: 159–177.
∑𝑛 2 𝑛 2 𝑛
𝑡=2 𝑒𝑡 +∑𝑡=2 𝑒𝑡−1 −2 ∑𝑡=2 𝑒𝑡 𝑒𝑡−1 ∑𝑛
𝑡=2 𝑒𝑡 𝑒𝑡−1
11
Resolviendo el numerador se tiene 𝐷𝑊 = ∑𝑛 2 ≈2−2 ∑𝑛 2 .
𝑡=1 𝑒𝑡 𝑡=1 𝑒𝑡

250
Figura 9.4
Valores críticos del test de Durbin- Watson

Autocorrelación No autocorrelación Autocorrelación


Positiva Negativa

dL dU 4 - dU 4 – dL

Zonas de
indeterminación

El test de Durbin-Watson tiene algunos otros problemas que es bueno mencionar. En


primer lugar, el test no es válido si hay variables endógenas en el lado derecho de las
ecuaciones, pues el test se construyó asumiendo que las variables del lado derecho de la
ecuación son exógenas. Otra gran dificultad de este test es que solo prueba
autocorrelación del tipo 𝐴𝑅(1), pero podría fallar para probar hipótesis de
autocorrelación de orden superior o del tipo 𝑀𝐴. Por ejemplo, en los modelos de series
temporales, mensuales o trimestrales es muy frecuente que exista correlación serial de
orden 4 o 12, lo cual podría no ser capturado por este test.

(c) El test de Breusch-Godfrey12

El test Breusch-Godfrey es un test más general que el test Durbin-Watson, que permite
probar si existe autocorrelación de cualquier orden. Adicionalmente, se permite que el
modelo incluya variables endógenas rezagadas en la ecuación principal y auxiliar. Otra
ventaja es que no tiene zonas de indeterminación como el test de Durbin-Watson.

La hipótesis nula del test es 𝐻0 : No autocorrelación; la hipótesis alternativa es 𝐻1 :


Autocorrelación 𝐴𝑅(𝑞) en los errores. Los pasos del test son:

Paso 1: Estimar el modelo 𝒚 = 𝑿𝜷 + 𝒖 por MCO ignorando el problema de


autocorrelación y calcular los residuos.

Paso 2: Hacer una regresión de los residuos de MCO contra sus valores
rezagados “𝑞” periodos atrás, y contra las variables en 𝑿 sin intercepto.

𝑒𝑡 = 𝜙1 𝑒𝑡−1 + 𝜙2 𝑒𝑡−2 + ⋯ + 𝜙𝑞 𝑒𝑡−𝑞 + 𝛼2 𝑋2𝑡 + ⋯ + 𝛼𝑘 𝑋𝑘𝑡 + 𝜀𝑡

12
Breusch (1978) y Godfrey (1978).

251
2
Paso 3: Calcular (𝑁 − 𝑞) × 𝑅𝑎𝑢𝑥 donde R2aux es el R-cuadrado del paso 2 y N es
el número total de observaciones del paso 1. Este estadístico se distribuye
asintóticamente como una Chi-cuadrado con 𝑞 grados de libertad.

2 2
Paso 4: Si (𝑁 − 𝑞) × 𝑅𝑎𝑢𝑥 > 𝜒1−𝛼 (𝑞) se rechaza la hipótesis nula de no
autocorrelación.

Aunque el test es muy conveniente, debe notarse que es un test válido asintóticamente.
En muestras pequeñas, la inferencia puede ser errónea. Por otro lado, es un test de
significancia conjunta pues su hipótesis nula es 𝐻0 : 𝜙1 = 0, 𝜙2 = 0, … , 𝜙𝑞 = 0. Podría
no ser capaz de distinguir exactamente qué 𝜙 es distinto de cero.

En el paso 2 del test, Davidson y MacKinnon (1993) observaron que debido a que se
regresiona a los residuos contra valores rezagados se pierden las observaciones iniciales
tanto de 𝑒𝑡 como de las variables explicativas 𝑋𝑡 incluidas, provocando que 𝑒𝑡 y 𝑋𝑡
dejen de ser ortogonales. Esta correlación elevará el R-cuadrado de la regresión auxiliar
haciendo que el test tienda a sobrerechazar la hipótesis nula. Como corrección,
Davidson y MacKinnon sugieren completar con ceros los valores faltantes de los
rezagos de 𝑒𝑡 en el paso 2.

Ejemplo 9.4: Estimación de la función consumo con datos de Perú

Estimamos la función consumo con información anual de Perú desde 1950 hasta 2013,
con datos publicados por el Banco Central de Reserva del Perú. Estos datos ya fueron
estudiados en el ejemplo 6.8. Llamando Consumo al Consumo Privado y PIB al
producto interno bruto, estimamos por mínimos cuadrados ordinarios, obteniendo la
tabla 9.5.

252
Tabla 9.5
Estimación de la Función Consumo
. reg Consumo PIB

Source SS df MS Number of obs = 64


F( 1, 62) = 8187.39
Model 2.0872e+11 1 2.0872e+11 Prob > F = 0.0000
Residual 1.5806e+09 62 25492800.4 R-squared = 0.9925
Adj R-squared = 0.9924
Total 2.1030e+11 63 3.3381e+09 Root MSE = 5049

Consumo Coef. Std. Err. t P>|t| [95% Conf. Interval]

PIB .5875123 .006493 90.48 0.000 .574533 .6004916


_cons 11680.46 1275.948 9.15 0.000 9129.875 14231.04

. predict residuo, resid

. estat dwatson

Durbin-Watson d-statistic( 2, 64) = .2316678

Figura 9.5
Residuos Estandarizados

En la figura 9.5 tenemos el gráfico de los residuos estandarizados contra el tiempo. Se


observa un claro patrón oscilante en estos residuos, lo cual es una característica típica de
los residuos con fuerte autocorrelación. Con los mismos residuos, calculamos el
correlograma muestral, usando fórmulas empíricas de las autocorrelaciones, el cual
mostramos en la figura 9.6. Este correlograma muestra un patrón declinante suave, lo
cual podría ser resultado de un proceso como 𝐴𝑅(1), aunque podría ser también un
modelo 𝐴𝑅(2) debido a que el correlograma cruza el eje horizontal describiendo una
onda larga.

253
Figura 9.6
Correlaciones de los Residuos MCO con su Pasado

En la tabla 9.6 también se presenta el cálculo del estadístico de Durbin y Watson a estos
residuos. Los valores críticos de Durbin y Watson13 son: 𝑑𝐿 = 1.567 y 𝑑𝑈 = 1.629,
luego el estadístico cae en la zona de autocorrelación positiva.

Haremos la prueba de Breusch-Godfrey, para 2 rezagos. En la tabla 9.6 se presenta la


regresión del paso 2 de este test.

Tabla 9.6
Regresión auxiliar de residuos contra residuos rezagados

. regress residuo L(1/2). residuo PIB

Source SS df MS Number of obs = 62


F( 3, 58) = 73.11
Model 1.2086e+09 3 402877333 Prob > F = 0.0000
Residual 319612363 58 5510557.98 R-squared = 0.7909
Adj R-squared = 0.7800
Total 1.5282e+09 61 25053186.2 Root MSE = 2347.5

residuo Coef. Std. Err. t P>|t| [95% Conf. Interval]

residuo
L1. 1.097189 .1271854 8.63 0.000 .8425996 1.351778
L2. -.2476425 .1260097 -1.97 0.054 -.4998784 .0045933

PIB -.0009839 .0031084 -0.32 0.753 -.0072061 .0052383


_cons 208.4959 620.4247 0.34 0.738 -1033.419 1450.411

2 2 (2)
El valor (𝑁 − 𝑞) × 𝑅𝑎𝑢𝑥 es igual a 49.0358, que es mayor al percentil 𝜒0.95 =
5.9915, y por lo tanto se rechaza la hipótesis de no autocorrelación en favor de

13
Obtenidos de Gujarati y Porter (2010) para el caso 𝑛 = 65.

254
autocorrelación de orden 2. Se pueden calcular el estadístico de Breusch-Godfrey
utilizando la corrección de Davidson y MacKinnon en STATA, mediante el comando
bgodfrey, el cual por defecto entrega esta aproximación.

Tabla 9.7
Test de Breusch-Godfrey con aproximación de Davidson y MacKinnon

. bgodfrey, lag(2)

Breusch-Godfrey LM test for autocorrelation

lags(p) chi2 df Prob > chi2

2 49.676 2 0.0000

H0: no serial correlation

. bgodfrey, lag(2) nomiss0

Breusch-Godfrey LM test for autocorrelation

lags(p) chi2 df Prob > chi2

2 49.034 2 0.0000

H0: no serial correlation

En la tabla 9.7, el valor del test es ligeramente más alto que el resultado calculado
manualmente. El comando bgodfrey también puede mostrar los resultados sin la
corrección de Davidson y MacKinnon, especificando la opción nomiss0. En tal caso
coincide con el cálculo manual.

9.4.4 Estimación del modelo en presencia de autocorrelación

Como se mencionó en la sección 9.4.1, una de las razones por las que se presenta la
correlación serial en los errores es la mala especificación de los modelos, especialmente
cuando no se ha tomado en cuenta que hay endógenas rezagadas omitidas. Naturalmente
podríamos pensar en “corregir” el problema cambiando la especificación del modelo
agregando variables endógenas rezagadas en el lado derecho de la ecuación,
especificando un modelo autorregresivo 𝑌𝑡 = 𝛽1 + 𝛽2 𝑌𝑡−1 + 𝛽3 𝑋𝑡 + 𝑢𝑡 . Luego de este
cambio se puede aplicar el test de Breusch-Godfrey y observar si persiste la
autocorrelación. De ser necesario se debe agregar más rezados. De esta manera
podríamos resolver el problema de autocorrelación y evitar el sesgo por omisión de
variables relevantes.

255
Si la autocorrelación no se origina por la omisión de variables endógenas rezagadas,
podríamos intentar estimar el modelo por MCG o por MCO con la corrección en la
matriz de varianzas y covarianzas. En forma similar a lo hecho en la sección sobre
heterocedasticidad, vamos a explorar estas dos alternativas.

(a) Alternativa 1: Estimación de 𝜷 por MCG

En este caso, todo dependerá de cómo se define a la matriz 𝑽. Si conjeturamos que el


proceso autorregresivo de los errores es del tipo 𝐴𝑅(1) 𝑢𝑡 = 𝜙𝑢𝑡−1 + 𝜀𝑡 ,
𝜀𝑡 ~𝑖. 𝑖. 𝑑(0, 𝜎𝜀2 ), la matriz de varianzas y covarianzas es la (9.11). Esta matriz tiene la
forma 𝑽 = 𝜎 2 𝛀, donde la matriz 𝜴 depende solo de 𝜙. Recordar que 𝑽 = 𝜎 2 (𝐏 ′ 𝐏)−1 .
Entonces podemos obtener a la matriz de transformación 𝑷 que garantiza que 𝑷′ 𝑷 =
𝜴−1 en (9.6), siendo esta matriz

√1 − 𝜙 2 0 0 … 0 0
−𝜙 1 0 … 0 0
𝑷= 0 −𝜙 1 … 0 0.
⋮ ⋮ ⋮ … ⋮ ⋮
[ 0 0 0 … −𝜙 1]

A esta matriz se le conoce como la matriz de transformación de Prais-Winsten14 por la


corrección √1 − 𝜙 2 que se hace en la primera observación. Luego, para un modelo
como

𝑦𝑡 = 𝛽1 + 𝛽2 𝑋𝑡 + 𝑢𝑡

𝑢𝑡 = 𝜙𝑢𝑡−1 + 𝜀𝑡

El modelo transformado en 𝑡 = 1 es:

√1 − 𝜙 2 𝑦𝑡 = √1 − 𝜙 2 𝛽1 + √1 − 𝜙 2 𝛽2 𝑋𝑡 + 𝑢𝑡

Y a partir de 𝑡 = 2 en adelante es:

𝑦𝑡 − 𝜙𝑦𝑡−1 = 𝛽1 (1 − 𝜙) + 𝛽2 (𝑋𝑡 − 𝜙𝑋𝑡−1 ) + 𝜀𝑡

14
Cochrane, D., y G. H. Orcutt. 1949. Application of least squares regression to relationships containing
auto-correlated error terms. Journal of the American Statistical Association 44: 32–61. Prais, S. J., y C. B.
Winsten. 1954. Trend estimators and serial correlation. Working paper 383, Cowles Commission.
http://cowles.econ.yale.edu/P/ccdp/st/s-0383.pdf.

256
Al igual que en el caso de heterocedasticidad, la efectividad de este enfoque recae en la
veracidad de la conjetura hecha sobre la estructura de autocorrelación.

(b) Alternativa 2: Estimación por MCO con corrección en la matriz de var-cov.

Podemos estimar por MCO al modelo y buscar alguna alternativa de estimación de la


matriz de varianzas y covarianzas que sea consistente con autocorrelación, para poder
estimar a (9.2). En ese sentido, Newey y West (1987)15 proponen un estimador de las
varianzas y covarianzas que –además de ser consistente con heterocedasticidad como el
de White–, también es consistente con autocorrelación.

El estimador de la matriz 𝑽 es

𝛾̂0 𝛾̂1 𝛾̂2 … 𝛾̂𝑛−1


𝛾̂1 𝛾̂0 𝛾̂1 … 𝛾̂𝑛−2
̂
𝑽 = 𝛾̂2 𝛾̂1 𝛾̂0 … 𝛾̂𝑛−3 (9.14)
⋮ ⋮ ⋮ ⋱ ⋮
[𝛾̂𝑛−1 𝛾̂𝑛−2 𝛾̂𝑛−3 … 𝛾̂0 ]

𝑗 1
donde 𝛾̂𝑗 = (1 − 𝑞+1) 𝑛 ∑𝑛𝑡=𝑗+1 𝑒𝑡 𝑒𝑡−𝑗 si 0 ≤ 𝑗 ≤ 𝑞 y 𝛾̂𝑗 = 0 si 𝑗 > 𝑞, donde 𝑞 son los

rezagos que se están utilizando en la estimación, y 𝑒𝑡 son los residuos MCO. Luego, la
matriz de varianzas y covarianzas del estimador MCO consistentes con autocorrelación
es:

̂ (𝜷
𝐴𝑉𝑎𝑟 ̂ 𝑴𝑪𝑶 ) = (𝑿′ 𝑿)−𝟏 𝑿′ 𝑽
̂ 𝑿(𝑿′ 𝑿)−1 (9.15)

Ejemplo 9.5: Continuando con el modelo del ejemplo 9.4, en la tabla 9.8 estimamos el
modelo por MCO con los errores estándar corregidos de Newey-West para un rezago. 

15
Newey, W. K., and K. D. West. 1987. A simple, positive semi-definite, heteroskedasticity and
autocorrelation consistent covariance matrix. Econometrica 55: 703–708.

257
Tabla 9.8
Estimación MCO con errores estándar de Newey-West

. newey Consumo PIB, lag(1)

Regression with Newey-West standard errors Number of obs = 64


maximum lag: 1 F( 1, 62) = 6088.87
Prob > F = 0.0000

Newey-West
Consumo Coef. Std. Err. t P>|t| [95% Conf. Interval]

PIB .5875123 .0075292 78.03 0.000 .5724616 .6025629


_cons 11680.46 1530.303 7.63 0.000 8621.427 14739.49

258
Apéndice 9.1

El proceso autorregresivo de primer orden AR(1)

Calculamos las covarianzas y correlaciones de ut contra valores pasados.

2 ]
𝛾1 = 𝐶𝑜𝑣(𝑢𝑡 , 𝑢𝑡−1 ) = 𝐸[𝑢𝑡 . 𝑢𝑡−1 ] = 𝐸[(𝜙𝑢𝑡−1 + 𝜀𝑡 ). 𝑢𝑡−1 ] = 𝜙𝐸[𝑢𝑡−1 + 𝐸[𝜀𝑡 . 𝑢𝑡−1 ] = 𝜙𝛾0

𝛾
Luego la correlación es 𝜌1 = 𝛾1 = 𝜙.
0

𝛾2 = 𝐶𝑜𝑣(𝑢𝑡 , 𝑢𝑡−2 ) = 𝐸[𝑢𝑡 . 𝑢𝑡−2 ] = 𝐸[(𝜙𝑢𝑡−1 + 𝜀𝑡 ). 𝑢𝑡−2 ] = 𝜙𝐸[𝑢𝑡−1 . 𝑢𝑡−2 ] + 𝐸[𝜀𝑡 . 𝑢𝑡−2 ]
= 𝜙𝛾1 = 𝜙(𝜙𝛾0 ) = 𝜙 2 𝛾0

𝛾
Luego la correlación es 𝜌2 = 𝛾2 = 𝜙2 . Generalizando, 𝛾𝑠 = 𝜙 𝑠 𝛾0 y 𝜌𝑠 = 𝜙𝑠 𝑠 ≥ 1.
0

Apéndice 9.2

El proceso de promedios móviles de primer orden MA(1)

El término de perturbación es una combinación lineal de dos ruidos blancos

𝑢𝑡 = 𝜀𝑡 + 𝜃𝜀𝑡−1

Calculamos las varianzas y covarianzas:

𝑉𝑎𝑟(𝑢𝑡 ) = 𝑉𝑎𝑟(𝜀𝑡 + 𝜃𝜀𝑡−1 ) = 𝑉𝑎𝑟(𝜀𝑡 ) + 𝜃2 𝑉𝑎𝑟(𝜀𝑡−1 ) + 2𝜃𝐶𝑜𝑣(𝜀𝑡 𝜀𝑡−1 )

= 𝜎𝜀2 + 𝜃 2 𝜎𝜀2 + 0 = (1 + 𝜃 2 )𝜎𝜀2 = 𝜎 2

Calculamos las covarianzas y correlaciones de ut contra valores pasados.

𝛾1 = 𝐶𝑜𝑣(𝑢𝑡 , 𝑢𝑡 ) = 𝐸[(𝜀𝑡 + 𝜃𝜀𝑡−1 )(𝜀𝑡−1 + 𝜃𝜀𝑡−2 )]

= 𝐸[(𝜀𝑡 𝜀𝑡−1 + 𝜃𝜀2𝑡−1 + 𝜃𝜀𝑡 𝜀𝑡−2 + 𝜃2 𝜀𝑡−1 𝜀𝑡−2 )]

= 𝐸[𝜀𝑡 𝜀𝑡−1 ] + 𝜃𝐸[𝜀2𝑡−1 ] + 𝜃𝐸[𝜀𝑡 𝜀𝑡−2 ] + 𝜃2 𝐸[𝜀𝑡−1 𝜀𝑡−2 ] = 𝜃𝜎2𝜀

𝜃
Luego la correlación es 𝜌1 = 1+𝜃2 .

𝛾2 = 𝐶𝑜𝑣(𝑢𝑡 , 𝑢𝑡−2 ) = 𝐸[(𝜀𝑡 + 𝜃𝜀𝑡−1 )(𝜀𝑡−2 + 𝜃𝜀𝑡−3 )] = 0

259
𝐶𝑜𝑣(𝑢𝑡 , 𝑢𝑡−2 )
𝜌2 = =0
𝑉𝑎𝑟(𝑢𝑡 )

Para otras covarianzas, todas serán cero

𝛾𝑠 = 𝐶𝑜𝑣(𝑢𝑡 , 𝑢𝑡−𝑠 ) = 0 ∀𝑠 ≥ 2

La matriz de varianzas y covarianzas toma la forma:

𝜃
1 0 … 0
1 + 𝜃2
𝜃 𝜃
2 1 … 0
𝑉𝑎𝑟(𝒖) = 1 + 𝜃 1 + 𝜃2
𝜃
0 1 … 0
1 + 𝜃2
⋮ ⋮ ⋮ ⋱ ⋮
[ 0 0 0 … 1]

260
Ejercicios

̂ 𝑀𝐶𝐺 =
9.1 Se definen a los residuos del modelo transformado como 𝒆∗ = 𝒚∗ − 𝑿∗ 𝜷
̂ 𝑀𝐶𝐺 ). La sumatoria de cuadrados de los residuos del modelo
𝑷(𝒚 − 𝑿𝜷
transformado es

′ ′
̂ 𝑀𝐶𝐺 ) 𝑷′ 𝑷(𝒚 − 𝑿𝜷
𝒆∗ ′ 𝒆∗ = (𝒚 − 𝑿𝜷 ̂ 𝑀𝐶𝐺 ) = (𝒚 − 𝑿𝜷
̂ 𝑀𝐶𝐺 ) 𝜴−1 (𝒚 − 𝑿𝜷
̂ 𝑀𝐶𝐺 )

Minimice esta sumatoria de cuadrados de los residuos y obtenga el estimador


MCG. Asimismo, a partir del proceso de minimización, comente algunas de las
propiedades numéricas del estimador MCG, en el mismo sentido que las
propiedades numéricas del estimador MCO en el caso esférico.

9.2 Derive el estadístico 𝑡 y el estadístico 𝐹 para el caso de perturbaciones no esféricas,


a partir del modelo transformado.

̂ = (𝑿′ 𝑿)−1 𝑿′ 𝒚 es consistente aun si las


9.3 Demuestre que el estimador de MCO 𝜷
perturbaciones no son esféricas.

9.4 Suponga que estima un modelo de regresión lineal por Mínimos Cuadrados
Ordinarios, y que el valor del estadístico Durbin-Watson es de 0.5976. Además
𝑛 = 100 y 𝑘 = 6. ¿Qué podemos concluir acerca de la presencia de
autocorrelación?

9.5 Considere el modelo lineal sin término constante:

𝑌𝑖 = 𝛽𝑋𝑖 + 𝑢𝑖 𝐸[𝑢𝑖2 ] = 𝜎𝑖2 𝐸[𝑢𝑖 ] = 0

a. Calcule la varianza del estimador MCO de 𝛽.


b. Supongamos que todos los 𝜎𝑖2 son conocidos, ¿Qué transformación haría al
modelo para que sea uno de perturbaciones esféricas? Calcule la fórmula del
estimador MCG, en términos de las 𝜎𝑖2 .
̂ 𝑀𝐶𝐺 ) ≤ 𝑉𝑎𝑟(𝜷
c. Compruebe que 𝑉𝑎𝑟(𝜷 ̂ 𝑀𝐶𝑂 ).
d. Si suponemos que las varianzas aumentan de acuerdo a una constante
multiplicativa de forma que 𝑉𝑎𝑟[𝑢𝑖 ] = 𝜎 2 𝑧𝑖2 siendo 𝑧𝑖 conocido, obtener el
estimador de Mínimos Cuadrados Ponderados y su varianza ¿Cómo se compara
la eficiencia de uno y otro estimador? (PD8-95/1)

261
9.6 Dado un modelo de regresión de dos variables, en donde se sabe que los residuos
siguen un modelo AR(1), obtenga la expresión correcta de la varianza del estimado
MCO de la pendiente.

9.7 Supongamos queremos estimar la relación entre el crecimiento de la economía y el


crecimiento del empleo, partiendo de la ecuación de demanda de trabajo

𝐿𝑡 = 𝑐𝑌𝑡𝛼 𝑒 𝜀𝑡

𝐿𝑡 es la población económicamente activa en el periodo t, 𝑌𝑡 es la producción


nacional en t, 𝜀𝑡 es una perturbación esférica de media cero y varianza 𝜎𝜀2 y no
correlacionada con ninguna otra variable o perturbación pasada ni futura. Las
constantes 𝑐 y 𝛼 son parámetros, siendo este último la elasticidad empleo-producto.
Tomando logaritmo a esta ecuación se obtiene

𝑙𝑛𝐿𝑡 = 𝑙𝑛𝑐 + 𝛼𝑙𝑛𝑌𝑡 + 𝜀𝑡

Mostrar que el modelo en primeras diferencias 𝐿̇𝑡 = 𝛼𝑌𝑡̇ + 𝑢𝑡 , donde 𝐿𝑡̇ ≡ 𝑙𝑛𝐿𝑡 −
𝑙𝑛𝐿𝑡−1 y Ẏ𝑡 ≡ lnYt − lnYt−1 presenta autocorrelación del tipo 𝑀𝐴(1) en su
perturbación 𝑢𝑡 .

9.8 Pruebe en cada caso la presencia de autocorrelación (los números entre paréntesis
son las desviaciones estándar)

𝑌𝑡 = 0.3 + 1.21𝑋𝑡 𝐷𝑊 = 1.31 𝑛 = 24


(0.1) (0.2)

𝑌𝑡 = 1.3 + 0.97 𝑌𝑡−1 + 2.31 𝑋𝑡 𝐷𝑊 = 1.21 𝑛 = 21


(0.3) (0.18) (1.04)

9.9 Dado el modelo 𝒚 = 𝑿𝜷 + 𝒖, con 𝑉𝑎𝑟(𝒖) = 𝜎 2 𝑰. Algunos investigadores deciden


transformar el modelo dividiendo todas las variables (incluida la endógena) entre
una de las exógenas (digamos 𝑋𝑗 ).

a. Demostrar que las perturbaciones aleatorias del modelo transformado son


heterocedásticas.

b. Demostrar que aplicando MCG al modelo heterocedástico se obtiene el


mismo resultado que aplicar MCO al modelo original (homocedástico).

262
9.10 Se estima el modelo 𝑌𝑖 = 𝛽0 + 𝛽1 𝑋1𝑖 + 𝛽2 𝑋2𝑖 + 𝑢𝑖 con una muestra de 16
observaciones pero se sospecha que la variable 𝑋2𝑖 puede ocasionar
heterocedasticidad. Entonces se reordena la muestra respecto a 𝑋2𝑖 y se hacen dos
regresiones con los siguientes resultados.

𝑌̂𝑖 = −0.4 + 0.1 𝑋1𝑖 + 0.16 𝑋2𝑖


(0.08) (1.60)

(0.08) (1.6)
Muestra = 1 − 7 SCE = 4.785 r 2 = 0.55

̂i = 6.4 + 0.05 X1i + 0.11 X2i


Y
(1.92) (6.41)

Muestra = 10 − 16 SCE = 535.58 r 2 = 0.92

Los números entre paréntesis son los estadísticos 𝑡. Detecte la presencia o no de


heterocedasticidad a causa de 𝑋2 mediante el test de Goldfeld y Quandt16. Según
este procedimiento, asumiendo que una de las variables 𝑋 de la regresión ocasiona
heterocedasticidad, se reordena la muestra en orden ascendente según esta variable
𝑋, luego se divide la muestra en tres partes excluyéndose “c” observaciones
centrales (en este ejemplo se han excluido a 2 observaciones). Luego se estima el
modelo por MCO para el primer y tercer grupo. Finalmente se calcula el coeficiente

𝑆𝐶𝑅3
𝑔. 𝑙.
𝑅=
𝑆𝐶𝑅1
𝑔. 𝑙.

Donde los grados de libertad g. l. = (n − c − 2k)/2. Bajo la hipótesis nula de


homocedasticidad R se distribuye como una F-Fisher, con 𝑔. 𝑙. grados de libertad en
el numerador y en el denominador.

9.11 Encontrar la matriz de varianzas-covarianas de los términos de perturbación 𝑢𝑡 y la


función de autocorrelacion de dicha serie 𝑢𝑡 cuando los términos de perturbación
siguen un esquema 𝐴𝑅(2): 𝑢𝑡 = 𝜌1 𝑢𝑡−1 + 𝜌2 𝑢𝑡−2 + 𝜀𝑡 .

9.12 Se tiene el siguiente modelo econométrico:

𝑌𝑡 = 𝛽1 + 𝛽2 𝑋𝑡 + 𝛽3 𝑌𝑡−1 + 𝑢𝑡 (1)

16
Goldfeld y Quandt (1965).

263
𝑢𝑡 = 𝜀𝑡 + 𝜃𝜀𝑡−1 , (2)
donde 𝜀𝑡 es un ruido blanco y ut tiene varianza constante. Además 𝐶𝑜𝑣(𝑋𝑡 , 𝑢𝑡 ) =
0.

a. Calcule la 𝐶𝑜𝑣(𝑌𝑡−1 , 𝑢𝑡 ).
b. ¿Qué problemas existirían si se estimara la ecuación (1) por MCO?
c. ¿Qué método de estimación se podría emplear en vez de MCO para estimar la
ecuación ? ¿Por qué? F-2008/1)
9.13 Supongamos que los términos de perturbación siguen un proceso 𝐴𝑅𝑀𝐴(1,1)

𝑢𝑡 = 𝜙𝑢𝑡−1 + 𝜀𝑡 + 𝜃𝜀𝑡−1,

a. Obtenga el correlograma.
b. Dibuje el correlograma para los valores 𝜙 = 0.4 y 𝜃 = −0.9.
9.14 Usted desea estimar el efecto de la educación sobre los ingresos, y para ello cuenta
con información de una encuesta reciente realizada por el INEI en las 25 regiones
del país, en donde en cada región j se obtuvo una muestra aleatoria de 𝑛𝑗
individuos. Usted plantea un modelo que utiliza datos a nivel nacional de esta
forma:

𝑌𝑖𝑗 = 𝛽1 + 𝛽2 𝑋𝑖𝑗 + 𝑢𝑖𝑗 𝑖 = 1, … , 𝑛𝑗 𝑗 = 1, … ,25

en donde el número de observaciones es 𝑛 = ∑25


𝑗=1 𝑛𝑗 , y donde 𝑌𝑖𝑗 representa al

salario que recibe un individuo 𝑖 en la región j, 𝑋𝑖𝑗 son los años de educación del
mismo individuo 𝑖 que vive en la región 𝑗, y 𝑢𝑖𝑗 es el término de perturbación que
tiene media cero y varianza constante para todo 𝑖, 𝑗. Además, se cumplen todos los
demás supuestos del modelo clásico.

El INEI no le entrega toda la base de datos sino los promedios por región de las
1 𝑛 1 𝑛
variables salario y educación, es decir ∑ 𝑗 𝑌 = 𝑌̅𝑗 , ∑ 𝑗 𝑋 = 𝑋̅𝑗 , teniendo
𝑛 𝑖=1 𝑖𝑗 𝑛 𝑖=1 𝑖𝑗

entonces solamente 25 observaciones (una por cada región). Con esta escasez de
información usted pretende estimar el modelo agregado:

𝑌̅𝑗 = 𝛽1 + 𝛽2 𝑋̅𝑗 + 𝑢̅𝑗 𝑗 = 1, … ,25

264
1𝑗 𝑛
donde 𝑢̅𝑗 = (𝑛 ) ∑𝑖=1 𝑢𝑖𝑗 . Diga si este modelo es homocedástico. En caso que no
𝑗

calcule las varianzas y la matriz de varianzas y covarianzas. ¿Cuál sería un


estimador apropiado para este caso? Descríbalo. (EF-2011/2)

9.15 La siguiente tabla muestra información anual sobre el índice de empleo urbano en
empresas de 10 a más trabajadores y el PBI real en soles de 1994, desde 1997 hasta
el año 2011.

PBI (Mills.
Ind. Empleo Soles de
Urbano 1994) ln(Ind.empleo) ln(PBI real)
1997 100.90 117294 4.614 11.672
1998 98.23 116522 4.587 11.666
1999 93.11 117587 4.534 11.675
2000 90.70 121057 4.508 11.704
2001 89.67 121317 4.496 11.706
2002 91.75 127402 4.519 11.755
2003 93.36 132545 4.536 11.795
2004 96.68 139141 4.571 11.843
2005 102.14 148640 4.626 11.909
2006 111.08 160145 4.710 11.984
2007 121.00 174407 4.796 12.069
2008 128.84 191505 4.859 12.163
2009 129.23 193155 4.862 12.171
2010 136.04 210143 4.913 12.256
2011 142.4 224669 4.959 12.322

Se trata de calcular la elasticidad empleo-producto, para lo cual se le pide que estime un


modelo doble logarítmico por MCO. Calcule el estadístico de Durbin y Watson y juzgue
si existe algún tipo de autocorrelación. Realice también el test de Breusch-Godfrey con
dos rezagos.

265
Capítulo 10
Correlación entre los regresores y el término de perturbación

En este capítulo estudiaremos el caso en que uno de los regresores de un modelo de


regresión lineal se encuentra correlacionado con el término de perturbación. La pregunta
que nos interesa responder por ahora es, ¿qué implicaciones tiene ese hecho sobre los
supuestos del modelo clásico? ¿Cómo afectará a las estimaciones de Mínimo Cuadrados
Ordinarios?

Como se mencionó en el Capítulo 4, el supuesto 𝐸 [𝒖|𝑿] = 0 implica que los regresores


sean ortogonales al término de perturbación, lo que en un modelo bivariado se
representaría como 𝐸 [𝑋𝑖 𝑢𝑖 ] = 0. Dado que 𝐸 [𝑢𝑖 ] = 0, la ortogonalidad es igual a
afirmar que la covarianzas entre 𝑋𝑖 y 𝑢𝑖 es cero,

𝐶𝑜𝑣(𝑢𝑖 , 𝑋𝑖 ) = 𝐸 [(𝑢𝑖 − 𝐸 [𝑢𝑖 ])(𝑋𝑖 − 𝐸[𝑋𝑖 ])] = 𝐸 [𝑢𝑖 𝑋𝑖 ] − 𝐸 [𝑢𝑖 ]𝐸 [𝑋𝑖 ] = 0

Pero un problema muy serio ocurre en modelos cuando existe algún tipo de correlación
entre alguno de los regresores y el término de perturbación. Cuando esto ocurre,
𝐶𝑜𝑣(𝑢𝑖 , 𝑋𝑖 ) ≠ 0, lo que implica que 𝐸 [𝒖|𝑿] ≠ 𝟎1. La principal consecuencia de este
problema es que los estimadores de MCO serán sesgados e inconsistentes, generándose
el conocido problema de “endogeneidad de los regresores”.

Debido a este problema, será necesario buscar otro método de estimación que tome en
cuenta la endogeneidad de los regresores y que entregue mejores estimadores que los de
MCO. En este capítulo presentaremos a los estimadores de variables instrumentales y el
caso especial de mínimos cuadrados en dos etapas, los cuales brindan estimadores
consistentes de los parámetros.

Presentaremos en primer lugar algunos ejemplos clásicos presentados en la literatura de


econometría en donde se observa correlación entre un regresor y el término de
perturbación. Luego pasaremos a probar que el estimador de MCO es sesgado e
inconsistente. Posteriormente entraremos en la búsqueda de un estimador que sea al
menos consistente aún en presencia de endogeneidad de los regresores. En la parte final,
trataremos de formalizar al estimador de Mínimos Cuadrados en Dos Etapas.

1
Por lógica, si 𝑝 y 𝑞 son dos afirmaciones tales que 𝑝 → 𝑞, entonces si se niega la conclusión esto
implica que se negará la premisa, ~𝑞 → ~𝑝.

266
10.1 Inconsistencia del estimador MCO

Siguiendo con el Ejemplo 10.1, el estimador de Mínimos Cuadrados Ordinarios de la


ecuación 10.3 es (en un modelo bivariado sin intercepto)

∑X Y ∑ X (βX +u ) ∑X u
β̂MCO = ∑ Xi 2 i = i ∑ X2i i = β + ∑ Xi 2 i (10.4)
i i i

Tomando el valor esperado a (10.4) y aplicando la ley de expectativas totales 2 pues X


no es fijo se tiene que

∑ Xi ui
E[β̂MCO] = E [E[β̂MCO|Xi ]] = E [E [β + |Xi ]]
∑ X2i

∑ Xi ui 1
= E [β + E [ 2 |Xi ]] = E [β + (∑ X i E[ui |Xi ])]
∑ Xi ∑ X2i

1
= β +E[ (∑ Xi E[ui |Xi ])]
∑ X 2i

1
Dado que E[ui |Xi ] ≠ 0 (ver Ejemplo 10.1), entonces E [∑ X2 (∑ Xi E[ui |X i ])] ≠ 0 y por
i

lo tanto β̂MCO es un estimador sesgado.

El efecto del regresor endógeno también hace que el estimador MCO sea inconsistente.
Si multiplicamos y dividimos el segundo término en (10.4) por n, obtenemos
1
∑ Xi ui
β̂MCO = β + n1 (10.5)
∑ X2i
n

y tomando Plim a (10.5)

1
Plim( ∑ Xi ui )
Plim(β̂MCO) = β + n
1 (10.6)
Plim( ∑ X2i )
n

Debemos investigar si el último término de la derecha es igual a cero o no. En su


numerador, aplicando la ley débil de los grandes números

1
Plim ( ∑ Xi ui ) = E[Xi ui ] = Cov(Xi , ui ) = −βσ2ε
n

En el denominador, X2i = Xi∗2 + ε2i + 2X ∗i εi , luego,

2
Recordar que las expectativas totales afirman que E[E[a|b]] = E[a].

267
1 1 1 1
Plim ( ∑ X2i ) = Plim ( ∑ Xi∗2 ) + Plim ( ∑ ε2i ) + Plim ( ∑ 2X∗i εi )
n n n n

1
= lim ( ∑ X∗2 2 ∗ 2
i ) + E[εi ] + 2E[X i εi ] = Q + σε
n→∞ n

1
En el resultado anterior se está asumiendo que la sumatoria de ∑ Xi∗2 converge a la
n

constante finita Q. Reemplazando estos resultados en (10.6) entonces,

βσ2ε Q
Plim(β̂MCO) = β − 2
= β( )
Q + σε Q + σ2ε

Por lo tanto, β̂MCO es inconsistente. Es más, Plim(β̂MCO) < β, con lo cual existe un
sesgo de los estimadores MCO hacia valores más pequeños en magnitud3, lo que en la
literatura se menciona como el “sesgo de atenuación de los estimadores MCO”.

10.2 Ejemplos de correlación entre los regresores y la perturbación

Desafortunadamente, en economía es muy frecuente que ocurra la endogeneidad de los


regresores. Mostraremos tres ejemplos en donde inesperadamente encontraremos que
los regresores se encuentran correlacionados con el término de perturbación.

Ejemplo 10.1: (Error en la medición de variables). Supongamos que vamos a estimar


un modelo sin intercepto4

𝑌𝑖 = 𝛽𝑋𝑖∗ + 𝑣𝑖 (10.1)

donde Yi es la endógena, Xi∗ es una variable que no podemos observar o medir


perfectamente, y vi es i.i.d. N(0, σ2 ) y que no está correlacionada con X ∗i . Por ejemplo,
Yi podría ser el salario y X∗i la habilidad del individuo i. Puesto que el regresor no es
observable, el investigador se ve obligado a utilizar una variable aproximada o proxy en
su reemplazo llamada simplemente Xi , la cual se relaciona con la variable original
mediante la ecuación

Xi = Xi∗ + εi (10.2)

3
Si β fuera negativo, |Plim(β̂MCO )| < |β|.
4
Greene (2008).

268
donde εi es el error de medición, asumiendo que εi ~N(0, σ2 ) e independiente de vi . La
variable Xi podría ser, por ejemplo, los años de educación del individuo i. Esta variable
proxy no es una medida perfecta de la habilidad pues los años de educación dependen
también de otros factores independientes de la habilidad como son: el acceso a la
educación, el nivel socioeconómico del hogar, la calidad de la educación recibida, etc.
Si estas perturbaciones adicionales no tienen un comportamiento sistemático, uno
esperaría que el término de error εi tenga media cero y varianza σ2ε constante, además
de ser independientes de vi (no está relacionado con las perturbaciones del modelo
inicial).

El modelo a ser estimado surge de reemplazar (10.2) en (10.1),

Yi = β(Xi − εi ) + vi = βXi + vi − βεi

Yi = βXi + ui (10.3)

donde ui = vi − βεi se distribuye como una normal de media igual a cero y varianza
σ2 = σ2v + β2 σ2ε . Como resultado de este reemplazo tenemos que el modelo (10.3) a ser
estimado presenta correlación entre su único regresor Xi y el nuevo término de error ui
tal como comprobamos a continuación.

Dado que ui tiene media cero, la covarianza entre este error y Xi es igual al valor
esperado del producto de las variables.

Cov(Xi , ui ) = E[Xi . ui ] = E[(X∗i + εi )(vi − βεi )]


= E[Xi . ui ] = E[Xi∗ . vi + εi vi − βXi∗ . εi − βε2i ]

Luego, asumiendo que X∗i es fijo, que εi y vi tienen media cero y que son independientes
se tiene que

Cov(Xi , ui ) = X∗i E⏟ E[εi . vi ] − βX∗i E⏟


[vi ] + ⏟ [εi ] − βE[ε2i ] = −βσ2ε
=0 =0 =0

lo cual implica que E[ui |Xi ] ≠ 0 y por lo tanto se viola el supuesto 2 del modelo
clásico.

Ejemplo 10.2: (Causalidad simultánea). En el modelo macroeconómico prototipo, de


la función consumo en una economía cerrada y sin gobierno,

Yt = Ct + It

269
Ct = β1 + β2 Yt + ut

donde Yt = Ingreso nacional, Ct = Consumo, It = Inversión. Asumimos que la inversión


no está correlacionada con ut , Cov(It , ut ) = 0. Si estimamos la ecuación del consumo
por MCO tendremos problemas pues Yt y ut están correlacionadas.

Cov(Yt , ut ) = Cov(Ct + It , ut ) = Cov(Ct , ut ) + Cov(It , ut )


= Cov(β1 + β2 Yt + ut , ut )
= Cov(β1 , ut ) + β2 Cov(Yt , ut ) + Var(ut )

Despejando el término Cov(Yt , ut ), y como Cov(β1 , ut ) = 0 y Var(ut ) = σ2 , nos queda

(1 − β2 )Cov(Yt , ut ) = σ2

σ2
Cov(Yt , ut ) = 1−β .
2

Ejemplo 10.3: (Variables omitidas correlacionadas con X). En el Capítulo 4 se


mostró que la omisión de variables relevantes provoca sesgo en las estimaciones de
Mínimos Cuadrados Ordinarios cuando las variables omitidas no son ortogonales a las
variables incluidas. En el ejemplo planteamos el siguiente modelo de determinantes de
salarios, en donde el logaritmo de estos depende de los años de educación y de la
habilidad natural de cada persona i.

ln(Wi ) = β1 + β2 Educacióni + β3 Habilidadi + ui

Supongamos que tanto la Educación como la Habilidad no están correlacionadas con la


perturbación ui . Sin embargo, si la Habilidad no es observable y se omite,

ln(Wi ) = β1 + β2 Educacióni + β
⏟3 Habilidadi + ui
wi

Se puede comprobar que Cov(Educacióni , wi ) = β3 (Educacióni , Habilidadi ), lo que


muy probablemente será diferente de cero.

270
Ejemplo 10.4: Podemos mostrar el sesgo del estimador MCO en forma numérica
mediante una simulación en computadora del Ejemplo 10.1. Supongamos que en ese
ejemplo, el parámetro poblacional β = 4. Generamos observaciones de Y mediante la
ecuación Yi = 4X∗i + vi en donde X∗i toma valores fijos entre 0 y 10, y vi es una
perturbación aleatoria distribuida normalmente con media cero y varianza uno. La
variable con error de medición Xi se construye igual que en la ecuación (10.2), sumando
a X∗i una variable normal de media cero y varianza cuatro e independiente de vi .
Finalmente se generan 5,000 muestras aleatorias de n = 60 observaciones cada una,
generando números aleatorios a vi y εi . Luego se realizan 5,000 regresiones de Y contra
X con cada muestra, se guardan los 5,000 valores estimados β̂, obteniéndose el
histograma en la Figura 10.1. El histograma es una aproximación de la distribución del
estimador MCO, la cual es muy similar a la normal, sin embargo se observa que la
estimación por MCO es sesgada pues el verdadero parámetro es igual a 4 (línea
vertical), mientras que el valor esperado del estimador MCO es aproximadamente
3.61.

Figura 10.1
Sesgo del estimador de Mínimos Cuadrados Ordinarios con regresores
endógenos

10.2 ¿Cómo obtener un estimador consistente de β cuando Cov(Xi , ui ) ≠ 0?

Continuando con el Ejemplo 10.1 donde queremos estimar el modelo (10.3) Yi = βXi +
ui , en donde ya sabemos que Cov(Xi , ui ) ≠ 0. Supongamos que contamos con una

271
variable Zi que cumple dos condiciones: Cov(Zi , Xi ) ≠ 0 y Cov(Zi , ui ) = 0. Calculamos
Cov(Zi , Yi ),

Cov(Zi , Yi ) = Cov(Zi , βXi + ui )

= βCov(Zi , Xi ) + Cov(Zi , ui )

Bajo las dos condiciones mencionadas,

Cov(Z ,Y )
β = Cov(Zi,Xi ) (10.7)
i i

El verdadero parámetro poblacional β es simplemente la división de las covarianzas


poblacionales de las variables y Z. Imaginemos que contamos con dos estimadores
consistentes de dichas covarianzas. Luego, la división simple de esos estimadores será
un estimador consistente de β, pues la aplicación de Plim a tal división producirá la
ecuación (10.7). Los estimadores consistentes de las covarianzas poblacionales más
fáciles de encontrar son sus análogos muestrales, es decir las covarianzas muestrales,
las que se definen como

n
1
SXZ ≡ ̅)(Zi − Z̅)
∑(Xi − X
n−1
i=1

n
1
SYZ ≡ ̅)(Zi − Z̅)
∑(Yi − Y
n−1
i=1

p p
En el Apéndice 10.1 se demuestra que SXZ → Cov(Xi , Zi ) y que SYZ → Cov(Yi , Zi ).
Luego, proponemos el siguiente estimador llamado de variables instrumentales
construido en base a análogos muestrales

S
β̂𝑉𝐼 ≡ SYZ (10.8)
XZ

el cual es un estimador consistente de β pues tomando Plim a (10.8)

PlimSYZ Cov(Zi ,Yi )


Plimβ̂VI = = =β (10.9)
PlimSXZ Cov(Xi ,Zi )

272
Ejemplo 10.5: Continuamos con el Ejemplo 10.4. Para hacer la estimación por
variables instrumentales necesitamos una variable que esté correlacionada con X.
Puesto que se trata de una simulación en computadora, vamos a crear un instrumento
mediante la fórmula Zi = 10 + b. Xi∗ + ξi , donde ξi tiene una distribución uniforme
entre -1 y 1, y es independiente de vi y de εi , y b es un parámetro igual a 0.5.5 Al igual
que en Ejemplo 10.4, se realizaron 5,000 simulaciones de datos X, Y y del instrumento
Z mediante números aleatorios. En la Figura 10.2 mostramos el histograma de las 5,000
estimaciones de (10.8). Obsérvese que estas estimaciones se encuentran más cerca del
parámetro poblacional β = 4, indicado por una línea vertical, en comparación con las
estimaciones MCO.

Figura 10.2
Estimación por Variables Instrumentales

Ejemplo 10.6: Consideremos el siguiente modelo sobre el ahorro y su relación con la


tasa de interés y las expectativas.

ΔSt = β1 + β2 (it−1 − πet ) + ut

donde ΔSt es la variación en el stock de ahorro, it−1 es la tasa de interés nominal de fin
de periodo rezagada, y πet es la tasa de inflación esperada (no observable). Ni it−1 ni πet
están correlacionadas con ut . Además,

5
Obviamente, en la vida real no se pueden crear instrumentos mediante fórmulas como hacemos en este
ejemplo, pues X ∗ no es observable.

273
e
π⏟t = π
⏟t + ξ⏟t
𝑖𝑛𝑓𝑙𝑎𝑐𝑖ó𝑛 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑑𝑎 𝑖𝑛𝑓𝑙𝑎𝑐𝑖ó𝑛 𝑒𝑠𝑝𝑒𝑟𝑎𝑑𝑎 𝑒𝑟𝑟𝑜𝑟 𝑑𝑒 𝑝𝑟𝑒𝑑𝑖𝑐𝑐𝑖ó𝑛

en donde se asume que ξt es un ruido blanco, es decir, E[ξt ] = 0, Var[ξt ] =


σ2ξ , E[ξt . ξt−s ] = 0 ∀s > 0, y que el error de predicción no está correlacionado con ut .
Como πet no es observable, usamos en la estimación a la inflación observada πt como
proxy. Luego,

ΔSt = β1 + β2 (it−1 − πt + ξt ) + ut
= β1 + β2 (it−1 − πt ) + β2 ξt + ut
= β1 + β2 (it−1 − πt ) + wt

Tenemos entonces un problema de error de medición que provoca endogeneidad en el


regresor, similar al Ejemplo 10.1. Se deja al lector la comprobación que Cov(it−1 −
πt , wt ) = −β2 σ2ξ .

Mediante variables instrumentales podemos obtener un estimador consistente.


Definamos al instrumento 𝑍 ≡ it−2 − πt−1 , el cual es simplemente un rezago del
regresor. No es difícil comprobar que esta variable cumple las condiciones mencionadas
de los instrumentos,

Co𝑣(it−1 − πt , it−2 − πt−1 ) ≠ 0


Co𝑣(it−2 − πt−1 , wt ) = 0

Si esto es cierto, el parámetro poblacional β2 es igual a

Cov(ΔSt , it−2 − πt−1 )


β2 =
Cov(it−1 − πt , it−2 − πt−1 )

y el estimador de variables instrumentales sería β̂VI = 𝑆𝑌𝑍 /𝑆𝑋𝑍 , donde Y = ΔSt y X =


it−1 − πt .

10.3 Estimación por Mínimos Cuadrados en Dos Etapas (MC2E)

El estimador propuesto en (10.8) no es el único estimador de variables instrumentales


que existe. En ocasiones resulta más ilustrativo presentar al estimador de variables
instrumentales como un procedimiento en dos etapas. Empecemos con un caso sencillo

274
con k = 3 variables explicativas (incluyendo a la constante de unos), en donde la última
variable presenta correlación con el error. En forma explícita,

Yi = β1 + β2 X 2i
⏟ + β3 X3i
⏟ + ui (10.10)
(no correlacionadas (correlacionada
con ui ) con ui )

lo que matricialmente se puede presentar como

𝐲 = 𝐗 2 𝛃2 + 𝐗 3 𝛃3 + 𝐮 (10.11)

en donde 𝐗 2 = [i | X2 ] es una matriz n × 2 y 𝐗 3 = [X3 ] es una matriz n × 1 que


contiene al regresor endógeno, donde Cov(𝐗 2 , 𝐮) = 𝟎 y Cov(𝐗 3 , 𝐮) ≠ 𝟎

Supongamos que contamos con m variables W1i , W2i , . . . , Wmi, que cumple las
condiciones de relevancia y exogeneidad de las variables instrumentales. Agrupamos a
estas variables en una matriz 𝐖 de dimensión n × m.

El procedimiento de estimación de Mínimos Cuadrados en Dos Etapas (MC2E) es el


siguiente:

Primera Etapa: Regresionar por MCO al “regresor endógeno” X3i contra la constante, la
variable X2i y todas las variables en la matriz 𝐖. Explícitamente se estima la regresión

X3i = γ1 + γ2 X2i + γk W1i + γk+1 W2i + ⋯ + γk−1+mWmi + ξ1i

̂ 3i. En forma matricial, las regresiones de escriben como


y se calculan la predicción X

𝛄1
𝐗 3 = 𝐗 2 𝛄1 + 𝐖𝛄2 + 𝛏 = [𝐗 2 | 𝐖] [− −] + 𝛏 = 𝐙𝛄 + 𝛏 (10.12)
𝛄2

El estimador MCO de (10.12) es 𝛄̂ = (𝐙 ′ 𝐙)−1 𝐙 ′𝐗 2 , y las predicciones son

̂3 = 𝐙(𝐙 ′𝐙)−1 𝐙 ′𝐗 3 = 𝐏z 𝐗 3
𝐗 (10.13)

donde 𝐏z = 𝐙(𝐙 ′𝐙)−1 𝐙 ′ es la matriz de proyección.

̂3 de (10.13) en lugar de 𝐗 3 en la ecuación


Segunda Etapa : Utilizar a la predicción 𝐗
(10.11) y estimar por mínimos cuadrados ordinarios la ecuación

̂3 𝛃3 + 𝛈.
𝐲 = 𝐗 2 𝛃2 + 𝐗 (10.14)

275
El estimador MCO de (10.14) es el estimador de Mínimos Cuadrados en Dos Etapas
(MC2E), el cual es un estimador consistente de los parámetros poblacionales.

Con un poco de algebra matricial se puede comprobar que el estimador MC2E de


(10.14) es igual a6

̂ MC2E = (𝐗 ′ 𝐏z 𝐗)−1 𝐗 ′ 𝐏z 𝐲
𝛃

̂VI
= (𝐗 ′ 𝐙(𝐙 ′𝐙)−1 𝐙 ′ 𝐗)−1 𝐗 ′ 𝐙(𝐙 ′𝐙)−1 𝐙 ′ 𝐲 = 𝛃 (10.15)

donde 𝐗 = [𝐗 2 | 𝐗 3 ] y 𝐙 = [𝐗 2 | 𝐖].

Nótese que en (10.15) la matriz 𝐗 tiene 3 columnas mientras que la matriz 𝐙 tiene 2 +
m columnas, luego la matriz (𝐗 ′ 𝐙(𝐙 ′𝐙)−1 𝐙 ′𝐗) es de dimensión 3 × 3 con rango igual a
min{3,2 + m}. Para que exista (𝐗 ′ 𝐙(𝐙 ′𝐙)−1 𝐙 ′𝐗)−1 es necesario que 2 + m ≥ 3, que
es lo mismo que afirmar que m ≥ 1. Como tenemos un regresor endógeno, necesitamos
al menos 1 instrumento W.

Cabe mencionar que la estimación por MCO de la segunda etapa no entrega las
desviaciones estándar correctas del estimador MC2E. La matriz de varianzas y
covarianzas correcta es

̂MC2E|𝐗) = σ2 (𝐗 ′ 𝐙(𝐙 ′𝐙)−1 𝐙 ′ 𝐗)−1


𝑉𝑎𝑟(𝛃

donde σ2 puede ser estimado mediante


̂ MC2E ) (𝐲 − 𝐗𝛃
(𝐲 − 𝐗𝛃 ̂MC2E)
σ2 =
̂
n

Por último, es ilustrativo verificar la consistencia de este estimador. Reemplazando


y = Xβ + u en la ecuación (10.15) y multiplicando y dividiendo por n se obtiene

̂MC2E = (𝐗 ′ 𝐏z 𝐗)−1 𝐗 ′ 𝐏z (𝐗𝛃 + 𝐮) = 𝛃 + (𝐗 ′ 𝐏z 𝐗)−1 𝐗 ′ 𝐏z 𝐮


𝛃

1 −1 1
= 𝛃 + (⏟n 𝐗 ′ 𝐏z 𝐗) (⏟n 𝐗 ′ 𝐏z 𝐮) (10.16)
(a) (b)

Tomamos Plim al argumento entre paréntesis del término (a),

6
Ver el Apéndice de este capítulo.

276
−1
1 1 1 1 1
Plim ( 𝐗 ′ 𝐏z 𝐗) = Plim ( 𝐗 ′ 𝐙(𝐙 ′ 𝐙)−1 𝐙 ′ 𝐗) = Plim ( 𝐗 ′ 𝐙) Plim ( 𝐙 ′ 𝐙) Plim ( 𝐙 ′ 𝐗)
n n n n n

= 𝐐XZ 𝐐ZZ −1 𝐐XZ ≠ 𝟎

donde 𝐐XZ es la matriz de covarianzas entre 𝐗 = [𝐗 2 | 𝐗 3 ] y 𝐙 = [𝐗 2 | 𝐖], que


será distinta de cero pues ambas tienen en común a las variables 𝐗 2 y porque se asumió
que los instrumentos 𝐖 están correlacionados con el regresor endógeno 𝐗 3 . Por otro
lado, 𝐐ZZ es la matriz de varianzas y covarianzas de 𝐙.

Tomando Plim a la parte (b) de (10.16),

−1
1 1 1 1 1
Plim ( 𝐗 ′ 𝐏z 𝐮) = Plim ( 𝐗 ′ 𝐙(𝐙 ′ 𝐙)−1 𝐙 ′ 𝐮) = Plim ( 𝐗 ′ 𝐙) Plim ( 𝐙 ′ 𝐙) Plim ( 𝐙 ′ 𝐮)
n n n n n

= 𝐐XZ . 𝐐ZZ −1 . 𝟎 ≠ 𝟎

1
El último término Plim (n 𝐙 ′ 𝐮) = 𝟎 pues 𝐙 = [𝐗 2 | 𝐖] no está correlacionado con 𝐮

dada la condición de exogeneidad. Luego, reemplazando estos resultados en (10.16), se


obtiene

̂MC2E) = 𝛃.
Plim(𝛃

10.4 Verificando las condiciones de relevancia y exogeneidad

La efectividad del método de variables instrumentales recae en el cumplimiento de las


condiciones de relevancia y exogeneidad, sin las cuales sus resultados serían sesgados e
inconsistentes, e inclusive con sesgos más grandes que los de MCO. En esta sección
veremos cómo podemos verificar si los instrumentos utilizados son apropiados o no.

10.6.1. El problema de los instrumentos débiles

En la ecuación (10.9) podemos notar que si la Cov(Zi , Xi ) es cercana a cero, ocurrirá que
Plim β̂IV podría no tender al parámetro poblacional que se pretende estimar.
Adicionalmente, la varianza del estimador β̂IV se incrementará notablemente en
muestras finitas, haciendo que se pierda precisión en la estimación. Esto es conocido
como el problema de los instrumentos débiles, y se presenta cuando hemos elegido

277
instrumentos que tienen una correlación muy débil con el regresor endógeno7. Si tal
̂3 , lo cual invalidaría los
correlación es baja, no se obtendrá una buena predicción de 𝐗
resultados.

Para ilustrar este problema, consideremos el Ejemplo 10.5, en donde el instrumento


estará correlacionado con Xi dependiendo de los valores del parámetro b, pues al
reducirse este valor, la correlación entre X y Z se debilita. La Figura 10.3 muestra los
histogramas suavizados de 5,000 estimaciones de β por variables instrumentales, para
los valores b = 0.5, b = 0.1 y b = 0.005. En el primer caso, el estimador de variables
instrumentales se distribuye alrededor del parámetro poblacional β = 4 y con una
distribución bastante parecida a la normal pese a contar solo con 60 observaciones. Sin
embargo, cuando se realizan las estimaciones con instrumentos más débiles, el
estimador de variables instrumentales se vuelve sesgado y con una varianza muy
grande. En definitiva, estimar por variables instrumentales puede dar resultados aún
peores que la estimación por mínimos cuadrados ordinarios cuando los instrumentos son
débiles.

Figura 10.3
Distribuciones del estimador de Variables Instrumentales con
debilidad de los instrumentos

Debido a este problema, es recomendable hacer una revisión de la fortaleza o debilidad


de los instrumentos escogidos. Una forma de ver si los instrumentos están
correlacionados con el regresor endógeno es a través de la prueba F en la primera etapa
7
Nótese que el método requiere correlación entre variables, no causalidad entre ellas.

278
del procedimiento de dos etapas, según lo propuesto por Staiger y Stock (1997)8. La
“regla de oro” de Staiger y Stock aplicable para el caso de un solo regresor endógeno,
dice que si el estadístico F de significancia conjunta que prueba la hipótesis H0 : 𝛄2 = 𝟎
en la ecuación (10.12) es mayor a 10, entonces los instrumentos 𝐖 son relevantes.

Ejemplo 10.7: Se busca estudiar el efecto del número de hermanos sobre las
calificaciones escolares. Para ello se cuenta con la base de datos Evaluación Nacional
del año 2004 (EN 2004) realizada en todo el territorio peruano. Esta encuesta toma una
prueba estandarizada de rendimiento de matemáticas y comunicaciones a casi 13,000
alumnos de primaria y secundaria en más de 800 escuelas peruanas 9. Para fines de este
ejemplo, tomamos a los resultados de la prueba de matemáticas tomada a alumnos de
6to grado de primaria, siendo la muestra final de 11,554 niños. Las variables a ser
considerada en las estimaciones son: rend_mat = Score obtenido en la prueba
estandarizada, el cual toma valores en la muestra desde -10.37 a 580.65; nhermanos =
número de hermanos declarado por el niño; sexo = sexo del niño tomando el valor 1
para el varón y 0 para la mujer; edad = edad del niño; intemate_s = índice construido
sobre preguntas relacionadas al gusto o interés del niño por las matemáticas; nivpadre2-
nivpadre10 = Variables dummy sobre el nivel educativo del padre del niño, siendo loa
valores nivpadre2 = primaria incompleta, nivpadre3= primaria completa, nivpadre4 =
secundaria incompleta = nivpadre5 = secundaria completa, nivpadre6 = superior técnica
incompleta, nivpadre7 = superior técnica completa, nivpadre8 = superior universitaria
incompleta, y nivpadre9 = superior universitaria completa. Aunque la muestra de
EN2004 es a nivel nacional, tomaremos solamente los resultados de las zonas urbanas,
con lo cual el tamaño de la muestra se reduce a aproximadamente 9,000 niños.

El primer modelo a estimar toma a rend_mat como endógena, y a las demás variables
descritas como regresores. Para tener una idea de cómo se comportan nuestras variables
de interés, en la Figura 10.4 se muestran los respectivos histogramas de rend_mat y
nhermanos. La ecuación a estimar es

rend_mati = β1 + β2 nhermanosi + β3 Sexoi + β4 Edadi + otrosi + ui (10.17)

8
D. Staiger y J. H. Stock, “Instrumental variables regression with weak instruments,” Econometrica 65,
no. 3 (May 1997): 557-586.
9
La información de la encuesta está disponible libremente en el sitio http://umc.minedu.gob.pe/?p=211.

279
Figura 10.4
Histogramas de las variables de interés en la muestra

.008 .6

.006
.4
Densidad

Densidad
.004

.2
.002

0 0
0 200 400 600 0 5 10 15 20
Rendimiento en Matemática Número de hermanos

Fuente: EN2004. Elaboración: Propia

Los resultados de la estimación por mínimos cuadrados ordinarios son presentados en la


Tabla 10.1. En dicha tabla, el número de hermanos parece tener un efecto negativo y
estadísticamente significativo sobre el rendimiento en matemáticas, aunque tal efecto
luce bastante pequeño, pues por cada hermano adicional el puntaje bajaría solo 5
puntos, considerando que la endógena toma valores entre -10 y 580 aproximadamente.
Las demás variables parecen tener los signos esperados, como por ejemplo el signo
positivo de la variable relacionada al interés por las matemáticas, y el efecto positivo de
tener más libros en casa.

Se sospecha que nuestra variable de interés nhermanos puede ser endógena, pues la
cantidad de hermanos que un niño pueda tener estará relacionada con las preferencias de
los padres por los niños, las cuales a su vez podrían estar relacionadas con las
preferencias de los padres por la educación de los hijos. Por esa razón, nhermanos
puede estar correlacionada con la perturbación en el (10.17), si esta perturbación
contiene a variables de preferencias familiares, locales o regionales.

Para aliviar este problema, consideramos una estimación en dos etapas en donde los
instrumentos que usaremos son: difdist = diferencia entre la tasa global de fecundidad
de un distrito10 respecto a la correspondiente tasa del departamento, y radio =

10
Perú se organiza políticamente en 24 Departamentos y una provincia con el rango de departamento.
Estos departamentos se subdividen en provincias existiendo más de 300 de ellas. A su vez, las provincias
se dividen en distritos, existiendo en la actualidad más de 1800 distritos.

280
proporción de mujeres de 15 a 49 años que se informaron mediante la radio sobre
métodos de planificación familiar. El primer instrumento busca capturar algunas
preferencias locales por fecundidad, que podrían tener relación con el número de
hermanos, aunque quizás no necesariamente relación con el rendimiento escolar. Esta
variable fue calculada usando información del documento “Perú: Fecundidad y sus
Diferenciales por Departamento, Provincia y Distrito 2007” publicado por el Instituto
Nacional de Estadística e Informática. El segundo instrumento captura la difusión de
métodos de planificación familiar, a nivel departamental. Esta variable fue calculada
usando la Encuesta Demográfica y de Salud Familiar (ENDES 2005), realizada un año
después de la EN2004. No se disponía de esta información para años anteriores, aunque
es probable que se correlaciones con el regresor endógeno.

Tabla 10.1
Estimación por MCO de un modelo con (posiblemente)
problemas de endogeneidad

. regress rend_mat nhermanos sexo edad intemate_s nivpadre2-nivpadre9 libros


> [aweight=pesomate], r
(sum of wgt is 8.1225e+03)

Linear regression Number of obs = 8731


F( 13, 8717) = 100.66
Prob > F = 0.0000
R-squared = 0.2152
Root MSE = 59.731

Robust
rend_mat Coef. Std. Err. t P>|t| [95% Conf. Interval]

nhermanos -4.431506 .4446202 -9.97 0.000 -5.303066 -3.559945


sexo 6.709149 1.702138 3.94 0.000 3.372556 10.04574
edad -10.56358 .9688377 -10.90 0.000 -12.46273 -8.664433
intemate_s .0608726 .0090116 6.75 0.000 .0432077 .0785374
nivpadre2 8.698061 6.61626 1.31 0.189 -4.271371 21.66749
nivpadre3 1.832112 6.575551 0.28 0.781 -11.05752 14.72174
nivpadre4 10.77988 6.431679 1.68 0.094 -1.827725 23.38749
nivpadre5 17.72629 6.414655 2.76 0.006 5.152055 30.30053
nivpadre6 28.89167 6.989131 4.13 0.000 15.19132 42.59201
nivpadre7 32.03655 6.734476 4.76 0.000 18.83539 45.23771
nivpadre8 46.40369 7.599827 6.11 0.000 31.50623 61.30114
nivpadre9 59.66473 6.81244 8.76 0.000 46.31074 73.01872
libros 4.665833 .5973725 7.81 0.000 3.494842 5.836824
_cons 380.3226 13.95854 27.25 0.000 352.9606 407.6847

A continuación se procede a estimar por Mínimos Cuadrados en Dos Etapas usando a


las variables difdist y radio como instrumentos. En esta ocasión utilizaremos el
comando ivreg2 en Stata desarrollado por Baum, Schaffer y Stillman11.

11
Baum, C. F., M. E. Schaffer, and S. Stillman. 2007. ivreg2: Stata module for extended instrumental
variables/2SLS, GMM and AC/HAC, LIML, and k-class regression. Boston College Department of
Economics, Statistical Software Components S425401. Downloadable from
http://ideas.repec.org/c/boc/bocode/s425401.html.

281
La Tabla 10.2 muestra los resultados de la primera etapa del procedimiento bietápico en
detalle, considerando errores robustos con heterocedasticidad. Como puede observarse,
la primera etapa arroja un estadístico F de significancia de los instrumentos excluidos de
15.80. De acuerdo a la regla de oro, dado que F > 10, los instrumentos elegidos están
correlacionados con el supuesto regresor endógeno, por lo tanto son relevantes.

Tabla 10.2
Estimación de la Primera Etapa de MC2E

. ivreg2 rend_mat (nhermanos =difdist radio) sexo edad intemate_s nivpadre2-nivpadre9


> libros [aweight=pesomate],first r
(sum of wgt is 8.1225e+03)

First-stage regressions

First-stage regression of nhermanos:

OLS estimation

Estimates efficient for homoskedasticity only


Statistics robust to heteroskedasticity

Number of obs = 8731


F( 14, 8716) = 65.95
Prob > F = 0.0000
Total (centered) SS = 36752.21466 Centered R2 = 0.1619
Total (uncentered) SS = 108715.3998 Uncentered R2 = 0.7167
Residual SS = 30802.57199 Root MSE = 1.88

Robust
nhermanos Coef. Std. Err. t P>|t| [95% Conf. Interval]

sexo -.1243732 .0560527 -2.22 0.027 -.2342496 -.0144967


edad .4278331 .0327763 13.05 0.000 .3635838 .4920825
intemate_s .0000673 .0002683 0.25 0.802 -.0004586 .0005932
nivpadre2 .363056 .2475978 1.47 0.143 -.1222942 .8484061
nivpadre3 .2284613 .2438213 0.94 0.349 -.2494861 .7064087
nivpadre4 -.4853377 .2346858 -2.07 0.039 -.9453772 -.0252981
nivpadre5 -.7496907 .2332073 -3.21 0.001 -1.206832 -.2925493
nivpadre6 -1.164492 .2421951 -4.81 0.000 -1.639251 -.6897323
nivpadre7 -1.049782 .2374022 -4.42 0.000 -1.515146 -.5844175
nivpadre8 -1.106094 .2463017 -4.49 0.000 -1.588903 -.6232845
nivpadre9 -1.371985 .2345151 -5.85 0.000 -1.83169 -.9122798
libros .030042 .020442 1.47 0.142 -.0100291 .0701131
difdist .2413802 .0591998 4.08 0.000 .1253347 .3574257
radio -2.633788 .5842907 -4.51 0.000 -3.779135 -1.48844
_cons -.157961 .5732681 -0.28 0.783 -1.281702 .9657799

Included instruments: sexo edad intemate_s nivpadre2 nivpadre3 nivpadre4


nivpadre5 nivpadre6 nivpadre7 nivpadre8 nivpadre9 libros
difdist radio

Partial R-squared of excluded instruments: 0.0070


Test of excluded instruments:
F( 2, 8716) = 15.80
Prob > F = 0.0000

En la segunda etapa se estima la ecuación (10.17) pero instrumentalizando a nhermanos


con la predicción de la primera etapa. En la Tabla 10.3 podemos ver los resultados
completos de esta estimación.

282
Tabla 10.3
Estimación de la Segunda Etapa de MC2E
IV (2SLS) estimation

Estimates efficient for homoskedasticity only


Statistics robust to heteroskedasticity

Number of obs = 8731


F( 13, 8717) = 27.48
Prob > F = 0.0000
Total (centered) SS = 39628034.31 Centered R2 = -2.5193
Total (uncentered) SS = 879240682.4 Uncentered R2 = 0.8414
Residual SS = 139464650.9 Root MSE = 126.4

Robust
rend_mat Coef. Std. Err. z P>|z| [95% Conf. Interval]

nhermanos -63.53589 12.03181 -5.28 0.000 -87.1178 -39.95398


sexo -.9330565 4.115827 -0.23 0.821 -8.999929 7.133815
edad 15.81968 5.856085 2.70 0.007 4.341965 27.2974
intemate_s .0631135 .0181299 3.48 0.000 .0275795 .0986475
nivpadre2 28.32448 16.87243 1.68 0.093 -4.744877 61.39384
nivpadre3 13.02443 16.13058 0.81 0.419 -18.59093 44.63979
nivpadre4 -22.0832 16.37325 -1.35 0.177 -54.17417 10.00778
nivpadre5 -31.66592 17.68622 -1.79 0.073 -66.33028 2.998437
nivpadre6 -46.41154 21.49369 -2.16 0.031 -88.5384 -4.284689
nivpadre7 -36.22611 20.25607 -1.79 0.074 -75.92727 3.475055
nivpadre8 -24.2048 21.1213 -1.15 0.252 -65.60178 17.19219
nivpadre9 -27.50585 23.07855 -1.19 0.233 -72.73897 17.72727
libros 5.864934 1.353748 4.33 0.000 3.211636 8.518232
_cons 284.1852 38.01066 7.48 0.000 209.6856 358.6847

Underidentification test (Kleibergen-Paap rk LM statistic): 31.041


Chi-sq(2) P-val = 0.0000

Weak identification test (Kleibergen-Paap rk Wald F statistic): 15.799


Stock-Yogo weak ID test critical values: 10% maximal IV size 19.93
15% maximal IV size 11.59
20% maximal IV size 8.75
25% maximal IV size 7.25
Source: Stock-Yogo (2005). Reproduced by permission.
NB: Critical values are for Cragg-Donald F statistic and i.i.d. errors.

Hansen J statistic (overidentification test of all instruments): 0.998


Chi-sq(1) P-val = 0.3179

Instrumented: nhermanos
Included instruments: sexo edad intemate_s nivpadre2 nivpadre3 nivpadre4
nivpadre5 nivpadre6 nivpadre7 nivpadre8 nivpadre9 libros
Excluded instruments: difdist radio

Comparando la estimación de las Tablas 10.3 y 10.1, notamos que el estimador de


MC2E del número de hermanos es en valor absoluto mucho más grande que el
estimador en la regresión MCO. Este resultado es típico, al estar el estimador MCO
sesgado a la baja (sesgo de atenuación). En este caso, por cada hermano adicional que
un niño tenga, el puntaje promedio en la prueba caería en 63 puntos, en comparación
con niños similares. Curiosamente, los signos de los controles han cambiado.

Ejemplo 10.8: Problemas con instrumentos débiles. ¿Qué hubiera ocurrido si usáramos
instrumentos “débiles”? En esta ocasión, en vez de difdist y radio, usamos dos
instrumentos nuevos. El primero de ellos es el código numérico de cada alumno llamado

283
nombre, el cual es un valor al azar no relacionado el número de hermanos. El segundo
instrumento es una variable aleatoria normal con media cero y varianza 1, llamada
aleatorio. La correlación entre el nhermanos y nombre es -0.04 y con aleatorio es
− 0.0063 , en ambos casos una correlación muy cercana a cero.

La Tabla 10.4 muestra los resultados de la primera etapa en donde podemos observar
que el estadístico F de significancia conjunta de los instrumentos es apenas 0.17. Con
ello no se puede rechazar la hipótesis nula de instrumentos débiles.

Tabla 10.4
Estimación de la Primera Etapa de MC2E con Instrumentos Débiles

. ivreg2 rend_mat (nhermanos = aleatorio nombre) sexo edad intemate_s nivpadre2-nivpadr


> e10 libros [aweight=pesomate],first r
Number of obs = 8731
F( 15, 8715) = 57.00
Prob > F = 0.0000
Total (centered) SS = 36752.21466 Centered R2 = 0.1565
Total (uncentered) SS = 108715.3998 Uncentered R2 = 0.7148
Residual SS = 31001.39431 Root MSE = 1.886

Robust
nhermanos Coef. Std. Err. t P>|t| [95% Conf. Interval]

sexo -.1270897 .0560754 -2.27 0.023 -.2370107 -.0171687


edad .4437894 .0326536 13.59 0.000 .3797806 .5077982
intemate_s .0000414 .0002693 0.15 0.878 -.0004865 .0005693
nivpadre2 .1054362 .267742 0.39 0.694 -.4194014 .6302739
nivpadre3 -.0378 .2648806 -0.14 0.887 -.5570285 .4814285
nivpadre4 -.7831113 .2567054 -3.05 0.002 -1.286314 -.2799081
nivpadre5 -1.063049 .2557597 -4.16 0.000 -1.564399 -.5616998
nivpadre6 -1.501025 .2639869 -5.69 0.000 -2.018501 -.9835478
nivpadre7 -1.383722 .2598185 -5.33 0.000 -1.893027 -.8744163
nivpadre8 -1.424993 .2683535 -5.31 0.000 -1.95103 -.8989569
nivpadre9 -1.7042 .257344 -6.62 0.000 -2.208655 -1.199745
nivpadre10 -.6830862 .5099614 -1.34 0.180 -1.682731 .3165587
libros .0210809 .0202892 1.04 0.299 -.0186908 .0608525
aleatorio -.0143688 .028863 -0.50 0.619 -.070947 .0422095
nombre -3.69e-07 1.20e-06 -0.31 0.758 -2.72e-06 1.98e-06
_cons -1.358702 .4979321 -2.73 0.006 -2.334767 -.3826376

Included instruments: sexo edad intemate_s nivpadre2 nivpadre3 nivpadre4


nivpadre5 nivpadre6 nivpadre7 nivpadre8 nivpadre9
nivpadre10 libros aleatorio nombre

Partial R-squared of excluded instruments: 0.0001


Test of excluded instruments:
F( 2, 8715) = 0.17
Prob > F = 0.8442

Para notar que las estimaciones con instrumentos débiles son altamente imprecisas, la
Tabla 10.5 presenta los resultados de la segunda etapa. En esta tabla, el valor de la
estimación de nhermanos está bastante lejos de los resultados con instrumentos más
fuertes. Ahora el parámetro de interés es positivo y no significativo pues su desviación
estándar es muy grande, 143 puntos. Obsérvese que el intervalo de confianza va de -207
a 356 puntos, algo similar a lo que se observaba en la Figura 10.3 cuando los
instrumentos son débiles.
284
Tabla 10.5
Estimación de la Segunda Etapa de MC2E con un Instrumento Débil

IV (2SLS) estimation

Estimates efficient for homoskedasticity only


Statistics robust to heteroskedasticity

Number of obs = 8731


F( 14, 8716) = 13.32
Prob > F = 0.0000
Total (centered) SS = 39628034.31 Centered R2 = -4.6166
Total (uncentered) SS = 879240682.4 Uncentered R2 = 0.7469
Residual SS = 222574862.4 Root MSE = 159.7

Robust
rend_mat Coef. Std. Err. z P>|z| [95% Conf. Interval]

nhermanos 74.1814 143.9141 0.52 0.606 -207.885 356.2478


sexo 16.63778 18.74076 0.89 0.375 -20.09344 53.36901
edad -45.37199 63.9945 -0.71 0.478 -170.7989 80.05492
intemate_s .0575289 .0237092 2.43 0.015 .0110598 .103998
nivpadre2 9.24374 25.60551 0.36 0.718 -40.94214 59.42962
nivpadre3 13.69404 20.62895 0.66 0.507 -26.73796 54.12604
nivpadre4 81.27498 113.9816 0.71 0.476 -142.1249 304.6749
nivpadre5 110.2537 153.9878 0.72 0.474 -191.5569 412.0643
nivpadre6 155.9714 216.9598 0.72 0.472 -269.2621 581.2048
nivpadre7 149.7793 199.9347 0.75 0.454 -242.0856 541.6441
nivpadre8 167.3063 206.122 0.81 0.417 -236.6855 571.298
nivpadre9 202.5928 245.7767 0.82 0.410 -279.1207 684.3062
nivpadre10 81.10877 108.2784 0.75 0.454 -131.1131 293.3306
libros 3.00101 3.489733 0.86 0.390 -3.838742 9.840761
_cons 478.6087 202.7133 2.36 0.018 81.29788 875.9195

10.6.2. Validez de las exogeneidad de los instrumentos

Como sabemos, el método que estamos trabajando requiere conseguir un grupo de


variable nuevas 𝐖 que no estén correlacionadas con el término de perturbación de la
ecuación (10.11). En otras palabras esto quiere decir que dichas variables no deberían
ser predictores de la variable endógena Yi , y por lo tanto no deberían estar incluidas en
la ecuación principal (10.11)12. Así, el efecto de las variables en 𝐖 sobre la endógena
debería ser a través del regresor endógeno X2 y no directamente.

¿Por qué es importante que no estén correlacionadas con la perturbación? Como vimos
1
en (10.19), si Plim (n 𝐙 ′𝐮) ≠ 𝟎, el estimador de variables instrumentales es

inconsistente.

Las variables excluidas de la ecuación principal cumplen otro rol. Imaginemos que no
tenemos ninguna variable 𝐖 y pretendemos estimar por variables instrumentales

12
Supongamos que W sí debería ser considerado como un regresor de Y. El no especificarlo en (10.11)
implicaría que se le incluya en u, y por lo tanto esta perturbación estaría correlacionada con W.

285
̂2 en la primera
utilizando únicamente a las variables en 𝐗1 . Al hacer la predicción X
̂ 2 en la segunda etapa
etapa, está será una combinación lineal de 𝐗1 . Luego, al incluir X
̂ 2 en la ecuación
tendremos un problema de multicolinealidad perfecta entre 𝐗1 y X
(10.14). El hecho que se incluyan variables nuevas 𝐖 distintas a los instrumentos
incluidos 𝐗1 evita este problema de colinealidad, y por ello ayudan a la identificación
de las estimaciones.

Presentaremos algunos tests cuyo espíritu tiene que ver con la validez de la exclusión de
𝐖 de la ecuación principal asignándoles un valor de cero a sus hipotéticos parámetros
(restricciones de exclusión).

El test de Sargan (debido a Sargan(1958)13) y su generalización para errores robustos en


el test J de Hansen (debido a Hansen(1982)14) puede aplicarse al caso en que el número
de instrumentos excluidos es mayor al número de regresores endógenos, o caso
sobreidentificado. La única diferencia entre ambos tests es que el de Sargan asume
homocedasticidad condicional. Los pasos del test de Sargan son:

1. Estimar los parámetros de la ecuación (10.11) por MC2E utilizando los


̂i = β̂1 + β̂2 X 2i + β̂3 X3i .
instrumentos propuestos. Calcular Y
̂i .
2. Calcular ei = 𝑌𝑖 − Y
3. Regresionar ei sobre todos los instrumentos X2i , 𝑊1𝑖 , … , 𝑊𝑚𝑖 .
4. Hallar el estadístico F que contrasta la hipótesis que los coeficientes de
𝑊1𝑖 , … , 𝑊𝑚𝑖 son iguales a cero.
5. Bajo la hipótesis nula de instrumentos exógenos, el valor J = m. F se distribuye
asintóticamente como un χ2 (m − 1). Si J supera al valor crítico respectivo, se
rechaza la hipótesis nula de instrumentos exógenos; si es inferior se acepta la
nula.

El test de Hansen, que es consistente con heterocedasticidad, es idéntico pero usando la


opción robust en los pasos 1 y 3. En el ejemplo 10.9 calculamos el estadístico de
Hansen.

13
Sargan, J. (1958). The estimation of economic relationships using instrumental variables. Econometrica
26(3): 393–415.
14
Hansen, L. (1982). Large sample properties of generalized method of moments estimators.
Econometrica 50(3): 1029–1054.

286
Ejemplo 10.9: En el ejemplo 10.7 es posible aplicar el test de Sargan (o Hansen) por ser
un caso con más instrumentos que regresores endógenas (llamado caso
sobreidentificado). En la Tabla 10.6 se presenta este test de endogeneidad de los
instrumentos de Hansen, realizado en forma manual.

Tabla 10.6
Test de exogeneidad de los instrumentos

. quietly ivreg2 rend_mat (nhermanos = difdist radio) sexo edad intemate_s nivpadre2-ni
> vpadre9 libros [aweight=pesomate], r

. predict resid, resid


(309 missing values generated)

. quietly reg resid sexo edad intemate_s nivpadre2-nivpadre9 libros difdist radio if ar
> ea==1 [aweight=pesomate],r

. test (difdist=0) (radio=0)

( 1) difdist = 0
( 2) radio = 0

F( 2, 8716) = 0.50
Prob > F = 0.6067

. scalar J=2*r(F)

. di J
.99944605

El estadístico J = m. F de Hansen, con m = 2 en este caso, se distribuye asintóticamente


como un Chi-cuadrado con un grado de libertad. El valor crítico es al 5% de
significancia es χ20.95 (1) = 3.84, con lo cual no se puede rechazar la hipótesis nula que
los instrumentos no están correlacionados a la perturbación de la ecuación original, y
que fueron correctamente excluidos de esa ecuación. Cabe mencionar que el paquete
ivreg2 calcula por defecto el estadístico de Hansen/Sargan según se puede observar
en la Tabla 10.3. El valor calculado por ivreg2 es 0.998, muy cercano al cálculo
manual que hemos hecho en este ejemplo. Por último, vale la pena hacer la salvedad
que este test es de significancia conjunta, y por lo tanto si se rechazara la hipótesis nula,
esto no significa que todos los instrumentos sean inválidos, sino que por lo menos uno
de ellos no es exógeno.

10.5 Test de Endogeneidad

Aunque teóricamente podríamos sospechar que exista endogeneidad de alguno de los


regresores, se puede hacer una prueba estadística que confirme o rechace la hipótesis
que un regresor sea endógeno. Para este objetivo podemos usar el ampliamente
conocido Test de Hausman. Este test parte del principio de comparar dos estimadores

287
que se comportarían en forma distinta de ser cierta o no la hipótesis nula que van a
probar. En el caso que nos ocupa, los estimadores alternativos son el de MCO y el de
MC2E (variables instrumentales). Si todos los regresores son exógenos (hipótesis nula),
entonces tanto MCO como MC2E son consistentes pero MCO es más eficiente. Por otro
lado, si hay regresores endógenos (hipótesis alternativa), solamente MC2E es
consistente. Luego, el estadístico H de Hausman responde a la siguiente formulación.
̂MCO y 𝛃
Sea 𝛃 ̂VI los vectores de estimadores mencionados con sus respectivas matrices
̂MCO) y Var(𝛃
de varianzas y covarianzas Var(𝛃 ̂VI ); el estadístico debido a Hausman
(1978) es15

H = n. (𝛃 ̂ MCO)′D−(𝛃
̂VI − 𝛃 ̂VI − 𝛃
̂MCO)

̂VI ) − Var(𝛃
donde D = Var(𝛃 ̂MCO), y D− es la inversa generalizada de D. Bajo la nula,

H se distribuye asintóticamente como una Chi cuadrado con un grado de libertad (el
número de regresores endógenos). Valores pequeños de H nos llevarían a pensar que no
hay mucha variación entre los estimadores por ambos métodos, y por ello sería
conveniente usar MCO en vez de MC2E (los regresores son exógenos).

Ejemplo 10.10: Para realizar el test de Hausman en Stata en los ejemplos anteiores,
realizamos estimaciones de los parámetros y de las matrices de varianzas y covarianzas.
Luego se construye el estadísticos de Hausman. En la Tabla 10.7 realizamos los pasos,
en donde se obtiene que la diferencia entre los coeficientes MCO y MC2E es
significativa, lo cual es una señal que el estimador MCO está siendo sesgado por la
endogeneidad del regresor.

15
Hausman, J. (1978). Specification tests in econometrics. Econometrica 46(6): 1251–1271. Seguimos la
exposición de Baum, Schaffer y Stillman (2003). Instrumental Variables and GMM: Estimation and
Testing. Stata Journal, Vol 3, N°1, pp. 1-31.

288
Tabla 10.7
Test de Hausman de endogeneidad de los regresores

. quietly ivreg2 rend_mat (nhermanos = difdist radio) sexo edad intemate_s ///
> nivpadre2-nivpadre9 libros [aweight=pesomate]

. estimates store mc2e

.
. quietly regress rend_mat nhermanos sexo edad intemate_s ///
> nivpadre2-nivpadre9 libros [aweight=pesomate]

. estimates store mco

. hausman mc2e mco

Coefficients
(b) (B) (b-B) sqrt(diag(V_b-V_B))
mc2e mco Difference S.E.

nhermanos -63.53589 -4.431506 -59.10438 8.555501


sexo -.9330565 6.709149 -7.642206 2.638248
edad 15.81968 -10.56358 26.38327 4.046525
intemate_s .0631135 .0608726 .002241 .0121753
nivpadre2 28.32448 8.698061 19.62642 9.955941
nivpadre3 13.02443 1.832112 11.19232 9.579019
nivpadre4 -22.0832 10.77988 -32.86308 10.45669
nivpadre5 -31.66592 17.72629 -49.39222 11.65325
nivpadre6 -46.41154 28.89167 -75.30321 14.73573
nivpadre7 -36.22611 32.03655 -68.26266 13.76363
nivpadre8 -24.2048 46.40369 -70.60848 14.63971
nivpadre9 -27.50585 59.66473 -87.17058 15.82158
libros 5.864934 4.665833 1.199101 .8341126

b = consistent under Ho and Ha; obtained from ivreg2


B = inconsistent under Ha, efficient under Ho; obtained from regress

Test: Ho: difference in coefficients not systematic

chi2(13) = (b-B)'[(V_b-V_B)^(-1)](b-B)
= 47.73
Prob>chi2 = 0.0000

289
Apéndice 10.1

Consistencia de la covarianza muestral SXZ.

Demostraremos que PlimSXZ = 𝜎𝑋𝑍 . Supongamos que E[X] = μX y E[Z] = μZ . La


covarianza muestral es

∑(Xi − ̅
X)(Zi − Z̅) ∑[(Xi − μX ) + (μX − ̅
X)][(Zi − μZ ) + (μZ − Z̅)]
SXZ = =
n−1 n−1

1
= ∑[(Xi − μX )(Zi − μZ ) + (X i − μX )(μZ − Z̅) + (μX − ̅
X)(Zi − μZ ) + (μX
n−1
−̅X)(μZ − Z̅)]

n 1 n 1
= ( ∑(Xi − μX )(Zi − μZ )) + ( ∑(Xi − μX )(μZ − Z̅))
n−1 n n−1 n
n 1 n 1
+ ( ∑(μX − ̅ X)(Zi − μZ )) + ( ∑(μX − ̅ X)(μZ − Z̅))
n−1 n n−1 n

n 1 n
= ( ∑(Xi − μX )(Zi − μZ )) + ̅ − μX )(μZ − Z̅))
((X
n−1 n n−1
n n 1
+ ((μX − ̅X)(Z̅ − μZ )) + ( ∑(μX − ̅ X)(μZ − Z̅))
n−1 n−1 n

luego, tomado Plim,

n 1
PlimSXZ = lim ( ) . {Plim ( ∑(Xi − μX )(Zi − μZ ))
n→∞ n − 1 n
̅) − μX )(μZ − Plim(Z̅)) + (μX − Plim(X
+ (Plim(X ̅))(Plim(Z̅) − μZ )}

Como Plim(̅
X) = μX y Plim(Z̅) = μZ, aplicando la ley débil de los grandes números
ocurre que

PlimSXZ = E[(Xi − μX )(Zi − μZ )] = Cov(X, Z)

Apéndice 10.2

Variables Instrumentales en el modelo de k variables

290
En este apéndice vamos a generalizar lo que se obtuvo en la sección 10.3. Consideremos
el modelo lineal de k variables 𝐲 = 𝐗𝛃 + 𝐮 en donde algunos de los regresores están
correlacionados con 𝐮 (regresores endógenos) mientras que otros no lo están (regresores
estrictamente exógenos). Supongamos que contamos con 𝑙 variables instrumentales 𝐙 =
[Z1 , Z2 , … , Z𝑙 ], donde algunas de las variables en 𝐙 podrían ser las mismas que los
regresores exógenos. Esta matriz 𝐙 es de dimensión n × 𝑙.

Las condiciones de las variables instrumentales son:

(a) Condición de relevancia: Las variables en 𝐙 están correlacionadas con los regresores
en 𝐗,

(b) Condición de exogeneidad o exclusión: Las variables en 𝐙 no están correlacionadas


con la perturbación 𝐮.

1
Premultiplicamos el modelo lineal por ( ) 𝐙 ′ , y luego tomando Plim16,
𝑛

1 ′ 1 1
𝐙 𝐲 = 𝐙 ′𝐗𝛃 + 𝐙 ′𝐮
𝑛 𝑛 𝑛

1 1 1
Plim ( 𝐙 ′𝐲) = Plim ( 𝐙 ′ 𝐗) 𝛃 + Plim ( 𝐙 ′𝐮)
𝑛 𝑛 ⏟ 𝑛
=0 pues no están
correlacionados

1 1
Plim ( 𝐙 ′𝐲) = Plim ( 𝐙 ′𝐗) 𝛃 (A.10.1)
𝑛 𝑛

1
Observando las dimensiones de las matrices en (A.10.1), Plim (𝑛 𝐙 ′𝐗) es de dimensión
1
𝑙 × 𝑘, y Plim (𝑛 𝐙 ′𝐲) es de dimensión 𝑙 × 1. Si 𝑙 = 𝑘, es decir si el número de variables
1
instrumentales es igual al número de regresores del modelo, entonces Plim (𝑛 𝐙 ′ 𝐗) sería

una matriz cuadrada de dimensión k × 𝑘 y de rango lleno en ausencia de


multicolinealidad en 𝐗 y en 𝐙. Luego de (A.10.1) se puede despejar sin problemas al
vector 𝛃 obteniéndose,

1 −1 1
𝛃 = [Plim (𝑛 𝐙 ′ 𝐗)] Plim (𝑛 𝐙 ′𝐲). (A.10.2)

El estimador de variables instrumentales que es un estimador consistente de 𝛃 es


16
White (1984), Cap. 1.

291
̂VI = (𝐙 ′𝐗)−1 𝐙 ′𝐲
𝛃 (A.10.3)

pues la aplicación de Plim a (A.10.3) reproduce a (A.10.2). Este es un estimador


consistente (por definición) aunque sesgado en muestras pequeñas. Cuando 𝑙 = 𝑘 (caso
̂ VI es
exactamente identificado), la distribución asintótica de 𝛃

̂VI ~𝒂 𝑵(𝛃, σ2 𝐐−1


𝛃 −1
ZX 𝐐ZZ𝐐XZ )

1 1
donde 𝐐ZX = Plim (𝑛 𝐙 ′ 𝐗), y 𝐐ZZ = Plim (𝑛 𝐙 ′ 𝐙). En la práctica, la varianza asintótica
𝐞𝐞 ′
̂VI se estima con 𝐴𝑉𝑎̂𝑟(𝛃
de 𝛃 ̂VI) = σ
̂2 (𝐙 ′ 𝐗)−1 (𝐙 ′𝐙)(𝐗 ′ 𝐙)−1, con σ
̂2 = .
n

El estimador de Mínimos Cuadrados Ordinarios es un caso particular de Variables


Instrumentales cuando 𝐙 = 𝐗 siempre y cuando los 𝐗 no están correlacionados con u ,
tal como se puede comprobar directamente en la ecuación (A.10.3).

Nótese que  (número de instrumentos) no puede ser menor que k (número de


regresores) pues, si ese fuera el caso, el rango de (𝐙 ′𝐗) sería menor que k y no existiría
su inversa. En el caso 𝑙 > 𝑘 (caso sobreidentificado), en la ecuación (A.10.1) la matriz
1
𝐐ZX = Plim (𝑛 𝐙 ′𝐗) no es cuadrada.

Apéndice 10.3

Mínimos Cuadrados en Dos Etapas con más de un regresor endógeno

Partiendo de un modelo lineal con k variables, supongamos que las primeras k 1


variables no presentan ningún tipo de correlación con el término de perturbación, pero
las siguientes k2 = 𝑘 − 𝑘1 sí presentan correlación. En forma explícita,

Yi = β
⏟1 + β2 X2i + ⋯ + βk1 X k1 i + β
⏟(k1+1 ) X(k1 +1)i + βkXk + ui (A.10.4)
(no correlacionados con ui ) (correlacionados con ui )

lo que matricialmente se puede presentar como

𝐲 = 𝐗1 𝛃1 + 𝐗 2 𝛃2 + 𝐮 (A.10.4’)

en donde 𝐗1 es una matriz n × 𝑘1 y 𝐗 2 es una matriz n × 𝑘2 , donde Cov(𝐗1 , 𝐮) = 𝟎 y


Cov(𝐗 2 , 𝐮) ≠ 𝟎.

292
Al igual que en el Apéndice 10.2, supongamos que contamos con  variables
instrumentales 𝐙, las que se dividen en dos tipos, 𝐙 = [𝐗1 | 𝐖], en donde queda
explícito que se consideran a las variables 𝐗1 no correlacionadas con la perturbación
(llamadas instrumentos incluidos en la regresión), y a un nuevo grupo de m variables 𝐖
que cumple las condiciones de relevancia y exogeneidad de las variables instrumentales.
Estas variables son llamadas instrumentos excluidos de la regresión pues no figuran en
la ecuación (A.10.4).

Haciendo un conteo simple de las variables en 𝐗 y 𝐙 tenemos que en total tienen k =


𝑘1 + 𝑘2 y 𝑙 = 𝑘1 + 𝑚 variables respectivamente. Se requiere que 𝑙 ≥ k, y por lo tanto
esta condición es equivalente a 𝑚 ≥ k2 . En palabras, se necesita que el número de
instrumentos excluidos de la ecuación principal sea mayor o igual que el número de
regresores endógenos.

Habiendo definido a las variables pertinentes, el procedimiento de estimación de


Mínimos Cuadrados en Dos Etapas para el caso de más de un regresor endógeno es el
siguiente:

Primera Etapa: Regresionar por MCO cada uno de los “regresores endógenos” 𝐗 2
contra todas las variables en 𝐙 = [𝐗1 | 𝐖]. Explícitamente se realizan 𝑘2
regresiones

X(k1 +1)i = γ1 + γ2 X2i + ⋯ + γk1 Xk1 i + γ(k1 +1)W1i + γ(k1 +2)W2i + ⋯ + γk Wmi + ξ1i

X(k1 +2)i = γ1 + γ2 X2i + ⋯ + γk1 Xk1 i + γ(k1 +1) W1i + γ(k1 +2) W2i + ⋯ + γk Wmi + ξ2i

X(k1 +k2 )i = γ1 + γ2 X2i + ⋯ + γk1 Xk1 i + γ(k1 +1) W1i + γ(k1 +2) W2i + ⋯ + γk Wmi + ξk2 i

̂(k +1)i , X
y se calculan las predicciones X ̂(k +2)i , … , X
̂(k +k )i . En forma matricial, las
1 1 1 2

regresiones de escriben como

𝐗 2 = 𝐗1 𝛄1 + 𝐖𝛄2 + 𝐯 = 𝐙𝛄 + 𝐯 (A.10.5)

El estimador MCO de (A.10.5) es 𝛄̂ = (𝐙 ′𝐙)−1 𝐙 ′𝐗 2 , y las predicciones se resumen en


la matriz

̂2 = 𝐙(𝐙 ′𝐙)−1 𝐙 ′𝐗 2 = 𝐏𝒁 𝐗 𝟐
𝐗 (A.10.6)

293
donde 𝐏𝑍 = 𝐙(𝐙 ′𝐙)−1 𝐙 ′ es la matriz de proyección.

̂2 en lugar de 𝐗 2 en la ecuación (A.10.4) o


Segunda Etapa : Utilizar a las predicciones 𝐗
(A.10.4’) y estimar por mínimos cuadrados ordinarios la ecuación

̂ 2 𝛃2 + 𝛈.
𝐲 = 𝐗1 𝛃1 + 𝐗 (A.10.7)

̂ = [𝐗1
Si llamamos 𝐗 | ̂2 ], el estimador MCO del vector de parámetros 𝛃 en
𝐗
(A.10.7) es el estimador MC2E,

̂𝑴𝑪𝟐𝑬 = (𝐗
𝛃 ̂)−𝟏 𝐗
̂′ 𝐗 ̂𝐲 (A.10.8)

el cual es un estimador sesgado pero consistente de 𝛃.

̂ = [𝐗 1
Notemos que 𝐗 ̂ 2 ] = [𝐗
| 𝐗 ̂1 | ̂1 = 𝐙(𝐙 ′𝐙)−1 𝐙 ′ 𝐗 𝟏 = 𝐏𝑍 𝐗1 =
̂2 ] donde 𝐗
𝐗
𝐗1 es la proyección de las regresiones de 𝐗1 contra 𝐙, y que es igual a 𝐗1 pues 𝐙
̂=
contiene a estas variables17. Con este resultado y (A.10.6) se tiene 𝐗
[𝐏𝑍 𝐗1 | 𝐏𝑍 𝐗 2 ] = 𝐏𝑍 𝐗. Luego reemplazando este resultado en (A.10.8),

̂ 𝑴𝑪𝟐𝑬 = (𝐗 ′ 𝐏𝐙 𝐗)−1 𝐗 ′ 𝐏𝐙 𝐲 = (𝐗 ′ 𝐙(𝐙 ′𝐙)−1 𝐙 ′𝐗)−1 𝐗 ′ 𝐙(𝐙 ′𝐙)−1 𝐙 ′ 𝐲 = 𝛃


𝛃 ̂VI (A.10.9)

Nótese que (A.10.9) es más general que lo presentado en el apéndice anterior pues es
válido para 𝑙 ≥ k. Si 𝑙 = k, (A.10.9) se reduce a (A.10.3).

Apéndice 10.4

̂ = [𝐗1
Mostraremos que 𝐗 | ̂ 2 ] = [𝐗
𝐗 ̂1 | ̂2 ]. Si regresionamos 𝐗1 contra 𝐙.
𝐗

𝐗1 = 𝐙𝛂 + 𝛆
𝐗1 = 𝐗1 𝛂1 + 𝐙2 𝛂2 + 𝛆

Los estimadores MCO aplicando el teorema de Frisch-Waugh son

̂1 = (𝐗1′ 𝐌Z 𝐗1 )−1 𝐗1′ 𝐌Z 𝐗1 = 𝐈


𝛂 𝐌Z = 𝐈 − 𝐙𝟐 (𝐙𝟐′ 𝐙𝟐 )−1 𝐙𝟐′
̂ 2 = (𝐙2′ 𝐌X𝐙2 )−1 𝐙2′ 𝐌X 𝐗1 = 𝟎
𝛂 𝐌X = 𝐈 − 𝐗1 (𝐗1′ 𝐗1 )−1 𝐗1′

Por lo tanto,

17
En el Apéndice 10.4 se muestra este resultado en detalle.

294
̂1 = 𝐗1 𝛂
𝐗 ̂ 1 + 𝐙2 𝛂
̂ 2 = 𝐗1
̂1 = 𝐙(𝐙 ′𝐙)−1 𝐙 ′𝐗1 = 𝐏Z𝐗1 = 𝐗1 𝛂
𝐗 ̂ 1 + 𝐙2 𝛂
̂ 2 = 𝐗1

Apéndice 10.5

Verificación de la relevancia de los regresores en el caso de múltiples regresores


endógenos

Para el caso de múltiples regresores endógenos, la “regla de oro” de la prueba F no es


apropiada. Sin embargo existe una generalización del test F elaborado por Stock and
Yogo (2002)18 que consiste en el menor valor propio de la matriz m m de Cragg y
Donald (1993) 19

̂ −1/2′𝛄̂′2 𝐙 ⊥′𝐙 ⊥𝛄̂2 ∑


𝐆n = ∑ ̂ −1/2
VV VV


̂ VV = 𝐗 ⊥
en donde 𝐙 ⊥ = 𝐌𝐗1𝐙, 𝐌𝐗1 = 𝐈 − 𝐗1 (𝐗1′ 𝐗1 )−𝟏 𝐗1′ , ∑ ⊥ ⊥
2 𝐌Z⊥ 𝐗 2 /(n − m), 𝐗 2 =

𝐌𝐗1 𝐗 𝟐 y n es el número de observaciones. Cuando el mínimo valor propio es mayor


que los valores críticos calculados por los autores, la hipótesis nula de instrumentos
débiles se rechaza.

18
Stock, James y Motohiro Yogo (2002), “Testing for weak instruments in linear IV regressions”, NBER
Technical Working Paper N° 284, Cambridge, MA.
19
J.S. Cragg y S.G. Donald, “Testing identifiability and specification in instrumental variable models,”
Econometric Theory 9, (1993): 222-240.

295
Ejercicios

10.1 Usted cuenta con datos de corte transversal para un gran número de empresas (n)
sobre la producción de ellas y los insumos utilizados. Con estos datos se desea
estimar la función de producción Yi = β0 + β1 Xi + ui donde Yi
=log(producto de la empresa i) y Xi =log(insumos de la empresa i). Suponga que
1
usted estima por MCO este modelo asumiendo que Plim (n 𝐗 ′ 𝐮) = 𝟎 y
1
Plim (n 𝐗 ′ 𝐗) = 𝐐𝑋𝑋 , una matriz positiva definida, finita, y no estocástica.
1
Un amigo suyo piensa que el supuesto Plim ( 𝐗 ′ 𝐮) = 𝟎 no se cumple pues el
n

término de perturbación contiene características de la empresa no observables y


que están correlacionadas con X.
a. Si su amigo está en lo correcto, ¿qué ocurrirá con la consistencia del
estimador β̂ de MCO? Muestre su respuesta con ecuaciones.
b. Su amigo ha encontrado dos índices de precios para los insumos, Z. Estos
índices están correlacionados con la variable “insumos” pero no con las
características no observables de las empresas (no correlacionados con u). Si
1
además Plim (n 𝐙 ′ 𝐗) = 𝐐ZX, una matriz finita, fija y diferente de cero. Defina

un estimador de VI β̂VI = (𝐙 ′𝐗)−𝟏 𝐙 ′ 𝐲. ¿Es consistente este estimador?


Muestre su respuesta con ecuaciones apropiadas.

10.2 Dado los siguientes modelos

Modelo completo : yi = β0 + β1 Xi + β2 Di + β3 Zi + ui
Modelo incompleto : yi = β0 + β1 Xi + β2 Di + ξi

a. Qué problemas presenta si se estima el segundo modelo (incompleto)


Justifique su respuesta.
b. Si se sabe que D es una variable endógena Di = γ0 + γ1 Zi + vi . ¿Qué
problemas presenta el estimador de MCO del modelo incompleto?
c. ¿Cómo se puede solucionar el problema de la pregunta anterior?
10.3 En el siguiente modelo, se estudia la relación entre el salario y los años de
educación del individuo.
Yi = β0 + β1 Si + β2 Ei + ui
Ei = γ0 + γ1 A1 + vi
296
donde Yi es el salario per cápita del individuo, Si es el sexo del individuo y Ei
son los años de educación. Según la teoría económica existe un problema de
endogeneidad en la variable educación Ei ¿Cuál de los siguientes instrumentos
soluciona dicho problema?: Educación de los padres, Distancia a la escuela o
universidad, Mes de nacimiento.
10.4 Considere el siguiente modelo bivariado yi = β1 + β2 Xi + ui donde se cree que X
es endógena. Se tiene un instrumento Z que es binario, y se calcula el estimador
de variables instrumentales de Wald definido como β̂IV (Durbin 1954; Wald
1940)20
∆y̅
β̂Wald
IV =
∆x̅
donde ∆y̅ ≡ y̅2 |Z=1 − y̅1 |Z=0 y ∆x̅ ≡ x̅2 − x̅1 . Pruebe la consistencia del
estimador de Wald.

10.5 Angrist y Krueger (1991)21 proponen, ante la existencia de un problema de


endogeneidad en variable educación en un modelo de ingresos, la introducción de
variables instrumentales “quarter of birth” y “year of birth”. Los autores estiman
las siguientes ecuaciones

lnWi = βX i + ∑ YIc ξc + ρEi + μi


c

Ei = πX + ∑Yi δc + ∑ ∑ Q ij Q jc + vi
c j

donde Ei es la educación del individuo i, Xi es el vector de covarianzas, Q i es una


variable dummy que indica el trimestre j en el que nació el individuo ( j =1,2,3) y
Yi es una variable dummy que indica el año de nacimiento c ( c =1,…,10),
finalmente Wi es el salario semanal. (Nota: en la regresión se incluyen 9 dummies,
año de nacimiento, trimestre de nacimiento y una dummy interactiva trimestre de
nacimiento x año de nacimiento).
a. Comente si los instrumentos elegidos son adecuados, además discuta si este
cumple la condición de exogeneidad.
b. La siguiente tabla muestra los resultados de Angrist y Krueger

20
Véase también Cameron y Trivedi (2005), pág. 39.
21
Angrist y Krueger (1991) pp. 1000

297
MCO VI
Coeficiente 0.063 0.081
Error Estándar (0.000) (0.016)
F(instrumentos excluidos) -- 4.747

Discuta la validez de los instrumentos elegidos por los autores. Justifique su


respuesta.
c. Bound, Jaeger y Beker (1995)22 critican la relevancia de los instrumentos usados
por Angrist y Krueger (1991). Reestiman el modelo incluyendo como
instrumentos excluidos solamente a las dummies de trimestre “quarter of birth”.
Además incluyen la edad y edad al cuadrado como variables exógenas.

MCO VI
Coeficiente 0.063 0.142
Error Estándar (0.000) (0.033)
F (instrumentos excluidos) 13.486

¿Considera que el instrumento elegido por los autores es válido? Justifique su


respuesta.
10.6 De acuerdo a la evidencia empírica, existe un trade off entre el tamaño de la
familia y el logro educacional de los niños; es decir, las familias que tienen
muchos niños podrían tener menos educación. Black, Devereux y Salvanes
(2005)23, estudian el efecto causal del tamaño de la familia sobre los logros
educativos de los niños usando los datos de la población de Norway. Para ello
usan twin como variable instrumental para el tamaño de la familia.
El uso de la variable twin births fue estudiado por primera vez por Rosenzweig y
Wolpin (1980). Estos autores señalan que el nacimiento de gemelos no es
planeado y de ahí su condición de exógena. Las ecuaciones son las siguientes:
ED = β0 + β1 FAMSIZE + Xβ2 + μi
FAMSIZE = α0 + α1 TWIN + Xα2 + νi
donde ED es la educación del niño(a), FAMSIZE es el total de números de niños
en la familia y Xi es el vector de control. La variable TWIN será igual a 1 si nace
un gemelo y 0 si solo nace un niño.

22
Bound, Jaeger y Beker (1995) pp. 447- 448
23
Black, Devereux y Salvanes (2005) pp. 681

298
a. Discuta la validez del instrumento elegido.
b. Por otro lado, los autores usan otra variable instrumental SAME SEX para
FAMSIZE, que toma el valor de 1 si los dos primeros niños de una familia son
del mismo sexo, y 0 si son de sexo distinto. Discuta las ventajas y desventajas
de este instrumento con respecto a TWIN.
10.7 En el Ejemplo 10.6, comprobar que el instrumento Z ≡ it−2 − πt−1 está
correlacionado con el regresor pero no está correlacionado con la perturbación del
modelo estimable Δ𝑆𝑡 = β1 + β2 (it−1 − πt ) + 𝑤𝑡 .

299

You might also like