Professional Documents
Culture Documents
Capitulo 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 2e Liibro
Capitulo 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 2e Liibro
En este capítulo nos ocuparemos de estudiar la relación entre dos variables económicas,
en donde una de ellas depende de la otra. Aunque los modelos económicos suelen
involucrar a más de dos variables, empezaremos con un modelo simple que solo
considera a estas dos variables, asumiendo que la influencia de cualquier otra variable
es irrelevante o no interfiere en la relación entre estas. Este análisis sencillo será de
mucha utilidad para la presentación de conceptos econométricos importantes, los cuales
serán extendidos más adelante en el capítulo 4 sobre el modelo multivariado.
No obstante, es muy frecuente que tales asociaciones no sean tan perfectas cuando se
presentan datos de la vida real en forma visual mediante gráficos de dispersión. De
hecho, en economía ni siquiera las llamadas “leyes económicas” se cumplen a la
perfección mostrando siempre relaciones imperfectas y contaminadas por otros
elementos no tomados en cuenta por la teoría.
¿Cómo podemos trabajar con este tipo de relaciones empíricas? En el lado derecho de la
figura 1.1 se muestra una relación estadística, tal como se encuentra con observaciones
reales. Mientras que los modelos económicos muestran relaciones determinísticas, los
datos reales muestran relaciones estadísticas. Por ejemplo, si X es el nivel educativo e Y
es el salario, se espera que exista una relación positiva, aunque es probable que no todas
las observaciones se ajusten a una recta. ¿Por qué ocurre esto? Quizás porque el salario
depende no solo de la educación sino que también puede depender de otros factores,
como la experiencia, la edad del trabajador, su sexo, etc. Todos esos factores afectan al
salario Y, y con lo cual la relación observada entre esta variable y la educación deja de
ser perfecta. En la modelación estadística de la relación entre X e Y nuestro objetivo es
9
proponer un modelo que reproduzca a la relación estadística descrita, en donde X ejerce
una fuerte influencia sobre Y pero donde también existen otros factores que alejan a las
observaciones de lo esperado teóricamente.
Figura 1.1
Relaciones determinísticas y estadísticas
Y Y
X X
Una relación determinística Una relación estadística
Adicionalmente, a los economistas no solo nos interesa describir las relaciones entre las
variables sino estudiar las posibles relaciones causales entre ellas. Por ejemplo, si un
consumidor observa que el precio de un bien se eleva, esto debería causar que el
consumidor adquiera menos unidades del bien. Sí más empresas ingresan a un mercado
ofreciendo un mismo bien (o un sustituto muy parecido), esto provocaría que las
empresas que operan en él tengan menores ganancias. También, si las personas
decidieran educarse más, esto causaría que la paga que obtengan en el mercado laboral
sea más alta. Por lo tanto, en la modelación de la relación entre dos variables
económicas deberíamos tener alguna idea de qué variable causa a cuál.
10
Bajo ciertas condiciones el análisis de regresión puede ser una herramienta útil para
analizar relaciones causales entre las variables económicas. Si podemos observar que
variaciones de la variable endógena 𝑌 son explicados por variaciones en las variables
exógenas 𝑋, podríamos suponer que hay ciertos indicios que la asociación entre 𝑋 e 𝑌
puede ir más allá de una mera asociación estadística, sino que podría estar
representando una relación causal. Al menos podemos pensar que si dos variables están
unidas por una relación de causalidad, al menos debería existir una asociación
estadística entre ellas. Sin embargo, observar que dos variables están asociadas
estadísticamente no necesariamente implica que exista una relación causal entre ellas.
La cuestión causal es importante para decidir cuál de las dos variables es la endógena.
Por ejemplo, imaginemos que analizamos el efecto de la cantidad de cierto fertilizante
sobre la producción de manzanas. Sin necesidad de mirar ningún dato podríamos
deducir teóricamente que existe una relación causal entre las cantidades de estas
variables, en donde esperaríamos que al aumentar la cantidad de fertilizantes esto
debería causar una mayor producción (obviamente sin exceder cierto límite que pueda
ser perjudicial para las plantas). Es obvio que más fertilizantes causan una mayor
producción y no que mayor producción provoca que se usen más fertilizantes.
11
una connotación causal cuando sea posible. Como veremos más adelante en este libro,
solo bajo ciertas condiciones es posible darle tal connotación al análisis de regresión.
(b) Utilizarlo como punto de referencia para modelos más generales que lo superen
tanto en la presentación de supuestos menos restrictivos y por lo tanto de alcance
más general, como en la aplicación de métodos de estimación distintos al
método preferido por el MRLC, que es el de Mínimos Cuadrados Ordinarios.
12
Antes de presentar los supuestos del modelo, vale la pena comentar algo más sobre las
observaciones que se utilizan en el trabajo econométrico. Se supone que se cuenta con
n observaciones de las variables aleatorias 𝑋 e 𝑌, es decir, tenemos 𝑛 pares (𝑌𝑖 , 𝑋𝑖 ),
donde i = 1, 2, …, n, siendo esta la forma típica de presentar los datos de corte
transversal. Cuando los datos son de series de tiempo, se suele colocar el subíndice t
señalando el correspondiente periodo, (𝑌𝑡 , 𝑋𝑡 ), para t = 1, … , T, mientras que si los
datos son de panel, se requiere indicar a la entidad y el periodo, (𝑌𝑖𝑡 , 𝑋𝑖𝑡 ).
Presentaremos el modelo en un contexto que sea común para datos de corte transversal
y de series de tiempo, aunque naturalmente surgirán propiedades y características del
modelo que son más aplicables a uno de los dos tipos de datos mencionados.
En el modelo que vamos a desarrollar, la muestra no tiene estos sesgos en el sentido que
en buena medida representa a la población, y de acuerdo a los supuestos que vamos a
plantear a continuación, esta muestra se comporta de forma muy parecida a una que se
hubiera obtenido de un muestreo aleatorio simple.
13
variables aleatorias idénticamente distribuidas, en donde lo observado es una
realización de cada una de las variables de esta secuencia. Según conveniencia se
utilizarán cualquiera de las dos interpretaciones.
En esta subsección vamos a presentar los principales supuestos del modelo de regresión
lineal clásico, cuya función es configurar las principales propiedades estadísticas de las
variables aleatorias. El modelo resultante debe reproducir la relación estadística entre
las variables 𝑋 e 𝑌.
𝑌𝑖 = 𝐹𝑅𝑃𝑖 + 𝑢𝑖 𝑖 = 1, … , 𝑛
En la expresión anterior, el subíndice i indica que para cada individuo i se cumple esta
propiedad.
𝑌𝑖 = 𝛽1 + 𝛽2 𝑋𝑖 + 𝑢𝑖 𝑖 = 1, … , 𝑛 (1.1)
La ecuación (1.1) nos dice que la Función de Regresión Poblacional (FRP) es una
función lineal de la variable aleatoria Xi , siendo por lo tanto 𝐹𝑅𝑃𝑖 = 𝛽1 + 𝛽2 𝑋𝑖 . Esta
ecuación resume en una expresión lineal la “verdadera relación” existente entre la
variable 𝑋 e 𝑌. En la ecuación (1.1), 𝛽1 y 𝛽2 son dos parámetros poblacionales que
deben ser estimados. 𝛽1 es el intercepto el cual multiplica al número 1 (la constante).
𝛽2 es el “efecto marginal”, “pendiente” o impacto de 𝑋 sobre 𝑌, 𝜕𝑌/𝜕𝑋.
14
En cuanto al término 𝑢𝑖 , es una variable aleatoria no es observable que captura a toda
aquellas variables que puedan afectar a la endógena 𝑌 pero que quedan fuera de la
“verdadera relación”, dejando claro que la relación entre 𝑋 e 𝑌 no es exacta. En sí
mismo, 𝑢𝑖 captura el efecto de cualquier otra variable sobre 𝑌 que no ha sido incluida en
la regresión.
Ejemplo 1.1: Considere el efecto que puedan tener los años de educación (𝑋) sobre los
salarios (𝑌). La teoría económica indica que al elevarse el nivel educativo de una
persona, la productividad marginal del trabajo debería elevarse. Luego, si en el mercado
de trabajo las empresas maximizan beneficios, en el equilibrio del mercado en ausencia
de imperfecciones, el salario recibido debería ser directamente proporcional a la
productividad del trabajo. Deberíamos de esperar una relación positiva entre el salario y
la educación. En la figura 1.2 representamos datos de 22,674 observaciones del
logaritmo ingresos por hora y los años de estudios de trabajadores dependientes de áreas
urbanas en el Perú, utilizando la Encuesta Nacional de Hogares 2016. Nótese que al
menos visualmente se aprecia una clara asociación positiva entre las variables, aunque
es evidente que existen muchos factores no considerados en esta asociación que
explican la variabilidad notable de los ingresos laborales, más allá de lo que pueda
explicar la variable años de educación. La línea continua muestra lo que podría ser la
verdadera relación entre la educación y los salarios.
15
Figura 1.2
Relación entre los años de educación y los ingresos laborales
La línea recta en la figura 1.2 es la recta de regresión poblacional, la cual según la teoría
debería tener a 𝛽2 > 0 indicando que mientras mayores sean los años de educación,
mayor debería ser la remuneración laboral. Esta recta es invisible para el investigador
pues contiene a los parámetros poblacionales 𝛽1 y 𝛽2. Cualquier desviación observada
respecto a la recta “teórica” es considerada como una perturbación. Simplificando lo
mostrado en la figura 1.2, la figura 1.3 nos muestra que las perturbaciones se calculan
verticalmente, y que para cada observación habrá un valor realizado de tal perturbación.
En la figura, el valor 𝑢1 > 0 es la perturbación realizada de un individuo, definido como
la diferencia entre el valor observado (el punto) y lo que según la teoría debería ser el
ingreso para una persona con esa educación (la recta). Para esta persona se observa está
ganando más de lo que la teoría predice para su nivel educativo. Por otra parte, el valor
𝑢2 es negativo, mostrando que –por alguna razón no explicada por el modelo– el
ingreso es más bajo que lo que teóricamente debería ocurrir para esta persona.
16
Figura 1.3
La recta de regresión poblacional y el término de perturbación
𝑢1 𝐸[𝑌𝑖 𝑋𝑖 ] = 𝛽1 + 𝛽2 𝑋𝑖
𝑢2
1
Una forma sencilla de probar la linealidad de la FRP es tomado derivadas parciales de esta función
respecto a los parámetros. Este vector de derivadas no debe depender de los β. Por ejemplo, para 𝑌𝑖 =
𝜕𝑌 𝜕𝑌𝑖
𝛽1 + 𝛽2 𝑋𝑖2 + 𝑢𝑖 , derivando se tiene que [𝜕𝛽𝑖 𝜕𝛽2
] = [1 𝑋𝑖2 ], luego, es lineal en parámetros. En el caso
1
𝛽 ∂Y ∂Yi ∂Yi 𝛽 𝛽
de 𝑌𝑖 = 𝛽1 + 𝛽2 𝑋𝑖 3 + 𝑢𝑖 se tiene que [∂β i ∂β2 ∂β3
] = [1 𝑋𝑖 3 𝛽2 𝑋𝑖 3 ln(𝑋𝑖 )] y por lo tanto no es
1
lineal en parámetros.
2
Otros modelos no lineales pueden ser linealizados mediante expansiones de Taylor. Sin embargo en este
libro no profundizaremos sobre esta alternativa.
17
Supuesto 2: La esperanza condicional del término de perturbación dados los valores de
𝑋 es igual a cero.
𝐸[𝑢𝑖 𝑋𝑖 ] = 0 𝑖 = 1, … , 𝑛 (1.2)
En términos simples, (1.2) dice que para algún valor dado de 𝑋𝑖 siempre esperaremos
que el valor esperado del término de perturbación sea cero. Si pensamos en qué
significa este supuesto en términos de las figuras 1.1 y 1.2, podemos hacer el ejercicio
de “fijar” un valor de los años de estudio y luego estudiar verticalmente cómo se
distribuyen todos los términos de perturbación posibles, alrededor de la recta. Por
ejemplo, en la figura 1.2 si observamos el nivel educativo 𝑋 = 6 años de educación
(primaria completa), podemos ver con claridad que algunos errores serán positivos,
otros negativos, pero en promedio se espera un valor cero de estos errores. Lo mismo
ocurre con, por ejemplo, 𝑋 = 11 (secundaria completa) y también para todos los valores
de 𝑋, y por lo tanto el supuesto 2 se cumple en ese ejemplo. Es altamente razonable
pensar que las observaciones de una muestra (los “puntos” de las figuras 1.2 y 1.3) por
lo general se encontrarán “alrededor” de la recta, salpicados aleatoriamente por encima
y por debajo, y a lo largo de la recta poblacional.
Evidentemente, la figura 1.4 muestra una relación curvada entre las variables 𝑋 e 𝑌, la
cual pudo haber sido modelada de mejor manera con el modelo 𝑌𝑖 = 𝛽1 + 𝛽2 𝑋𝑖 2 + 𝑢𝑖 ,
el cual es lineal en parámetros pero no lineal en 𝑋. Si en vez de ese modelo proponemos
una ecuación lineal en parámetros y variables, 𝑌𝑖 = 𝛽1 + 𝛽2 𝑋𝑖 + 𝑢𝑖 , como la línea recta,
nuestro modelo no se ajustará bien a los datos y por tanto no cumplirá con el supuesto 2.
En este caso se dice que el modelo está mal especificado, pues la forma funcional
propuesta no es la correcta. En capítulos posteriores discutiremos sobre algunas otras
formas de cometer error de especificación en los modelos propuestos.
18
Figura 1.4
Un caso donde no se cumple el Supuesto 2.
Volviendo al caso en que se cumple el supuesto 2, este supuesto equivale a decir que la
FRP es igual a 𝐸[𝑌𝑖 𝑋𝑖 ]. En el ejemplo que estamos presentando, el salario por hora
esperado para cada cantidad de años de educación es igual a lo que la regresión indica
que debería ser el salario para esa cantidad de años de educación. Dada la ecuación del
modelo econométrico (1.1), tomamos el valor esperado condicional tenemos:
𝐸[𝑌𝑖 𝑋𝑖 ] = 𝐸[𝛽1 + 𝛽2 𝑋𝑖 + 𝑢𝑖 𝑋𝑖 ] = 𝛽1 + 𝛽2 𝑋𝑖 + ⏟
𝐸[𝑢𝑖 𝑋𝑖 ]
=0
𝐸[𝑌𝑖 𝑋𝑖 ] = 𝛽1 + 𝛽2 𝑋𝑖 (1.3)
En términos gráficos, el supuesto 2 implica que la recta de regresión pasa por las medias
condicionales de 𝑌 dado 𝑋.
19
𝐸[𝑋𝑖 𝑢𝑖 ] = 0, es decir 𝑋𝑖 y 𝑢𝑖 son “ortogonales” en el sentido estadístico.
De la definición de covarianza,
Como los valores esperados no son aleatorios, el operador 𝐸[. ] se aplica solo a
las variables. Luego,
Este último resultado es muy importante. Bajo el supuesto 2 del modelo clásico no debe
existir ningún tipo de covarianza ni correlación entre el regresor 𝑋𝑖 y el error 𝑢𝑖 .
Pensemos por un momento en el ejemplo sobre la educación y los salarios. En 𝑢𝑖 se
incluye a cualquier otro factor que afecta a los salarios, como por ejemplo, la
experiencia laboral, las habilidades, la edad, el sexo, etc. El supuesto 2 implica que la
variable X años de educación no se relaciona con ninguna de estas variables que se
encuentran en u. En caso que pudiera existir algún tipo de correlación –como podría
ocurrir en el caso de la educación y las habilidades–, entonces no se cumpliría este
supuesto.
20
E[𝑢𝑖 𝑋𝑖 ] no es una función de Xi , mientras que en la figura 1.4 𝐸[𝑢𝑖 𝑋𝑖 ] sí cambia con
los valores de 𝑋𝑖 .
Supuesto 3: Las perturbaciones son “esféricas”. Con este término nos referimos a dos
características de la distribución de u.
En términos del ejemplo 1.1 y la figura 1.2, condicionando o fijando un valor de años
de estudio, digamos 10 años, la distribución condicionada de 𝑢 muestra una varianza
igual a 𝜎 2 . Esta varianza debería ser la misma si condicionamos a diferentes valores de
𝑋, por ejemplo, para personas con 5 o 10 años de educación. En realidad en la figura 1.2
se observa que la dispersión de las perturbaciones es ligeramente mayor cuando 𝑋 = 11
y cuando 𝑋 = 16. No obstante, asumamos que la varianza se mantiene constante,
dejando para un capítulo posterior el caso en que la varianza pueda variar con 𝑋𝑖 .
3
En el apéndice de este capítulo se presenta información adicional sobre el supuesto 2, cuya lectura es
opcional.
21
mantiene constante a lo largo de la recta, es decir para cada valor de Años de
Educación.
Figura 1.5
Homocedasticidad
Densidad
Remuneraciones
5
𝐸[𝑌𝑖 𝑋𝑖 ] = 𝛽1 + 𝛽2 𝑋𝑖
10
15
𝑋
Años de educación
La otra parte del supuesto que dice que 𝐶𝑜𝑣(𝑢𝑖 , 𝑢𝑗 |𝑋𝑖 , 𝑋𝑗 ) = 0 lleva el nombre de “no
autocorrelación” o “no correlación serial”. Simplemente señala que las variables
aleatorias 𝑢𝑖 y 𝑢𝑗 , correspondientes a dos individuos distintos con características 𝑋𝑖 y
𝑋𝑗 , presentan una covarianza o correlación nula.
Este supuesto tiene connotaciones distintas según estemos trabajando con datos de corte
transversal o de series de tiempo. Tal como está planteado se aplica mejor para datos de
corte transversal. Por ejemplo, si tenemos una muestra de 𝑛 personas, la no
autocorrelación implica que la perturbación de cada persona no se relaciona con la de
ninguna otra persona. Sabiendo que la perturbación 𝑢𝑖 incluye a variables no
observables tales como las habilidades, preferencias, actitudes, costumbres, etc., el
supuesto de no autocorrelación afirma que estas variables no están relacionadas entre
22
ningún par de individuos. En la práctica este supuesto no se cumple con frecuencia, tal
como se verá en el Capítulo 9. Por ejemplo, en una muestra de personas a nivel
nacional, puede ocurrir que grupos de personas de alguna región en particular
compartan costumbres, actitudes, creencias religiosas, etc., y por lo tanto sería probable
que la covarianza entre los errores de dos individuos de la misma región no sea igual a
cero.
𝐶𝑜𝑣(𝑢𝑡 , 𝑢𝑠 𝑋𝑡 , 𝑋𝑠 ) = 0 ∀𝑡 ≠ 𝑠
Recordar que con series de tiempo se tiene datos de un mismo individuo en diferentes
periodos. Por ello la no autocorrelación se refiere a que las perturbaciones de distintos
periodos 𝑡 y 𝑠 no están relacionadas, para cualquier par de periodos 𝑡 y 𝑠, sin importar
qué valores tome la variable aleatoria X. En el Capítulo 9 se verá que este supuesto
podría no cumplirse en series de tiempo, en donde la perturbación 𝑢𝑡 es una alteración o
shock que afecta a 𝑌 y que no ha sido explicada por el regresor 𝑋. Si ocurre un shock
que dure varios periodos y que lentamente se vaya diluyendo, entonces existirá algún
tipo de correlación entre perturbaciones de diferentes periodos.
Asumir que los 𝑋 son fijos quiere decir que en repetidas muestras de 𝑋, los valores
obtenidos 𝑋1 , 𝑋2 , … , 𝑋𝑛 van a ser siempre los mismos, es decir, dejan de ser aleatorios.
Es decir, si obtenemos muchas muestras de tamaño n de los años de estudio, siempre
obtendríamos los mismos valores.
23
Supuesto 3a: 𝑉𝑎𝑟(𝑢𝑖 ) = 0
𝐶𝑜𝑣(𝑢𝑖 , 𝑢𝑗 ) = 0.
El modelo tiene más supuestos que por el momento no vamos a mencionar pues no es
necesario para lo que se desarrolla en las siguientes secciones.
Con estos supuestos hemos definido al modelo de regresión lineal clásico, que para
fines económicos pretende expresar mediante relaciones estadísticas a las relaciones de
causalidad entre dos variables. Sin embargo, aún es de poca utilidad dado que los
parámetros que lo componen no son observables por el investigador. En el siguiente
capítulo vamos a ver de qué manera podemos tener una aproximación empírica basada
en datos de este modelo, y cómo podríamos obtener estimaciones de los parámetros que
lo componen.
Otro aspecto que vale la pena resaltar es que, en el modelo econométrico, estamos
diciendo explícitamente que la variable 𝑋 afecta o causa a 𝑌. En ese sentido, para fines
económicos no tiene sentido que invirtamos la ecuación (1.1) y digamos que el efecto
de 𝑌 sobre 𝑋 es 1/𝛽2 . Aunque en términos estadísticos podríamos decir que
efectivamente 𝑋 y 𝑌 están asociadas y que estadísticamente hablando cada vez que 𝑌
varía se observa en promedio una variación de 1/𝛽2 en X, en términos económicos la
expresión 1/𝛽2 no tienen ningún sentido pues nuestra teoría económica nos dice
claramente qué variable es la exógena y cuál es la endógena, y que las exógenas causan
a las endógenas y no al revés.
Otro asunto que vale la pena mencionar es sobre las demás variables que afectan a la
endógena. No queremos decir que X sea la única variable que causa a 𝑌, de hecho
reconocemos que existen otros factores, los cuales están incluidos en la perturbación. El
diagrama de flechas de la Figura 1.6 muestra las relaciones causales que implícitamente
propone el modelo de dos variables:
24
Figura 1.6
Relación causal propuesta entre las variables
Apéndice
𝐸[𝑢𝑖 𝑋1 , 𝑋2 , … , 𝑋𝑛 ] = 0 (1.6)
25
espera que exista mucha influencia entre individuos, excepto en el caso de
agrupamientos, familias o clanes que presenten algún tipo de correlación fuerte entre
ellos. Si asumimos que la muestra es aleatoria, cada par de observaciones (𝑋𝑖 , 𝑌𝑖 ) será
independiente de cualquier otro par (𝑋𝑗 , 𝑌𝑗 ). Este parece ser el caso más apropiado para
datos de corte transversal. Luego como 𝑢𝑖 = 𝑌𝑖 − 𝛽1 − 𝛽2 𝑋𝑖 , entonces 𝑢𝑖 no se
relacionará con algún 𝑋𝑗 de otro individuo. En ese caso,
𝐸[𝑢𝑖 𝑋1 , 𝑋2 , … , 𝑋𝑛 ] = 𝐸[𝑢𝑖 𝑋𝑖 ].
𝐸[𝑢𝑡 𝑋𝑡 ] = 0 (1.7)
𝐸[𝑢𝑡 𝑋1 , 𝑋2 , … , 𝑋𝑇 ] = 0 (1.8)
𝐸[𝑢𝑡 𝑋1 , 𝑋2 , … , 𝑋𝑡 ] = 0 (1.9)
En cualquier caso, (1.8) o (1.9) se van a dar bajo condiciones muy particulares en un
modelo de series de tiempo, por lo que el cumplimiento de este supuesto debe evaluarse
con atención.
26
Ejercicios
Los valores en el cuadrante central nos indican las probabilidades conjuntas de que
los eventos ocurran simultáneamente, por ejemplo, la probabilidad de que se
observe sequía y buena cosecha es solo 0.15. Los valores en los márgenes son las
probabilidades marginales, indicando por ejemplo que hay un 50% de posibilidades
de tener lluvia o sequía, y que es más probable que uno tenga buenas cosechas que
malas cosechas. Con la información de la tabla, calcule:
𝐸[𝑌 𝑋 = 𝑥] = ∑ 𝑌𝑖 Pr(𝑌 = 𝑦𝑖 𝑋 = 𝑥)
𝑖=1
27
c. Grafique estas esperanzas condicionales. ¿Podría deducir de su gráfico qué
valores tomará los parámetros poblacionales 𝛽1 y 𝛽2, si modelamos esta
relación entre variables como en la ecuación (1.1)?
d. Comprobar con los valores de la tabla y los resultados de la parte b que
𝐸[𝑌𝑖 ] = 𝐸X [𝐸[𝑌𝑖 𝑋𝑖 ]].
e. Calcule las varianzas condicionales, definidas como
m
n m
1.3. Extendiendo el ejemplo anterior, supongamos que tenemos una mejor medición de
la lluvia medida en milímetros. Los valores de la variable X son 200 milímetros,
1000 milímetros y 2000 milímetros. La tabla de probabilidades conjuntas y
marginales es:
Sequía Normal Abundante
Pr(Y)
(X = 200) (X = 1000) (X = 2000)
Mala Cosecha
0.20 0.18 0.15 0.53
(Y = 30)
Buen Cosecha
0.05 0.32 0.10 0.47
(Y = 100)
Pr(X) 0.25 0.50 0.25 1
1.4. Se suele afirmar que los salarios guardan una relación no lineal con la edad de las
personas, de manera que durante la juventud estos salarios se incrementan
rápidamente, para luego crecer a menor velocidad en la madurez, y finalmente
decaer en la vejez. Si nos proponemos estudiar la relación entre la edad de las
personas y los salarios mediante un modelo de dos variables de regresión lineal del
tipo 𝑆𝑎𝑙𝑎𝑟𝑖𝑜𝑖 = 𝛽1 + 𝛽2 𝐸𝑑𝑎𝑑𝑖 + 𝑢𝑖 , ¿qué supuesto del modelo de regresión lineal
clásico cree usted que se esté violando?
28
1.5. Para el modelo de dos variables (1.1), muestre que la covarianza 𝐶𝑜𝑣(𝑋𝑖 , 𝑌𝑖 )
definida como 𝐶𝑜𝑣(𝑋𝑖 , 𝑌𝑖 ) = 𝐸[(𝑋𝑖 − 𝐸[𝑋𝑖 ])(𝑌𝑖 − 𝐸[𝑌𝑖 ])] es igual a 𝛽2 𝑉𝑎𝑟(Xi ).
𝐶𝑜𝑣(𝑋𝑖 ,𝑌𝑖 )
Muestre también que a correlación definida como 𝐶𝑜𝑟𝑟(𝑋𝑖 , 𝑌𝑖 ) =
√𝑉𝑎𝑟(𝑋𝑖 )√𝑉𝑎𝑟(𝑌𝑖 )
29
Capítulo 2
Estimación del Modelo por Mínimos Cuadrados Ordinarios y sus Propiedades
Una parte importante del análisis econométrico es la obtención de una versión muestral
de la regresión a partir de los datos disponibles para el investigador. Como se vio, la
recta de regresión queda completamente caracterizada mediante sus parámetros, por lo
que la primera tarea consiste en la estimación de estos parámetros utilizando inferencia
estadística. En esta parte la econometría se apoya en los métodos de estimación
provenientes de la estadística, como por ejemplo el método de mínimos cuadrados, el de
máxima verosimilitud o el método de los momentos.
donde 𝑌̂𝑖 es un estimador de 𝐸[𝑌𝑖 |𝑋𝑖 ], 𝛽̂1 es un estimador del parámetro poblacional 𝛽1 y
𝛽̂2 es un estimador del parámetro poblacional 𝛽2 . Nótese que se está definiendo una
función lineal en los estimadores. En ocasiones llamamos a la ecuación (2.1)
simplemente como recta estimada.
30
Gráficamente, en el ejemplo de remuneraciones y años de educación, continuando con
lo mostrado en la Figura 1.3, en la Figura 2.1 volvemos a dibujar a la FRP como la línea
continua y agregamos a la recta estimada o FRM como la línea punteada. Digamos que
si nuestra estimación de la recta es “buena”, ambas rectas deberían ser muy parecidas,
aunque no hay nada que diga que deban ser exactamente iguales o que alguna tenga una
pendiente mayor o menor que la otra. No obstante, el investigador no tiene cómo saber
qué tan parecidas son las rectas pues la FRP es invisible mientras que la FRM es
calculada por el econometrista. Adicionalmente, aunque existe una sola relación
poblacional FRP, pueden existir infinidad de regresiones muestrales FRM, pues
depende cada una de ellas de la muestra con que se trabaje.
Figura 2.1
Rectas de regresión poblacional y muestral
En comparación con los términos de perturbación, no hay nada que diga que los
residuos 𝑒𝑖 sean más grandes o más pequeños que las perturbaciones 𝑢𝑖 . Inclusive para
un mismo individuo 𝑒𝑖 y 𝑢𝑖 podrían tener signos distintos.
31
𝑌𝑖 = 𝛽̂1 + 𝛽̂2 𝑋𝑖 + 𝑒𝑖 (2.2)
Llamaremos a la ecuación (2.2) el modelo estimado, el cual viene a ser una versión
estimada de la ecuación (1.1) del capítulo anterior.
Antes de proseguir vale la pena aclarar algunos términos para evitar confusiones.
Fundamentalmente tenemos dos grupos de ecuaciones: las poblacionales y las
muestrales. Llamamos modelo econométrico a la expresión 𝑌𝑖 = 𝛽1 + 𝛽2 𝑋𝑖 + 𝑢𝑖 , de la
cual la regresión o función de regresión poblacional es 𝐸[𝑌𝑖 |𝑋𝑖 ] = 𝛽1 + 𝛽2 𝑋𝑖 . Existen
también sus contrapartidas muestrales, vamos a llamar el modelo estimado a 𝑌𝑖 = 𝛽̂1 +
𝛽̂2 𝑋𝑖 + 𝑒𝑖 , de la cual la recta estimada o función de regresión muestral es 𝑌̂𝑖 = 𝛽̂1 +
𝛽̂2 𝑋𝑖 .
Existen métodos para calcular la FRM, siendo el más popular el de Mínimos Cuadrados
Ordinarios (MCO). Intuitivamente, este método busca trazar una recta estimada que
pase entre los puntos de las observaciones de tal manera que las distancias de cada
punto respecto a la recta estimada (es decir, los residuos) sean las más pequeñas
posibles. Para evaluar que estas distancias sean pequeñas, una forma podría ser
minimizar la suma de todos los residuos. No obstante, debido a que algunos residuos
son positivos y otros negativos, no tendría mucho sentido hacer una suma simple de
ellos. Por el contrario, elevando los residuos al cuadrado y sumándolos tendríamos una
mejor manera de evaluar la recta de regresión estimada propuesta en comparación con
otras rectas alternativas. La recta que mejor se ajuste a los datos será aquella que
presente la menor suma de cuadrados de los residuos.
32
El método de mínimos cuadrados ordinarios consiste en escoger los valores de β̂1 y β̂2 ,
tal que se minimice la SCR. Derivando la ecuación (2.3) respecto a los parámetros se
obtienen las condiciones necesarias de 1er orden de esta minimización:
𝜕𝑆𝐶𝑅
̂1 = −2 ∑𝑛𝑖=1(𝑌𝑖 − 𝛽̂1 − 𝛽̂2 𝑋𝑖 ) = 0 (2.4)
𝜕𝛽
𝜕𝑆𝐶𝑅
̂2 = −2 ∑𝑛𝑖=1(𝑌𝑖 − 𝛽̂1 − 𝛽̂2 𝑋𝑖 ) . 𝑋𝑖 = 0 (2.5)
𝜕𝛽
Estas dos ecuaciones son conocidas como las “ecuaciones normales” de la estimación
MCO, y de las cuales se desprenden algunas propiedades que se verán más adelante. En
sí son dos ecuaciones con dos incógnitas (𝛽̂1 y 𝛽̂2) que debemos resolver. Omitiendo los
subíndices de las sumatorias, de la ecuación (2.4) se cumple que
La ecuación (2.4b) nos dice que la recta estimada pasa necesariamente por la
combinación de valores (𝑋̅, 𝑌̅) pues esos puntos satisfacen la ecuación. Podemos
despejar el valor de 𝛽̂1 y obtener
𝛽̂1 = 𝑌̅ − 𝛽̂2 𝑋̅ (2.4c)
∑ 𝑋𝑖 𝑌𝑖 = 𝛽̂1 ∑ 𝑋𝑖 + 𝛽̂2 ∑ 𝑋𝑖 2
∑ 𝑋𝑖 𝑌𝑖 − 𝑌̅ ∑ 𝑋𝑖 = 𝛽̂2 (∑ 𝑋𝑖 2 − 𝑋̅ ∑ 𝑋𝑖 )
33
Luego, el estimador de mínimos cuadrados de la pendiente es
∑ 𝑋𝑖 𝑌𝑖 − 𝑌̅ ∑ 𝑋𝑖
𝛽̂2 =
∑ 𝑋𝑖 2 − 𝑋̅ ∑ 𝑋𝑖
Una vez calculado, se puede obtener el valor estimado de β̂1 de la ecuación (2.4c).
Los estimadores de los parámetros por MCO, expresados en las ecuaciones (2.4c) y
(2.6) generan algunas propiedades numéricas muy importantes para la estimación. Estas
propiedades son:
Tal propiedad resalta el hecho que, para obtener los valores estimados, lo único
que se necesita es reemplazar los valores de las variables de la muestra en las
fórmulas (2.4c) y (2.6). No es necesario hacer ningún supuesto adicional ni
calcular otros parámetros para obtener estas estimaciones. Un detalle adicional
es que, al depender íntegramente de las muestras aleatorias, estos estimadores
son en sí mismos variables aleatorias.
b) ∑ 𝑒𝑖 = 0
34
directamente que el promedio de los residuos es igual a cero, 𝑒̅ = 0.1 Es
importante no confundir esta propiedad numérica de la estimación MCO con el
supuesto 2 sobre la nulidad del valor esperado del término de perturbación,
𝐸[𝑢𝑖 ] = 0. Esto último es un supuesto, mientras que la propiedad que estamos
explicando es un producto del proceso de minimización.
c) ∑ 𝑒𝑖 𝑋𝑖 = 0
d) ∑ 𝑒𝑖 𝑌̂𝑖 = 0
e) La recta de regresión estimada pasa por el punto de los promedios (𝑋̅, 𝑌̅).
f) 𝑌̅̂ = 𝑌̅
Este resultado quiere decir que promediando los valores de 𝑌̂𝑖 se obtiene ̅𝑌.2
Para las variables 𝑋 e 𝑌, definimos las desviaciones (en minúscula y cursiva) respecto a
sus promedios como:
𝑦𝑖 = 𝑌𝑖 − 𝑌̅
𝑥𝑖 = 𝑋𝑖 − 𝑋̅
1
El lector puede notar que si el modelo econométrico no incluyera al intercepto, es decir si en el modelo
𝛽1 = 0, entonces en el proceso de estimación no habría minimizar la SCR respecto a 𝛽̂1 . Luego, no
existiría la ecuación (2.4) y por lo tanto ya no se cumpliría esta característica.
2
Se deja al lector esta demostración.
35
1. ∑ 𝑥i = 0, ∑ 𝑦i = 0
2. ∑ 𝑥i Xi = ∑ 𝑥i2 , ∑ 𝑦i Yi = ∑ 𝑦i2
3. ∑ 𝑥i 𝑦i = ∑ 𝑥i Yi = ∑ Xi 𝑦i
En términos gráficos, trabajar con las variables en desviaciones respecto a las medias
equivale a desplazar las observaciones hacia el origen, haciendo que el punto de los
promedios de las variables sea el (0, 0). Esto puede observarse en la Figura 2.2, en
donde los puntos negros corresponden a los datos en sus niveles originales y los puntos
grises son los datos en desviaciones respecto a las medias. Puesto que se trata de un
simple desplazamiento, la pendiente de una regresión que pase por esos puntos será la
misma, es decir tal pendiente 𝛽̂2 no se ve alterada por el desplazamiento. En cambio en
3
Se dejan estas demostraciones como ejercicio.
36
el modelo en desviaciones la estimación de 𝛽̂1 es igual a cero pues se fuerza a que la
recta pase por el origen.
Figura 2.2
Estimación del modelo en niveles y en desviaciones respecto a las medias
𝑛 𝑛
𝑖=1 𝑖=1
𝜕SCR
= −2(𝑦i − β̂2 𝑥i )𝑥i = 0 (2.8)
𝜕β̂2
∑(𝑥i 𝑦i − 𝛽̂2 𝑥i 2 ) = 0
∑ 𝑥i 𝑦i = 𝛽̂2 ∑ 𝑥i 2
∑ 𝑥i 𝑦i
𝛽̂2 = (2.9)
∑ 𝑥i 2
37
Este resultado de la ecuación (2.9) es exactamente el mismo que la ecuación (2.6), por
lo que ambas expresiones se pueden usar en forma alternativa.
Ejemplo 2.1: Supongamos que contamos con datos de 12 personas sobre sus años de
educación (𝑋) y sus salarios (𝑌), y queremos estimar el modelo de regresión lineal (1.1)
por mínimos cuadrados ordinarios utilizando estos datos. Vamos a computar en primer
lugar las variables en desviaciones respecto a sus promedios, para luego hacer el cálculo
de los valores estimados. En la Tabla 2.1 las columnas 𝑋 e 𝑌 muestran los datos
hipotéticos con los que vamos a hacer el ejercicio. En la parte inferior de las columnas
𝑋 e 𝑌 se han calculado las sumas y los promedios de estas columnas.
Tabla 2.1
Cálculo de las variables del modelo en desviaciones
Obs. X Y x y x2 xy
1 4 225 -4.08 -307.17 16.67 1254.26
2 6 155 -2.08 -377.17 4.34 785.76
3 3 700 -5.08 167.83 25.84 -853.15
4 10 600 1.92 67.83 3.67 130.01
5 8 675 -0.08 142.83 0.01 -11.90
6 8 350 -0.08 -182.17 0.01 15.18
7 7 456 -1.08 -76.17 1.17 82.51
8 11 485 2.92 -47.17 8.51 -137.57
9 13 650 4.92 117.83 24.17 579.35
10 11 820 2.92 287.83 8.51 839.51
11 14 1150 5.92 617.83 35.01 3655.51
12 2 120 -6.08 -412.17 37.01 2507.35
Para hacer el cálculo del estimador de la pendiente, 𝛽̂2, nos apoyamos en la ecuación
(2.9) (que es lo mismo que (2.6)), y obtenemos
38
8846.83
𝛽̂2 = = 53.6443
164.92
El estimador del intercepto, 𝛽̂1, se obtiene de la ecuación (2.4c), que sería en este caso
El lector no debería tener problemas en realizar por su cuenta estos cálculos. Asimismo,
el parámetro β̂2 se puede obtener de expresiones equivalentes a (2.6). Estas son:
∑ 𝑋𝑖 𝑌𝑖 − 𝑌̅ ∑ 𝑋𝑖 60467 − 6386 × 97
𝛽̂2 = = = 53.6443
∑ 𝑋𝑖 2 − 𝑋̅ ∑ 𝑋𝑖 949 − 8.0833 × 97
Tabla 2.2
Calculo de ̂
Y y de los residuos
Obs. X Y 𝑌̂ e e2
1 4 225 313.12 -88.12 7765.00
2 6 155 420.41 -265.41 70441.29
3 3 700 259.47 440.53 194062.29
4 10 600 634.98 -34.98 1223.94
5 8 675 527.70 147.30 21698.38
6 8 350 527.70 -177.70 31575.98
7 7 456 474.05 -18.05 325.88
39
8 11 485 688.63 -203.63 41464.81
9 13 650 795.92 -145.92 21291.96
10 11 820 688.63 131.37 17258.31
11 14 1150 849.56 300.44 90263.05
12 2 120 205.83 -85.83 7366.91
Como bien sabemos los estimadores obtenidos 𝛽̂1 y 𝛽̂2 son variables aleatorias pues sus
resultados varían según las muestras aleatorias tomadas. En esta sección vamos a ver
cuáles serán sus valores esperados y varianzas, y discutiremos sus propiedades.
∑ 𝑥𝑖 𝑦𝑖 ∑ 𝑥𝑖 (𝑌𝑖 − 𝑌̅) ∑ 𝑥𝑖 𝑌𝑖 − 𝑌̅ ∑ 𝑥𝑖 ∑ 𝑥𝑖 𝑌𝑖
β̂2 = = = =
∑ 𝑥𝑖 2 ∑ 𝑥𝑖 2 ∑ 𝑥𝑖 2 ∑ 𝑥𝑖 2
∑ 𝑥𝑖 (𝛽1 + 𝛽2 𝑋𝑖 + 𝑢𝑖 ) 𝛽1 ∑ 𝑥𝑖 𝛽2 ∑ 𝑥𝑖 𝑋𝑖 ∑ 𝑥𝑖 𝑢𝑖
𝛽̂2 = = + +
∑ 𝑥𝑖 2 ∑ 𝑥𝑖 2 ∑ 𝑥𝑖 2 ∑ 𝑥𝑖 2
∑ 𝑥𝑖 𝑢𝑖
𝛽̂2 = 𝛽2 + (2.10)
∑ 𝑥𝑖 2
Tomando valor esperado a la expresión en (2.10) obtenemos
∑ 𝑥𝑖 𝑢𝑖 ∑ 𝑥𝑖 𝑢𝑖
𝐸[𝛽̂2 ] = 𝐸 [𝛽2 + ] = 𝛽2 + 𝐸 [ ]
∑ 𝑥𝑖 2 ∑ 𝑥𝑖 2
Bajo el supuesto 4,
1
𝐸[𝛽̂2 ] = 𝛽2 + ∑ 𝑥 2 ∑ 𝑥𝑖 𝐸[𝑢𝑖 ]
𝑖
40
Dado el supuesto 2, el valor esperado del término de perturbación es cero, con ello
resulta que 𝛽̂2 es un estimador insesgado.
𝐸[𝛽̂2 ] = 𝛽2
Esto quiere decir que aunque 𝛽̂2 pueda tomar valores en forma aleatoria, en promedio
esperaremos que este estimador de MCO entregue un valor que sea igual al poblacional,
siempre y cuando se cumplan los supuestos aludidos del modelo econométrico. No debe
pensarse que la propiedad de insesgadez asegura que 𝛽̂2 = 𝛽2, pues debido a las
variabilidades muestrales eso ocurrirá solo por cuestión de suerte. Lo que si ocurrirá es
que si se tomaran infinitas muestras y si se calculara en cada una de ellas el valor de 𝛽̂2,
el promedio de todos esos valores calculados sí coincidirá con el verdadero valor
poblacional.
41
Figura 2.3
Cuatro muestras aleatorias y las estimaciones MCO
Calculemos ahora el valor esperado del estimador del intercepto, 𝛽̂1. Partiendo del
modelo econométrico 𝑌𝑖 = 𝛽1 + 𝛽2 𝑋𝑖 + 𝑢𝑖 , lo podemos promediar aplicándole
sumatoria y dividiéndolo entre el número de observaciones de la muestra obteniendo
𝑌̅ = 𝛽1 + 𝛽2 𝑋̅ + 𝑢̅. Reemplazando esta expresión en la ecuación (2.4c) se obtiene
𝛽̂1 = 𝛽1 + 𝛽2 𝑋̅ + 𝑢̅ − 𝛽̂2 𝑋̅
∑𝑢 ∑ 𝐸[𝑢 ]
Dado que 𝐸[𝛽̂2 ] = 𝛽2 , queda 𝐸[𝛽̂1 ] = 𝛽1 + 𝐸[𝑢̅] = 𝛽1 pues 𝐸[𝑢̅] = 𝐸 [ 𝑛 𝑖 ] = 𝑛 𝑖 =
42
2
𝑉𝑎𝑟(𝛽̂2 ) = 𝐸 [𝛽̂2 − 𝐸[𝛽̂2 ]]
2
∑ 𝑥𝑖 𝑢𝑖 1 2
𝑉𝑎𝑟(𝛽̂2 ) = 𝐸 [ ] = 𝐸 [(∑ 𝑥𝑖 𝑖 ]
𝑢 )
∑ 𝑥𝑖 2 (∑ 𝑥𝑖 2 )2
1
= 𝐸 [∑ 𝑥𝑖 2 𝑢𝑖 2 + 2 ∑ ∑ 𝑥𝑖 𝑥𝑗 𝑢𝑖 𝑢𝑗 ]
(∑ 𝑥𝑖 2 )2
𝑖<𝑗
1
= [∑ 𝑥𝑖 2 𝐸[𝑢𝑖 2 ] + 2 ∑ ∑ 𝑥𝑖 𝑥𝑗 𝐸[𝑢𝑖 𝑢𝑗 ]]
(∑ 𝑥𝑖 2 )2
𝑖<𝑗
1 𝜎2
𝑉𝑎𝑟(𝛽̂2 ) = [∑ 𝑥𝑖
2 2
𝜎 ] = ∑ 𝑥𝑖 2
(∑ 𝑥𝑖 2 )2 (∑ 𝑥𝑖 2 )2
𝜎2
𝑉𝑎𝑟(𝛽̂2 ) = (2.12)
∑ 𝑥𝑖 2
Obsérvese en (2.12) que la variabilidad de 𝛽̂2 es directamente proporcional a la varianza
del término de perturbación e inversamente proporcional a la variabilidad de 𝑋 respecto
a su media. Es decir, la estimación de 𝛽̂2 será más imprecisa mientras más grande sea la
varianza 𝜎 2 , que es a su vez la varianza de la variable endógena 𝑌. Por otro lado, si la
variable 𝑋 muestra una gran amplitud de valores, esto brindará más información para
poder calcular el efecto de 𝑋 sobre 𝑌. Si 𝑋 presenta una mínima variabilidad alrededor
de su promedio, la varianza de la estimación aumentará4.
4
Se sugiere al lector trazar diagramas de dispersión considerando variaciones en 𝑋 e 𝑌 grandes y
pequeñas, con el fin de observar estas propiedades.
43
2
= 𝐸 [𝑋̅ 2 (𝛽̂2 − 𝛽2 ) + 𝑢̅2 − 2𝑋̅(𝛽̂2 − 𝛽2 )𝑢̅]
= 𝑋̅ 2 𝑉𝑎𝑟(𝛽̂2 ) + 𝐸[𝑢̅2 ] − 2𝑋̅𝐸(𝛽̂2 − 𝛽2 )𝑢̅
𝜎2 𝜎2 ∑ 𝑥𝑖 𝑢𝑖 ∑ 𝑢𝑖
= 𝑋̅ 2 + − 2𝑋̅𝐸 [ . ]
∑ 𝑥𝑖 2 𝑛 ∑ 𝑥𝑖 2 𝑛
∑ 𝑥𝑖 𝑢𝑖 ∑ 𝑢𝑖 1
𝐸[ . ]= 𝐸 [∑ 𝑥𝑖 𝑢𝑖 ∑ 𝑢𝑖 ]
∑ 𝑥𝑖 2 𝑛 𝑛 ∑ 𝑥𝑖 2
1
= 𝐸 [∑ 𝑥𝑖 𝑢𝑖 2 ∑ ∑ 𝑢𝑖 𝑢𝑗 (𝑥𝑖 + 𝑥𝑗 )]
𝑛 ∑ 𝑥𝑖 2
1
= [𝜎 2 ∑ 𝑥𝑖 + ∑ ∑ 𝐶𝑜𝑣(𝑢𝑖 𝑢𝑗 )(𝑥𝑖 + 𝑥𝑗 )] = 0
∑
𝑛 𝑥𝑖 2
2.6 Estimación de 𝝈𝟐
44
𝑒𝑖 = 𝑦𝑖 − 𝛽̂2 𝑥𝑖 (2.15)
Multiplicamos y dividimos el segundo término del lado derecho por 𝑛 − 1 (para darle la
forma de la varianza muestral de 𝑢𝑖 , esto es ∑(ui − u̅)2 /(n − 1), aplicando las
propiedades de las desviaciones en el tercer término del lado derecho, y utilizando la
ecuación (2.10) obtenemos
∑(𝑢𝑖 − 𝑢̅)2 ∑ 𝑥𝑖 𝑢𝑖
𝐸 [∑ 𝑒𝑖 2 ] = 𝑉𝑎𝑟(𝛽̂2 ) ∑ 𝑥𝑖2 + (𝑛 − 1)𝐸 [ ] − 2𝐸 [ ∑ 𝑥𝑖 𝑢𝑖 ]
𝑛−1 ∑ 𝑥𝑖 2
2
∑ 𝑥𝑖 𝑢𝑖
= 𝑉𝑎𝑟(𝛽̂2 ) ∑ 𝑥𝑖2 + (𝑛 − 1)𝑉𝑎𝑟(𝑢𝑖 ) − 2 ∑ 𝑥𝑖2 𝐸 [( ) ]
∑ 𝑥𝑖 2
𝐸 [∑ 𝑒𝑖 2 ] = 𝜎 2 + (𝑛 − 1)𝜎 2 − 2𝜎 2 = (𝑛 − 2)𝜎 2
∑ 𝑒𝑖 2
𝑠2 = (2.16)
𝑛−2
45
∑ 𝑒𝑖 2 1
𝐸(𝑠 2 ) = 𝐸 [ ]= 𝐸 [∑ 𝑒𝑖 2 ]
𝑛−2 𝑛−2
[𝑛 − 2] 2
= 𝜎 = 𝜎2
[𝑛 − 2]
calcular las varianzas de los parámetros, nótese que estas varianzas dependen del
parámetro poblacional no observable 𝜎 2 . Entonces utilizaremos al estimador s2 en su
lugar en las ecuaciones (2.12) y (2.13), teniendo entonces a las varianzas estimadas
siguientes:
1 𝑋̅ 2 1 (8.0833)2
̂ 2
𝑉𝑎𝑟(𝛽1 ) = 𝑠 ( + ) = 50473.78 ( + ) = 24203.9499
𝑛 ∑ 𝑥𝑖 2 12 164.92
𝑠2 50473.78
𝑉𝑎𝑟(𝛽̂2 ) = = = 306.0536
∑ 𝑥𝑖 2 164.92
La ecuación (2.17) nos dice que 𝛽̂2 es igual a la suma ponderada de 𝑌𝑖 , en donde los
𝑥
ponderadores son las expresiones 𝑤𝑖 = ∑ 𝑥𝑖 2 . Además, como se comprobó que estos
𝑖
estimadores son insesgados, se afirma que los estimadores MCO pertenecen a la clase
de estimadores lineales e insesgados.
46
Para probar este teorema, planteamos otro estimador lineal que sea insesgado.
Definamos este estimador como 𝑏2 = ∑ 𝑐𝑖 𝑌𝑖 , en donde los valores ci son ponderadores
no aleatorios, que podrían ser cualquier número. Reemplazando la expresión del modelo
econométrico en 𝑏2 se obtiene
𝑏2 = ∑ 𝑐𝑖 (𝛽1 + 𝛽2 𝑋𝑖 + 𝑢𝑖 ) = 𝛽1 ∑ 𝑐𝑖 + 𝛽2 ∑ 𝑐𝑖 𝑋𝑖 + ∑ 𝑐𝑖 𝑢𝑖
𝐸[𝑏2 ] = 𝛽1 ∑ 𝑐𝑖 + 𝛽2 ∑ 𝑐𝑖 𝑋𝑖 + ∑ 𝑐𝑖 𝐸[𝑢𝑖 ] = 𝛽1 ∑ 𝑐𝑖 + 𝛽2 ∑ 𝑐𝑖 𝑋𝑖
𝑏2 = 𝛽2 + ∑ 𝑐𝑖 𝑢𝑖
2
𝑉𝑎𝑟(𝑏2 ) = 𝐸[(𝑏2 − 𝛽2 )2 ] = 𝐸 [(∑ 𝑐𝑖 𝑢𝑖 ) ] = 𝐸 [∑ 𝑐𝑖 2 𝑢𝑖 2 + 2 ∑ ∑ 𝑐𝑖 𝑐𝑗 𝑢𝑖 𝑢𝑗 ]
𝑖<𝑗
= ∑ 𝑐𝑖 2 𝐸[𝑢𝑖 2 ] + 2 ∑ ∑ 𝑐𝑖 𝑐𝑗 𝐸[𝑢𝑖 𝑢𝑗 ] = 𝜎 2 ∑ 𝑐𝑖 2
𝑖<𝑗
∑ 𝑥𝑖 𝑐𝑖 𝑥𝑖 2
∑ 𝑤𝑖 (𝑐𝑖 − 𝑤𝑖 ) = ∑ 𝑤𝑖 𝑐𝑖 − ∑ 𝑤𝑖 2 = − ∑ ( )
∑ 𝑥𝑖 2 ∑ 𝑥𝑖 2
1 ∑ 𝑥𝑖 2
= − =0
∑ 𝑥𝑖 2 (∑ 𝑥𝑖 2 )2
47
Esto es cierto dado que ∑ 𝑐𝑖 𝑥𝑖 = 1. Volviendo a la expresión (2.18), multiplicamos todo
por σ2 y tenemos
𝜎 2 ∑ 𝑐𝑖 2 = 𝜎 2 ∑ 𝑤𝑖 2 + 𝜎 2 ∑(𝑐𝑖 − 𝑤𝑖 )2
𝜎 2
No es difícil comprobar que 𝑉𝑎𝑟(𝛽̂2 ) = ∑ 𝑥 2 = 𝜎 2 ∑ 𝑤𝑖 2 . Luego,
𝑖
Al ser el último término mayor o igual a cero, resulta que 𝑉𝑎𝑟(𝑏2 ) ≥ 𝑉𝑎𝑟(𝛽̂2 ).
1 𝑌𝑖 − 𝑌̅ 1 𝑌𝑖 1 𝑌̅
𝑏2 = ∑( ) = ∑( ) − ∑( )
𝑛 𝑥𝑖 𝑛 𝑥𝑖 𝑛 𝑥𝑖
1 1 1 1
= ∑ ( ) 𝑌𝑖 − 𝑌̅ ∑ ( )
𝑛 𝑥𝑖 𝑛 𝑥𝑖
1 1 1 1 1
= ∑ ( ) 𝑌𝑖 − ∑ ( ) ( ∑ 𝑌𝑖 )
𝑛 𝑥𝑖 𝑛 𝑥𝑖 𝑛
1 1 1 1
= ∑ ( ) 𝑌𝑖 − 2 ∑ ( ) ∑ 𝑌𝑖
𝑛 𝑥𝑖 𝑛 𝑥𝑖
48
∑(𝑌𝑖 − 𝑌̅)2
𝑆𝑌2 =
𝑛−1
Para relacionar a la SCT con la recta estimada, elevamos al cuadrado a (2.7) y aplicando
sumatorias resulta en
El último término del lado derecho es igual a cero pues en el modelo en desviaciones,
∑ 𝑥𝑖 𝑒𝑖 = 0. Luego,
𝑆𝐶𝑅 𝑆𝐶𝐸
𝑅2 = 1 − =
𝑆𝐶𝑇 𝑆𝐶𝑇
49
cuando el ajuste es alto, en el sentido que las variaciones de 𝑋 se relacionan fuertemente
con las variaciones observadas de Y (SCR tiende a cero).
Cabe mencionar que no existe un mínimo valor de R-cuadrado como para juzgar si los
resultados de una estimación son “buenos” o “malos”. De hecho, en la práctica se suele
observar ciertas regularidades de los valores de R-cuadrado según el tipo de datos. Con
frecuencia se observa que con datos de corte transversal –especialmente si son datos
microeconómicos a nivel de personas o familias– el R-cuadrado se encuentra por debajo
de 0.30. Una posible explicación a este fenómeno radica en que en los modelos que
explican la conducta de los individuos existen innumerables factores que afectan los
resultados de la variable endógena 𝑌. En un modelo con un solo regresor, la
perturbación u incorpora a todos estos factores, y por lo tanto es de esperar que 𝑋
explique solo una fracción pequeña de la variabilidad de 𝑌. Esto no quiere decir que 𝑋
50
sea un mal regresor. Por ejemplo, en la relación entre la educación y los salarios, tal
como se ve en la Figura 1.2 del capítulo anterior, no se puede dudar que más educación
(variaciones en la educación) se relaciona con más ingresos (variaciones en los
salarios). No obstante, se aprecia en el gráfico que con mucha frecuencia existen puntos
que se alejan verticalmente de la recta. Tales alejamientos se deben a los demás factores
incluidos en 𝑢. Por ejemplo, si un trabajador tiene más experiencia laboral que otro
pueda ganar un poco más pese a tener ambos la misma educación; o si algún otro sufre
problemas de salud, esto puede provocar que gane menos, etc.5 Sin embargo, el modelo
de dos variables nos muestra que sí se puede esperar que con mayores niveles de
educación se espere un salario mayor.
En el caso de los datos de series de tiempo, como por ejemplo los datos
macroeconómicos, las regresiones entre estas variables suelen arrojar valores de R-
cuadrado relativamente altos, muchos por encima de 0.7. Por ejemplo, una regresión
bivariada del Consumo Privado contra el Producto Bruto Interno como variable
explicativa puede arrojar valores de R-cuadrado cercanos a 0.99. Esto se debe tomar con
cuidado pues muchas series de tiempo se comportan siguiendo patrones crecientes en el
tiempo o tendencias. El R-cuadrado puede estar reflejando esta tendencia común de
ambas series, sobreestimando entonces la fortaleza de la relación entre estas series
macroeconómicas. En estos casos puede ser mejor transformar los datos a tasas de
crecimiento, las cuales limpian el efecto de las tendencias.
5
En el capítulo 4 se extiende el modelo de regresión lineal agregando más regresores. Pese a ello el R-
.cuadrado en corte transversal con datos microeconómicos sigue siendo “bajo”, pues la cantidad de
variables disponibles suele ser limitada en comparación con los miles de factores que afectan a 𝑌.
51
Por último, se debe tener en cuenta que el R-cuadrado solamente es una medida
estadística acerca de la asociación entre las variables 𝑋 e 𝑌, pero no se le debe tomar
como un indicador que valide algún tipo de causalidad entre las variables. Es posible
que una regresión entre dos variables no unidas causalmente muestre un R-cuadrado
muy alto.
Figura 2.4
Dos conjuntos de datos y sus R2
Utilizaremos los datos hipotéticos del Ejemplo 2.1 para hacer una estimación por
mínimos cuadrados ordinarios en Stata. Como primer paso, luego de abrir el programa
podríamos introducir los datos de las columnas 𝑋 e 𝑌 de la Tabla 2.1 en el editor de
52
datos. Para acceder a este editor, se selecciona el menú Data, luego la opción Data
Editor, y luego Data Editor (Edit), o directamente haciendo click en el ícono de Data
Editor.
Luego de introducir los datos manualmente, las columnas aparecen con títulos var1 y
var2. Estos títulos son los nombres de las variables, y pueden ser cambiados haciendo
doble click en los encabezados de las columnas. Llamemos a la primera columna “x”, y
a la segunda “y”. Finalmente se cierra la ventana del Data Editor.
regress y x
Tabla 2.3
Tabla de resultados de Stata
53
los residuos figura como Residual, es SCR = 504737.797, y es igual al valor que se
calculó en la Tabla 2.2.
Ahora mostraremos los resultados de la estimación por MCO usando datos reales de la
relación entre los años de educación de una persona (llamada aquí escolaridad) y el
logaritmo de la remuneración promedio por hora (llamada aquí salario). Usaremos los
datos del Ejemplo 1.1 del Capítulo 1. El modelo a ser estimado es
ln(𝑆𝑎𝑙𝑎𝑟𝑖𝑜𝑖 ) = 𝛽1 + 𝛽2 𝐸𝑠𝑐𝑜𝑙𝑎𝑟𝑖𝑑𝑎𝑑𝑖 + 𝑢𝑖
ln(𝑌𝑖 ) = 𝛽1 + 𝛽2 𝑋𝑖 + 𝑢𝑖 .
54
Tabla 2.4
Estimación de la relación entre la educación y los salarios
Podemos ver que el signo del intercepto estimado es positivo, siendo 𝛽̂1 = 0.8278309.
Tomando el exponencial a este valor se obtiene el valor 2.2883, lo que indica que para
las personas que no tienen educación el salario por hora es apenas de 2.29 soles. A partir
de ahí, por cada año adicional de educación el salario por hora se incrementa en
promedio aproximadamente en 8%.
Por otro lado, el R-cuadrado en esta estimación es 0.1855, lo cual indica que la
variabilidad de la educación explica el 18.5% de la variabilidad de los salarios. Aunque
este indicador pueda parecer bajo, para ser una estimación por corte transversal se puede
considerar como aceptable.
Apéndice
𝑋̅ 𝜎2
Demostración de que 𝐶𝑜𝑣(𝛽̂1 , 𝛽̂2 ) = − ∑ 𝑥 2 .
𝑖
De la definición de covarianza,
𝐶𝑜𝑣(𝛽̂1 , 𝛽̂2 ) = 𝐸[(𝛽̂1 − 𝐸[𝛽̂1 ])(𝛽̂2 − 𝐸[𝛽̂2 ])]
Utilizando (2.11)
= 𝐸[(−𝑋̅(𝛽̂2 − 𝛽2 ) + 𝑢̅)(𝛽̂2 − 𝛽2 )]
55
2
= −𝑋̅𝐸 [(𝛽̂2 − 𝛽2 ) ] + 𝐸[𝑢̅(𝛽̂2 − 𝛽2 )]
De (2.12) y (2.10),
𝑋̅𝜎 2 ∑ 𝑢𝑖 ∑ 𝑥𝑖 𝑢𝑖
=− + 𝐸 [ ∙ ]
∑ 𝑥𝑖2 𝑛 ∑ 𝑥𝑖2
Como se demostró, el último término es igual a cero, con lo cual se completa la prueba.
Ejercicios
2.1 Demuestre que cuando usted regresiona a una variable Yi contra una constante y
2.8 Suponga que las variables X e Y están relacionadas de acuerdo con la función de
regresión poblacional 𝑌𝑖 = 𝛽2 𝑋𝑖 + 𝑢𝑖 , la cual no tiene intercepto. Suponga que
56
equivocadamente usted regresiona el modelo con intercepto por MCO obteniendo
𝑌𝑖 = 𝛽̂1 + 𝛽̂2 𝑋𝑖 . Calcule la esperanza de los estimadores y la varianza 𝑉𝑎𝑟(𝛽̂2 ).
2.9 Si en el modelo 𝑌𝑖 = 𝛽1 + 𝛽2 𝑋𝑖 + 𝑢𝑖 los datos de 𝑋 e 𝑌 son transformados de la
siguiente manera: 𝑌𝑖∗ = 𝑚 + 𝑞𝑌𝑖 , 𝑋𝑖∗ = 𝑐 + 𝑑𝑋𝑖 . ¿Qué ocurrirá con los parámetros
estimados del nuevo modelo 𝑌𝑖∗ = 𝛽1 + 𝛽2 𝑋𝑖∗ + 𝑣𝑖 , respecto a los parámetros
estimados con los datos originales? Muestre que el R-cuadrado no cambia.
2.10 Se sabe que 𝑅 2 = 0.08, 𝑠 2 = 9.8 y 𝑛 = 100. Calcule la SCE y la SCT.
2.11 Teniendo en cuenta la siguiente tabla
Año 1 2 3 4 5 6 7 8 9 10 11 12
Consumo (C) 15.6 6.4 9.2 14.9 7.2 7.6 7.2 7.2 7.9 8.8 4.1 11.1
Ingreso (I) 16.3 6.8 8.6 15.3 8.7 7.8 8.7 8.3 9.4 10.8 5.1 11.6
57
Capítulo 3
Inferencia Estadística en el Modelo de Dos Variables
Hasta el momento solo hemos supuesto que el término de perturbación 𝑢𝑖 tiene media
cero y varianza 𝜎 2 . Vamos a hacer un supuesto acerca de la distribución de 𝑢𝑖 .
𝑢𝑖 |𝑋𝑖 ~𝑁(0, 𝜎 2 ) ∀𝑖
𝑢𝑖 ~𝑁(0, 𝜎 2 ) ∀𝑖 . (3.1)
Nótese que estamos haciendo una suposición acerca de la distribución de una variable
aleatoria que no podemos observar. Sin embargo, existen algunas justificaciones para
58
hacer este supuesto. En primer lugar, la distribución normal posee algunas propiedades
conocidas que resultan útiles en el análisis. El hecho que la suma de variables aleatorias
con distribuciones normales siempre genere nuevas variables aleatorias con esa
distribución, y que sus parámetros principales –media y varianza– sean fácilmente
calculables permite trabajar con distribuciones exactas para los parámetros estimados1.
En segundo lugar, la propiedad de simetría y el hecho que el peso de sus colas decaiga
conforme la variable se aleja de su media parece también apropiada para describir la
ocurrencia de los términos de perturbación alrededor de la recta poblacional, tal como
parece sugerir la figura 1.2 del capítulo 1. Otra razón reside en la idea del Teorema del
Límite Central –que se presentará formalmente en el capítulo 7. Según este teorema,
bajo ciertas condiciones el promedio de numerosas variables aleatorias puede converger
a una variable con distribución normal, sin importar la distribución de probabilidades de
las variables aleatorias promediadas. Si recordamos que la perturbación u es la
sumatoria de todos los demás factores que afectan a 𝑌, es posible que esta perturbación
se distribuya aproximadamente como una normal.
Luego, dado que los estimadores de MCO son combinaciones lineales de la variable
endógena 𝑌𝑖 , entonces estos estimadores 𝛽̂1 y 𝛽̂2 también seguirán esta distribución
1
Algunas propiedades de las distribuciones normal son: (i) si 𝑋~𝑁(𝜇𝑋 , 𝜎𝑋2 ) y 𝑌~𝑁(𝜇𝑌 , 𝜎𝑌2 ) son dos
variables aleatorias independientes, entonces si 𝑎 y 𝑏 son escalares, 𝑎𝑋 + 𝑏𝑌~𝑁(𝑎𝜇𝑋 + 𝑏𝜇𝑌 , 𝑎2 𝜎𝑋2 +
𝑏 2 𝜎𝑌2 ); (ii) si 𝑎 y 𝑏 son escalares, entonces 𝑎𝑋 + 𝑏~𝑁(𝑎𝜇𝑋 + 𝑏, 𝑎2 𝜎𝑋2 ); (iii) para cualquier 𝑋~𝑁(𝜇𝑋 , 𝜎𝑋2 ),
se cumple (𝑋 − 𝜇𝑋 )/𝜎𝑋 ~𝑁(0,1), lo que se conoce como la “estandarización de una normal”; (iv) la
densidad de la normal es simétrica en torno a su media.
59
normal condicionada. Esto se ve con mayor claridad en la expresión (2.10) en donde
∑𝑥 𝑢 𝑥
𝛽̂2 = 𝛽2 + ∑ 𝑥𝑖 2𝑖 = 𝛽2 + ∑ (∑ 𝑥𝑖 2 ) 𝑢𝑖 , y por lo tanto 𝛽̂2 es una combinación lineal de
𝑖 𝑖
1 2
𝑋̅
𝛽̂1 ~𝑁 (𝛽1 , 𝜎 2 (𝑛 + ∑ 𝑥 2 )) (3.2)
𝑖
1
En el caso de 𝛽̂1, de (2.11) se tiene que 𝛽̂1 = 𝛽1 + 𝑋̅(𝛽2 − 𝛽̂2 ) + (𝑛) ∑ 𝑢𝑖 , luego
𝜎 2
𝛽̂2 ~𝑁 (𝛽2 , ∑ 𝑥 2 ) (3.3)
𝑖
Los parámetros estimados son variables aleatorias cuya variabilidad natural hace que
rara vez sean iguales a los parámetros poblacionales. En ocasiones desearíamos tener un
intervalo o rango de valores sobre el cual podamos afirmar o confiar que el verdadero
parámetro poblacional se encuentre en dicho intervalo con una alta probabilidad. En
esta sección mostraremos como podemos construir a tales intervalos a partir de las
estimaciones puntuales, procedimiento que en estadística se conoce como estimación de
intervalos.
2
En realidad la distribución de 𝛽̂1 y 𝛽̂2 es la de una normal conjunta con covarianza igual a
𝑋̅𝜎 2
𝐶𝑜𝑣(𝛽̂1 , 𝛽̂2 ) = − 2 .
∑ 𝑥𝑖
60
En primer lugar, construiremos un intervalo para el parámetro 𝛽2. Para ello
trabajaremos con su estimador 𝛽̂2 el cual puede ser estandarizado como
𝛽̂2 − 𝛽2
~𝑁(0,1) (3.4)
√𝜎 2 / ∑ 𝑥𝑖 2
𝛽̂2 − 𝛽2
Pr (𝑧𝛼 < < 𝑧1−𝛼 ) = 1 − 𝛼
2 √𝜎 2 / ∑ 𝑥𝑖 2 2
En esta expresión, 𝑧𝛼⁄2 y 𝑧1−𝛼⁄2 son los percentiles 𝛼/2 y 1 − 𝛼/2 de la distribución
normal estándar que se obtiene de la tabla de probabilidades correspondiente. En la
figura 3.1 se muestra la ubicación de los límites de este intervalo en el conocido gráfico
de la “Campana de Gauss”, que es el gráfico de la función de densidad de la
distribución normal estándar. Dado que esta densidad es simétrica alrededor de 0, se
cumple que 𝑧𝛼⁄2 = −𝑧1−𝛼⁄2 . Luego reescribimos los límites del intervalo así:
𝛽̂2 − 𝛽2
Pr (−𝑧1−𝛼 < < 𝑧1−𝛼 ) = 1 − α (3.5)
2 √𝜎 2 / ∑ 𝑥𝑖 2 2
̂2 −𝛽2
𝛽
La expresión (3.5) nos dice que la variable aleatoria se encuentra entre los
√𝜎2 / ∑ 𝑥𝑖 2
𝜎2 𝜎2
Pr (𝛽̂2 − 𝑧1−𝛼 . √ < 𝛽2 < ̂
𝛽2 + 𝑧 𝛼 . √ )=1−α
2 ∑ 𝑥𝑖 2 1−
2 ∑ 𝑥𝑖 2
parece indicar que la probabilidad de que 𝛽2 se ubique entre los dos límites es 1 − 𝛼, en
realidad la interpretación es ligeramente distinta. El parámetro 𝛽2 no es aleatorio; es el
intervalo el que cambiará aleatoriamente de ubicación según las muestras que tengamos.
61
La expresión dice que, en muchas muestras repetidas, se confía que en (1 − 𝛼)% de las
veces el intervalo aleatorio abarque o tenga dentro de sí al parámetro poblacional 𝛽2.
Luego, dando valores a 𝛼 se puede definir los intervalos. Por ejemplo, para 𝛼 = 0.05
los valores máximo y mínimo del intervalo de confianza al 95% para 𝛽2 serían
𝜎2
𝛽̂2 ± 𝑧0.975 √ 𝑧0.975 = 1.96
∑ 𝑥𝑖 2
Figura 3.1
Función de densidad de la normal estándar
𝑧𝛼⁄2 0 𝑧1−𝛼⁄2
= −𝑧1−𝛼⁄2
(𝑛 − 2)𝑠 2 2
~𝜒(n−2) (3.6)
𝜎2
A partir de las expresiones (3.4) y (3.6) definimos una variable aleatoria con
distribución t-Student como4
3
Este resultado será demostrado en el capítulo siguiente.
62
𝛽̂2 − 𝛽2
√𝜎 2 / ∑ 𝑥𝑖 2 𝛽̂2 − 𝛽2
= ~𝑡 − 𝑆𝑡𝑢𝑑𝑒𝑛𝑡(𝑛−2)
(𝑛 − 2)𝑠 2 /𝜎 2 √𝑠 2 / ∑ 𝑥 2
𝑖
𝑛−2
Entonces, definimos la probabilidad de que esta variable aleatoria caiga entre dos
límites con (1 − 𝛼)% de probabilidad como
𝛽̂2 − 𝛽2
Pr (−𝑡1−𝛼 (𝑛 − 2) < < 𝑡1−𝛼 (𝑛 − 2)) = 1 − 𝛼
2 √𝑠 2 / ∑ 𝑥𝑖 2 2
𝑠2 𝑠2
Pr (𝛽̂2 − 𝑡1−𝛼 (𝑛 − 2). √ < 𝛽2 < ̂
𝛽2 + 𝑡 𝛼 (𝑛 − 2). √ )=1−𝛼
2 ∑ 𝑥𝑖 2 1−
2 ∑ 𝑥𝑖 2
𝑠2
𝛽̂2 ± 𝑡1−𝛼 (𝑛 − 2). √ (3.7)
2 ∑ 𝑥𝑖 2
1 𝑋̅ 2
𝛽̂1 ± 𝑡1−𝛼 (𝑛 − 2). √𝑠 2 ( + ) (3.8)
2 𝑛 ∑ 𝑥𝑖 2
Ejemplo 3.1: Continuando con el Ejemplo 2.1 del capítulo 2 sobre años de educación y
salarios con datos simulados, se obtuvieron las estimaciones puntuales 𝛽̂1 = 98.5422 y
𝛽̂2 = 53.6443. También se calculó que 𝑠 2 = 50473.7797 y se sabe que 𝑛 = 12,
𝑋̅ = 8.0833 y que ∑ 𝑥i 2 = 164.9167. El valor de 𝑡1−α (10) se puede obtener de las
2
2
4
Debe recordarse que si 𝑧~𝑁(0,1) y 𝑥~𝜒(𝑞) donde q son los grados de libertad, y si 𝑧 y 𝑥 son
independientes, entonces 𝑧/√𝑥 ⁄𝑞 ~𝑡(q) . En el caso que nos interesa, se puede comprobar que 𝛽̂2 y 𝑠 2 son
independientes, por lo que se cumple la definición de la 𝑡 − 𝑆𝑡𝑢𝑑𝑒𝑛𝑡.
63
tablas t-Student que se encuentran al final de este libro, o pueden calcularse usando MS
Excel ® con la fórmula = 𝐼𝑁𝑉. 𝑇. 2𝐶(𝛼, 𝑛 − 2), o mediante Stata con el comando
display invt(𝑛 − 2,1 − 𝛼). Éste es igual a 1.812, 2.228 y 3.169 para los valores
de α de 0.10, 0.05 y 0.01 respectivamente, los intervalos de confianza de los
parámetros al 90%, 95% y 99% de confianza para 𝛽̂2 utilizando la ecuación (3.7) son
Tabla 3.1
Intervalos de confianza para 2
Límite Límite
(1 − α) × 100%
Inferior Superior
90% 21.9362 85.3523
95% 14.6642 92.6244
99% -1.8005 109.0890
En el caso del intervalo al 95%, confiamos que el verdadero parámetro cae en el rango
14.67 y 92.62 con una probabilidad de 95%. Nótese que para valores de confianza
mayores (valores de más pequeños), el intervalo se vuelve más amplio. Se deja al
lector el cálculo de los intervalos de confianza para β1 utilizando la ecuación (3.8).
ln(𝑄𝑖 ) = 𝛽1 + 𝛽2 ln(𝑃𝑖 ) + 𝑢𝑖
64
parámetros que ha sido linealizado aplicando el logaritmo natural. Una particularidad de
este modelo es que el coeficiente 𝛽2 se puede interpretar como una elasticidad. Es decir,
𝜕ln(𝑄𝑖 ) ∆%𝑄
𝛽2 = ≈
𝜕ln(𝑃𝑖 ) ∆%𝑃
Supongamos que alguna teoría económica nos dice que el parámetro β2 debería ser
igual a cierto valor conocido, digamos 𝑎. Escribimos esta hipótesis en la forma usual
como
𝐻0 : 𝛽2 = 𝑎 Hipótesis nula
𝐻1 : 𝛽2 ≠ 𝑎 Hipótesis alternativa
La mera observación del parámetro estimado 𝛽̂2 no puede considerarse como una
contrastación de la hipótesis planteada, pues al ser 𝛽̂2 una variable aleatoria continua,
prácticamente nunca será igual al valor 𝑎, salvo cuestión de azar.
Para hacer el contraste de hipótesis utilizaremos lo que se dedujo en la sección 3.2 bajo
el supuesto de normalidad de los errores. Ahí se dedujo que
𝛽̂2 − 𝛽2
~ 𝑡 − 𝑆𝑡𝑢𝑑𝑒𝑛𝑡(n−2) (3.9)
√𝑠 2 / ∑ 𝑥𝑖 2
𝛽̂2 − 𝑎
(3.10)
√𝑠 2 / ∑ 𝑥𝑖 2
Este resultado debería distribuirse como t-Student si la hipótesis nula es cierta. Ahora
supongamos que la hipótesis es falsa, es decir 𝛽2 ≠ 𝑎. En ese caso, (3.10) no se
65
distribuye como una t-Student pues, como se sabe, las variables aleatorias t-Student
tienen media cero, lo que ocurre en (3.9) pero no está garantizado en (3.10). Lo más
probable es que (3.10) se aleje de cero.
Una diferencia entre (3.9) y (3.10) es que la última puede ser calculada por nosotros.
Este análisis sugiere que si calculamos (3.10) y observamos su valor podríamos tener
una idea sobre si la hipótesis es cierta o falsa. Llamemos a (3.10) el “estadístico 𝑡” o
̂2 −𝑎
𝛽
simplemente “𝑡”, 𝑡 = , el cual es una variable aleatoria. Luego, si este
̂2 )
̂ (𝛽
√𝑉𝑎𝑟
Para poder definir qué tan grande o tan pequeño debe ser el estadístico 𝑡 para rechazar o
no la hipótesis, tomaremos los percentiles de la distribución t-Student. En la figura 3.2
se muestra la función de densidad de esta distribución con un determinado número de
grados de libertad. Tiene cierto parecido a la densidad de la normal estándar, y de hecho
se aproxima a ella mientras más grande sea sus grados de libertad.
Según los percentiles marcados en el gráfico, podemos tomar estos percentiles como
puntos de corte o límites para decir si el estadístico 𝑡 es lo suficientemente grande o no.
Si 𝑡 > 𝑡1−𝛼 (𝑛 − 2) o si 𝑡 < −𝑡1−𝛼 (𝑛 − 2), entonces podemos afirmar que, en
2 2
magnitud, el estadístico 𝑡 está muy lejos de cero como para que se le pueda considerar
como una variable aleatoria t-Student. Entonces, rechazaríamos la hipótesis nula
H0 : 𝑎 = 0. En cambio, si se encuentra entre los límites mencionados, no podríamos
rechazar la hipótesis mencionada.
Las dos condiciones para rechazar la hipótesis se pueden resumir en una sola usando el
valor absoluto del estadístico. Se “rechazará” la hipótesis si
Debe notarse que “rechazar” la hipótesis no significa que estemos seguros que la
hipótesis es falsa. En la figura 3.2 se encuentran sombreadas las regiones de
66
“aceptación” y “rechazo” de la hipótesis. Si el estadístico 𝑡 cae en la región de rechazo,
aun así es posible que 𝑡 se distribuya como t-Student, siendo entonces la hipótesis
verdadera. Según el gráfico, con 𝛼% de posibilidades una variable aleatoria t-Student
cae en la región de rechazo. En otras palabras, existe un 𝛼% de posibilidades de que
rechacemos una hipótesis que es verdadera, lo que se conoce como el Error Tipo I.
Luego, en el momento de realizar una prueba de hipótesis, es importante señalar con
qué valor 𝛼 se está realizando la prueba, dado que este es la probabilidad del cometer tal
error. Dada la importancia de 𝛼, en estadística se le conoce como el nivel de
significancia.
Figura 3.2
Función de densidad de la t-Student
á𝑟𝑒𝑎 = 1 − 𝛼
𝛼 𝛼
á𝑟𝑒𝑎 = á𝑟𝑒𝑎 =
2 2
−𝑡1−α (𝑛 − 2) 𝑡1−α (𝑛 − 2)
2 0 2
Zona de rechazo Zona de aceptación Zona de rechazo
67
Así mismo, debe tenerse claro que aceptar una hipótesis nula no significa que hayamos
comprobado que la hipótesis sea verdadera. Pueden existir diversas hipótesis nulas,
𝐻0 : 𝛽2 = 𝑎1, 𝐻0 : 𝛽2 = 𝑎2 , … etc. que produzcan estadísticos 𝑡 que caigan en la zona de
aceptación. Obviamente no todas ellas pueden ser verdad al mismo tiempo. Al “aceptar”
la hipótesis nula solo se está diciendo que los datos son consistentes o compatibles con
la hipótesis propuesta.5
Existe una relación directa entre la prueba de hipótesis y los intervalos de confianza
calculados en la sección anterior. De (3.11) sabemos que se rechaza si
̂2 −𝑎
𝛽 ̂2 −𝑎
𝛽
> 𝑡1−𝛼 (𝑛 − 2) ó < −𝑡1−𝛼 (𝑛 − 2)
√𝑉𝑎𝑟 ̂2 )
̂ (𝛽 2 √𝑉𝑎𝑟 ̂2 )
̂ (𝛽 2
Despejando a 𝑎 se obtiene,
La intuición detrás de este criterio de aceptación o rechazo de la hipótesis tiene que ver
con la confianza existente en que el verdadero parámetro caiga entre los límites del
5
Actualmente muchos estadísticos prefieren decir “no rechazar” en lugar de “aceptar”. Más adelante
volveremos sobre estos términos y la conveniencia de su uso.
68
intervalo. Si la hipótesis propone un valor 𝑎 que cae fuera del intervalo de confianza de
𝛽2, lo más probable es que 𝛽2 ≠ 𝑎.
La figura 3.3a ilustra un caso en donde se rechazaría la hipótesis nula. En esta figura las
regiones de aceptación y rechazo están definidas sobre el intervalo de confianza de 𝛽2,
no sobre los valores de 𝑡 como en la figura 3.2, aunque son equivalentes. En la figura
3.3a el valor 𝑎 está muy a la izquierda del intervalo. En la figura 3.3b se acepta la
hipótesis propuesta. Nuevamente, es importante notar que “aceptar (no rechazar)” la
hipótesis no garantiza que 𝛽2 = 𝑎, solo dice que 𝛽2 y 𝑎 podrían caer en un mismo
intervalo.
Figura 3.3a
Rechazo de la hipótesis nula
𝑎 𝛽2
Región de aceptación
Figura 3.3b
Aceptación (no rechazo) de la hipótesis nula
𝑎 𝛽2
Región de aceptación
Usando diagramas similares a los de las figuras 3.3, se puede ilustrar los errores que se
pueden cometer en las pruebas de hipótesis. En la figura 3.4a se rechaza la hipótesis
pese a que 𝛽2 = 𝑎, y por ello la hipótesis debería ser considerada como verdadera. Este
es el error tipo I que mencionamos antes y ocurre cuando se rechaza una hipótesis
cierta. En la figura 3.3b se acepta la hipótesis 𝛽2 = 𝑎 pese a que 𝛽2 y 𝑎 toman valores
muy lejanos. Este es el error tipo II, cuando se acepta una hipótesis que es falsa.
69
Figura 3.4a
El Error Tipo I
𝑎 𝛽2
Figura 3.4b
El Error tipo II
𝑎 𝛽2
𝛽̂2
Rechazo Rechazo
Región de aceptación
70
¿Cuál es el valor de 𝛼 que deberíamos usar en una prueba hipótesis? La respuesta está
en qué error considera más importante el investigador, según lo que quiera probar.
Algunas pruebas de hipótesis pueden tener un mayor énfasis en la aceptación que en el
rechazo, mientras que en otras puede existir lo contrario. En el ejemplo 3.2 hay un
mayor interés en la aceptación de la hipótesis, pues la teoría dice que la elasticidad es
igual a −1. En ese caso, si aceptamos debemos ser conscientes del error tipo II que se
puede estar cometiendo. En la mayoría de aplicaciones en regresión lineal, como se ve a
continuación en la sección 3.4, el énfasis puede estar en el rechazo.
Desde un principio, nuestro interés recae en ver si la variable aleatoria 𝑋 que hemos
propuesto regresor es capaz de explicar el comportamiento de la variable endógena 𝑌,
según el modelo 𝑌𝑖 = 𝛽1 + 𝛽2 𝑋𝑖 + 𝑢𝑖 . Usando el análisis de las secciones anteriores,
proponemos las hipótesis nula y alternativa
𝐻0 : 𝛽2 = 0 𝐻1 : 𝛽2 ≠ 0
Este es un caso especial de la prueba con 𝑎 = 0, y que quiere decir que de ser cierta la
hipótesis nula, 𝑋 no tiene ningún impacto sobre 𝑌. Si se rechaza, las variaciones en 𝑋 sí
se relacionan o explican a las variaciones de 𝑌. En esta prueba el énfasis está puesto en
el rechazo, pues nosotros mismos elegimos a 𝑋, no para probar que no explica sino para
probar que sí explica a 𝑌, y queremos ver si existe alguna evidencia estadística de que
su impacto no es nulo. En este tipo de pruebas conviene hablar de “rechazar” o “no
rechazar” la hipótesis. Si rechazamos la hipótesis nula, debemos preocuparnos por la
probabilidad de estar cometiendo el error tipo I. Nótese que no nos interesa mucho el
error tipo II pues no estamos interesados en aceptar sino en rechazar.
71
“significativo” cobra especial connotación, pues estamos afirmando que la relación
entre 𝑋 e 𝑌 no se produce al azar sino que existe evidencia estadística de esta relación.
𝛽̂2
|𝑡| = || || (3.12)
̂ (𝛽̂2 )
√𝑉𝑎𝑟
Este valor es comparado con el valor 𝑡1−𝛼 (𝑛 − 2) que se obtiene de la tabla t-Student.
2
Ejemplo 3.3: Continuando con el ejemplo 3.1, con datos hipotéticos sobre años de
educación y salarios, se han calculado los estadísticos 𝑡 según la ecuación (3.12).
Tabla 3.2
Prueba t de significancia de los parámetros
Valores críticos de t1 / 2 ( n 2)
(Nivel de sig. 𝛼)
1.812 2.228 3.169
(0.10) (0.05) (0.01)
H0 : β1 = 0 | t | = 0.633 No rechazo No rechazo No rechazo
H0 : β2 = 0 | t | = 3.066 Rechazo Rechazo No rechazo
Tal como puede verse en la tabla, la aceptación o rechazo de la hipótesis depende del
nivel de significancia escogido. En el caso del parámetro 𝛽1, para los tres niveles de
significancia se acepta (no se puede rechazar) la hipótesis nula de no significancia de
ese parámetro. Para el parámetro 𝛽2, se puede rechazar la hipótesis 𝛽2 = 0 con niveles
de significancia de 10% y 5%, pero no se puede rechazar al 1%.
Vale la pena cerrar esta sección con un pequeño comentario sobre la aceptación o
rechazo de una hipótesis. Definitivamente ambos aspectos de la prueba no son
“simétricos”, en el sentido que inclinarnos por uno u otro lado tiene diferentes
implicaciones sobre la evidencia que soporte la veracidad de una afirmación.
Recordemos que estamos usando la herramienta estadística de pruebas de hipótesis para
descartar o no teorías económicas. En ese contexto, la hipótesis nula 𝐻0 : 𝛽2 = 0 afirma
que 𝑋 no tiene relación con 𝑌, con lo cual 𝑋 no podría ser capaz de predecir a 𝑌 en
72
ningún momento ni lugar. Esta es una afirmación universal expresada en forma
negativa (“no hay efecto”) cuya veracidad es difícil de probar pues debería ser válida en
todo momento y lugar. No obstante, por lógica sabemos que basta con un contraejemplo
para derribar cualquier afirmación universal.6 La hipótesis alternativa es una afirmación
particular que niega la afirmación universal.
¿Son los datos económicos muestras aleatorias de una población? ¿Sobre qué población
estamos aplicando la teoría económica que deseamos probar? Estas son dos preguntas
muy importantes que el econometrista debería responder en el momento de evaluar
hipótesis de estudio. Los datos económicos muchas veces no son muestras aleatorias,
por ello el investigador debe estar atento a que el resultado de la prueba pueda cambiar
respecto a otros estudios. Asimismo, debe quedar claro a qué población representan esos
datos. ¿Lo que se cumple para la región 𝐴 también se cumple para la región 𝐵? ¿Podría
hacer inferencia para la macro-región 𝐴 ∪ 𝐵? El hecho de haber rechazado la hipótesis
con una muestra particular no garantiza que suceda lo mismo con otras muestras, o en
otros escenarios, y por ello no deberíamos generalizar tan fácilmente la afirmación
particular 𝛽2 ≠ 0 a otros contextos. Se necesita información adicional para generalizar
los resultados.
En conclusión, rechazar la hipótesis nula nos da una conclusión más sólida que no
rechazarla, aunque surge la discusión sobre la generalización de los resultados. De ahí
nace el interés en ver si podemos rechazar la hipótesis, y es la razón por la que muchos
economistas prefieren decir que “no rechazan” la hipótesis en vez de “aceptarla” pues
esta última palabra puede significar que afirmemos que 𝛽2 = 0. En caso que no
logremos rechazar la hipótesis, eso no quiere decir necesariamente que la teoría
6
Por ejemplo, si la afirmación universal fuera: “no existe vida extraterrestre”, esta afirmación sería
rebatida contundentemente si se encontrara vida en algún lugar del cosmos. No obstante, no podemos
probar que no existe vida más allá de nuestro planeta.
73
propuesta sea incorrecta. Afirmar que 𝑋 no tiene efecto sobre 𝑌 a partir de una sola
muestra es una conclusión débil.
3.5 El p-value
y𝑡1−0.02 (10) = 2.764, el estadístico |𝑡| es mayor a todos esos valores. ¿Existirá algún
2
Los programas econométricos utilizan una fórmula exacta cuando se trata de la hipótesis
de significancia individual (𝐻0 : 𝛽𝑗 = 0), la cual es:
̂𝑗
𝛽 ̂𝑗
𝛽
P − 𝑣𝑎𝑙𝑢𝑒 = 2 × (1 − F (|| ||, 𝑛 − 𝑘)) = 2 × F (−|| ||, 𝑛 − 𝑘)
√𝑉𝑎𝑟 ̂𝑗 )
̂ (𝛽 ̂𝑗 )
̂ (𝛽
√𝑉𝑎𝑟
74
Figura 3.5
El p-value
-|t| 0 |t|
Continuando con el ejemplo presentado en la sección 2.8, la tabla 3.3 reproduce los
mismos resultados de la tabla 2.3. En esta tabla podemos ver los resultados de las
pruebas de hipótesis sobre la significancia del coeficiente de la variable X. En dicha
75
tabla se obtiene que 𝛽̂2 es igual a 53.64 y su desviación estándar es 17.49, y con ello es
estadístico t es igual a 3.07. El valor crítico de la tabla t-Student con 10 grados de
libertad al 95% a dos colas es 2.23 (no mostrado en la tabla 3.3), con lo cual se rechaza
la hipótesis nula que tal coeficiente es igual a cero al 5% de significancia. El valor
crítico a 1% de significancia es 3.17, por lo que no se puede rechazar la hipótesis tal
como quedó establecido en la tabla 3.2. Otra forma de realizar esta prueba es
observando el intervalo de confianza, en donde se puede ver que el intervalo es [14.66,
92.62] no abarca al valor 0. Por último, el p-value de este coeficiente nos muestra un
valor de 0.012, lo que significa que se puede rechazar la hipótesis nula de no
significancia hasta el 1.2% de significancia.
Tabla 3.3
Tabla de resultados de Stata
La tabla 3.3 también muestra los valores del estadístico t y el p-value respectivo para el
intercepto. Con los valores calculados se tiene que 𝛽̂1= 98.54 y su desviación estándar
es 155.57. Dividiendo estos valores se obtiene al estadístico t, el cual es igual a 0.63 y
que coincide con los valores que se calcularon en la tabla 3.2. Con este valor tan bajo no
se puede rechazar la hipótesis de que tal parámetro es igual a cero, ni al 10%, 5% o 1%.
La tabla 3.3 nos dice que solo se podría rechazar la hipótesis con un 54.1% de
significancia (probabilidad de cometer el error tipo I), lo cual no es aceptable en los
estándares de la estadística ni de la econometría, por lo que finalmente se concluye en
no rechazar esa hipótesis.
Ejercicios
76
∑ Xi = 44 ∑ Yi = 76.3 ∑ Xi Yi = 427.55 ∑ X2i = 245.5 ∑ Y2i = 751.39
∑̂
Yi = 76.3 ∑ xi yi = 54.53 ∑ x2i = 30.39 ∑ y2i = 104.54 n = 9
Producción 1 2 3 4 5 6 7 8 9 10
Costo total 193 226 240 244 257 260 274 297 350 420
∑ X i2 = 2165.18 ̅
X = 8.765 n = 20
77
3.5. Dados los siguientes datos de un modelo bivariado,
X 3 5 6 4 2 7 8 9 10
Y 2 4 6 3 4 8 10 14 12
a. Encuentre la SCT, SCE, SCR y calcule el R-cuadrado
b. Encuentre la varianza de β̂ 1 y β̂ 2 .
c. Pruebe la hipótesis: H0 : β1 = 0 y construya un intervalo de confianza al 95%
para β1 y β2 .
78
Capítulo 4
El Modelo de Regresión Lineal con k Variables
En los tres capítulos anteriores se desarrolló la econometría del modelo clásico de dos
variables. No obstante, este modelo es muy simple y poco aplicable a la realidad, pues
en economía suele observarse relaciones entre más de dos variables. Así, en el ejemplo
de los años de educación y su relación con los salarios, es difícil sostener que estos
últimos dependen únicamente de cuanta educación tengan las personas. Existen estudios
que señalan que los salarios varían con la edad de las personas, a la par con el ciclo de
vida. En la juventud los salarios son bajos, aunque crecen año tras año, para luego de
llegar a un valor máximo con la madurez. También es conocido que los salarios pueden
variar con la experiencia de los trabajadores, en donde el mercado laboral premia a los
que han adquirido mayores conocimientos por la práctica. Asimismo, los salarios
responden a diferencias en el género y el origen étnico de los trabajadores, existiendo
investigaciones que señalan que existen evidencias de discriminación laboral. Es posible
también encontrar diferencias regionales en los salarios asociadas a diferentes niveles de
desarrollo de las regiones y a diferentes costos de vida. Por otro lado, se pueden
encontrar diferencias salariales relacionadas con el tipo de trabajo, en donde el trabajo
más riesgoso podría recibir algún pago adicional. De esta manera, estos y otros
determinantes de los salarios probarían que el modelo bivariado es una aproximación
muy incompleta del comportamiento de los salarios.
Ignorar a los demás determinantes de los salarios puede generar importantes sesgos en
la estimación de los parámetros por mínimos cuadrados ordinarios, tal como se
comprobará en este capítulo. Existirían también problemas para hacer predicciones
sobre el comportamiento futuro de la variable endógena del modelo, pues en un modelo
con un solo regresor, esta variable exógena solo explica una parte de la variabilidad de
la endógena.
Pero hacer el modelo de regresión lineal más completo con más variables acarrea
algunas dificultades de orden operativo y también econométrico. En primer lugar, ya no
puede encontrarse a los estimadores de los parámetros utilizando sumatorias como en el
capítulo 2. Con un modelo de tres variables explicativas (la constante, y dos exógenas
𝑋), el cálculo de los estimadores puede hacerse, pero con ciertas dificultades de orden
79
algebraico. Con más de tres variables explicativas, el cálculo manual utilizando
sumatorias es simplemente inmanejable.
Sin embargo, podemos tomar ventaja del algebra matricial para poder estimar un
modelo con k variables donde k es un número natural, y encontrar tanto teórica como
empíricamente a los estimadores del modelo. Es por esta razón que a partir de este
capítulo los desarrollos de ejercicios y demostraciones se apoyarán fuertemente en el
algebra matricial. El estudiante que desee repasar los conceptos mínimos de algebra
matricial para seguir la exposición puede revisar el apéndice respectivo en este libro o
consultar algún texto de matemáticas.
Como se mencionó en la presentación del capítulo, este modelo es una extensión natural
del modelo bivariado. La extensión de la ecuación (1.1) del capítulo 1 es la siguiente:
En la ecuación (4.1) hay 𝑘 variables explicativas al lado derecho del signo igual. La
primera de ellas, 𝑋1 , no se muestra pues es igual a 1 para todo 𝑖 y lleva el nombre de
“constante”. Ella multiplica al parámetro 𝛽1 que es el “intercepto”. Las demás son 𝑘 − 1
variables explicativas propiamente dichas, desde 𝑋2 hasta 𝑋𝑘 , y cada una de ellas
multiplica a un parámetro poblacional 𝛽𝑗 , el cual es su respectivo coeficiente o
“pendiente”. El subíndice i resalta que la ecuación presentada expresa valores de estas
variables para cada individuo u observación 𝑖. El término de perturbación 𝑢𝑖 y la
variable endógena 𝑌𝑖 se definen exactamente igual que en el modelo de dos variables del
capítulo 1.
80
Una primera forma de simplificar a (4.1) es definiendo el vector fila de observaciones
del individuo 𝑖 como 𝒙𝑖 = [1 𝑋2𝑖 ⋯ 𝑋𝑘𝑖 ] . Luego, (4.1) queda
𝛽1
𝛽2
𝑌𝑖 = 𝒙𝑖 𝜷 + 𝑢𝑖 𝑖 = 1, … , 𝑛 donde 𝜷 = [ ].
⋮
𝛽𝑘
La ecuación (4.2) se puede expresar en forma compacta usando letras que identifiquen a
los vectores y matrices.
𝒚 = 𝑿 𝜷 + 𝒖 (4.3)
𝑛×1 𝑛×𝑘 𝑘×1 𝑛×1
Los números debajo de las letras indican la dimensión de filas y columnas de los
vectores y matrices.
81
Supuesto 2: La esperanza condicional del término de perturbación es igual a cero dados
los valores de las variables exógenas.
𝐸 [𝑢1 |𝑿] 0
[
𝐸 𝑢2 |𝑿 ] 0
𝐸 [𝒖|𝑿] = [ ]=[ ]=𝟎 (4.4)
⋮ ⋮
𝐸[𝑢𝑛 |𝑿] 0
Este supuesto, también conocido como el de “exogeneidad estricta”, quiere decir que el
valor esperado de cada 𝑢𝑖 condicionado a todas las observaciones de 𝑿 es cero. Cabe
aclarar que no solo se condiciona a los valores de las exógenas de la i-ésima
observación 𝐱 𝑖 sino a todas las observaciones.1 Al igual que antes, se puede comprobar
que el cumplimiento de (4.4) implica que 𝐸 [𝒖] = 𝟎 y 𝐶𝑜𝑣[𝑿, 𝒖] = 𝟎.
De la misma manera que en el capítulo 1, este supuesto también equivale a decir que la
Función de Regresión Poblacional es igual a la esperanza condicional de 𝒚 dado 𝑿.
𝑉𝑎𝑟(𝒖|𝑿) = 𝜎 2 𝑰 (4.6)
1
El lector interesado en la distinción entre condicionar sobre 𝑿 y condicionar sobre 𝒙𝑖 puede darle
opcionalmente una mirada al apéndice del capítulo 1.
2
Para un vector aleatorio 𝒃, su varianza es 𝑉𝑎𝑟(𝒃) = 𝐸 [(𝒃 − 𝐸(𝒃))(𝒃 − 𝐸(𝒃))′].
82
𝑢12 𝑢1 𝑢2 … 𝑢1 𝑢𝑛
𝑉𝑎𝑟(𝒖|𝑿) = 𝐸 [𝒖𝒖′|𝑿] = 𝐸 𝑢1 𝑢2 𝑢22 … 𝑢2 𝑢𝑛 |𝑿
⋮ ⋮ ⋱ ⋮
[[𝑢1 𝑢𝑛 𝑢2 𝑢𝑛 … 𝑢𝑛2 ] ]
𝐸[𝑢12 |𝑿] 𝐸[𝑢1 𝑢2 |𝑿] … 𝐸 [𝑢1 𝑢𝑛 |𝑿]
[
= 𝐸 𝑢1 𝑢2 |𝑿
] 𝐸 [𝑢22 |𝑿] … 𝐸 [𝑢2 𝑢𝑛 |𝑿]
⋮ ⋮ ⋱ ⋮
[𝐸 [𝑢1 𝑢𝑛 |𝑿] 𝐸 [𝑢2 𝑢𝑛 |𝑿] … 𝐸 [𝑢𝑛2 |𝑿] ]
El producto 𝒖𝒖′ es el producto externo del vector columna 𝒖, y es una matriz cuadrada
de dimensión 𝑛 × 𝑛. Aplicando el valor esperado a cada una de las celdas obtenemos la
matriz de varianzas y covarianzas de 𝒖.
El supuesto 3 afirma que los elementos de la diagonal principal de esta matriz (las
varianzas) son todas iguales a una constante σ2 (homocedasticidad), y que todas las
casillas fuera de la diagonal principal (las covarianzas) son iguales a cero (no
autocorrelación). Adicionalmente, obsérvese que la matriz de varianzas y covarianzas (a
veces llamada matriz var-cov) es simétrica. Con todo ello (4.7) se escribe como
𝜎2 0 … 0
𝑉𝑎𝑟(𝒖|𝑿) = [ 0 𝜎2 … 0 ] = 𝜎2𝑰
⋮ ⋮ ⋱ ⋮
0 0 … 𝜎2
83
Supuesto 5: Los términos de perturbación siguen una distribución normal multivariada
del tipo
𝒖~𝑁(𝟎, 𝜎 2 𝑰) (4.8)
Este supuesto es la versión matricial del supuesto 5 del modelo bivariado en el capítulo
3. Así los términos de perturbación siguen una distribución normal, tienen varianza
constante y las covarianzas entre estos términos son iguales a cero.
Este supuesto afirma que las variables explicativas (las columnas de la matriz 𝑿) deben
ser linealmente independientes, lo que quiere decir que ninguna de las variables
exógenas puede ser una combinación lineal exacta de otra u otras variables explicativas.
En caso que hubiera dependencia lineal entre las variables, una de ellas estaría
brindando información redundante, es decir estaría repitiendo información que ya ha
sido contada en otras variables. Cuando esto ocurre surge el problema de la
multicolinealidad perfecta, que será analizado en el capítulo 6. En caso de no cumplirse
el supuesto 6 existirán problemas en el momento de la estimación de los parámetros.
El supuesto también dice que el número de observaciones debe ser mayor al número de
parámetros en el vector 𝜷. Si el número de observaciones fuera menor al número de
parámetros, 𝑛 < 𝑘, el rango de 𝑿 no podría ser nunca igual a 𝑘. Más adelante veremos
que en este caso la estimación se volvería imposible. Si 𝑛 = 𝑘, la estimación se vuelve
trivial. Para aclarar este punto, imagine un modelo bivariado con 𝑛 = 2. Al existir
solamente dos observaciones (dos puntos en el plano), la única recta estimada posible
será aquella que pase por los dos únicos puntos. Por esta razón es deseable que 𝑛 sea
mayor a 𝑘, y de preferencia mucho mayor que 𝑘. Así, con más observaciones se tendría
una mayor libertad para elegir valores estimados de los parámetros, y que se puedan
considerar como buenas aproximaciones de los verdaderos parámetros poblacionales.
84
La función de regresión muestral en matrices es
𝒚 ̂
̂ = 𝑿𝜷 (4.9)
̂ = 𝒚 − 𝑿 ̂
𝒆 = 𝒚 − 𝒚 𝜷 (4.10)
𝑛×1 𝑛×1 𝑛×1 𝑛×1 𝑛×𝑘𝑘×1
′
̂ ) (𝒚 − 𝑿𝜷
𝑆𝐶𝑅 = (𝒚 − 𝑿𝜷 ̂ ) = 𝒚′ 𝒚 − 𝒚′𝑿𝜷
̂−𝜷
̂ ′ 𝑿′ 𝒚 + 𝜷
̂ ′𝑿′𝑿𝜷
̂
̂ y 𝜷
Nótese que 𝒚′ 𝑿𝜷 ̂ ′𝑿′𝒚 son expresiones de dimensión 1 1 , y al ser una la
transpuesta de la otra, son exactamente iguales. Por conveniencia, la suma de ambas
̂ . Luego
queda formulada como 2𝒚′ 𝑿𝜷
̂+𝜷
𝑆𝐶𝑅 = 𝒚′𝒚 − 2𝒚′𝑿𝜷 ̂ ′𝑿′𝑿𝜷
̂ (4.11)
̂.
El método consiste en minimizar esta suma de cuadrados respecto a los estimadores 𝜷
̂ , tal como
Normalmente, se debe derivar a la SCR por cada una de los k parámetros en 𝜷
se hizo en el modelo de dos variables. En esta ocasión, mediante matrices vamos a
realizar todas estas k derivaciones en un solo procedimiento. Derivamos (4.11) respecto
̂ ,3
al vector 𝜷
𝜕𝑆𝐶𝑅
̂= 𝟎
= −2𝑿′ 𝒚 + 2𝑿′𝑿𝜷 (4.12)
̂
𝜕𝜷 𝑘×1
3 ̂ , y una
Obsérvese que al hacer la derivación, la expresión matemática (4.11) tiene una parte lineal, 𝒚′ 𝑿𝜷
̂ . Según las reglas de derivación, la derivada de la forma lineal 𝒚 = 𝑨𝒙 es 𝜕𝒚 =
̂ ′ 𝑿′ 𝑿𝜷
forma cuadrática, 𝜷 𝜕𝒙
𝜕𝒛
𝑨′, mientras que la derivada de la forma cuadrática 𝒛 = 𝒙′𝑨𝒙 es 𝜕𝒙 = 2𝑨𝒙.
85
La ecuación (4.12) es una ecuación matricial que resume el hecho que la SCR debe ser
derivada por cada uno de los parámetros β. La expresión en forma extensiva es
𝜕𝑆𝐶𝑅
̂1
𝜕𝛽 0
𝜕𝑆𝐶𝑅
0
𝜕𝛽̂2 =[ ]
⋮ ⋮
𝜕𝑆𝐶𝑅 0
[ 𝜕𝛽̂
𝑘 ]
Es decir, en total tenemos k ecuaciones normales, que deben resolverse para los
parámetros 𝛽̂1 , 𝛽̂2 , … , 𝛽̂𝑘 . (4.12) no es otra cosa que una forma compacta de presentar a
estas ecuaciones, en donde el vector 𝟎 tiene dimensión 𝑘 × 1. De estas 𝑘 ecuaciones se
obtiene la solución de los 𝑘 estimadores de los parámetros. De (4.12), cancelando el
̂ = 𝑿′𝒚. Luego multiplicando a ambos lados por
número 2, y reordenando queda 𝑿′ 𝑿𝜷
(𝐗 ′ 𝐗)−1 queda
̂ = (𝑿′𝑿)−1 𝑿′𝒚
𝜷 (4.13)
̂+𝒆
𝒚 = 𝑿𝜷 (4.14)
86
Ejemplo 4.1: Comprobaremos que la estimación matricial arroja los mismos resultados
que la estimación realizada en el capítulo 2 para el modelo con un solo regresor X, es
decir, el caso 𝑘 = 2.
La matriz de datos de las exógenas en el modelo bivariado sería una matriz que contiene
una columna de unos y a la columna de datos del único regresor. Ella, la
correspondiente matriz 𝑿′ 𝑿 y su inversa son,
1 𝑋1
1 𝑋2 𝑛 ∑ 𝑋𝑖 1 ∑ 𝑋𝑖2 − ∑ 𝑋𝑖
𝑿=[ ] 𝑿′ 𝑿 = [ ] (𝑿′𝑿)−1 = [ ]
⋮ ⋮ ∑ 𝑋𝑖 ∑ 𝑋𝑖2 ∆ − ∑ 𝑋𝑖 𝑛
1 𝑋𝑛
𝑌1
𝑌 ∑ 𝑌𝑖
𝒚 = [ 2] 𝑿′ 𝒚 = [ ]
⋮ ∑ 𝑋𝑖 𝑌𝑖
𝑌𝑛
∑ 𝑋𝑖2 ∑ 𝑌𝑖 −∑ 𝑋𝑖 ∑ 𝑋𝑖 𝑌𝑖
Estos son los mismos resultados que se obtuvieron en el capítulo 2, con la diferencia
que falta desarrollarlos matemáticamente. En el caso de 𝛽̂2 , basta con multiplicar por
(1/𝑛) en el numerador y el denominador para obtener el mismo resultado.
1
(𝑛 ∑ 𝑋𝑖 𝑌𝑖 − ∑ 𝑋𝑖 ∑ 𝑌𝑖 ) ∑ 𝑋𝑖 𝑌𝑖 − 𝑌̅ ∑ 𝑋𝑖
𝛽̂2 = 𝑛 =
1
𝑛
(𝑛 ∑ 𝑋𝑖2 −(∑ 𝑋𝑖 )2) ∑ 𝑋𝑖2 − 𝑋̅ ∑ 𝑋𝑖
∑ 𝑋𝑖 2
∆= 𝑛 ∑ 𝑋𝑖2 − 𝑛2 ( ) = 𝑛(∑ 𝑋𝑖2 − 𝑛𝑋̅ 2 ) = 𝑛 ∑ 𝑥𝑖2 .
𝑛
87
Luego, dado que ∑ 𝑥𝑖2 = ∑ 𝑋𝑖2 − 𝑛𝑋̅ 2 , y por lo tanto ∑ 𝑋𝑖2 = ∑ 𝑥𝑖2 + 𝑛𝑋̅ 2 , entonces 𝛽̂1
es
∑ 𝑋𝑖 ̅
∑ 𝑋𝑖 ∑ 𝑋𝑖 𝑌𝑖 − 𝑛 ( ) ∑
𝑛 𝑋 𝑌𝑖 ∑ 𝑋𝑖 (∑ 𝑋𝑖 𝑌𝑖 − 𝑋̅ ∑ 𝑌𝑖 )
= 𝑌̅ − = 𝑌̅ −
𝑛 ∑ 𝑥𝑖2 𝑛 ∑ 𝑥𝑖2
(∑ 𝑋𝑖 𝑌𝑖 − 𝑋̅ ∑ 𝑌𝑖 )
= 𝑌̅ − 𝑋̅ = 𝑌̅ − 𝛽̂2 𝑋̅
∑ 𝑋𝑖2 − 𝑛𝑋̅ 2
Con ello hemos comprobado que son las mismas fórmulas del capítulo 2.
1. 𝑿 y 𝒆 son ortogonales
𝑿′ 𝒆 = 𝟎 (4.15)
̂=𝟎
𝑿′𝒚 − 𝑿′𝑿𝜷
̂ ) = 𝟎, lo que completa la
Tras factorizar 𝑿′ por la izquierda, se obtiene 𝑿′(𝒚 − 𝑿𝜷
prueba.
Este resultado incluye a aquel resultado del modelo bivariado que decía que la suma de
los residuos es igual a cero, ∑ 𝑒𝑖 = 0. Cuando en el modelo se incluye a un intercepto,
la primera columna de 𝑿 es la columna de unos. Luego en el producto (4.15) ocurre que
88
𝒊′ 𝒆 = 𝟎, donde 𝒊 es un vector columna de 𝑛 unos.4 Por el contrario, cuando el modelo
no incluye un intercepto, no existe la columna de unos en la matriz 𝑿. Luego, aunque
(4.15) seguirá siendo cierto, ya no será verdad que ∑ 𝑒𝑖 = 0.
2. ̂
𝑌̅ = 𝐱̅𝜷
̅ = [1
donde 𝒙 𝑋̅2 𝑋̅3 … 𝑋̅𝑘 ] es el vector fila de promedios de todas las exógenas.
Probaremos este resultado con el fin de afianzar el dominio del algebra matricial. Sea 𝒊
un vector columna de unos, a partir de la expresión (4.14), premultiplicando por 𝒊′ se
tiene
̂ + 𝒊′ 𝒆.
𝒊′ 𝒚 = 𝒊′ 𝑿𝜷
Al premultiplicar por 𝒊′ hemos conseguido sumar todos los elementos de las columnas.
El último término desaparece porque 𝒊′𝒆 = ∑ 𝑒𝑖 = 0. Dividiendo ambos lados de la
1 1
̂ , lo que es igual a 𝑌̅ =
ecuación entre 𝑛 se obtienen los promedio (𝑛) 𝒊′ 𝒚 = (𝑛) 𝒊′𝑿𝜷
̅𝜷
𝒙 ̂.
Este resultado es una generalización del resultado del capítulo 2 que afirmaba que la
recta estimada pasaba por el punto del promedio de la endógena y la exógena.
3. 𝑌̅ = 𝑌̅̂
Un resultado bastante útil es la aparición de una matriz capaz de generar residuos de una
estimación por mínimos cuadrados ordinarios. A partir de (4.9), remplazando el
resultado de la ecuación (4.12) en ella se obtiene
4
El lector puede comprobar esta propiedad en forma un poco más explícita transponiendo la matriz 𝑿 en
la ecuación (4.2) y multiplicándola por una columna de n residuos.
89
̂ = 𝒚 − 𝑿(𝑿′𝑿)−1 𝑿′𝒚 = [𝑰 − 𝑿(𝑿′𝑿)−1 𝑿′]𝒚 = 𝑴𝒚
𝒆 = 𝒚 − 𝑿𝜷 (4.16)
donde 𝑴 es una matriz 𝑛 × 𝑛 que tiene algunas propiedades que vale la pena resaltar.
= 𝑰 − 𝑿(𝑿′𝑿)−1𝑿′ = 𝑴
𝑴𝑿 = [𝑰 − 𝑿(𝑿′𝑿)−1𝑿′]𝑿 = 𝑿 − 𝑿 ⏟
(𝑿′ 𝑿)−1 𝑿′𝑿 = 𝑿 − 𝑿 = 𝟎
𝑰
𝑦1 − 𝑌̅
1 1 ̅
𝑨𝒚 = [𝑰 − 𝒊𝒊′ ] 𝒚 = 𝒚 − 𝒊𝒊′ 𝒚 = 𝒚 − 𝒊𝑌̅ = 𝑦2 − 𝑌
𝑛 𝑛 ⋮
[𝑦𝑛 − 𝑌̅ ]
90
Este resultado nos indica que la matriz 𝑴 no tiene rango lleno pues su rango es
menor a su dimensión 𝑛 × 𝑛. Luego será cierto que el determinante de 𝑴 es
cero y que no tiene inversa.
5. La matriz de proyección
̂ = 𝑿(𝑿′𝑿)−1 𝑿′𝒚 = 𝑷𝒚
𝒚
̂
4.4 Propiedades estadísticas del estimador de mínimos cuadrados ordinarios 𝜷
̂ = 𝜷 + (𝑿′𝑿)−1 𝑿′𝒖.
𝜷 (4.17)
91
̂ ] = 𝜷, y por lo tanto los estimadores de
Dado que 𝐸[𝒖] = 𝟎, se demuestra que 𝐸[𝜷
mínimos cuadrados ordinarios son insesgados. Este resultado es una generalización del
que se obtuvo en el modelo de dos variables.
̂ ] = 𝐸[(𝜷
𝑉𝑎𝑟[𝜷 ̂ − 𝐸[𝜷
̂ ])(𝜷
̂ − 𝐸[𝜷
̂ ])′]
̂ − 𝜷)(𝜷
= 𝐸[(𝜷 ̂ − 𝜷)′].
En la segunda parte de la línea anterior se ha tomado en cuenta que 𝑿 es fija. Dado que
𝑉𝑎𝑟(𝒖) = 𝐸[𝒖𝒖′] = 𝜎 2 𝑰 por el supuesto de perturbaciones esféricas, luego de cancelar
algunos términos se obtiene
̂ ] = 𝜎 2 (𝑿′𝑿)−1 .
𝑉𝑎𝑟[𝜷 (4.18)
Ejemplo 4.2: Para comprobar que (4.18) es una generalización de lo que se desarrolló
en el capítulo 2, veamos paso a paso como se configuraría esta matriz de var-cov en el
caso 𝑘 = 2. En el ejemplo 4.1 se mostró que
1 ∑ 𝑋𝑖2 − ∑ 𝑋𝑖
(𝑿′𝑿)−1 = [ ] ∆= 𝑛 ∑ 𝑋𝑖2 − (∑ 𝑋𝑖 )2 = 𝑛 ∑ 𝑥𝑖2 .
∆ − ∑ 𝑋𝑖 𝑛
Luego,
∑ 𝑋𝑖2 ∑ 𝑋𝑖
−
𝑉𝑎𝑟(𝛽̂1 ) 𝐶𝑜𝑣(𝛽̂1 , 𝛽̂2 ) 𝑛 ∑ 𝑥𝑖2 𝑛 ∑ 𝑥𝑖2
̂) = [
𝑉𝑎𝑟(𝜷 ] = 𝜎2
𝐶𝑜𝑣(𝛽̂1 , 𝛽̂2 ) 𝑉𝑎𝑟(𝛽̂2 ) ∑ 𝑋𝑖 1
−
[ 𝑛 ∑ 𝑥𝑖2 ∑ 𝑥𝑖2 ]
92
Es evidente que la varianza de 𝛽̂2 es igual a la que se obtuvo en la ecuación (2.12) del
capítulo 2. En el caso de la varianza de 𝛽̂1 , tomando en cuenta que ∑ 𝑥𝑖2 = ∑ 𝑋𝑖2 − 𝑛𝑋̅ 2
4.5 El estimador de 𝜎 2
𝒆 = 𝑴𝒚 = 𝑴(𝑿𝜷 + 𝒖) = 𝑴𝑿𝜷 + 𝑴𝒖 = 𝑴𝒖
𝐸 [𝒆′𝒆] = 𝜎 2 tr(𝑴) = 𝜎 2 . (𝑛 − 𝑘 )
5
Véase el apéndice de algebra matricial al final del libro.
93
𝑒′𝑒
𝑠2 = (4.19)
𝑛−𝑘
𝒆′ 𝒆 𝐸 [𝒆′ 𝒆] 𝜎 2 . (𝑛 − 𝑘 )
𝐸 [𝑠 2 ] = 𝐸 [ ]= = = 𝜎2
𝑛−𝑘 𝑛−𝑘 𝑛−𝑘
2𝜎 4
𝑉𝑎𝑟[𝑠 2 ] =
𝑛−𝑘
(𝑛 − 𝑘)𝑠 2 2
2
~ 𝜒(𝑛−𝑘) (4.20)
𝜎
3 1 2 4
2 1 5 7
𝒚= 6 𝑿= 1 3 8.
4 1 2 3
[1] [1 6 2]
5 18 24 16
𝑿′𝑿 = [18 78 85 ] 𝑿′ 𝒚 = [48].
24 85 142 88
94
𝛽̂1 3.838544
̂ = [𝛽̂2 ] = (𝑿′𝑿)−1 𝑿′𝒚 = [−0.6866753]
𝜷
𝛽̂3 0.382035
1 2 4 3.9932
1 5 7 3.838544 3.0790
𝒚 ̂
̂ = 𝑿𝜷 = 1 3 8 [−0.6866753] = 4.8346 .
1 2 3 0.382035 3.6111
[1 6 2] [0.4821]
3 3.9932 −0.9932
2 3.0790 −1.0790
̂ = 𝒚−𝒚
𝒆 = 𝒚 − 𝑿𝜷 ̂ = 6 − 4.8346 = 1.1654
4 3.6111 0.3889
[1] [0.4821] [ 0.5179 ]
3.9284
𝑠2 = = 1.9642
5−3
̂ es igual a
Por último, la matriz de varianzas y covarianzas estimada de 𝜷
Este importante teorema señala que, bajo los supuestos del modelo clásico, el estimador
de mínimos cuadrados es el mejor estimador lineal e insesgado (MELI) dentro de la
clase de estimadores lineales e insesgados. Es decir, no hay otro estimador lineal
insesgado que tenga una menor varianza que el de mínimos cuadrados ordinarios.
6
Esta demostración ha sido tomada de Novales (1993), página 71.
95
̃=𝑨
estimador lineal de 𝜷, 𝜷 ̃ 𝒚 donde 𝑨
̃ es una matriz 𝑘 × 𝑛. Recordando que el
̂ = (𝑿′𝑿)−1 𝑿′𝒚, definamos una matriz de diferencia 𝑫 =
estimador de MCO es 𝜷
̃ −(𝑿′ 𝑿)−1 𝑿′. Entonces
𝑨
̃=𝑨
𝜷 ̃ 𝒚 = [𝑫 + (𝑿′𝑿)−1 𝑿′]𝒚 = [𝑫 + (𝑿′𝑿)−1 𝑿′](𝑿𝜷 + 𝒖)
̃ = 𝜷 + (𝑫 + (𝑿′𝑿)−1 𝑿′)𝒖
𝜷 (4.22)
̃ ] = 𝐸[(𝜷
𝑉𝑎𝑟[𝜷 ̃ − 𝜷)(𝜷
̃ − 𝜷)′]
̃ ] = 𝜎 2 𝑫𝑫′ + 𝜎 2 (𝑿′𝑿)−𝟏
𝑉𝑎𝑟[𝜷
̃ ] > 𝑉𝑎𝑟[𝜷
La matriz 𝑫𝑫′ es no negativa definida, entonces 𝑉𝑎𝑟[𝜷 ̂ ] quedando el
teorema demostrado.7
7
Nota Matemática: Si 𝑨 es una matriz 𝑛 × 𝑘 con rango lleno y 𝑛 > 𝑘, entonces 𝑨′𝑨 es positiva definida
y 𝑨𝑨′ es definida no negativa.
96
Utilizando a la matriz 𝑨 que fue definida en la sección 4.3 plantearemos el estimador
MCO en desviaciones respecto a la media.
̂ + 𝑨𝒆
𝑨𝒚 = 𝑨𝑿𝜷
𝛽̂1
𝑨𝒚 = 𝑨[𝒊 ⋮ 𝑿2 ] [ ⋯ ] + 𝑨𝒆
𝜷̂2
̂ 2 + 𝒆.
𝑨𝒚 = 𝑨𝑿2 𝜷 (4.23)
1 𝑋1 𝑋1 − 𝑋̅ 𝑥1
1 𝑋2 ̅ 𝑥
𝑨𝑿𝟐 = 𝑋2 − 𝑋 = [ ⋮ ]
2
𝑿=[ ] 𝑿′2 𝑨𝑿2 = ∑ 𝑥𝑖2
⋮ ⋮ ⋮
1 𝑋𝑛 [𝑋𝑛 − 𝑋̅] 𝑥𝑛
𝑦1
𝑦
𝑿′2 𝑨𝒚 = 𝑿′2 𝑨′𝑨𝒚 = [𝑥1 𝑥2 ⋯ 𝑥𝑛 ] [ 2 ] = ∑ 𝑥𝑖 𝑦𝑖
⋮
𝑦𝑛
97
̂ 2 = (𝑿′2 𝑨𝑿2 )−1𝑿′2 𝑨𝒚 = (∑ 𝑥𝑖2 )−1 ∑ 𝑥𝑖 𝑦𝑖 = ∑ 𝑥𝑖 𝑦2 𝑖.
Luego, 𝜷 ∑𝑥 𝑖
𝑥21 𝑥31
𝑥22 𝑥32 ∑ 𝑥2𝑖 ∑ 𝑥2𝑖 𝑥3𝑖 ∑ 𝑥2𝑖 𝑦𝑖
𝑨𝑿𝟐 = [ ⋮ ⋮ ] 𝑿′2 𝑨𝑿2 = [ ] 𝑿′2 𝑨𝒚 = [ ]
∑ 𝑥2𝑖 𝑥3𝑖 ∑ 𝑥3𝑖 ∑ 𝑥3𝑖 𝑦𝑖
𝑥2𝑛 𝑥3𝑛
̂
̂ 2 = [𝛽2 ] = (𝑿′2 𝑨𝑿2 )−1 𝑿′2 𝑨𝒚 = [ ∑ 𝑥2𝑖 ∑ 𝑥2𝑖 𝑥3𝑖 −1 ∑ 𝑥2𝑖 𝑦𝑖
Entonces, 𝜷 ] [ ]
𝛽̂3 ∑ 𝑥2𝑖 𝑥3𝑖 ∑ 𝑥3𝑖 ∑ 𝑥3𝑖 𝑦𝑖
98
trabajador 𝑖. Esta variable será tomada en logaritmos y se llama “lntamano”. En la tabla
4.1 se presenta la estimación para trabajadores dependientes de 14 a 65 años en zonas
urbanas del Perú, y con fines comparativos también se presenta la estimación de la
regresión sin el tamaño de la empresa (similar al ejemplo 2.6) pero considerando la
muestra de la regresión anterior. Ésta es un poco más pequeña pues el tamaño de la
empresa presenta 568 datos faltantes, lo que en términos prácticos reduce el tamaño de
la muestra.
Tabla 4.1a
Regresión de ln(salarios) contra los años de educación y ln(tamaño de la
empresa)
Tabla 4.1b
Regresión de ln(salarios) solo contra los años de educación
Nota: La opción “if e(sample)” señala que la estimación tomará en cuenta solamente a las
observaciones de la regresión anterior, es decir de la tabla 4.1a.
99
Comparando ambos resultados vemos que el retorno a la educación se reduce de
8.036% a 5.850% cuando se controla por el tamaño de la empresa. Cabe preguntarse si
el retorno calculado en la tabla 4.1b está sobreestimado. Si existiera una fuerte relación
entre el tamaño de la empresa y los años de educación de los trabajadores, es posible
que el efecto de la educación (8.036%) en la tabla 4.1b también esté incorporando cierto
efecto del tamaño de la empresa.
Figura 4.1
Gráficos de Caja de la escolaridad y el tamaño de la empresa
20
15
escolaridad
10
5
0
hasta 20 personas de 21 a 50 personas de 51 a 100 personas de 101 a 500 personas más de 500 personas
100
En el ejemplo que acabamos de mostrar, parece que la omisión de la variable “tamaño
de la empresa” (medida como el número de trabajadores) tiene consecuencias
importantes en la estimación de la relación entre la educación y los salarios. Al parecer,
si omitimos a esa variable estaríamos en un caso de “omisión de variables relevantes”.
Antes de pasar al desarrollo formal, vale la pena indicar que decimos que una variable
exógena es relevante cuando tiene un efecto causal sobre la variable endógena. En ese
caso, el correspondiente parámetro poblacional 𝛽 debería ser un valor distinto de cero.
En economía se exige además que sea lo suficientemente grande en magnitud para que
se le considere alguna significancia económica. Esto último es ambiguo y puede llevar a
controversia acerca de qué tan grande debería ser un parámetro para considerarlo como
relevante, o que tan cercano a cero podría ser para considerarlo irrelevante. Sabemos
que las unidades de medida de las variables exógenas podrían influir en la magnitud de
𝛽, pero en ocasiones, algunas variables omitidas ni siquiera tienen unidades de medida
(por ejemplo, las preferencias). Por ello solo la experiencia del investigador en el tema
le podría dar algunas luces para discernir a priori entre una variable que es realmente
relevante y otra que no lo es.
101
𝜷1
𝒚 = 𝑿𝜷 + 𝒖 = [𝑿1 ⋮ 𝑿2 ] [ ⋯ ] + 𝒖
𝜷2
𝒚 = 𝑿1 𝜷1 + 𝑿2 𝜷2 + 𝒖 (4.25)
Se puede ver en (4.25) que la matriz 𝑿 ha sido partida en dos submatrices, y lo mismo
ha ocurrido con el vector de parámetros 𝜷, el cual ha sido partido en dos vectores
columna, 𝜷1 y 𝜷2 , que están apilados. El producto de las matrices particionadas8 es
similar al producto de vectores y matrices.
𝒚 = 𝑿1 𝜷1 + 𝒗 (4.26)
̂ 1 = (𝑿1′𝑿1)−𝟏 𝑿1′𝒚
𝜷
Nuestra tarea es probar que este vector de estimadores es sesgado. En primer lugar,
remplazamos (4.25) en esta última expresión y tenemos
Tomando el valor esperado a (4.27), y bajo los supuestos del modelo clásico tenemos
que
Se observa en (4.28) que existe un sesgo igual a (𝑿1′𝑿1)−𝟏 𝑿1′𝑿2𝜷2 . Este sesgo
desaparece si 𝑿1 ′𝑿2 = 𝟎 o si 𝜷2 = 𝟎. En el primer caso, cada una de las variables
omitidas es ortogonal a cada una de las variables incluidas, algo poco frecuente pero no
8
Ver el apéndice sobre algebra de matrices.
102
imposible. En el segundo caso, no habría sesgo si las variables omitidas fueran
irrelevantes, y con ello se cumplirían los resultados de las secciones anteriores. Si 𝜷2 no
es igual a cero pero es muy pequeño, el sesgo sería también pequeño.
Ejemplo 4.6: En el ejemplo 4.5 se pudo evitar el sesgo por omisión de variables
simplemente añadiendo a la variable relevante. No obstante, en ocasiones la variable
omitida no puede ser añadida porque no existe en nuestra base de datos. Imaginemos
que los salarios dependen de la educación y de la “habilidad” de las personas. Esta
última variable puede ser tomada en un sentido muy amplio, y puede significar muchas
cosas como por ejemplo el coeficiente intelectual de una persona, sus habilidades
sociales, algunos rasgos positivos o negativos de su personalidad, etc. Luego, un
modelo más completo que el del Ejemplo 1.1 podría ser el siguiente.
Hemos visto que omitir variables relevantes puede generar sesgos en las estimaciones.
Cabe preguntarse por el caso contrario, ¿qué ocurrirá si se incluyen variables
irrelevantes en el modelo? Supongamos que por error el econometrista incluye variables
que no tienen un efecto causal sobre la variable endógena en el modelo. Así, si el
9
En el capítulo 10 se discutirá qué ocurre cuando una variable no observable es reemplazada por una
variable muy similar o aproximada, pero que no es la auténtica variable.
103
modelo correcto es 𝒚 = 𝑿𝜷 + 𝒖, el investigador propone el siguiente modelo
incorrecto.
𝒚 = 𝑿𝜷 + 𝑿3 𝜷3 + 𝒗 (4.29)
𝜷
𝒚 = [𝑿 ⋮ 𝑿3 ] [ ⋯ ] + 𝒗
𝜷3
̃ ∗ = 𝑿∗ ′𝒚
(𝑿∗ ′𝑿∗)𝜷
̃ ∗′ = [𝜷
Donde 𝜷 ̃′ ⋮ ̃ ′3 ]
𝜷 son los estimadores de los parámetros en el modelo
incorrecto. Reemplazando las matrices con (*) por sus expresiones, la última ecuación
se puede escribir como
𝑿′ ̃
𝜷 𝑿′
([ ⋯ ] [𝑿 ⋮ 𝑿3 ]) [ ⋯ ] = [ ⋯ ] 𝒚
𝑿′3 ̃3
𝜷 𝑿′3
𝑿′𝑿 ⋮ 𝑿′𝑿3 𝜷 ̃ 𝑿′
[⋯ ⋯ ⋯ ⋯⋯ ][⋯] = [⋯]𝒚
𝑿′3 𝑿 ⋮ 𝑿′3 𝑿3 𝜷
̃3 𝑿′3
̃ + (𝑿′𝑿3)𝜷
(𝑿′𝑿)𝜷 ̃ 3 = 𝑿′𝒚
̃ + (𝑿′3 𝑿3 )𝜷
(𝑿′3 𝑿)𝜷 ̃ 3 = 𝑿′3 𝒚
Resolviendo estas dos ecuaciones con algebra matricial (ver el Apéndice 4.3) se obtiene
el estimador de los parámetros de las variables de interés 𝐗 (las variables relevantes).
104
donde 𝑴3 = 𝑰 − 𝑿3 (𝑿′3 𝑿3 )−1𝑿′3 es la matriz generadora de residuos. De forma análoga
se puede deducir que el estimador de las pendientes de las variables irrelevantes es
̃ 3 = (𝑿′3 𝑴𝑿3)−1 𝑿′3 𝑴𝒚 donde 𝑴 = 𝑰 − 𝑿(𝑿′𝑿)−𝟏 𝑿′.
𝜷
̃ ] = 𝐸[(𝜷
𝑉𝑎𝑟[𝜷 ̃ − 𝐸[𝜷
̃ ])(𝜷
̃ − 𝐸[𝜷
̃ ])′] = 𝐸 [(𝑿′𝑴3 𝑿)−1 𝑿′𝑴3 𝒖𝒖′𝑴′𝟑𝑿(𝑿′𝑴3 𝑿)−1]
̃ ] = 𝜎 2 (𝑿′𝑴3 𝑿)−1
𝑉𝑎𝑟[𝜷 (4.31)
̂=
Comparando estos resultados con el estimador MCO del modelo correcto 𝜷
̂ ] = 𝜎 2 (𝑿′𝑿)−1 , esta última varianza es
(𝑿′𝑿)−1 𝑿′𝒚, donde su varianza es 𝑉𝑎𝑟[𝜷
menor que la varianza en (4.28)10.
̂ ] < 𝑉𝑎𝑟[𝜷
𝑉𝑎𝑟[𝜷 ̃]
10
En el Apéndice 4.4 se puede encontrar esta demostración.
105
Ejemplo 4.7: Agregamos dos variables irrelevantes al modelo. Una de ellas es el mes
en que se efectuó la encuesta, el cual no se relaciona con los salarios. La otra variables
es el número de conglomerado o cluster, el cual solo es un código geográfico no
relacionado con los salarios. En la tabla 4.2 se presenta la estimación por MCO.
Comparando estos resultados con aquellos de la tabla 4.1a, podemos ver que las
estimaciones de las variables 𝑒𝑠𝑐𝑜𝑙𝑎𝑟𝑖𝑑𝑎𝑑 y 𝑙𝑛𝑡𝑎𝑚𝑎𝑛𝑜 son prácticamente las mismas
en ambas tablas, sin embargo se observan mayores desviaciones estándar de estas
estimaciones en la tabla 4.2.
Tabla N° 4.2
Estimación con la inclusión de variables irrelevantes
Cuando comparamos los resultados de las tablas 4.1a y 4.1b, dijimos que en la segunda
estimación la relación entre los salarios y la educación estaba sobreestimada debido a la
influencia (no incluida) del tamaño de la empresa sobre ambas variables. Un diagrama
que pueda reflejar estas relaciones es el 4.2, en donde las flechas señalan posibles
relaciones causales. A mayor nivel educativo, el mercado pagará mejores salarios. Si el
tamaño de la empresa es más grande, el stock de capital será mayor lo que eleva la
productividad marginal del trabajo y consecuentemente se elevan los salarios. Por
último, en cuanto a la relación entre la educación y el tamaño de las empresas, es
posible que las personas se eduquen según los requerimientos de la estructura de
empresas en el país (la educación depende del tamaño de la empresa), como que las
106
empresas se adapten al nivel educativo encontrado en la población (tamaño de la
empresa en función de la educación). De esta relación bidireccional se observará que las
empresas más grandes contratarán trabajadores de mayor calificación, mientras que las
pequeñas preferirán mano de obra poco calificada.
Figura 4.2
Relación entre los salarios, la escolaridad y el tamaño de la empresa
Escolaridad Salarios
Tamaño de la
empresa
107
(c) Regresionamos a los residuos de los salarios contra los residuos de la
escolaridad en un modelo sin intercepto11.
𝑒𝑖𝑠𝑎𝑙𝑎𝑟𝑖𝑜 = 𝛽𝑒𝑖𝑒𝑠𝑐𝑜𝑙𝑎𝑟𝑖𝑑𝑎𝑑 + 𝜉𝑖
11
La regresión se hace sin intercepto pues se sabe que 𝑒 𝑠𝑎𝑙𝑎𝑟𝑖𝑜 y 𝑒 𝑒𝑠𝑐𝑜𝑙𝑎𝑟𝑖𝑑𝑎𝑑 son residuos cuyo promedio
es exactamente cero. Como la recta estimada pasa por el punto correspondiente a los promedios de la
endógena y la exógena, la recta estimada necesariamente pasará por el origen (0,0).
108
Tabla 4.3
Regresión entre la escolaridad y el tamaño de la empresa
. reg escolaridad lntamano
Tabla 4.4
Regresión entre ln(salario) y el tamaño de la empresa
. reg lnsalario lntamano
109
Tabla 4.5
Regresión entre los residuos de ln(salario) y escolaridad
̂ 1 se obtiene
Reemplazando las expresiones de los residuos en 𝜷
̂ 1 = (𝒆𝑋′ 𝒆𝑋 )−𝟏 𝒆𝑋′ 𝒆𝑦 = (𝑿1′ 𝑴′2 𝑴2 𝑿1 )−𝟏 𝑿1′ 𝑴′2 𝑴2 𝒚 = (𝑿1′ 𝑴2 𝑿1 )−𝟏 𝑿1′ 𝑴2 𝒚
𝜷 1 1 1
̂2
Este es el mismo resultado que en (4.30). Similarmente, el vector de parámetros 𝜷
̂ 2 = (𝑿′2 𝑴1 𝑿2 )−𝟏𝑿′2 𝑴1𝒚,
puede obtenerse mediante regresiones de residuos, siendo 𝜷
donde 𝑴1 = 𝑰 − 𝑿1 (𝑿1′ 𝑿1)−𝟏 𝑿1′. La idea principal de este teorema es que al
regresionarse con los residuos, se han eliminado los efectos de las demás variables.
110
̂ 2 + 𝒆,
tenemos que realizar el producto interno del vector 𝑨𝒚. De (4.23), 𝑨𝒚 = 𝑨𝑿2 𝜷
luego
̂ 2 + 𝒆)′(𝑨𝑿2 𝜷
𝒚′𝑨′ 𝑨𝒚 = (𝑨𝑿2 𝜷 ̂ 2 + 𝒆)
̂ ′2 𝑿′2 𝑨′𝑨𝑿2 𝜷
=𝜷 ̂2 + 𝜷
̂ ′2 𝑿′2𝑨′𝒆 + 𝒆′𝑨𝑿2 𝜷
̂ 2 + 𝒆′ 𝒆
̂ ′2 𝑿′2 𝑨𝑿2𝜷
𝒚′𝑨𝒚 = 𝜷 ̂ 2 + 𝒆′ 𝒆
Estas expresiones tienen versiones equivalentes, donde las equivalencias son fácilmente
comprobables12. Se cumple que 𝒚′𝑨𝒚 es equivalente a 𝒚′𝒚 − 𝑛𝑌̅ 2 . También es cierto
̂ ′2 𝑿′2 𝑨𝑿2 𝜷
que la 𝑆𝐶𝐸 = 𝜷 ̂ 2 es equivalente a 𝜷
̂ ′𝟐 𝑿′𝟐 𝑨𝒚, y es exactamente igual a
̂ ′𝑿′𝑿𝜷
𝜷 ̂ − 𝑛𝑌̅ 2 .13
12
Se deja al lector la comprobación de estas equivalencias.
13
Véase el Apéndice 4.5 para una de estas pruebas.
111
Para evitar la distorsión en el R-cuadrado, existe una versión corregida de este indicador
de bondad de ajuste. El R-cuadrado ajustado se define como
𝑠2
𝑅2 𝑎𝑗𝑢𝑠𝑡𝑎𝑑𝑜 = 1 −
𝑆𝑦2
Normalmente 𝑆𝑦2 > 𝑠 2 pues la variabilidad de 𝑌 incluye no solo la variabilidad del error
sino también la variabilidad debido a la regresión sobre 𝑋. En cambio, si 𝑋 no influye
en 𝑌 (lo que en un modelo bivariado significaría una recta de regresión horizontal),
ocurrirá que 𝑆𝑦2 ≈ 𝑠 2 , y con ello 𝑅2 𝑎𝑗𝑢𝑠𝑡 ≈ 0.
𝑆𝐶𝑅
𝑛 − 1 𝑆𝐶𝑅
𝑅2 𝑎𝑗𝑢𝑠𝑡𝑎𝑑𝑜 = 1 − 𝑛 − 𝑘 = 1 − ( )
𝑆𝐶𝑇 𝑛 − 𝑘 𝑆𝐶𝑇
𝑛−1
aumente, el efecto de la inclusión sobre la SCR debe ser más fuerte que el ocasionado
𝑛−1
en (𝑛−𝑘). Si ocurre así, se podría pensar que la variable incluida sí es relevante.
𝑆𝐶𝑅 2𝑘
Criterio de Información de Akaike = ln ( )+ (4.32)
𝑛 𝑛
𝑆𝐶𝑅 𝑘
Criterio de Información de Schwarz = ln ( ) + ln(𝑛) (4.33)
𝑛 𝑛
14
Akaike (1973).
15
Schwarz (1978).
112
SCR, y también considerando el castigo por esta adición, que en estos casos se observa
en la última expresión de lado derecho. Se trata de encontrar la especificación que
minimice estos criterios, la cual es especialmente útil en modelos de rezagos
distribuidos, en donde una variable explicativa aparece como múltiples rezagos
temporales en la regresión, y se debe seleccionar cuántos rezagos incluir en el modelo 16.
Ejemplo 4.9: Utilizando los resultados del ejemplo 4.5, en la tabla 4.6 se evalúa la
inclusión del tamaño de la empresa en el modelo de salarios. Se observa que cuando se
agrega esta variable, el R-cuadrado ajustado aumenta de 0.1820 a 0.2342. Por el lado de
los criterios de Akaike y Schwarz, ambos disminuyen. Como conclusión, vale incluir al
tamaño de la empresa como un regresor de los salarios.
Tabla 4.6
Evaluación de la inclusión del tamaño de la empresa como determinante de los salarios
16
Las fórmulas (4.32) y (4.33) son una versión simplificada de las fórmulas originales de
Akaike y Schwarz. Las fórmulas originales son usadas en Stata con el comando estat ic que
se aplica inmediatamente después de la estimación MCO. Estas son:
𝐞′ 𝐞 2𝑘
𝐶𝐼𝐴 = 𝑛 (ln ( ) + + ln(2π) + 1)
n 𝑛
𝐞′ 𝐞 𝑘
𝐶𝐼𝑆 = 𝑛 (ln ( ) + ln(𝑛) + ln(2π) + 1)
n 𝑛
113
Tabla 4.1
Análisis de Varianza
114
Apéndice 4.1
(𝑛−𝑘)𝑠2
Demostrar que ~χ2(𝑛−𝑘) .
𝜎2
se sabe que si un vector cualquiera 𝒛 tiene una distribución normal conjunta estándar,
𝒛~𝑁(0, 𝑰), y además si 𝑴 es una matriz idempotente, entonces 𝒛′𝑴𝒛~χ2 cuyos grados
de libertad son iguales al rango de 𝑴. Además, por matemáticas, si 𝑴 es una matriz
idempotente, entonces 𝑟𝑎𝑛𝑔𝑜 (𝑴) = 𝑡𝑟𝑎𝑧𝑎(𝑴). Como se comprobó en la sección 4.5,
la traza de 𝑴 es igual a 𝑛 − 𝑘, luego
𝒖 ′ 𝒖 2
( ) 𝑴 ( ) ~𝜒(𝑛−𝑘)
𝜎 𝜎
Con ello se completa la demostración.
Apéndice 4.2
2𝜎4
Demostración que 𝑉𝑎𝑟[𝑠 2 ] = 𝑛−𝑘.
Apéndice 4.3
Cálculo de la expresión (4.27).
Llamemos
̃ + (𝑿′𝑿3 )𝜷
(𝑿′𝑿)𝜷 ̃ 3 = 𝑿′𝒚 (1)
̃ + (𝑿′3 𝑿3 )𝜷
(𝑿′3 𝑿)𝜷 ̃ 3 = 𝑿′3 𝒚 (2)
115
̃ − (𝑿′𝑿3 )(𝑿′3𝑿3 )−1 𝑿′3 𝑿𝜷
(𝑿′𝑿)𝜷 ̃ = 𝑿′ 𝒚 − (𝑿′𝑿3 )(𝑿′3𝑿3 )−1 𝑿′3 𝒚
̃ = [𝑿′ − (𝑿′𝑿3 )(𝑿′3𝑿3 )−1 𝑿′3 ]𝒚
[𝑿′ − (𝑿′𝑿3 )(𝑿′3𝑿3 )−1 𝑿′3]𝑿𝜷
̃ = 𝑿′[𝑰 − 𝑿3 (𝑿′3 𝑿3)−1 𝑿′3 ]𝒚
𝑿′[𝑰 − 𝑿3 (𝑿′3𝑿3 )−1 𝑿′3 ]𝑿𝜷
̃ = 𝑿′𝑴3 𝒚
𝑿′𝑴3 𝑿𝜷
̃ = (𝑿′𝑴3 𝑿)−1 𝑿′𝑴3 𝒚
𝜷
Apendice 4.4
̂ ] < 𝑉𝑎𝑟[𝜷
Demostración que 𝑉𝑎𝑟[𝜷 ̃ ].
Para esta demostración partiremos de la afirmación que la varianza del estimador MCO
̂ es menor que la varianza del estimador del
del modelo correctamente especificado, 𝜷
̃ . Luego, en el desarrollo
modelo que contiene a más variables de las necesarias, 𝜷
veremos que nada contradice esta afirmación. Entonces,
𝜎 2 (𝑿′𝑿)−1 ≤ 𝜎 2 (𝑿′𝑴3 𝑿)−1
𝑿 ′ 𝑿 ≥ 𝑿 ′ 𝑴3 𝑿
Para probar que 𝑿′𝑿 ≥ 𝑿′𝑴3 𝑿, usaremos la definición matemática que dice que dadas
dos matrices 𝑨 y 𝑩, 𝑨 > 𝑩 si es positiva semidefinida. Luego, la diferencia es
𝑿 ′ 𝑿 − 𝑿 ′ 𝑴3 𝑿
𝑿′ [𝑰 − 𝑴3 ]𝑿 = 𝑿′[𝑿3 (𝑿′3 𝑿3)−1 𝑿′3 ]𝑿
𝑿3 (𝑿′3 𝑿3)−1 𝑿′3 es una matriz 𝑛 × 𝑛 cuya traza es 𝑘3 < 𝑛. Además, al ser idempotente,
sus raíces características serán 𝑘3 unos y 𝑛 − 𝑘3 ceros. Luego, 𝑿3 (𝑿′3 𝑿3 )−1 𝑿′3 es
positiva (no negativa) definida.
Considerando la propiedad que afirma que si una matriz 𝑨 es positiva definida y 𝑩 tiene
rango lleno, entonces 𝑩′𝑨𝑩 es positiva definida, resulta que 𝑿′[𝑿3 (𝑿′3𝑿3 )−1 𝑿′3 ]𝑿 es
̂ ] < 𝑉𝑎𝑟[𝜷
también positiva definida. Entonces, es verdad que 𝑉𝑎𝑟[𝜷 ̃ ].
Apéndice 4.5
̂ + 𝒆, el producto interno es
Otra forma equivalente de hallar SCT, partiendo de 𝒚 = 𝑿𝜷
̂ ′𝑿′)(𝑿𝜷
𝒚′𝒚 = (𝒆′ + 𝜷 ̂ + 𝒆)
̂ ′ 𝑿′𝑿𝜷
𝒚′ 𝒚 = 𝜷 ̂+𝜷
̂ ′ 𝑿′ 𝒆 + ⏟
⏟ ̂ + 𝒆′ 𝒆
𝒆′ 𝑿𝜷
𝟎 𝑿′ 𝒆=𝟎
̂ ′𝑿′𝑿𝜷
𝒚′ 𝒚 = 𝜷 ̂ + 𝒆′ 𝒆
Restamos 𝑛𝑌̅ 2 a ambos lados obtenemos la SCT
116
̂ ′𝑿′𝑿𝜷
𝒚′ 𝒚 − 𝑛𝑌̅ 2 = 𝜷 ̂ − 𝑛𝑌̅ 2 + 𝒆′ 𝒆
Ejercicios
4.1. Demuestre que si 𝑿 es una matriz de orden n × k, y con rango igual a 𝑘, 𝑴 = 𝑰𝑛 −
𝑿(𝑿′𝑿)−1 𝑿′ es una matriz simétrica e idempotente, y que tr(𝑴) = 𝑛 − 𝑘.
4.2. En un modelo trivariado obtenga las ecuaciones normales y los estimadores de los
parámetros utilizando la notación de sumatorias.
4.3. Con los datos del Ejemplo 4.2 se puede encontrar que los valores en desviaciones
respecto a las medias son:
−0.2 −1.6 −0.8
−1.2 1.4 2.2
𝑨𝒚 = 2.8 𝑨𝑿2 = −0.6 3.2
0.8 −1.6 −1.8
[−2.2] [ 2.4 −2.8]
a. Estime las “pendientes” del modelo utilizando los datos en desviaciones, mediante
̂ 2 = (𝑿′2 𝑨𝑿2)−1 𝑿′2 𝑨𝒚, y compare con lo obtenido en el ejemplo 4.2
la fórmula 𝜷
b. Encuentre la sumatoria de cuadrados de total, explicada y de residuos usando estas
matrices.
̂2
c. Calcule 𝑠 2 y la matriz de Varianzas y Covarianza de las pendientes estimadas 𝜷
̂ 2 ) = 𝑠 2 (𝑿′2𝑨𝑿2 )−1 .
̂ (𝜷
mediante la fórmula 𝑉𝑎𝑟
X2 6 3 5 2 4 1
X3 8 5 6 4 6 4
Estimar el modelo lineal con intercepto por MCO usando matrices y obtenga el 𝑅2
y la SCR . Estime lo mismo, pero sin intercepto.
117
1 12 7 4 1
1 8 1 0 −5
1 9 5 1 −1
𝑿= 1 𝑪 8 𝑨𝑿2 = 2 𝑫
1 4 6 −4 0
1 6 6 −2 0
[1 7 9 ] [−1 3 ]
7 56 42
(𝑿′2 𝑨𝑿2)−1 = [ 0.02403846 −0.00240385
] 𝑿′𝑿 = [56 490 𝑭 ]
−0.00240385 0.02524038
42 𝑮 292
14 2
8 −4
7 −5
𝒚 = 𝑯 𝑨𝒚 = 1
14 2
19 7
[9] [−3]
2.3592033 −0.17788462 −0.13221154
(𝑿′𝑿)−1 = [−0.17788462 0.02403846 −0.00240385]
−0.13221154 −0.00240385 0.02524038
a. Halle B, C, D, E, F, G y H
b. Estimar los parámetros 𝜷 por MCO.
c. Encuentre la SCT, SCE y la SCR.
d. Calcule el R-cuadrado, el R-cuadrado ajustado y los valores de los criterios de
información Akaike y Schwarz.
e. Encuentre la varianza de 𝛽̂2 , la varianza de 𝛽̂3 y la 𝐶𝑜𝑣(𝛽̂2 , 𝛽̂3 ).
X2 2 3 3.5 3 3.25 4
X3 6 9 12 18 24 30
118
0.2947887
−0.491595
𝑫
0.2832613
𝑿′𝒚 = [ 297 ] 𝒆= 𝒆′ 𝒆 = 0.582793
0.0166907
1788
−0.341739
[ 0.2385927 ]
4.7. Muestre que el estimador MCO con datos en desviaciones con respecto a las
̂ 2 = (𝑿′2 𝑨𝑿2)−1 𝑿′2 𝑨𝒚 es simplemente un caso especial de regresiones
medias 𝜷
particionadas en donde la partición de la matriz 𝑿 es: 𝑿 = [𝒊 𝑿2 ], donde 𝒊 es una
columna de unos y 𝑿2 incluye a todas las demás variables exógenas.
119
4.10. Usando la base de datos auto.dta © incorporada en el programa Stata, Se desea
estimar un modelo de determinantes de los precios de los automóviles, teniéndose
la siguiente ecuación:
𝑝𝑟𝑖𝑐𝑒𝑖 = 𝛽1 + 𝛽2 𝑤𝑒𝑖𝑔ℎ𝑡𝑖 + 𝛽3 𝑙𝑒𝑛𝑔𝑡ℎ𝑖 + 𝑢𝑖
donde price es el precio en dólares de un auto nuevo, weight es el peso del auto en
libras y length es la longitud del auto en pulgadas. Con una muestra de 74 vehículos
se obtiene la siguiente estimación por MCO.
------------------------------------------------------------------------------
price | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
weight | 4.699065 1.122339 4.19 0.000 2.461184 6.936946
length | -97.96031 39.1746 -2.50 0.015 -176.0722 -19.84838
_cons | 10386.54 4308.159 2.41 0.019 1796.316 18976.76
------------------------------------------------------------------------------
------------------------------------------------------------------------------
price | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
weight | 4.387537 1.178452 3.72 0.000 2.036589 6.738484
length | -109.0618 43.03521 -2.53 0.014 -194.9147 -23.2089
mpg | -86.16235 84.54034 -1.02 0.312 -254.8157 82.49101
trunk | 25.59388 97.06998 0.26 0.793 -168.0554 219.2432
_cons | 14896.45 6080.278 2.45 0.017 2766.627 27026.27
------------------------------------------------------------------------------
120
Complete las casillas en blanco en la tabla, y explique cómo se obtienen los
valores de la columna P > |𝑡|.
d. ¿Considera apropiada la inclusión de estas variables en el modelo? Sustente su
respuesta con cálculos apropiados. ¿Por qué aumentan las desviaciones estándar
de las variables weight y length al agregar a mpg y trunk?
121
Capítulo 5
Pruebas de hipótesis, estimación con restricciones lineales y predicción en el
modelo de K variables
Otro tema que se explora en este capítulo es la estimación del modelo de regresión
lineal cuando se sujeta esta estimación a restricciones lineales sobre los parámetros.
Esta estimación restringida es vinculada con las pruebas de hipótesis, siendo esta
vinculación muy importante para el diseño de pruebas de hipótesis con modelos más
generales que engloban a numerosos modelos que son casos especiales de ellos.
Finalmente, un tema importante tiene que ver con las predicciones o pronósticos que se
pueden hacer luego de haberse estimado el modelo. Cuando se estima un modelo, no
solo nos interesa conocer los impactos de las variables exógenas sobre las endógenas
sino también queremos tener alguna idea de qué valores tomaría la variable endógena
para ciertos valores de las exógenas. Por ejemplo, supongamos que hemos estimado un
modelo que explica los determinantes del crecimiento económico (variación porcentual
del producto bruto interno), y ahora deseamos tener un pronóstico sobre cuál será el
crecimiento para el próximo año. Otro ejemplo es el caso de un modelo de
determinantes de los salarios y su relación con los años, de educación. Si contamos con
un dato fuera de la muestra de una persona que tiene, por ejemplo, 12 años de
educación, ¿cuánto esperaríamos que gane esta persona? ¿Seríamos capaces no solo de
hacer una estimación puntual de su salario sino de tener un intervalo de confianza para
la predicción? Las respuestas a estas interrogantes se obtienen de un análisis de la
predicción del modelo.
122
5.1. Pruebas de hipótesis lineales
̂ se
Bajo el supuesto 5 de normalidad de los errores, el vector de estimadores 𝜷
distribuye como una normal multivariada
Esta expresión es cierta si los términos de perturbación siguen una distribución normal,
al ser los parámetros estimados combinaciones lineales de estos errores normales.1 Por
las propiedades de las distribuciones normales se cumplirá que estos parámetros siguen
también una distribución normal multivariada y exacta.
(𝑛 − 𝑘)𝑠 2
~ 𝜒 2 (𝑛 − 𝑘) (5.2)
𝜎2
Supongamos que deseamos hacer una prueba de hipótesis sobre alguno de los
parámetros en el vector 𝜷. Esta prueba se hará de manera similar a la presentada en el
capítulo 3. Supongamos que tenemos una hipótesis sobre el coeficiente del j-ésimo
regresor 𝑋𝑗 . Sea tal hipótesis nula 𝐻0 : 𝛽𝑗 = 𝑎, luego podemos usar el estadístico t igual
que en la sección 3.3 del modelo de dos variables, en donde para la construcción de tal
estadístico se resta el valor de la hipótesis y se divide entre la desviación estándar del
estimador. Bajo la hipótesis nula, este estadístico se distribuye como una t-Student con
𝑛 − 𝑘 grados de libertad.
𝛽̂𝑗 − 𝑎
𝑡𝑗 = ~𝑡(𝑛 − 𝑘) (5.3)
√𝑠 2 𝑐𝑗𝑗
En (5.3), 𝑐𝑗𝑗 es el j-ésimo elemento de la diagonal de la matriz (𝑿′ 𝑿)−1, y por lo tanto
123
la distribución t-Student con 𝑛 − 𝑘 grados de libertad, entonces se rechaza la hipótesis
nula propuesta con α% de significancia. En símbolos,
En los modelos econométricos que abarcan a muchos parámetros, puede ocurrir que las
hipótesis involucren a combinaciones lineales de varios parámetros a la vez, en lugar de
hipótesis sobre parámetros individuales. Veamos dos ejemplos y sus planteamientos
matriciales.
𝐻0 : 𝛽2 + 𝛽3 = 1
124
Obsérvese que esta expresión es lineal en los parámetros. Puesto que el modelo es
trabajado en notación matricial, la hipótesis planteada es igual a
𝛽1
𝐻0 : [0 ] 𝛽
1 1 2 ] = 1.
[ (5.4)
𝛽3
Las teorías económicas de determinantes de los salarios, como por ejemplo la teoría de
Mincer (1974), indican que los salarios no solo dependen de los años de educación sino
también de la experiencia laboral y su cuadrado. Consideremos este modelo sencillo en
donde el logaritmo natural de los salarios depende de estas variables.
donde 𝑊𝑖 es el salario del individuo i, 𝑆𝑖 son los años de educación del mismo
trabajador, y 𝐸𝑥𝑝𝑖 son los años de experiencia del trabajador i en el mercado laboral. Se
incluye a la experiencia al cuadrado esperando capturar el efecto declinante de los
salarios cuando el trabajador tiene una edad avanzada.
𝛽1
0 1 −1 0 𝛽2 0
[ ][ ] = [ ] (5.5)
0 0 0 1 𝛽3 0
𝛽4
125
𝛽1
0 1 0 0 𝛽 0
2
[0 0 1 0] [ ] = [0] (5.6)
𝛽3
0 0 0 1 0
𝛽4
𝐻0 : 𝛽2 = 0, 𝛽3 = 0, … , 𝛽𝑘 = 0
𝛽1
𝐻0 : [𝟎 ⋮ 𝑰𝒌−𝟏 ] [ ⋯ ] = [𝟎]
𝜷𝟐
𝐻0 : 𝑹𝜷 = 𝒓 (5.7)
126
𝑞 × 1 de valores no estocásticos.2 Tanto 𝑹 como 𝒓 son expresiones matriciales que
contienen a números fijos, no a variables aleatorias ni parámetros.
¿Qué tan grande debería ser 𝐹 para poder afirmar que se rechaza la hipótesis? En
términos más formales, definiendo un nivel de significancia 𝛼 y dados los grados de
libertad en el numerador y denominador, 𝑞 y 𝑛 − 𝑘 respectivamente, se puede calcular
el valor crítico para el rechazo de la hipótesis nula. De la distribución F de Fisher, el
valor crítico es el percentil (1 − 𝛼 ) de la distribución, es decir 𝐹1−𝛼 (𝑞, 𝑛 − 𝑘), tal
como lo muestra la figura 5.1 en donde el área sombreada es el valor 𝛼. Si la hipótesis
nula es falsa, 𝐹 sería grande ubicándose más a la derecha con lo cual superaría al valor
crítico. No obstante, existe la posibilidad de cometer el error tipo I (rechazar algo
verdadero) pues aun si la hipótesis es verdadera es posible que 𝐹 > 𝐹1−𝛼 (𝑞, 𝑛 − 𝑘),
pues la F-Fisher puede tomar valores hasta +∞. La probabilidad de cometer este error
es justamente el área sombreada 𝛼.
2
En los ejemplos 5.1, 5.2 y 5.3, los valores de 𝑞 son 1, 2 y 𝑘 − 1 respectivamente.
3
Se puede plantear un estadístico 𝑡 válido para el caso 𝑞 = 1, en donde el 𝑡 de la sección 5.1.1 es un caso
especial. No obstante, no es válido para hipótesis que tengan 𝑞 > 1.
127
Si 𝐹 > 𝐹1−𝛼 (𝑞, 𝑛 − 𝑘), se rechaza la 𝐻0 con α% de significancia.
Figura 5.1
Distribución F de Fisher y valor crítico de la prueba de hipótesis
𝐹1−𝛼 (𝑞, 𝑛 − 𝑘)
𝛽1
𝛽2
⋮
[0 0 … 0 1 0 … 𝛽
0] 𝑗−1 = [𝑎]
𝛽𝑗 ⏟
⏟
𝒓
𝑹 𝛽𝑗+1
⋮
[ 𝛽𝑘 ]
̂ − 𝒓 = 𝛽̂𝑗 − 𝑎.
Utilizando estas definiciones de 𝑹 y 𝒓, se comprueba fácilmente que 𝑹𝜷
El cálculo de 𝑹(𝑿′ 𝑿)−𝟏 𝑹′ arroja que esta operación matemática extrae el j-ésimo
elemento de la diagonal de la matriz (𝑿′ 𝑿)−𝟏, llamando a tal valor 𝑐𝑗𝑗 . Entonces,
remplazando estos resultados parciales en (5.8) se obtiene
128
2
(𝛽̂𝑗 − 𝑎)2 𝛽̂𝑗 − 𝑎
𝐹= =| | = 𝑡2
𝑠 2 𝑐𝑗𝑗 𝑠√𝑐𝑗𝑗
En palabras, el valor del estadístico 𝐹 cuando se prueba una hipótesis sobre el valor de
un coeficiente es exactamente igual al valor del estadístico 𝑡 que prueba la misma
hipótesis pero elevado al cuadrado. Esta equivalencia asegura que ambas pruebas de
hipótesis llegarán a la misma conclusión sobre la aceptación o rechazo de la hipótesis.
Siendo un poco más general, se puede aplicar la prueba 𝑡 a un caso de hipótesis lineales
con 𝑞 = 1. Por ejemplo, en el caso del modelo Cobb-Douglas, para la hipótesis
𝐻0 : 𝛽2 + 𝛽3 = 1 se puede plantear el estadístico 𝑡 así:
𝛽̂2 + 𝛽̂3 − 1
𝑡= .
̂ (𝛽̂2 ) + 𝑉𝑎𝑟
√𝑉𝑎𝑟 ̂ (𝛽̂3 ) + 2𝐶𝑜𝑣
̂ (𝛽̂2 , 𝛽̂3 )
̂ − 𝒓 = 𝛽̂2 +
Si calculamos el estadístico 𝐹 para este caso, no es difícil encontrar que 𝑹𝜷
𝑹𝑽𝒂𝒓(𝜷)𝑹 ̂𝑉𝑎𝑟 ′
̂ (𝛽2 )+𝑉𝑎𝑟 ̂ ̂ ̂ ̂ ̂
̂ (𝛽3 )+2𝐶𝑜𝑣(𝛽2 ,𝛽3 )
𝛽̂3 − 1, y que 𝑹(𝑿′ 𝑿)−1 𝑹′ = = . Reemplazando
𝑠2 𝑠2
2
(𝛽̂2 + 𝛽̂3 − 1)
𝐹= = 𝑡2.
̂ (𝛽̂2) + 𝑉𝑎𝑟
𝑉𝑎𝑟 ̂ (𝛽̂3 ) + 2𝐶𝑜𝑣̂ (𝛽̂2, 𝛽̂3 )
̂=𝜷
También 𝑹𝜷 ̂ 𝟐 , donde el vector columna 𝜷
̂ 𝟐 contiene a todos los coeficientes de las
variables explicativas del modelo (las “pendientes”). Nótese que en una prueba de
significancia conjunta, el número de ecuaciones en la hipótesis nula es igual al número
de “pendientes” desde 𝛽2 hasta 𝛽𝑘 , donde cada una ha sido igualada a cero, por eso
129
𝑞 = 𝑘 − 1. Reemplazando estos resultados en la formulación general (5.8) se tiene que
el estadístico 𝐹 es:
̂ ′2 𝑿′2 𝑨𝑿2 𝜷
𝜷 ̂ 2 /(𝑘 − 1)
𝐹= (5.9)
𝒆′ 𝒆/(𝑛 − 𝑘)
̂ ′2 𝑿′2 𝑨𝑿2 𝜷
En la sección 4.9 del capítulo 4 se encontró que 𝜷 ̂ 2 es la suma de cuadrados
explicada por la regresión (SCE). Usando esta definición en (5.9) el estadístico 𝐹 que
prueba la significancia conjunta de los parámetros es igual a
𝑆𝐶𝐸/(𝑘 − 1)
𝐹=
𝑆𝐶𝑅/(𝑛 − 𝑘)
𝑆𝐶𝑅 𝑆𝐶𝐸
Recordemos de la definición de R-cuadrado que 𝑅 2 = 1 − 𝑆𝐶𝑇 = 𝑆𝐶𝑇 , entonces 𝑆𝐶𝐸 =
𝑅 2 /(𝑘 − 1)
𝐹=
(1 − 𝑅 2 )/(𝑛 − 𝑘)
Sabemos que el R-cuadrado está limitado al rango [0, 1]. Pero en el caso de 𝐹, no está
limitado superiormente, aunque inferiormente se sabe que no puede ser negativo. En la
práctica, 𝐹 podría tomar valores desde un dígito hasta varios miles de puntos. Quizás
los valores críticos 𝐹1−𝛼 (𝑞, 𝑛 − 𝑘) que se obtienen de la tabla estadística de la
distribución F de Fisher nos puedan dar una idea sobre qué se puede considerar como 𝐹
grande o pequeño. En las pruebas de hipótesis lineales de significancia conjunta, los
grados de libertad en el numerador son en la práctica mucho más pequeños que los
grados de libertad en el denominador. Estos últimos normalmente superan los 30 grados
de libertad. Para 𝑛 − 𝑘 = 30, los valores críticos 𝐹0.95 (𝑞, 30) disminuyen desde 4.17 a
1.63 conforme 𝑞 aumenta desde 1 a más. Para infinitos grados de libertad en el
denominador, 𝐹0.95 (𝑞, ∞) toma valores desde 3.84 a 1.30 conforme 𝑞 aumenta.
130
En datos microeconómicos en donde abundan las observaciones –y por ello los grados
de libertad del denominador se cuentan por cientos o miles, puede ocurrir que el R-
cuadrado sea pequeño (digamos inferior a 0.10) pero que se rechace la hipótesis nula de
no significancia conjunta. No se debe pensar que hay una contradicción en este
resultado.
Para el desarrollo de esta sección, veamos unos ejemplos que clarifican la idea de los
modelos restringidos y los no restringidos.
𝑌𝑖 = 𝛽1 + 𝛽2 𝑋2𝑖 + (1 − 𝛽2 )𝑋3𝑖 + 𝑢𝑖
131
En (5.12), 𝑌𝑖 − 𝑋3𝑖 = 𝑙𝑛𝑄𝑖 − 𝑙𝑛𝐿𝑖 = ln(𝑄𝑖 /𝐿𝑖 ) mientras que 𝑋2𝑖 − 𝑋3𝑖 = ln(𝐾𝑖 /𝐿𝑖 ).
Entonces, (5.12) es un modelo restringido y consiste en regresionar al producto per
cápita contra el capital per cápita, en donde se asume que los rendimientos a escala son
constantes. En la versión estimada por MCO se debe cumplir que la suma de las
pendientes es igual a 1, es decir se debe forzar la estimación para que la suma de los
estimadores refleje los rendimientos constantes a escala. Esto se consigue con la
estimación del modelo
𝑛 𝑛
Ejemplo 5.5: En la ecuación de salarios del ejemplo 5.2, el modelo irrestricto estimado
es
La estimación por MCO del modelo restringido entrega 𝛽̃1 y 𝛽̃2, así como 𝑒̃𝑖 . No es
necesario tener estimaciones de los demás parámetros porque hemos impuesto que
𝛽̃3 = 0 y 𝛽̃4 = 0.
′
̃ ) (𝒚 − 𝑿𝜷
min 𝒆̃′ 𝒆̃ = (𝒚 − 𝑿𝜷 ̃)
̃ = 𝒓.
s. a 𝑹𝜷
̃ )′ (𝒚 − 𝑿𝜷
ℒ = (𝒚 − 𝑿𝜷 ̃ ) + 𝝀′ (𝒓 − 𝑹𝜷
̃ ).
̃+𝜷
ℒ = 𝒚′ 𝒚 − 2𝒚′ 𝑿𝜷 ̃ ′ 𝑿′ 𝑿𝜷
̃ − 𝝀′ 𝑹𝜷
̃ + 𝝀′ 𝒓.
̃ y los
Derivando el lagrangiano respecto al vector de parámetros restringidos 𝜷
multiplicadores4,
𝜕ℒ
̃ − 𝑹′ 𝝀 = 𝟎
= −2𝑿′ 𝒚 + 2𝑿′ 𝑿𝜷 (5.14)
̃
𝜕𝜷
𝜕ℒ
̃=𝟎
= 𝒓 − 𝑹𝜷 (5.15)
𝜕𝝀
̃ = 2𝑿′ 𝒚 + 𝑹′ 𝝀
2𝑿′ 𝑿𝜷
4
Seguimos las reglas de derivación de matrices.
133
̂ , tenemos
Premultiplicando (5.16) por 𝑹, dado que (𝑿′ 𝑿)−1 𝑿′ 𝒚 = 𝜷
̂ + 1𝑹(𝑿′ 𝑿)−1 𝑹′ 𝝀
⏟̃ = 𝑹𝜷
𝑹𝜷 2
𝒓
̃ = 𝒓. Despejamos a 𝝀,
Se ha tomado en cuenta que 𝑹𝜷
̂ = 1𝑹(𝑿′ 𝑿)−1 𝑹′ 𝝀
𝒓 − 𝑹𝜷 2
̂ ) = 𝑹(𝑿′ 𝑿)−1 𝑹′ 𝝀
2(𝒓 − 𝑹𝜷
̂)
𝝀 = 2(𝑹(𝑿′ 𝑿)−1 𝑹′ )−1 (𝒓 − 𝑹𝜷
̃=𝜷
𝜷 ̂ + (𝑿′ 𝑿)−1 𝑹′ (𝑹(𝑿′ 𝑿)−1 𝑹′ )−1 (𝒓 − 𝑹𝜷
̂) (5.17)
̃ ] = 𝐸[𝜷
𝐸[𝜷 ̂ ] + (𝑿′ 𝑿)−1 𝑹′ (𝑹(𝑿′ 𝑿)−1 𝑹′ )−1 (𝒓 − 𝑹𝐸[𝜷
̂ ])
̃
𝒆̃ = 𝒚 − 𝑿𝜷 (5.18)
134
Estos residuos no tienen por qué ser iguales a los residuos del modelo irrestricto
̂ . Despejando 𝒚, y remplazándolo en la ecuación (5.18)
𝒆 = 𝒚 − 𝑿𝜷
̂ − 𝑿𝜷
𝒆̃ = 𝒆 + 𝑿𝜷 ̃ = 𝒆 − 𝑿(𝜷
̃−𝜷
̂)
̃−𝜷
𝒆̃′ 𝒆̃ = 𝒆′ 𝒆 + (𝜷 ̂ )′𝑿′𝑿(𝜷
̃−𝜷
̂) (5.19)
̃−𝜷
𝒆̃′ 𝒆̃ − 𝒆′ 𝒆 = (𝜷 ̂ )′𝑿′𝑿(𝜷
̃−𝜷
̂) (5.20)
El lado derecho de (5.20) es una forma cuadrática positiva semidefinida, y por lo tanto
se cumple que 𝒆̃′ 𝒆̃ ≥ 𝒆′ 𝒆. En palabras, los residuos del modelo restringido son mayores
o iguales a los residuos irrestrictos, lo cual no debe extrañarnos pues estos últimos se
obtienen de una minimización sin restricciones.
̃−𝜷
De la ecuación (5.17), despejamos (𝜷 ̂)
̃−𝜷
𝜷 ̂ = (𝑿′ 𝑿)−1 𝑹′ (𝑹(𝑿′ 𝑿)−1 𝑹′ )−1 (𝒓 − 𝑹𝜷
̂)
̃−𝜷
Multiplicamos por la izquierda por (𝜷 ̂ )′𝑿′𝑿,
(𝜷 ̂ )′ 𝑿′ 𝑿(𝜷
̃−𝜷 ̃−𝜷
̂ ) = (𝜷 ̂ )′ ⏟
̃−𝜷 ̂)
𝑿′ 𝑿(𝑿′ 𝑿)−1 𝑹′ (𝑹(𝑿′ 𝑿)−1 𝑹′ )−1 (𝒓 − 𝑹𝜷
𝑰
⏟̃ − 𝜷
̂ ′ )𝑹′ (𝑹(𝑿′ 𝑿)−1 𝑹′ )−1 (𝒓 − 𝑹𝜷
̂)
′
= (𝜷
̃ ′ 𝑹′ −𝜷
(𝜷
⏟ ̂ ′ 𝑹′ )
𝒓′
135
hipótesis lineales 𝑹𝜷 = 𝒓, la cual se puede realizar con la expresión (5.8) o con su
equivalente
(𝒆̃′ 𝒆̃ − 𝒆′ 𝒆)/𝑞
𝐹= (5.21)
𝒆′ 𝒆/(𝑛 − 𝑘)
Esta nueva fórmula en ocasiones puede ser más fácil de calcular que (5.8), pues esta
última requiere de operaciones matriciales, mientras que (5.21) solo involucra unos
pocos cálculos. Si se conoce la 𝑆𝐶𝑅 del modelo restricto y del irrestricto, la prueba de
hipótesis sobre las hipótesis lineales aplicadas en el modelo restricto es muy simple.
y la Translogarítmica,
(−0.021291)(0.110355)−1 (−0.021291)/1
𝐹= = 0.115
0.851634084/24
1.069265
̃
𝜷 = [0.3630298]
0.6369702
(c) Estimar lo mismo transformando el modelo original en uno restricto tal como se
mencionó en el Ejemplo 5.4.
Para estimar este modelo usando Stata, se requiere la creación de las variables producto
per cápita y capital per cápita 𝑙𝑛𝑞𝑙 = 𝑙𝑛(𝑄) − 𝑙𝑛(𝐿), y 𝑙𝑛𝑘𝑙 = 𝑙𝑛(𝐾) − 𝑙𝑛(𝐿).
137
Source SS df MS Number of obs = 27
F( 1, 25) = 23.18
Model .793327071 1 .793327071 Prob > F = 0.0001
Residual .855741541 25 .034229662 R-squared = 0.4811
Adj R-squared = 0.4603
Total 1.64906861 26 .063425716 Root MSE = .18501
La estimación por MCO arroja los mismos resultados de los parámetros 𝛽̃1 y 𝛽̃2 de la
parte (a), tal como se esperaba.
(d) Estimar los modelos Cobb Douglas y Translogarítmico y decida qué modelo es más
apropiado para los datos.
138
5.5 Predicción en el modelo de k variables
Para empezar la construcción del intervalo, primero notemos que el valor esperado de la
predicción 𝑌̂𝑓 es igual a
̂ ] = 𝒙𝒇 𝐸[𝜷
𝐸[𝑌̂𝑓 ] = 𝐸[𝒙𝒇 𝜷 ̂ ] = 𝒙𝒇 𝜷
Esto quiere decir que en promedio esperaríamos que nuestra predicción coincida con lo
que la regresión poblacional indica. Sin embargo, este valor esperado es en general
139
diferente del verdadero valor observado (o que se observará) de 𝑌 cuando las exógenas
tomen los valores en 𝒙𝒇 .
Yf = 𝒙𝒇 𝜷 + 𝑢𝑓 (5.23)
Figura 5.2
Ilustración de la predicción y su intervalo
Y
𝑌̂𝑖 = 𝛽̂1 + 𝛽̂2 𝑋𝑖
Límite Superior
𝑌̂𝑓
Límite Inferior
X1 X2 X3 X4 X5
𝑋𝑓
Volviendo a la predicción 𝑌̂𝑓 , nos interesa comparar esta predicción con el verdadero
valor que tomará la endógena 𝑌 cuando 𝑿 sea igual a 𝒙𝒇 . Definimos al error de
predicción 𝑒𝑓 como
𝑒𝑓 = 𝑌𝑓 − 𝑌̂𝑓 (5.24)
140
donde 𝑌𝑓 es el valor real de 𝑌 cuando 𝑿 = 𝒙𝒇 . Reemplazando (5.22) y (5.23) en (5.24)
tenemos
̂ = −𝒙𝒇 (𝜷
𝑒𝑓 = 𝒙𝒇 𝜷 + 𝒖𝒇 − 𝒙𝒇 𝜷 ̂ − 𝜷) + 𝑢𝑓 (5.25)
En la ecuación (5.25) se puede ver que el error de predicción tiene dos componentes: el
̂ − 𝜷), es el error debido a la imprecisión en la estimación de 𝜷,
primero, −𝒙𝒇 (𝜷
mientras que el segundo, 𝑢𝑓 , es la perturbación imprevisible mencionado líneas arriba.
̂ − 𝜷)] + 𝐸[𝑢𝑓 ] = 0
𝐸[𝑒𝑓 ] = −𝒙𝒇 𝐸[(𝜷
̂ − 𝜷))
𝑉𝑎𝑟(𝑒𝑓 ) = 𝑉𝑎𝑟(𝑢𝑓 − 𝒙𝒇 (𝜷
̂ − 𝜷)) − 2𝐶𝑜𝑣(𝒙𝒇 (𝜷
= 𝑉𝑎𝑟(𝑢𝑓 ) + 𝑉𝑎𝑟 (𝒙𝒇 (𝜷 ̂ − 𝜷), 𝑢𝑓 )
̂ − 𝜷), 𝑢𝑓 ) = 𝐸[𝒙𝒇 (𝜷
𝐶𝑜𝑣(𝒙𝒇 (𝜷 ̂ − 𝜷). 𝑢𝑓 ] =
′ ′
̂ − 𝜷)(𝜷
𝑉𝑎𝑟[𝑒𝒇 ] = 𝜎 2 + 𝐸 [𝒙𝒇 (𝜷 ̂ − 𝜷) 𝒙′𝒇 ] = 𝜎 2 + 𝒙𝒇 𝐸 [(𝜷
̂ − 𝜷)(𝜷
̂ − 𝜷) ] 𝒙′𝒇
141
𝑒𝑓
~𝑁(0,1)
𝜎√1 + 𝒙𝒇 (𝑿′𝑿)−𝟏 𝒙′𝒇
𝑒𝑓 𝑌𝑓 − 𝑌̂𝑓
= ~ 𝑡(𝑛 − 𝑘)
𝑠√1 + 𝒙𝒇 (𝑿′𝑿)−𝟏 𝒙′𝒇 𝑠√1 + 𝒙𝒇 (𝑿′𝑿)−𝟏 𝒙′𝒇
𝑌𝑓 − 𝑌̂𝑓
𝑃𝑟 −𝑡1−𝛼 (𝑛 − 𝑘) < < 𝑡1−𝛼 (𝑛 − 𝑘) = 1−𝛼
2 2
𝑠√1 + 𝒙𝒇 (𝑿′𝑿)−𝟏 𝒙′𝒇
( )
Continuando con el Ejemplo 5.6, utilizando las estimaciones del modelo Cobb-Douglas
ln(𝑄𝑖 ) = 𝛽1 + 𝛽2 ln(𝐾𝑖 ) + 𝛽3 ln(𝐿𝑖 ) + 𝑢𝑖 sin restricciones sobre los parámetros,
queremos pronosticar cuál sería la producción de una empresa típica si utilizara 5,000
unidades de capital y 500 de trabajo. Tomando logaritmo natural a estos valores resulta
en ln(𝐾 = 5000) = 8.517193 y ln(𝐿 = 5000) = 6.2146081. Reemplazando los
valores en la estimación puntual se obtiene
142
Esto da como resultado los valores del intervalo en [7.7099,8.529]. Tomando el
exponencial a estos valores diríamos que esperamos que la producción de una empresa
con estas cantidades de capital y trabajo se encuentre entre 2230.47 y 5044.83 unidades.
143
Apéndice 5.1
̂ ] = 𝑹𝜷
𝐸[𝑹𝜷
̂ ] = 𝜎 2 𝑹(𝑿′𝑿)−1 𝑹′
𝑉𝑎𝑟[𝑹𝜷
Podemos transformar este vector aleatorio para definir una variable aleatoria 𝜒 2 con 𝑞
grados de libertad5
Por otro lado, de (5.2) sabemos que 𝒆′ 𝒆⁄𝜎 2 ~𝜒 2 (𝑛 − 𝑘), y que 𝒆′ 𝒆⁄𝜎 2 es
̂ y 𝒆 son independientes. Entonces la siguiente expresión
independiente de (5.27) pues 𝜷
se distribuye exactamente como una 𝐹 de Fisher con 𝑞 grados de libertad en el
numerador y 𝑛 − 𝑘 grados de libertad en el denominador.
5
Si 𝒛 es un vector 𝑛 × 1 donde 𝒛~𝑁(𝟎, ∑), entonces 𝒛′ ∑−1 𝒛 ∼ 𝜒 2 (𝑛).
144
̂ − 𝒓)′[𝑹(𝑿′ 𝑿)−1 𝑹′ ]−1 (𝑹𝜷
(𝑹𝜷 ̂ − 𝒓)/𝑞
~𝐹(𝑞,𝑛−𝑘)
𝒆′ 𝒆/(𝑛 − 𝑘)
Este valor es perfectamente calculable con los datos. Cabe notar que si la hipótesis nula
es falsa, el estadístico 𝐹 es distinto a (5.28) y por lo tanto no se distribuiría como una F
de Fisher.
Apéndice 5.2
Queremos demostrar que 𝑹(𝑿′ 𝑿)−1 𝑹′ = (𝑿′2 𝑨𝑿2 )−1 cuando 𝑹 = [𝟎 𝑰𝒌−𝟏 ], donde
𝑿2 es la matriz de datos que incluye a todas las variables menos la constante, y 𝑨 es la
matriz que genera desviaciones respecto a los promedios.
Sea 𝑿 = [𝒊 ⋮ 𝑿2 ], luego
𝑛 ⋮ 𝒊′ 𝑿2
′
𝑿 𝑿 = [⋯ ⋯ ⋯ ⋯ ⋯ ].
𝑿′2 𝒊 ⋮ 𝑿′2 𝑿2
𝒂 ⋮ 𝒃
La inversa de esta matriz es (𝑿′ 𝑿)−1 = [⋯ ⋯ ⋯]. Utilizando las fórmulas de la
𝒄 ⋮ 𝒅
inversa de una matriz particionada del anexo de matrices, se cumple que la submatriz 𝒅
es
−1 −1
1 1
𝒅 = [𝑿′2 𝑿2 − 𝑿′2 ( ) 𝒊′𝑿2 ] = [𝑿′2 [𝑰 − 𝒊𝒊′] 𝑿2 ] = (𝑿′2 𝑨𝑿2 )−1
𝑛 𝑛
Por otro lado, como 𝑹 = [𝟎 ⋮ 𝑰𝒌−𝟏 ] el producto 𝑹(𝑿′ 𝑿)−1 𝑹′ selecciona la submatriz
cuadrada inferior derecha 𝑘 − 1 × 𝑘 − 1 de (𝑿′ 𝑿)−1 , es decir la matriz 𝒅. Por lo tanto
se comprueba lo que se estaba buscando.
145
Ejercicios
Y X2 X3
3 3 5
8 5 6
3 2 4
5 4 6
1 1 4
2 1 2
1 3 1
donde 𝒆′ 𝒆 = 2275.159
146
𝑛 = 15 ∑ 𝑥2 𝑥3 = 4796
̃ 𝟐 ) = 𝜎 2 {(𝑿′2 𝑨𝑿2 )−1 − (𝑿′2 𝑨𝑿2 )−1 𝑹′[𝑹(𝑿′2 𝑨𝑿2 )−1 𝑹′ ]−1 𝑹(𝑿′2 𝑨𝑿2 )−1 }
𝑉𝑎𝑟(𝜷
𝜷𝟏
̃
𝐸[𝜷] = [ ⋯ ].
𝟎
Ayuda: Recuerde que la inversa de una matriz diagonal por bloques es:
𝐀 ⋮ 𝟎 −1 𝐀−1 ⋮ 𝟎
[⋯ ⋯ ⋯ ⋯] = [ ⋯ ⋯ ⋯ ]
𝟎 ⋮ 𝐁 𝟎 ⋮ 𝐁 −1
147
̃ − 𝑬[𝜷
a. Muestre que 𝜷 ̃ ] = (𝜷
̂ − 𝜷) − (𝑿′ 𝑿)−1 𝑹′ (𝑹(𝑿′ 𝑿)−1 𝑹′ )−1 𝑹(𝜷
̂ − 𝜷)
b. Muestre que
̃ ) = 𝑬[(𝜷
𝑉𝑎𝑟(𝜷 ̃ − 𝑬[𝜷
̃ ])(𝜷
̃ − 𝑬[𝜷
̃ ])′]
a. Interprete el coeficiente de 𝑌.
b. Pruebe la hipótesis de que 𝛽1 = 0 a un 95% de confianza
c. Suponga que la empresa incrementa el producto de 10 a 100 unidades.
Manteniendo todo lo demás constante, ¿Cuál es la predicción para el cambio en
el costo promedio?
d. Suponga que la empresa produce 100 unidades de producto, el precio de la
mano de obra es 10 US$/hora y el precio de alquiler del capital es 5US$/hora
¿Cuál es la predicción del costo promedio?
e. Explique paso a paso como probaría la siguiente hipótesis 𝛽1 = 𝛽2 . Provea el
test estadístico apropiado
148
5.286077 −0.453358 −0.022368
̂ ) = [−0.453358
𝑉𝑎𝑟(𝜷 0.039594 0.001672 ] 𝑆𝐶𝑇 = 1.792244
−0.022368 0.001672 0.000214
149
Capítulo 6
Otros temas en regresión lineal múltiple
Existen algunos temas adicionales en el modelo de regresión lineal clásico que van a ser
tratados en este capítulo. Un primer tema a desarrollar es el problema de la
multicolinealidad, el cual ocurre cuando las variables exógenas o explicativas están
fuertemente correlacionadas entre sí. Aunque a simple vista parezca un problema
menor, se puede comprobar que tiene importantes implicaciones en la precisión de las
estimaciones por mínimos cuadrados ordinarios, y sobre los resultados de las pruebas de
hipótesis de los parámetros. En este capítulo se abordan algunas maneras de detectar el
problema y cómo solucionarla.
En este capítulo también se trabaja el tema de las variables cualitativas. Estas variables
se diferencian de las cuantitativas porque no expresan ninguna cantidad sino que
representan alguna característica o atributo de las unidades de análisis. La conversión de
los atributos a números es una tarea relativamente sencilla así como su inclusión en el
modelo de regresión lineal clásico. No obstante, el capítulo trabaja con cuidado el uso
de estas variables y sobretodo la interpretación de los coeficientes estimados. Es
frecuente en los estudiantes de econometría que atribuyan erróneamente
interpretaciones incorrectas a sus estimaciones, por no tener claridad acerca del
fundamento de estas variables.
150
6.1. Multicolinealidad
En los modelos de regresión lineal con muchas variables explicativas suele ocurrir que
se incluyen numerosas variables que suelen estar muy relacionadas entre sí. En los
diversos estudios económicos se reportan situaciones de este tipo. Por ejemplo, cuando
se busca estimar funciones de producción, las típicas variables incluidas son los factores
de producción capital y trabajo, como los principales determinantes. Aunque en la teoría
económica no se mencione que deba existir una relación entre estas variables, en el
momento de trabajar con datos resulta que cuando se consiguen estos valores para una
muestra de diversas empresas, ambas se encuentran relacionadas a través de la escala de
producción. Así, para una empresa que tenga un alto nivel de producción también será
muy probable que tenga altos valores de capital y trabajo, y similarmente, otra
observación de una empresa con una producción de menor cuantía también podría estar
asociada a bajos niveles de capital y trabajo.
Otro ejemplo en donde se observa esta alta correlación entre variables se presenta en los
modelos microeconométricos, en donde las variables explicativas están naturalmente
agrupadas pues describen aproximadamente una característica de la unidad de análisis.
Tal es el caso de diversos estudios en donde las características del hogar o las
características regionales son determinantes de una variable endógena de interés. Por
ejemplo, el tipo de materiales de la vivienda, el acceso a servicios de agua o desagüe, el
equipamiento de la vivienda, el área y los ingresos del hogar suelen estar fuertemente
correlacionados. Lo mismo ocurre con el nivel educativo del jefe de hogar y su
cónyuge.
En los datos de series temporales también existe este tipo de correlaciones fuertes entre
variables que tienen tendencias comunes, aunque este tema merece un tratamiento
especial.
En todos los casos, la multicolinealidad se refiere a la alta correlación entre las variables
independientes, lo cual podría traer dificultades (en ocasiones serias) para el análisis de
regresión, tanto en aquellas de orden estadístico como en la posible interpretación
causal de las estimaciones.
151
6.1.1. Multicolinealidad Perfecta
En este caso, una de las variables explicativas es una combinación lineal exacta de otra
u otras variables explicativas. Así, no se cumple el supuesto de rango lleno de la matriz
de datos 𝑿. Luego, no existe la inversa de la matriz 𝑿′𝑿 y por lo tanto no se puede
̂.
calcular 𝜷
También estamos interesados en el efecto del ingreso total, definido como la suma de
los ingresos laborales y los no laborales, pues pensamos que los hogares pobres pueden
presentar patrones de consumo muy distintos al de los hogares con más ingresos. Con
estas ideas, planteamos el modelo,
Este modelo no puede ser estimado por mínimos cuadrados ordinarios por el problema
mencionado. Evidentemente la información provista por la variable Ingreso Total ya se
encuentra repartida entre las dos modalidades de ingreso mencionadas, y por ello no
aporta ninguna información adicional. La multicolinealidad perfecta ocurre por una
mala especificación del modelo econométrico, pues el efecto del ingreso total, 𝛽4 , ya se
encuentra representado en 𝛽2 y 𝛽3.
152
6.1.2. Multicolinealidad Imperfecta
A diferencia del caso anterior, la correlación entre las variables explicativas es alta pero
no perfecta. Este caso suele ser más frecuente que el anterior; los ejemplos mencionados
en los párrafos introductorios de la sección 6.1 corresponden todos ellos al caso
imperfecto.
Ejemplo 6.2: Ahora deseamos estudiar la relación entre el consumo con los ingresos y
la riqueza. El modelo propuesto es
153
Ejemplo 6.3: Supongamos que deseamos estudiar la influencia del nivel educativo de
los padres sobre el rendimiento escolar. Es esperable que padres con mayor nivel
educativo puedan apoyar académicamente a sus hijos en sus estudios, lo que podría
incrementar su rendimiento educativo. Podemos preguntarnos si el nivel educativo de la
madre o del padre influye más en este rendimiento. Planteamos el modelo que describe
el rendimiento del niño 𝑖 como:
En este ejemplo, es de esperar que los niveles educativos de los padres (medidos en
años de educación) estén fuertemente correlacionados, por lo que las estimaciones de
los efectos sufrirán de los problemas mencionados. El problema radica en que la
estimación por mínimos cuadrados ordinarios no será capaz de obtener estimaciones
confiables de 𝛽2 y 𝛽3. Supongamos que retiramos del modelo al nivel educativo de la
madre, con lo cual estimamos el modelo
𝜎2
𝑉𝑎𝑟(𝛽̂𝑧 ) = (6.1)
(1 − 𝑅𝑧2 ) ∑(𝑍𝑖 − 𝑍̅)2
154
dependerá solamente de 𝜎 2 y de la variabilidad de 𝑍, tal como ocurre en el modelo
bivariado. Entonces, el hecho que exista esta correlación entre una variable exógena y
las demás incrementará la varianza del estimador correspondiente a la variable que sufre
multicolinealidad.
Tabla N° 6.1
Relación entre el rendimiento en matemáticas y la
educación de los padres
VARIABLES (1) (2) (3)
155
¿Cómo podemos saber si nuestros datos sufren de este problema? Existen varias formas
de detectar la multicolinealidad imperfecta. Algunas estrategias mencionadas en los
libros de econometría son1:
1
Por ejemplo, Johnston y Dinardo (2001), Gujarati y Porter (2010).
2
Cabe mencionar que no siempre se observa estadísticos 𝑡 bajos y 𝐹 alto en presencia de
multicolinealidad.
156
problema con esta matriz es que solo ve colinealidades entre pares de variables,
y no queda muy claro cuál es el nivel mínimo de la correlación para considerarlo
como alto.
157
Tabla 6.2
Cálculo del factor de inflación de varianzas
. sysuse auto
(1978 Automobile Data)
. generate weightsq=weight^2
. vif
158
el cual es un estimador sesgado pero que debería mostrar menores varianzas que
el de MCO. Es de poco uso práctico en econometría aplicada por ser sesgado
(Greene, 2008).
𝑌𝑖 = 𝛽1 + 𝛽2 𝐼𝐶𝐻 + 𝛽3 𝐼𝐶𝐸 + 𝑢𝑖
159
sufren de este problema, tener una idea de su magnitud y en ocasiones deberá aprender a
convivir con el problema.
Imaginemos que estamos estudiando los determinantes de los salarios en una economía,
y además de considerar a la educación recibida, la edad y los años de experiencia
pensamos incluir otras variables como el sexo de la persona y el lugar donde vive. En
nuestra “teoría” pensamos que podría existir algún tipo de discriminación por género
contra las mujeres en el sentido que el mercado laboral les paga menos salarios solo por
el hecho de ser mujeres, en comparación con personas similares que desempeñan el
mismo trabajo. Igualmente, pensamos que podrían existir diferencias a nivel regional o
de ámbito, debido a un desigual desarrollo de la economía en un territorio. Entonces,
¿cómo podríamos medir a las variables “sexo” y “región”?
Estas variables expresan una cualidad o atributo, no una cantidad. Como la estimación
de los efectos requiere que las variables estén expresadas en números, podemos
convertir a los atributos a una forma numérica utilizando variables binarias.
Explicaremos la conversión con dos ejemplos sencillos.
Ejemplo 6.4: Consideremos dos variables cualitativas: sexo y región en donde vive la
persona. El primer paso para convertir estas variables a versiones binarias o “dummy”
requiere la definición de las categorías de cada una de ellas. Estas categorías deben ser
mutuamente excluyentes (ningún individuo puede ser clasificado en más de una
categoría) y exhaustivas (todos los individuos de la población bajo estudio son
clasificables en alguna de las categorías). Para nuestras variables definimos las
categorías,
−𝑁𝑜𝑟𝑡𝑒
−ℎ𝑜𝑚𝑏𝑟𝑒
𝑆𝑒𝑥𝑜 = { 𝑅𝑒𝑔𝑖ó𝑛 = {−𝐶𝑒𝑛𝑡𝑟𝑜
−𝑚𝑢𝑗𝑒𝑟
−𝑆𝑢𝑟
Para la variable sexo se define una variable binaria por cada categoría. Así surgen las
variables S1 y S2 definidas como
160
1 𝑠𝑖 𝑖 𝑒𝑠 ℎ𝑜𝑚𝑏𝑟𝑒 1 𝑠𝑖 𝑖 𝑒𝑠 𝑚𝑢𝑗𝑒𝑟
𝑆1𝑖 = { 𝑆2𝑖 = {
0 𝑠𝑖 𝑖 𝑒𝑠 𝑚𝑢𝑗𝑒𝑟 0 𝑠𝑖 𝑖 𝑒𝑠 ℎ𝑜𝑚𝑏𝑟𝑒
1 𝑠𝑖 𝑖 𝑣𝑖𝑣𝑒 𝑒𝑛 𝑒𝑙 𝑆𝑢𝑟
𝐴3𝑖 = {
0 𝑒𝑛 𝑜𝑡𝑟𝑜 𝑐𝑎𝑠𝑜
El modelo (6.2) no puede ser estimado por sufrir de multicolinealidad perfecta, dado
que la suma de 𝑆1 y 𝑆2 es igual a 1 para todo 𝑖, generando en la matriz de datos una
columna de unos que es colineal con la columna de unos de la constante. La
imposibilidad de incluir a todas las dummy de todas las categorías se le suele llamar la
“trampa de las variables dummy”.
Para evitar este problema, se toma una dummy como categoría base y se le excluye de
la regresión. Si tomamos a S2 como “base”, el modelo (6.2) se reduce a
𝑌𝑖 = 𝛽1 + 𝛽2 𝑋𝑖 + 𝛽3 𝑆1𝑖 + 𝑢𝑖 (6.3)
161
Para entender el significado de la inclusión de esta variable en la función de regresión
poblacional, tomaremos el valor esperado a (6.3) condicional a los valores de 𝑆1 y 𝑋.
en donde 𝐸[𝑢𝑖 |𝑆1𝑖 , 𝑋𝑖 ] = 0 por el supuesto 2 del MRLC. Estas dos expresiones son las
funciones de regresión poblacionales para los hombres y las mujeres. Comparándolas,
podemos ver que el coeficiente 𝛽3 de la variable dummy en (6.3) equivale a un
incremento (o reducción si 𝛽3 < 0) de los salarios para las hombres respecto a las
mujeres independientemente de los años de educación. En forma gráfica, la figura 6.1
muestra las dos funciones de regresión poblacional, en donde se hace evidente que la
𝐹𝑅𝑃 de los hombres es un desplazamiento paralelo de la función respectiva de las
mujeres. Matemáticamente, el parámetro 𝛽3 es la diferencia entre las ordenadas en el
origen de las dos funciones. 𝛽1 es el intercepto en la regresión de las mujeres y 𝛽1 + 𝛽3
el intercepto para los hombres. Obsérvese que la recta de la categoría base (mujeres) es
la que no tiene al coeficiente 𝛽3, por ello la interpretación se hace respecto a la categoría
base. Si se estima el modelo (6.3) y el parámetro 𝛽3 es significativo, tendríamos una
primera evidencia de discriminación en el mercado laboral.
Otra forma de evitar la trampa de las dummy es excluir al intercepto y dejar las dos
variables 𝑆1𝑖 y 𝑆2𝑖 . En ese caso, el modelo es
En el modelo (6.4), las funciones de regresión poblacional de los hombres y mujeres son
respectivamente.
162
Como puede verse en la figura 6.1, las pendientes de las dos 𝐹𝑅𝑃 son iguales. Veamos
ahora un caso un poco más completo en donde deseamos ver si el sexo también afecta a
la pendiente de la 𝐹𝑅𝑃, es decir, un modelo donde hay diferentes retornos a la
educación por género. Proponemos el siguiente modelo,
Figura 6.1
Funciones de regresión poblacional de los hombres y las mujeres
FRP de Mujeres
𝛽3
𝛽1 + 𝛽3
𝛽1
X
Años de Educación
En este nuevo modelo se está generando una nueva variable, S1 × X que es el resultado
de multiplicar a la dummy de hombres por los años de educación. A esta variable se le
suele llamar dummy interactiva, pues es el resultado de la multiplicación de una dummy
con otra variable3. Tomando el valor esperado condicional al igual que antes,
En este caso podemos ver que el parámetro 𝛽4 es la variación de las pendientes de las
rectas entre hombres y mujeres. La figura 6.2 nos muestra este nuevo caso con variación
en el intercepto y pendiente para hombres y mujeres, en donde se está asumiendo que
𝛽3 > 0 y 𝛽4 > 0. Si en una estimación obtuviéramos 𝛽̂4 > 0 y significativo, tendríamos
3
También hay variables dummy interactivas que son el resultado del producto de dos dummy.
163
una evidencia estadística de que el sexo de las personas afecta a los retornos de la
educación.4
Figura 6.2
FRP de hombres y mujeres con cambios en intercepto y
pendiente.
Ln(Salario)
FRP de los Hombres
Y
𝛽1 + 𝛽3
𝛽1
X
Años de Educación
Ahora vamos a incluir a las variables dummy de la región donde la persona vive, y para
no complicar demasiado el ejemplo, no vamos a considerar a la interacción entre el sexo
y los años de educación. En ese caso también se debe elegir a una categoría base, y
tomaremos a la categoría Norte (𝐴1 ) para este fin. Luego, el modelo es una extensión
del modelo (6.3) agregando a las variables 𝐴2 y 𝐴3 .
En donde las categorías base son las variables 𝑆2 (mujer) y 𝐴1 (norte). Al tomar el valor
esperado condicional, debemos hacerlo para las diferentes combinaciones de las dos
variables cualitativas incluidas. Así tendremos al final seis funciones de regresión
poblacional, como resultado de combinar las categorías {hombre, mujer} con {norte,
centro, sur}. Como se está tomando como categorías base a {mujer} y {norte}, todas las
demás 𝐹𝑅𝑃 serán interpretadas como desviaciones respecto a esta base. Las funciones
son,
4
La versión alternativa de (6.5) excluyendo a la constante y a 𝑋 por la multicolinealidad es
𝑌𝑖 = 𝛼1 𝑆1𝑖 + 𝛼2 𝑆2𝑖 + 𝛼3 (𝑆1 × 𝑋)𝑖 + 𝛼4 (𝑆2 × 𝑋)𝑖 + 𝑢𝑖
Respecto a (6.5), se cumplen las equivalencias: 𝛼1 = 𝛽1 + 𝛽3 , 𝛼2 = 𝛽1 , 𝛼3 = 𝛽3 + 𝛽4 , y 𝛼4 = 𝛽3 .
164
(𝑎): 𝐸[𝑌𝑖 |𝑆1𝑖 = 0, 𝐴2𝑖 = 0, 𝐴3𝑖 = 0, 𝑋𝑖 ] = 𝛽1 + 𝛽2 𝑋𝑖 Mujeres del norte
Por último si deseamos que estos efectos regionales no sean constantes para hombres y
mujeres, o –equivalentemente- si queremos que los efectos de género no sean los
mismos en todas las regiones debemos agregar las variables dummy interactivas 𝑆1 × 𝐴2
y 𝑆1 × 𝐴3 al modelo (6.6) teniendo el modelo,
165
𝑌𝑖 = 𝛽1 + 𝛽2 𝑋𝑖 + 𝛽3 𝑆1𝑖 + 𝛾2 𝐴2𝑖 + 𝛾3 𝐴3𝑖 + 𝛼1 (𝑆1 × 𝐴2 )𝑖 + 𝛼2 (𝑆1 × 𝐴3 )𝑖 + 𝑢𝑖 (6.7)
Debe notarse que la interpretación de las variables dummy se vuelve confusa cuando se
agregan muchos grupos de variables como en las ecuaciones (6.6) y (6.7). Es normal en
modelos con datos microeconómicos que algunas variables dummy tengan más de cinco
categorías. Por esa razón, se aconseja solo agregar variables dummy interactivas cuando
realmente se considera que es necesario, o de lo contrario, la interpretación de tantas
variables dummy puede volverse un problema inmanejable6. Por otra parte, si una
variable cuantitativa ha sido convertida a categorías ordinales (como por ejemplo, los
años de estudio a niveles educativos), es mejor trabajar con la variable cuantitativa en lo
posible a menos que se desee estudiar algo en particular de las categorías. Otra
consideración importante sobre las variables dummy es que no debe olvidarse que solo
deben interpretarse respecto a las categorías base. Esta última recomendación es
especialmente importante porque la significancia de los coeficientes de las dummy
puede cambiar bruscamente cuando se cambia la categoría base. El investigador debe
estar atento de qué es lo que realmente están midiendo estas variables.
Por último, el uso de la variables dummy puede ser una herramienta efectiva para el
análisis de discriminación. En el apéndice 6.2 de este capítulo se presenta un análisis un
poco más detallado de la brecha salarial por género, conocido como el enfoque de
Oaxaca-Blinder.
5
Se deja al lector esta comprobación.
6
Este último consejo puede dejarse de lado cuando la interpretación de los coeficientes de las dummy no
es de nuestro interés, sino que deseamos “saturar” el modelo con numerosas variables cualitativas y
cuantitativas que puedan explicar la variabilidad de la endógena.
166
6.3. Cambio Estructural
En el caso de datos de series de tiempo, el hecho que los parámetros 𝛽 puedan variar en
distintas observaciones ocurrirá cuando dichos parámetros dejen de ser constantes en el
tiempo, y más bien se observen algunos cambios o “saltos” bruscos. Estos cambios
ocurren especialmente cuando la serie de tiempo toma un largo periodo de
observaciones en donde se han producido cambios importantes en la economía, tales
como crisis económicas severas, guerras, reformas en el sistema económico, etc. Estos
cambios bruscos en la economía suelen observarse en los datos, los cuales reflejan el
cambio estructural que ha sufrido el proceso generador de datos.
167
Ejemplo 6.5: Supongamos que estudiamos la relación entre dos variables, el consumo
(𝑌) y el ingreso (𝑋) en dos periodos: Guerra y Paz. El modelo es:
𝑌𝑡 = 𝛽1 + 𝛽2 𝑋𝑡 + 𝑢𝑡 (6.8)
Los valores de 𝑢𝑡 son números aleatorios distribuidos normalmente con media cero y
con desviación estándar igual a 30. Nótese que se produce un cambio en el parámetro
poblacional 𝛽2 el cual aumenta de 0.6 a 0.8 a partir del periodo 30 en donde se inicia la
guerra. El parámetro poblacional 𝛽1 se mantiene en 200 en toda la muestra. La figura
6.3 muestra el gráfico de dispersión de los datos generados por nuestro procedimiento.
Figura 6.3
Gráfico de dispersión de X e Y con el cambio estructural en la pendiente
168
Ahora estimamos el modelo (6.7) por MCO con los datos de los 40 periodos que
acabamos de generar. La estimación arroja los valores 𝛽̂1 = −2881.0569 y 𝛽̂2 =
1.4979. Note como el cambio estructural provoca que los estimadores MCO estén muy
alejados de los parámetros poblacionales. Los resultados completos se presentan en la
tabla 6.2.
Tabla 6.3
Estimación del modelo ignorando el cambio estructural
Para mejorar la especificación del modelo, podemos utilizar a una variable dummy e
introducirla en la regresión. Definamos a la variable 𝐷 que toma el valor de cero para
los periodos 1 a 29 (periodos de paz) y es igual a uno para los periodos 30 a 40
(periodos de guerra).
𝑌𝑡 = 𝛽1 + 𝛽2 𝑋𝑡 + 𝛽3 𝐷𝑡 + 𝑢𝑡 (6.9)
169
Tabla 6.4
Estimación del modelo incluyendo una dummy aditiva
𝑌𝑡 = 𝛽1 + 𝛽2 𝑋𝑡 + 𝛽3 𝐷𝑡 + 𝛽4 (𝐷𝑡 × 𝑋𝑡 ) + 𝑢𝑡 (6.10)
Tabla 6.5
Estimación del modelo incluyendo dummy aditiva e interactiva
Generalizando este enfoque de cambio estructural con variables dummy para el caso de
k variables, consideremos los siguientes modelos:
170
(1) 𝑌𝑡 = 𝛽1 + 𝛽2 𝑋2𝑡 + ⋯ + 𝛽𝑘 𝑋𝑘𝑡 + 𝑢𝑡
(2) 𝑌𝑡 = 𝛽1 + 𝛽2 𝑋2𝑡 + ⋯ + 𝛽𝑘 𝑋𝑘𝑡 + 𝛽𝑘+1 𝐷𝑡 + 𝑢𝑡
(3) 𝑌𝑡 = 𝛽1 + 𝛽2 𝑋2𝑡 + ⋯ + 𝛽𝑘 𝑋𝑘𝑡 + 𝛽𝑘+1 𝐷𝑡 + 𝛽𝑘+2 (𝐷𝑡 × 𝑋2𝑡 ) + ⋯ + 𝛽2𝑘 (𝐷𝑡 ×
𝑋2𝑡 ) + 𝑢𝑡
Para una prueba de hipótesis sobre diferencias en todas las pendientes, la hipótesis nula
es 𝐻0 : 𝛽𝑘+2 = 0, 𝛽𝑘+3 = 0, … , 𝛽2𝑘 = 0 teniendo que compararse los modelos (2) y (3).
En el estadístico 𝐹 se cumple que 𝑞 = 𝑘 − 1, y los grados de libertad de la suma de
cuadrados de residuos del modelo (3) son iguales a 𝑛 − 2𝑘. Luego el estadístico 𝐹 es
Si se desea hacer una prueba para diferentes interceptos y pendientes, se comparan los
modelos (1) y (3), siendo la hipótesis nula 𝐻0 : 𝛽𝑘+1 = 0, 𝛽𝑘+2 = 0, 𝛽𝑘+3 = 0, … , 𝛽2𝑘 =
0, por lo tanto 𝑞 = 𝑘. Luego el estadístico 𝐹 es
Ejemplo 6.6: Con los datos del Ejemplo 6.5 se obtiene que SCR1 = 2528770.22 y
SCR 2 = 25052.1156. Probamos primero si se produjo un cambio en el intercepto, para
lo cual el estadístico 𝐹 de (6.11) es el apropiado. Dado que 𝑘 = 2, se reemplaza estos
valores en (6.11) y se obtiene
(2528770.22 − 25052.1156)/1
𝐹= = 3697.7942
25052.1156/37
El valor crítico 𝐹1−𝛼 (1,37) para 𝛼 = 0.01 es 7.3734, con lo cual se rechaza la nula de
interceptos iguales. Nótese que el test nos dice que los datos son consistentes con un
cambio en el intercepto, aunque nosotros sabemos que el cambio realmente fue en la
171
pendiente. Es evidente que debemos ser siempre cautelosos con las conclusiones que
podemos derivar de las pruebas de hipótesis. Ni siquiera un rechazo de la hipótesis con
mucha holgura, como en este caso, nos puede garantizar que la hipótesis sea verdadera.
Ahora analicemos un posible cambio en la pendiente, asumiendo que los interceptos son
distintos. En el mismo ejemplo podemos ver que 𝑆𝐶𝑅3 = 21887.495, y 𝑘 = 2.
Reemplazando en (6.12) se realiza el test para cambio en pendiente, obteniéndose
(25052.1156 − 21887.495)/1
𝐹= = 5.20508
21887.495/36
(2528770.22 − 21887.495)/2
𝐹= = 2061.6287
21887.495/36
172
Si se desea comparar este modelo contra otro que no tenga diferencias en las pendientes,
el estadístico 𝐹 apropiado es,
(2528770.22 − 22544.6255)/1
𝐹= = 4113.1908
22544.6255/37
Hay otra forma de estudiar el cambio de los parámetros en el tiempo, y es por medio de
la estimación recursiva de ellos. Estas estimaciones consisten en hacer los cálculos
empezando con una cantidad limitada de periodos iniciales, para luego ir agregando
observaciones de periodos de uno en uno, observando el comportamiento de los
parámetros estimados.
Sea 𝑿𝝉 la matriz que contiene a las primeras τ filas de la matriz de datos 𝑿, desde el
periodo 1 hasta el periodo 𝜏, donde 𝑘 < 𝜏 ≤ 𝑛. Sea definida de manera similar a las
observaciones de la endógena 𝒚𝝉 . Luego, estimamos los parámetros del modelo por
MCO mediante
173
̂ 𝝉 = (𝑿′𝝉 𝑿𝝉 )−1 𝑿′𝝉 𝒚𝝉
𝜷 (6.14)
Ejemplo 6.7: Utilizando los datos ficticios de los ejemplos previos, calculamos la
estimación recursiva del modelo de la ecuación (6.8), empezando en 𝜏 = 3. En las
figuras 6.4 y 6.5 mostramos los resultados de estas estimaciones, en donde las líneas
continuas son los valores estimados y las líneas punteadas son los intervalos de
confianza al 95%. En ambas figuras se puede notar que hasta el periodo 29 los valores
estimados se estabilizan entorno a los verdaderos valores poblacionales (𝛽1 = 200 y
𝛽2 = 0.6). Luego del cambio estructural en la pendiente en el periodo 30, las
estimaciones empiezan a sufrir serias distorsiones, la cual no solo afecta al estimador 𝛽̂2
sino también a 𝛽̂1, pues ambos estimadores están negativamente correlacionados.
Figura 6.4
Estimación recursiva del parámetro 𝜷𝟐
174
Figura 6.5
Estimación recursiva del parámetro 𝜷𝟏
La lección que nos deja la estimación recursiva de los parámetros es que si se han
producido cambios bruscos en alguno de los parámetros poblacionales, esto afectará a
todos los parámetros estimados. Lamentablemente el análisis gráfico propuesto no nos
permite definir con claridad cuál de los dos parámetros (o si los dos) sufrió un cambio
estructural. No obstante, esta es una herramienta útil para detectar cambios
estructurales. Uno debería sospechar fuertemente de la existencia de estos cambios
cuando los gráficos muestran fuertes ondulaciones y caídas o alzas bruscas. Por otro
lado, deberíamos pensar que no hay mayores cambios si los valores estimados parecen
converger a números definidos y los intervalos de confianza se vuelven cada vez más
angostos.
Otra forma de observar el cambio estructural en el modelo es por medio de las pruebas
CUSUM y CUSUM-cuadrado7. Son pruebas estadísticas que permiten verificar si hubo
o no algún cambio estructural en algún punto del tiempo. En ambas pruebas se utilizan
̂ 𝝉 el vector de parámetros
las estimaciones recursivas mencionadas arriba. Sea 𝜷
estimado utilizando las τ primeras observaciones como en la ecuación (6.14), entonces
definimos el error de predicción “un paso adelante” como
̂𝝉
𝑒𝜏+1 = 𝑌𝜏+1 − 𝒙𝝉+𝟏 𝜷
7
Véase, Brown, Durbin y Evans (1975). Seguimos la exposición de Johnston y Dinardo (1997).
175
observado de la endógena y lo que el modelo predeciría a futuro utilizando las
estimaciones de los parámetros realizadas con τ datos pasados. Como este error es en sí
mismo un error de predicción, se le aplican los resultados obtenidos en el capítulo 5.
Luego, 𝐸[𝑒𝜏+1 ] = 0 y 𝑉𝑎𝑟[𝑒𝜏+1 ] = 𝜎 2 [1 + 𝒙𝝉+𝟏 (𝑿′𝝉 𝑿𝝉 )−1 𝒙′𝝉+𝟏 ], donde 𝑿𝝉 es la matriz
𝑿 con las primeras 𝜏 observaciones.
𝑒𝜏+1
𝑤𝜏+1 = ~𝑁(0, 𝜎 2 )
√1 + 𝒙𝝉+𝟏 (𝑿′𝝉 𝑿𝝉 )−1 𝒙′𝝉+𝟏
Esta serie es calculada para valores de 𝜏 + 1 = 𝑘 + 1 hasta el último periodo. Tanto los
residuos “un paso adelante” como los residuos re-escalados deberían tomar valores
entorno a cero cuando el modelo es estable en parámetros. Pero desde el momento en
que se produce un quiebre estructural, la información histórica hasta el periodo 𝜏 ya no
es útil para predecir lo que ocurrirá en el periodo siguiente, lo que generará errores de
predicción grandes, alejándose por lo tanto la serie 𝑤τ de cero.
En la figura 6.6 tenemos la gráfica de la serie de tiempo 𝑤τ para los datos del ejemplo
que estamos desarrollando. Evidentemente en el periodo 30 los residuos se alejan
notablemente del eje horizontal, indicando que a partir de ese periodo se ha producido
un cambio estructural.
Figura 6.6
Residuos “un paso adelante”
176
Existen dos tests similares que trabajan con la serie 𝑤τ 8. El primero de ellos calcula la
suma acumulada de 𝑤t , por lo que toma el nombre de 𝐶𝑈𝑆𝑈𝑀. Se define a la serie de
sumas acumuladas 𝑊𝑡 como
𝑇. Cuando no hay cambio estructural en los parámetros, deberíamos esperar que los 𝑤t
sean valores alrededor de cero dado que los parámetros calculados hasta el periodo
𝑡 − 1 explican bien el comportamiento de las variables en el periodo 𝑡. Luego la suma
acumulada 𝑊𝑡 de estos valores también estará cerca a cero para todo 𝑡. Si se produce un
quiebre estructural, entonces los valores 𝑤t serán distintos de cero desde el momento
del quiebre en adelante, y por lo tanto 𝑊𝑡 se aleja de cero. La figura 6.7 muestra la suma
acumulada del ejemplo junto con dos bandas que son líneas rectas que unen los puntos
(𝑘, ±𝑎. (𝑇 − 𝑘)1/2 ) y (𝑘, ±3𝑎. (𝑇 − 𝑘)1/2 ), donde 𝑎 = 0.948 para un 95% de
confianza. Cuando la serie 𝐶𝑈𝑆𝑈𝑀 cruza las bandas se rechaza la hipótesis de
parámetros estables. Nótese que desde el periodo 30 la suma acumulada empieza a
aumentar sostenidamente tal como se esperaba.
8
Brown, Durbin y Evans (1975).
177
Figura 6.7
Serie de suma acumulada CUSUM
1 2 2
∑𝑡𝑗=𝑘+1 𝑤𝑗 2
𝑆𝑡 = (𝑤𝑘+1 + 𝑤𝑘+2 +⋯+ 𝑤𝑡2 ) = 𝑡 = 𝑘 + 1, … , 𝑇
∑𝑇𝑗=𝑘+1 𝑤𝑗 2 ∑𝑇𝑗=𝑘+1 𝑤𝑗 2
1 2
donde 𝐸[𝑆𝑡 ] ≈ (𝑡 − 𝑘)/(𝑡 − 𝑇). La serie está compuesta por 𝑆𝑘+1 = ∑𝑇 2 (𝑤𝑘+1 ),
𝑗=𝑘+1 𝑤𝑗
1 2 2 1 2 2 2
𝑆𝑘+2 = ∑𝑇 2 (𝑤𝑘+1 + 𝑤𝑘+2 ), 𝑆𝑘+3 = ∑𝑇 2 (𝑤𝑘+1 + 𝑤𝑘+2 + 𝑤𝑘+3 ), y así
𝑗=𝑘+1 𝑤𝑗 𝑗=𝑘+1 𝑤𝑗
1 2 2
sucesivamente hasta 𝑆𝑇 = ∑𝑇 2
(𝑤𝑘+1 + 𝑤𝑘+2 + ⋯ + 𝑤𝑇2 ) = 1. A diferencia de la
𝑗=𝑘+1 𝑤𝑗
178
Figura 6.8
Serie de CUSUM-cuadrado sin cambio estructural
Igualmente se suele graficar con sus bandas de confianza 𝐸[𝑆𝑡 ] ± 𝑐𝑜 donde 𝑐𝑜 depende
de 𝑛 − 𝑘. Si la serie 𝑆𝑡 cruza las bandas de confianza, entonces podemos afirmar que
hay evidencia de un cambio estructural. En la figura 6.9 se dibuja la serie 𝐶𝑈𝑆𝑈𝑀-
cuadrado para los 40 periodos del ejemplo, en donde a partir del periodo 30 se ha
producido el cambio estructural. Obsérvese que en esta ocasión la suma acumulada
presenta un salto importante desde el periodo 30. Como al final la serie está forzada a
terminar en el valor 1, entre los periodos 29 y 30 se aprecia un importante quiebre hacia
abajo en la serie 𝐶𝑈𝑆𝑈𝑀-cuadrado. Por esta razón 𝐶𝑈𝑆𝑈𝑀-cuadrado es más sensible a
cambios estructurales que el 𝐶𝑈𝑆𝑈𝑀 simple, en donde la serie sale de las bandas recién
varios periodos después del quiebre.
179
Figura 6.9
Serie de CUSUM-cuadrado con cambio estructural
𝐶𝑜𝑛𝑠𝑢𝑚𝑜𝑡 = 𝛽1 + 𝛽2 𝑃𝐼𝐵𝑡 + 𝑢𝑡
En la figura 6.10 presentamos las series de tiempo de las variables Producto Bruto
Interno y Consumo Privado del Perú en el periodo mencionado. Nótese en la figura que
entre 1970 y 1990 estas dos series económicas han presentado fluctuaciones
9
En el capítulo 10 se explica que esta ecuación presenta el problema conocido como “endogeneidad de
los regresores”. Sin embargo, para fines del ejercicio, ignoraremos este problema para concentrarnos en la
inestabilidad de los parámetros en el tiempo.
180
importantes. En la figura 6.11 se muestra la serie 𝐶𝑈𝑆𝑈𝑀, en donde se observa que la
serie 𝐶𝑈𝑆𝑈𝑀 tiene un comportamiento altamente inestable desde los años 70 en
adelante. Por su parte, la figura 6.12 presenta la serie 𝐶𝑈𝑆𝑈𝑀-cuadrado que muestra
con mayor claridad los quiebres estructurales producidos alrededor de 1975 y otro un
poco después de 1995. Como las reformas en la economía fueron aplicadas a comienzos
de las décadas del 70 y 90 del siglo XX, es posible que los cambios en el patrón de
consumo nacional se hayan materializado en cambios en parámetros unos pocos años
después.
Figura 6.10
Consumo y Producto Interno Bruto del Perú (1950-2013)
Figura 6.11
Serie CUSUM de los residuos de la Ecuación del Consumo
181
Figura 6.12
Serie CUSUM-cuadrado de los residuos de la Ecuación del Consumo
182
Apéndice 6.1
Se asume que en este modelo la correlación entre la variable 𝑍 y las variables 𝑊 es alta.
Queremos demostrar que la varianza del estimador MCO 𝛽̂𝑧 , es
𝜎2
𝑉𝑎𝑟(𝛽̂𝑧 ) =
(1 − 𝑅𝑧2 ) ∑(𝑍𝑖 − 𝑍̅)2
𝒚 = 𝑾𝜷 + 𝒛𝜷𝒛 + 𝒖
̂𝒛 =
Por el teorema de Frisch-Waugh presentado en el capítulo 5, sabemos que 𝜷
̂ 𝒛 ) = 𝜎 2 (𝒛′ 𝑴𝒘 𝒛)−1. Obsérvese que 𝒛′ 𝑴𝒘 𝒛 es de
(𝒛′ 𝑴𝒘 𝒛)−1 𝒛′ 𝑴𝒘 𝒚 y que 𝑉𝑎𝑟(𝜷
̂ 𝒛 se puede escribir como
dimensión 1 1 , entonces la varianza de 𝜷
𝜎2 𝜎2
̂ 𝒛) =
𝑉𝑎𝑟(𝜷 =
𝒛′ 𝑴′𝒘 𝑴𝒘 𝒛 𝒆′𝒛 𝒆𝒛
queríamos hallar.
𝜎2
̂ 𝒛) =
𝑉𝑎𝑟(𝜷
(1 − 𝑅𝑧2 ) ∑(𝑍𝑖 − 𝑍̅)2
183
Apéndice 6.2
Esta descomposición fue planteada paralelamente por Oaxaca (1973) y Blinder (1973),
y nos permite explicar qué explica la diferencia o brecha salarial entre hombres y
mujeres. Haremos una presentación de ese enfoque usando los modelos de variables
dummy de este capítulo.
En este modelo, los subíndice “ℎ” y “𝑚” se refieren a los hombres y mujeres
respectivamente. Como se ha mostrado en este capítulo, existen equivalencias entre los
parámetros de este último modelo y el (6.5), siendo estas 𝛽1 = 𝛼𝑚 , 𝛽2 = 𝛽𝑚 , 𝛽3 =
𝛼ℎ − 𝛼𝑚 , 𝛽4 = 𝛽ℎ − 𝛽𝑚 . Reemplazando esas equivalencias en (6.5) nos queda
Estimando (6.5) (o (6.18)) por MCO y bajo la propiedad de que la recta pasa por los
puntos medios de las variables se obtiene,
̅̅̅̅̅̅̅̅̅̅̅
𝑌̅ = 𝛼̂𝑚 + 𝛽̂𝑚 𝑋̅ + (𝛼̂ℎ − 𝛼̂𝑚 )𝑆1̅ + (𝛽̂ℎ − 𝛽̂𝑚 )(𝑆 1 × 𝑋) (6.19)
̅̅̅̅̅̅̅̅̅̅̅
(𝑆 ̅ ̅
1 × 𝑋) = 𝑆1 𝑋ℎ
Reemplazando estos valores en la ecuación (6.19) y tomando en cuenta que 𝑌̅𝑚 = 𝛼̂𝑚 +
𝛽̂𝑚 𝑋̅𝑚 , luego de despejar términos se obtiene,
𝑌̅ℎ − 𝑌̅𝑚 = (𝛼̂ℎ − 𝛼̂𝑚 ) + 𝛽̂𝑚 (𝑋̅ℎ − 𝑋̅𝑚 ) + (𝛽̂ℎ − 𝛽̂𝑚 )𝑋̅ℎ
184
Esta ecuación muestra a qué se debe que los hombres y las mujeres puedan tener
salarios observados distintos. El primer componente (𝛼̂ℎ − 𝛼̂𝑚 ) es puramente
discriminatorio, en donde los hombres ganan esta diferencia adicional, la que no es
explicada por ninguna variable. El segundo componente 𝛽̂𝑚 (𝑋̅ℎ − 𝑋̅𝑚 ) captura las
diferencias entre los valores de 𝑋 promedio entre hombres y mujeres (a menudo
llamadas “dotaciones”). Por ejemplo, si 𝑋 son los años de educación y los hombres
tuvieran en promedio más años de educación que las mujeres, esto se traduce en un
incremento en los salarios debido a esta razón. Nótese que se multiplica por 𝛽̂𝑚 , con lo
cual 𝛽̂𝑚 (𝑋̅ℎ − 𝑋̅𝑚 ) sería –hipotéticamente– el incremento que experimentarían las
mujeres si su educación se equiparara con la de los hombres. En tercer componente
(𝛽̂ℎ − 𝛽̂𝑚 )𝑋̅ℎ depende de cuánto pague el mercado laboral por cada año adicional de
estudios, reflejado en los 𝛽̂𝑗 , 𝑗 = 𝑚, ℎ. Si hay diferencias en estos coeficientes, entonces
esto contribuirá a explicar la diferencia de salarios.
Ejercicios
6.1 En su trabajo de tesis Ud. está investigando sobre los determinantes del turismo en
el Perú (medido como el número de turistas extranjeros que llegan al Perú al año).
El modelo que usted ha propuesto es
𝑇𝑡 = 𝛽0 + 𝛽1 𝑉𝑡−1𝑖 + 𝛽2 𝑃𝐴𝑡 + 𝑢𝑡
185
c. Se cree que desde el atentado terrorista en Nueva York del año 2001 el mundo
aerocomercial cambió debido al temor por viajar en avión además de las
numerosas restricciones y medidas de seguridad en los vuelos que encarecieron
los pasajes y desanimaron a los turistas. ¿Cómo evaluaría un cambio estructural
desde esa fecha?
donde 𝐷𝑗𝑡 es una variable ficticia que toma el valor de 1 en el trimestre j-ésimo y 0
en los demás
a. Indique qué parámetros son estimables. Explique por qué.
b. Un investigador impone la restricción 𝛼 = 0 y otro impone la restricción 𝜃1 = 0.
¿Serán las estimaciones de 𝜃4 diferentes en ambos casos? ¿Por qué?
c. Considere el modelo con 𝛼 = 0. Suponga que cuenta con los siguientes datos
𝐷𝑡 = 𝛽0 + 𝛽1 𝑃𝑡 + 𝛽2 𝐼𝑡 + 𝑢𝑡
186
6.4 Se desea estimar una ecuación de salarios del tipo
donde 𝑆𝑖 son los años de escolaridad y 𝐸𝑥𝑝𝑖 son los años de experiencia.
Interprete el coeficiente 𝛼1 . ¿Cuál sería la esperanza condicional de una persona
que tiene 10 años de escolaridad, 5 de experiencia y vive en las zonas urbanas?
¿Cuál será la misma esperanza condicional si vive en las zonas rurales?
b. Ahora se desea ver si la tasa de retorno de la educación 𝛽2 varía según ámbito
urbano o rural. ¿Qué modificación haría a la ecuación de la parte a? Presente la
nueva versión e indique cómo comprobaría si hay o no diferencias por ámbito.
c. Se piensa que todos los parámetros del modelo cambian según el ámbito rural o
urbano. Vuelva a plantear el modelo econométrico utilizando la variable dummy
𝐷 e indique cómo se podría llevar a cabo un test de cambio estructural de este
tipo.
6.5 En un estudio sobre el comportamiento de los salarios (𝑊) se supuso que estos
dependían de dos variables: la experiencia laboral (𝐸𝐿), medida en años de trabajo
y de los años de estudio (𝐴𝐸). Se recogieron datos correspondientes a 30
individuos, 15 varones y 15 mujeres. El modelo original que se busca estimar es:
𝑊𝑖 = 𝛽1 + 𝛽2 𝐸𝐿𝑖 + 𝛽3 𝐴𝐸𝑖 + 𝑢𝑖
Se quiere ver si existe algún efecto del sexo del individuo sobre los salarios. Para
ello se utilizan los siguientes modelos de cambio estructural en versión matricial
(los subíndices H y M corresponden a datos de hombres y mujeres
respectivamente). A saber,
Modelo I: Los salarios no se ven afectados por el género de los individuos
187
𝛽1
𝑊 𝑖 𝐸𝐿𝐻 𝐴𝐸𝐻
( 𝐻) = [ 𝐻 𝛽
] . [ 2] + 𝑢
𝑊𝑀 𝑖𝑀 𝐸𝐿𝑀 𝐴𝐸𝑀
𝛽3
Modelo II: El género de los individuos afecta únicamente a los niveles autónomos
del salario
𝛽1𝐻
𝑊 𝑖 0 𝐸𝐿𝐻 𝐴𝐸𝐻 𝛽1𝑀 𝑢𝐻
( 𝐻) = [ 𝐻 ].[ ] + [𝑢 ]
𝑊𝑀 0 𝑖𝑀 𝐸𝐿𝑀 𝐴𝐸𝑀 𝛽2 𝑀
𝛽3
Modelo III: El género de los individuos afecta a los niveles autónomos y a las
pendientes.
𝛽1𝐻
𝛽2𝐻
𝑊𝐻 𝑖 𝐸𝐿𝐻 𝐴𝐸𝐻 0 0 0 𝛽 𝑢𝐻
( )=[𝐻 ] . 3𝐻 + [𝑢 ]
𝑊𝑀 0 0 0 𝑖𝑀 𝐸𝐿𝑀 𝐴𝐸𝑀 𝛽1𝑀 𝑀
𝛽2𝑀
[𝛽3𝑀 ]
Se estiman por MCO los tres modelos obteniéndose los siguientes resultados.
Modelo I: ̂ = 73.0348 + 4.9839 × 𝐸𝐿 + 0.1780 × 𝐴𝐸
𝑊
𝑅 2 = 0.7305 𝑆𝐶𝑅𝐼 = 1289.757
Modelo II: 𝐷𝐻 = {1 = ℎ𝑜𝑚𝑏𝑟𝑒, 0 = 𝑚𝑢𝑗𝑒𝑟},
𝐷𝑀 = {0 = ℎ𝑜𝑚𝑏𝑟𝑒, 1 = 𝑚𝑢𝑗𝑒𝑟}
̂ = 79.3864 × 𝐷𝐻 + 73.6603 × 𝐷𝑀 + 5.0119 × 𝐸𝐿 − 0.0762 × 𝐴𝐸
𝑊
𝑅 2 = 0.7760 𝑆𝐶𝑅𝐼𝐼 = 1071.682
Modelo III:
̂ = 97.5315 × 𝐷𝐻 + 5.728 × 𝐸𝐿𝐻 − 1.6408 × 𝐴𝐸𝐻 + 63.0251 × 𝐷𝑀
𝑊
+ 2.8435 × 𝐸𝐿𝑀 + 1.7681 × 𝐴𝐸𝑀
𝑅 2 = 0.9827 𝑆𝐶𝑅𝐼𝐼𝐼 = 82.4042
Asumiendo que 𝒖 se distribuyen exactamente como una 𝑁(𝟎, 𝜎 2 𝑰) pruebe la
hipótesis 𝐻0 : 𝛽1𝐻 = 𝛽1𝑀 (interceptos iguales) mediante el estadístico 𝐹.
6.6 Sean 𝑆1 una variable dummy que toma el valor de 1 si el individuo es hombre y 0 si
es mujer, mientras que 𝑆2 es igual a 1 si el individuo es mujer y 0 si es hombre.
¿Qué interpretación tienen los parámetros de la regresión: 𝑦𝑖 = 𝛼1 𝑆1𝑖 + 𝛼2 𝑆2𝑖 +
𝑢𝑖 ? ¿Y si estima esta ecuación por MCO, a qué será igual α
̂1 y α
̂2 ?
188
6.7 Considere los siguientes modelos que relacionan los salarios (𝑦) con el sexo de las
personas:
Modelo A: 𝑦𝑖 = 𝛽1 + 𝛽2 𝑆1 + 𝑢𝑖
Modelo B: 𝑦𝑖 = 𝛼1 𝑆1 + 𝛼2 𝑆2 + 𝑢𝑖
donde 𝑆1 es una variable dummy que toma el valor de 1 si la persona es hombre y 0
si es mujer, mientras que 𝑆2 es una variable dummy que toma el valor de 1 si la
persona es mujer y 0 si es hombre. Demuestre que estimando ambos modelos por
mínimos cuadrados ordinarios se obtiene que 𝛽̂1 = 𝛼̂2 y que 𝛽̂2 = 𝛼̂1 − 𝛼̂2 .
6.10 Considere los siguientes datos de la economía peruana sobre exportaciones y tipo
de cambio y el producto bruto mundial. Estime el modelo de regresión lineal
𝐸𝑥𝑝𝑜𝑟𝑡𝑡 = 𝛽1 + 𝛽2 𝑊𝑃𝐼𝐵 + 𝛽3 𝑇𝐶 + 𝛽4 𝐼𝑛𝑑𝑖𝑐𝑒𝑡 + 𝑢𝑡
por mínimos cuadrados ordinarios, donde Export son las exportaciones reales
peruanas, 𝑊𝑃𝐼𝐵 es el PBI mundial real, 𝑇𝐶 es el tipo de cambio Nuevos Soles por
189
Dólar, y Índice es el índice de precios de las exportaciones. Luego calcule la
estimación recursiva de los parámetros, y las series 𝐶𝑈𝑆𝑈𝑀 y 𝐶𝑈𝑆𝑈𝑀-cuadrado, y
evalúe si se ha producido algún cambio estructural en el periodo 1994-2013.
190
Capítulo 7
Propiedades Asintóticas de los Estimadores MCO
191
linealidad. Los promedios muestrales simples y ponderados también son combinaciones
lineales de 𝑌𝑖 , y por ello comparten las mismas propiedades asintóticas que los
estimadores de mínimos cuadrados ordinarios.
Supongamos que contamos con una muestra aleatoria simple de una variable aleatoria
𝑌, siendo esta muestra de tamaño 𝑛. La muestra es la colección 𝑌1 , 𝑌2 , … , 𝑌𝑛 , en ella
cada una de las observaciones puede entenderse como una variable aleatoria
independiente de las demás variables pero idénticamente distribuida (usualmente
denotado como “𝑖. 𝑖. 𝑑.”) que 𝑌.
Supongamos que cada 𝑌𝑖 tiene como media a 𝜇𝑦 y como varianza a 𝜎𝑦2 . El promedio
simple de esta muestra es
1
𝑌̅𝑛 = ∑𝑛𝑖=1 𝑌𝑖 (7.1)
𝑛
En (7.1) el subíndice 𝑛 del promedio enfatiza que el valor de este estadístico depende
del tamaño de muestra. Este estadístico es un estimador de la media poblacional 𝜇𝑦 . El
valor esperado del promedio muestral es
1 1 1
𝐸[𝑌̅𝑛 ] = 𝐸 [𝑛 ∑𝑛𝑖=1 𝑌𝑖 ] = 𝑛 ∑𝑛𝑖=1 𝐸[𝑌𝑖 ] = 𝑛 𝑛𝜇𝑦 = 𝜇𝑦
(7.2)
Nótese que este valor esperado no depende del número de observaciones. En el caso de
la varianza del promedio muestral,
1 1
𝑉𝑎𝑟[𝑌̅𝑛 ] = 𝑉𝑎𝑟 [𝑛 ∑𝑛𝑖=1 𝑌𝑖 ] = 𝑛2 𝑉𝑎𝑟[∑𝑛𝑖=1 𝑌𝑖 ]
1 1 1 𝜎𝑦2
= 𝑛2 [∑𝑛𝑖=1 𝑉𝑎𝑟[𝑌𝑖 ] + 2 ∑𝑖<𝑗 ∑ 𝐶𝑜𝑣(𝑌𝑖 , 𝑌𝑗 )] = 𝑛2 [∑𝑛𝑖=1 𝜎𝑦2 ] = 𝑛2 𝑛𝜎𝑦2 = (7.3)
𝑛
192
A estas alturas cabe preguntarnos ¿Qué ocurrirá con el valor de 𝑌̅𝑛 cuando 𝑛 tiende a
infinito?, ¿Cuál será la distribución de probabilidades de 𝑌̅𝑛 , y cómo se altera esta
distribución cuando el tamaño de la muestra aumenta?
Para tener una idea de la respuesta a estas preguntas, veamos un ejemplo sencillo.
Ejemplo 7.1: Supongamos que deseamos calcular el promedio de hijos naturales que
una mujer puede tener en su vida. Supongamos que 𝑌𝑖 representa el número de hijos que
una mujer puede tener en su vida. Como se trata de eventos discretos (nacimientos) que
ocurren en un intervalo continuo (en el rango de 15 a 49 años), estamos ante un proceso
de Poisson. Denotamos esta distribución como 𝑌𝑖 ~𝑃(𝜆) que indica que 𝑌𝑖 tiene una
distribución de Poisson con parámetro 𝜆, en donde por la teoría de probabilidades se
𝑒 −𝜆 𝜆𝑌𝑖
sabe que Pr(𝑌𝑖 ) = , 𝐸[𝑌𝑖 ] = 𝜆 y 𝑉𝑎𝑟[𝑌𝑖 ] = 𝜆. Asumamos 𝜆 = 1.
𝑌!
193
= 0.3678 × 0.3678 + 0.3678 × 0.3678 = 0.2706705
Similarmente, el caso de promedio igual a 1 ocurre si ambas tienen un hijo, o una mujer
tiene dos y la otra cero.
has sido calculadas en una computadora y son (0.050, 0.149, 0.224, 0.224, 0.168, … ), y
se presentan en el segundo panel de la figura 7.2. En el resto de la figura 7.1 se presenta
los gráficos de las distribuciones para los casos 𝑛 = 2, 3, 5, 20, 50 y 100.
194
Figura 7.1
Distribuciones del Promedio Muestral
195
Cuando los elementos de las sucesiones son aleatorios, como en el caso de 𝑌̅𝑛 , es
necesario definir su convergencia para lo cual existe más de una definición.1 Veamos
algunos de esos conceptos.
Convergencia en probabilidad
Sea {𝑆𝑛 } una sucesión de variables aleatorias decimos que la sucesión converge en
probabilidad a una constante finita 𝑐 si:
𝑝
En notación abreviada se escribe 𝑆𝑛 → 𝑐 o Plim𝑆𝑛 = 𝑐. Intuitivamente, la
convergencia en probabilidad dice que la sucesión estará muy próxima al límite
mencionado con alta probabilidad.
Convergencia medio-cuadrática
Existe otro tipo de convergencia que es fácil de comprobar. Sea {𝑆𝑛 } una sucesión de
variables aleatorias 𝑖. 𝑖. 𝑑., se dice que la sucesión converge medio-cuadráticamente al
límite fijo 𝑐 si
𝑚.𝑐
Se denota como 𝑆𝑛 → 𝑐.
1
Ver Rao (1973) para detalles más formales. Véase también Hamilton (1994), capítulo 7.
196
lim 𝐸[(𝑆𝑛 − 𝑐)2 ] = lim 𝑉𝑎𝑟(𝑆𝑛 ) + lim (𝐸[𝑆𝑛 ] − 𝑐)2 (7.5)
𝑛→∞ 𝑛→∞ 𝑛→∞
𝑚.𝑐 𝑝
si 𝑆𝑛 → 𝑐 , entonces 𝑆𝑛 → 𝑐 (7.6)
probabilidad.
𝑛−1
lim Pr(𝑧𝑛 > 𝜀) = 1 − lim Pr(𝑧𝑛 < 𝜀) = 1 − lim Pr(𝑧𝑛 = 0) = 1 − lim = 1 − 1 = 0.
𝑛→∞ 𝑛→∞ 𝑛→∞ 𝑛→∞ 𝑛
2
Estas son condiciones suficientes pero no necesarias.
197
Números, que dice que, bajo ciertas condiciones regulares, la media muestral converge
en probabilidad a 𝜇𝑦 .3 Formalmente, si 𝑌1 , 𝑌2 , … , 𝑌𝑛 es una colección de variables
aleatorias 𝑖. 𝑖. 𝑑. , si el 𝐸[𝑌𝑖 ] = 𝜇𝑦 , si 𝑉𝑎𝑟(𝑌𝑖 ) = 𝜎𝑦2 < ∞, entonces se cumplirá que
𝑝
𝑌̅𝑛 → 𝜇𝑦 o Plim𝑌̅𝑛 = 𝜇𝑦
𝑉𝑎𝑟(𝑌̅𝑛 )
Pr(|𝑌̅𝑛 − 𝜇| > 𝜀) ≤
𝜀2
𝜎 2
Dado que la varianza del promedio es 𝑉𝑎𝑟(𝑌̅𝑛 ) = 𝑛 , entonces tomando el límite a
El cumplimiento de esta ley puede verse en forma gráfica. En el ejemplo 7.1, es cierto
que 𝐸[𝑌𝑖 ] = 1 y 𝑉𝑎𝑟(𝑌𝑖 ) = 1 < ∞. Luego los gráficos muestran que conforme 𝑛
aumenta, 𝑌̅𝑛 toma valores cada vez más cercanos a 1, y que la varianza de la
distribución se reduce cada vez más. Esto significa que 𝑌̅𝑛 está convergiendo en
probabilidad al límite 1, cumpliéndose entonces la ley mencionada pues la probabilidad
de que 𝑌̅𝑛 sea distinto de 1 tiende a cero.
Ejemplo 7.3: Para la serie de medias muestrales, 𝑌̅𝑛 , dadas las ecuaciones (7.2) y (7.3)
𝑚.𝑐
se comprueba fácilmente que lim 𝑉𝑎𝑟(𝑌 ̅𝑛 →
̅ 𝑛 ) = 0, con lo cual se cumple que 𝑌 𝜇𝑦 .
𝑛→∞
𝑝
Luego, debido a (7.6) también será cierto que 𝑌̅𝑛 → 𝜇𝑦 .
Existen dos conceptos adicionales que vale la pena mencionar en esta sección:
consistencia e insesgadez asintótica. Ambos son definidos en el contexto de la
estimación de parámetros. Si 𝜃̂ es un estimador de un parámetro 𝜃, diremos que 𝜃̂ es un
3
Véase, Greene (2008) o Stock y Watson (2003) para los detalles formales.
198
𝑝
estimador consistente de 𝜃 si 𝜃̂ → 𝜃, que también se escribe como Plim 𝜃̂ = 𝜃. Será
inconsistente si Plim𝜃̂ = 𝜃 + 𝑏.4
Por otro lado, 𝜃̂ será asintóticamente insesgado si se cumple que lim 𝐸(𝜃
̂𝑛 ) = 𝜃. Este
𝑛→∞
último concepto no es una definición de convergencia, solo dice que el sesgo que
pudiera tener 𝜃̂ desaparece cuando 𝑛 crece indefinidamente. Además, se puede afirmar
que el hecho que un estimador sea consistente no implica que sea asintóticamente
insesgado, ni que insesgadez asintótica implique consistencia.
El término “Plim” puede ser usado como un operador matemático muy efectivo para
probar la consistencia (o la inconsistencia) de algunos estimadores. Aquí algunas de sus
propiedades.
𝑋 Plim 𝑋𝑛 𝑎
3. Plim ( 𝑌𝑛) = = 𝑏 si 𝑏 ≠ 0
𝑛 Plim 𝑌𝑛
4. Plim 𝑐 = 𝑐
5. Plim (𝑐𝑋𝑛 + 𝑑) = 𝑐𝑎 + 𝑑
4
Suele llamarse al término 𝑏 como “sesgo”, aunque no necesariamente coincide con la definición de
sesgo, la cual es 𝑠𝑒𝑠𝑔𝑜 = 𝐸(𝜃̂) − 𝜃.
199
Ejemplo 7.4: Consistencia de la varianza muestral
Dada una variable aleatoria 𝑌 con media 𝜇𝑦 y varianza 𝜎𝑌2 < ∞, y dada una muestra
aleatoria de 𝑛 observaciones, se define a la varianza muestral de 𝑌 como
∑𝑛𝑖=1(𝑌𝑖 − 𝑌̅)2
𝑆𝑌2 =
𝑛−1
En la última expresión se está aplicando 𝑃𝑙𝑖𝑚 a promedios simples, por lo que podemos
∑ 𝑋𝑖
aplicar la ley de los grandes números que dice que Plim = 𝐸[𝑋𝑖 ]. También es cierto
𝑛
2
que Plim(𝑌̅ 2 ) = (Plim(𝑌̅)) . Entonces,
200
Este estadístico es un estimador de la covarianza poblacional 𝜎𝑋𝑌 = 𝐸[(𝑋𝑖 −
𝐸[𝑋𝑖 ])(𝑌𝑖 − 𝐸[𝑌𝑖 ])] = 𝐸[𝑋𝑖 𝑌𝑖 ] − 𝐸[𝑋𝑖 ]𝐸[𝑌𝑖 ]. Vamos a probar que 𝑆𝑋𝑌 es un estimador
consistente de 𝜎𝑋𝑌 .
𝑛 ∑𝑛𝑖=1 𝑋𝑖 𝑌𝑖
=( )( − 𝑋̅𝑌̅)
𝑛−1 𝑛
Aplicando 𝑃𝑙𝑖𝑚,
𝑛 ∑𝑛𝑖=1 𝑋𝑖 𝑌𝑖
Plim 𝑆𝑋𝑌 = Plim ( ) . (Plim − Plim𝑋̅. Plim𝑌̅)
⏟ 𝑛−1 𝑛
=1
Otro resultado asintótico que se cumple para el promedio simple tiene que ver con los
cambios en su distribución de probabilidades cuando 𝑛 → ∞. Si sabemos que cada 𝑌𝑖
tiene la misma distribución con la misma media y varianza, ¿cuál será entonces la
distribución de probabilidades de 𝑌̅𝑛 ?
En ocasiones, no es difícil encontrar tal distribución exacta, por ejemplo si cada 𝑌𝑖 sigue
una distribución normal, entonces este promedio 𝑌̅𝑛 también se distribuirá exactamente
como una normal, debido a las propiedades de las distribuciones normales5. En el
ejemplo 7.1, encontramos con algo de trabajo la distribución exacta de 𝑌̅𝑛 cuando 𝑌𝑖
sigue una distribución de Poisson. Pero cuando 𝑌𝑖 sigue otra distribución poco
convencional, la suma o el promedio de estas variables tiene una distribución exacta en
general desconocida o difícil de obtener. El problema se agranda si no tenemos la
certeza de cuál es la distribución de cada 𝑌𝑖 .
5
Recordemos que la suma de dos o más variables aleatorias normales e independientes da como resultado
una variable que también se distribuye como normal. Lo mismo se cumple con las sumas ponderadas, y
las combinaciones lineales, y eso es lo que ocurre con los promedios simples.
201
La teoría asintótica nos da una ayuda respecto a este problema. Bajo el enfoque
asintótico, aunque no conozcamos la distribución exacta del promedio simple, podemos
usar un importante teorema para conocer hacia donde converge su distribución de
probabilidades. Pero antes, aclaremos a qué nos referimos con una convergencia en
distribución.
En la figura 7.1 tenemos una sucesión de gráficas que son justamente la sucesión de
distribuciones de probabilidad de los promedios simples 𝑌̅𝑛 . No es difícil imaginar que
esta sucesión converge a una distribución degenerada cuando 𝑛 → ∞. Sin embargo, si a
𝑌̅𝑛 le restamos la media 𝜇𝑦 y lo dividimos entre su desviación estándar 𝜎/√𝑛,
observaremos que las distribuciones convergen a una normal estándar, tal como se
muestra en la siguiente figura.
En la figura 7.2 tenemos las distribuciones estandarizadas del promedio muestral del
ejemplo 7.1. Para realizar los gráficos, se ha restado una unidad a los promedios, si se
les ha dividido entre 1/√𝑛. Acompañados a estos gráficos de barra se dibujan unas
líneas continuas que representan las típicas curvas de la función de densidad de la
normal estándar.6
6
Para trazar estas líneas de la normal estándar junto al gráfico de barras de las probabilidades en una
escala comparable, se ha dividido la densidad de la normal estándar 𝜙(𝑥) por √𝑛.
202
Figura 7.2
Distribuciones del Promedio Muestral Estandarizado
𝑑
𝑆𝑛 → 𝑆
203
Teorema del Límite Central: Sea {𝑌𝑛 } una secuencia de variables aleatorias 𝑖. 𝑖. 𝑑. con
𝐸[𝑌𝑖 ] = 𝜇𝑦 y 𝑉𝑎𝑟[𝑌𝑖 ] = 𝜎𝑦2 < ∞. Cuando 𝑛 → ∞ la sucesión √𝑛(𝑌̅𝑛 − 𝜇𝑦 )/𝜎𝑦
converge a una distribución normal estándar, o en símbolos,
√𝑛(𝑌̅𝑛 − 𝜇𝑦 ) 𝑑
→ 𝑁(0,1) (7.7)
𝜎𝑦
𝑑
√𝑛(𝑌̅𝑛 − 𝜇𝑦 ) → 𝑁(0, 𝜎𝑦2 ) (7.7’)
Aunque los resultados anteriores son muy importantes y útiles, cabe notar que en
econometría solemos trabajar con un número finito de observaciones. Cabría
preguntarnos, qué ocurrirá cuando el número de observaciones es grande pero finito
(como en las figuras 7.1 y 7.2 donde 𝑛 solo llega a 100). Ya sabemos que la distribución
del estadístico puede ser desconocida, pero si contamos con un número grande de
observaciones –en donde la palabra “grande” debe tomarse en un sentido amplio–,
podemos confiar que la distribución desconocida será muy parecida a una normal. Si
eso es así, para fines de inferencia estadística podemos tomar a la conocida distribución
normal para realizar pruebas de hipótesis, como una buena aproximación. Además,
podemos confiar que cualquier error derivado del uso de distribuciones de probabilidad
aproximadas será más pequeño mientras más grande sea el número de observaciones.
√𝑛(𝑌̅𝑛 − 𝜇𝑦 ) 𝑎
~ 𝑁(0,1)
𝜎𝑦
𝑎
𝑌̅𝑛 ~ 𝑁(𝜇𝑦 , 𝜎𝑦2 /𝑛).
204
La expresión 𝜎𝑦2 /𝑛 es la varianza asintótica del promedio muestral, denotada como
𝐴𝑉𝑎𝑟(𝑌̅𝑛 ).
205
La primera propiedad es la consistencia. Como se mencionó líneas arriba, un estimador
es consistente cuando la sucesión de estimadores generados al aumentar las
observaciones converge en probabilidad al parámetro que está estimando. Esta
propiedad puede cumplirse inclusive en estimadores que son sesgados pero cuyos
sesgos se diluyen conforme el número de observaciones crece al infinito.
̂=𝜷
Plim𝜷 (7.8)
Para probar (7.8) usaremos las propiedades del operador de la probabilidad límite que se
̂ = (𝑿´𝑿)−𝟏 𝑿′𝒚, sabemos que podemos
presentaron en la sección 7.3. A partir de 𝜷
expresar este vector como
̂ = 𝜷 + (𝑿´𝑿)−𝟏 𝑿′𝒖
𝜷
−𝟏
̂ = 𝜷 + ( 1 𝑿´𝑿)
𝜷
1
(𝑛 𝑿′𝒖).
𝑛
−𝟏
̂ = 𝜷 + (Plim 1 𝑿´𝑿)
Plim𝜷
1
(Plim 𝑛 𝑿′𝒖).
𝑛
Como las variables exógenas en 𝑿 son fijas, su probabilidad límite es lo mismo que el
límite, por lo que podemos escribir la expresión anterior como
−𝟏
1 1
̂ = 𝜷 + ( lim
Plim𝜷 𝑿´𝑿) (Plim 𝑿′𝒖)
𝑛→∞ 𝑛 𝑛
Analizando el segundo término del lado derecho de esta ecuación, no queda muy claro
1
cuál será el resultado de lim𝑛→∞ 𝑛 𝑿´𝑿. En primer lugar, la matriz 𝑿´𝑿 está compuesta
por sumatorias que podrían explotar pues su límite 𝑛 → ∞. El hecho de dividir entre n
puede atenuar esta explosión. Para ilustrar este punto, consideremos el caso bivariado en
donde ocurrirá que
206
∑𝑛𝑖=1 𝑋𝑖
1 1
𝑛
𝑿´𝑿 = 𝑛 𝑛
𝑛 ∑𝑖=1 𝑋𝑖 ∑𝑖=1 𝑋𝑖2
[ 𝑛 𝑛 ]
Nada garantiza a priori que los elementos de esta matriz no exploten al infinito cuando
𝑛 → ∞, aunque podría sonar razonable que en muchos casos los límites converjan a
valores fijos. Por ejemplo, la si la variable 𝑋 fuera la edad de las personas,
∑𝑛
𝑖=1 𝑋𝑖 ∑𝑛 2
𝑖=1 𝑋𝑖
lim𝑛→∞ es simplemente la edad promedio de la población, y lim𝑛→∞ es el
𝑛 𝑛
promedio de las edades al cuadrado. De ninguna manera se podría pensar que estos dos
primeros momentos exploten cuando 𝑛 tiende a infinito. Si el modelo tuviera tres
∑𝑛
𝑖=1 𝑋2𝑖 𝑋3𝑖
variables exógenas, las casillas contendrían a lim que es la sumatoria de
𝑛→∞ 𝑛
productos cruzados de estas variables, una suerte de covarianza entre ellas. Sería raro
pensar que estas covarianzas puedan explotar al aumentar la muestra.
Un caso donde explotarían estas casillas es aquél en donde la variable exógena fuera
∑𝑛
𝑖=1 𝑋𝑖 𝑛+1 ∑𝑛 2
𝑖=1 𝑋𝑖
igual a los números naturales 1, 2, . . . , 𝑛. En este caso, = y =
𝑛 2 𝑛
(𝑛+1)(2𝑛+1)
. Ambas sumatorias explotan cuando 𝑛 → ∞. En nuestra comprobación,
6
1
vamos a descartar aquellos casos que hacen que lim 𝑿´𝑿 tenga casillas que exploten,
𝑛→∞ 𝑛
1
lim 𝑿´𝑿 = 𝑸 (7.9)
𝑛→∞ 𝑛
̂,
𝑸 es una matriz definida positiva y finita. Continuando con la expresión de Plim 𝜷
usando a (7.9) nos queda
1
̂ = 𝜷 + 𝑸−𝟏 Plim ( 𝑿′𝒖)
Plim 𝜷
𝑛
1
Para completar la demostración, bastaría con probar que Plim (𝑛 𝑿′𝒖) = 0. Utilizando
1 𝑚.𝑐
lo aprendido en la sección 7.2, vemos que 𝑛 𝑿′𝒖 → 𝟎, pues
1 1
𝐸 [ 𝑿′𝒖] = 𝑿′𝐸[𝒖] = 𝟎
𝑛 𝑛
207
1 1 1 1 1 𝜎2 1
𝑉𝑎𝑟 [ 𝑿′𝒖] = 𝐸 [ 𝑿′𝒖𝒖′𝑿 ] = 𝑿′𝐸[𝒖𝒖′]𝑿 = ( 𝑿′𝑿)
𝑛 𝑛 𝑛 𝑛 𝑛 𝑛 𝑛
Tomando límites,
1 𝜎2 1
lim 𝑉𝑎𝑟 [ 𝑿′𝒖] = lim ( ) × lim ( 𝑿′𝑿) = 0 × 𝑸 = 𝟎
𝑛→∞ 𝑛 𝑛→∞ 𝑛 𝑛→∞ 𝑛
1
Luego, 𝑿′𝒖 converge medio-cuadráticamente a cero, lo que implica que
𝑛
1
̂ = 𝜷.
Plim (𝑛 𝑿′ 𝒖) = 0, y por lo tanto, Plim 𝜷
Una forma gráfica de observar esta propiedad se presenta en la figura 7.3. Mediante
números aleatorios se generan una muestra de dos variables, 𝑋 y 𝑌, con 40 datos en
donde la relación entre estas variables es 𝑌𝑡 = 200 + 0.6𝑋𝑡 + 𝑢𝑡 , donde los valores de
𝑢𝑡 son números aleatorios distribuidos normalmente con media cero y con desviación
estándar igual a 30. En la figura 7.3 se presenta la estimación sucesiva de la pendiente
por 𝑀𝐶𝑂 agregando observaciones hasta llegar a las 40. Al aumentar las observaciones
40 el estimador 𝑀𝐶𝑂 se aproxima cada vez más a su valor poblacional 0.6, con una
varianza que tiende a cero.
̂ de 𝑀𝐶𝑂
7.6.2. Normalidad asintótica del estimador 𝜷
Otra propiedad asintótica importante de los estimadores 𝑀𝐶𝑂 tiene que ver con la
distribución asintótica de sus estimadores. Cuando habíamos asumido que cada término
de perturbación se distribuye como una normal, el resultado inmediato era que los
estimadores 𝑀𝐶𝑂 también tienen exactamente una distribución normal. Pero si los
términos de perturbación no se distribuyen normalmente, entonces la distribución exacta
̂ es en general desconocida. Esto puede ser una seria dificultad para realizar las
de 𝜷
pruebas de hipótesis del capítulo 5, pues todas ellas dependen del supuesto de
normalidad de los errores.
208
Figura 7.3
Estimación recursiva del y convergencia del estimador
Nota: Las líneas punteadas son el intervalo de confianza al 95% (aprox. 2 desv. estándar)
𝑑
̂ − 𝜷) →
√𝑛(𝜷 𝑁(𝟎, 𝜎 2 𝑸−1 ) (7.10)
Una variante del teorema del límite central mencionado líneas arriba se aplica en este
caso porque los estimadores de mínimos cuadrados ordinarios son combinaciones
lineales o promedios ponderados de las observaciones de la variable aleatoria 𝑌. Este
teorema se cumplirá siempre y cuando cada 𝑌𝑖 tenga media y varianza finita, siendo
además cada 𝑌𝑖 independiente e idénticamente distribuida (lo mismo ocurrirá para los
términos de perturbación 𝑢𝑖 ).7
Luego diremos que si 𝑢𝑖 ~𝑖. 𝑖. 𝑑. con media cero y varianza finita y los regresores no son
estocásticos, se cumplirá que para muestras grandes y finitas
𝑎 𝜎 2
̂~
𝜷 𝑁 (𝜷, 𝑛 𝑸−1 ) (7.11)
7
La demostración del resultado (7.10) puede encontrarse en el libro de Greene (2012), capítulo 4.
209
2
̂ ) = (𝜎 ) 𝑸−1 se estima con 𝑠 2 (𝑿′ 𝑿)−1
En la práctica, la varianza asintótica 𝐴𝑉𝑎𝑟(𝜷 𝑛
𝒆𝒆 ′
̂ es la misma que la
donde 𝑠 2 = 𝑛−𝑘. Para estos estimadores, la varianza asintótica de 𝜷
̂ en muestras finitas.
varianza de 𝜷
Este resultado es de suma importancia en econometría pues nos revela que, pese a que
los términos de perturbación puedan tener o seguir cualquier distribución de
probabilidades, los estimadores 𝑀𝐶𝑂 tendrán distribuciones aproximadamente normales
cuando la muestra es grande. Así, el supuesto de normalidad de los errores –el cual es
un supuesto bastante fuerte- se vuelve innecesario cuando se trate de realizar pruebas de
hipótesis sobre las estimaciones.
7.6.3. Consistencia de 𝑠 2
Plim 𝑠 2 = 𝜎 2 .
𝛽̂𝑘 − 𝑎
𝑡=
√𝑠 2 (𝑿′ 𝑿)−1
𝑘𝑘
8
En esta sección seguimos a Greene (2008).
210
En la definición, (𝑿′ 𝑿)−1
𝑘𝑘 es el k-ésimo elemento de la diagonal principal de la matriz
(𝑿′ 𝑿)−1 . Multiplicando y dividiendo por √𝑛, y tomando en cuenta que para cualquier
−1
matriz no singular 𝑨 y cualquier escalar 𝜆 ≠ 0 se cumple que ((1/ 𝜆)𝑨) = 𝜆𝑨−1,
entonces,
√𝑛(𝛽̂𝑘 − 𝑎) √𝑛(𝛽̂𝑘 − 𝑎)
𝑡= =
√𝑛√𝑠 2 (𝑿′ 𝑿)−1
𝑘𝑘 −1
√𝑠 2 (1 𝑿′ 𝑿)
𝑛 𝑘𝑘
1 1
Plim ( ) = Plim ( )
√𝑠 2 ((1/𝑛)𝑿′ 𝑿)−1
𝑘𝑘
−1
√𝜎 2 𝑄𝑘𝑘
1 𝑑 1
𝑡= . √𝑛(𝛽̂𝑘 − 𝛽𝑘 ) → −1 )
𝑁(0, 𝜎 2 𝑄𝑘𝑘
√𝑠 2 ((1/𝑛)𝑿′ 𝑿)−1
𝑘𝑘
−1
√𝜎 2 𝑄𝑘𝑘
𝑑
𝑡→ 𝑁(0,1).
9
Si el lector no está muy convencido de esta afirmación, note que en términos matriciales el k-ésimo
parámetro beta se obtiene premultiplicando al vector 𝜷 por un vector fila llamado 𝑹 de ceros y un solo 1
en la k-ésima casilla (tal como se hizo en la sección 5.2 del capítulo 5). Luego, si (7.9) es cierto, también
𝑑
será cierto que √𝑛(𝑹𝜷 ̂ − 𝑹𝜷) → 𝑁(𝟎, 𝜎 2 𝑹𝑸−𝟏 𝑹′ ), en donde 𝑹𝜷 ̂ = 𝛽̂𝑘 y 𝑹𝑸−𝟏 𝑹′ = 𝑸−1 𝑘𝑘 . Con esta
notación, se cumple que lim𝑛→∞ 𝑹((1/𝑛)𝑿 𝑿) 𝑹 = lim ((1/𝑛)𝑿 𝑿)−1
′ −1 ′ ′ −𝟏 ′
𝑘 = 𝑹𝑸 𝑹 = 𝑸𝑘𝑘 .
−1
𝑛→∞
𝑑 𝑑
10
Teorema de Cramer: Si 𝑋𝑛 → 𝑋 y Plim(𝑌𝑛 ) = 𝑏, entonces 𝑋𝑛 𝑌𝑛 → 𝑏𝑋.
211
Con ello se demuestra que el estadístico 𝑡 bajo la hipótesis nula converge en
distribución a una normal estándar.
Eso quiere decir que si el tamaño de la muestra es muy grande y no tenemos la certeza
que los términos de perturbación son normales, podemos usar como valores críticos a
aquellos de la distribución normal estándar, cuando tratamos de probar hipótesis o
cuando construimos intervalos de confianza.
𝑑
𝑞𝐹 → 𝜒 2 (𝑞)
212
Ejercicios
Plim 𝑦𝑛 ?
𝑑
7.2 Supongamos que la variable 𝑧𝑛 → 𝑧 donde 𝑧 es una normal estándar, y sea 𝑦𝑛 otra
variable aleatoria tal que Plim 𝑦𝑛 = 𝑐. Entonces, ¿a qué converge 𝑦𝑛 𝑧𝑛 ?
7.3 Supongamos que queremos estimar un modelo bivariado 𝑌𝑖 = 𝛽1 + 𝛽2 𝑋𝑖 + 𝑢𝑖 ,
donde 𝑢𝑖 tiene una distribución desconocida pero centrada en cero. ¿Qué
inconvenientes tendríamos que enfrentar si intentamos hacer inferencia sobre los
parámetros 𝛽̂1 y 𝛽̂2 estimados por 𝑀𝐶𝑂 si la muestra es pequeña? ¿Se mantendrá el
problema si la muestra es grande?
7.4 En su tesis, usted ha estimado una función de producción bajo los siguientes
1 1
supuestos: Plim (𝑛 𝑿′𝒖) = 𝟎 y Plim (𝑛 𝑿′𝑿) = 𝑸 es una matriz finita, fija y no
momentos son:
2 2 −2𝑛+2
̂ ] = (𝑛 −1) 𝜷
𝐸[𝜷 ̂ 2 ] = (𝑛
𝐸[𝜷 ) 𝜷2
𝑛2 +1 𝑛2
2 2 +3𝑛+1
̃ ] = (𝑛 +1) 𝜷
𝐸[𝜷 ̂ 2 ] = (𝑛
𝐸[𝜷 ) 𝜷2
𝑛2 −1 𝑛2
213
donde 𝑛 es el tamaño de la muestra utilizada para la estimación. ¿Son estos
estimadores asintóticamente insesgados? ¿Son consistentes? ¿Cuál de los dos es
asintóticamente más eficiente?
𝑌
7.6 Sea 𝑊𝑛 = 𝑍 + 𝑛, donde la 𝑍~𝑁(0,1) y 𝑌 es una variable aleatoria independiente de
214
Capítulo 8
Estimación del MRLC por Máxima Verosimilitud
Este método parte del hecho que diferentes poblaciones generan diferentes muestras.
Dado que contamos con una muestra cabe preguntarse, ¿de qué población proviene esta
muestra? O siendo un poco más preciso, ¿qué distribución de probabilidades es la que
con mayor probabilidad generó estos datos y cuáles son sus parámetros?
1
Pudo ser cualquier otra distribución conocida.
2
Solo se presentan tres alternativas aunque en realidad existen infinitas posibilidades.
215
de la distribución central3. Observando los demás valores, entre estas tres alternativas la
distribución representada por la línea continua parece ser más probable de ser la que
generó los datos observados, que las otras dos distribuciones normales.
Figura 8.1
Datos observados y distribuciones alternativas
𝑌3 𝑌6 𝑌2 𝑌1 𝑌4 𝑌5 𝑌7
Siendo un poco más formales4, sea 𝑌1 , 𝑌2 , … , 𝑌𝑛 una muestra aleatoria simple, con lo
cual las 𝑌𝑖 son variables aleatorias 𝑖. 𝑖. 𝑑. con función de densidad 𝑓(𝑌𝑖 ; 𝜽) donde
𝜽′ = [𝜃1 , 𝜃2 , … , 𝜃𝑘 ] es un vector de parámetros desconocidos. Bajo el supuesto de
independencia, la función de densidad conjunta es
3
La forma de medir qué tan probable es un resultado según alguna distribución es mediante la altura
desde el valor 𝑋3 hasta la curva de densidad. En inglés esta altura se conoce como “likelihood” que se
traduce como verosimilitud, y que debe distinguirse del término “probability” que se refiere a una
probabilidad. En variables aleatorias continuas, “likelihood” y “probability” son cosas distintas.
4
No pretendemos desarrollar aquí toda la teoría del método de máxima verosimilitud sino solamente
hacer una breve presentación. El lector debe estar familiarizado con el método mediante cursos previos de
estadística.
216
una forma alternativa. En lugar de indicar la probabilidad de observar los datos
𝑌1 , 𝑌2 , … , 𝑌𝑛 dada una distribución con parámetros 𝜽, ahora se trata de entender que tan
probable o verosímil es una distribución con parámetros 𝜽 dados los datos 𝑌1 , 𝑌2 , … , 𝑌𝑛 .
Esta es básicamente la idea mostrada en la figura 8.1. En términos matemáticos, la
expresión (8.1) es entendida como una función de los parámetros 𝜽 dadas las
observaciones de 𝑌, tomando en ese caso el nombre de función de verosimilitud 5
̂ 𝑀𝑉 que
El método de máxima verosimilitud consiste en encontrar un vector de valores 𝜽
maximicen la expresión (8.2). Usualmente se toma el logaritmo natural a la función de
verosimilitud (8.2) pues en muchas ocasiones esto facilita el proceso de optimización.
El logaritmo de la función de verosimilitud es
𝜕ln𝐿(𝜽; 𝑌1 , 𝑌2 , … , 𝑌𝑛 )
= 𝜽
⏟ (8.4)
𝜕𝜽 𝑘×1
5
Se puede hacer la definición de función de verosimilitud para muestras aleatorias no simples, en cuyo
caso la independencia de las variables podría no cumplirse. Así, la función de verosimilitud sería
simplemente la probabilidad conjunta.
6
Estos cálculos se hacen mediante iteraciones hechas en computadora. Algunos métodos de optimización
son, por ejemplo, el de Newton-Raphson, y el Algoritmo del Simplex.
217
solamente cuando 𝑛 → ∞, otras veces para cualquier tamaño de muestra), definida esta
cota como el límite mínimo que la varianza de cualquier estimador podría alcanzar.
̂ 𝑀𝑉 = 𝜽
Plim𝜽
𝑑
̂ 𝑀𝑉 − 𝜽) ⟶ 𝑁(𝟎, 𝑛𝑰−1 (𝜽)),
√𝑛(𝜽
𝜕 2 𝑙𝑛𝐿
𝑰(𝜽) = −𝐸 [ ]
𝜕𝜽𝜕𝜽′
̂ 𝑀𝑉 es
También, para 𝑛 grande se cumple que la distribución asintótica de 𝜽
𝑎
̂ 𝑀𝑉 ~
𝜽 𝑁(𝜽, 𝑰−1 (𝜽)).
218
El lagrangiano de este problema es
𝜕ℒ 𝜕ln𝐿(𝜽) 𝜕𝐶(𝜽)
= −𝝀 =𝟎
𝜕𝜽 𝜕𝜽 𝜕𝜽
𝜕ℒ
= 𝒓 − 𝐶(𝜽) = 𝟎
𝜕𝝀
𝑛
𝑒 −𝑛𝜃 𝜃 ∑ 𝑌𝑖
𝑓(𝑌1 , 𝑌2 , … , 𝑌𝑛 ; 𝜃) = ∏ 𝑓(𝑌𝑖 ; 𝜃) = 𝑛 = 𝐿(𝜃)
∏𝑖=1 𝑌𝑖 !
𝑖=1
𝜕 ln L(𝜃) ∑ 𝑌𝑖
= −𝑛 + = 0.
𝜕𝜃 𝜃
∑𝑌
Despejando 𝜃 se obtiene el estimado de máxima verosimilitud 𝜃̂𝑀𝑉 = 𝑛 𝑖 = 𝑌̅. La
𝜕2 ln 𝐿(𝜃) ∑ 𝑌𝑖
segunda derivada es =− . Entonces la matriz de información (que en este
𝜕𝜃2 𝜃2
𝜕 2 𝑙𝑛 𝐿(𝜃) ∑ 𝑌𝑖 1 1 𝑛𝜃 𝑛
𝐼(𝜃) = −𝐸 [ ] = 𝐸 [ ] = ∑ 𝐸[𝑌𝑖 ] = ∑ 𝜃 = = .
𝜕𝜃 2 𝜃2 𝜃2 𝜃2 𝜃2 𝜃
219
Ejemplo 8.2: Dada una muestra aleatoria simple 𝑌1 , 𝑌2 , … , 𝑌𝑛 , asumiendo que la
distribución subyacente es la normal, 𝑁(𝜇, 𝜎 2 ), la densidad de 𝑌𝑖 es 𝑓(𝑌𝑖 ) =
2
(𝑌𝑖 −𝜇)
1 −
√2𝜋𝜎2
𝑒 2𝜎 2
, y la estimación por máxima verosimilitud de los parámetros se obtiene
𝑛 𝑛 𝑛
2) 2)
𝑒𝑥𝑝(−(𝑌𝑖 − 𝜇)2 /2𝜎 2 ) 1 2
𝐿(𝜇, 𝜎 = ∏ 𝑓(𝑌𝑖 ; 𝜇, 𝜎 =∏ =( ) 𝑒𝑥𝑝(−(𝑌𝑖 − 𝜇)2 /2𝜎 2 )
√2𝜋𝜎 2 2𝜋𝜎 2
𝑖=1 𝑖=1
𝑛 𝑛 1
ln 𝐿(𝜇, 𝜎 2 ) = − ln(2𝜋) − ln(𝜎 2 ) − 2 ∑(𝑌𝑖 − 𝜇)2
2 2 2𝜎
∂ln L(𝜇,𝜎2 ) 1
= 𝜎2 ∑(𝑌𝑖 − 𝜇) = 0 (8.5)
𝜕𝜇
∂ln L(𝜇,𝜎2 ) 𝑛 1
= − 2𝜎2 + 2(𝜎2 )2 ∑(𝑌𝑖 − 𝜇)2 = 0 (8.6)
𝜕𝜎2
∑ 𝑌𝑖
De (8.5), es directo que 𝜇̂ 𝑀𝑉 = 𝑛
. Reemplazando en (8.6) y despejando se obtiene que
2
el otro estimador es 𝜎̂𝑀𝑉 = ∑(𝑌𝑖 − 𝑌̅)2 /𝑛. Se puede comprobar que 𝜇̂ es insesgado, pero
2
𝜎̂𝑀𝑉 sí es sesgado, aunque es asintóticamente insesgado.7
8.2 Estimación del modelo de regresión lineal clásico de dos variables por máxima
verosimilitud
7
Se dejan al lector estas comprobaciones.
220
Debido al supuesto 5 del capítulo 3, 𝑌𝑖 |𝑋𝑖 ~𝑁(𝛽1 + 𝛽2 𝑋𝑖 , 𝜎 2 ), siendo la densidad
2
(𝑌𝑖 −𝛽1 −𝛽2 𝑋𝑖 )
1 −
𝑓(𝑌𝑖 |𝑋𝑖 ) = √2𝜋𝜎2 𝑒 2𝜎 2
.
𝑛 𝑛 𝑛
1 2 (𝑌 −𝛽 −𝛽 𝑋 )2 1 2 −∑(𝑌𝑖−𝛽1 −𝛽2 𝑋𝑖 )
2
2) − 𝑖 1 22 𝑖
𝐿(𝛽1 , 𝛽2 , 𝜎 = ( ) ∏𝑒 2𝜎 =( ) 𝑒 2𝜎 2
2𝜋𝜎 2 2𝜋𝜎 2
𝑖=1
𝑛 𝑛 1
ln 𝐿(𝛽1 , 𝛽2 , 𝜎 2 ) = − ln(2𝜋) − ln(𝜎 2 ) − 2 ∑(𝑌𝑖 − 𝛽1 − 𝛽2 𝑋𝑖 )2
2 2 2𝜎
1
De (8.7) y (8.8), descontando al término > 0, estas ecuaciones se resuelven
𝜎2
∑ 𝑋 𝑌 −𝑛𝑋̅ 𝑌̅
𝛽̂1 = 𝑌̅ − 𝛽̂2 𝑋̅ y 𝛽̂2 = ∑ 𝑋𝑖 2𝑖−𝑛𝑋̅ 2
𝑖
2
2
∑(𝑌𝑖 − 𝛽̂ 1 − 𝛽̂ 2 𝑋𝑖 ) 𝑆𝐶𝑅
𝜎̂ = =
𝑛 𝑛
221
Generalizamos lo visto en la sección anterior considerando el modelo de regresión
lineal,
𝒚 = 𝑿𝜷 + 𝒖 𝒖|𝑿~𝑁(𝟎, 𝜎2 𝑰).
1 1
− 2 (𝒚−𝑿𝜷)′ (𝒚−𝑿𝜷)
𝑓(𝒚|𝑿) = 𝑛 𝑒 2𝜎 = 𝐿(𝜷, 𝜎2 ) (8.10)
(2𝜋𝜎2 ) 2
𝑛 𝑛 1
ln 𝐿(𝜷, 𝜎2 ) = − 2 ln(2𝜋) − 2 ln(𝜎2 ) − 2𝜎2 (𝒚 − 𝑿𝜷)′ (𝒚 − 𝑿𝜷) (8.11)
𝜕 ln 𝐿 1
= − 2𝜎2 (−2𝑿′𝒚 + 2𝑿′𝑿𝜷) = 𝟎 (8.12)
𝜕𝜷
𝜕 ln 𝐿 𝑛 1
= − 2𝜎2 + 2𝜎4 (𝒚 − 𝑿𝜷)′ (𝒚 − 𝑿𝜷) = 𝟎 (8.13)
𝜕𝜎2
′
̂ 𝑴𝑽 ) (𝒚 − 𝑿𝜷
(𝒚 − 𝑿𝜷 ̂ 𝑴𝑽 ) 𝒆′ 𝒆
σ2MV =
̂ = (8.15)
𝑛 𝑛
2 ]
𝒆′ 𝒆 1 (𝑛 − 𝑘)𝜎 2
𝐸[𝜎̂𝑀𝑉 = 𝐸 [ ] = 𝐸[𝒆′ 𝒆] = ≠ 𝜎2
𝑛 𝑛 𝑛
222
𝑛−𝑘
lim 𝐸[𝜎̂ 2𝑀𝑉 ] = lim ( ) 𝜎2 = 𝜎2
𝑛→∞ 𝑛→∞ 𝑛
Estos dos estimadores que hemos encontrado cumplen las propiedades típicas de los
estimadores máximo-verosímiles. En concreto nos interesa resaltar que se cumplirá que
son consistentes, y también son asintóticamente normales.
̂ 𝑀𝑉 ) = 𝜷
Plim(𝜷 Plim(𝜎̂ 2𝑀𝑉 ) = 𝜎2
̂
𝜷 𝑎 𝜷 −1
[ 𝑀𝑉 2
2 ] ~ 𝑁 ([ 2 ] , 𝑰 (𝜷, 𝜎 )).
̂ 𝑀𝑉
𝜎 𝜎
̂ 𝑀𝑉 y 𝜎̂𝑀𝑉
Para calcular la matriz de varianzas y covarianzas asintótica de 𝜷 2
debemos
hacer el cálculo de la matriz de información, la cual requiere el cálculo de las segundas
derivadas del logaritmo de la verosimilitud. Derivamos nuevamente a (8.12) y (8.13) y
tenemos8
𝜕 2 ln 𝐿 1
= − 2 𝑿′ 𝑿
𝜕𝜷𝜕𝜷′ 𝜎
𝜕 2 ln 𝐿 1 1 1
= (−2𝑿′ 𝒚 + 2𝑿′ 𝑿𝜷) = − 4 𝑿′ (𝒚 − 𝑿𝜷) = − 4 𝑿′ 𝒖
𝜕𝜷𝜕𝜎 2 2(𝜎 )
2 2 𝜎 𝜎
𝜕 2 ln 𝐿 𝑛 1
= 4 − 6 𝒖′𝒖
𝜕(𝜎 )2 2 2𝜎 𝜎
𝜕 2 𝑙𝑛 𝐿 1
−𝐸 [ ] = 𝑿′𝑿
𝜕𝜷𝜕𝜷′ 𝜎2
𝜕 2 ln 𝐿 1
−𝐸 [ ] = 4 𝑿′ 𝐸[𝒖] = 𝟎
𝜕𝜷𝜕𝜎 2 𝜎
𝜕 2 ln 𝐿 𝑛 1 𝑛 𝑛 𝑛 𝑛 𝑛
−𝐸 [ ] = − 4 + 6 𝐸[𝒖′ 𝒖] = − 4 + 6 𝜎2 = − 4 + 4 = 4
𝜕𝜎 2 2𝜎 𝜎 2𝜎 𝜎 2𝜎 𝜎 2𝜎
8
Nótese que se toma derivada respecto a 𝜎 2 y no respecto a 𝜎.
223
𝜕 2 ln 𝐿 𝜕 2 ln 𝐿 1
−𝐸 [ ′
] −𝐸 [ ] 𝑿′𝑿 𝟎
𝜕𝜷𝜕𝜷 𝜕𝜷𝜕 𝜎 2
2
𝑰(𝜷, 𝜎2 ) = 2 2 = [𝜎 𝑛 ]
𝜕 ln 𝐿 𝜕 ln 𝐿
−𝐸 [ 2 ] −𝐸 [ ] 𝟎′
[ 𝜕 𝜎 𝜕𝜷 𝜕 𝜎2 ] 2𝜎4
−1
𝜎2 ( 𝑿 ′ 𝑿 ) 𝟎
2)
𝐴𝑉𝑎𝑟(𝜷, 𝜎 =[ 2𝜎4 ] (8.16)
𝟎′ 𝑛
̃)
𝐿(𝜽
𝛾= 0≤𝛾≤1
̂)
𝐿(𝜽
̃) − ln 𝐿(𝜽
−2 ln 𝛾 = −2[ln 𝐿(𝜽 ̂ )]
224
Ejemplo 8.3: Restricciones lineales en el modelo de regresión lineal. Supongamos que
queremos probar las hipótesis lineales del tipo 𝐻0 : 𝑹𝜷 = 𝒓 del capítulo 5, usando el test
de Razón de Verosimilitud. Para este test se necesitan los estimadores restringidos e
irrestrictos del vector 𝜷. Las expresiones (8.14) y (8.15) nos entrega los estimadores sin
restricciones. Para obtener los estimadores de máxima verosimilitud sujetos a 𝑹𝜷 = 𝒓
se tendría que maximizar (8.11) sujeto a esta restricción. El lagrangiano de esta
maximización es
𝑛 𝑛 1
ℒ = − ln(2𝜋) − ln(𝜎2 ) − (𝒚 − 𝑿𝜷)′ (𝒚 − 𝑿𝜷) + 𝝀′(𝒓 − 𝑹𝜷)
2 2 2𝜎2
Inspeccionando al lagrangiano, podemos notar que maximizar esta función con respecto
1
a 𝜷 sujeta a 𝑹𝜷 = 𝒓 es lo mismo que minimizar 2𝜎 2
(𝒚 − 𝑿𝜷)′ (𝒚 − 𝑿𝜷) respecto a 𝜷
sujeta a 𝑹𝜷 = 𝒓. Matemáticamente, se obtendrán los mismos estimadores restringidos
de mínimos cuadrados ordinarios que se calcularon en la expresión (5.17) del capítulo 5.
̃=𝜷
𝜷 ̂ + (𝑿′ 𝑿)−1 𝑹′ (𝑹(𝑿′ 𝑿)−1 𝑹′ )−1 (𝒓 − 𝑹𝜷
̂)
̂ y 𝜎̂ 2 en (8.11) se obtiene
Reemplazando 𝜷
𝑛 𝑛 1
̂ , 𝜎̂ 2 ) = − ln(2𝜋) − ln(𝜎̂ 2 ) −
ln 𝐿(𝜷 2
̂ )′ (𝒚 − 𝑿𝜷
(𝒚 − 𝑿𝜷 ̂)
2 2 ̂
2𝜎
𝑛 𝑛 𝒆′ 𝒆 𝟏 𝒏 𝑛 𝒆′ 𝒆 𝑛
= − ln(2𝜋) − 𝒍𝒏 ( ) − ′ = − ln(2𝜋) − ln ( ) − .
2 2 𝒏 𝒆 𝒆 𝟐 2 𝑛 2
𝟐 𝒏
̃, 𝜎̃ 2 ) y simplificada es
Análogamente, el logaritmo de la verosimilitud evaluada en (𝜷
𝑛 𝑛 𝒆̃ ′ 𝒆̃ 𝑛
̃, 𝜎̃ 2 ) = − ln(2𝜋) − ln (
ln 𝐿(𝜷 )−
2 2 𝑛 2
225
Luego, el estadístico del test de razón de verosimilitud es
𝒆̃′ 𝒆̃ 𝒆′ 𝒆
̃ , 𝜎̃ 2 ) − ln 𝐿(𝜷
−2 ln 𝛾 = −2[ln 𝐿(𝜷 ̂ , 𝜎̂ 2 )] = 𝑛 [ln ( ) − ln ( )]
𝑛 𝑛
𝒆̃ ′ 𝒆̃ 𝒆′ 𝒆
−2 ln 𝛾 = −2[ln 𝐿(𝜷 ̂ , 𝜎̂ 2 )] = 𝑛 [ln (
̃, 𝜎̃ 2 ) − ln 𝐿(𝜷 ) − ln ( )]
𝑛 𝒏
𝜕𝐶 ′ 𝜕𝐶
̂ ) − 𝒓) ≈ (
𝑉𝑎𝑟(𝐶(𝜽 ̂ ). ( )
) . 𝑉𝑎𝑟(𝜽
𝜕𝜽 𝜕𝜽
𝜕𝐶 ′
(𝜕𝜽) es la matriz jacobiana 𝑞 × 𝑘 de 𝐶(. ): ℝ𝑘 → ℝ𝑞 , y donde las derivadas son
̂ . Luego, si 𝑊 > 𝜒1−𝛼
evaluadas en 𝜽 2
(𝑞) se rechaza la hipótesis nula con α% de
226
2
significancia, en donde 𝜒1−𝛼 (𝑞) es el percentil 1 − 𝛼 de la distribución Chi-cuadrado
con 𝑞 grados de libertad.
Nótese que (8.19) es muy parecido al estadístico F de la ecuación (5.8) del capítulo 5.
Evidentemente (8.19) solo requiere el cómputo de los estimadores sin restricciones, al
igual que el estadístico 𝐹. Adicionalmente, si 𝑛 es muy grande será cierto que
1
𝑊 ≈ 𝐹.
𝑞
Para fines del modelo de regresión lineal clásico resulta conveniente transformar a
(8.19) en términos de las sumas de cuadrados de los residuos del modelo restringido y
del irrestricto. Como se comprobó en la expresión (5.21) del capítulo 5, el numerador de
(8.19) es igual a la diferencia de las sumas de cuadrados residuales restricta e irrestricta.
Luego, (8.19) es igual a
𝒆̃′ 𝒆̃ − 𝒆′ 𝒆 𝑛(𝒆̃′ 𝒆̃ − 𝒆′ 𝒆)
𝑊= = (8.20)
𝒆′ 𝒆/𝑛 𝒆′ 𝒆
𝜕𝐶(𝜷)
9
Aplicando el método delta para la función 𝐶(𝜷) = 𝑹𝜷, resulta que = 𝑹′, y se sabe que 𝑉𝑎𝑟(𝜷) =
𝜕𝜷
𝜎 2 (𝑿′𝑿)−1 . Luego, 𝑉𝑎𝑟(𝑹𝜷̂ − 𝒓 ) = 𝑹𝑉𝑎𝑟(𝜷 ̂ )𝑹′ = 𝜎 2 𝑹(𝑿′𝑿)−1 𝑹′ .
10
𝑉𝑎𝑟(𝑹𝜷 ̂ − 𝒓 ) = 𝑉𝑎𝑟(𝑹𝜷 ̂ ) = 𝐸[(𝑹𝜷 ̂ − 𝐸[𝑹𝜷 ̂ ])(𝑹𝜷
̂ − 𝐸[𝑹𝜷 ̂ ])′] = 𝐸[𝑹(𝜷 ̂ − 𝜷)(𝜷 ̂ − 𝜷)′𝑹′] =
𝑹𝑉𝑎𝑟(𝜷 ̂ )𝑹′ .
227
A diferencia de la prueba de Wald, este test se basa en los estimadores restringidos de
̃. En ocasiones puede ser más fácil calcular estos estimadores
máxima verosimilitud, 𝜽
restringidos que los irrestrictos, por lo que el test 𝐿𝑀 podría ser más conveniente.
Intuitivamente, el test se construye sobre las condiciones de primer orden del problema
̂)
𝜕 ln 𝐿(𝜽
de optimización irrestricta. De (8.4), sabemos que = 𝟎, pero si la hipótesis
𝜕𝜽
El estadístico 𝐿𝑀 es
̃) ′ ̃
𝐿𝑀 = (
𝜕 ln 𝐿(𝜽
̃)]−1 (𝜕 ln 𝐿(𝜽))
) [𝑰(𝜽 (8.21)
𝜕𝜽 𝜕𝜽
𝜕 ln 𝐿 1 1
̃ , 𝜎̃ 2 ) =
(𝜷 ̃) =
𝑿′(𝒚 − 𝑿𝜷 𝑿′𝒆̃
𝜕𝜷 𝜎̃ 2 𝜎̃ 2
𝜕 ln 𝐿 𝑛 𝒆̃′𝒆̃ 𝑛 𝑛𝜎̃ 2
̃ , 𝜎̃ 2 ) = −
(𝜷 + = − + =0
𝜕𝜎 2 2𝜎̃ 2 2𝜎̃ 4 2𝜎̃ 2 2𝜎̃ 4
−1
1 𝜎̃ 2 (𝑿′ 𝑿) 𝟎 1
𝐿𝑀 = [ 2 𝒆̃′𝑿 0] [ 4 ] [𝜎 𝑿′𝒆̃]
2𝜎̃ ̃2
𝜎̃ 𝟎′
𝑛 0
̃−𝜷
Recordando de la sección 5.4 del capítulo 5 que 𝒆̃ = 𝒆 − 𝑿(𝜷 ̂ ), multiplicando esta
expresión por 𝑴 y dado que 𝑴𝑿 = 𝟎 y que 𝑿′ 𝒆 = 𝟎,
̃−𝜷
𝑴𝒆̃ = 𝑴𝒆 − 𝑴𝑿(𝜷 ̂ ) = 𝑴𝒆 = (𝑰 − 𝑿(𝑿′ 𝑿)−1 𝑿′ )𝒆 = 𝒆.
𝑛[𝒆̃′ 𝒆̃ − 𝒆′ 𝒆]
𝐿𝑀 = (8.22)
𝒆̃′ 𝒆̃
Dado que 𝑴𝒆̃ = 𝒆, el vector 𝒆 es el residuo de una regresión lineal auxiliar de 𝒆̃ contra
𝑿. Luego, tomando a 𝒆̃′ 𝒆̃ como la suma de cuadrados totales y a 𝒆′ 𝒆 como la
sumatoria de cuadrados de los residuos de esta regresión auxiliar, resulta que (8.22) se
puede expresar como,
𝒆′ 𝒆 2
𝐿𝑀 = 𝑛 (1 − ) = 𝑛𝑅𝑎𝑢𝑥
𝒆̃′ 𝒆̃
2
Aquí, 𝑅𝑎𝑢𝑥 ̂ + 𝐞.
es el R-cuadrado resultante de una regresión del tipo 𝐞̃ = 𝐗𝛅
Comparando los tres tests mencionados, en general las expresiones (8.17), (8.20) y
(8.22) no arrojan los mismos valores. De hecho 𝑊 ≥ 𝑅𝑉 ≥ 𝐿𝑀, es decir Wald tiende a
rechazar con más frecuencia que LM y RV, considerando que los tres estadísticos se
comparan con el mismo percentil de la distribución Chi-cuadrado. Sin embargo, tales
diferencias se reducen a cero cuando 𝑛 → ∞, con lo cual los tres tests son
asintóticamente equivalente, pues 𝑊 = 𝐿𝑅 = 𝐿𝑀. Por ello es recomendable que estos
tests sean utilizados solamente en muestras grandes.
229
Ejercicios
8.1 (Tomado de Greene (2008)) Suponga que una variable aleatoria tiene la siguiente
distribución:
𝛽
𝑓(𝑥) = 𝛼𝛽𝑥 𝛽−1 𝑒 −𝛼𝑥 𝛼, 𝛽 > 0, 𝑥 ≥ 0
230
income = Ingreso anual
cigprice = Precio promedio del paquete de cigarrillos en la localidad
numcigs = Número de cigarrillos fumados al día. lncigp = ln(cigprice)
lninc = ln(income)
whiteage=white*age
whiteage2=white*age2
whiteyearsed=white*yearsed
a. Compare los resultados de las dos regresiones. ¿Por qué las variables que eran
estadísticamente significativas en el Modelo I con la prueba “𝑡” dejan de serlo
en el Modelo II? ¿Por qué a pesar que ninguna variable es significativa en el
231
modelo II la prueba F de significancia conjunta señala que el modelo es
“bueno”?
b. Calcule los estadísticos de Razón de Verosimilitud, Wald y Multiplicadores de
Lagrange que probaría la hipótesis nula que los coeficientes de las variables
white, whiteage, whiteage2 y whiteyearsed son iguales a cero. Calcule
también el estadístico F que probaría la misma hipótesis.
8.4 Dada una muestra aleatoria, encuentre en cada caso el estimador por Máxima
Verosimilitud de θ de las siguientes funciones de densidad.
a. 𝑓(𝑋, 𝜃) = 𝑒 −(𝑋−𝜃) − ∞ < 𝑋 < ∞ ; −∞ < 𝜃 < ∞
1
b. 𝑓(𝑋, 𝜃) = 2 𝑒 −|𝑋−𝜃| − ∞ < 𝑋 < ∞ ; −∞ < 𝜃 < ∞
𝜃𝑋 𝑒 −𝜃
c. 𝑓(𝑋, 𝜃) = 𝑋 = 0,1,2, … ; 0 ≤ 𝜃 < ∞ 𝐹(0,0) = 1
𝑋𝑖 !
232
Capítulo 9
El Modelo de Regresión Lineal con Perturbaciones No Esféricas
𝑉𝑎𝑟(𝒖|𝑿) = 𝑽 ≠ 𝜎 2 𝑰 (9.1)
233
heterocedasticidad condicional y si las covarianzas entre los términos de perturbación
son distintas de cero hay correlación serial o autocorrelación. Como seguiremos con el
supuesto de que las variables en 𝑿 son fijas, podemos hablar de heterocedasticidad a
secas sin mencionar el término condicional.
̂ 𝑀𝐶𝑂
Media de 𝜷
̂ en este contexto,
Tomando el valor esperado de 𝜷
Por lo tanto el estimador sigue siendo insesgado pues 𝐸[𝒖] = 𝟎 como antes.
̂ 𝑀𝐶𝑂
Varianzas y Covarianzas de 𝜷
̂ 𝑀𝐶𝑂 ] = 𝐸[(𝜷
𝑉𝑎𝑟[𝜷 ̂ − 𝐸[𝜷
̂ ])(𝜷
̂ − 𝐸[𝜷
̂ ])′] = 𝐸[(𝑿′ 𝑿)−1 𝑿′ 𝒖𝒖′𝑿(𝑿′ 𝑿)−1 ]
= (𝑿′ 𝑿)−1 𝑿′ 𝐸[𝒖𝒖′ ]𝑿(𝑿′ 𝑿)−1 = (𝑿′ 𝑿)−1 𝑿′ 𝑽𝑿(𝑿′ 𝑿)−1 (9.2)
̂ 𝑀𝐶𝑂
Consistencia de 𝜷
̂ 𝑀𝐶𝑂
Ineficiencia del estimador 𝜷
234
Cuando se viola el supuesto 3 de perturbaciones esféricas, los estimadores de MCO ya
no son los mejores estimadores lineales a insesgados, es decir no se cumple el teorema
de Gauss-Markov. Como se mostrará más adelante, existe otro estimador, llamado de
Mínimos Cuadrados Generalizados que tiene menor varianza (es decir, es más eficiente)
que el estimador de MCO.
9.3 Heterocedasticidad
𝜎12 0 … 0
𝑉𝑎𝑟(𝒖|𝑿) = 0 𝜎22 … 0
⋮ ⋮ ⋱ ⋮
[0 0 … 𝜎𝑛2 ]
En los modelos econométricos es frecuente pensar que la varianza de los errores esté
relacionada de alguna manera con una o más de las variables exógenas, siendo la
relación del tipo
𝜎𝑖2 = 𝑓(𝒙𝑖 )
235
en el consumo podría ser menor. En la figura 9.1 se presenta el diagrama de dispersión
de los gastos familiares en alimentos contra el ingreso familiar neto anual en el
Departamento de Lima. Se puede observar con claridad que la variabilidad del gasto en
alimentos es cada vez más grande al aumentar el ingreso familiar.
Figura 9.1
Relación entre Gasto en Alimentos e Ingresos Familiares en el Departamento
de Lima
Fuente: Encuesta Nacional de Hogares (ENAHO) 2013. Solo se dibujan hogares con ingresos
inferiores a 250 mil soles anuales. Elaboración: Propia.
La figura 9.2 muestra esta relación entre la dispersión de los errores y la única variable
𝑋 en un modelo bivariado, siendo este gráfico análogo a la figura 1.2 del capítulo 1 pero
con heterocedasticidad.
236
Figura 9.2
Heterocedasticidad
Densidad
X1
X2
X3
Test de White
𝜎𝑖2 = 𝑓(𝑋2 , 𝑋3 , … , 𝑋𝑘 )
donde 𝑓(. ) es una función polinómica. Los pasos del test son:
Paso 2: Estimar un modelo auxiliar tomando a 𝑒𝑖2 como endógena contra las
explicativas, sus cuadrados y productos cruzados. Por ejemplo, si es un modelo
donde las explicativas son 𝑋2𝑖 , 𝑋3𝑖 y la constante, la regresión auxiliar es
1
White, H. "A heteroskedasticity-consistent covariance matrix estimator and a direct test for
heteroskedasticity." Econometrica, 48, 1980, 817-838.
2
Breusch, T. S., and A. R. Pagan. 1979. A simple test for heteroscedasticity and random coefficient
variation. Econometrica 47: 1287-1294.
237
2 2
𝑒𝑖2 = 𝛼0 + 𝛼1 𝑋2𝑖 + 𝛼2 𝑋3𝑖 + 𝛼3 𝑋2 + 𝛼4 𝑋3 + 𝛼5 𝑋2 𝑋3 + 𝜀𝑖
Como primer paso, estimamos el modelo para hogares con ingresos por debajo de 250
mil soles anuales (para evitar valores extremos de ingresos) y generamos
inmediatamente después a los residuos y residuos al cuadrado, a los que llamo ehat y
ehat2 respectivamente. Estos resultados se presentan en la tabla 9.1.
238
Tabla 9.1
Estimación MCO del modelo de gasto en alimentos
. reg galim ingreso ingreso2 miembros edad urbano costa sierra if ingreso<250
. gen ehat2=ehat^2
Luego realizamos la regresión de los residuos al cuadrado del paso 2, lo que se muestra
en la tabla 9.2. En esta regresión auxiliar se incluirán a todas las variables de la
regresión, más el cuadrado de las continuas, y el producto cruzado de las continuas. En
el caso de las variables dummy, se incluyen además de ellas, el producto de las dummy
contra las continuas y el producto de rural contra costa, sierra y selva. El resultado de la
regresión auxiliar se presenta en la tabla 9.2, en donde por razones de espacio solo se
presenta la primera parte de la tabla.
Una forma alternativa y más rápida de realizar este test es efectuar el comando oficial
de Stata estat imtest, white, inmediatamente después de la regresión
principal. Los resultados son los mismos a lo obtenido manualmente.
3
El operador c. indica que las variables que se están multiplicando son continuas. Consúltese el manual
de Stata para más detalles sobre operadores factoriales.
4
Se puede escribir en Stata después de la regresión auxiliar, el comando display e(r2)*e(N) para
el cálculo del estadístico de White.
5
El valor crítico de la tabla Chi-cuadrado se puede obtener en Stata con la instrucción display
invchi2(29,0.95).
239
Tabla 9.2
Estimación MCO de la regresión auxiliar de residuos al cuadrado
. reg ehat2 ingreso ingreso2 miembros edad urbano costa sierra ///
> c.(ingreso ingreso2 miembros edad urbano costa sierra)#c.(ingreso ///
> ingreso2 miembros edad urbano costa sierra) if ingreso < 250
Source SS df MS Number of obs = 4072
F( 29, 4042) = 11.97
Model 309213.9 29 10662.5483 Prob > F = 0.0000
Residual 3600739.95 4042 890.831259 R-squared = 0.0791
Adj R-squared = 0.0725
Total 3909953.85 4071 960.440641 Root MSE = 29.847
1 𝑎
Paso 3: Bajo la H0 de homocedasticidad 2 𝑆𝐶𝐸~𝜒 2 (𝑝). Si este estadístico es mayor a
2
𝜒1−𝛼 (𝑝) entonces se rechaza la hipótesis nula de homocedasticidad con 𝛼% de
significancia. Este procedimiento es válido para cualquier ℎ(. ), pero se debe de conocer
a las variables 𝑤𝑖 .
6
Véase Johnston y Dinardo (1997) para más detalles.
240
Ejemplo 9.2: Con los datos del ejemplo anterior, tomamos como variables 𝑤 a todas las
exógenas y regresionamos a los residuos al cuadrado divididos entre 𝜎̂ 2 contra estas
variables. Los resultados son
Tabla 9.3
Regresión auxiliar para el test de Breusch-Pagan
. qui reg galim ingreso ingreso2 miembros edad urbano costa sierra if ingreso<250
. gen ehat2=ehat^2
. gen e2=ehat2*e(N)/e(rss)
. display 0.5*e(mss)
603.51532
Los resultados de la tabla 9.3 confirman que existe una fuerte relación entre los residuos
al cuadrado (estimador de la varianza 𝜎𝑖2 ) con el nivel de ingreso, el número de
1
miembros y con la región donde vive. Luego, 𝑆𝐶𝐸 = 603.51532, que es mayor al
2
valor crítico χ20.95 (7) = 14.06714 y por lo tanto se rechaza la hipótesis nula de
homocedasticidad. Este mismo procedimiento puede ser realizado directamente en Stata
mediante el comando estat hettest, rhs que se aplica inmediatamente después
de estimar la ecuación principal.
𝑒12 0 … 0
̂= 0
𝑽 𝑒22 … 0
⋮ ⋮ ⋱ ⋮
[0 0 … 𝑒𝑛2 ]
Tabla 9.4
Estimación MCO con errores estándar robustos de White
. reg galim ingreso ingreso2 miembros edad urbano costa sierra if ingreso<250, robust
Robust
galim Coef. Std. Err. t P>|t| [95% Conf. Interval]
Nótese que los coeficientes estimados son los mismos de la regresión MCO, pero
valores de las desviaciones estándar, los estadísticos 𝑡 y el estadístico 𝐹 de significancia
conjunta han cambiado, al ser ahora todos ellos consistentes con heterocedasticidad.
Para encontrar este estimador partimos de la idea de que los datos 𝑋 provocan el
fenómeno de heterocedasticidad. Luego, si transformamos adecuadamente los datos del
242
modelo podemos obtener un nuevo modelo que cumpla que tenga perturbaciones
esféricas.
𝑌𝑖 1 𝑋3𝑖 𝑋𝑘𝑖 𝑢𝑖
= 𝛽1 + 𝛽2 + 𝛽3 + ⋯ + 𝛽𝑘 +
𝑋2𝑖 𝑋2𝑖 𝑋2𝑖 𝑋2𝑖 𝑋2𝑖
𝑢 𝐸[𝑢𝑖 ] 𝑢
En este modelo, 𝐸[𝑢𝑖∗ ] = 𝐸 [𝑋 𝑖 ] = = 0, y también 𝑉𝑎𝑟(𝑢𝑖∗ ) = 𝑉𝑎𝑟 (𝑋 𝑖 ) =
2𝑖 𝑋2𝑖 2𝑖
2
1 𝜎2 𝑋2𝑖
2 𝑉𝑎𝑟(𝑢𝑖 ) = 2 = 𝜎 2 . Luego, el modelo transformado (9.3) es homocedástico y por
𝑋2𝑖 𝑋2𝑖
lo tanto la estimación MCO de este modelo entrega estimadores que cumplen el teorema
de Gauss-Markov.
1
0 … 0
𝑋21
1
𝑷= 0 … 0
𝑋22
⋮ ⋮ ⋱ ⋮
1
0 0 …
[ 𝑋2𝑛 ]
Así, al aplicar 𝑷 sobre las variables es equivalente a dividirlas por la variable 𝑋2.
Entonces, multiplicando el modelo matricial por 𝑷,
𝑷𝒚 = 𝑷𝑿𝜷 + 𝑷𝒖
𝒚∗ = 𝑿∗ 𝜷 + 𝒖∗ (9.5)
(9.5) es la versión matricial de (9.4) en donde 𝑉𝑎𝑟(𝒖∗ ) = 𝜎 2 𝑰, y cumple con todos los
supuestos del modelo de regresión lineal clásico. Por lo tanto, su estimador MCO es el
243
mejor estimador lineal e insesgado, de acuerdo con el teorema de Gauss-Markov. Este
estimador al que llamaremos de Mínimos Cuadrados Generalizados (MCG) es
𝜎 2 𝑰 = 𝑷𝑽𝑷′
𝜎 2 (𝑷′ 𝑷)−1 = 𝑽
𝑷′ 𝑷 = 𝜎 2 𝑽−1
Si la matriz 𝑽 es conocida, tal como ocurre en el modelo (9.4), se puede aplicar (9.7)
para el cálculo de los estimadores y (9.8) para su matriz de varianzas y covarianzas. Por
el contrario, si 𝑽 es una matriz desconocida, en la práctica se suele asumir que 𝑽 posee
alguna estructura particular y se busca trabajar con alguna estimación consistente de
7
Se deja al lector estas demostraciones.
244
̂ . Utilizando a esta estimación en (9.7) tenemos al estimador
ella, digamos una matriz 𝑽
de MCG factible el cual es un estimador consistente de 𝜷.
̂ 𝑀𝐶𝐺𝐹 = (𝑿′ 𝑽
𝜷 ̂ −1 𝑿)−1 𝑿′ 𝑽
̂ −1 𝒚
245
La omisión de variables relevantes que tienen una fuerte inercia. Por ejemplo, si
los gustos y las preferencias se encuentran en el error, es posible que exista
correlación con errores de periodos pasados.
La omisión de rezagos de la variable dependiente también puede provocar
autocorrelación, además de otros problemas de sesgo por mala especificación.
La presencia de series no estacionarias. La estacionariedad es una propiedad que
se aplica a series cuyas propiedades estadísticas se mantienen invariables en el
tiempo (típicamente la media, la varianza y las autocovarianzas). Cuando las
series presentan patrones que cambian en el tiempo –como en el caso de las
tendencias–, las series no son estacionarias y las regresiones que las involucran
pueden presentar autocorrelación.
246
como 𝛾𝑠 = 𝐶𝑜𝑣(𝑢𝑡 , 𝑢𝑡−𝑠 ) = 𝐸(𝑢𝑡 . 𝑢𝑡−𝑠 ). Si 𝜎 2 es la varianza de 𝑢𝑡 , es algebraicamente
sencillo calcular que las autocovarianzas en el caso 𝐴𝑅(1) son8
𝛾1 = 𝜙𝜎 2 𝛾2 = 𝜙 2 𝜎 2 … γs = ϕs σ2 s≥1
𝐶𝑜𝑣(𝑢𝑡 , 𝑢𝑡−𝑠 ) 𝛾𝑠
𝜌𝑠 = =
√𝑉𝑎𝑟(𝑢𝑡 )√𝑉𝑎𝑟(𝑢𝑡−𝑠 ) 𝜎2
𝛾 𝛾
𝜌1 = 𝜎12 = 𝜙 𝜌2 = 𝜎22 = 𝜙 2 … 𝜌𝑠 = 𝜙 𝑠 𝑠≥1
1 𝜙 𝜙2 … 𝜙 𝑛−1
𝜙 1 𝜙 … 𝜙 𝑛−2
2
𝑽=𝜎 𝜙2 𝜙 1 … 𝜙 𝑛−3 (9.11)
⋮ ⋮ ⋮ ⋱ ⋮
[𝜙 𝑛−1 𝜙 𝑛−2 𝜙 𝑛−3 … 1 ]
1
Se puede comprobar que 𝜎 2 = 𝜎𝜀2 1−𝜙2. Nótese que la matriz en (9.11) queda
Existen otros modelos 𝐴𝑅 con más rezagos, como por ejemplo el 𝐴𝑅(2):
𝑢𝑡 = 𝜙1 𝑢𝑡−1 + 𝜙2 𝑢𝑡−2 + 𝜀𝑡
𝑌𝑡 = 𝛽1 + 𝛽2 𝑋2𝑡 + ⋯ + 𝛽𝑘 𝑋𝑘𝑡 + 𝑢𝑡
8
Véase el apéndice de este capítulo para el detalle de los cálculos.
247
𝑢𝑡 = 𝜀𝑡 + 𝜃𝜀𝑡−1
Nótese que el término de perturbación es una combinación lineal de dos ruidos blancos,
donde el parámetro 𝜃 es el peso del shock pasado sobre el futuro.
Calculando las varianzas, covarianzas tal como se hizo en el Ejemplo 9.6 encontramos
que9
𝑉𝑎𝑟(𝑢𝑡 ) = 𝜎 2 = (1 + 𝜃 2 )𝜎𝜀2
𝛾𝑠 = 𝐶𝑜𝑣(𝑢𝑡 , 𝑢𝑡−𝑠 ) = 0
𝜃
1 0 … 0
1+𝜃2
𝜃 𝜃
2
1 … 0
2 1+𝜃 1+𝜃2
𝑉𝑎𝑟(𝑢𝑡 ) = 𝜎 𝜃 (9.12)
0 1 … 0
1+𝜃2
⋮ ⋮ ⋮ ⋱ ⋮
[ 0 0 0 … 1]
Contienen como ponentes tanto 𝐴𝑅 como 𝑀𝐴. Por ejemplo, el modelo 𝐴𝑅𝑀𝐴(1,1) para
las perturbaciones sería
𝑢𝑡 = 𝜙𝑢𝑡−1 + 𝜀𝑡 + 𝜃𝜀𝑡−1
9
Ver en el apéndice de este capítulo los cálculos completos.
248
aproximación a los términos de perturbación. Si esta serie 𝑒𝑡 graficada contra el tiempo
muestra algún patrón sinuoso, es muy probable que exista autocorrelación.
Figura 9.3
Correlogramas de procesos AR(1) y MA(1)
249
Otra forma de detectar autocorrelación es mediante el clásico test de Durbin y Watson10.
Supongamos un modelo como (9.10) donde se sospecha que 𝑢𝑡 sigue un proceso
𝐴𝑅(1). Se plantea la hipótesis nula 𝐻0 : 𝜙 = 0 (no autocorrelación) y la hipótesis
alternativa 𝐻1 : 𝜙 ≠ 0. El test se basa en el cálculo del estadístico de Durbin-Watson
(𝐷𝑊) a partir de los residuos de la regresión del modelo estimado por MCO.
∑𝑛𝑡=2(𝑒𝑡 − 𝑒𝑡−1 )2
𝐷𝑊 = (9.13)
∑𝑛𝑡=1 𝑒𝑡2
∑𝑛𝑡=2 𝑒𝑡 𝑒𝑡−1
𝐷𝑊 ≈ 2 (1 − ) = 2(1 − 𝜙̂) (9.13′ )
∑𝑛𝑡=1 𝑒𝑡2
El valor calculado de DW se compara con los valores críticos de las tablas de Durbin y
Watson, los cuales dependen del número de observaciones y del número de variables
del modelo. Los valores críticos vienen en parejas (𝑑𝐿 , 𝑑𝑈 ). En la figura 9.4 se
representa la toma de decisiones para el test de Durbin-Watson.
10
Durbin, J., and G. S. Watson. 1950. Testing for serial correlation in least squares regression. I.
Biometrika 37: 409–428. Durbin, J., and G. S. Watson. 1951. Testing for serial correlation in least
squares regression. II. Biometrika 38: 159–177.
∑𝑛 2 𝑛 2 𝑛
𝑡=2 𝑒𝑡 +∑𝑡=2 𝑒𝑡−1 −2 ∑𝑡=2 𝑒𝑡 𝑒𝑡−1 ∑𝑛
𝑡=2 𝑒𝑡 𝑒𝑡−1
11
Resolviendo el numerador se tiene 𝐷𝑊 = ∑𝑛 2 ≈2−2 ∑𝑛 2 .
𝑡=1 𝑒𝑡 𝑡=1 𝑒𝑡
250
Figura 9.4
Valores críticos del test de Durbin- Watson
dL dU 4 - dU 4 – dL
Zonas de
indeterminación
El test Breusch-Godfrey es un test más general que el test Durbin-Watson, que permite
probar si existe autocorrelación de cualquier orden. Adicionalmente, se permite que el
modelo incluya variables endógenas rezagadas en la ecuación principal y auxiliar. Otra
ventaja es que no tiene zonas de indeterminación como el test de Durbin-Watson.
Paso 2: Hacer una regresión de los residuos de MCO contra sus valores
rezagados “𝑞” periodos atrás, y contra las variables en 𝑿 sin intercepto.
12
Breusch (1978) y Godfrey (1978).
251
2
Paso 3: Calcular (𝑁 − 𝑞) × 𝑅𝑎𝑢𝑥 donde R2aux es el R-cuadrado del paso 2 y N es
el número total de observaciones del paso 1. Este estadístico se distribuye
asintóticamente como una Chi-cuadrado con 𝑞 grados de libertad.
2 2
Paso 4: Si (𝑁 − 𝑞) × 𝑅𝑎𝑢𝑥 > 𝜒1−𝛼 (𝑞) se rechaza la hipótesis nula de no
autocorrelación.
Aunque el test es muy conveniente, debe notarse que es un test válido asintóticamente.
En muestras pequeñas, la inferencia puede ser errónea. Por otro lado, es un test de
significancia conjunta pues su hipótesis nula es 𝐻0 : 𝜙1 = 0, 𝜙2 = 0, … , 𝜙𝑞 = 0. Podría
no ser capaz de distinguir exactamente qué 𝜙 es distinto de cero.
En el paso 2 del test, Davidson y MacKinnon (1993) observaron que debido a que se
regresiona a los residuos contra valores rezagados se pierden las observaciones iniciales
tanto de 𝑒𝑡 como de las variables explicativas 𝑋𝑡 incluidas, provocando que 𝑒𝑡 y 𝑋𝑡
dejen de ser ortogonales. Esta correlación elevará el R-cuadrado de la regresión auxiliar
haciendo que el test tienda a sobrerechazar la hipótesis nula. Como corrección,
Davidson y MacKinnon sugieren completar con ceros los valores faltantes de los
rezagos de 𝑒𝑡 en el paso 2.
Estimamos la función consumo con información anual de Perú desde 1950 hasta 2013,
con datos publicados por el Banco Central de Reserva del Perú. Estos datos ya fueron
estudiados en el ejemplo 6.8. Llamando Consumo al Consumo Privado y PIB al
producto interno bruto, estimamos por mínimos cuadrados ordinarios, obteniendo la
tabla 9.5.
252
Tabla 9.5
Estimación de la Función Consumo
. reg Consumo PIB
. estat dwatson
Figura 9.5
Residuos Estandarizados
253
Figura 9.6
Correlaciones de los Residuos MCO con su Pasado
En la tabla 9.6 también se presenta el cálculo del estadístico de Durbin y Watson a estos
residuos. Los valores críticos de Durbin y Watson13 son: 𝑑𝐿 = 1.567 y 𝑑𝑈 = 1.629,
luego el estadístico cae en la zona de autocorrelación positiva.
Tabla 9.6
Regresión auxiliar de residuos contra residuos rezagados
residuo
L1. 1.097189 .1271854 8.63 0.000 .8425996 1.351778
L2. -.2476425 .1260097 -1.97 0.054 -.4998784 .0045933
2 2 (2)
El valor (𝑁 − 𝑞) × 𝑅𝑎𝑢𝑥 es igual a 49.0358, que es mayor al percentil 𝜒0.95 =
5.9915, y por lo tanto se rechaza la hipótesis de no autocorrelación en favor de
13
Obtenidos de Gujarati y Porter (2010) para el caso 𝑛 = 65.
254
autocorrelación de orden 2. Se pueden calcular el estadístico de Breusch-Godfrey
utilizando la corrección de Davidson y MacKinnon en STATA, mediante el comando
bgodfrey, el cual por defecto entrega esta aproximación.
Tabla 9.7
Test de Breusch-Godfrey con aproximación de Davidson y MacKinnon
. bgodfrey, lag(2)
2 49.676 2 0.0000
2 49.034 2 0.0000
En la tabla 9.7, el valor del test es ligeramente más alto que el resultado calculado
manualmente. El comando bgodfrey también puede mostrar los resultados sin la
corrección de Davidson y MacKinnon, especificando la opción nomiss0. En tal caso
coincide con el cálculo manual.
Como se mencionó en la sección 9.4.1, una de las razones por las que se presenta la
correlación serial en los errores es la mala especificación de los modelos, especialmente
cuando no se ha tomado en cuenta que hay endógenas rezagadas omitidas. Naturalmente
podríamos pensar en “corregir” el problema cambiando la especificación del modelo
agregando variables endógenas rezagadas en el lado derecho de la ecuación,
especificando un modelo autorregresivo 𝑌𝑡 = 𝛽1 + 𝛽2 𝑌𝑡−1 + 𝛽3 𝑋𝑡 + 𝑢𝑡 . Luego de este
cambio se puede aplicar el test de Breusch-Godfrey y observar si persiste la
autocorrelación. De ser necesario se debe agregar más rezados. De esta manera
podríamos resolver el problema de autocorrelación y evitar el sesgo por omisión de
variables relevantes.
255
Si la autocorrelación no se origina por la omisión de variables endógenas rezagadas,
podríamos intentar estimar el modelo por MCG o por MCO con la corrección en la
matriz de varianzas y covarianzas. En forma similar a lo hecho en la sección sobre
heterocedasticidad, vamos a explorar estas dos alternativas.
√1 − 𝜙 2 0 0 … 0 0
−𝜙 1 0 … 0 0
𝑷= 0 −𝜙 1 … 0 0.
⋮ ⋮ ⋮ … ⋮ ⋮
[ 0 0 0 … −𝜙 1]
𝑦𝑡 = 𝛽1 + 𝛽2 𝑋𝑡 + 𝑢𝑡
𝑢𝑡 = 𝜙𝑢𝑡−1 + 𝜀𝑡
√1 − 𝜙 2 𝑦𝑡 = √1 − 𝜙 2 𝛽1 + √1 − 𝜙 2 𝛽2 𝑋𝑡 + 𝑢𝑡
14
Cochrane, D., y G. H. Orcutt. 1949. Application of least squares regression to relationships containing
auto-correlated error terms. Journal of the American Statistical Association 44: 32–61. Prais, S. J., y C. B.
Winsten. 1954. Trend estimators and serial correlation. Working paper 383, Cowles Commission.
http://cowles.econ.yale.edu/P/ccdp/st/s-0383.pdf.
256
Al igual que en el caso de heterocedasticidad, la efectividad de este enfoque recae en la
veracidad de la conjetura hecha sobre la estructura de autocorrelación.
El estimador de la matriz 𝑽 es
𝑗 1
donde 𝛾̂𝑗 = (1 − 𝑞+1) 𝑛 ∑𝑛𝑡=𝑗+1 𝑒𝑡 𝑒𝑡−𝑗 si 0 ≤ 𝑗 ≤ 𝑞 y 𝛾̂𝑗 = 0 si 𝑗 > 𝑞, donde 𝑞 son los
rezagos que se están utilizando en la estimación, y 𝑒𝑡 son los residuos MCO. Luego, la
matriz de varianzas y covarianzas del estimador MCO consistentes con autocorrelación
es:
̂ (𝜷
𝐴𝑉𝑎𝑟 ̂ 𝑴𝑪𝑶 ) = (𝑿′ 𝑿)−𝟏 𝑿′ 𝑽
̂ 𝑿(𝑿′ 𝑿)−1 (9.15)
Ejemplo 9.5: Continuando con el modelo del ejemplo 9.4, en la tabla 9.8 estimamos el
modelo por MCO con los errores estándar corregidos de Newey-West para un rezago.
15
Newey, W. K., and K. D. West. 1987. A simple, positive semi-definite, heteroskedasticity and
autocorrelation consistent covariance matrix. Econometrica 55: 703–708.
257
Tabla 9.8
Estimación MCO con errores estándar de Newey-West
Newey-West
Consumo Coef. Std. Err. t P>|t| [95% Conf. Interval]
258
Apéndice 9.1
2 ]
𝛾1 = 𝐶𝑜𝑣(𝑢𝑡 , 𝑢𝑡−1 ) = 𝐸[𝑢𝑡 . 𝑢𝑡−1 ] = 𝐸[(𝜙𝑢𝑡−1 + 𝜀𝑡 ). 𝑢𝑡−1 ] = 𝜙𝐸[𝑢𝑡−1 + 𝐸[𝜀𝑡 . 𝑢𝑡−1 ] = 𝜙𝛾0
𝛾
Luego la correlación es 𝜌1 = 𝛾1 = 𝜙.
0
𝛾2 = 𝐶𝑜𝑣(𝑢𝑡 , 𝑢𝑡−2 ) = 𝐸[𝑢𝑡 . 𝑢𝑡−2 ] = 𝐸[(𝜙𝑢𝑡−1 + 𝜀𝑡 ). 𝑢𝑡−2 ] = 𝜙𝐸[𝑢𝑡−1 . 𝑢𝑡−2 ] + 𝐸[𝜀𝑡 . 𝑢𝑡−2 ]
= 𝜙𝛾1 = 𝜙(𝜙𝛾0 ) = 𝜙 2 𝛾0
𝛾
Luego la correlación es 𝜌2 = 𝛾2 = 𝜙2 . Generalizando, 𝛾𝑠 = 𝜙 𝑠 𝛾0 y 𝜌𝑠 = 𝜙𝑠 𝑠 ≥ 1.
0
Apéndice 9.2
𝑢𝑡 = 𝜀𝑡 + 𝜃𝜀𝑡−1
𝜃
Luego la correlación es 𝜌1 = 1+𝜃2 .
259
𝐶𝑜𝑣(𝑢𝑡 , 𝑢𝑡−2 )
𝜌2 = =0
𝑉𝑎𝑟(𝑢𝑡 )
𝛾𝑠 = 𝐶𝑜𝑣(𝑢𝑡 , 𝑢𝑡−𝑠 ) = 0 ∀𝑠 ≥ 2
𝜃
1 0 … 0
1 + 𝜃2
𝜃 𝜃
2 1 … 0
𝑉𝑎𝑟(𝒖) = 1 + 𝜃 1 + 𝜃2
𝜃
0 1 … 0
1 + 𝜃2
⋮ ⋮ ⋮ ⋱ ⋮
[ 0 0 0 … 1]
260
Ejercicios
̂ 𝑀𝐶𝐺 =
9.1 Se definen a los residuos del modelo transformado como 𝒆∗ = 𝒚∗ − 𝑿∗ 𝜷
̂ 𝑀𝐶𝐺 ). La sumatoria de cuadrados de los residuos del modelo
𝑷(𝒚 − 𝑿𝜷
transformado es
′ ′
̂ 𝑀𝐶𝐺 ) 𝑷′ 𝑷(𝒚 − 𝑿𝜷
𝒆∗ ′ 𝒆∗ = (𝒚 − 𝑿𝜷 ̂ 𝑀𝐶𝐺 ) = (𝒚 − 𝑿𝜷
̂ 𝑀𝐶𝐺 ) 𝜴−1 (𝒚 − 𝑿𝜷
̂ 𝑀𝐶𝐺 )
9.4 Suponga que estima un modelo de regresión lineal por Mínimos Cuadrados
Ordinarios, y que el valor del estadístico Durbin-Watson es de 0.5976. Además
𝑛 = 100 y 𝑘 = 6. ¿Qué podemos concluir acerca de la presencia de
autocorrelación?
261
9.6 Dado un modelo de regresión de dos variables, en donde se sabe que los residuos
siguen un modelo AR(1), obtenga la expresión correcta de la varianza del estimado
MCO de la pendiente.
𝐿𝑡 = 𝑐𝑌𝑡𝛼 𝑒 𝜀𝑡
Mostrar que el modelo en primeras diferencias 𝐿̇𝑡 = 𝛼𝑌𝑡̇ + 𝑢𝑡 , donde 𝐿𝑡̇ ≡ 𝑙𝑛𝐿𝑡 −
𝑙𝑛𝐿𝑡−1 y Ẏ𝑡 ≡ lnYt − lnYt−1 presenta autocorrelación del tipo 𝑀𝐴(1) en su
perturbación 𝑢𝑡 .
9.8 Pruebe en cada caso la presencia de autocorrelación (los números entre paréntesis
son las desviaciones estándar)
262
9.10 Se estima el modelo 𝑌𝑖 = 𝛽0 + 𝛽1 𝑋1𝑖 + 𝛽2 𝑋2𝑖 + 𝑢𝑖 con una muestra de 16
observaciones pero se sospecha que la variable 𝑋2𝑖 puede ocasionar
heterocedasticidad. Entonces se reordena la muestra respecto a 𝑋2𝑖 y se hacen dos
regresiones con los siguientes resultados.
(0.08) (1.6)
Muestra = 1 − 7 SCE = 4.785 r 2 = 0.55
𝑆𝐶𝑅3
𝑔. 𝑙.
𝑅=
𝑆𝐶𝑅1
𝑔. 𝑙.
𝑌𝑡 = 𝛽1 + 𝛽2 𝑋𝑡 + 𝛽3 𝑌𝑡−1 + 𝑢𝑡 (1)
16
Goldfeld y Quandt (1965).
263
𝑢𝑡 = 𝜀𝑡 + 𝜃𝜀𝑡−1 , (2)
donde 𝜀𝑡 es un ruido blanco y ut tiene varianza constante. Además 𝐶𝑜𝑣(𝑋𝑡 , 𝑢𝑡 ) =
0.
a. Calcule la 𝐶𝑜𝑣(𝑌𝑡−1 , 𝑢𝑡 ).
b. ¿Qué problemas existirían si se estimara la ecuación (1) por MCO?
c. ¿Qué método de estimación se podría emplear en vez de MCO para estimar la
ecuación ? ¿Por qué? F-2008/1)
9.13 Supongamos que los términos de perturbación siguen un proceso 𝐴𝑅𝑀𝐴(1,1)
𝑢𝑡 = 𝜙𝑢𝑡−1 + 𝜀𝑡 + 𝜃𝜀𝑡−1,
a. Obtenga el correlograma.
b. Dibuje el correlograma para los valores 𝜙 = 0.4 y 𝜃 = −0.9.
9.14 Usted desea estimar el efecto de la educación sobre los ingresos, y para ello cuenta
con información de una encuesta reciente realizada por el INEI en las 25 regiones
del país, en donde en cada región j se obtuvo una muestra aleatoria de 𝑛𝑗
individuos. Usted plantea un modelo que utiliza datos a nivel nacional de esta
forma:
salario que recibe un individuo 𝑖 en la región j, 𝑋𝑖𝑗 son los años de educación del
mismo individuo 𝑖 que vive en la región 𝑗, y 𝑢𝑖𝑗 es el término de perturbación que
tiene media cero y varianza constante para todo 𝑖, 𝑗. Además, se cumplen todos los
demás supuestos del modelo clásico.
El INEI no le entrega toda la base de datos sino los promedios por región de las
1 𝑛 1 𝑛
variables salario y educación, es decir ∑ 𝑗 𝑌 = 𝑌̅𝑗 , ∑ 𝑗 𝑋 = 𝑋̅𝑗 , teniendo
𝑛 𝑖=1 𝑖𝑗 𝑛 𝑖=1 𝑖𝑗
entonces solamente 25 observaciones (una por cada región). Con esta escasez de
información usted pretende estimar el modelo agregado:
264
1𝑗 𝑛
donde 𝑢̅𝑗 = (𝑛 ) ∑𝑖=1 𝑢𝑖𝑗 . Diga si este modelo es homocedástico. En caso que no
𝑗
9.15 La siguiente tabla muestra información anual sobre el índice de empleo urbano en
empresas de 10 a más trabajadores y el PBI real en soles de 1994, desde 1997 hasta
el año 2011.
PBI (Mills.
Ind. Empleo Soles de
Urbano 1994) ln(Ind.empleo) ln(PBI real)
1997 100.90 117294 4.614 11.672
1998 98.23 116522 4.587 11.666
1999 93.11 117587 4.534 11.675
2000 90.70 121057 4.508 11.704
2001 89.67 121317 4.496 11.706
2002 91.75 127402 4.519 11.755
2003 93.36 132545 4.536 11.795
2004 96.68 139141 4.571 11.843
2005 102.14 148640 4.626 11.909
2006 111.08 160145 4.710 11.984
2007 121.00 174407 4.796 12.069
2008 128.84 191505 4.859 12.163
2009 129.23 193155 4.862 12.171
2010 136.04 210143 4.913 12.256
2011 142.4 224669 4.959 12.322
265
Capítulo 10
Correlación entre los regresores y el término de perturbación
Pero un problema muy serio ocurre en modelos cuando existe algún tipo de correlación
entre alguno de los regresores y el término de perturbación. Cuando esto ocurre,
𝐶𝑜𝑣(𝑢𝑖 , 𝑋𝑖 ) ≠ 0, lo que implica que 𝐸 [𝒖|𝑿] ≠ 𝟎1. La principal consecuencia de este
problema es que los estimadores de MCO serán sesgados e inconsistentes, generándose
el conocido problema de “endogeneidad de los regresores”.
Debido a este problema, será necesario buscar otro método de estimación que tome en
cuenta la endogeneidad de los regresores y que entregue mejores estimadores que los de
MCO. En este capítulo presentaremos a los estimadores de variables instrumentales y el
caso especial de mínimos cuadrados en dos etapas, los cuales brindan estimadores
consistentes de los parámetros.
1
Por lógica, si 𝑝 y 𝑞 son dos afirmaciones tales que 𝑝 → 𝑞, entonces si se niega la conclusión esto
implica que se negará la premisa, ~𝑞 → ~𝑝.
266
10.1 Inconsistencia del estimador MCO
∑X Y ∑ X (βX +u ) ∑X u
β̂MCO = ∑ Xi 2 i = i ∑ X2i i = β + ∑ Xi 2 i (10.4)
i i i
∑ Xi ui
E[β̂MCO] = E [E[β̂MCO|Xi ]] = E [E [β + |Xi ]]
∑ X2i
∑ Xi ui 1
= E [β + E [ 2 |Xi ]] = E [β + (∑ X i E[ui |Xi ])]
∑ Xi ∑ X2i
1
= β +E[ (∑ Xi E[ui |Xi ])]
∑ X 2i
1
Dado que E[ui |Xi ] ≠ 0 (ver Ejemplo 10.1), entonces E [∑ X2 (∑ Xi E[ui |X i ])] ≠ 0 y por
i
El efecto del regresor endógeno también hace que el estimador MCO sea inconsistente.
Si multiplicamos y dividimos el segundo término en (10.4) por n, obtenemos
1
∑ Xi ui
β̂MCO = β + n1 (10.5)
∑ X2i
n
1
Plim( ∑ Xi ui )
Plim(β̂MCO) = β + n
1 (10.6)
Plim( ∑ X2i )
n
1
Plim ( ∑ Xi ui ) = E[Xi ui ] = Cov(Xi , ui ) = −βσ2ε
n
2
Recordar que las expectativas totales afirman que E[E[a|b]] = E[a].
267
1 1 1 1
Plim ( ∑ X2i ) = Plim ( ∑ Xi∗2 ) + Plim ( ∑ ε2i ) + Plim ( ∑ 2X∗i εi )
n n n n
1
= lim ( ∑ X∗2 2 ∗ 2
i ) + E[εi ] + 2E[X i εi ] = Q + σε
n→∞ n
1
En el resultado anterior se está asumiendo que la sumatoria de ∑ Xi∗2 converge a la
n
βσ2ε Q
Plim(β̂MCO) = β − 2
= β( )
Q + σε Q + σ2ε
Por lo tanto, β̂MCO es inconsistente. Es más, Plim(β̂MCO) < β, con lo cual existe un
sesgo de los estimadores MCO hacia valores más pequeños en magnitud3, lo que en la
literatura se menciona como el “sesgo de atenuación de los estimadores MCO”.
𝑌𝑖 = 𝛽𝑋𝑖∗ + 𝑣𝑖 (10.1)
Xi = Xi∗ + εi (10.2)
3
Si β fuera negativo, |Plim(β̂MCO )| < |β|.
4
Greene (2008).
268
donde εi es el error de medición, asumiendo que εi ~N(0, σ2 ) e independiente de vi . La
variable Xi podría ser, por ejemplo, los años de educación del individuo i. Esta variable
proxy no es una medida perfecta de la habilidad pues los años de educación dependen
también de otros factores independientes de la habilidad como son: el acceso a la
educación, el nivel socioeconómico del hogar, la calidad de la educación recibida, etc.
Si estas perturbaciones adicionales no tienen un comportamiento sistemático, uno
esperaría que el término de error εi tenga media cero y varianza σ2ε constante, además
de ser independientes de vi (no está relacionado con las perturbaciones del modelo
inicial).
Yi = βXi + ui (10.3)
donde ui = vi − βεi se distribuye como una normal de media igual a cero y varianza
σ2 = σ2v + β2 σ2ε . Como resultado de este reemplazo tenemos que el modelo (10.3) a ser
estimado presenta correlación entre su único regresor Xi y el nuevo término de error ui
tal como comprobamos a continuación.
Dado que ui tiene media cero, la covarianza entre este error y Xi es igual al valor
esperado del producto de las variables.
Luego, asumiendo que X∗i es fijo, que εi y vi tienen media cero y que son independientes
se tiene que
lo cual implica que E[ui |Xi ] ≠ 0 y por lo tanto se viola el supuesto 2 del modelo
clásico.
Yt = Ct + It
269
Ct = β1 + β2 Yt + ut
(1 − β2 )Cov(Yt , ut ) = σ2
σ2
Cov(Yt , ut ) = 1−β .
2
ln(Wi ) = β1 + β2 Educacióni + β
⏟3 Habilidadi + ui
wi
270
Ejemplo 10.4: Podemos mostrar el sesgo del estimador MCO en forma numérica
mediante una simulación en computadora del Ejemplo 10.1. Supongamos que en ese
ejemplo, el parámetro poblacional β = 4. Generamos observaciones de Y mediante la
ecuación Yi = 4X∗i + vi en donde X∗i toma valores fijos entre 0 y 10, y vi es una
perturbación aleatoria distribuida normalmente con media cero y varianza uno. La
variable con error de medición Xi se construye igual que en la ecuación (10.2), sumando
a X∗i una variable normal de media cero y varianza cuatro e independiente de vi .
Finalmente se generan 5,000 muestras aleatorias de n = 60 observaciones cada una,
generando números aleatorios a vi y εi . Luego se realizan 5,000 regresiones de Y contra
X con cada muestra, se guardan los 5,000 valores estimados β̂, obteniéndose el
histograma en la Figura 10.1. El histograma es una aproximación de la distribución del
estimador MCO, la cual es muy similar a la normal, sin embargo se observa que la
estimación por MCO es sesgada pues el verdadero parámetro es igual a 4 (línea
vertical), mientras que el valor esperado del estimador MCO es aproximadamente
3.61.
Figura 10.1
Sesgo del estimador de Mínimos Cuadrados Ordinarios con regresores
endógenos
Continuando con el Ejemplo 10.1 donde queremos estimar el modelo (10.3) Yi = βXi +
ui , en donde ya sabemos que Cov(Xi , ui ) ≠ 0. Supongamos que contamos con una
271
variable Zi que cumple dos condiciones: Cov(Zi , Xi ) ≠ 0 y Cov(Zi , ui ) = 0. Calculamos
Cov(Zi , Yi ),
= βCov(Zi , Xi ) + Cov(Zi , ui )
Cov(Z ,Y )
β = Cov(Zi,Xi ) (10.7)
i i
n
1
SXZ ≡ ̅)(Zi − Z̅)
∑(Xi − X
n−1
i=1
n
1
SYZ ≡ ̅)(Zi − Z̅)
∑(Yi − Y
n−1
i=1
p p
En el Apéndice 10.1 se demuestra que SXZ → Cov(Xi , Zi ) y que SYZ → Cov(Yi , Zi ).
Luego, proponemos el siguiente estimador llamado de variables instrumentales
construido en base a análogos muestrales
S
β̂𝑉𝐼 ≡ SYZ (10.8)
XZ
272
Ejemplo 10.5: Continuamos con el Ejemplo 10.4. Para hacer la estimación por
variables instrumentales necesitamos una variable que esté correlacionada con X.
Puesto que se trata de una simulación en computadora, vamos a crear un instrumento
mediante la fórmula Zi = 10 + b. Xi∗ + ξi , donde ξi tiene una distribución uniforme
entre -1 y 1, y es independiente de vi y de εi , y b es un parámetro igual a 0.5.5 Al igual
que en Ejemplo 10.4, se realizaron 5,000 simulaciones de datos X, Y y del instrumento
Z mediante números aleatorios. En la Figura 10.2 mostramos el histograma de las 5,000
estimaciones de (10.8). Obsérvese que estas estimaciones se encuentran más cerca del
parámetro poblacional β = 4, indicado por una línea vertical, en comparación con las
estimaciones MCO.
Figura 10.2
Estimación por Variables Instrumentales
donde ΔSt es la variación en el stock de ahorro, it−1 es la tasa de interés nominal de fin
de periodo rezagada, y πet es la tasa de inflación esperada (no observable). Ni it−1 ni πet
están correlacionadas con ut . Además,
5
Obviamente, en la vida real no se pueden crear instrumentos mediante fórmulas como hacemos en este
ejemplo, pues X ∗ no es observable.
273
e
π⏟t = π
⏟t + ξ⏟t
𝑖𝑛𝑓𝑙𝑎𝑐𝑖ó𝑛 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑑𝑎 𝑖𝑛𝑓𝑙𝑎𝑐𝑖ó𝑛 𝑒𝑠𝑝𝑒𝑟𝑎𝑑𝑎 𝑒𝑟𝑟𝑜𝑟 𝑑𝑒 𝑝𝑟𝑒𝑑𝑖𝑐𝑐𝑖ó𝑛
ΔSt = β1 + β2 (it−1 − πt + ξt ) + ut
= β1 + β2 (it−1 − πt ) + β2 ξt + ut
= β1 + β2 (it−1 − πt ) + wt
274
con k = 3 variables explicativas (incluyendo a la constante de unos), en donde la última
variable presenta correlación con el error. En forma explícita,
Yi = β1 + β2 X 2i
⏟ + β3 X3i
⏟ + ui (10.10)
(no correlacionadas (correlacionada
con ui ) con ui )
𝐲 = 𝐗 2 𝛃2 + 𝐗 3 𝛃3 + 𝐮 (10.11)
Supongamos que contamos con m variables W1i , W2i , . . . , Wmi, que cumple las
condiciones de relevancia y exogeneidad de las variables instrumentales. Agrupamos a
estas variables en una matriz 𝐖 de dimensión n × m.
Primera Etapa: Regresionar por MCO al “regresor endógeno” X3i contra la constante, la
variable X2i y todas las variables en la matriz 𝐖. Explícitamente se estima la regresión
𝛄1
𝐗 3 = 𝐗 2 𝛄1 + 𝐖𝛄2 + 𝛏 = [𝐗 2 | 𝐖] [− −] + 𝛏 = 𝐙𝛄 + 𝛏 (10.12)
𝛄2
̂3 = 𝐙(𝐙 ′𝐙)−1 𝐙 ′𝐗 3 = 𝐏z 𝐗 3
𝐗 (10.13)
̂3 𝛃3 + 𝛈.
𝐲 = 𝐗 2 𝛃2 + 𝐗 (10.14)
275
El estimador MCO de (10.14) es el estimador de Mínimos Cuadrados en Dos Etapas
(MC2E), el cual es un estimador consistente de los parámetros poblacionales.
̂ MC2E = (𝐗 ′ 𝐏z 𝐗)−1 𝐗 ′ 𝐏z 𝐲
𝛃
̂VI
= (𝐗 ′ 𝐙(𝐙 ′𝐙)−1 𝐙 ′ 𝐗)−1 𝐗 ′ 𝐙(𝐙 ′𝐙)−1 𝐙 ′ 𝐲 = 𝛃 (10.15)
donde 𝐗 = [𝐗 2 | 𝐗 3 ] y 𝐙 = [𝐗 2 | 𝐖].
Nótese que en (10.15) la matriz 𝐗 tiene 3 columnas mientras que la matriz 𝐙 tiene 2 +
m columnas, luego la matriz (𝐗 ′ 𝐙(𝐙 ′𝐙)−1 𝐙 ′𝐗) es de dimensión 3 × 3 con rango igual a
min{3,2 + m}. Para que exista (𝐗 ′ 𝐙(𝐙 ′𝐙)−1 𝐙 ′𝐗)−1 es necesario que 2 + m ≥ 3, que
es lo mismo que afirmar que m ≥ 1. Como tenemos un regresor endógeno, necesitamos
al menos 1 instrumento W.
Cabe mencionar que la estimación por MCO de la segunda etapa no entrega las
desviaciones estándar correctas del estimador MC2E. La matriz de varianzas y
covarianzas correcta es
′
̂ MC2E ) (𝐲 − 𝐗𝛃
(𝐲 − 𝐗𝛃 ̂MC2E)
σ2 =
̂
n
1 −1 1
= 𝛃 + (⏟n 𝐗 ′ 𝐏z 𝐗) (⏟n 𝐗 ′ 𝐏z 𝐮) (10.16)
(a) (b)
6
Ver el Apéndice de este capítulo.
276
−1
1 1 1 1 1
Plim ( 𝐗 ′ 𝐏z 𝐗) = Plim ( 𝐗 ′ 𝐙(𝐙 ′ 𝐙)−1 𝐙 ′ 𝐗) = Plim ( 𝐗 ′ 𝐙) Plim ( 𝐙 ′ 𝐙) Plim ( 𝐙 ′ 𝐗)
n n n n n
−1
1 1 1 1 1
Plim ( 𝐗 ′ 𝐏z 𝐮) = Plim ( 𝐗 ′ 𝐙(𝐙 ′ 𝐙)−1 𝐙 ′ 𝐮) = Plim ( 𝐗 ′ 𝐙) Plim ( 𝐙 ′ 𝐙) Plim ( 𝐙 ′ 𝐮)
n n n n n
= 𝐐XZ . 𝐐ZZ −1 . 𝟎 ≠ 𝟎
1
El último término Plim (n 𝐙 ′ 𝐮) = 𝟎 pues 𝐙 = [𝐗 2 | 𝐖] no está correlacionado con 𝐮
̂MC2E) = 𝛃.
Plim(𝛃
En la ecuación (10.9) podemos notar que si la Cov(Zi , Xi ) es cercana a cero, ocurrirá que
Plim β̂IV podría no tender al parámetro poblacional que se pretende estimar.
Adicionalmente, la varianza del estimador β̂IV se incrementará notablemente en
muestras finitas, haciendo que se pierda precisión en la estimación. Esto es conocido
como el problema de los instrumentos débiles, y se presenta cuando hemos elegido
277
instrumentos que tienen una correlación muy débil con el regresor endógeno7. Si tal
̂3 , lo cual invalidaría los
correlación es baja, no se obtendrá una buena predicción de 𝐗
resultados.
Figura 10.3
Distribuciones del estimador de Variables Instrumentales con
debilidad de los instrumentos
278
del procedimiento de dos etapas, según lo propuesto por Staiger y Stock (1997)8. La
“regla de oro” de Staiger y Stock aplicable para el caso de un solo regresor endógeno,
dice que si el estadístico F de significancia conjunta que prueba la hipótesis H0 : 𝛄2 = 𝟎
en la ecuación (10.12) es mayor a 10, entonces los instrumentos 𝐖 son relevantes.
Ejemplo 10.7: Se busca estudiar el efecto del número de hermanos sobre las
calificaciones escolares. Para ello se cuenta con la base de datos Evaluación Nacional
del año 2004 (EN 2004) realizada en todo el territorio peruano. Esta encuesta toma una
prueba estandarizada de rendimiento de matemáticas y comunicaciones a casi 13,000
alumnos de primaria y secundaria en más de 800 escuelas peruanas 9. Para fines de este
ejemplo, tomamos a los resultados de la prueba de matemáticas tomada a alumnos de
6to grado de primaria, siendo la muestra final de 11,554 niños. Las variables a ser
considerada en las estimaciones son: rend_mat = Score obtenido en la prueba
estandarizada, el cual toma valores en la muestra desde -10.37 a 580.65; nhermanos =
número de hermanos declarado por el niño; sexo = sexo del niño tomando el valor 1
para el varón y 0 para la mujer; edad = edad del niño; intemate_s = índice construido
sobre preguntas relacionadas al gusto o interés del niño por las matemáticas; nivpadre2-
nivpadre10 = Variables dummy sobre el nivel educativo del padre del niño, siendo loa
valores nivpadre2 = primaria incompleta, nivpadre3= primaria completa, nivpadre4 =
secundaria incompleta = nivpadre5 = secundaria completa, nivpadre6 = superior técnica
incompleta, nivpadre7 = superior técnica completa, nivpadre8 = superior universitaria
incompleta, y nivpadre9 = superior universitaria completa. Aunque la muestra de
EN2004 es a nivel nacional, tomaremos solamente los resultados de las zonas urbanas,
con lo cual el tamaño de la muestra se reduce a aproximadamente 9,000 niños.
El primer modelo a estimar toma a rend_mat como endógena, y a las demás variables
descritas como regresores. Para tener una idea de cómo se comportan nuestras variables
de interés, en la Figura 10.4 se muestran los respectivos histogramas de rend_mat y
nhermanos. La ecuación a estimar es
8
D. Staiger y J. H. Stock, “Instrumental variables regression with weak instruments,” Econometrica 65,
no. 3 (May 1997): 557-586.
9
La información de la encuesta está disponible libremente en el sitio http://umc.minedu.gob.pe/?p=211.
279
Figura 10.4
Histogramas de las variables de interés en la muestra
.008 .6
.006
.4
Densidad
Densidad
.004
.2
.002
0 0
0 200 400 600 0 5 10 15 20
Rendimiento en Matemática Número de hermanos
Se sospecha que nuestra variable de interés nhermanos puede ser endógena, pues la
cantidad de hermanos que un niño pueda tener estará relacionada con las preferencias de
los padres por los niños, las cuales a su vez podrían estar relacionadas con las
preferencias de los padres por la educación de los hijos. Por esa razón, nhermanos
puede estar correlacionada con la perturbación en el (10.17), si esta perturbación
contiene a variables de preferencias familiares, locales o regionales.
Para aliviar este problema, consideramos una estimación en dos etapas en donde los
instrumentos que usaremos son: difdist = diferencia entre la tasa global de fecundidad
de un distrito10 respecto a la correspondiente tasa del departamento, y radio =
10
Perú se organiza políticamente en 24 Departamentos y una provincia con el rango de departamento.
Estos departamentos se subdividen en provincias existiendo más de 300 de ellas. A su vez, las provincias
se dividen en distritos, existiendo en la actualidad más de 1800 distritos.
280
proporción de mujeres de 15 a 49 años que se informaron mediante la radio sobre
métodos de planificación familiar. El primer instrumento busca capturar algunas
preferencias locales por fecundidad, que podrían tener relación con el número de
hermanos, aunque quizás no necesariamente relación con el rendimiento escolar. Esta
variable fue calculada usando información del documento “Perú: Fecundidad y sus
Diferenciales por Departamento, Provincia y Distrito 2007” publicado por el Instituto
Nacional de Estadística e Informática. El segundo instrumento captura la difusión de
métodos de planificación familiar, a nivel departamental. Esta variable fue calculada
usando la Encuesta Demográfica y de Salud Familiar (ENDES 2005), realizada un año
después de la EN2004. No se disponía de esta información para años anteriores, aunque
es probable que se correlaciones con el regresor endógeno.
Tabla 10.1
Estimación por MCO de un modelo con (posiblemente)
problemas de endogeneidad
Robust
rend_mat Coef. Std. Err. t P>|t| [95% Conf. Interval]
11
Baum, C. F., M. E. Schaffer, and S. Stillman. 2007. ivreg2: Stata module for extended instrumental
variables/2SLS, GMM and AC/HAC, LIML, and k-class regression. Boston College Department of
Economics, Statistical Software Components S425401. Downloadable from
http://ideas.repec.org/c/boc/bocode/s425401.html.
281
La Tabla 10.2 muestra los resultados de la primera etapa del procedimiento bietápico en
detalle, considerando errores robustos con heterocedasticidad. Como puede observarse,
la primera etapa arroja un estadístico F de significancia de los instrumentos excluidos de
15.80. De acuerdo a la regla de oro, dado que F > 10, los instrumentos elegidos están
correlacionados con el supuesto regresor endógeno, por lo tanto son relevantes.
Tabla 10.2
Estimación de la Primera Etapa de MC2E
First-stage regressions
OLS estimation
Robust
nhermanos Coef. Std. Err. t P>|t| [95% Conf. Interval]
282
Tabla 10.3
Estimación de la Segunda Etapa de MC2E
IV (2SLS) estimation
Robust
rend_mat Coef. Std. Err. z P>|z| [95% Conf. Interval]
Instrumented: nhermanos
Included instruments: sexo edad intemate_s nivpadre2 nivpadre3 nivpadre4
nivpadre5 nivpadre6 nivpadre7 nivpadre8 nivpadre9 libros
Excluded instruments: difdist radio
Ejemplo 10.8: Problemas con instrumentos débiles. ¿Qué hubiera ocurrido si usáramos
instrumentos “débiles”? En esta ocasión, en vez de difdist y radio, usamos dos
instrumentos nuevos. El primero de ellos es el código numérico de cada alumno llamado
283
nombre, el cual es un valor al azar no relacionado el número de hermanos. El segundo
instrumento es una variable aleatoria normal con media cero y varianza 1, llamada
aleatorio. La correlación entre el nhermanos y nombre es -0.04 y con aleatorio es
− 0.0063 , en ambos casos una correlación muy cercana a cero.
La Tabla 10.4 muestra los resultados de la primera etapa en donde podemos observar
que el estadístico F de significancia conjunta de los instrumentos es apenas 0.17. Con
ello no se puede rechazar la hipótesis nula de instrumentos débiles.
Tabla 10.4
Estimación de la Primera Etapa de MC2E con Instrumentos Débiles
Robust
nhermanos Coef. Std. Err. t P>|t| [95% Conf. Interval]
Para notar que las estimaciones con instrumentos débiles son altamente imprecisas, la
Tabla 10.5 presenta los resultados de la segunda etapa. En esta tabla, el valor de la
estimación de nhermanos está bastante lejos de los resultados con instrumentos más
fuertes. Ahora el parámetro de interés es positivo y no significativo pues su desviación
estándar es muy grande, 143 puntos. Obsérvese que el intervalo de confianza va de -207
a 356 puntos, algo similar a lo que se observaba en la Figura 10.3 cuando los
instrumentos son débiles.
284
Tabla 10.5
Estimación de la Segunda Etapa de MC2E con un Instrumento Débil
IV (2SLS) estimation
Robust
rend_mat Coef. Std. Err. z P>|z| [95% Conf. Interval]
¿Por qué es importante que no estén correlacionadas con la perturbación? Como vimos
1
en (10.19), si Plim (n 𝐙 ′𝐮) ≠ 𝟎, el estimador de variables instrumentales es
inconsistente.
Las variables excluidas de la ecuación principal cumplen otro rol. Imaginemos que no
tenemos ninguna variable 𝐖 y pretendemos estimar por variables instrumentales
12
Supongamos que W sí debería ser considerado como un regresor de Y. El no especificarlo en (10.11)
implicaría que se le incluya en u, y por lo tanto esta perturbación estaría correlacionada con W.
285
̂2 en la primera
utilizando únicamente a las variables en 𝐗1 . Al hacer la predicción X
̂ 2 en la segunda etapa
etapa, está será una combinación lineal de 𝐗1 . Luego, al incluir X
̂ 2 en la ecuación
tendremos un problema de multicolinealidad perfecta entre 𝐗1 y X
(10.14). El hecho que se incluyan variables nuevas 𝐖 distintas a los instrumentos
incluidos 𝐗1 evita este problema de colinealidad, y por ello ayudan a la identificación
de las estimaciones.
Presentaremos algunos tests cuyo espíritu tiene que ver con la validez de la exclusión de
𝐖 de la ecuación principal asignándoles un valor de cero a sus hipotéticos parámetros
(restricciones de exclusión).
13
Sargan, J. (1958). The estimation of economic relationships using instrumental variables. Econometrica
26(3): 393–415.
14
Hansen, L. (1982). Large sample properties of generalized method of moments estimators.
Econometrica 50(3): 1029–1054.
286
Ejemplo 10.9: En el ejemplo 10.7 es posible aplicar el test de Sargan (o Hansen) por ser
un caso con más instrumentos que regresores endógenas (llamado caso
sobreidentificado). En la Tabla 10.6 se presenta este test de endogeneidad de los
instrumentos de Hansen, realizado en forma manual.
Tabla 10.6
Test de exogeneidad de los instrumentos
. quietly ivreg2 rend_mat (nhermanos = difdist radio) sexo edad intemate_s nivpadre2-ni
> vpadre9 libros [aweight=pesomate], r
. quietly reg resid sexo edad intemate_s nivpadre2-nivpadre9 libros difdist radio if ar
> ea==1 [aweight=pesomate],r
( 1) difdist = 0
( 2) radio = 0
F( 2, 8716) = 0.50
Prob > F = 0.6067
. scalar J=2*r(F)
. di J
.99944605
287
que se comportarían en forma distinta de ser cierta o no la hipótesis nula que van a
probar. En el caso que nos ocupa, los estimadores alternativos son el de MCO y el de
MC2E (variables instrumentales). Si todos los regresores son exógenos (hipótesis nula),
entonces tanto MCO como MC2E son consistentes pero MCO es más eficiente. Por otro
lado, si hay regresores endógenos (hipótesis alternativa), solamente MC2E es
consistente. Luego, el estadístico H de Hausman responde a la siguiente formulación.
̂MCO y 𝛃
Sea 𝛃 ̂VI los vectores de estimadores mencionados con sus respectivas matrices
̂MCO) y Var(𝛃
de varianzas y covarianzas Var(𝛃 ̂VI ); el estadístico debido a Hausman
(1978) es15
H = n. (𝛃 ̂ MCO)′D−(𝛃
̂VI − 𝛃 ̂VI − 𝛃
̂MCO)
̂VI ) − Var(𝛃
donde D = Var(𝛃 ̂MCO), y D− es la inversa generalizada de D. Bajo la nula,
H se distribuye asintóticamente como una Chi cuadrado con un grado de libertad (el
número de regresores endógenos). Valores pequeños de H nos llevarían a pensar que no
hay mucha variación entre los estimadores por ambos métodos, y por ello sería
conveniente usar MCO en vez de MC2E (los regresores son exógenos).
Ejemplo 10.10: Para realizar el test de Hausman en Stata en los ejemplos anteiores,
realizamos estimaciones de los parámetros y de las matrices de varianzas y covarianzas.
Luego se construye el estadísticos de Hausman. En la Tabla 10.7 realizamos los pasos,
en donde se obtiene que la diferencia entre los coeficientes MCO y MC2E es
significativa, lo cual es una señal que el estimador MCO está siendo sesgado por la
endogeneidad del regresor.
15
Hausman, J. (1978). Specification tests in econometrics. Econometrica 46(6): 1251–1271. Seguimos la
exposición de Baum, Schaffer y Stillman (2003). Instrumental Variables and GMM: Estimation and
Testing. Stata Journal, Vol 3, N°1, pp. 1-31.
288
Tabla 10.7
Test de Hausman de endogeneidad de los regresores
. quietly ivreg2 rend_mat (nhermanos = difdist radio) sexo edad intemate_s ///
> nivpadre2-nivpadre9 libros [aweight=pesomate]
.
. quietly regress rend_mat nhermanos sexo edad intemate_s ///
> nivpadre2-nivpadre9 libros [aweight=pesomate]
Coefficients
(b) (B) (b-B) sqrt(diag(V_b-V_B))
mc2e mco Difference S.E.
chi2(13) = (b-B)'[(V_b-V_B)^(-1)](b-B)
= 47.73
Prob>chi2 = 0.0000
289
Apéndice 10.1
∑(Xi − ̅
X)(Zi − Z̅) ∑[(Xi − μX ) + (μX − ̅
X)][(Zi − μZ ) + (μZ − Z̅)]
SXZ = =
n−1 n−1
1
= ∑[(Xi − μX )(Zi − μZ ) + (X i − μX )(μZ − Z̅) + (μX − ̅
X)(Zi − μZ ) + (μX
n−1
−̅X)(μZ − Z̅)]
n 1 n 1
= ( ∑(Xi − μX )(Zi − μZ )) + ( ∑(Xi − μX )(μZ − Z̅))
n−1 n n−1 n
n 1 n 1
+ ( ∑(μX − ̅ X)(Zi − μZ )) + ( ∑(μX − ̅ X)(μZ − Z̅))
n−1 n n−1 n
n 1 n
= ( ∑(Xi − μX )(Zi − μZ )) + ̅ − μX )(μZ − Z̅))
((X
n−1 n n−1
n n 1
+ ((μX − ̅X)(Z̅ − μZ )) + ( ∑(μX − ̅ X)(μZ − Z̅))
n−1 n−1 n
n 1
PlimSXZ = lim ( ) . {Plim ( ∑(Xi − μX )(Zi − μZ ))
n→∞ n − 1 n
̅) − μX )(μZ − Plim(Z̅)) + (μX − Plim(X
+ (Plim(X ̅))(Plim(Z̅) − μZ )}
Como Plim(̅
X) = μX y Plim(Z̅) = μZ, aplicando la ley débil de los grandes números
ocurre que
Apéndice 10.2
290
En este apéndice vamos a generalizar lo que se obtuvo en la sección 10.3. Consideremos
el modelo lineal de k variables 𝐲 = 𝐗𝛃 + 𝐮 en donde algunos de los regresores están
correlacionados con 𝐮 (regresores endógenos) mientras que otros no lo están (regresores
estrictamente exógenos). Supongamos que contamos con 𝑙 variables instrumentales 𝐙 =
[Z1 , Z2 , … , Z𝑙 ], donde algunas de las variables en 𝐙 podrían ser las mismas que los
regresores exógenos. Esta matriz 𝐙 es de dimensión n × 𝑙.
(a) Condición de relevancia: Las variables en 𝐙 están correlacionadas con los regresores
en 𝐗,
1
Premultiplicamos el modelo lineal por ( ) 𝐙 ′ , y luego tomando Plim16,
𝑛
1 ′ 1 1
𝐙 𝐲 = 𝐙 ′𝐗𝛃 + 𝐙 ′𝐮
𝑛 𝑛 𝑛
1 1 1
Plim ( 𝐙 ′𝐲) = Plim ( 𝐙 ′ 𝐗) 𝛃 + Plim ( 𝐙 ′𝐮)
𝑛 𝑛 ⏟ 𝑛
=0 pues no están
correlacionados
1 1
Plim ( 𝐙 ′𝐲) = Plim ( 𝐙 ′𝐗) 𝛃 (A.10.1)
𝑛 𝑛
1
Observando las dimensiones de las matrices en (A.10.1), Plim (𝑛 𝐙 ′𝐗) es de dimensión
1
𝑙 × 𝑘, y Plim (𝑛 𝐙 ′𝐲) es de dimensión 𝑙 × 1. Si 𝑙 = 𝑘, es decir si el número de variables
1
instrumentales es igual al número de regresores del modelo, entonces Plim (𝑛 𝐙 ′ 𝐗) sería
1 −1 1
𝛃 = [Plim (𝑛 𝐙 ′ 𝐗)] Plim (𝑛 𝐙 ′𝐲). (A.10.2)
291
̂VI = (𝐙 ′𝐗)−1 𝐙 ′𝐲
𝛃 (A.10.3)
1 1
donde 𝐐ZX = Plim (𝑛 𝐙 ′ 𝐗), y 𝐐ZZ = Plim (𝑛 𝐙 ′ 𝐙). En la práctica, la varianza asintótica
𝐞𝐞 ′
̂VI se estima con 𝐴𝑉𝑎̂𝑟(𝛃
de 𝛃 ̂VI) = σ
̂2 (𝐙 ′ 𝐗)−1 (𝐙 ′𝐙)(𝐗 ′ 𝐙)−1, con σ
̂2 = .
n
Apéndice 10.3
Yi = β
⏟1 + β2 X2i + ⋯ + βk1 X k1 i + β
⏟(k1+1 ) X(k1 +1)i + βkXk + ui (A.10.4)
(no correlacionados con ui ) (correlacionados con ui )
𝐲 = 𝐗1 𝛃1 + 𝐗 2 𝛃2 + 𝐮 (A.10.4’)
292
Al igual que en el Apéndice 10.2, supongamos que contamos con variables
instrumentales 𝐙, las que se dividen en dos tipos, 𝐙 = [𝐗1 | 𝐖], en donde queda
explícito que se consideran a las variables 𝐗1 no correlacionadas con la perturbación
(llamadas instrumentos incluidos en la regresión), y a un nuevo grupo de m variables 𝐖
que cumple las condiciones de relevancia y exogeneidad de las variables instrumentales.
Estas variables son llamadas instrumentos excluidos de la regresión pues no figuran en
la ecuación (A.10.4).
Primera Etapa: Regresionar por MCO cada uno de los “regresores endógenos” 𝐗 2
contra todas las variables en 𝐙 = [𝐗1 | 𝐖]. Explícitamente se realizan 𝑘2
regresiones
X(k1 +1)i = γ1 + γ2 X2i + ⋯ + γk1 Xk1 i + γ(k1 +1)W1i + γ(k1 +2)W2i + ⋯ + γk Wmi + ξ1i
X(k1 +2)i = γ1 + γ2 X2i + ⋯ + γk1 Xk1 i + γ(k1 +1) W1i + γ(k1 +2) W2i + ⋯ + γk Wmi + ξ2i
X(k1 +k2 )i = γ1 + γ2 X2i + ⋯ + γk1 Xk1 i + γ(k1 +1) W1i + γ(k1 +2) W2i + ⋯ + γk Wmi + ξk2 i
̂(k +1)i , X
y se calculan las predicciones X ̂(k +2)i , … , X
̂(k +k )i . En forma matricial, las
1 1 1 2
𝐗 2 = 𝐗1 𝛄1 + 𝐖𝛄2 + 𝐯 = 𝐙𝛄 + 𝐯 (A.10.5)
̂2 = 𝐙(𝐙 ′𝐙)−1 𝐙 ′𝐗 2 = 𝐏𝒁 𝐗 𝟐
𝐗 (A.10.6)
293
donde 𝐏𝑍 = 𝐙(𝐙 ′𝐙)−1 𝐙 ′ es la matriz de proyección.
̂ 2 𝛃2 + 𝛈.
𝐲 = 𝐗1 𝛃1 + 𝐗 (A.10.7)
̂ = [𝐗1
Si llamamos 𝐗 | ̂2 ], el estimador MCO del vector de parámetros 𝛃 en
𝐗
(A.10.7) es el estimador MC2E,
̂𝑴𝑪𝟐𝑬 = (𝐗
𝛃 ̂)−𝟏 𝐗
̂′ 𝐗 ̂𝐲 (A.10.8)
̂ = [𝐗 1
Notemos que 𝐗 ̂ 2 ] = [𝐗
| 𝐗 ̂1 | ̂1 = 𝐙(𝐙 ′𝐙)−1 𝐙 ′ 𝐗 𝟏 = 𝐏𝑍 𝐗1 =
̂2 ] donde 𝐗
𝐗
𝐗1 es la proyección de las regresiones de 𝐗1 contra 𝐙, y que es igual a 𝐗1 pues 𝐙
̂=
contiene a estas variables17. Con este resultado y (A.10.6) se tiene 𝐗
[𝐏𝑍 𝐗1 | 𝐏𝑍 𝐗 2 ] = 𝐏𝑍 𝐗. Luego reemplazando este resultado en (A.10.8),
Nótese que (A.10.9) es más general que lo presentado en el apéndice anterior pues es
válido para 𝑙 ≥ k. Si 𝑙 = k, (A.10.9) se reduce a (A.10.3).
Apéndice 10.4
̂ = [𝐗1
Mostraremos que 𝐗 | ̂ 2 ] = [𝐗
𝐗 ̂1 | ̂2 ]. Si regresionamos 𝐗1 contra 𝐙.
𝐗
𝐗1 = 𝐙𝛂 + 𝛆
𝐗1 = 𝐗1 𝛂1 + 𝐙2 𝛂2 + 𝛆
Por lo tanto,
17
En el Apéndice 10.4 se muestra este resultado en detalle.
294
̂1 = 𝐗1 𝛂
𝐗 ̂ 1 + 𝐙2 𝛂
̂ 2 = 𝐗1
̂1 = 𝐙(𝐙 ′𝐙)−1 𝐙 ′𝐗1 = 𝐏Z𝐗1 = 𝐗1 𝛂
𝐗 ̂ 1 + 𝐙2 𝛂
̂ 2 = 𝐗1
Apéndice 10.5
′
̂ VV = 𝐗 ⊥
en donde 𝐙 ⊥ = 𝐌𝐗1𝐙, 𝐌𝐗1 = 𝐈 − 𝐗1 (𝐗1′ 𝐗1 )−𝟏 𝐗1′ , ∑ ⊥ ⊥
2 𝐌Z⊥ 𝐗 2 /(n − m), 𝐗 2 =
18
Stock, James y Motohiro Yogo (2002), “Testing for weak instruments in linear IV regressions”, NBER
Technical Working Paper N° 284, Cambridge, MA.
19
J.S. Cragg y S.G. Donald, “Testing identifiability and specification in instrumental variable models,”
Econometric Theory 9, (1993): 222-240.
295
Ejercicios
10.1 Usted cuenta con datos de corte transversal para un gran número de empresas (n)
sobre la producción de ellas y los insumos utilizados. Con estos datos se desea
estimar la función de producción Yi = β0 + β1 Xi + ui donde Yi
=log(producto de la empresa i) y Xi =log(insumos de la empresa i). Suponga que
1
usted estima por MCO este modelo asumiendo que Plim (n 𝐗 ′ 𝐮) = 𝟎 y
1
Plim (n 𝐗 ′ 𝐗) = 𝐐𝑋𝑋 , una matriz positiva definida, finita, y no estocástica.
1
Un amigo suyo piensa que el supuesto Plim ( 𝐗 ′ 𝐮) = 𝟎 no se cumple pues el
n
Modelo completo : yi = β0 + β1 Xi + β2 Di + β3 Zi + ui
Modelo incompleto : yi = β0 + β1 Xi + β2 Di + ξi
Ei = πX + ∑Yi δc + ∑ ∑ Q ij Q jc + vi
c j
20
Véase también Cameron y Trivedi (2005), pág. 39.
21
Angrist y Krueger (1991) pp. 1000
297
MCO VI
Coeficiente 0.063 0.081
Error Estándar (0.000) (0.016)
F(instrumentos excluidos) -- 4.747
MCO VI
Coeficiente 0.063 0.142
Error Estándar (0.000) (0.033)
F (instrumentos excluidos) 13.486
22
Bound, Jaeger y Beker (1995) pp. 447- 448
23
Black, Devereux y Salvanes (2005) pp. 681
298
a. Discuta la validez del instrumento elegido.
b. Por otro lado, los autores usan otra variable instrumental SAME SEX para
FAMSIZE, que toma el valor de 1 si los dos primeros niños de una familia son
del mismo sexo, y 0 si son de sexo distinto. Discuta las ventajas y desventajas
de este instrumento con respecto a TWIN.
10.7 En el Ejemplo 10.6, comprobar que el instrumento Z ≡ it−2 − πt−1 está
correlacionado con el regresor pero no está correlacionado con la perturbación del
modelo estimable Δ𝑆𝑡 = β1 + β2 (it−1 − πt ) + 𝑤𝑡 .
299