You are on page 1of 195

ECONOMETRÍA

APUNTES
DE CLASE

Profesores:

Verónica Gil Aroztegui


Aldo Lema Navarro

Agosto 2004
Pontificia Universidad Católica de Chile

Estos apuntes están en permanente revisión por lo cual sugerencias o correcciones serán bienvenidas.
E-mails: vgila@afpprovida.cl y alema@security.cl
1

INDICE

1. INTRODUCCIÓN............................................................................................................................................ 1
1.1 ORÍGEN Y CONCEPTO ....................................................................................................................................1
Definiciones................................................................................................................................................................ 1
Diferencias entre un econometrista y un estadístico:......................................................................................... 2
1.2 MODELO ECONOMÉTRICO. .........................................................................................................................2
1.3 OBJETIVOS DE LA ECONOMETRÍA ...........................................................................................................3
1.4 METODO DE LA ECONOMETRÍA. ..............................................................................................................3
1.5 DATOS, VARIABLES Y MODELOS. ............................................................................................................5
DATOS. ....................................................................................................................................................................... 5
RELACIONES............................................................................................................................................................ 7
VARIABLES................................................................................................................................................................ 7
FORMAS FUNCIONALES (Introducción) ........................................................................................................... 8
A NEXO 1: RECORDANDO DE INFERENCIA .....................................................................................................................9
Variable Aleatoria..................................................................................................................................................... 9
Notación:..................................................................................................................................................................... 9
Distribución de Probabilidades.............................................................................................................................. 9
A NEXO 2: UN REPASO DE MATRICES .................................................................................................................11
3.1.1 Operaciones matriciales:.............................................................................................................................11
3.1.2 Valores y vectores propios...........................................................................................................................16
3.2 A LGUNOS EJERCICIOS DE M ATRICES..................................................................................................................19
3.2.1 Operaciones con matrices............................................................................................................................19
3.2.2 Determinantes...............................................................................................................................................19
3.2.3 Matriz Inversa ...............................................................................................................................................20
3.2.4 Valores y Vectores propios..........................................................................................................................20

2. REGRESIÓN SIMPLE..............................................................................................................................22
2.1 EL M ÉTODO DE MÍNIMOS CUADRADOS ORDINARIOS (MICO). .......................................................................22
2.1.1 Definición de análisis de regresión............................................................................................................22
2.1.2 Especificación de la Regresión Simple......................................................................................................23
2.1.3 Ejemplo:..........................................................................................................................................................23
2.1.4 Fuentes de Error µ ........................................................................................................................................25
2.1.5 Función de regresión poblacional y muestral.........................................................................................25
2.1.6. MICO para una regresión simple..............................................................................................................29
ˆ ˆ
2.1.7 Ejemplo de cálculo de β1 y β 2 ..................................................................................................................31
2.1.8 Expresión de las formulas en desvíos........................................................................................................32
2.1.9 Corolarios de los estimadores MICO. .......................................................................................................33
2.1.10. Coeficiente de determinacion (R2)..........................................................................................................38
2.1.11 Algunas Regresiones Particulares...........................................................................................................40
2.1.12. ¿Cómo seleccionar entre estimadores? .................................................................................................42
S
2.2 UPUESTOS CLÁSICOS DEL M ODELO DE REGRESIÓN. .....................................................................................45
1. La variable explicativa X está dada (es no estocástica o no aleatoria)..............................................46
2. E(µi /Xi)=0 ∀ i ...............................................................................................................................................46
3. No autocorrelación ⇒ Cov( µi , u j)=0 i≠j...............................................................................................46
4. Homocedasticidad ⇒ V(µi /Xi )=σ2...........................................................................................................48
5. El modelo está bien especificado...............................................................................................................49
6. Normalidad ⇒ µi ∼N( 0 , σ2 ) ..................................................................................................................49

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
2

2.3 P ROPIEDADES ESTADÍSTICAS DE LOS ESTIMADORES M ICO .............................................................................49


2.3.1 Linealidad.................................................................................................................................................50
2.3.2 Insesgamiento...........................................................................................................................................50
2.3.3 Eficiencia..................................................................................................................................................52
2.4 INFERENCIA ESTADÍSTICA EN EL M ODELO DE REGRESIÓN LINEAL SIMPLE ..................................................62
2.4.1 Repaso Breve de algunos teoremas de Inferencia...................................................................................62
2.4.2 ¿Qué Consecuencias tiene suponer µi ~ N(0, σ2 )? .................................................................................65
2.4.3 Intervalos de Confianza para β1 y β2 . ....................................................................................................67
2.4.4 Prueba de hipótesis......................................................................................................................................68
2.4.5 Recordando de inferencia:...........................................................................................................................70
2.4.6 Ejemplos de Test De Hipótesis....................................................................................................................71
2.5 A NALISIS DE VARIANZA.......................................................................................................................................76
Grados de Libertad.................................................................................................................................................78
2.6 P RUEBA DE NORMALIDAD......................................................................................................................................80
3. MODELO DE REGRESIÓN MULTIPLE ..........................................................................................................81
3.1 DEFINICIONES ...................................................................................................................................................81
• Modelo de regresión poblacional múltiple...............................................................................................81
• Modelo de regresión muestral múltiple....................................................................................................82
3.2 ESTIMADORES MICO ......................................................................................................................................84
3.2.1 Primera forma de derivación.....................................................................................................................84
3.2.2 Otra forma de encontrar β̂ ...................................................................................................................87
3.2.3 Deducción de los estimadores MICO en el modelo simple...................................................................89
3.2.4 Una interpretación de los estimadores MICO. ......................................................................................93
3.2.5 Corolarios de los Estimadores MICO ......................................................................................................95
3.3 SUPUESTOS CLÁSICOS.........................................................................................................................................101
Explicación.............................................................................................................................................................102
3.4 PROPIEDADES ESTADÍSTICAS DE LOS ESTIMADORES MICO..........................................................................105
3.5.1 Linealidad....................................................................................................................................................105
3.5.2 Insesgamiento..............................................................................................................................................105
3.5.3 Eficiencia......................................................................................................................................................105
3.5.4 Consistencia.................................................................................................................................................111
3.6 INFERENCIA EN EL M ODELO GENERAL...............................................................................................................112
3.6.1 Distribución de β̂ ......................................................................................................................................112
3.6.2 Distribuciones derivadas de µ...................................................................................................................112
e' e
3.6.3 Distribución de .................................................................................................................................113
σ2
3.6.4 Prueba de Hipótesis en el Modelo Múltiple............................................................................................115
3.5.5 Test General Para Probar Restricciones Lineales de Parámetros.....................................................117
3.5.6 Estabilidad y Cambio Estructural ............................................................................................................123
3.6 PREDICCION ......................................................................................................................................................131
• ¿Cuál es el valor esperado del error de predicción?...........................................................................132
• ¿Cuál es la varianza de e0 ?.......................................................................................................................132
• ¿Cómo se distribuye e0 ? ............................................................................................................................133
• Intervalo de confianza para el error de predicción..............................................................................133
• Intervalo de confianza para Y0.................................................................................................................134

4. VARIABLES FICTICIAS O DUMMY O BINARIAS O DICOTÓMICAS .............................................135


4.1 MODELOS ALTERNATIVOS. .......................................................................................................................135
Ejemplo 1: Unica Variable Explicativa es una variable dummy. .................................................................135

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
3

Ejemplo 2: Una variable cualitativa y otra cuantitativa................................................................................136


Ejemplo 3: Dos variables cualitativas...............................................................................................................137
Ejemplo 4: Interacción entre una variable cuantitativa y una cualitativa..................................................137
Ejemplo 5: Variables Cualitativas Politómicas...............................................................................................138
4.2 VARIABLES DUMMY PARA DESESTACIONALIZAR.........................................................................140
4.3 VARIABLES DUMMY PARA DETECTAR CAMBIO ESTRUCTURAL............................................143
4.4 VARIABLES DUMMY PARA CORREGIR OUTLIERS. ........................................................................145

5. MULTICOLINEALIDAD ....................................................................................................................................147
5.1 INTUICIÓN ..........................................................................................................................................................147
5.2 TIPOS DE MULTICOLINEALIDAD.............................................................................................................148
Multicolinealidad perfecta...................................................................................................................................148
Multicolinealidad imperfecta..............................................................................................................................150
¿Por qué importa el determinante?....................................................................................................................151
5.3 EFECTO DE LA MULTICOLINEALIDAD A NIVEL EMPÍRICO ........................................................152
En el modelo con dos variables explicativas...................................................................................................152
En el Modelo General...........................................................................................................................................152
Efectos prácticos de la multicolinealidad:........................................................................................................153
5.4 FORMAS DE DETECTAR LA MULTICOLINEALIDAD.........................................................................153
Por sus efectos sobre los test...............................................................................................................................153
5.5 FORMAS DE SOLUCIONAR LA MULTICOLINEALIDAD ...................................................................154
No hacer nada........................................................................................................................................................154
Incorporar información adicional......................................................................................................................154
6. HETEROCEDASTICIDAD ...................................................................................................................................157
6.1 ¿CÓMO SE AFECTAN LAS PROPIEDADES DEL ESTIMADOR MICO CUANDO EXISTE
HETEROCEDASTICIDAD? ....................................................................................................................................158
¿Qué ocurre si se estima por MICO sin tener en cuenta la heterocedasticidad?......................................160
6.2. M ÉTODO DE M ÍNIMOS CUADRADOS GENERALIZADOS................................................................................160
Derivación de MCG en el caso simple ..............................................................................................................162
Derivación de MCG en el caso múltiple...........................................................................................................162
6.3. ¿CÓMO DETECTAR LA HETEROCEDASTICIDAD? ..........................................................................163
• Naturaleza del problema:..........................................................................................................................164
• Método gráfico:...........................................................................................................................................164
• Prueba de Park............................................................................................................................................164
• Prueba de Glesjer .......................................................................................................................................164
• Goldfeld - Quant .........................................................................................................................................165
• Test de White. ..............................................................................................................................................166
6.4 ¿CÓMO SOLUCIONAR HETEROCEDATICIDAD? ..............................................................................166
Ejemplo en caso general......................................................................................................................................167
7. AUTOCORRELACIÓN.........................................................................................................................................169
7.1 INTRODUCCIÓN ................................................................................................................................................169
7.2 CAUSAS MÁS FRECUENTES DE AUTOCORRELACIÓN ....................................................................170
Ciclos o tendencias en las variables,.................................................................................................................170
Autocorrelación espacial,....................................................................................................................................170
Influencia prolongada de shocks:.......................................................................................................................170
Inercia:....................................................................................................................................................................170
Mala especificación..............................................................................................................................................170
Quiebre o cambio estructural..............................................................................................................................171
7.3 ALGUNAS DEFINICIONES .............................................................................................................................172
Autocovarianza ......................................................................................................................................................172

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
4

Coeficiente de Autocorrelación...........................................................................................................................172
EJEMPLO...............................................................................................................................................................172
7.4 PROPIEDADES DE LA ESTIMACIÓN MICO BAJO AUTOCORRELACIÓN ...................................175
7.5 ¿CÓMO DETECTAR AUTOCORRELACIÓN ?...........................................................................................................176
Método gráfico:.....................................................................................................................................................176
Estadístico de Durbin-Watson (1951)................................................................................................................176
Test de Breusch - Godfrey (1978).......................................................................................................................179
Ejemplo de utilización de los test en Eviews....................................................................................................179
7.6 FORMAS DE CORREGIR POR AUTOCORRELACION ......................................................................181
7.6.1 Conozco la forma de la autocorrelación y conozco ρ.....................................................................181
7.6.2 . No conocemos ρ...............................................................................................................................184
8. ESPECIFICACION DE MODELOS ...................................................................................................................186
8.1 ATRIBUTOS DE UN BUEN MODELO .........................................................................................................186
8.2 TIPO DE ERRORES DE ESPECIFICACIÓN................................................................................................186
8.3 CONSECUENCIAS DE LOS ERRORES DE ESPECIFICACIÓN. .........................................................186
8.3.1 Variables Omitidas......................................................................................................................................186
8.3.2 Inclusión de una Variable Irrelevante (Variables Intrusas)................................................................189
Conclusión para Especificar Modelos...............................................................................................................190

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
1

1. INTRODUCCIÓN
1.1 ORÍGEN Y CONCEPTO
Algunos economistas ⇒ Europa S. XIX
Otros ⇒ S. XX (como movimiento organizado)
1930 ⇒ fundación de la Sociedad Econométrica (Revista, 1933)

La Econometría se nutre de:


• Economía (“Teoría”)
• Matemáticas (“especificaciones” y “tools”)
• Estadística (“Técnicas”)

Definiciones.
• “Es lo que hacen los econometristas”
• Etimológicamente: “Economía Medida”
Sin embargo, este es un concepto vago, porque medir el PIB, el empleo, la oferta de
dinero, etc., no es econometría. El concepto es más amplio que este.
• Maddala:
“Es la aplicación de métodos estadísticos y matemáticos al análisis de los datos
económicos con el propósito de otorgar contenido empírico a las teorías económicas,
verificándolas o refutándolas”
• Kennedy:
“ Los desacuerdos permitirían escribir un paper”
La confusión proviene de que los econometristas son al mismo tiempo:
i) Economistas: interpretan (o crean teoría) para probar empíricamente.
ii) Matemáticos: formulan matemáticamente su teoría
iii) Estadísticos aplicados: buscando datos para sus variables y gastando horas
frente al computador tratando de estimar relaciones económicas y prediciendo.
iv) Estadísticos teóricos: aplicando su habilidad para desarrollar técnicas
estadísticas apropiadas a los problemas empíricos.
• La econometría no significa lo mismo que estadística económica, tampoco es lo que
conocemos como teoría económica, ni es la aplicación de las matemáticas a la
economía. Econometría es la unificación de estas tres áreas.

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
2

Diferencias entre un econometrista y un estadístico:


La preocupación del econometrista está en los problemas causados por la violación de
“supuestos estadísticos clásicos”; la naturaleza de las relaciones económicas y la falta de
“experimentos controlados”

1.2 MODELO ECONOMÉTRICO.

i) MODELO: representación simplificada de la realidad, recurriendo a un número


limitado de conceptos formalizados.
Críticas:
• Sobre-simplificación. El contra-argumento es que se puede partir con un modelo
sencillo y luego complicarlo.
• Supuestos poco realistas. Sin embargo, se podría argumentar como lo hace
Friedman, que lo importante no es cuán reales sean los supuestos, sino que tan
buenos son como aproximación al fenómeno a explicar.
• Se basa en un número limitado de “datos”
ii) MODELO ECONÓMICO, conjunto de supuestos que aproximadamente describen
el comportamiento de una economía (o de un sector)
Ej. La función de producción Cobb-Douglas, Y= A KαLβ , establece la relación
exacta, deterministica, que existe entre los insumos y el producto, basándose en una
serie de supuestos. Pero, si quisiéramos testear cuán bueno es este modelo para
explicar la evolución del PIB en Chile, tendríamos algunos problemas.
Sin importar lo sofisticado que sea nuestro modelo de producción, no nos servirá
para explicar hechos como la caída de la producción por inundación o sequía, los
momentos de huelga, etc.
Para poder testear este modelo, es necesario incorporarle elementos estocásticos.
Esto lo convertirá de un modelo económico en uno econométrico.
iii) MODELO ECONOMÉTRICO: es un set de ecuaciones de comportamiento
derivadas de un modelo económico que involucra:
- variables observables
- elementos estocásticos o shocks, que recogen errores de medición en las
variables observadas y factores que no pueden ser recogidos por el modelo.
Esto hace que la variable objetivo varíe no sólo porque lo hacen las variables
explicativas, sino por cierta aleatoriedad del comportamiento humano o del
contexto.
El modelo determinístico ⇒ Y= A KαLβ se transforma en
El modelo econométrico ⇒ Y= A KαLβ eµ

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
3

El término eµ será una variable aleatoria con determinadas propiedades que veremos
en el curso, por lo que deberemos especificar la distribución de probabilidad de µ y
las consecuencias de estas sobre la estimación.

1.3 OBJETIVOS DE LA ECONOMETRÍA

i) Formulación de modelos econométricos (o sea modelos económicos en una forma


testeable empíricamente). Objetivo: DESCRIPTIVO⇒ representar la realidad
Usualmente hay diversas formas de formular un modelo econométrico a partir de un
modelo económico ya que debe elegirse ⇒ forma funcional
⇒ especificación de la estructura
estocástica de las variables, etc.
ii) Estimar y testear los modelos con datos. Objetivo: INTERPRETAR.
iii) Usar los modelos con fines predictivos y de política.

De lo anterior se infiere que LA ECONOMETRIA


⇒ ¿Es una ciencia?
⇒ Aplicación de modelos estadísticos para intentar verificar modelos económicos que
representan el funcionamiento de la economía

1.4 METODO DE LA ECONOMETRÍA.


i) Diagrama que resume la Metodología de la econometría (Cuadro 1)
1. Teoría
Económica o
Modelo
Económico

3.Información 2. Modelo
apriori Econométrico 4. Datos

5. Estimación
del Modelo

6. Testeo de
Hipótesis
sugeridas por
el Modelo
Económico

7.Predicción y
Políticas

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
4

Para el ejemplo que veíamos antes:


1. Y=AK αLβ

3. Revisión de
resultados 2. Y=AK αLβ eµ 4. Conseguir
los datos de
obtenidos en PIB (Y) y
otros estudios 5. Estimación de α
Empleo (L)
similares, yβ del Banco
nacionales e Central.
internacionales 6. Verifico hipótesis Construir una
respecto a los serie de
parámetros. Ej: Test capital (K).
α+β=1

7. Predicción: dadas las estimaciones de K y L, cual será el PIB del


próximo año

ii) Críticas:
- Hay feedback entre 1 y 6 (no es cierto que sólo se “testean teorías”)
- Hay feedback entre 2 y 5 con 3 (también hay aportes en datos)
- Hay feedback entre 6 y 2 (como resultado de los test econométricos es posible
replantear modelos econométricos)
Por tanto hay retroalimentación (Cuadro 2)
Teoría Económica

Modelo Econométrico Datos

Estimación

Pruebas de Especificación y
examen de Diagnóstico
no

¿Es el modelo adecuado?

si

Prueba de alguna hipótesis

Uso del modelo para predicción y políticas

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
5

⇒ los resultados econométricos influyen en la teoría


⇒ del modelo econométrico hacia los datos
⇒ De los test de especificación hacia la revisión de la especificación del modelo.

¿Qué constituye un test para la teoría económica?


- Signos de los coeficientes son correctos. Problema: diferentes estudios
econométricos llegan a conclusiones contradictorias.
- El test más válido: “que una teoría económica genere mejores predicciones que
una alternativa”.
- Estabilidad de los coeficientes estimados (Crítica de Lucas).
- IMPORTANTE: La econometría no es un elemento para derribar teorías, sino
para conocer la realidad, y ver si los datos que tenemos se ajustar a la teoría.
- SI LOS DATOS NO SE AJUSTAN LO ÚNICO QUE SE PUEDE DECIR
ES QUE ESTOS DATOS NO VERIFICAN LA TEORÍA.
- Error muy común: concluir que la equivocada es la realidad, si esta no coincide
con el modelo.
- Sin embargo pueden haber ciertas fuentes de error en la elaboración del
modelo:
- El modelo no se ajusta a la realidad.
- Mala formulación del modelo
- No se dispone de buena cantidad y/o calidad de datos.

1.5 DATOS, VARIABLES Y MODELOS.


DATOS.
Hay tres tipos:
i. Datos de cross-section (sección cruzada): son observaciones de una variable para
varias unidades individuales en un momento de tiempo. Por ejemplo, la tasa de
crecimiento del PIB para el año 1991, para distintos países de América Latina.
1991
ARGENTINA 8.9
BOLIVIA 5.1
BRASIL 0.3
CHILE 6.8
COLOMBIA 1.8
ECUADOR 4.9
MEXICO 3.6
PARAGUAY 2.3
PERU 2.6
URUGUAY 3.2
VENEZUELA 9.7

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
6

ii. Datos de series temporales: son observaciones de una determinada variable a lo


largo de cierto período de tiempo. Por ejemplo en PIB del período 1976-1997

PIB de CHILE a precios constantes


(escala logarítmica)

17.6

17.2

16.8

16.4

16.0

15.6
60 65 70 75 80 85 90 95 00

iii. Pool-Data: es la mezcla de datos de cross-section y series temporales. Ejemplo:


tasas de crecimiento de varios países de América Latina en el período 1991-1995.
Un tipo especial son los datos de panel (Panel Data), donde a la unidad de corte
transversal se la sigue en el tiempo.

1999 2000 2001 2002 2003

Argentina -3.1 -0.5 -4.4 -10.9 8.4


Brasil 1.0 4.5 1.5 1.6 0.0
Colombia -4.5 2.8 1.4 1.5 3.3
Chile -1.0 4.4 2.8 2.1 3.5
México 3.5 6.9 -0.3 0.9 1.1
Perú 3.8 3.6 0.2 5.2 4.0
Venezuela -7.2 3.2 2.7 -8.9 -10.0
Ecuador -7.3 2.3 5.6 3.4 2.3
Guatemala 3.8 3.6 1.8 2.3 2.5
Rep.Dominicana 8.0 7.8 3.0 3.5 -3.0
Uruguay -3.2 -1.1 -3.1 -10.8 2.5

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
7

RELACIONES.
i) Uniecuacionales:
Es aquella en que la variable dependiente “está determinada” por variables
explicativas.
C= f(Y,r,G), donde C (Consumo) es la variable dependiente e Y(Ingreso) , r (tasa de
interés) y G (Gustos) las variables independientes.
ii) Multiecuacionales
Es cuando para explicar un fenómeno se requieren varias ecuaciones.
Ej: Consumo Durables =f(Ingreso Permanente, tasa de interés)
Consumo No Durables: f(Ingreso Transitorio)
El tratamiento de las ecuaciones puede ser en forma separada o conjunta.
iii) Ecuaciones simultáneas.
Es cuando dos o más variables vienen determinadas “simultáneamente” por un
cierto número de variables explicativas.
En los casos anteriores, el ingreso (Y) es “dado” para una familia individual, pero
en la economía como un todo no se puede considerar que el ingreso esté “dado”
Para un consumidor individual el precio de un bien viene “dado”. Para toda la
economía, los precios y las cantidades vienen determinadas simultáneamente por las
condiciones de oferta y demanda.
Qd = f (p,x)
Qs= f (p,z)
Qd =Qs
Donde Qd es la cantidad demandada, Qs es la cantidad ofrecida, X es la variable de
escala en la demanda (Ingreso) y Z es la variable de escala en la oferta (tecnología).

VARIABLES.
En general:
Variable dependiente: Y
Variables independientes: X1 , X2 ......Xk
Sin embargo, reciben también otros nombres:
Y X1 , X2 ......Xk
a) Predicha Predictores
b) Regresandos Regresores
c) Explicada Explicativas
d) Dependiente Independientes
e) Causada Causante
f) Endógena Exógena
g) Objetivo Control

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
8

La primera denominación surge de la posibilidad de efectuar predicciones. La terminología


de las letras b, c y d son las usualmente utilizadas cuando se habla de modelos de
regresión. En los estudios de causalidad se utiliza la expresión e). Se habla de variables
exógenas y endógenas cuando se quiere distinguir entre aquellas variables que se
determinan dentro del sistema (endógenas) y aquellas que se determinar fuera (exógenas).
Por ejemplo en modelos de gran escala para explicar la economía de un país las variables
exógenas son las determinadas fuera del país, como precios internacionales, tasas de
interés, movimientos de capitales, etc.
En problemas de control, se utiliza g). Por lo general las objetivo son aquellas que se desea
influenciar.

FORMAS FUNCIONALES (Introducción)

i) Lineal ⇒ C= α + βY
ii) Log-Lineal ⇒ ln C= α + β ln Y
También se le llama Doble Logarítmica. Elasticidad Constante.
iii) Semi-logarítmica ⇒ ln C= α + β Y ⇒Elasticidad Variable
iv) Lineal-Recíproco ⇒ C=α + β (1/Y)
v) Log-Recíproco ⇒ ln C= α +β (1/Y)
vi) Lineal Log ⇒ C=α +β lnY

En iv y v, la relación entre C e Y no es lineal.

¿Qué significa linealidad?


i) En las variables: la relación entre la variable dependiente y las variables
independientes es lineal. Y= α +β X
ii) En los parámetros: la relación es lineal en β por ejemplo, si dicho coeficiente
aparece con potencia 1 y no está multiplicado ni dividido por otro parámetro.
Y= α +β X (lineal en variables y parámetro β)
Y= α +β (1/X) (lineal en parámetro, pero no en las variables).

Cuando se habla de linealidad en este curso se hace referencia a la LINEALIDAD EN


LOS PARÁMETROS.

TAREA: de los modelos anteriores determine cuáles son lineales en los


parámetros, en las variables o en ambos.

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
9

ANEXO 1: RECORDANDO DE INFERENCIA


Variable Aleatoria
Una variable aleatoria es una función que asocia un número real a cada elemento de un
espacio muestral.
En particular X es una V.A si para cada numero real a, existe una probabilidad P(X≤ a) de
que X tome un valor menor o igual que a.
Notación:
• X,Y,Z para variables aleatorias, x,y,z para los valores particulares que toman las
variables aleatorias X,Y,Z.
• P(X=x) es la probabilidad de que la variable aleatoria X, tome el valor x.
• P(x1 ≤ X≤ x2 ) es la probabilidad de que la variable X tome valores entre x1 y x2 .

Hay dos tipos de variables aleatorias:


i) Variables aleatorias discretas:
Si la variable aleatoria toma un conjunto finito de valores o un conjunto “contable”
de valores infinitos.
Ej: el número de clientes que arriban en una hora a una tienda.
ii) Variables aleatorias continuas
Si en un cierto rango pueden adoptar infinitos valores. Ej. Ingreso de una familia en
Chile.

Distribución de Probabilidades.
Discre ta: Lista de los posibles valores que una variable aleatoria discreta puede tomar
conjuntamente con sus probabilidades asociadas.
Ej. X es el número que sale en la cara superior al tirar un dado.
x P(X=x)
1 1/6
2 1/6
3 1/6
4 1/6
5 1/6
6 1/6

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
10

Continua: se le denomina “función densidad”: f(x)


b
P (a ≤ X ≤ b ) =
∫ f ( x ) dx
a

Las probabilidades se discuten solo para intervalos, no para valores concretos. La


probabilidad de obtener un valor exacto es cero.
Las variables aleatorias continuas son una creación muy útil. Dentro de ellas la más

1 2
1 − (x −µ )
f (x ) = 2σ 2
e
σ 2π
utilizada es la normal, que tiene la siguiente función densidad:
f(x)

µ
X
Donde µ es la media y σ es el desvío estándar.

Tarea:

• Revisar INFERENCIA

• Leer Apéndice A de Gujarati.

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
11

ANEXO 2: UN REPASO DE MATRICES1

DEFINICIÓN: una matriz es un arreglo rectangular de elementos aij donde i representa la


fila en que se encuentra el elemento y j representa la columna en que se encuentra. El orden
de una matriz es la cantidad de filas y columnas que esta tiene. Por ejemplo, la matriz
1 3 4 
A=   , se dirá que es de orden 2×3. El elemento a21 =2
 2 1 − 3
3.1.1 Operaciones matriciales:
• Igualdad
A=B, si aij=bij
• Transposición
La traspuesta de la matriz Am×n , es una matriz A’n×m, que tiene por filas las columnas de
A.

Propiedades:
⇒ (A′)′=A
⇒ (A+B)′=A′+B′
⇒ (AB)′=B′A′
⇒ (αA)′=αA′, si α es un escalar y A una matriz.
⇒ Si A=A′, entonces se dice que A es simétrica.
• Suma y Resta
Sea Am×n y Bm×n , entonces Cm×n =A+B es tal que cij=aij+bij
Sea Am×n y Bm×n , entonces Dm×n =A-B es tal que dij=aij-bij
Propiedades:

⇒ A+B+C=A+(B+C)=(A+B)+C
⇒ A+B=B+A

1
Este anexo repasa solamente algunas propiedades de matrices. Mas detalles en:
• Econometría. Alfonso Novales. Segunda Edición. Capítulo 1
• Métodos de Econometría. J. Johnston. Capítulo 4
• Introducción a la Econometría. G.S. Maddala. Segunda edición. Apendice al Capítulo 2.

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
12

• Producto de matriz por escalar


Sea Am×n una matriz y α una constante, entonces Bm×n =αA, es tal que bij= α aij
• Producto de matriz por matriz
Sea Am×n y Bp×q , el producto AB solo se puede calcular si n=p (matrices conformables),
Cm×q=AB es tal que cij se obtiene multiplicando elemento a elemento de la fila i-esima
de A por la columna j-esima de B y sumando estos productos. Es decir
n
c = ∑ a b .
ij is sj
s =1
Propiedades:
⇒ AB ≠ BA
⇒ La única matriz que se puede multiplicar por si misma es la matriz cuadrada.
⇒ Si AA=A se dice que A es idempotente.
n
⇒ Si An×1 , entonces A′A es un escalar igual ∑a 2
i , mientras que AA′ será una matriz
1
cuadrada y simétrica de orden n×n.
⇒ A(BC)=ABC=(AB)C
⇒ A(B+C)=AB+AC

• Traza
La traza de una matriz cuadrada es igual a la suma de los elementos de la diagonal
principal.
Propiedades:

⇒ Tr(A+B)=Tr(A)+Tr(B)
⇒ Tr(ABC)=Tr(CAB)=Tr(BCA)

• Matriz identidad.
Se denota como In a la matriz cuadrada de orden n, que tiene elementos 1 en la
diagonal y cero en el resto.
 1 0
I2 =  
0 1

Propiedades:

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
13

⇒ Sea Am×n , luego, ImA=AIn =A

• Diferenciación Matricial
 ∂[f ( b) ]
 ∂b 
 1 

 ∂ [f ( b) ]
∂[f (b )]  ∂b 2 
=
. 
Si bn×1 , entonces
∂b  
 . 
 ∂[f ( b) ]
 ∂b 
 n 

Ejemplos:
∂[a ' b]
⇒ =a
∂b
∂[b' Ab ]
⇒ = 2 Ab
∂b
∂[2Ab ]
⇒ = 2A
∂b
• Determinante de una matriz

El determinante es una función que asocia un número real a una matriz cuadrada.
Procedimiento de Laplace:
1. Elija cualquier fila o columna de una matriz y para cada uno de los elementos
calcule el cofactor. El cofactor de un elemento aij será cij=(-1)i+jMij.
2. Mij (matriz menor) es el determinante de la matriz que surge de eliminar la fila i y la
columna j de la matriz original.
3. Multiplique cada elemento aij de esa fila (o columna) por su cofactor cij
n
4. Determinante de A=|A|= ∑a
j=1
ij c ij ∀ i

Ejemplos:

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
14

a a 12 
1. A =  11  A = a 11c 11 + a 21c 12
 a 21 a 22 
c11 =(-1)1+1 M11 =(-1)2 (a22 )=a22
c21 =(-1)2+1 M21 =(-1)3 (a12 )= -a12

A = a 11a 22 + a 21 ( −a 12 ) = a 11a 22 − a 21a 12

 2 −1 3 
 
2. A=  3 0 − 5  A = 2c 11 + 3c 21 + 2c 31
2 1 1 
 
0 −5
1+1 2
c11 =(-1) M11 =(-1) 1 1 =5

−1 3
c21 =(-1)2+1 M21 =(-1)3 1 1 =(-1)(-1-3)=4

−1 3
3+1 4
c31 =(-1) M31 =(-1) 0 − 5 =5

A = 2(5) + 3( 4) + 2(5) = 32
Propiedades:

⇒ A = A'

⇒ Intercambiar 2 filas (o columnas) cambia el signo del determinante


⇒ Si una fila de un determinante se multiplica por k, el determinante queda
multiplicado por k.
⇒ La adición de un múltiplo de una fila a otra no altera el valor del determinante.
⇒ Si una fila (o columna) es combinación lineal de otra fila (o columna) el
determinante de la matriz es cero. Una matriz con determinante cero se denomina
singular.

• Matriz inversa
Dada la matriz cuadrada An , A −n1 es su matriz inversa si A n A −n1 = I n

Procedimiento de calculo:

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
15

( A c )' matriz de cofactores transp uesta


A −1 = =
A determinant e de A
La matriz de cofactores se forma de sustituir cada elemento de la matriz por su
correspondiente cofactor cij. Donde cij=(-1)i+j Mij , siendo Mij (menor) el determinante
de la submatriz que se forma cuando a la matriz A se le elimina la fila i y la columna j.

Ejemplo:
1 0 0
 
A = 0 0 1 A = 1c 11 + 0c 21 + 0c 31 = 1
0 1 0
 
0 1
c11 =(-1)1+1 M11 =(-1)2 1 0 =-1

A = ( −1)

 0 1 0 1 0 0 
 (1)  ( −1)  (1)  
 1 0 0 0 0 1  
 0 0 1 0 1 0 
 ( −1)  (1)  ( −1)   '
 1 0 0 0 0 1    (1)( −1) ( −1)( 0) (1)( 0) 
 
 0 0 1 0 1 0    ( −1)( 0) (1)( 0) ( −1)(1) '
 (1)  ( −1)  (1)  
(A c )'  0 1 0 1 0 0    (1)( 0) (−1)(1) (1)( 0) 
= = =
A −1 −1
 −1 0 0   −1 0 0
   
0 0 − 1'  0 0 −1
 0 −1 0   0 − 1 0   1 0 0 
=  = = 0 0 1
 
−1 −1  0 1 0
 
Propiedades:
⇒ ¿Siempre existe A −1 ? No, la matriz A debe ser cuadrada y no singular
⇒ ( A −1 ) − 1 = A
⇒ La inversa (si existe) es única.
⇒ ( AB) −1 = B −1 A −1

⇒ ( A' ) −1 = (A −1 )'

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
16

• Rango de una matriz


Una matriz Am×n puede interpretarse como una colección de m vectores fila de
dimensión n, o como una colección de n vectores columna de dimensión m. Entonces,
podemos hablarse de filas linealmente independientes (LI) o linealmente dependientes
(LD).
Se denomina rango de la matriz al máximo número de columnas (o filas) LI.
Propiedades:
⇒ El número máximo de filas LI es igual al número máximo de columnas LI
⇒ Rango (Am×n )=min (m,n)
⇒ Rango A=Rango A’
⇒ Si rango Am×n =m=n, entonces A es no singular y su inversa existe y es única.

3.1.2 Valores y vectores propios


Dada una matriz cuadrada An , entonces existe una constante λ y un vector x (no nulo), tal
que satisfacen la siguiente ecuación:
Ax=λx y que reciben el nombre λ= valor propio de A
x= vector propio de A

Ax=λx es una ecuación que tiene implícita dos incógnitas, un vector y un escalar. Las
soluciones vendrán en parejas, a cada λ le corresponde un vector x
Procedimiento de cálculo:
Ax=λx
Ax-λx=0
(A-λI)x=0
Si A-λI es no singular, entonces la única solución a la ecuación anterior es la trivial (x=0).
Entonces, para que la solución sea no nula, el determinante de A-λI debe ser igual a cero.
A esta se le conoce como ecuación característica y tiene n soluciones a las que se denomina
valores propios. Para cada valor propio existe un vector propio que se obtiene sustituyendo
el valor de λ en la ecuación (A-λI)x=0.
Ejemplo:
0 1
A= 
0.5 0.5
i) Encontramos los valores propios de la matriz A:
Debemos resolver: det( A-λI)=0

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
17

−λ 1
= (-λ)(0.5-λ)-0.5= -0.5λ+λ2 -0.5 =0
0. 5 0. 5 − λ

0.5 2 − 4( −0.5) 1
0.5± =(0.5±1.5)/2= 
2 −0.5
Los valores propios son 1 y –0.5

ii) Vectores propios:


♦ Para λ=1 (A-λ1 I)x 1 =0 (A-(1)I)x=0
 −1 1  a  0
0.5 − 0.5  b = 0
    
-a+b=0 ⇒ a=b
0.5a-0.5b=0 ⇒ a=b
Dado que las dos ecuaciones son iguales el vector propio es un vector genérico
a  a 
x 1=   =  
b  a 
Cualquier vector que tenga dos componentes que sean iguales verifica esta
ecuación. En particular se puede normalizar el vector haciendo que su longitud sea
1, es decir, haciendo que a2 +b2 =1
 1 
 
1  2
Luego, a=b= con lo que x 1 =  
2  
 1 
 
 2
♦ Para λ=-0.5 det(A-λ2 I)x 2 =0 (A- 0.5I)x 2 =0
0.5 1 c  0 
0.5 1 d  = 0 
     
0.5c+d=0 c= -2d
05c+d=0 c= -2d
 c   − 2d 
x 2 =   =   =
 d  d 
Normalizando tenemos dos ecuaciones: c2 +d2 =1 y c= -2d , con lo que:

(-2d)2 +d2 =1 ⇒ 4d2 +d2 = 1 ⇒ 5d2 =1 ⇒ d = 1 / 5

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
18

c= -2d ⇒ c = −2 / 5
− 2
 
c  5
x 2 =   = 
 d  1 
 
 5

Propiedades:
⇒ Los valores propios de una matriz simétrica son reales.
⇒ Los vectores propios correspondientes a distintos valores propios de una matriz
simétrica son ortogonales entre si. Es decir que su producto es cero. x1' x2 = 0
⇒ Sea B una matriz que tenga por columnas los vectores propios de A y D una matriz que
tiene los valores propios en la diagonal y cero en el resto.
 | | |   λ1 0 0
   
 | | |  0 λ2 0
B=  x 1 x2 . . x n y D=  0
 0 . 0
   
 | | |  0 0 . 0
 |  0 λ n 
 | |   0
La propiedad anterior asegura que B’B= BB’=In , esto implica que B’ es la inversa de B
(B es ortogonal).

⇒ B ' AB = D , es decir que la matriz B (de vectores propios) diagonaliza a A.


⇒ Si A es una matriz simétrica, definida positiva, existe una matriz no singular P tal que
A=P’P
⇒ La suma de los valores propios de una matriz A es igual a la traza de A
⇒ El producto de los valores propios de una matriz A es igual al determinante de A
⇒ Una matriz es singular si y solo si al menos un valor propio es cero.
⇒ El rango de una matriz es igual al número de valores propios no nulos de ella.
⇒ Los valores propios de la matriz A2 son el cuadrado de los valores propios de A.
⇒ Los valores propios de A-1 son los inversos de los valores propios de A, los vectores
propios son los mismos que los de A.
⇒ Los valores propios de una matriz idempotente son cero o uno.
⇒ El rango de una matriz idempotente es igual al número de valores propios iguales a 1 e
igual a su traza.

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
19

⇒ Sea una matriz A de orden m, definida positiva, y P una matriz de m×n, de orden m, el
producto P’AP es una matriz definida positiva.
⇒ Los elementos de la diagonal principal de una matriz definida positiva son estrictamente
positivos, mientras que los elementos de la diagonal principal de una matriz
semidefinida positiva son no negativos.

2
3.2 ALGUNOS EJERCICIOS DE MATRICES

3.2.1 Operaciones con matrices

a) Dadas los siguientes matrices,


3 8 0  −4 
3 5 8     
A =  B = 2 1 4  C=  2 
4 0 2    
3 2 1   −1

Calcular: (ABC), (C`A`); (AC)` ; (B`C)` ; (C`B)

b) Dadas las matrices:


1 3 4  10 2 0 
   
A =  2 0 7 B = 7 1 3 
   
5 6 9  4 5 6 

Calcular (A+B); (A-B); (4A+7B)

3.2.2 Determinantes

a. Dadas las matrices cuadradas:

1 0  4 1 1 2
A =  B =  C =  
 3 1 0 2 2 1 

Comprobar:
A. B = A . B
A. B. C = A . B . C

2
Recomendables para quienes el tema de matrices resulte nuevo o olvidado.

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
20

b. Dada la siguiente matriz cuadrada:


1 0 1 
 
A =  2 3 0
 
 0 4 1
A = A'
Comprobar: probar con k=2
kA = k n A

c. Calcular los siguientes determinantes:


a 0 1
A= 1 a 0
0 1 a

2 1 1 x
1 2 1 y
B=
1 1 2 z
1 1 1 t

3.2.3 Matriz Inversa

a. Hallar la inversa de las siguientes matrices:

 2 −2 3 3 1 1 
   
A = 1 0 −3  B = 1 2 2 
   
3 4 0  1 2 4 

b. Dadas tres matrices A, B y C cuadradas cualquiera, verificar:

(ABC)-1 = C-1 B-1 A-1

3.2.4 Valores y Vectores propios.

a) Encontrar los valores y vectores propios de:


3 0 4 
 
A = 1 1 2  y mostrar que
1 − 2 2 
 

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
21

i) la suma de las raíces características (valores propios) es igual a la suma de


los elementos de la diagonal de A

ii) el producto de las raíces características es igual al determinante de A.

b) Dada la matriz:
1 4 
A= 
1 1 

i) Encontrar los vectores propios de A

ii) Calcular A2 y comprobar que λ2 es un valor propio de A2 .

iii) Calcular A-1 y comprobar que 1/λ es un valor propio de A-1

c) Dada la siguiente matriz:

2 1
A = 
1 2

i) Encontrar los valores y vectores propios

ii) Probar que x1 es ortogonal a x2 ⇒(x1 ’x2 )=0

iii) Formar B y D y probar que el determinante de A es igual al determinante


de D (es obvio?), que el rango de A es igual al rango de D y que A y D
tienen la misma ecuación característica.

iv) Probar que B diagonaliza A⇒ B’AB=D

1 1
 
1
d) Dado que X= 
1
2
1  [ ]
, calcular A= I 4 − ( X(X' X) −1 X' ) . Demostrar que A es idempotente
 
1 3 
y determinar su rango. Calcular los valores propios de A y obtener la matriz que
diagonaliza a A.

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
22

2. REGRESIÓN SIMP LE
2.1 EL MÉTODO DE MÍNIMOS CUADRADOS ORDINARIOS
(MICO).

2.1.1 Definición de análisis de regresión.


Se vincula a la descripción y evaluación de la relación entre una determinada variable
(dependiente o explicada) y una o más variables denominadas explicativas o
independientes.

Significado del término de regresión (Francis Galton, 1886): la estatura promedio de los
niños que nacían de padres con una determinada estatura tendía a moverse o “regresar”
hacia la altura promedio de la población total. Ello aún cuando existía una tendencia a que
los padres altos tuvieran hijos altos y padres bajos tuvieran hijos bajos. Galton dijo que
existía una “regresión a la mediocridad”.

Actualmente se denomina regresión al estudio de la dependencia de una variable (la


variable dependiente) de una o más variables (las explicativas) con la perspectiva de
estimar y/o predecir el valor poblacional medio de la primera en términos de los valores
conocidos de las segundas.

Y = f (X 1 , X 2 ,....., X k )

Si k=2 ⇒ Regresión Simple


Si k>2 ⇒ Regresión Múltiple

Donde en general X1 no representa una variable, sino que es una columna de “unos” que
permitirá calcular la constante del modelo.

Ej. Y = gasto en consumo de una familia


X2 = ingreso de la familia
X3 = activos financieros de la familia
X4 = tamaño de la familia

Objetivos del Análisis de Regresión:


⇒ Predecir el valor poblacional medio de Y dado los valores fijos de las X
⇒ Analizar los efectos de políticas que alteren las X
⇒ Saber si las X tienen o no efectos sobre la Y (y si estos efectos son significativos).

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
23

2.1.2 Especificación de la Regresión Simple.


Antes habíamos hablado de relación entre variables dependientes e independientes.

Y= f (X)
Esta puede ser de dos tipos:

i) determinística o matemática.
De este tipo de relación se preocupa la economía matemática.
Ej: Y=1+X
Y queda determinada exactamente dado el valor de la variable X.

ii) estocástica o estadística


De este tipo de relación se preocupa la Econometría. Para valores de X no podemos
determinar Y en forma exacta, sino probabilísticamente.
Y=1 + X+ µ
Donde µ, conocido como RESIDUO, es una variable aleatoria. Representa la
ignorancia residual, por lo tanto podemos atribuirle las propiedades más
convenientes al problema en cuestión.

2.1.3 Ejemplo:

Relación deterministica
Y=K 0.3 L0.7
0 .3
Y K 0. 3L0.7 1 K
Divido entre L, = = K 0.3 L−0.3 = K 0.3 0.3 =  
L L L L
Aplico logaritmo: LN(Y/L) =0.3 LN(K/L)
Dados los valores de K/L (relación capital/trabajo), existe un único valor de producto por trabajador
(Y/L).

7
LN(K/L) LN(Y/L) Y/L
6
12 3.6 36.6
5
14 4.2 66.7
LN (Y/L)

4
20 6 403.4
3
5 1.5 4.5
2
10 3 20.1
1

0
0 5 10 15 20 25
Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
LN (K/L)
24

Relación estocástica
Y=K 0.3 L0.7 eµ

Y K0.3L0.7e µ
0 .3
1 K
Divido entre L, = = K0.3L− 0.3eµ = K0.3 0.3 e µ =   e µ
L L L L

Aplico logarítmo: LN(Y/L) =0.3 LN(K/L) + µ


Ahora el valor final de LN(Y/L) no depende solamente del valor de LN(K/L) sino también del valor
de µ. Sabemos que µ es una variable aleatoria, pero aún no conocemos su distribución.
Supongamos que µ tiene la siguiente distribución:
 + 1 con probabilid ad de1/2
µ=
 - 1con probabilid ad de 1/2
Entonces para cada valor de K/L tendríamos dos valores posibles de Y/L

7
LN(K/L) LN(Y/L) si µ=1 LN(Y/L) si µ=-1

6 X Y Y
5 12 4.6 2.6
LN (Y/L)

4 14 5.2 3.2
3
20 7 5
2
5 2.5 0.5
1
10 4 2
0
0 5 10 15 20 25

LN (K/L)
Supongamos ahora que µ es una variable aleatoria continua que tiene
una distribución normal estandarizada (con esperanza cero y varianza 1). Entonces por cada valor
de K/L tendremos infinitos valores para Y/L, dependiendo del valor de µ. El gráfico que
obtendríamos sería algo similar a esto:

Valor posible de LN(Y/L) para un valor dado de


K/L

La relación entre LN(Y/L) y (K/L), ahora es


estocástica.

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
25

En términos generales en econometría tendremos relaciones estocásticas entre la variable


dependiente (Yi) y la explicativa (Xi).

Yi=α+βXi+µ tiene dos componentes


⇒ componente determinístico: α+βXi,
donde α y β son los parámetros o coeficientes de la regresión. Sus valores
serán estimados a partir de los datos disponibles para X e Y.
⇒ componente estocástico: µ

2.1.4 Fuentes de Error µ

i) Elementos impredecibles y aleatorios en las respuestas humanas.


Por ejemplo Consumo=f(ingreso), pero las personas no siempre responden de igual
forma para iguales valores del ingreso.
ii) Variables Omitidas:
En el término de error se resume la incapacidad de identificar la influencia de ciertas
variables o en otros casos imposibilidad de representarlas en valores (por ser de
difícil cuantificación).
iii) Errores de medida en la variable dependiente.
Cuidado: estos errores de medida tienen ciertos problemas que estudiaremos más
adelante.

2.1.5 Función de regresión poblacional y muestral.


Dado que el objetivo del análisis de regresión es estimar o predecir el valor medio o
promedio (poblacional) de la variable dependiente basándose en los valores fijos o
conocidos de las variables explicativas, distinguiremos algunos conceptos.

Función de Regresión Poblacional (FRP):


es la recta que surge de unir las esperanzas condicionales de la variable dependiente para
los valores fijos de la variable explicativa.
Dado que para cada Xi, existe una población de
valores de Y, se puede calcular la esperanza
condicional de los valores de Y, condicional a cada
Xi. A la unión de las esperanzas condicionales se le
denomina FRP.

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
26

Del gráfico podemos concluir que E(Y/Xi) es una función de Xi, y esa será una función
lineal de Xi. Recordar: la linealidad puede ser en las variables y en los parámetros.
Lo que nos interesa es que la relación sea lineal en los parámetros.

E (Y / X ) = β + β X 2 → es lineal en parámetros , no en las variables


i 1 2 i
E (Y / X ) = β + β X 2 → no es lineal ni en los parámetros , ni en las variables
1 1 2 i
Modelos Linealizables:
β
E (Y / X ) = β X 2
i 1 i
ln E(Y/Xi) = ln β 1 + β 2 Xi

No Linealizables
β X
E (Y / X ) = β1 + β 2 e 2 i
i

Qué forma tiene esta función?


Para saberlo hay que recurrir a la teoría, pero podría ser por ejemplo E(Y/Xi)= β 1 +β 2 Xi
Existe una relación lineal entre Xi y E(Y/Xi), en el caso del gráfico esta relación es
positiva. Pero, ¿cómo es la relación entre cada Yi y el Xi correspondiente?
Para cada Xi dado, un Yi en particular se desvía de la E(Y/Xi), por un término de error, µi.

Es decir, µi= Yi - E(Y/Xi) o


Yi= E(Y/Xi) + µi ,

Por lo que Yi= β 1 +β 2 Xi+ µi

Para el ejemplo que veíamos antes:


Ln (Y/L) = β 1 +β 2 Ln (K/L) + ui, lo que indica que para encontrar cada valor particular de
producto por trabajador debo sumar dos componentes, el primero representa el promedio de
producto obtenido dado el nivel de capital utilizado [β 1 +β 2 Ln (K/L)], el segundo que
indica cuánto hay que sumarle o restarle a ese promedio para alcanzar el valor de Y/L
particular.

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
27

Función de Regresión muestral (FRM).


Hasta ahora nos hemos referido a los valores poblacionales de Y correspondientes a los
valores fijos de X. Al hacer econometría nuestro interés es estimar β 1 y β 2 , pero el primer
obstáculo que enfrentamos es que no conocemos la población, sino una muestra de ella.

Antes (población) Ahora (una muestra)

Así como tenemos esta muestra, podríamos tener otra.


Dado que no conocemos la población sino muestras, la estimación de la E(Y/Xi) dependerá
de la muestra elegida. ¿Cuál es la verdadera? No lo sabemos.

Nuestro objetivo es conocer E(Y/Xi) ⇒ lo sabemos si tenemos β 1 + β 2Xi pero en realidad


no conocemos β 1 y β 2 (parámetros poblacionales o teóricos), por lo que debemos
estimarlos:

Yi = β 1 + β 2 X i + µ i
Ŷi = βˆ 1 + βˆ 2 X i será la recta estimada

Yi = Ŷi + ei
Yi = βˆ 1 + βˆ 2Xi + ei
donde

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
28

β̂1 estimación para β 1


β̂ 2 estimación para β 2

Estimamos Yˆ i = βˆ 1 + βˆ 2 Xi donde los βˆ i - son los valores resultantes (estimaciones)


a partir de estimadores (fórmulas o algoritmos).
Modelo teórico

Yi

Y1 E( Y / X i ) = β1 + β 2 X i

β2
µ1

µ2
Y2

β1
Xi
X1 X2

Modelo estimado

ˆ = βˆ + βˆ X
Y
Y1 i 1 2 i

β̂ 2
µ1 E(Y/Xi)=β1+β2 Xi
e1
β2

E(Y/X1 )

Yˆ1

β1
β̂ 1

X1

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
29

Diferencias entre µi y ei
e i = Yi − Y ˆ
µi= Yi - E(Y/Xi)
i

e i = Yi − βˆ 1 − βˆ 2 X i
µ
-es no observable
-es una variable aleatoria a la que se le supone cierta distribución de probabilidad

e
-es observable (se dispone de valores)
- satisface ciertas propiedades que veremos más adelante.

¿Cómo calcular β 1 y β 2 ?
Método de momentos?
Máxima Verosimilitud?
Método de Mínimos Cuadrados Ordinarios (MICO)?

2.1.6. MICO para una regresión simple


Utilizaremos un método llamado Mínimos Cuadrados Ordinarios (MICO).

Idea: “Pasar la recta de regresión a través de los puntos del gráfico de forma que esté lo
más próxima posible a la urbe de puntos”. Trataremos que las distancias verticales
(errores) sean lo más pequeñas posible.

e = Y −Y ˆ
i i i
ˆ
e = Y −β −β X
i i 1 2 i
Se trata de elegir βˆ 1 y βˆ 2 tal que la diferencia sea mínima.
Minimizaremos ∑ e 2i (para dar peso equivalente a residuos más grandes). O sea,
minimizaremos la suma de los cuadrados de las “distancias verticales” desde los puntos de
la recta.

Q = ∑ ( Yi − Yˆ i )2 = ∑ (Yi − βˆ 1 − βˆ 2 Xi )2 = f (βˆ 1, βˆ 2 )
Debemos minimizar Q, es decir que debemos encontrar las condiciones de mínimo

CNPO CNSO
∂Q ∂2Q 
• =0 >0 
∂βˆ (∂βˆ ) 2 
1 1 
 condicione s de mínimo
∂Q 2
∂ Q 
• =0 >0 
∂βˆ (∂βˆ ) 2 
2 2 

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
30

∂Q
(1) = 2 ∑ (Yi − βˆ 1 − βˆ 2 X i ) ( −1) = 0
∂βˆ 1
∑ (Y − βˆ i 1 − βˆ 2X i ) = 0

∑ Y − βˆ ∑1 − βˆ ∑ X
i 1 2 i =0

n
Y − βˆ 1 − βˆ 2 X = 0
n
βˆ 1 = Y − βˆ 2 X (*)

Alternativamente podríamos expresar (1) de la forma 2 ∑ e i ( −1) = 0 ⇒ ∑ e i = 0 , esta es la


primera condición que se debe cumplir para minimizar la suma de cuadrados de los
residuos.

∂Q
( 2) = − 2 ∑ ( Yi − βˆ 1 − βˆ 2 X i )( X i ) = 0
ˆ
∂β 2

∑ Y i Xi − βˆ 1 ∑ Xi − βˆ 2 ∑ X2i = 0

Sustituyo β̂1 por (*)

∑Y i X i − ( Y − βˆ 2 X) ∑ X i − βˆ 2 ∑ X 2i = 0
∑Y i X i = ( Y − βˆ 2 X ) ∑ X i + βˆ 2 ∑ X 2i

∑Y i X i = ( Y − βˆ 2 X) nX + βˆ 2 ∑ X i2

∑Y i X i = n X Y − βˆ 2 n X 2 + βˆ 2 ∑ X 2i

∑Y i X i = n X Y + βˆ 2 ( ∑ X i2 − nX 2 )
∑ Yi Xi − n X Y
βˆ 2 = (**)
∑ X 2i − n X2

Alternativamente podríamos expresar (2) de la forma 2 ∑ e i X i ( −1) = 0 ⇒ ∑ e i X i = 0 ,


esta es la segunda condición que se debe cumplir para minimizar la suma de cuadrados de
los residuos. A las dos condiciones se le llama generalmente ECUACIONES NORMALES .

La fórmula (**) la podemos transformar para interpretarla mejor.

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
31

Recordando de Inferencia:
∑ (Xi − X)(Yi − Y ) ∑ ( Xi Yi − Xi Y − XYi + X Y )
S xy = cov(X,Y) = =
n n
∑ X iYi ∑ Xi ∑ Yi n
= − Y − X + X Y =
n n n n

=
∑X Y i i
− Y X − XY + X Y =
∑X Y i i −nY X
n n

Este último es el término que tenemos en el numerador de (**). El denominador es

∑ (X
2
− X)
=
2 i
parecido a la formula de la varianza muestral, S .
n −1
x

Por lo que (**), para muestras grandes, se puede expresar:

βˆ 2 = ∑
Yi Xi − n X Y nS XY SXY cov arianza muestral entre X e Y
= = 2 =
∑X 2
i−nX 2
n S2x Sx var ianza muestral de X
donde:
βˆ 1 - ordenada en el origen
βˆ 2 - coeficiente angular o pendiente

ˆ ˆ
2.1.7 Ejemplo de cálculo de β1 y β 2
Supongamos que conocemos los datos de producción y horas trabajadas de 10 trabajadores
de una fábrica en un momento de tiempo (corte transversal). Definimos Y = producto , X =
horas de trabajo

X Y X2 Y2 XY
1 10 11 100 121 110
2 7 10 49 100 .
3 10 12 100 . .
4 5 6 25 .
5 8 10 64
6 8 7 64
7 6 9 36
8 7 10 49
9 9 11 81
10 10 10 100
∑ 80 96 668 952 789

X =8
Y = 9 ,6
Yi = βˆ 1 + βˆ 2 Xi + e i
βˆ 1 = Y − βˆ 2 X = 9,6 − βˆ 2 • 8 = 9,6 − 0,75(8) = 3,6

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
32

∑X Y − n X Y 789 − 10(8) 9,6


βˆ 2 = = = 0,75
∑ Xi − n X
2 2
668 − 10(8) 2
Yˆ i = βˆ 1 + βˆ 2 Xi
Yˆ i = 3, 6 + 0, 75 Xi
Yi = βˆ 1 + βˆ 2 Xi + e i

Por ejemplo:
Yˆ =3,6+0,75(10)=7,5+3,6=11,1
1 Ŷ2 = 3,6 + 0,75(7)= 8,85
ˆ = 11,0 − 11,1 = − 0,1
e1 = Yi − Y e2 = Yi − Ŷ1 = 10,0 − 8,85 = 1.15
1

15

e1=-0.1
10 e2=1.15

5
Pendiente: 0.75

Intercepto: 3.6

0
0 2 4 6 8 10 12

Tarea: Verificar que en el ejemplo se cumplen los corolarios de las ecuaciones


normales

∑e =0 i

∑e X =0
i i

2.1.8 Expresión de las formulas en desvíos.


Veremos una segunda forma de expresar los resultados anteriores:
βˆ = Y − βˆ X (*)
1 2

βˆ 2 =
∑ X i Yi − n X Y = S XY = ∑ (X i − X)(Yi − Y ) (**)
∑ X 2i − n X 2 S 2X ∑ ( X i − X) 2
Definamos las variables en desvíos respecto a su media

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
33

x i = Xi − X
y i = Yi − Y

Entonces, (**) la podemos expresar

βˆ 2 =
∑x y i i
(***), donde las variables en minúsculas representan desvíos respecto a la
∑x 2
i

media de la variable.

TAREA: demostrar CNSO


2.1.9 Corolarios de los estimadores MICO.

1. De las ecuaciones normales se desprende


∂Q
= − 2∑ e i = 0 ⇒ ∑ e i = 0 ⇒ los errores se compensan (media = 0)
∂βˆ 1
∂Q
= − 2 ∑ ei X i = 0 ⇒ ∑ ei X i = 0
∂βˆ 2

2. La regresión siempre pasa por el punto X , Y .


Y = βˆ + βˆ X + e
i 1 2 i i
Sumando para todo i, tenemos:
∑ Y i = N βˆ 1 + βˆ 2 ∑ X i + ∑ e i
Dado que ∑ e i = 0
Y = βˆ 1 + βˆ 2 X ,
Con lo que el punto X , Y verifica la recta de regresión.

3. El valor medio de Y estimado es igual al valor medio de Y observado.

Yi = βˆ 1 + βˆ 2 X i + e i Sumando para todo i,


Yi = Ŷi + e i
∑ Yi = ∑ Ŷi + ∑ e i
Y=
∑ Ŷ i
+0
n
Y = Ŷ

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
34

4. La regresión se puede expresar en desvíos:

Como ∑ei = 0

(1) Yi = βˆ 1 + βˆ 2 X i + e i , sumando para todo i,

∑Y i = n βˆ 1 + βˆ 2 ∑X + ∑ e
i i , recordando que ∑ei = 0 y dividiendo entre n

(2) Y = βˆ 1 + βˆ 2 X

Restando (1) –(2)⇒ Yi − Y = βˆ 1 − βˆ 1 + βˆ 2 X i + e i − βˆ 2 X

Yi − Y = βˆ 2 ( Xi − X ) + e i

Expresado en desvíos ⇒ y i = βˆ 2 x i + e i

Similarmente se podría verificar que ŷ i = βˆ 2 x i

5. Cov ( Ŷ, e) = Cov ( X, e) = 0

Los residuos no están correlacionados con el valor estimado de Yi, ni con los valores
explicativos.

Para demostrar este resultado debemos recordar la propiedad 1 y su corolario e = 0


1 1
• Cov(X,e)= ∑ ( X i − X ) ( e i − e ) = ∑ ( X i − X ) (e i )
n n
1
n
[ 1
] [
= ∑ X i e i − ∑ Xe i = 0 − X ∑ e i = 0
n
]
De este resultado se deriva que ∑ x i e i también es igual a cero.
ˆ,e ) = 1 ˆ )( e − e) = 1  Y ˆ e =1 Y 
Cov ( Y i
n
∑ ˆ −Y
(Y i
n  ∑ ˆe − Y
i ∑ i
 n
 ∑ ˆe −Y
i
ˆ
∑ ei

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
35

Analizando la última expresión, comprobamos que el segundo término es cero. Y


como se observa debajo también lo es el primero.

1
n
[∑ Yˆe ] = 1n ∑ ( βˆ
i 1 + βˆ 2 X i ) e i =
1
n
[ ]
∑ ( Y − βˆ 2 X) + βˆ 2 X i e i
1
n
[∑ Ye − βˆ X∑ e +βˆ ∑ X e ] = 0
i 2 i 2 i i

6. Descomposición en Suma de Cuadrados

Veamos un resultado previo. Sabemos que:

ˆ +e
Yi = Yi i

ˆ
Y =Y
ˆ −Y
Restando las dos expresiones anteriores, obtenemos Y i − Y = Y ˆ +e , lo que en
i i
desvíos respecto a la media, se puede expresar:

y i = ŷ i + e i y dado que ŷ i = βˆ 2 x i entonces y i = βˆ 2 x i + e i

Con lo que:

yi = βˆ 2x i + ei = ŷi + ei

Se eleva al cuadrado:

y i2 = (βˆ 2 x i + e i ) 2 = ( ŷ i + e i ) 2

y i2 = βˆ 22 x i2 + 2βˆ 2 x i e i + e i2 = ŷ 2i + 2 ŷ i e i + e 2i

Se aplica ∑:

∑ y = ∑ (βˆ
2
i
2
2
)
x 2i + 2 βˆ 2 x i e i + e 2i = ∑ ŷ i2 + 2 ∑ ŷ i e i + ∑ e i2

∑y 2
i = βˆ 22 ∑x 2
i + 2 βˆ 2 ∑ x i e i + ∑ e i2 = ∑ ŷ 2i + 2 ∑ ŷ i e i + ∑ e 2i

∑y 2
i = βˆ 22 ∑x 2
i + ∑ e 2i = ∑ ŷ 2i + ∑ e 2i , (****) dado que los dos términos de

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
36

productos cruzados se hacen cero por algunas de las propiedades anteriores.

Definimos:

∑y 2
i = Suma de cuadrados totales = SCT = SST

∑ ŷ 2
i = βˆ 22 ∑x 2
i = Suma de cuadrados explicados = SCE = SSE
∑e 2
i = SCR = Suma de cuadrados residuales = SSR

Entonces el resultado (****) ⇒ SCT=SCE+SCR

Una expresión alternativa para SCE, se deriva a continuación:

SCE = βˆ 22 ∑x 2
i

Como βˆ 2 =
∑x y i i

∑x 2
i

∑ xi yi 
2
[∑ x y ] 2
[∑ x y ] 2

SCE = βˆ 22 ∑ x i2 =  ∑
[∑ x ] ∑
= = = βˆ 2 ∑ x i y i
i i i i

2 2
x x
 ∑ x i  ∑ x i2
2 i i
2 2
i

Ejemplo.
Supongamos que el consumo de los hogares se explica por su nivel de ingreso. En el
diagrama de dispersión (Gráfico1) cada punto (Xi,Yi) indica la combinación de ingreso y
consumo del hogar. Podríamos partir explicando el consumo de una cierta familia por el
consumo medio observado de la muestra. Para cada familia cometeríamos un error dado por
Y − Y.
i
Si realizamos una regresión y estimamos los parámetros βˆ 1 y βˆ 2 por MICO, el error que
cometemos al asignar a la familia Xi cuyo verdadero consumo es Yi, la media de los
consumos, se divide ahora en dos partes (Gráfico 2). Una de ellas nos indica la parte del
error que ha sido explicada por el modelo ( Yˆi − Y ). La otra mide el error que aún subsiste
(ei)
Esto se puede generalizar obteniendo medidas resumen para todas las observaciones (o sea
para toda la muestra). Estas medidas son las sumas de cuadrados que vimos antes: la suma
de cuadrados totales (SCT) puede descomponerse en una parte explicada por la regresión
(SCE) y otra parte que aún no logramos explicar o residual (SCR).

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
37

Gráfico 1: Desvío respecto a la media

* (Xi,Yi )

*
Yi − Y Es el desvío total (DT)
respecto a la media.
Y
* *

* *

Al DT = ( Yi − Y) le sumamos y restamos Y ˆ ,
i

ˆ ˆ ˆ ˆ
DT = Yi − Yi + Yi − Y = ( Yi − Yi ) + ( Yi − Y ) = DE + DR

Gráfico 2: Desvío Total, Desvío Explicado y Desvío Residual

Y
(Xi,Y i)

Yi *
ˆ
* βˆ 1 + βˆ 2 X i
DR= Yi −Y DT=Yi −Y
Yˆi

Y ˆ −Y
* DE= i
* *

* *
X Xi X

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
38

2.1.10. Coeficiente de determinacion (R 2 )

Esta descomposición da lugar a una medida de la bondad de ajuste de modelo de


regresión

SCE SCT − SCR SCR


R2 = = = 1−
SCT SCT SCT

Consideraciones:
1. Es una medida de bondad absoluta del modelo ya que mide qué proporción de la
varianza total (la varianza de Y) es explicada por el modelo de regresión (por X).
Cuanto mayor sea la relación entre X e Y, mayor será este indicador.
2. Es una medida de bondad relativa entre modelos. Por ejemplo, permite comparar si
la capacidad explicativa es mayor incluyendo X como variable independiente
respecto a incluir Z.
3. 0 ≤ R2 ≤ 1
(Si el modelo no explica nada SCR = SCT ⇒ R2 = 0)
(Si el modelo explica todo SCE = SCT ⇒ R2 = 1)

R2=1
Y
Y R2=0

* * *
Y
* * * *

X X X

Todas las observaciones coinciden con la línea No existe relación alguna que
de regresión⇒ ajuste perfecto (imposible) sea expresable linealmente

Otras formas de expresarlo:

∑ x y  ∑ x
2

 i i

(∑ x y )
2

∑ ∑ 
∑ x 
i 2
βˆ 22
2
ŷ i2 x 2i S 2xy
=
SCE i i i
R 2
= = = = = = rx2, y
SCT ∑y 2
i ∑y 2
i ∑y 2
i ∑y ∑x 2
i
2
i S 2x • S 2y

Es decir, en el modelo de regresión simple el R2 es igual al cuadrado del coeficiente de

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
39

correlación muestral simple entre X e Y.

Recordar que r XY =
Cov( X , Y )
=
∑x y i i
=
S x ,y
, era una medida de la
V ( X ) V (Y ) ∑x ∑y 2
i
2
i
S xSy
asociación lineal que existe entre X e Y.

Debemos recordar que el concepto de covarianza nos da una primera aproximación del
grado de asociación que tienen X e Y.

S xy =
∑ (X − X)( Y − Y) = ∑ xy
n n

Esto se cumple si los puntos muestrales


∑ xy < 0 ∑ xy > 0 se concentran predominantemente en
estos cuadrantes.
Puede pasar que exista una relación, pero
pequeña, entre las dos variables, en ese
Y caso los puntos estarán dispersos en los
cuatro cuadrantes.
∑ xy > 0 ∑ xy < 0

X X

Desventajas de trabajar con ∑ xy :

a. Su valor puede aumentar simplemente agregando más observaciones. La solución es


dividir por el tamaño muestral, con esto se obtiene Sxy
b. La covarianza depende de las unidades en que se miden X e Y. Por ejemplo si pasamos
variables de dólares a centavos, la covarianza aumenta en 10000. Por esta razón, la
covarianza se escala dividiendo por la desviación estándar de las variables en cuestión.

Cov( X , Y ) βˆ 2S xy
Por eso trabajamos con r XY = = . El signo de rXY dependerá del signo
V ( X )V ( Y ) S 2y
de la covarianza.

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
40

Propiedades de r:
a. Está entre –1 y 1
b. Simetría rxy =ryx
c. Es independiente del origen y de la escala.
d. Si X e Y son estadísticamente independientes, entonces r=0. Pero r=0, no implica
independencia.
e. Como es una medida de asociación lineal, no tiene sentido utilizarlo para describir
relaciones no lineales.
f. No dice nada de las relaciones causa-efecto. Para eso se utiliza el test de Granger.

2.1.11 Algunas Regresiones Particulares


• Regresión que incluye sólo Constante (o sea no incluye X)
Yi = β 1 + u i
Yˆi = βˆ 1
Tarea: verificar qué
Y = βˆ + e
i 1 i propiedades se cumplen para
Q = ∑ e 2i = ∑ ( Yi − βˆ 1 ) 2 esta regresión. .

∂Q
∂βˆ
=2 ∑ (Y − βˆ )( −1) = 0
i 1
1

∑ Y = ∑ βˆi 1

βˆ =
1
∑Y = Y i

βˆ 1 = Y

• La regresión que pasa por el origen (incluye X, pero no constante)


Yi = β 2 X i + u i
e i = ( Yi − βˆ 2 X i )
Q = ∑ e 2i = ∑ ( Yi − βˆ 2 X i ) 2 = Tarea: calcular R2 , verificar
∂Q las restantes propiedades.
∂βˆ
=2 ∑ (Y − βˆ i 2 X i )( −X i ) = 0
2

∑ (Y − βˆ X ) X
i 2 i i =0 ⇒ ∑Y X
i i − βˆ 2 ∑X 2
i =0

βˆ =
∑YX i i

∑X
2 2
i

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
41

Características:
∑e ≠0i

∑e X =0
i i

• Modelo doble logarítmico

ln Y = β1 + β 2 ln X + u i

∂ ln Y
η YX = = elasticida d de Y respecto a X = βˆ 2
∂ ln X

cambio porcentual de Y, respecto al
cambio porcentual en X

• Modelo Semilogarítmico
ln Y = β1 + β2 X + ui

∂ ln Y
= β 2 ⇒ cambio relativo en Y por un cambio absoluto en X .
∂X

semielasti cidad : tasa de cambio en Y por el cambio en una unidad en X.

• Ejemplo: el tiempo como variable explicativa

Supongamos que tenemos el siguiente modelo para representar la evolución de una cierta
economía:

PIB=Aer t (Ver Recuadro)


Donde A es un término constante, r es la tasa de crecimiento anual (que se supone
constante) y t es el tiempo (1,2,3.......).
Para estimar esta ecuación debemos linealizarla e incorporarle el componente aleatorio:
PIBt =Aert eµ
ln PIBt = ln A + rt+µi

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
42

ln PIBt = β 0 + β 1 t+µi (*)

Luego de estimar (*) con los datos de un cierto país, obtenemos:


ln PIBt = 6,96 + 0,0269 t +ei
Esto significa que la tasa de crecimiento del PIB promedio en el período de esta economía
es 2.69%.

Supongamos que el PIB crece a una tasa de 3% anual.


Matemáticamente esto significa que:

dPIB
= 0.03PIB
dt
Esta es una ecuación diferencial que se puede reescribir como:

1
dPIB = 0.03dt . Si integramos a ambos lados de la ecuación, tenemos:
PIB
1
∫ PIB dPIB = ∫ 0.03dt y resolviendo ambas integrales:

ln PIB + c1 = 0.03t + c 2

Con lo que: ln PIB = 0.03t + c . Encontrando el antilogaritmo de esta ecuación:

PIB(t)=e0.03t ec

2.1.12. ¿Cómo seleccionar entre estimadores?

Hasta ahora hemos derivado los estimadores MICO para βˆ 1 y βˆ 2 . También hemos derivado
sus propiedades. En este punto nos preguntamos qué criterios podemos aplicar para saber
que tan buenos son estos estimadores.
Pese a que MICO es el método más popular para estimar los parámetros de un modelo,
minimizar la suma de los errores al cuadrado, no dice nada sobre la relación del estimador y
el verdadero valor del parámetro. Puede pasar que la minimización sea válida para una
muestra en particular.

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
43

MICO siempre minimiza ∑ e 2i , pero esto no garantiza que se cumplan otras propiedades.

Mayor R2
¿Tiene sentido decir que los estimadores tendrán buenas propiedades si hacen que el R2 sea
el mayor posible?
No, MICO minimiza ∑ e 2i para una muestra en particular y esto es equivalente a
maximizar R2.
El R2 no es válido como criterio para "buena" estimación, sino como indicador ajuste de la
regresión a la muestra seleccionada. Ver Sección 2.1.10
ˆ
Insesgamiento ⇒ E(β) = β

Esto no quiere decir que β = βˆ , sino que se calcula el estimador correspondiente para
muestras repetidas, "en promedio" estaremos sobre el parámetro poblacional.
Minimizar ∑ e 2i puede aplicarse sin requerir casi ninguna información sobre la
forma en que los datos han sido generados. Este no es el caso del criterio de insesgamiento.
Para verificar si el estimador MICO es insesgado, deberemos realizar ciertos supuestos
sobre la forma en que se extrajo la muestra con la que trabajamos.

Eficiencia
¿Cómo elegimos entre estimadores que son todos insesgados?
Será mejor el que tenga la varianza más pequeña, es decir el que sea más eficiente.

Veremos qué supuestos deben plantearse para que se cumpla con esta propiedad.

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
44

Ahora, si tengo un estimador con mínima varianza, ¿estaré seguro que es el mejor
estimador? No, depende del sesgo.
Error Cuadrático Medio

ECM ( β̂ ) = E (βˆ − β) 2 = Var ( β̂ )+ [Sesgo ( β̂ )]2

f (β* )

En este caso β* es sesgado,


pero con menor varianza,
β̂
mientras es insesgado pero
con mayor varianza. Para
poder elegir entre ellos debo
comparar el ECM, que
(βˆ ) resume varianza y sesgo.
Debieramos elegir el
estimador con menor ECM.

β* ) ≠ β
E(

Consistencia
En muchos problemas econometricos es imposible encontrar estimadores con las
propiedades anteriores. Sin embargo, muchas veces se puede justificar la utilización de un
estimador en base a sus propiedades asintóticas.
La distribución muestral de un estimador muchas veces cambia en la medida que cambia el
tamaño muestral. Es posible que el sesgo de un estimador se haga cada vez mas pequeño
en la medida que aumenta n. Por esta razón al analizar las propiedades deseables de un
estimador se deben tener en cuenta las propiedades asintóticas o de “muestras grandes” del
mismo:

1. Si la distribución asintótica de β̂ se concentra en un valor k en la medida que n tiende a


infinito, se dice que k es el límite en probabilidad de β̂ (plim β̂ =k). Si plim β̂ =β se dice
que el estimador es consistente.

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
45

2. La varianza de la distribución asintotica de β̂ se denomina varianza asintótica de β̂ . Si


β̂ es consistente y su varianza asintótica es menor que la varianza asintótica de otros
estimadores, se dice que β̂ es asintóticamente eficiente.

f(x)
f (βˆ ) 100

f (βˆ )40

(βˆ )20

β
En el grafico vemos un ejemplo en que a medida que aumenta n (de 20 a100) la
distribución se concentra respecto a β mientras la varianza del estimador va
disminuyendo.
En conclusión: cuando no se encuentra un estimador con buenas propiedades para muestras
pequeñas es deseable elegir un estimador con buenas propiedades para muestras grandes.

2.2 SUPUESTOS CLÁSICOS DEL MODELO DE REGRESIÓN.

Recordemos que para derivar las fórmulas de los estimadores MICO, no fue necesario
realizar supuestos sobre la forma en que se extrajo la muestra o sobre la distribución de
probabilidad de µ.

Sin embargo para verificar las propiedades estadísticas que tienen estos estimadores si
requeriremos ciertos supuestos. Los supuestos usuales que se requieren y que por tanto
reciben el nombre de SUPUESTOS CLÁSICOS , son los siguientes:

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
46

1. La variable explicativa X está dada (es no estocástica o no aleatoria).


Este supuesto implica que si se repitiera la selección de muestras se podría
considerar que las variables independientes serían las mismas. Como se ve este
supuesto es muy fuerte.
Dado que X es no estocástica, la COV(X, µ)=0.

2. E(µ i /Xi )=0 ∀ i

µi ⇒ es una perturbación aleatoria que puede tomar valores positivos o negativos, pero
no existe razón para esperar que sea sistemáticamente positiva o negativa. Por el
contrario, suponemos que los errores “a la larga” se compensan.

Dado que la X es fija y teniendo en cuenta este supuesto:

E(Yi/Xi)= E(β 1 +β 2 Xi+µi)= β 1 +β 2 Xi

Con lo que este supuesto también implica que todo lo que no está incluido
explícitamente en el modelo (“todo lo que ignoramos” sobre los determinantes de la
variable Y), se supone que no afecta en forma sistemática el valor promedio de Y,
porque se compensan los errores negativos y los positivos.

3. No autocorrelación ⇒ Cov( µ i , uj)=0 i≠j

Se supone que los errores cometidos en dos momentos distintos en el tiempo no están
correlacionados. Esto significa que en repetidas muestras no existe ninguna tendencia a
que los errores asociados con una observación estén relacionada a los errores de otra.
Si en un momento de tiempo o en un individuo de la muestra se genera un error
positivo, esto no nos da ninguna información sobre si el próximo error será positivo o
negativo.
Este supuesto implica que los errores no tienen un patrón de comportamiento
sistemático.

[ ]
COV( µ i , µ j ) = E{[µ i − E (µ i ) ] µ j − E(µ j ) }y dado el supuesto 1
= E(µ i , µ j ) = 0

Cuando los términos de error correspondientes a períodos diferentes están


correlacionados, diremos que existe autocorrelación. Más tarde en el curso
estudiaremos MICO bajo autocorrelación.

Ejemplo:

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
47

Cuando se trabaja con series de tiempo en economía es muy común que se presenten
fenómenos que tienen inercia y si esta no es recogida por el modelo, se genera
autocorrelación en el error. Por ejemplo, los efectos de la crisis de 1982 generalmente
son difíciles de recoger en su totalidad por un modelo, por lo que se genera un error que
estará correlacionado con el error cometido en el período siguiente.

µi µi

* *

* * *
* *
* *
-µj * * * µj -µj µj
*
* * * *
*

Correlación
Positiva Correlación
Negativa

-µi
-µi

µi

No existe
Correlación

*
* * *
-µj * * ** µj
* *

-µi

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
48

4. Homocedasticidad ⇒ V(µ i /Xi )=σ 2


Se supone que las perturbaciones se distribuyen con igual dispersión (varianza)
respecto a la media.
V( µ i ) = σ 2 = E( µ i − E( µ i )) 2 y dado el supuesto 1 es equivalent e a E(µ 2i ) = σ 2
Cuando este supuesto no se cumple, decimos que existe heterocedasticidad.

f ( µ)
Homocedasticidad.

X1 E(Y/Xi)=β 1+β 2Xi


X2

X3

f ( µ)
Heterocedasticidad

X1 E(Y/Xi)=β 1 +β 2Xi
X2

X3

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
49

Ejemplo: supongamos que deseamos explicar el gasto en consumo de las familias en


función de su ingreso. Si los datos se refieren a una muestra de corte transversal, el
supuesto de homocedasticidad no tiene mucho sentido, ya que indica que independiente
del nivel de ingreso, los gastos de cada familia se desvían del modelo con la misma
dispersión. Lo lógico es pensar que a mayores niveles de ingreso, hay un mayor espacio
para que las familias distribuyan su ingreso.

5. El modelo está bien especificado.

Es decir que no hay errores en la especificación:


• No hay omisión de variables ni variables en exceso
• La forma funcional es la correcta
• No hay supuestos estocásticos incorrectos.

Esto evitará errores en la estimación de los parámetros.


6. Normalidad ⇒ µ i ∼N( 0 , σ 2 )

Los errores son normales, idéntica e independientemente distribuidos. Es decir que cada
error es una extracción aleatoria independiente de una distribución normal con media
cero y varianza σ2 .

f ( µ)

µ1 ∼N(0, σ2)
Y µ2∼ N(0, σ 2)

X1 E(Y/Xi)=β 1 +β2 Xi
X2

X3

2.3 PROPIEDADES ESTADÍSTICAS DE LOS ESTIMADORES MICO

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
50

En base a algunos de los supuestos clásicos anteriores, veremos ahora que propiedades
estadísticas tienen los estimadores MICO. ¿Son insesgados? ¿Son eficientes? ¿Tienen el
menor ECM?

2.3.1 Linealidad

∑ x y = ∑ x ( Y − Y) = ∑ x Y − ∑ x Y = ∑ x Y − Y ∑ x
βˆ 2 =
i i i i i i i i i i

∑x ∑x
2
i ∑x 2
i ∑x 2
i
2
i

Dado que la ∑xi=0 ⇒ βˆ =


∑x Y (*)
i i

∑x
2 2
i

xi
Si definimos k i = como un tipo especial de ponderador que cumple las siguientes
∑ x i2
propiedades:
a) no estocástico
b) ∑k i =0
1
∑k
2
c) =
i
∑ x 2i
Tarea: Verificar estas cuatro
d) ∑k x =∑k X
i i i i =1
propiedades

Esto nos permite volver a (*) y expresar βˆ 2 = ∑ k i Yi (**)

Esta expresión muestra que β̂2 es un estimador que puede expresarse como
combinación lineal de la variable Yi (donde ki son las ponderaciones de esa
combinación lineal).

2.3.2 Insesgamiento

Sabemos que Yi = β 1 + β 2 X i + µ i y por (**) sabemos que βˆ 2 = ∑ k i Yi ,


entonces

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
51

βˆ 2 = ∑ k i (β 1 + β 2 X i + µ i )

βˆ 2 = ∑ k i β1 + ∑ k iβ 2 X i + ∑ k i µ i

βˆ 2 = β1 ∑ k i + β 2 ∑ k i X i + ∑ k i µ i

0 1
por a) por d)

βˆ 2 = β 2 + ∑ k i µ i (***)

Esta expresión es muy útil porque expresa al estimador como la suma del verdadero
parámetro β 2 más una suma ponderada de errores aleatorios que puede resultar
positiva o negativa, pero cuyo valor esperado es 0.

βˆ es insesgado si E(βˆ ) = β
2 2 2

Tomando esperanza a (***)

E (βˆ 2 ) = E(β2 + ∑ k iµ i )

E (βˆ 2 ) = E(β2 ) + E( ∑ kiµ i ) dado que k i es fijo , no aleatorio

E (βˆ 2 ) = β2 + ∑ k iE (µ i ) Supuesto 2 : E(µ i ) = 0

E (βˆ 2 ) = β 2

El estimador es insesgado, esto es, aunque para una muestra en particular β̂ 2 se puede alejar
de β en algo positivo o negativo ( βˆ − β =
2 2 2 ∑
k µ ), si repetimos muchas veces el
i i

experimento, estaremos en promedio sobre el verdadero valor del parámetro. Recordar: que
el estimador sea insesgado no nos garantiza que sea el "mejor" estimador.

Tarea: Chequear para β̂1

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
52

2.3.3 Eficiencia
2.3.3.1 Cálculo de varianzas y covarianzas.
Para verificar cuan concentrado o disperso (respecto al verdadero valor) se
encuentra el estimador MICO necesitamos calcular las VARIANZAS :
Recordar var( X ) = E(X i − E (X ) ) 2

• ( 2
)
VAR (βˆ 2 ) = E βˆ 2 − E(βˆ 2 ) , pero E(βˆ 2 ) = β 2 luego, VAR (βˆ 2 ) = E[(βˆ 2 − β 2 )] 2
De (***) sabemos que

βˆ 2 = β 2 + ∑ k i µ i

βˆ 2 − β 2 = ∑ k i µ i , con lo que:

[
Var (βˆ 2 ) = E( ∑ k i µ i ) 2 = E (k 1µ 1 + k 2 µ 2 + . . . + k n µ n ) =
2
]
Var (βˆ 2 ) = E[(k 1µ 1 + k 2 µ 2 + . . . + k n µ n )(k 1µ 1 + k 2 µ 2 + . . . + k n µ n )] =

[
Var (βˆ 2 ) = E k 12 µ 12 + k 1k 2µ 1 µ 2 + k 1 k 3µ 1 µ 3 + . . . + k 22 µ 22 + k 2µ 2 k 1µ 1 + … ]

nos quedan
n

→ n terminos k µ → ∑ k i2 µ i2
2
i
2
i
1
n (n −1)
n ( n − 1)
→ términos ( 2k i µ i k jµ j ) → ∑ 2k i k jµ i µ j
2 1

n n ( n −1)

Var (β 2 ) = E ∑ k i µ i + 2 ∑ k i k j µ i µ j 
 2
ˆ 2 2

 1 1


k i no aleatorio

Recordando  E(µ 2i ) = σ 2
 E(µ µ ) = 0
 i j

n ( n −1) n ( n −1 )
n 2 n 2
Var (βˆ 2 ) = ∑ k 2i E ( µ i2 ) + 2 ∑kk i j E( µ i µ j ) = ∑ k 2i E (µ 2i ) + 2 ∑ k k E(µ µ i j i j )
1 1 1 1

σ2 ∀ i 0

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
53

 1 
= σ
2
Var (βˆ 2 ) = σ 2 ∑ i
k 2
= σ 2 
 ∑ x 2i  ∑ x i2
 

1
por c), ∑k 2
=
∑ x i2
i

Tarea: verificar que Var (βˆ 1 ) = σ 2


∑X 2
i
 X2
= σ2  +
1

n∑ x 2
i  ∑ x i n 
2

• COV( βˆ 1 , βˆ 2 )

( )( ) [
COV (βˆ 1 , βˆ 2 ) = E βˆ 1 − E(βˆ 1 ) βˆ 2 − E(βˆ 2 ) = E (βˆ 1 − β1 ) (βˆ 2 − β 2 ) ]
↓ ↓
E(βˆ 1 ) = β 1 E (βˆ 2 ) = β 2

Pero, βˆ 1 = Y − βˆ 2 X , con lo que

βˆ 1 − β1 = β1 + β 2 X + µ − βˆ 2 X − β1 , y por tanto,

βˆ − βˆ = X ( β − βˆ ) + µ =
1 1 2 2
βˆ − β = − X ( βˆ − β ) + µ
1 1 2 2
Entonces,

COV ( βˆ1 , βˆ 2 ) = E{[− X ( βˆ 2 − β 2 ) + µ ) ][βˆ 2 − β 2 ]} =

E[− X ( βˆ 2 − β 2 ) ( βˆ 2 − β 2 ) ] + E [µ ( βˆ 2 − β 2 ) ] =
 ∑ µi 
− X E ( βˆ 2 − β 2 ) 2 + E ( )( ∑ k i µ i )  =
 N 
σ2 1 
−X• + E  ( µ1 + µ 2 + . . . + µ n )( k1 µ 1 + k 2 µ 2 + . . . + k n µ n ) =
∑ xi  N
2

σ2
−X• + σ 2 ∑ ki
∑ xi
2

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
54

σ2
COV(βˆ 1 , βˆ 2 ) = − X •
∑ x 2i

Características de la varianza

• La varianza de β̂ 2 es directamente proporcional a σ2 (varianza de µi) e inversamente


proporcional a ∑ x 2i (varianza de variable X)

• Dado σ2, cuanto mayor sea la variabilidad de la variable X, más centrado estará el
estimador del verdadero valor.
• Dada la varianza de Xi, a mayor σ2 (mayor variabilidad de los datos a explicar o
mayor variabilidad del error aleatorio), mayor será la varianza del estimador.

Y
X

variabilidad
de Y no
explicada
variabilidad
por X
de X
La amplitud
de esta área
es σ2 variabilidad común, en el sentido
que se puede explicar una por otra.
Cuanto mayor esta área, mayor la
información empleada por el
procedimiento de estimación para
calcular la pendienteβ2 , entonces,
menor su varianza.

Características de la covarianza

• Implica que βˆ 1 y βˆ 2 dependen entre sí

signo depende de X , si X > 0 → cov (βˆ , βˆ ) < 0


1 2
X < 0 → cov (βˆ , βˆ ) > 0
1 2
Tanto las varianzas y como la covarianza de los estimadores quedan dependiendo de datos
conocidos (∑ X , ∑ X
i
2
i )
, n, X … y de un parámetro desconocido σ 2 .

• Cómo no conocemos σ2 (es un parámetro poblacional), no conoceremos los valores de

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
55

las verdaderas varianzas. Estimaremos σ2 y eso nos permitirá estimar las varianzas de
βˆ y βˆ .
1 2

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
56

2.3.3.2 Estimador de σ2
(1) Yi = β 1 + β 2 X i + µ i
(divido entre n y sumo para todo i)

∑Y i
= β1 + β 2
∑X i
+
∑µ i

n n n
(2) Y = β1 + β 2 X + µ

(1)-(2) → Yi − Y = β 1 − β1 + β 2 ( X i − X ) + µ i − µˆ , expresado en desvíos:

(3) y i = β 2 x i + (µ i − µ )
Recordando que:

(4) e = y − ŷ = y − βˆ x
i i i i 2 i
Sustituyendo (3) en (4)

(5) e = β x + µ − µ − βˆ x i
i 2 i i 2

(6) e = (βˆ − β )( −x ) + µ − µ
i 2 2 i i

Se eleva (6) al cuadrado

[
e 2i = (βˆ − β )( − x ) + µ − µ
2 2 i i
2
]
(7) e 2i = ( −x i ) 2 (βˆ 2 − β 2 ) 2 + (µ i − µ ) 2 − 2x i (βˆ 2 − β 2 ) (µ i − µ )

Sumando para todo i

(8) Σe 2 = ∑ x 2 (βˆ − β ) 2 + Σ(µ − µ ) 2 − 2∑ x (βˆ − β ) (µ − µ )


i i 2 2 i i 2 2 i

Aplicando esperanza a (8)

(9)
i  i 2 2   i  i 2 2
[
E (Σ e 2 ) = E  ∑ x 2 (βˆ − β ) 2  + E  Σ (µ − µ ) 2  − 2E ∑ x (βˆ − β ) (µ − µ )
i
]
(10)
i 14i 442244243 1442 i 
443 14444
2 4 2244
[
E (Σ e 2 ) = ∑ x 2 E (βˆ − β ) 2 + E Σ( µ − µ ) 2  − 2E (βˆ − β ) ∑ x (µ − µ )
i 4i443
]
A B C

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
57

(11) E (Σe 2 ) = A + B + C
i

Desarrollando A

i 2
(
A = ∑ x 2 E βˆ – β
2
2
i
)
= ∑x2 •
σ2
2
=σ2
∑ xi

σ2
Recordar que V(βˆ 2 ) =
∑ x 12
Desarrollando B

B = E ∑ (µ − µ ) 2  = E ∑ (µ 2 − 2µ µ + µ 2 )  = E ∑ µ 2 + ∑ µ 2 − 2∑ µ µ 


 i   i i   i i 

= E ∑ µ 2 − nµ 2 − 2µ ∑ µ  = E ∑ µ 2 + n µ 2 − 2 µ • nµ  = E ∑ µ 2 + nµ 2 − 2nµ 2 


 i i  i   i 
 ∑µ 
2  ∑ µ2 
= E ∑ µ 2 − nµ 2  = E ∑ µ 2  − n E µ 2  = ∑ E (µ 2 ) − n E i  = ∑ σ2 − n E  i 
   =
 i   i    123 i n  n 2 
   
σ 2
1 1 1
= ∑ σ2 − n • ∑ E (µ 2 ) = ∑ σ 2 − ∑ σ 2 = nσ 2 − nσ 2 = σ 2 ( n − 1)
n2 12i3 n n
σ2
Desarrollando C

 
    

 14
(
2 24 2
3
)
i i 
 
i i  i i
( 
C = − 2 E β − β ∑ x (µ − µ )  = − 2E  ∑ k µ  ∑ x µ − µ ∑ x   =
ˆ
{i  
)
 ∑k µ  
  0 
 
[ ] [ ]
i i
= − 2 E ∑ k µ ∑ x µ = − 2 E (k µ + k µ … k µ )( x µ + x µ … x µ )
i i i i 1 1 2 2 n n 1 1 2 2 n n
 
 
= − 2 k x E(µ 2 ) + k x E (µ 2 ) + … + k x E (µ 2 ) + … k x E(µ µ )
 1 1 1213 2 2 123 2 n n 12n3 n n − 1 14 n2n4−4
4 1 
3
 
 σ2 σ2 σ2 0 
= − 2 ∑ k x σ 2 = − 2σ 2 ∑ k x = − 2σ 2
i i 12i 3i
1
Entonces ahora (11)

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
58

(12) E (∑ e i2 ) = A + B + C = σ 2 + ( n − 1)σ 2 − 2σ 2 = σ 2 (1 + n − 1 − 2) = σ 2 ( n − 2)

(13) E (∑ e i ) = σ ( n − 2)
2 2

2 ∑ e i2
Definamos que el estimador de σ es σˆ = 2
, el resultado (13) nos asegura que
n−2
estamos definiendo un estimador insesgado de σ2 .
Esto porque σ2 será insesgado si:
 ∑ e2 
 i = 1
E σˆ  = σ y E(σˆ ) = E E ∑ e 2  =
2 2 2 1
 • σ 2 (n − 2) = σ 2
   n −2  n − 2 1  4
42
i
3 n −2
 
σ 2 ( n − 2)

2 ∑ e i2
El estimador insesgado de σ2 será σˆ =
n−2

2.3.3.3 Varianzas estimadas

Sabemos que V (βˆ 2 ) =


σ2
y σˆ =
2 ∑ e 2i , luego,
∑ x 2i n−2

ˆ ˆ
V (β 2 ) = σ βˆ =
ˆ 2 σˆ 2
=
∑ e 2i / n − 2
=
∑ e 2i
2
∑ x 2i ∑ x 2i ( n − 2)∑ x 2i

σˆ
o alternativamente σˆ βˆ = Tarea: para el
2
∑x 2
i
ejemplo 2.1.7,
calcular las
y análogas para βˆ 1 ,
varianzas y

Var (βˆ 1 ) = σ 2
∑X 2
i
 X2
=σ  2
+
1

covarianzas
n∑ x estimadas.
 ∑ x i n 
2 2
i

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
59

V̂(βˆ 1 ) = σˆ β2ˆ1 = ~
σ2
∑X 2
i
 X2
= σˆ 2  +
1

n∑ x 2
i  ∑ x i n 
2

2.3.3.4 Teorema De Gauss-Markov

HIPÓTESIS: Si se cumplen los siguientes supuestos clásicos:


1. La variable explicativa X está dada (es no estocástica o no aleatoria).

2. E(µi) = 0 ∀i

 2
3. y 4. E u , u  = σ si i = j homocedasticidad y no autocorrelación
 i j   0 si i ≠ j

5. No hay errores de especificación

TESIS: Los estimadores MICO son de mínima varianza entre los estimadores lineales e
insesgados ⇒ MICO son los mejores estimadores lineales insesgados (MELI).

Demostración

Sabemos que β̂ es lineal ( βˆ = ∑ k Y ) e insesgado ( E (βˆ 2 ) = β 2 ).


2 2 i i

ˆ σ2
Además V(β 2 ) =
∑ x 2i
• Supongamos que existe otro estimador β* lineal de β 2 .
2

Entonces para que será lineal β* deberá ser igual a β*2 = ∑ w i Yi donde wi es alguna
2
ponderación.

• Calculemos E (β* ) y veamos que condición debemos exigirle a wi para que β* sea
2 2
insesgado.

E (β*2 ) = ∑ w i E( Yi ) = ∑ w E(β1 + β2 Xi + µ i ) = ∑ w i (β1 + β2 Xi ) =


i
= β1 ∑ w i + β2 ∑ wi Xi

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
60

para que β*2 sea insesgado se debe cumplir: ∑w = 0 i

∑w X = ∑w x
i i i i =1

• Veamos las condiciones que tiene que cumplir wi para que la varianza sea mínima

Var β* = Var ( ∑ w Y ) = ∑ w 2 Var (Y ) = ∑ w 2 • σ 2 = σ 2 ∑ w 2


2 i i i 1424 i
3 i i
σ2
x
Sumando y restando i al término con sumatoria,
∑ x i2

2 2
    
2  x
i +
x
i  2 
x
i  x
i 
= σ ∑ w −  = σ ∑  w − + 
i 2 2 i 2 2
 ∑x ∑x   ∑x  ∑x 
 i i  i  i 

 
2 2
   x    x
x   i   x  i 
= σ 2 ∑  w − i  +  + 2  i
w − i
 
 i ∑ x 2   ∑ x2   ∑ x2  ∑ x 2 
 i   i   i  i 

2 2
   x  w x x2 
2  x
i  2  i  2  i i i 
= σ ∑ w −  +σ ∑  + 2σ ∑  − 
i 2  ∑x2 2
 ∑xi   ∑x (∑ x 2 ) 2 
   i   i i 

2
 
 x  1 1  ∑x 2

2 2 ∑ i ∑ wi x i −
= σ2 ∑  w − i  + σ2 x 2 + 2σ2 i



i 2
∑ x i  ( ∑ i
x ) ∑ x 2i  ∑x 2
i

El término entre paréntesis es


2 cero, ya que para que exista
 
* 2  x
i  σ2 insesgamiento se requiere que
Var (β ) = σ ∑  w −  +
2  i ∑ x2  ∑ x2 ∑x w = 1
 i  i

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
61

σ2
quiero minimizar esto, pero el segundo sumando es un número , es una constante,
2
∑xi

x
Entonces, minimizar Var(β*2 ) es equivalente a minimizar ∑ ( w − i )2
i
∑ x i2

y este cuadrado se minimiza cuando la base es igual a cero ⇒ se minimiza cuando


xi xi
wi − = 0 o cuando wi =
∑x 2
i ∑x 2
i

xi
La condición que minimiza la varianza es que w i = , que es una condición igual a la
∑x 2
i

de MICO, por lo que βˆ 2 = β*2

Este teorema asegura que si existe otro estimador ( β*2 ) con similares propiedades al que
tiene MICO (linealidad e insesgamiento), para que la varianza de β*2 sea mínima, este
estimador debe ser el estimador MICO.
Como consecuencia, MICO es el mejor estimador entre los estimadores lineales e
insesgados.

Hasta este punto hemos demostrado que los estimadores MICO tienen propiedades
importantes:
• linealidad
• insesgamiento
• mínima varianza dentro de la familia de estimadores lineales e insesgados (eficientes
entre los estimadores lineales e insesgados)

De los seis supuestos clásicos solo hemos utilizado los cinco primeros, es decir, para
determinar estas propiedades no hemos requerido ningún supuesto sobre la distribución de
los errores.
Tarea: verificar qué supuestos son necesarios para determinar cada una de las
propiedades

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
62

2.4 INFERENCIA ESTADÍSTICA EN EL MODELO DE REGRESIÓN


LINEAL SIMPLE

Recordar: Para obtener estimadores de β 1 y β 2 que sean MELI no se requiere suponer


ninguna distribución de probabilidades de µ .

Ahora, para tener intervalos de confianza para los parámetros y testear cualquier
hipótesis requerimos el supuesto 6:

µ i ≈ N( 0, σ 2 ) ∀i

Nos interesa saber:

• ¿Qué tan cerca están βˆ 1 y βˆ 2 de los parámetros poblacionales?

• ¿Qué tan cerca está Yˆi del verdadero E(Y/Xi)?

2.4.1 Repaso Breve de algunos teoremas de Inferencia.

TM1 Teorema Central de Límite:


Si X es la media de una muestra aleatoria de tamaño n que se toma de una
población con media µ y varianza finita σ2 , entonces

X −µ
lím ite de z = ~ N ( 0, 1)
σ/ n
n →∞

TM2 Z i ~ Normales e Independie ntes ( µ i , σ 2i ) y Z1 , Z2 , ..., Zn son variables


aleatorias
Entonces,
Z = ∑ k i Z i ≈ N( ∑ k i µ i , ∑ k 2i σ 2i )
TM3 Una covarianza nula entre dos variables aleatorias que se distribuyen normal, implica
independencia estadística.
f(x, y) = f(x) • f(y)

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
63

TM4. Formación de la distribución Chi-Cuadrado


Si Z1 … Z n sonV .A.

Z i ~ N( 0,1), independie ntes 
∑Z 2
i = Z12 + Z 22 + … + Z 2n ~ χ 2n

P( χ 2 > χ 2α ) = α la probabilidad de que


cualquier valor de la chi-cuadrado sea mayor a
χ 2α es igual al área que se acumula arriba y a
α
la derecha deχα
2

0
χ 2α

Exactamente el 95% de una distribución chi-cuadrado caen entre χ 20. 975 y χ 20.025 .

TM5 Si Zi son variables aleatorias independientes y Z i ~ χ 2k i

Entonces,

∑Z i ~ χ 2∑ ki

TM6 Si S2 es la varianza de una muestra aleatoria de tamaño n tomada de una población


(n − 1)S 2
normal que tiene la varianza σ2 , entonces el estadístico χ 2 = tiene una
σ2
distribución chi-cuadrado con n-1 grados de libertad.

TM7 Formación de la distribución t- student.


Z1 ~ N( 0, 1) 
 Z1 Z1 k
Z2 ~ χ 2
k t= = ~ tk
Z1 y Z 2 son independie ntes 
Z2 / k Z2

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
64

P(-tα/2 < t < t α/2) = 1-α

α/2

-tα/2 tα/2
0

TM8 Si X es la media de una muestra aleatoria de tamaño n que se toma de una población
normal con media µ y varianza finita y desconocida σ2 , pero varianza estimada S2 ,
X −µ
entonces el estadístico t = ~ t n −1 , se distribuye t con n-1 grados de libertad.
S/ n

TM9 Formación de la distribución F de Fischer

Z1 ~ χ k 1
2

 Z1 / k1
Z2 ~ χ F=
2
k2 ~ Fk 1 , k2
 Z2 / k 2
Z1 es independie nte de Z 2 

P ( F > Fα ) = α la probabilidad de
que cualquier valor de la F sea mayor a
Fα es igual al área que se acumula arriba
α y a la derecha de F α

0 Fα

TM 10
t 2k = F 1, k

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
65

2.4.2 ¿Qué Consecuencias tiene suponer µ i ~ N(0, σ 2)?

1. µi normal e incorrelacionados ⇒ son independientes.

2. Yi = β1 + β 2 X i + µ i

Por lo que Yi es una combinación lineal de variables aleatorias que se distribuyen


normal ⇒ Yi se distribuirá normal

E(Yi)= E(β 1 +β 2 Xi+µi)= β 1 +β 2 Xi


V(Yi) = V (β 1 +β 2 Xi+µi)=V(µi)=σ2

Por lo que Yi ~ N(β1 + β 2 X i , σ )


2

3. Recordemos que βˆ 2 = β 2 + ∑ k i µ i

β̂2 también es C.L. de VA normales ⇒ β̂2 es una variable aleatoria que se


distribuye normal
E (βˆ 2 ) = β 2
σµ
2

V (βˆ 2 ) = σ 2βˆ 2 =
∑x 2
i

βˆ 2 ~ N (β2 , σ2βˆ )
2

4. Estandarizando,
βˆ 2 − β 2
Z2 = ~ N(0, 1)
σβˆ 2

βˆ 1 − β1
Z1 = ~ N( 0, 1)
σ βˆ 1

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
66

βˆ 2 ≈ N (β 2 , σ 2βˆ )
2

0 β2

βˆ 2 − β 2
Z2= ~ N(0,1)
σ βˆ
2
2

5. Recordando el teorema 6, podríamos probar que:

(n − 2) σˆ 2
(1) ~ χ2
2 n−2
σ
6. Sabemos que

βˆ 2 − β 2 σ 2µ σµ
~ N(0, 1) con σβˆ = =
σ βˆ
2
2
∑x 2
i ∑x 2
i

Entonces, =
ˆ
βˆ 2 − β 2 (β 2 − β 2 ) ∑x 2
i
~ N(0, 1) (2)
σµ σµ
∑x 2
i

Podríamos probar que (1) y (2) son independientes. Entonces:

(βˆ 2 − β 2 ) ∑x 2
i

σµ
t= ~ t n −2 (3)
(n − 2) σˆ 2µ
n−2
σ 2µ

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
67

Expresando (3) de otra forma y simplificando:

t=
(βˆ 2 − β 2 ) ∑x 2
i σµ
=
(βˆ 2 − β 2 ) ∑x 2
i σµ
=
(βˆ 2 − β 2 ) ∑x 2
i σµ
σˆ µ2 (n − 2) 1 σˆ 2µ σˆ µ σ µ

σ 2µ ( n − 2) σ 2µ

=
(βˆ 2 − β 2 ) ∑x 2
i
=
(βˆ 2 − β 2 ) (βˆ − β 2 )
= 2
σˆ µ σˆ µ  σˆ βˆ
2 
σ βˆ
ˆ 2

∑ x i  2

Es decir que:

(βˆ 2 − β 2 ) (βˆ 1 − β1 )
≈ t n− 2 y por similar procedimiento, ≈ t n −2
σˆ ˆ
β2
σˆ ˆ β1

Esto nos permitirá obtener intervalos de confianza y realizar test de hipótesis sobre β 1 y β 2.

2.4.3 Intervalos de Confianza para β 1 y β 2.

Estamos buscando , P (βˆ 2 − δ ≤ β 2 ≤ βˆ 2 + δ) = 1 − α , es decir que la probabilidad de que β 2


esté entre dos valores sea 1-α.
Notación:
(1-α) % nivel de confianza

α nivel de significancia

El intervalo será aleatorio (depende de la muestra), pero después que se utilizó una muestra,
el intervalo queda fijo y por tanto la probabilidad de que el verdadero valor esté en el
intervalo es cero o uno (“está o no está”)

βˆ 2 − β2
Dado que ~ t n −2 , entonces exactamente el 1-α de esta distribución t con n-2
σˆ βˆ
2

grados de libertad, estará entre los valores -tα/2 y tα/2 .


P (− t α / 2 ≤ t n −2 ≤ tα / 2 ) =1 − α

βˆ 2 − β 2
P (− t α / 2 ≤ ≤ t α / 2 ) = 1− α
σˆ βˆ 2

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
68

P (− t α / 2 • σˆ βˆ 2 ≤ βˆ 2 − β 2 ≤ t α / 2 • σˆ βˆ 2 ) = 1 − α

P (−βˆ 2 − t α / 2 • σˆ βˆ 2 ≤ − β 2 ≤ − βˆ 2 + t α / 2 • σˆ βˆ 2 ) = 1 − α

Por lo que finalmente:

P (βˆ 2 − t α / 2 • σˆ βˆ 2 ≤ β 2 ≤ βˆ 2 + t α / 2 • σˆ βˆ 2 ) = 1 − α

Esto implica que el intervalo de confianza para β 2 es:

IC β 2 = βˆ 2 ± t α / 2 σˆ βˆ
2

Y en forma similar:

IC β1 = βˆ 1 ± t α / 2 σˆ βˆ
1

2.4.4 Prueba de hipótesis


Nos interesa verificar si las observaciones muestrales son compatibles con determinada
hipótesis. Por ejemplo:
H 0 ) β2 = b
H1 ) β2 ≠ b
Para eso desarrollamos un procedimiento que nos permita decidir si se rechaza o no esa
hipótesis en base a la información muestral.
Hay dos enfoques de la prueba de hipótesis:
Enfoque del intervalo de confianza.
Supongamos que construimos un intervalo de confianza para β 2 . Luego es posible discutir
si el valor b que me estoy planteando como hipótesis nula cae o no dentro del intervalo.

Es decir buscamos un intervalo IC β 2 = βˆ 2 ± t α / 2 σˆ βˆ y luego


2

• Si b ∈ IC ⇒ No rech H0
• Si b ∉ IC ⇒ Rech Ho.

Rech H0 No rech H0 Rech H0

β 2 = βˆ 2 − t α / 2 σˆ βˆ β 2 = βˆ 2 + t α / 2 σˆ βˆ
2 2

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
69

Enfoque de pruebas de significación.


El procedimiento se basa en utilizar un estimador y su distribución, considerando que ésta
se cumple bajo la hipótesis nula.

βˆ 2 − β 2 βˆ − b
Sabemos que ~ t n − 2 , entonces bajo la hipótesis nula 2 ~ t n −2
σˆ βˆ σˆ βˆ
2 2

βˆ 2 − b
P (− t α / 2 ≤ ≤ t α / 2 ) =1 − α
σˆ βˆ 2

P (− t α / 2 • σˆ βˆ 2 ≤ βˆ 2 − b ≤ t α / 2 • σˆ βˆ 2 ) = 1 − α

P (− b − t α / 2 • σˆ βˆ 2 ≤ − βˆ 2 ≤ − b + t α / 2 • σˆ βˆ 2 ) = 1 − α

Por lo que finalmente:


P (b − t α / 2 • σˆ βˆ 2 ≤ βˆ 2 ≤ b + t α / 2 • σˆ βˆ 2 ) = 1 − α

Esto determina la región de aceptación y rechazo de la hipótesis:


r egión aceptación : b ± t α / 2 σˆ βˆ
2

βˆ 2 − b
Bajo Ho, ~ t n-2
σˆ ˆ
β2

α/2

-t c tc
0
bσ+βˆ 2
ˆ > ˆ
Rech Ho⇒β 2 tα /2
Rech Ho⇒ β 2 < b -σ βˆ 2 tα/2
ˆ ˆ

Acepto la hipótesis nula (Ho)


No rech H 0

Entonces rechazamos H0 si

• t >tc
Rech H0 si | t | > tc
• t < tc

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
70

βˆ 2 − b βˆ 2 − b
Como t = , entonces Rech H0 si > tc
σˆ βˆ σˆ βˆ
2 2

2.4.5 Recordando de inferencia:

1. Diferencia entre test a una o dos colas, viene dada por la hipótesis alternativa.

Una cola

H0 : β 2 = b 2

H1 : β2 > b 2
α

Rech H 0 si t > tc
tc

Dos colas

H 0 : β2 = b2
α /2 H1 : β 2 ≠ b 2
α/2 Rech H0 si |t| > tc

- tc tc

Si β̂2 cae en alguna de las colas de la distribución (Rech H0), puede ser por dos
razones

a. La hipótesis nula es cierta, pero se ha elegido una muestra equivocada.

b. La hipótesis nula es efectivamente falsa.


H0 cierto H0 falso

Rech H0 Error I Ok

No Rech H0 Ok Error II

Al hacer test de hipótesis, estoy fijando en α, la probabilidad de cometer error I.

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
71

β 2 bajo H0
β 2 bajo H1

α = P(Error Tipo I) = P(Rech H0/H0 es cierto)

Al minimizar la probabilidad de error I , se aumenta la probabilidad de cometer

error II.
β = P(Error Tipo II) = P(No Rech H0/H0 es falso)

3. La hipótesis nula más común utilizada:

H 0 : β2 = 0 βˆ 2
, luego, bajo la hipótesis nula t = ~ t n −2
H1 : β2 ≠ 0 σˆ ˆ β2

Objetivo: Evaluar si β 2 es significativamente distinto de cero. Si lo es se dice

que la variable X es significativa o relevante.


2.4.6 Ejemplos de Test De Hipótesis
Ejemplo 1
El caso más común es probar

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
72

H0 : β2 = 0
H1 : β2 ≠ 0

Para el ejemplo 2.1.7, teníamos que Yˆ = 3.6 + 0.75 X i y los desvíos estándar de los
coeficientes eran:
σˆ βˆ = 2.09
1
σˆ βˆ 2 = 0.256

Nos interesa saber si la variable X es estadísticamente significativa, esto es probar la


hipótesis nula de que β 2 = 0
Esto se puede hacer de dos maneras:

Por medio de un intervalo de confianza.

tα/2, 8 = t 0,025 = 2,306


IC β 2 0,75 – (2,306)(0,256) ≤ β 2 ≤ 0,75 + (2,306)( 0,256)
0.16≤ β 2≤1.34 IC 95%
Como el cero no pertenece al intervalo, rechazo la hipótesis nula a un 95% de nivel de
confianza. Esto significa que de cada 100 intervalos que se realicen, 95 contendrán el
verdadero valor de β 2. Pero luego de calculado uno (0,16; 1,34), la probabilidad de que β 2
esté contenido en él es 1 o 0. (o está o no está).

¿Cómo podemos producir intervalos menores?


• aumentar el nivel de confianza (reduciendo α).
• ampliar el tamaño de la muestra buscando reducir la varianza.

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
73

Por medio de una prueba de significación.

Rech Ho si |t |>2.306
βˆ 2 − 0 0,75
t= = = 2,93 > 2,3 ⇒ rech . H 0
σˆ ˆ 0,256
β2

0.025

-2.306 2.306
0
2.93

Rech β 2 =0 ⇒ β 2 es significativamente distinto de cero, X es significativo o


relevante para explicar Y.
Regla 2t
βˆ i
Cuando n = 20, P(t > 2,085) = 0,025 ⇒ si t = ≥ 2,0 estamos seguros que
σˆ βˆ i
rechazamos H 0 y el coeficiente βi es significativamente distinto de cero.

Salida de E-Views para este ejemplo:


Nos interesa ver solo la parte de la salida que hemos estudiado hasta ahora.
LS // Dependent Variable is Y
Date: 08/25/98 Time: 09:51
Sample: 1 10
Included observations: 10
Variable Coefficient Std. Error t-Statistic Prob.
C 3.600000 2.090177 1.722342 0.1233
X 0.750000 0.255738 2.932692 0.0189
R-squared 0.518092 Mean dependent var 9.600000
Adjusted R-squared 0.457854 S.D. dependent var 1.837873
S.E. of regression 1.353237 Akaike info criterion 0.781855
Sum squared resid 14.65000 Schwarz criterion 0.842372
Log likelihood -16.09866 F-statistic 8.600683
Durbin-Watson stat 2.346416 Prob(F-statistic) 0.018920

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
74

La salida tiene tres partes:


i) La primera indica la variable dependiente (Y), el período muestra utilizado (sample)
y su tamaño (número de observaciones).
ii) La segunda parte plantea las estimaciones de los coeficientes y sus varianzas. Se
muestran cinco columnas:
Variable: variables explicativas (siempre se identifica el intercepto con la letra C)

Coefficient: muestra los coeficientes estimados.


Std. Error: indica las estimaciones de los desvíos estándar de los coeficientes ( σˆ βˆ i ).

βˆ i
t-Statistic: presenta el valor del estadístico t (t = ) para la hipótesis nula β i=0. Para
σˆ βˆi
el ejemplo, vemos que el estadístico t del intercepto es menor que dos, por lo que
podríamos decir que la constante no es significativa.
Prob: el p-value, o sea, el nivel de significancia (α) máximo ex post que requerimos
para no rechazar la hipótesis nula. En este ejemplo, si trabajamos con α=1.8%, no
rechazamos la hipótesis de que β 2 =0.
iii) La tercera parte de la salida presenta indicadores de ajuste y otros estadísticos
veremos más adelante en este curso. Los que conocemos hasta ahora son:

R-squared: es el R2 de la regresión e indica que la regresión logra explicar el 51% de la


variación total de Y.

S.E. of regression: desvíación estándar de la regresión= σˆ =


∑e 2
i

n−2
suma al cuadrado de los residuos: ∑ e 2
Sum squared resid: i

Mean dependent var: Y

S.D. dependent var: desvíación estándar de la variable dependiente:


∑ (Y
i − Y)2
n −1

Ejemplo 2: Relación Error I y Error II


• Rech H0/H0 ⇒ Error de tipo I , P(Error I)=α
• no rech H0/H1 ⇒ Error de tipo II

Ejemplo:
Considere el siguiente modelo:
Yi = β 1 + β 2 Xi + µi

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
75

donde a priori se sabe que la varianza verdadera de µi es 40 (σ2 = 40).


Dado una muestra de 10 observaciones, se sabe que ∑X i = 20 y ∑X 2
i = 50 .

Usted está interesado en probar la hipótesis nula de que β 2 = 1, versus la hipótesis


alternativa de que β 2 > 1, con un nivel de significación de 5%. Si el verdadero valor
de β 2 es 4, ¿cuál es la probabilidad de que usted rechace correctamente la hipótesis
nula?

Sabemos que Yi = β 1 + β 2 X i + µ i
H0)β 2 = 1
H1)β 2 > 1
Se pide calcular la Probabilidad de rechazar H0 correctamente. Esto es, la probabilidad de
que rechacemos que β 2 =1, dado que en realidad es 4.
Debemos calcular Prob (rech H0 / β 2 =4)

βˆ 2 − 1
Bajo H0 , ~ N(0,1), porque se conoce la verdadera varianza de µi
σˆ
β2

Bajo H0,
β2~ N(1, σ ) Bajo H1,
β̂2 El área achurada es la que se nos pide
β2~ N(4,σ )
β̂2 calcular, es la P(rech H0, dado H 1) y es
igual a 1-P(no Rech H 0, dado H1)=1-β

1 4

No rech Ho β̂ c Rech Ho

Lo primero que debemos calcular es el área de rechazo. Sabemos que rechazamos H0 si


βˆ − 1
βˆ > βˆ c , Rech. H0 si 2 > 1,645
σˆ
β 2

Dada la información que conocemos:

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
76

σ 2µ = 40 

n = 10  2 1 1 1 40 40
 σ βˆ 2 = σ µ • = σ 2µ = σ µ2 = = =4
2

∑ i
X = 20  ∑ 1
x 2
∑ (X i − X) 2
∑X 2
1 − nX 2
50 − 10( 2) 2
10
∑ X i = 50
2

⇒ σ βˆ = 4 = 2
2

βˆ 2 − 1
Rech. H0 si > 1,645
2
ˆ
Rech Ho si β 2 > 1,645 * 2 + 1 = 4.29
ˆ
Rech Ho si β 2 > 4.29
Luego,
 βˆ − 4 4,29 − 4 
Pr ob(Re chH 0 / β2 = 4) = Pr ob (βˆ 2 > 4, 29 / β 2 = 4) = P  2 > 
 2 2 
 
= P(Z > 0,145) = 0,4443
Pr ob(Re chH / β2 = 4) = 0, 4443
0

2.5 ANALISIS DE VARIANZA

ANOVA ⇒ Es un test de significancia global del modelo en su conjunto.


⇒ Intenta medir el ajuste de la recta de regresión con el conjunto de datos
proveniente de la muestra.

La hipótesis a probar es3 :


H0 : β2 = 0
H1 : β2 ≠ 0
Trataremos de encontrar un nuevo estadístico que nos permita verificar esta hipótesis.

3
En el caso de la regresión simple, tanto la hipótesis a probar como el estadístico que utilizaremos son
coincidentes con un test de significancia. Esto debido a que solo existe una variable explicativa. Este
resultado no será igual en un modelo general.

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
77

Sabemos que:

βˆ 2 − β 2
~ N ( 0, 1) (1)
σβˆ
2

Si elevamos (1) al cuadrado, tenemos que (2) se distribuye chi-cuadrado con un grado de
libertad.

(βˆ 2 −β2 )2

~ χ1
2
(2)
σ 2
βˆ 2

Transformando (2):
βˆ 2 − β 2 (βˆ 2 − β 2 ) ∑ x 2i 2
= ~ χ1 (3)
σµ 2 1 σ 2
µ

∑ x 2i
Por otro lado sabemos que:

σˆ 2 (n − 2)
~ χ 2n− 2 ⇒
∑e 2
i
~ χ 2n− 2 (4)
σ 2
σ 2

Se puede demostrar que (3) y (4) son independientes y pueden formar una nueva expresión
que se distribuye F.

(βˆ 2 − β2 ) ∑x
2
2
i

σ 2µ
F= 1 ~ F1, n− 2 (5)
∑e 2
1

σ 2u
n −2
Simplificando (5)

F=
(βˆ 2 −β2 ) ∑x
2
2
i
~ F1, n − 2 (6)
∑e 2
1

n−2
Bajo H0 :

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
78

F=
∑x
βˆ 22 2
i
~ F1, n −2 (7)
∑e 2
1

n−2
Analizando esta expresión, vemos que el numerador coincide con la suma de cuadrados
explicados (SCE), y el denominador es la SCR dividida por sus grados de libertad.
SCE
F= ~ F1, n − 2 (8)
SCR / n − 2

Rechazo H0 , si el valor calculado del


SCE
estadístico F = es mayor
SCR / n − 2
α
α que F1, n − 2

0 Fα

Este test indica que el modelo es significativo en su conjunto, si el "efecto explicado por el
modelo" es suficientemente grande respecto al "ruido", a lo residual.
SCE
Si F = > Fα (1, n − 2) ⇒ Re ch. H 0
SCR / n − 2
Rechazo que β 2 = 0, si obtengo un valor del "aporte de X" respecto al residuo que
sea considerable. ¿Cuán considerable? El límite nos lo da el valor de tabla.

Grados de Libertad
Asociado a cada suma de cuadrados hay grados de libertad; (valores que pueden elegirse
arbitrariamente).
Suma de cuadrados Totales (SCT): tiene n-1 grados de libertad. Esto surge como
consecuencia de la pérdida de un grado de libertad, necesario para calcular Y .
Suma de cuadrados residuales (SCR): tiene n-2 grados de libertad. Se pierden dos grados
de libertad que son necesarios para asegurar que se cumplan las ecuaciones normales. Estas

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
79

condiciones son: ∑e i =0 
n-2
∑e i X i = 0

Suma de cuadrados explicados (SCE): dado βˆ 2 calculo SCE ⇒ tiene 1 g.l

Antes veíamos que al realizar una regresión, esto nos permitía dividir la variación total en
dos partes, la parte explicada por la regresión y la parte residual. Es decir que existen
distintas fuentes en que se descompone la variación total. Esto se puede resumir en esta
tabla a la que generalmente se conoce como TABLA ANOVA.

FUENTES DE VARIACION:

Suma de Cuadrados Grados de Libertad Suma Promedio de


Cuadrados
Regresión
∑x
SCE = βˆ 22 2
i
1 SCE/1

Residuo SCR = ∑ e 2
i
n-2 SCR/n-2

Total SCT = ∑ y12 n-1

Existe una forma alternativa de expresar (8) que también permite realizar el test:

SCE SCE SCE / SCT R2 (n − 2) R 2


F= = = = = ~ F1, n −2
SCR / n − 2 SCT − SCE SCT − SCE SCT − SCE 1− R 2
SCT
n −2 n−2 SCT( n − 2)

Verifiquemos ahora que este test, para el caso del modelo de regresión simple, es
equivalente a un test de significancia de β 2 .
Sabemos que

βˆ 2
βˆ ∑x
2 2 i
Re ch H si = >t
0 2 σˆ α / 2, n − 2
σˆ / ∑ x µ
µ i

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
80

Elevamos esta expresión al cuadrado,

βˆ 2 ∑ x 2 βˆ 2 ∑ x 2
Re ch H si 2 i = 2 i >F
0 2 2 1, n − 2
σˆ ∑ e /n −2
µ i
Esta expresión es la misma de (7).
Debemos recordar que el cualquier valor de la tabla t para k grados de libertad, elevado al
cuadrado es igual al valor de la tabla F en 1, k grados de libertad. En
particular t 2n − 2 = F1, n− 2 .
Este resultado no se verifica en regresiones con mayor número de variables explicativas.

2.6 PRUEBA DE NORMALIDAD


Las pruebas de hipótesis e intervalos de confianza estudiados, tienen como punto de partida
el supuesto de normalidad del residuo, si µ no es normal, estas pruebas no son validas.
Existen test que permiten verificar si los residuo calculados para una muestra en particular
(ei) provienen de una distribucion normal. Uno de ellos es el test de Jarque-Bera
Esta es una prueba asintótica que se basa en el tercer y cuarto momento de la distribución
(asimetría y curtosis respectivamente).

∑ (X − X)
3
i

coeficiente de simetría: S= n
σ3

∑ (X − X)
4
i

coeficiente de curtosis: C= n
σ4
Para una ditribución normal el coeficiente de asimetria es cero y el coeficiente de curtosis
es 3.

Bajo la hipótesis nula de que los residuos estan normalmente distribuidos, Jarque y Bera
 S 2 (C − 3) 2 
demostraron que asintóticamente el estadistico JB = n  +
24 
sigue una
6
distribución chi-cuadrado con dos grados de libertad. Si el valor JB es grande comparado
con el valor de una distribución chi-cuadrado con dos grados de libertad, rechazo la
hipótesis nula, rechazo normalidad.

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
81

3. MODELO DE REGRESIÓN MULTIP LE

3.1 DEFINICIONES

En algunas aplicaciones científicas (medicina, agronomía) los modelos de regresión


generalmente utilizados tienen una única variable explicativa (modelo simple). En
economía, sin embargo, es difícil tener un fenómeno explicado por una sola variable
explicativa. Generalmente,

Y = f(X1 , X2 , ...., Xk , µi) ⇒ a este tipo de modelo lo llamamos modelo múltiple.

Ejemplo: Vtas Empresa = f (PIB, tasa de interés real, Gastos Publicidad)

• Modelo de regresión poblacional múltiple

(1) Yi = β 1 + β 2 Xi2 + β 3 Xi3 + ......................+ β k Xik + µi para i =1,2, ....n


y donde Xik representa la observación i de la variable k.

(1) es equivalente a:

 Y 1 = β 1 + β 2 X 12 + β 3 X 13 + . . . + β k X 1k + µ 1


 Y 2 = β 1 + β 2 X 22 + β 3 X 23 + . . . + β k X 2 k + µ 2

•
(2) 
•
•

•
Y = β + β X
 n 1 2 n 2 + β 3 X n 3 + . . . + β k X nk + µ n

(2) es la forma abreviada de n ecuaciones con k incógnitas y por tanto se puede


escribir:

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
82

 Y1  1 X12 X 13 . X1k   β   µ 
Y  1 X 22 . X 2 k  β   µ 
1 1
X 23
 2   2   2
(3)  .  = . . . . .  .  +  . 
.  .  
.  .   . 
  
. . .
   
Yn  1 X n 2 X n3 . X nk  β k  µ n 

Definiendo las siguientes matrices:

 Y1  1 X 12 X13 . X 1k  β 1 
Y  1 X X 23 . X 2k  β 
 2  22
 2
Yn×1 = .  X n× k = . . . . .  β k×1 = . 
.     . 
  . . . . . 
β 
 Yn  1 X n2 Xn3 . X nk   k

µ1 
µ 
 2
µ n×1 = . 
 . 
µ 
 n

Podemos expresar (3) de la siguiente forma:

(4) Yn×1 = X n× k β k ×1 + µ n×1

• Modelo de regresión muestral múltiple

(5) Yˆ i = βˆ 1 + βˆ 2 X i2 + βˆ 3 X i3 + . . . + βˆ k X ik para i=1,2,.....n

Nuevamente tenemos un sistema de n ecuaciones, que puede transformarse en:

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
83

Yˆ1 = βˆ 1 + βˆ 2 X12 + βˆ 3 X 13 + . . . + βˆ k X1k




ˆ ˆ ˆ ˆ ˆ
Y2 = β 1 + β 2 X 22 + β 3 X 23 + . . . + β k X 2k
•
(6) 
•
•

•
ˆ
Yn = βˆ 1 + βˆ 2 X n2 + βˆ 3 X n 3 + . . . + βˆ k X nk

Utilizando las definiciones matriciales anteriores y agregando:


Yˆ   βˆ 
ˆ1 ˆ 1 
 Y2  β 2 
Yˆn×1 = .  βˆ k×1 = . 
.   
   . 
Yˆ  βˆ k 
 n

(6) se puede transformar en:

(7) Yˆn×1 = X n ×k βˆ k×1

Además tenemos que:

(8) Y i = βˆ 1 + βˆ 2 X i2 + βˆ 3 X i3 + . . . + βˆ k X ik + e i

e 1 
e 
 2
Con lo que definiendo e n×1 = .  , lo podemos transformar en forma matricial como
 
. 
e n 
 

(9) Yn×1 = X n ×k βˆ k×1 + e n×1

• De la diferencia entre (9) y (7), sale la definición del error:

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
84

 e1 
e 
 2
(10) e n×1 = .  = Y − Y
ˆ = Y − Xβˆ
 
. 
en 
 
Entonces:
Y = Xβ + µ

Yˆ = Xβˆ 
 ˆ ˆ
 e = Xβ + u − Xβ = X(β − β) + µ

e = Y − Xβˆ 


Yˆ + e = Xβˆ + Y − Xβˆ = Y

3.2 ESTIMADORES MICO


Al igual que antes se trata de minimizar ∑e 2
i

3.2.1 Primera forma de derivación.

∑e ∑ (Y
2
min Q = min i
= min i − βˆ 1 − βˆ 2 X i2 − βˆ 3 Xi 3 − …… βˆ k X ik ) 2

Ahora tenemos k ecuaciones normales


 ∂Q
(1) = 2 ∑ (Yi − βˆ 1 − βˆ 2 X i2 − βˆ 3 X i3 − … − βˆ k X ik )( −1) = 0
ˆ
∂β
 1
 ∂Q
( 2) = 2 ∑ ( Yi − βˆ 1 − βˆ 2 X i 2 − βˆ 3 X i3 − … − βˆ k X ik )( −X i2 ) = 0
 ˆ
∂β

2

(11) •
•

•

∂Q
( k ) = 2 ∑ (Yi − βˆ 1 − βˆ 2 X i2 − βˆ k X i3 − … − βˆ k X ik )( −X ik ) = 0
 ˆ
∂β
 k

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
85

Trabajando:
(1) ∑ Yi = Nβˆ 1 + βˆ 2 ∑ X i2 … + βˆ k ∑ X ik

( 2) Y X = βˆ
 ∑ i i2 1 ∑ X i 2 + β 2 ∑ X i 2 + … + β k ∑ X ik X i 2
2
ˆ ˆ
(12) •
•
•
( k ) ∑ Y X = βˆ ∑ X + βˆ ∑ X X + … + βˆ ∑ X 2
 i ik 1 ik 2 i2 ik k ik

Matricialmente podemos expresar esto de la siguiente manera (Demostrarlo):

 1
X
1 . . 1   Y1   n ∑X i2 . . ∑X ik
  βˆ 1 
 ˆ 
X 22 . . X n2   Y2  ∑ X i 2 ∑X 2
. . ∑X X ik  β 2 
 12   i2 i2

(13)  . . . . .  .  =  . . . . .  . 
    
 . . . . .   .   . . . . .  . 
X 1k
 X 2k . . X nk   Yn   ∑ X ik ∑ X i 2 X ik . . ∑ X ik  βˆ k 
2

Y dadas las definiciones anteriores,

1 X 12 X13 . X 1k   1 1 . . 1 
1 X X 23 . X 2k  X X 22 . . X n 2 
 22  12
X n×k = . . . . .  X 'k× n = . . . . . 
   
. . . . .   . . . . . 
1 X n2 X n3 . X nk   X1k X2k . . X nk 

 n

∑X i2 . . ∑X ik


 ∑ X i2 ∑X ∑X X
2
i2 . . i2 ik 

X' X =  . . . . . 
 
 . . . . . 
 ∑ ik ∑X ∑ ik 
 X X ik . . X 2
i2

Entonces (13) puede expresarse:

(14) X' Y = X' X βˆ Esta expresión representa el conjunto de ecuaciones normales.

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
86

la matriz X’X tiene las siguientes características:


- simetría
- de dimensión k x k (cuadrada)
- en la diagonal principal aparecen la suma de cuadrados de cada variable y en el
resto las sumas de productos cruzados.

Si (X’X)-1 existe puedo postmultiplicar (14) por (X’X)-1

(15) ( X' X) −1 X' Y = ( X' X) −1 X' X βˆ , con lo que:

(16) ( X' X) −1 X' Y = I βˆ

(17) βˆ = ( X' X) −1 X' Y

Esta es la fórmula matricial que estabamos buscando y que resume los k estimadores
MICO.

Pero, ¿necesitamos algún supuesto para obtener los β̂ ?

Sí, necesitamos que X’X sea invertible


¿Cuándo una matriz es invertible?
- Si es cuadrada
- Si no se pueden expresar las filas o las columnas como combinación lineal
entre sí ⇔ la matriz es de rango completo ⇔ el determinante de la matriz
es distinto de cero.

Esto implica que para poder calcular β̂ , las variables explicativas que son las que forman
X’X, tendrán que cumplir con determinadas condiciones que aseguren que la matriz sea
invertible.

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
87

3.2.2 Otra forma de encontrar β̂

Queremos minimizar ∑e 2
i y esto es equivalente a minimizar e’e, porque

 e1 
 
e 
( e1 … e n ) 2  = e' e = ∑ e 2i
.
 
e 
 n
Como :

e = Y - X β̂

e’e = (Y - X β̂)’ (Y - Xβˆ ) ⇒ Debemos minimizar e’e

Algunas propiedades de operaciones con matrices:


- (A + B)’ = A’ + B’
- (A B)’ = B’A’
- (A’)’ = A
- (A-1 )’ = (A’)-1
∂z ' Az
- z’Az es una forma cuadrática⇒ = 2Az
∂z

min ∑e 2
i = min e' e = min
ˆβ
( Y − Xβˆ )' ( Y − Xβˆ )

min (Y − X βˆ )' ( Y − Xβˆ ) = ( Y' − βˆ ' X' )( Y − Xβˆ ) = Y' Y − Y βˆ 2


− βˆ4 Y + βˆ ' X' X βˆ
1' 4
X4 ' X4
'3
ˆβ
*

¿A qué son iguales estos dos términos (*)?

Y'1× n X n× k βˆ k ×1 = escalar por ser de orden 1×1

βˆ ' 1× k X' k×n Yn×1 = escalar por ser de orden 1×1

Son escalares y uno es el transpuesto del otro ⇒ puedo sustituirlo por − 2 βˆ ' X' Y

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
88

Debemos minQ = Y ' Y − 2βˆ ' X ' Y + βˆ ' X ' Xβˆ


βˆ

∂Q ∂Y' Y ∂ (−2βˆ ' X' Y) ∂(βˆ ' X' Xβˆ )


= + + =0
ˆ
∂β ˆ
∂β ∂β ˆ ˆ
∂β
∂Q ∂ ( −2βˆ ' X ' Y ) ∂(βˆ ' X ' Xβˆ )
= + =0
∂βˆ ∂βˆ ∂βˆ
∂( −2βˆ ' X ' Y)
• Queremos encontrar ,
∂βˆ
Sea a un vector de constantes,
 a1 
 
∂( a ' b) ∂ (a 1b 1 + a 2 b 2 + L a k b k )  a 2 
= = = a
∂b  b1  M
   
∂ M   
ak 
b 
 k
∂( −2βˆ ' X ' Y)
Luego, = -2X’Y
∂βˆ
∂(βˆ ' X ' Xβˆ )

∂βˆ
Sea A una matriz de constantes simétrica,
 a 11 a 12 L a 1k 
 
a a 22 L a 2k 
A=  12 , entonces:
L L L L
 
a L a kk 
 1k a 2k
b’Ab=
a 11b 12 + 2a 12b 1b 2 + 2a 13b1 b 3 + L + 2a 1k b1b k +
+ a 22b 22 + 2a 23b 2 b 3 + L + 2a 2k b 2 b k +
O
+ a kk b 2k

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
89

 2( a 11b1 + a 12b 2 + L + a 1k b k   2a1b   a1 


∂( b' Ab)      
= M  =  M  = 2 M b = 2Ab
b1   2( a b + a b + L + a b   2a b a 
b   1k 1 2k 2 kk k   k   k
∂ 2 
M
 
b k 
∂(βˆ ' X ' Xβˆ )
Luego, = 2X ' Xβˆ
∂βˆ
∂Q
= − 2 X' Y + 2 X' Xβˆ = 0
∂βˆ
Con lo que:

2 X' Xβˆ = 2X' Y


X' Xβˆ = X' Y Si (X' X) −1 existe

βˆ = ( X' X) −1 X' Y
Condiciones de segundo orden
∂ 2Q
= 2X' X
(∂βˆ )(∂βˆ )'
Las condiciones de mínimo implican que esta matriz debe ser definida positiva. Para
comprobar esto definamos d cualquier vector no nulo de k elementos y c un vector de n
elementos tal que c=Xd. Como X es de rango completo por columna esto implica que c sea
no nulo (de lo contrario habría dependencia lineal entre las columnas de X).
Por lo tanto,
c’c= d’X’Xd >0 y entonces X’X es definida positiva.

3.2.3 Deducción de los estimadores MICO en el modelo simple.

βˆ = ( X' X) −1 X' Y
Yi = β 1 + β 2 X i 2 + µ i
¿Cómo son las matrices para este caso en particular?

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
90

1 X 12 
1 Y1 
 X 12  1……………1   : 
X = : 
:  X' =   Y= 
    : 
: :   X12 X 22 … X n 2   
1  Yn 
 X n2 

1 X12 
1 X 
 1
X' X = 
1 . . 1 

. .
22 

. =
 n ∑X i2


 ∑ X i2 ∑X 2
 X12 X 22 . . X n 2 
. .   i2 
1 X n 2 

( A c )' matriz de cofactores transp uesta


Recordar: A −1 = =
A determinan te de A

La matriz de cofactores se forma de sustituir cada elemento de la matriz por su


correspondiente cofactor Cij. Donde Cij=(-1)i+j Mij , siendo Mij (menor) el determinante de
la submatriz que se forma cuando a la matriz A se le elimina la fila i y la columna j.

−1 1  ∑ X 2i2 − ∑ Xi2 
( X' X) =  
n∑ X 2i2 − ( ∑ X i 2 ) 2 − ∑ X i2 n 



∑ X 2i2 − ∑ Xi2 

 n ∑ X i 2 − ( ∑ X i2 ) n ∑ X 2i2 − (∑ X i 2 ) 2 
2 2

( X' X) −1 = 
 
 − ∑ X i2 n 
n X 2 − ( X )2 2 
 ∑ i 2 ∑ i2 n ∑ X i2 − (∑ X i 2 ) 
2

Y1 
 :  
 1
X' Y = 
1 . . 1    =  ∑ Yi 
. . X n 2 
.
 X12 X 22  :   ∑ X i2 Yi 
 
Yn 

Reemplazando en la fórmula encontrada para β̂ , tenemos:

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
91



∑ X i22 − ∑ X i2 

 n ∑ X i2 − (∑ X i 2 ) n ∑ X i22 − ( ∑ X i2 ) 2   ∑ Yi 
2 2

βˆ = ( X' X) −1 X' Y =   
   
 − ∑ Xi2 n  ∑ i 2 i 
 X Y
n X2 − ( X )2 2 
 ∑ i2 ∑ i 2 n ∑ X i 2 − ( ∑ X i2 ) 
2

Multiplicando:

 ∑ X 2i 2 ∑ Yi − ∑ X i 2 ∑ X i2 Yi 
 
 n ∑ X 2i2 − ( ∑ X i2 ) 2 
βˆ = (X' X) −1 X' Y =  
 
 − ∑ X i 2 ∑ Yi + n∑ X i 2 Yi 
 n ∑ X 2i2 − ( ∑ X i2 ) 2 
 

Reemplazando ∑Y i = nY y ∑X i = nX y dividiendo entre n, obtenemos:

 ∑ X 2i2 nY − n X∑ X i 2 Yi   ∑ X 2i2 Y − X∑ X i2 Yi 
   
 n ∑ X 2i 2 − ( nX) 2   ∑ X 2i2 − nX 2 
   
βˆ = ( X' X) X' Y = 

=
1

 − nXnY + n ∑ X i2 Yi   − nX Y + ∑ X i 2 Yi 
   
 n ∑ X 2i 2 − ( nX) 2   ∑ X 2i2 − nX 2 
 ∑ X 2i 2 Y − X∑ X i 2 Yi 
 
 ∑ X i22 − n X 2 
ˆβ =  
 
 ∑ X i2 Yi − nXY 
 
 ∑ X i22 − n X 2 

En la segunda fila obtenemos una formula que es idéntica a la que teníamos en el modelo
simple.

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
92

 ∑ X 2i2 Y − X( ∑ X i2 Yi − n XY + nXY) 
 
ˆβ = 

∑ X 2i2 − nX 2 

 
 ˆβ
2


 ∑ X 2i 2 Y −nX 2 Y X( ∑ X i 2 Yi − nXY) 
 ∑ X Y −nX Y − X (∑ X i 2 Yi − nXY )  
2 2 − 

i2
  ∑ X 2i2 − nX 2 ∑ X 2i 2 − nX 2 
ˆβ =  ∑ X 2i2 − nX 2 = 
   
   β2
ˆ 
 βˆ 2   
 

Simplificando:
  ∑ X i22 −nX 2 
 − X ∑ X i2 Yi − n XY  
 
 Y
  ∑ X i22 − n X 2  
 ∑ X 2i2 − nX 2  
ˆβ =   Y − Xβˆ 2 
 = 
   βˆ 2 
 βˆ 2 
 
 

Con lo que:
   
   
 Y − βˆ 2 X  Y − βˆ 2 X 
βˆ =  = 
   
 ∑ X i 2 Yi − nXY   ∑ x i 2 y i 
   
 ∑ X i2 − nX   ∑ x i2 
2 2 2

Para el caso de la regresión con intercepto y dos variables:

Yi = β 1 + β 2 X i2 + β 3 X i3 + µ i

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
93

1 X 12 X13 
1 X X 23 
 22  n

∑X i2 ∑X i3


= . .  X' X =  ∑ X i2 ∑X ∑X X
2
X n×3 . i2 i2 i3 
   ∑ X i3
. . .   ∑X X i2 i3 ∑X 2
i3


1 X n2 X n 3 

 ∑ Yi 
 
X ' Y =  ∑ X i2 Yi 
 ∑ X i3 Yi 
 

3.2.4 Una interpretación de los estimadores MICO.

En el modelo simple Ŷi = βˆ 1 + βˆ 2 X i 2 + e i nos interesaba medir el efecto de la variable


explicativa sobre la variable explicada. Este efecto se cuantifica a través de β̂ 2 .

Cuando tenemos un modelo múltiple, Y i = βˆ 1 + βˆ 2 X i2 + βˆ 3 X i3 + . . . + βˆ k X ik + e i , los


coeficientes β̂i estimados miden el efecto parcial de la variable Xi sobre Yi. Esto es, el
efecto de Xi sobre Yi luego de eliminados los efectos de las otras variables sobre Xi .
Para entender esto veamos algunos diagramas de Ballentine.
Supongamos que el modelo es Ŷi = βˆ 1 + βˆ X X i + e i . En el diagrama que sigue el circulo Y
representa la variación de la variable dependiente y el circulo X representa la variación de
la variable explicativa. El área achurada donde se sobreponen los dos círculos, representa la
variación que es común entre X e Y y que por tanto puede ser explicada por MICO. Esta
área representa la información que es utilizada para calcular β̂ x . Cuanto mayor esta área,
mayor la información y por tanto menor la varianza del coeficiente.

X Y

Consideremos ahora que se incluye una nueva variable explicativa Z, de forma que el
modelo es Ŷi = βˆ + βˆ x X i + βˆ z Z i + e i

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
94

*
X * * * Y
* * * *


• •


∇ ∇∇
• • •
∇∇ ∇
• • • •
∇ ∇ ∇ ∇
• •

En general existirá una zona (triángulos y rayas) en que X y Z se overlapan. Si Y fuera


explicada sólo por X, para calcular βˆ x se utilizaría la información común entre X e Y
(rayas y asteriscos). Si Y fuera explicada sólo por Z, para calcular βˆ z se utilizaría la
información común entre Y y Z (rayas y puntos).
En la regresión múltiple se incluyen X y Z como variables explicativas. Para calcular
βˆ x se usa la intersección entre X e Y, luego de eliminar la intersección entre X y Z. Es
decir que el estimador es calculado usando sólo la información representada por el área
marcada con asteriscos. En forma análoga, la información contenida en el área con puntos
es la única utilizada para calcular βˆ z . La información contenida en el área rayada no es
utilizada porque al reflejar la variación en Y que es determinada en conjunto por X y Z no
permite aislar sus efectos y asignarlos a cada estimador.
Debe notarse que al agregara variables explicativas los parámetros del modelo son
calculados utilizando cada vez menos información. Esto provocará un incremento de las
varianzas de los estimadores.
Además, debe tenerse en cuenta que la información utilizada en la estimación de los
parámetros (y por tanto su varianza) dependerá de cuanta información común exista entre
las variables explicativas utilizadas.
Cuanto mayor el área común entre X y Z (mayor colinealidad entre las variables
explicativas), menor resultarán las áreas de puntos y asteriscos y por tanto mayor la
varianza de los estimadores. Si la colinealidad es perfecta los círculos X e Z se overlapan
completamente haciendo imposible la estimación.
Por el contrario, si no existe ningún área común entre X y Z (si son ortogonales) no existe
zona rayada y por tanto los estimadores encontrados en la regresión múltiple serían los
mismos que en dos regresiones simples (una respecto a X y otra respecto a Z).

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
95

3.2.5 Corolarios de los Estimadores MICO


Ortogonalidad del residuo

(1) ˆ = Y − Xβˆ
e=Y−Y

(2) Y = Xβˆ + e
De las ecuaciones normales sabemos que:

( X' X) βˆ = X' Y
( X' X) βˆ = X' ( Xβˆ + e)
( X' X) βˆ = X' X βˆ + X' e

Con lo que: X' e = 0

¿Qué significa?
 1 1 . . 1   e1   ∑ e i  0
   
 X12 X 22 . . X n 2  e 2  ∑ e i X i2  0
   
X' e =  . . . . .  e 3  = ∑ e i X i3  = 0
      
 . . . . .  .   .  .
X 1k
 X 2k . . X n k  e n  ∑ e i X ik  0

La igualdad de la primera fila implica que si la regresión tiene constante e = 0 .


Los elementos restante indican que la correlación muestral entre los residuos y cada
variable Xi es cero. En términos matriciales esto implica que el vector de errores es
ortogonal a la matriz X de variables del modelo.

Recordar: dos vectores a y b son ortogonales si a ' b = 0 . Un vector como e, que es


ortogonal a cualquier vector del hiperplano generado por las columnas de X, se dice que es
normal al hiperplano.

El hiperplano de regresión pasa por el punto determinado por las medias muestrales de
todas las variables involucradas en el modelo. ( X 2 , X 3 ,...., X k , Y) , siempre que éste posea
intercepto.
Esto debido a que la primera ecuación de (12) implica que
Y = βˆ + βˆ X + βˆ X + .... + βˆ X
1 2 2 3 3 k k

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
96

Descomposición en suma de cuadrados.

Recordar que en el modelo lineal simple:

SCT=SCE+SCR

∑y 2
i = βˆ 22 ∑ x + ∑ e = ∑ ŷ + ∑ e
2
i
2
i
2
i
2
i

Ahora:

• SCT
SCT = Σy i2 = Σ(Yi − Y) 2 = ∑ Yi2 − n Y 2

  Y1  
  
  Y2  
Dado que Y' Y = (Y1 Y2 . . Yn ) .   = ∑ Yi
2

  
  . 
  
  Yn  

Luego, SCT = Y ' Y − nY 2

Definiendo: y' = ( Y − Y )' , SCT también es igual a y' y = Y ' Y − NY 2

• SCE

SCE = ∑ ŷ i2 = ∑ ( Y
ˆ −Y
i
ˆ )2

ˆ = Y (demostrarlo de tarea) y que Yˆ = X βˆ


Dado que Y

=∑ Y
ˆ 2 − nY 2 = Y
i
ˆ 'Y
ˆ − NY 2 = βˆ ' X' Xβˆ − N Y 2

SCE = βˆ ' X' Xβˆ − N Y 2

• SCR ⇒SCR= ∑ e i2 = e' e

Demostración:

Y = ( Xβˆ + e )

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
97

Y' Y = ( Xβˆ + e )' ( Xβˆ + e )


Y' Y = (βˆ ' X'+e' ) ( Xβˆ + e) = βˆ ' X' Xβˆ + βˆ ' X' e + e ' Xβˆ + e ' e

Dado corolario 1 ⇒ βˆ ' X' e = 0 y e ' Xβˆ = 0

Luego: Y' Y = βˆ ' X' Xβˆ + e' e (*)

Finalmente, restando a ambos lados n Y 2

Y' Y − nY 2 = βˆ ' X' Xβˆ − nY 2 + e ' e (**)

Obtenemos el mismo resultado anterior:

SCT= SCE+SCR ⇒ es decir que en el modelo múltiple también es posible dividir la suma
de cuadrados totales en dos partes, una explicada por el modelo y otra residual.

Otra forma de expresar este resultado:

Dado:

βˆ = ( X' X) −1 X' Y

(*) Es equivalente a:

Y ' Y = βˆ 'X ' X ( X ' X ) −1 X ' Y + e ' e = βˆ ' X ' Y + e' e


14 4244 3
I

( )
Y' Y = ( X' X) −1 X' Y ' X' Y + e' e = Y' X (X' X) −1 X' Y + e' e
El modelo en desvíos.
Yi = βˆ 1 + βˆ 2 X i2 + βˆ 3 X i3 + ........ + βˆ k X ik + e i (1)

Σ Yi ΣX i2 ΣX i3 Σ X ik Σe i
= βˆ 1 + βˆ 2 + βˆ 3 + ........ + βˆ k +
n n n n n

Y = βˆ 1 + βˆ 2 X 2 + βˆ 3 X 3 + ........ + βˆ k X k

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
98

βˆ 1 = Y − βˆ 2 X 2 − βˆ 3 X 3 − ........ − βˆ k X k (2)

Sustituyendo (2) en (1):


(1) Yi = βˆ 1 + βˆ 2 X i 2 + ........ + βˆ k X ik + e i

Yi = (Y − βˆ 2 X 2 − ........ − βˆ k X k ) + βˆ 2 X i 2 + ........ + βˆ k X ik + e i

Yi = Y − βˆ 2 X 2 − ........ − βˆ k X k + βˆ 2 X i2 + ...... + βˆ k X ik + e i

Yi − Y = βˆ 2 ( X i2 − X 2 ) + βˆ 3 ( X i3 − X 3 ) ........ βˆ k ( X ik − X k ) + e i

y i = βˆ 2 x i 2 + βˆ 3 x i3 + ........ + βˆ k x ik + e i ⇒ el modelo se puede expresar en desvíos.

¿Cómo son las matrices?

 Y1 − Y   y 1   X 12 − X 2 . X1k − X k   x 12 . x 1k 
Y − Y   y 2 
. .
 2    X − X . . X 2 k − X k   x 22 . . x 2 k 
y= . = .  x n×( k −1) =  22 2
=
.   .   . . . .   . . . . 
       
Yn − Y   y n  X n2 − X 2 . . X nk − X k   x n 2 . . x nk 

βˆ 2 
ˆ 
β
ˆβ*( k−1)×1 =  3 
 . 
ˆ 
β k 
Con lo que y = x βˆ * + e

ŷ = x βˆ *

Notar que el vector β̂ * no incluye β̂1

Derivación de MICO en desvíos:


ŷ = x βˆ *

e = y − ŷ = y − x βˆ *

e' e = ( y − xβˆ * )' ( y − xβˆ * ) = y ' y − y ' xβˆ * − βˆ * ' x ' y + βˆ * ' x ' xβˆ * = y' y - 2βˆ * ' x ' y + βˆ * ' x ' xβˆ

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
99

∂e' e
= − 2x ' y + 2x ' xβˆ * = 0
∂βˆ

= − x ' y + x ' xβˆ * = 0


si x’x es invertible

βˆ * = ( x ' x ) −1 x' y

Es decir que la fórmula de calculo de los estimadores no cambia al utilizar las variables en
desvíos respecto a la media. A esto debe agregarse:
βˆ 1 = Y − βˆ 2 X 2 + βˆ 3 X 3 + ........ + βˆ k X k

Suma de cuadrados en desvíos:


y = x βˆ * + e

y' y = ( xβˆ * + e )' ( xβˆ * + e) = (βˆ * x '+e ' )( xβˆ * + e) = βˆ * ' x ' xβˆ * + βˆ * ' x ' e + e' xβˆ * + e' e = βˆ * ' x ' xβˆ * + e' e

Con x' e = e' x = 0

SCT = y' y 
*
SCE = ŷ' ŷ = βˆ ' x ' x βˆ  y ' y = βˆ * ' x ' x βˆ * + e' e = SCE + SCR
*

SCR = e' e 

Notar que cuando las variables están expresadas en desvíos, no es necesario restar el
término n Y 2 para el cálculo de la suma de cuadrados totales y de la suma de
cuadrados explicados.

Coeficiente de determinación: R2
SCE βˆ ' X ' X βˆ − n Y βˆ ' X ' Y − n Y βˆ ' x ' xβˆ βˆ ' x ' y
2 2 * *
R2 = = = = =
SCT Y' Y − n Y 2 Y' Y − n Y 2 y' y y' y

SCT − SCR SCR e'e e' e


R2 = =1 − =1 − =1 −
SCT SCT Y' Y − n Y 2
y' y

El R2 corregido.

2
El R múltiple tiene un problema

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
100

(1) Yi = β 1 + β 2 X i 2 + µ i
(2) Yi = β 1 + β 2 X i 2 + β 3 X i3 + µ i

Yi es la misma ⇒ ¿qué ocurre con SCT? es la misma ya que no cambia la muestra.

 SCT1 = SCE1 + SCR 1



SCT2 = SCE 2 + SCR 2

Sin embargo, sólo por agregar una nueva variable (“algo explica”), la SCR2 disminuye,
provocando un aumento R2 cuando aumenta k. Por esta razón, para comparar el R2 de dos
regresiones, estas deben tener igual numero de variables.
2
Para evitar este problema se define un R corregido por grados de libertad
e' e e' e
R 2c = 1 − n −k = 1− n −k
Y' Y − nY 2 y' y
n −1 n −1

¿Qué relación tiene R2 y R C2 ?

e' e n −1 n −1
R 2c = 1 − • = 1 − (1 − R 2
)
n − k Y' Y − n Y 2 n−k
n −1
= R 2 − R 2 + 1 −  
(1 − R )
2

n −k 
n −1 n −1 
= R 2 + (1 − R 2 ) −   2 
(1 − R ) = R + (1 − R ) 1 − 
2 2

n−k   n −k 
n − k − n +1 2  k −1 
= R 2 + (1 − R 2 )   = R − (1 − R ) 
2

 n−k  n −k 
2  k −1 
R C = R − (1 − R )  
2 2

n −k 
1−k 2  1− n 
Otra formula: R 2c = +R  
n −k n−k

Para entender esto:

Supongamos que tenemos dos observaciones:

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
101

Y
Yi = β 1 + β 2 X i + µ i
*
Y *

X X

La recta va a tener que pasar por los dos puntos ⇒ minimizar la ∑e 2


i implica que
Σe 2

∑e 2
i = 0 , con lo que R 2 = 1 −
Σy
= 1 . Esto significaría un ajuste perfecto, sin embargo,
i
2
1

no tiene ninguna significancia estadística. El R C2 está indeterminado.


0
Σe 2i / n − 2 0
R =1 −2
=1− .
Σy i / n −1 Σy i / n − 1
c 2 2

Algunas propiedades:
i) R C2 < R 2 , son iguales cuando la correlación es perfecta.

ii) Si aumenta el tamaño muestral, dado k, el R C2 tiende al R 2

iii) Dado n, al aumentar el número de variables explicativas, (R 2 - R C2 ) aumenta.

iv) R C2 puede ser negativo.

3.3 SUPUESTOS CLÁSICOS


Al igual que en el modelo simple, requerimos una serie de supuestos (supuestos clásicos)
para determinar las propiedades estadísticas de los estimadores MICO.
Estos supuestos clásicos para el modelo de regresión múltiple son equivalentes a los del
modelo simple y se pueden expresar en notación escalar o matricial.
Y = βX + µ

Notación escalar Notación matricial

1. X2 .... Xk son no estocásticas Xnxk es no estocástica

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
102

2. E(µi) = 0 ∀i E(µ) = 0 n×1 donde µn×1

2
3. Homocedasticidad y no autocorrelación E(µµ’) = σ I
0 i≠j
COV(µi, µj)= E (µ i µ j ) =  2
σ i = j

4. Ausencia de multicolinealidad perfecta. Rango de X=ρ(X) = k


Las Xi no son combinación lineal exacta entre

5. ui ~ N(0, σ2 ) ∀i 2
u ~ N(0, σ I)

Explicación
1. Todo nuestro análisis está condicionado a conocer X que se supone se mantiene fija
en distintas muestras. Esto implica que la única fuente de variación de Y viene dada
por µi. Este supuesto se puede relajar suponiendo X estocásticos, pero
independientes de µ.

2. E (µ ) = 0

 µ 1   E( µ 1 )   0 
     
 µ 2   E (µ 2 )   0 
E (µ) = E   =  = = 0 nx1
. .  .
     
 µ   E( µ )   0 
 n  n   
Esto permite calcular:
E(Y/X) = E(Xβ + µ) = Xβ + E(µ) = Xβ
Es decir que se cometen errores pero en promedio estaremos sobre el plano de
regresión.

2
3. E(µµ‘) = σ I
En general
Varianza de X = E [( X − E( X))( X − E (X))' ] = E [(X − µ)( X − µ )'] =

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
103

 X1 − µ  
  
 X 2 − µ  
= E  . (X1 − µ X 2 − µ . . X n − µ )
  
 .  
 X − µ  
 n  
 ( X − µ) 2 ( X − µ )( X − µ) ( X − µ)( X − µ ) 
 1 1 2
. .
1 n
 
 . ( X − µ) 2 . . . 
2
=E . . . . . 
 
 . . 
 
 (X − µ ) 2 
 n 
 E( X − µ ) 2 E (X − µ)( X − µ) E( X − µ)( X − µ ) 
 1 1 2
. .
1 n
 
 . E( X − µ ) 2 . . . 
2
=  . . . . . 
 
 . . 
 
 E( X − µ) 2 
 n 
 VAR (X 1 ) Cov (X 1 , X 2 ) … Cov ( X1 , X n ) 
 
 Cov ( X 1 , X 2 ) . 
=  .  =matriz varianza y
 
 . 
 VAR ( X n ) 

covarianza

En nuestro caso la variable aleatoria es µ y su esperanza es 0. Por lo tanto,

 µ 1   µ 12 µ 1µ 2 . . µ 1µ n 
    
 µ 2    µ 22 
E(µµ‘) = E  . (µ 1 µ2 . . µ n ) = E . 
    
 .    . 
 µ    2 
µn 
 n   

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
104

E( µ 12 ) E (µ 1µ 2 ) . . E(µ 1µ n )  σ 2 0 . . 0 1 0 . . 0
    0 1 
 E(µ 22 )   σ2   
= . = .  = σ2  1 
     
 .   .   . 0
 E (µ n )  
2
σ 2   0 1

E(µµ‘)=σ2 Inxn

4. El rango de X es k.
Este es un requisito que permite invertir X’X y que es necesario para obtener
estimadores MICO β̂ en forma única.

• Rango de una matriz


Una matriz Am×n puede interpretarse como una colección de m vectores fila de
dimensión n, o como una colección de n vectores columna de dimensión m. Entonces,
podemos hablarse de filas linealmente independientes (LI) o linealmente dependientes
(LD).
Se denomina rango de la matriz a máximo número de columnas (o filas) LI.

Propiedades:
⇒ El número máximo de filas LI es igual al número máximo de columnas LI
⇒ Rango (Am×n )≤ min (m,n)
⇒ Rango A=Rango A’
⇒ Si rango Am×n =m=n, entonces A es no singular y su inversa existe y es única.
⇒ Rango (X’X) = Rango (XX’) = Rango de X

2
5. µ ~ N (0, σ I) es normal multivariante.

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
105

3.4 PROPIEDADES ESTADÍSTICAS DE LOS ESTIMADORES MICO.

3.5.1 Linealidad

βˆ = ( X' X) −1 X' Y

El estimador es lineal en Y, ya que cada elemento de β̂ es una combinación lineal


de los elementos de Y. Las ponderaciones son funciones de los datos X, que son no
estocásticos.

3.5.2 Insesgamiento
βˆ = ( X' X) −1 X' Y

βˆ = ( X' X) −1 X' ( Xβ + µ )

βˆ = ( X' X) −1 X' X β + ( X' X) −1 X' µ = β + ( X' X) −1 X' µ



I

βˆ = β + (X' X) −1 X' µ

[
E (βˆ ) = E(β) + E ( X' X) −1 X' µ ]
E (βˆ ) = β + (X' X) −1 X' E (µ)

E (βˆ ) = β Es insesgado

3.5.3 Eficiencia
3.5.3.1 Matriz de Varianzas y Covarianzas.

Var − Cov(βˆ ) = V(βˆ ) = E[ (βˆ − E (βˆ )) (βˆ − E(βˆ ))']

Como βˆ = β + ( X' X) −1 X' µ y E (βˆ ) = β


Entonces:
βˆ − E (βˆ ) = βˆ − β = ( X' X) −1 X' µ
106

( ) (
= E (X ' X ) −1 X ' µ) (( X ' X ) −1 X' µ )' = E ( X ' X ) −1 X ' µµ' X (X ' X ) − 1 )
= ( X ' X ) −1 X' E(µµ ' ) X ( X ' X ) −1 = ( X ' X ) −1 X ' σ 2 I X ( X ' X ) −1 = σ 2 ( X ' X ) −1 X ' X ( X ' X ) −1 =

I
−1
Var - Cov(βˆ ) = V(βˆ ) = σ ( X' X) 2

Para el caso de dos variables:

1 X1 
 
. . 
 1 . . 1 
X = . . 
1
V(βˆ ) = σ 2 (X' X) −1 X' =  
   X1 X2 . . X n 
. . 
 
1 Xn 

 1 X 1 
  
 1 . . 
X' X =  
1 . . 1 
 . .  = 
 n ∑X i


 X1 . . X n   ∑ X i ∑X 2

.   
X2
.
i

  
 1 X n 

 ∑ X 2i − ∑X i 
1  
( X' X) −1 =  =
n ∑ X 2i − ( ∑ X i ) 2  
 − ∑ Xi n 
 

 ∑ X 2i − ∑ Xi   ∑ X 2i − ∑ Xi 
σ 2   σ2  
V(βˆ ) =  =  
n ∑ X 2i − ( ∑ X i ) 2   n ∑ X 2i − ( nX) 2  
 − ∑ Xi n   − ∑ Xi n 
   

 ∑ X 2i − ∑ Xi   ∑ X 2i − ∑ Xi 
σ 2   σ2  
V(βˆ ) =  =  
n (∑ X 2
i − nX 2 ) 
 − ∑ Xi n
 n ∑ x 2i


−∑ X i n


   
107

 σ2 σ 2 ∑ X i   σ 2 ∑ X 2i σ 2 X 
 n ∑ x i2 ∑ i
 X2 −   −
n ∑ x 2i   n ∑ x i2 n ∑ x 2i 
   
V(βˆ ) =   = 
   
 − σ 2 ΣX i
2
σ 2
σ2 X σ2
n   − 
 n∑ x i n ∑ x i2   n ∑ x 2i ∑ i 
x 2
  

Tarea: Chequear con las encontradas en el caso simple.

Al igual que en el caso simple tanto las varianzas como las covarianzas dependen de σ2 ,
parámetro poblacional desconocido que es necesario estimar.

3.5.3.2 Un estimador de σ2

Debemos estimar σ2 , la varianza del término de error. Como los valores de µ no se pueden
observar, el estimador se basará en los residuos e.

Sabemos que:

e = Y − Xβˆ y dado que βˆ = ( X' X) −1 X' Y

e = Y − X( X' X) −1 X' Y , con lo que se puede sacar Y de post-factor común, de forma que:

( )
e = I − X( X' X) −1 X' Y , y definiendo M = I − X( X' X) −1 X' , luego:

e = MY

La matriz M es especial por cumplir las siguientes propiedades:

♦ Es cuadrada (n×n)

♦ Es no estocástica

♦ Es simétrica (M’=M)
( )
M ' = I − X( X' X) −1 X' ' = I '− X( X' X) −1 X' = M

♦ Es idempotente (M.M=M)
( )(
MM = I − X(X' X) −1 X' I − X( X' X) −1 X' = )
= I − X( X' X) −1 X'− X(X' X) −1 X'+X( X' X) −1 X' X( X' X) −1 X'

= I − X( X' X) −1 X'− X(X' X) −1 X'+ X(X' X) −1 X' = I − X( X' X) −1 X' = M

♦ MX=0
108

MX = ( I − X( X' X) −1 X' ) X = X − X( X' X) −1 X' X = X − X = 0

e = MY = M (X β + µ) = MX β + M µ = Mµ

Luego, e' e = µ' M ' Mµ = µ' MM µ = µ ' Mµ


e' e = µ' Mµ

Deseamos conocer E (e' e) = E (µ' M µ)

  a 11 a 12 . . a 1n  µ 1 
   
  a 21 a 22 . . a 2n  µ 2 
E (e' e) = E(µ' Mµ) = E (µ 1 µ2 . . µ n ) .  .  =
   
  .  . 
   
  a n1 a n2 a nn  µ n 

  µ1 
  
 µ 2 
= E (∑ µ i a i1 ∑ µ i a i2 . . ∑ µ i a in ) .   = E(µ 1 ∑ µ i a i1 + µ 2 ∑ µ i a i2 + ... + µ n ∑ µ i a in )
  
  . 
  
 µ n 
= E[µ 1 (µ 1a 11 + µ 2 a 21 + ... + µ n a n1 ) + µ 2 ( µ 1a 12 + µ 2 a 22 + ... + µ n a n 2 ) + ... + µ n (µ 1a 1n + µ 2 a 2n + ... + µ n a nn ) ]

Al aplicar el término de esperanza y dado el supuesto de no autocorrelación, los términos


cruzados se hacen cero.
( )
= a 11E µ 12 + a 22 E( µ 22 ) + ... + a nn E(µ 2n ) = σ 2 (a 11 + a 22 + ... + a nn ) = σ 2 ( Traza M )

Recordando que traza:

• La traza de una matriz es la suma de los elementos de la


diagonal principal

• Tr(A±B)=Tr(A) ±Tr(B)

• Tr(ABC)=Tr(CBA)=Tr(BAC)

• Si A es una matriz idempotente, entonces Tr(A)=rango(A)


109

[ ( )] [ ]
= σ 2 Tr ( I n − X( X' X) −1 X' ) = σ 2 Tr (I n ) − Tr X( X' X) −1 X' = σ 2 n − X' X( X' X) −1 =

= σ 2 [n − Tr ( I k ) ] = σ 2 [n − k ]

Con lo que :
E (e' e ) = E(µ ' Mµ) = σ 2 [n − k ]

e' e
Luego si definimos: σˆ =
2
, tendremos un estimador de la varianza del término de
n−k
perturbación que cumple la propiedad de ser insesgado. Esto porque:
 e'e  1 1
E (σˆ ) = E = E(e ' e ) = σ (n − k ) = σ
2 2 2

n −k  n − k n −k

3.5.3.3 Teorema de Gauss-Markov

Sabemos que βˆ = ( X' X) −1 X' Y = β + ( X' X) −1 X' µ , es un estimador lineal e insesgado de β.


En esta expresión ( X' X) −1 X' es una matriz de números fijos.

a. Supongamos que existe β*, otro estimador lineal de β, tal que:


[ ]
β * = ( X' X) −1 X'+C Y , donde C es una matriz de constantes de orden k×n.
Dado que Y=Xβ+µ,
[ ] [ ]
β * = ( X' X) −1 X'+C Y = ( X' X) −1 X'+C ( Xβ + µ ) = ( X' X) −1 X' Xβ + ( X' X) −1 X' µ + CXβ + Cµ
β* = β + (X' X) − 1 X' µ + CXβ + Cµ

b. ¿Qué condiciones se deben cumplir para que β* sea insesgado?


E (β*) = β + ( X' X) −1 X' E(µ ) + CXβ + CE(µ )
E (β*) = β + CXβ
Luego, para que β* sea insesgado se debe cumplir que CX=0

c. Calculemos la varianza de β*

V(βˆ ) = E[ (β * − E(β*)) (β * − E(β*))']


Dados los resultados de a y b sabemos que :
• E(β*)=β
110

• β * -β = (X' X) −1 X' µ + Cµ
Luego,
[
V(β*) = E[ (β * − β) (β * − β)'] = E (( X' X) −1 X'µ + Cµ ) (( X' X) −1 X'µ + Cµ )' ]
[
V(β*) = E (( X' X) −1 X' µ + Cµ) (µ' X( X' X) −1 + µ ' C' ) ]
[
V(β*) = E ( X' X) −1 X' µµ' X( X' X) −1 + ( X' X) −1 X' µµ ' C'+Cµµ ' X(X' X) − 1 + Cµµ ' C' ]
V(β*) = ( X' X) −1 X' E( µµ' ) X(X' X) −1 + ( X' X) −1 X' E( µµ' )C'+CE(µµ ' ) X( X' X) −1 + CE(µµ' ) C'
Recordando que E(µµ‘)=σ2 I
V(β*) = σ 2 ( X' X) −1 X' X( X' X) −1 + σ 2 ( X' X) −1 X' C'+σ 2 CX( X' X) −1 + σ 2 CC'
Dado que CX=0 y simplificando, obtenemos:
V(β*) = σ 2 ( X' X) −1 + σ 2 (X' X) −1 X' C'+σ 2 CX( X' X) − 1 + σ 2 CC'

V(β*) = σ 2 ( X' X) −1 + σ 2 CC'

V(β*) = V(βˆ ) + σ 2 CC'

d. Dado que C es una matriz de constantes de orden k×n,


 c 11 c12 . . c 1n  c 11 c 21 . . c k1 
  
 c 21 c 22 . . c 2n  c 12 c 22 . . c k2 
CC' =  .  . . 
  
 .  . . 
c . c kn  c 1n . c kn 
 k1 ck 2 . c 2n .

 ∑ c12i ∑c c . . ∑c c ki 
 1i 2i 1i

 ∑ c1i c 2i ∑c 2
2i . . ∑c 2 i ki 
c
 
CC' =  . . . . 
 . . . . 
 
 ∑ c1i c ki ∑c 2i c ki . . ∑ c 2ki 

Los elementos de la diagonal principal son positivos o cero, por lo que


necesariamente se cumple que V(β*) ≥ V(βˆ ) . Con esto se concluye que si existe un
estimador lineal e insesgado de β, para que éste sea el de menor varianza
(eficiente), debe ser el estimador MICO.
Si tenemos un estimador lineal e insesgado distinto de MICO, necesariamente tiene
mayor varianza que MICO. Con lo que demostramos que MICO es el mejor
estimador lineal e insesgado. MICO es MELI.
111

3.5.4 Consistencia
Sabemos que :

βˆ = β + (X' X) −1 X' µ luego, multiplicando y dividiendo entre n


1 −1  X ' µ 
βˆ = β + ( X ' X )  
n  n 
 1  X' µ  
plim βˆ = plim (β) + plim  ( X' X) −1  
 n  n 
X' µ 
= β + plim ( X ' X ) −1 • plim 
1

n  n 
X' µ 
= β + ( plim ( X ' X )) −1 • plim 
1

n  n 
1
La matriz ( X ' X ) consta de las medias cuadráticas y de las medias de los productos
n
cruzados de las variables explicativas. Como la matriz X es constante para repetidas
muestras, entonces,
1 1
lim ( X ' X ) = ( X' X)
n n
 1  
 plim  n ∑ µ i  
   
X ' µ  plim  ∑ X 2i µ i 
 1
El limite en probabilidad de la matriz  = n 
 n   
M
 
plim  1 ∑ X kiµ i  
 n  
σ
• plim  
2
1
n
∑ µ i  =plim ( µ ), como E( µ )=0 y var( µ )= n , se deduce que plim ( µ )=0
1  1 
• plim  ∑ X kiµi  , se cumple que E  ∑ X kiµ i  =0 y
n  n 
σ ∑ X ki
2

var(  ∑ X kiµ i  = , con lo que plim var(  ∑ X ki µ i  = 0 ,


2
1 1
n  n n n 
X' µ 
luego, plim   =0
 n 
1
asi, β + ( X ' X ) −1 • 0 = β , con lo que el estimador MICO es consistente.
n
112

3.6 INFERENCIA EN EL MODELO GENERAL


Hasta ahora no hemos usado el supuesto de que las µ siguen una distribución normal
multivariante. Si suponemos µ ~ N (0, σ 2 I ) podremos derivar algunas distribuciones.

3.6.1 Distribución de β̂

βˆ = β + ( X' X) −1 X' µ , con lo que β̂ por ser combinación lineal de variables aleatorias es
también una variable aleatoria que se distribuye normal multivariante.
Esperanza: E (βˆ ) = β
 a 11 a 12 . . a 1k 
 
 a 12 a 22 
2 
Varianza: V(βˆ ) = σ 2 ( X' X) −1 =σ .
 
 . 
a a kk 
 1k . . .

Luego βˆ ~ N (β, σ 2 ( X' X) −1 )

Esto es, βˆ i ~ N (β i , σ 2 a ii ) donde aii es el i-ésimo elemento de la diagonal principal de


(X’X)-1 .
Así:
βˆ i − βi
~ N ( 0, 1)
σ a ii

Este resultado no es muy útil por si mismo, porque no conocemos σ2 .

3.6.2 Distribucione s derivadas de µ


Dado que µ ~ N (0, σ 2 I ) , esto significa que cada µi se distribuye normal e independiente
con media cero y varianza σ2 .
µ 12 µ 22 µ 2n
Luego, + + ...... ~ χ 2n , con lo que
σ 2
σ 2
σ 2

1
µ' µ ~ χ 2n
σ 2

µ' ( σ 2 I ) −1 µ ~ χ 2n
113

Este resultado, nos sirve para recordar como se forman las distribuciones derivadas de una
normal multivariante. Sin embargo, tampoco es útil por si mismo ya que no conocemos µ.

e' e
3.6.3 Distribución de
σ2
Hemos visto los siguientes resultados:
• e = Mµ , como u ~ N (0, σ 2 I ) , por lo que e también se distribuye normal.
• e' e = µ' Mµ
• M = I − X( X' X) −1 X' , siendo simétrica e idempotente.
• Tr(M)=Rg(M)=n-k . Como M es idempotente de aquí se deriva que M tiene n-k
valores propios.
• Sea B una matriz que tenga por columnas los vectores propios de M y D una matriz
que tiene los valores propios en la diagonal y cero en el resto.
 | | |   λ1 0 0
   
 | | |  0 λ2 0
B=  x 1 x2 . . x n y D=  0
 0 . 0
   
 | | |  0 0 . 0
 |  0 λ n 
 | |   0
Sabemos que:
⇒ B’B=BB’=In
⇒ B ' MB = D
⇒ Dado que los valores propios de una matriz idempotente son cero o uno,
sabemos que D tiene n-k valores propios 1 y k valores propios igual a cero.
1 0 . . . . 0
 
0 1 . . 
. . . . 
   I n −k 0 k 
D=  . 1  =  
.   0 k 0 k 
0
 
. . 
 
0 . . . . . 0
Definamos:
y= B’µ
Luego, premultiplicando por B tenemos que, By=B B’µ=Iµ
µ = By
114

Dado que y= B’µ, y será una variable que se distribuye normal multivariada.

Encontremos la esperanza y la varianza de y.


Esperanza: E(y) =E( B’µ)=B’E(µ)=0
Varianza: V(y) =E{[y –E(y)][y –E(y)]’}= E(yy’)= E(B’µ µ‘B)= B’E(µ µ‘) B=
= B’σ2 IB= σ2 B’B=σ2 I

yi
Es decir que y ~ N (0, σ2 I) , con lo que cada ~ N(0,1) se distribuye normal tipificada e
σ
independiente.

Sabemos que:
e' e = µ' Mµ = y ' B
1'23y =
MB
D

1 0 . . . . 0  y 1 
  
0 1 . .  y 2 
. . . .  . 
  
= ( y1 y2 . y n −k y n −k +1 . y n ) . 1  y n − k 
  
. 0 y
  n − k +1 
. .  . 
  
0 . . . . . 0  y n 

n− k
= y 12 + y 22 + ....y 2n − k + 0 + .... + 0 = ∑ y i2
1
n −k
e' e = ∑ y 2i
1

n− k 2
y y 
Como i ~ N(0,1) , luego
σ
∑1  σi  ~ χ 2n -k

n −k

y 2n − k ∑
y 2i
y12 y 22
⇒ 2 + 2 + ..... 2 = 1 2 ~ χ 2n- k
σ σ σ σ
115

e' e
⇒ ~ χ n2- k
σ2

3.6.4 Prueba de Hipótesis en el Modelo Múltiple

Pruebas Individuales

Tenemos:

βˆ i − β i
i) ~ N ( 0, 1) pero σ es desconocida
σ a ii

e' e e ' e /( n − k )
ii) = (n − k ) ~ χ 2

σ σ 2
2 n -k

iii) puede demostrarse que i) y ii) son independientes:

Definimos:
βˆ i − βi βˆ i − βi
σ a ii a ii βˆ − βi
t= = = i ∼ t n-k
e' e σˆ σˆ a ii
σ2
n−k

Prueba de Significación global en el Modelo Múltiple: ANÁLISIS DE VARIANZA

ANOVA ⇒ Es un test de significancia global del modelo

H0 : β 2 = β 3 =............= β k = 0
H1 : Algún β i distinto de 0
i) SCE/σ2 ∼ χ k2-1
116

e' e SCR
ii) = 2 ~ χ n2- k
σ 2
σ
iii) Puede demostrarse que i) y ii) son independientes.

SCE/ σ 2 SCE SCE R2


/ SCT
k - 1 k - 1 k - 1 k - 1 (n − k )R 2
F= = = = = ~ Fk −1, n− k
SCR / σ 2 SCR SCT − SCE SCT − SCE (k − 1)(1 − R 2 )
SCT
n− k n−k n−k SCT ( n − k )

Recordar diferentes expresiones para la SCE

Rechazo H0 , si el valor calculado del


( n − k )SCE
estadístico es mayor que
(k − 1)SCR
α F Kα−1,n − K

0 Fα

Este test indica que el modelo es significativo en su conjunto, si el "efecto explicado por el
modelo" es suficientemente grande respecto al "ruido", a lo residual. Si el F calculado es
mayor que el F de tabla, rechazo que β 2 = β 3 =............= β k = 0, o sea el "aporte de las X"
respecto al residuo es considerable. ¿Cuán considerable? El límite nos lo da el valor de
tabla.

TABLA ANOVA
Variación Suma de Cuadrados Grados de Libertad Suma Promedio de
Cuadrados
Regresión SCE k-1 SCE/(k-1)
Residuo SCR n-k SCR/(n-k)
Total SCT n-1 SCT/ (n-1)
117

Grados de Libertad
Asociado a cada suma de cuadrados hay grados de libertad; (valores que pueden elegirse
arbitrariamente).
Suma de cuadrados Totales (SCT): tiene n-1 grados de libertad. Esto surge como
consecuencia de la pérdida de un grado de libertad, necesario para calcular Y .
Suma de cuadrados residuales (SCR): tiene n-k grados de libertad. Se pierden k grados de
libertad que son necesarios para asegurar que se cumplan las ecuaciones normales. Estas
condiciones son:
 1 1 . . 1   e1   ∑ e i  0
   
 X12 X 22 . . X n 2  e 2  ∑ e i X i2  0
   
X' e =  . . . . .  e 3  = ∑ e i X i3  = 0
      
 . . . . .  .   .  .
X 1k
 X 2k . . X n k  e n  ∑ e i X ik  0
   

Suma de cuadrados explicados (SCE): tiene k-1 grados de libertad ya que se encuentra en
función de todos los parámetros estimados, excepto el intercepto.

3.5.5 Test General Para Probar Restricciones Lineales de Parámetros


i. Introducción

Supongamos que estamos interesados en estimar una función de producción Cobb-Douglas:

lnYi = β 1 + β 2 lnLi + β 3 lnKi + µi

Repasemos distintas hipótesis a probar:

Ejemplo 1:
Si queremos testear
H0 : β2 = 0

H1 : β 2 ≠0

podemos expresar esta restricción en forma matricial

H0 : Cβ = r

H1 : Cβ ≠ r
118

donde C = [0 1 0]

 β1 
Cβ = [0 1 0]  β 2  = β 2
 β 3 

r=0

Ejemplo 2:
Si queremos testear
H0 : β 2 +β 3 = 1

H1 : β 2 +β 3 ≠ 1

debemos definir la matriz C y el vector r:

H0 : Cβ = r

H1 : Cβ ≠ r

donde C = [0 1 1]

 β1 
Cβ = [0 1 1]  β 2  = β 2 + β 3
 β 3 

r = 1 (en este caso un vector de 1x1, o sea un escalar)

Ejemplo 3:
Si queremos testear
119

H0 : β2 = β3

H1 : β2 ≠ β3

H0 : Cβ = r

H1 : Cβ ≠ r

donde C = [0 1 -1]

 β1 
Cβ = [0 1 − 1]  β 2  = β 2 - β 3
 β 3 

r=0

Ejemplo 4:

H0 : β2 = β3 = 0

H1 : Algún β i distinto de 0

 β1 
0 1 0   β 2 
Cβ =   β
 2 = β 
0 0 1 β   3
 3

0
r=  
0

Ejemplo 5:
lnYi = β 1 + β 2 lnLi + β 3 lnKi + β 4 lnZi + β 5 lnWi + µi
120

H0 : β4 = β5 = 0

H1 : Algún β i distinto de 0

 β1 
β 
0 0 0 1 0   β4 
2

Cβ =    β3  =  
0 0 0 0 1 β  β5 
 4
β 5 

0
r=  
0

ii. Desarrollo del Test


Existen distintas formas de desarrollar el test.

• Mediante el desarrollo del test Cβ̂ ?

Sabemos que:

βˆ ~ N ( β , σ 2 ( X ' X ) −1 )

La distribución de probabilidad de una combinación lineal de β̂ será también normal.


Debemos encontrar los parámetros de la distribución.

E (Cβˆ ) = CE(βˆ ) = Cβ

V( Cβˆ ) = E[Cβˆ − Cβ)( Cβˆ − Cβ)'] = E[(Cβˆ − Cβ)(βˆ ' C' − β' C' ) ] =
E[C(βˆ − β)(βˆ ' − β' )C'] = E[C(βˆ − β)(βˆ − β)' C'] =
CE[(βˆ − β)(βˆ − β)'] C' = σ2 C( X' X) −1 C'

Cβˆ ~ N( Cβ, σ 2 C( X' X) −1 C' )


Cβˆ − Cβ ~ N(0, σ 2 C(X' X) −1 C' )

Si H0 es cierta: Cβ = r Cβˆ − r ~ N( 0, σ 2 C( X' X) −1 C' )

Se puede demostrar que dado:


121

i. [
( Cβˆ − r )' σ 2 C( X' X) −1 C' ]−1
( Cβˆ − r ) ~ χ 2R [Estamos sumando R normales(0,1)
elevadas al cuadrado]

donde R es el número de restricciones involucradas bajo la hipótesis nula.

σˆ 2 ( n − k ) e ' e
ii. = 2 ~ χ 2n − k
σ 2
σ

iii. i y ii son independientes

Entonces:

[
(Cβˆ − r )' σ 2 C( X' X) −1 C' ]−1
( Cβˆ − r ) / R
~ FR , n −k
e' e
σ (n − k )
2

1
(Cβˆ − r )' ( σˆ 2 C(X ' X ) −1 C' ) −1 (Cβˆ − r ) ~ FR , n − k
R

α
Rech H 0si F calculado > F
de tabla

Volvamos al Ejemplo 1

Siguiendo con el ejemplo de la función de producción Cobb-Douglas, retomemos la prueba


de algunas hipótesis importantes:

H0: β 2 = 0
H1: β 2 ≠ 0

C = [0 1 0]
r=0
R=1
122

1
(Cβˆ − r )' (σˆ 2 C( X ' X ) −1 C' ) −1 ( Cβˆ − r ) ~ FR , n − k
R
   a 11 a 12 a 13   0  
−1

  2     
βˆ 2  σˆ (0 1 0) a 21 a 22 a 23   1   βˆ 2  ~ F1, n − 3
  a a   
   31 32 a 33   0   
−1
  
0

βˆ 2 σˆ (a 21 a 22 a 23 ) 0   βˆ 2 ~ F1, n − 3
2 1

  

 
[
βˆ 2 σˆ 2 a 22 ]
−1
βˆ 2 ~ F1, n − 3

βˆ 22
~ F1,n−3
σˆ 2 a 22

• Mediante el cálculo de los residuos libres y restringidos.

Se puede demostrar que:

[
~e ' ~e − e' e = (Cβˆ − Cβ)' C( X' X) −1 C1 ]
−1
(Cβˆ − Cβ)

donde ~e ' ~e es suma de cuadrados restringida, es decir, los obtenidos de la regresión en la


que se impone H0 (la restricción).
Entonces, tenemos que:

~e ' ~e e' e
~ χ 2n −( k −R ) y ~ χ 2n −k
σ 2
σ 2

~e ' ~e − e' e
Por lo que ~ χ 2n −( k − R ) − ( n − k) = χ2R
σ 2

~e ' ~e − e ' e 
• ~ χ 2R 
σ 2
 ~e ' ~e − e' e
 /R
e' e
• 2 ~ χ n− k
2 σ2
 ~ FR , n− k
σ 
e' e
/n −k
 σ2
• independie ntes 


Con lo que:
123

e − e' e) / R
(~e ' ~
~ FR , n − k
e'e / n − k

Etapas:
1. Se estima regresión restringida (imponiendo que se cumpla la hipótesis nula) y se
obtiene la SCR restringida → e˜' ˜e

2. Se estima regresión libre (sin imponer que se cumpla la hipótesis nula) y se obtiene
la SCR libres→ e' e'

( ~e ' ~e − e' e) / R
3. Se calcula el estadístico F =
e' e /( n − k )

Si F > FTABLA rech H0 (Rech que la restricción sea valida si la suma se reduce mucho al
calcular dicho estadístico)

rech H 0


Mediante el coeficiente de determinación, R2

Una tercera forma equivalente de probar la misma hipótesis es:


∑ ∑
~ 2 ) y 2 − (1 − R 2 ) y 2
~e ' ~e − e' e (1 − R
R = R =
e' e (1 − R 2 ∑ y 2
n−k n−k

=
[(1 − R~ ] [
) − (1 − R 2 ) / R 1 − R
2
=
~ 2 −1 + R 2 / R ]
(1 − R 2 ) /( n − k) (1 − R 2 ) /( n − k )
(R 2 − R ~2)/R
= ~ FR , n− k
(1 − R 2 ) /( n − k )

3.5.6 Estabilidad y Cambio Estructural


Volvamos al ejemplo de la función de producción para Chile en el período 1960-97
lnYi = β 1 + β 2 lnLi + β 3 lnKi + µi
124

Tenemos la hipótesis a priori que la función de producción difiere según períodos; por
ejemplo:
1960-74 → β1I , β I2 , β I3

1975-97 → β 1 , β 2 , β 3
II II II

n = 38 y tenemos dos submuestras: nI = 15 y nII = 23

YI = XI β I + µI
YII= XIIβ II + µII

H 0 : β I = β II

H 0 : β I ≠ β II

Modelo restringido: los parámetros del primer período coinciden con los del segundo.

 YI   X 
I

Y = X β + µ ⇒   =  II  β + µ
 YII   X 

Es decir se supone que hay un solo modelo a lo largo del período y se obtiene SCR
restringida, ~e ' ~e
Modelo libre (no restringido):

Se corren dos regresiones: una para el primer período y otra para el segundo.

YI   X I 0  β I  µ I 
Y  =  0   + 
X II  β II  µ II 
 II  

SCR libre = e'e = SCRI + SCRII = (e'e)I + (e'e) II


125

Asumiendo la distribución bajo la nula, V(µI) = V(µII) = σ2

Luego:

~e ' ~e − e ' e
R ~ Fk, n − 2k
e' e
n − 2k

Grados de Libertad

Numerador: R = número de restricciones (k, se impone que los k parámetros sean iguales
entre períodos).
También puede deducirse como: gl de ~e ' ~e - gl de e'e

gl de ~e ' ~e = n - k
gl de e'e = gl de (e'e)I + gl de (e'e) II = n1 – k + n2 – k = n1 + n2 – 2k = n-2k

gl numerador = n - k – (n-2k ) = k

Denominador: gl de e'e = n-2k

El Test de Chow es un caso particular del test de cambio estructural. Chow discutió dos
situaciones peculiares: nII = k y nII< k.

iv. Un Ejemplo Numérico del test Cβ

Supongamos que estamos interesados en estimar el siguiente modelo:


Yi = β 1 + β 2 Xi2 + β 3 Xi3 + µi
con los siguientes datos:
126

 3 1 3 5
1  1 4 −8 
   1  26.7 4.5
Y = 8  X = 1 5 6 , luego ( X' X) −1 =  4.5 1 − 1.5
   
 3 1 2 4  − 8 − 1.5 2.5 
 5 1 4 6

Con estos datos se estima la regresión:


LS // Dependent Variable is Y
Included observations: 5
Variable Coefficient Std. Error t-Statistic Prob.
C 4.000000 4.474930 0.893869 0.4657
X1 2.500000 0.866025 2.886751 0.1020
X2 -1.500000 1.369306 -1.095445 0.3876
R-squared 0.946429 Mean dependent var 4.000000
Adjusted R-squared 0.892857 S.D. dependent var 2.645751
S.E. of regression 0.866025 Akaike info criterion -0.003973
Sum squared resid 1.500000 Schwarz criterion -0.238310
Log likelihood -4.084760 F-statistic 17.66667
Durbin-Watson stat 1.666667 Prob(F-statistic) 0.053571

y podemos calcular SCE=26.5 y SCT=28

Ejemplos:
1. Significación conjunta de X2 y X3

Ho: β 2 =β 3 =0

SCE 26.5
F= k − 1 = 3 −1 = 17.67
SCR 1.5
n−k 5−3

Como F 0.95(2,2)=19, la F muestral es menor que el valor critico⇒ no rechazo Ho.


2. Significación de X3

Ho: β 3 =0

Una forma de probarlo es con un test de hipótesis simple. Observando la salida de E-Views
se concluye que este parámetro es no significativo.
127

Otra forma de probar esto es estimando la regresión restringida (es decir aquella donde se
supone válida la hipótesis nula).

LS // Dependent Variable is Y
Included observations: 5
Variable Coefficient Std. Error t-Statistic Prob.
C -0.800000 0.938083 -0.852803 0.4564
X1 1.600000 0.282843 5.656854 0.0109
R-squared 0.914286 Mean dependent var 4.000000
Adjusted R-squared 0.885714 S.D. dependent var 2.645751
S.E. of regression 0.894427 Akaike info criterion 0.066031
Sum squared resid 2.400000 Schwarz criterion -0.090194
Log likelihood - 5.259770 F-statistic 32.00000
Durbin-Watson stat 1.366667 Prob(F-statistic) 0.010938

Como ahora la SCR=2.4 ⇒ ~e ' ~e ' =2.4

Luego, podemos utilizar el estadístico:


2.4 − 1.5
e − e' e) / R
(~e ' ~ 1 = 1.2
F= =
e'e / n − k 1.5
5−3
F 0.95(1,2)=18.51, la F muestral es menor que el valor critico⇒ no rechazo Ho.

3. Los coeficientes de X2 y X3 son de igual magnitud pero de signo opuesto


Ho: β 2 +β 3 =0
o en términos generales:

C= [0 1 1] r=0 con R=1


Sabemos que:
1
F= (Cβˆ − r )' ( σˆ 2 C(X ' X ) −1 C' ) −1 (Cβˆ − r ) ~ FR , n − k
R

−1
  βˆ 1     20.02 3.37 − 6   0   βˆ 1  
1          
F= (0 1 1) βˆ 2  − 0 ' ( 0 1 1)  3.37 0.75 − 1.125  1    (0 1 1) βˆ 2  − 0

1  βˆ     − −   1     βˆ  
   
3  6 1 . 125 1 . 875   3 
128

−1
  0 
 
(2.5 − 1.5 )' (3.37 − 6 0.75 − 1.125 − 1.125 + 1.875) 1 

(2.5 −1.5 )
  1 
  

12
F= 1[0.75 −1.125 − 1.125 + 1.875]−11 = = 2.66
0.375
Dado que el valor del test F es muy pequeño, rechazo la hipótesis nula.

4. Región de confianza conjunta para β 2 y β 3

1
Sabemos que (Cβˆ − Cβ)' ( σˆ 2 C( X ' X ) −1 C' ) −1 (Cβˆ − Cβ) ~ FR , n− k , luego podemos utilizar
R
este resultado para construir regiones de confianza de los test. Distintas especificaciones de
R, darán diferentes regiones de confianza para grupos de parámetros.
Supongamos que nos interesa conocer la región en que se cumple que β 2 y β 3 son
conjuntamente significativos.
Ho: β 2 =β 3 =0
Luego,
 0 1 0
C =   y R=2
 0 0 1
( Cβˆ − Cβ)' ( C(X ' X) −1 C' ) −1 ( Cβˆ − Cβ)
1 R
F= (Cβˆ − Cβ)' (σˆ 2 C( X' X ) −1 C' ) −1 ( Cβˆ − Cβ) =
R e' e
n −k
−1
  βˆ1  β1   26.7 4.5 − 8 0 0  βˆ   β 
0 1 0     0 1 0     0 1 0 1   1 
 βˆ 2  − β2 '    4.5
 1 − 1.51 0  βˆ 2  − β2 
  0 0 1   
 βˆ 3 β3    0 0 1  − 8 − 1.5 2.5 0 1   0 0 1 βˆ  β 
       3   3 
F= 2
0.75

−1
  0 0 
  − 1.5    βˆ 2 − β 2 
F=
1 ˆ
(β 2 − β 2 βˆ 3 − β 3 )  
4.5 1
 1 0   
1.5   − 8 −1. 5 2.5  0 1  β
ˆ
 3 − β 3 
  
129

−1
 1 − 1.5 βˆ 2 − β2  1 10 6 βˆ 2 − β2 
F=
1 ˆ
(β2 − β2 βˆ 3 − β3 )   βˆ − β  = 1.5 (2.5 − β2 − 1.5 − β3 ) 6 4 βˆ − β 
   
1.5  −1.5 2.5   3 3   3 3 

26.5 − 32β 2 − 18β 3 + 12β 2 β 3 + 10β 22 + 4β 23


F=
1 .5
Eligiendo, por ejemplo, el valor crítico de F al 5 por ciento tenemos:
Pr {F<F0.95}=0.95, y F(2,2)=19
Entonces, haciendo
26.5 − 32β 2 − 18β 3 + 12β 2 β 3 + 10β 22 + 4β 23
F= F0.95 se tiene =19, es decir
1 .5
10β 22 + 4β 23 + 12β 2 β 3 − 32β 2 − 18β 3 − 2 = 0 .

Esta es la ecuación de una elipse.


Este procedimiento permite establecer una elipse de confianza al 95% para los parámetros
β que son desconocidos. La elipse está centrada en el punto estimado βˆ 2 = 2.5 y βˆ 3 = −1.5 .

β3

β̂ 2

El origen (0,0) se encuentra dentro de la elipse, lo que significa que, con un 95% de
confianza, no se puede rechazar la hipótesis de que ambos parámetros son cero en forma
conjunta.
130

Es importante observar :

• que la elipse cambia de forma en función de la covarianza entre los parámetros


estimados β̂ 2 y β̂ 3 . Si cov( βˆ 2 , βˆ 3 ) < 0 la elipse se inclina hacia la izquierda, mientras
que si cov( βˆ 2 , βˆ 3 ) > 0 se inclina hacia la derecha.

• que los límites que se obtienen en forma conjunta para β̂ 2 y β̂ 3 son distintos a los que se
obtienen en intervalos de confianza individuales. Es perfectamente posible que
utilizando test individuales se concluya que los parámetros son individualmente no
significativos, pero testeando conjuntamente la hipótesis de que ambos parámetros son
cero esta sea rechazada por obtener un elipse tal que el punto (0,0) este fuera de la
misma. En ese caso uno puede decir que al menos uno de los parámetros tiene
suficiente influencia sobre la variable explicativa, pero no puede asignar esa influencia
a uno de los parámetros en particular.
131

3.6 PREDICCION

Para predecir debemos recurrir a los parámetros estimados dentro de la muestra:

Yˆ i = βˆ 1 + βˆ 2 X i2 + βˆ 3 X i3 + . . . + βˆ k X ik i = 1 ....... n

Ŷn×1 = X n× k βˆ k×1

El interés en general es pronosticar el valor de Y en un período posterior a n (por ejemplo el


período que denominaremos 0).

Si el interés está en predecir Y0 se hablará de predicción individual. Si, alternativamente, se


predice E(Y0 /X), hablaremos de predicción media o promedio. Ambas alternativas dan
lugar a la misma predicción puntual, pero diferentes intervalos de confianza, ya que
difieren en la varianza del error de predicción. Ello por cuanto en ambos casos se utiliza
para predecir la siguiente ecuación:

Ŷ i = βˆ 1 + βˆ 2 X 02 + βˆ 3 X 03 + . . . + βˆ k X 0 k

Es fácil probar que Ŷ 0 es un estimador insesgado de E(Y0/X)

E (Ŷ 0 ) = E( Y0 ) (porque Ŷ 0 e Y0 son V.A.)

Y0 = β1 + β2 X02 + … + βk X 0k + u 0 (verdadero valor)

• E (Y0 / X0 ) = E (β + β2X02 + … + βk X0 k + u 0 )

= β1 + β2X02 + … + βk X0 k + E( u0 ) = β1 + β2X02 + … + βk X0 k

• E (Ŷ0 / X0 ) = E (βˆ 1 + βˆ 2X 02 + … + βˆ k X0k ) =

= E(βˆ 1 ) + E(βˆ 2 ) X02 + … + E(βˆ k ) X0 k =

= β1 + β 2X 02 + … + β k X0 k
132

Es decir: Yˆ 0 en promedio estará sobre Y0 promedio.

El punto clave es realizar una proyección correcta de las variables explicativas y verificar si
es correcto usar βˆ i históricos hacia adelante.

Que E( Ŷ0 ) = E(Y0) (no hay sesgo), no implica que no exista error de predicción,

Error de predicción = e0 = Y0 - Ŷ0 (escalar)

e 0 = β1 + β2 X 02 + … + β k X 0 k + u 0 − βˆ 1 − βˆ 2 X 02 ……βˆ k X 0k
e 0 = X '0 (β − βˆ ) + u 0
1 xk kx 1 1x1

• ¿Cuál es el valor esperado del error de predicción?


[ ]
E (e 0 ) = E( X '0 (β − βˆ ) + u 0 ) = E X '0 (β − βˆ ) + E( u 0 ) = 0
E(e0 ) = 0

• ¿Cuál es la varianza de e 0 ?
V(e0 ) = V ( X '0 (β − βˆ ) + u 0 )

[ ] [
= V X '0 (β − βˆ ) + V ( u 0 ) + 2 Cov X '0 (β − βˆ ) u 0 ]

La covarianza está en función de dos variables aleatorias (β̂ y µ0 ). β̂ es función de los (i=1
hasta n) y µ0 es un error aleatorio posterior a n. Por lo tanto, COV (µi,µ0 )=0 por el supuesto
[
de no autocorrelación de los errores y Cov X '0 (β − βˆ ), u 0 =0 ]
[ ]
= V X '0 (β − βˆ ) + σ 2

= E{[X (β − βˆ )][X (β − βˆ ) ] '}+ σ


'
0
'
0
2

= E[X (β − βˆ )(β − βˆ )' X ] + σ


'
0 0
2

= X '0 E(β − βˆ )(β − βˆ )' X 0 + σ 2

= X '0 V (βˆ ) X 0 + σ 2

= X '0 • σ 2 ( X ' X ) −1 X 0 + σ 2
133

[ ]
= σ 2 X '0 ( X ' X ) −1 X 0 + 1

• ¿Cómo podemos obtener un intervalo de confianza para Y0?

• ¿Cómo se distribuye e 0 ?
e 0 = X'0 (β − βˆ ) + u 0

u ~ N (0, σ2 I)

βˆ ~ N (β, σ 2 ( X' X) −1 )

[
e 0 ~ N 0, σ2 ( X '0 ( X ' X ) −1 X 0 + 1) ]
e 0 ~ N [0, V (e 0 )]

DS( e 0 ) = σ X '0 ( X ' X ) −1 X 0 + 1

e0 − E( e0 ) 
~ N( 0, 1) 
DS( e0 )

e' e  e0
σˆ =
2
 ~ tn − k
n −k −1
 σˆ X0 ( X' X) X0 + 1
'

σˆ 2 
( n − k ) ~ χn − k 
2

σ 2

e0
Con lo que ~ t n −k
DSˆ(e 0 )

• Intervalo de confianza para el error de predicción.


Esto nos permite hacer un intervalo para el error de predicción.
 e0 
P− t α / 2 ≤ ≤ t α / 2  = 1− α
 DS(ˆ e 0 ) 
[ ]
P − t α / 2 • DS(ˆ e 0 ) ≤ e 0 ≤ t α / 2 • DS(ˆ e 0 ) = 1 − α

INT( e 0 ) = ± t α / 2 • DS(ˆe 0 )
134

• Intervalo de confianza para Y0


Como e0 = Y0 - Yˆ 0 , podemos obtener un intervalo de confianza para Y0

INT (e0 ) = INT (Y0 - Yˆ 0 )

INT( Y0 − Ŷ0 ) = ± t α / 2 • DS(ˆ e 0 )

INT( Y0 ) = Ŷ0 ± t α / 2 • DSˆ( e 0 )

Tarea: Demostrar que el intervalo de predicción para una regresión simple es

1 ( X 0 − X)
2
Y0 = Ŷ0 ± t α / 2 σˆ 1 + +
N ∑ x i2
En algunos casos interesa predecir E ( Ŷ / X)

E (Y0 ) = X '0βˆ

e 0 = E( Y0 ) − E (Ŷ0 ) = X '0β − X '0βˆ = X '0 (β − βˆ )

[ ]
V ( e 0 ) = V X '0 (β − βˆ ) = X '0 σ 2 (X ' X ) − 1 X 0 = σ 2 X '0 (X ' X ) − 1 X 0
135

4. VARIAB LES FICTICIAS O DUMMY O BINARIAS O


DICOTÓMICAS
Variable dependiente = f (variables cualitativas como sexo, raza, religión, nacional o
extranjero, etc)
En estos casos se utiliza una variable explicativa dicotómica. solo puede adoptar dos
valores. 1 o 0. Si la variable adopta más de dos valores, también puede convertirse
fácilmente en dicotómica.

4.1 MODELOS ALTERNATIVOS.


Ejemplo 1: Unica Variable Explicativa es una variable dummy.
0 si el alumno es hombre
Si = 
1 si el alumno es mujer

Ni = β 1 + β 2 Si + µi para i =1,2, ....n

donde Ni es nota en curso de Econometría y Si es una variable dummy (única variable


explicativa) que representa el sexo del alumno.

¿Nota esperada para alumnas mujeres?

E(Ni /mujer) = E(Ni / Si =1) = β 1 + β 2 (nota esperada para una mujer)

¿Nota esperada para alumnos hombres?

E(Ni /hombre) = E(N i / Si =0) = β 1 (nota esperada para un hombre)

¿Cómo se prueba que no hay diferencias de notas asociadas al sexo?


H0 : β 2 ≤0
H1 : β 2 > 0 (las mujeres muestran en mayor nota promedio)
Podemos estimar β 1 y β 2 y luego realizar una prueba de hipótesis sobre diferencia de
resultados según sexo.

βˆ 2 − β2
~ t n −2
DS (ˆβˆ )

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
136

Ni
E(Ni)

β1 + β 2 con β2 > 0
β2

β1

Observación

Ejemplo 2: Una variable cualitativa y otra cuantitativa


Variable Dependiente = f(Intercepto, Variable Cualitativa, Variable Cuantitativa)

La nota en econometría podría ser función del PPA.

Ni = β 1 + β 2 Si + β 3 PPAi + µi para i =1,2, ....n

E(Ni /mujer) = E(Ni / Si =1) = β 1 + β 2 + β 3 PPAi (nota esperada para una mujer)

E(Ni /hombre) = E(N i / Si =0) = β 1 + β 3 PPAi (nota esperada para un hombre)


H0 : β2 ≤ 0
H1 : β 2 > 0 (las mujeres muestran en mayor nota promedio)

nota
β 1 + β 2 + β 3 PPA i Supuestos:
β2 > 0
β 1 + β 3 PPA i β 3 igual para ambos sexos
β2

PPAi

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
137

Ejemplo 3: Dos variables cualitativas


Variable Dependiente = f(Intercepto, dos Variables Cualitativas)

La nota en econometría podría ser función del sexo y de la nacionalidad (por ejemplo
extranjero versus chileno).

Ni = β 1 + β 2 Si + β 3 Ei + µi para i =1,2, ....n

0 si el alumno es chileno
Ei = 
1 si el alumno es extranjero

E(Ni /hombre, chileno) = E(Ni / Si =0, Ei =0) = β 1 (nota esperada para un hombre
chileno)

E(Ni /hombre, extranjero) = E(N i / Si =0, Ei =1) = β 1 + β 3 (nota esperada para un hombre
extranjero)

E(Ni /mujer, chilena) = E(Ni / Si =1, Ei =0) = β 1 + β 2 (nota esperada para una mujer
chilena)

E(Ni /mujer,extranjera) = E(N i / Si =1, Ei =1) = β 1 + β 2 + β 3 (nota esperada para una mujer
extranjera)

Ejemplo 4: Interacción entre una variable cuantitativa y una cualitativa.


Con la especificación planteada en el ejemplo 2, se esta suponiendo que el efecto
“diferencial” asociado al sexo es constante, independiente del nivel de PPAi.

Es posible que la PPAi dependa del sexo.

Ni = β 1 + β 2 Si + β 3 PPAi + β 4 PPAi* S i + µi para i =1,2, ....n

H0 : β 2 = β 4 = 0 (hombres y mujeres tienen nota similar)

H1 : Algún β i ≠ 0 (el sexo explica diferencias de notas)

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
138

Otra hipótesis a probar es si la influencia de la PPA en la nota en Econometría es la misma,


independiente del sexo.

H0 : β 4 = 0 (hombres y mujeres tiene nota similar)


H1 : β 4 ≠ 0 (el sexo genera efecto diferencial de la PAA)

(β 1 + β 2 ) + (β 3 + β 4 )PPA i

nota

Supuestos:
β2 > 0
β 1 + β 3 PPA i β4 > 0
β2

β1

PPA

Ejemplo 5: Variables Cualitativas Politómicas

1 si el alumno es costarrice nce


CR i = 
0 en el resto

1 si el alumno es uruguayo
Ui = 
0 en el resto

1 si el alumno es de otras nacionalid ad


Ri = 
0 en el resto

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
139

Nota

Uruguayo

.Resto

Costa Rica

Uru CR Resto

N i = β1 + β 2 R i + β3 UR i + β 4 CR i + u i

Sin embargo, la regresión anterior no puede estimarse porque la matriz X no es de rango


completo por columnas.

R i UR i CR i

1 1 0 0
1 1 0 0 

• 0 1 0
X=  
• 0 1 0
• 0 0 1
 
1 0 0 1 

Ri + Ui + CRi = 1 (las tres variables dummy sumadas dan lugar a la columna 1)

r (X) < k ⇒ X’X no es invertible

Posibles soluciones

i) Eliminar el intercepto

N i = α 2 R i + α 3 U i + α 4 CR i + u i

ii) Eliminar una de las variables dummy.

N i = δ1 + δ 2 U i + δ 3 CR i + u i

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
140

¿Cuáles son las notas esperadas?

En la alternativa i):

E ( N i / R i = 1, U i = 0, CR i = 0, alumno del resto) = α 2

E ( N i / U i = 1, R i = 0, CR i = 0, alumno uruguayo) = α 3

E ( N i / CR i = 1, R i = 0, U i = 0, alumno costarrice nce) = α 4

En la alternativa ii):

E ( N i / R i = 1, U i = 0, CR i = 0, alumno del resto) = δ1

E ( N i / Ui = 1, R i = 0, CR i = 0, alumno uruguayo) = δ1 + δ 2

E ( Ni / CR i = 1, R i = 0, Ui = 0, alumno costarrice nce) = δ1 + δ3

¿Qué diferencia tiene i) y ii)? De interpretación de los coeficientes.

i) α3 refleja la nota esperada para un alumno uruguayo.

ii) δ2 refleja en cuánto difiere la nota de un uruguayo de la de un alumno “resto”.

¿Cómo realizar algunas pruebas de hipótesis? Con pruebas individuales o conjuntas.

4.2 VARIABLES DUMMY PARA DESESTACIONALIZAR


En general, toda serie económica contiene cuatro componentes:
Z = C + T + S +I
donde :
Z es la serie original
C es el ciclo (podría aproximarse por funciones trigonométricas)
T es la tendencia (en función del tiempo)
S es la estacionalidad o el efecto en la variable originado por factores asociados al
calendario (por ejemplo la actividad económica declina en febrero producto de las
vacaciones)
I es la parte irregular o ruido blanco que no responde a ningún patrón determínistico.

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
141

Identifiquemos en la serie “dinero real” estos componentes.

DINERO: DISTINTOS COMPONENTES

700000

650000

600000

550000

500000

450000

400000

350000

300000

250000

200000
86-I

87-I

88-I

89-I

90-I

91-I

92-I

93-I

94-I

95-I

96-I

97-I

98-I
M1A serie original Ciclo Tendencia

Sabemos que el comportamiento de largo plazo del dinero (componente tendencia-ciclo)


depende de una variable de escala (ingreso) y del costo de mantenerlo (tasa de interés
nominal). Pero además la trayectoria del dinero esta afectada por factores estacionales (por
ejemplo aumenta fuertemente en septiembre por fiestas patrias o en diciembre, etc).

(M/P)d = f(ingreso, tasa de interés, factores estacionales, componente irregular)


Los efectos estacionales pueden aproximarse a través de variables dummy.

ln (M/P) = β 1 + β 2 lnYi + β 3 ii + β 4 D1i + β 5 D2i + β 6 D3i + β 7 D4i + µi


1 si el trimestre es el primero
D1 = 
0 en el resto
1 si el trimestre es el segundo
D2 = 
0 en el resto
1 si el trimestre es el tercero
D3 = 
0 en el resto
1 si el trimestre es el cuarto
D4 = 
0 en el resto

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
142

Sin embargo, la regresión anterior no puede estimarse porque la matriz X no es de rango


completo por columnas.
D1 D2 D3 D4

1 ln Y 1 i1 1 0 0 0
1 ln Y 2 i2 0 1 0 0
 
1 ln Y 3 i3 0 0 1 0
 
1 ln Y 4 i4 0 0 0 1
1 ln Y 5 i5 1 0 0 0
 
X = 
1 ln Y 6 i6 0 1 0 0
1 ln Y 7 i7 0 0 1 0
 
1 ln Y 8 i8 0 0 0 1
. . . . . . .
 
. . . . . . .
 
. . . . . . .
1 ln Y n in 0 0 0 1 

D1 + D2 + D3 + D4 = 1 (las cuatro variables dummy son una combinación lineal que dan
lugar a la columna 1)

r (X) < k ⇒ X’X no es invertible

Posibles soluciones
i) Eliminar el intercepto

ln (M/P) = β 2 lnYi + β 3 ii + β 4 D1i + β 5 D2i + β 6 D3i + β 7 D4i + µi

E[ ln(M/P)/ D1i =1; D2i = 0; D3i = 0; D4i = 0] = β 2 lnYi + β 3 ii + β 4


E[ ln(M/P)/ D2i =1; D1i = 0; D3i = 0; D4i = 0] = β 2 lnYi + β 3 ii + β 5
E[ ln(M/P)/ D3i =1; D1i = 0; D2i = 0; D4i = 0] = β 2 lnYi + β 3 ii + β 6
E[ ln(M/P)/ D4i =1; D1i = 0; D2i = 0; D3i = 0] = β 2 lnYi + β 3 ii + β 7

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
143

ii) Eliminar una de las variables dummy

ln (M/P) = β 1 + β 2 lnYi + β 3 ii + β 4 D1i + β 5 D2i + β 6 D3i + β 7 D4i + µi

En este caso si existe estacionalidad en el cuarto trimestre, el efecto será captado por el
intercepto.

E[ ln(M/P)/ D1i =1; D2i = 0; D3i = 0] = β 1 + β 2 lnYi + β 3 ii + β 4


E[ ln(M/P)/ D2i =1; D1i = 0; D3i = 0] = β 1 + β 2 lnYi + β 3 ii + β 5
E[ ln(M/P)/ D3i =1; D1i = 0; D2i = 0] = β 1 + β 2 lnYi + β 3 ii + β 6
E[ ln(M/P)/ D1i =1; D2i = 0; D3i = 0] = β 1 + β 2 lnYi + β 3 ii

iii) Suponer que la suma de los efectos estacionales es cero.


β4 + β5 + β6 + β7 = 0

ln (M/P) = β 1 + β 2 lnYi + β 3 ii + β 4 D1i + β 5 D2i + β 6 D3i + (-β 4 - β 5 - β 6 ) D4i + µi


ln (M/P) = β 1 + β 2 lnYi + β 3 ii + β 4 (D1i - D4i) + β 5 (D2i - D4i) + β 6 (D3i - D4i) + µi

iv) Desestacionalizar las series utilizadas.


Por ejemplo en E-Views el comando SEAS elimina los efectos estacionales.
SEAS Y YSA
donde YSA es la series desestacionalizada.

Luego se corre la regresión con las series desestacionalizadas. Por ejemplo:


ln (M/PSAi) = β 1 + β 2 lnYSAi + β 3 iSAi + µi

4.3 VARIABLES DUMMY PARA DETECTAR CAMBIO


ESTRUCTURAL

Recordar test de cambio estructural

CPi = β 1 + β 2 Yi + µi Chile 1960 - 1997

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
144

H 0 : β I = β II
H 1 : β I ≠ β II

Supongamos que intuimos que hubo cambio estructural en 1974 producto del proceso de
apertura comercial iniciado por el país.

1960-74 → β1I , β I2
1975-97 → β1 , β 2
II II

Podríamos definir:
0 si economía es cerrada ( 60 − 74)

Di = 
1 si economía es abierta ( 75 − 97 )

Planteamos un modelo más general:


C i = β1 + β2 Di + β3Yi + β 4Di Yi + ui
E(C i / Di = 0, Yi ) = β1 + β3Yi
E(C i / Di = 1, Yi ) = (β1 + β2 ) + (β3 + β4 ) Yi

β 2 es el intercepto diferencial
β 4 es la pendiente diferencial

H0 : β 2 = β 4 = 0
H1 : Algún β ι ≠ 0

Efectuar la prueba de la hipótesis anterior es absolutamente equivalente al test de cambio


estructural presentado anteriormente. Sin embargo, utilizar variables dummy para verificar
cambio estructural tiene una ventaja importante: indica en forma precisa cuál parámetro es
diferente. En el ejemplo anterior podríamos identificar si cambió el intercepto o la
pendiente o ambos. El procedimiento basado en los residuos o en el test Cβ sólo reportaba
si había estructural, sin especificar en qué parámetro(s) se produjo.

También es posible efectuar pruebas individuales e identificar en que parámetro se produjo


el cambio estructural.

H0 : β 2 = 0
H1 : β 2 ≠ 0

H0 : β 4 = 0

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
145

H1 : β 4 ≠ 0

4.4 VARIABLES DUMMY PARA CORREGIR OUTLIERS.

Un outlier es un error anormal. Su valor absoluto es largamente superior al desvío estándar


de la regresión. Los parámetros estimados pueden estar fuertemente distorsionados
considerando la presencia del outlier.
ln (M/P) = β 1 + β 2 lnYi + β 3 ii + β 4 D1i + β 5 D2i + β 6 D3i + β 7 D4i + β 8 D5i + β 9 D6i + β 9 D7i
+ β 10 D8i + β 11 D9i + β 12 D10i + β 13 D11i + µi

Aquí utilizamos 11 dummies para captar estacionalidad por tratarse de datos mensuales.
ECUACIÓN ESTIMADA PARA LA DEMANDA POR DINERO

13.5

0.20 13.0

0.15
12.5
0.10

0.05
12.0
0.00

-0.05
87 88 89 90 91 92 93 94 95 96 97 98

Residual Actual Fitted

Se percibe que en marzo de 1992 tenemos un residuo anormal: casi 0.15 en circunstancias
que el desvío estándar de la regresión es de 0.023. Existe justificación para controlar ese
residuo anormal a través de la inclusión de una dummy.

1 si i = marzo de 1992

D923 = 
0 en el resto.

ln (M/P) = β 1 + β 2 lnYi + β 3 ii + β 4 D1i + β 5 D2i + β 6 D3i + β 7 D4i + β 8 D5i + β 9 D6i + β 9 D7i


+ β 10 D8i + β 11 D9i + β 12 D10i + β 13 D11i + β 14 D923 + µi

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
146

ECUACIÓN ESTIMADA PARA LA DEMANDA POR DINERO (Incluyendo la Variable


Dummy D923)

13.5

13.0
0.06

0.04 12.5

0.02
12.0
0.00

-0.02

-0.04
87 88 89 90 91 92 93 94 95 96 97 98

Residual Actual Fitted

A primera vista, parecería que el numero de outliers hubiera aumentado. Sin embargo, debe
considerarse que la banda se estrechó producto de la disminución del desvío estándar de la
regresión (desde 0.023 a 0.017).

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
147

5. MULTICOLINEALIDAD
5.1 INTUICIÓN
El estimador MICO de un parámetro específico del vector β, no involucra solamente las
observaciones de la variable correspondientes a ese β, sino también el resto de las variables
independientes.

Esto es porque, para obtener estimaciones precisas de la influencia de una variable sobre
otra, se debe tomar en cuenta la influencia simultánea de las otras variables explicativas.
Hacer esto asegura que el elemento β j refleja la influencia de la variable independiente j,
cuando el efecto de las otras variables se mantiene constante.
• Si el modelo a estimar es Yi = β 1 + β 2 Xi + ui

Y X
Y = variación de Y
X = variación de X
= variación común de Y y X.

es la información utilizada para estimar la pendiente β 2 (cuanto mayor ésta


área, mayor información es usada y menor su varianza).

• Si el modelo incorpora una variable adicional, generalmente habrá una zona en que
estas dos variables tienen variabilidad común, lo que denominaremos multicolinealidad o
colinealidad ( + ).

Yi = β 1 + β 2 Xi + β 3 Zi + ui

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
148

En la regresión múltiple de Y respecto a X y Z, el estimador MICO utiliza el área ( )


para estimar β 2 y el área ( ) para estimar β 3.

Esto implica que el área común ahora es desechada, esto es porque no es posible saber
a-priori a qué variable (X o Z) atribuirlo.

• Si las variables X y Z son ortogonales [covarianza (X, Z) = 0] no hay áreas comunes


y los estimadores MICO utilizan sólo los datos de la variable X para estimar β 2 y sólo Z
para X3.

• Si las variables X y Z son muy colineales, el área es muy grande y las áreas ( )
y( ) son pequeñas, lo que implica que para estimar β 2 y β 3 se utiliza muy poca
información. Esto provoca que las varianzas estimadas de estos coeficientes son muy
elevadas.

• Si hay colinealidad perfecta entre X y Z, el área común abarca todo el círculo (no
hay área ( ) y ( )esto implica que no es posible hacer estimaciones.

Veamos estos resultados con mayor rigurosidad

5.2 TIPOS DE MULTICOLINEALIDAD


Multicolinealidad: es el fenómeno que se produce cuando las variables explicativas tienen
alta correlación.

Distinguiremos entre dos casos:

1. Multicolinealidad perfecta: la relación entre las variables X y Z es perfecta (Ej X =


XZ).
2. Multicolinealidad imperfecta: la correlación entre las variables X y Z es alta, pero
no perfecta.

Multicolinealidad perfecta
Es el fenómeno presente cuando tenemos
λ 1X 1 + λ 2X 2 + …… + λ k X k = 0
con algún λ i ≠ 0 ⇒ relación perfecta entre variables Xi.
Ej. :Supongamos el siguiente modelo expresado en desvíos:
y = x 2β 2 + β 3 x 3 + µ − µ donde se tiene que x3 = λ x2

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
149

 x 12 x 13 
x x 23   ∑ x i2
x x 22 • • x n 2 
22

2
∑x x i3 
i2

x' x =  12 • = 
 x 13 x 23 x n 3     2 
•   ∑ x i2 x i3 ∑ x i3 
x n 2 x n3 

Como x3 = λ x2

∑ x 2i2 ∑x λx i 2 
i2 1 λ 
   
x' x =   = ∑ x i2
2
 
 x λx
∑ i2 i 2 ∑ (x i 2 λ) 2  λ λ2 
 

Luego, el determinante de x’x es igual a cero (o el rango de x es uno) ⇒ No se puede


obtener una solución única para βˆ

Más aún, de las ecuaciones normales sabemos:


( x ' x ) βˆ = x ' y donde :
∑ x i 2 y 1 
   
x' y =   = ∑ x i2 y  
 x y 
∑ i 3
λ 

1 λ  βˆ 2   ∑ x i 2 (βˆ 2 + λβˆ 3 ) 


2

     
( x ' x ) βˆ =   ∑ xi 2  =
2

βˆ 3   λ x 2 (βˆ + λβˆ )
λ λ2     ∑ i2 2 3 

Por lo que:

∑x 2
i2 (βˆ 2 + λβˆ 3 ) = ∑ x i 2 y 

 las dos ecuaciones son una y nos permiten estimar :
λ ∑ x 2i2 (βˆ 2 + λβˆ 3 ) = λ∑ x i 2 y

βˆ 2 + λβˆ 3 =
∑ x i2 y
es estimable la combinación, pero no βˆ 2 y βˆ 3 .
∑x 2
i2

La presencia de multicolinealidad perfecta hace imposible el cálculo de βˆ 2 y βˆ 3 en forma


independiente. Solo es posible estimar una combinación lineal de esos estimadores.

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
150

Otra forma de verlo:


y = β 2 x 2 + β 3 x 3 + (µ − µ )

x 3 = λx 2

y = β 2 x 2 + β 3 λx 2 + (µ − µ )

y = (β 2 + λβ 3 ) x 2 + (µ − µ )
∑ x i2 y
Si definimos β = β 2 + λβ 3 , el único parámetro que podremos estimar será βˆ =
∑ x 2i2
Multicolinealidad imperfecta
Hay fuerte asociación entre variables explicativas
en la regresión simple: el coeficiente de correlación simple r x1 x2 es alto

⇒ en la regresión múltiple: el coeficiente de determinación R 2 de una regresión


x ,x
j resto
en que una de las variables explicativas xj es explicada por el resto de las variables
x j = f ( x 1 , x 2 _____ x k )
explicativas es alto
↓ sin x j

Ejemplo:

Supongamos el mismo modelo anterior expresado en desvíos


y = x 2β 2 + β 3 x 3 + µ − µ donde ahora se tiene que x i3 = λˆ x 2i + v i . Es decir que hay
una relación entre xi3 y xi2, pero esta no es perfecta. vi es un término estocástico.

∑ x 2i 2 ∑x x i3   ∑ x 2i2
i2 ∑x (λˆ x i2 + v i ) 
i2
   
x' x =   = 
 x x
∑ i 2 i3 ∑ x i 3   ∑ x i2 (λˆ x i 2 + v i )
2
∑ (x i2 λˆ + v i ) 
2

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
151


x' x = 
∑ x 2i2 λˆ ∑ x 2i + ∑ x i 2 v i 

λ ∑ x i + ∑ x i 2 v i λˆ 2 ∑ x 2i2 + ∑ v 2i 
2
ˆ

y dado que ∑x i2 vi = 0

 ∑ x i22 λˆ ∑ x i22

x' x =  
λˆ ∑ x i2 λˆ ∑ x + ∑ v 
2 2 2 2
i2 i

[ ∑x
det x' x = λˆ 2 2
i2 + ∑ v 2i − λˆ 2 ∑ x ]∑ x 2
i2
2
i2 = ∑ x 2i 2 ∑ v 2i

∑ x i22 0 
 
⇒ Supongamos que x2x3 son ortogonales ⇒ x' x =  
0 2 
 ∑ x i3 
luego, det x' x = ∑ x 2i2 ∑x 2
i3

⇒ Sabemos que ∑v 2
i < ∑x 2
i3 ( porque v i2 es la SCR de la regresión x 3 = λˆ x 2 + v i ) y
siempre SCT> SCR
⇒ Entonces, concluimos que ∑x ∑v <∑x ∑x
2
i2
2
1
2
i2
2
i3 y por tanto el determinante
cuando existe colinealidad es menor que el determinante bajo Ortogonalidad.

A mayor colinealidad ⇒ más pequeños el determinante ( cuanto más grande sea R2, más
pequeño será ∑ v 2i respecto a ∑ x 2i3
¿Por qué importa el determinante?

Porque,
∑ x 2i3 − ∑ x i2 x i 3 
−1 1  
(x ' x ) =  
det( x ' x )  
 − ∑ x i 2 x i3 ∑ x i2 

y este resultado se utiliza no solo para calcular βˆ , sino también para var-cov ( βˆ ).

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
152

5.3 EFECTO DE LA MULTICOLINEALIDAD A NIVEL EMPÍRICO


En el modelo con dos variables explicativas.

El principal efecto de la empírico de la multicolinealidad se deriva del resultado anterior:


 ∑ x 23 − ∑ x2 x3 
1
−1
(x ' x ) =   D = ∑ x 2i3 ∑ x 2i2 − ( ∑ x 2 x 3 )2
D − x x 2 
 ∑ 2 3 ∑x2 

Var βˆ 2 =
∑x σ2 2
3
=
σ
2

∑ x ∑ x − (∑ x
2 2
x i3 ) 2 ( ∑ x i2 x i3 ) 2
∑x −
3 2 i2 2

∑x
2 2
i3

σ2 σ2
Var βˆ 2 = =
(n cov ( x 2 x 3 ) )2  n 2 cov( x 2 x 3 ) 2 var x 2 
n var x 2 − n var x 2 −  
n var x 3  n var x 3 var x 2 
cov( x 2, x 3)
y recordando r x 2, x3 =
σ x2σx3

σ2 σ2
Var βˆ 2 = =
(
n var x 2 − n var x 2 rx22 , x3 ) ∑x ( 2
i2 1 − rx22 , x3 ) es decir que la varianza que

β̂ 2 queda dependiendo del grado de correlación entre las variables explicativas ( r x ).


2 ,x 3
Ceteris paribus, a mayor correlación, mayor varianza del parámetro (intuitivamente este era
un resultado conocido)

En el Modelo General
σ2
V(βˆ j ) = Tarea: demostrarlo
n var ( X j )(1 − R 2j )

R 2j = coeficiente de determinación de una regresión entre las variables j y el resto de


las variables explicativas.
Cuando R 2j aumenta, la varianza aumenta. Si R 2j → 1 ⇒ V(βˆ j ) ⇒ ∞

Importante:
Esta colinealidad puede compensarse por alta varianza Xi o por elevado n.
Si Xi es de baja varianza, el efecto sobre la varianza será igual al que produce la
colinealidad.

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
153

Un modelo con alta correlación ( R2 alto), pero σ2 bajo, puede tener estimaciones
confiables para V( βˆ j ) .

Efectos prácticos de la multicolinealidad:

1. Crecimiento varianzas y covarianzas.

2. Intervalos de confianza se amplían.

3. Test t se reducen
βˆ j
↑ var (βˆ j ) ⇒ ↑ V(βˆ j ) ⇒ ↓ ⇒ test t bajos .
V(β j )

Que los resultados de los test sean mas bajos no necesariamente quiere decir que
hay que excluir una variable explicativa. Este resultado puede ser efecto de la
multicolinealidad.

4. El R2 del modelo es alto y los test t de los coeficientes son bajos.

5. Errores numéricos por redondeos de dígitos.

5.4 FORMAS DE DETECTAR LA MULTICOLINEALIDAD


Por sus efectos sobre los test.

⇒ R2 altos y test más bajos.

Esto no significa que la multicolinealidad aumente el R2.

Cuidado:
1. A mayor multicolinealidad no implica mayor R2.
2. Alta multicolinealidad no siempre implica test t más bajos, puede
compensarse por otros efectos.
3. No es una condición necesaria, ni suficiente para que exista
multicolinealidad.
⇒ Test sobre R 2j

Donde R 2j , es el R2 de la siguiente regresión


X j = δ 1 + δ 2 X 2 + ... + δ j−1 X j−1 + δ j+1 X j+1 + ... + µ i

Se calcula :

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
154

R 2j / k − 2
Fj : ≈ Fk− 2, n− ( k −1)
(1 − R 2j ) / n − ( k − 1)

H 0 : δ 2 , δ 3 , …… , δ k −1 = 0
H i : a lg una diferente a cero

Si F>F tabla, se rechaza H0 ⇒ hay multicolinealidad.

⇒ Factor de Inflación de Varianza


1
VIF (βˆ i ) =
1 − R 2i

donde R 2i es el coeficiente de correlación múltiple entre xi y las demás variables


explicativas.
VIF sería la razón entre la varianza real de βˆ i con la que tendría βˆ i sin correlación.

Esta comparación lo único que da es la relación entre la realidad y lo ideal, pero no


más que esto. Tampoco ayuda a solucionar el problema.

Conclusión:
No hay un test único que me permita detectarlo, además en caso de hacerlo, solo son
medidas de lo mal que están las cosas respecto a la situación ideal.
5.5 FORMAS DE SOLUCIONAR LA MULTICOLINEALIDAD
No hacer nada

Dado que la multicolinealidad (imperfecta) no afecta las propiedades de la


estimación, los estimadores siguen siendo MELI, aunque la varianza sea grande
(aunque mínima), una solución es no hacer nada.

Es asumir que la realidad es así, que la muestra utilizada, tiene estos problemas.
Asumir que multicolinealidad es un problema muestral.

Hay dos reglas prácticas en este sentido:

1. No preocuparse por la multicolinealidad si el R2 de la regresión total es mayor


que el R2 de las regresiones de las variables explicativas entre sí.

2. No preocuparse si los test t son mayores que 2.


Incorporar información adicional
a) Aumentar el tamaño muestral (n).

Esto va en dos sentidos ya que aumenta n y puede aumentar var xi.

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
155

σ2
V(β j ) =
n var( x j )(1 − R 2j )

b) Aumentar n intentando maximizar la Ortogonalidad en los datos.

No es fácil de realizar en ciencias sociales,

c) Utilizar datos en primeras diferencias:


Y i = β 1 + β 2 X 2i + β 3 X i3 + µ i
Yi−1 = β1 + β 2 X 2i −1 + β 3 X i−1−3 + µ i−1
_____________________________________
Yi − Yi −1 = β2 ( X2i − X2i −1) + β3 ( Xi3 − Xi−13 ) + µ i − µi −1

∆Yi = β2 ∆X 2i + β3 ∆X 3i + v i
Ahora explicamos las variables en cambios y no en niveles ⇒correlación disminuye
en cambios.
Para que esto sea aplicable vi debe cumplir supuestos clásicos.

d) Utilizar información a priori suministrada por la teoría.


Ej.: Yi = β 1 + β 2 X i 2 + β 3 X i3 + µ i

donde Xi2 y Xi3 son correlacionadas


pero la teoría dice que β 2 + β 3 = 1

⇒ Yi = β1 + (1 − β 3 ) X 2i + β 3 X 3i + µ i

Y i = β 1 + X 2i − β 3 X 2i + β 3 X 3i + µ i

Yi − X 2i = β 1 + β 3 (X 3i − X 2i ) + µ i

Z i = β1 + β 3 Wi + µ i

Problema: Si la restricción es falsa, se genera sesgo.

Empíricamente: se hace un test F para saber si se acepta la restricción.

e) Combinación de series de tiempo y series de corte transversal.

Esto es, ocupar información para algún parámetro en un momento de tiempo e

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
156

imponerla como válida en toda la muestra.


Ej.: ln Yt = β1 + β 2 ln Pt + β 3 ln I t + µ t , pero entre P e I hay multicolinealidad .

Pero, de otro estudio sabemos que para un momento de tiempo β 3 = 1,02.


ln Yt = β1 + β 2 ln Pt + 1,02 ln I t + µ t

ln Yt − 1,02 ln I t = β 1 + β 2 ln Pt + µ t
Si la restricción es válida, soluciono el problema de multicolinealidad.

f) Eliminación de una variable.

Supongo que un β i es cero. Esto tiene problemas si la variable no tiene coeficiente


cero en el modelo teórico (verdadero).
Modelo verdadero: Y i = β 1 + β 2 X 2i + β 3 X 3i + µ i

Pero ajusta: Yi = b 1 + b 2 X 2i + u i

b̂ 2 =
∑x y i i

∑x 2
i

y i = β 2 x 2i + β 3 x 3i + µ i − µ

b̂ 2 =
∑x i2 (β2 x 2i + β3x 3i + u i − u )
=
∑x 2
2i

=
∑ x β + β ∑ x x + ∑ x (u
2
2i 2 3 i2 i3 i2 i − u)
∑x 2
2i

=β +β
∑ x x + ∑ x ( u − u)
i2 i3 i2 i

∑x ∑x
2 3 2 2
i2 i2

β3 ∑ x i2 xi3
E( ˆb2 ) = β 2 +
∑ x2i2

⇒ salvo en el caso de Ortogonalidad, el estimador de bˆ 2 es sesgado al excluir una

variable que debe ir en el modelo.


g) Método de componentes principales
No lo veremos, pero es un método más completo de solución del problema

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
157

6. HETEROCEDASTICIDAD
Uno de los supuestos clásicos que hemos mantenido hasta ahora es:
E (µ 2i ) = σ 2
o en términos matriciales
E (µµ ' ) = σ 2 I
Es decir que la varianza del término de error es constante ∀ i . Esto se refleja en una
varianza constante para la regresión ⇒ V (Yi ) = σ 2 .
Este supuesto es irreal en algunos casos:

§ En estudios de corte transversal es más fácil imaginar ejemplos donde la varianza del
término de error aumenta (o disminuye) con una variable explicativa. Ello debido a la
convivencia de unidades heterogéneas. Esta heterogeneidad generalmente está asociada
al comportamiento de una o mas variables explicativas.

Ejemplo: explicamos el consumo en función del ingreso. Pero a medida que el


ingreso aumenta, aumentan los posibles usos de éste por lo que si nuestra regresión
es del tipo C i = β1 + β 2 Yi + µ i , la varianza del error no será constante sino que será
creciente con el nivel de ingreso.

Ci


recta de regresión estimada



• •



Yi

§ Ejemplos de aprendizaje-error; en la medida que se produce aprendizaje los errores de


comportamiento se reducen (σi disminuye).

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
158

errores al tirar
penales •








tiempo de aprendizaje

§ Otro ejemplo es el de mejoras en el procesamiento de datos. En series de tiempo que


son recolectadas por una entidad, σ 2i tiende a disminuir por aprendizajes en la
recolección de la serie.

6.1 ¿CÓMO SE AFECTAN LAS PROPIEDADES DEL ESTIMADOR


MICO CUANDO EXISTE HETEROCEDASTICIDAD?
Supongamos que exista una relación positiva entre el valor absoluto de los residuos y una
variable explicativa.
En este caso, ampliar la muestra al final, afectará la recta de regresión fuertemente hacia la
derecha (si la observación agregada es positiva) o hacia la izquierda (si la observación
agregada es negativa).
Yi









Xi

En muestas repetidas, estos casos se compensarán, y el estimador MICO seguirá siendo


insesgado, pero la varianza de los estimadores será mayor.

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
159

Veamos esto en el caso simple:


Yi = β 1 + β 2 X i + µ i

Pero con E (µ 2i ) = σ 2i

∑x y = k y = k Y = k
βˆ 2 = ∑ ∑ ∑ (β1 + β 2 X i + µ i ) =
i i

∑x 2 i i i i i
i

βˆ 2 = β ∑k +β ∑k X + ∑k µ
1 i 2 i i i i

y dadas las propiedades de ki


βˆ 2 = β 2 + ∑ k i µ i

• E (βˆ 2 ) = β 2 → sigue siendo insesgado

• V(βˆ 2 ) = E (βˆ 2 − β 2 ) 2 = E( ∑ k i µ i ) 2 = E( k 12 µ 12 + … + k 2n µ 2n + k 1 k 2 µ 1µ 2 …)
= E( k 12 µ 12 ) + E( k 22 µ 22 ) + …… + E (k 2n µ 2n ) + 0 + ....0 =

= k 12 E( µ 12 ) + k 22 E(µ 22 ) + …… + k 2n E(µ 2n ) = ∑ k i2 σ 2i
123 123 123
σ 21 σ 22 σ 2n

 x i  2 ∑ x i2σ2i
2

=∑ 2
σi =
 ∑ x i  ( ∑ x 2i ) 2

σ2
Antes teníamos que V(β 2 ) =
ˆ , por lo que las varianzas de los estimadores
∑ x i2
cambian relajar el supuesto de homocedasticidad.

Veamos que ocurre en el modelo general:


Matricialmente:
 σ12   ω1 
   
   
E (µ 2i ) = E(µµ ' ) =  σ 22 0  = σ2  ω2 0 = σ 2 Ω
 •   • 
 •   • 
 0 σ 2n  0 ωn 

β = ( X' X) −1 X' Y = ( X' X) −1 X' ( Xβ + µ ) = (X' X) −1 X' Xβ + ( X' X) −1 X' µ

βˆ = β + ( X' X) − 1 X' µ

• E(βˆ ) = β

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
160

(
V (βˆ ) = E[(βˆ − β)(βˆ − β)'] = E ( X ' X ) −1 X ' µµ ' X (X ' X) −1 = )
= ( X ' X ) −1 X ' E( µµ' ) X ( X ' X ) −1 = ( X ' X ) −1 X ' σ 2 Ω X (X ' X ) −1
= σ 2 ( X ' X ) −1 X ' ΩX (X ' X ) −1
Por lo que:
• El estimador sigue siendo
insesgado.
• Las varianzas deben ser corregidas para incorporar heterocedasticidad.

¿Qué ocurre si se estima por MICO sin tener en cuenta la heterocedasticidad?


 σ2 
La varianza estimada con la fórmulas anterior  o σ 2
( X ' X ) −1 
es un
 ∑ x i2 
 
estimador sesgado de la varianza corregida. Será sobreestimada o subestimada,
dependiendo de la naturaleza de la relación de σ 2i y Xi.

 ∑ e 2i 
El sesgo surge de que el estimador de σ , σˆ =  2 2  , deja de ser insesgado bajo
 n −2 
 
heterocedasticidad.
Esto implica que usar los procedimientos habituales de MICO puede provocar serios
errores. Por eso se utiliza un método alternativo: Método de Mínimos Cuadrados
Generalizados
Se recomienda ver ejercicio 6.18 de la Guía.
6.2. MÉTODO DE MÍNIMOS CUADRADOS GENERALIZADOS
Idea: Utilizar una técnica que presta menos atención a los residuos asociados con
observaciones con alta varianza. Esto se hace asignando menos "peso" a esas
observaciones, dado que éstas dan una indicación menos precisa del lugar donde
pasa la verdadera recta de regresión.

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
161

Yi









Xi
Partamos del modelo simple:
(1) Yi = β 1 + β 2 X i + µ i
Otra forma de expresarlo es
(2) Yi = β 1 X 0i + β 2 X i + µ i , donde X0i =1 para todo i.

Supongamos que se conoce σ 2i y se divide (2) por σi :

Yi X  X  µ
(3) = β1  0i  + β 2  i  + i
σi  σi   σi  σi
( 4) Y i* = β *1 X *01 + β *2 X *i + µ *i
Calculemos ahora la varianza del término de error de la regresión en que los datos
fueron transformados:
2
µ  1 σ2
Var (µ ) = E(µ ) = E i
* * 2
 = 2 E(µ 2i ) = i2 = 1
 σi σi σi
i i

§ Este método implica que ahora el error es homocedástico, la


varianza es 1. En este caso se cumplen todos los supuestos clásicos ⇒ es
MELI.
§ Aplicar MICO a variables transformadas es lo mismo que aplicar
MCG.

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
162

Derivación de MCG en el caso simple


Yi ˆ * X 01 ˆ * X i e i
= β1 +β2 +
σi σi σi σi

Yi = βˆ 1* X *01 + βˆ * 2 X*02 + e *i

1
Sea w i =
σ 2i
2
e  ei
2
min ∑e *2
= min ∑  i  = min
 ∑σ = min ∑ (w e 2
)
 σi
i 2 i i
 i

= min ∑w i (Y i − βˆ 1* − βˆ *2 X i ) 2

∂∑ w i e i2
= 2 ∑ w i ( Yi − βˆ *1 − βˆ *2 X i )( −1) = 0
∂βˆ 1
*

∂∑ w i e i2
= 2 ∑ w i ( Yi − βˆ *1 − βˆ *2 X i )( −1) = 0
∂β 2
ˆ *

βˆ *i = Y * − β*2 X *

( ∑ w i )( ∑ w i Yi X i ) − ( ∑ w i X i )( ∑ w i Yi )
βˆ *2 =
( ∑ w i )( ∑ w i X12 ) − (∑ w i X i ) 2

Derivación de MCG en el caso múltiple.


Y = X β + µ donde hay heterocedasticidad, E (µµ' ) = σ 2 Ω
Quisiéramos transformar el modelo y queremos que al transformar las
variables se cumpla que el error sea homocedástico.
Supongamos que existe una matriz T, que transforma los datos:

TY = TX β + Tµ = TX β + v

Requerimos que E(vv') = σ2 I, donde v = Tu


Como Var v = E ( vv ' ) = E (Tµµ ' T ' ) = TE (µµ ' ) T' = Tσ 2 Ω T ' = σ 2 T Ω T '
y se requiere T Ω T' = I ,
Luego, Ω = T −1 ( T' ) −1

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
163

Ω −1 = T' T (*)
Es decir que T, debe ser una matriz que satisfaga (*)

Para obtener los estimadores MCG, aplicamos MICO al modelo transformado;


TY = TX β + v

βˆ MCG = ((TX )' TX ) −1 ( TX )' TY = ( X' T' TX ) −1 X' T ' TY = ( X' Ω −1X) − 1 X' Ω −1 Y
= ( X' Ω −1X) −1 X' Ω −1 ( Xβ + µ) = ( X' Ω −1X) −1 X' Ω −1 Xβ + ( X' Ω −1X) −1 X' Ω −1µ =
= β + ( X' Ω −1 X) −1 X' Ω −1 µ

E (βˆ MCG ) = β

[(
V(βˆ MGB ) = E([(βˆ − β)(βˆ − β)'] = E X' Ω −1X )−1
X' Ω −1µµ ' Ω −1 X X' Ω −1 X ( ) −1
]=
[(
= X' Ω −1 X )+1
(
X' Ω −1E (µµ' ) Ω −1X X' Ω −1 X )−1
] = [(X' Ω −1
X) −1
(
X' Ω −1σ 2 ΩΩ −1X X' Ω −1 X )−1
]=
[(
= σ 2 X' Ω −1X )−1
(
X' Ω −1 ΩΩ −1X X' Ω −1 X ) −1
] = σ (X' Ω
2 −1
X)
−1

Se puede demostrar que esta varianza cumple el teorema de Gauss Markov.


El estimador de σ2 es:
v̂' v̂
σˆ 2 = v̂ = TY − TX βˆ MCG
n −k
(TY − TX βˆ MCG )' ( TY − TX βˆ MCG ) ( Y − Xβˆ MCG )' T' T (Y − Xβˆ MCG )
σˆ 2 = =
n−k n−k

( Y − Xβˆ MCG )' Ω −1 ( Y − Xβˆ MCG )


=
n−k

Este método se conoce generalmente como mínimos cuadrados ponderados.


Cuando existe heterocedasticidad, el método que verifica TM Gaus Markov es MCG y no
MICO.
var ( MCG) < var ( MICO) C. H.

6.3. ¿CÓMO DETECTAR LA HETEROCEDASTICIDAD?


La mayoría de los métodos para detectar la heterocedasticidad se basan en el análisis de los
residuos. Esto se hace esperando que los ei sean buenos estimadores de µi, lo que se puede

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
164

cumplir si la muestra es relativamente grande.


• Naturaleza de l problema:
hay casos en que desde el comienzo de la investigación conocemos que hay
problemas.
• Método gráfico:
intentar detectar la presencia de un patrón sistemático en los residuos.
• Prueba de Park
Supone que σ 2i es función de una variable Xi

σ i2 = σ 2 X i β e v i

Ln σ i2 = ln σ 2 + β ln X i + v i

Dado que σ 2i es desconocida, se propone usar e 2i


ln e i2 = ln σ 2 + β ln X i + v i

ln e i2 = α + β ln X i + v i (i )

La idea es hacer un test:


Si β ⇒ es significativo ⇒ heterocedasticidad
⇒ no significativo ⇒ homocedasticidad
Para hacerlo hay 2 etapas:
1) Aplicamos MICO a la regresión original (que queremos testear), calculamos ei
2) Corremos regresión (i) y hacemos test de hipótesis.
Problemas:
vi no satisface las propiedades para aplicar MICO

• Prueba de Glesjer
Es similar al método anterior pero se realiza testeando con diferentes formas
funcionales:

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
165

ei = β 1 + β 2 X i + vi
ei = β 1 + β 2 X i + vi
1
ei = β 1 + β 2 + vi
Xi
1
ei = β 1 + β 2 + vi
Xi
e i = β1 + β 2 X i + v i
Problema:
§ El residuo tiene como propiedades: E(vi) ≠ 0, correlacionado y heterocedástico.
Pero para nuestras grandes pueden ocuparse las 4 primeras formas.
Ventaja: trata de estimar la verdadera forma de la heterocedasticidad.
• Goldfeld - Quant
Yi = β 1 + β 2 X i + µ i

σ i2 = σ 2 X 2i

Pasos:
1. Ordenar las observaciones de acuerdo a Xi
2. Omitir observaciones centrales (c). Nos quedan 2 grupos de
n −c
observaciones cada uno.
2
3. Aplicar MICO a las dos submuestras y obtener SCRI y SCRII
4. Calcular
SCR ii / g de l
λ=
SCR i / g de l

si µ i ~ N y hom ocedástico λ ~ F n −c −2 k
, n − c− 2 k
2 2

Si λ > F → rech Homocedast icidad

Idea: Si existe heterocedasticidad del tipo supuesto, con la ordenación la varianza


del término de error será mayor hacia el final de la muestra ⇒SCRII > SCRI ⇒ Si

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
166

λ> F ⇒ rechaza homocedasticidad.

• Test de White.
Es válida para n grande.
Pasos:
(1) Aplicamos MICO a la regresión original ⇒ calculo ei.

(2) Se hace la regresión de e 2i = f (Constante , X 2 , X 2 X 3 , X 22 , X 23 ) , es decir,

e 2i = α 1 + α 2 X 2 + α 3 X 3 + α 4 X 2 X 3 + α 5 X 22 + α 6 X 23 + µ i

(3) Bajo la hipótesis nula de ausencia de heterocedasticidad


(α 2 =α 3 =α 4 =α 5 =α 6 =0) asintóticamente el estadístico nR2 ~ χ 2p − 1

donde p son la cantidad de parámetros del modelo (2)

Idea: Mientras n crece, R2 tenderá a cero bajo la hipótesis nula de


homocedasticidad. El R2 no tiende a cero, si la varianza del ei depende de las
variables explicativas del modelo ⇒ en ese caso nR2 > χ 2.

6.4 ¿CÓMO SOLUCIONAR HETEROCEDATICIDAD?


Bajo heterocedasticidad MICO ya no es eficiente
§ Se conoce σ 2i

si se conoce σ 2i ⇒ estimo por MCG ⇒ transformo los datos de forma que el


residuo sea homocedástico.
§ Se desconoce σ 2i . Lo primero es estimar σ 2i , según la forma de la heterocedasticidad,
será la forma de transformar los datos.

1) Supongo E (µ 2i ) = σ 2 X 2i
La forma es dividir datos por Xi

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
167

Yi = β 1 + β 2 X i + µ i
Yi β1 µ
= +β2 + i
Xi Xi Xi
Yi 1
= β1 + β 2 + vi
Xi Xi

µ 
E ( v i ) = E i  = 0
 Xi 

2
µ  1 2 Xi
2
E ( v ) = E i
2
i
 = 2 E(µ i ) = σ
2
2
= σ2
 Xi  X i X i

2) Supongo E (µ 2i ) = σ 2 X i
Mejor transformación
Yi β1 β2 µi
= + Xi +
Xi Xi Xi Xi

Yi 1 µi 1
= β1 + β2 Xi + = β1 +β2 Xi + v i
Xi Xi Xi Xi

 µ 
E ( v i ) = E i =0
 X 
 i 
2
 µ    1
 = E µ i
2
X
E ( v i ) = E i = E( µ i2 ) = σ 2 i = σ 2
 X   ( X )2  Xi Xi
 i   i 
Ejemplo en caso general
Supongamos un modelo de corte transversal
Yt = α + βX t + µ t para t = 1....n
ut homocedástico
Pero solo tenemos acceso a datos agrupados en m grupos con ni observaciones en cada
grupo i.
Yi = α + βX i + µ i
σ2
var( µ i ) =
ni

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
168

1 / n 0 . 0 
 . 
2 0 1/ n2 .
σ Ω=σ
2

 . . . . 
 
 0 . . 1/ n m 

n 1 
 
 
Ω −1 =  n2 
 
 
 n m 

T' T = Ω −1

 n1 
 
 n2 
 

T = 
 • 
 
 • 
 n m 

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
169

7. AUTOCORRELACIÓN
7.1 INTRODUCCIÓN
La heterocedasticidad es solo una de las formas en que se puede levantar el supuesto

de E(µµ’) = σ2I. La segunda manera es suponer que los errores presenten estén
correlacionados entre sí ⇒ E(µiµj) ≠ 0 para i ≠ j
Esto provocaría que la matriz de varianzas y covarianzas de los errores presentará términos
distintos de 0 fuera de la diagonal principal:
γ 0 γ1 γ2 … 
γ γ0 
 1 
γ • 
E (µµ' ) =  2  donde γs = E(µiµi-s )
 • 
 • 
 
 γ 0 

A este fenómeno se le denomina autocorrelación y está presente fundamentalmente en


estudios de series de tiempo, donde un shock en el período i, genera errores en los próximos
períodos.

En lo anterior, se está suponiendo que la covarianza entre dos errores depende sólo de la
distancia temporal entre las observaciones.

A su vez, como todos los términos de la diagonal principal se tiene el mismo valor, se está
suponiendo homocedasticidad ⇒ γ0 = E(µiµi-0)= E (µ 2i ) = γ 0 = σ 2µ

En términos gráficos:

ui ui
ei

x
x
x
x
x
x x
x x x
x x
x x
x x x
x x
x
x x t
x
t
x x

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
170

7.2 CAUSAS MÁS FRECUENTES DE AUTOCORRELACIÓN

Ciclos o tendencias en las variables,


Es decir rachas de valores altos o bajos provocados por shocks o innovaciones no esperados
que son difícilmente captados por las variables explicativas.

Autocorrelación espacial,
En datos de cross-section un shock aleatorio que afecta la actividad de una región puede
causar actividad económica en regiones adyacentes (ej.: mal tiempo).
También ocurre efecto vecindad o efecto demostración.

Influencia prolongada de shocks:


En las series de tiempo, los shocks en general persisten por más de un período.

Inercia:

Debido a la inercia o a fenómenos psicológicos, las acciones pasadas muchas veces tienen
efecto en el presente. Si al modelo le falta incorporar dinámica presente en la realidad, a
través de rezagos, los residuos tendrán patrones autocorrelacionados.

Mala especificación

i) Omisión de una variable relevante


La omisión de una variable relevante que es autocorrelacionada provocará un residuo
autocorrelacionado.
Si el modelo es Yi = β 1 + β 2 X 2 + β 3 X 3 + µ i

pero estimamos Yi = β 1 + β 2 X 2 + v i
Entonces, v i = µ i + β 3 X 3

Si X3 presenta autocorrelación, entonces, vi la presentará aunque ui no esté


autocorrelacionado.

Si esta es la razón para un patrón de este tipo, entonces lo correcto es


corregir la mala especificación, incorporando X3 al modelo.

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
171

ii) Forma funcional inadecuada.

f. funcional
estimada

errores positivos
verdadera forma
o negativos

Quiebre o cambio estructural

Si se produjo un cambio estructural en la muestra, los residuos pueden presentar patrones


sistemáticos antes y después del cambio estructural.

forma verdadera

forma estimada

Entonces, es muy importante detectar la razón de patrones de comportamiento


autocorrelacionados en los residuos, porque ello determinará la mejor forma de corregir
este problema.

En adelante, supondremos que la autocorrelación no está provocada por errores de


especificación, ni de quiebre estructural, ni ausencia de rezagos, sino que por alguna
razón distinta de estas, los residuos se encuentran correlacionados entre sí.

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
172

7.3 ALGUNAS DEFINICIONES


Autocovarianza
Definimos autocovarianza entre µi y µi-s como E (µ i , µ i− s ) = γ s para s=0, ±1, ±2...

Si s = 0 ⇒ E( µ i , µ i− s ) = E(µ 2i ) = γ 0 = σ 2µ

Entonces, podemos E( µµ' ) se puede expresar:

γ 0 γ1 γ2 . 
γ γ0 
 1 
E (µµ' ) =  . . =
 
 . . 
 γ 0 
Coeficiente de Autocorrelación

Definimos
Cov(µ i , µ i− s ) E( µ i . µ i −s ) E( µ i .µ i− s ) γ s
rs = = = =
E( µ i ) 2 • E (µ i −s ) 2 γ 0 • γ0 γ0 γ0

γs
⇒ rs = ⇒ γ s = γ 0 r s ⇒ γ s = σ µ2 rs
γ0
Si s=0, γ 0 = σ µ2

Luego, también podemos expresar E( µµ' ) :

 γ 0 γ1 γ2   σµ σ 2µ r1 σ 2µ r 2  1 
2
. . r1 r2 .
γ  σ 2 r  r 
 1 γ0   µ 1 σ 2µ  1 1 
E (µµ' ) =  . . = . .  = σ 2µ  . . 
     
. .   . .  . 1 
 γ 0   2
σµ   1
E (µµ' ) = σ 2µ Ω

Esta es la forma genérica de la matriz. Para distintos casos de autocorrelación tendremos


distintas matrices de E(µµ'). Para encontrar cada forma en particular debemos calcular los γi

EJEMPLO

Encontremos E(µµ') para el caso más común de autocorrelación que es


AUTOCORRELACION DE PRIMER ORDEN [AR(1)].

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
173

Esta ocurre cuando el residuo en un período es proporcional al residuo en el período


anterior más un residuo bien comportado⇒ µ i = ρ µ i−1 + ε i

µ i = ρ µ i −1 + ε i donde ε i ~ N ( 0, σ 2ε I)

Calculo de γ0
γ 0 = E(µ 2i ) = σ 2µ

µ i = ρ µ i−1 + ε i = ρ(ρ µ i− 2 + ε i −1 ) + ε i = ρ 2 µ i− 2 + ρ ε i −1 + ε i =
= ρ 2 ( ρ µ i− 3 + ε i −2 ) + ρ ε i−1 + ε i = ρ 3 µ i −3 + ρ 2 ε i− 2 + ρ ε i−1 + ε i = .....
= ε i + ρ ε i −1 + ρ 2 ε i− 2 + ρ 3 µ i− 3 .......
• E (µ i ) = E( ε i + ρ ε i−1 + ρ 2 ε i −2 + ρ 3 µ i −3 .......) = 0

E (µ i ) = 0 (i)
[
• E (µ 2i ) = E (ε i + ρε i −1 + ρ 2 ε i − 2 + … + )(ε i + ρε i −1 + ρ 2 ε i − 2 …) ]
[
= E (ε 2i + ρ 2 ε 2i−1 + ρ 4 ε 2i− 2 + … + ρ ε i ε i−1 + ρ 3 ε i −1 ε i− 2 … ]
= σ 2ε + ρ 2 σ 2ε + ρ 4 σ 2ε + … + 0 + 0 = σ 2ε (1 + ρ 2 + ρ 4 + … )
1
El segundo término es la suma de una progresión geométrica . S.P.G. = , por lo que
1 − ρ2
σ ε2
entonces, E (µ 2i ) = (ii)
1− ρ2

Por definición E (µ 2i ) = γ 0 = σ 2µ , por lo que (ii) implica:

σ 2ε
γ 0 = σ 2µ = (iii)
1− ρ 2

Calculo de γ1
γ1 = E( µ i , µ i−1 )
pero como:
µ i = ε i + ρ ε i −1 + ρ 2 ε i −2 + ρ 3 µ i− 3 .....

y µ i−1 = ε i−1 + ρ ε i− 2 + ρ 2 ε i− 3 + ρ 3 µ i − 4 .....


γ1 = E(µ i , µ i−1 ) =
[ ]
= E (ε i + ρε i−1 + ρ 2 ε i− 2 + ..)(ε i−1 + ρε i− 2 + ρ 2 ε i −3 ..) = E(ε i ε i −1 + ρε i ε i− 2 + .. + ρε 2i−1 + ρ 3 ε 2t− 2 + ρ 5 ε i2−3 + ..)
= E (ε i ε i−1 ) + ρE( ε i ε i− 2 ) + .. + ρE(ε 2i−1 ) + ρ 3 E(ε 2t − 2 ) + ρ 5 E( ε i2−3 ) + .. = 0 + 0 + .. + ρ σ 2ε + ρ 3 σ 2ε + ρ 5 σ 2ε ..
ρ σ 2ε
= ρ σ ε2 (1 + ρ 2 + ρ 4 + ……) =
1−ρ
2

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
174

ρ σ ε2
γ1 = (iv)
1 − ρ2
Por inducción:
σ 2ε
γ0 = = σµ2
1− ρ 2

σ 2ε ρ
γ1 = = ρ σ 2µ
1−ρ 2

M
σ ε2 ρ s
γs = = ρ s σ µ2
1− ρ 2

Entonces,
 σ 2ε σ 2ε σ 2ε 
 ρ ρ2 . 
  1 − ρ2 1− ρ2 1− ρ2
2
γ 0 γ1 γ2 . 
γ γ0   σε σ 2ε 
 1  ρ 1 − ρ 2 1− ρ 2 
E (µµ' ) =  . . = =
   . . 
. .   . . 
 γ 0   
 σε 
2

 1 − ρ 2 

1 ρ ρ 2 . 
 
ρ 1
σε 
2  σ ε2
=  . . = Ω = σ 2µ Ω
1− ρ2   1− ρ2
. . 
 1

γs σ 2µ
Recordar: r s = =ρ
s

s

σ 2µ σ 2µ

Con autocorrelación el supuesto E(µµ') = I se cambia por E(µµ') = σ2 Ω. En el caso AR(1),


Ω toma la forma que acabamos de derivar.
En otros casos de autocorrelación, se debe ver que forma toma Ω.
• AR ( 2) ⇒ µ t = ρ1µ t−1 + ρ 2 µ t −2 + ε t

• MA (1) ⇒ µ t = ε t + θ ε t −1

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
175

7.4 PROPIEDADES DE LA ESTIMACIÓN MICO BAJO


AUTOCORRELACIÓN
1. Estimando por MICO una regresión que presente autocorrelación en el residuo,
obtendremos un estimador cercano a la verdadera línea poblacional. Estimando en
repetidas muestras, el promedio del valor estimado estará sobre el verdadero valor, pero
la alta varianza de las distintas estimaciones llevará a que la varianza del estimador sea
mayor que la que obtendríamos con errores no correlacionados.
§ βˆ = ( X' X) −1 X' Y seguirá siendo insesgado, pero la varianza estimada será mayor
que la que podríamos obtener si ponderamos las observaciones (si aplicamos MCG)
e' e
§ σˆ 2 = subestima la verdadera varianza σ2 y esto hace que la varianza estimada
n−k
para una muestra V [ ]
ˆ (βˆ ) sea menor que la verdadera varianza. Por tanto, los test t
2

no son adecuados.

§ El R2 está sobreestimado.

2. Si se estima por MICO, pero se corrige la varianza asumiendo autocorrelación:


βˆ = β + ( X' X) −1 X' µ

[ ]
V(βˆ ) = E[(βˆ − β)(βˆ − β)'] = E (X' X) −1 X' µµ ' X ( X' X) −1 = σ 2 ( X' X) −1 X' Ω X ( X' X) −1
Si utilizamos esta varianza el estimador obtenido tampoco será un estimador eficiente .

3. Método Mínimos Cuadrados Generalizados (MCG)

Como vimos antes (heterocedasticidad), cuando no se cumple el supuesto clásico de


E(µµ’)=I, el estimador eficiente es MCG.
Este método consiste en realizar transformaciones a los datos de forma de conseguir
un error que sea bien comportado.
βˆ MCG = ( X' Ω −1 X) −1 X' Ω −1 Y

V(βˆ MCG ) = σ 2 ( X' Ω −1 X) −1 donde Ω −1 = T' T


Para el caso AR(1), donde µ t = ρ µ t−1 + ε t

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
176

1 ρ ρ 2 . 
 
ρ 1
σε 
2  σ ε2
E (µµ' ) = . . = Ω = σ 2µ Ω
1− ρ2   1− ρ 2

. . 
 1

1 −ρ 0 L 0
− ρ (1 + ρ) −ρ L 
 
Ω −1 = 0 −ρ (1 + ρ) − ρ 
 
 M M O M
 1

7.5 ¿CÓMO DETECTAR AUTOCORRELACIÓN?

Método gráfico:
el simple análisis de los residuos obtenidos puede confirmar la presencia de errores mal
comportados.
Estadístico de Durbin-Watson (1951)

Consiste en el cálculo del coeficiente d=


∑ (e − e
i i −1 )2
∑e 2
i

Este estadístico es calculado con los residuos de la regresión MICO y es usado para
testear autocorrelación de primer orden.
El test es válido bajo las siguientes condiciones:
1) En la regresión hay constante ⇒ ∑e i =0
2) La matriz X es no estocástica
3) Solo sirve para testear procesos AR(1).
4) No es válido cuando la variable dependiente está rezagada.

Derivación:

d=
∑ (e − e i i −1 )2
=
∑e 2
i + ∑ e 2i −1 − 2 ∑ e i e i−1
∑e 2
i ∑e 2
i

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
177

como ∑e ≅∑e
2
i
2
i −1

2 ∑ e 2i − 2 ∑ e i e i−1  ∑ e 2i ∑ e i e i−1 
 = 2 1 − ∑ i i−1 
 ee 
d≅ = 2 −
∑e 2
i ∑ i
 e 2
∑ e i   ∑ e 2i 
2


(*)

El término (*) corresponde a la estimación de ρˆ en un proceso


AR(1). Esto porque en AR(1) ⇒ rs = ρ s ⇒ r = ρ
γ1 cov( e i , e i −1 )
ρ= ⇒ ρˆ =
γ0 VAR ( e i )

ρˆ =
∑ (e − e)(e
i i −1 − e)
=
∑e e
i i −1

∑ (e − e )
i
2
∑e 2
i

 ∑ e i e i−1 
⇒ d = 2 1 −  = 2(1 − ρˆ )

 ∑ e i 
2

Entonces,
 ∑ e i e i−1 
d = 21 −  = 2(1 − ρˆ )
 e i2 
 

La hipótesis nula del test es que no existe autocorrelación


H0) No hay autocorrelación ≅ ρ = 0 ≅ d = 2

H1) Hay autocorrelación

El estadístico d no tiene una distribución conocida. Por eso Durbin y Watson tabularon la
distribución del test. Para cada valor de k y n (al 5% y al 1%) se obtienen dos valores
críticos: du y dL que permiten establecer zonas en que se rechaza la hipótesis nula, zonas
en que se acepta y zonas de indecisión

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
178

El criterio no decide El criterio no decide

dL dU 2 4-d U 4-d L

No hay Autocorrelación
Autocorrelación positiva Autocorrelación negativa

Supongamos DW indica errores de autocorrelacionados que hacemos? Estimamos por


MCG? Depende, esto puede deberse a una variable omitida, a una forma funcional
incorrecta o a falta de dinámica en la especificación. Solo si se ha verificado que el
error no se debe a ninguna de estas causas es necesario aplicar MCG.

§ Test H de Durbin

Sirve para testear autocorrelación cuando la variable dependiente rezagada se incluye


entre las explicativas.
Yi = β1 + β 2 Yi −1 + β 2 Yi −2 + … + β r Yi −r + β r +1 X1 …… β r + k X k
donde u i = ρµ i−1 + ε i

H0) ρ = 0

H1) ρ ≠ 0 solo es válido para muestras grandes

n
h = ρˆ
1 − n [var (βˆ 2 )]

n - tamaño muestral
ρˆ - estimación de ρ
var βˆ 2 - varianza del coeficiente asociado a Yt-1.

Bajo la hipótesis nula h ~ N (0, 1), por lo que:

P [ -1,96 < h < 1,96 ] = 0,95


por lo que si h calculado (bajo alguna estimación de ρ̂ ) es mayor en valor absoluto que
1,96 rechazo H0 al 5%.

Características de la prueba:

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
179

1. No importa cuantas veces está rezagada Yt, solo necesito la varianza del coeficiente
asociado a Yt-1.
2. La prueba no es válida si n var βˆ 2 > 1.

3. La prueba solo es válida si la muestra es grande.


Test de Breusch - Godfrey (1978)

Este test permite verificar autocorrelación de orden mayor que uno.

El modelo general al que se aplica al test es:


(*) Yt = β 0 + β1 Yt−1 + β 2 Yt− 2 + … + β r Yt− r + β r +1 X 1 + … + β r + k X k + µ t

donde r son los rezagos de la variable dependiente

La hipótesis nula es que no hay autocorrelación


H0) µ i ~ N (0, σ 2 I )

H1) µi presenta errores mal comportados.


Pasos
i) Se realiza la regresión (*) por MICO y se extraen los residuos ⇒ ei.

ii) Usando los residuos calculados en i) se realiza la siguiente regresión:


ei = f(ei-1, ei-2, ........, ei-p , Yi-1, Yi-2 ..........Yi-r, X1 ........ Xk)

iii) El estimador (n-p)R2 bajo la hipótesis nula se distribuye χ2,p , con lo que si

(n-p)R2 > χ2,p (α) se rechaza la hipótesis nula. Donde n es el tamaño de la


muestra de la regresión principal.

Ejemplo de utilización de los test en Eviews.

En E-Views podemos realizar fácilmente alguno de estos test. Para los datos del ejercicio
2.1.7 tenemos la siguiente salida:

LS // Dependent Variable is Y
Sample: 1 10
Included observations: 10
Variable Coefficient Std. Error t-Statistic Prob.
C 3.600000 2.090177 1.722342 0.1233
X 0.750000 0.255738 2.932692 0.0189
R-squared 0.518092 Mean dependent var 9.600000
Adjusted R-squared 0.457854 S.D. dependent var 1.837873

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
180

S.E. of regression 1.353237 Akaike info criterion 0.781855


Sum squared resid 14.65000 Schwarz criterion 0.842372
Log likelihood -16.09866 F-statistic 8.600683
Durbin-Watson stat 2.346416 Prob(F-statistic) 0.018920

Corresponde al valor calculado del estadístico de DW. Este valor hay que
contrastarlo con los valores de dU y dL de la tabla

k=2 (k’=1) n=10 ⇒ dU =1.32 , dL =0.879


El criterio no decide El criterio no decide

0.879 1.32 2 2.68 3.121

No hay Autocorrelación
Autocorrelación positiva Autocorrelación negativa

2.34

Por DW, no rechazo H0 (no rechazamos que ρ sea cero).

Breusch-Godfrey Serial Correlation LM Test:


F-statistic 0.245626 Probability 0.789711
Obs*R-squared 0.756792 Probability 0.684959

Test Equation:
LS // Dependent Variable is RESID
Date: 11/24/98 Time: 13:02
Variable Coefficient Std. Error t-Statistic Prob.
C -0.572430 2.461777 -0.232527 0.8239
X 0.076530 0.304399 0.251415 0.8099
RESID(-1) -0.301095 0.448296 -0.671642 0.5268
RESID(-2) -0.148734 0.428825 -0.346841 0.7406
R-squared 0.075679 Mean dependent var -4.22E-16
Adjusted R-squared -0.386481 S.D. dependent var 1.275844
S.E. of regression 1.502293 Akaike info criterion 1.103159
Sum squared resid 13.54130 Schwarz criterion 1.224193
Log likelihood -15.70518 F-statistic 0.163751
Durbin-Watson stat 2.006501 Prob(F-statistic) 0.916964

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
181

p=2, n=10

El estimador nR2 bajo la hipótesis nula se distribuye χ2,p , con lo que si

nR2 > χ2,p (α) se rechaza la hipótesis nula.


χ 22 (0.05 ) =5.9
nR2 =0.75
Por tanto no se rechaza la hipótesis nula (podíamos intuir este resultado por la falta de
significancia de los coeficientes asociados a los residuos).

7.6 FORMAS DE CORREGIR POR AUTOCORRELACION

7.6.1 Conozco la forma de la autocorrelación y conozco ρ

7.6.1.1 AR(1)
Sabemos que µ i = ρ µ i −1 + ε t y supongamos que conocemos ρ.

1 ρ ρ 2 . 
 
ρ 1
σε 
2  σ ε2
E (µµ' ) = . . = Ω = σ 2µ Ω
1− ρ2   1− ρ 2

. . 
 1

1 −ρ 0 L 0
 − ρ (1 + ρ) − ρ L 
 
Ω −1 =  0 −ρ (1 + ρ) − ρ 
 
 M M O M
 1

Sabemos que la regresión debe ser con los datos transformados, de forma que el residuo sea
bien comportado
Y = Xβ + µ µ t = ρ µ t −1 + ε t
TY = T X β + Tµ = T X β + v

Para que v sea bien comportado, se debe cumplir que T'T = Ω -1

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
182

Entonces, T debe ser igual a:

 1 − ρ2 0 L L0
 
 −ρ 1 0 L 0
T=  0 − ρ 1 0 0
 
 M M O O 0
 
 0 0 L − ρ 1

por tanto
 1 − ρ 2 Y1   1 − ρ 2 µ1   1− ρ2 
     
 Y − ρY  µ − ρµ   ε2 
 2 1
  2 1
  
 Y − ρY  µ − ρµ   ε3 
TY =  3 2  Tµ =  3 2 =  
 •   •   • 
 •   •   • 
 •   •   • 
 •   •   • 
 Yn − ρYn −1  µ n − ρµ n−1   εn 
 1− ρ 2 1 − ρ 2 X 12 ………… 1 − ρ 2 X 1k 
 
 
1 − ρ X 22 − ρX12 ………… X 2k − ρX 1k 
 
 • 
TX =  
 • 
 • 
 
 • 
1 − ρ X n2 − ρX n−1, 2 ……… X nk − ρX n−1, k 

Observación:

Si partimos de:

(1) Yi = β 1 + β 2 X i2 + …… + β k X ik + µ i

donde µi = ρ µi-1 + ε i

Entonces, para el rezago de (1) se cumple

(2) Y i−1 = β1 + β 2 X i −1, 2 + …… + β k X i −1, k + µ i −1

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
183

multiplicando (2) por ρ,

(3) ρYi−1 = ρβ1 + ρβ 2 X i −1, 2 + …… + β k ρ X i −1, k + ρµ i−1

Restando (1) - (3), tenemos:

(4)
Yi − ρYi−1 = β1 (1 − ρ) + β 2 ( X i2 − ρX i−1, 2 ) + …… + β k ( X ik − ρX i−1, k ) + µ i − ρµ i −1

εi

Correr la regresión (4), es muy parecido a aplicar el procedimiento anterior, con la


diferencia de la primera observación.

Este último método es más utilizado, pero menos eficiente para corregir autocorrelación.

7.6.1.2 AR(2)
µ i = ρ1 µ i−1 + ρ 2 µ i− 2 + ε i

§ Una alternativa es definir Ω, Ω -1, T y multiplicar TY = T X β + Tµ.

§ Otra forma es proceder como sigue,


(5) Yi = β 1 + β 2 X i2 + …… + β k X ik + µ i

Rezago (5)
(6) Y i−1 = β1 + β 2 X i −1, 2 + …… + β k X i −1, k + µ i −1

Rezago (6)
(7) Y i− 2 = β1 + β 2 X i−1, 2 + …… + β k X i− 2, k + µ i − 2

Multiplico (6) por ρ1 y (7) por ρ2


(8) ρ1 Yi −1 = β 1ρ1 + β 2 ρ 1 X i −1, 2 + …… + β k ρ1 X i−1, k + ρ1 µ i −1

(9) ρ 2 Yi− 2 = β1ρ 2 + β 2 ρ 2 X i − 2, 2 + …… + β k ρ 2 X i− 2, k + ρ 2 µ i − 2

Resto (5) - (8) - (9) nos queda,

(10)
Yi − ρ1 Yi−1 − ρ 2 Yi − 2 = β 1 (1 − ρ 1 − ρ 2 ) + β 2 ( X i 2 − ρ1 X i−1, 2 − ρ 2 X i − 2, 2 ) +
+ L + β k ( X ik − ρ1 X i−1, k − ρ 2 X i− 2, k ) + µ i − ρ1 µ i −1 − ρ 2 µ i− 2
donde el último término es ε i

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
184

Correr la regresión (10) dará un resultado aproximadamente igual.

Es decir que si conocemos la forma de la autocorrelación y los ρ, es fácil aplicar MCG y


obtener los parámetros, pero generalmente no conocemos ρ, entonces primero hay que
estimarlo y luego aplicar los métodos anteriores para calcular MCG.

7.6.2 . No conocemos ρ.

Hay métodos para calcularlos


7.6.2.1 Método de posiciones extremas

Como no conocemos ρ, podríamos partir de alguno de los dos casos extremos. Esto es
suponer que ρ = 1 o ρ = - 1.

§ Si ρ=1 la ecuación (4) nos queda,


Y i − Y i−1 = β 2 ( X i 2 − X i −1 ) + …… + β k ( X ik − X i−1, k ) + ε i

∆Yi = β 2 ∆X i2 + …… + β k ∆X ik + ε i

Es decir que hay que estimar con los datos expresados en primeras diferencias

§ Si ρ=-1 la ecuación (4) nos queda,


Y i + Y i−1 = 2β1 + β 2 ( X i 2 + X i −1, 2 ) + β 3 ( X i3 + X i−1,3 ) + … + ε i

Yi + Yi−1  X i2 + X i −1, 2   X i3 + X i −1, 3 


= β 1 + β 2   + β3 
 
 +… + ε i

2  2   2 
Es decir que hay que estimar con los datos expresados en promedios.

El problema de este método, es que si ρ≠1 o ρ≠-1 el remedio puede ser peor que la
enfermedad.
7.6.2.2 Método basado en estadístico d de Durbin y Watson
d ≅ 2 (1− ρˆ )

ρˆ ≅ 1 − d \ 2 → esto solo es válido si n es grande

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
185

7.6.2.3 Procedimiento iterativo de Cochrane - Orcutt


i. Se estima el modelo por MICO y se obtienen los residuos ei

ii. Estimamos por MICO la siguiente regresión:

e i = ρˆ e i −1 + v t
iii. con ρ̂ estimado, corregir los datos y correr la ecuación (4)

Yi − ρYi−1 = β1 (1 − ρ) + β 2 ( x i 2 − ρx i−1 ) + …… + β k ( x ik − ρx i−1,k ) + u i − ρu i −1

iv. como no sabemos si ρˆ es buena estimación de ρ, volvemos a la regresión


original utilizando los coeficientes estimados en la iii etapa y obtenemos e *i .

v. e *i = ρˆ e *i−1 + w t

con esta estimación de ρˆˆ , se vuelve a repetir desde la etapa iii.

El método es iterativo y se para cuando en dos corridas sucesivas los ρ

estimados difieren poco.


7.6.2.4 Método de Durbin

La ecuación (4) se puede escribir como:

Yt = β1 (1 − ρ) + β 2 X 2t − ρβ 2 X t−1 + ρYt −1 + …… + ε t

i) Partir de esta ecuación regresando Yt en Xt, Xt-1, ..., Yt y utilizar el valor

estimado del coeficiente de Yt-1 como estimación de ρ (el estimador es

segado, pero consistente).

ii) Luego de tener ρˆ , transformar los datos y correr la regresión (4).


7.6.2.5 Método de la malla - Hildreth y Lu.

Se define un conjunto de valores posibles de ρ (entre -1 y 1), donde los

intervalos entre los distintos valores de ρ son de 0,1.

Para cada ρˆ se corre la ecuación (4) y se computa la ∑ e 2i . Se elige el valor de ρˆ

que minimice la suma de cuadrados residuales (maximice R2).

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
186

8. ESP ECIF ICACION DE MODELOS


8.1 ATRIBUTOS DE UN BUEN MODELO

Un modelo que está bien especificado tiene los siguientes atributos:


§ Parsimonia: esto implica que hay que maximizar la explicación del fenómeno,
maximizando la simplificación.
§ Identificabilidad: dadas las observaciones los coeficientes estimados deben ser únicos.
§ Bondad del Ajuste: R2 alto, coeficientes correctos, etc.
Cuidado con Data Mining: Uso indiscriminado de variables con la única finalidad de
aumentar el R2 .
Ames y Reiter (1961) ⇒ en promedio el R2 de una regresión entre una variable
económica y su rezago es 0,7.
§ Plausibilidad Teórica : Coeficientes con signos correctos, etc. Implica consistencia
con el modelo teórico planteado.
§ Poder Predictivo: el R2 es un indicador del ajuste dentro de muestra.
Importa predecir fuera de muestra dentro y fuera del período.
§ Estabilidad de la Ecuación Estimada: inexistencia de cambio estructural (test de
Chow, CUSUM y CUSUM cuadrado)

8.2 TIPO DE ERRORES DE ESPECIFICACIÓN


§ Omitir una variable relevante (variables omitidas)
§ Inclusión de variables irrelevantes (variables intrusas)
§ Forma funcional incorrecta
§ Errores de medición.

8.3 CONSECUENCIAS DE LOS ERRORES DE ESPECIFICACIÓN.


8.3.1 Variables Omitidas
8.3.1.1. Introducción
Supongamos que por alguna razón no es posible estimar el verdadero modelo y se
estima uno alternativo:
Verdadero Modelo ⇒ Yi = β1 + β2 X2i + β3X3i + µi (*)
Modelo estimado ⇒ Estimación sin X3 ⇒ Yi = β1 + β2X 2i + vi (**)

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
187

Expresando (*) y (**) en desvíos:


y i = β 2 x 2 i + β 3 x 3i + (µ i − µ )

y i = β 2 x 2 i + (v i − v i )

Al estimar β̂ 2 de la segunda ecuación:

βˆ 2 =
∑x y = ∑x
2i i 2i (β 2 x 2i + β 3 x 3i + µ i − µ )
=
β 2 ∑ x 22i + β 3 ∑ x 2i x 3i + ∑ x 2i ( µ i − µ )
∑x 2
2i ∑x 2
2i ∑x 2
2i
β ∑x x + ∑ (µ i − µ ) x 2i
=β +
3 2i 3i

∑x
2 2
2i

β 3 ∑ x 3i x 2i
E (βˆ 2 ) = β 2 +
∑x 2
2i

Entonces se dan los siguientes casos:


§ Si x3 y x2 fueran ortogonales ∑x 3i x 2i = 0 ⇒ Insesgamie nto
§ En los demás casos hay sesgo y este es una función de la relación o covarianza
entre variable omitida y la incluida.
Ejemplo: Estimamos la demanda por algún bien y se omite el precio de un sustituto.

E (βˆ 2 ) = β2 + β 3 ∑x x 2 3

∑x 2
2

donde β 2 = coeficiente del precio "del bien" ⇒ esperamos signo negativo


β 3 = coeficiente del precio del sustituto⇒ esperamos signo positivo

∑x x 2 3
> 0, porque existe cierto gra do de asociación entre var iables .
∑x 2
2

( No Causalidad )
Luego, al estimar sin el precio del sustituto, el coeficiente estimado queda
sesgado y el sesgo es positivo.
8.3.1.2. Consecuencias
§ Si X3 esta correlacionada con X2 ⇒ ambos estimadores son sesgados
inconsistentes (es decir que el sesgo no desaparece para muestras grandes)
§ Si X2 y X3 no están correlacionados ⇒ el estimador de la pendiente es
insesgado, pero el del intercepto sesgado.
§ σˆ 2µ está mal estimado si omito variables

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
188

 e' e 
 > σµ → Sesgo
2
E
 N − ( k − r ) 
Esto porque e’e es mayor , mientras el efecto sobre el denominador es
marginal.
§ Como consecuencia del punto anterior la varianza de los estimadores es sesgada
V (βˆ ) = σˆ µ2 ( X ' X ) −1

mal estimada

§ Intervalos de confianza y pruebas de hipótesis incorrectas ⇒ conclusiones


erradas.
8.3.1.3. Test para detectar Variables Omitidas
§ Bondad de ajuste y plausibilidad teórica
R2 , t, signos de los coeficientes

§ Examen de los residuos: pueden presentar cierto patrón determinístico.

§ Prueba d de Durbin-Watson.
Si existe correlación positiva en los errores ⇒ significa que estos no son aleatorios y
que pueden estar asociados a alguna variable no incluida en el modelo.

Otra forma de Usarlo:


- Se corre el modelo original.
- Se obtienen los residuos.
- Si se piensa que se excluye una variable explicativa relevante,
ordenar los residuos según el orden ascendente de dicha variable.

Se calcula d = ∑
(e − e i i −1 )2
-
∑e 2
i

- Se compara el d con el d de tabla (con los grados de libertad


originales).
§ Prueba Breusch-Godfrey
§ Prueba Reset de Ramsey
- Se corre la regresión original ⇒ se obtienen los Ŷi ⇒ se extrae el

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
189

R2.
- Se vuelve a correr la regresión, introduciendo como variables
explicativas formas funcionales de
[ ]
Ŷi por ejemplo Ŷi2 , Ŷi3 , etc. ⇒ se obtiene R *2 .
- H0 ) Modelo Bien Especificado.
H1 ) Modelo Mal Especificado.

( R 2* − R 2 ) / Número de Variables Adicionale s


- F=
(1 − R 2* ) / n − Número Variables Modelo Nuevo

- Si F> Ftabla, rechazo H0 , por tanto rechazo que que modelo esté bien
especificado.

8.3.2 Inclusión de una Variable Irrelevante (Variables Intrusas)


Supongamos que Yi = β1 + β 2 X 2i + µ i sea el Modelo Verdadero pero se corre,
Yi = α 1 + α 2 X 2i + α 3 X 3i + v i , donde X3i es una variable intrusa.

Consecuencias
i ) Estimadores insesgados y consistentes
ii) σˆ 2µ se computa correctamente

 e'e 
E   ≅ σ 2µ esto porque la caída en e’e no es muy grande, porque la
 n ( k + s) 
variable
donde s es el NKO de Variables Intrusas.
Hay que distinguir "computar" de la estimación que se encuentra.
 e' e 
Se "computa" correctamente porque el estimador que se usa  sigue siendo
N −K
un estimador insesgado.
Puede haber, sin embargo, un error de estimación (pequeño) por agregar una
variable que no debía ir.
iii) Intervalos y pruebas de hipótesis son válidos.
iv) Pero la varianza estimada para los parámetros son más grandes que las del modelo
original.

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
190

σ2
v( βˆ 2 ) = (Modelo original)
∑ x22i
σ2
v( αˆ 2 ) = (Modelo estimado)
∑ x 22i (1 − 2
2,3 )

V(αˆ 2 ) 1
=
V(βˆ 2 )
2
1 − 2,3
v(αˆ 2 )
Como 0 ≤ r 22,3 ≤ 1 ⇒ > 1
v(βˆ )
2

Cuidado: De este análisis no se concluye que la introducción de variables


irrelevantes sea poco costosa.

Conclusión para Especificar Modelos


• Conviene siempre comenzar por un modelo general (que incluya todas las posibles
variables) e ir eliminando variables según los tests t.
Ello por cuanto la inclusión de variables irrelevantes no sesga la estimación de ? 2.
Econometría Inglesa: Se parte de un modelo general y se eliminan variables.
Econometría estadounidense: se parte de un modelo particular y se agregan variables.

Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004

You might also like