Apuntes de Econometria Gil PDF

ECONOMETRÍA
APUNTES
DE CLASE
Profesores:
Verónica Gil Aroztegui

Aldo Lema Navarro
Agosto 2004
Pontificia Universidad Católica de Chile
Estos apuntes están en permanente revisión por lo cual sugerencias o correcciones serán bienvenidas.
E-mails: vgila@afpprovida.cl y alema@security.cl
1
INDICE
1. INTRODUCCIÓN............................................................................................................................................ 1
1.1 ORÍGEN Y CONCEPTO ....................................................................................................................................1
Definiciones................................................................................................................................................................ 1
Diferencias entre un econometrista y un estadístico:......................................................................................... 2
1.2 MODELO ECONOMÉTRICO. .........................................................................................................................2
1.3 OBJETIVOS DE LA ECONOMETRÍA ...........................................................................................................3
1.4 METODO DE LA ECONOMETRÍA. ..............................................................................................................3
1.5 DATOS, VARIABLES Y MODELOS. ............................................................................................................5
DATOS. ....................................................................................................................................................................... 5
RELACIONES............................................................................................................................................................ 7
VARIABLES................................................................................................................................................................ 7
FORMAS FUNCIONALES (Introducción) ........................................................................................................... 8
A NEXO 1: RECORDANDO DE INFERENCIA .....................................................................................................................9
Variable Aleatoria..................................................................................................................................................... 9
Notación:..................................................................................................................................................................... 9
Distribución de Probabilidades.............................................................................................................................. 9
A NEXO 2: UN REPASO DE MATRICES .................................................................................................................11
3.1.1 Operaciones matriciales:.............................................................................................................................11
3.1.2 Valores y vectores propios...........................................................................................................................16
3.2 A LGUNOS EJERCICIOS DE M ATRICES..................................................................................................................19
3.2.1 Operaciones con matrices............................................................................................................................19
3.2.2 Determinantes...............................................................................................................................................19
3.2.3 Matriz Inversa ...............................................................................................................................................20
3.2.4 Valores y Vectores propios..........................................................................................................................20
2. REGRESIÓN SIMPLE..............................................................................................................................22
2.1 EL M ÉTODO DE MÍNIMOS CUADRADOS ORDINARIOS (MICO). .......................................................................22
2.1.1 Definición de análisis de regresión............................................................................................................22
2.1.2 Especificación de la Regresión Simple......................................................................................................23
2.1.3 Ejemplo:..........................................................................................................................................................23
2.1.4 Fuentes de Error µ ........................................................................................................................................25
2.1.5 Función de regresión poblacional y muestral.........................................................................................25
2.1.6. MICO para una regresión simple..............................................................................................................29
ˆ ˆ
2.1.7 Ejemplo de cálculo de β1 y β 2 ..................................................................................................................31
2.1.8 Expresión de las formulas en desvíos........................................................................................................32
2.1.9 Corolarios de los estimadores MICO. .......................................................................................................33
2.1.10. Coeficiente de determinacion (R2)..........................................................................................................38
2.1.11 Algunas Regresiones Particulares...........................................................................................................40
2.1.12. ¿Cómo seleccionar entre estimadores? .................................................................................................42
S
2.2 UPUESTOS CLÁSICOS DEL M ODELO DE REGRESIÓN. .....................................................................................45
1. La variable explicativa X está dada (es no estocástica o no aleatoria)..............................................46
2. E(µi /Xi)=0 ∀ i ...............................................................................................................................................46
3. No autocorrelación ⇒ Cov( µi , u j)=0 i≠j...............................................................................................46
4. Homocedasticidad ⇒ V(µi /Xi )=σ2...........................................................................................................48
5. El modelo está bien especificado...............................................................................................................49
6. Normalidad ⇒ µi ∼N( 0 , σ2 ) ..................................................................................................................49
Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004
2
2.3 P ROPIEDADES ESTADÍSTICAS DE LOS ESTIMADORES M ICO .............................................................................49

2.3.1 Linealidad.................................................................................................................................................50
2.3.2 Insesgamiento...........................................................................................................................................50
2.3.3 Eficiencia..................................................................................................................................................52
2.4 INFERENCIA ESTADÍSTICA EN EL M ODELO DE REGRESIÓN LINEAL SIMPLE ..................................................62
2.4.1 Repaso Breve de algunos teoremas de Inferencia...................................................................................62
2.4.2 ¿Qué Consecuencias tiene suponer µi ~ N(0, σ2 )? .................................................................................65
2.4.3 Intervalos de Confianza para β1 y β2 . ....................................................................................................67
2.4.4 Prueba de hipótesis......................................................................................................................................68
2.4.5 Recordando de inferencia:...........................................................................................................................70
2.4.6 Ejemplos de Test De Hipótesis....................................................................................................................71
2.5 A NALISIS DE VARIANZA.......................................................................................................................................76
Grados de Libertad.................................................................................................................................................78
2.6 P RUEBA DE NORMALIDAD......................................................................................................................................80
3. MODELO DE REGRESIÓN MULTIPLE ..........................................................................................................81
3.1 DEFINICIONES ...................................................................................................................................................81
• Modelo de regresión poblacional múltiple...............................................................................................81
• Modelo de regresión muestral múltiple....................................................................................................82
3.2 ESTIMADORES MICO ......................................................................................................................................84
3.2.1 Primera forma de derivación.....................................................................................................................84
3.2.2 Otra forma de encontrar β̂ ...................................................................................................................87
3.2.3 Deducción de los estimadores MICO en el modelo simple...................................................................89
3.2.4 Una interpretación de los estimadores MICO. ......................................................................................93
3.2.5 Corolarios de los Estimadores MICO ......................................................................................................95
3.3 SUPUESTOS CLÁSICOS.........................................................................................................................................101
Explicación.............................................................................................................................................................102
3.4 PROPIEDADES ESTADÍSTICAS DE LOS ESTIMADORES MICO..........................................................................105
3.5.1 Linealidad....................................................................................................................................................105
3.5.2 Insesgamiento..............................................................................................................................................105
3.5.3 Eficiencia......................................................................................................................................................105
3.5.4 Consistencia.................................................................................................................................................111
3.6 INFERENCIA EN EL M ODELO GENERAL...............................................................................................................112
3.6.1 Distribución de β̂ ......................................................................................................................................112
3.6.2 Distribuciones derivadas de µ...................................................................................................................112
e' e
3.6.3 Distribución de .................................................................................................................................113
σ2
3.6.4 Prueba de Hipótesis en el Modelo Múltiple............................................................................................115
3.5.5 Test General Para Probar Restricciones Lineales de Parámetros.....................................................117
3.5.6 Estabilidad y Cambio Estructural ............................................................................................................123
3.6 PREDICCION ......................................................................................................................................................131
• ¿Cuál es el valor esperado del error de predicción?...........................................................................132
• ¿Cuál es la varianza de e0 ?.......................................................................................................................132
• ¿Cómo se distribuye e0 ? ............................................................................................................................133
• Intervalo de confianza para el error de predicción..............................................................................133
• Intervalo de confianza para Y0.................................................................................................................134
4. VARIABLES FICTICIAS O DUMMY O BINARIAS O DICOTÓMICAS .............................................135

4.1 MODELOS ALTERNATIVOS. .......................................................................................................................135
Ejemplo 1: Unica Variable Explicativa es una variable dummy. .................................................................135
3
Ejemplo 2: Una variable cualitativa y otra cuantitativa................................................................................136

Ejemplo 3: Dos variables cualitativas...............................................................................................................137
Ejemplo 4: Interacción entre una variable cuantitativa y una cualitativa..................................................137
Ejemplo 5: Variables Cualitativas Politómicas...............................................................................................138
4.2 VARIABLES DUMMY PARA DESESTACIONALIZAR.........................................................................140
4.3 VARIABLES DUMMY PARA DETECTAR CAMBIO ESTRUCTURAL............................................143
4.4 VARIABLES DUMMY PARA CORREGIR OUTLIERS. ........................................................................145
5. MULTICOLINEALIDAD ....................................................................................................................................147
5.1 INTUICIÓN ..........................................................................................................................................................147
5.2 TIPOS DE MULTICOLINEALIDAD.............................................................................................................148
Multicolinealidad perfecta...................................................................................................................................148
Multicolinealidad imperfecta..............................................................................................................................150
¿Por qué importa el determinante?....................................................................................................................151
5.3 EFECTO DE LA MULTICOLINEALIDAD A NIVEL EMPÍRICO ........................................................152
En el modelo con dos variables explicativas...................................................................................................152
En el Modelo General...........................................................................................................................................152
Efectos prácticos de la multicolinealidad:........................................................................................................153
5.4 FORMAS DE DETECTAR LA MULTICOLINEALIDAD.........................................................................153
Por sus efectos sobre los test...............................................................................................................................153
5.5 FORMAS DE SOLUCIONAR LA MULTICOLINEALIDAD ...................................................................154
No hacer nada........................................................................................................................................................154
Incorporar información adicional......................................................................................................................154
6. HETEROCEDASTICIDAD ...................................................................................................................................157
6.1 ¿CÓMO SE AFECTAN LAS PROPIEDADES DEL ESTIMADOR MICO CUANDO EXISTE
HETEROCEDASTICIDAD? ....................................................................................................................................158
¿Qué ocurre si se estima por MICO sin tener en cuenta la heterocedasticidad?......................................160
6.2. M ÉTODO DE M ÍNIMOS CUADRADOS GENERALIZADOS................................................................................160
Derivación de MCG en el caso simple ..............................................................................................................162
Derivación de MCG en el caso múltiple...........................................................................................................162
6.3. ¿CÓMO DETECTAR LA HETEROCEDASTICIDAD? ..........................................................................163
• Naturaleza del problema:..........................................................................................................................164
• Método gráfico:...........................................................................................................................................164
• Prueba de Park............................................................................................................................................164
• Prueba de Glesjer .......................................................................................................................................164
• Goldfeld - Quant .........................................................................................................................................165
• Test de White. ..............................................................................................................................................166
6.4 ¿CÓMO SOLUCIONAR HETEROCEDATICIDAD? ..............................................................................166
Ejemplo en caso general......................................................................................................................................167
7. AUTOCORRELACIÓN.........................................................................................................................................169
7.1 INTRODUCCIÓN ................................................................................................................................................169
7.2 CAUSAS MÁS FRECUENTES DE AUTOCORRELACIÓN ....................................................................170
Ciclos o tendencias en las variables,.................................................................................................................170
Autocorrelación espacial,....................................................................................................................................170
Influencia prolongada de shocks:.......................................................................................................................170
Inercia:....................................................................................................................................................................170
Mala especificación..............................................................................................................................................170
Quiebre o cambio estructural..............................................................................................................................171
7.3 ALGUNAS DEFINICIONES .............................................................................................................................172
Autocovarianza ......................................................................................................................................................172
4
Coeficiente de Autocorrelación...........................................................................................................................172
EJEMPLO...............................................................................................................................................................172
7.4 PROPIEDADES DE LA ESTIMACIÓN MICO BAJO AUTOCORRELACIÓN ...................................175
7.5 ¿CÓMO DETECTAR AUTOCORRELACIÓN ?...........................................................................................................176
Método gráfico:.....................................................................................................................................................176
Estadístico de Durbin-Watson (1951)................................................................................................................176
Test de Breusch - Godfrey (1978).......................................................................................................................179
Ejemplo de utilización de los test en Eviews....................................................................................................179
7.6 FORMAS DE CORREGIR POR AUTOCORRELACION ......................................................................181
7.6.1 Conozco la forma de la autocorrelación y conozco ρ.....................................................................181
7.6.2 . No conocemos ρ...............................................................................................................................184
8. ESPECIFICACION DE MODELOS ...................................................................................................................186
8.1 ATRIBUTOS DE UN BUEN MODELO .........................................................................................................186
8.2 TIPO DE ERRORES DE ESPECIFICACIÓN................................................................................................186
8.3 CONSECUENCIAS DE LOS ERRORES DE ESPECIFICACIÓN. .........................................................186
8.3.1 Variables Omitidas......................................................................................................................................186
8.3.2 Inclusión de una Variable Irrelevante (Variables Intrusas)................................................................189
Conclusión para Especificar Modelos...............................................................................................................190
1
1. INTRODUCCIÓN
1.1 ORÍGEN Y CONCEPTO
Algunos economistas ⇒ Europa S. XIX
Otros ⇒ S. XX (como movimiento organizado)
1930 ⇒ fundación de la Sociedad Econométrica (Revista, 1933)
La Econometría se nutre de:

• Economía (“Teoría”)
• Matemáticas (“especificaciones” y “tools”)
• Estadística (“Técnicas”)
Definiciones.
• “Es lo que hacen los econometristas”
• Etimológicamente: “Economía Medida”
Sin embargo, este es un concepto vago, porque medir el PIB, el empleo, la oferta de
dinero, etc., no es econometría. El concepto es más amplio que este.
• Maddala:
“Es la aplicación de métodos estadísticos y matemáticos al análisis de los datos
económicos con el propósito de otorgar contenido empírico a las teorías económicas,
verificándolas o refutándolas”
• Kennedy:
“ Los desacuerdos permitirían escribir un paper”
La confusión proviene de que los econometristas son al mismo tiempo:
i) Economistas: interpretan (o crean teoría) para probar empíricamente.
ii) Matemáticos: formulan matemáticamente su teoría
iii) Estadísticos aplicados: buscando datos para sus variables y gastando horas
frente al computador tratando de estimar relaciones económicas y prediciendo.
iv) Estadísticos teóricos: aplicando su habilidad para desarrollar técnicas
estadísticas apropiadas a los problemas empíricos.
• La econometría no significa lo mismo que estadística económica, tampoco es lo que
conocemos como teoría económica, ni es la aplicación de las matemáticas a la
economía. Econometría es la unificación de estas tres áreas.
2
Diferencias entre un econometrista y un estadístico:

La preocupación del econometrista está en los problemas causados por la violación de
“supuestos estadísticos clásicos”; la naturaleza de las relaciones económicas y la falta de
“experimentos controlados”
1.2 MODELO ECONOMÉTRICO.
i) MODELO: representación simplificada de la realidad, recurriendo a un número

limitado de conceptos formalizados.
Críticas:
• Sobre-simplificación. El contra-argumento es que se puede partir con un modelo
sencillo y luego complicarlo.
• Supuestos poco realistas. Sin embargo, se podría argumentar como lo hace
Friedman, que lo importante no es cuán reales sean los supuestos, sino que tan
buenos son como aproximación al fenómeno a explicar.
• Se basa en un número limitado de “datos”
ii) MODELO ECONÓMICO, conjunto de supuestos que aproximadamente describen
el comportamiento de una economía (o de un sector)
Ej. La función de producción Cobb-Douglas, Y= A KαLβ , establece la relación
exacta, deterministica, que existe entre los insumos y el producto, basándose en una
serie de supuestos. Pero, si quisiéramos testear cuán bueno es este modelo para
explicar la evolución del PIB en Chile, tendríamos algunos problemas.
Sin importar lo sofisticado que sea nuestro modelo de producción, no nos servirá
para explicar hechos como la caída de la producción por inundación o sequía, los
momentos de huelga, etc.
Para poder testear este modelo, es necesario incorporarle elementos estocásticos.
Esto lo convertirá de un modelo económico en uno econométrico.
iii) MODELO ECONOMÉTRICO: es un set de ecuaciones de comportamiento
derivadas de un modelo económico que involucra:
- variables observables
- elementos estocásticos o shocks, que recogen errores de medición en las
variables observadas y factores que no pueden ser recogidos por el modelo.
Esto hace que la variable objetivo varíe no sólo porque lo hacen las variables
explicativas, sino por cierta aleatoriedad del comportamiento humano o del
contexto.
El modelo determinístico ⇒ Y= A KαLβ se transforma en
El modelo econométrico ⇒ Y= A KαLβ eµ
3
El término eµ será una variable aleatoria con determinadas propiedades que veremos
en el curso, por lo que deberemos especificar la distribución de probabilidad de µ y
las consecuencias de estas sobre la estimación.
1.3 OBJETIVOS DE LA ECONOMETRÍA
i) Formulación de modelos econométricos (o sea modelos económicos en una forma

testeable empíricamente). Objetivo: DESCRIPTIVO⇒ representar la realidad
Usualmente hay diversas formas de formular un modelo econométrico a partir de un
modelo económico ya que debe elegirse ⇒ forma funcional
⇒ especificación de la estructura
estocástica de las variables, etc.
ii) Estimar y testear los modelos con datos. Objetivo: INTERPRETAR.
iii) Usar los modelos con fines predictivos y de política.
De lo anterior se infiere que LA ECONOMETRIA

⇒ ¿Es una ciencia?
⇒ Aplicación de modelos estadísticos para intentar verificar modelos económicos que
representan el funcionamiento de la economía
1.4 METODO DE LA ECONOMETRÍA.

i) Diagrama que resume la Metodología de la econometría (Cuadro 1)
1. Teoría
Económica o
Modelo
Económico
3.Información 2. Modelo
apriori Econométrico 4. Datos
5. Estimación
del Modelo
6. Testeo de
Hipótesis
sugeridas por
el Modelo
Económico
7.Predicción y
Políticas
4
Para el ejemplo que veíamos antes:

1. Y=AK αLβ
3. Revisión de
resultados 2. Y=AK αLβ eµ 4. Conseguir
los datos de
obtenidos en PIB (Y) y
otros estudios 5. Estimación de α
Empleo (L)
similares, yβ del Banco
nacionales e Central.
internacionales 6. Verifico hipótesis Construir una
respecto a los serie de
parámetros. Ej: Test capital (K).
α+β=1
7. Predicción: dadas las estimaciones de K y L, cual será el PIB del

próximo año
ii) Críticas:
- Hay feedback entre 1 y 6 (no es cierto que sólo se “testean teorías”)
- Hay feedback entre 2 y 5 con 3 (también hay aportes en datos)
- Hay feedback entre 6 y 2 (como resultado de los test econométricos es posible
replantear modelos econométricos)
Por tanto hay retroalimentación (Cuadro 2)
Teoría Económica
Modelo Econométrico Datos
Estimación
Pruebas de Especificación y
examen de Diagnóstico
no
¿Es el modelo adecuado?
si
Prueba de alguna hipótesis
Uso del modelo para predicción y políticas
5
⇒ los resultados econométricos influyen en la teoría

⇒ del modelo econométrico hacia los datos
⇒ De los test de especificación hacia la revisión de la especificación del modelo.
¿Qué constituye un test para la teoría económica?

- Signos de los coeficientes son correctos. Problema: diferentes estudios
econométricos llegan a conclusiones contradictorias.
- El test más válido: “que una teoría económica genere mejores predicciones que
una alternativa”.
- Estabilidad de los coeficientes estimados (Crítica de Lucas).
- IMPORTANTE: La econometría no es un elemento para derribar teorías, sino
para conocer la realidad, y ver si los datos que tenemos se ajustar a la teoría.
- SI LOS DATOS NO SE AJUSTAN LO ÚNICO QUE SE PUEDE DECIR
ES QUE ESTOS DATOS NO VERIFICAN LA TEORÍA.
- Error muy común: concluir que la equivocada es la realidad, si esta no coincide
con el modelo.
- Sin embargo pueden haber ciertas fuentes de error en la elaboración del
modelo:
- El modelo no se ajusta a la realidad.
- Mala formulación del modelo
- No se dispone de buena cantidad y/o calidad de datos.
1.5 DATOS, VARIABLES Y MODELOS.

DATOS.
Hay tres tipos:
i. Datos de cross-section (sección cruzada): son observaciones de una variable para
varias unidades individuales en un momento de tiempo. Por ejemplo, la tasa de
crecimiento del PIB para el año 1991, para distintos países de América Latina.
1991
ARGENTINA 8.9
BOLIVIA 5.1
BRASIL 0.3
CHILE 6.8
COLOMBIA 1.8
ECUADOR 4.9
MEXICO 3.6
PARAGUAY 2.3
PERU 2.6
URUGUAY 3.2
VENEZUELA 9.7
6
ii. Datos de series temporales: son observaciones de una determinada variable a lo

largo de cierto período de tiempo. Por ejemplo en PIB del período 1976-1997
PIB de CHILE a precios constantes

(escala logarítmica)
17.6
17.2
16.8
16.4
16.0
15.6
60 65 70 75 80 85 90 95 00
iii. Pool-Data: es la mezcla de datos de cross-section y series temporales. Ejemplo:

tasas de crecimiento de varios países de América Latina en el período 1991-1995.
Un tipo especial son los datos de panel (Panel Data), donde a la unidad de corte
transversal se la sigue en el tiempo.
1999 2000 2001 2002 2003
Argentina -3.1 -0.5 -4.4 -10.9 8.4

Brasil 1.0 4.5 1.5 1.6 0.0
Colombia -4.5 2.8 1.4 1.5 3.3
Chile -1.0 4.4 2.8 2.1 3.5
México 3.5 6.9 -0.3 0.9 1.1
Perú 3.8 3.6 0.2 5.2 4.0
Venezuela -7.2 3.2 2.7 -8.9 -10.0
Ecuador -7.3 2.3 5.6 3.4 2.3
Guatemala 3.8 3.6 1.8 2.3 2.5
Rep.Dominicana 8.0 7.8 3.0 3.5 -3.0
Uruguay -3.2 -1.1 -3.1 -10.8 2.5
7
RELACIONES.
i) Uniecuacionales:
Es aquella en que la variable dependiente “está determinada” por variables
explicativas.
C= f(Y,r,G), donde C (Consumo) es la variable dependiente e Y(Ingreso) , r (tasa de
interés) y G (Gustos) las variables independientes.
ii) Multiecuacionales
Es cuando para explicar un fenómeno se requieren varias ecuaciones.
Ej: Consumo Durables =f(Ingreso Permanente, tasa de interés)
Consumo No Durables: f(Ingreso Transitorio)
El tratamiento de las ecuaciones puede ser en forma separada o conjunta.
iii) Ecuaciones simultáneas.
Es cuando dos o más variables vienen determinadas “simultáneamente” por un
cierto número de variables explicativas.
En los casos anteriores, el ingreso (Y) es “dado” para una familia individual, pero
en la economía como un todo no se puede considerar que el ingreso esté “dado”
Para un consumidor individual el precio de un bien viene “dado”. Para toda la
economía, los precios y las cantidades vienen determinadas simultáneamente por las
condiciones de oferta y demanda.
Qd = f (p,x)
Qs= f (p,z)
Qd =Qs
Donde Qd es la cantidad demandada, Qs es la cantidad ofrecida, X es la variable de
escala en la demanda (Ingreso) y Z es la variable de escala en la oferta (tecnología).
VARIABLES.
En general:
Variable dependiente: Y
Variables independientes: X1 , X2 ......Xk
Sin embargo, reciben también otros nombres:
Y X1 , X2 ......Xk
a) Predicha Predictores
b) Regresandos Regresores
c) Explicada Explicativas
d) Dependiente Independientes
e) Causada Causante
f) Endógena Exógena
g) Objetivo Control
8
La primera denominación surge de la posibilidad de efectuar predicciones. La terminología

de las letras b, c y d son las usualmente utilizadas cuando se habla de modelos de
regresión. En los estudios de causalidad se utiliza la expresión e). Se habla de variables
exógenas y endógenas cuando se quiere distinguir entre aquellas variables que se
determinan dentro del sistema (endógenas) y aquellas que se determinar fuera (exógenas).
Por ejemplo en modelos de gran escala para explicar la economía de un país las variables
exógenas son las determinadas fuera del país, como precios internacionales, tasas de
interés, movimientos de capitales, etc.
En problemas de control, se utiliza g). Por lo general las objetivo son aquellas que se desea
influenciar.
FORMAS FUNCIONALES (Introducción)
i) Lineal ⇒ C= α + βY
ii) Log-Lineal ⇒ ln C= α + β ln Y
También se le llama Doble Logarítmica. Elasticidad Constante.
iii) Semi-logarítmica ⇒ ln C= α + β Y ⇒Elasticidad Variable
iv) Lineal-Recíproco ⇒ C=α + β (1/Y)
v) Log-Recíproco ⇒ ln C= α +β (1/Y)
vi) Lineal Log ⇒ C=α +β lnY
En iv y v, la relación entre C e Y no es lineal.
¿Qué significa linealidad?

i) En las variables: la relación entre la variable dependiente y las variables
independientes es lineal. Y= α +β X
ii) En los parámetros: la relación es lineal en β por ejemplo, si dicho coeficiente
aparece con potencia 1 y no está multiplicado ni dividido por otro parámetro.
Y= α +β X (lineal en variables y parámetro β)
Y= α +β (1/X) (lineal en parámetro, pero no en las variables).
Cuando se habla de linealidad en este curso se hace referencia a la LINEALIDAD EN

LOS PARÁMETROS.
TAREA: de los modelos anteriores determine cuáles son lineales en los

parámetros, en las variables o en ambos.
9
ANEXO 1: RECORDANDO DE INFERENCIA

Variable Aleatoria
Una variable aleatoria es una función que asocia un número real a cada elemento de un
espacio muestral.
En particular X es una V.A si para cada numero real a, existe una probabilidad P(X≤ a) de
que X tome un valor menor o igual que a.
Notación:
• X,Y,Z para variables aleatorias, x,y,z para los valores particulares que toman las
variables aleatorias X,Y,Z.
• P(X=x) es la probabilidad de que la variable aleatoria X, tome el valor x.
• P(x1 ≤ X≤ x2 ) es la probabilidad de que la variable X tome valores entre x1 y x2 .
Hay dos tipos de variables aleatorias:

i) Variables aleatorias discretas:
Si la variable aleatoria toma un conjunto finito de valores o un conjunto “contable”
de valores infinitos.
Ej: el número de clientes que arriban en una hora a una tienda.
ii) Variables aleatorias continuas
Si en un cierto rango pueden adoptar infinitos valores. Ej. Ingreso de una familia en
Chile.
Distribución de Probabilidades.
Discre ta: Lista de los posibles valores que una variable aleatoria discreta puede tomar
conjuntamente con sus probabilidades asociadas.
Ej. X es el número que sale en la cara superior al tirar un dado.
x P(X=x)
1 1/6
2 1/6
3 1/6
4 1/6
5 1/6
6 1/6
10
Continua: se le denomina “función densidad”: f(x)

b
P (a ≤ X ≤ b ) =
∫ f ( x ) dx
a
Las probabilidades se discuten solo para intervalos, no para valores concretos. La

probabilidad de obtener un valor exacto es cero.
Las variables aleatorias continuas son una creación muy útil. Dentro de ellas la más
1 2
1 − (x −µ )
f (x ) = 2σ 2
e
σ 2π
utilizada es la normal, que tiene la siguiente función densidad:
f(x)
µ
X
Donde µ es la media y σ es el desvío estándar.
Tarea:
• Revisar INFERENCIA
• Leer Apéndice A de Gujarati.
11
ANEXO 2: UN REPASO DE MATRICES1
DEFINICIÓN: una matriz es un arreglo rectangular de elementos aij donde i representa la

fila en que se encuentra el elemento y j representa la columna en que se encuentra. El orden
de una matriz es la cantidad de filas y columnas que esta tiene. Por ejemplo, la matriz
1 3 4 
A=   , se dirá que es de orden 2×3. El elemento a21 =2
 2 1 − 3
3.1.1 Operaciones matriciales:
• Igualdad
A=B, si aij=bij
• Transposición
La traspuesta de la matriz Am×n , es una matriz A’n×m, que tiene por filas las columnas de
A.
Propiedades:
⇒ (A′)′=A
⇒ (A+B)′=A′+B′
⇒ (AB)′=B′A′
⇒ (αA)′=αA′, si α es un escalar y A una matriz.
⇒ Si A=A′, entonces se dice que A es simétrica.
• Suma y Resta
Sea Am×n y Bm×n , entonces Cm×n =A+B es tal que cij=aij+bij
Sea Am×n y Bm×n , entonces Dm×n =A-B es tal que dij=aij-bij
Propiedades:
⇒ A+B+C=A+(B+C)=(A+B)+C
⇒ A+B=B+A
1
Este anexo repasa solamente algunas propiedades de matrices. Mas detalles en:
• Econometría. Alfonso Novales. Segunda Edición. Capítulo 1
• Métodos de Econometría. J. Johnston. Capítulo 4
• Introducción a la Econometría. G.S. Maddala. Segunda edición. Apendice al Capítulo 2.
12
• Producto de matriz por escalar

Sea Am×n una matriz y α una constante, entonces Bm×n =αA, es tal que bij= α aij
• Producto de matriz por matriz
Sea Am×n y Bp×q , el producto AB solo se puede calcular si n=p (matrices conformables),
Cm×q=AB es tal que cij se obtiene multiplicando elemento a elemento de la fila i-esima
de A por la columna j-esima de B y sumando estos productos. Es decir
n
c = ∑ a b .
ij is sj
s =1
Propiedades:
⇒ AB ≠ BA
⇒ La única matriz que se puede multiplicar por si misma es la matriz cuadrada.
⇒ Si AA=A se dice que A es idempotente.
n
⇒ Si An×1 , entonces A′A es un escalar igual ∑a 2
i , mientras que AA′ será una matriz
1
cuadrada y simétrica de orden n×n.
⇒ A(BC)=ABC=(AB)C
⇒ A(B+C)=AB+AC
• Traza
La traza de una matriz cuadrada es igual a la suma de los elementos de la diagonal
principal.
Propiedades:
⇒ Tr(A+B)=Tr(A)+Tr(B)
⇒ Tr(ABC)=Tr(CAB)=Tr(BCA)
• Matriz identidad.
Se denota como In a la matriz cuadrada de orden n, que tiene elementos 1 en la
diagonal y cero en el resto.
 1 0
I2 =  
0 1
Propiedades:
13
⇒ Sea Am×n , luego, ImA=AIn =A
• Diferenciación Matricial
 ∂[f ( b) ]
 ∂b 
 1 
 ∂ [f ( b) ]
∂[f (b )]  ∂b 2 
=
. 
Si bn×1 , entonces
∂b  
 . 
 ∂[f ( b) ]
 ∂b 
 n 
Ejemplos:
∂[a ' b]
⇒ =a
∂b
∂[b' Ab ]
⇒ = 2 Ab
∂b
∂[2Ab ]
⇒ = 2A
∂b
• Determinante de una matriz
El determinante es una función que asocia un número real a una matriz cuadrada.
Procedimiento de Laplace:
1. Elija cualquier fila o columna de una matriz y para cada uno de los elementos
calcule el cofactor. El cofactor de un elemento aij será cij=(-1)i+jMij.
2. Mij (matriz menor) es el determinante de la matriz que surge de eliminar la fila i y la
columna j de la matriz original.
3. Multiplique cada elemento aij de esa fila (o columna) por su cofactor cij
n
4. Determinante de A=|A|= ∑a
j=1
ij c ij ∀ i
Ejemplos:
14
a a 12 
1. A =  11  A = a 11c 11 + a 21c 12
 a 21 a 22 
c11 =(-1)1+1 M11 =(-1)2 (a22 )=a22
c21 =(-1)2+1 M21 =(-1)3 (a12 )= -a12
A = a 11a 22 + a 21 ( −a 12 ) = a 11a 22 − a 21a 12
 2 −1 3 
 
2. A=  3 0 − 5  A = 2c 11 + 3c 21 + 2c 31
2 1 1 
 
0 −5
1+1 2
c11 =(-1) M11 =(-1) 1 1 =5
−1 3
c21 =(-1)2+1 M21 =(-1)3 1 1 =(-1)(-1-3)=4
−1 3
3+1 4
c31 =(-1) M31 =(-1) 0 − 5 =5
A = 2(5) + 3( 4) + 2(5) = 32
Propiedades:
⇒ A = A'
⇒ Intercambiar 2 filas (o columnas) cambia el signo del determinante

⇒ Si una fila de un determinante se multiplica por k, el determinante queda
multiplicado por k.
⇒ La adición de un múltiplo de una fila a otra no altera el valor del determinante.
⇒ Si una fila (o columna) es combinación lineal de otra fila (o columna) el
determinante de la matriz es cero. Una matriz con determinante cero se denomina
singular.
• Matriz inversa
Dada la matriz cuadrada An , A −n1 es su matriz inversa si A n A −n1 = I n
Procedimiento de calculo:
15
( A c )' matriz de cofactores transp uesta

A −1 = =
A determinant e de A
La matriz de cofactores se forma de sustituir cada elemento de la matriz por su
correspondiente cofactor cij. Donde cij=(-1)i+j Mij , siendo Mij (menor) el determinante
de la submatriz que se forma cuando a la matriz A se le elimina la fila i y la columna j.
Ejemplo:
1 0 0
 
A = 0 0 1 A = 1c 11 + 0c 21 + 0c 31 = 1
0 1 0
 
0 1
c11 =(-1)1+1 M11 =(-1)2 1 0 =-1
A = ( −1)
 0 1 0 1 0 0 
 (1)  ( −1)  (1)  
 1 0 0 0 0 1  
 0 0 1 0 1 0 
 ( −1)  (1)  ( −1)   '
 1 0 0 0 0 1    (1)( −1) ( −1)( 0) (1)( 0) 
 
 0 0 1 0 1 0    ( −1)( 0) (1)( 0) ( −1)(1) '
 (1)  ( −1)  (1)  
(A c )'  0 1 0 1 0 0    (1)( 0) (−1)(1) (1)( 0) 
= = =
A −1 −1
 −1 0 0   −1 0 0
   
0 0 − 1'  0 0 −1
 0 −1 0   0 − 1 0   1 0 0 
=  = = 0 0 1
 
−1 −1  0 1 0
 
Propiedades:
⇒ ¿Siempre existe A −1 ? No, la matriz A debe ser cuadrada y no singular
⇒ ( A −1 ) − 1 = A
⇒ La inversa (si existe) es única.
⇒ ( AB) −1 = B −1 A −1
⇒ ( A' ) −1 = (A −1 )'
16
• Rango de una matriz

Una matriz Am×n puede interpretarse como una colección de m vectores fila de
dimensión n, o como una colección de n vectores columna de dimensión m. Entonces,
podemos hablarse de filas linealmente independientes (LI) o linealmente dependientes
(LD).
Se denomina rango de la matriz al máximo número de columnas (o filas) LI.
Propiedades:
⇒ El número máximo de filas LI es igual al número máximo de columnas LI
⇒ Rango (Am×n )=min (m,n)
⇒ Rango A=Rango A’
⇒ Si rango Am×n =m=n, entonces A es no singular y su inversa existe y es única.
3.1.2 Valores y vectores propios

Dada una matriz cuadrada An , entonces existe una constante λ y un vector x (no nulo), tal
que satisfacen la siguiente ecuación:
Ax=λx y que reciben el nombre λ= valor propio de A
x= vector propio de A
Ax=λx es una ecuación que tiene implícita dos incógnitas, un vector y un escalar. Las
soluciones vendrán en parejas, a cada λ le corresponde un vector x
Procedimiento de cálculo:
Ax=λx
Ax-λx=0
(A-λI)x=0
Si A-λI es no singular, entonces la única solución a la ecuación anterior es la trivial (x=0).
Entonces, para que la solución sea no nula, el determinante de A-λI debe ser igual a cero.
A esta se le conoce como ecuación característica y tiene n soluciones a las que se denomina
valores propios. Para cada valor propio existe un vector propio que se obtiene sustituyendo
el valor de λ en la ecuación (A-λI)x=0.
Ejemplo:
0 1
A= 
0.5 0.5
i) Encontramos los valores propios de la matriz A:
Debemos resolver: det( A-λI)=0
17
−λ 1
= (-λ)(0.5-λ)-0.5= -0.5λ+λ2 -0.5 =0
0. 5 0. 5 − λ
0.5 2 − 4( −0.5) 1
0.5± =(0.5±1.5)/2= 
2 −0.5
Los valores propios son 1 y –0.5
ii) Vectores propios:

♦ Para λ=1 (A-λ1 I)x 1 =0 (A-(1)I)x=0
 −1 1  a  0
0.5 − 0.5  b = 0
    
-a+b=0 ⇒ a=b
0.5a-0.5b=0 ⇒ a=b
Dado que las dos ecuaciones son iguales el vector propio es un vector genérico
a  a 
x 1=   =  
b  a 
Cualquier vector que tenga dos componentes que sean iguales verifica esta
ecuación. En particular se puede normalizar el vector haciendo que su longitud sea
1, es decir, haciendo que a2 +b2 =1
 1 
 
1  2
Luego, a=b= con lo que x 1 =  
2  
 1 
 
 2
♦ Para λ=-0.5 det(A-λ2 I)x 2 =0 (A- 0.5I)x 2 =0
0.5 1 c  0 
0.5 1 d  = 0 
     
0.5c+d=0 c= -2d
05c+d=0 c= -2d
 c   − 2d 
x 2 =   =   =
 d  d 
Normalizando tenemos dos ecuaciones: c2 +d2 =1 y c= -2d , con lo que:
(-2d)2 +d2 =1 ⇒ 4d2 +d2 = 1 ⇒ 5d2 =1 ⇒ d = 1 / 5
18
c= -2d ⇒ c = −2 / 5
− 2
 
c  5
x 2 =   = 
 d  1 
 
 5
Propiedades:
⇒ Los valores propios de una matriz simétrica son reales.
⇒ Los vectores propios correspondientes a distintos valores propios de una matriz
simétrica son ortogonales entre si. Es decir que su producto es cero. x1' x2 = 0
⇒ Sea B una matriz que tenga por columnas los vectores propios de A y D una matriz que
tiene los valores propios en la diagonal y cero en el resto.
 | | |   λ1 0 0
   
 | | |  0 λ2 0
B=  x 1 x2 . . x n y D=  0
 0 . 0
   
 | | |  0 0 . 0
 |  0 λ n 
 | |   0
La propiedad anterior asegura que B’B= BB’=In , esto implica que B’ es la inversa de B
(B es ortogonal).
⇒ B ' AB = D , es decir que la matriz B (de vectores propios) diagonaliza a A.

⇒ Si A es una matriz simétrica, definida positiva, existe una matriz no singular P tal que
A=P’P
⇒ La suma de los valores propios de una matriz A es igual a la traza de A
⇒ El producto de los valores propios de una matriz A es igual al determinante de A
⇒ Una matriz es singular si y solo si al menos un valor propio es cero.
⇒ El rango de una matriz es igual al número de valores propios no nulos de ella.
⇒ Los valores propios de la matriz A2 son el cuadrado de los valores propios de A.
⇒ Los valores propios de A-1 son los inversos de los valores propios de A, los vectores
propios son los mismos que los de A.
⇒ Los valores propios de una matriz idempotente son cero o uno.
⇒ El rango de una matriz idempotente es igual al número de valores propios iguales a 1 e
igual a su traza.
19
⇒ Sea una matriz A de orden m, definida positiva, y P una matriz de m×n, de orden m, el
producto P’AP es una matriz definida positiva.
⇒ Los elementos de la diagonal principal de una matriz definida positiva son estrictamente
positivos, mientras que los elementos de la diagonal principal de una matriz
semidefinida positiva son no negativos.
2
3.2 ALGUNOS EJERCICIOS DE MATRICES
3.2.1 Operaciones con matrices
a) Dadas los siguientes matrices,

3 8 0  −4 
3 5 8     
A =  B = 2 1 4  C=  2 
4 0 2    
3 2 1   −1
Calcular: (ABC), (CÀ`); (AC)` ; (B`C)` ; (C`B)
b) Dadas las matrices:

1 3 4  10 2 0 
   
A =  2 0 7 B = 7 1 3 
   
5 6 9  4 5 6 
Calcular (A+B); (A-B); (4A+7B)
3.2.2 Determinantes
a. Dadas las matrices cuadradas:
1 0  4 1 1 2
A =  B =  C =  
 3 1 0 2 2 1 
Comprobar:
A. B = A . B
A. B. C = A . B . C
2
Recomendables para quienes el tema de matrices resulte nuevo o olvidado.
20
b. Dada la siguiente matriz cuadrada:

1 0 1 
 
A =  2 3 0
 
 0 4 1
A = A'
Comprobar: probar con k=2
kA = k n A
c. Calcular los siguientes determinantes:

a 0 1
A= 1 a 0
0 1 a
2 1 1 x
1 2 1 y
B=
1 1 2 z
1 1 1 t
3.2.3 Matriz Inversa
a. Hallar la inversa de las siguientes matrices:
 2 −2 3 3 1 1 
   
A = 1 0 −3  B = 1 2 2 
   
3 4 0  1 2 4 
b. Dadas tres matrices A, B y C cuadradas cualquiera, verificar:
(ABC)-1 = C-1 B-1 A-1
3.2.4 Valores y Vectores propios.
a) Encontrar los valores y vectores propios de:

3 0 4 
 
A = 1 1 2  y mostrar que
1 − 2 2 
 
21
i) la suma de las raíces características (valores propios) es igual a la suma de

los elementos de la diagonal de A
ii) el producto de las raíces características es igual al determinante de A.
b) Dada la matriz:
1 4 
A= 
1 1 
i) Encontrar los vectores propios de A
ii) Calcular A2 y comprobar que λ2 es un valor propio de A2 .
iii) Calcular A-1 y comprobar que 1/λ es un valor propio de A-1
c) Dada la siguiente matriz:
2 1
A = 
1 2
i) Encontrar los valores y vectores propios
ii) Probar que x1 es ortogonal a x2 ⇒(x1 ’x2 )=0
iii) Formar B y D y probar que el determinante de A es igual al determinante

de D (es obvio?), que el rango de A es igual al rango de D y que A y D
tienen la misma ecuación característica.
iv) Probar que B diagonaliza A⇒ B’AB=D
1 1
 
1
d) Dado que X= 
1
2
1  [ ]
, calcular A= I 4 − ( X(X' X) −1 X' ) . Demostrar que A es idempotente
 
1 3 
y determinar su rango. Calcular los valores propios de A y obtener la matriz que
diagonaliza a A.
22
2. REGRESIÓN SIMP LE
2.1 EL MÉTODO DE MÍNIMOS CUADRADOS ORDINARIOS
(MICO).
2.1.1 Definición de análisis de regresión.

Se vincula a la descripción y evaluación de la relación entre una determinada variable
(dependiente o explicada) y una o más variables denominadas explicativas o
independientes.
Significado del término de regresión (Francis Galton, 1886): la estatura promedio de los
niños que nacían de padres con una determinada estatura tendía a moverse o “regresar”
hacia la altura promedio de la población total. Ello aún cuando existía una tendencia a que
los padres altos tuvieran hijos altos y padres bajos tuvieran hijos bajos. Galton dijo que
existía una “regresión a la mediocridad”.
Actualmente se denomina regresión al estudio de la dependencia de una variable (la

variable dependiente) de una o más variables (las explicativas) con la perspectiva de
estimar y/o predecir el valor poblacional medio de la primera en términos de los valores
conocidos de las segundas.
Y = f (X 1 , X 2 ,....., X k )
Si k=2 ⇒ Regresión Simple

Si k>2 ⇒ Regresión Múltiple
Donde en general X1 no representa una variable, sino que es una columna de “unos” que
permitirá calcular la constante del modelo.
Ej. Y = gasto en consumo de una familia

X2 = ingreso de la familia
X3 = activos financieros de la familia
X4 = tamaño de la familia
Objetivos del Análisis de Regresión:

⇒ Predecir el valor poblacional medio de Y dado los valores fijos de las X
⇒ Analizar los efectos de políticas que alteren las X
⇒ Saber si las X tienen o no efectos sobre la Y (y si estos efectos son significativos).
23
2.1.2 Especificación de la Regresión Simple.

Antes habíamos hablado de relación entre variables dependientes e independientes.
Y= f (X)
Esta puede ser de dos tipos:
i) determinística o matemática.
De este tipo de relación se preocupa la economía matemática.
Ej: Y=1+X
Y queda determinada exactamente dado el valor de la variable X.
ii) estocástica o estadística

De este tipo de relación se preocupa la Econometría. Para valores de X no podemos
determinar Y en forma exacta, sino probabilísticamente.
Y=1 + X+ µ
Donde µ, conocido como RESIDUO, es una variable aleatoria. Representa la
ignorancia residual, por lo tanto podemos atribuirle las propiedades más
convenientes al problema en cuestión.
2.1.3 Ejemplo:
Relación deterministica
Y=K 0.3 L0.7
0 .3
Y K 0. 3L0.7 1 K
Divido entre L, = = K 0.3 L−0.3 = K 0.3 0.3 =  
L L L L
Aplico logaritmo: LN(Y/L) =0.3 LN(K/L)
Dados los valores de K/L (relación capital/trabajo), existe un único valor de producto por trabajador
(Y/L).
7
LN(K/L) LN(Y/L) Y/L
6
12 3.6 36.6
5
14 4.2 66.7
LN (Y/L)
4
20 6 403.4
3
5 1.5 4.5
2
10 3 20.1
1
0
0 5 10 15 20 25
LN (K/L)
24
Relación estocástica
Y=K 0.3 L0.7 eµ
Y K0.3L0.7e µ
0 .3
1 K
Divido entre L, = = K0.3L− 0.3eµ = K0.3 0.3 e µ =   e µ
L L L L
Aplico logarítmo: LN(Y/L) =0.3 LN(K/L) + µ

Ahora el valor final de LN(Y/L) no depende solamente del valor de LN(K/L) sino también del valor
de µ. Sabemos que µ es una variable aleatoria, pero aún no conocemos su distribución.
Supongamos que µ tiene la siguiente distribución:
 + 1 con probabilid ad de1/2
µ=
 - 1con probabilid ad de 1/2
Entonces para cada valor de K/L tendríamos dos valores posibles de Y/L
7
LN(K/L) LN(Y/L) si µ=1 LN(Y/L) si µ=-1
6 X Y Y
5 12 4.6 2.6
LN (Y/L)
4 14 5.2 3.2
3
20 7 5
2
5 2.5 0.5
1
10 4 2
0
0 5 10 15 20 25
LN (K/L)
Supongamos ahora que µ es una variable aleatoria continua que tiene
una distribución normal estandarizada (con esperanza cero y varianza 1). Entonces por cada valor
de K/L tendremos infinitos valores para Y/L, dependiendo del valor de µ. El gráfico que
obtendríamos sería algo similar a esto:
Valor posible de LN(Y/L) para un valor dado de

K/L
La relación entre LN(Y/L) y (K/L), ahora es

estocástica.
25
En términos generales en econometría tendremos relaciones estocásticas entre la variable

dependiente (Yi) y la explicativa (Xi).
Yi=α+βXi+µ tiene dos componentes

⇒ componente determinístico: α+βXi,
donde α y β son los parámetros o coeficientes de la regresión. Sus valores
serán estimados a partir de los datos disponibles para X e Y.
⇒ componente estocástico: µ
2.1.4 Fuentes de Error µ
i) Elementos impredecibles y aleatorios en las respuestas humanas.

Por ejemplo Consumo=f(ingreso), pero las personas no siempre responden de igual
forma para iguales valores del ingreso.
ii) Variables Omitidas:
En el término de error se resume la incapacidad de identificar la influencia de ciertas
variables o en otros casos imposibilidad de representarlas en valores (por ser de
difícil cuantificación).
iii) Errores de medida en la variable dependiente.
Cuidado: estos errores de medida tienen ciertos problemas que estudiaremos más
adelante.
2.1.5 Función de regresión poblacional y muestral.

Dado que el objetivo del análisis de regresión es estimar o predecir el valor medio o
promedio (poblacional) de la variable dependiente basándose en los valores fijos o
conocidos de las variables explicativas, distinguiremos algunos conceptos.
Función de Regresión Poblacional (FRP):

es la recta que surge de unir las esperanzas condicionales de la variable dependiente para
los valores fijos de la variable explicativa.
Dado que para cada Xi, existe una población de
valores de Y, se puede calcular la esperanza
condicional de los valores de Y, condicional a cada
Xi. A la unión de las esperanzas condicionales se le
denomina FRP.
26
Del gráfico podemos concluir que E(Y/Xi) es una función de Xi, y esa será una función
lineal de Xi. Recordar: la linealidad puede ser en las variables y en los parámetros.
Lo que nos interesa es que la relación sea lineal en los parámetros.
E (Y / X ) = β + β X 2 → es lineal en parámetros , no en las variables

i 1 2 i
E (Y / X ) = β + β X 2 → no es lineal ni en los parámetros , ni en las variables
1 1 2 i
Modelos Linealizables:
β
E (Y / X ) = β X 2
i 1 i
ln E(Y/Xi) = ln β 1 + β 2 Xi
No Linealizables
β X
E (Y / X ) = β1 + β 2 e 2 i
i
Qué forma tiene esta función?

Para saberlo hay que recurrir a la teoría, pero podría ser por ejemplo E(Y/Xi)= β 1 +β 2 Xi
Existe una relación lineal entre Xi y E(Y/Xi), en el caso del gráfico esta relación es
positiva. Pero, ¿cómo es la relación entre cada Yi y el Xi correspondiente?
Para cada Xi dado, un Yi en particular se desvía de la E(Y/Xi), por un término de error, µi.
Es decir, µi= Yi - E(Y/Xi) o

Yi= E(Y/Xi) + µi ,
Por lo que Yi= β 1 +β 2 Xi+ µi
Para el ejemplo que veíamos antes:

Ln (Y/L) = β 1 +β 2 Ln (K/L) + ui, lo que indica que para encontrar cada valor particular de
producto por trabajador debo sumar dos componentes, el primero representa el promedio de
producto obtenido dado el nivel de capital utilizado [β 1 +β 2 Ln (K/L)], el segundo que
indica cuánto hay que sumarle o restarle a ese promedio para alcanzar el valor de Y/L
particular.
27
Función de Regresión muestral (FRM).

Hasta ahora nos hemos referido a los valores poblacionales de Y correspondientes a los
valores fijos de X. Al hacer econometría nuestro interés es estimar β 1 y β 2 , pero el primer
obstáculo que enfrentamos es que no conocemos la población, sino una muestra de ella.
Antes (población) Ahora (una muestra)
Así como tenemos esta muestra, podríamos tener otra.

Dado que no conocemos la población sino muestras, la estimación de la E(Y/Xi) dependerá
de la muestra elegida. ¿Cuál es la verdadera? No lo sabemos.
Nuestro objetivo es conocer E(Y/Xi) ⇒ lo sabemos si tenemos β 1 + β 2Xi pero en realidad

no conocemos β 1 y β 2 (parámetros poblacionales o teóricos), por lo que debemos
estimarlos:
Yi = β 1 + β 2 X i + µ i
Ŷi = βˆ 1 + βˆ 2 X i será la recta estimada
Yi = Ŷi + ei
Yi = βˆ 1 + βˆ 2Xi + ei
donde
28
β̂1 estimación para β 1

β̂ 2 estimación para β 2
Estimamos Yˆ i = βˆ 1 + βˆ 2 Xi donde los βˆ i - son los valores resultantes (estimaciones)

a partir de estimadores (fórmulas o algoritmos).
Modelo teórico
Yi
Y1 E( Y / X i ) = β1 + β 2 X i
β2
µ1
µ2
Y2
β1
Xi
X1 X2
Modelo estimado
ˆ = βˆ + βˆ X
Y
Y1 i 1 2 i
β̂ 2
µ1 E(Y/Xi)=β1+β2 Xi
e1
β2
E(Y/X1 )
Yˆ1
β1
β̂ 1
X1
29
Diferencias entre µi y ei
e i = Yi − Y ˆ
µi= Yi - E(Y/Xi)
i
e i = Yi − βˆ 1 − βˆ 2 X i
µ
-es no observable
-es una variable aleatoria a la que se le supone cierta distribución de probabilidad
e
-es observable (se dispone de valores)
- satisface ciertas propiedades que veremos más adelante.
¿Cómo calcular β 1 y β 2 ?
Método de momentos?
Máxima Verosimilitud?
Método de Mínimos Cuadrados Ordinarios (MICO)?
2.1.6. MICO para una regresión simple

Utilizaremos un método llamado Mínimos Cuadrados Ordinarios (MICO).
Idea: “Pasar la recta de regresión a través de los puntos del gráfico de forma que esté lo
más próxima posible a la urbe de puntos”. Trataremos que las distancias verticales
(errores) sean lo más pequeñas posible.
e = Y −Y ˆ
i i i
ˆ
e = Y −β −β X
i i 1 2 i
Se trata de elegir βˆ 1 y βˆ 2 tal que la diferencia sea mínima.
Minimizaremos ∑ e 2i (para dar peso equivalente a residuos más grandes). O sea,
minimizaremos la suma de los cuadrados de las “distancias verticales” desde los puntos de
la recta.
Q = ∑ ( Yi − Yˆ i )2 = ∑ (Yi − βˆ 1 − βˆ 2 Xi )2 = f (βˆ 1, βˆ 2 )
Debemos minimizar Q, es decir que debemos encontrar las condiciones de mínimo
CNPO CNSO
∂Q ∂2Q 
• =0 >0 
∂βˆ (∂βˆ ) 2 
1 1 
 condicione s de mínimo
∂Q 2
∂ Q 
• =0 >0 
∂βˆ (∂βˆ ) 2 
2 2 
30
∂Q
(1) = 2 ∑ (Yi − βˆ 1 − βˆ 2 X i ) ( −1) = 0
∂βˆ 1
∑ (Y − βˆ i 1 − βˆ 2X i ) = 0
∑ Y − βˆ ∑1 − βˆ ∑ X
i 1 2 i =0
n
Y − βˆ 1 − βˆ 2 X = 0
n
βˆ 1 = Y − βˆ 2 X (*)
Alternativamente podríamos expresar (1) de la forma 2 ∑ e i ( −1) = 0 ⇒ ∑ e i = 0 , esta es la

primera condición que se debe cumplir para minimizar la suma de cuadrados de los
residuos.
∂Q
( 2) = − 2 ∑ ( Yi − βˆ 1 − βˆ 2 X i )( X i ) = 0
ˆ
∂β 2
∑ Y i Xi − βˆ 1 ∑ Xi − βˆ 2 ∑ X2i = 0
Sustituyo β̂1 por (*)
∑Y i X i − ( Y − βˆ 2 X) ∑ X i − βˆ 2 ∑ X 2i = 0
∑Y i X i = ( Y − βˆ 2 X ) ∑ X i + βˆ 2 ∑ X 2i
∑Y i X i = ( Y − βˆ 2 X) nX + βˆ 2 ∑ X i2
∑Y i X i = n X Y − βˆ 2 n X 2 + βˆ 2 ∑ X 2i
∑Y i X i = n X Y + βˆ 2 ( ∑ X i2 − nX 2 )
∑ Yi Xi − n X Y
βˆ 2 = (**)
∑ X 2i − n X2
Alternativamente podríamos expresar (2) de la forma 2 ∑ e i X i ( −1) = 0 ⇒ ∑ e i X i = 0 ,

esta es la segunda condición que se debe cumplir para minimizar la suma de cuadrados de
los residuos. A las dos condiciones se le llama generalmente ECUACIONES NORMALES .
La fórmula (**) la podemos transformar para interpretarla mejor.
31
Recordando de Inferencia:
∑ (Xi − X)(Yi − Y ) ∑ ( Xi Yi − Xi Y − XYi + X Y )
S xy = cov(X,Y) = =
n n
∑ X iYi ∑ Xi ∑ Yi n
= − Y − X + X Y =
n n n n
=
∑X Y i i
− Y X − XY + X Y =
∑X Y i i −nY X
n n
Este último es el término que tenemos en el numerador de (**). El denominador es
∑ (X
2
− X)
=
2 i
parecido a la formula de la varianza muestral, S .
n −1
x
Por lo que (**), para muestras grandes, se puede expresar:
βˆ 2 = ∑
Yi Xi − n X Y nS XY SXY cov arianza muestral entre X e Y
= = 2 =
∑X 2
i−nX 2
n S2x Sx var ianza muestral de X
donde:
βˆ 1 - ordenada en el origen
βˆ 2 - coeficiente angular o pendiente
ˆ ˆ
2.1.7 Ejemplo de cálculo de β1 y β 2
Supongamos que conocemos los datos de producción y horas trabajadas de 10 trabajadores
de una fábrica en un momento de tiempo (corte transversal). Definimos Y = producto , X =
horas de trabajo
X Y X2 Y2 XY
1 10 11 100 121 110
2 7 10 49 100 .
3 10 12 100 . .
4 5 6 25 .
5 8 10 64
6 8 7 64
7 6 9 36
8 7 10 49
9 9 11 81
10 10 10 100
∑ 80 96 668 952 789
X =8
Y = 9 ,6
Yi = βˆ 1 + βˆ 2 Xi + e i
βˆ 1 = Y − βˆ 2 X = 9,6 − βˆ 2 • 8 = 9,6 − 0,75(8) = 3,6
32
∑X Y − n X Y 789 − 10(8) 9,6

βˆ 2 = = = 0,75
∑ Xi − n X
2 2
668 − 10(8) 2
Yˆ i = βˆ 1 + βˆ 2 Xi
Yˆ i = 3, 6 + 0, 75 Xi
Yi = βˆ 1 + βˆ 2 Xi + e i
Por ejemplo:
Yˆ =3,6+0,75(10)=7,5+3,6=11,1
1 Ŷ2 = 3,6 + 0,75(7)= 8,85
ˆ = 11,0 − 11,1 = − 0,1
e1 = Yi − Y e2 = Yi − Ŷ1 = 10,0 − 8,85 = 1.15
1
15
e1=-0.1
10 e2=1.15
5
Pendiente: 0.75
Intercepto: 3.6
0
0 2 4 6 8 10 12
Tarea: Verificar que en el ejemplo se cumplen los corolarios de las ecuaciones

normales
∑e =0 i
∑e X =0
i i
2.1.8 Expresión de las formulas en desvíos.

Veremos una segunda forma de expresar los resultados anteriores:
βˆ = Y − βˆ X (*)
1 2
βˆ 2 =
∑ X i Yi − n X Y = S XY = ∑ (X i − X)(Yi − Y ) (**)
∑ X 2i − n X 2 S 2X ∑ ( X i − X) 2
Definamos las variables en desvíos respecto a su media
33
x i = Xi − X
y i = Yi − Y
Entonces, (**) la podemos expresar
βˆ 2 =
∑x y i i
(***), donde las variables en minúsculas representan desvíos respecto a la
∑x 2
i
media de la variable.
TAREA: demostrar CNSO

2.1.9 Corolarios de los estimadores MICO.
1. De las ecuaciones normales se desprende

∂Q
= − 2∑ e i = 0 ⇒ ∑ e i = 0 ⇒ los errores se compensan (media = 0)
∂βˆ 1
∂Q
= − 2 ∑ ei X i = 0 ⇒ ∑ ei X i = 0
∂βˆ 2
2. La regresión siempre pasa por el punto X , Y .

Y = βˆ + βˆ X + e
i 1 2 i i
Sumando para todo i, tenemos:
∑ Y i = N βˆ 1 + βˆ 2 ∑ X i + ∑ e i
Dado que ∑ e i = 0
Y = βˆ 1 + βˆ 2 X ,
Con lo que el punto X , Y verifica la recta de regresión.
3. El valor medio de Y estimado es igual al valor medio de Y observado.
Yi = βˆ 1 + βˆ 2 X i + e i Sumando para todo i,

Yi = Ŷi + e i
∑ Yi = ∑ Ŷi + ∑ e i
Y=
∑ Ŷ i
+0
n
Y = Ŷ
34
4. La regresión se puede expresar en desvíos:
Como ∑ei = 0
(1) Yi = βˆ 1 + βˆ 2 X i + e i , sumando para todo i,
∑Y i = n βˆ 1 + βˆ 2 ∑X + ∑ e
i i , recordando que ∑ei = 0 y dividiendo entre n
(2) Y = βˆ 1 + βˆ 2 X
Restando (1) –(2)⇒ Yi − Y = βˆ 1 − βˆ 1 + βˆ 2 X i + e i − βˆ 2 X
Yi − Y = βˆ 2 ( Xi − X ) + e i
Expresado en desvíos ⇒ y i = βˆ 2 x i + e i
Similarmente se podría verificar que ŷ i = βˆ 2 x i
5. Cov ( Ŷ, e) = Cov ( X, e) = 0
Los residuos no están correlacionados con el valor estimado de Yi, ni con los valores
explicativos.
Para demostrar este resultado debemos recordar la propiedad 1 y su corolario e = 0

1 1
• Cov(X,e)= ∑ ( X i − X ) ( e i − e ) = ∑ ( X i − X ) (e i )
n n
1
n
[ 1
] [
= ∑ X i e i − ∑ Xe i = 0 − X ∑ e i = 0
n
]
De este resultado se deriva que ∑ x i e i también es igual a cero.
ˆ,e ) = 1 ˆ )( e − e) = 1  Y ˆ e =1 Y 
Cov ( Y i
n
∑ ˆ −Y
(Y i
n  ∑ ê − Y
i ∑ i
 n
 ∑ ê −Y
i
ˆ
∑ ei

35
Analizando la última expresión, comprobamos que el segundo término es cero. Y

como se observa debajo también lo es el primero.
1
n
[∑ Yê ] = 1n ∑ ( βˆ
i 1 + βˆ 2 X i ) e i =
1
n
[ ]
∑ ( Y − βˆ 2 X) + βˆ 2 X i e i
1
n
[∑ Ye − βˆ X∑ e +βˆ ∑ X e ] = 0
i 2 i 2 i i
6. Descomposición en Suma de Cuadrados
Veamos un resultado previo. Sabemos que:
ˆ +e
Yi = Yi i
ˆ
Y =Y
ˆ −Y
Restando las dos expresiones anteriores, obtenemos Y i − Y = Y ˆ +e , lo que en
i i
desvíos respecto a la media, se puede expresar:
y i = ŷ i + e i y dado que ŷ i = βˆ 2 x i entonces y i = βˆ 2 x i + e i
Con lo que:
yi = βˆ 2x i + ei = ŷi + ei
Se eleva al cuadrado:
y i2 = (βˆ 2 x i + e i ) 2 = ( ŷ i + e i ) 2
y i2 = βˆ 22 x i2 + 2βˆ 2 x i e i + e i2 = ŷ 2i + 2 ŷ i e i + e 2i
Se aplica ∑:
∑ y = ∑ (βˆ
2
i
2
2
)
x 2i + 2 βˆ 2 x i e i + e 2i = ∑ ŷ i2 + 2 ∑ ŷ i e i + ∑ e i2
∑y 2
i = βˆ 22 ∑x 2
i + 2 βˆ 2 ∑ x i e i + ∑ e i2 = ∑ ŷ 2i + 2 ∑ ŷ i e i + ∑ e 2i
∑y 2
i = βˆ 22 ∑x 2
i + ∑ e 2i = ∑ ŷ 2i + ∑ e 2i , (****) dado que los dos términos de
36
productos cruzados se hacen cero por algunas de las propiedades anteriores.
Definimos:
∑y 2
i = Suma de cuadrados totales = SCT = SST
∑ ŷ 2
i = βˆ 22 ∑x 2
i = Suma de cuadrados explicados = SCE = SSE
∑e 2
i = SCR = Suma de cuadrados residuales = SSR
Entonces el resultado (****) ⇒ SCT=SCE+SCR
Una expresión alternativa para SCE, se deriva a continuación:
SCE = βˆ 22 ∑x 2
i
Como βˆ 2 =
∑x y i i
∑x 2
i
∑ xi yi 
2
[∑ x y ] 2
[∑ x y ] 2
SCE = βˆ 22 ∑ x i2 =  ∑
[∑ x ] ∑
= = = βˆ 2 ∑ x i y i
i i i i

2 2
x x
 ∑ x i  ∑ x i2
2 i i
2 2
i
Ejemplo.
Supongamos que el consumo de los hogares se explica por su nivel de ingreso. En el
diagrama de dispersión (Gráfico1) cada punto (Xi,Yi) indica la combinación de ingreso y
consumo del hogar. Podríamos partir explicando el consumo de una cierta familia por el
consumo medio observado de la muestra. Para cada familia cometeríamos un error dado por
Y − Y.
i
Si realizamos una regresión y estimamos los parámetros βˆ 1 y βˆ 2 por MICO, el error que
cometemos al asignar a la familia Xi cuyo verdadero consumo es Yi, la media de los
consumos, se divide ahora en dos partes (Gráfico 2). Una de ellas nos indica la parte del
error que ha sido explicada por el modelo ( Yî − Y ). La otra mide el error que aún subsiste
(ei)
Esto se puede generalizar obteniendo medidas resumen para todas las observaciones (o sea
para toda la muestra). Estas medidas son las sumas de cuadrados que vimos antes: la suma
de cuadrados totales (SCT) puede descomponerse en una parte explicada por la regresión
(SCE) y otra parte que aún no logramos explicar o residual (SCR).
37
Gráfico 1: Desvío respecto a la media
* (Xi,Yi )
*
Yi − Y Es el desvío total (DT)
respecto a la media.
Y
* *
* *
Al DT = ( Yi − Y) le sumamos y restamos Y ˆ ,
i
ˆ ˆ ˆ ˆ
DT = Yi − Yi + Yi − Y = ( Yi − Yi ) + ( Yi − Y ) = DE + DR
Gráfico 2: Desvío Total, Desvío Explicado y Desvío Residual
Y
(Xi,Y i)
Yi *
ˆ
* βˆ 1 + βˆ 2 X i
DR= Yi −Y DT=Yi −Y
Yî
Y ˆ −Y
* DE= i
* *
* *
X Xi X
38
2.1.10. Coeficiente de determinacion (R 2 )
Esta descomposición da lugar a una medida de la bondad de ajuste de modelo de

regresión
SCE SCT − SCR SCR

R2 = = = 1−
SCT SCT SCT
Consideraciones:
1. Es una medida de bondad absoluta del modelo ya que mide qué proporción de la
varianza total (la varianza de Y) es explicada por el modelo de regresión (por X).
Cuanto mayor sea la relación entre X e Y, mayor será este indicador.
2. Es una medida de bondad relativa entre modelos. Por ejemplo, permite comparar si
la capacidad explicativa es mayor incluyendo X como variable independiente
respecto a incluir Z.
3. 0 ≤ R2 ≤ 1
(Si el modelo no explica nada SCR = SCT ⇒ R2 = 0)
(Si el modelo explica todo SCE = SCT ⇒ R2 = 1)
R2=1
Y
Y R2=0
* * *
Y
* * * *
X X X
Todas las observaciones coinciden con la línea No existe relación alguna que
de regresión⇒ ajuste perfecto (imposible) sea expresable linealmente
Otras formas de expresarlo:
∑ x y  ∑ x
2

 i i
(∑ x y )
2
∑ ∑ 
∑ x 
i 2
βˆ 22
2
ŷ i2 x 2i S 2xy
=
SCE i i i
R 2
= = = = = = rx2, y
SCT ∑y 2
i ∑y 2
i ∑y 2
i ∑y ∑x 2
i
2
i S 2x • S 2y
Es decir, en el modelo de regresión simple el R2 es igual al cuadrado del coeficiente de
39
correlación muestral simple entre X e Y.
Recordar que r XY =
Cov( X , Y )
=
∑x y i i
=
S x ,y
, era una medida de la
V ( X ) V (Y ) ∑x ∑y 2
i
2
i
S xSy
asociación lineal que existe entre X e Y.
Debemos recordar que el concepto de covarianza nos da una primera aproximación del
grado de asociación que tienen X e Y.
S xy =
∑ (X − X)( Y − Y) = ∑ xy
n n
Esto se cumple si los puntos muestrales

∑ xy < 0 ∑ xy > 0 se concentran predominantemente en
estos cuadrantes.
Puede pasar que exista una relación, pero
pequeña, entre las dos variables, en ese
Y caso los puntos estarán dispersos en los
cuatro cuadrantes.
∑ xy > 0 ∑ xy < 0
X X
Desventajas de trabajar con ∑ xy :
a. Su valor puede aumentar simplemente agregando más observaciones. La solución es

dividir por el tamaño muestral, con esto se obtiene Sxy
b. La covarianza depende de las unidades en que se miden X e Y. Por ejemplo si pasamos
variables de dólares a centavos, la covarianza aumenta en 10000. Por esta razón, la
covarianza se escala dividiendo por la desviación estándar de las variables en cuestión.
Cov( X , Y ) βˆ 2S xy
Por eso trabajamos con r XY = = . El signo de rXY dependerá del signo
V ( X )V ( Y ) S 2y
de la covarianza.
40
Propiedades de r:
a. Está entre –1 y 1
b. Simetría rxy =ryx
c. Es independiente del origen y de la escala.
d. Si X e Y son estadísticamente independientes, entonces r=0. Pero r=0, no implica
independencia.
e. Como es una medida de asociación lineal, no tiene sentido utilizarlo para describir
relaciones no lineales.
f. No dice nada de las relaciones causa-efecto. Para eso se utiliza el test de Granger.
2.1.11 Algunas Regresiones Particulares

• Regresión que incluye sólo Constante (o sea no incluye X)
Yi = β 1 + u i
Yî = βˆ 1
Tarea: verificar qué
Y = βˆ + e
i 1 i propiedades se cumplen para
Q = ∑ e 2i = ∑ ( Yi − βˆ 1 ) 2 esta regresión. .
∂Q
∂βˆ
=2 ∑ (Y − βˆ )( −1) = 0
i 1
1
∑ Y = ∑ βî 1
βˆ =
1
∑Y = Y i
βˆ 1 = Y
• La regresión que pasa por el origen (incluye X, pero no constante)

Yi = β 2 X i + u i
e i = ( Yi − βˆ 2 X i )
Q = ∑ e 2i = ∑ ( Yi − βˆ 2 X i ) 2 = Tarea: calcular R2 , verificar
∂Q las restantes propiedades.
∂βˆ
=2 ∑ (Y − βˆ i 2 X i )( −X i ) = 0
2
∑ (Y − βˆ X ) X
i 2 i i =0 ⇒ ∑Y X
i i − βˆ 2 ∑X 2
i =0
βˆ =
∑YX i i
∑X
2 2
i
41
Características:
∑e ≠0i
∑e X =0
i i
• Modelo doble logarítmico
ln Y = β1 + β 2 ln X + u i
∂ ln Y
η YX = = elasticida d de Y respecto a X = βˆ 2
∂ ln X
↓
cambio porcentual de Y, respecto al
cambio porcentual en X
• Modelo Semilogarítmico
ln Y = β1 + β2 X + ui
∂ ln Y
= β 2 ⇒ cambio relativo en Y por un cambio absoluto en X .
∂X
↓
semielasti cidad : tasa de cambio en Y por el cambio en una unidad en X.
• Ejemplo: el tiempo como variable explicativa
Supongamos que tenemos el siguiente modelo para representar la evolución de una cierta
economía:
PIB=Aer t (Ver Recuadro)

Donde A es un término constante, r es la tasa de crecimiento anual (que se supone
constante) y t es el tiempo (1,2,3.......).
Para estimar esta ecuación debemos linealizarla e incorporarle el componente aleatorio:
PIBt =Aert eµ
ln PIBt = ln A + rt+µi
42
ln PIBt = β 0 + β 1 t+µi (*)
Luego de estimar (*) con los datos de un cierto país, obtenemos:

ln PIBt = 6,96 + 0,0269 t +ei
Esto significa que la tasa de crecimiento del PIB promedio en el período de esta economía
es 2.69%.
Supongamos que el PIB crece a una tasa de 3% anual.

Matemáticamente esto significa que:
dPIB
= 0.03PIB
dt
Esta es una ecuación diferencial que se puede reescribir como:
1
dPIB = 0.03dt . Si integramos a ambos lados de la ecuación, tenemos:
PIB
1
∫ PIB dPIB = ∫ 0.03dt y resolviendo ambas integrales:
ln PIB + c1 = 0.03t + c 2
Con lo que: ln PIB = 0.03t + c . Encontrando el antilogaritmo de esta ecuación:
PIB(t)=e0.03t ec
2.1.12. ¿Cómo seleccionar entre estimadores?
Hasta ahora hemos derivado los estimadores MICO para βˆ 1 y βˆ 2 . También hemos derivado
sus propiedades. En este punto nos preguntamos qué criterios podemos aplicar para saber
que tan buenos son estos estimadores.
Pese a que MICO es el método más popular para estimar los parámetros de un modelo,
minimizar la suma de los errores al cuadrado, no dice nada sobre la relación del estimador y
el verdadero valor del parámetro. Puede pasar que la minimización sea válida para una
muestra en particular.
43
MICO siempre minimiza ∑ e 2i , pero esto no garantiza que se cumplan otras propiedades.
Mayor R2
¿Tiene sentido decir que los estimadores tendrán buenas propiedades si hacen que el R2 sea
el mayor posible?
No, MICO minimiza ∑ e 2i para una muestra en particular y esto es equivalente a
maximizar R2.
El R2 no es válido como criterio para "buena" estimación, sino como indicador ajuste de la
regresión a la muestra seleccionada. Ver Sección 2.1.10
ˆ
Insesgamiento ⇒ E(β) = β
Esto no quiere decir que β = βˆ , sino que se calcula el estimador correspondiente para
muestras repetidas, "en promedio" estaremos sobre el parámetro poblacional.
Minimizar ∑ e 2i puede aplicarse sin requerir casi ninguna información sobre la
forma en que los datos han sido generados. Este no es el caso del criterio de insesgamiento.
Para verificar si el estimador MICO es insesgado, deberemos realizar ciertos supuestos
sobre la forma en que se extrajo la muestra con la que trabajamos.
Eficiencia
¿Cómo elegimos entre estimadores que son todos insesgados?
Será mejor el que tenga la varianza más pequeña, es decir el que sea más eficiente.
Veremos qué supuestos deben plantearse para que se cumpla con esta propiedad.
44
Ahora, si tengo un estimador con mínima varianza, ¿estaré seguro que es el mejor
estimador? No, depende del sesgo.
Error Cuadrático Medio
ECM ( β̂ ) = E (βˆ − β) 2 = Var ( β̂ )+ [Sesgo ( β̂ )]2
f (β* )
En este caso β* es sesgado,

pero con menor varianza,
β̂
mientras es insesgado pero
con mayor varianza. Para
poder elegir entre ellos debo
comparar el ECM, que
(βˆ ) resume varianza y sesgo.
Debieramos elegir el
estimador con menor ECM.
β* ) ≠ β
E(
Consistencia
En muchos problemas econometricos es imposible encontrar estimadores con las
propiedades anteriores. Sin embargo, muchas veces se puede justificar la utilización de un
estimador en base a sus propiedades asintóticas.
La distribución muestral de un estimador muchas veces cambia en la medida que cambia el
tamaño muestral. Es posible que el sesgo de un estimador se haga cada vez mas pequeño
en la medida que aumenta n. Por esta razón al analizar las propiedades deseables de un
estimador se deben tener en cuenta las propiedades asintóticas o de “muestras grandes” del
mismo:
1. Si la distribución asintótica de β̂ se concentra en un valor k en la medida que n tiende a

infinito, se dice que k es el límite en probabilidad de β̂ (plim β̂ =k). Si plim β̂ =β se dice
que el estimador es consistente.
45
2. La varianza de la distribución asintotica de β̂ se denomina varianza asintótica de β̂ . Si

β̂ es consistente y su varianza asintótica es menor que la varianza asintótica de otros
estimadores, se dice que β̂ es asintóticamente eficiente.
f(x)
f (βˆ ) 100
f (βˆ )40
(βˆ )20
β
En el grafico vemos un ejemplo en que a medida que aumenta n (de 20 a100) la
distribución se concentra respecto a β mientras la varianza del estimador va
disminuyendo.
En conclusión: cuando no se encuentra un estimador con buenas propiedades para muestras
pequeñas es deseable elegir un estimador con buenas propiedades para muestras grandes.
2.2 SUPUESTOS CLÁSICOS DEL MODELO DE REGRESIÓN.
Recordemos que para derivar las fórmulas de los estimadores MICO, no fue necesario
realizar supuestos sobre la forma en que se extrajo la muestra o sobre la distribución de
probabilidad de µ.
Sin embargo para verificar las propiedades estadísticas que tienen estos estimadores si
requeriremos ciertos supuestos. Los supuestos usuales que se requieren y que por tanto
reciben el nombre de SUPUESTOS CLÁSICOS , son los siguientes:
46
1. La variable explicativa X está dada (es no estocástica o no aleatoria).

Este supuesto implica que si se repitiera la selección de muestras se podría
considerar que las variables independientes serían las mismas. Como se ve este
supuesto es muy fuerte.
Dado que X es no estocástica, la COV(X, µ)=0.
2. E(µ i /Xi )=0 ∀ i
µi ⇒ es una perturbación aleatoria que puede tomar valores positivos o negativos, pero
no existe razón para esperar que sea sistemáticamente positiva o negativa. Por el
contrario, suponemos que los errores “a la larga” se compensan.
Dado que la X es fija y teniendo en cuenta este supuesto:
E(Yi/Xi)= E(β 1 +β 2 Xi+µi)= β 1 +β 2 Xi
Con lo que este supuesto también implica que todo lo que no está incluido
explícitamente en el modelo (“todo lo que ignoramos” sobre los determinantes de la
variable Y), se supone que no afecta en forma sistemática el valor promedio de Y,
porque se compensan los errores negativos y los positivos.
3. No autocorrelación ⇒ Cov( µ i , uj)=0 i≠j
Se supone que los errores cometidos en dos momentos distintos en el tiempo no están
correlacionados. Esto significa que en repetidas muestras no existe ninguna tendencia a
que los errores asociados con una observación estén relacionada a los errores de otra.
Si en un momento de tiempo o en un individuo de la muestra se genera un error
positivo, esto no nos da ninguna información sobre si el próximo error será positivo o
negativo.
Este supuesto implica que los errores no tienen un patrón de comportamiento
sistemático.
[ ]
COV( µ i , µ j ) = E{[µ i − E (µ i ) ] µ j − E(µ j ) }y dado el supuesto 1
= E(µ i , µ j ) = 0
Cuando los términos de error correspondientes a períodos diferentes están

correlacionados, diremos que existe autocorrelación. Más tarde en el curso
estudiaremos MICO bajo autocorrelación.
Ejemplo:
47
Cuando se trabaja con series de tiempo en economía es muy común que se presenten
fenómenos que tienen inercia y si esta no es recogida por el modelo, se genera
autocorrelación en el error. Por ejemplo, los efectos de la crisis de 1982 generalmente
son difíciles de recoger en su totalidad por un modelo, por lo que se genera un error que
estará correlacionado con el error cometido en el período siguiente.
µi µi
* *
* * *
* *
* *
-µj * * * µj -µj µj
*
* * * *
*
Correlación
Positiva Correlación
Negativa
-µi
-µi
µi
No existe
Correlación
*
* * *
-µj * * ** µj
* *
-µi
48
4. Homocedasticidad ⇒ V(µ i /Xi )=σ 2

Se supone que las perturbaciones se distribuyen con igual dispersión (varianza)
respecto a la media.
V( µ i ) = σ 2 = E( µ i − E( µ i )) 2 y dado el supuesto 1 es equivalent e a E(µ 2i ) = σ 2
Cuando este supuesto no se cumple, decimos que existe heterocedasticidad.
f ( µ)
Homocedasticidad.
X1 E(Y/Xi)=β 1+β 2Xi

X2
X3
f ( µ)
Heterocedasticidad
X1 E(Y/Xi)=β 1 +β 2Xi
X2
X3
49
Ejemplo: supongamos que deseamos explicar el gasto en consumo de las familias en

función de su ingreso. Si los datos se refieren a una muestra de corte transversal, el
supuesto de homocedasticidad no tiene mucho sentido, ya que indica que independiente
del nivel de ingreso, los gastos de cada familia se desvían del modelo con la misma
dispersión. Lo lógico es pensar que a mayores niveles de ingreso, hay un mayor espacio
para que las familias distribuyan su ingreso.
5. El modelo está bien especificado.
Es decir que no hay errores en la especificación:

• No hay omisión de variables ni variables en exceso
• La forma funcional es la correcta
• No hay supuestos estocásticos incorrectos.
Esto evitará errores en la estimación de los parámetros.

6. Normalidad ⇒ µ i ∼N( 0 , σ 2 )
Los errores son normales, idéntica e independientemente distribuidos. Es decir que cada
error es una extracción aleatoria independiente de una distribución normal con media
cero y varianza σ2 .
f ( µ)
µ1 ∼N(0, σ2)
Y µ2∼ N(0, σ 2)
X1 E(Y/Xi)=β 1 +β2 Xi
X2
X3
2.3 PROPIEDADES ESTADÍSTICAS DE LOS ESTIMADORES MICO
50
En base a algunos de los supuestos clásicos anteriores, veremos ahora que propiedades
estadísticas tienen los estimadores MICO. ¿Son insesgados? ¿Son eficientes? ¿Tienen el
menor ECM?
2.3.1 Linealidad
∑ x y = ∑ x ( Y − Y) = ∑ x Y − ∑ x Y = ∑ x Y − Y ∑ x
βˆ 2 =
i i i i i i i i i i
∑x ∑x
2
i ∑x 2
i ∑x 2
i
2
i
Dado que la ∑xi=0 ⇒ βˆ =

∑x Y (*)
i i
∑x
2 2
i
xi
Si definimos k i = como un tipo especial de ponderador que cumple las siguientes
∑ x i2
propiedades:
a) no estocástico
b) ∑k i =0
1
∑k
2
c) =
i
∑ x 2i
Tarea: Verificar estas cuatro
d) ∑k x =∑k X
i i i i =1
propiedades
Esto nos permite volver a (*) y expresar βˆ 2 = ∑ k i Yi (**)
Esta expresión muestra que β̂2 es un estimador que puede expresarse como
combinación lineal de la variable Yi (donde ki son las ponderaciones de esa
combinación lineal).
2.3.2 Insesgamiento
Sabemos que Yi = β 1 + β 2 X i + µ i y por (**) sabemos que βˆ 2 = ∑ k i Yi ,

entonces
51
βˆ 2 = ∑ k i (β 1 + β 2 X i + µ i )
βˆ 2 = ∑ k i β1 + ∑ k iβ 2 X i + ∑ k i µ i
βˆ 2 = β1 ∑ k i + β 2 ∑ k i X i + ∑ k i µ i
0 1
por a) por d)
βˆ 2 = β 2 + ∑ k i µ i (***)
Esta expresión es muy útil porque expresa al estimador como la suma del verdadero
parámetro β 2 más una suma ponderada de errores aleatorios que puede resultar
positiva o negativa, pero cuyo valor esperado es 0.
βˆ es insesgado si E(βˆ ) = β
2 2 2
Tomando esperanza a (***)
E (βˆ 2 ) = E(β2 + ∑ k iµ i )
E (βˆ 2 ) = E(β2 ) + E( ∑ kiµ i ) dado que k i es fijo , no aleatorio
E (βˆ 2 ) = β2 + ∑ k iE (µ i ) Supuesto 2 : E(µ i ) = 0
E (βˆ 2 ) = β 2
El estimador es insesgado, esto es, aunque para una muestra en particular β̂ 2 se puede alejar
de β en algo positivo o negativo ( βˆ − β =
2 2 2 ∑
k µ ), si repetimos muchas veces el
i i
experimento, estaremos en promedio sobre el verdadero valor del parámetro. Recordar: que
el estimador sea insesgado no nos garantiza que sea el "mejor" estimador.
Tarea: Chequear para β̂1
52
2.3.3 Eficiencia
2.3.3.1 Cálculo de varianzas y covarianzas.
Para verificar cuan concentrado o disperso (respecto al verdadero valor) se
encuentra el estimador MICO necesitamos calcular las VARIANZAS :
Recordar var( X ) = E(X i − E (X ) ) 2
• ( 2
)
VAR (βˆ 2 ) = E βˆ 2 − E(βˆ 2 ) , pero E(βˆ 2 ) = β 2 luego, VAR (βˆ 2 ) = E[(βˆ 2 − β 2 )] 2
De (***) sabemos que
βˆ 2 = β 2 + ∑ k i µ i
βˆ 2 − β 2 = ∑ k i µ i , con lo que:
[
Var (βˆ 2 ) = E( ∑ k i µ i ) 2 = E (k 1µ 1 + k 2 µ 2 + . . . + k n µ n ) =
2
]
Var (βˆ 2 ) = E[(k 1µ 1 + k 2 µ 2 + . . . + k n µ n )(k 1µ 1 + k 2 µ 2 + . . . + k n µ n )] =
[
Var (βˆ 2 ) = E k 12 µ 12 + k 1k 2µ 1 µ 2 + k 1 k 3µ 1 µ 3 + . . . + k 22 µ 22 + k 2µ 2 k 1µ 1 + … ]
nos quedan
n
→ n terminos k µ → ∑ k i2 µ i2
2
i
2
i
1
n (n −1)
n ( n − 1)
→ términos ( 2k i µ i k jµ j ) → ∑ 2k i k jµ i µ j
2 1
n n ( n −1)

Var (β 2 ) = E ∑ k i µ i + 2 ∑ k i k j µ i µ j 
 2
ˆ 2 2
 1 1

k i no aleatorio

Recordando  E(µ 2i ) = σ 2
 E(µ µ ) = 0
 i j
n ( n −1) n ( n −1 )
n 2 n 2
Var (βˆ 2 ) = ∑ k 2i E ( µ i2 ) + 2 ∑kk i j E( µ i µ j ) = ∑ k 2i E (µ 2i ) + 2 ∑ k k E(µ µ i j i j )
1 1 1 1
σ2 ∀ i 0
53
 1 
= σ
2
Var (βˆ 2 ) = σ 2 ∑ i
k 2
= σ 2 
 ∑ x 2i  ∑ x i2
 
1
por c), ∑k 2
=
∑ x i2
i
Tarea: verificar que Var (βˆ 1 ) = σ 2

∑X 2
i
 X2
= σ2  +
1

n∑ x 2
i  ∑ x i n 
2
• COV( βˆ 1 , βˆ 2 )
( )( ) [
COV (βˆ 1 , βˆ 2 ) = E βˆ 1 − E(βˆ 1 ) βˆ 2 − E(βˆ 2 ) = E (βˆ 1 − β1 ) (βˆ 2 − β 2 ) ]
↓ ↓
E(βˆ 1 ) = β 1 E (βˆ 2 ) = β 2
Pero, βˆ 1 = Y − βˆ 2 X , con lo que
βˆ 1 − β1 = β1 + β 2 X + µ − βˆ 2 X − β1 , y por tanto,
βˆ − βˆ = X ( β − βˆ ) + µ =
1 1 2 2
βˆ − β = − X ( βˆ − β ) + µ
1 1 2 2
Entonces,
COV ( βˆ1 , βˆ 2 ) = E{[− X ( βˆ 2 − β 2 ) + µ ) ][βˆ 2 − β 2 ]} =
E[− X ( βˆ 2 − β 2 ) ( βˆ 2 − β 2 ) ] + E [µ ( βˆ 2 − β 2 ) ] =
 ∑ µi 
− X E ( βˆ 2 − β 2 ) 2 + E ( )( ∑ k i µ i )  =
 N 
σ2 1 
−X• + E  ( µ1 + µ 2 + . . . + µ n )( k1 µ 1 + k 2 µ 2 + . . . + k n µ n ) =
∑ xi  N
2

σ2
−X• + σ 2 ∑ ki
∑ xi
2
54
σ2
COV(βˆ 1 , βˆ 2 ) = − X •
∑ x 2i
Características de la varianza
• La varianza de β̂ 2 es directamente proporcional a σ2 (varianza de µi) e inversamente

proporcional a ∑ x 2i (varianza de variable X)
• Dado σ2, cuanto mayor sea la variabilidad de la variable X, más centrado estará el
estimador del verdadero valor.
• Dada la varianza de Xi, a mayor σ2 (mayor variabilidad de los datos a explicar o
mayor variabilidad del error aleatorio), mayor será la varianza del estimador.
Y
X
variabilidad
de Y no
explicada
variabilidad
por X
de X
La amplitud
de esta área
es σ2 variabilidad común, en el sentido
que se puede explicar una por otra.
Cuanto mayor esta área, mayor la
información empleada por el
procedimiento de estimación para
calcular la pendienteβ2 , entonces,
menor su varianza.
Características de la covarianza
• Implica que βˆ 1 y βˆ 2 dependen entre sí
signo depende de X , si X > 0 → cov (βˆ , βˆ ) < 0

1 2
X < 0 → cov (βˆ , βˆ ) > 0
1 2
Tanto las varianzas y como la covarianza de los estimadores quedan dependiendo de datos
conocidos (∑ X , ∑ X
i
2
i )
, n, X … y de un parámetro desconocido σ 2 .
• Cómo no conocemos σ2 (es un parámetro poblacional), no conoceremos los valores de
55
las verdaderas varianzas. Estimaremos σ2 y eso nos permitirá estimar las varianzas de
βˆ y βˆ .
1 2
56
2.3.3.2 Estimador de σ2
(1) Yi = β 1 + β 2 X i + µ i
(divido entre n y sumo para todo i)
∑Y i
= β1 + β 2
∑X i
+
∑µ i
n n n
(2) Y = β1 + β 2 X + µ
(1)-(2) → Yi − Y = β 1 − β1 + β 2 ( X i − X ) + µ i − µˆ , expresado en desvíos:
(3) y i = β 2 x i + (µ i − µ )
Recordando que:
(4) e = y − ŷ = y − βˆ x
i i i i 2 i
Sustituyendo (3) en (4)
(5) e = β x + µ − µ − βˆ x i
i 2 i i 2
(6) e = (βˆ − β )( −x ) + µ − µ
i 2 2 i i
Se eleva (6) al cuadrado
[
e 2i = (βˆ − β )( − x ) + µ − µ
2 2 i i
2
]
(7) e 2i = ( −x i ) 2 (βˆ 2 − β 2 ) 2 + (µ i − µ ) 2 − 2x i (βˆ 2 − β 2 ) (µ i − µ )
Sumando para todo i
(8) Σe 2 = ∑ x 2 (βˆ − β ) 2 + Σ(µ − µ ) 2 − 2∑ x (βˆ − β ) (µ − µ )

i i 2 2 i i 2 2 i
Aplicando esperanza a (8)
(9)
i  i 2 2   i  i 2 2
[
E (Σ e 2 ) = E  ∑ x 2 (βˆ − β ) 2  + E  Σ (µ − µ ) 2  − 2E ∑ x (βˆ − β ) (µ − µ )
i
]
(10)
i 14i 442244243 1442 i 
443 14444
2 4 2244
[
E (Σ e 2 ) = ∑ x 2 E (βˆ − β ) 2 + E Σ( µ − µ ) 2  − 2E (βˆ − β ) ∑ x (µ − µ )
i 4i443
]
A B C
57
(11) E (Σe 2 ) = A + B + C
i
Desarrollando A
i 2
(
A = ∑ x 2 E βˆ – β
2
2
i
)
= ∑x2 •
σ2
2
=σ2
∑ xi
σ2
Recordar que V(βˆ 2 ) =
∑ x 12
Desarrollando B
B = E ∑ (µ − µ ) 2  = E ∑ (µ 2 − 2µ µ + µ 2 )  = E ∑ µ 2 + ∑ µ 2 − 2∑ µ µ 

 i   i i   i i 
= E ∑ µ 2 − nµ 2 − 2µ ∑ µ  = E ∑ µ 2 + n µ 2 − 2 µ • nµ  = E ∑ µ 2 + nµ 2 − 2nµ 2 

 i i  i   i 
 ∑µ 
2  ∑ µ2 
= E ∑ µ 2 − nµ 2  = E ∑ µ 2  − n E µ 2  = ∑ E (µ 2 ) − n E i  = ∑ σ2 − n E  i 
   =
 i   i    123 i n  n 2 
   
σ 2
1 1 1
= ∑ σ2 − n • ∑ E (µ 2 ) = ∑ σ 2 − ∑ σ 2 = nσ 2 − nσ 2 = σ 2 ( n − 1)
n2 12i3 n n
σ2
Desarrollando C
 
    
 14
(
2 24 2
3
)
i i 
 
i i  i i
( 
C = − 2 E β − β ∑ x (µ − µ )  = − 2E  ∑ k µ  ∑ x µ − µ ∑ x   =
ˆ
{i  
)
 ∑k µ  
  0 
 
[ ] [ ]
i i
= − 2 E ∑ k µ ∑ x µ = − 2 E (k µ + k µ … k µ )( x µ + x µ … x µ )
i i i i 1 1 2 2 n n 1 1 2 2 n n
 
 
= − 2 k x E(µ 2 ) + k x E (µ 2 ) + … + k x E (µ 2 ) + … k x E(µ µ )
 1 1 1213 2 2 123 2 n n 12n3 n n − 1 14 n2n4−4
4 1 
3
 
 σ2 σ2 σ2 0 
= − 2 ∑ k x σ 2 = − 2σ 2 ∑ k x = − 2σ 2
i i 12i 3i
1
Entonces ahora (11)
58
(12) E (∑ e i2 ) = A + B + C = σ 2 + ( n − 1)σ 2 − 2σ 2 = σ 2 (1 + n − 1 − 2) = σ 2 ( n − 2)
(13) E (∑ e i ) = σ ( n − 2)
2 2
2 ∑ e i2
Definamos que el estimador de σ es σˆ = 2
, el resultado (13) nos asegura que
n−2
estamos definiendo un estimador insesgado de σ2 .
Esto porque σ2 será insesgado si:
 ∑ e2 
 i = 1
E σˆ  = σ y E(σˆ ) = E E ∑ e 2  =
2 2 2 1
 • σ 2 (n − 2) = σ 2
   n −2  n − 2 1  4
42
i
3 n −2
 
σ 2 ( n − 2)
2 ∑ e i2
El estimador insesgado de σ2 será σˆ =
n−2
2.3.3.3 Varianzas estimadas
Sabemos que V (βˆ 2 ) =

σ2
y σˆ =
2 ∑ e 2i , luego,
∑ x 2i n−2
ˆ ˆ
V (β 2 ) = σ βˆ =
ˆ 2 σˆ 2
=
∑ e 2i / n − 2
=
∑ e 2i
2
∑ x 2i ∑ x 2i ( n − 2)∑ x 2i
σˆ
o alternativamente σˆ βˆ = Tarea: para el
2
∑x 2
i
ejemplo 2.1.7,
calcular las
y análogas para βˆ 1 ,
varianzas y
Var (βˆ 1 ) = σ 2
∑X 2
i
 X2
=σ  2
+
1

covarianzas
n∑ x estimadas.
 ∑ x i n 
2 2
i
59
V̂(βˆ 1 ) = σˆ β2ˆ1 = ~
σ2
∑X 2
i
 X2
= σˆ 2  +
1

n∑ x 2
i  ∑ x i n 
2
2.3.3.4 Teorema De Gauss-Markov
HIPÓTESIS: Si se cumplen los siguientes supuestos clásicos:

1. La variable explicativa X está dada (es no estocástica o no aleatoria).
2. E(µi) = 0 ∀i
 2
3. y 4. E u , u  = σ si i = j homocedasticidad y no autocorrelación
 i j   0 si i ≠ j
5. No hay errores de especificación
TESIS: Los estimadores MICO son de mínima varianza entre los estimadores lineales e
insesgados ⇒ MICO son los mejores estimadores lineales insesgados (MELI).
Demostración
Sabemos que β̂ es lineal ( βˆ = ∑ k Y ) e insesgado ( E (βˆ 2 ) = β 2 ).

2 2 i i
ˆ σ2
Además V(β 2 ) =
∑ x 2i
• Supongamos que existe otro estimador β* lineal de β 2 .
2
Entonces para que será lineal β* deberá ser igual a β*2 = ∑ w i Yi donde wi es alguna
2
ponderación.
• Calculemos E (β* ) y veamos que condición debemos exigirle a wi para que β* sea
2 2
insesgado.
E (β*2 ) = ∑ w i E( Yi ) = ∑ w E(β1 + β2 Xi + µ i ) = ∑ w i (β1 + β2 Xi ) =

i
= β1 ∑ w i + β2 ∑ wi Xi
60
para que β*2 sea insesgado se debe cumplir: ∑w = 0 i
∑w X = ∑w x
i i i i =1
• Veamos las condiciones que tiene que cumplir wi para que la varianza sea mínima
Var β* = Var ( ∑ w Y ) = ∑ w 2 Var (Y ) = ∑ w 2 • σ 2 = σ 2 ∑ w 2

2 i i i 1424 i
3 i i
σ2
x
Sumando y restando i al término con sumatoria,
∑ x i2
2 2
    
2  x
i +
x
i  2 
x
i  x
i 
= σ ∑ w −  = σ ∑  w − + 
i 2 2 i 2 2
 ∑x ∑x   ∑x  ∑x 
 i i  i  i 
 
2 2
   x    x
x   i   x  i 
= σ 2 ∑  w − i  +  + 2  i
w − i
 
 i ∑ x 2   ∑ x2   ∑ x2  ∑ x 2 
 i   i   i  i 
2 2
   x  w x x2 
2  x
i  2  i  2  i i i 
= σ ∑ w −  +σ ∑  + 2σ ∑  − 
i 2  ∑x2 2
 ∑xi   ∑x (∑ x 2 ) 2 
   i   i i 
2
 
 x  1 1  ∑x 2

2 2 ∑ i ∑ wi x i −
= σ2 ∑  w − i  + σ2 x 2 + 2σ2 i



i 2
∑ x i  ( ∑ i
x ) ∑ x 2i  ∑x 2
i


El término entre paréntesis es

2 cero, ya que para que exista
 
* 2  x
i  σ2 insesgamiento se requiere que
Var (β ) = σ ∑  w −  +
2  i ∑ x2  ∑ x2 ∑x w = 1
 i  i
61
σ2
quiero minimizar esto, pero el segundo sumando es un número , es una constante,
2
∑xi
x
Entonces, minimizar Var(β*2 ) es equivalente a minimizar ∑ ( w − i )2
i
∑ x i2
y este cuadrado se minimiza cuando la base es igual a cero ⇒ se minimiza cuando

xi xi
wi − = 0 o cuando wi =
∑x 2
i ∑x 2
i
xi
La condición que minimiza la varianza es que w i = , que es una condición igual a la
∑x 2
i
de MICO, por lo que βˆ 2 = β*2
Este teorema asegura que si existe otro estimador ( β*2 ) con similares propiedades al que
tiene MICO (linealidad e insesgamiento), para que la varianza de β*2 sea mínima, este
estimador debe ser el estimador MICO.
Como consecuencia, MICO es el mejor estimador entre los estimadores lineales e
insesgados.
Hasta este punto hemos demostrado que los estimadores MICO tienen propiedades
importantes:
• linealidad
• insesgamiento
• mínima varianza dentro de la familia de estimadores lineales e insesgados (eficientes
entre los estimadores lineales e insesgados)
De los seis supuestos clásicos solo hemos utilizado los cinco primeros, es decir, para
determinar estas propiedades no hemos requerido ningún supuesto sobre la distribución de
los errores.
Tarea: verificar qué supuestos son necesarios para determinar cada una de las
propiedades
62
2.4 INFERENCIA ESTADÍSTICA EN EL MODELO DE REGRESIÓN

LINEAL SIMPLE
Recordar: Para obtener estimadores de β 1 y β 2 que sean MELI no se requiere suponer

ninguna distribución de probabilidades de µ .
⇓
Ahora, para tener intervalos de confianza para los parámetros y testear cualquier
hipótesis requerimos el supuesto 6:
µ i ≈ N( 0, σ 2 ) ∀i
Nos interesa saber:
• ¿Qué tan cerca están βˆ 1 y βˆ 2 de los parámetros poblacionales?
• ¿Qué tan cerca está Yî del verdadero E(Y/Xi)?
2.4.1 Repaso Breve de algunos teoremas de Inferencia.
TM1 Teorema Central de Límite:

Si X es la media de una muestra aleatoria de tamaño n que se toma de una
población con media µ y varianza finita σ2 , entonces
X −µ
lím ite de z = ~ N ( 0, 1)
σ/ n
n →∞
TM2 Z i ~ Normales e Independie ntes ( µ i , σ 2i ) y Z1 , Z2 , ..., Zn son variables

aleatorias
Entonces,
Z = ∑ k i Z i ≈ N( ∑ k i µ i , ∑ k 2i σ 2i )
TM3 Una covarianza nula entre dos variables aleatorias que se distribuyen normal, implica
independencia estadística.
f(x, y) = f(x) • f(y)
63
TM4. Formación de la distribución Chi-Cuadrado

Si Z1 … Z n sonV .A.

Z i ~ N( 0,1), independie ntes 
∑Z 2
i = Z12 + Z 22 + … + Z 2n ~ χ 2n
P( χ 2 > χ 2α ) = α la probabilidad de que

cualquier valor de la chi-cuadrado sea mayor a
χ 2α es igual al área que se acumula arriba y a
α
la derecha deχα
2
0
χ 2α
Exactamente el 95% de una distribución chi-cuadrado caen entre χ 20. 975 y χ 20.025 .
TM5 Si Zi son variables aleatorias independientes y Z i ~ χ 2k i
Entonces,
∑Z i ~ χ 2∑ ki
TM6 Si S2 es la varianza de una muestra aleatoria de tamaño n tomada de una población

(n − 1)S 2
normal que tiene la varianza σ2 , entonces el estadístico χ 2 = tiene una
σ2
distribución chi-cuadrado con n-1 grados de libertad.
TM7 Formación de la distribución t- student.

Z1 ~ N( 0, 1) 
 Z1 Z1 k
Z2 ~ χ 2
k t= = ~ tk
Z1 y Z 2 son independie ntes 
Z2 / k Z2
64
P(-tα/2 < t < t α/2) = 1-α
α/2
-tα/2 tα/2
0
TM8 Si X es la media de una muestra aleatoria de tamaño n que se toma de una población
normal con media µ y varianza finita y desconocida σ2 , pero varianza estimada S2 ,
X −µ
entonces el estadístico t = ~ t n −1 , se distribuye t con n-1 grados de libertad.
S/ n
TM9 Formación de la distribución F de Fischer
Z1 ~ χ k 1
2

 Z1 / k1
Z2 ~ χ F=
2
k2 ~ Fk 1 , k2
 Z2 / k 2
Z1 es independie nte de Z 2 
P ( F > Fα ) = α la probabilidad de
que cualquier valor de la F sea mayor a
Fα es igual al área que se acumula arriba
α y a la derecha de F α
0 Fα
TM 10
t 2k = F 1, k
65
2.4.2 ¿Qué Consecuencias tiene suponer µ i ~ N(0, σ 2)?
1. µi normal e incorrelacionados ⇒ son independientes.
2. Yi = β1 + β 2 X i + µ i
Por lo que Yi es una combinación lineal de variables aleatorias que se distribuyen

normal ⇒ Yi se distribuirá normal
E(Yi)= E(β 1 +β 2 Xi+µi)= β 1 +β 2 Xi

V(Yi) = V (β 1 +β 2 Xi+µi)=V(µi)=σ2
Por lo que Yi ~ N(β1 + β 2 X i , σ )

2
3. Recordemos que βˆ 2 = β 2 + ∑ k i µ i
β̂2 también es C.L. de VA normales ⇒ β̂2 es una variable aleatoria que se

distribuye normal
E (βˆ 2 ) = β 2
σµ
2
V (βˆ 2 ) = σ 2βˆ 2 =
∑x 2
i
βˆ 2 ~ N (β2 , σ2βˆ )
2
4. Estandarizando,
βˆ 2 − β 2
Z2 = ~ N(0, 1)
σβˆ 2
βˆ 1 − β1
Z1 = ~ N( 0, 1)
σ βˆ 1
66
βˆ 2 ≈ N (β 2 , σ 2βˆ )
2
0 β2
βˆ 2 − β 2
Z2= ~ N(0,1)
σ βˆ
2
2
5. Recordando el teorema 6, podríamos probar que:
(n − 2) σˆ 2
(1) ~ χ2
2 n−2
σ
6. Sabemos que
βˆ 2 − β 2 σ 2µ σµ
~ N(0, 1) con σβˆ = =
σ βˆ
2
2
∑x 2
i ∑x 2
i
Entonces, =
ˆ
βˆ 2 − β 2 (β 2 − β 2 ) ∑x 2
i
~ N(0, 1) (2)
σµ σµ
∑x 2
i
Podríamos probar que (1) y (2) son independientes. Entonces:
(βˆ 2 − β 2 ) ∑x 2
i
σµ
t= ~ t n −2 (3)
(n − 2) σˆ 2µ
n−2
σ 2µ
67
Expresando (3) de otra forma y simplificando:
t=
(βˆ 2 − β 2 ) ∑x 2
i σµ
=
(βˆ 2 − β 2 ) ∑x 2
i σµ
=
(βˆ 2 − β 2 ) ∑x 2
i σµ
σˆ µ2 (n − 2) 1 σˆ 2µ σˆ µ σ µ
⋅
σ 2µ ( n − 2) σ 2µ
=
(βˆ 2 − β 2 ) ∑x 2
i
=
(βˆ 2 − β 2 ) (βˆ − β 2 )
= 2
σˆ µ σˆ µ  σˆ βˆ
2 
σ βˆ
ˆ 2
∑ x i  2
Es decir que:
(βˆ 2 − β 2 ) (βˆ 1 − β1 )
≈ t n− 2 y por similar procedimiento, ≈ t n −2
σˆ ˆ
β2
σˆ ˆ β1
Esto nos permitirá obtener intervalos de confianza y realizar test de hipótesis sobre β 1 y β 2.
2.4.3 Intervalos de Confianza para β 1 y β 2.
Estamos buscando , P (βˆ 2 − δ ≤ β 2 ≤ βˆ 2 + δ) = 1 − α , es decir que la probabilidad de que β 2

esté entre dos valores sea 1-α.
Notación:
(1-α) % nivel de confianza
α nivel de significancia
El intervalo será aleatorio (depende de la muestra), pero después que se utilizó una muestra,
el intervalo queda fijo y por tanto la probabilidad de que el verdadero valor esté en el
intervalo es cero o uno (“está o no está”)
βˆ 2 − β2
Dado que ~ t n −2 , entonces exactamente el 1-α de esta distribución t con n-2
σˆ βˆ
2
grados de libertad, estará entre los valores -tα/2 y tα/2 .

P (− t α / 2 ≤ t n −2 ≤ tα / 2 ) =1 − α
βˆ 2 − β 2
P (− t α / 2 ≤ ≤ t α / 2 ) = 1− α
σˆ βˆ 2
68
P (− t α / 2 • σˆ βˆ 2 ≤ βˆ 2 − β 2 ≤ t α / 2 • σˆ βˆ 2 ) = 1 − α
P (−βˆ 2 − t α / 2 • σˆ βˆ 2 ≤ − β 2 ≤ − βˆ 2 + t α / 2 • σˆ βˆ 2 ) = 1 − α
Por lo que finalmente:
P (βˆ 2 − t α / 2 • σˆ βˆ 2 ≤ β 2 ≤ βˆ 2 + t α / 2 • σˆ βˆ 2 ) = 1 − α
Esto implica que el intervalo de confianza para β 2 es:
IC β 2 = βˆ 2 ± t α / 2 σˆ βˆ
2
Y en forma similar:
IC β1 = βˆ 1 ± t α / 2 σˆ βˆ
1
2.4.4 Prueba de hipótesis

Nos interesa verificar si las observaciones muestrales son compatibles con determinada
hipótesis. Por ejemplo:
H 0 ) β2 = b
H1 ) β2 ≠ b
Para eso desarrollamos un procedimiento que nos permita decidir si se rechaza o no esa
hipótesis en base a la información muestral.
Hay dos enfoques de la prueba de hipótesis:
Enfoque del intervalo de confianza.
Supongamos que construimos un intervalo de confianza para β 2 . Luego es posible discutir
si el valor b que me estoy planteando como hipótesis nula cae o no dentro del intervalo.
Es decir buscamos un intervalo IC β 2 = βˆ 2 ± t α / 2 σˆ βˆ y luego

2
• Si b ∈ IC ⇒ No rech H0
• Si b ∉ IC ⇒ Rech Ho.
Rech H0 No rech H0 Rech H0
β 2 = βˆ 2 − t α / 2 σˆ βˆ β 2 = βˆ 2 + t α / 2 σˆ βˆ
2 2
69
Enfoque de pruebas de significación.

El procedimiento se basa en utilizar un estimador y su distribución, considerando que ésta
se cumple bajo la hipótesis nula.
βˆ 2 − β 2 βˆ − b
Sabemos que ~ t n − 2 , entonces bajo la hipótesis nula 2 ~ t n −2
σˆ βˆ σˆ βˆ
2 2
βˆ 2 − b
P (− t α / 2 ≤ ≤ t α / 2 ) =1 − α
σˆ βˆ 2
P (− t α / 2 • σˆ βˆ 2 ≤ βˆ 2 − b ≤ t α / 2 • σˆ βˆ 2 ) = 1 − α
P (− b − t α / 2 • σˆ βˆ 2 ≤ − βˆ 2 ≤ − b + t α / 2 • σˆ βˆ 2 ) = 1 − α
Por lo que finalmente:

P (b − t α / 2 • σˆ βˆ 2 ≤ βˆ 2 ≤ b + t α / 2 • σˆ βˆ 2 ) = 1 − α
Esto determina la región de aceptación y rechazo de la hipótesis:

r egión aceptación : b ± t α / 2 σˆ βˆ
2
βˆ 2 − b
Bajo Ho, ~ t n-2
σˆ ˆ
β2
α/2
-t c tc
0
bσ+βˆ 2
ˆ > ˆ
Rech Ho⇒β 2 tα /2
Rech Ho⇒ β 2 < b -σ βˆ 2 tα/2
ˆ ˆ
Acepto la hipótesis nula (Ho)

No rech H 0
Entonces rechazamos H0 si
• t >tc
Rech H0 si | t | > tc
• t < tc
70
βˆ 2 − b βˆ 2 − b
Como t = , entonces Rech H0 si > tc
σˆ βˆ σˆ βˆ
2 2
2.4.5 Recordando de inferencia:
1. Diferencia entre test a una o dos colas, viene dada por la hipótesis alternativa.
Una cola
H0 : β 2 = b 2
H1 : β2 > b 2
α
Rech H 0 si t > tc
tc
Dos colas
H 0 : β2 = b2
α /2 H1 : β 2 ≠ b 2
α/2 Rech H0 si |t| > tc
- tc tc
Si β̂2 cae en alguna de las colas de la distribución (Rech H0), puede ser por dos
razones
a. La hipótesis nula es cierta, pero se ha elegido una muestra equivocada.
b. La hipótesis nula es efectivamente falsa.

H0 cierto H0 falso
Rech H0 Error I Ok
No Rech H0 Ok Error II
Al hacer test de hipótesis, estoy fijando en α, la probabilidad de cometer error I.
71
β 2 bajo H0
β 2 bajo H1
α = P(Error Tipo I) = P(Rech H0/H0 es cierto)
Al minimizar la probabilidad de error I , se aumenta la probabilidad de cometer
error II.
β = P(Error Tipo II) = P(No Rech H0/H0 es falso)
3. La hipótesis nula más común utilizada:
H 0 : β2 = 0 βˆ 2
, luego, bajo la hipótesis nula t = ~ t n −2
H1 : β2 ≠ 0 σˆ ˆ β2
Objetivo: Evaluar si β 2 es significativamente distinto de cero. Si lo es se dice
que la variable X es significativa o relevante.

2.4.6 Ejemplos de Test De Hipótesis
Ejemplo 1
El caso más común es probar
72
H0 : β2 = 0
H1 : β2 ≠ 0
Para el ejemplo 2.1.7, teníamos que Yˆ = 3.6 + 0.75 X i y los desvíos estándar de los
coeficientes eran:
σˆ βˆ = 2.09
1
σˆ βˆ 2 = 0.256
Nos interesa saber si la variable X es estadísticamente significativa, esto es probar la

hipótesis nula de que β 2 = 0
Esto se puede hacer de dos maneras:
Por medio de un intervalo de confianza.
tα/2, 8 = t 0,025 = 2,306

IC β 2 0,75 – (2,306)(0,256) ≤ β 2 ≤ 0,75 + (2,306)( 0,256)
0.16≤ β 2≤1.34 IC 95%
Como el cero no pertenece al intervalo, rechazo la hipótesis nula a un 95% de nivel de
confianza. Esto significa que de cada 100 intervalos que se realicen, 95 contendrán el
verdadero valor de β 2. Pero luego de calculado uno (0,16; 1,34), la probabilidad de que β 2
esté contenido en él es 1 o 0. (o está o no está).
¿Cómo podemos producir intervalos menores?

• aumentar el nivel de confianza (reduciendo α).
• ampliar el tamaño de la muestra buscando reducir la varianza.
73
Por medio de una prueba de significación.
Rech Ho si |t |>2.306
βˆ 2 − 0 0,75
t= = = 2,93 > 2,3 ⇒ rech . H 0
σˆ ˆ 0,256
β2
0.025
-2.306 2.306
0
2.93
Rech β 2 =0 ⇒ β 2 es significativamente distinto de cero, X es significativo o

relevante para explicar Y.
Regla 2t
βˆ i
Cuando n = 20, P(t > 2,085) = 0,025 ⇒ si t = ≥ 2,0 estamos seguros que
σˆ βˆ i
rechazamos H 0 y el coeficiente βi es significativamente distinto de cero.
Salida de E-Views para este ejemplo:

Nos interesa ver solo la parte de la salida que hemos estudiado hasta ahora.
LS // Dependent Variable is Y
Date: 08/25/98 Time: 09:51
Sample: 1 10
Included observations: 10
Variable Coefficient Std. Error t-Statistic Prob.
C 3.600000 2.090177 1.722342 0.1233
X 0.750000 0.255738 2.932692 0.0189
R-squared 0.518092 Mean dependent var 9.600000
Adjusted R-squared 0.457854 S.D. dependent var 1.837873
S.E. of regression 1.353237 Akaike info criterion 0.781855
Sum squared resid 14.65000 Schwarz criterion 0.842372
Log likelihood -16.09866 F-statistic 8.600683
Durbin-Watson stat 2.346416 Prob(F-statistic) 0.018920
74
La salida tiene tres partes:

i) La primera indica la variable dependiente (Y), el período muestra utilizado (sample)
y su tamaño (número de observaciones).
ii) La segunda parte plantea las estimaciones de los coeficientes y sus varianzas. Se
muestran cinco columnas:
Variable: variables explicativas (siempre se identifica el intercepto con la letra C)
Coefficient: muestra los coeficientes estimados.

Std. Error: indica las estimaciones de los desvíos estándar de los coeficientes ( σˆ βˆ i ).
βˆ i
t-Statistic: presenta el valor del estadístico t (t = ) para la hipótesis nula β i=0. Para
σˆ βî
el ejemplo, vemos que el estadístico t del intercepto es menor que dos, por lo que
podríamos decir que la constante no es significativa.
Prob: el p-value, o sea, el nivel de significancia (α) máximo ex post que requerimos
para no rechazar la hipótesis nula. En este ejemplo, si trabajamos con α=1.8%, no
rechazamos la hipótesis de que β 2 =0.
iii) La tercera parte de la salida presenta indicadores de ajuste y otros estadísticos
veremos más adelante en este curso. Los que conocemos hasta ahora son:
R-squared: es el R2 de la regresión e indica que la regresión logra explicar el 51% de la

variación total de Y.
S.E. of regression: desvíación estándar de la regresión= σˆ =

∑e 2
i
n−2
suma al cuadrado de los residuos: ∑ e 2
Sum squared resid: i
Mean dependent var: Y
S.D. dependent var: desvíación estándar de la variable dependiente:

∑ (Y
i − Y)2
n −1
Ejemplo 2: Relación Error I y Error II

• Rech H0/H0 ⇒ Error de tipo I , P(Error I)=α
• no rech H0/H1 ⇒ Error de tipo II
Ejemplo:
Considere el siguiente modelo:
Yi = β 1 + β 2 Xi + µi
75
donde a priori se sabe que la varianza verdadera de µi es 40 (σ2 = 40).

Dado una muestra de 10 observaciones, se sabe que ∑X i = 20 y ∑X 2
i = 50 .
Usted está interesado en probar la hipótesis nula de que β 2 = 1, versus la hipótesis

alternativa de que β 2 > 1, con un nivel de significación de 5%. Si el verdadero valor
de β 2 es 4, ¿cuál es la probabilidad de que usted rechace correctamente la hipótesis
nula?
Sabemos que Yi = β 1 + β 2 X i + µ i
H0)β 2 = 1
H1)β 2 > 1
Se pide calcular la Probabilidad de rechazar H0 correctamente. Esto es, la probabilidad de
que rechacemos que β 2 =1, dado que en realidad es 4.
Debemos calcular Prob (rech H0 / β 2 =4)
βˆ 2 − 1
Bajo H0 , ~ N(0,1), porque se conoce la verdadera varianza de µi
σˆ
β2
Bajo H0,
β2~ N(1, σ ) Bajo H1,
β̂2 El área achurada es la que se nos pide
β2~ N(4,σ )
β̂2 calcular, es la P(rech H0, dado H 1) y es
igual a 1-P(no Rech H 0, dado H1)=1-β
1 4
No rech Ho β̂ c Rech Ho
Lo primero que debemos calcular es el área de rechazo. Sabemos que rechazamos H0 si

βˆ − 1
βˆ > βˆ c , Rech. H0 si 2 > 1,645
σˆ
β 2
Dada la información que conocemos:
76
σ 2µ = 40 

n = 10  2 1 1 1 40 40
 σ βˆ 2 = σ µ • = σ 2µ = σ µ2 = = =4
2
∑ i
X = 20  ∑ 1
x 2
∑ (X i − X) 2
∑X 2
1 − nX 2
50 − 10( 2) 2
10
∑ X i = 50
2

⇒ σ βˆ = 4 = 2
2
βˆ 2 − 1
Rech. H0 si > 1,645
2
ˆ
Rech Ho si β 2 > 1,645 * 2 + 1 = 4.29
ˆ
Rech Ho si β 2 > 4.29
Luego,
 βˆ − 4 4,29 − 4 
Pr ob(Re chH 0 / β2 = 4) = Pr ob (βˆ 2 > 4, 29 / β 2 = 4) = P  2 > 
 2 2 
 
= P(Z > 0,145) = 0,4443
Pr ob(Re chH / β2 = 4) = 0, 4443
0
2.5 ANALISIS DE VARIANZA
ANOVA ⇒ Es un test de significancia global del modelo en su conjunto.

⇒ Intenta medir el ajuste de la recta de regresión con el conjunto de datos
proveniente de la muestra.
La hipótesis a probar es3 :

H0 : β2 = 0
H1 : β2 ≠ 0
Trataremos de encontrar un nuevo estadístico que nos permita verificar esta hipótesis.
3
En el caso de la regresión simple, tanto la hipótesis a probar como el estadístico que utilizaremos son
coincidentes con un test de significancia. Esto debido a que solo existe una variable explicativa. Este
resultado no será igual en un modelo general.
77
Sabemos que:
βˆ 2 − β 2
~ N ( 0, 1) (1)
σβˆ
2
Si elevamos (1) al cuadrado, tenemos que (2) se distribuye chi-cuadrado con un grado de
libertad.
(βˆ 2 −β2 )2
~ χ1
2
(2)
σ 2
βˆ 2
Transformando (2):
βˆ 2 − β 2 (βˆ 2 − β 2 ) ∑ x 2i 2
= ~ χ1 (3)
σµ 2 1 σ 2
µ
∑ x 2i
Por otro lado sabemos que:
σˆ 2 (n − 2)
~ χ 2n− 2 ⇒
∑e 2
i
~ χ 2n− 2 (4)
σ 2
σ 2
Se puede demostrar que (3) y (4) son independientes y pueden formar una nueva expresión
que se distribuye F.
(βˆ 2 − β2 ) ∑x
2
2
i
σ 2µ
F= 1 ~ F1, n− 2 (5)
∑e 2
1
σ 2u
n −2
Simplificando (5)
F=
(βˆ 2 −β2 ) ∑x
2
2
i
~ F1, n − 2 (6)
∑e 2
1
n−2
Bajo H0 :
78
F=
∑x
βˆ 22 2
i
~ F1, n −2 (7)
∑e 2
1
n−2
Analizando esta expresión, vemos que el numerador coincide con la suma de cuadrados
explicados (SCE), y el denominador es la SCR dividida por sus grados de libertad.
SCE
F= ~ F1, n − 2 (8)
SCR / n − 2
Rechazo H0 , si el valor calculado del

SCE
estadístico F = es mayor
SCR / n − 2
α
α que F1, n − 2
0 Fα
Este test indica que el modelo es significativo en su conjunto, si el "efecto explicado por el
modelo" es suficientemente grande respecto al "ruido", a lo residual.
SCE
Si F = > Fα (1, n − 2) ⇒ Re ch. H 0
SCR / n − 2
Rechazo que β 2 = 0, si obtengo un valor del "aporte de X" respecto al residuo que
sea considerable. ¿Cuán considerable? El límite nos lo da el valor de tabla.
Grados de Libertad
Asociado a cada suma de cuadrados hay grados de libertad; (valores que pueden elegirse
arbitrariamente).
Suma de cuadrados Totales (SCT): tiene n-1 grados de libertad. Esto surge como
consecuencia de la pérdida de un grado de libertad, necesario para calcular Y .
Suma de cuadrados residuales (SCR): tiene n-2 grados de libertad. Se pierden dos grados
de libertad que son necesarios para asegurar que se cumplan las ecuaciones normales. Estas
79
condiciones son: ∑e i =0 
n-2
∑e i X i = 0
Suma de cuadrados explicados (SCE): dado βˆ 2 calculo SCE ⇒ tiene 1 g.l
Antes veíamos que al realizar una regresión, esto nos permitía dividir la variación total en
dos partes, la parte explicada por la regresión y la parte residual. Es decir que existen
distintas fuentes en que se descompone la variación total. Esto se puede resumir en esta
tabla a la que generalmente se conoce como TABLA ANOVA.
FUENTES DE VARIACION:
Suma de Cuadrados Grados de Libertad Suma Promedio de

Cuadrados
Regresión
∑x
SCE = βˆ 22 2
i
1 SCE/1
Residuo SCR = ∑ e 2
i
n-2 SCR/n-2
Total SCT = ∑ y12 n-1
Existe una forma alternativa de expresar (8) que también permite realizar el test:
SCE SCE SCE / SCT R2 (n − 2) R 2

F= = = = = ~ F1, n −2
SCR / n − 2 SCT − SCE SCT − SCE SCT − SCE 1− R 2
SCT
n −2 n−2 SCT( n − 2)
Verifiquemos ahora que este test, para el caso del modelo de regresión simple, es
equivalente a un test de significancia de β 2 .
Sabemos que
βˆ 2
βˆ ∑x
2 2 i
Re ch H si = >t
0 2 σˆ α / 2, n − 2
σˆ / ∑ x µ
µ i
80
Elevamos esta expresión al cuadrado,
βˆ 2 ∑ x 2 βˆ 2 ∑ x 2
Re ch H si 2 i = 2 i >F
0 2 2 1, n − 2
σˆ ∑ e /n −2
µ i
Esta expresión es la misma de (7).
Debemos recordar que el cualquier valor de la tabla t para k grados de libertad, elevado al
cuadrado es igual al valor de la tabla F en 1, k grados de libertad. En
particular t 2n − 2 = F1, n− 2 .
Este resultado no se verifica en regresiones con mayor número de variables explicativas.
2.6 PRUEBA DE NORMALIDAD

Las pruebas de hipótesis e intervalos de confianza estudiados, tienen como punto de partida
el supuesto de normalidad del residuo, si µ no es normal, estas pruebas no son validas.
Existen test que permiten verificar si los residuo calculados para una muestra en particular
(ei) provienen de una distribucion normal. Uno de ellos es el test de Jarque-Bera
Esta es una prueba asintótica que se basa en el tercer y cuarto momento de la distribución
(asimetría y curtosis respectivamente).
∑ (X − X)
3
i
coeficiente de simetría: S= n
σ3
∑ (X − X)
4
i
coeficiente de curtosis: C= n
σ4
Para una ditribución normal el coeficiente de asimetria es cero y el coeficiente de curtosis
es 3.
Bajo la hipótesis nula de que los residuos estan normalmente distribuidos, Jarque y Bera
 S 2 (C − 3) 2 
demostraron que asintóticamente el estadistico JB = n  +
24 
sigue una
6
distribución chi-cuadrado con dos grados de libertad. Si el valor JB es grande comparado
con el valor de una distribución chi-cuadrado con dos grados de libertad, rechazo la
hipótesis nula, rechazo normalidad.
81
3. MODELO DE REGRESIÓN MULTIP LE
3.1 DEFINICIONES
En algunas aplicaciones científicas (medicina, agronomía) los modelos de regresión

generalmente utilizados tienen una única variable explicativa (modelo simple). En
economía, sin embargo, es difícil tener un fenómeno explicado por una sola variable
explicativa. Generalmente,
Y = f(X1 , X2 , ...., Xk , µi) ⇒ a este tipo de modelo lo llamamos modelo múltiple.
Ejemplo: Vtas Empresa = f (PIB, tasa de interés real, Gastos Publicidad)
• Modelo de regresión poblacional múltiple
(1) Yi = β 1 + β 2 Xi2 + β 3 Xi3 + ......................+ β k Xik + µi para i =1,2, ....n

y donde Xik representa la observación i de la variable k.
(1) es equivalente a:
 Y 1 = β 1 + β 2 X 12 + β 3 X 13 + . . . + β k X 1k + µ 1


 Y 2 = β 1 + β 2 X 22 + β 3 X 23 + . . . + β k X 2 k + µ 2

•
(2) 
•
•

•
Y = β + β X
 n 1 2 n 2 + β 3 X n 3 + . . . + β k X nk + µ n
(2) es la forma abreviada de n ecuaciones con k incógnitas y por tanto se puede

escribir:
82
 Y1  1 X12 X 13 . X1k   β   µ 
Y  1 X 22 . X 2 k  β   µ 
1 1
X 23
 2   2   2
(3)  .  = . . . . .  .  +  . 
.  .  
.  .   . 
  
. . .
   
Yn  1 X n 2 X n3 . X nk  β k  µ n 
Definiendo las siguientes matrices:
 Y1  1 X 12 X13 . X 1k  β 1 
Y  1 X X 23 . X 2k  β 
 2  22
 2
Yn×1 = .  X n× k = . . . . .  β k×1 = . 
.     . 
  . . . . . 
β 
 Yn  1 X n2 Xn3 . X nk   k
µ1 
µ 
 2
µ n×1 = . 
 . 
µ 
 n
Podemos expresar (3) de la siguiente forma:
(4) Yn×1 = X n× k β k ×1 + µ n×1
• Modelo de regresión muestral múltiple
(5) Yˆ i = βˆ 1 + βˆ 2 X i2 + βˆ 3 X i3 + . . . + βˆ k X ik para i=1,2,.....n
Nuevamente tenemos un sistema de n ecuaciones, que puede transformarse en:
83
Yˆ1 = βˆ 1 + βˆ 2 X12 + βˆ 3 X 13 + . . . + βˆ k X1k



ˆ ˆ ˆ ˆ ˆ
Y2 = β 1 + β 2 X 22 + β 3 X 23 + . . . + β k X 2k
•
(6) 
•
•

•
ˆ
Yn = βˆ 1 + βˆ 2 X n2 + βˆ 3 X n 3 + . . . + βˆ k X nk
Utilizando las definiciones matriciales anteriores y agregando:

Yˆ   βˆ 
ˆ1 ˆ 1 
 Y2  β 2 
Yˆn×1 = .  βˆ k×1 = . 
.   
   . 
Yˆ  βˆ k 
 n
(6) se puede transformar en:
(7) Yˆn×1 = X n ×k βˆ k×1
Además tenemos que:
(8) Y i = βˆ 1 + βˆ 2 X i2 + βˆ 3 X i3 + . . . + βˆ k X ik + e i
e 1 
e 
 2
Con lo que definiendo e n×1 = .  , lo podemos transformar en forma matricial como
 
. 
e n 
 
(9) Yn×1 = X n ×k βˆ k×1 + e n×1
• De la diferencia entre (9) y (7), sale la definición del error:
84
 e1 
e 
 2
(10) e n×1 = .  = Y − Y
ˆ = Y − Xβˆ
 
. 
en 
 
Entonces:
Y = Xβ + µ
Yˆ = Xβˆ 
 ˆ ˆ
 e = Xβ + u − Xβ = X(β − β) + µ

e = Y − Xβˆ 
⇓
Yˆ + e = Xβˆ + Y − Xβˆ = Y
3.2 ESTIMADORES MICO

Al igual que antes se trata de minimizar ∑e 2
i
3.2.1 Primera forma de derivación.
∑e ∑ (Y
2
min Q = min i
= min i − βˆ 1 − βˆ 2 X i2 − βˆ 3 Xi 3 − …… βˆ k X ik ) 2
Ahora tenemos k ecuaciones normales

 ∂Q
(1) = 2 ∑ (Yi − βˆ 1 − βˆ 2 X i2 − βˆ 3 X i3 − … − βˆ k X ik )( −1) = 0
ˆ
∂β
 1
 ∂Q
( 2) = 2 ∑ ( Yi − βˆ 1 − βˆ 2 X i 2 − βˆ 3 X i3 − … − βˆ k X ik )( −X i2 ) = 0
 ˆ
∂β

2
(11) •
•

•

∂Q
( k ) = 2 ∑ (Yi − βˆ 1 − βˆ 2 X i2 − βˆ k X i3 − … − βˆ k X ik )( −X ik ) = 0
 ˆ
∂β
 k
85
Trabajando:
(1) ∑ Yi = Nβˆ 1 + βˆ 2 ∑ X i2 … + βˆ k ∑ X ik

( 2) Y X = βˆ
 ∑ i i2 1 ∑ X i 2 + β 2 ∑ X i 2 + … + β k ∑ X ik X i 2
2
ˆ ˆ
(12) •
•
•
( k ) ∑ Y X = βˆ ∑ X + βˆ ∑ X X + … + βˆ ∑ X 2
 i ik 1 ik 2 i2 ik k ik
Matricialmente podemos expresar esto de la siguiente manera (Demostrarlo):
 1
X
1 . . 1   Y1   n ∑X i2 . . ∑X ik
  βˆ 1 
 ˆ 
X 22 . . X n2   Y2  ∑ X i 2 ∑X 2
. . ∑X X ik  β 2 
 12   i2 i2
(13)  . . . . .  .  =  . . . . .  . 
    
 . . . . .   .   . . . . .  . 
X 1k
 X 2k . . X nk   Yn   ∑ X ik ∑ X i 2 X ik . . ∑ X ik  βˆ k 
2
Y dadas las definiciones anteriores,
1 X 12 X13 . X 1k   1 1 . . 1 
1 X X 23 . X 2k  X X 22 . . X n 2 
 22  12
X n×k = . . . . .  X 'k× n = . . . . . 
   
. . . . .   . . . . . 
1 X n2 X n3 . X nk   X1k X2k . . X nk 

 n

∑X i2 . . ∑X ik


 ∑ X i2 ∑X ∑X X
2
i2 . . i2 ik 
X' X =  . . . . . 
 
 . . . . . 
 ∑ ik ∑X ∑ ik 
 X X ik . . X 2
i2
Entonces (13) puede expresarse:
(14) X' Y = X' X βˆ Esta expresión representa el conjunto de ecuaciones normales.
86
la matriz X’X tiene las siguientes características:

- simetría
- de dimensión k x k (cuadrada)
- en la diagonal principal aparecen la suma de cuadrados de cada variable y en el
resto las sumas de productos cruzados.
Si (X’X)-1 existe puedo postmultiplicar (14) por (X’X)-1
(15) ( X' X) −1 X' Y = ( X' X) −1 X' X βˆ , con lo que:
(16) ( X' X) −1 X' Y = I βˆ
(17) βˆ = ( X' X) −1 X' Y
Esta es la fórmula matricial que estabamos buscando y que resume los k estimadores
MICO.
Pero, ¿necesitamos algún supuesto para obtener los β̂ ?
Sí, necesitamos que X’X sea invertible

¿Cuándo una matriz es invertible?
- Si es cuadrada
- Si no se pueden expresar las filas o las columnas como combinación lineal
entre sí ⇔ la matriz es de rango completo ⇔ el determinante de la matriz
es distinto de cero.
Esto implica que para poder calcular β̂ , las variables explicativas que son las que forman
X’X, tendrán que cumplir con determinadas condiciones que aseguren que la matriz sea
invertible.
87
3.2.2 Otra forma de encontrar β̂
Queremos minimizar ∑e 2
i y esto es equivalente a minimizar e’e, porque
 e1 
 
e 
( e1 … e n ) 2  = e' e = ∑ e 2i
.
 
e 
 n
Como :
e = Y - X β̂
e’e = (Y - X β̂)’ (Y - Xβˆ ) ⇒ Debemos minimizar e’e
Algunas propiedades de operaciones con matrices:

- (A + B)’ = A’ + B’
- (A B)’ = B’A’
- (A’)’ = A
- (A-1 )’ = (A’)-1
∂z ' Az
- z’Az es una forma cuadrática⇒ = 2Az
∂z
min ∑e 2
i = min e' e = min
ˆβ
( Y − Xβˆ )' ( Y − Xβˆ )
min (Y − X βˆ )' ( Y − Xβˆ ) = ( Y' − βˆ ' X' )( Y − Xβˆ ) = Y' Y − Y βˆ 2

− βˆ4 Y + βˆ ' X' X βˆ
1' 4
X4 ' X4
'3
ˆβ
*
¿A qué son iguales estos dos términos (*)?
Y'1× n X n× k βˆ k ×1 = escalar por ser de orden 1×1
βˆ ' 1× k X' k×n Yn×1 = escalar por ser de orden 1×1
Son escalares y uno es el transpuesto del otro ⇒ puedo sustituirlo por − 2 βˆ ' X' Y
88
Debemos minQ = Y ' Y − 2βˆ ' X ' Y + βˆ ' X ' Xβˆ

βˆ
∂Q ∂Y' Y ∂ (−2βˆ ' X' Y) ∂(βˆ ' X' Xβˆ )

= + + =0
ˆ
∂β ˆ
∂β ∂β ˆ ˆ
∂β
∂Q ∂ ( −2βˆ ' X ' Y ) ∂(βˆ ' X ' Xβˆ )
= + =0
∂βˆ ∂βˆ ∂βˆ
∂( −2βˆ ' X ' Y)
• Queremos encontrar ,
∂βˆ
Sea a un vector de constantes,
 a1 
 
∂( a ' b) ∂ (a 1b 1 + a 2 b 2 + L a k b k )  a 2 
= = = a
∂b  b1  M
   
∂ M   
ak 
b 
 k
∂( −2βˆ ' X ' Y)
Luego, = -2X’Y
∂βˆ
∂(βˆ ' X ' Xβˆ )
•
∂βˆ
Sea A una matriz de constantes simétrica,
 a 11 a 12 L a 1k 
 
a a 22 L a 2k 
A=  12 , entonces:
L L L L
 
a L a kk 
 1k a 2k
b’Ab=
a 11b 12 + 2a 12b 1b 2 + 2a 13b1 b 3 + L + 2a 1k b1b k +
+ a 22b 22 + 2a 23b 2 b 3 + L + 2a 2k b 2 b k +
O
+ a kk b 2k
89
 2( a 11b1 + a 12b 2 + L + a 1k b k   2a1b   a1 

∂( b' Ab)      
= M  =  M  = 2 M b = 2Ab
b1   2( a b + a b + L + a b   2a b a 
b   1k 1 2k 2 kk k   k   k
∂ 2 
M
 
b k 
∂(βˆ ' X ' Xβˆ )
Luego, = 2X ' Xβˆ
∂βˆ
∂Q
= − 2 X' Y + 2 X' Xβˆ = 0
∂βˆ
Con lo que:
2 X' Xβˆ = 2X' Y

X' Xβˆ = X' Y Si (X' X) −1 existe
βˆ = ( X' X) −1 X' Y
Condiciones de segundo orden
∂ 2Q
= 2X' X
(∂βˆ )(∂βˆ )'
Las condiciones de mínimo implican que esta matriz debe ser definida positiva. Para
comprobar esto definamos d cualquier vector no nulo de k elementos y c un vector de n
elementos tal que c=Xd. Como X es de rango completo por columna esto implica que c sea
no nulo (de lo contrario habría dependencia lineal entre las columnas de X).
Por lo tanto,
c’c= d’X’Xd >0 y entonces X’X es definida positiva.
3.2.3 Deducción de los estimadores MICO en el modelo simple.
βˆ = ( X' X) −1 X' Y
Yi = β 1 + β 2 X i 2 + µ i
¿Cómo son las matrices para este caso en particular?
90
1 X 12 
1 Y1 
 X 12  1……………1   : 
X = : 
:  X' =   Y= 
    : 
: :   X12 X 22 … X n 2   
1  Yn 
 X n2 
1 X12 
1 X 
 1
X' X = 
1 . . 1 

. .
22 
. =
 n ∑X i2


 ∑ X i2 ∑X 2
 X12 X 22 . . X n 2 
. .   i2 
1 X n 2 
( A c )' matriz de cofactores transp uesta

Recordar: A −1 = =
A determinan te de A
La matriz de cofactores se forma de sustituir cada elemento de la matriz por su

correspondiente cofactor Cij. Donde Cij=(-1)i+j Mij , siendo Mij (menor) el determinante de
la submatriz que se forma cuando a la matriz A se le elimina la fila i y la columna j.
−1 1  ∑ X 2i2 − ∑ Xi2 
( X' X) =  
n∑ X 2i2 − ( ∑ X i 2 ) 2 − ∑ X i2 n 


∑ X 2i2 − ∑ Xi2 

 n ∑ X i 2 − ( ∑ X i2 ) n ∑ X 2i2 − (∑ X i 2 ) 2 
2 2
( X' X) −1 = 
 
 − ∑ X i2 n 
n X 2 − ( X )2 2 
 ∑ i 2 ∑ i2 n ∑ X i2 − (∑ X i 2 ) 
2
Y1 
 :  
 1
X' Y = 
1 . . 1    =  ∑ Yi 
. . X n 2 
.
 X12 X 22  :   ∑ X i2 Yi 
 
Yn 
Reemplazando en la fórmula encontrada para β̂ , tenemos:
91


∑ X i22 − ∑ X i2 

 n ∑ X i2 − (∑ X i 2 ) n ∑ X i22 − ( ∑ X i2 ) 2   ∑ Yi 
2 2
βˆ = ( X' X) −1 X' Y =   
   
 − ∑ Xi2 n  ∑ i 2 i 
 X Y
n X2 − ( X )2 2 
 ∑ i2 ∑ i 2 n ∑ X i 2 − ( ∑ X i2 ) 
2
Multiplicando:
 ∑ X 2i 2 ∑ Yi − ∑ X i 2 ∑ X i2 Yi 
 
 n ∑ X 2i2 − ( ∑ X i2 ) 2 
βˆ = (X' X) −1 X' Y =  
 
 − ∑ X i 2 ∑ Yi + n∑ X i 2 Yi 
 n ∑ X 2i2 − ( ∑ X i2 ) 2 
 
Reemplazando ∑Y i = nY y ∑X i = nX y dividiendo entre n, obtenemos:
 ∑ X 2i2 nY − n X∑ X i 2 Yi   ∑ X 2i2 Y − X∑ X i2 Yi 
   
 n ∑ X 2i 2 − ( nX) 2   ∑ X 2i2 − nX 2 
   
βˆ = ( X' X) X' Y = 
−
=
1

 − nXnY + n ∑ X i2 Yi   − nX Y + ∑ X i 2 Yi 
   
 n ∑ X 2i 2 − ( nX) 2   ∑ X 2i2 − nX 2 
 ∑ X 2i 2 Y − X∑ X i 2 Yi 
 
 ∑ X i22 − n X 2 
ˆβ =  
 
 ∑ X i2 Yi − nXY 
 
 ∑ X i22 − n X 2 
En la segunda fila obtenemos una formula que es idéntica a la que teníamos en el modelo
simple.
92
 ∑ X 2i2 Y − X( ∑ X i2 Yi − n XY + nXY) 
 
ˆβ = 

∑ X 2i2 − nX 2 

 
 ˆβ
2

 ∑ X 2i 2 Y −nX 2 Y X( ∑ X i 2 Yi − nXY) 
 ∑ X Y −nX Y − X (∑ X i 2 Yi − nXY )  
2 2 − 

i2
  ∑ X 2i2 − nX 2 ∑ X 2i 2 − nX 2 
ˆβ =  ∑ X 2i2 − nX 2 = 
   
   β2
ˆ 
 βˆ 2   
 
Simplificando:
  ∑ X i22 −nX 2 
 − X ∑ X i2 Yi − n XY  
 
 Y
  ∑ X i22 − n X 2  
 ∑ X 2i2 − nX 2  
ˆβ =   Y − Xβˆ 2 
 = 
   βˆ 2 
 βˆ 2 
 
 
Con lo que:
   
   
 Y − βˆ 2 X  Y − βˆ 2 X 
βˆ =  = 
   
 ∑ X i 2 Yi − nXY   ∑ x i 2 y i 
   
 ∑ X i2 − nX   ∑ x i2 
2 2 2
Para el caso de la regresión con intercepto y dos variables:
Yi = β 1 + β 2 X i2 + β 3 X i3 + µ i
93
1 X 12 X13 
1 X X 23 
 22  n

∑X i2 ∑X i3


= . .  X' X =  ∑ X i2 ∑X ∑X X
2
X n×3 . i2 i2 i3 
   ∑ X i3
. . .   ∑X X i2 i3 ∑X 2
i3


1 X n2 X n 3 
 ∑ Yi 
 
X ' Y =  ∑ X i2 Yi 
 ∑ X i3 Yi 
 
3.2.4 Una interpretación de los estimadores MICO.
En el modelo simple Ŷi = βˆ 1 + βˆ 2 X i 2 + e i nos interesaba medir el efecto de la variable

explicativa sobre la variable explicada. Este efecto se cuantifica a través de β̂ 2 .
Cuando tenemos un modelo múltiple, Y i = βˆ 1 + βˆ 2 X i2 + βˆ 3 X i3 + . . . + βˆ k X ik + e i , los

coeficientes β̂i estimados miden el efecto parcial de la variable Xi sobre Yi. Esto es, el
efecto de Xi sobre Yi luego de eliminados los efectos de las otras variables sobre Xi .
Para entender esto veamos algunos diagramas de Ballentine.
Supongamos que el modelo es Ŷi = βˆ 1 + βˆ X X i + e i . En el diagrama que sigue el circulo Y
representa la variación de la variable dependiente y el circulo X representa la variación de
la variable explicativa. El área achurada donde se sobreponen los dos círculos, representa la
variación que es común entre X e Y y que por tanto puede ser explicada por MICO. Esta
área representa la información que es utilizada para calcular β̂ x . Cuanto mayor esta área,
mayor la información y por tanto menor la varianza del coeficiente.
X Y
Consideremos ahora que se incluye una nueva variable explicativa Z, de forma que el
modelo es Ŷi = βˆ + βˆ x X i + βˆ z Z i + e i
94
*
X * * * Y
* * * *
•
• •
∇
•
∇ ∇∇
• • •
∇∇ ∇
• • • •
∇ ∇ ∇ ∇
• •
En general existirá una zona (triángulos y rayas) en que X y Z se overlapan. Si Y fuera

explicada sólo por X, para calcular βˆ x se utilizaría la información común entre X e Y
(rayas y asteriscos). Si Y fuera explicada sólo por Z, para calcular βˆ z se utilizaría la
información común entre Y y Z (rayas y puntos).
En la regresión múltiple se incluyen X y Z como variables explicativas. Para calcular
βˆ x se usa la intersección entre X e Y, luego de eliminar la intersección entre X y Z. Es
decir que el estimador es calculado usando sólo la información representada por el área
marcada con asteriscos. En forma análoga, la información contenida en el área con puntos
es la única utilizada para calcular βˆ z . La información contenida en el área rayada no es
utilizada porque al reflejar la variación en Y que es determinada en conjunto por X y Z no
permite aislar sus efectos y asignarlos a cada estimador.
Debe notarse que al agregara variables explicativas los parámetros del modelo son
calculados utilizando cada vez menos información. Esto provocará un incremento de las
varianzas de los estimadores.
Además, debe tenerse en cuenta que la información utilizada en la estimación de los
parámetros (y por tanto su varianza) dependerá de cuanta información común exista entre
las variables explicativas utilizadas.
Cuanto mayor el área común entre X y Z (mayor colinealidad entre las variables
explicativas), menor resultarán las áreas de puntos y asteriscos y por tanto mayor la
varianza de los estimadores. Si la colinealidad es perfecta los círculos X e Z se overlapan
completamente haciendo imposible la estimación.
Por el contrario, si no existe ningún área común entre X y Z (si son ortogonales) no existe
zona rayada y por tanto los estimadores encontrados en la regresión múltiple serían los
mismos que en dos regresiones simples (una respecto a X y otra respecto a Z).
95
3.2.5 Corolarios de los Estimadores MICO

Ortogonalidad del residuo
(1) ˆ = Y − Xβˆ
e=Y−Y
(2) Y = Xβˆ + e
De las ecuaciones normales sabemos que:
( X' X) βˆ = X' Y
( X' X) βˆ = X' ( Xβˆ + e)
( X' X) βˆ = X' X βˆ + X' e
Con lo que: X' e = 0
¿Qué significa?
 1 1 . . 1   e1   ∑ e i  0
   
 X12 X 22 . . X n 2  e 2  ∑ e i X i2  0
   
X' e =  . . . . .  e 3  = ∑ e i X i3  = 0
      
 . . . . .  .   .  .
X 1k
 X 2k . . X n k  e n  ∑ e i X ik  0
La igualdad de la primera fila implica que si la regresión tiene constante e = 0 .

Los elementos restante indican que la correlación muestral entre los residuos y cada
variable Xi es cero. En términos matriciales esto implica que el vector de errores es
ortogonal a la matriz X de variables del modelo.
Recordar: dos vectores a y b son ortogonales si a ' b = 0 . Un vector como e, que es

ortogonal a cualquier vector del hiperplano generado por las columnas de X, se dice que es
normal al hiperplano.
El hiperplano de regresión pasa por el punto determinado por las medias muestrales de
todas las variables involucradas en el modelo. ( X 2 , X 3 ,...., X k , Y) , siempre que éste posea
intercepto.
Esto debido a que la primera ecuación de (12) implica que
Y = βˆ + βˆ X + βˆ X + .... + βˆ X
1 2 2 3 3 k k
96
Descomposición en suma de cuadrados.
Recordar que en el modelo lineal simple:
SCT=SCE+SCR
∑y 2
i = βˆ 22 ∑ x + ∑ e = ∑ ŷ + ∑ e
2
i
2
i
2
i
2
i
Ahora:
• SCT
SCT = Σy i2 = Σ(Yi − Y) 2 = ∑ Yi2 − n Y 2
  Y1  
  
  Y2  
Dado que Y' Y = (Y1 Y2 . . Yn ) .   = ∑ Yi
2
  
  . 
  
  Yn  
Luego, SCT = Y ' Y − nY 2
Definiendo: y' = ( Y − Y )' , SCT también es igual a y' y = Y ' Y − NY 2
• SCE
SCE = ∑ ŷ i2 = ∑ ( Y
ˆ −Y
i
ˆ )2
ˆ = Y (demostrarlo de tarea) y que Yˆ = X βˆ

Dado que Y
=∑ Y
ˆ 2 − nY 2 = Y
i
ˆ 'Y
ˆ − NY 2 = βˆ ' X' Xβˆ − N Y 2
SCE = βˆ ' X' Xβˆ − N Y 2
• SCR ⇒SCR= ∑ e i2 = e' e
Demostración:
Y = ( Xβˆ + e )
97
Y' Y = ( Xβˆ + e )' ( Xβˆ + e )

Y' Y = (βˆ ' X'+e' ) ( Xβˆ + e) = βˆ ' X' Xβˆ + βˆ ' X' e + e ' Xβˆ + e ' e
Dado corolario 1 ⇒ βˆ ' X' e = 0 y e ' Xβˆ = 0
Luego: Y' Y = βˆ ' X' Xβˆ + e' e (*)
Finalmente, restando a ambos lados n Y 2
Y' Y − nY 2 = βˆ ' X' Xβˆ − nY 2 + e ' e (**)
Obtenemos el mismo resultado anterior:
SCT= SCE+SCR ⇒ es decir que en el modelo múltiple también es posible dividir la suma
de cuadrados totales en dos partes, una explicada por el modelo y otra residual.
Otra forma de expresar este resultado:
Dado:
βˆ = ( X' X) −1 X' Y
(*) Es equivalente a:
Y ' Y = βˆ 'X ' X ( X ' X ) −1 X ' Y + e ' e = βˆ ' X ' Y + e' e

14 4244 3
I
( )
Y' Y = ( X' X) −1 X' Y ' X' Y + e' e = Y' X (X' X) −1 X' Y + e' e
El modelo en desvíos.
Yi = βˆ 1 + βˆ 2 X i2 + βˆ 3 X i3 + ........ + βˆ k X ik + e i (1)
Σ Yi ΣX i2 ΣX i3 Σ X ik Σe i
= βˆ 1 + βˆ 2 + βˆ 3 + ........ + βˆ k +
n n n n n
Y = βˆ 1 + βˆ 2 X 2 + βˆ 3 X 3 + ........ + βˆ k X k
98
βˆ 1 = Y − βˆ 2 X 2 − βˆ 3 X 3 − ........ − βˆ k X k (2)
Sustituyendo (2) en (1):

(1) Yi = βˆ 1 + βˆ 2 X i 2 + ........ + βˆ k X ik + e i
Yi = (Y − βˆ 2 X 2 − ........ − βˆ k X k ) + βˆ 2 X i 2 + ........ + βˆ k X ik + e i
Yi = Y − βˆ 2 X 2 − ........ − βˆ k X k + βˆ 2 X i2 + ...... + βˆ k X ik + e i
Yi − Y = βˆ 2 ( X i2 − X 2 ) + βˆ 3 ( X i3 − X 3 ) ........ βˆ k ( X ik − X k ) + e i
y i = βˆ 2 x i 2 + βˆ 3 x i3 + ........ + βˆ k x ik + e i ⇒ el modelo se puede expresar en desvíos.
¿Cómo son las matrices?
 Y1 − Y   y 1   X 12 − X 2 . X1k − X k   x 12 . x 1k 
Y − Y   y 2 
. .
 2    X − X . . X 2 k − X k   x 22 . . x 2 k 
y= . = .  x n×( k −1) =  22 2
=
.   .   . . . .   . . . . 
       
Yn − Y   y n  X n2 − X 2 . . X nk − X k   x n 2 . . x nk 
βˆ 2 
ˆ 
β
ˆβ*( k−1)×1 =  3 
 . 
ˆ 
β k 
Con lo que y = x βˆ * + e
ŷ = x βˆ *
Notar que el vector β̂ * no incluye β̂1
Derivación de MICO en desvíos:

ŷ = x βˆ *
e = y − ŷ = y − x βˆ *
e' e = ( y − xβˆ * )' ( y − xβˆ * ) = y ' y − y ' xβˆ * − βˆ * ' x ' y + βˆ * ' x ' xβˆ * = y' y - 2βˆ * ' x ' y + βˆ * ' x ' xβˆ
99
∂e' e
= − 2x ' y + 2x ' xβˆ * = 0
∂βˆ
= − x ' y + x ' xβˆ * = 0

si x’x es invertible
⇓
βˆ * = ( x ' x ) −1 x' y
Es decir que la fórmula de calculo de los estimadores no cambia al utilizar las variables en
desvíos respecto a la media. A esto debe agregarse:
βˆ 1 = Y − βˆ 2 X 2 + βˆ 3 X 3 + ........ + βˆ k X k
Suma de cuadrados en desvíos:

y = x βˆ * + e
y' y = ( xβˆ * + e )' ( xβˆ * + e) = (βˆ * x '+e ' )( xβˆ * + e) = βˆ * ' x ' xβˆ * + βˆ * ' x ' e + e' xβˆ * + e' e = βˆ * ' x ' xβˆ * + e' e
Con x' e = e' x = 0
SCT = y' y 
*
SCE = ŷ' ŷ = βˆ ' x ' x βˆ  y ' y = βˆ * ' x ' x βˆ * + e' e = SCE + SCR
*
SCR = e' e 

Notar que cuando las variables están expresadas en desvíos, no es necesario restar el
término n Y 2 para el cálculo de la suma de cuadrados totales y de la suma de
cuadrados explicados.
Coeficiente de determinación: R2
SCE βˆ ' X ' X βˆ − n Y βˆ ' X ' Y − n Y βˆ ' x ' xβˆ βˆ ' x ' y
2 2 * *
R2 = = = = =
SCT Y' Y − n Y 2 Y' Y − n Y 2 y' y y' y
SCT − SCR SCR e'e e' e

R2 = =1 − =1 − =1 −
SCT SCT Y' Y − n Y 2
y' y
El R2 corregido.
2
El R múltiple tiene un problema
100
(1) Yi = β 1 + β 2 X i 2 + µ i
(2) Yi = β 1 + β 2 X i 2 + β 3 X i3 + µ i
Yi es la misma ⇒ ¿qué ocurre con SCT? es la misma ya que no cambia la muestra.
 SCT1 = SCE1 + SCR 1


SCT2 = SCE 2 + SCR 2
Sin embargo, sólo por agregar una nueva variable (“algo explica”), la SCR2 disminuye,
provocando un aumento R2 cuando aumenta k. Por esta razón, para comparar el R2 de dos
regresiones, estas deben tener igual numero de variables.
2
Para evitar este problema se define un R corregido por grados de libertad
e' e e' e
R 2c = 1 − n −k = 1− n −k
Y' Y − nY 2 y' y
n −1 n −1
¿Qué relación tiene R2 y R C2 ?
e' e n −1 n −1
R 2c = 1 − • = 1 − (1 − R 2
)
n − k Y' Y − n Y 2 n−k
n −1
= R 2 − R 2 + 1 −  
(1 − R )
2
n −k 
n −1 n −1 
= R 2 + (1 − R 2 ) −   2 
(1 − R ) = R + (1 − R ) 1 − 
2 2
n−k   n −k 
n − k − n +1 2  k −1 
= R 2 + (1 − R 2 )   = R − (1 − R ) 
2

 n−k  n −k 
2  k −1 
R C = R − (1 − R )  
2 2
n −k 
1−k 2  1− n 
Otra formula: R 2c = +R  
n −k n−k
Para entender esto:
Supongamos que tenemos dos observaciones:
101
Y
Yi = β 1 + β 2 X i + µ i
*
Y *
X X
La recta va a tener que pasar por los dos puntos ⇒ minimizar la ∑e 2

i implica que
Σe 2
∑e 2
i = 0 , con lo que R 2 = 1 −
Σy
= 1 . Esto significaría un ajuste perfecto, sin embargo,
i
2
1
no tiene ninguna significancia estadística. El R C2 está indeterminado.

0
Σe 2i / n − 2 0
R =1 −2
=1− .
Σy i / n −1 Σy i / n − 1
c 2 2
Algunas propiedades:
i) R C2 < R 2 , son iguales cuando la correlación es perfecta.
ii) Si aumenta el tamaño muestral, dado k, el R C2 tiende al R 2
iii) Dado n, al aumentar el número de variables explicativas, (R 2 - R C2 ) aumenta.
iv) R C2 puede ser negativo.
3.3 SUPUESTOS CLÁSICOS

Al igual que en el modelo simple, requerimos una serie de supuestos (supuestos clásicos)
para determinar las propiedades estadísticas de los estimadores MICO.
Estos supuestos clásicos para el modelo de regresión múltiple son equivalentes a los del
modelo simple y se pueden expresar en notación escalar o matricial.
Y = βX + µ
Notación escalar Notación matricial
1. X2 .... Xk son no estocásticas Xnxk es no estocástica
102
2. E(µi) = 0 ∀i E(µ) = 0 n×1 donde µn×1
2
3. Homocedasticidad y no autocorrelación E(µµ’) = σ I
0 i≠j
COV(µi, µj)= E (µ i µ j ) =  2
σ i = j
4. Ausencia de multicolinealidad perfecta. Rango de X=ρ(X) = k

Las Xi no son combinación lineal exacta entre
sí
5. ui ~ N(0, σ2 ) ∀i 2
u ~ N(0, σ I)
Explicación
1. Todo nuestro análisis está condicionado a conocer X que se supone se mantiene fija
en distintas muestras. Esto implica que la única fuente de variación de Y viene dada
por µi. Este supuesto se puede relajar suponiendo X estocásticos, pero
independientes de µ.
2. E (µ ) = 0
 µ 1   E( µ 1 )   0 
     
 µ 2   E (µ 2 )   0 
E (µ) = E   =  = = 0 nx1
. .  .
     
 µ   E( µ )   0 
 n  n   
Esto permite calcular:
E(Y/X) = E(Xβ + µ) = Xβ + E(µ) = Xβ
Es decir que se cometen errores pero en promedio estaremos sobre el plano de
regresión.
2
3. E(µµ‘) = σ I
En general
Varianza de X = E [( X − E( X))( X − E (X))' ] = E [(X − µ)( X − µ )'] =
103
 X1 − µ  
  
 X 2 − µ  
= E  . (X1 − µ X 2 − µ . . X n − µ )
  
 .  
 X − µ  
 n  
 ( X − µ) 2 ( X − µ )( X − µ) ( X − µ)( X − µ ) 
 1 1 2
. .
1 n
 
 . ( X − µ) 2 . . . 
2
=E . . . . . 
 
 . . 
 
 (X − µ ) 2 
 n 
 E( X − µ ) 2 E (X − µ)( X − µ) E( X − µ)( X − µ ) 
 1 1 2
. .
1 n
 
 . E( X − µ ) 2 . . . 
2
=  . . . . . 
 
 . . 
 
 E( X − µ) 2 
 n 
 VAR (X 1 ) Cov (X 1 , X 2 ) … Cov ( X1 , X n ) 
 
 Cov ( X 1 , X 2 ) . 
=  .  =matriz varianza y
 
 . 
 VAR ( X n ) 

covarianza
En nuestro caso la variable aleatoria es µ y su esperanza es 0. Por lo tanto,
 µ 1   µ 12 µ 1µ 2 . . µ 1µ n 
    
 µ 2    µ 22 
E(µµ‘) = E  . (µ 1 µ2 . . µ n ) = E . 
    
 .    . 
 µ    2 
µn 
 n   
104
E( µ 12 ) E (µ 1µ 2 ) . . E(µ 1µ n )  σ 2 0 . . 0 1 0 . . 0
    0 1 
 E(µ 22 )   σ2   
= . = .  = σ2  1 
     
 .   .   . 0
 E (µ n )  
2
σ 2   0 1

E(µµ‘)=σ2 Inxn
4. El rango de X es k.
Este es un requisito que permite invertir X’X y que es necesario para obtener
estimadores MICO β̂ en forma única.
• Rango de una matriz

Una matriz Am×n puede interpretarse como una colección de m vectores fila de
dimensión n, o como una colección de n vectores columna de dimensión m. Entonces,
podemos hablarse de filas linealmente independientes (LI) o linealmente dependientes
(LD).
Se denomina rango de la matriz a máximo número de columnas (o filas) LI.
Propiedades:
⇒ El número máximo de filas LI es igual al número máximo de columnas LI
⇒ Rango (Am×n )≤ min (m,n)
⇒ Rango A=Rango A’
⇒ Si rango Am×n =m=n, entonces A es no singular y su inversa existe y es única.
⇒ Rango (X’X) = Rango (XX’) = Rango de X
2
5. µ ~ N (0, σ I) es normal multivariante.
105
3.4 PROPIEDADES ESTADÍSTICAS DE LOS ESTIMADORES MICO.
3.5.1 Linealidad
βˆ = ( X' X) −1 X' Y
El estimador es lineal en Y, ya que cada elemento de β̂ es una combinación lineal

de los elementos de Y. Las ponderaciones son funciones de los datos X, que son no
estocásticos.
3.5.2 Insesgamiento
βˆ = ( X' X) −1 X' Y
βˆ = ( X' X) −1 X' ( Xβ + µ )
βˆ = ( X' X) −1 X' X β + ( X' X) −1 X' µ = β + ( X' X) −1 X' µ

⇓
I
βˆ = β + (X' X) −1 X' µ
[
E (βˆ ) = E(β) + E ( X' X) −1 X' µ ]
E (βˆ ) = β + (X' X) −1 X' E (µ)
E (βˆ ) = β Es insesgado
3.5.3 Eficiencia
3.5.3.1 Matriz de Varianzas y Covarianzas.
Var − Cov(βˆ ) = V(βˆ ) = E[ (βˆ − E (βˆ )) (βˆ − E(βˆ ))']
Como βˆ = β + ( X' X) −1 X' µ y E (βˆ ) = β

Entonces:
βˆ − E (βˆ ) = βˆ − β = ( X' X) −1 X' µ
106
( ) (
= E (X ' X ) −1 X ' µ) (( X ' X ) −1 X' µ )' = E ( X ' X ) −1 X ' µµ' X (X ' X ) − 1 )
= ( X ' X ) −1 X' E(µµ ' ) X ( X ' X ) −1 = ( X ' X ) −1 X ' σ 2 I X ( X ' X ) −1 = σ 2 ( X ' X ) −1 X ' X ( X ' X ) −1 =
⇓
I
−1
Var - Cov(βˆ ) = V(βˆ ) = σ ( X' X) 2
Para el caso de dos variables:
1 X1 
 
. . 
 1 . . 1 
X = . . 
1
V(βˆ ) = σ 2 (X' X) −1 X' =  
   X1 X2 . . X n 
. . 
 
1 Xn 
 1 X 1 
  
 1 . . 
X' X =  
1 . . 1 
 . .  = 
 n ∑X i


 X1 . . X n   ∑ X i ∑X 2
.   
X2
.
i

  
 1 X n 
 ∑ X 2i − ∑X i 
1  
( X' X) −1 =  =
n ∑ X 2i − ( ∑ X i ) 2  
 − ∑ Xi n 
 
 ∑ X 2i − ∑ Xi   ∑ X 2i − ∑ Xi 
σ 2   σ2  
V(βˆ ) =  =  
n ∑ X 2i − ( ∑ X i ) 2   n ∑ X 2i − ( nX) 2  
 − ∑ Xi n   − ∑ Xi n 
   
 ∑ X 2i − ∑ Xi   ∑ X 2i − ∑ Xi 
σ 2   σ2  
V(βˆ ) =  =  
n (∑ X 2
i − nX 2 ) 
 − ∑ Xi n
 n ∑ x 2i


−∑ X i n


   
107
 σ2 σ 2 ∑ X i   σ 2 ∑ X 2i σ 2 X 
 n ∑ x i2 ∑ i
 X2 −   −
n ∑ x 2i   n ∑ x i2 n ∑ x 2i 
   
V(βˆ ) =   = 
   
 − σ 2 ΣX i
2
σ 2
σ2 X σ2
n   − 
 n∑ x i n ∑ x i2   n ∑ x 2i ∑ i 
x 2
  
Tarea: Chequear con las encontradas en el caso simple.
Al igual que en el caso simple tanto las varianzas como las covarianzas dependen de σ2 ,
parámetro poblacional desconocido que es necesario estimar.
3.5.3.2 Un estimador de σ2
Debemos estimar σ2 , la varianza del término de error. Como los valores de µ no se pueden
observar, el estimador se basará en los residuos e.
Sabemos que:
e = Y − Xβˆ y dado que βˆ = ( X' X) −1 X' Y
e = Y − X( X' X) −1 X' Y , con lo que se puede sacar Y de post-factor común, de forma que:
( )
e = I − X( X' X) −1 X' Y , y definiendo M = I − X( X' X) −1 X' , luego:
e = MY
La matriz M es especial por cumplir las siguientes propiedades:
♦ Es cuadrada (n×n)
♦ Es no estocástica
♦ Es simétrica (M’=M)
( )
M ' = I − X( X' X) −1 X' ' = I '− X( X' X) −1 X' = M
♦ Es idempotente (M.M=M)
( )(
MM = I − X(X' X) −1 X' I − X( X' X) −1 X' = )
= I − X( X' X) −1 X'− X(X' X) −1 X'+X( X' X) −1 X' X( X' X) −1 X'
= I − X( X' X) −1 X'− X(X' X) −1 X'+ X(X' X) −1 X' = I − X( X' X) −1 X' = M
♦ MX=0
108
MX = ( I − X( X' X) −1 X' ) X = X − X( X' X) −1 X' X = X − X = 0
e = MY = M (X β + µ) = MX β + M µ = Mµ
Luego, e' e = µ' M ' Mµ = µ' MM µ = µ ' Mµ

e' e = µ' Mµ
Deseamos conocer E (e' e) = E (µ' M µ)
  a 11 a 12 . . a 1n  µ 1 
   
  a 21 a 22 . . a 2n  µ 2 
E (e' e) = E(µ' Mµ) = E (µ 1 µ2 . . µ n ) .  .  =
   
  .  . 
   
  a n1 a n2 a nn  µ n 
  µ1 
  
 µ 2 
= E (∑ µ i a i1 ∑ µ i a i2 . . ∑ µ i a in ) .   = E(µ 1 ∑ µ i a i1 + µ 2 ∑ µ i a i2 + ... + µ n ∑ µ i a in )
  
  . 
  
 µ n 
= E[µ 1 (µ 1a 11 + µ 2 a 21 + ... + µ n a n1 ) + µ 2 ( µ 1a 12 + µ 2 a 22 + ... + µ n a n 2 ) + ... + µ n (µ 1a 1n + µ 2 a 2n + ... + µ n a nn ) ]
Al aplicar el término de esperanza y dado el supuesto de no autocorrelación, los términos

cruzados se hacen cero.
( )
= a 11E µ 12 + a 22 E( µ 22 ) + ... + a nn E(µ 2n ) = σ 2 (a 11 + a 22 + ... + a nn ) = σ 2 ( Traza M )
Recordando que traza:
• La traza de una matriz es la suma de los elementos de la

diagonal principal
• Tr(A±B)=Tr(A) ±Tr(B)
• Tr(ABC)=Tr(CBA)=Tr(BAC)
• Si A es una matriz idempotente, entonces Tr(A)=rango(A)

109
[ ( )] [ ]
= σ 2 Tr ( I n − X( X' X) −1 X' ) = σ 2 Tr (I n ) − Tr X( X' X) −1 X' = σ 2 n − X' X( X' X) −1 =
= σ 2 [n − Tr ( I k ) ] = σ 2 [n − k ]
Con lo que :
E (e' e ) = E(µ ' Mµ) = σ 2 [n − k ]
e' e
Luego si definimos: σˆ =
2
, tendremos un estimador de la varianza del término de
n−k
perturbación que cumple la propiedad de ser insesgado. Esto porque:
 e'e  1 1
E (σˆ ) = E = E(e ' e ) = σ (n − k ) = σ
2 2 2
n −k  n − k n −k
3.5.3.3 Teorema de Gauss-Markov
Sabemos que βˆ = ( X' X) −1 X' Y = β + ( X' X) −1 X' µ , es un estimador lineal e insesgado de β.

En esta expresión ( X' X) −1 X' es una matriz de números fijos.
a. Supongamos que existe β*, otro estimador lineal de β, tal que:

[ ]
β * = ( X' X) −1 X'+C Y , donde C es una matriz de constantes de orden k×n.
Dado que Y=Xβ+µ,
[ ] [ ]
β * = ( X' X) −1 X'+C Y = ( X' X) −1 X'+C ( Xβ + µ ) = ( X' X) −1 X' Xβ + ( X' X) −1 X' µ + CXβ + Cµ
β* = β + (X' X) − 1 X' µ + CXβ + Cµ
b. ¿Qué condiciones se deben cumplir para que β* sea insesgado?

E (β*) = β + ( X' X) −1 X' E(µ ) + CXβ + CE(µ )
E (β*) = β + CXβ
Luego, para que β* sea insesgado se debe cumplir que CX=0
c. Calculemos la varianza de β*
V(βˆ ) = E[ (β * − E(β*)) (β * − E(β*))']

Dados los resultados de a y b sabemos que :
• E(β*)=β
110
• β * -β = (X' X) −1 X' µ + Cµ
Luego,
[
V(β*) = E[ (β * − β) (β * − β)'] = E (( X' X) −1 X'µ + Cµ ) (( X' X) −1 X'µ + Cµ )' ]
[
V(β*) = E (( X' X) −1 X' µ + Cµ) (µ' X( X' X) −1 + µ ' C' ) ]
[
V(β*) = E ( X' X) −1 X' µµ' X( X' X) −1 + ( X' X) −1 X' µµ ' C'+Cµµ ' X(X' X) − 1 + Cµµ ' C' ]
V(β*) = ( X' X) −1 X' E( µµ' ) X(X' X) −1 + ( X' X) −1 X' E( µµ' )C'+CE(µµ ' ) X( X' X) −1 + CE(µµ' ) C'
Recordando que E(µµ‘)=σ2 I
V(β*) = σ 2 ( X' X) −1 X' X( X' X) −1 + σ 2 ( X' X) −1 X' C'+σ 2 CX( X' X) −1 + σ 2 CC'
Dado que CX=0 y simplificando, obtenemos:
V(β*) = σ 2 ( X' X) −1 + σ 2 (X' X) −1 X' C'+σ 2 CX( X' X) − 1 + σ 2 CC'
V(β*) = σ 2 ( X' X) −1 + σ 2 CC'
V(β*) = V(βˆ ) + σ 2 CC'
d. Dado que C es una matriz de constantes de orden k×n,

 c 11 c12 . . c 1n  c 11 c 21 . . c k1 
  
 c 21 c 22 . . c 2n  c 12 c 22 . . c k2 
CC' =  .  . . 
  
 .  . . 
c . c kn  c 1n . c kn 
 k1 ck 2 . c 2n .
 ∑ c12i ∑c c . . ∑c c ki 
 1i 2i 1i

 ∑ c1i c 2i ∑c 2
2i . . ∑c 2 i ki 
c
 
CC' =  . . . . 
 . . . . 
 
 ∑ c1i c ki ∑c 2i c ki . . ∑ c 2ki 
Los elementos de la diagonal principal son positivos o cero, por lo que

necesariamente se cumple que V(β*) ≥ V(βˆ ) . Con esto se concluye que si existe un
estimador lineal e insesgado de β, para que éste sea el de menor varianza
(eficiente), debe ser el estimador MICO.
Si tenemos un estimador lineal e insesgado distinto de MICO, necesariamente tiene
mayor varianza que MICO. Con lo que demostramos que MICO es el mejor
estimador lineal e insesgado. MICO es MELI.
111
3.5.4 Consistencia
Sabemos que :
βˆ = β + (X' X) −1 X' µ luego, multiplicando y dividiendo entre n

1 −1  X ' µ 
βˆ = β + ( X ' X )  
n  n 
 1  X' µ  
plim βˆ = plim (β) + plim  ( X' X) −1  
 n  n 
X' µ 
= β + plim ( X ' X ) −1 • plim 
1

n  n 
X' µ 
= β + ( plim ( X ' X )) −1 • plim 
1

n  n 
1
La matriz ( X ' X ) consta de las medias cuadráticas y de las medias de los productos
n
cruzados de las variables explicativas. Como la matriz X es constante para repetidas
muestras, entonces,
1 1
lim ( X ' X ) = ( X' X)
n n
 1  
 plim  n ∑ µ i  
   
X ' µ  plim  ∑ X 2i µ i 
 1
El limite en probabilidad de la matriz  = n 
 n   
M
 
plim  1 ∑ X kiµ i  
 n  
σ
• plim  
2
1
n
∑ µ i  =plim ( µ ), como E( µ )=0 y var( µ )= n , se deduce que plim ( µ )=0
1  1 
• plim  ∑ X kiµi  , se cumple que E  ∑ X kiµ i  =0 y
n  n 
σ ∑ X ki
2
var(  ∑ X kiµ i  = , con lo que plim var(  ∑ X ki µ i  = 0 ,

2
1 1
n  n n n 
X' µ 
luego, plim   =0
 n 
1
asi, β + ( X ' X ) −1 • 0 = β , con lo que el estimador MICO es consistente.
n
112
3.6 INFERENCIA EN EL MODELO GENERAL

Hasta ahora no hemos usado el supuesto de que las µ siguen una distribución normal
multivariante. Si suponemos µ ~ N (0, σ 2 I ) podremos derivar algunas distribuciones.
3.6.1 Distribución de β̂
βˆ = β + ( X' X) −1 X' µ , con lo que β̂ por ser combinación lineal de variables aleatorias es
también una variable aleatoria que se distribuye normal multivariante.
Esperanza: E (βˆ ) = β
 a 11 a 12 . . a 1k 
 
 a 12 a 22 
2 
Varianza: V(βˆ ) = σ 2 ( X' X) −1 =σ .
 
 . 
a a kk 
 1k . . .
Luego βˆ ~ N (β, σ 2 ( X' X) −1 )
Esto es, βˆ i ~ N (β i , σ 2 a ii ) donde aii es el i-ésimo elemento de la diagonal principal de

(X’X)-1 .
Así:
βˆ i − βi
~ N ( 0, 1)
σ a ii
Este resultado no es muy útil por si mismo, porque no conocemos σ2 .
3.6.2 Distribucione s derivadas de µ

Dado que µ ~ N (0, σ 2 I ) , esto significa que cada µi se distribuye normal e independiente
con media cero y varianza σ2 .
µ 12 µ 22 µ 2n
Luego, + + ...... ~ χ 2n , con lo que
σ 2
σ 2
σ 2
1
µ' µ ~ χ 2n
σ 2
µ' ( σ 2 I ) −1 µ ~ χ 2n
113
Este resultado, nos sirve para recordar como se forman las distribuciones derivadas de una
normal multivariante. Sin embargo, tampoco es útil por si mismo ya que no conocemos µ.
e' e
3.6.3 Distribución de
σ2
Hemos visto los siguientes resultados:
• e = Mµ , como u ~ N (0, σ 2 I ) , por lo que e también se distribuye normal.
• e' e = µ' Mµ
• M = I − X( X' X) −1 X' , siendo simétrica e idempotente.
• Tr(M)=Rg(M)=n-k . Como M es idempotente de aquí se deriva que M tiene n-k
valores propios.
• Sea B una matriz que tenga por columnas los vectores propios de M y D una matriz
que tiene los valores propios en la diagonal y cero en el resto.
 | | |   λ1 0 0
   
 | | |  0 λ2 0
B=  x 1 x2 . . x n y D=  0
 0 . 0
   
 | | |  0 0 . 0
 |  0 λ n 
 | |   0
Sabemos que:
⇒ B’B=BB’=In
⇒ B ' MB = D
⇒ Dado que los valores propios de una matriz idempotente son cero o uno,
sabemos que D tiene n-k valores propios 1 y k valores propios igual a cero.
1 0 . . . . 0
 
0 1 . . 
. . . . 
   I n −k 0 k 
D=  . 1  =  
.   0 k 0 k 
0
 
. . 
 
0 . . . . . 0
Definamos:
y= B’µ
Luego, premultiplicando por B tenemos que, By=B B’µ=Iµ
µ = By
114
Dado que y= B’µ, y será una variable que se distribuye normal multivariada.
Encontremos la esperanza y la varianza de y.

Esperanza: E(y) =E( B’µ)=B’E(µ)=0
Varianza: V(y) =E{[y –E(y)][y –E(y)]’}= E(yy’)= E(B’µ µ‘B)= B’E(µ µ‘) B=
= B’σ2 IB= σ2 B’B=σ2 I
yi
Es decir que y ~ N (0, σ2 I) , con lo que cada ~ N(0,1) se distribuye normal tipificada e
σ
independiente.
Sabemos que:
e' e = µ' Mµ = y ' B
1'23y =
MB
D
1 0 . . . . 0  y 1 
  
0 1 . .  y 2 
. . . .  . 
  
= ( y1 y2 . y n −k y n −k +1 . y n ) . 1  y n − k 
  
. 0 y
  n − k +1 
. .  . 
  
0 . . . . . 0  y n 
n− k
= y 12 + y 22 + ....y 2n − k + 0 + .... + 0 = ∑ y i2
1
n −k
e' e = ∑ y 2i
1
n− k 2
y y 
Como i ~ N(0,1) , luego
σ
∑1  σi  ~ χ 2n -k
n −k
y 2n − k ∑
y 2i
y12 y 22
⇒ 2 + 2 + ..... 2 = 1 2 ~ χ 2n- k
σ σ σ σ
115
e' e
⇒ ~ χ n2- k
σ2
3.6.4 Prueba de Hipótesis en el Modelo Múltiple
Pruebas Individuales
Tenemos:
βˆ i − β i
i) ~ N ( 0, 1) pero σ es desconocida
σ a ii
e' e e ' e /( n − k )
ii) = (n − k ) ~ χ 2
σ σ 2
2 n -k
iii) puede demostrarse que i) y ii) son independientes:
Definimos:
βˆ i − βi βˆ i − βi
σ a ii a ii βˆ − βi
t= = = i ∼ t n-k
e' e σˆ σˆ a ii
σ2
n−k
Prueba de Significación global en el Modelo Múltiple: ANÁLISIS DE VARIANZA
ANOVA ⇒ Es un test de significancia global del modelo
H0 : β 2 = β 3 =............= β k = 0
H1 : Algún β i distinto de 0
i) SCE/σ2 ∼ χ k2-1
116
e' e SCR
ii) = 2 ~ χ n2- k
σ 2
σ
iii) Puede demostrarse que i) y ii) son independientes.
SCE/ σ 2 SCE SCE R2

/ SCT
k - 1 k - 1 k - 1 k - 1 (n − k )R 2
F= = = = = ~ Fk −1, n− k
SCR / σ 2 SCR SCT − SCE SCT − SCE (k − 1)(1 − R 2 )
SCT
n− k n−k n−k SCT ( n − k )
Recordar diferentes expresiones para la SCE
Rechazo H0 , si el valor calculado del

( n − k )SCE
estadístico es mayor que
(k − 1)SCR
α F Kα−1,n − K
0 Fα
Este test indica que el modelo es significativo en su conjunto, si el "efecto explicado por el
modelo" es suficientemente grande respecto al "ruido", a lo residual. Si el F calculado es
mayor que el F de tabla, rechazo que β 2 = β 3 =............= β k = 0, o sea el "aporte de las X"
respecto al residuo es considerable. ¿Cuán considerable? El límite nos lo da el valor de
tabla.
TABLA ANOVA
Variación Suma de Cuadrados Grados de Libertad Suma Promedio de
Cuadrados
Regresión SCE k-1 SCE/(k-1)
Residuo SCR n-k SCR/(n-k)
Total SCT n-1 SCT/ (n-1)
117
Grados de Libertad
Asociado a cada suma de cuadrados hay grados de libertad; (valores que pueden elegirse
arbitrariamente).
Suma de cuadrados Totales (SCT): tiene n-1 grados de libertad. Esto surge como
consecuencia de la pérdida de un grado de libertad, necesario para calcular Y .
Suma de cuadrados residuales (SCR): tiene n-k grados de libertad. Se pierden k grados de
libertad que son necesarios para asegurar que se cumplan las ecuaciones normales. Estas
condiciones son:
 1 1 . . 1   e1   ∑ e i  0
   
 X12 X 22 . . X n 2  e 2  ∑ e i X i2  0
   
X' e =  . . . . .  e 3  = ∑ e i X i3  = 0
      
 . . . . .  .   .  .
X 1k
 X 2k . . X n k  e n  ∑ e i X ik  0
   
Suma de cuadrados explicados (SCE): tiene k-1 grados de libertad ya que se encuentra en
función de todos los parámetros estimados, excepto el intercepto.
3.5.5 Test General Para Probar Restricciones Lineales de Parámetros

i. Introducción
Supongamos que estamos interesados en estimar una función de producción Cobb-Douglas:
lnYi = β 1 + β 2 lnLi + β 3 lnKi + µi
Repasemos distintas hipótesis a probar:
Ejemplo 1:
Si queremos testear
H0 : β2 = 0
H1 : β 2 ≠0
podemos expresar esta restricción en forma matricial
H0 : Cβ = r
H1 : Cβ ≠ r
118
donde C = [0 1 0]
 β1 
Cβ = [0 1 0]  β 2  = β 2
 β 3 
r=0
Ejemplo 2:
Si queremos testear
H0 : β 2 +β 3 = 1
H1 : β 2 +β 3 ≠ 1
debemos definir la matriz C y el vector r:
H0 : Cβ = r
H1 : Cβ ≠ r
donde C = [0 1 1]
 β1 
Cβ = [0 1 1]  β 2  = β 2 + β 3
 β 3 
r = 1 (en este caso un vector de 1x1, o sea un escalar)
Ejemplo 3:
Si queremos testear
119
H0 : β2 = β3
H1 : β2 ≠ β3
H0 : Cβ = r
H1 : Cβ ≠ r
donde C = [0 1 -1]
 β1 
Cβ = [0 1 − 1]  β 2  = β 2 - β 3
 β 3 
r=0
Ejemplo 4:
H0 : β2 = β3 = 0
 β1 
0 1 0   β 2 
Cβ =   β
 2 = β 
0 0 1 β   3
 3
0
r=  
0
Ejemplo 5:
lnYi = β 1 + β 2 lnLi + β 3 lnKi + β 4 lnZi + β 5 lnWi + µi
120
H0 : β4 = β5 = 0
 β1 
β 
0 0 0 1 0   β4 
2
Cβ =    β3  =  
0 0 0 0 1 β  β5 
 4
β 5 
0
r=  
0
ii. Desarrollo del Test

Existen distintas formas de desarrollar el test.
• Mediante el desarrollo del test Cβ̂ ?
Sabemos que:
βˆ ~ N ( β , σ 2 ( X ' X ) −1 )
La distribución de probabilidad de una combinación lineal de β̂ será también normal.

Debemos encontrar los parámetros de la distribución.
E (Cβˆ ) = CE(βˆ ) = Cβ
V( Cβˆ ) = E[Cβˆ − Cβ)( Cβˆ − Cβ)'] = E[(Cβˆ − Cβ)(βˆ ' C' − β' C' ) ] =
E[C(βˆ − β)(βˆ ' − β' )C'] = E[C(βˆ − β)(βˆ − β)' C'] =
CE[(βˆ − β)(βˆ − β)'] C' = σ2 C( X' X) −1 C'
Cβˆ ~ N( Cβ, σ 2 C( X' X) −1 C' )

Cβˆ − Cβ ~ N(0, σ 2 C(X' X) −1 C' )
Si H0 es cierta: Cβ = r Cβˆ − r ~ N( 0, σ 2 C( X' X) −1 C' )
Se puede demostrar que dado:

121
i. [
( Cβˆ − r )' σ 2 C( X' X) −1 C' ]−1
( Cβˆ − r ) ~ χ 2R [Estamos sumando R normales(0,1)
elevadas al cuadrado]
donde R es el número de restricciones involucradas bajo la hipótesis nula.
σˆ 2 ( n − k ) e ' e
ii. = 2 ~ χ 2n − k
σ 2
σ
iii. i y ii son independientes
Entonces:
[
(Cβˆ − r )' σ 2 C( X' X) −1 C' ]−1
( Cβˆ − r ) / R
~ FR , n −k
e' e
σ (n − k )
2
1
(Cβˆ − r )' ( σˆ 2 C(X ' X ) −1 C' ) −1 (Cβˆ − r ) ~ FR , n − k
R
α
Rech H 0si F calculado > F
de tabla
Volvamos al Ejemplo 1
Siguiendo con el ejemplo de la función de producción Cobb-Douglas, retomemos la prueba

de algunas hipótesis importantes:
H0: β 2 = 0
H1: β 2 ≠ 0
C = [0 1 0]
r=0
R=1
122
1
(Cβˆ − r )' (σˆ 2 C( X ' X ) −1 C' ) −1 ( Cβˆ − r ) ~ FR , n − k
R
   a 11 a 12 a 13   0  
−1

  2     
βˆ 2  σˆ (0 1 0) a 21 a 22 a 23   1   βˆ 2  ~ F1, n − 3
  a a   
   31 32 a 33   0   
−1
  
0
βˆ 2 σˆ (a 21 a 22 a 23 ) 0   βˆ 2 ~ F1, n − 3
2 1
  

 
[
βˆ 2 σˆ 2 a 22 ]
−1
βˆ 2 ~ F1, n − 3
βˆ 22
~ F1,n−3
σˆ 2 a 22
• Mediante el cálculo de los residuos libres y restringidos.
Se puede demostrar que:
[
~e ' ~e − e' e = (Cβˆ − Cβ)' C( X' X) −1 C1 ]
−1
(Cβˆ − Cβ)
donde ~e ' ~e es suma de cuadrados restringida, es decir, los obtenidos de la regresión en la

que se impone H0 (la restricción).
Entonces, tenemos que:
~e ' ~e e' e
~ χ 2n −( k −R ) y ~ χ 2n −k
σ 2
σ 2
~e ' ~e − e' e
Por lo que ~ χ 2n −( k − R ) − ( n − k) = χ2R
σ 2
~e ' ~e − e ' e 
• ~ χ 2R 
σ 2
 ~e ' ~e − e' e
 /R
e' e
• 2 ~ χ n− k
2 σ2
 ~ FR , n− k
σ 
e' e
/n −k
 σ2
• independie ntes 

Con lo que:
123
e − e' e) / R
(~e ' ~
~ FR , n − k
e'e / n − k
Etapas:
1. Se estima regresión restringida (imponiendo que se cumpla la hipótesis nula) y se
obtiene la SCR restringida → e˜' ˜e
2. Se estima regresión libre (sin imponer que se cumpla la hipótesis nula) y se obtiene
la SCR libres→ e' e'
( ~e ' ~e − e' e) / R
3. Se calcula el estadístico F =
e' e /( n − k )
Si F > FTABLA rech H0 (Rech que la restricción sea valida si la suma se reduce mucho al
calcular dicho estadístico)
rech H 0
•
Mediante el coeficiente de determinación, R2
Una tercera forma equivalente de probar la misma hipótesis es:

∑ ∑
~ 2 ) y 2 − (1 − R 2 ) y 2
~e ' ~e − e' e (1 − R
R = R =
e' e (1 − R 2 ∑ y 2
n−k n−k
=
[(1 − R~ ] [
) − (1 − R 2 ) / R 1 − R
2
=
~ 2 −1 + R 2 / R ]
(1 − R 2 ) /( n − k) (1 − R 2 ) /( n − k )
(R 2 − R ~2)/R
= ~ FR , n− k
(1 − R 2 ) /( n − k )
3.5.6 Estabilidad y Cambio Estructural

Volvamos al ejemplo de la función de producción para Chile en el período 1960-97
lnYi = β 1 + β 2 lnLi + β 3 lnKi + µi
124
Tenemos la hipótesis a priori que la función de producción difiere según períodos; por
ejemplo:
1960-74 → β1I , β I2 , β I3
1975-97 → β 1 , β 2 , β 3
II II II
n = 38 y tenemos dos submuestras: nI = 15 y nII = 23
YI = XI β I + µI
YII= XIIβ II + µII
H 0 : β I = β II
H 0 : β I ≠ β II
Modelo restringido: los parámetros del primer período coinciden con los del segundo.
 YI   X 
I
Y = X β + µ ⇒   =  II  β + µ
 YII   X 
Es decir se supone que hay un solo modelo a lo largo del período y se obtiene SCR
restringida, ~e ' ~e
Modelo libre (no restringido):
Se corren dos regresiones: una para el primer período y otra para el segundo.
YI   X I 0  β I  µ I 
Y  =  0   + 
X II  β II  µ II 
 II  
SCR libre = e'e = SCRI + SCRII = (e'e)I + (e'e) II

125
Asumiendo la distribución bajo la nula, V(µI) = V(µII) = σ2
Luego:
~e ' ~e − e ' e
R ~ Fk, n − 2k
e' e
n − 2k
Grados de Libertad
Numerador: R = número de restricciones (k, se impone que los k parámetros sean iguales
entre períodos).
También puede deducirse como: gl de ~e ' ~e - gl de e'e
gl de ~e ' ~e = n - k
gl de e'e = gl de (e'e)I + gl de (e'e) II = n1 – k + n2 – k = n1 + n2 – 2k = n-2k
gl numerador = n - k – (n-2k ) = k
Denominador: gl de e'e = n-2k
El Test de Chow es un caso particular del test de cambio estructural. Chow discutió dos
situaciones peculiares: nII = k y nII< k.
iv. Un Ejemplo Numérico del test Cβ
Supongamos que estamos interesados en estimar el siguiente modelo:

Yi = β 1 + β 2 Xi2 + β 3 Xi3 + µi
con los siguientes datos:
126
 3 1 3 5
1  1 4 −8 
   1  26.7 4.5
Y = 8  X = 1 5 6 , luego ( X' X) −1 =  4.5 1 − 1.5
   
 3 1 2 4  − 8 − 1.5 2.5 
 5 1 4 6
Con estos datos se estima la regresión:

C 4.000000 4.474930 0.893869 0.4657
X1 2.500000 0.866025 2.886751 0.1020
X2 -1.500000 1.369306 -1.095445 0.3876
S.E. of regression 0.866025 Akaike info criterion -0.003973
Sum squared resid 1.500000 Schwarz criterion -0.238310
y podemos calcular SCE=26.5 y SCT=28
Ejemplos:
1. Significación conjunta de X2 y X3
Ho: β 2 =β 3 =0
SCE 26.5
F= k − 1 = 3 −1 = 17.67
SCR 1.5
n−k 5−3
Como F 0.95(2,2)=19, la F muestral es menor que el valor critico⇒ no rechazo Ho.

2. Significación de X3
Ho: β 3 =0
Una forma de probarlo es con un test de hipótesis simple. Observando la salida de E-Views
se concluye que este parámetro es no significativo.
127
Otra forma de probar esto es estimando la regresión restringida (es decir aquella donde se
supone válida la hipótesis nula).
C -0.800000 0.938083 -0.852803 0.4564
X1 1.600000 0.282843 5.656854 0.0109
Sum squared resid 2.400000 Schwarz criterion -0.090194
Log likelihood - 5.259770 F-statistic 32.00000
Como ahora la SCR=2.4 ⇒ ~e ' ~e ' =2.4
Luego, podemos utilizar el estadístico:

2.4 − 1.5
e − e' e) / R
(~e ' ~ 1 = 1.2
F= =
e'e / n − k 1.5
5−3
F 0.95(1,2)=18.51, la F muestral es menor que el valor critico⇒ no rechazo Ho.
3. Los coeficientes de X2 y X3 son de igual magnitud pero de signo opuesto

Ho: β 2 +β 3 =0
o en términos generales:
C= [0 1 1] r=0 con R=1

Sabemos que:
1
F= (Cβˆ − r )' ( σˆ 2 C(X ' X ) −1 C' ) −1 (Cβˆ − r ) ~ FR , n − k
R
−1
  βˆ 1     20.02 3.37 − 6   0   βˆ 1  
1          
F= (0 1 1) βˆ 2  − 0 ' ( 0 1 1)  3.37 0.75 − 1.125  1    (0 1 1) βˆ 2  − 0

1  βˆ     − −   1     βˆ  
   
3  6 1 . 125 1 . 875   3 
128
−1
  0 
 
(2.5 − 1.5 )' (3.37 − 6 0.75 − 1.125 − 1.125 + 1.875) 1 

(2.5 −1.5 )
  1 
  
12
F= 1[0.75 −1.125 − 1.125 + 1.875]−11 = = 2.66
0.375
Dado que el valor del test F es muy pequeño, rechazo la hipótesis nula.
4. Región de confianza conjunta para β 2 y β 3
1
Sabemos que (Cβˆ − Cβ)' ( σˆ 2 C( X ' X ) −1 C' ) −1 (Cβˆ − Cβ) ~ FR , n− k , luego podemos utilizar
R
este resultado para construir regiones de confianza de los test. Distintas especificaciones de
R, darán diferentes regiones de confianza para grupos de parámetros.
Supongamos que nos interesa conocer la región en que se cumple que β 2 y β 3 son
conjuntamente significativos.
Ho: β 2 =β 3 =0
Luego,
 0 1 0
C =   y R=2
 0 0 1
( Cβˆ − Cβ)' ( C(X ' X) −1 C' ) −1 ( Cβˆ − Cβ)
1 R
F= (Cβˆ − Cβ)' (σˆ 2 C( X' X ) −1 C' ) −1 ( Cβˆ − Cβ) =
R e' e
n −k
−1
  βˆ1  β1   26.7 4.5 − 8 0 0  βˆ   β 
0 1 0     0 1 0     0 1 0 1   1 
 βˆ 2  − β2 '    4.5
 1 − 1.51 0  βˆ 2  − β2 
  0 0 1   
 βˆ 3 β3    0 0 1  − 8 − 1.5 2.5 0 1   0 0 1 βˆ  β 
       3   3 
F= 2
0.75
−1
  0 0 
  − 1.5    βˆ 2 − β 2 
F=
1 ˆ
(β 2 − β 2 βˆ 3 − β 3 )  
4.5 1
 1 0   
1.5   − 8 −1. 5 2.5  0 1  β
ˆ
 3 − β 3 
  
129
−1
 1 − 1.5 βˆ 2 − β2  1 10 6 βˆ 2 − β2 
F=
1 ˆ
(β2 − β2 βˆ 3 − β3 )   βˆ − β  = 1.5 (2.5 − β2 − 1.5 − β3 ) 6 4 βˆ − β 
   
1.5  −1.5 2.5   3 3   3 3 
26.5 − 32β 2 − 18β 3 + 12β 2 β 3 + 10β 22 + 4β 23

F=
1 .5
Eligiendo, por ejemplo, el valor crítico de F al 5 por ciento tenemos:
Pr {F<F0.95}=0.95, y F(2,2)=19
Entonces, haciendo
26.5 − 32β 2 − 18β 3 + 12β 2 β 3 + 10β 22 + 4β 23
F= F0.95 se tiene =19, es decir
1 .5
10β 22 + 4β 23 + 12β 2 β 3 − 32β 2 − 18β 3 − 2 = 0 .
Esta es la ecuación de una elipse.

Este procedimiento permite establecer una elipse de confianza al 95% para los parámetros
β que son desconocidos. La elipse está centrada en el punto estimado βˆ 2 = 2.5 y βˆ 3 = −1.5 .
β3
β̂ 2
El origen (0,0) se encuentra dentro de la elipse, lo que significa que, con un 95% de
confianza, no se puede rechazar la hipótesis de que ambos parámetros son cero en forma
conjunta.
130
Es importante observar :
• que la elipse cambia de forma en función de la covarianza entre los parámetros

estimados β̂ 2 y β̂ 3 . Si cov( βˆ 2 , βˆ 3 ) < 0 la elipse se inclina hacia la izquierda, mientras
que si cov( βˆ 2 , βˆ 3 ) > 0 se inclina hacia la derecha.
• que los límites que se obtienen en forma conjunta para β̂ 2 y β̂ 3 son distintos a los que se
obtienen en intervalos de confianza individuales. Es perfectamente posible que
utilizando test individuales se concluya que los parámetros son individualmente no
significativos, pero testeando conjuntamente la hipótesis de que ambos parámetros son
cero esta sea rechazada por obtener un elipse tal que el punto (0,0) este fuera de la
misma. En ese caso uno puede decir que al menos uno de los parámetros tiene
suficiente influencia sobre la variable explicativa, pero no puede asignar esa influencia
a uno de los parámetros en particular.
131
3.6 PREDICCION
Para predecir debemos recurrir a los parámetros estimados dentro de la muestra:
Yˆ i = βˆ 1 + βˆ 2 X i2 + βˆ 3 X i3 + . . . + βˆ k X ik i = 1 ....... n
Ŷn×1 = X n× k βˆ k×1
El interés en general es pronosticar el valor de Y en un período posterior a n (por ejemplo el

período que denominaremos 0).
Si el interés está en predecir Y0 se hablará de predicción individual. Si, alternativamente, se

predice E(Y0 /X), hablaremos de predicción media o promedio. Ambas alternativas dan
lugar a la misma predicción puntual, pero diferentes intervalos de confianza, ya que
difieren en la varianza del error de predicción. Ello por cuanto en ambos casos se utiliza
para predecir la siguiente ecuación:
Ŷ i = βˆ 1 + βˆ 2 X 02 + βˆ 3 X 03 + . . . + βˆ k X 0 k
Es fácil probar que Ŷ 0 es un estimador insesgado de E(Y0/X)
E (Ŷ 0 ) = E( Y0 ) (porque Ŷ 0 e Y0 son V.A.)
Y0 = β1 + β2 X02 + … + βk X 0k + u 0 (verdadero valor)
• E (Y0 / X0 ) = E (β + β2X02 + … + βk X0 k + u 0 )
= β1 + β2X02 + … + βk X0 k + E( u0 ) = β1 + β2X02 + … + βk X0 k
• E (Ŷ0 / X0 ) = E (βˆ 1 + βˆ 2X 02 + … + βˆ k X0k ) =
= E(βˆ 1 ) + E(βˆ 2 ) X02 + … + E(βˆ k ) X0 k =
= β1 + β 2X 02 + … + β k X0 k
132
Es decir: Yˆ 0 en promedio estará sobre Y0 promedio.
El punto clave es realizar una proyección correcta de las variables explicativas y verificar si
es correcto usar βˆ i históricos hacia adelante.
Que E( Ŷ0 ) = E(Y0) (no hay sesgo), no implica que no exista error de predicción,
Error de predicción = e0 = Y0 - Ŷ0 (escalar)
e 0 = β1 + β2 X 02 + … + β k X 0 k + u 0 − βˆ 1 − βˆ 2 X 02 ……βˆ k X 0k
e 0 = X '0 (β − βˆ ) + u 0
1 xk kx 1 1x1
• ¿Cuál es el valor esperado del error de predicción?

[ ]
E (e 0 ) = E( X '0 (β − βˆ ) + u 0 ) = E X '0 (β − βˆ ) + E( u 0 ) = 0
E(e0 ) = 0
• ¿Cuál es la varianza de e 0 ?
V(e0 ) = V ( X '0 (β − βˆ ) + u 0 )
[ ] [
= V X '0 (β − βˆ ) + V ( u 0 ) + 2 Cov X '0 (β − βˆ ) u 0 ]
La covarianza está en función de dos variables aleatorias (β̂ y µ0 ). β̂ es función de los (i=1
hasta n) y µ0 es un error aleatorio posterior a n. Por lo tanto, COV (µi,µ0 )=0 por el supuesto
[
de no autocorrelación de los errores y Cov X '0 (β − βˆ ), u 0 =0 ]
[ ]
= V X '0 (β − βˆ ) + σ 2
= E{[X (β − βˆ )][X (β − βˆ ) ] '}+ σ

'
0
'
0
2
= E[X (β − βˆ )(β − βˆ )' X ] + σ

'
0 0
2
= X '0 E(β − βˆ )(β − βˆ )' X 0 + σ 2
= X '0 V (βˆ ) X 0 + σ 2
= X '0 • σ 2 ( X ' X ) −1 X 0 + σ 2
133
[ ]
= σ 2 X '0 ( X ' X ) −1 X 0 + 1
• ¿Cómo podemos obtener un intervalo de confianza para Y0?
• ¿Cómo se distribuye e 0 ?
e 0 = X'0 (β − βˆ ) + u 0
u ~ N (0, σ2 I)
βˆ ~ N (β, σ 2 ( X' X) −1 )
[
e 0 ~ N 0, σ2 ( X '0 ( X ' X ) −1 X 0 + 1) ]
e 0 ~ N [0, V (e 0 )]
DS( e 0 ) = σ X '0 ( X ' X ) −1 X 0 + 1
e0 − E( e0 ) 
~ N( 0, 1) 
DS( e0 )

e' e  e0
σˆ =
2
 ~ tn − k
n −k −1
 σˆ X0 ( X' X) X0 + 1
'
σˆ 2 
( n − k ) ~ χn − k 
2
σ 2

e0
Con lo que ~ t n −k
DSˆ(e 0 )
• Intervalo de confianza para el error de predicción.

Esto nos permite hacer un intervalo para el error de predicción.
 e0 
P− t α / 2 ≤ ≤ t α / 2  = 1− α
 DS(ˆ e 0 ) 
[ ]
P − t α / 2 • DS(ˆ e 0 ) ≤ e 0 ≤ t α / 2 • DS(ˆ e 0 ) = 1 − α
INT( e 0 ) = ± t α / 2 • DS(ê 0 )
134
• Intervalo de confianza para Y0

Como e0 = Y0 - Yˆ 0 , podemos obtener un intervalo de confianza para Y0
INT (e0 ) = INT (Y0 - Yˆ 0 )
INT( Y0 − Ŷ0 ) = ± t α / 2 • DS(ˆ e 0 )
INT( Y0 ) = Ŷ0 ± t α / 2 • DSˆ( e 0 )
Tarea: Demostrar que el intervalo de predicción para una regresión simple es
1 ( X 0 − X)
2
Y0 = Ŷ0 ± t α / 2 σˆ 1 + +
N ∑ x i2
En algunos casos interesa predecir E ( Ŷ / X)
E (Y0 ) = X '0βˆ
e 0 = E( Y0 ) − E (Ŷ0 ) = X '0β − X '0βˆ = X '0 (β − βˆ )
[ ]
V ( e 0 ) = V X '0 (β − βˆ ) = X '0 σ 2 (X ' X ) − 1 X 0 = σ 2 X '0 (X ' X ) − 1 X 0
135
4. VARIAB LES FICTICIAS O DUMMY O BINARIAS O

DICOTÓMICAS
Variable dependiente = f (variables cualitativas como sexo, raza, religión, nacional o
extranjero, etc)
En estos casos se utiliza una variable explicativa dicotómica. solo puede adoptar dos
valores. 1 o 0. Si la variable adopta más de dos valores, también puede convertirse
fácilmente en dicotómica.
4.1 MODELOS ALTERNATIVOS.

Ejemplo 1: Unica Variable Explicativa es una variable dummy.
0 si el alumno es hombre
Si = 
1 si el alumno es mujer
Ni = β 1 + β 2 Si + µi para i =1,2, ....n
donde Ni es nota en curso de Econometría y Si es una variable dummy (única variable

explicativa) que representa el sexo del alumno.
¿Nota esperada para alumnas mujeres?
E(Ni /mujer) = E(Ni / Si =1) = β 1 + β 2 (nota esperada para una mujer)
¿Nota esperada para alumnos hombres?
E(Ni /hombre) = E(N i / Si =0) = β 1 (nota esperada para un hombre)
¿Cómo se prueba que no hay diferencias de notas asociadas al sexo?

H0 : β 2 ≤0
H1 : β 2 > 0 (las mujeres muestran en mayor nota promedio)
Podemos estimar β 1 y β 2 y luego realizar una prueba de hipótesis sobre diferencia de
resultados según sexo.
βˆ 2 − β2
~ t n −2
DS (ˆβˆ )
136
Ni
E(Ni)
β1 + β 2 con β2 > 0
β2
β1
Observación
Ejemplo 2: Una variable cualitativa y otra cuantitativa

Variable Dependiente = f(Intercepto, Variable Cualitativa, Variable Cuantitativa)
La nota en econometría podría ser función del PPA.
Ni = β 1 + β 2 Si + β 3 PPAi + µi para i =1,2, ....n
E(Ni /mujer) = E(Ni / Si =1) = β 1 + β 2 + β 3 PPAi (nota esperada para una mujer)
E(Ni /hombre) = E(N i / Si =0) = β 1 + β 3 PPAi (nota esperada para un hombre)

H0 : β2 ≤ 0
H1 : β 2 > 0 (las mujeres muestran en mayor nota promedio)
nota
β 1 + β 2 + β 3 PPA i Supuestos:
β2 > 0
β 1 + β 3 PPA i β 3 igual para ambos sexos
β2
PPAi
137
Ejemplo 3: Dos variables cualitativas

Variable Dependiente = f(Intercepto, dos Variables Cualitativas)
La nota en econometría podría ser función del sexo y de la nacionalidad (por ejemplo
extranjero versus chileno).
Ni = β 1 + β 2 Si + β 3 Ei + µi para i =1,2, ....n
0 si el alumno es chileno
Ei = 
1 si el alumno es extranjero
E(Ni /hombre, chileno) = E(Ni / Si =0, Ei =0) = β 1 (nota esperada para un hombre
chileno)
E(Ni /hombre, extranjero) = E(N i / Si =0, Ei =1) = β 1 + β 3 (nota esperada para un hombre
extranjero)
E(Ni /mujer, chilena) = E(Ni / Si =1, Ei =0) = β 1 + β 2 (nota esperada para una mujer
chilena)
E(Ni /mujer,extranjera) = E(N i / Si =1, Ei =1) = β 1 + β 2 + β 3 (nota esperada para una mujer
extranjera)
Ejemplo 4: Interacción entre una variable cuantitativa y una cualitativa.

Con la especificación planteada en el ejemplo 2, se esta suponiendo que el efecto
“diferencial” asociado al sexo es constante, independiente del nivel de PPAi.
Es posible que la PPAi dependa del sexo.
Ni = β 1 + β 2 Si + β 3 PPAi + β 4 PPAi* S i + µi para i =1,2, ....n
H0 : β 2 = β 4 = 0 (hombres y mujeres tienen nota similar)
H1 : Algún β i ≠ 0 (el sexo explica diferencias de notas)
138
Otra hipótesis a probar es si la influencia de la PPA en la nota en Econometría es la misma,

independiente del sexo.
H0 : β 4 = 0 (hombres y mujeres tiene nota similar)

H1 : β 4 ≠ 0 (el sexo genera efecto diferencial de la PAA)
(β 1 + β 2 ) + (β 3 + β 4 )PPA i
nota
Supuestos:
β2 > 0
β 1 + β 3 PPA i β4 > 0
β2
β1
PPA
Ejemplo 5: Variables Cualitativas Politómicas
1 si el alumno es costarrice nce

CR i = 
0 en el resto
1 si el alumno es uruguayo
Ui = 
0 en el resto
1 si el alumno es de otras nacionalid ad

Ri = 
0 en el resto
139
Nota
Uruguayo
.Resto
Costa Rica
Uru CR Resto
N i = β1 + β 2 R i + β3 UR i + β 4 CR i + u i
Sin embargo, la regresión anterior no puede estimarse porque la matriz X no es de rango

completo por columnas.
R i UR i CR i
1 1 0 0
1 1 0 0 

• 0 1 0
X=  
• 0 1 0
• 0 0 1
 
1 0 0 1 
Ri + Ui + CRi = 1 (las tres variables dummy sumadas dan lugar a la columna 1)
r (X) < k ⇒ X’X no es invertible
Posibles soluciones
i) Eliminar el intercepto
N i = α 2 R i + α 3 U i + α 4 CR i + u i
ii) Eliminar una de las variables dummy.
N i = δ1 + δ 2 U i + δ 3 CR i + u i
140
¿Cuáles son las notas esperadas?
En la alternativa i):
E ( N i / R i = 1, U i = 0, CR i = 0, alumno del resto) = α 2
E ( N i / U i = 1, R i = 0, CR i = 0, alumno uruguayo) = α 3
E ( N i / CR i = 1, R i = 0, U i = 0, alumno costarrice nce) = α 4
En la alternativa ii):
E ( N i / R i = 1, U i = 0, CR i = 0, alumno del resto) = δ1
E ( N i / Ui = 1, R i = 0, CR i = 0, alumno uruguayo) = δ1 + δ 2
E ( Ni / CR i = 1, R i = 0, Ui = 0, alumno costarrice nce) = δ1 + δ3
¿Qué diferencia tiene i) y ii)? De interpretación de los coeficientes.
i) α3 refleja la nota esperada para un alumno uruguayo.
ii) δ2 refleja en cuánto difiere la nota de un uruguayo de la de un alumno “resto”.
¿Cómo realizar algunas pruebas de hipótesis? Con pruebas individuales o conjuntas.
4.2 VARIABLES DUMMY PARA DESESTACIONALIZAR

En general, toda serie económica contiene cuatro componentes:
Z = C + T + S +I
donde :
Z es la serie original
C es el ciclo (podría aproximarse por funciones trigonométricas)
T es la tendencia (en función del tiempo)
S es la estacionalidad o el efecto en la variable originado por factores asociados al
calendario (por ejemplo la actividad económica declina en febrero producto de las
vacaciones)
I es la parte irregular o ruido blanco que no responde a ningún patrón determínistico.
141
Identifiquemos en la serie “dinero real” estos componentes.
DINERO: DISTINTOS COMPONENTES
700000
650000
600000
550000
500000
450000
400000
350000
300000
250000
200000
86-I
87-I
88-I
89-I
90-I
91-I
92-I
93-I
94-I
95-I
96-I
97-I
98-I
M1A serie original Ciclo Tendencia
Sabemos que el comportamiento de largo plazo del dinero (componente tendencia-ciclo)

depende de una variable de escala (ingreso) y del costo de mantenerlo (tasa de interés
nominal). Pero además la trayectoria del dinero esta afectada por factores estacionales (por
ejemplo aumenta fuertemente en septiembre por fiestas patrias o en diciembre, etc).
(M/P)d = f(ingreso, tasa de interés, factores estacionales, componente irregular)

Los efectos estacionales pueden aproximarse a través de variables dummy.
ln (M/P) = β 1 + β 2 lnYi + β 3 ii + β 4 D1i + β 5 D2i + β 6 D3i + β 7 D4i + µi

1 si el trimestre es el primero
D1 = 
0 en el resto
1 si el trimestre es el segundo
D2 = 
0 en el resto
1 si el trimestre es el tercero
D3 = 
0 en el resto
1 si el trimestre es el cuarto
D4 = 
0 en el resto
142
Sin embargo, la regresión anterior no puede estimarse porque la matriz X no es de rango

completo por columnas.
D1 D2 D3 D4
1 ln Y 1 i1 1 0 0 0
1 ln Y 2 i2 0 1 0 0
 
1 ln Y 3 i3 0 0 1 0
 
1 ln Y 4 i4 0 0 0 1
1 ln Y 5 i5 1 0 0 0
 
X = 
1 ln Y 6 i6 0 1 0 0
1 ln Y 7 i7 0 0 1 0
 
1 ln Y 8 i8 0 0 0 1
. . . . . . .
 
. . . . . . .
 
. . . . . . .
1 ln Y n in 0 0 0 1 
D1 + D2 + D3 + D4 = 1 (las cuatro variables dummy son una combinación lineal que dan
lugar a la columna 1)
r (X) < k ⇒ X’X no es invertible
Posibles soluciones
i) Eliminar el intercepto
ln (M/P) = β 2 lnYi + β 3 ii + β 4 D1i + β 5 D2i + β 6 D3i + β 7 D4i + µi
E[ ln(M/P)/ D1i =1; D2i = 0; D3i = 0; D4i = 0] = β 2 lnYi + β 3 ii + β 4

143
ii) Eliminar una de las variables dummy
ln (M/P) = β 1 + β 2 lnYi + β 3 ii + β 4 D1i + β 5 D2i + β 6 D3i + β 7 D4i + µi
En este caso si existe estacionalidad en el cuarto trimestre, el efecto será captado por el
intercepto.
E[ ln(M/P)/ D1i =1; D2i = 0; D3i = 0] = β 1 + β 2 lnYi + β 3 ii + β 4

E[ ln(M/P)/ D1i =1; D2i = 0; D3i = 0] = β 1 + β 2 lnYi + β 3 ii
iii) Suponer que la suma de los efectos estacionales es cero.

β4 + β5 + β6 + β7 = 0
ln (M/P) = β 1 + β 2 lnYi + β 3 ii + β 4 D1i + β 5 D2i + β 6 D3i + (-β 4 - β 5 - β 6 ) D4i + µi

ln (M/P) = β 1 + β 2 lnYi + β 3 ii + β 4 (D1i - D4i) + β 5 (D2i - D4i) + β 6 (D3i - D4i) + µi
iv) Desestacionalizar las series utilizadas.

Por ejemplo en E-Views el comando SEAS elimina los efectos estacionales.
SEAS Y YSA
donde YSA es la series desestacionalizada.
Luego se corre la regresión con las series desestacionalizadas. Por ejemplo:

ln (M/PSAi) = β 1 + β 2 lnYSAi + β 3 iSAi + µi
4.3 VARIABLES DUMMY PARA DETECTAR CAMBIO

ESTRUCTURAL
Recordar test de cambio estructural
CPi = β 1 + β 2 Yi + µi Chile 1960 - 1997
144
H 0 : β I = β II
H 1 : β I ≠ β II
Supongamos que intuimos que hubo cambio estructural en 1974 producto del proceso de
apertura comercial iniciado por el país.
1960-74 → β1I , β I2
1975-97 → β1 , β 2
II II
Podríamos definir:
0 si economía es cerrada ( 60 − 74)

Di = 
1 si economía es abierta ( 75 − 97 )

Planteamos un modelo más general:

C i = β1 + β2 Di + β3Yi + β 4Di Yi + ui
E(C i / Di = 0, Yi ) = β1 + β3Yi
E(C i / Di = 1, Yi ) = (β1 + β2 ) + (β3 + β4 ) Yi
β 2 es el intercepto diferencial
β 4 es la pendiente diferencial
H0 : β 2 = β 4 = 0
H1 : Algún β ι ≠ 0
Efectuar la prueba de la hipótesis anterior es absolutamente equivalente al test de cambio

estructural presentado anteriormente. Sin embargo, utilizar variables dummy para verificar
cambio estructural tiene una ventaja importante: indica en forma precisa cuál parámetro es
diferente. En el ejemplo anterior podríamos identificar si cambió el intercepto o la
pendiente o ambos. El procedimiento basado en los residuos o en el test Cβ sólo reportaba
si había estructural, sin especificar en qué parámetro(s) se produjo.
También es posible efectuar pruebas individuales e identificar en que parámetro se produjo

el cambio estructural.
H0 : β 2 = 0
H1 : β 2 ≠ 0
H0 : β 4 = 0
145
H1 : β 4 ≠ 0
4.4 VARIABLES DUMMY PARA CORREGIR OUTLIERS.
Un outlier es un error anormal. Su valor absoluto es largamente superior al desvío estándar

de la regresión. Los parámetros estimados pueden estar fuertemente distorsionados
considerando la presencia del outlier.
ln (M/P) = β 1 + β 2 lnYi + β 3 ii + β 4 D1i + β 5 D2i + β 6 D3i + β 7 D4i + β 8 D5i + β 9 D6i + β 9 D7i
+ β 10 D8i + β 11 D9i + β 12 D10i + β 13 D11i + µi
Aquí utilizamos 11 dummies para captar estacionalidad por tratarse de datos mensuales.
ECUACIÓN ESTIMADA PARA LA DEMANDA POR DINERO
13.5
0.20 13.0
0.15
12.5
0.10
0.05
12.0
0.00
-0.05
87 88 89 90 91 92 93 94 95 96 97 98
Residual Actual Fitted
Se percibe que en marzo de 1992 tenemos un residuo anormal: casi 0.15 en circunstancias
que el desvío estándar de la regresión es de 0.023. Existe justificación para controlar ese
residuo anormal a través de la inclusión de una dummy.
1 si i = marzo de 1992

D923 = 
0 en el resto.

ln (M/P) = β 1 + β 2 lnYi + β 3 ii + β 4 D1i + β 5 D2i + β 6 D3i + β 7 D4i + β 8 D5i + β 9 D6i + β 9 D7i

+ β 10 D8i + β 11 D9i + β 12 D10i + β 13 D11i + β 14 D923 + µi
146
ECUACIÓN ESTIMADA PARA LA DEMANDA POR DINERO (Incluyendo la Variable

Dummy D923)
13.5
13.0
0.06
0.04 12.5
0.02
12.0
0.00
-0.02
-0.04
87 88 89 90 91 92 93 94 95 96 97 98
Residual Actual Fitted
A primera vista, parecería que el numero de outliers hubiera aumentado. Sin embargo, debe
considerarse que la banda se estrechó producto de la disminución del desvío estándar de la
regresión (desde 0.023 a 0.017).
147
5. MULTICOLINEALIDAD
5.1 INTUICIÓN
El estimador MICO de un parámetro específico del vector β, no involucra solamente las
observaciones de la variable correspondientes a ese β, sino también el resto de las variables
independientes.
Esto es porque, para obtener estimaciones precisas de la influencia de una variable sobre
otra, se debe tomar en cuenta la influencia simultánea de las otras variables explicativas.
Hacer esto asegura que el elemento β j refleja la influencia de la variable independiente j,
cuando el efecto de las otras variables se mantiene constante.
• Si el modelo a estimar es Yi = β 1 + β 2 Xi + ui
Y X
Y = variación de Y
X = variación de X
= variación común de Y y X.
es la información utilizada para estimar la pendiente β 2 (cuanto mayor ésta

área, mayor información es usada y menor su varianza).
• Si el modelo incorpora una variable adicional, generalmente habrá una zona en que
estas dos variables tienen variabilidad común, lo que denominaremos multicolinealidad o
colinealidad ( + ).
Yi = β 1 + β 2 Xi + β 3 Zi + ui
148
En la regresión múltiple de Y respecto a X y Z, el estimador MICO utiliza el área ( )

para estimar β 2 y el área ( ) para estimar β 3.
Esto implica que el área común ahora es desechada, esto es porque no es posible saber
a-priori a qué variable (X o Z) atribuirlo.
• Si las variables X y Z son ortogonales [covarianza (X, Z) = 0] no hay áreas comunes

y los estimadores MICO utilizan sólo los datos de la variable X para estimar β 2 y sólo Z
para X3.
• Si las variables X y Z son muy colineales, el área es muy grande y las áreas ( )
y( ) son pequeñas, lo que implica que para estimar β 2 y β 3 se utiliza muy poca
información. Esto provoca que las varianzas estimadas de estos coeficientes son muy
elevadas.
• Si hay colinealidad perfecta entre X y Z, el área común abarca todo el círculo (no
hay área ( ) y ( )esto implica que no es posible hacer estimaciones.
Veamos estos resultados con mayor rigurosidad
5.2 TIPOS DE MULTICOLINEALIDAD

Multicolinealidad: es el fenómeno que se produce cuando las variables explicativas tienen
alta correlación.
Distinguiremos entre dos casos:
1. Multicolinealidad perfecta: la relación entre las variables X y Z es perfecta (Ej X =

XZ).
2. Multicolinealidad imperfecta: la correlación entre las variables X y Z es alta, pero
no perfecta.
Multicolinealidad perfecta
Es el fenómeno presente cuando tenemos
λ 1X 1 + λ 2X 2 + …… + λ k X k = 0
con algún λ i ≠ 0 ⇒ relación perfecta entre variables Xi.
Ej. :Supongamos el siguiente modelo expresado en desvíos:
y = x 2β 2 + β 3 x 3 + µ − µ donde se tiene que x3 = λ x2
149
 x 12 x 13 
x x 23   ∑ x i2
x x 22 • • x n 2 
22

2
∑x x i3 
i2

x' x =  12 • = 
 x 13 x 23 x n 3     2 
•   ∑ x i2 x i3 ∑ x i3 
x n 2 x n3 

Como x3 = λ x2
∑ x 2i2 ∑x λx i 2 
i2 1 λ 
   
x' x =   = ∑ x i2
2
 
 x λx
∑ i2 i 2 ∑ (x i 2 λ) 2  λ λ2 
 
Luego, el determinante de x’x es igual a cero (o el rango de x es uno) ⇒ No se puede

obtener una solución única para βˆ
Más aún, de las ecuaciones normales sabemos:

( x ' x ) βˆ = x ' y donde :
∑ x i 2 y 1 
   
x' y =   = ∑ x i2 y  
 x y 
∑ i 3
λ 
1 λ  βˆ 2   ∑ x i 2 (βˆ 2 + λβˆ 3 ) 

2
     
( x ' x ) βˆ =   ∑ xi 2  =
2

βˆ 3   λ x 2 (βˆ + λβˆ )
λ λ2     ∑ i2 2 3 
Por lo que:
∑x 2
i2 (βˆ 2 + λβˆ 3 ) = ∑ x i 2 y 

 las dos ecuaciones son una y nos permiten estimar :
λ ∑ x 2i2 (βˆ 2 + λβˆ 3 ) = λ∑ x i 2 y
βˆ 2 + λβˆ 3 =
∑ x i2 y
es estimable la combinación, pero no βˆ 2 y βˆ 3 .
∑x 2
i2
La presencia de multicolinealidad perfecta hace imposible el cálculo de βˆ 2 y βˆ 3 en forma

independiente. Solo es posible estimar una combinación lineal de esos estimadores.
150
Otra forma de verlo:

y = β 2 x 2 + β 3 x 3 + (µ − µ )
x 3 = λx 2
y = β 2 x 2 + β 3 λx 2 + (µ − µ )
y = (β 2 + λβ 3 ) x 2 + (µ − µ )
∑ x i2 y
Si definimos β = β 2 + λβ 3 , el único parámetro que podremos estimar será βˆ =
∑ x 2i2
Multicolinealidad imperfecta
Hay fuerte asociación entre variables explicativas
en la regresión simple: el coeficiente de correlación simple r x1 x2 es alto
⇒ en la regresión múltiple: el coeficiente de determinación R 2 de una regresión

x ,x
j resto
en que una de las variables explicativas xj es explicada por el resto de las variables
x j = f ( x 1 , x 2 _____ x k )
explicativas es alto
↓ sin x j
Ejemplo:
Supongamos el mismo modelo anterior expresado en desvíos

y = x 2β 2 + β 3 x 3 + µ − µ donde ahora se tiene que x i3 = λˆ x 2i + v i . Es decir que hay
una relación entre xi3 y xi2, pero esta no es perfecta. vi es un término estocástico.
∑ x 2i 2 ∑x x i3   ∑ x 2i2
i2 ∑x (λˆ x i2 + v i ) 
i2
   
x' x =   = 
 x x
∑ i 2 i3 ∑ x i 3   ∑ x i2 (λˆ x i 2 + v i )
2
∑ (x i2 λˆ + v i ) 
2
151

x' x = 
∑ x 2i2 λˆ ∑ x 2i + ∑ x i 2 v i 

λ ∑ x i + ∑ x i 2 v i λˆ 2 ∑ x 2i2 + ∑ v 2i 
2
ˆ
y dado que ∑x i2 vi = 0
 ∑ x i22 λˆ ∑ x i22

x' x =  
λˆ ∑ x i2 λˆ ∑ x + ∑ v 
2 2 2 2
i2 i
[ ∑x
det x' x = λˆ 2 2
i2 + ∑ v 2i − λˆ 2 ∑ x ]∑ x 2
i2
2
i2 = ∑ x 2i 2 ∑ v 2i
∑ x i22 0 
 
⇒ Supongamos que x2x3 son ortogonales ⇒ x' x =  
0 2 
 ∑ x i3 
luego, det x' x = ∑ x 2i2 ∑x 2
i3
⇒ Sabemos que ∑v 2
i < ∑x 2
i3 ( porque v i2 es la SCR de la regresión x 3 = λˆ x 2 + v i ) y
siempre SCT> SCR
⇒ Entonces, concluimos que ∑x ∑v <∑x ∑x
2
i2
2
1
2
i2
2
i3 y por tanto el determinante
cuando existe colinealidad es menor que el determinante bajo Ortogonalidad.
A mayor colinealidad ⇒ más pequeños el determinante ( cuanto más grande sea R2, más
pequeño será ∑ v 2i respecto a ∑ x 2i3
¿Por qué importa el determinante?
Porque,
∑ x 2i3 − ∑ x i2 x i 3 
−1 1  
(x ' x ) =  
det( x ' x )  
 − ∑ x i 2 x i3 ∑ x i2 
y este resultado se utiliza no solo para calcular βˆ , sino también para var-cov ( βˆ ).
152
5.3 EFECTO DE LA MULTICOLINEALIDAD A NIVEL EMPÍRICO

En el modelo con dos variables explicativas.
El principal efecto de la empírico de la multicolinealidad se deriva del resultado anterior:

 ∑ x 23 − ∑ x2 x3 
1
−1
(x ' x ) =   D = ∑ x 2i3 ∑ x 2i2 − ( ∑ x 2 x 3 )2
D − x x 2 
 ∑ 2 3 ∑x2 
Var βˆ 2 =
∑x σ2 2
3
=
σ
2
∑ x ∑ x − (∑ x
2 2
x i3 ) 2 ( ∑ x i2 x i3 ) 2
∑x −
3 2 i2 2
∑x
2 2
i3
σ2 σ2
Var βˆ 2 = =
(n cov ( x 2 x 3 ) )2  n 2 cov( x 2 x 3 ) 2 var x 2 
n var x 2 − n var x 2 −  
n var x 3  n var x 3 var x 2 
cov( x 2, x 3)
y recordando r x 2, x3 =
σ x2σx3
σ2 σ2
Var βˆ 2 = =
(
n var x 2 − n var x 2 rx22 , x3 ) ∑x ( 2
i2 1 − rx22 , x3 ) es decir que la varianza que
β̂ 2 queda dependiendo del grado de correlación entre las variables explicativas ( r x ).

2 ,x 3
Ceteris paribus, a mayor correlación, mayor varianza del parámetro (intuitivamente este era
un resultado conocido)
En el Modelo General
σ2
V(βˆ j ) = Tarea: demostrarlo
n var ( X j )(1 − R 2j )
R 2j = coeficiente de determinación de una regresión entre las variables j y el resto de

las variables explicativas.
Cuando R 2j aumenta, la varianza aumenta. Si R 2j → 1 ⇒ V(βˆ j ) ⇒ ∞
Importante:
Esta colinealidad puede compensarse por alta varianza Xi o por elevado n.
Si Xi es de baja varianza, el efecto sobre la varianza será igual al que produce la
colinealidad.
153
Un modelo con alta correlación ( R2 alto), pero σ2 bajo, puede tener estimaciones
confiables para V( βˆ j ) .
Efectos prácticos de la multicolinealidad:
1. Crecimiento varianzas y covarianzas.
2. Intervalos de confianza se amplían.
3. Test t se reducen
βˆ j
↑ var (βˆ j ) ⇒ ↑ V(βˆ j ) ⇒ ↓ ⇒ test t bajos .
V(β j )
Que los resultados de los test sean mas bajos no necesariamente quiere decir que
hay que excluir una variable explicativa. Este resultado puede ser efecto de la
multicolinealidad.
4. El R2 del modelo es alto y los test t de los coeficientes son bajos.
5. Errores numéricos por redondeos de dígitos.
5.4 FORMAS DE DETECTAR LA MULTICOLINEALIDAD

Por sus efectos sobre los test.
⇒ R2 altos y test más bajos.
Esto no significa que la multicolinealidad aumente el R2.
Cuidado:
1. A mayor multicolinealidad no implica mayor R2.
2. Alta multicolinealidad no siempre implica test t más bajos, puede
compensarse por otros efectos.
3. No es una condición necesaria, ni suficiente para que exista
multicolinealidad.
⇒ Test sobre R 2j
Donde R 2j , es el R2 de la siguiente regresión

X j = δ 1 + δ 2 X 2 + ... + δ j−1 X j−1 + δ j+1 X j+1 + ... + µ i
Se calcula :
154
R 2j / k − 2
Fj : ≈ Fk− 2, n− ( k −1)
(1 − R 2j ) / n − ( k − 1)
H 0 : δ 2 , δ 3 , …… , δ k −1 = 0
H i : a lg una diferente a cero
Si F>F tabla, se rechaza H0 ⇒ hay multicolinealidad.
⇒ Factor de Inflación de Varianza

1
VIF (βˆ i ) =
1 − R 2i
donde R 2i es el coeficiente de correlación múltiple entre xi y las demás variables

explicativas.
VIF sería la razón entre la varianza real de βˆ i con la que tendría βˆ i sin correlación.
Esta comparación lo único que da es la relación entre la realidad y lo ideal, pero no

más que esto. Tampoco ayuda a solucionar el problema.
Conclusión:
No hay un test único que me permita detectarlo, además en caso de hacerlo, solo son
medidas de lo mal que están las cosas respecto a la situación ideal.
5.5 FORMAS DE SOLUCIONAR LA MULTICOLINEALIDAD
No hacer nada
Dado que la multicolinealidad (imperfecta) no afecta las propiedades de la

estimación, los estimadores siguen siendo MELI, aunque la varianza sea grande
(aunque mínima), una solución es no hacer nada.
Es asumir que la realidad es así, que la muestra utilizada, tiene estos problemas.
Asumir que multicolinealidad es un problema muestral.
Hay dos reglas prácticas en este sentido:
1. No preocuparse por la multicolinealidad si el R2 de la regresión total es mayor

que el R2 de las regresiones de las variables explicativas entre sí.
2. No preocuparse si los test t son mayores que 2.

Incorporar información adicional
a) Aumentar el tamaño muestral (n).
Esto va en dos sentidos ya que aumenta n y puede aumentar var xi.
155
σ2
V(β j ) =
n var( x j )(1 − R 2j )
b) Aumentar n intentando maximizar la Ortogonalidad en los datos.
No es fácil de realizar en ciencias sociales,
c) Utilizar datos en primeras diferencias:

Y i = β 1 + β 2 X 2i + β 3 X i3 + µ i
Yi−1 = β1 + β 2 X 2i −1 + β 3 X i−1−3 + µ i−1
_____________________________________
Yi − Yi −1 = β2 ( X2i − X2i −1) + β3 ( Xi3 − Xi−13 ) + µ i − µi −1
∆Yi = β2 ∆X 2i + β3 ∆X 3i + v i
Ahora explicamos las variables en cambios y no en niveles ⇒correlación disminuye
en cambios.
Para que esto sea aplicable vi debe cumplir supuestos clásicos.
d) Utilizar información a priori suministrada por la teoría.

Ej.: Yi = β 1 + β 2 X i 2 + β 3 X i3 + µ i
donde Xi2 y Xi3 son correlacionadas

pero la teoría dice que β 2 + β 3 = 1
⇒ Yi = β1 + (1 − β 3 ) X 2i + β 3 X 3i + µ i
Y i = β 1 + X 2i − β 3 X 2i + β 3 X 3i + µ i
Yi − X 2i = β 1 + β 3 (X 3i − X 2i ) + µ i
Z i = β1 + β 3 Wi + µ i
Problema: Si la restricción es falsa, se genera sesgo.
Empíricamente: se hace un test F para saber si se acepta la restricción.
e) Combinación de series de tiempo y series de corte transversal.
Esto es, ocupar información para algún parámetro en un momento de tiempo e
156
imponerla como válida en toda la muestra.

Ej.: ln Yt = β1 + β 2 ln Pt + β 3 ln I t + µ t , pero entre P e I hay multicolinealidad .
Pero, de otro estudio sabemos que para un momento de tiempo β 3 = 1,02.

ln Yt = β1 + β 2 ln Pt + 1,02 ln I t + µ t
ln Yt − 1,02 ln I t = β 1 + β 2 ln Pt + µ t
Si la restricción es válida, soluciono el problema de multicolinealidad.
f) Eliminación de una variable.
Supongo que un β i es cero. Esto tiene problemas si la variable no tiene coeficiente

cero en el modelo teórico (verdadero).
Modelo verdadero: Y i = β 1 + β 2 X 2i + β 3 X 3i + µ i
Pero ajusta: Yi = b 1 + b 2 X 2i + u i
b̂ 2 =
∑x y i i
∑x 2
i
y i = β 2 x 2i + β 3 x 3i + µ i − µ
b̂ 2 =
∑x i2 (β2 x 2i + β3x 3i + u i − u )
=
∑x 2
2i
=
∑ x β + β ∑ x x + ∑ x (u
2
2i 2 3 i2 i3 i2 i − u)
∑x 2
2i
=β +β
∑ x x + ∑ x ( u − u)
i2 i3 i2 i
∑x ∑x
2 3 2 2
i2 i2
β3 ∑ x i2 xi3
E( ˆb2 ) = β 2 +
∑ x2i2
⇒ salvo en el caso de Ortogonalidad, el estimador de bˆ 2 es sesgado al excluir una
variable que debe ir en el modelo.

g) Método de componentes principales
No lo veremos, pero es un método más completo de solución del problema
157
6. HETEROCEDASTICIDAD
Uno de los supuestos clásicos que hemos mantenido hasta ahora es:
E (µ 2i ) = σ 2
o en términos matriciales
E (µµ ' ) = σ 2 I
Es decir que la varianza del término de error es constante ∀ i . Esto se refleja en una
varianza constante para la regresión ⇒ V (Yi ) = σ 2 .
Este supuesto es irreal en algunos casos:
§ En estudios de corte transversal es más fácil imaginar ejemplos donde la varianza del
término de error aumenta (o disminuye) con una variable explicativa. Ello debido a la
convivencia de unidades heterogéneas. Esta heterogeneidad generalmente está asociada
al comportamiento de una o mas variables explicativas.
Ejemplo: explicamos el consumo en función del ingreso. Pero a medida que el

ingreso aumenta, aumentan los posibles usos de éste por lo que si nuestra regresión
es del tipo C i = β1 + β 2 Yi + µ i , la varianza del error no será constante sino que será
creciente con el nivel de ingreso.
Ci
•
•
recta de regresión estimada
•
•
•
• •
•
•
•
•
Yi
§ Ejemplos de aprendizaje-error; en la medida que se produce aprendizaje los errores de

comportamiento se reducen (σi disminuye).
158
errores al tirar
penales •
•
•
•
•
•
•
•
•
•
•
tiempo de aprendizaje
§ Otro ejemplo es el de mejoras en el procesamiento de datos. En series de tiempo que

son recolectadas por una entidad, σ 2i tiende a disminuir por aprendizajes en la
recolección de la serie.
6.1 ¿CÓMO SE AFECTAN LAS PROPIEDADES DEL ESTIMADOR

MICO CUANDO EXISTE HETEROCEDASTICIDAD?
Supongamos que exista una relación positiva entre el valor absoluto de los residuos y una
variable explicativa.
En este caso, ampliar la muestra al final, afectará la recta de regresión fuertemente hacia la
derecha (si la observación agregada es positiva) o hacia la izquierda (si la observación
agregada es negativa).
Yi
•
•
•
•
•
•
•
•
•
•
Xi
En muestas repetidas, estos casos se compensarán, y el estimador MICO seguirá siendo

insesgado, pero la varianza de los estimadores será mayor.
159
Veamos esto en el caso simple:

Yi = β 1 + β 2 X i + µ i
Pero con E (µ 2i ) = σ 2i
∑x y = k y = k Y = k
βˆ 2 = ∑ ∑ ∑ (β1 + β 2 X i + µ i ) =
i i
∑x 2 i i i i i
i
βˆ 2 = β ∑k +β ∑k X + ∑k µ
1 i 2 i i i i
y dadas las propiedades de ki

βˆ 2 = β 2 + ∑ k i µ i
• E (βˆ 2 ) = β 2 → sigue siendo insesgado
• V(βˆ 2 ) = E (βˆ 2 − β 2 ) 2 = E( ∑ k i µ i ) 2 = E( k 12 µ 12 + … + k 2n µ 2n + k 1 k 2 µ 1µ 2 …)
= E( k 12 µ 12 ) + E( k 22 µ 22 ) + …… + E (k 2n µ 2n ) + 0 + ....0 =
= k 12 E( µ 12 ) + k 22 E(µ 22 ) + …… + k 2n E(µ 2n ) = ∑ k i2 σ 2i
123 123 123
σ 21 σ 22 σ 2n
 x i  2 ∑ x i2σ2i
2
=∑ 2
σi =
 ∑ x i  ( ∑ x 2i ) 2
σ2
Antes teníamos que V(β 2 ) =
ˆ , por lo que las varianzas de los estimadores
∑ x i2
cambian relajar el supuesto de homocedasticidad.
Veamos que ocurre en el modelo general:

Matricialmente:
 σ12   ω1 
   
   
E (µ 2i ) = E(µµ ' ) =  σ 22 0  = σ2  ω2 0 = σ 2 Ω
 •   • 
 •   • 
 0 σ 2n  0 ωn 
β = ( X' X) −1 X' Y = ( X' X) −1 X' ( Xβ + µ ) = (X' X) −1 X' Xβ + ( X' X) −1 X' µ
βˆ = β + ( X' X) − 1 X' µ
• E(βˆ ) = β
160
(
V (βˆ ) = E[(βˆ − β)(βˆ − β)'] = E ( X ' X ) −1 X ' µµ ' X (X ' X) −1 = )
= ( X ' X ) −1 X ' E( µµ' ) X ( X ' X ) −1 = ( X ' X ) −1 X ' σ 2 Ω X (X ' X ) −1
= σ 2 ( X ' X ) −1 X ' ΩX (X ' X ) −1
Por lo que:
• El estimador sigue siendo
insesgado.
• Las varianzas deben ser corregidas para incorporar heterocedasticidad.
¿Qué ocurre si se estima por MICO sin tener en cuenta la heterocedasticidad?

 σ2 
La varianza estimada con la fórmulas anterior  o σ 2
( X ' X ) −1 
es un
 ∑ x i2 
 
estimador sesgado de la varianza corregida. Será sobreestimada o subestimada,
dependiendo de la naturaleza de la relación de σ 2i y Xi.
 ∑ e 2i 
El sesgo surge de que el estimador de σ , σˆ =  2 2  , deja de ser insesgado bajo
 n −2 
 
heterocedasticidad.
Esto implica que usar los procedimientos habituales de MICO puede provocar serios
errores. Por eso se utiliza un método alternativo: Método de Mínimos Cuadrados
Generalizados
Se recomienda ver ejercicio 6.18 de la Guía.
6.2. MÉTODO DE MÍNIMOS CUADRADOS GENERALIZADOS
Idea: Utilizar una técnica que presta menos atención a los residuos asociados con
observaciones con alta varianza. Esto se hace asignando menos "peso" a esas
observaciones, dado que éstas dan una indicación menos precisa del lugar donde
pasa la verdadera recta de regresión.
161
Yi
•
•
•
•
•
•
•
•
•
•
Xi
Partamos del modelo simple:
(1) Yi = β 1 + β 2 X i + µ i
Otra forma de expresarlo es
(2) Yi = β 1 X 0i + β 2 X i + µ i , donde X0i =1 para todo i.
Supongamos que se conoce σ 2i y se divide (2) por σi :
Yi X  X  µ
(3) = β1  0i  + β 2  i  + i
σi  σi   σi  σi
( 4) Y i* = β *1 X *01 + β *2 X *i + µ *i
Calculemos ahora la varianza del término de error de la regresión en que los datos
fueron transformados:
2
µ  1 σ2
Var (µ ) = E(µ ) = E i
* * 2
 = 2 E(µ 2i ) = i2 = 1
 σi σi σi
i i

§ Este método implica que ahora el error es homocedástico, la

varianza es 1. En este caso se cumplen todos los supuestos clásicos ⇒ es
MELI.
§ Aplicar MICO a variables transformadas es lo mismo que aplicar
MCG.
162
Derivación de MCG en el caso simple

Yi ˆ * X 01 ˆ * X i e i
= β1 +β2 +
σi σi σi σi
Yi = βˆ 1* X *01 + βˆ * 2 X*02 + e *i
1
Sea w i =
σ 2i
2
e  ei
2
min ∑e *2
= min ∑  i  = min
 ∑σ = min ∑ (w e 2
)
 σi
i 2 i i
 i
= min ∑w i (Y i − βˆ 1* − βˆ *2 X i ) 2
∂∑ w i e i2
= 2 ∑ w i ( Yi − βˆ *1 − βˆ *2 X i )( −1) = 0
∂βˆ 1
*
∂∑ w i e i2
= 2 ∑ w i ( Yi − βˆ *1 − βˆ *2 X i )( −1) = 0
∂β 2
ˆ *
βˆ *i = Y * − β*2 X *
( ∑ w i )( ∑ w i Yi X i ) − ( ∑ w i X i )( ∑ w i Yi )
βˆ *2 =
( ∑ w i )( ∑ w i X12 ) − (∑ w i X i ) 2
Derivación de MCG en el caso múltiple.

Y = X β + µ donde hay heterocedasticidad, E (µµ' ) = σ 2 Ω
Quisiéramos transformar el modelo y queremos que al transformar las
variables se cumpla que el error sea homocedástico.
Supongamos que existe una matriz T, que transforma los datos:
TY = TX β + Tµ = TX β + v
Requerimos que E(vv') = σ2 I, donde v = Tu

Como Var v = E ( vv ' ) = E (Tµµ ' T ' ) = TE (µµ ' ) T' = Tσ 2 Ω T ' = σ 2 T Ω T '
y se requiere T Ω T' = I ,
Luego, Ω = T −1 ( T' ) −1
163
Ω −1 = T' T (*)
Es decir que T, debe ser una matriz que satisfaga (*)
Para obtener los estimadores MCG, aplicamos MICO al modelo transformado;

TY = TX β + v
βˆ MCG = ((TX )' TX ) −1 ( TX )' TY = ( X' T' TX ) −1 X' T ' TY = ( X' Ω −1X) − 1 X' Ω −1 Y
= ( X' Ω −1X) −1 X' Ω −1 ( Xβ + µ) = ( X' Ω −1X) −1 X' Ω −1 Xβ + ( X' Ω −1X) −1 X' Ω −1µ =
= β + ( X' Ω −1 X) −1 X' Ω −1 µ
E (βˆ MCG ) = β
[(
V(βˆ MGB ) = E([(βˆ − β)(βˆ − β)'] = E X' Ω −1X )−1
X' Ω −1µµ ' Ω −1 X X' Ω −1 X ( ) −1
]=
[(
= X' Ω −1 X )+1
(
X' Ω −1E (µµ' ) Ω −1X X' Ω −1 X )−1
] = [(X' Ω −1
X) −1
(
X' Ω −1σ 2 ΩΩ −1X X' Ω −1 X )−1
]=
[(
= σ 2 X' Ω −1X )−1
(
X' Ω −1 ΩΩ −1X X' Ω −1 X ) −1
] = σ (X' Ω
2 −1
X)
−1
Se puede demostrar que esta varianza cumple el teorema de Gauss Markov.

El estimador de σ2 es:
v̂' v̂
σˆ 2 = v̂ = TY − TX βˆ MCG
n −k
(TY − TX βˆ MCG )' ( TY − TX βˆ MCG ) ( Y − Xβˆ MCG )' T' T (Y − Xβˆ MCG )
σˆ 2 = =
n−k n−k
( Y − Xβˆ MCG )' Ω −1 ( Y − Xβˆ MCG )

=
n−k
Este método se conoce generalmente como mínimos cuadrados ponderados.

Cuando existe heterocedasticidad, el método que verifica TM Gaus Markov es MCG y no
MICO.
var ( MCG) < var ( MICO) C. H.
6.3. ¿CÓMO DETECTAR LA HETEROCEDASTICIDAD?

La mayoría de los métodos para detectar la heterocedasticidad se basan en el análisis de los
residuos. Esto se hace esperando que los ei sean buenos estimadores de µi, lo que se puede
164
cumplir si la muestra es relativamente grande.

• Naturaleza de l problema:
hay casos en que desde el comienzo de la investigación conocemos que hay
problemas.
• Método gráfico:
intentar detectar la presencia de un patrón sistemático en los residuos.
• Prueba de Park
Supone que σ 2i es función de una variable Xi
σ i2 = σ 2 X i β e v i
Ln σ i2 = ln σ 2 + β ln X i + v i
Dado que σ 2i es desconocida, se propone usar e 2i

ln e i2 = ln σ 2 + β ln X i + v i
ln e i2 = α + β ln X i + v i (i )
La idea es hacer un test:

Si β ⇒ es significativo ⇒ heterocedasticidad
⇒ no significativo ⇒ homocedasticidad
Para hacerlo hay 2 etapas:
1) Aplicamos MICO a la regresión original (que queremos testear), calculamos ei
2) Corremos regresión (i) y hacemos test de hipótesis.
Problemas:
vi no satisface las propiedades para aplicar MICO
• Prueba de Glesjer
Es similar al método anterior pero se realiza testeando con diferentes formas
funcionales:
165
ei = β 1 + β 2 X i + vi
ei = β 1 + β 2 X i + vi
1
ei = β 1 + β 2 + vi
Xi
1
ei = β 1 + β 2 + vi
Xi
e i = β1 + β 2 X i + v i
Problema:
§ El residuo tiene como propiedades: E(vi) ≠ 0, correlacionado y heterocedástico.
Pero para nuestras grandes pueden ocuparse las 4 primeras formas.
Ventaja: trata de estimar la verdadera forma de la heterocedasticidad.
• Goldfeld - Quant
Yi = β 1 + β 2 X i + µ i
σ i2 = σ 2 X 2i
Pasos:
1. Ordenar las observaciones de acuerdo a Xi
2. Omitir observaciones centrales (c). Nos quedan 2 grupos de
n −c
observaciones cada uno.
2
3. Aplicar MICO a las dos submuestras y obtener SCRI y SCRII
4. Calcular
SCR ii / g de l
λ=
SCR i / g de l
si µ i ~ N y hom ocedástico λ ~ F n −c −2 k
, n − c− 2 k
2 2
Si λ > F → rech Homocedast icidad
Idea: Si existe heterocedasticidad del tipo supuesto, con la ordenación la varianza

del término de error será mayor hacia el final de la muestra ⇒SCRII > SCRI ⇒ Si
166
λ> F ⇒ rechaza homocedasticidad.
• Test de White.
Es válida para n grande.
Pasos:
(1) Aplicamos MICO a la regresión original ⇒ calculo ei.
(2) Se hace la regresión de e 2i = f (Constante , X 2 , X 2 X 3 , X 22 , X 23 ) , es decir,
e 2i = α 1 + α 2 X 2 + α 3 X 3 + α 4 X 2 X 3 + α 5 X 22 + α 6 X 23 + µ i
(3) Bajo la hipótesis nula de ausencia de heterocedasticidad

(α 2 =α 3 =α 4 =α 5 =α 6 =0) asintóticamente el estadístico nR2 ~ χ 2p − 1
donde p son la cantidad de parámetros del modelo (2)
Idea: Mientras n crece, R2 tenderá a cero bajo la hipótesis nula de

homocedasticidad. El R2 no tiende a cero, si la varianza del ei depende de las
variables explicativas del modelo ⇒ en ese caso nR2 > χ 2.
6.4 ¿CÓMO SOLUCIONAR HETEROCEDATICIDAD?

Bajo heterocedasticidad MICO ya no es eficiente
§ Se conoce σ 2i
si se conoce σ 2i ⇒ estimo por MCG ⇒ transformo los datos de forma que el

residuo sea homocedástico.
§ Se desconoce σ 2i . Lo primero es estimar σ 2i , según la forma de la heterocedasticidad,
será la forma de transformar los datos.
1) Supongo E (µ 2i ) = σ 2 X 2i
La forma es dividir datos por Xi
167
Yi = β 1 + β 2 X i + µ i
Yi β1 µ
= +β2 + i
Xi Xi Xi
Yi 1
= β1 + β 2 + vi
Xi Xi
µ 
E ( v i ) = E i  = 0
 Xi 
2
µ  1 2 Xi
2
E ( v ) = E i
2
i
 = 2 E(µ i ) = σ
2
2
= σ2
 Xi  X i X i
2) Supongo E (µ 2i ) = σ 2 X i
Mejor transformación
Yi β1 β2 µi
= + Xi +
Xi Xi Xi Xi
Yi 1 µi 1
= β1 + β2 Xi + = β1 +β2 Xi + v i
Xi Xi Xi Xi
 µ 
E ( v i ) = E i =0
 X 
 i 
2
 µ    1
 = E µ i
2
X
E ( v i ) = E i = E( µ i2 ) = σ 2 i = σ 2
 X   ( X )2  Xi Xi
 i   i 
Ejemplo en caso general
Supongamos un modelo de corte transversal
Yt = α + βX t + µ t para t = 1....n
ut homocedástico
Pero solo tenemos acceso a datos agrupados en m grupos con ni observaciones en cada
grupo i.
Yi = α + βX i + µ i
σ2
var( µ i ) =
ni
168
1 / n 0 . 0 
 . 
2 0 1/ n2 .
σ Ω=σ
2
 . . . . 
 
 0 . . 1/ n m 
n 1 
 
 
Ω −1 =  n2 
 
 
 n m 
T' T = Ω −1
 n1 
 
 n2 
 
•
T = 
 • 
 
 • 
 n m 

169
7. AUTOCORRELACIÓN
7.1 INTRODUCCIÓN
La heterocedasticidad es solo una de las formas en que se puede levantar el supuesto
de E(µµ’) = σ2I. La segunda manera es suponer que los errores presenten estén
correlacionados entre sí ⇒ E(µiµj) ≠ 0 para i ≠ j
Esto provocaría que la matriz de varianzas y covarianzas de los errores presentará términos
distintos de 0 fuera de la diagonal principal:
γ 0 γ1 γ2 … 
γ γ0 
 1 
γ • 
E (µµ' ) =  2  donde γs = E(µiµi-s )
 • 
 • 
 
 γ 0 
A este fenómeno se le denomina autocorrelación y está presente fundamentalmente en

estudios de series de tiempo, donde un shock en el período i, genera errores en los próximos
períodos.
En lo anterior, se está suponiendo que la covarianza entre dos errores depende sólo de la
distancia temporal entre las observaciones.
A su vez, como todos los términos de la diagonal principal se tiene el mismo valor, se está
suponiendo homocedasticidad ⇒ γ0 = E(µiµi-0)= E (µ 2i ) = γ 0 = σ 2µ
En términos gráficos:
ui ui
ei
x
x
x
x
x
x x
x x x
x x
x x
x x x
x x
x
x x t
x
t
x x
170
7.2 CAUSAS MÁS FRECUENTES DE AUTOCORRELACIÓN
Ciclos o tendencias en las variables,

Es decir rachas de valores altos o bajos provocados por shocks o innovaciones no esperados
que son difícilmente captados por las variables explicativas.
Autocorrelación espacial,
En datos de cross-section un shock aleatorio que afecta la actividad de una región puede
causar actividad económica en regiones adyacentes (ej.: mal tiempo).
También ocurre efecto vecindad o efecto demostración.
Influencia prolongada de shocks:

En las series de tiempo, los shocks en general persisten por más de un período.
Inercia:
Debido a la inercia o a fenómenos psicológicos, las acciones pasadas muchas veces tienen
efecto en el presente. Si al modelo le falta incorporar dinámica presente en la realidad, a
través de rezagos, los residuos tendrán patrones autocorrelacionados.
Mala especificación
i) Omisión de una variable relevante

La omisión de una variable relevante que es autocorrelacionada provocará un residuo
autocorrelacionado.
Si el modelo es Yi = β 1 + β 2 X 2 + β 3 X 3 + µ i
pero estimamos Yi = β 1 + β 2 X 2 + v i
Entonces, v i = µ i + β 3 X 3
Si X3 presenta autocorrelación, entonces, vi la presentará aunque ui no esté

autocorrelacionado.
Si esta es la razón para un patrón de este tipo, entonces lo correcto es

corregir la mala especificación, incorporando X3 al modelo.
171
ii) Forma funcional inadecuada.
f. funcional
estimada
errores positivos
verdadera forma
o negativos
Quiebre o cambio estructural
Si se produjo un cambio estructural en la muestra, los residuos pueden presentar patrones

sistemáticos antes y después del cambio estructural.
forma verdadera
forma estimada
Entonces, es muy importante detectar la razón de patrones de comportamiento

autocorrelacionados en los residuos, porque ello determinará la mejor forma de corregir
este problema.
En adelante, supondremos que la autocorrelación no está provocada por errores de

especificación, ni de quiebre estructural, ni ausencia de rezagos, sino que por alguna
razón distinta de estas, los residuos se encuentran correlacionados entre sí.
172
7.3 ALGUNAS DEFINICIONES

Autocovarianza
Definimos autocovarianza entre µi y µi-s como E (µ i , µ i− s ) = γ s para s=0, ±1, ±2...
Si s = 0 ⇒ E( µ i , µ i− s ) = E(µ 2i ) = γ 0 = σ 2µ
Entonces, podemos E( µµ' ) se puede expresar:
γ 0 γ1 γ2 . 
γ γ0 
 1 
E (µµ' ) =  . . =
 
 . . 
 γ 0 
Coeficiente de Autocorrelación
Definimos
Cov(µ i , µ i− s ) E( µ i . µ i −s ) E( µ i .µ i− s ) γ s
rs = = = =
E( µ i ) 2 • E (µ i −s ) 2 γ 0 • γ0 γ0 γ0
γs
⇒ rs = ⇒ γ s = γ 0 r s ⇒ γ s = σ µ2 rs
γ0
Si s=0, γ 0 = σ µ2
Luego, también podemos expresar E( µµ' ) :
 γ 0 γ1 γ2   σµ σ 2µ r1 σ 2µ r 2  1 
2
. . r1 r2 .
γ  σ 2 r  r 
 1 γ0   µ 1 σ 2µ  1 1 
E (µµ' ) =  . . = . .  = σ 2µ  . . 
     
. .   . .  . 1 
 γ 0   2
σµ   1
E (µµ' ) = σ 2µ Ω
Esta es la forma genérica de la matriz. Para distintos casos de autocorrelación tendremos

distintas matrices de E(µµ'). Para encontrar cada forma en particular debemos calcular los γi
EJEMPLO
Encontremos E(µµ') para el caso más común de autocorrelación que es

AUTOCORRELACION DE PRIMER ORDEN [AR(1)].
173
Esta ocurre cuando el residuo en un período es proporcional al residuo en el período

anterior más un residuo bien comportado⇒ µ i = ρ µ i−1 + ε i
µ i = ρ µ i −1 + ε i donde ε i ~ N ( 0, σ 2ε I)
Calculo de γ0
γ 0 = E(µ 2i ) = σ 2µ
µ i = ρ µ i−1 + ε i = ρ(ρ µ i− 2 + ε i −1 ) + ε i = ρ 2 µ i− 2 + ρ ε i −1 + ε i =
= ρ 2 ( ρ µ i− 3 + ε i −2 ) + ρ ε i−1 + ε i = ρ 3 µ i −3 + ρ 2 ε i− 2 + ρ ε i−1 + ε i = .....
= ε i + ρ ε i −1 + ρ 2 ε i− 2 + ρ 3 µ i− 3 .......
• E (µ i ) = E( ε i + ρ ε i−1 + ρ 2 ε i −2 + ρ 3 µ i −3 .......) = 0
E (µ i ) = 0 (i)
[
• E (µ 2i ) = E (ε i + ρε i −1 + ρ 2 ε i − 2 + … + )(ε i + ρε i −1 + ρ 2 ε i − 2 …) ]
[
= E (ε 2i + ρ 2 ε 2i−1 + ρ 4 ε 2i− 2 + … + ρ ε i ε i−1 + ρ 3 ε i −1 ε i− 2 … ]
= σ 2ε + ρ 2 σ 2ε + ρ 4 σ 2ε + … + 0 + 0 = σ 2ε (1 + ρ 2 + ρ 4 + … )
1
El segundo término es la suma de una progresión geométrica . S.P.G. = , por lo que
1 − ρ2
σ ε2
entonces, E (µ 2i ) = (ii)
1− ρ2
Por definición E (µ 2i ) = γ 0 = σ 2µ , por lo que (ii) implica:
σ 2ε
γ 0 = σ 2µ = (iii)
1− ρ 2
Calculo de γ1
γ1 = E( µ i , µ i−1 )
pero como:
µ i = ε i + ρ ε i −1 + ρ 2 ε i −2 + ρ 3 µ i− 3 .....
y µ i−1 = ε i−1 + ρ ε i− 2 + ρ 2 ε i− 3 + ρ 3 µ i − 4 .....

γ1 = E(µ i , µ i−1 ) =
[ ]
= E (ε i + ρε i−1 + ρ 2 ε i− 2 + ..)(ε i−1 + ρε i− 2 + ρ 2 ε i −3 ..) = E(ε i ε i −1 + ρε i ε i− 2 + .. + ρε 2i−1 + ρ 3 ε 2t− 2 + ρ 5 ε i2−3 + ..)
= E (ε i ε i−1 ) + ρE( ε i ε i− 2 ) + .. + ρE(ε 2i−1 ) + ρ 3 E(ε 2t − 2 ) + ρ 5 E( ε i2−3 ) + .. = 0 + 0 + .. + ρ σ 2ε + ρ 3 σ 2ε + ρ 5 σ 2ε ..
ρ σ 2ε
= ρ σ ε2 (1 + ρ 2 + ρ 4 + ……) =
1−ρ
2
174
ρ σ ε2
γ1 = (iv)
1 − ρ2
Por inducción:
σ 2ε
γ0 = = σµ2
1− ρ 2
σ 2ε ρ
γ1 = = ρ σ 2µ
1−ρ 2
M
σ ε2 ρ s
γs = = ρ s σ µ2
1− ρ 2
Entonces,
 σ 2ε σ 2ε σ 2ε 
 ρ ρ2 . 
  1 − ρ2 1− ρ2 1− ρ2
2
γ 0 γ1 γ2 . 
γ γ0   σε σ 2ε 
 1  ρ 1 − ρ 2 1− ρ 2 
E (µµ' ) =  . . = =
   . . 
. .   . . 
 γ 0   
 σε 
2
 1 − ρ 2 
1 ρ ρ 2 . 
 
ρ 1
σε 
2  σ ε2
=  . . = Ω = σ 2µ Ω
1− ρ2   1− ρ2
. . 
 1
γs σ 2µ
Recordar: r s = =ρ
s
=ρ
s
σ 2µ σ 2µ
Con autocorrelación el supuesto E(µµ') = I se cambia por E(µµ') = σ2 Ω. En el caso AR(1),

Ω toma la forma que acabamos de derivar.
En otros casos de autocorrelación, se debe ver que forma toma Ω.
• AR ( 2) ⇒ µ t = ρ1µ t−1 + ρ 2 µ t −2 + ε t
• MA (1) ⇒ µ t = ε t + θ ε t −1
175
7.4 PROPIEDADES DE LA ESTIMACIÓN MICO BAJO

AUTOCORRELACIÓN
1. Estimando por MICO una regresión que presente autocorrelación en el residuo,
obtendremos un estimador cercano a la verdadera línea poblacional. Estimando en
repetidas muestras, el promedio del valor estimado estará sobre el verdadero valor, pero
la alta varianza de las distintas estimaciones llevará a que la varianza del estimador sea
mayor que la que obtendríamos con errores no correlacionados.
§ βˆ = ( X' X) −1 X' Y seguirá siendo insesgado, pero la varianza estimada será mayor
que la que podríamos obtener si ponderamos las observaciones (si aplicamos MCG)
e' e
§ σˆ 2 = subestima la verdadera varianza σ2 y esto hace que la varianza estimada
n−k
para una muestra V [ ]
ˆ (βˆ ) sea menor que la verdadera varianza. Por tanto, los test t
2
no son adecuados.
§ El R2 está sobreestimado.
2. Si se estima por MICO, pero se corrige la varianza asumiendo autocorrelación:

βˆ = β + ( X' X) −1 X' µ
[ ]
V(βˆ ) = E[(βˆ − β)(βˆ − β)'] = E (X' X) −1 X' µµ ' X ( X' X) −1 = σ 2 ( X' X) −1 X' Ω X ( X' X) −1
Si utilizamos esta varianza el estimador obtenido tampoco será un estimador eficiente .
3. Método Mínimos Cuadrados Generalizados (MCG)
Como vimos antes (heterocedasticidad), cuando no se cumple el supuesto clásico de

E(µµ’)=I, el estimador eficiente es MCG.
Este método consiste en realizar transformaciones a los datos de forma de conseguir
un error que sea bien comportado.
βˆ MCG = ( X' Ω −1 X) −1 X' Ω −1 Y
V(βˆ MCG ) = σ 2 ( X' Ω −1 X) −1 donde Ω −1 = T' T

Para el caso AR(1), donde µ t = ρ µ t−1 + ε t
176
1 ρ ρ 2 . 
 
ρ 1
σε 
2  σ ε2
E (µµ' ) = . . = Ω = σ 2µ Ω
1− ρ2   1− ρ 2
. . 
 1

1 −ρ 0 L 0
− ρ (1 + ρ) −ρ L 
 
Ω −1 = 0 −ρ (1 + ρ) − ρ 
 
 M M O M
 1
7.5 ¿CÓMO DETECTAR AUTOCORRELACIÓN?
Método gráfico:
el simple análisis de los residuos obtenidos puede confirmar la presencia de errores mal
comportados.
Estadístico de Durbin-Watson (1951)
Consiste en el cálculo del coeficiente d=

∑ (e − e
i i −1 )2
∑e 2
i
Este estadístico es calculado con los residuos de la regresión MICO y es usado para
testear autocorrelación de primer orden.
El test es válido bajo las siguientes condiciones:
1) En la regresión hay constante ⇒ ∑e i =0
2) La matriz X es no estocástica
3) Solo sirve para testear procesos AR(1).
4) No es válido cuando la variable dependiente está rezagada.
Derivación:
d=
∑ (e − e i i −1 )2
=
∑e 2
i + ∑ e 2i −1 − 2 ∑ e i e i−1
∑e 2
i ∑e 2
i
177
como ∑e ≅∑e
2
i
2
i −1
2 ∑ e 2i − 2 ∑ e i e i−1  ∑ e 2i ∑ e i e i−1 
 = 2 1 − ∑ i i−1 
 ee 
d≅ = 2 −
∑e 2
i ∑ i
 e 2
∑ e i   ∑ e 2i 
2
↓
(*)
El término (*) corresponde a la estimación de ρˆ en un proceso

AR(1). Esto porque en AR(1) ⇒ rs = ρ s ⇒ r = ρ
γ1 cov( e i , e i −1 )
ρ= ⇒ ρˆ =
γ0 VAR ( e i )
ρˆ =
∑ (e − e)(e
i i −1 − e)
=
∑e e
i i −1
∑ (e − e )
i
2
∑e 2
i
 ∑ e i e i−1 
⇒ d = 2 1 −  = 2(1 − ρˆ )

 ∑ e i 
2
Entonces,
 ∑ e i e i−1 
d = 21 −  = 2(1 − ρˆ )
 e i2 
 
La hipótesis nula del test es que no existe autocorrelación

H0) No hay autocorrelación ≅ ρ = 0 ≅ d = 2
H1) Hay autocorrelación
El estadístico d no tiene una distribución conocida. Por eso Durbin y Watson tabularon la
distribución del test. Para cada valor de k y n (al 5% y al 1%) se obtienen dos valores
críticos: du y dL que permiten establecer zonas en que se rechaza la hipótesis nula, zonas
en que se acepta y zonas de indecisión
178
El criterio no decide El criterio no decide
dL dU 2 4-d U 4-d L
No hay Autocorrelación
Autocorrelación positiva Autocorrelación negativa
Supongamos DW indica errores de autocorrelacionados que hacemos? Estimamos por

MCG? Depende, esto puede deberse a una variable omitida, a una forma funcional
incorrecta o a falta de dinámica en la especificación. Solo si se ha verificado que el
error no se debe a ninguna de estas causas es necesario aplicar MCG.
§ Test H de Durbin
Sirve para testear autocorrelación cuando la variable dependiente rezagada se incluye

entre las explicativas.
Yi = β1 + β 2 Yi −1 + β 2 Yi −2 + … + β r Yi −r + β r +1 X1 …… β r + k X k
donde u i = ρµ i−1 + ε i
H0) ρ = 0
H1) ρ ≠ 0 solo es válido para muestras grandes
n
h = ρˆ
1 − n [var (βˆ 2 )]
n - tamaño muestral
ρˆ - estimación de ρ
var βˆ 2 - varianza del coeficiente asociado a Yt-1.
Bajo la hipótesis nula h ~ N (0, 1), por lo que:
P [ -1,96 < h < 1,96 ] = 0,95

por lo que si h calculado (bajo alguna estimación de ρ̂ ) es mayor en valor absoluto que
1,96 rechazo H0 al 5%.
Características de la prueba:
179
1. No importa cuantas veces está rezagada Yt, solo necesito la varianza del coeficiente
asociado a Yt-1.
2. La prueba no es válida si n var βˆ 2 > 1.
3. La prueba solo es válida si la muestra es grande.

Test de Breusch - Godfrey (1978)
Este test permite verificar autocorrelación de orden mayor que uno.
El modelo general al que se aplica al test es:

(*) Yt = β 0 + β1 Yt−1 + β 2 Yt− 2 + … + β r Yt− r + β r +1 X 1 + … + β r + k X k + µ t
donde r son los rezagos de la variable dependiente
La hipótesis nula es que no hay autocorrelación

H0) µ i ~ N (0, σ 2 I )
H1) µi presenta errores mal comportados.

Pasos
i) Se realiza la regresión (*) por MICO y se extraen los residuos ⇒ ei.
ii) Usando los residuos calculados en i) se realiza la siguiente regresión:

ei = f(ei-1, ei-2, ........, ei-p , Yi-1, Yi-2 ..........Yi-r, X1 ........ Xk)
iii) El estimador (n-p)R2 bajo la hipótesis nula se distribuye χ2,p , con lo que si
(n-p)R2 > χ2,p (α) se rechaza la hipótesis nula. Donde n es el tamaño de la

muestra de la regresión principal.
Ejemplo de utilización de los test en Eviews.
En E-Views podemos realizar fácilmente alguno de estos test. Para los datos del ejercicio
2.1.7 tenemos la siguiente salida:
Sample: 1 10
C 3.600000 2.090177 1.722342 0.1233
X 0.750000 0.255738 2.932692 0.0189
180

Corresponde al valor calculado del estadístico de DW. Este valor hay que
contrastarlo con los valores de dU y dL de la tabla
k=2 (k’=1) n=10 ⇒ dU =1.32 , dL =0.879

El criterio no decide El criterio no decide
0.879 1.32 2 2.68 3.121
No hay Autocorrelación
Autocorrelación positiva Autocorrelación negativa
2.34
Por DW, no rechazo H0 (no rechazamos que ρ sea cero).
Breusch-Godfrey Serial Correlation LM Test:

F-statistic 0.245626 Probability 0.789711
Obs*R-squared 0.756792 Probability 0.684959
Test Equation:
LS // Dependent Variable is RESID
Date: 11/24/98 Time: 13:02
C -0.572430 2.461777 -0.232527 0.8239
X 0.076530 0.304399 0.251415 0.8099
RESID(-1) -0.301095 0.448296 -0.671642 0.5268
RESID(-2) -0.148734 0.428825 -0.346841 0.7406
R-squared 0.075679 Mean dependent var -4.22E-16
Adjusted R-squared -0.386481 S.D. dependent var 1.275844
181
p=2, n=10
El estimador nR2 bajo la hipótesis nula se distribuye χ2,p , con lo que si
nR2 > χ2,p (α) se rechaza la hipótesis nula.

χ 22 (0.05 ) =5.9
nR2 =0.75
Por tanto no se rechaza la hipótesis nula (podíamos intuir este resultado por la falta de
significancia de los coeficientes asociados a los residuos).
7.6 FORMAS DE CORREGIR POR AUTOCORRELACION
7.6.1 Conozco la forma de la autocorrelación y conozco ρ
7.6.1.1 AR(1)
Sabemos que µ i = ρ µ i −1 + ε t y supongamos que conocemos ρ.
1 ρ ρ 2 . 
 
ρ 1
σε 
2  σ ε2
E (µµ' ) = . . = Ω = σ 2µ Ω
1− ρ2   1− ρ 2
. . 
 1

1 −ρ 0 L 0
 − ρ (1 + ρ) − ρ L 
 
Ω −1 =  0 −ρ (1 + ρ) − ρ 
 
 M M O M
 1
Sabemos que la regresión debe ser con los datos transformados, de forma que el residuo sea
bien comportado
Y = Xβ + µ µ t = ρ µ t −1 + ε t
TY = T X β + Tµ = T X β + v
Para que v sea bien comportado, se debe cumplir que T'T = Ω -1
182
Entonces, T debe ser igual a:
 1 − ρ2 0 L L0
 
 −ρ 1 0 L 0
T=  0 − ρ 1 0 0
 
 M M O O 0
 
 0 0 L − ρ 1
por tanto
 1 − ρ 2 Y1   1 − ρ 2 µ1   1− ρ2 
     
 Y − ρY  µ − ρµ   ε2 
 2 1
  2 1
  
 Y − ρY  µ − ρµ   ε3 
TY =  3 2  Tµ =  3 2 =  
 •   •   • 
 •   •   • 
 •   •   • 
 •   •   • 
 Yn − ρYn −1  µ n − ρµ n−1   εn 
 1− ρ 2 1 − ρ 2 X 12 ………… 1 − ρ 2 X 1k 
 
 
1 − ρ X 22 − ρX12 ………… X 2k − ρX 1k 
 
 • 
TX =  
 • 
 • 
 
 • 
1 − ρ X n2 − ρX n−1, 2 ……… X nk − ρX n−1, k 

Observación:
Si partimos de:
(1) Yi = β 1 + β 2 X i2 + …… + β k X ik + µ i
donde µi = ρ µi-1 + ε i
Entonces, para el rezago de (1) se cumple
(2) Y i−1 = β1 + β 2 X i −1, 2 + …… + β k X i −1, k + µ i −1
183
multiplicando (2) por ρ,
(3) ρYi−1 = ρβ1 + ρβ 2 X i −1, 2 + …… + β k ρ X i −1, k + ρµ i−1
Restando (1) - (3), tenemos:
(4)
Yi − ρYi−1 = β1 (1 − ρ) + β 2 ( X i2 − ρX i−1, 2 ) + …… + β k ( X ik − ρX i−1, k ) + µ i − ρµ i −1
↓
εi
Correr la regresión (4), es muy parecido a aplicar el procedimiento anterior, con la

diferencia de la primera observación.
Este último método es más utilizado, pero menos eficiente para corregir autocorrelación.
7.6.1.2 AR(2)
µ i = ρ1 µ i−1 + ρ 2 µ i− 2 + ε i
§ Una alternativa es definir Ω, Ω -1, T y multiplicar TY = T X β + Tµ.
§ Otra forma es proceder como sigue,

(5) Yi = β 1 + β 2 X i2 + …… + β k X ik + µ i
Rezago (5)
(6) Y i−1 = β1 + β 2 X i −1, 2 + …… + β k X i −1, k + µ i −1
Rezago (6)
(7) Y i− 2 = β1 + β 2 X i−1, 2 + …… + β k X i− 2, k + µ i − 2
Multiplico (6) por ρ1 y (7) por ρ2

(8) ρ1 Yi −1 = β 1ρ1 + β 2 ρ 1 X i −1, 2 + …… + β k ρ1 X i−1, k + ρ1 µ i −1
(9) ρ 2 Yi− 2 = β1ρ 2 + β 2 ρ 2 X i − 2, 2 + …… + β k ρ 2 X i− 2, k + ρ 2 µ i − 2
Resto (5) - (8) - (9) nos queda,
(10)
Yi − ρ1 Yi−1 − ρ 2 Yi − 2 = β 1 (1 − ρ 1 − ρ 2 ) + β 2 ( X i 2 − ρ1 X i−1, 2 − ρ 2 X i − 2, 2 ) +
+ L + β k ( X ik − ρ1 X i−1, k − ρ 2 X i− 2, k ) + µ i − ρ1 µ i −1 − ρ 2 µ i− 2
donde el último término es ε i
184
Correr la regresión (10) dará un resultado aproximadamente igual.
Es decir que si conocemos la forma de la autocorrelación y los ρ, es fácil aplicar MCG y

obtener los parámetros, pero generalmente no conocemos ρ, entonces primero hay que
estimarlo y luego aplicar los métodos anteriores para calcular MCG.
7.6.2 . No conocemos ρ.
Hay métodos para calcularlos

7.6.2.1 Método de posiciones extremas
Como no conocemos ρ, podríamos partir de alguno de los dos casos extremos. Esto es
suponer que ρ = 1 o ρ = - 1.
§ Si ρ=1 la ecuación (4) nos queda,

Y i − Y i−1 = β 2 ( X i 2 − X i −1 ) + …… + β k ( X ik − X i−1, k ) + ε i
∆Yi = β 2 ∆X i2 + …… + β k ∆X ik + ε i
Es decir que hay que estimar con los datos expresados en primeras diferencias
§ Si ρ=-1 la ecuación (4) nos queda,

Y i + Y i−1 = 2β1 + β 2 ( X i 2 + X i −1, 2 ) + β 3 ( X i3 + X i−1,3 ) + … + ε i
Yi + Yi−1  X i2 + X i −1, 2   X i3 + X i −1, 3 

= β 1 + β 2   + β3 
 
 +… + ε i

2  2   2 
Es decir que hay que estimar con los datos expresados en promedios.
El problema de este método, es que si ρ≠1 o ρ≠-1 el remedio puede ser peor que la
enfermedad.
7.6.2.2 Método basado en estadístico d de Durbin y Watson
d ≅ 2 (1− ρˆ )
⇓
ρˆ ≅ 1 − d \ 2 → esto solo es válido si n es grande
185
7.6.2.3 Procedimiento iterativo de Cochrane - Orcutt

i. Se estima el modelo por MICO y se obtienen los residuos ei
ii. Estimamos por MICO la siguiente regresión:
e i = ρˆ e i −1 + v t
iii. con ρ̂ estimado, corregir los datos y correr la ecuación (4)
Yi − ρYi−1 = β1 (1 − ρ) + β 2 ( x i 2 − ρx i−1 ) + …… + β k ( x ik − ρx i−1,k ) + u i − ρu i −1
iv. como no sabemos si ρˆ es buena estimación de ρ, volvemos a la regresión

original utilizando los coeficientes estimados en la iii etapa y obtenemos e *i .
v. e *i = ρˆ e *i−1 + w t
con esta estimación de ρˆˆ , se vuelve a repetir desde la etapa iii.
El método es iterativo y se para cuando en dos corridas sucesivas los ρ
estimados difieren poco.

7.6.2.4 Método de Durbin
La ecuación (4) se puede escribir como:
Yt = β1 (1 − ρ) + β 2 X 2t − ρβ 2 X t−1 + ρYt −1 + …… + ε t
i) Partir de esta ecuación regresando Yt en Xt, Xt-1, ..., Yt y utilizar el valor
estimado del coeficiente de Yt-1 como estimación de ρ (el estimador es
segado, pero consistente).
ii) Luego de tener ρˆ , transformar los datos y correr la regresión (4).

7.6.2.5 Método de la malla - Hildreth y Lu.
Se define un conjunto de valores posibles de ρ (entre -1 y 1), donde los
intervalos entre los distintos valores de ρ son de 0,1.
Para cada ρˆ se corre la ecuación (4) y se computa la ∑ e 2i . Se elige el valor de ρˆ
que minimice la suma de cuadrados residuales (maximice R2).
186
8. ESP ECIF ICACION DE MODELOS

8.1 ATRIBUTOS DE UN BUEN MODELO
Un modelo que está bien especificado tiene los siguientes atributos:

§ Parsimonia: esto implica que hay que maximizar la explicación del fenómeno,
maximizando la simplificación.
§ Identificabilidad: dadas las observaciones los coeficientes estimados deben ser únicos.
§ Bondad del Ajuste: R2 alto, coeficientes correctos, etc.
Cuidado con Data Mining: Uso indiscriminado de variables con la única finalidad de
aumentar el R2 .
Ames y Reiter (1961) ⇒ en promedio el R2 de una regresión entre una variable
económica y su rezago es 0,7.
§ Plausibilidad Teórica : Coeficientes con signos correctos, etc. Implica consistencia
con el modelo teórico planteado.
§ Poder Predictivo: el R2 es un indicador del ajuste dentro de muestra.
Importa predecir fuera de muestra dentro y fuera del período.
§ Estabilidad de la Ecuación Estimada: inexistencia de cambio estructural (test de
Chow, CUSUM y CUSUM cuadrado)
8.2 TIPO DE ERRORES DE ESPECIFICACIÓN

§ Omitir una variable relevante (variables omitidas)
§ Inclusión de variables irrelevantes (variables intrusas)
§ Forma funcional incorrecta
§ Errores de medición.
8.3 CONSECUENCIAS DE LOS ERRORES DE ESPECIFICACIÓN.

8.3.1 Variables Omitidas
8.3.1.1. Introducción
Supongamos que por alguna razón no es posible estimar el verdadero modelo y se
estima uno alternativo:
Verdadero Modelo ⇒ Yi = β1 + β2 X2i + β3X3i + µi (*)
Modelo estimado ⇒ Estimación sin X3 ⇒ Yi = β1 + β2X 2i + vi (**)
187
Expresando (*) y (**) en desvíos:

y i = β 2 x 2 i + β 3 x 3i + (µ i − µ )
y i = β 2 x 2 i + (v i − v i )
Al estimar β̂ 2 de la segunda ecuación:
βˆ 2 =
∑x y = ∑x
2i i 2i (β 2 x 2i + β 3 x 3i + µ i − µ )
=
β 2 ∑ x 22i + β 3 ∑ x 2i x 3i + ∑ x 2i ( µ i − µ )
∑x 2
2i ∑x 2
2i ∑x 2
2i
β ∑x x + ∑ (µ i − µ ) x 2i
=β +
3 2i 3i
∑x
2 2
2i
β 3 ∑ x 3i x 2i
E (βˆ 2 ) = β 2 +
∑x 2
2i
Entonces se dan los siguientes casos:

§ Si x3 y x2 fueran ortogonales ∑x 3i x 2i = 0 ⇒ Insesgamie nto
§ En los demás casos hay sesgo y este es una función de la relación o covarianza
entre variable omitida y la incluida.
Ejemplo: Estimamos la demanda por algún bien y se omite el precio de un sustituto.
E (βˆ 2 ) = β2 + β 3 ∑x x 2 3
∑x 2
2
donde β 2 = coeficiente del precio "del bien" ⇒ esperamos signo negativo

β 3 = coeficiente del precio del sustituto⇒ esperamos signo positivo
∑x x 2 3
> 0, porque existe cierto gra do de asociación entre var iables .
∑x 2
2
( No Causalidad )
Luego, al estimar sin el precio del sustituto, el coeficiente estimado queda
sesgado y el sesgo es positivo.
8.3.1.2. Consecuencias
§ Si X3 esta correlacionada con X2 ⇒ ambos estimadores son sesgados
inconsistentes (es decir que el sesgo no desaparece para muestras grandes)
§ Si X2 y X3 no están correlacionados ⇒ el estimador de la pendiente es
insesgado, pero el del intercepto sesgado.
§ σˆ 2µ está mal estimado si omito variables
188
 e' e 
 > σµ → Sesgo
2
E
 N − ( k − r ) 
Esto porque e’e es mayor , mientras el efecto sobre el denominador es
marginal.
§ Como consecuencia del punto anterior la varianza de los estimadores es sesgada
V (βˆ ) = σˆ µ2 ( X ' X ) −1
↓
mal estimada
§ Intervalos de confianza y pruebas de hipótesis incorrectas ⇒ conclusiones

erradas.
8.3.1.3. Test para detectar Variables Omitidas
§ Bondad de ajuste y plausibilidad teórica
R2 , t, signos de los coeficientes
§ Examen de los residuos: pueden presentar cierto patrón determinístico.
§ Prueba d de Durbin-Watson.
Si existe correlación positiva en los errores ⇒ significa que estos no son aleatorios y
que pueden estar asociados a alguna variable no incluida en el modelo.
Otra forma de Usarlo:

- Se corre el modelo original.
- Se obtienen los residuos.
- Si se piensa que se excluye una variable explicativa relevante,
ordenar los residuos según el orden ascendente de dicha variable.
Se calcula d = ∑
(e − e i i −1 )2
-
∑e 2
i
- Se compara el d con el d de tabla (con los grados de libertad

originales).
§ Prueba Breusch-Godfrey
§ Prueba Reset de Ramsey
- Se corre la regresión original ⇒ se obtienen los Ŷi ⇒ se extrae el
189
R2.
- Se vuelve a correr la regresión, introduciendo como variables
explicativas formas funcionales de
[ ]
Ŷi por ejemplo Ŷi2 , Ŷi3 , etc. ⇒ se obtiene R *2 .
- H0 ) Modelo Bien Especificado.
H1 ) Modelo Mal Especificado.
( R 2* − R 2 ) / Número de Variables Adicionale s

- F=
(1 − R 2* ) / n − Número Variables Modelo Nuevo
- Si F> Ftabla, rechazo H0 , por tanto rechazo que que modelo esté bien
especificado.
8.3.2 Inclusión de una Variable Irrelevante (Variables Intrusas)

Supongamos que Yi = β1 + β 2 X 2i + µ i sea el Modelo Verdadero pero se corre,
Yi = α 1 + α 2 X 2i + α 3 X 3i + v i , donde X3i es una variable intrusa.
Consecuencias
i ) Estimadores insesgados y consistentes
ii) σˆ 2µ se computa correctamente
 e'e 
E   ≅ σ 2µ esto porque la caída en e’e no es muy grande, porque la
 n ( k + s) 
variable
donde s es el NKO de Variables Intrusas.
Hay que distinguir "computar" de la estimación que se encuentra.
 e' e 
Se "computa" correctamente porque el estimador que se usa  sigue siendo
N −K
un estimador insesgado.
Puede haber, sin embargo, un error de estimación (pequeño) por agregar una
variable que no debía ir.
iii) Intervalos y pruebas de hipótesis son válidos.
iv) Pero la varianza estimada para los parámetros son más grandes que las del modelo
original.
190
σ2
v( βˆ 2 ) = (Modelo original)
∑ x22i
σ2
v( αˆ 2 ) = (Modelo estimado)
∑ x 22i (1 − 2
2,3 )
V(αˆ 2 ) 1
=
V(βˆ 2 )
2
1 − 2,3
v(αˆ 2 )
Como 0 ≤ r 22,3 ≤ 1 ⇒ > 1
v(βˆ )
2
Cuidado: De este análisis no se concluye que la introducción de variables

irrelevantes sea poco costosa.
Conclusión para Especificar Modelos

• Conviene siempre comenzar por un modelo general (que incluya todas las posibles
variables) e ir eliminando variables según los tests t.
Ello por cuanto la inclusión de variables irrelevantes no sesga la estimación de ? 2.
Econometría Inglesa: Se parte de un modelo general y se eliminan variables.
Econometría estadounidense: se parte de un modelo particular y se agregan variables.

Apuntes de Econometria Gil PDF

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Apuntes de Econometria Gil PDF

Uploaded by

Copyright:

Available Formats

ECONOMETRÍA

Verónica Gil Aroztegui

2.3 P ROPIEDADES ESTADÍSTICAS DE LOS ESTIMADORES M ICO .............................................................................49

4. VARIABLES FICTICIAS O DUMMY O BINARIAS O DICOTÓMICAS .............................................135

Ejemplo 2: Una variable cualitativa y otra cuantitativa................................................................................136

La Econometría se nutre de:

Diferencias entre un econometrista y un estadístico:

1.2 MODELO ECONOMÉTRICO.

i) MODELO: representación simplificada de la realidad, recurriendo a un número

1.3 OBJETIVOS DE LA ECONOMETRÍA

i) Formulación de modelos econométricos (o sea modelos económicos en una forma

De lo anterior se infiere que LA ECONOMETRIA

1.4 METODO DE LA ECONOMETRÍA.

Para el ejemplo que veíamos antes:

7. Predicción: dadas las estimaciones de K y L, cual será el PIB del

Modelo Econométrico Datos

¿Es el modelo adecuado?

Prueba de alguna hipótesis

Uso del modelo para predicción y políticas

⇒ los resultados econométricos influyen en la teoría

¿Qué constituye un test para la teoría económica?

1.5 DATOS, VARIABLES Y MODELOS.

ii. Datos de series temporales: son observaciones de una determinada variable a lo

PIB de CHILE a precios constantes

iii. Pool-Data: es la mezcla de datos de cross-section y series temporales. Ejemplo:

1999 2000 2001 2002 2003

Argentina -3.1 -0.5 -4.4 -10.9 8.4

La primera denominación surge de la posibilidad de efectuar predicciones. La terminología

FORMAS FUNCIONALES (Introducción)

En iv y v, la relación entre C e Y no es lineal.

¿Qué significa linealidad?

Cuando se habla de linealidad en este curso se hace referencia a la LINEALIDAD EN

TAREA: de los modelos anteriores determine cuáles son lineales en los

ANEXO 1: RECORDANDO DE INFERENCIA

Hay dos tipos de variables aleatorias:

Continua: se le denomina “función densidad”: f(x)

Las probabilidades se discuten solo para intervalos, no para valores concretos. La

• Leer Apéndice A de Gujarati.

ANEXO 2: UN REPASO DE MATRICES1

DEFINICIÓN: una matriz es un arreglo rectangular de elementos aij donde i representa la

• Producto de matriz por escalar

⇒ Sea Am×n , luego, ImA=AIn =A

A = a 11a 22 + a 21 ( −a 12 ) = a 11a 22 − a 21a 12

⇒ Intercambiar 2 filas (o columnas) cambia el signo del determinante

( A c )' matriz de cofactores transp uesta

• Rango de una matriz

3.1.2 Valores y vectores propios

ii) Vectores propios:

(-2d)2 +d2 =1 ⇒ 4d2 +d2 = 1 ⇒ 5d2 =1 ⇒ d = 1 / 5

⇒ B ' AB = D , es decir que la matriz B (de vectores propios) diagonaliza a A.

3.2.1 Operaciones con matrices

a) Dadas los siguientes matrices,

Calcular: (ABC), (C`A`); (AC)` ; (B`C)` ; (C`B)

b) Dadas las matrices:

Calcular (A+B); (A-B); (4A+7B)

a. Dadas las matrices cuadradas:

b. Dada la siguiente matriz cuadrada:

c. Calcular los siguientes determinantes:

3.2.3 Matriz Inversa

a. Hallar la inversa de las siguientes matrices:

b. Dadas tres matrices A, B y C cuadradas cualquiera, verificar:

(ABC)-1 = C-1 B-1 A-1

3.2.4 Valores y Vectores propios.

a) Encontrar los valores y vectores propios de: