You are on page 1of 39

Econometría I

El Modelo Simple de Regresión Lineal

María Pía Basurto

Basurto Clase 02 1 / 39
Introducción

Queremos explicar y en función de x


1 Como la relación nunca (o muy rara vez) es determinística,
¿cómo vamos a permitir que otros factores afecten y ?
2 ¿Cuál es la forma funcional?
3 ¿Cómo estamos seguros de estar capturando una relación ceteris
paribus entre y y x?
Manteniendo todo lo demás constante, cómo un cambio en x
afecta y

Basurto Clase 02 2 / 39
El Modelo bivariado

y = β0 + β1 x + µi (1)

Representa el modelo bivariado o regresión de dos variables


Asumimos: relación lineal y que los demás factores que afectan y
(distintos de x) se encuentran en µ
µ es el término de perturbación o término de error. Se puede
entender como los factores no observables de la población
y variable dependiente
x variable independiente, explicativa, control o regresor
β0 es el intercepto
β1 es la pendiente

Basurto Clase 02 3 / 39
El Modelo bivariado

Al tomar la derivada vemos que el efecto marginal es β1


El efecto marginal es constante, se debe al supuesto de la forma
funcional (relación lineal)
Para que la ecuación (1) refleje una relación ceteris paribus se
necesitan supuestos sobre relación entre x y µ
Empezamos estableciendo que E[µ] = 0
Esto no dice nada sobre la relación entre µ y x sino sobre la
distribución de los factores no observables de la población
No es muy restrictivo, inocuo si se incluye un intercepto (más
adelante lo veremos)

Basurto Clase 02 4 / 39
El Modelo bivariado

El supuesto central es sobre la relación entre x y µ


Si requerimos que no tengan correlación, las variables no estarían
relacionadas linealmente
Pero no es suficiente, µ podría estar correlacionada con x 2
Mejor un supuesto sobre la esperanza condicional de µ dado x

Basurto Clase 02 5 / 39
El Modelo bivariado

El supuesto central es sobre la relación entre x y µ


Si requerimos que no estén correlacionadas, las variables no
estarían relacionadas linealmente
Pero no es suficiente, µ podría estar correlacionada con x 2
x y µ son variables aleatorias
Mejor un supuesto sobre la esperanza condicional de µ dado x
Supuesto crucial: el valor promedio de µ no depende del valor de
x
E[µ|x] = E[µ] (2)
Nos dice que el valor promedio de los no observables es el mismo
para todos los valores de x
Decimos que µ es independiente en media respecto de x
Al combinar E[µ] = 0 con E[µ|x] = E[µ]
Supuesto de cero media condicional E[µ|x] = 0
Este es el principal supuesto, muchas veces difícil de justificar

Basurto Clase 02 6 / 39
Ejemplo

ingresos = β0 + β1 educ + µ (3)

µ contiene entre otras cosas la abilidad innata, esfuerzo, años de


experiencia, etc.
Pensemos solo en abilidad innata. ¿Creen que depende de los
años de educación?
E[µ|x] = E[µ] requiere que la abilidad innata no dependa de los
años de educación
¿Se les ocurre en qué caso no se cumple?

Basurto Clase 02 7 / 39
Repaso

Recordemos el principal supuesto:

E[µ|x] = E[µ] = 0 (4)

Nos dice que el valor de X no brinda información (no afecta) el


valor esperado (media) de µ
Esto implica que la covarianza entre x y µ es zero

Basurto Clase 02 8 / 39
Regresión como esperanza condicional

y = β0 + β1 x + µ (5)
E[y |x] = E[β0 + β1 x + µ] (6)
E[y |x] = β0 + β1 x (7)

E[y |x] es una función lineal de x


La linearidad implica que el incremento de una unidad de x
cambia el valor esperado de y en β1 unidades
La distribución de y está centrada en E[y |x]
Nos dice que el valor promedio de y está centrado en E[y |x] . No
dice que y = β0 + β1 x para todo x

Basurto Clase 02 9 / 39
Regresión como esperanza condicional

El gráfico muestra el valor promedio de y para todos los


individuos que tienen un determinado nivel de x (x1 , x2 , etc)
Basurto Clase 02 10 / 39
Derivación del Estimador Mínimos Cuadrados
Ordinarios (MCO)

Desarrollo en la pizarra

Basurto Clase 02 11 / 39
Derivación de MCO

y i = β 0 + β 1 x i + µi
Noten el subíndice i, define valores para cada individuo i de la
muestra
Para poder estimar β0 y β1 se necesita una muestra aleatoria de
la población
Utilizamos supuestos E[µ|x] = E[µ] = 0
reemplazamos µ = y − β0 − β1 x; y establecemos:

E[µ] = E[y − β0 − β1 x] = 0 (8)


cov (x, µ) = E[xµ] − E[x]E[µ] = E[xµ] = 0 (9)
E[x(y − β0 − β1 x)] = 0 (10)

(5) y (7) son restricciones sobre la distribución de probabilidad


conjunta de (x,y) en la población

Basurto Clase 02 12 / 39
Derivación de MCO

Vamos a necesitar que estas ecuaciones sirvan para calcular


buenos estimadores de β0 y β1
Utilizamos β̂0 y β̂1 para resolver (5) y (7) en términos muestrales
La contraparte muestral de E[.] es la media muestral
n
1X
(yi − β̂0 − β̂1 xi ) = 0 (11)
n
i=1
n
1X
xi (yi − β̂0 − β̂1 xi ) = 0 (12)
n
i=1

Basurto Clase 02 13 / 39
Derivación de MCO

La ecuación (8) se puede escribir como:

ȳ = β̂0 + β̂1 x̄ (13)

Entonces,
β̂0 = ȳ − β̂1 x̄ (14)

Basurto Clase 02 14 / 39
Derivación de MCO

Incluimos (11) en la ecuación (9) y eliminamos (1/n) :


n
X
x(y − (ȳ − β̂1 x̄) − β̂1 x) = 0 (15)
i=1
n
X n
X
xi (yi − ȳ ) = β̂1 xi (xi − x̄) (16)
i=1 i=1
Pn
xi (yi − ȳ )
β̂1 = Pi=1n (17)
i=1 xi (xi − x̄)
1 Pn
xi (yi − ȳ )
= n1 Pi=1
n (18)
n i=1 xi (xi − x̄)
Cov (x, y )
= (19)
var (x)

Basurto Clase 02 15 / 39
Derivación de MCO

Vemos que para poder estimar β̂1 necesitamos que var (x) > 0

Basurto Clase 02 16 / 39
Derivación de MCO

Otra manera de derivar MCO es pensando en la minimización de


residuos al cuadrado
El residuo para una observación xi es la diferencia entre el valor
actual yi y el valor predicho ŷi
Basurto Clase 02 17 / 39
Derivación de MCO

Definamos valor predicho de y cuando x = xi como


ŷi = β̂0 + β̂1 xi .
Cada observación tiene su propio valor predicho.
Definimos el residuo µ̂i = yi − ŷi = β̂0 − β̂1 xi .
Finalmente, escogemos β̂0 y β̂1 para minimizar la suma de
residuos al cuadrado.

Basurto Clase 02 18 / 39
Derivación de MCO

n
X n
X
min µ̂2i = (yi − β0 − β1 xi )2 (20)
β0 ,β1
i=1 i=1

Las condiciones de primer orden son:


n
X
β0 : −2 (yi − β̂0 − β̂1 xi ) = 0 (21)
i=1

n
X
β1 : −2 (yi − β̂0 − β̂1 xi )xi = 0 (22)
i=1

...y de aquí podemos proceder como en el primer caso.

Basurto Clase 02 19 / 39
Propiedades algebraicas de MCO

Pn
1
i=1 µ̂i =0
De las condiciones de primer orden sabemos que los estimadores
β̂0 y β̂1 fueron escogidos para que la suma de errores sea cero
No nos dice nada sobre el residuo para una observación i en
particular
Pn
i=1 xi µ̂i =0
2

Nos dice que la covarianza muestral entre los regresores y los


residuos OLS es cero
También lo vemos en las condiciones de primer orden
3 El punto (ȳ , x̄) siempre cae en la recta de regresión.
Tarea: demostrar estas propiedades.

Basurto Clase 02 20 / 39
Unidades de medida
¿Qué sucede si cambiamos las unidades de medida de una
variable?
¿Cómo se afectan los coeficientes?
Calculemos β10 como el efecto cuando x es multiplicado por una
constante k :

Cov(kx, y )
β̂10 = (23)
Var(kx, kx)
k Cov(x, y )
= 2 (24)
k Var(x, x)
Cov(x, y )
= (25)
k Var(x, x)
β̂1
= (26)
k

Basurto Clase 02 21 / 39
Unidades de medida
Alternativamente
Pn
kxi (yi − ȳ )
β̂10 = Pn i=1 (27)
i=1 kxi (kxi − k x̄)
k n xi (yi − ȳ )
P
= 2 Pi=1n (28)
k xi (xi − x̄)
Pn i=1
xi (yi − ȳ )
= Pi=1n (29)
k i=1 xi (xi − x̄)
β̂1
= (30)
k
(31)

Si multiplicamos x por una constante k , el coeficiente termina


siendo dividido por k
Notamos que si multiplicamos y por una constante z, el
coeficiente termina siendo multiplcado por z
Basurto Clase 02 22 / 39
Forma Funcional

Podemos relajar el supuesto de esperanza condiconal lineal


incorporando x de manera no lineal en el modelo de regresión simple

yi = β0 + β1 ln xi + µi (32)
ln yi = β0 + β1 ln xi + µi (33)
ln yi = β0 + β1 xi + µi (34)

yi = β0 + β1 xi + µi (35)
xi
yi = β0 + β1 e + µi (36)
yi = β0 + β1 xi + β2 xi2 + µi (37)

Para decidir qué modelo es más adecuado podemos basarnos, entre


otras cosas, en la bondad de ajuste, que es un tema que
estudiaremos en el modelo de regresión multivariada.

Basurto Clase 02 23 / 39
Forma Funcional

¿ Cómo interpretar coeficientes con cambios en la forma funcional?

En el último caso log-log β1 es la elasticidad de y con respecto de x

Basurto Clase 02 24 / 39
Supuestos MCO

Para que MCO produzca estimadores insesgados, necesitamos


imponer cuatro supuestos:
1 S1. Modelo lineal en parámetros
En el modelo poblacional (el verdadero), la variable dependiente
y se relaciona con la explicativa x y el término de perturbación µ
de la siguiente manera:

y = β0 + β1 x + µ (38)

Podemos transformar funciones no lineales de x en lineales


y = β0 + β1 z + µ con z = ln(x).
Lo importante es que el modelo sea lineal en parámetros.

Basurto Clase 02 25 / 39
Supuestos MCO

2 S2.(x, y ) ∼ i.i.d. (x e y son independientes e idénticamente


distribuidos).
“Independiente” significa que el valor de xi no provee información
alguna sobre el valor de xj (lo mismo para y)
“Idénticamente distribuidos” significa que, sea cual sea la
distribución conjunta de (x1 , y1 ), todas las demás observaciones
tienen la misma distribución.
En algunos libros este supuesto se llama “muestreo aleatorio”

Basurto Clase 02 26 / 39
Supuestos MCO

3 S3. Variación muestral en la variable explicativa.


Este supuesto es el más débil de todos. Simplemente requiere
Var (x) > 0
Matemáticamente, esto es necesario porqueVar (x) aparece en el
denominador de β1
Intuitivamente, no podemos descubrir nada sobre la relación entre
x e y si sólo tenemos un valor de x

Basurto Clase 02 27 / 39
Supuestos MCO

4 S4. µ es independiente en medias de X: E[µ|x] = 0]


Independencia en medias ( media condicional cero) es el
supuesto más fuerte de de todos, por lo tanto el más
problemático.
Requiere que el valor esperado de µ sea el mismo para todos los
valores de x, y en la mayoría de casos poco creíble.

E(µi |xi ) = 0 ∀i = 1, 2, ..., n (39)

Basurto Clase 02 28 / 39
Supuestos MCO

Teorema: Bajo los supuestos S1-S4, MCO provee parámetros


insesgados.
Pn
(xi − x̄)yi
β̂1 = Pi=1n 2
(40)
i=1 (xi − x̄)
Pn
(xi − x̄)(β0 + β1 xi + εi )
= i=1 Pn 2
(41)
i=1 (xi − x̄)
β0 ni=1 (xi − x̄) β1 (xi − x̄)xi
P P P
(xi − x̄)(εi )
= Pn 2
+ Pn 2
+ Pn 2
(42)
i=1 (xi − x̄)P i=1 (xi − x̄) i=1 (xi − x̄)
(xi − x̄)(εi )
= β0 (0) + β1 + Pn 2
(43)
i=1 (xi − x̄)

Basurto Clase 02 29 / 39
Supuestos MCO

Tomamos esperanza condicional:


P 
(xi − x̄)(εi )
E[β̂1 |X ] = β1 + E Pn |X (44)
i=1 (xi − x̄)2
P
(xi − x̄)(E[εi |X ])
= β1 + Pn 2
(45)
i=1 (xi − x̄)
= β1 (46)

Basurto Clase 02 30 / 39
Supuestos MCO

La prueba para β̂0 es más directa

β̂0 = ȳ − β̂1 x̄ (47)


= β0 + β1 x̄ + µ̄ − β̂1 x̄ (48)
= β0 + (β1 − β̂1 )x̄ + µ̄ (49)

Aplicamos valor esperado:

E[β̂0 ] = β0 + E[(β1 − β̂1 )x̄] + E[µ̄] (50)


= β0 + E[(β1 − β̂1 )x̄] (51)
= β0 (52)

Hemos establecido que bajo supuestos S1-S4, los parámetros son


insesgados

Basurto Clase 02 31 / 39
Supuestos MCO

Recordemos que la propiedad de insesgado es un atributo de la


distribución muestral de β̂0 y β̂1
No nos dice nada sobre los estimados de una muestra en
particular
Los estimadores MCO no son insesgados si falla algún supuesto,
sobretodo S4
S4 casi siempre va a ser una preocupación en regresiones con
data no experimental (más adelante veremos por qué no es de
preocupación en experimento aleatorio)
¿Hemos asumido que alguna variable del modelo se distribuye
normal?
¿Hemos hecho algún supuesto sobre la varianza de µ?

Basurto Clase 02 32 / 39
Supuestos MCO

5 S5. Homocedasticidad
La varianza del término de perturbación es constante:
V [µ|X ] = σ 2 .
Queremos saber qué tan lejos de β1 debemos esperar que se
encuentre β̂1 en promedio (o β̂0 respecto de β0 )
Vamos a trabajar bastante con la raíz cuadrada de la varianza del
estimador que es la desviación estándar
Recordemos que S5 no es necesario para que estimadores MCO
sean insesgados.
S5 simplifica cálculo de varianza del estimador y permite que el
estimador MCO tenga propiedades de eficiencia

Basurto Clase 02 33 / 39
Supuestos MCO
Demostración. Partimos de la expresión conocida:
P
(xi − x̄)µi
β̂1 = β1 + P (53)
(xi − x̄)2
Tomamos la varianza de β̂1 condicional a x.
 P 
(xi − x̄)µi
Var [β̂1 |x] = Var β1 + P x (54)
(xi − x̄)2

P 
(xi − x̄)µi
= Var P x (55)
(xi − x̄)2
1 X
(xi − x̄)2 Var [µ x]

= P 2 2
(56)
( (xi − x̄) )
1 X
= P (xi − x̄)2 σ 2 (57)
( (xi − x̄)2 )2
σ2
=P (58)
(xi − x̄)2
Basurto Clase 02 34 / 39
Estimando la varianza del término de perturbación
El estimador de la varianza de los residuos es:
n
1 X 2
σ̂ 2 = µ̂i (59)
n−2
i=1

Teorema: Bajo los supuestos S1-S5,


E[σ̂ 2 |X ] = σ 2 (60)
Nos dice que bajo S1-S5, estimador de varianza del término de
perturbación es insesgado. Veamos:
µ̂i = µi − (β̂0 − β0 ) − (β̂1 − β1 )xi (61)
Tomando promedios a (61):
0 = µ̄ − (β̂0 − β0 ) − (β̂1 − β1 )x̄ (62)
Restando (61) - (62) obtenemos:
µ̂i = (µi − µ̄) − (β̂1 − β1 )(xi − x̄) (63)
Basurto Clase 02 35 / 39
Estimando la varianza del término de perturbación

Por lo tanto:

µ̂2i = (µi − µ̄)2 + (β̂1 − β1 )2 (xi − x̄)2 − 2(µi − µ̄)(β̂1 − β1 )(xi − x̄)
(64)

X X X
µ̂2i = (µi − µ̄)2 + (β̂1 − β1 )2 (xi − x̄)2 (65)
X
− 2(β̂1 − β1 ) (µi − µ̄)(xi − x̄) (66)

X X X
µ̂2i = (µi − µ̄)2 + (β̂1 − β1 )2 (xi − x̄)2 (67)
X
− 2(β̂1 − β1 ) (µi )(xi − x̄) (68)

Basurto Clase 02 36 / 39
Estimando la varianza del término de perturbación

Tomamos esperanza condicional a cada término:


X
A : E[ (µi − µ̄)2 |x] = (n − 1)σ 2 (69)
X X
B : E[(β̂1 − β1 )2 (xi − x̄)2 |x] = (xi − x̄)2 E[(β̂1 − β1 )2 |x]
(70)
X
= (xi − x̄)2 Var [β̂1 |x] (71)
X σ2
= (xi − x̄)2 P (72)
(xi − x̄)2
X X
C : E[−2(β̂1 − β1 ) (µi )(xi − x̄)|x] = −2E[(β̂1 − β1 )2 (xi − x̄)2 |x]
(73)
= −2σ 2 (74)

Basurto Clase 02 37 / 39
Estimando la varianza del término de perturbación

Reemplazando A, B y C:
hX i
E µ̂2i x = (n − 1)σ 2 + σ 2 − 2σ 2 (75)
= (n − 2)σ 2 (76)

Por lo tanto, " P #


µ̂2i x = σ2

E (77)
(n − 2)

Basurto Clase 02 38 / 39
Regresión sin intercepto
El modelo a estimar es ahora: y = βx + µ
X
min (yi − β̃1 xi )2 (78)

Derivada de primer orden β̃1 xi :


X
β̃1 : xi (yi − β̃1 xi ) = 0 (79)
Pn
i=1 xi yi
β̃1 = P (80)
xi2

Esta pendiente es diferente a la del modelo con intercepto. La


única excepción es el caso en el que x̄ = 0
Si omitimos el intercepto cuando éste debería ser incluido, β̂1
estará sesgado
Si incluimos intercepto cuando el modelo no lo necesita, sólo se
pierde 1 grado de libertad pero β̂1 es insesgado
Basurto Clase 02 39 / 39

You might also like