02 - Modelo de Regresión Simple

Econometría I
El Modelo Simple de Regresión Lineal
María Pía Basurto
Basurto Clase 02 1 / 39
Introducción
Queremos explicar y en función de x

1 Como la relación nunca (o muy rara vez) es determinística,
¿cómo vamos a permitir que otros factores afecten y ?
2 ¿Cuál es la forma funcional?
3 ¿Cómo estamos seguros de estar capturando una relación ceteris
paribus entre y y x?
Manteniendo todo lo demás constante, cómo un cambio en x
afecta y
El Modelo bivariado
y = β0 + β1 x + µi (1)
Representa el modelo bivariado o regresión de dos variables

Asumimos: relación lineal y que los demás factores que afectan y
(distintos de x) se encuentran en µ
µ es el término de perturbación o término de error. Se puede
entender como los factores no observables de la población
y variable dependiente
x variable independiente, explicativa, control o regresor
β0 es el intercepto
β1 es la pendiente
El Modelo bivariado
Al tomar la derivada vemos que el efecto marginal es β1

El efecto marginal es constante, se debe al supuesto de la forma
funcional (relación lineal)
Para que la ecuación (1) refleje una relación ceteris paribus se
necesitan supuestos sobre relación entre x y µ
Empezamos estableciendo que E[µ] = 0
Esto no dice nada sobre la relación entre µ y x sino sobre la
distribución de los factores no observables de la población
No es muy restrictivo, inocuo si se incluye un intercepto (más
adelante lo veremos)
El Modelo bivariado
El supuesto central es sobre la relación entre x y µ

Si requerimos que no tengan correlación, las variables no estarían
relacionadas linealmente
Pero no es suficiente, µ podría estar correlacionada con x 2
Mejor un supuesto sobre la esperanza condicional de µ dado x
El Modelo bivariado
El supuesto central es sobre la relación entre x y µ

Si requerimos que no estén correlacionadas, las variables no
estarían relacionadas linealmente
Pero no es suficiente, µ podría estar correlacionada con x 2
x y µ son variables aleatorias
Mejor un supuesto sobre la esperanza condicional de µ dado x
Supuesto crucial: el valor promedio de µ no depende del valor de
x
E[µ|x] = E[µ] (2)
Nos dice que el valor promedio de los no observables es el mismo
para todos los valores de x
Decimos que µ es independiente en media respecto de x
Al combinar E[µ] = 0 con E[µ|x] = E[µ]
Supuesto de cero media condicional E[µ|x] = 0
Este es el principal supuesto, muchas veces difícil de justificar
Ejemplo
ingresos = β0 + β1 educ + µ (3)
µ contiene entre otras cosas la abilidad innata, esfuerzo, años de

experiencia, etc.
Pensemos solo en abilidad innata. ¿Creen que depende de los
años de educación?
E[µ|x] = E[µ] requiere que la abilidad innata no dependa de los
años de educación
¿Se les ocurre en qué caso no se cumple?
Repaso
Recordemos el principal supuesto:
E[µ|x] = E[µ] = 0 (4)
Nos dice que el valor de X no brinda información (no afecta) el

valor esperado (media) de µ
Esto implica que la covarianza entre x y µ es zero
Regresión como esperanza condicional
y = β0 + β1 x + µ (5)
E[y |x] = E[β0 + β1 x + µ] (6)
E[y |x] = β0 + β1 x (7)
E[y |x] es una función lineal de x

La linearidad implica que el incremento de una unidad de x
cambia el valor esperado de y en β1 unidades
La distribución de y está centrada en E[y |x]
Nos dice que el valor promedio de y está centrado en E[y |x] . No
dice que y = β0 + β1 x para todo x
Regresión como esperanza condicional
El gráfico muestra el valor promedio de y para todos los

individuos que tienen un determinado nivel de x (x1 , x2 , etc)
Derivación del Estimador Mínimos Cuadrados
Ordinarios (MCO)
Desarrollo en la pizarra
Derivación de MCO
y i = β 0 + β 1 x i + µi
Noten el subíndice i, define valores para cada individuo i de la
muestra
Para poder estimar β0 y β1 se necesita una muestra aleatoria de
la población
Utilizamos supuestos E[µ|x] = E[µ] = 0
reemplazamos µ = y − β0 − β1 x; y establecemos:
E[µ] = E[y − β0 − β1 x] = 0 (8)

cov (x, µ) = E[xµ] − E[x]E[µ] = E[xµ] = 0 (9)
E[x(y − β0 − β1 x)] = 0 (10)
(5) y (7) son restricciones sobre la distribución de probabilidad

conjunta de (x,y) en la población
Derivación de MCO
Vamos a necesitar que estas ecuaciones sirvan para calcular

buenos estimadores de β0 y β1
Utilizamos β̂0 y β̂1 para resolver (5) y (7) en términos muestrales
La contraparte muestral de E[.] es la media muestral
n
1X
(yi − β̂0 − β̂1 xi ) = 0 (11)
n
i=1
n
1X
xi (yi − β̂0 − β̂1 xi ) = 0 (12)
n
i=1
Derivación de MCO
La ecuación (8) se puede escribir como:
ȳ = β̂0 + β̂1 x̄ (13)
Entonces,
β̂0 = ȳ − β̂1 x̄ (14)
Derivación de MCO
Incluimos (11) en la ecuación (9) y eliminamos (1/n) :

n
X
x(y − (ȳ − β̂1 x̄) − β̂1 x) = 0 (15)
i=1
n
X n
X
xi (yi − ȳ ) = β̂1 xi (xi − x̄) (16)
i=1 i=1
Pn
xi (yi − ȳ )
β̂1 = Pi=1n (17)
i=1 xi (xi − x̄)
1 Pn
xi (yi − ȳ )
= n1 Pi=1
n (18)
n i=1 xi (xi − x̄)
Cov (x, y )
= (19)
var (x)
Derivación de MCO
Vemos que para poder estimar β̂1 necesitamos que var (x) > 0
Derivación de MCO
Otra manera de derivar MCO es pensando en la minimización de

residuos al cuadrado
El residuo para una observación xi es la diferencia entre el valor
actual yi y el valor predicho ŷi
Derivación de MCO
Definamos valor predicho de y cuando x = xi como

ŷi = β̂0 + β̂1 xi .
Cada observación tiene su propio valor predicho.
Definimos el residuo µ̂i = yi − ŷi = β̂0 − β̂1 xi .
Finalmente, escogemos β̂0 y β̂1 para minimizar la suma de
residuos al cuadrado.
Derivación de MCO
n
X n
X
min µ̂2i = (yi − β0 − β1 xi )2 (20)
β0 ,β1
i=1 i=1
Las condiciones de primer orden son:

n
X
β0 : −2 (yi − β̂0 − β̂1 xi ) = 0 (21)
i=1
n
X
β1 : −2 (yi − β̂0 − β̂1 xi )xi = 0 (22)
i=1
...y de aquí podemos proceder como en el primer caso.
Propiedades algebraicas de MCO
Pn
1
i=1 µ̂i =0
De las condiciones de primer orden sabemos que los estimadores
β̂0 y β̂1 fueron escogidos para que la suma de errores sea cero
No nos dice nada sobre el residuo para una observación i en
particular
Pn
i=1 xi µ̂i =0
2
Nos dice que la covarianza muestral entre los regresores y los

residuos OLS es cero
También lo vemos en las condiciones de primer orden
3 El punto (ȳ , x̄) siempre cae en la recta de regresión.
Tarea: demostrar estas propiedades.
Unidades de medida
¿Qué sucede si cambiamos las unidades de medida de una
variable?
¿Cómo se afectan los coeficientes?
Calculemos β10 como el efecto cuando x es multiplicado por una
constante k :
Cov(kx, y )
β̂10 = (23)
Var(kx, kx)
k Cov(x, y )
= 2 (24)
k Var(x, x)
Cov(x, y )
= (25)
k Var(x, x)
β̂1
= (26)
k
Unidades de medida
Alternativamente
Pn
kxi (yi − ȳ )
β̂10 = Pn i=1 (27)
i=1 kxi (kxi − k x̄)
k n xi (yi − ȳ )
P
= 2 Pi=1n (28)
k xi (xi − x̄)
Pn i=1
xi (yi − ȳ )
= Pi=1n (29)
k i=1 xi (xi − x̄)
β̂1
= (30)
k
(31)
Si multiplicamos x por una constante k , el coeficiente termina

siendo dividido por k
Notamos que si multiplicamos y por una constante z, el
coeficiente termina siendo multiplcado por z
Forma Funcional
Podemos relajar el supuesto de esperanza condiconal lineal

incorporando x de manera no lineal en el modelo de regresión simple
yi = β0 + β1 ln xi + µi (32)
ln yi = β0 + β1 ln xi + µi (33)
ln yi = β0 + β1 xi + µi (34)
√
yi = β0 + β1 xi + µi (35)
xi
yi = β0 + β1 e + µi (36)
yi = β0 + β1 xi + β2 xi2 + µi (37)
Para decidir qué modelo es más adecuado podemos basarnos, entre

otras cosas, en la bondad de ajuste, que es un tema que
estudiaremos en el modelo de regresión multivariada.
Forma Funcional
¿ Cómo interpretar coeficientes con cambios en la forma funcional?
En el último caso log-log β1 es la elasticidad de y con respecto de x
Supuestos MCO
Para que MCO produzca estimadores insesgados, necesitamos

imponer cuatro supuestos:
1 S1. Modelo lineal en parámetros
En el modelo poblacional (el verdadero), la variable dependiente
y se relaciona con la explicativa x y el término de perturbación µ
de la siguiente manera:
y = β0 + β1 x + µ (38)
Podemos transformar funciones no lineales de x en lineales

y = β0 + β1 z + µ con z = ln(x).
Lo importante es que el modelo sea lineal en parámetros.
Supuestos MCO
2 S2.(x, y ) ∼ i.i.d. (x e y son independientes e idénticamente

distribuidos).
“Independiente” significa que el valor de xi no provee información
alguna sobre el valor de xj (lo mismo para y)
“Idénticamente distribuidos” significa que, sea cual sea la
distribución conjunta de (x1 , y1 ), todas las demás observaciones
tienen la misma distribución.
En algunos libros este supuesto se llama “muestreo aleatorio”
Supuestos MCO
3 S3. Variación muestral en la variable explicativa.

Este supuesto es el más débil de todos. Simplemente requiere
Var (x) > 0
Matemáticamente, esto es necesario porqueVar (x) aparece en el
denominador de β1
Intuitivamente, no podemos descubrir nada sobre la relación entre
x e y si sólo tenemos un valor de x
Supuestos MCO
4 S4. µ es independiente en medias de X: E[µ|x] = 0]

Independencia en medias ( media condicional cero) es el
supuesto más fuerte de de todos, por lo tanto el más
problemático.
Requiere que el valor esperado de µ sea el mismo para todos los
valores de x, y en la mayoría de casos poco creíble.
E(µi |xi ) = 0 ∀i = 1, 2, ..., n (39)
Supuestos MCO
Teorema: Bajo los supuestos S1-S4, MCO provee parámetros

insesgados.
Pn
(xi − x̄)yi
β̂1 = Pi=1n 2
(40)
i=1 (xi − x̄)
Pn
(xi − x̄)(β0 + β1 xi + εi )
= i=1 Pn 2
(41)
i=1 (xi − x̄)
β0 ni=1 (xi − x̄) β1 (xi − x̄)xi
P P P
(xi − x̄)(εi )
= Pn 2
+ Pn 2
+ Pn 2
(42)
i=1 (xi − x̄)P i=1 (xi − x̄) i=1 (xi − x̄)
(xi − x̄)(εi )
= β0 (0) + β1 + Pn 2
(43)
i=1 (xi − x̄)
Supuestos MCO
Tomamos esperanza condicional:

P
(xi − x̄)(εi )
E[β̂1 |X ] = β1 + E Pn |X (44)
i=1 (xi − x̄)2
P
(xi − x̄)(E[εi |X ])
= β1 + Pn 2
(45)
i=1 (xi − x̄)
= β1 (46)
Supuestos MCO
La prueba para β̂0 es más directa
β̂0 = ȳ − β̂1 x̄ (47)

= β0 + β1 x̄ + µ̄ − β̂1 x̄ (48)
= β0 + (β1 − β̂1 )x̄ + µ̄ (49)
Aplicamos valor esperado:
E[β̂0 ] = β0 + E[(β1 − β̂1 )x̄] + E[µ̄] (50)

= β0 + E[(β1 − β̂1 )x̄] (51)
= β0 (52)
Hemos establecido que bajo supuestos S1-S4, los parámetros son

insesgados
Supuestos MCO
Recordemos que la propiedad de insesgado es un atributo de la

distribución muestral de β̂0 y β̂1
No nos dice nada sobre los estimados de una muestra en
particular
Los estimadores MCO no son insesgados si falla algún supuesto,
sobretodo S4
S4 casi siempre va a ser una preocupación en regresiones con
data no experimental (más adelante veremos por qué no es de
preocupación en experimento aleatorio)
¿Hemos asumido que alguna variable del modelo se distribuye
normal?
¿Hemos hecho algún supuesto sobre la varianza de µ?
Supuestos MCO
5 S5. Homocedasticidad
La varianza del término de perturbación es constante:
V [µ|X ] = σ 2 .
Queremos saber qué tan lejos de β1 debemos esperar que se
encuentre β̂1 en promedio (o β̂0 respecto de β0 )
Vamos a trabajar bastante con la raíz cuadrada de la varianza del
estimador que es la desviación estándar
Recordemos que S5 no es necesario para que estimadores MCO
sean insesgados.
S5 simplifica cálculo de varianza del estimador y permite que el
estimador MCO tenga propiedades de eficiencia
Supuestos MCO
Demostración. Partimos de la expresión conocida:
P
(xi − x̄)µi
β̂1 = β1 + P (53)
(xi − x̄)2
Tomamos la varianza de β̂1 condicional a x.
P
(xi − x̄)µi
Var [β̂1 |x] = Var β1 + P x (54)
(xi − x̄)2

P
(xi − x̄)µi
= Var P x (55)
(xi − x̄)2
1 X
(xi − x̄)2 Var [µ x]

= P 2 2
(56)
( (xi − x̄) )
1 X
= P (xi − x̄)2 σ 2 (57)
( (xi − x̄)2 )2
σ2
=P (58)
(xi − x̄)2
Estimando la varianza del término de perturbación
El estimador de la varianza de los residuos es:
n
1 X 2
σ̂ 2 = µ̂i (59)
n−2
i=1
Teorema: Bajo los supuestos S1-S5,

E[σ̂ 2 |X ] = σ 2 (60)
Nos dice que bajo S1-S5, estimador de varianza del término de
perturbación es insesgado. Veamos:
µ̂i = µi − (β̂0 − β0 ) − (β̂1 − β1 )xi (61)
Tomando promedios a (61):
0 = µ̄ − (β̂0 − β0 ) − (β̂1 − β1 )x̄ (62)
Restando (61) - (62) obtenemos:
µ̂i = (µi − µ̄) − (β̂1 − β1 )(xi − x̄) (63)
Por lo tanto:
µ̂2i = (µi − µ̄)2 + (β̂1 − β1 )2 (xi − x̄)2 − 2(µi − µ̄)(β̂1 − β1 )(xi − x̄)
(64)
X X X
µ̂2i = (µi − µ̄)2 + (β̂1 − β1 )2 (xi − x̄)2 (65)
X
− 2(β̂1 − β1 ) (µi − µ̄)(xi − x̄) (66)
X X X
µ̂2i = (µi − µ̄)2 + (β̂1 − β1 )2 (xi − x̄)2 (67)
X
− 2(β̂1 − β1 ) (µi )(xi − x̄) (68)
Tomamos esperanza condicional a cada término:

X
A : E[ (µi − µ̄)2 |x] = (n − 1)σ 2 (69)
X X
B : E[(β̂1 − β1 )2 (xi − x̄)2 |x] = (xi − x̄)2 E[(β̂1 − β1 )2 |x]
(70)
X
= (xi − x̄)2 Var [β̂1 |x] (71)
X σ2
= (xi − x̄)2 P (72)
(xi − x̄)2
X X
C : E[−2(β̂1 − β1 ) (µi )(xi − x̄)|x] = −2E[(β̂1 − β1 )2 (xi − x̄)2 |x]
(73)
= −2σ 2 (74)
Reemplazando A, B y C:
hX i
E µ̂2i x = (n − 1)σ 2 + σ 2 − 2σ 2 (75)
= (n − 2)σ 2 (76)
Por lo tanto, " P #

µ̂2i x = σ2

E (77)
(n − 2)
Regresión sin intercepto
El modelo a estimar es ahora: y = βx + µ
X
min (yi − β̃1 xi )2 (78)
Derivada de primer orden β̃1 xi :

X
β̃1 : xi (yi − β̃1 xi ) = 0 (79)
Pn
i=1 xi yi
β̃1 = P (80)
xi2
Esta pendiente es diferente a la del modelo con intercepto. La

única excepción es el caso en el que x̄ = 0
Si omitimos el intercepto cuando éste debería ser incluido, β̂1
estará sesgado
Si incluimos intercepto cuando el modelo no lo necesita, sólo se
pierde 1 grado de libertad pero β̂1 es insesgado

02 - Modelo de Regresión Simple

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

02 - Modelo de Regresión Simple

Uploaded by

Copyright:

Available Formats

Econometría I

El Modelo Simple de Regresión Lineal

María Pía Basurto

Queremos explicar y en función de x

Representa el modelo bivariado o regresión de dos variables

Al tomar la derivada vemos que el efecto marginal es β1

El supuesto central es sobre la relación entre x y µ

El supuesto central es sobre la relación entre x y µ

ingresos = β0 + β1 educ + µ (3)

µ contiene entre otras cosas la abilidad innata, esfuerzo, años de

Recordemos el principal supuesto:

E[µ|x] = E[µ] = 0 (4)

Nos dice que el valor de X no brinda información (no afecta) el

E[y |x] es una función lineal de x

El gráfico muestra el valor promedio de y para todos los

E[µ] = E[y − β0 − β1 x] = 0 (8)

(5) y (7) son restricciones sobre la distribución de probabilidad

Vamos a necesitar que estas ecuaciones sirvan para calcular

La ecuación (8) se puede escribir como:

ȳ = β̂0 + β̂1 x̄ (13)

Incluimos (11) en la ecuación (9) y eliminamos (1/n) :

Otra manera de derivar MCO es pensando en la minimización de

Definamos valor predicho de y cuando x = xi como

Las condiciones de primer orden son:

...y de aquí podemos proceder como en el primer caso.

Nos dice que la covarianza muestral entre los regresores y los

Si multiplicamos x por una constante k , el coeficiente termina

Podemos relajar el supuesto de esperanza condiconal lineal

Para decidir qué modelo es más adecuado podemos basarnos, entre

¿ Cómo interpretar coeficientes con cambios en la forma funcional?

En el último caso log-log β1 es la elasticidad de y con respecto de x

Para que MCO produzca estimadores insesgados, necesitamos

Podemos transformar funciones no lineales de x en lineales

2 S2.(x, y ) ∼ i.i.d. (x e y son independientes e idénticamente

3 S3. Variación muestral en la variable explicativa.

4 S4. µ es independiente en medias de X: E[µ|x] = 0]

E(µi |xi ) = 0 ∀i = 1, 2, ..., n (39)

Teorema: Bajo los supuestos S1-S4, MCO provee parámetros

Tomamos esperanza condicional:

La prueba para β̂0 es más directa

β̂0 = ȳ − β̂1 x̄ (47)

Aplicamos valor esperado:

E[β̂0 ] = β0 + E[(β1 − β̂1 )x̄] + E[µ̄] (50)

Hemos establecido que bajo supuestos S1-S4, los parámetros son

Recordemos que la propiedad de insesgado es un atributo de la

Teorema: Bajo los supuestos S1-S5,

Tomamos esperanza condicional a cada término:

Por lo tanto, " P #

Derivada de primer orden β̃1 xi :

Esta pendiente es diferente a la del modelo con intercepto. La

You might also like