Modelo Regresion Lineal Simple

Regresión Lineal Simple
yi = b0 + b1xi + ui
Javier Aparicio
División de Estudios Políticos, CIDE
javier.aparicio@cide.edu
Primavera 2011
http://www.cide.edu/investigadores/aparicio/metodos.html
1
Contenido
 Estimación mediante el método de

momentos
 Estimación por mínimos cuadrados
ordinarios
 Bondad de ajuste: R2
 Propiedades de los estimadores MCO
 Supuestos Gauss-Markov
 Insesgamiento
 Eficiencia
2
y = b0 + b1x + u
 donde y es:  mientras que x es:

 Variable dependiente  Variable independiente
 Variable explicada  Variable explicativa
 Variable de lado
 Covariable
izquierdo (duh!)
 Regresando  Variable de control
 Regresor
 u es:
 Residual  Variable de lado derecho
 Término de error  b0 y b1: parámetros o
coeficientes a estimar
3
Algunos supuestos
 El valor promedio de u, el término de error,

en la población es = 0. Es decir,
E(u) = 0
 Este supuesto no es muy restrictivo puesto
que siempre podemos ajustar el intercepto b0
para normalizar E(u) = 0
4
Media condicional = 0
 Hay un supuesto crucial sobre la relación

entre el error y la variable explicativa:
cov(x, u)
 Queremos que la información contenida en x
sea independiente de la información
contenida en u (ie, que no estén
relacionados), de modo que:
 E(u|x) = E(u) = 0, lo cual implica:
 E(y|x) = b0 + b1x
5
E(y|x) es una funcion lineal de x: para cada x,
la predicción de y es E(y|x)
y
f(y)
. E(y|x) = b + b x
0 1
.
x1 x2
6
Mínimos Cuadrados Ordinarios (MCO)
 La idea básica es estimar parámetros

poblacionales a partir de una muestra.
 Sea {(xi,yi): i=1, …,n} una muestra aleatoria
de tamaño n de una población.
 Para cada observación en la muestra,
tenemos:
yi = b0 + b1xi + ui
7
Línea de regresión, observaciones y errores
y E(y|x) = b0 + b1x
y4 .{
u4
y3 .} u3
y2 u2 {.
y1 .} u1
x1 x2 x3 x4 x
8
Derivación de estimadores MCO /OLS
 El supuesto E(u|x) = E(u) = 0 implica que
Cov(x,u) = E(xu) = 0
 ¿Por qué? En probabilidad básica sabemos

que:
Cov(x,u) = E(xu) – E(x)E(u)
y dado que E(u)=0  Cov(x,u) = E(xu) = 0
9
…continuación MCO/OLS
 El doble supuesto E(xu) = E(u) = 0 se

traduce en dos restricciones.
 Y dado que: u = y – b0 – b1x,
podemos reescribir estas dos restricciones
en términos de x, b0 y b1 :
 E(u) = E(y – b0 – b1x) = 0
 E(xu) = E[x(y – b0 – b1x)] = 0
 Conocidas como las “restricciones de
momentos”
10
Derivación de MCO usando el
Método de Momentos (MOM)
 (Breviario: el 1º, 2º, 3º y 4º momentos de una función de distribución
de una variable aleatoria son la media, varianza, sesgo y kurtosis,
respectivamente.)
 El método de momentos consiste en imponer las
restricciones de momentos, asumidas como ciertas
para la población, en los momentos de la muestra.
 ¿Pero cómo? Recuerden que un estimador
muestral de E(X), la media de una población, es
simplemente la media aritmética de la muestra.
11
Derivación de MCO / OLS
 La idea es buscar parámetros que nos aseguren

que las restricciones de momentos se cumplan en la
muestra.
 Las restricciones muestrales son (el gorrito denota
“parámetros estimados”):
 
n
n 1

i 1
y i
ˆ
b 0  ˆ x 0
b1 i (1ª)
 
n
n 1
 i i 0 1i
x
i 1
y  ˆ  bˆ x  0
b (2ª )
12
Estimador MCO / OLS: intercepto
 Dada la definición de media muestral y las
propiedades de la sumatorias, podemos reescribir la
primera restricción como sigue:
 
n
n 1

i 1
y  ˆ
b
i 0  ˆ x 0
b1 i
ˆ ˆ
y  b 0  b1 x ,
o bien
bˆ  y  bˆ x
0 1
13
Derivación de MCO / OLS
Y ahora, sustituyendo b0 en la segunda restricción, tenemos:
 
n
n 1  xi yi  bˆ0  bˆ1 xi  0
i 1
   
n
i i
x y
i 1
 y  ˆ x  bˆ x  0
b 1 1 i
n n
x 
i i y  y   ˆ
b 1  xi  xi  x 
i 1 i 1
Aquí hay un paso “mágico” ver apéndice A.7 y A.8.
n n
 xi  x  yi  y   b1  xi  x 
ˆ 2
i 1 i 1
14
…estimador MCO / OLS: pendiente b1
n n
b̂1  xi  x    xi  x  yi  y 
2
i 1 i 1
n
 x  x  y
i i  y
cov( x, y )
bˆ1  i 1
n

 x  x 
2 var( x)
i
i 1
n
 x  x  0
2
toda vez que x tenga varianza : i
i 1
15
Sobre el estimador MCO de b1
 b1, es la covarianza muestral entre x y y, dividida
entre la varianza muestral de x.
 Si x y y están correlacionados positivamente, b1
será positivo (pues la varianza del denominador
siempre es positiva).
 Si x y y están correlacionados negativamente, b1
será negativo.
 Si x y y no tienen correlación alguna, b1 no será
estadísticamente distinto de cero (volveremos a
esto más tarde).
 Obviamente, requerimos que x tenga cierta varianza
en la muestra.
16
MCO / OLS
 Intuitivamente, MCO ajusta una línea a

través de los datos muestrale, de modo que
la suma de residuales al cuadrado (SSR) sea
la mínima posible: de ahí el término “mínimos
cuadrados”.
 El residual, û, es un estimado del término de
error entre lo observado y lo predicho, es
decir, la diferencia entre la línea de regresión
(fitted line) y el dato observado.
 Ver gráfica...
17
Línea de regresión muestral, observaciones, y
residuales estimados
y
y4 .
û4 {
yˆ  bˆ0  bˆ1 x
y3 .} û3
y2 û{ .
2
y1
}
. û1
x1 x2 x3 x4 x
18
Un enfoque alternativo:
Minimizar residuales al cuadrado
 Siguiendo la idea de ajustar una línea de regresión,
podemos plantear un problema de minimización.
 Es decir, buscar parámetros b tales que minimicen
la siguiente expresión:
 
n n
 ui    yi  b 0  b1 xi
ˆ ˆ 2
ˆ 2
i 1 i 1
19
...continuación
 Usando cálculo para resolver un problema de
minimización con dos parámetros resulta en dos
condiciones de primer orden (FOC)–similares a
las restricciones de momentos vistas antes, pero
ahora multiplicadas por n:
 
n
 y
i 1
 ˆ
b
i 0  ˆ x 0
b 1 i
 
n
 i i 0 1i
x y
i 1
 ˆ  bˆ x  0
b
20
Propiedades algebraicas de MCO / OLS
 Al minimizar los residuales cuadrados:

 La suma de los residuales de MCO será igual a
cero.
 Por ende, la media muestral de los residuales será
cero también.
 La covarianza muestral entre las variables
explicativas y los residuales será cero.
 La línea de regresión de MCO siempre cruzará la
media de la muestra, ie, la media de x y la media
de y.
21
Propiedades algebraicas
(matemáticamente)
n
n  uˆ i
 uî  0 por tanto,

i 1
i 1
n
0
n
 x uˆ
i 1
i i  0 por tanto, cov (x,u)  0
y  bˆ0  bˆ1 x
Es decir, la solución de MCO es idéntica a la del método de momentos.
22
Suma de cuadrados: Terminología
Podemos separar cada observació n en un componente
explicado (sistemáti co) y un componente no explicado :
yi  yˆ i  uî De modo que podemos definir lo siguiente :
  y  y  es la Suma Total de cuadrados : SST
2
i
  yˆ  y  es la Suma Explicada de cuadrados : SSE

2
i
 uˆ es la Suma Residual de cuadrados : SSR

2
i
Lo cual implica que SST  SSE  SSR

SST es la suma de “desviaciones al cuadrado” de las observaciones
de la muestra: es proporcional, más no igual, a VAR(y).
23
Demostración: SST = SSE + SSR
SST    yi  y     yi  yˆ i    yˆ i  y 
2 2
  uî   yˆ i  y 
2
  uˆ  2 uî  yˆ i  y     yˆ i  y 
2 2
i
 SSR  2 uî  yˆ i  y   SSE

y como sabemos que  uî  yˆ i  y   0
 SSR  SSE
24
Bondad de ajuste: R 2
 ¿Cómo saber qué tan bueno es el ajuste

entre la línea de regresión y los datos de la
muestra?
 Podemos calcular la proporción de la Suma
de cuadrados totales (SST) que es
“explicada” por el modelo.
 Esto es la llamada R-cuadrada de una
regresión:
R2 = SSE/SST = 1 – SSR/SST
25
Haciendo regresiones con stata
 Hemos visto como derivar las fórmulas para
calcular estimadores MCO de nuestros
parámetros de interés b.
 Podemos calcularlos “a mano” (muy tedioso),
o aplicar estas fórmulas en una hoja de
cálculo como excel (algo tedioso), o bien
usar un paquete estadístico estándar como
stata (muy fácil)
 Para correr una regresión de y en x en stata:
regress y x1 x2 x3 (ver ejemplo)
26
Sesgo y eficiencia de MCO
 Dos características deseables de cualquier

estimador estadístico son:
 Insesgamiento (unbiasedness): que el parámetro
estimado sea, en promedio, igual al “verdadero”
parámetro poblacional.
 Eficiencia (efficiency): que la varianza del
estimador sea mínima (ie, máxima precisión).
 Así, buscamos estimadores con sesgo mínimo y
máxima eficiencia (ie, mínima varianza).
 MCO cuenta con ambas propiedades bajo ciertas
condiciones: los supuestos Gauss-Markov.
27
Supuestos Gauss-Markov I:
Insesgamiento de MCO/OLS
1. El modelo poblacional es lineal en sus
parámetros: y = b0 + b1x + u
2. Muestra aleatoria de tamaño n,
{(xi, yi): i=1, 2, …, n}, representativa de la
población, de modo que el modelo muestral
es: yi = b0 + b1xi + ui
3. Media condicional cero: E(u|x) = 0 y por
tanto E(ui|xi) = 0
4. Varianza(xi ) > 0
28
Insesgamiento de MCO
 Para analizar el sesgo del estimador, necesitamos

reescribirlo en términos del parámetro poblacional.
 De modo que reescribimos la fórmula para b1 como:
 x  x  y
bˆ1  i
2
i
, donde
s x
s    xi  x 
2 2
x
29
Insesgamiento de MCO (cont.)
Sustituyendo para yi, el numerador de la expresión anterior
puede descomponerse como sigue:
 x  x y  x  x b  b x  u 
i i i 0 1 i i
  x  x b   x  x b x   x  x u
i 0 i 1 i i i
 b  x  x   b  x  x x   x  x u
0 i 1 i i i i
desviaciones de x + n*var(x) + n*cov(x,u)
30
Por estadístic a básica, sabemos que :
 x  x   0, y
i
 x  x x   x  x   s x2
2
i i i
de modo que el numerador puede reescribir se así :

b1s x2   xi  x ui , y por lo tanto
 x  x u
bˆ1  b1  i i
s x2
31
Finalmente , si definimos d i  xi  x , de modo que
 1 
b i  b1   2  d i ui , y aplicamos valor esperado :
ˆ
 sx 
 
ˆ  1 
E b1  b1   2  d i E ui   b1
 sx 
El operador E(.) aplica a ui, el único componente aleatorio de la
expresión.
El valor esperado de la b1 estimada es el “verdadero” parámetro
poblacional—toda vez que los 4 supuestos Gauss-Markov se
cumplan.
32
Insesgamiento: resumen
 Los estimadores MCO de b1 y b0 son

insesgados.
 La demostración de esto depende de los 4
supuestos Gauss-Markov: si alguno de ellos
no se cumple, MCO no necesariamente será
insesgado.
 El insesgamiento es una propiedad del
estimador muestral: dada cierta muestra,
éste puede estar cerca o lejos del verdadero
parámetro poblacional.
33
Varianza de los estimadores MCO
 Ya vimos que la “distribución muestral” de

nuestro estimador está centrada en torno al
“verdadero” parámetro.
 ¿Qué tan dispersa será la distribución del
estimador?
 Para analizar esto, requerimos un supuesto
Gauss-Markov adicional (el 5º):
var(u|x) = s2
conocido como homoscedasticidad
(homoskedasticity): varianza constante.
34
Varianza de MCO (cont.)
 Por estadística sabemos que:
s2 = Var(u|x) = E(u2|x)-[E(u|x)]2
 Y como E(u|x) = 0, entonces:
s2 = E(u2|x) = E(u2) = Var(u)
 De modo que s2 es la varianza no condicional de
los residuales, también llamada varianza del error.
 s, la raíz cuadrada de la varianza del error, se
conoce como la desviación estándar del error.
 Con lo cual podemos decir que:
 E(y|x)=b0 + b1x
 Var(y|x) = s2
35
Homoscedasticidad
y
f(y|x)
. E(y|x) = b + b x
0 1
.
x1 x2
36
Heteroscedasticidad
f(y|x)
.
. E(y|x) = b0 + b1x
.
x1 x2 x3 x
37
Varianza de MCO (cont.)
 
ˆ   1 
Var b1  Var  b1  

2   d i ui 

  x
s 
2 2
2  Var  d i ui   
 1   1 

 sx 
2
 sx 
 i Varui 
d 2
2 2
 1   1 
 2
 sx 
 d s  s  sx2 
i
2 2 2
d i
2
 
2
 1  2 s2 ˆ
s 2
2  sx  2  Var b1
 sx  sx
38
Varianza de MCO: resumen
 A mayor varianza del error, s2, mayor

varianza del estimador de b1.
 A mayor varianza en xi, menor varianza
del estimador de b1.
 Por ende, a mayor tamaño de muestra, n,
menor varianza del estimador de b1.
 Pero ojo, la varianza del error es
“desconocida”: necesitamos estimarla
también.
39
Estimación de la varianza del error
 No conocemos la varianza del error, s2, porque no

observamos los errores de la población, ui
 Lo que observamos son los residuales (estimados)
del modelo muestral:
uî  yi  bˆ0  bˆ1 xi

 Pero podemos usar los residuales estimados para
construir un estimador de la varianza del error.
40
uî  yi  bˆ0  bˆ1 xi , y sustituyen do para yi
 b  b x  u   bˆ  bˆ x
0 1 i i 0 1 i
   
 ui  bˆ0  b 0  bˆ1  b1 xi
por insesgamie nto, ambos paréntesis se eliminan.. .
de modo que un estimador insesgado de s 2 es :
1 SSR
sˆ 
2
n  2  uî 
2
n  2
41
s  s  error estándar de la regresión
ˆ ˆ 2
recordemos que : std.dev bˆ  s

sx

si sustituimo s sˆ en vez de s , entonces tenemos
el error estándar de bˆ : 1
 
se bˆ1 
sˆ
 x  x  
i
2
1
2
Y, una vez que conocemos el error estándar de b1 estimada, podemos

calcular su intervalo de confianza y hacer pruebas de hipótesis.
42
Apéndice A.
Propiedades del operador Suma
43
Apéndice A.
Propiedades del operador Suma
44

Modelo Regresion Lineal Simple

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Modelo Regresion Lineal Simple

Uploaded by

Copyright:

Available Formats

Regresión Lineal Simple

 Estimación mediante el método de

 donde y es:  mientras que x es:

 El valor promedio de u, el término de error,

 Hay un supuesto crucial sobre la relación

 La idea básica es estimar parámetros

 El supuesto E(u|x) = E(u) = 0 implica que

 ¿Por qué? En probabilidad básica sabemos

 El doble supuesto E(xu) = E(u) = 0 se

 La idea es buscar parámetros que nos aseguren

 Intuitivamente, MCO ajusta una línea a

 Al minimizar los residuales cuadrados:

 uˆi  0 por tanto,

Es decir, la solución de MCO es idéntica a la del método de momentos.

  yˆ  y  es la Suma Explicada de cuadrados : SSE

 uˆ es la Suma Residual de cuadrados : SSR

Lo cual implica que SST  SSE  SSR

 SSR  2 uˆi  yˆ i  y   SSE

 ¿Cómo saber qué tan bueno es el ajuste

 Dos características deseables de cualquier

 Para analizar el sesgo del estimador, necesitamos

desviaciones de x + n*var(x) + n*cov(x,u)

de modo que el numerador puede reescribir se así :

 Los estimadores MCO de b1 y b0 son

 Ya vimos que la “distribución muestral” de

 A mayor varianza del error, s2, mayor

 No conocemos la varianza del error, s2, porque no

uˆi  yi  bˆ0  bˆ1 xi

recordemos que : std.dev bˆ  s

Y, una vez que conocemos el error estándar de b1 estimada, podemos

You might also like

desviaciones de x + nvar(x) + ncov(x,u)