You are on page 1of 44

Regresión Lineal Simple

yi = b0 + b1xi + ui

Javier Aparicio
División de Estudios Políticos, CIDE
javier.aparicio@cide.edu

Primavera 2011

http://www.cide.edu/investigadores/aparicio/metodos.html

1
Contenido

 Estimación mediante el método de


momentos
 Estimación por mínimos cuadrados
ordinarios
 Bondad de ajuste: R2
 Propiedades de los estimadores MCO
 Supuestos Gauss-Markov
 Insesgamiento
 Eficiencia

2
y = b0 + b1x + u

 donde y es:  mientras que x es:


 Variable dependiente  Variable independiente
 Variable explicada  Variable explicativa
 Variable de lado
 Covariable
izquierdo (duh!)
 Regresando  Variable de control
 Regresor
 u es:
 Residual  Variable de lado derecho
 Término de error  b0 y b1: parámetros o
coeficientes a estimar

3
Algunos supuestos

 El valor promedio de u, el término de error,


en la población es = 0. Es decir,
E(u) = 0
 Este supuesto no es muy restrictivo puesto
que siempre podemos ajustar el intercepto b0
para normalizar E(u) = 0

4
Media condicional = 0

 Hay un supuesto crucial sobre la relación


entre el error y la variable explicativa:
cov(x, u)
 Queremos que la información contenida en x
sea independiente de la información
contenida en u (ie, que no estén
relacionados), de modo que:
 E(u|x) = E(u) = 0, lo cual implica:
 E(y|x) = b0 + b1x

5
E(y|x) es una funcion lineal de x: para cada x,
la predicción de y es E(y|x)
y
f(y)

. E(y|x) = b + b x
0 1
.

x1 x2
6
Mínimos Cuadrados Ordinarios (MCO)

 La idea básica es estimar parámetros


poblacionales a partir de una muestra.
 Sea {(xi,yi): i=1, …,n} una muestra aleatoria
de tamaño n de una población.
 Para cada observación en la muestra,
tenemos:
yi = b0 + b1xi + ui

7
Línea de regresión, observaciones y errores

y E(y|x) = b0 + b1x
y4 .{
u4

y3 .} u3
y2 u2 {.

y1 .} u1

x1 x2 x3 x4 x
8
Derivación de estimadores MCO /OLS

 El supuesto E(u|x) = E(u) = 0 implica que

Cov(x,u) = E(xu) = 0

 ¿Por qué? En probabilidad básica sabemos


que:
Cov(x,u) = E(xu) – E(x)E(u)
y dado que E(u)=0  Cov(x,u) = E(xu) = 0

9
…continuación MCO/OLS

 El doble supuesto E(xu) = E(u) = 0 se


traduce en dos restricciones.
 Y dado que: u = y – b0 – b1x,
podemos reescribir estas dos restricciones
en términos de x, b0 y b1 :
 E(u) = E(y – b0 – b1x) = 0
 E(xu) = E[x(y – b0 – b1x)] = 0
 Conocidas como las “restricciones de
momentos”

10
Derivación de MCO usando el
Método de Momentos (MOM)
 (Breviario: el 1º, 2º, 3º y 4º momentos de una función de distribución
de una variable aleatoria son la media, varianza, sesgo y kurtosis,
respectivamente.)
 El método de momentos consiste en imponer las
restricciones de momentos, asumidas como ciertas
para la población, en los momentos de la muestra.
 ¿Pero cómo? Recuerden que un estimador
muestral de E(X), la media de una población, es
simplemente la media aritmética de la muestra.

11
Derivación de MCO / OLS

 La idea es buscar parámetros que nos aseguren


que las restricciones de momentos se cumplan en la
muestra.
 Las restricciones muestrales son (el gorrito denota
“parámetros estimados”):

 
n
n 1

i 1
y i
ˆ
b 0  ˆ x 0
b1 i (1ª)

 
n
n 1
 i i 0 1i
x
i 1
y  ˆ  bˆ x  0
b (2ª )

12
Estimador MCO / OLS: intercepto
 Dada la definición de media muestral y las
propiedades de la sumatorias, podemos reescribir la
primera restricción como sigue:

 
n
n 1

i 1
y  ˆ
b
i 0  ˆ x 0
b1 i

ˆ ˆ
y  b 0  b1 x ,
o bien
bˆ  y  bˆ x
0 1
13
Derivación de MCO / OLS
Y ahora, sustituyendo b0 en la segunda restricción, tenemos:

 
n
n 1  xi yi  bˆ0  bˆ1 xi  0
i 1

   
n

i i
x y
i 1
 y  ˆ x  bˆ x  0
b 1 1 i

n n
x 
i i y  y   ˆ
b 1  xi  xi  x 
i 1 i 1
Aquí hay un paso “mágico” ver apéndice A.7 y A.8.
n n

 xi  x  yi  y   b1  xi  x 
ˆ 2

i 1 i 1
14
…estimador MCO / OLS: pendiente b1
n n
b̂1  xi  x    xi  x  yi  y 
2

i 1 i 1
n

 x  x  y
i i  y
cov( x, y )
bˆ1  i 1
n

 x  x 
2 var( x)
i
i 1
n

 x  x  0
2
toda vez que x tenga varianza : i
i 1

15
Sobre el estimador MCO de b1
 b1, es la covarianza muestral entre x y y, dividida
entre la varianza muestral de x.
 Si x y y están correlacionados positivamente, b1
será positivo (pues la varianza del denominador
siempre es positiva).
 Si x y y están correlacionados negativamente, b1
será negativo.
 Si x y y no tienen correlación alguna, b1 no será
estadísticamente distinto de cero (volveremos a
esto más tarde).
 Obviamente, requerimos que x tenga cierta varianza
en la muestra.

16
MCO / OLS

 Intuitivamente, MCO ajusta una línea a


través de los datos muestrale, de modo que
la suma de residuales al cuadrado (SSR) sea
la mínima posible: de ahí el término “mínimos
cuadrados”.
 El residual, û, es un estimado del término de
error entre lo observado y lo predicho, es
decir, la diferencia entre la línea de regresión
(fitted line) y el dato observado.
 Ver gráfica...
17
Línea de regresión muestral, observaciones, y
residuales estimados
y
y4 .
û4 {
yˆ  bˆ0  bˆ1 x
y3 .} û3
y2 û{ .
2

y1
}
. û1

x1 x2 x3 x4 x
18
Un enfoque alternativo:
Minimizar residuales al cuadrado
 Siguiendo la idea de ajustar una línea de regresión,
podemos plantear un problema de minimización.
 Es decir, buscar parámetros b tales que minimicen
la siguiente expresión:

 
n n

 ui    yi  b 0  b1 xi
ˆ ˆ 2
ˆ 2

i 1 i 1

19
...continuación
 Usando cálculo para resolver un problema de
minimización con dos parámetros resulta en dos
condiciones de primer orden (FOC)–similares a
las restricciones de momentos vistas antes, pero
ahora multiplicadas por n:

 
n

 y
i 1
 ˆ
b
i 0  ˆ x 0
b 1 i

 
n

 i i 0 1i
x y
i 1
 ˆ  bˆ x  0
b
20
Propiedades algebraicas de MCO / OLS

 Al minimizar los residuales cuadrados:


 La suma de los residuales de MCO será igual a
cero.
 Por ende, la media muestral de los residuales será
cero también.
 La covarianza muestral entre las variables
explicativas y los residuales será cero.
 La línea de regresión de MCO siempre cruzará la
media de la muestra, ie, la media de x y la media
de y.

21
Propiedades algebraicas
(matemáticamente)
n

n  uˆ i

 uˆi  0 por tanto,


i 1
i 1
n
0
n

 x uˆ
i 1
i i  0 por tanto, cov (x,u)  0

y  bˆ0  bˆ1 x

Es decir, la solución de MCO es idéntica a la del método de momentos.

22
Suma de cuadrados: Terminología
Podemos separar cada observació n en un componente
explicado (sistemáti co) y un componente no explicado :
yi  yˆ i  uˆi De modo que podemos definir lo siguiente :
  y  y  es la Suma Total de cuadrados : SST
2
i

  yˆ  y  es la Suma Explicada de cuadrados : SSE


2
i

 uˆ es la Suma Residual de cuadrados : SSR


2
i

Lo cual implica que SST  SSE  SSR


SST es la suma de “desviaciones al cuadrado” de las observaciones
de la muestra: es proporcional, más no igual, a VAR(y).

23
Demostración: SST = SSE + SSR
SST    yi  y     yi  yˆ i    yˆ i  y 
2 2

  uˆi   yˆ i  y 
2

  uˆ  2 uˆi  yˆ i  y     yˆ i  y 
2 2
i

 SSR  2 uˆi  yˆ i  y   SSE


y como sabemos que  uˆi  yˆ i  y   0
 SSR  SSE

24
Bondad de ajuste: R 2

 ¿Cómo saber qué tan bueno es el ajuste


entre la línea de regresión y los datos de la
muestra?
 Podemos calcular la proporción de la Suma
de cuadrados totales (SST) que es
“explicada” por el modelo.
 Esto es la llamada R-cuadrada de una
regresión:
R2 = SSE/SST = 1 – SSR/SST

25
Haciendo regresiones con stata
 Hemos visto como derivar las fórmulas para
calcular estimadores MCO de nuestros
parámetros de interés b.
 Podemos calcularlos “a mano” (muy tedioso),
o aplicar estas fórmulas en una hoja de
cálculo como excel (algo tedioso), o bien
usar un paquete estadístico estándar como
stata (muy fácil)
 Para correr una regresión de y en x en stata:
regress y x1 x2 x3 (ver ejemplo)

26
Sesgo y eficiencia de MCO

 Dos características deseables de cualquier


estimador estadístico son:
 Insesgamiento (unbiasedness): que el parámetro
estimado sea, en promedio, igual al “verdadero”
parámetro poblacional.
 Eficiencia (efficiency): que la varianza del
estimador sea mínima (ie, máxima precisión).
 Así, buscamos estimadores con sesgo mínimo y
máxima eficiencia (ie, mínima varianza).
 MCO cuenta con ambas propiedades bajo ciertas
condiciones: los supuestos Gauss-Markov.

27
Supuestos Gauss-Markov I:
Insesgamiento de MCO/OLS
1. El modelo poblacional es lineal en sus
parámetros: y = b0 + b1x + u
2. Muestra aleatoria de tamaño n,
{(xi, yi): i=1, 2, …, n}, representativa de la
población, de modo que el modelo muestral
es: yi = b0 + b1xi + ui
3. Media condicional cero: E(u|x) = 0 y por
tanto E(ui|xi) = 0
4. Varianza(xi ) > 0
28
Insesgamiento de MCO

 Para analizar el sesgo del estimador, necesitamos


reescribirlo en términos del parámetro poblacional.
 De modo que reescribimos la fórmula para b1 como:

 x  x  y
bˆ1  i
2
i
, donde
s x

s    xi  x 
2 2
x

29
Insesgamiento de MCO (cont.)
Sustituyendo para yi, el numerador de la expresión anterior
puede descomponerse como sigue:

 x  x y  x  x b  b x  u 
i i i 0 1 i i

  x  x b   x  x b x   x  x u
i 0 i 1 i i i

 b  x  x   b  x  x x   x  x u
0 i 1 i i i i

desviaciones de x + n*var(x) + n*cov(x,u)

30
Insesgamiento de MCO (cont.)
Por estadístic a básica, sabemos que :
 x  x   0, y
i

 x  x x   x  x   s x2
2
i i i

de modo que el numerador puede reescribir se así :


b1s x2   xi  x ui , y por lo tanto
 x  x u
bˆ1  b1  i i

s x2

31
Insesgamiento de MCO (cont.)
Finalmente , si definimos d i  xi  x , de modo que
 1 
b i  b1   2  d i ui , y aplicamos valor esperado :
ˆ
 sx 

 
ˆ  1 
E b1  b1   2  d i E ui   b1
 sx 
El operador E(.) aplica a ui, el único componente aleatorio de la
expresión.
El valor esperado de la b1 estimada es el “verdadero” parámetro
poblacional—toda vez que los 4 supuestos Gauss-Markov se
cumplan.
32
Insesgamiento: resumen

 Los estimadores MCO de b1 y b0 son


insesgados.
 La demostración de esto depende de los 4
supuestos Gauss-Markov: si alguno de ellos
no se cumple, MCO no necesariamente será
insesgado.
 El insesgamiento es una propiedad del
estimador muestral: dada cierta muestra,
éste puede estar cerca o lejos del verdadero
parámetro poblacional.
33
Varianza de los estimadores MCO

 Ya vimos que la “distribución muestral” de


nuestro estimador está centrada en torno al
“verdadero” parámetro.
 ¿Qué tan dispersa será la distribución del
estimador?
 Para analizar esto, requerimos un supuesto
Gauss-Markov adicional (el 5º):
var(u|x) = s2
conocido como homoscedasticidad
(homoskedasticity): varianza constante.
34
Varianza de MCO (cont.)
 Por estadística sabemos que:
s2 = Var(u|x) = E(u2|x)-[E(u|x)]2
 Y como E(u|x) = 0, entonces:
s2 = E(u2|x) = E(u2) = Var(u)
 De modo que s2 es la varianza no condicional de
los residuales, también llamada varianza del error.
 s, la raíz cuadrada de la varianza del error, se
conoce como la desviación estándar del error.
 Con lo cual podemos decir que:
 E(y|x)=b0 + b1x
 Var(y|x) = s2

35
Homoscedasticidad
y
f(y|x)

. E(y|x) = b + b x
0 1
.

x1 x2
36
Heteroscedasticidad

f(y|x)

.
. E(y|x) = b0 + b1x

.
x1 x2 x3 x
37
Varianza de MCO (cont.)

 
ˆ   1 
Var b1  Var  b1  

2   d i ui 

  x
s 
2 2

2  Var  d i ui   
 1   1 

 sx 
2
 sx 
 i Varui 
d 2

2 2
 1   1 
 2
 sx 
 d s  s  sx2 
i
2 2 2
d i
2

 
2
 1  2 s2 ˆ
s 2
2  sx  2  Var b1
 sx  sx

38
Varianza de MCO: resumen

 A mayor varianza del error, s2, mayor


varianza del estimador de b1.
 A mayor varianza en xi, menor varianza
del estimador de b1.
 Por ende, a mayor tamaño de muestra, n,
menor varianza del estimador de b1.
 Pero ojo, la varianza del error es
“desconocida”: necesitamos estimarla
también.

39
Estimación de la varianza del error

 No conocemos la varianza del error, s2, porque no


observamos los errores de la población, ui
 Lo que observamos son los residuales (estimados)
del modelo muestral:

uˆi  yi  bˆ0  bˆ1 xi


 Pero podemos usar los residuales estimados para
construir un estimador de la varianza del error.

40
Estimación de la varianza del error
uˆi  yi  bˆ0  bˆ1 xi , y sustituyen do para yi
 b  b x  u   bˆ  bˆ x
0 1 i i 0 1 i

   
 ui  bˆ0  b 0  bˆ1  b1 xi
por insesgamie nto, ambos paréntesis se eliminan.. .
de modo que un estimador insesgado de s 2 es :
1 SSR
sˆ 
2

n  2  uˆi 
2

n  2

41
Estimación de la varianza del error
s  s  error estándar de la regresión
ˆ ˆ 2

recordemos que : std.dev bˆ  s


sx

si sustituimo s sˆ en vez de s , entonces tenemos
el error estándar de bˆ : 1

 
se bˆ1 

 x  x  
i
2
1
2

Y, una vez que conocemos el error estándar de b1 estimada, podemos


calcular su intervalo de confianza y hacer pruebas de hipótesis.

42
Apéndice A.
Propiedades del operador Suma

43
Apéndice A.
Propiedades del operador Suma

44

You might also like