Econometria

Econometria
Minimos cuadrados Ordinarios

REGRESIN LINEAL SIMPLE
Profesor
Fidel A. Cataln P.
ANLISIS DE REGRESIN Y CORRELACIN

En toda investigacin se puede encontrar variables relacionadas o
asociadas o que dependen unas de otras. Dicha relacin o dependencia
se puede medir mediante una funcin matemtica. Esto es:
Y = f (X1, X2, ..., Xk).
A este modelo se le denomina Modelo de Regresin y en esta parte del
curso se va a tratar los siguientes modelos:
Regresin Lineal Simple
Regresin No Lineal Simple
Series de Tiempo
Regresin Lineal Mltiple
Diagrama de Dispersin.
Ingresos Anuales y Aos de Experiencia
50000
45000
40000
35000
U.S. Dlares
30000
25000
20000
15000
10000
5000
0
0
0.5
1.5
2.5
3.5
4.5
5.5
6.5
7.5
8.5
9.5
10
Aos
El diagrama muestra los n pares de las n observaciones de las variables X e

Y. Del anlisis de este diagrama de dispersin se puede deducir si las
observaciones se ajustan a una lnea recta.
3
EL MODELO DE REGRESIN SIMPLE

Se emplea para medir la relacin entre las variables X y Y, como una
funcin lineal de dos parmetros desconocidos, que se estiman mediante
el mtodo de los mnimos cuadrados.
As pues, el modelo debe estar dado por:
Y = 0 + 1X +
donde:
Y:
Variable dependiente (explicada o de respuesta)
X:
Variable independiente (explicativa o predictora)
E(Y) = 0 + 1X : Componente determinstico ecuacin de la recta,
asumiendo que E() = 0.
:
Componente Aleatorio o error aleatorio,
0 :
Ordenada al origen de la recta o intercepto con el eje x
1 :
Pendiente de la recta
Supuesto del Componente Aleatorio o Residual

La media de la distribucin de probabilidad del componente es E() = 0.
Esto implica afirmar que: E(Y) = 0 + 1X

La varianza de la distribucin de probabilidad de es constante para
todos los valores de la variable independiente, es decir V() = 2.

La distribucin de probabilidad de es normal, esto es: ~ N (0, 2).
Los errores asociados a cualquier par de observaciones distintas son
independientes.
Estimacin de 0 y 1
En la estimacin de los parmetros desconocidos del modelo de regresin
lineal simple (tambin denominados coeficiente de regresin) vamos a usar el
mtodo de los mnimos cuadrados.
El objetivo es obtener una lnea recta que tenga la mnima desviacin al
cuadrado de los valores observados.
Es decir, para un par de puntos (Xi, Yi), el valor observado de Y esta dado por
Yi, mientras que el valor estimado de Y esta dado por
i 0 1 Xi
Y
En este sentido, la desviacin entre el valor observado Y el valor estimado

de Y esta dado por:
Y-Y
0 1 Xi i 1,
i i Yi
, n
Luego si obtenemos la suma de cuadrados de las desviaciones se tiene:

n
i Yi 0 1 Xi
SSE Yi Y
i 1
i 1
i 1, ,n
Estimacin de 0 y 1
Ahora bien, para obtener los valores estimados de 0 y 1 tal que minimicen
la SSE, se debe igualar a cero las derivadas parciales de SSE con
respecto a estos valores estimados. Es decir:
n
SSE 2 Yi 0 1 Xi 0
0
i 1
SSE 2 Yi 0 1 Xi Xi 0
1
i 1
De este modo se obtiene las ecuaciones normales simultneas:

n
n 0 1 Xi Yi
i 1
i 1
0 Xi 1 Xi Xi Yi
2
i1
i 1
i 1
de la resolucin de estas ecuaciones normales simultneas se tiene

finalmente los valores estimados de los parmetros del modelo de
regresin lineal simple:n
XY
i i nXY
SSXY
1 i1n
0 Y 1 X
2
SSXX
2
X
nX
i
i 1
Estimacin de V() = 2
La varianza estimada del error aleatorio es desconocida, sin embargo se
puede obtener una estimacin a partir de los datos observados, esto es:
n
s
2
i 1
i 1
i 1
0 Yi 1 Xi Yi
n2
SSE SSYY 1 SSXY
n2
n2
donde:
n
SSYY Yi nY
2
i 1
SSXY Xi Yi nXY
i 1
NOTA.- La Desviacin Estndar Estimada del error aleatorio s es la raz

cuadrada de la varianza estimada.
Inferencia de la Pendiente 1
Dado que el modelo es probabilstico, cuando se postular que X no tiene
ninguna relacin con Y, significara que la parte determinstica cambia, esto
es: E(Y) = 0. Por ello, es muy importante plantear las siguientes hiptesis:
Hip tesis
Estadstica de
P rueba
H0: 1 = 0
tc

H1: 1 0
Valo res
Crtico s
Reglas para
rechazar H 0
t (n-2; 1-a/ 2 ) | tc | > t (n-2; 1-a / 2 )
donde:
s
n
i 1
nX
s
SSXX
Inferencia de la Pendiente 1
Otra forma de hacer inferencias de la pendiente 1 es a travs del uso de
la estimacin por intervalos de confianza de 1 , esto es:
IC(1 ) 1 t (n 2; 1 a/ 2)

Si este intervalo contiene a cero 0, entonces se puede afirmar que: 1 =

0, caso contrario 1 0
10
El Coeficiente de Correlacin de Pearson

Una forma de medir el grado de asociacin o relacin que existe entre dos
variables x e y es a travs del coeficiente de correlacin de Pearson.
Esta es una medida se calcula de la siguiente forma:
n
XY nXY
i 1
i i
Xi nX
2
i 1
Yi2 nY
SSXY
SSXX SYY
i 1
El valor de r est entre 1 y +1, es decir que cuando:

r 1, existe relacin inversa entre ambas variables,
r +1, existe relacin directa entre ambas variables,
r 0, no existe relacin entre ambas variables.
Se dice que existe una alta correlacin si: |r|>0,50
11
El Coeficiente de Determinacin
Indica en que medida que la variable X explica a la variable Y.
Si X contribuye poco en la explicacin de Y, entonces SSYY y SSE son
casi iguales.
Si X contribuye bastante en la explicacin de Y, entonces SSE ser
menor que SSYY.
r2
SSYY SSE
SSXY
1
SSYY
SSYY
Est medida esta entre 0 y 1, y se puede decir que en 100%r2 la variable

X explica a la variable Y.
En el modelo de regresin lineal se puede afirmar que el coeficiente de
determinacin es igual al cuadrado del coeficiente de correlacin.
Se dice que existe un alta determinacin si: r2 > 0,70.
12
Estimacin y Prediccin
Una vez validado el modelo estamos en condiciones de alcanzar los
objetivos fundamentales del modelo. Esto es, estimar y predecir la
magnitud de la variable Y.
Estimacin
El valor medio de Y, denotado como E(Y), para un valor especfico de X0 se
puede estimar a travs del siguiente intervalo de confianza:
t (n 2; 1 a/ 2)
t (n 2; 1 a/ 2)
P Y
Y E(Y) Y
Y 1 a
donde:
Y s
13
X0 X
SSXX
0 1 X0
Y
Estimacin y Prediccin
Prediccin
Un valor de Y, en particular, para un valor especfico de X0 se puede
predecir a travs del siguiente intervalo de confianza:
t (n 2; 1 a/ 2)
t (n 2; 1 a/ 2)
P Y
Y Y Y Y
Y Y 1 a
donde:
Y-Y s
14
1
1
n
X0 X
SSXX
0 1 X0
Y
Ejemplo
Se tiene los datos de los Ingresos y Gastos mensuales, en miles de soles,
de una muestra de hogares. Se pide efectuar un ajuste de regresin lineal
de los datos de la muestra.
15
Gastos
Ingresos
Gastos
Ingresos
Gastos
Ingresos
12,59
19,69
14,97
16,43
9,58
34,72
15,05
7,13
8,93
34,88
12,40
19,69
15,14
14,88
5,43
58,13
13,98
20,77
15,79
4,96
10,62
19,53
9,94
47,74
10,37
24,65
17,44
13,33
10,14
37,05
4,87
60,14
14,97
16,43
6,29
79,36
9,50
26,20
4,51
97,03
6,49
37,51
6,48
43,71
18,91
7,13
6,18
57,66
11,36
17,67
7,81
40,46
17,75
13,64
15,92
12,25
20,89
6,51
17,44
19,69
16
17
18
19
0 17,0089
Es el int ercepto de la recta con el origen.

Solo tiene int erpretacion cuando X 0.
En este caso indica que cuando un hogar
no tiene ingresos sus gastos fijos son de 17mil.
1 0,17440
Es la pendiente de la recta.
En este caso indica que por cada mil soles
adicionales sus gastos disminuyen
en 174 soles.
20
INTERVALODE CONFIANZA 1 a 0,95
HIPOTESIS
H0 : 1 0
H1 : 1 0
1 t (n 2; 1 a/ 2)
IC(1 )

Xno es significativa
X es significativa
ESTADISTICO DE PRUEBA:
1
0,17440
8,43

0,02069
1
P value 0,000
VALOR CRITICO: t
(n-2; 1- a/ 2)
t (28; 0,975) 2,048 41
REGLA DE DECISION: Se rechaza H0 si t c t

Ho se rechaza
CONCLUSION: 1 0
21
IC(1 ) 0,17440 2,04841(0,02069)

P(-0,17483 1 -0,17397) = 0,95
1 0
NIVEL DE SIGNIFICACION: a 0,05
tc
(n-2; 1- a/ 2)
Coeficiente de Correlacion
R sq
71,7%
0,717 0,8468
100%
100%
Existe una correlacion indirecta entre los Gastos y los Ingresos
r
22
HIPOTESIS
H0 : Modelo no es significativo
H1 : Modelo es significativo
NIVEL DE SIGNIFICACION: a 0,05
ESTADISTICO DE PRUEBA:
CMM 442,46
Fc
71,02
CME
6,23
P-value = 0,000
VALOR CRITICO: F(k; n-(k-1); 1- a ) F(1; 28; 0,95) =4,19 597
REGLA DE DECISION: Se rechaza H0 si Fc F(k; n-(k-1); 1- a )
Ho se rechaza
CONCLUSION: Modelo es significativo
23
24

Econometria - Regresion Lineal Semana 2

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Econometria - Regresion Lineal Semana 2

Uploaded by

Copyright:

Available Formats

Minimos cuadrados Ordinarios

ANLISIS DE REGRESIN Y CORRELACIN

El diagrama muestra los n pares de las n observaciones de las variables X e

EL MODELO DE REGRESIN SIMPLE

Supuesto del Componente Aleatorio o Residual

Esto implica afirmar que: E(Y) = 0 + 1X

todos los valores de la variable independiente, es decir V() = 2.

En este sentido, la desviacin entre el valor observado Y el valor estimado

Luego si obtenemos la suma de cuadrados de las desviaciones se tiene:

De este modo se obtiene las ecuaciones normales simultneas:

de la resolucin de estas ecuaciones normales simultneas se tiene

SSE SSYY 1 SSXY

NOTA.- La Desviacin Estndar Estimada del error aleatorio s es la raz

t (n-2; 1-a/ 2 ) | tc | > t (n-2; 1-a / 2 )

Si este intervalo contiene a cero 0, entonces se puede afirmar que: 1 =

El Coeficiente de Correlacin de Pearson

El valor de r est entre 1 y +1, es decir que cuando:

Est medida esta entre 0 y 1, y se puede decir que en 100%r2 la variable

Es el int ercepto de la recta con el origen.

INTERVALODE CONFIANZA 1 a 0,95

t (28; 0,975) 2,048 41

REGLA DE DECISION: Se rechaza H0 si t c t

IC(1 ) 0,17440 2,04841(0,02069)

NIVEL DE SIGNIFICACION: a 0,05

You might also like