You are on page 1of 24

Econometria

Minimos cuadrados Ordinarios


REGRESIN LINEAL SIMPLE

Profesor
Fidel A. Cataln P.

ANLISIS DE REGRESIN Y CORRELACIN


En toda investigacin se puede encontrar variables relacionadas o
asociadas o que dependen unas de otras. Dicha relacin o dependencia
se puede medir mediante una funcin matemtica. Esto es:
Y = f (X1, X2, ..., Xk).
A este modelo se le denomina Modelo de Regresin y en esta parte del
curso se va a tratar los siguientes modelos:
Regresin Lineal Simple
Regresin No Lineal Simple
Series de Tiempo
Regresin Lineal Mltiple

Diagrama de Dispersin.
Ingresos Anuales y Aos de Experiencia

50000
45000
40000
35000

U.S. Dlares

30000
25000
20000
15000
10000
5000
0
0

0.5

1.5

2.5

3.5

4.5

5.5

6.5

7.5

8.5

9.5

10

Aos

El diagrama muestra los n pares de las n observaciones de las variables X e


Y. Del anlisis de este diagrama de dispersin se puede deducir si las
observaciones se ajustan a una lnea recta.
3

EL MODELO DE REGRESIN SIMPLE


Se emplea para medir la relacin entre las variables X y Y, como una
funcin lineal de dos parmetros desconocidos, que se estiman mediante
el mtodo de los mnimos cuadrados.
As pues, el modelo debe estar dado por:
Y = 0 + 1X +
donde:
Y:
Variable dependiente (explicada o de respuesta)
X:
Variable independiente (explicativa o predictora)
E(Y) = 0 + 1X : Componente determinstico ecuacin de la recta,
asumiendo que E() = 0.
:
Componente Aleatorio o error aleatorio,
0 :
Ordenada al origen de la recta o intercepto con el eje x
1 :
Pendiente de la recta

Supuesto del Componente Aleatorio o Residual


La media de la distribucin de probabilidad del componente es E() = 0.

Esto implica afirmar que: E(Y) = 0 + 1X


La varianza de la distribucin de probabilidad de es constante para

todos los valores de la variable independiente, es decir V() = 2.


La distribucin de probabilidad de es normal, esto es: ~ N (0, 2).
Los errores asociados a cualquier par de observaciones distintas son

independientes.

Estimacin de 0 y 1
En la estimacin de los parmetros desconocidos del modelo de regresin
lineal simple (tambin denominados coeficiente de regresin) vamos a usar el
mtodo de los mnimos cuadrados.
El objetivo es obtener una lnea recta que tenga la mnima desviacin al
cuadrado de los valores observados.
Es decir, para un par de puntos (Xi, Yi), el valor observado de Y esta dado por
Yi, mientras que el valor estimado de Y esta dado por

i 0 1 Xi
Y

En este sentido, la desviacin entre el valor observado Y el valor estimado


de Y esta dado por:

Y-Y
0 1 Xi i 1,
i i Yi

, n

Luego si obtenemos la suma de cuadrados de las desviaciones se tiene:


n

i Yi 0 1 Xi
SSE Yi Y

i 1
i 1

i 1, ,n

Estimacin de 0 y 1
Ahora bien, para obtener los valores estimados de 0 y 1 tal que minimicen
la SSE, se debe igualar a cero las derivadas parciales de SSE con
respecto a estos valores estimados. Es decir:
n

SSE 2 Yi 0 1 Xi 0

0
i 1

SSE 2 Yi 0 1 Xi Xi 0

1
i 1

De este modo se obtiene las ecuaciones normales simultneas:


n

n 0 1 Xi Yi
i 1

i 1

0 Xi 1 Xi Xi Yi
2

i1

i 1

i 1

de la resolucin de estas ecuaciones normales simultneas se tiene


finalmente los valores estimados de los parmetros del modelo de
regresin lineal simple:n
XY

i i nXY
SSXY
1 i1n

0 Y 1 X
2
SSXX
2
X

nX
i
i 1

Estimacin de V() = 2
La varianza estimada del error aleatorio es desconocida, sin embargo se
puede obtener una estimacin a partir de los datos observados, esto es:
n

s
2

i 1

i 1

i 1

0 Yi 1 Xi Yi
n2

SSE SSYY 1 SSXY

n2
n2

donde:
n

SSYY Yi nY
2

i 1

SSXY Xi Yi nXY
i 1

NOTA.- La Desviacin Estndar Estimada del error aleatorio s es la raz


cuadrada de la varianza estimada.

Inferencia de la Pendiente 1
Dado que el modelo es probabilstico, cuando se postular que X no tiene
ninguna relacin con Y, significara que la parte determinstica cambia, esto
es: E(Y) = 0. Por ello, es muy importante plantear las siguientes hiptesis:
Hip tesis

Estadstica de
P rueba

H0: 1 = 0

tc

H1: 1 0

Valo res
Crtico s

Reglas para
rechazar H 0

t (n-2; 1-a/ 2 ) | tc | > t (n-2; 1-a / 2 )

donde:

s
n

i 1

nX

s
SSXX

Inferencia de la Pendiente 1
Otra forma de hacer inferencias de la pendiente 1 es a travs del uso de
la estimacin por intervalos de confianza de 1 , esto es:

IC(1 ) 1 t (n 2; 1 a/ 2)

Si este intervalo contiene a cero 0, entonces se puede afirmar que: 1 =


0, caso contrario 1 0

10

El Coeficiente de Correlacin de Pearson


Una forma de medir el grado de asociacin o relacin que existe entre dos
variables x e y es a travs del coeficiente de correlacin de Pearson.
Esta es una medida se calcula de la siguiente forma:
n

XY nXY
i 1

i i

Xi nX
2

i 1

Yi2 nY

SSXY
SSXX SYY

i 1

El valor de r est entre 1 y +1, es decir que cuando:


r 1, existe relacin inversa entre ambas variables,
r +1, existe relacin directa entre ambas variables,
r 0, no existe relacin entre ambas variables.
Se dice que existe una alta correlacin si: |r|>0,50

11

El Coeficiente de Determinacin
Indica en que medida que la variable X explica a la variable Y.
Si X contribuye poco en la explicacin de Y, entonces SSYY y SSE son
casi iguales.
Si X contribuye bastante en la explicacin de Y, entonces SSE ser
menor que SSYY.

r2

SSYY SSE
SSXY
1
SSYY
SSYY

Est medida esta entre 0 y 1, y se puede decir que en 100%r2 la variable


X explica a la variable Y.
En el modelo de regresin lineal se puede afirmar que el coeficiente de
determinacin es igual al cuadrado del coeficiente de correlacin.
Se dice que existe un alta determinacin si: r2 > 0,70.

12

Estimacin y Prediccin
Una vez validado el modelo estamos en condiciones de alcanzar los
objetivos fundamentales del modelo. Esto es, estimar y predecir la
magnitud de la variable Y.

Estimacin
El valor medio de Y, denotado como E(Y), para un valor especfico de X0 se
puede estimar a travs del siguiente intervalo de confianza:

t (n 2; 1 a/ 2)
t (n 2; 1 a/ 2)
P Y
Y E(Y) Y
Y 1 a
donde:

Y s

13

X0 X
SSXX

0 1 X0
Y

Estimacin y Prediccin
Prediccin
Un valor de Y, en particular, para un valor especfico de X0 se puede
predecir a travs del siguiente intervalo de confianza:

t (n 2; 1 a/ 2)
t (n 2; 1 a/ 2)
P Y
Y Y Y Y
Y Y 1 a
donde:

Y-Y s

14

1
1
n

X0 X
SSXX

0 1 X0
Y

Ejemplo
Se tiene los datos de los Ingresos y Gastos mensuales, en miles de soles,
de una muestra de hogares. Se pide efectuar un ajuste de regresin lineal
de los datos de la muestra.

15

Gastos

Ingresos

Gastos

Ingresos

Gastos

Ingresos

12,59

19,69

14,97

16,43

9,58

34,72

15,05

7,13

8,93

34,88

12,40

19,69

15,14

14,88

5,43

58,13

13,98

20,77

15,79

4,96

10,62

19,53

9,94

47,74

10,37

24,65

17,44

13,33

10,14

37,05

4,87

60,14

14,97

16,43

6,29

79,36

9,50

26,20

4,51

97,03

6,49

37,51

6,48

43,71

18,91

7,13

6,18

57,66

11,36

17,67

7,81

40,46

17,75

13,64

15,92

12,25

20,89

6,51

17,44

19,69

16

17

18

19

0 17,0089

Es el int ercepto de la recta con el origen.


Solo tiene int erpretacion cuando X 0.
En este caso indica que cuando un hogar
no tiene ingresos sus gastos fijos son de 17mil.
1 0,17440

Es la pendiente de la recta.
En este caso indica que por cada mil soles
adicionales sus gastos disminuyen
en 174 soles.

20

INTERVALODE CONFIANZA 1 a 0,95

HIPOTESIS
H0 : 1 0
H1 : 1 0

1 t (n 2; 1 a/ 2)
IC(1 )

Xno es significativa
X es significativa

ESTADISTICO DE PRUEBA:
1

0,17440

8,43

0,02069
1

P value 0,000
VALOR CRITICO: t

(n-2; 1- a/ 2)

t (28; 0,975) 2,048 41

REGLA DE DECISION: Se rechaza H0 si t c t


Ho se rechaza
CONCLUSION: 1 0
21

IC(1 ) 0,17440 2,04841(0,02069)


P(-0,17483 1 -0,17397) = 0,95
1 0

NIVEL DE SIGNIFICACION: a 0,05

tc

(n-2; 1- a/ 2)

Coeficiente de Correlacion
R sq
71,7%

0,717 0,8468
100%
100%
Existe una correlacion indirecta entre los Gastos y los Ingresos
r

22

HIPOTESIS
H0 : Modelo no es significativo
H1 : Modelo es significativo
NIVEL DE SIGNIFICACION: a 0,05
ESTADISTICO DE PRUEBA:
CMM 442,46
Fc

71,02
CME
6,23
P-value = 0,000
VALOR CRITICO: F(k; n-(k-1); 1- a ) F(1; 28; 0,95) =4,19 597
REGLA DE DECISION: Se rechaza H0 si Fc F(k; n-(k-1); 1- a )
Ho se rechaza
CONCLUSION: Modelo es significativo

23

24

You might also like