Professional Documents
Culture Documents
e
1
e
n
e
i
Regresin y Correlacin
MIE Fernando Malagon
Gonzalez
30
80
130
180
230
280
330
140 150 160 170 180 190 200
Cmo reconocer relacin directa e inversa.
30
40
50
60
70
80
90
100
140 150 160 170 180 190 200
0
10
20
30
40
50
60
70
80
140 150 160 170 180 190 200
Para valores de X por encima de la media
tenemos valores de Y por encima y por debajo
en cantidades similares. No existe relacin
Para los valores de X mayores que la media
le corresponden valores de Y menores. Esto
es relacin inversa o decreciente.
Para los valores de X mayores que la media le
corresponden valores de Y mayores tambin.
Para los valores de X menores que la media le
corresponden valores de Y menores tambin.
Esto se llama relacin directa o creciente entre X e Y.
Regresin y Correlacin
MIE Fernando Malagon
Gonzalez
CALCULO DE LA RECTA DE REGRESIN
) ), / ( ( ~
2
o
i i
x Y E N y
i i i
x Y | o + + =
( x
1
, y
1
) , ( x
2
, y
2
) , ... , ( x
n
, y
n
)
x b a y . + =
Recta de Estimacin
Modelo de Regresin
Regresin y Correlacin
MIE Fernando Malagon
Gonzalez
Mtodos de Estimacin
|
o
=
=
b
a
Existen dos mtodos para hallar los estimadores de
o y | que dan los mismos resultados.
Mtodo de Mxima Verosimilitud
Mtodo de los Mnimos Cuadrados
= =
= =
n
i
i
n
i
i i
mnimo e y y
1
2
1
2
) (
i
x b a y .
+ =
= =
+ =
n
i
i i
n
i
i i
x b a y y y
1
2
1
2
)] . ( [ ) (
Regresin y Correlacin
MIE Fernando Malagon
Gonzalez
mn x b a y b a
n
i
i i
= =
=1
2
] . [ ) , (
0
) , (
=
a
b a
c
c
0
) , (
=
b
b a
c
c
X b Y a . =
) (
) , (
) (
) ).( . (
.
. . .
1
2
1
1
2 2
1
x V
y x Cov
X x
Y y X x
X n x
Y X n y x
b
n
i
i
n
i
i i
n
i
i
n
i
i i
=
=
=
=
=
Regresin y Correlacin
MIE Fernando Malagon
Gonzalez
Interpretacin de los coeficientes
a = ordenada al origen cuando x=0 ; y=a
b= pendiente de la recta
b>0 :existe una relacin lineal directa entre las
variables
b<0: existe una relacin lineal inversa entre las variables
b=0 no existe relacin lineal entre las variables .
Regresin y Correlacin
MIE Fernando Malagon
Gonzalez
Otros modelos de regresin
Se pueden considerar otros tipos
de modelos, en funcin del
aspecto que presente el diagrama
de dispersin (regresin no lineal)
Incluso se puede considerar el que
una variable dependa de varias
(regresin mltiple).
recta o parbola?
140 150 160 170 180 190 200
recta o cbica?
140 150 160 170 180 190 200
Regresin y Correlacin
MIE Fernando Malagon
Gonzalez
Cmo medir la bondad de una regresin?
Imaginemos un diagrama de dispersin, y vamos
a tratar de comprender en primer lugar qu es
el error residual, su relacin con la varianza de Y,
y de ah, cmo medir la bondad de un ajuste.
Regresin y Correlacin
MIE Fernando Malagon
Gonzalez
Interpretacin de la variabilidad en Y
Y En primer lugar olvidemos que existe la
variable X. Veamos cul es la variabilidad
en el eje Y.
La franja sombreada indica la zona donde
varan los valores de Y.
Proyeccin sobre el eje Y = olvidar X
y
Regresin y Correlacin
MIE Fernando Malagon
Gonzalez
Interpretacin del residuo
Y
Fijmonos ahora en los errores de prediccin
(lneas verticales). Los proyectamos sobre el eje Y.
Se observa que los errores de prediccin,
residuos, estn menos dispersos que la
variable Y original.
Cuanto menos dispersos sean los residuos,
mejor ser la bondad del ajuste.
Regresin y Correlacin
MIE Fernando Malagon
Gonzalez
Coeficiente de Determinacin = r
2
30
40
50
60
70
80
90
100
140 150 160 170 180 190 200
y
y
o
y
Error total
Error no Explicado
Error Explicado
Regresin y Correlacin
MIE Fernando Malagon
Gonzalez
Error total Error no Explicado
Error Explicado
=
+
( ) ( ) ( ) Y y y y Y y
i i i i
+ =
( ) ( ) ( ) | |
2 2
Y y y y Y y
i i i i
+ =
( ) ( ) ( ) | |
= =
+ =
n
i
i i i
n
i
i
Y y y y Y y
1
2
1
2
( ) ( ) ( )
= = =
+ =
n
i
i
n
i
i i
n
i
i
Y y y y Y y
1
2
1
2
1
2
. . . . . . E V E N V T V + =
Regresin y Correlacin
MIE Fernando Malagon
Gonzalez
. .
. .
. .
. . .
1
. .
. . . . .
. .
. .
T V
E V
T V
E N V
T V
E V E N V
T V
T V
+ =
+
=
relacion de tipo el detecta No
VNE VT VE r
VT VNE VE r
r
0 1
2
0 0
2
1
2
0
= = =
= = =
s s
2
. .
. .
. .
. . .
1 r
T V
E V
T V
E N V
= =
Regresin y Correlacin
MIE Fernando Malagon
Gonzalez
Resumiendo:
La dispersin del error residual ser una fraccin
de la dispersin original de Y
Cuanto menor sea la dispersin del error residual
mejor ser el ajuste de regresin.
Eso hace que definamos como medida de
bondad de un ajuste de regresin,
o coeficiente de determinacin a:
Coeficiente de Determinacin
VT
VNE
R =1
2
Y
2 2
Y e
S S <
Regresin y Correlacin
MIE Fernando Malagon
Gonzalez
Resumen sobre bondad de un ajuste
La bondad de un ajuste de un modelo de regresin se
mide usando el coeficiente de determinacin R
2
R
2
es una medida adimensional que slo puede tomar
valores en [0, 1]
Cuando un ajuste es bueno, R
2
ser cercano a uno.
Cuando un ajuste es malo R
2
ser cercano a cero.
A R
2
tambin se le denomina porcentaje de variabilidad
explicado por el modelo de regresin.
Regresin y Correlacin
MIE Fernando Malagon
Gonzalez
Coef. de correlacin lineal de Pearson
La coeficiente de correlacin lineal de Pearson de
dos variables, r, nos indica si los puntos tienen
una tendencia a disponerse alineadamente
(excluyendo rectas horizontales y verticales).
tiene el mismo signo que cov(x,y) por tanto de su
signo obtenemos el que la posible relacin sea
directa o inversa.
r es til para determinar si hay relacin lineal
entre dos variables, pero no servir para otro tipo
de relaciones (cuadrtica, logartmica,...)
y x
S S
y x
r
) , cov(
=
Regresin y Correlacin
MIE Fernando Malagon
Gonzalez
Coeficiente de Correlacin
X e Y son variables aleatorias . Luego, no existe una variable
explicativa y otra explicada.
La poblacin de la cual se extrae la muestra es Normal Bivariada .
Existe una relacin lineal entre las variables, la cual est medida
por el coeficiente de correlacin poblacional definido como :
Muestral n Correlaci de e Coeficient r
Y E X E
Y X E
y x Cov
l Poblaciona n Correlaci de e Coeficient
y V y E y x V x E
con as distribud e Normalment estn Y e X
y x
y x
y x
y y x x
o o
o o
1 1
] ) [( ] ) [(
)] )( [(
) , (
) ( ) ( ) ( ) (
2 2
2 2
=
s s
= =
= = = =
Regresin y Correlacin
MIE Fernando Malagon
Gonzalez
1 1
) )( (
) ( ) (
1
) )( (
1
) ( ). (
) , cov(
2 2 2 2
1
2 2
1
1
s s
=
= =
=
=
=
r
Y n y X n x
Y X n y x
r
Y y X x
n
Y y X x
n
y S x S
y x
r
i i
n
i
i i
i
n
i
i
i
n
i
i
r =-1 *Existe relacin inversa y perfecta entre las variables
r =1 *Existe relacin directa y perfecta entre variables
r =0 *No existe relacin lineal entre las variables -Variables no correlacionadas
-1 < r < 0 *Existe relacin inversa entre las variables
0 < r < 1 * Existe relacin directa entre las variables
1 1 ; 1
2
0
2
) (
2
s s s s = r r r r
Regresin y Correlacin
MIE Fernando Malagon
Gonzalez
Es adimensional
Slo toma valores en [-1,1]
Si no existe relacin lineal r=0
Relacin lineal perfecta entre dos variables r=+1 o r=-1
Excluimos los casos de puntos alineados horiz. o verticalmente.
Cuanto ms cerca est r de +1 o -1 mejor ser el grado de
relacin lineal.
Siempre que no existan observaciones anmalas.
Propiedades de r
-1 +1
0
Relacin
inversa
perfecta
Relacin
directa
casi
perfecta
Variables
incorreladas
Regresin y Correlacin
MIE Fernando Malagon
Gonzalez
correlaciones negativas
r=-0,5
0
10
20
30
40
50
60
70
80
90
140 150 160 170 180 190 200
r=-0,7
0
10
20
30
40
50
60
70
80
140 150 160 170 180 190 200
r=-0,95
0
10
20
30
40
50
60
70
80
140 150 160 170 180 190 200
r=-0,999
0
10
20
30
40
50
60
70
80
140 150 160 170 180 190 200
Regresin y Correlacin
MIE Fernando Malagon
Gonzalez
correlaciones positivas
r=0,6
30
40
50
60
70
80
90
100
110
140 150 160 170 180 190 200
r=0,1
30
80
130
180
230
280
330
140 150 160 170 180 190 200
r=0,4
30
40
50
60
70
80
90
100
110
120
130
140 150 160 170 180 190 200
r=0,8
30
40
50
60
70
80
90
100
140 150 160 170 180 190 200
Regresin y Correlacin
MIE Fernando Malagon
Gonzalez
casi perfectas y positivas
r=1
30
40
50
60
70
80
90
100
140 150 160 170 180 190 200
r=0,9
30
40
50
60
70
80
90
100
140 150 160 170 180 190 200
r=0,99
30
40
50
60
70
80
90
100
140 150 160 170 180 190 200
Regresin y Correlacin
MIE Fernando Malagon
Gonzalez
Animacin: Residuos del modelo de
regresin
Regresin y Correlacin
MIE Fernando Malagon
Gonzalez
INFERENCIA SOBRE EL COEFICIENTE DE
CORRELACIN
Distribucin del coeficiente de correlacin muestral r
Para = 0
r es simtrica alrededor de
n . Normal
( n ) es pequeo
2
2
1
~
2
n
n
r
t
r
H
0
: = 0
H
1
: = 0
H
0
: X e Y son independientes
H
1
: X e Y no son independientes
Regresin y Correlacin
MIE Fernando Malagon
Gonzalez
DISTRIBUCIN DE LOS ESTIMADORES DE
o y |
, ~
) (
) 1 , 0 ( ~ ) , ( ~
~
) ( .
. ) 1 , 0 ( ~ ) , ( ~
2
2
2
2
2
n
b
e
i
e
b
b
b
n
a
e
i
i
e a
a
a
t
S
b
entonces
o desconocid es
X x
como N
b
N b
t
S
a
entonces
o desconocid es
X x n
x
con N
a
N a
|
o
o
o
o
|
o |
o
o o o
o
o
o o
Regresin y Correlacin
MIE Fernando Malagon
Gonzalez
VARIANCIA DE LA RECTA DE REGRESIN
i i i
X Y | o + + =
) , 0 ( ~
2
o N con
i
= )
(
i
Y E
i
x b E a E ) ( ) ( +
i
x | o + =
) ( )
(
i i i
y E x y E = + = | o
= + = + =
i i i
bx a X Y | o
i i
x de viciado no estimador un es y | o +
Regresin y Correlacin
MIE Fernando Malagon
Gonzalez
= + = ) ( )
(
i i
bx a V Y V
= + )} ( { X x b Y V
i
) ( ) ( ) ( )
(
2
b V X x Y V Y V
i i
+ =
n
Y V
2
) (
o
=
) (
2 2
i e
V o o = =
+ =
2
2
2
2
) (
. ) ( )
(
X x
X x
n
Y V
i
i i
o o
)
`
+ =
2
2
2
) (
) ( 1
)
(
X x
X x
n
Y V
i
i
i
o
Regresin y Correlacin
MIE Fernando Malagon
Gonzalez
ESTIMACIN DE LA MEDIA DE Y
i
Correspondiente a un valor conocido de x
i
) , . ( ~
e i i
x N Y o | o +
i
i
i
y
y i
y
i i
y
x y
) . (
o
o
| o
=
+
) 1 , 0 ( ~ N
)
(
i y
y S
i
= o
2
~
) (
) (
) . (
=
+
n
y
y i
y
i i
t
S
y
S
x y
i
i
i
| o
)
( .
( .
2 / ; 2 2 / ; 2 i n i y i n i
y S t y y S t y
i
o o
+ < <
Regresin y Correlacin
MIE Fernando Malagon
Gonzalez
ESTIMACION DE UN FUTURO VALOR Y
i
PARA X
i
FIJO
( ) errores los de la propia variacin la
ajuste. de recta la de variacin la
)
`
+ + = + =
2
2
2 2
) (
) ( 1
. )
( ) ( )
X x
X x
n
y V V /x y V(
i
i
i i i
o o
)
`
+ + = =
2
2
2 2
) (
) (
) ( 1
1 . ) /
(
X x
X x
n
S S x y V
i
i
e y i
i
) ( .
) ( .
2 / ; 2 2 / ; 2 i n i i n i
y S t y y y S t y
o o
+ < <