You are on page 1of 28

24/10/2013 10:37:34

p.m.
MIE FERNANDO MALAGN GONZLEZ 1
MIE Fernando Malagn Gonzlez
REGRESIN LINEAL Y CORRELACIN
ANLISIS DE CORRELACIN
24/10/2013 10:37:35
p.m.
MIE FERNANDO MALAGN GONZLEZ 2
El anlisis de correlacin es un grupo de tcnicas estadsticas
usadas para medir la fuerza de la asociacin entre dos
variables.
Un diagrama de dispersin es una grfica que representa la
relacin entre dos variables.
La variable dependiente es la variable que se predice o calcula.
La variable independiente proporciona las bases para el
clculo. Es la variable de prediccin.
EL COEFICIENTE DE CORRELACIN, R
24/10/2013 10:37:35
p.m.
MIE FERNANDO MALAGN GONZLEZ 3
El coeficiente de correlacin (r) es una medida de la intensidad
de la relacin lineal entre dos variables.
Requiere datos de nivel de razn.
Puede tomar cualquier valor de -1.00 a 1.00.
Los valores de -1.00 o 1.00 indican la correlacin perfecta y
fuerte.
Los valores cerca de 0.0 indican la correlacin dbil.
Los valores negativos indican una relacin inversa y los valores
positivos indican una relacin directa.
CORRELACIN NEGATIVA PERFECTA
24/10/2013 10:37:35
p.m.
MIE FERNANDO MALAGN GONZLEZ 4
10
9
8
7
6
5
4
3
2
1
0
0 1 2 3 4 5 6 7 8 9 10
X
Y
CORRELACIN POSITIVA PERFECTA
24/10/2013 10:37:35
p.m.
MIE FERNANDO MALAGN GONZLEZ 5
10
9
8
7
6
5
4
3
2
1
0
0 1 2 3 4 5 6 7 8 9 10
X
Y
CORRELACIN CERO
24/10/2013 10:37:35
p.m.
MIE FERNANDO MALAGN GONZLEZ 6
10
9
8
7
6
5
4
3
2
1
0
0 1 2 3 4 5 6 7 8 9 10
Y
X
CORRELACIN POSITIVA FUERTE
24/10/2013 10:37:36
p.m.
MIE FERNANDO MALAGN GONZLEZ 7
Y
X
10
9
8
7
6
5
4
3
2
1
0
0 1 2 3 4 5 6 7 8 9 10
FRMULA PARA R
Calculamos el coeficiente de correlacin de las frmulas
siguientes.
| | ( ) ( ) | |
2
2 2 2
) ( ) (
) )( ( ) (
) 1 (
) )( (
Y Y n X X n
Y X XY n
s s n
Y Y X X
r
y x
E E E E
E E E
=

E
=
MIE FERNANDO MALAGN GONZLEZ 8
24/10/2013 10:37:36
p.m.
COEFICIENTE DE DETERMINACIN
24/10/2013 10:37:36
p.m.
MIE FERNANDO MALAGN GONZLEZ 9
El coeficiente de determinacin (r
2
) es la proporcin de la
variacin total en la variable dependiente (y) que se explica por
la variacin en la variable independiente (x).
Es el cuadrado del coeficiente de correlacin.
Su rango es de 0 a 1.
No da ninguna informacin sobre la direccin de la relacin
entre las variables.

EJEMPLO 1
24/10/2013 10:37:36
p.m.
MIE FERNANDO MALAGN GONZLEZ 10
El rector de la Universidad Tecnolgica del Centro de Veracruz,
se ocupa de estudiar el costo de los libros de texto. l cree que
hay una relacin entre el nmero de pginas en el texto y el
precio de venta del libro. Para proporcionar una prueba,
selecciona una muestra de ocho libros de texto actualmente en
venta en la librera. Dibuje un diagrama de dispersin.
Compruebe el coeficiente de correlacin.
EJEMPLO 1
24/10/2013 10:37:36
p.m.
MIE FERNANDO MALAGN GONZLEZ 11
Libro Pginas Precio ($)
Tribologa 500 84
Algebra 700 75
Estadstica Industrial 800 99
Ingles 600 72
Propiedades de Fluidos 400 69
Electrnica 500 81
Plastilina avanzada 600 63
Clculo 800 93

EJEMPLO 1
24/10/2013 10:37:36
p.m.
MIE FERNANDO MALAGN GONZLEZ 12
400 500 600 700 800
60
70
80
90
100
Page
Scatter Diagram of Number of Pages and Selling Price of Text
Price ($)
EJEMPLO 1
24/10/2013 10:37:36
p.m.
MIE FERNANDO MALAGN GONZLEZ 13
Libro Pginas Precio ($)
X Y XY X
2
Y
2

Tribologa 500 84 42,000 250,000 7,056
lgebra 700 75 52,500 490,000 5,625
Estadstica Industrial 800 99 79,200 640,000 9,801
Ingles 600 72 43,200 360,000 5,184
Propiedades de Fluidos 400 69 27,600 160,000 4,761
Electrnica 500 81 40,500 250,000 6,561
Plastilina avanzada 600 63 37,800 360,000 3,969
Clculo 800 93 74,400 640,000 8,649
Total 4,900 636 397,200 3,150,000 51,606

EJEMPLO 1
24/10/2013 10:37:36
p.m.
MIE FERNANDO MALAGN GONZLEZ 14
| | ( ) ( ) | |
| || |
614 . 0
) 636 ( ) 606 , 51 ( 8 ) 900 , 4 ( 000 , 150 , 3 ( 8
) 636 )( 900 , 4 ( ) 200 , 397 ( 8
) ( ) (
) )( ( ) (
2 2
2
2 2 2
=


=
E E E E
E E E
=
Y Y n X X n
Y X XY n
r
EJEMPLO 1
24/10/2013 10:37:36
p.m.
MIE FERNANDO MALAGN GONZLEZ 15
La correlacin entre el nmero de pginas y el precio de venta
del libro es 0.614. Esto indica una asociacin moderada entre las
variables. Pruebe la hiptesis de que no hay correlacin en la
poblacin. Utilice un nivel de la significancia del .02.
Paso 1: H
0
: La correlacin en la poblacin es cero.
H
1
: La correlacin en la poblacin no es cero.
Paso 2: H
0
es rechazada si t>3.143 o si t<-3.143.
Hay 6 grados de libertad, encontrados cerca.
n 2 = 8 2 = 6.
EJEMPLO 1
Paso 3: Para encontrar el valor del estadstico de prueba,
utilizamos:



Paso 4: H
0
no se rechaza. No podemos rechazar la
hiptesis de que no hay correlacin en la poblacin. La
cantidad de asociacin puede ser debido al azar.

905 . 1
) 614 (. 1
2 8 614 .
1
2
2 2
=

=
r
n r
t
MIE FERNANDO MALAGN GONZLEZ 16
24/10/2013 10:37:36
p.m.
ANLISIS DE REGRESIN
24/10/2013 10:37:36
p.m.
MIE FERNANDO MALAGN GONZLEZ 17
En anlisis de regresin utilizamos la variable independiente (X)
para estimar la variable dependiente (Y).
La relacin entre las variables es lineal.
Ambas variables deben ser por lo menos escala del intervalo.
El criterio de mnimos cuadrados se utiliza para determinar la
ecuacin. Este es el trmino (Y Y')
2
ANLISIS DE REGRESIN
24/10/2013 10:37:36
p.m.
MIE FERNANDO MALAGN GONZLEZ 18
La ecuacin de regresin es: Y' = a + bX, donde:
Y' es el valor pronosticado de la variable Y para un valor
seleccionado de X.
a es la ordenada de la interseccin con el eje Y cuando X = 0. Es
el valor estimado de Y cuando X=0
b es la pendiente de la recta, o el cambio promedio en Y' para
cada cambio de una unidad en X.
el principio de mnimos cuadrados se utiliza para obtener a y b.
ANLISIS DE REGRESIN
El principio de mnimos cuadrados se utiliza para obtener a y b.
Las ecuaciones para determinar a y b son:

b
n XY X Y
n X X
a
Y
n
b
X
n
=

=
( ) ( )( )
( ) ( )
E E E
E E
E E
2 2
MIE FERNANDO MALAGN GONZLEZ 19
24/10/2013 10:37:36
p.m.
EJEMPLO 2
Desarrolle una ecuacin de regresin para la informacin dada en
el Ejemplo 1 que se puede utilizar para estimar el precio de venta
basado en el nmero de pginas.

05143 .
) 900 , 4 ( ) 000 , 150 , 3 ( 8
) 636 )( 900 , 4 ( ) 200 , 397 ( 8
2
=

= b
0 . 48
8
900 , 4
05143 . 0
8
636
= = a
MIE FERNANDO MALAGN GONZLEZ 20
24/10/2013 10:37:36
p.m.
EJEMPLO 2
24/10/2013 10:37:36
p.m.
MIE FERNANDO MALAGN GONZLEZ 21
La ecuacin de regresin es:
Y' = 48.0 + .05143X
La ecuacin cruza al eje Y en $48. Un libro sin las pginas
costara $48.
La pendiente de la lnea es .05143. El costo de cada pgina
adicional es de cinco cntimos.
El signo del valor de b y el signo del valor de r sern siempre
iguales.


EJEMPLO 2
Podemos utilizar la ecuacin de regresin para
estimar valores de Y.
El precio de venta estimado de un libro de 800 pginas es $89.14,
encontrado por

14 . 89 ) 800 ( 05143 . 0 0 . 48
05143 . 0 0 . 48
= + =
+ =
'
X Y
MIE FERNANDO MALAGN GONZLEZ 22
24/10/2013 10:37:36
p.m.
EL ERROR ESTNDAR DE ESTIMACIN
El error estndar de estimacin mide la dispersin de los
valores observados alrededor de la lnea de regresin.
Las frmulas que se utilizan para comprobar el error estndar
son:

2
2
) (
2
2
.

E E E
=

'
E
=
n
XY b Y a Y
n
Y Y
s
x y
MIE FERNANDO MALAGN GONZLEZ 23
24/10/2013 10:37:36
p.m.
EJEMPLO 3
Encuentre el error estndar de estimacin para el
problema que implica el nmero de pginas en un libro
y el precio de venta.


408 . 10
2 8
) 200 , 397 ( 05143 . 0 ) 636 ( 48 606 , 51
2
2
.
=


=

E E E
=
n
XY b Y a Y
s
x y
MIE FERNANDO MALAGN GONZLEZ 24
24/10/2013 10:37:37
p.m.
SUPOSICIONES SUBYACENTES EN EL
ANLISIS DE REGRESIN LINEAL
24/10/2013 10:37:37
p.m.
MIE FERNANDO MALAGN GONZLEZ 25
Para cada valor de X, hay un grupo de valores de Y, y estos
valores de Y se distribuyen normalmente.
Las medias de estas distribuciones normales de valores Y, caen
todas en la recta de regresin.
Las desviaciones estndar de estas distribuciones normales son
iguales.
Los valores de Y son estadsticamente independendientes. Esto
significa que en la seleccin de una muestra, los valores de Y
elegidos para un valor particular de X no dependen de los valores
de Y de ningn otro valor de X.
INTERVALO DE CONFIANZA
El intervalo de confianza para el valor medio de Y para un valor
dado de X est dado por:

31 . 15 14 . 89
8
) 4900 (
000 , 150 , 3
) 5 . 612 800 (
8
1
) 408 . 10 ( 447 . 2 14 . 89
) (
) ( 1
2
2
2
2
2
.

+
E
E

+
'
n
X
X
X X
n
ts Y
x y
MIE FERNANDO MALAGN GONZLEZ 26
24/10/2013 10:37:37
p.m.
INTERVALO DE PREDICCIN
El intervalo de prediccin para un valor individual de Y para un
valor dado de X se da por:

72 . 29 14 . 89
8
) 4900 (
000 , 150 , 3
) 5 . 612 800 (
8
1
1 ) 408 . 10 ( 447 . 2 14 . 89
) (
) ( 1
1
2
2
2
2
2
.

+ +
E
E

+ +
'
n
X
X
X X
n
ts Y
x y
MIE FERNANDO MALAGN GONZLEZ 27
24/10/2013 10:37:37
p.m.
EJEMPLO 3
24/10/2013 10:37:37
p.m.
MIE FERNANDO MALAGN GONZLEZ 28
Resumir los resultados:
El precio de venta estimado para un libro con 800 pginas es
$89.14.
El error estndar de estimacin es $10.41.
El intervalo de confianza de 95% para todos los libros con 800
pginas es $89.14+-$15.31. Esto significa que los lmites estn
entre $73.83 y $104.45.
El intervalo de prediccin de 95% para un libro particular con 800
pginas es $89.14+-$29.72. Esto significa que los lmites estn
entre $59.42 y $118.86.