You are on page 1of 73

REGRESION LINEAL

Y CORRELACION

 PALACION PALACIOS, Daniel
 SANCHEZ HUAMAN, Henry
 OSORIO TELLO , Jonathan

 CUBA ATENCIO, Misael
 MINAYA ALAYA ,Luis
Diagramas de dispersión y
curvas de regresión

 El diagrama de dispersión se obtiene representando cada
observación
 (xi, yi) como un punto en el plano cartesiano XY.

El diagrama de dispersión puede presentar
formas diversas:
Ejemplo de las alturas y los
pesos

Consideremos las
observaciones de los pesos
y alturas de un conjunto de
10 personas: el
individuo 1 tiene 161 cm de
altura y 63 kg de peso, el
individuo 2 tiene 152 cm de
altura
y 56 kg de peso, etc., tal
como se ve en la tabla
siguiente:
Regresión Lineal
 La regresión es un método de análisis de los datos de la realidad
económica que sirve para poner en evidencia las relaciones que
existen entre diversas variables.

 Una línea recta denominado regresión lineal, que se usa en el
laboratorio en varias situaciones:
 Para calcular la velocidad en una experiencia de movimiento
rectilíneo .
 Para calcular la constante elástica de un muelle, colocando pesas
en un platillo que cuelga de su extremo libre y midiendo la
deformación del muelle .
 ETC.



Regresión Lineal
 En estadística la regresión lineal o ajuste lineal es un método
matemático que modeliza la relación entre una variable
dependiente Y, las variables independientes Xi y un término
aleatorio ε. Este modelo puede ser expresado como:


 Donde :
 β0 es la intersección o término "constante",

 Las βi son los parámetros respectivos a cada variable
independiente.
 P es el número de parámetros independientes a tener en cuenta
en la regresión. La regresión lineal puede ser contrastada con la
regresión no lineal.

Formulas Empleadas
Regresión Lineal Simple
Ahora asum irem os que si hay una relación de causalidad de la
variable X (causa) hacia la variable Y (efect o). Adem ás, se sabe
que esa relación es de t ipo lineal, dent ro del rango de los dat os.
Est ablecerem os un m odelo para explicar la caiisa (Y) en t érm inos
el efect o (X), del t ipo siguient e:

Donde:
para t = 1,2,..., n
En que B1 y B2 son dos cantidades fijas (parámetros del modelo) y los Ut son
cantidades aleatorias que representan las diferencias entre lo que postula el
modelo a y lo que realmente se observa,

Por esa razón a los e los llamaremos "errores" o "errores aleatorios". Se
asume que tienen valor esperado 0 y desviación standard común σ
Ejemplo 1
Continuemos con el anterior ejemplo de las alturas y pesos de un grupo de diez
personas.
Para determinar la recta de regresión, calculamos la covarianza maestral Sxy, la
varianza maestral y las medias y
Diagrama de
Dispersión
Ejercicio 2:
 Para hacer un modelo de regresión necesitamos lápiz (o bolígrafo),
folios y una calculadora
 elemental. Nada mas.
 En las pr¶acticas era su¯ciente con introducir los datos relativos a x
y a y. Sin embargo, para
 hacer las cosas sin ordenador hay que trabajar un poquito
m¶as. Por ese motivo vamos a hacer
 ejercicios con pocos datos.
X =Media de x
Solución: Y =Media de y
Sxy = Sumatoria de XY =Sxy/n – X*Y
2 2
Sx2= Sumatoria de X =Sx /n-x
Ejercicio 3:
El departamento de personal de una empresa informática dedicada a la introducción de
datos ha llevado a cabo un programa de formación inicial del personal. La tabla siguiente
indica el progreso en pulsaciones por minuto (p.p.m.)
obtenido en mecanografía de ocho estudiantes que siguieron el programa y el
número de semanas que hace que lo siguen:
Diagrama de dispersión:

El diagrama de dispersión nos muestra que la relación entre las dos
variables es lineal con pendiente positiva, de manera que cuantas más
semanas pasan, mayor es la ganancia de velocidad. Por tanto, tiene
sentido buscar la recta de regresión.
A partir de la tabla de cálculos siguiente:
ANALISIS DE
REGRESIóN Y DE
CORRELACIóN
Regresión y Correlación
 Análisis de regresión y correlación
 Relación entre variables
 Ajuste de curvas
 El método de los mínimos cuadrados:
 Relaciones lineales y no lineales
 Error típico de estimación
 Coeficiente de Correlación
Regresión y Correlación
 Recta de regresión y el coeficiente de
correlación lineal
DIAGRAMA DE DISPERSIÓN

CURVA DE APROXIMACIÓN
RELACIÓN LINEAL

RELACIÓN NO LINEAL
Ajuste de curvas
 Diagrama de dispersión
 Curva de aproximación
 Relación lineal
 Relación no lineal
 Curva de ajuste


Ecuaciones de curvas de
aproximación
 Linea recta
 Parábola
 Curva cúbica
 Curva cuártica
 Curva de grado n
 Hipérbola
 Exponencial
 Geométrica

El método de los mínimos cuadrados:
Y=mX+b
COEFICIENTE DE
CORRELACIóN
Medidas de Correlación
 Cualitativa ( observación directa sobre el
diagrama de dispersión)
 Cuantitativa ( dispersión de los datos
alrededor de las curvas o rectas)

¿Qué relación hay entre LxA
de una hoja con su area?
Relación entre LxA y el área de las hojas
del árbol A

16
14
Area de la hoja

12
10
8
6
4
2
0
4 6 8 10 12 14 16 18 20 22 24 26
Largo x Ancho de la hoja
Examina la relación

Relacion entre LxA y el area de las
hojas del arbol A

16
14
xi − x
- +
12 yi − y
Area de la hoja

++
10
8 y
6
4 - - + -
2
0
x
4 6 8 10 12 14 16 18 20 22 24 26

Largo x Ancho de la hoja
Coeficiente de correlación
Si la p e n d ie n t e d e la n
re ct a e s p osit iva
e sp e r a m os q u e : ∑ (x
i =1
i − x )( y i − y ) > 0
n

∑( x i − x ) ( yi − y )
ya que m= i =1
n >0
∑ i
( x − x
i =1
) 2

n

Coe f icie n t e d e
∑ (x i − x )( y i − y )
s xy
corr e la ción r= i =1
=
n n sx s y
∑ (x
i =1
i − x) 2
∑ (y
i =1
i − y) 2
Significado de la
correlación
n n

∑ (x i − x )( y i − y ) ∑ (x
i =1
i − x) 2

r= i =1
=m
n n n

∑ i
( x
i =1
− x ) 2
∑ i
( y − y ) 2

i =1
∑ i
( y
i =1
− y ) 2

El coeficient e de correlación y la
pendient e t ienen el m ism o signo.
r es una m edida de la dependencia
est adíst ica (num érica) lineal de la
variables x, y.
Ejemplos de correlación
r> 0
r cerca de 0

r< 0

No hay relación lineal
Propiedades de r
r > 0 si y solo si m > 0
-1 = < r <= 1
r cerca de 1 indica dependencia lineal
crecient e fuert e
r cerca de 0 indica no hay dependencia
est adíst ica lineal
r cerca de -1 indica dependencia lineal
decrecient e fuert e
Propiedades de r
 x, y pueden estar correlacionadas, pero no
quiere decir que x causa y o que y causa
a x.
 x, y pueden ser dependientes, pero su
coeficiente de correlación puede ser 0:
 Ejemplo:
◦ x = -1, 0, 1 y = x2 r=0
◦ (la dependencia entre x , y NO es lineal)
Dependientes pero no
correlacionadas
Y

1

-1 0 1 X

n u m e r a d or d e r = ( -1 ) . 3 3 + ( 0 ) 0 + ( 1 ) . 3 3 = 0
Coeficiente de correlación
 Es la raíz cuadrada del coeficiente de
determinación:

SSR SST − SSE
r= R = 2
=
SST SST
Referencias
 Mann: Sec. 13. 6, 13.7
◦ probs: 59-67, 75-77, 80, 81,

 Weiss: Sec. 13.4
◦ probs: 75, 77, 79, 82, 85

 Datos en hoja de Excel
Correlacion formula
r=1 (ó 0,99<r<=1) Dependencia funcional directa Exacta

0< r< 1 Dependencia aleatoria directa Muy fuerte r de 0,9 a 0,99
Fuerte r de 0,7 a 0,9
Moderada r de 0,4 a 0,7
Débil r de 0,2 a 0,4
Muy Débil r de 0 a 0,2

r=0 X,Y aleatoriamente Nula
independientes
-1 < r < 0 Dependencia aleatoria inversa Muy Débil r de -0,2 a 0
entre X, Y Débil r de -0,4 a -0,2
Moderada r de -0,7 a -0,4
Fuerte r de -0,9 a -0,7
Muy Fuerte r de -0,99 a -0,9

r=-1 (ó -1<=r < -0,99) Dependencia funcional Inversa Exacta
Ejercicio
Matemáticas 2 3 4 4 5 6 6 7 7 8 10 10

Física 1 3 2 4 4 4 6 4 6 7 9 10

xi yi x i ·y i x i 2 yi2

2 1 2 4 1
3 3 9 9 9
4 2 8 16 4
4 4 16 16 16
5 4 20 25 16
6 4 24 36 16
6 6 36 36 36
7 4 28 49 16
7 6 42 49 36
8 7 56 64 49
10 9 90 100 81
10 10 100 100 100
72 60 431 504 380
ANáLISIS DE DATOS
EN SPSS
Datos Iniciales
Notas C.Int
Horas
Partimos de la información obtenida de una
muestra de 10 elementos de una 8 120 4
determinada distribución. Las variables
7 125 3
sometidas a observación son:
6 100 3
• Notas Obtenidas
8 115 4
• Coeficiente de Inteligencia
7 120 4
• Horas de Estudio
4 95 2
3 80 2
1 80 1
6 100 3
5 90 3
Objetivos Iniciales:

¿ Entendemos que las notas que saca un estudiante
depende de las horas de estudio de dedicación a la
asignatura o del Coeficiente de Inteligencia que tenga ? Ó
¿ de Ambas variables ?
A partir de aquí nos
planteamos, en primer
lugar, realizar un
análisis de regresión.

r el análisis por el método introducir las dos variables simultáneamente
Matriz de Correlación

Correlaciones
 Planteamiento de que
NOTAS CI HORAS
existe o no asociación
Correlación NOTAS 1,000 ,900 ,959 lineal entre las
de Pearson CI ,900 1,000 ,819 variables
HORAS ,959 ,819 1,000
Sig. NOTAS , ,000 ,000  Ho : el coeficiente de
(unilateral) CI ,000 , ,002
HORAS ,000 ,002 , correlación lineal es
N NOTAS 10 10 10 cero.
CI 10 10 10
HORAS 10 10 10
 Si el p-valor asociado es
menor que α σ ε
ρ ε χ ηαζ α λ α
η ι π . Νυ λ α

b
Variables introducidas/eliminadas

Variables Variables
Nos indica las variables Modelo introducidas eliminadas Método
1 HORAS, CIa , Introducir
introducidas y el método utilizado a. Todas las variables solicitadas introducidas
b. Variable dependiente: NOTAS
Análisis de la Varianza
Raíz cuadrada de la
Resumen del modelo varianza residual
R Error típ.
R cuadrado de la
Modelo R cuadrado corregida estimación
1 ,979a ,959 ,947 ,5244
a. Variables predictoras: (Constante), HORAS, CI
Coeficiente de determinación
corregido. Depende del numero
de variables y numero de
K-1 SCR= Suma de los cuadrados de la regresión elementos.
n-k

ANOVAb

Suma de Media
Modelo cuadrados gl cuadrática F Sig. SCR /(k − 1)
1 Regresión 44,575 2 22,287 81,036 ,000a F=
Residual 1,925 7 ,275 SCE /( n − k )
Total 46,500 9
La Hipótesis nula: La ecuación de
a. Variables predictoras: (Constante), HORAS, CI regresión muestral no explica un
b. Variable dependiente: NOTAS porcentaje significativo de la varianza de
la variable

Cuanto mayor sea F mas se
n-1 SCE= Suma de los cuadrados de los errores explica que se queda por
explicar
Coeficientes Notas = −3,81 + 1,53horas + 0,047C.I

Coeficientesa

Coeficient
es
Coeficientes no estandari
estandarizados zados
Modelo
1 (Constante)
B
-3,815
Error típ.
1,261
Beta t
-3,025
Sig.
,019
Al igual que
CI 4,731E-02 ,018 ,348 2,594 ,036 en otros
HORAS 1,540
a. Variable dependiente: NOTAS
,307 ,674 5,023 ,002
contrastes se
rechazara la
Coeficientes de regresión estandarizado variable si se
Coeficientes Valor t acepta que el
B/error típico coeficiente es
β = β1
Sx Cuanto mayor sea igual a cero.
Sy mas se explica de la
variable dependiente
Ganancias
R2 = 96 %
4%

COEF. INTEL
15% 4%
81%
77%

HORAS
92%

¿Que aporta cada una de los regresores a
la explicación de la variable dependiente?
Ganancias

Mét odo Int roducir por bloques 1º horas, 2º C.Int .
Resumen del modelo

R Error típ.
R cuadrado de la
Modelo R cuadrado corregida estimación
1 ,959a ,919 ,909 ,6870
2 ,979b ,959 ,947 ,5244
a. Variables predictoras: (Constante), HORAS
b. Variables predictoras: (Constante), HORAS, CI

ANOVAc

Suma de Media
Modelo cuadrados gl cuadrática F Sig.
1 Regresión 42,725 1 42,725 90,536 ,000a
Residual 3,775 8 ,472
Total 46,500 9
2 Regresión 44,575 2 22,287 81,036 ,000b
Residual 1,925 7 ,275
Total 46,500 9
a. Variables predictoras: (Constante), HORAS
b. Variables predictoras: (Constante), HORAS, CI
c. Variable dependiente: NOTAS

Coeficientesa

Coeficient
es
Coeficientes no estandari
estandarizados zados
Modelo B Error típ. Beta t Sig.
1 (Constante) -,854 ,702 -1,216 ,259
HORAS 2,191 ,230 ,959 9,515 ,000
2 (Constante) -3,815 1,261 -3,025 ,019
HORAS 1,540 ,307 ,674 5,023 ,002
CI 4,731E-02 ,018 ,348 2,594 ,036
a. Variable dependiente: NOTAS
Mét odo Int roducir por bloques 1º C.Int , 2º Horas.
Resumen del modelo

R Error típ.
R cuadrado de la
Modelo R cuadrado corregida estimación
1 ,900a ,809 ,786 1,0527
2 ,979b ,959 ,947 ,5244
a. Variables predictoras: (Constante), CI
b. Variables predictoras: (Constante), CI, HORAS

ANOVAc

Suma de Media
Modelo cuadrados gl cuadrática F Sig.
1 Regresión 37,634 1 37,634 33,960 ,000a
Residual 8,866 8 1,108
Total 46,500 9
2 Regresión 44,575 2 22,287 81,036 ,000b
Residual 1,925 7 ,275
Total 46,500 9
a. Variables predictoras: (Constante), CI
b. Variables predictoras: (Constante), CI, HORAS
c. Variable dependiente: NOTAS

Coeficientesa

Coeficient
es
Coeficientes no estandari
estandarizados zados
Modelo B Error típ. Beta t Sig.
1 (Constante) -7,045 2,178 -3,234 ,012
CI ,122 ,021 ,900 5,827 ,000
2 (Constante) -3,815 1,261 -3,025 ,019
CI 4,731E-02 ,018 ,348 2,594 ,036
HORAS 1,540 ,307 ,674 5,023 ,002
a. Variable dependiente: NOTAS
Método por Pasos
• Método que se utiliza para la obtención semiautomatica del
modelo de regresión. A través de la selección de cada una de
las variables
• Se irán introduciendo las variables a partir de aquella que
tenga mayor correlación.
• Se establece criterios de entrada y salida
• PIN probabilidad de entrada
• POUT probabilidad de salida (siempre es mayor que la
probabilidad de entrada
• El criterio de aceptación de la variable es que se rechace la
hipótesis nula de que el coeficiente sea igual a cero
e s u m e n d e lm o

R c E u ro a rtíp d .d a
r ed
R c c u e M oR a s o re d tim d g a
r a e id d c lo a o ió
,
9 ,
9 5 ,6 ,9 1 19 8 0 9 a 7 9 0

Método por Pasos ,9 ,9 7 ,5 ,9 5 29 2 4 9 b 4 7 4
a V . a ria b le
b V . a ria b le

d u c id a a s /e lim in a d a s

ria a b ria le b s le s C o e fic ie a n te s
uM in co a iddM d aeé a slo
t s d o
1 P o rp a C s o o e s ic
f ( e
c i r n
ite r t
io
H O R, A S
< = ,
0 5 0 ,P e ro s b a b
2 CP ob o e rp fic a e ie s s n o ta t s n
e s (c d n rite a o rio ri
le C s I e , x c l
u id a s
e < s = t
a ,0 n 5 d z 0 a a ,P riz d ro a o b d s a o b s
a VE . as riata bd leís Mdtic oeo EB dps Bro eed e rtíp lone ta. St d ig ie . n
C c o o re lin la e -,8 c 1 a,75 ió (C -1 lid0 4n o ,2 a 2 n ,21 d s 56 ta 9 n te
taM do edT pS t neo aig 2 trolole rc. ,1 ra ia ,29 Hn 9l ,931 Oc ,5 5 0 Ria ,01 9 A 05 S 0
5 41 C
,0
9 8 I3
47, a 60 ,3 -3 0 2 1,8 9 2 ,2 1 (C -3 65 o ,0 1 n ,02 s 15 ta 9 n te
a V . a ria b 1 le 5
, s 3
, 4 H p 5 6
, 00 O re,0 7 7 R ,d 02 4 A 0ic3 S 2
to ra s
b V 4 . a 7 , ria 3 b 1 le E d ,0-0 C e2 ,312 I p,5 4 8 e ,09 8 3n4 d6 ie n
a V . a ria b le d e

Indicador de la colinealidad Tolerancia = ( 1-R2)
existente
entre las variables. Si el valor de la tolerancia
es próximo a 0, la variable
será casi una combinación
lineal de las restantes.