You are on page 1of 32

I.

Introduccin
II. Formulacin del modelo
III. Representacin de la recta y el plano de regresin
IV. Supuestos del modelo
V. Estimacin de parmetros
VI. Ajuste global del modelo de regresin
VII. Significacin estadstica de los coeficientes de
regresin
VIII. Ajuste del modelo de regresin mediante el proceso
de modelado estadstico
IX. Ejemplo


Los Modelos de Regresin Lineal
TEMA 8
El Modelo de Regresin Lineal

Metodologa de la Investigacin y Estadstica II
Grado en Psicologa-Universidad de Mlaga
Grupos A y B: M Dolores Lpez Montiel
Grupos C y D: Agustn Wallace Ruiz


I. Introduccin
II. Formulacin del modelo
III. Representacin de la recta y el plano de regresin
IV. Supuestos del modelo
V. Estimacin de parmetros
VI. Ajuste global del modelo de regresin
VII. Significacin estadstica de los coeficientes de
regresin
VIII. Ejemplo


El Modelo de Regresin Lineal
Metodologa de la Investigacin y Estadstica II
Se entiende por regresin un procedimiento de anlisis de datos
en el que se pretende estimar y/o realizar predicciones de:

X
1

Y
X
3

X
2

VD
(explicada, predicha, regresada,
respuesta o salida)
VIs
(explicativas,
predictoras,
regresoras, de control
o de entrada)
cuyos valores se
suponen conocidos y
fijos
Introduccin
Metodologa de la Investigacin y Estadstica II
Introduccin
MODELOS DE REGRESIN
LINEAL NO LINEAL
CON UN PREDICTOR
CONTINUO
RLS
CON MLTIPLES
PREDICTORES
RLM
CONTINUOS
CATEGRICOS
TRMINOS DE INTERACCIN
BINARIOS
POLITMICOS
Veremos el MR con una sola VI de
naturaleza continua y un avance de
la RLM con el mismo tipo de
variables
Metodologa de la Investigacin y Estadstica II
Formulacin del modelo
Regresin simple Regresin mltiple
i i 1 0 i
X Y c | | + + =
i p p i
X X X Y c | | | | + + + + + = ...
2 2 1 1 0
i p p 2 2 1 1 0 i
e X b ... X b X b b Y

+ + + + + =
Componente aleatorio
Componente sistemtico
Metodologa de la Investigacin y Estadstica II
No es una variable estadstica real, es un modelo matemtico.
Dado un valor de la/s variable/s X, el modelo suministra una
prediccin .

La constante que representa el punto de corte de la recta con el
eje de ordenadas, o el plano de regresin tridimensional en la RM.

La pendiente o coeficiente de regresin que representa el
cambio esperado en la variable de respuesta por cada unidad de
cambio en la variable independiente.

Las pendientes del plano de regresin respecto a las variables
independientes que ponderan, manteniendo las otras constantes.

Los valores observados de las p variables independientes

Componente aleatorio del modelo


0
b
1
b
p 2 1
b ,..., b , b
i i i
Y

Y e =
ip 2 i 1 i
X , , X , X
i
Y

i 1 0 i
X b b Y

+ =
p p 2 2 1 1 0 i
X b ... X b X b b Y

+ + + + =
Formulacin del modelo
Metodologa de la Investigacin y Estadstica II
Representacin de la recta y el plano de regresin
b
0
b
1
b
0
b
1
b
2
i 1 0 i
X b b Y

+ =
p p 2 2 1 1 0 i
X b ... X b X b b Y

+ + + + =
e
i
(Y
i

i
)
e
i
(Y
i

i
)
Nube:
sujeto 1 (altura=171, peso=67)
sujeto 2 (altura=175, peso=77)
sujeto 3 (altura=178, peso=80)

Puntuaciones (X
i
, Y
i
)
Recta:
Puntuaciones (X
i
,
i
)
Nube:
sujeto 1 (altura, peso
tamao pie)

Puntuaciones (X
i1
,X
i2,
Y
i
)
Plano:
Puntuaciones (X
i1
,X
i2
,
i
)
Metodologa de la Investigacin y Estadstica II
Supuestos del modelo

1. Linealidad Se asume relacin lineal entre X e Y.
2. Homoscedasticidad Varianza constante de la variable Y para cada valor
de la variable X.
3. Normalidad Distribucin normal de la variable Y para cada valor de la
variable X.
4. Independencia Las observaciones Y
i
se registran en unidades
experimentales independientes entre s.
5. Ausencia de Multicolinealidad (regresin mltiple) No debe darse una
relacin lineal exacta entre cualquier subconjunto de variables explicativas
X
i
(perfecta multicolinealidad).

Desde el punto de vista del error aleatorio, se asume que los errores no
estn correlacionados y se distribuyen segn la curva normal con media 0 y
varianza constante.

Metodologa de la Investigacin y Estadstica II
Evaluacin de los supuestos del modelo
Anlisis
Exploratorio de la
VD
Anlisis de
residuales
Anlisis grfico

Grfico de dispersin
Histograma
Anlisis numrico

Kolmogorov-Smirnov
Shapiro-Wilks
Anlisis grfico

G. dispersin con
residuos y valores
pronsticados

Histograma con
residuos tipificados

G.Probabilidad normal
(P-P)
Anlisis numrico
Observaciones
inusuales de X:
Pesos de Pronstico

Influencia de las
observaciones atpicas
o influyentes sobre los
coeficientes de
regresin:
Distancias de Cook

Multicolinealidad:
Tolerancia y VIF
Autovalores
ndice de condicin
Correlacin parcial y
semiparcial
Metodologa de la Investigacin y Estadstica II
Datos lineales Datos no lineales
Datos homoscedsticos
Varianza constante
Datos heteroscedsticos
Varianza creciente
Ejemplos de evaluacin del modelo
Relacin lineal Relacin no lineal
Metodologa de la Investigacin y Estadstica II

e
i
2
= (Y
i

i
)
2

Estimacin de los parmetros del modelo
La estimacin de los parmetros del modelo (b
o y
b
1
)

se efecta, siempre
que no se vulneren los supuestos anteriores, a partir de la Estimacin por
Mnimos Cuadrados Ordinarios (MCO).

Mediante este procedimiento se obtienen los parmetros del modelo,
reduciendo al mnimo la suma de los cuadrados de los residuales:

Solucin

i
= b
0
+ b
1
X
i
Metodologa de la Investigacin y Estadstica II
Ajuste Global del modelo

Una vez formulado el modelo de regresin lineal, hay que valorar el ajuste
global del modelo, es decir, el poder explicativo de la o las variables
predictoras en conjunto sobre Y.

Un modelo se ajustar bien a los datos cuando la proporcin de la varianza
total de la variable Y que explica es estadsticamente significativa.

A travs del ANOVA se descompone la varianza del modelo de regresin:






SCT = SCR + SCE
Metodologa de la Investigacin y Estadstica II
Indicadores
El coeficiente de determinacin, R
2
representa la proporcin de la varianza
de la variable Y que resulta explicada por el modelo, y se obtiene como:



siendo SCR = y SCT = SCR + SCE

R
2
es una cantidad adimensional que slo puede tomar valores entre 0 y 1

0 R
2
1

Cuanto ms se aproxime a 1, mayor ser el poder predictivo del modelo







Ajuste Global del modelo
( )

2
Y Y

R
2
= SCR / SCT
Metodologa de la Investigacin y Estadstica II
El coeficiente de determinacin ajustado corrige la
dependencia de R
2
del nmero de observaciones,Y
i
, o del
nmero de predictores (tamao muestral pequeo o nmero
elevado de predictores), expresndose del siguiente modo:

= 1 (1 - R
2
) (N - 1) / (N p)

Siendo p el nmero de parmetros incluidos en el modelo.


2
~
R
Indicadores
Ajuste Global del modelo
Metodologa de la Investigacin y Estadstica II

Hiptesis:


Estadstico: F = MCR / MCE ~ F (p, n-p-1)

El nivel de significacin estadstica de R
2
se comprueba comparando el valor-
p asociado a F , con el nivel de significacin () predeterminado.

Decisin: Si p se rechaza H
0



Se comprueba que el modelo de regresin explica una parte significativa de la
variabilidad total de la VD
Significacin estadstica del modelo

Ajuste Global del modelo
o
F
0
H
0
:
1
=
2
=
p
=0
H
1
: al menos un parmetro
es no 0,
j
0.

F
o,v ,v

1 2

Hiptesis:




Estadstico: t de Student (el valor estimado del parmetro dividido por su
error estndar), con distribucin t de Student (n-p-1).

El nivel de significacin estadstica de t se obtiene comparando
el valor-p asociado al estadstico con el nivel de significacin =
0.05.

Decisin: Si p p /2, se rechaza H
0


Significacin de los coeficientes de regresin
Prueba de dos colas
H
0
:
j
=0
H
1
:
j
0
Prueba de una cola
H
0
:
j
=0
H
1
:
j
>0
j
<0
Metodologa de la Investigacin y Estadstica II
Se calcula el intervalo de confianza de b
j
, de manera que sus lmites indiquen
los valores entre los que puede oscilar el verdadero valor del coeficiente en la
poblacin, su efecto real atendiendo a determinados intervalos de confianza.

De este modo se complementa la informacin de la prueba de
significacin, proporcionando los valores necesarios para la
interpretacin de la magnitud del efecto de X sobre Y.

Se calcula mediante: b t (o/2, g.l.) s
b

Donde:
t es el valor de t tabulado para o/2, con los grados de libertad asociados a la SCE
(g.l. de la Suma de Cuadrados Error del ANOVA)
s
b
el error estndar de b.

Intervalos de confianza

Significacin de los coeficientes de regresin
Metodologa de la Investigacin y Estadstica II
Caso Vocabulario Inteligencia Comprensin
1 28 23 29
2 27 30 30
3 14 18 10
4 23 23 21
5 24 19 24
6 14 22 11
7 14 26 12
8 18 20 8
9 14 19 7
10 10 18 5
11 5 12 3
12 14 17 7
13 30 29 28
14 18 22 12
15 15 20 9
16 20 25 20
17 16 15 16
18 8 11 2
19 22 33 28
20 18 28 11
21 7 24 4
22 12 20 7
23 9 13 5
24 8 14 3

Objetivo: predecir la
comprensin verbal, a partir de la
puntuacin en un test de
vocabulario y de inteligencia
general.

VD: Comprensin verbal
VI: Vocabulario, Inteligencia
general.

Ejemplo
Adaptacin de ejemplo tomado de:

Ato, M. y Vallejo, G. (2007). Diseos
experimentales en Psicologa
Captulo 2. Modelos de regresin simple y
mltiple, pg. 60.

Metodologa de la Investigacin y Estadstica II
El Modelo de Regresin Lineal Simple. Estimacin
de parmetros
Se rechaza la H
0
:
1
=0, [t (23) = 12,678; p ]
Estimadores de los parmetros del MRLS (Vocabulario)
Intervalo de confianza al
95%.
Parmetro B Error tp. t Significacin
Lmite inferior
Lmite
superior
Interseccin
-7,213 1,727 -4,176 0,000 -10,795 -3,631
Vocabulario
1,250 ,099 12,678 0,000 1,046 1,455

Probabilidad bilateral
asociada segn la
distribucin t de Student
Pruebas bilaterales
H
0
:
0
=0
H
1
:
0
0
t=b
0
/S
0

H
0
:
1
=0
H
1
:
1
0
t=b
1
/S
1
Lmites del IC
del 95%
en torno a
b
0
y b
1



Metodologa de la Investigacin y Estadstica II
Regresin lineal
5 10 15 20 25
Vocabulario
-10
0
10
20
C
o
m
p
r
e
n
s
i

n

V
e
r
b
a
l

1Comprensin Verbal = -7,21 + 1,25 * Vocabulario


R-cuadrado = 0,88
Rect a de regr esin y est imador es del MA (Vocabular io)
= -7,213 + 1,252 X





Pendiente de la recta, el cambio en
unidades de la variable Y por unidad
de cambio en la variable X.

Por cada unidad de aumento en
Vocabulario existe un aumento de
1,252 puntos en la Comprensin
Verbal de los nios.
Punto donde la recta intercepta con
el eje de ordenadas
Ecuacin predictiva: = -7,213 + 1,252 X

Si X=22 (caso 19), el valor pronosticado es = -7,213 + (1,252)(22)=20,263


(X
i
,Y
i
).
El Modelo de Regresin Lineal Simple. Recta de
regresin
Metodologa de la Investigacin y Estadstica II
Variable dependiente: Comprensin Verbal
Fuente
Suma de
cuadrados
tipo I gl
Media
cuadrtica F Significacin
Modelo
1702,917
a
1 1702,917 160,733 0,000
Vocabulario
1702,917 1 1702,917 160,733 0,000
Residual
233,083 22 10,595
Total
1936,000 23
a
R cuadrado = 0,880 (R cuadrado corregida = 0,874)
Anlisis de la varianza del MRLS (Vocabulario)
SCM=1702,917
gl
M
=p=1
SCE=233,083
gl
R
=n-p-1=22
SCT=1936
gl
T
=n-1=23
=
+
Es igual a la SC explicada por Vocabulario, ya que el modelo slo tiene un predictor
El Modelo de Regresin Lineal Simple.
Descomposicin de la varianza
Metodologa de la Investigacin y Estadstica II
Variable dependiente: Comprensin Verbal
Fuente
Suma de
cuadrados
tipo I gl
Media
cuadrtica F Significacin
Modelo
1702,917
a
1 1702,917 160,733 0,000
Vocabulario
1702,917 1 1702,917 160,733 0,000
Residual
233,083 22 10,595
Total
1936,000 23
a

R
2
= 0,880 (R
2
corregida = 0,874)
Anlisis de la varianza del MRLS (Vocabulario)
Proporcin de varianza de la VD
que resulta explicada por el modelo
con el predictor X
1
R
2
=1-SCE/SCT = 1- 233,083/1936
Interpretacin:
El 88% de la varianza de la Comp. Verbal
resulta explicada por el predictor
Vocabulario
Estadstico para
comprobar la significacin
estadstica
H
0
:
1
= 0
H
1
:
1
0

[F (1,22)=160,733; p=0,000 ]
La proporcin de varianza explicada es
e. significativa
Decisin: Se rechaza H
0
p
El Modelo de Regresin Lineal Simple. Ajuste Global
Metodologa de la Investigacin y Estadstica II
Del Modelo de Regresin Simple al Mltiple.
Estimacin de parmetros
Estimadores de los parmetros del MRLM (Vocabulario, Inteligencia)
b
0
= -9,246 b
1
= 1,149 b
2
= 0,160

Intervalo de confianza al
95%.
Parmetro B Error tp. t Significacin
Lmite inferior
Lmite
superior
Interseccin
-9,246 2,523 -3,664 0,001 -14,494 -3,998
Vocabulario
1,149 0,135 8,526 0,000 0,869 1,429
Inteligencia
0,176 0,160 1,100 0,284 -0,157 0,509

Metodologa de la Investigacin y Estadstica II
= -9,246 + 1,149 X
1
+ 0,176X
2


Regresin lineal
Punto donde el hiperplano corta el eje de la VD.
Valor de Y cuando X
1
=X
2
=0
Pendiente del plano respecto de X
1
,
suponiendo constante X
2.

Pendiente del plano respecto de X
2
,
suponiendo constante X
1
.




El Modelo de Regresin Lineal Mltiple. Plano de regresin
Metodologa de la Investigacin y Estadstica II
Del Modelo de Regresin Simple al Mltiple.
Estimacin de parmetros
Estimadores de los parmetros del MA (Vocabulario, Inteligencia)
Intervalo de confianza al
95%.
Parmetro B Error tp. t Significacin
Lmite inferior
Lmite
superior
Interseccin
-9,246 2,523 -3,664 0,001 -14,494 -3,998
Vocabulario
1,149 0,135 8,526 0,000 0,869 1,429
Inteligencia
0,176 0,160 1,100 0,284 -0,157 0,509

b
0
b
1
b
2
Probabilidad bilateral
asociada segn la
distribucin t de Student
Pruebas bilaterales
H
0
:
0
=0
H
1
:
0
0
t=b
0
/S
0

H
0
:
1
=0
H
1
:
1
0
t=b
1
/S
1
H
0
:
2
=0
H
1
:
2
0
t=b
2
/S
2

No se rechaza la H
0
:
2
=0, [t (22) = 1,100; p >
Metodologa de la Investigacin y Estadstica II
Variable dependiente: Comprensin Verbal
Fuente
Suma de
cuadrados
tipo I gl
Media
cuadrtica F Significacin
Modelo
1715,625
a
2 857,812 81,743 0,000
Vocabulario
1702,917 1 1702,917 162,274 0,000
Inteligencia
12,708 1 12,708 1,211 0,284
Error
220,375 21 10,494
Total
1936,000 23

a
R
2
= 0,886 (R cuadrado corregida = 0,875)
Modelo de Regresin Lineal Mltiple.
Descomposicin de la varianza
SCM=1715,625
gl
M
=p=1
SCE=220,375
gl
R
=n-p-1=21
SCT=1936
gl
T
=n-1=23
+ =
Metodologa de la Investigacin y Estadstica II
Regresin lineal
5 10 15 20 25
Vocabulario
-10
0
10
20
C
o
m
p
r
e
n
s
i

n

V
e
r
b
a
l

1Comprensin Verbal = -7,21 + 1,25 * Vocabulario


R-cuadrado = 0,88
Rect a de regr esin y est imador es del MA (Vocabular io)
= -7,213 + 1,252 X



El Modelo seleccionado
Metodologa de la Investigacin y Estadstica II

10 20 30
Vocabulario

10
20
30
C
o
m
p
r
e
n
s
i

n

V
e
r
b
a
l

Recta de regresin y estimadores del MA (Vocabulario)


Linealidad entre X e Y
Regresin lineal. Verificacin de los supuestos
GRFICO DE DISPERSIN
Metodologa de la Investigacin y Estadstica II
Homoscedasticidad o varianza constante de los errores
GRFICO DE DISPERSIN RESIDUOS TIPIFICADOS Y VALORES PRONSTICADOS
La dispersin de los
residuos parece
uniforme. No se observa
ninguna pauta de
asociacin entre los
pronsticos y los
residuos.
Valores predichos de Y (
i
) en el eje Y
Residuales tipificados (Y
i
-
i
) en el eje X

Regresin lineal. Verificacin de los supuestos
Metodologa de la Investigacin y Estadstica II
Normalidad de la distribucin del error
HISTOGRAMA CON RESIDUOS TIPIFICADOS GRFICO DE PROBABILIDAD NORMAL
Los datos se distribuyen en lnea recta y
diagonalmente. Los datos observados
proceden de una distribucin normal.
Regresin lineal. Verificacin de los supuestos
Comprobacin con K-S y S-W
se cumple la normalidad
Metodologa de la Investigacin y Estadstica II

Observaciones inusuales de X: Pesos de Pronstico (leverages).

No se han encontrado valores superiores a uno.


Influencia de las observaciones atpicas o influyentes sobre los coeficientes de
regresin: Distancias de Cook.

El valor que se utiliza para considerar una observacin sospechosa es D
i
= 4/(N p).
En este caso, el valor de referencia sera 0.1, no encontrndose valores superiores
al mismo.


Regresin lineal. Verificacin de los supuestos
Metodologa de la Investigacin y Estadstica II
Gracias por su atencin

You might also like