Professional Documents
Culture Documents
Introduccin
II. Formulacin del modelo
III. Representacin de la recta y el plano de regresin
IV. Supuestos del modelo
V. Estimacin de parmetros
VI. Ajuste global del modelo de regresin
VII. Significacin estadstica de los coeficientes de
regresin
VIII. Ajuste del modelo de regresin mediante el proceso
de modelado estadstico
IX. Ejemplo
Los Modelos de Regresin Lineal
TEMA 8
El Modelo de Regresin Lineal
Metodologa de la Investigacin y Estadstica II
Grado en Psicologa-Universidad de Mlaga
Grupos A y B: M Dolores Lpez Montiel
Grupos C y D: Agustn Wallace Ruiz
I. Introduccin
II. Formulacin del modelo
III. Representacin de la recta y el plano de regresin
IV. Supuestos del modelo
V. Estimacin de parmetros
VI. Ajuste global del modelo de regresin
VII. Significacin estadstica de los coeficientes de
regresin
VIII. Ejemplo
El Modelo de Regresin Lineal
Metodologa de la Investigacin y Estadstica II
Se entiende por regresin un procedimiento de anlisis de datos
en el que se pretende estimar y/o realizar predicciones de:
X
1
Y
X
3
X
2
VD
(explicada, predicha, regresada,
respuesta o salida)
VIs
(explicativas,
predictoras,
regresoras, de control
o de entrada)
cuyos valores se
suponen conocidos y
fijos
Introduccin
Metodologa de la Investigacin y Estadstica II
Introduccin
MODELOS DE REGRESIN
LINEAL NO LINEAL
CON UN PREDICTOR
CONTINUO
RLS
CON MLTIPLES
PREDICTORES
RLM
CONTINUOS
CATEGRICOS
TRMINOS DE INTERACCIN
BINARIOS
POLITMICOS
Veremos el MR con una sola VI de
naturaleza continua y un avance de
la RLM con el mismo tipo de
variables
Metodologa de la Investigacin y Estadstica II
Formulacin del modelo
Regresin simple Regresin mltiple
i i 1 0 i
X Y c | | + + =
i p p i
X X X Y c | | | | + + + + + = ...
2 2 1 1 0
i p p 2 2 1 1 0 i
e X b ... X b X b b Y
+ + + + + =
Componente aleatorio
Componente sistemtico
Metodologa de la Investigacin y Estadstica II
No es una variable estadstica real, es un modelo matemtico.
Dado un valor de la/s variable/s X, el modelo suministra una
prediccin .
La constante que representa el punto de corte de la recta con el
eje de ordenadas, o el plano de regresin tridimensional en la RM.
La pendiente o coeficiente de regresin que representa el
cambio esperado en la variable de respuesta por cada unidad de
cambio en la variable independiente.
Las pendientes del plano de regresin respecto a las variables
independientes que ponderan, manteniendo las otras constantes.
Los valores observados de las p variables independientes
Componente aleatorio del modelo
0
b
1
b
p 2 1
b ,..., b , b
i i i
Y
Y e =
ip 2 i 1 i
X , , X , X
i
Y
i 1 0 i
X b b Y
+ =
p p 2 2 1 1 0 i
X b ... X b X b b Y
+ + + + =
Formulacin del modelo
Metodologa de la Investigacin y Estadstica II
Representacin de la recta y el plano de regresin
b
0
b
1
b
0
b
1
b
2
i 1 0 i
X b b Y
+ =
p p 2 2 1 1 0 i
X b ... X b X b b Y
+ + + + =
e
i
(Y
i
i
)
e
i
(Y
i
i
)
Nube:
sujeto 1 (altura=171, peso=67)
sujeto 2 (altura=175, peso=77)
sujeto 3 (altura=178, peso=80)
Puntuaciones (X
i
, Y
i
)
Recta:
Puntuaciones (X
i
,
i
)
Nube:
sujeto 1 (altura, peso
tamao pie)
Puntuaciones (X
i1
,X
i2,
Y
i
)
Plano:
Puntuaciones (X
i1
,X
i2
,
i
)
Metodologa de la Investigacin y Estadstica II
Supuestos del modelo
1. Linealidad Se asume relacin lineal entre X e Y.
2. Homoscedasticidad Varianza constante de la variable Y para cada valor
de la variable X.
3. Normalidad Distribucin normal de la variable Y para cada valor de la
variable X.
4. Independencia Las observaciones Y
i
se registran en unidades
experimentales independientes entre s.
5. Ausencia de Multicolinealidad (regresin mltiple) No debe darse una
relacin lineal exacta entre cualquier subconjunto de variables explicativas
X
i
(perfecta multicolinealidad).
Desde el punto de vista del error aleatorio, se asume que los errores no
estn correlacionados y se distribuyen segn la curva normal con media 0 y
varianza constante.
Metodologa de la Investigacin y Estadstica II
Evaluacin de los supuestos del modelo
Anlisis
Exploratorio de la
VD
Anlisis de
residuales
Anlisis grfico
Grfico de dispersin
Histograma
Anlisis numrico
Kolmogorov-Smirnov
Shapiro-Wilks
Anlisis grfico
G. dispersin con
residuos y valores
pronsticados
Histograma con
residuos tipificados
G.Probabilidad normal
(P-P)
Anlisis numrico
Observaciones
inusuales de X:
Pesos de Pronstico
Influencia de las
observaciones atpicas
o influyentes sobre los
coeficientes de
regresin:
Distancias de Cook
Multicolinealidad:
Tolerancia y VIF
Autovalores
ndice de condicin
Correlacin parcial y
semiparcial
Metodologa de la Investigacin y Estadstica II
Datos lineales Datos no lineales
Datos homoscedsticos
Varianza constante
Datos heteroscedsticos
Varianza creciente
Ejemplos de evaluacin del modelo
Relacin lineal Relacin no lineal
Metodologa de la Investigacin y Estadstica II
e
i
2
= (Y
i
i
)
2
Estimacin de los parmetros del modelo
La estimacin de los parmetros del modelo (b
o y
b
1
)
se efecta, siempre
que no se vulneren los supuestos anteriores, a partir de la Estimacin por
Mnimos Cuadrados Ordinarios (MCO).
Mediante este procedimiento se obtienen los parmetros del modelo,
reduciendo al mnimo la suma de los cuadrados de los residuales:
Solucin
i
= b
0
+ b
1
X
i
Metodologa de la Investigacin y Estadstica II
Ajuste Global del modelo
Una vez formulado el modelo de regresin lineal, hay que valorar el ajuste
global del modelo, es decir, el poder explicativo de la o las variables
predictoras en conjunto sobre Y.
Un modelo se ajustar bien a los datos cuando la proporcin de la varianza
total de la variable Y que explica es estadsticamente significativa.
A travs del ANOVA se descompone la varianza del modelo de regresin:
SCT = SCR + SCE
Metodologa de la Investigacin y Estadstica II
Indicadores
El coeficiente de determinacin, R
2
representa la proporcin de la varianza
de la variable Y que resulta explicada por el modelo, y se obtiene como:
siendo SCR = y SCT = SCR + SCE
R
2
es una cantidad adimensional que slo puede tomar valores entre 0 y 1
0 R
2
1
Cuanto ms se aproxime a 1, mayor ser el poder predictivo del modelo
Ajuste Global del modelo
( )
2
Y Y
R
2
= SCR / SCT
Metodologa de la Investigacin y Estadstica II
El coeficiente de determinacin ajustado corrige la
dependencia de R
2
del nmero de observaciones,Y
i
, o del
nmero de predictores (tamao muestral pequeo o nmero
elevado de predictores), expresndose del siguiente modo:
= 1 (1 - R
2
) (N - 1) / (N p)
Siendo p el nmero de parmetros incluidos en el modelo.
2
~
R
Indicadores
Ajuste Global del modelo
Metodologa de la Investigacin y Estadstica II
Hiptesis:
Estadstico: F = MCR / MCE ~ F (p, n-p-1)
El nivel de significacin estadstica de R
2
se comprueba comparando el valor-
p asociado a F , con el nivel de significacin () predeterminado.
Decisin: Si p se rechaza H
0
Se comprueba que el modelo de regresin explica una parte significativa de la
variabilidad total de la VD
Significacin estadstica del modelo
Ajuste Global del modelo
o
F
0
H
0
:
1
=
2
=
p
=0
H
1
: al menos un parmetro
es no 0,
j
0.
F
o,v ,v
1 2
Hiptesis:
Estadstico: t de Student (el valor estimado del parmetro dividido por su
error estndar), con distribucin t de Student (n-p-1).
El nivel de significacin estadstica de t se obtiene comparando
el valor-p asociado al estadstico con el nivel de significacin =
0.05.
Decisin: Si p p /2, se rechaza H
0
Significacin de los coeficientes de regresin
Prueba de dos colas
H
0
:
j
=0
H
1
:
j
0
Prueba de una cola
H
0
:
j
=0
H
1
:
j
>0
j
<0
Metodologa de la Investigacin y Estadstica II
Se calcula el intervalo de confianza de b
j
, de manera que sus lmites indiquen
los valores entre los que puede oscilar el verdadero valor del coeficiente en la
poblacin, su efecto real atendiendo a determinados intervalos de confianza.
De este modo se complementa la informacin de la prueba de
significacin, proporcionando los valores necesarios para la
interpretacin de la magnitud del efecto de X sobre Y.
Se calcula mediante: b t (o/2, g.l.) s
b
Donde:
t es el valor de t tabulado para o/2, con los grados de libertad asociados a la SCE
(g.l. de la Suma de Cuadrados Error del ANOVA)
s
b
el error estndar de b.
Intervalos de confianza
Significacin de los coeficientes de regresin
Metodologa de la Investigacin y Estadstica II
Caso Vocabulario Inteligencia Comprensin
1 28 23 29
2 27 30 30
3 14 18 10
4 23 23 21
5 24 19 24
6 14 22 11
7 14 26 12
8 18 20 8
9 14 19 7
10 10 18 5
11 5 12 3
12 14 17 7
13 30 29 28
14 18 22 12
15 15 20 9
16 20 25 20
17 16 15 16
18 8 11 2
19 22 33 28
20 18 28 11
21 7 24 4
22 12 20 7
23 9 13 5
24 8 14 3
Objetivo: predecir la
comprensin verbal, a partir de la
puntuacin en un test de
vocabulario y de inteligencia
general.
VD: Comprensin verbal
VI: Vocabulario, Inteligencia
general.
Ejemplo
Adaptacin de ejemplo tomado de:
Ato, M. y Vallejo, G. (2007). Diseos
experimentales en Psicologa
Captulo 2. Modelos de regresin simple y
mltiple, pg. 60.
Metodologa de la Investigacin y Estadstica II
El Modelo de Regresin Lineal Simple. Estimacin
de parmetros
Se rechaza la H
0
:
1
=0, [t (23) = 12,678; p ]
Estimadores de los parmetros del MRLS (Vocabulario)
Intervalo de confianza al
95%.
Parmetro B Error tp. t Significacin
Lmite inferior
Lmite
superior
Interseccin
-7,213 1,727 -4,176 0,000 -10,795 -3,631
Vocabulario
1,250 ,099 12,678 0,000 1,046 1,455
Probabilidad bilateral
asociada segn la
distribucin t de Student
Pruebas bilaterales
H
0
:
0
=0
H
1
:
0
0
t=b
0
/S
0
H
0
:
1
=0
H
1
:
1
0
t=b
1
/S
1
Lmites del IC
del 95%
en torno a
b
0
y b
1
Metodologa de la Investigacin y Estadstica II
Regresin lineal
5 10 15 20 25
Vocabulario
-10
0
10
20
C
o
m
p
r
e
n
s
i
n
V
e
r
b
a
l
Regresin lineal
Punto donde el hiperplano corta el eje de la VD.
Valor de Y cuando X
1
=X
2
=0
Pendiente del plano respecto de X
1
,
suponiendo constante X
2.
Pendiente del plano respecto de X
2
,
suponiendo constante X
1
.
El Modelo de Regresin Lineal Mltiple. Plano de regresin
Metodologa de la Investigacin y Estadstica II
Del Modelo de Regresin Simple al Mltiple.
Estimacin de parmetros
Estimadores de los parmetros del MA (Vocabulario, Inteligencia)
Intervalo de confianza al
95%.
Parmetro B Error tp. t Significacin
Lmite inferior
Lmite
superior
Interseccin
-9,246 2,523 -3,664 0,001 -14,494 -3,998
Vocabulario
1,149 0,135 8,526 0,000 0,869 1,429
Inteligencia
0,176 0,160 1,100 0,284 -0,157 0,509
b
0
b
1
b
2
Probabilidad bilateral
asociada segn la
distribucin t de Student
Pruebas bilaterales
H
0
:
0
=0
H
1
:
0
0
t=b
0
/S
0
H
0
:
1
=0
H
1
:
1
0
t=b
1
/S
1
H
0
:
2
=0
H
1
:
2
0
t=b
2
/S
2
No se rechaza la H
0
:
2
=0, [t (22) = 1,100; p >
Metodologa de la Investigacin y Estadstica II
Variable dependiente: Comprensin Verbal
Fuente
Suma de
cuadrados
tipo I gl
Media
cuadrtica F Significacin
Modelo
1715,625
a
2 857,812 81,743 0,000
Vocabulario
1702,917 1 1702,917 162,274 0,000
Inteligencia
12,708 1 12,708 1,211 0,284
Error
220,375 21 10,494
Total
1936,000 23
a
R
2
= 0,886 (R cuadrado corregida = 0,875)
Modelo de Regresin Lineal Mltiple.
Descomposicin de la varianza
SCM=1715,625
gl
M
=p=1
SCE=220,375
gl
R
=n-p-1=21
SCT=1936
gl
T
=n-1=23
+ =
Metodologa de la Investigacin y Estadstica II
Regresin lineal
5 10 15 20 25
Vocabulario
-10
0
10
20
C
o
m
p
r
e
n
s
i
n
V
e
r
b
a
l
10
20
30
C
o
m
p
r
e
n
s
i
n
V
e
r
b
a
l