T6

Tema 6: Regresin lineal.
1. Introduccin.
2. La ecuacin de la recta.
3. El criterio de mnimos cuadrados.
4. Representacin grfica.
5. Coeficientes de regresin estandarizados.
6. El coeficiente de determinacin.
7. Introduccin a la regresin mltiple.
Concepto
El establecimiento de una correlacin entre
dos variables es importante, pero esto se
considera un primer paso para predecir una
variable a partir de la otra. (U otras, en el
caso de la regresin mltiple.)
Claro est, si sabemos que la variable X est
muy relacionada con Y, ello quiere decir que
podemos predecir Y a partir de X. Estamos ya
en el terreno de la prediccin.
(Evidentemente si, X no est relacionada con
Y, X no sirve como predictor de Y.)
Nota: Emplearemos los trminos regresin y prediccin como

casi sinnimos. (La razn del uso del trmino regresin es antigua,
y se ha mantenido como tal.)
Concepto
(2)
rendimiento
El tema bsico en regresin (con 2

variables) es ajustar los puntos del
diagrama de dispersin de las variables
X e Y. Para simplificar, nos centraremos
especialmente (por simplicidad) en el
caso de que la relacin entre X e Y sea
lineal.
inteligencia
Claro est, el tema ahora es cmo

conseguir cul es la mejor lnea que
parece unir los puntos. Necesitamos
para ello un criterio. Si bien hay otros
criterios, el ms empleado
comnmente, y el que veremos aqu,
es el criterio de mnimos cuadrados.
Criterio de mnimos cuadrados: Es aquel que minimiza las distancias

cuadrticas de los puntos con la lnea.
Repaso de la ecuacin de una

recta
Y=A+BX
rendimiento
A es la ordenada en el origen (es

donde la recta corta el eje Y)
inteligencia
B es la pendiente (observad que en el

caso de las relaciones positivas, B
ser positivo; en el caso de las
relacin negativas, B ser negativo; si
no hay relacin, B ser
aproximadamente 0)
Si queremos predecir Y a partir de X, necesitamos calcular (en el

caso de relacin lineal) la recta de regresin de Y sobre (a partir
de) X.
Clculo de la ecuacin de regresin lineal (de Y sobre

X)
Rendimiento (Y)
El criterio de mnimos cuadrados nos

proporciona un valor de A y uno de B,
tal que
Y Y
i 1
Inteligencia (X)
'
sea mnimo

X)
CI (X)
120
100
90
110
Rendim (Y)
10
9
4
6
11
10
9
8
7
6
RENDIM
5
4
3
80
INTELIG
90
100
110
120
130

X)
La recta por mnimos
cuadrados es:
Y=-85+015X
n
'
Y
Y
i i
es mnimo
i 1
Esa expresin vale 11.5

en nuestro caso
Observa....
-Cada unidad de CI hace
aumentar 015 la nota.
-Aunque en este caso, lo
siguiente no tiene sentido, una
persona con CI de 0, sacara
un -8.5

X)
Las frmulas.... En puntuaciones directas
Ordenada
origen
A Y BX
Pendiente
XY nXY
B
X nX
2
Nota: Tanto A como B se pueden obtener fcilmente en cualquier

calculadora con opcin LR (Linear Regression)

X)
suj1
suj2
suj3
suj4
X
120
100
90
110
Y
10
9
4
6
XY
1200
900
360
660
X2
14400
10000
8100
12100
SUMA
3120
SUMA
44600
PROMEDIO PROMEDIO
105
7.25
N
4
3120 4 105 7 ' 25

0 '15
2
44600 4 105
A 7 ' 25 0 '15 105 8'5
Luego
Y=-85+015X

X)
Las frmulas en puntuaciones diferenciales
Ordenada
origen
Pendiente
a0
xy
b
x
2
Fijaros que la media de X y la media

de Y sern 0 en puntuacin tpicas
IMPORTANTE: B=b
Es decir, la pendiente en
puntuaciones diferenciales es la
MISMA que en puntuaciones
directas
Por tanto, la recta de regresin en puntuaciones diferenciales es en

nuestro caso: y=015x

X)
Las frmulas en puntuaciones tpicas
a 0
Ordenada
origen
Pendiente
z z
z
x
2
x
Al igual que en las puntuaciones

diferenciales
zy
IMPORTANTE: Como
veremos, la pendiente en
puntuaciones tpicas
COINCIDE con el ndice de
correlacin de Pearson
Por tanto, la recta de regresin en puntuaciones tpicas es en

nuestro caso: zy =0703zx

X)
OUTPUT DEL ORDENADOR
Resumen del modelob
Modelo
1
R
.703a
R cuadrado
.495
R cuadrado
corregida
.242
Error tp. de la
estimacin
2.398
a. Variables predictoras: (Constante), INTELIG

b. Variable dependiente: RENDIM
Ord. y
pendiente
(punt.directas)
Modelo
1
(Constante)
INTELIG
Ord. y pendiente
Coeficientesa
Coeficientes no
estandarizados
B
Error tp.
-8.500
11.324
.150
.107
(punt.tpicas)
Coeficientes
estandarizad
os
Beta
.703
t
-.751
1.399
Sig.
.531
.297
a. Variable dependiente: RENDIM
Observad que el ndice de corr.Pearson coincide con la pendiente

expresada en puntuaciones tpicas.

X)
Sabemos que
xy
Bb
x
2
sxy
Y por el tema
anterior
Y por el tema de
variabilidad
Se deduce
que
xy
sx2
Bb
rxy
sx s y
2
x
xy
xy
x x
2
sxy
n sxy rxy sx s y r s y
xy
2
sx2
sx2
sx
n

X)
En definitiva,
B b rxy
b rxy
sy
sx
sy
1
rxy rxy
sx
1
A Y rxy
sy
sx
Evidentemente, la ordenada en el origen de la recta de

regresin de Y sobre X ser 0 para puntuaciones
diferenciales y tpicas (dado que las medias para las
respectivas puntuaciones tanto en X como en Y sern 0 en
tales casos).
Los errores de prediccin en la recta de regresin de Y

sobre X
Yi
Puntuaciones observadas
Puntuaciones predichas
Error de prediccin
Yi
Yi Yi
con la recta de
regresin de Y sobre X
La cuestin ahora en cunto se reduce la varianza al emplear la

recta de regresin de Y sobre X (es decir, teniendo X como
predictor) en comparacin con el caso en que no tuviramos la
recta de regresin
2
2
y
(Y Y )

sobre X
Si no tuviramos el predictor X, qu puntuacin prediramos
para las puntuaciones de Y?
En tal caso, dado el criterio de mnimos cuadrados, si tenemos

datos en Y y
carecemos de datos en X, nuestra mejor estimacin de Y ser su

media
Recordemos que la media minimiza el sumatorio de las diferencias

Cuadrticas
2
(
Y
Y
)
es mnimo
Si empleamos la media como predictor, la varianza de las predicciones

ser
s y2
2
(
Y
Y
)

sobre X
Pero si tenemos un predictor X, la varianza ser
s y2. x
(
Y
Y
)
i i
Esta es la varianza de Y no explicada por X

Se puede demostrar ques y . x s y (1 rxy )
2
Que despejando
sale
rxy2 1
s y2. x
s y2
Cun buena es la prediccin de la recta de regresin? El

coeficiente de determinacin como ndice de la bondad de
ajuste de nuestro modelo (la recta de regresin)
Acabamos de mostrar que
2
xy
r 1
2
xy
s y2. x
s y2
Es el llamado coeficiente de determinacin y permite

conocer cun bueno es el ajuste de la recta de regresin (o
en general del modelo lineal). Est acotado entre 0 y 1.
Si todos los puntos del diagrama de dispersin estn sobre la recta

2
(con pendiente diferente sde
entonces ser 0, y el
y . x 0),
coeficiente de determinacin ser 1
Cuanto ms se alejen los puntos de la recta de regresin, mayor
2
ser sely . xvalor de
el valor del coeficiente de determinacin
ser menor y menor.
El coeficiente de determinacin y la proporcin de varianza

asociada/explicada/comn (1)
Empecemos con una tautologa
Yi Yi (Yi Yi )
Esta expresin indica que la puntuacin observada por el sujeto isimo es igual a la puntuacin predicha para dicho sujeto ms un
error de prediccin.
Se puede demostrar que las puntuaciones predichas y los errores de
prediccin son independientes, con lo que podemos sealar
s y2 s y2 ' s y2. x
s y2
Varianza total de Y
s y2 '
Varianza de las puntuaciones de Y predichas por el predictor X
s y2. x
Varianza de los errores de prediccin (varianza no explicada por

X)
El coeficiente de determinacin y la proporcin de varianza

asociada/explicada/comn (2)
2
sy
De la transparencia anterior, tenemos
Y sabamos que
luego
rxy2 1
rxy2
s y2. x
s y2
s y2 s y2. x
s
s y2 ' s y2. x
2
y
s y2
s y2
En definitiva, el coeficiente de determinacin mide la proporcin

de la varianza de Y que est asociada/explicada por el predictor X
Introduccin a la regresin lineal mltiple (1)
Hemos visto el caso de un predictor (X) y una variable predicha (Y), y

obtenido la recta de regresin de Y sobre X por el procedimiento de
mnimos cuadrados.
Dada la naturaleza del comportamiento humano, en el que cada
conducta observada puede ser influida por diferentes variables,
resulta ms ecolgico examinar no ya cun bueno es un predictor X
para predecir Y, sino ms bien tendremos varios predictores X1,
X2, ...., para predecir Y (o si se quiere, varios predictores, X 2, X3,....,
para predecir X1). Es el caso de la regresin mltiple.
Hasta ahora
Y ' A BX
tenamos
criterio,
Ahora tendremos k predictores:
X 1 variable a
predecir, variable
dependiente
X 1 ' A B2 X 2 B3 X 3 ... Bk X k
X 2 , X 3 ,...
Variables
predictoras
s
Recta
B rxy y
sx
regresin
Es importante que os deis cuenta que las ponderaciones B 2,

B3, ..., son anlogas a las que vimos en el caso de la recta
de regresin.
X 1 ' A B2 X 2 B3 X 3 ... Bk X k
Por ejemplo B2 r12.3
Tales coeficientes representan cun importante es la respectiva

variable predictora en la ecuacin de regresin.
Al igual que ocurra en la recta de regresin (fijaros que el caso de 1
predictor es un caso particular de la regresin mltiple), A representa
el lugar donde el hiperplano de regresin mltiple corta el eje de la
variable predicha.
Por simplicidad, y dado que normalmente todo el proceso se
hace mediante ordenador, no veremos las frmulas (ver el texto
de Botella y otros, en el que est todo bien explicado)...pero
ahora veremos unas puntualizaciones.
s1.3
s2.3
En puntuaciones directas, la ecuacin de regresin es la que

sabemos
X 1 ' A B2 X 2 B3 X 3 ... Bk X k
En puntuaciones diferenciales, recordad que A vala 0 en la recta de
regresin; lo mismo se aplica en la ecuacin de regresin.
x1 ' b2 x2 b3 x3 ... bk xk
Y aplicando la misma lgica, el valor de los pesos es el
mismo que el que tenamos en puntuaciones directas
b2 B2
b3 B3
etctera

Datos (N=5)
Rendim Ansied Neurot
9
3
5
3
12
15
6
8
8
2
9
7
7
7
6
Resumen del modelo
Modelo
1
R
.904a
R cuadrado
corregida
.634
R cuadrado
.817
Error tp. de la
estimacin
1.744
R1.23 0 '904
a. Variables predictoras: (Constante), NEURO, ANSIE
Como en el caso de 1
2
predictor:
Coeficientesa
Modelo
1
(Constante)
ANSIED
NEUROT
Coeficientes no
estandarizados
B
Error tp.
11.288
2.221
-1.139
.510
.365
.421
a. Variable dependiente: RENDIM
Coeficientes
estandarizad
os
Beta
-1.293
.502
R1.23
2
t
5.082
-2.233
.868
Sig.
.037
.155
.477
sx'
2
x1
El modelo lineal general

El modelo lineal general subyace a buena
parte de las pruebas estadsticas que se
efectan en psicologa y en otras ciencias
sociales.
Por decir unas pocas
-Anlisis de regresin (ya vistos)
-Anlisis de Varianza (se vern 2
cuatrimestre)
-Pruebas t (se vern 2 cuatrimestre)
-Anlisis de covarianza
-Anlisis de conglomerados (cluster analysis)
-Anlisis factorial
-Escalamiento multidimensional
-Correlacin cannica
-Anlisis discriminante
El modelo lineal general (2)

Claramente, los anlisis de regresin que
hemos visto son un caso particular del
modelo lineal general, en el caso de 2
variables: una acta como predictor y una
variable predicha.
Y ' A BX
O si se quiere expresar as
Y A BX (Y Y ')
Y A BX e
Observado = Predicho + Error
estimacin
en trminos
generales
Y B0 B1 X 1 e
El modelo lineal general (3)

La expresin general es
Y B0 B1 X 1 ... Bk X k e
Y: Variable dependiente
X1, X2, ..., variables independientes (predictoras de Y)
e: error aleatorio
B1, B2, ..., son los pesos que determinan la contribucin
de cada variable independiente.
El caso en el modelo lineal general es que en la parte izquierda de la

ecuacin podemos tener no slo una variable dependiente, sino
varias.

T6

Uploaded by

Document Information

Original Description:

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

T6

Uploaded by

Copyright:

Available Formats

Tema 6: Regresin lineal.

Nota: Emplearemos los trminos regresin y prediccin como

El tema bsico en regresin (con 2

Claro est, el tema ahora es cmo

Criterio de mnimos cuadrados: Es aquel que minimiza las distancias

Repaso de la ecuacin de una

A es la ordenada en el origen (es

B es la pendiente (observad que en el

Si queremos predecir Y a partir de X, necesitamos calcular (en el

Clculo de la ecuacin de regresin lineal (de Y sobre

El criterio de mnimos cuadrados nos

Clculo de la ecuacin de regresin lineal (de Y sobre

Clculo de la ecuacin de regresin lineal (de Y sobre

Esa expresin vale 11.5

Clculo de la ecuacin de regresin lineal (de Y sobre

Nota: Tanto A como B se pueden obtener fcilmente en cualquier

Clculo de la ecuacin de regresin lineal (de Y sobre

3120 4 105 7 ' 25

A 7 ' 25 0 '15 105 8'5

Clculo de la ecuacin de regresin lineal (de Y sobre

Fijaros que la media de X y la media

Por tanto, la recta de regresin en puntuaciones diferenciales es en

Clculo de la ecuacin de regresin lineal (de Y sobre

Al igual que en las puntuaciones

Por tanto, la recta de regresin en puntuaciones tpicas es en

Clculo de la ecuacin de regresin lineal (de Y sobre

a. Variables predictoras: (Constante), INTELIG

a. Variable dependiente: RENDIM

Observad que el ndice de corr.Pearson coincide con la pendiente

Clculo de la ecuacin de regresin lineal (de Y sobre

Clculo de la ecuacin de regresin lineal (de Y sobre

Evidentemente, la ordenada en el origen de la recta de

Los errores de prediccin en la recta de regresin de Y

La cuestin ahora en cunto se reduce la varianza al emplear la

Los errores de prediccin en la recta de regresin de Y

En tal caso, dado el criterio de mnimos cuadrados, si tenemos

carecemos de datos en X, nuestra mejor estimacin de Y ser su

Recordemos que la media minimiza el sumatorio de las diferencias

Si empleamos la media como predictor, la varianza de las predicciones

Los errores de prediccin en la recta de regresin de Y

Esta es la varianza de Y no explicada por X

Cun buena es la prediccin de la recta de regresin? El

Es el llamado coeficiente de determinacin y permite

Si todos los puntos del diagrama de dispersin estn sobre la recta

El coeficiente de determinacin y la proporcin de varianza

Varianza de las puntuaciones de Y predichas por el predictor X

Varianza de los errores de prediccin (varianza no explicada por

El coeficiente de determinacin y la proporcin de varianza

En definitiva, el coeficiente de determinacin mide la proporcin

Introduccin a la regresin lineal mltiple (1)

Hemos visto el caso de un predictor (X) y una variable predicha (Y), y

Introduccin a la regresin lineal mltiple (2)

Es importante que os deis cuenta que las ponderaciones B 2,

Por ejemplo B2 r12.3

Tales coeficientes representan cun importante es la respectiva

Introduccin a la regresin lineal mltiple (3)

En puntuaciones directas, la ecuacin de regresin es la que

Introduccin a la regresin lineal mltiple (4)

a. Variables predictoras: (Constante), NEURO, ANSIE

a. Variable dependiente: RENDIM

El modelo lineal general

El modelo lineal general (2)

El modelo lineal general (3)