You are on page 1of 27

Tema 6: Regresin lineal.

1. Introduccin.
2. La ecuacin de la recta.
3. El criterio de mnimos cuadrados.
4. Representacin grfica.
5. Coeficientes de regresin estandarizados.
6. El coeficiente de determinacin.
7. Introduccin a la regresin mltiple.

Concepto
El establecimiento de una correlacin entre
dos variables es importante, pero esto se
considera un primer paso para predecir una
variable a partir de la otra. (U otras, en el
caso de la regresin mltiple.)
Claro est, si sabemos que la variable X est
muy relacionada con Y, ello quiere decir que
podemos predecir Y a partir de X. Estamos ya
en el terreno de la prediccin.
(Evidentemente si, X no est relacionada con
Y, X no sirve como predictor de Y.)

Nota: Emplearemos los trminos regresin y prediccin como


casi sinnimos. (La razn del uso del trmino regresin es antigua,
y se ha mantenido como tal.)

Concepto
(2)

rendimiento

El tema bsico en regresin (con 2


variables) es ajustar los puntos del
diagrama de dispersin de las variables
X e Y. Para simplificar, nos centraremos
especialmente (por simplicidad) en el
caso de que la relacin entre X e Y sea
lineal.

inteligencia

Claro est, el tema ahora es cmo


conseguir cul es la mejor lnea que
parece unir los puntos. Necesitamos
para ello un criterio. Si bien hay otros
criterios, el ms empleado
comnmente, y el que veremos aqu,
es el criterio de mnimos cuadrados.

Criterio de mnimos cuadrados: Es aquel que minimiza las distancias


cuadrticas de los puntos con la lnea.

Repaso de la ecuacin de una


recta
Y=A+BX

rendimiento

A es la ordenada en el origen (es


donde la recta corta el eje Y)

inteligencia

B es la pendiente (observad que en el


caso de las relaciones positivas, B
ser positivo; en el caso de las
relacin negativas, B ser negativo; si
no hay relacin, B ser
aproximadamente 0)

Si queremos predecir Y a partir de X, necesitamos calcular (en el


caso de relacin lineal) la recta de regresin de Y sobre (a partir
de) X.

Clculo de la ecuacin de regresin lineal (de Y sobre


X)

Rendimiento (Y)

El criterio de mnimos cuadrados nos


proporciona un valor de A y uno de B,
tal que

Y Y
i 1

Inteligencia (X)

'

sea mnimo

Clculo de la ecuacin de regresin lineal (de Y sobre


X)
CI (X)
120
100
90
110

Rendim (Y)
10
9
4
6

11
10
9
8
7
6

RENDIM

5
4
3
80

INTELIG

90

100

110

120

130

Clculo de la ecuacin de regresin lineal (de Y sobre


X)
La recta por mnimos
cuadrados es:
Y=-85+015X
n

'
Y

Y
i i

es mnimo

i 1

Esa expresin vale 11.5


en nuestro caso
Observa....
-Cada unidad de CI hace
aumentar 015 la nota.
-Aunque en este caso, lo
siguiente no tiene sentido, una
persona con CI de 0, sacara
un -8.5

Clculo de la ecuacin de regresin lineal (de Y sobre


X)
Las frmulas.... En puntuaciones directas

Ordenada
origen

A Y BX

Pendiente

XY nXY

B
X nX
2

Nota: Tanto A como B se pueden obtener fcilmente en cualquier


calculadora con opcin LR (Linear Regression)

Clculo de la ecuacin de regresin lineal (de Y sobre


X)
suj1
suj2
suj3
suj4

X
120
100
90
110

Y
10
9
4
6

XY
1200
900
360
660

X2
14400
10000
8100
12100

SUMA
3120

SUMA
44600

PROMEDIO PROMEDIO
105
7.25
N
4

3120 4 105 7 ' 25


0 '15
2
44600 4 105

A 7 ' 25 0 '15 105 8'5

Luego
Y=-85+015X

Clculo de la ecuacin de regresin lineal (de Y sobre


X)
Las frmulas en puntuaciones diferenciales

Ordenada
origen

Pendiente

a0
xy

b
x
2

Fijaros que la media de X y la media


de Y sern 0 en puntuacin tpicas

IMPORTANTE: B=b
Es decir, la pendiente en
puntuaciones diferenciales es la
MISMA que en puntuaciones
directas

Por tanto, la recta de regresin en puntuaciones diferenciales es en


nuestro caso: y=015x

Clculo de la ecuacin de regresin lineal (de Y sobre


X)
Las frmulas en puntuaciones tpicas

a 0

Ordenada
origen

Pendiente

z z

z
x

2
x

Al igual que en las puntuaciones


diferenciales

zy

IMPORTANTE: Como
veremos, la pendiente en
puntuaciones tpicas
COINCIDE con el ndice de
correlacin de Pearson

Por tanto, la recta de regresin en puntuaciones tpicas es en


nuestro caso: zy =0703zx

Clculo de la ecuacin de regresin lineal (de Y sobre


X)
OUTPUT DEL ORDENADOR
Resumen del modelob
Modelo
1

R
.703a

R cuadrado
.495

R cuadrado
corregida
.242

Error tp. de la
estimacin
2.398

a. Variables predictoras: (Constante), INTELIG


b. Variable dependiente: RENDIM

Ord. y
pendiente
(punt.directas)
Modelo
1

(Constante)
INTELIG

Ord. y pendiente
Coeficientesa

Coeficientes no
estandarizados
B
Error tp.
-8.500
11.324
.150
.107

(punt.tpicas)

Coeficientes
estandarizad
os
Beta
.703

t
-.751
1.399

Sig.
.531
.297

a. Variable dependiente: RENDIM

Observad que el ndice de corr.Pearson coincide con la pendiente


expresada en puntuaciones tpicas.

Clculo de la ecuacin de regresin lineal (de Y sobre


X)
Sabemos que

xy

Bb
x
2

sxy

Y por el tema
anterior
Y por el tema de
variabilidad

Se deduce
que

xy

sx2

Bb

rxy

sx s y

2
x

xy

xy
x x
2

sxy

n sxy rxy sx s y r s y
xy
2
sx2
sx2
sx
n

Clculo de la ecuacin de regresin lineal (de Y sobre


X)
En definitiva,

B b rxy

b rxy

sy
sx

sy

1
rxy rxy
sx
1

A Y rxy

sy
sx

Evidentemente, la ordenada en el origen de la recta de


regresin de Y sobre X ser 0 para puntuaciones
diferenciales y tpicas (dado que las medias para las
respectivas puntuaciones tanto en X como en Y sern 0 en
tales casos).

Los errores de prediccin en la recta de regresin de Y


sobre X

Yi

Puntuaciones observadas
Puntuaciones predichas

Error de prediccin

Yi
Yi Yi

con la recta de
regresin de Y sobre X

La cuestin ahora en cunto se reduce la varianza al emplear la


recta de regresin de Y sobre X (es decir, teniendo X como
predictor) en comparacin con el caso en que no tuviramos la
recta de regresin
2

2
y

(Y Y )

Los errores de prediccin en la recta de regresin de Y


sobre X
Si no tuviramos el predictor X, qu puntuacin prediramos
para las puntuaciones de Y?

En tal caso, dado el criterio de mnimos cuadrados, si tenemos


datos en Y y

carecemos de datos en X, nuestra mejor estimacin de Y ser su


media

Recordemos que la media minimiza el sumatorio de las diferencias


Cuadrticas

2
(
Y

Y
)

es mnimo

Si empleamos la media como predictor, la varianza de las predicciones


ser

s y2

2
(
Y

Y
)

Los errores de prediccin en la recta de regresin de Y


sobre X
Pero si tenemos un predictor X, la varianza ser

s y2. x

(
Y

Y
)
i i

Esta es la varianza de Y no explicada por X


Se puede demostrar ques y . x s y (1 rxy )
2

Que despejando
sale

rxy2 1

s y2. x
s y2

Cun buena es la prediccin de la recta de regresin? El


coeficiente de determinacin como ndice de la bondad de
ajuste de nuestro modelo (la recta de regresin)
Acabamos de mostrar que

2
xy

r 1
2
xy

s y2. x
s y2

Es el llamado coeficiente de determinacin y permite


conocer cun bueno es el ajuste de la recta de regresin (o
en general del modelo lineal). Est acotado entre 0 y 1.

Si todos los puntos del diagrama de dispersin estn sobre la recta


2
(con pendiente diferente sde
entonces ser 0, y el
y . x 0),
coeficiente de determinacin ser 1
Cuanto ms se alejen los puntos de la recta de regresin, mayor
2
ser sely . xvalor de
el valor del coeficiente de determinacin
ser menor y menor.

El coeficiente de determinacin y la proporcin de varianza


asociada/explicada/comn (1)
Empecemos con una tautologa

Yi Yi (Yi Yi )
Esta expresin indica que la puntuacin observada por el sujeto isimo es igual a la puntuacin predicha para dicho sujeto ms un
error de prediccin.
Se puede demostrar que las puntuaciones predichas y los errores de
prediccin son independientes, con lo que podemos sealar

s y2 s y2 ' s y2. x

s y2

Varianza total de Y

s y2 '

Varianza de las puntuaciones de Y predichas por el predictor X

s y2. x

Varianza de los errores de prediccin (varianza no explicada por


X)

El coeficiente de determinacin y la proporcin de varianza


asociada/explicada/comn (2)
2

sy
De la transparencia anterior, tenemos
Y sabamos que

luego

rxy2 1

rxy2

s y2. x
s y2

s y2 s y2. x
s

s y2 ' s y2. x

2
y

s y2
s y2

En definitiva, el coeficiente de determinacin mide la proporcin


de la varianza de Y que est asociada/explicada por el predictor X

Introduccin a la regresin lineal mltiple (1)

Hemos visto el caso de un predictor (X) y una variable predicha (Y), y


obtenido la recta de regresin de Y sobre X por el procedimiento de
mnimos cuadrados.
Dada la naturaleza del comportamiento humano, en el que cada
conducta observada puede ser influida por diferentes variables,
resulta ms ecolgico examinar no ya cun bueno es un predictor X
para predecir Y, sino ms bien tendremos varios predictores X1,
X2, ...., para predecir Y (o si se quiere, varios predictores, X 2, X3,....,
para predecir X1). Es el caso de la regresin mltiple.
Hasta ahora
Y ' A BX
tenamos
criterio,
Ahora tendremos k predictores:
X 1 variable a
predecir, variable
dependiente

X 1 ' A B2 X 2 B3 X 3 ... Bk X k

X 2 , X 3 ,...

Variables
predictoras

Introduccin a la regresin lineal mltiple (2)

s
Recta
B rxy y
sx
regresin

Es importante que os deis cuenta que las ponderaciones B 2,


B3, ..., son anlogas a las que vimos en el caso de la recta
de regresin.

X 1 ' A B2 X 2 B3 X 3 ... Bk X k

Por ejemplo B2 r12.3

Tales coeficientes representan cun importante es la respectiva


variable predictora en la ecuacin de regresin.
Al igual que ocurra en la recta de regresin (fijaros que el caso de 1
predictor es un caso particular de la regresin mltiple), A representa
el lugar donde el hiperplano de regresin mltiple corta el eje de la
variable predicha.
Por simplicidad, y dado que normalmente todo el proceso se
hace mediante ordenador, no veremos las frmulas (ver el texto
de Botella y otros, en el que est todo bien explicado)...pero
ahora veremos unas puntualizaciones.

s1.3
s2.3

Introduccin a la regresin lineal mltiple (3)

En puntuaciones directas, la ecuacin de regresin es la que


sabemos

X 1 ' A B2 X 2 B3 X 3 ... Bk X k
En puntuaciones diferenciales, recordad que A vala 0 en la recta de
regresin; lo mismo se aplica en la ecuacin de regresin.

x1 ' b2 x2 b3 x3 ... bk xk
Y aplicando la misma lgica, el valor de los pesos es el
mismo que el que tenamos en puntuaciones directas

b2 B2

b3 B3

etctera

Introduccin a la regresin lineal mltiple (4)


Datos (N=5)
Rendim Ansied Neurot
9
3
5
3
12
15
6
8
8
2
9
7
7
7
6
Resumen del modelo
Modelo
1

R
.904a

R cuadrado
corregida
.634

R cuadrado
.817

Error tp. de la
estimacin
1.744

R1.23 0 '904

a. Variables predictoras: (Constante), NEURO, ANSIE

Como en el caso de 1
2
predictor:

Coeficientesa

Modelo
1

(Constante)
ANSIED
NEUROT

Coeficientes no
estandarizados
B
Error tp.
11.288
2.221
-1.139
.510
.365
.421

a. Variable dependiente: RENDIM

Coeficientes
estandarizad
os
Beta
-1.293
.502

R1.23
2

t
5.082
-2.233
.868

Sig.
.037
.155
.477

sx'

2
x1

El modelo lineal general


El modelo lineal general subyace a buena
parte de las pruebas estadsticas que se
efectan en psicologa y en otras ciencias
sociales.
Por decir unas pocas
-Anlisis de regresin (ya vistos)
-Anlisis de Varianza (se vern 2
cuatrimestre)
-Pruebas t (se vern 2 cuatrimestre)
-Anlisis de covarianza
-Anlisis de conglomerados (cluster analysis)
-Anlisis factorial
-Escalamiento multidimensional
-Correlacin cannica
-Anlisis discriminante

El modelo lineal general (2)


Claramente, los anlisis de regresin que
hemos visto son un caso particular del
modelo lineal general, en el caso de 2
variables: una acta como predictor y una
variable predicha.
Y ' A BX
O si se quiere expresar as

Y A BX (Y Y ')

Y A BX e
Observado = Predicho + Error
estimacin
en trminos
generales

Y B0 B1 X 1 e

El modelo lineal general (3)


La expresin general es

Y B0 B1 X 1 ... Bk X k e
Y: Variable dependiente
X1, X2, ..., variables independientes (predictoras de Y)
e: error aleatorio
B1, B2, ..., son los pesos que determinan la contribucin
de cada variable independiente.

El caso en el modelo lineal general es que en la parte izquierda de la


ecuacin podemos tener no slo una variable dependiente, sino
varias.

You might also like