You are on page 1of 30

REGRESIN LINEAL

MLTIPLE

Docente: Paola T. Mendoza Bello

REGRESIN LINEAL MLTIPLE


La regresin lineal mltiple consiste en la obtencin de un modelo que relacione
una v.a. dependiente Y con k variables explicativas o independientes.
El modelo entre las variables regresoras y la variable predictora es:

Y 0 1 X 1 2 X 2 k X k
Donde

0 , 1 , 2 ,..., k

son los parmetros del modelo.

0 representa el punto donde el plano corta al eje Y (ahora la relacin entre


las dos variables independientes e Y est representada por un plano).

1 representa el cambio esperado en Y por cada incremento unitario en X1,


siempre y cuando X2 , X3 , , Xk permanezcan constantes.

2 representa el cambio esperado en Y por cada incremento unitario en X2,


siempre y cuando X1 , X3 , , Xk permanezcan constantes.

Y as sucesivamente.

REGRESIN LINEAL MLTIPLE


Y 0 1 X 1 2 X 2 k X k
Llevando la informacin a vectores y matrices el modelo queda representado
por:

Y X

Siendo el trmino de error o perturbacin (no observable).


Luego tendremos que estimar (k+1) parmetros, para ello usaremos el Mtodo
de Mnimos Cuadrados.
Una vez estimados, tendremos una ecuacin de la forma:

Y 0 1 X1 2 X 2 k X k

REGRESIN LINEAL MLTIPLE


Y 0 1 X 1 2 X 2
A modos de ejemplo sumiendo un modelo
La figura siguiente muestra la relacin entre las variables independientes e Y.
Y

Y 0 1 X 1 2 X 2

X2

X1

REGRESIN LINEAL MLTIPLE


Pensando en el ejemplo con 2 variables explicativas (que usted puede generalizar
a k) que se representar por:

Y X
Y1
Y
2
.
Y
.

.
Yn

1 X11
1 X
12

.
.

X
.
.

.
.
1 X1n

X 21
X 22
.
.

.
X 2n

0
1
2

1

2
.


.

.
n

REGRESIN LINEAL MLTIPLE


Para la estimacin de los parmetros, se toma la funcin de mnimos
cuadrados expresada por L, la que es igual a la suma de los errores elevados
al cuadrado:
n
2
i
i1

Si multiplicamos la transpuesta del vector


por el mismo vector
obtendremos la suma de los errores elevados al cuadrado:
n

i2
i1

La funcin de mnimos cuadrados quedar como:

REGRESIN LINEAL MLTIPLE


Ahora bien, si de la ecuacin vectorial del modelo de regresin anterior
despejamos el error:

Y X

sustituyndolo en L:

L Y X Y X
Al realizar las operaciones anteriores y simplificando se llega a lo siguiente:

L Y Y 2X Y X X 2
Derivando la funcin anterior con respecto de

, evaluando para

e igualando a cero:

L XY XX 0

REGRESIN LINEAL MLTIPLE


despejando

XX 1 XY

donde:

0

1

2

n
n
X X X1i
i1
n
X 2i
i1

X1i
i1
n

2
X
1i
i1

X
i1

1i

X 2i

X 2i

i1

n
X1i X 2i

i1
n

2
X 2i

i1
n

Yi
n i1

X Y X1i Yi
i1

X 2i Yi
i1

REGRESIN LINEAL MLTIPLE

De esta manera, el modelo de regresin lineal mltiple ajustado


queda definido por:

Y 0 1 X 1 2 X 2

REGRESIN LINEAL MLTIPLE


PRUEBA DE SIGNIFICANCIA

La prueba de significancia del modelo nos permite determinar


estadsticamente si las variables independientes (en conjunto) tienen efecto
o no sobre la variable dependiente.
Para realizar esta prueba se requiere descomponer la suma total de
cuadrados, representada por Syy, en dos componentes: SSR y SSE
Syy = SSR + SSE
Donde:
Syy es la suma total de cuadrados
SSR es la suma de cuadrados de la regresin
SSE es la suma de cuadrados del error

REGRESIN LINEAL MLTIPLE


PRUEBA DE SIGNIFICANCIA

Yi
n
Syy Yi2 i1
n
i1
n

Yi
SSR X Y i1
n

SSE Syy SSR


Partimos de las hiptesis:

H 0 : 1 2 ... K 0
H a : A lg n _ i 0

REGRESIN LINEAL MLTIPLE


Anlisis de la varianza: Tabla ANOVA

A continuacin, hay que verificar la bondad del modelo en su conjunto. SPSS o


cualquier otro programa estadstico nos realiza una descomposicin de la variabilidad
total en la variabilidad explicada por la regresin y la residual o no explicada por la
regresin.

Fuentes de
variacin

Sumas de
cuadrados

g.l.

Cuadrados
medios

Regresin
(Explicada)

SSR

SSR/k

Residual
(No explicada)

SSE

Total

SYY

n-k-1
n-1

SSE/(n-k-1)

SSR
SSE

n k 1

REGRESIN LINEAL MLTIPLE


Anlisis de la varianza: Tabla ANOVA
Teniendo en cuenta la descomposicin anterior, se realiza un contraste de significacin
del modelo conjunto, teniendo en cuenta la variabilidad explicada por la regresin
respecto a la no explicada (cuya distribucin muestral sigue un modelo F-Snedecor).

H o : i 0 i

H1 : a lg n i 0
F
SCE
SCNE

n k 1

REGRESIN LINEAL MLTIPLE


Anlisis de la varianza: Tabla ANOVA

El estadstico de prueba F tiene una distribucin F (Fisher) con v1 = k


y v2 = n p grados de libertad en el numerador y el denominador,
respectivamente.
En este caso, si el estadstico de prueba es mayor que el valor de
tablas Fa, k, n p, se rechaza la hiptesis nula; concluiremos que la
variable dependiente est relacionada con al menos una de las
variables independientes.

REGRESIN LINEAL MLTIPLE


Anlisis de la varianza: Tabla ANOVA
En forma matricial:

REGRESIN LINEAL MLTIPLE


PRUEBA SOBRE COEFICIENTES INDIVIDUALES
En la prueba de significancia determinamos si existe o no relacin entre la
variable dependiente y las variables independientes en conjunto, es decir, no
se puede determinar la relacin entre Y y cada una de las variables
independientes.
Se pueden realizar pruebas individuales para analizar la relacin entre la
variable dependiente y cada una de las variables independientes.

Partimos de las hiptesis siguientes:

H0 : j 0
H1 : j 0

para j = 1, 2, ..., k

REGRESIN LINEAL MLTIPLE


Coeficiente de determinacin Mltiple

Usando la descomposicin de la varianza, se obtiene un coeficiente que


representa la proporcin de la variabilidad de Y explicada por la regresin.
Cuanto ms se acerque a la unidad, mayor ser esa proporcin:

SSR
R
Syy
2

0 R2 1

El coeficiente de determinacin mltiple nos permite expresar la cantidad de


la variabilidad presente en las observaciones de Y que se explica mediante el
modelo de regresin lineal mltiple, cuando se utilizan la variables
independientes, en conjunto, como variables regresoras.

REGRESIN LINEAL MLTIPLE


Coeficiente de determinacin Mltiple corregido

SCR
R 2 1 n k 1
SCT
n 1
R2

Un nmero reducido de grados de libertad puede generar un


elevado, sin que la relacin entre las variables sea estrecha. Este
coeficiente tiene la ventaja de que no aumenta su valor al
aumentar el nmero de variables explicativas.

REGRESIN LINEAL MLTIPLE


Ejercicio grupal:
El dueo de una empresa de venta de Salmones en la ciudad de Puerto Montt
desea determinar la interrelacin entre la introduccin del producto Trozos de
salmn en aderezos , con aderezo importados y las utilidades.
Utilidades

70

40

100

80

30

100

Demanda del producto con aderezo


nacional
Demanda del producto con aderezo
importada

50

65

75

30

45

35

Con esta informacin determine lo siguiente:

1.- La ecuacin de regresin lineal mltiple.


2.- Complete la Tabla ANOVA
3.- Calcule el coeficiente de determinacin mltiple y concluya respecto del
modelo de regresin lineal mltiple.

REGRESIN LINEAL MLTIPLE


Ejercicio grupal:

Para dar respuesta, parta calculando:

n=

SumaX1X2 =

SumaX1 =

SumaY =

SumaX12 =

SumaY2 =

SumaX2 =

SumaX1Y =

SumaX22 =

SumaX2Y =

REGRESIN LINEAL MLTIPLE


Ejercicio grupal:
Determine la matriz X, Y, para luego encontrar la matriz de coeficientes
estimados

XX 1 XY

Modelos de regresin con variables dicotmicas

Si una variable cualitativa tiene m categoras, slo hay


que agregar (m-1) variables dicotmicas
Ejemplo: Considrese el siguiente modelo:

Yi a1 a 2 D2i a 3 D3i X i ui
donde Y = salario por hora en dlares
X = educacin (aos de escolaridad)
D2 = 1 si es mujer; 0 en otro caso
D3 = 1 si no es blanco y no hispano; 0 en otro caso
22

REGRESIN LINEAL MLTIPLE


Ejemplo
Vamos a crear un modelo de regresin lienal mltiple para explicar la asimetra de la hoja
en funcin de la longitud de la misma, el ao de medicin y la parte del rbol: canopy
(copa del rbol), sprouts (brotes inferiores). Esta ltima variable es cualitativa dicotmica
por lo que la recodificamos con 0 y 1, respectivamente. Tenemos una muestra aleatoria de
15 datos.
El men Analizar/ Regresin lineal,
introducimos la variable Asimetra
como dependiente y las dems como
independientes.

REGRESIN LINEAL MLTIPLE


Ejemplo
En primer lugar miramos la tabla de coeficientes (B) y escribimos el modelo estimado:

Asimetra 34,2 0,003 Longitud 0,017 Ao 0,078 Parte


Contrastes de nulidad para los coeficientes

H o : i 0

H1 : i 0

Los p-valores asociados a cada contraste de nulidad (sig), nos


indican que la nica variable significativa (al 5%) es la Parte del
rbol, con un p-valor=0,046. Para el resto de coeficientes, no
se puede rechazar la hiptesis de nulidad a este nivel de
significacin. Por tanto, parece que stas variables no explican
a la variable dependiente (asimetra).

REGRESIN LINEAL MLTIPLE


Ejemplo
Observamos ahora en la tabla ANOVA, la descomposicin de la variabilidad de la variable
dependiente (asimetra):

Como puede apreciarse, de la SCT=0.047 solamente 0.016 ha sido explicada por la


regresin.
Contrastes de nulidad para el modelo conjunto

H o : i 0 i

H1 : a lg n i 0

El p-valor asociado a este contraste, nos indica que no es


posible rechazar la hiptesis nula a un nivel de
significacin del 5%; esto lleva a pensar que este modelo
de regresin no est bien planteado, es posible que no
hayamos introducido variables importantes para explicar la
asimetra de la hoja.

REGRESIN LINEAL MLTIPLE


Ejemplo
Veamos el valor del coeficiente de determinacin (R cuadrado):

Este coeficiente vale 0,349. Por tanto solamente hemos conseguido explicar un 34,9%
de la variabilidad total. El R cuadrado corregido incluso es inferior (17,2%). Esto
rearfirma la hiptesis de que el modelo no est bien planteado.
Regresin lineal simple
Ya que el modelo anterior no ha resultado como esperbamos, vamos a eliminar del
mismo las variables que no han resultado explicativas de la variable asimetra. De
esta forma, tendremos un modelo de regresin lineal simple (solamente una variable
independiente o explicativa)

REGRESIN LINEAL MLTIPLE


Ejemplo
Regresin lineal simple

Asimetra 0,059 0,077 Parte


Los contrastes para el nuevo modelo muestran que ambos coeficientes son significativos
al 5%. El R cuadrado muestra que solamente se ha conseguido explicar un 30% de la
variabilidad total, por lo que aunque no sea un buen modelo, por lo menos no considera
variables que no sirven para explicar la asimetra de la hoja y es mucho ms sencillo. De
todas formas, sera necesario replantear el modelo.

REGRESIN LINEAL MLTIPLE


Ejemplo
Regresin lineal simple
Si quisiramos realizar una prediccin con el modelo que hemos obtenido, basta con
sustituir valores en el mismo:

Asimetra 0,059 0,077 Parte


Cul sera la asimetra de una hoja que se encuentra en la parte Canopy del
rbol?
Sustituimos en la expresin del modelo Parte=0 ya que recodificamos la Canopy
con el valor 0:

Asimetra 0,059 0,077 0 0,059


Y por tanto, para obtener la asimetra de las hojas Sprouts, sustituimos en la
expresin del modelo Parte=1 ya que recodificamos las Sprouts con el valor 1:

Asimetra 0,059 0,077 1 0,136

REGRESIN LINEAL MLTIPLE


Ejemplo
Hiptesis previas
El modelo de regresin debe verificar una serie de hiptesis previas relativas al trmino
de perturbacin o error U:

Y 0 1 X 1 2 X 2 k X k U
Hiptesis:
Esperanza nula:
Homocedasticidad:
No autocorrelacin:
Distribucin normal:

REGRESIN LINEAL MLTIPLE


Ejemplo

Hiptesis previas

Se puede calcular el estadstico de Durbin-Watson para comprobar si los residuos son


independientes (si est entre 1,5 y 2,5 se acepta la independencia)

Respecto al resto de condiciones, se puede recurrir entre otros, a los grficos que
proporciona SPSS (histograma de residuos y grfico de probabilidad normal). Tambin se
pueden guardar los residuos y usar test de normalidad (Kolmogorov-Smirnov), de
independencia, etc.