You are on page 1of 14

TEMA 4: MODELO DE REGRESIN LINEAL MLTIPLE

Ana Justel Eusebio - 2007 Justel


Mtodos Estadsticos Estad Licenciatura en Biologa Biolog

REGRESIN MLTIPLE
Cuando la respuesta depende de varias variables explicativas cuantitativas La regresin mltiple es mejor que la simple porque se mejora la prediccin de la variable respuesta predicci Cuando la respuesta depende de ms de una variable, la regresin simple las considera una a una y se pueden producir fcilmente sesgos en la estimacin de los efectos que tienen cada una de ellas en la respuesta Las ideas de la regresin simple se extienden casi

automticamente a la regresin mltiple


Ana Justel Eusebio - 2007 Justel
Mtodos Estadsticos Estad Licenciatura en Biologa Biolog

Modelo

y i = 0 + 1x1i + 2 x 2i + L + k x ki + ui

Requisitos adicionales de la regresin mltiple


Hay al menos tantos datos como parmetros desconocidos par n es igual o mayor que k+2 k+2 Ninguna de las variables explicativas es combinacin lineal combinaci exacta de las restantes (colinearidad) colinearidad)
Ana Justel Eusebio - 2007 Justel
Mtodos Estadsticos Estad Licenciatura en Biologa Biolog

y i = 0 + 1x1i + 2 x 2i + L + k x ki + ui
Interpretacin de los parmetros: Interpretaci par

0 i

Representa el valor medio de la respuesta (y) cuando todas las variable explicativas (x) valen cero

Representa el incremento de la respuesta media (y) cuando la variable explicativa (xi) aumenta en una unidad y el resto de las variables explicativas i = 1,..., k permanecen constantes

Ana Justel Eusebio - 2007 Justel


Mtodos Estadsticos Estad Licenciatura en Biologa Biolog

Los datos
La nube de puntos est en est un espacio de dimensin dimensi k+1, que es difcil de ver dif cuando k es mayor que 2

Notacin matricial x11 x21 y1 1 x12 x22 y 2 1 = M M M M y 1 x1n x2n n

L L O L

xk1 0 u1 xk 2 1 u 2 + M M M xkn k u n

Y = X + U U N(0, 2I)
Ana Justel Eusebio - 2007 Justel
Mtodos Estadsticos Estad Licenciatura en Biologa Biolog

Estimacin de los parmetros

Los clculos son complicados y los hacen los ordenadores


Ana Justel Eusebio - 2007 Justel
Mtodos Estadsticos Estad Licenciatura en Biologa Biolog

Ejemplo: Terapia gnica en el tratamiento de un tipo de cncer


(lvarez 2004, tesis doctoral)

En cada cultivo se prueba a administrar diferentes concentraciones de fluorocitosina (5FC) y distintos niveles de radiacin Se miden los porcentajes de supervivencia de las lneas celulares de cncer, siendo el tratamiento ms efectivo el que da un porcentaje menor
Coeficientesa

Estimacin de los Estimaci coeficientes


Modelo 1 (Constante) fluorocitosina radiacion

Coeficientes no estandarizados B Error tp. 71,578 1,183 -,108 ,005 -4,227 ,417

Coeficientes estandarizad os Beta -,716 -,337

t 60,525 -21,539 -10,131

Sig. ,000 ,000 ,000

a. Variable dependiente: supervivencia

y = 71,578 0,108 fluorocito sina 4,227radiacin


Ana Justel Eusebio - 2007 Justel
Mtodos Estadsticos Estad Licenciatura en Biologa Biolog

Intervalos de confianza de los coeficientes


Error tpico

i = 1,..., k
Los qi+1,i+1 estn en la est diagonal principal de la matriz (XX)-1

Los clculos son complicados y los hacen los ordenadores

Ana Justel Eusebio - 2007 Justel


Mtodos Estadsticos Estad Licenciatura en Biologa Biolog

Ejemplo: Terapia gnica en el tratamiento de un tipo de cncer


(lvarez 2004, tesis doctoral)

En cada cultivo se prueba a administrar diferentes concentraciones de fluorocitosina (5FC) y distintos niveles de radiacin Se miden los porcentajes de supervivencia de las lneas celulares de cncer, siendo el tratamiento ms efectivo el que da un porcentaje menor
Coeficientesa Coeficientes no estandarizados B Error tp. 71,578 1,183 -,108 ,005 -4,227 ,417 Coeficientes estandarizad os Beta -,716 -,337

Modelo 1

(Constante) fluorocitosina radiacion

t 60,525 -21,539 -10,131

Sig. ,000 ,000 ,000

a. Variable dependiente: supervivencia

Errores tpicos t

Ana Justel Eusebio - 2007 Justel


Mtodos Estadsticos Estad Licenciatura en Biologa Biolog

Contrastes de los coeficientes

H0 : i = 0 (la respuesta no depende linealment e de Xi ) H1 : i 0 (la respuesta depende linealment e de Xi )


Rechazaremos H0, al nivel de significacin , si el cero no est en el intervalo de confianza para i Para no tener que fijar , miramos el p-valor de un contraste de la t para cada parmetro i Los clculos son complicados y los hacen los ordenadores
Ana Justel Eusebio - 2007 Justel
Mtodos Estadsticos Estad Licenciatura en Biologa Biolog

Ejemplo: Terapia gnica en el tratamiento de un tipo de cncer


(lvarez 2004, tesis doctoral)

En cada cultivo se prueba a administrar diferentes concentraciones de fluorocitosina (5FC) y distintos niveles de radiacin Se miden los porcentajes de supervivencia de las lneas celulares de cncer, siendo el tratamiento ms efectivo el que da un porcentaje menor
Coeficientesa Coeficientes no estandarizados B Error tp. 71,578 1,183 -,108 ,005 -4,227 ,417 Coeficientes estandarizad os Beta -,716 -,337

p-valores
t 60,525 -21,539 -10,131 Sig. ,000 ,000 ,000

Modelo 1

(Constante) fluorocitosina radiacion

a. Variable dependiente: supervivencia

Influyen tanto la concentracin de fluorocitosina como la concentraci radiacin. La supervivencia de las clulas cancergenas radiaci c cancer disminuye al aumentar la fluorocitosina y la radiacin radiaci
Ana Justel Eusebio - 2007 Justel
Mtodos Estadsticos Estad Licenciatura en Biologa Biolog

Contraste de la regresin
El modelo de regresin lineal NO sirve para explicar la respuesta El modelo de regresin lineal SI sirve para explicar la respuesta

Tabla ANOVA

Rechazaremos H0 , al nivel , si :
Ana Justel Eusebio - 2007 Justel
Mtodos Estadsticos Estad Licenciatura en Biologa Biolog

Los clculos son c complicados y los hacen los ordenadores

Ejemplo: Terapia gnica en el tratamiento de un tipo de cncer


(lvarez 2004, tesis doctoral)

Hay evidencia estadstica de que el modelo sirve para estad explicar la respuesta, al menos alguna variable influye
Coeficientesa Coeficientes no estandarizados B Error tp. 71,578 1,183 -,108 ,005 -4,227 ,417 Coeficientes estandarizad os Beta -,716 -,337

Modelo 1

(Constante) fluorocitosina radiacion

t 60,525 -21,539 -10,131

Sig. ,000 ,000 ,000

Las dos influyen

a. Variable dependiente: supervivencia

Ana Justel Eusebio - 2007 Justel


Mtodos Estadsticos Estad Licenciatura en Biologa Biolog

Casos posibles

Ana Justel Eusebio - 2007 Justel


Mtodos Estadsticos Estad Licenciatura en Biologa Biolog

Coeficiente de determinacin R2
Cmo evaluamos la fuerza del ajuste de un modelo de regresin?

El COEFICIENTE DE DETERMINACIN es la proporcin de DETERMINACI proporci variabilidad explicada por la regresin regresi

R2 = SCE /SCT

INCONVENIENTE DE R2: Siempre aumenta cuando introducimos nuevas variables, aunque no sirvan para explicar la respuesta
Ana Justel Eusebio - 2007 Justel
Mtodos Estadsticos Estad Licenciatura en Biologa Biolog

Coeficiente de determinacin CORREGIDO R2


Se corrige R2 por los grados de libertad El COEFICIENTE DE DETERMINACIN CORREGIDO es DETERMINACI

R 2 = 1

SCR /(n k 1) SCT /(n 1)

Lo usaremos nicamente para comparar modelos con distinto nmero de variables (siempre es ms pequeo que R2 y puede ser negativo)

Ana Justel Eusebio - 2007 Justel


Mtodos Estadsticos Estad Licenciatura en Biologa Biolog

Estimacin de la media de Y
Cul es la respuesta media para valores fijos de las x ?
Como no conocemos la media, proponemos la respuesta media que hemos estimado con el modelo la ecuacin de regresin

Los clculos son c complicados y los hacen los ordenadores


Ana Justel Eusebio - 2007 Justel
Mtodos Estadsticos Estad Licenciatura en Biologa Biolog

Prediccin de Y
Qu respuesta predecimos para un nuevo valor de las x ?
La mejor propuesta es la media de las y. Como no conocemos la media, proponemos la respuesta media que hemos estimado con el modelo la ecuacin de regresin

Los clculos son c complicados y los hacen los ordenadores


Ana Justel Eusebio - 2007 Justel
Mtodos Estadsticos Estad Licenciatura en Biologa Biolog

El intervalo de prediccin es siempre mayor que el de estimacin de la media. Para predecir, primero se propone la media y luego se estima sta. La estimacin de la media slo tiene esta ltima incertidumbre

Ana Justel Eusebio - 2007 Justel


Mtodos Estadsticos Estad Licenciatura en Biologa Biolog

Diagnstico del modelo de regresin


En regresin mltiple hemos desarrollado

Ana Justel Eusebio - 2007 Justel


Mtodos Estadsticos Estad Licenciatura en Biologa Biolog

Multicolinealidad
Cuando las variables explicativas estn muy correlacionadas El caso extremo es cuando una variable es combinacin lineal exacta de otras Intuitivamente, el problema que se presenta es que cada variable que incluimos en el modelo supone un parmetro nuevo a estimar y necesitamos ms informacin. Si los datos no aportan casi nada nuevo es dficil estimar los parmetros Presenta algunos inconvenientes que pueden ser importantes:
Gran varianza de los estimadores Cambio importante en las estimaciones al eliminar o incluir regresores en el modelo Cambio de los contrastes al eliminar o incluir regresores en el modelo Contradicciones entre el contraste F y los contrastes individuales individuales
Ana Justel Eusebio - 2007 Justel
Mtodos Estadsticos Estad Licenciatura en Biologa Biolog

Multicolinealidad - Identificacin
Una seal de alarma es cuando los test para los coeficientes salen NO SIGNIFICATIVOS y el contraste de la regresin sale SIGNIFICATIVO Valores altos en la matriz de correlaciones Relaciones lineales fuertes en la matriz de grficos de dispersin (matrix-plot)

Multicolinealidad - Soluciones
Eliminar regresores para reducir el nmero de parmetros Sustituir las variables muy correlacionadas por una combinacin de ellas que resuma la informacin que contienen (anlisis de componentes principales)
Ana Justel Eusebio - 2007 Justel
Mtodos Estadsticos Estad Licenciatura en Biologa Biolog

Ejemplo: Produccin de residuos peligrosos en una industria del sector de artes grficas

Ana Justel Eusebio - 2007 Justel


Mtodos Estadsticos Estad Licenciatura en Biologa Biolog

Diagnstico de las hiptesis del modelo


Si las hiptesis del modelo son ciertas, entonces los residuos son aproximadamente

Podemos utilizar contrastes y grficos para ver si hay EVIDENCIA CLARA en contra de alguna de las hiptesis

Tienen que estar entre -2 y 2, en una nube de puntos sin forma


Ana Justel Eusebio - 2007 Justel
Mtodos Estadsticos Estad Licenciatura en Biologa Biolog

Ejemplo: Terapia gnica en el tratamiento de un tipo de cncer


(lvarez 2004, tesis doctoral)

Aceptamos la normalidad

Ana Justel Eusebio - 2007 Justel


Mtodos Estadsticos Estad Licenciatura en Biologa Biolog

Ejemplo: Terapia gnica en el tratamiento de un tipo de cncer


(lvarez 2004, tesis doctoral)

No aceptamos la linealidad y la homocedasticidad


Ana Justel Eusebio - 2007 Justel
Mtodos Estadsticos Estad Licenciatura en Biologa Biolog

Ejemplo: Terapia gnica en el tratamiento de un tipo de cncer


(lvarez 2004, tesis doctoral)

La influencia de la fluorocitosina no es lineal, hay que transformar la variable


Ana Justel Eusebio - 2007 Justel
Mtodos Estadsticos Estad Licenciatura en Biologa Biolog

You might also like