Professional Documents
Culture Documents
14.1. Introduccin
Cuando se quiere evaluar la relacin entre una variable que suscita especial inters (variable dependiente que suele denominarse Y) respecto a un conjunto de variables (variables independientes, que se denominan X1, X2, , Xn) las pruebas de contraste de hiptesis mostradas hasta ahora no nos aportan suficiente informacin sobre la relacin en conjunto de todas ellas, dado que los contrastes de hiptesis que conocemos hasta ahora se basan en probar relaciones bivariantes (2 variables), en las que no se tiene en cuenta la posibilidad de que haya otras variables de inters y en las que el sentido de la relacin es bidireccional. Es entonces cuando resulta adecuado y conveniente la aplicacin de los modelos de regresin. Los modelos de regresin permiten evaluar la relacin entre una variable (dependiente) respecto a otras variables en conjunto (independientes). Los modelos re regresin se expresan de la siguiente forma:Y = f (x1, x2, ) + . El objetivo principal de construir un modelo de regresin puede ser, por ejemplo, evaluar cmo afecta el cambio en unas caractersticas determinadas
195
14-CAP 14
195
3/12/06, 12:25
(variables independientes) sobre otra caracterstica en concreto (variable dependiente), denominado modelo con fines explicativos; o tambin nuestro objetivo podra ser intentar estimar o aproximar el valor de una caracterstica (variable dependiente) en funcin de los valores que pueden tomar en conjunto otra serie de caractersticas (variables independientes), denominado entonces modelo con fines predictivos. Existen varias opciones para estimar un modelo de regresin, de entre los que destacan por su facilidad de aplicacin e interpretacin, el modelo de regresin lineal y el modelo de regresin logstica. Teniendo en cuenta el tipo de variable que deseemos estimar (variable dependiente o respuesta) aplicaremos un modelo de regresin u otro. Simplificando, cuando la variable dependiente es una variable continua, el modelo de regresin ms frecuentemente utilizado es la regresin lineal, mientras que cuando la variable de inters es dicotmica (es decir, toma dos valores como s/no, hombre/mujer) se utiliza la regresin logstica. Otro tipo de modelos de regresin utilizados, aunque no tan frecuentemente, son la regresin no lineal o la regresin ordinal que estiman una serie de modelos matemticos que pueden ajustarse mejor que un modelo lineal.
196
14-CAP 14
196
3/12/06, 12:25
p=
1 1 + e - modelo de regresin
En definitiva, en el modelo de regresin logstica estimaremos un modelo de regresin que en lugar de realizar estimaciones para la variable dependiente real, las realizar sobre la funcin de probabilidad asociada a ella, pudiendo entonces aplicar los mtodos de estimacin aplicables al modelo de regresin lineal, diferencindose entonces ambos modelos nicamente en la interpretacin de resultados. Para entender en qu consiste un modelo de regresin as como para interpretar correctamente los resultados debemos relacionar dos conceptos: el coeficiente de correlacin y el anlisis de la varianza. Se puede demostrar que existe una relacin entre el coeficiente de correlacin (r) y el anlisis de la varianza de la regresin, de tal forma que el cuadrado de r, llamado coeficiente de determinacin, multiplicado por 100 se interpreta como el porcentaje de la varianza de la variable dependiente que queda explicada por el modelo de regresin.
14-CAP 14
197
3/12/06, 12:25
Por ejemplo: Partimos con la variable tabaquismo que tiene 3 categoras y que introduciremos en el modelo mediante las variables dummy tabac1 y tabac2. Tabac1 nos mostrar los resultados de comparar la categora de fumador versus las categoras de no fumador y exfumador, mientras que tabac2 nos mostrar los resultados de comparar las categoras de fumador y exfumador versus no fumador. Es condicin indispensable que para interpretar los resultados obtenidos al estimar el modelo de regresin, todas las variables dummy que representan las categoras de una variable original han de interpretarse en conjunto, no pudiendo seleccionar nicamente las que hayan resultado estadsticamente significativas. La codificacin de las variables dummy tabac1 y tabac2 se muestra en la Tabla 19:
Tabaquismo Fumador No fumador Exfumador Tabac1 1 0 0 Tabac2 0 1 0
Tabla 19. Ejemplo de variables dummy creadas para una variable con 3 categoras.
La variable Tabac1 podra interpretarse como una variable que indica si es o no fumador activo y Tabac2 como si es no fumador y no ha fumado alguna vez. Los paquetes estadsticos realizan la transformacin de la variables categricas en las variables dummy necesarias automticamente y no es necesario realizar todo el proceso manualmente, nicamente debe identificarse al programa cul es el nombre de las variables que requieren este tipo de transformacin. Es importante conocer este requisito al construir un modelo de regresin, principalmente al interpretar los resultados obtenidos, dado que en este tipo de variables, obtendremos un resultado global y otro para cada una de las variables dummy, debiendo conocerse qu comparacin se realiza a travs de cada una de las variables dummy que intervienen en el modelo para poder explicar los resultados correctamente.
14-CAP 14
198
3/12/06, 12:25
identificada. Puede ocurrir que aunque el objetivo de nuestro estudio est bien definido, no dispongamos de informacin previa o de indicio alguno que nos pueda indicar qu aspectos son los que suscitan mayor inters. Si a este hecho se le aade, el irresistible impulso de registrar ms informacin de la que realmente necesitamos por si posteriormente pudiramos recurrir a ella (exceso de informacin), construir un modelo de regresin resulta un proceso laborioso y complicado. Por lo tanto, recomendamos desde el inicio elegir con esmero las variables indispensables para su anlisis estadstico. Resulta imprescindible como primer contacto con el modelo analizar la relacin bivariante entre la caracterstica de nuestro inters y el resto de variables registradas durante el estudio una a una. Como criterios para seleccionar aquellas variables a introducir en el modelo de regresin podramos aplicar los siguientes: o en primera instancia y entre otros criterios igualmente vlidos, introducir en el modelo aquellas variables que resultaron estadsticamente significativas en las comparaciones bivariantes realizadas previamente. o en un segundo plano debera considerarse la conveniencia de incluir en el modelo adicionalmente aquellas variables que consideremos especialmente importantes o influyentes, como por ejemplo la edad o el gnero, si sospechamos que a pesar de no haber resultado estadsticamente significativas, podran modificar o intervenir en nuestros resultados, o otra serie de variables de las que hayamos tenido conocimiento de su influencia a travs de estudios previos.
14-CAP 14
199
3/12/06, 12:25
imprescindible evaluar si la interaccin de las variables tabaco, gnero y edad es significativa o no al estimar dicha prevalencia, por lo que introduciremos el trmino de interaccin tabaco * gnero * edad. Automticamente deberan introducirse igualmente en el modelo los trminos de interaccin de orden inferiores, es decir, tabaco*gnero, tabaco*edad y gnero*edad, as como los trminos independientes tabaco, gnero y edad para poder estimar el modelo correctamente. Si se introducen en un modelo de regresin trminos de interaccin y resultan estadsticamente significativos, no se podrn eliminar del modelo los trminos de interaccin de orden inferiores ni los trminos independientes de las variables que participan en la interaccin para simplificarlo, deben mantenerse, aunque no resulten estadsticamente significativos.
14-CAP 14
200
3/12/06, 12:25
gresin, produce que el proceso de seleccin de las variables sea manual, partiendo de un modelo inicial, en el que se obliga a que entren todas las variables seleccionadas, se va evaluando qu variable es la que menos participa en l y se elimina, volviendo a construir un nuevo modelo de regresin aplicando la misma tcnica, pero excluyendo la variable seleccionada y aplicando el mismo proceso de seleccin. Este proceso se repite reiteradamente hasta que se considere que el modelo obtenido es el que mejor se ajusta a las condiciones impuestas y que no se puede eliminar ninguna variable ms de las que los componen.
14-CAP 14
201
3/12/06, 12:25
rentes parmetros de los modelos de regresin. El modelo de regresin lineal se estima mediante una tcnica denominada mtodo de los mnimos cuadrados, mientras que en la regresin logstica se utiliza el mtodo de mxima verosimilitud.
202
14-CAP 14
202
3/12/06, 12:25
14-CAP 14
203
3/12/06, 12:25
mujeres. Sin embargo, si controlramos tambin el ndice de masa corporal (IMC) introducindolo en la ecuacin, posiblemente la variable de gnero no sera significativa, mientras que pasara a serlo el IMC. En ese caso el IMC sera un factor de confusin que deberamos incluir en la ecuacin y ello aunque su coeficiente no fuera significativo. Aprovechamos este punto para decir que debe tenerse cuidado con los trminos relacin, correlacin o significacin y causalidad. Que dos factores estn relacionados no implica de ninguna manera que uno sea causa del otro. Es muy frecuente que una alta dependencia indique que las dos variables dependen de una tercera que no ha sido medida (el factor de confusin).
X1 +
X2 +
X3 +
Para poder interpretar el resultado del modelo de regresin logstica debemos recurrir al concepto de odds, una de las medidas de las que se dispone para poder cuantificar el riesgo. De esta forma el o la odds se define como el cociente de la probabilidad de presentar una caracterstica y la probabilidad de no presentarla, o lo que es lo mismo el cociente del nmero de casos que presentan la caracterstica entre el nmero de casos que no la presentan. Odds= p / (1-p) Se pueden comparar dos odds, por ejemplo entre los pacientes que padecen una cierta enfermedad si presentan cierta caracterstica o no la presentan, en forma de cociente de ambas (denominada odds ratio), de manera que podamos concluir si por ejemplo la enfermedad es ms frecuente entre los pacientes que presentan dicha caracterstica o no la presentan (los trminos Odds y Odds-
204
14-CAP 14
204
3/12/06, 12:25
ratio a los que se hace referencia en este apartado y se explican con ms detalle en el captulo 15. Se puede demostrar que los coeficientes obtenidos en la regresin logstica son medidas que cuantifican el riesgo de presentar cierta caracterstica respecto a no presentarla en base a la variable de estudio, de manera que: Exp ( ) = OR Donde es el coeficiente resultado de la regresin logstica asociado a una cierta variable participante en el modelo. Cuando la variable independiente tratada es numrica, este valor se interpreta como el cambio en el riesgo cuando se incrementa en uno el valor de la variable, mientras que el resto de variables permanecen constantes. Siempre que se construye un modelo de regresin es fundamental, antes de pasar a extraer conclusiones, el corroborar que el modelo calculado se ajusta efectivamente a los datos usados para estimarlo. En el caso de la regresin logstica una idea bastante intuitiva es calcular la probabilidad de aparicin del suceso, presencia de hipertensin en nuestro caso, para todos los pacientes de la muestra. Si el ajuste es bueno, es de esperar que un valor alto de probabilidad se asocie con presencia real de hipertensin, y viceversa, si el valor de esa probabilidad calculada es bajo, cabe esperar tambin ausencia de hipertensin. Esta idea intuitiva se lleva a cabo formalmente mediante la prueba conocida como de Hosmer-Lemeshow (1989), que bsicamente consiste en dividir el recorrido de la probabilidad en deciles de riesgo (esto es probabilidad de hipertensin 0.1, 0.2, y as hasta 1) y calcular tanto la distribucin de hipertensos, como no hipertensos prevista por la ecuacin y los valores realmente observados. Ambas distribuciones, esperada y observada, se contrastan mediante una prueba de Ji-Cuadrado. Finalmente, debe evitarse que en el modelo de regresin planteado pueda producirse el fenmeno de la colinealidad, que dara lugar a soluciones inestables. Se habla de colinealidad cuando dos o ms variables independientes que se introducen en el modelo de regresin estn altamente correlacionadas entre s.
14.9. Ejemplos
Para conocer cmo se estima un modelo de regresin, se presentan a continuacin dos ejemplos que ilustran en primer lugar, un modelo de regresin lineal con la variable dependiente continua y, en segundo lugar, un modelo de regresin logstica, donde la variable respuesta es de tipo binario.
205
14-CAP 14
205
3/12/06, 12:25
206
14-CAP 14
206
3/12/06, 12:25
Figura 61. Obtencin de un modelo de regresin lineal por mens en SPSS. Variables introducidas y mtodo de introduccin de variables
En primer lugar, se presenta un resumen de los modelos obtenidos: en nuestro caso, se han obtenido dos modelos (Figura 62). Observamos en este resumen que aparece R cuadrado (R2), que es el cuadrado del coeficiente de correlacin muestral, tambin denominado coeficiente de determinacin. En consecuencia, este coeficiente indica la proporcin de variabilidad total de la variable dependiente explicada por el modelo de regresin (recta de regresin). Por tanto, el segundo modelo, con una R2 = 0,289, es el que mejor explica la variabilidad de la TAS. Los resultados del anlisis de la varianza (ANOVA) se proporcionan para evaluar la significacin del modelo. Cuanto mayor sea el estadstico F, mejor ser la prediccin mediante el modelo lineal. De nuevo, si el p-valor asociado a F es menor a alfa, se rechazarn las hiptesis nulas en las que se plantea que no hay relacin entre las variables. Como se muestra en la siguiente figura, ambos modelos presentan valores de F significativos, por lo tanto, la recta de regresin tendr los coeficientes de las variables independientes distintos de cero.
207
14-CAP 14
207
3/12/06, 12:25
Figura 62. Resultados obtenidos en la evaluacin de un modelo de regresin lineal en SPSS. R de los modelos
Se ha utilizado el mtodo de por pasos hacia delante y atrs para seleccionar las variables en el modelo. Observamos que el modelo se ha completado en dos pasos. En el primero se introdujo la variable edad y en el segundo se volvi a introducir otra variable, el peso, finalizando en este momento el proceso de seleccin de variables. El modelo de regresin que se propone en segundo lugar, explica la TAS de una persona, en funcin de su edad y su peso. Los coeficientes del modelo de regresin que se presentan en la figura Figura 63 como parte de los resultados obtenidos en SPSS indican los trminos que modifican el efecto de las variables. El modelo estimado (modelo 2) sera el siguiente: Y = 1 X1 + 2 X2 + 3 X3 + .. + n Xn + TAS = 2,056 x Edad + 1,7 x Peso + Donde es el error aleatorio que no se puede definir a partir de las variables incluidas en el modelo.
208
14-CAP 14
208
3/12/06, 12:25
Figura 63. Resultados obtenidos en la evaluacin de un modelo de regresin lineal en SPSS. Coeficientes de los modelos
A partir de los coeficientes obtenidos, podemos deducir que por cada ao de ms que tiene una persona, se incrementa en dos unidades la tensin arterial sistlica, mientras que por cada kilo de ms que pesa una persona, la cifra de tensin arterial se incrementar en 1,7 unidades. El peso y la edad son las dos nicas variables que se relacionan con las cifras de TAS en nuestro ejemplo.
209
14-CAP 14
209
3/12/06, 12:25
Figura 64. Obtencin de un modelo de regresin logstica (respuesta binaria) por mens en SPSS
A continuacin (Figura 65), introducimos la variable dependiente (HTA) y las variables independientes: sexo, peso, altura, tabaquismo, diabetes e hipercolesterolemia, indicando cules de ellas son variables categricas. En este ejemplo, lo son todas exceptuando el peso y la talla. El programa SPSS crear las variables dummy necesarias para poder crear los modelos, de esta forma deberemos indicarle a partir de qu categora de la variable debe empezar a crearlas.
Figura 65. Obtencin de un modelo de regresin logstica por mens en SPSS. Variables introducidas y mtodo de introduccin de variables 210
14-CAP 14
210
3/12/06, 12:25
Los resultados obtenidos de aplicar este modelo se muestran en la figura siguiente. En primer lugar, en la tabla de codificacin de variables categricas se muestra un resumen del formato de las variables dummy creadas para poder estimar el modelo de regresin, lo que nos dar la informacin necesaria para poder posteriormente interpretar los resultados obtenidos. Se le ha asignado internamente el valor 1 al hecho de que un paciente sea hipertenso, factor que tambin deberemos tener en cuenta al interpretar los resultados.
Figura 66. Resultados obtenidos en la evaluacin de un modelo de regresin logstica en SPSS. Correspondencia de las categoras de las variables codificadas con las variables dummy
Posteriormente se muestran los coeficientes de las variables introducidas en la ecuacin (Figura 67). En el segundo y ltimo modelo obtenido, se han introducido la variable edad y el gnero (sex), ambas variables con coeficientes estadsticamente significativos (p<0,05). Adems de los coeficientes obtenemos informacin de Exp(B), que corresponde al Odds-Ratio asociado a cada factor. Si en la ecuacin de regresin tenemos un factor dicotmico, como es el gnero en nuestro caso, la categora que se considera de referencia es la que se le asigna el valor 0, por lo que el OR se atribuye directamente a la otra opcin de respuesta de la variable.A modo de ejemplo el OR del gnero se atribuye directamente al hecho de ser hombre. Es decir, que exp(b) es una medida que cuantifica el riesgo que representa poseer el factor correspondiente respecto a no poseerlo, suponiendo que el resto de variables del modelo permanecen constantes.
211
14-CAP 14
211
3/12/06, 12:25
Cuando la variable es numrica, como es en este caso la edad, es una medida que cuantifica el cambio en el riesgo cuando se pasa de un valor del factor a otro, permaneciendo constantes el resto de variables. As el odds ratio que supone pasar de la edad X1 a la edad X2, siendo b el coeficiente correspondiente a la edad en el modelo logstico es OR = exp[ b x (X2-X1)]. Se trata de un modelo en el que el aumento o disminucin del riesgo al pasar de un valor a otro del factor es proporcional al cambio, es decir a la diferencia entre los dos valores, pero no al punto de partida, esto quiere decir que el cambio en el riesgo es el mismo cuando pasamos de 40 a 50 aos que cuando pasamos de 80 a 90. Cuando el coeficiente b de la variable es positivo obtendremos un odds ratio mayor que 1 y corresponde por tanto a un factor de riesgo. Por el contrario, si b es negativo el odds ratio ser menor que 1 y se trata de un factor de proteccin.
Figura 67. Resultados obtenidos en la evaluacin de un modelo de regresin lineal en SPSS. Coeficientes de las variables introducidas en la ecuacin.
El proceso de seleccin de las variables ha finalizado en 2 pasos. La primera variable introducida en el modelo fue la edad, seguida del gnero (sex), finalizando en este momento el proceso de seleccin de las variables. La variable edad se introdujo en el modelo como una variable continua, por lo que al interpretar los resultados podemos decir que conforme aumenta la edad aumenta el riesgo de padecer hipertensin arterial. Por otra parte, la variable sexo se introdujo como una variable categrica.Al observar el tipo de codificacin realizada internamen212
14-CAP 14
212
3/12/06, 12:25
te (mostrada en la Figura 66), podemos concluir que el hecho de ser hombre (codificado como 1), aumenta aproximadamente 4 veces (OR=4,174) el riesgo de padecer hipertensin arterial. En conclusin el hecho de ser hombre y/o de mayor edad, aumenta el riesgo de padecer hipertensin arterial.
213
14-CAP 14
213
3/12/06, 12:25
214
14-CAP 14
214
3/12/06, 12:25