You are on page 1of 22

Curso de Estadística Avanzada

Dra. Gema Vega (Mayo 2008)

Curso de Estadística Avanzada

Gema Vega

Análisis Estratificado
El análisis estratificado es un tipo de análisis estadístico que estudia la posible asociación entre dos variables categóricas a través de una tabla de contingencia 2x2; pero diferenciando sub-muestras de pacientes según presenten distintas categorías en otra tercera variable. El objetivo de este análisis es comprobar si la relación entre las dos variables se ve modificada por los distintos valores o estratos que puede tomar otra tercera variable. En nuestro caso, querríamos estudiar la relación entre cada uno de los posibles factores de riesgo y la variable resultado (mortalidad o morbilidad), y comprobar, si esta asociación está influida por el hecho de que los pacientes presenten o no, otro factor de riesgo. Para explicar este tipo de análisis vamos a considerar la relación entre la variable dependiente ‘enfermedad’ (si/no) y la variable independiente X1 (si/no). La relación entre estas dos variables la expresaremos a través de una tabla de contingencia de 2x2 como la siguiente: ENFERMEDAD X1 = SI X1= NO a c NO ENFERMEDAD b d a+ b c+ d

Al tratarse de dos variables categóricas, la relación entre ellas, la analizamos, como ya hemos comentado anteriormente, con el test de χ2 de Pearson. Una vez que hemos comprobado que existe relación, podemos obtener el valor del Riesgo Relativo (RR), que medirá la fuerza de esta asociación, según la fórmula: RR= a/(a+b)/c/(c+d) Si en esta relación, pensamos que otra variable X2 (si/no) pueda estar modificando el efecto, tendremos que realizar un análisis estratificado según los dos estratos de esta variable X2 (X2=Si y, X2=No), quedando entonces las siguientes tablas de 2x2:

Para el estrato del valor X2 = SI ENFERMEDAD X1 = SI X1 = NO a' c' NO ENFERMEDAD b' d' a' + b' c'+ d'

-2-

que la variable X2 si ejerce un efecto confusor en esa relación. puede estar influida por el de otra variable y. Por lo tanto. Estas variables cumplen la condición de que están relacionadas con la variable dependiente y con la variable independiente. Este test nos informará si la relación entre ambos estratos es homogénea o no. Es posible que esta relación entre enfermedad y la variable X1 no sólo esté influida por el efecto de la variable X2 sino que su vez. se realiza un test de homogeneidad de los estratos que se llama test de χ2 de Mantel-Haenszel. tenemos que revisar el resultado obtenido con el test de χ2 de Pearson en cada estrato y compararlo con el obtenido antes de la estratificación. existen dos posibilidades. significa que la relación entre enfermedad y la variable X1 es diferente según el estrato que se considere en la variable X2. Mientras que si los estratos son homogéneos. definiendo a este tipo de variables. pero no representan ningún paso intermedio entre ellas. Si ambos son iguales. Si no son homogéneos. por lo que la asociación entre las variables de estudio X1 y ENFERMEDAD se evaluará en función de las categorías de la variable X2. se considera que la variable X2 no ejerce ningún efecto confusor en la relación entre la variable enfermedad y la variable X1. lo que conlleva varias desventajas. teniendo en cuenta que la hipótesis nula (H0) de este test es que los estratos son homogéneos. posiblemente una de las limitaciones más importantes de este tipo de análisis. En esta condición. se van aumentando rápidamente la cantidad de tablas de contingencia al ir estratificando por sucesivas variables.Curso de Estadística Avanzada Gema Vega Para el estrato del valor X2 = NO ENFERMEDAD X1 = SI X1 = NO a'' c'' NO ENFERMEDAD b'' d'' a''+ b'' c''+ d'' Para cada una de estas tablas se realiza un análisis χ2 de Pearson que nos informará sobre la existencia de asociación entre la variable X1 y la variable ‘enfermedad’. Si por el contrario.Una de ellas y. se dice que existe interacción entre la variable X1 y X2. Limitaciones del Análisis Estratificado Según el esquema de análisis por estratos. quiere decir. . es que el número de pacientes representados en cada celda de la tabla de 2x2 es progresivamente menor al ir aumentando el número de estratos. mientras que para ambas en conjunto. que no lo sean. ambos son diferentes. como variables confusoras. -3- . que los estratos sean homogéneos o. para comprobar si la variable X2 ejerce algún efecto en la relación de estudio. que son las que realmente queremos estudiar. éste a su vez por el de otra y así sucesivamente por todas las variables que suponemos que pueden estar influyendo o modificando la posible asociación de las dos primeras.

mediante aproximaciones a funciones matemáticas. La regresión de modelos proporcionales de Cox se utiliza cuando la variable dicotómica que queremos estudiar (aparición de un evento). como el modelo de Regresión Logística. son capaces de deducir el comportamiento de una variable (variable dependiente) a partir de la existencia de otras (variables independientes).Este tipo de análisis sólo se puede realizar con variables categóricas. es necesario emplear técnicas estadísticas que sean capaces de valorar el efecto individual de cada factor de riesgo sobre la variable de resultado. sin que presenten las desventajas del análisis estratificado. obtendremos subgrupos muy seleccionados de pacientes. con la posibilidad de perder información. sino en qué momento del estudio aparece dicho evento. pero.En aquellos casos en los que se estudian un número elevado de factores. -4- . Estas técnicas son los análisis multivariados a través de los modelos de regresión. depende del tiempo. tanto en la investigación médica. Estos modelos de regresión se han venido utilizando cada vez con más frecuencia. si las variables dependientes e independientes son continuas o categóricas y. los cuales. habrá que transformarla previamente en categórica. dificultando la interpretabilidad de los resultados obtenidos. Análisis Multivariado Cuando se quiere valorar el efecto de un número extenso de factores de riesgo sobre una variable dependiente.Curso de Estadística Avanzada Gema Vega Esto conllevará que sea progresivamente más difícil encontrar una relación estadísticamente significativa entre ambas variables. . Esta desventaja es aún mayor en aquellos casos en los que existe una relación dosis dependiente entre el factor de riesgo (variable continua) y la variable dependiente. quitando o “apartando” el efecto de confusión de las demás variables. sin la influencia de ninguna variable. que es importante para el estudio no sólo el que los pacientes presenten el evento. En este caso concreto en el que la variable dependiente es dicotómica se puede utilizar tanto el modelo de Regresión de Cox. La utilización de uno u otro tipo de análisis de regresión depende de las características de las variables que se estén analizando. la estratificación será progresiva frente a diferentes variables al intentar analizar el efecto real entre el factor de estudio y la variable de desenlace. En los casos en que la variable dependiente es dicotómica se distinguen dos situaciones: Presencia de la enfermedad o evento que designaremos con el valor “1”. Con esta estratificación progresiva. Es decir. y Ausencia de enfermedad o del evento de estudio y que designaremos con el valor “0”. Consideraremos que la probabilidad de que aparezca la enfermedad es “p” y la probabilidad de que no aparezca el “1-p”. Es decir. como en la epidemiológica. . dentro de éstas si tienen dos o más categorías (dicotómica o policotómica). por lo que en aquellos casos en que la variable independiente sea cuantitativa.

Curso de Estadística Avanzada Gema Vega En nuestro ámbito. sin tener en cuenta cuándo ocurrió. Actualmente es fácil encontrar programas informáticos que ofrecen al usuario la posibilidad de realizar análisis de regresión automáticamente. considerando solo la posibilidad de que aparezca o no durante el período de estudio. significaría que si trazamos un gráfico donde representamos en un eje el “logit” de la probabilidad de que ocurra el evento (ver más adelante) para cada valor de la variable continua. un diseño del estudio adecuado y una orientación aproximada de las posibles asociaciones entre las variables de estudio. sin ningún tipo de rigor científico. Ventajas y Limitaciones del Análisis Multivariado Las principales ventajas del uso de estos modelos de regresión en comparación con el análisis estratificado es que se necesita un menor tamaño muestral y. el análisis de Regresión Logística se utiliza para la explicación o predicción de eventos que aparecen a lo largo del período de estudio. es necesario comprobar el cumplimiento de una serie de asunciones con anterioridad a la realización del análisis. Aunque nunca es aconsejable la realización de un análisis estadístico sin un objetivo previo. -5- . la aditividad y la propiedad distributiva. que son: la linearidad. ambos se relacionarían por una línea recta. Es decir. Pero en el caso de los análisis de regresión. este tipo de análisis es frecuentemente utilizado cuando se están estudiando factores pronósticos. La mayoría de los modelos de regresión presentan al menos tres tipos de asunciones sobre las propiedades de las variables del modelo. se pueda dar una estimación pronóstica sin haber tenido ninguna consideración matemática especial previa al análisis. es posible que aunque esto no se haya cumplido adecuadamente. tanto a variables categóricas como a variables continuas. en los casos en que se estudia la aparición o positivización de un determinado valor de laboratorio después de una determinada intervención. cada uno de los valores de dicha variable continua. significa que cada cambio continuo de la variable predictora conlleva un cambio en la variable dependiente y que este cambio es lineal. y en el otro eje. la Regresión de Cox y la Regresión Logística no asumen fuertemente la propiedad distributiva de las variables. Las desventajas de la utilización de modelos de regresión se ponen sobretodo de manifiesto cuando se utilizan imprudentemente. Afortunadamente. en el caso del análisis estratificado. etc. La asunción de linearidad. pero sí las dos primeras. También es el caso de la mortalidad tras la realización de determinada intervención. para que las estimaciones obtenidas sean apropiadas. que solamente se aplicaría en aquellas variables independientes continuas que fueran incluidas en el modelo. En el caso de la Regresión Logística. estos modelos permiten analizar como factores predictivos. Son por ejemplo el caso de la supervivencia (valorada a través de la aparición de la muerte) o de aparición de las recidivas tumorales después de un determinado tratamiento o. que no es necesario el que todas las variables independientes sean categóricas. Por otro parte. en donde no se evalúa el momento en que aparece. con la simple entrada de la base de datos y el “apretar un botón”.

-6- . es necesario comprobar que se cumple esta condición por cada una de las variables continuas. que se asume que es más fácil que aparezca el evento cuanto más factores de riesgo tengan los sujetos. En otro tipo de modelos de regresión. la asunción de aditividad implica que los factores predictivos del modelo están relacionados con la variable dependiente en un sentido aditivo. sin que se asuma una forma específica para esta distribución. Pues a veces. ni en las inferencias sobre los distintos factores de riesgo. por lo que se asume que la mejor predicción del modelo no vendrá explicada por la unión o interacción entre distintas variables.Curso de Estadística Avanzada Gema Vega Por otro lado. además de éstas. querría decir que el efecto de cada factor se multiplicaría al efecto de los demás factores. en el logaritmo o en la raíz cuadrada). que cada factor de riesgo que se incluya en el modelo aporta su efecto sobre la variable resultado. la comprobación de la propiedad de aditividad. no mantiene una asunción distributiva y la regresión de modelos proporcionales de Cox asume que la distribución de las variables en el tiempo tiene la misma forma en los distintos pacientes. con anterioridad a su inclusión en el análisis. En el caso de la propiedad de linearidad. Cuando no se contemplan estos tres tipos de asunciones. Es decir. Así. para poder conseguir la linearidad con el “logit” de la variable de estudio. En el análisis discriminante se asume que todas las variables continuas incluidas en el modelo conjuntamente se distribuyen según una distribución normal multivariante. los modelos de regresión pueden no ajustarse en su poder discriminante. la Regresión Logística binaria o dicotómica. existen otras asunciones que hay que contemplar. entonces el modelo no asumiría que el efecto de una variable es el mismo para todos los valores de otras variables. por ejemplo multiplicativo. Por el contrario. es necesario hacer alguna transformación de estas variables continuas (en el inverso. siempre que estas interacciones tuvieran una explicación clínica o biológica. Es decir. que se utiliza cuando la variable dependiente es continua. se realiza con posterioridad a la obtención del modelo. la cual se puede probar introduciendo en el modelo distintas interacciones entre los factores. se debe de comprobar o asumir que dicha variable dependiente sigue una distribución normal de Gauss. los modelos de regresión más comúnmente utilizados para el análisis pronóstico no mantienen estas asunciones tan estrictas. sino por la mayor cantidad de variables que presente el modelo. sumando su efecto al de los demás factores de riesgo. En el caso de la regresión linear múltiple. No obstante. Mientras que si tuviera otro efecto. Si alguna de estas fuera significativa. Es por esto.

más una constante (β0). En este caso. el valor de la función de probabilidad sería ‘f(p)= ½’. de no presentarlo (p =0. a través de una expresión matemática que contempla la existencia de un número de variables independientes o explicativas. en este supuesto el evento no dependería de la existencia de las variables independientes Xi. nos daría la unidad. comprendidos entre el valor ‘0’ y ‘1’. que va a variar entre ‘0’ (no evento) y ‘1’ (evento) ‘e’ es el valor del número ’e’ ‘Ζ’ es una expresión matemática del sumatorio de los productos de cada una de las variables independientes (Xi) por un coeficiente (βi). en este tipo de análisis la hipótesis nula (H0) que hay que rechazar es que ‘βi = 0’. La estimación de dichos coeficientes se realiza a través de métodos de resolución iterativos. que a pesar de la existencia o no de las variables Xi. Se calcula según la fórmula: Ζ = β0 + β1* X1 + β2* X2 + β3* X3 +…+ βi* Xi En donde. a pesar de que ‘Ζ’ pueda tomar valores entre -∞ y +∞ ‘p’ es la variable ‘probabilidad de que ocurra el evento’. Esto quiere decir. Obtención de los coeficientes βi El procedimiento matemático a través del cual se obtienen los distintos valores de los coeficientes ‘βi’ es complejo. Por lo tanto. Por tanto. ‘f(p)’es la distribución logística. y al elevar el número ’e’ a ‘0’. se representa matemáticamente según la fórmula: f(p)= 1/ 1+ e En donde. y proporciona valores continuos de ‘p’. Puesto que.5). existiría la misma probabilidad de presentar el evento que. Las variables (Xi) permanecerán en el modelo cuando se demuestre que el coeficiente βi es distinto de cero. si los coeficientes βi fueran iguales a ‘0’. β0 …βi representan a los coeficientes y. cuya variable sólo puede tomar los valores comprendidos entre ‘0’ y ‘1’. para cualquier valor de ‘Ζ’. y que. Concepto Matemático El análisis de Regresión Logística se basa en intentar explicar una función matemática sigmoidea (distribución logística). al valor real que presenta la variable resultado en la muestra de estudio. Ζ también sería cero. siendo necesario el uso de programas estadísticos -Ζ -7- .Curso de Estadística Avanzada Gema Vega Análisis de Regresión Logística En un análisis multivariado de Regresión Logística la variable dependiente es dicotómica y no depende del tiempo. X0 …Xi representan a las variables independientes o explicativas del modelo El modelo matemático asigna un valor a los distintos coeficientes βi con el fin de ajustar la función de probabilidad de presentar el evento. la cual recuerda a la distribución de probabilidad condicionada.

menor de 0. también es necesario introducir aquellas características de los pacientes que desde el punto de vista epidemiológico pueden influir o estar relacionados con la variable de resultado aunque no hayamos podido demostrarlo estadísticamente.20. como consecuencia de los cambios en las variables y en sus coeficientes. se van añadiendo de una en una. en función de que la introducción de una variable represente un cambio significativo en el ajuste.Una de ellas es el método ‘forward’ o ‘hacia delante’. cuales. Según Harrel y col. además de introducir aquellos factores de riesgo que cumplan estos criterios estadísticos. Este coeficiente es una constante y vendría a representar a aquella cantidad de la nube de puntos que no se puede explicar a través de las variables del modelo. Estos métodos consisten en ir calculando los valores de los coeficientes ‘βi’. El ajuste se comprobaría a través de test estadísticos de máxima verosimilitud. aunque no hubieran alcanzado la significación estadística.10. el siguiente problema que hay que resolver es el de cuantas variables independientes hay que introducir en el modelo. ó. y cómo se van introduciendo. hay distintos métodos. y otros autores. Esta constante debe estar presente en cualquier modelo predictivo de Regresión Logística. incluso. en la fórmula matemática también existe otro coeficiente independiente (β0). las diferentes variables independientes. tuvieran un valor de p<0. en el modelo se deben introducir todas aquellas variables que en análisis bivariado hayan demostrado estar relacionadas de manera estadísticamente significativa con la variable resultado y también a aquellas asociaciones estadísticas que. Se realizan múltiples iteraciones con el fin de encontrar el mejor ajuste de la función de probabilidad a la nube de puntos que representarían los datos de la muestra de estudio. con respecto al anterior modelo sin esa variable. en el que primero se introduce la constante y luego. A) Métodos de Introducción de variables independientes Con respecto a cómo se van introduciendo las variables independientes (Xi) en el modelo multivariado de Regresión Logística. Estos cambios de las variables del modelo paso a paso. y la evaluación del ajuste que ésta conlleva. se puede realizar de dos formas: . del total de las variables que hemos escogido para el análisis multivariado por cumplir las condiciones que explicamos anteriormente. Para ello se realizarían múltiples iteraciones hasta llegar a obtener aquellos coeficientes ‘βi’ que maximicen la probabilidad de obtener los valores de la variable dependiente (aparición del evento) que hemos encontrado en la muestra.Curso de Estadística Avanzada Gema Vega automáticos. en cada paso del análisis y. El criterio de selección de la variable independiente en cada paso. Además de los distintos coeficientes de cada variable. según se van cambiando una a una las variables ‘Xi’. Este cambio se mide. siendo los métodos ‘paso a paso’ (stepwise) los que están más ampliamente recomendados en los estudios predictivos. cuantificar estadísticamente los cambios que se producen en el ajuste del modelo. No obstante. al mismo tiempo. la introducción de cada una de esas variables. depende del cambio global que produzca en el ajuste del modelo. La inclusión siempre se realizará -8- . Variables independientes en el Análisis de Regresión Logística Una vez que ya se ha encontrado la mejor estrategia estadística para hacer el análisis.

para posteriormente. cuando el número de variables independientes introducidas en el análisis. Este problema aún es mayor cuando se considera la posibilidad de que exista interacción entre las variables independientes. cuanto menor sea el tamaño de la muestra. el que esta técnica no se utilice en aquellos estudios. a no ser que el número de eventos sea al menos 10 veces mayor que el número de variables introducidas en el análisis de regresión. . un análisis de reducción de datos. que la mayoría de las veces estos modelos son difíciles de interpretar al no poder dar una interpretación clínica o biológica a cada uno de los factores implicados en el modelo. Y otra.El otro método es el ‘backward’ o ‘hacia detrás’. En ambos métodos. de cada una de las variables originales. por lo que no se debe de utilizar la selección de los pacientes paso a paso. al comprobar que su permanencia en el modelo no aporta ninguna diferencia estadísticamente significativa. con respecto a la variable resultado. Esta variación será tanto mayor. como es por ejemplo el análisis de componentes principales. se van modificando los distintos coeficientes de las demás variables que permanecen. En contraposición a esta mejoría en el poder discriminante. sería necesario realizar con anterioridad a la Regresión Logística. en un primer lugar se introducen todas las variables en el modelo. es que todas las variables originales reciben un peso en cada uno de los factores. en el que a diferencia del anterior. con respecto al modelo sin dicha variable. si manteníamos el mismo número de variables independientes. es superior a una décima parte de los eventos ocurridos en la variable dependiente. Es por esto. y comprensible por la mayoría de los profesionales implicados. demostraron que el poder discriminante de los modelos iba empeorando a medida que disminuía el número de eventos de la variable de estudio. puede variar el resultado de las variables implicadas en el modelo definitivo. Con estos análisis previos confirman que se consigue un mejor poder discriminante. con los que se ajusta mejor el modelo a los datos de la muestra o a la ‘nube de puntos’. hasta que ninguna de las variables restantes aporte cambios estadísticamente significativos al modelo. Harrel y col. existen otras desventajas asociadas a la utilización de los modelos obtenidos de esta manera. cada vez que se va incluyendo o excluyendo una variable. Estos mismos autores sugieren que en aquellos casos en los que no se pueda obtener suficiente muestra como para cumplir esta proporción entre el número de eventos y el número de variables independientes. ir eliminando en cada paso la variable que menos contribuye al ajuste del mismo. Por esto se considera que la selección ‘paso a paso’ puede no ser válida. por lo que es difícil saber la contribución real y de forma independiente. B) Limitaciones del método ‘stepwise’ (‘Paso a Paso’) La selección de las variables ‘paso a paso’ hacia delante o hacia atrás que se utiliza en los distintos tipos de regresión. Ambas desventajas conllevan. en comparación con los modelos obtenidos a partir de las variables originales y el mismo tamaño muestral. hasta conseguir aquellos. en los que se quiere crear un modelo que sea fácilmente aplicable en clínica. Una de ellas es.Curso de Estadística Avanzada Gema Vega por orden decreciente de significación estadística. -9- .

En los métodos ‘paso a paso’.2Log (verosimilitud del modelo con variable / verosimilitud del modelo sin variable) Bajo la hipótesis nula (H0) de que el coeficiente de la nueva variable es igual a cero. a la probabilidad final de aparición del evento. cuya fórmula matemática es: D = -2Log(verosimilitud del modelo estudiado / verosimilitud del modelo saturado) El resultado ‘D’ es la ‘devianza’. La variable dependiente se codificará como ‘0’.10 - . como hemos comentado anteriormente. el cual se obtiene según la fórmula: ‘W’ = coeficiente de la variable / error estándar del coeficiente Este índice sigue una distribución normal de Gauss. Así también se codificarán todas las variables independientes dicotómicas. Codificación de las variables en el Análisis de Regresión Logística Para poder realizar correctamente el análisis de Regresión Logística con el programa estadístico SPSS.96 deben ser conservadas en el modelo. los coeficientes ‘βi’ se obtienen por el procedimiento de máxima verosimilitud y que además. comprobando el efecto significativo o no. recordaremos que. los grados de libertad serían el número de categorías menos uno. el cual comentaremos a continuación.05) y de manera independiente. ‘G’ sigue una distribución de χ2 con un grado de libertad en aquellos casos en los que la nueva variable sea dicotómica o continua. A partir de ésta se puede obtener un valor ‘G’ según la fórmula: G = D(modelo con la variable) – D(modelo sin la variable) = = . aquellas variables que tengan un índice de Wald >1. es decir. el número de variables dummy creadas para introducir esa variable en el modelo (ver más adelante).Curso de Estadística Avanzada Gema Vega C) Validación del modelo en los métodos ‘Paso a Paso’ Al utilizar estos métodos ‘paso a paso’. la ecuación de ajuste matemáticamente perfecto (modelo saturado). de la inclusión de una variable nueva o la exclusión de la peor variable de las ya existentes. realizándose esta comparación a través del logaritmo de la función de máxima verosimilitud. se trata de comparar cada modelo con este modelo perfecto o saturado. . cuando no ocurra el evento y. Para ello. es aquella con tantos coeficientes ‘βi’ como individuos conformen la muestra. Por lo que. es necesario analizar la validez del modelo en cada etapa del proceso. Otro método para estudiar la permanencia o exclusión de una variable en el modelo es calcular el índice de Wald. Valores de ‘G’ superiores a la χ2 de la tabla de Pearson para un grado de libertad permiten rechazar la ‘H0’ y la variable por tanto debe permanecer en el modelo. al contribuir significativamente (p<0. es necesario utilizar un tipo concreto de codificación de las distintas variables. como ‘1’ cuando si ocurra. En los casos en que esa nueva variable tuviera varias categorías. que representa de alguna manera a aquella información de la nube de puntos que no es explicada por el modelo.

para cumplir la asunción de linealidad. la fuerza de la asociación entre la variable original y la variable resultado se medirá a través del riesgo que supone estar en una categoría (pertenecer a una variable ficticia) frente a estar en otra categoría. Habitualmente. éstas se introducirán tal y como están en la base de datos o una vez que hayan sido transformadas. un paciente que presente cualquier categoría superior a la categoría de referencia. Para ello es necesario. ésta primero se codificará en valores numéricos crecientes. tendrán el valor ‘0’ en todas las variables ficticias creadas. la cual se toma como referencia. obtendrán el valor ‘1’ en la primera variable dummy. en aquellos casos en que las categorías sean exposiciones graduales a un factor de riesgo. se debe de explicar claramente cual es la categoría de referencia. De tal manera. el valor ‘1’ en la segunda variable dummy y el valor ‘0’ en las demás. cual se va a considerar la categoría de referencia. que aquellos enfermos que en la variable original presenten el valor de la categoría inferior (‘0’). es posible encontrar una relación significativa entre la variable resultado y alguna de las variables ficticias o categorías. se crearán tantas variables ficticias dicotómicas como número de categorías menos ‘1’ exista en la variable original. Los pacientes que tengan la categoría con valor ‘2’ en la variable original. Y así. En estos casos es necesario mantener todas las variables ficticias en el modelo. De esta forma. el hecho de que en el modelo vengan representadas por distintas variables.Curso de Estadística Avanzada Gema Vega En aquellos casos en que las variables categóricas tengan más de 2 categorías. Esta transformación consiste en crear nuevas variables dicotómicas ficticias (“dummy”).2. y el valor ‘0’ en el resto de las variables dummy. sucesivamente. pero manteniendo la misma información que en la variable original. obtendrán el valor ‘0’ en la primera variable dummy. la categoría inferior o superior. hay que saber que en estos casos. que será precisamente la que representa a su categoría. es simplemente una transformación matemática necesaria para poder llevar a cabo este tipo de análisis. Posteriormente. A estas variables ficticias dicotómicas se les dará el valor ‘1’ ó ‘0’. sólo tendrá el valor ‘1’ en una única variable dummy.11 - . porque realmente las variables ‘dummy’ representan diferentes categorías de un mismo factor de riesgo y. en aquellos casos en que las categorías no representan niveles de exposición. Los que presenten el valor ‘1’ en la variable original.…). Es importante resaltar que. sin que exista frente a todas ellas. determinada categoría en la variable original. Por el contrario. que previamente al análisis se identifique la categoría de referencia. los programas estadísticos realizan la transformación en variables ficticias de forma automática. Aunque posteriormente comentaremos cómo se manejarán este tipo de variables en el modelo definitivo. de qué variable categórica se trata y. Esto es así. Para la creación de las variables ficticias a partir de la variable original.1. dependiendo de si el paciente presenta o no. . En la actualidad. considerando como primer valor posible el ‘0’ (0. se utiliza como categoría de referencia. En el caso de que las variables sean continuas. aunque es necesario darles la información oportuna sobre. será necesario hacer una transformación previa para convertirlas en dicotómicas.

‘p’ es la probabilidad de que aparezca el evento y. sólo se puede utilizar en aquellos estudios que sean prospectivos. A) Cálculo de la OR en Regresión Logística En el análisis de Regresión Logística. en los pacientes que tiene el factor de riesgo. vamos a referirnos a cómo se deben de interpretar los resultados obtenidos una vez realizado el análisis. se puede asumir.Curso de Estadística Avanzada Gema Vega Significado de los coeficientes ‘βi’ Una vez que ya hemos comentado qué variables se deben de introducir en el modelo.12 - . y sí la proporción de eventos y no eventos. entre la incidencia de aparición del evento en los pacientes que no presentaban el factor de riesgo. mientras que la OR se utilizará en los estudios retrospectivos. cómo se introducen éstas en el análisis para obtener el modelo definitivo. Primero analizaremos el significado de los coeficientes ‘βi‘. en los pacientes que tienen el factor de riesgo. Ζ = β0 + β1* X1 + β2* X2 + β3* X3 +…+ βi* Xi. y como se deben de codificar. ‘1. frente a los que no lo presentan. pues en éstos.p = e En donde. se estima a partir del coeficiente ‘βi‘. se utilizan cómo medida de la fuerza de la asociación entre las dos variables de estudio (una variable independiente y otra variable dependiente). El Riesgo Relativo (RR) representa el riesgo de padecer la enfermedad entre aquellos pacientes que presentan el factor de riesgo. y se obtiene al dividir la incidencia de aparición del evento en los pacientes que presentaban el factor de riesgo. Se refiere a cuantas veces es más frecuente que ocurra el evento frente a que no ocurra. frente a los que no lo presentan. y matemáticamente demostrar. entre los que presentan el factor de riesgo y los que no lo presentan. frente a los que no tienen el factor de riesgo. No obstante. Para ello. Para entender cómo se realiza esta estimación tenemos que volver a la fórmula inicial del modelo logístico: f(p)= 1/ 1+ e p / 1. la fuerza de la asociación entre las variables independientes y la variable resultado.p’ la probabilidad de que no aparezca el evento. La Odds Ratio (OR) mide la relación entre la aparición del evento y la no aparición del evento. . Pero existe una diferencia en el concepto de ambos. Ζ -Ζ Que matemáticamente es lo mismo que. en aquellos casos en que la aparición del evento es poco frecuente en la población de donde se obtuvo la muestra (incidencia <10%). no se puede obtener la incidencia de aparición del evento. Como el RR se obtiene a partir de incidencias. que la OR es una buena aproximación del RR. es necesario volver a recordar los conceptos epidemiológicos de cómo se obtienen el riesgo relativo y la odds ratio. Tanto la OR como el RR.

siempre que los demás factores permanecieran constantes. en las variables categóricas dicotómicas. si el paciente no presentara el factor de riesgo (X1=0).Curso de Estadística Avanzada Gema Vega Si consideramos que el modelo sólo tuviera una variable. Esta OR representa la fuerza de la asociación entre cada factor y la variable dependiente. esto es igual a: Si calculamos el logaritmo neperiano de OR Ln OR X1= Ln (p/ 1.p) = β1 X1. Mientras que. la OR para cada factor la calcularemos con la simple operación matemática de elevar el número ‘e’ a cada coeficiente ‘β’. Es decir. que si el paciente tuviera el factor de riesgo (X1=1). matemáticamente se podría demostrar que. la OR se obtiene al dividir la odds de presentar un evento frente a no presentarlo en los pacientes que tienen el factor de riesgo. Según la argumentación anterior. pero que se puede generalizar para aquellos modelos en los que hay más de una variable Ln(p/ 1. la OR así obtenida expresará el riesgo de que se produzca el evento asociado a presentar dicho factor. una vez que obtengamos el modelo logístico definitivo. que este caso particular sería el Logit para el factor X1. de manera independiente de los demás factores de riesgo.p = e β0 Esto se denomina la odds sin el factor de riesgo Como hemos recordado anteriormente. nos dará el valor de ‘β1’ A esta expresión del ‘Ln(p/1-p)’ se le denomina transformación ‘Logit’ de ‘p’. la odds con factor entre la odds sin factor OR OR X1 X1 =e =e β0 + β1 β1 /e β0 Y.p = e β0 + β1 lo que se denomina la odds con el factor de riesgo. Por tanto.13 - . Es decir. entre la odds de presentar el evento frente a no presentarlo.p = e β0 + β1* X1 Es decir. la fórmula quedaría p/ 1. cada coeficiente ‘βi’ representa el logaritmo neperiano de la OR para cada factor ‘Xi’. .p) = β0 + β1* X1 + β2* X2 + β3* X3 +…+ βi* Xi En estos casos en los que en el modelo existe más de una variable (Xi). en los que no tienen el factor de riesgo. la OR debida exclusivamente a la presencia de ese factor una vez eliminado el efecto de los demás factores estudiados. la expresión quedaría p/ 1. la probabilidad de que ocurriera el evento frente a que no ocurriera sería p/ 1.

se debe de medir con el riesgo relativo y no con la odds ratio. tendrán la misma probabilidad de aparición del evento. Por ejemplo. Este cálculo se realiza a partir del modelo. en las variables anteriormente mencionadas. B) Estimación poblacional de las OR obtenidos por Regresión Logística Una vez que se han obtenido los OR a partir de los coeficientes ‘βi‘. Esto podría ser el caso de la variable Edad (medida en años). se calcularán a partir del error estándar de cada uno de ellos (Sβ1). estimaremos la OR del intervalo de cambio de la variable que se haya considerado (‘c’). Es decir.96* c* Sβ C) Cálculo de los RR a través de Regresión Logística En los casos de estudios prospectivos. que todos aquellos pacientes que tomen los mismos valores en las variables que incluye el modelo. no obtenemos una probabilidad de aparición del evento distinta para cada uno de los pacientes que estamos estudiando. entre la incidencia de aparición del evento en los no expuestos. En el caso de las variables cuantitativas. . es necesario estimar estos parámetros a través de los intervalos de confianza del 95%.96* Sβ1) Para las variables continuas. a través de la transformación del coeficiente ‘β’. los mismos aumentos. hay que tener en cuenta que estas variables están representadas en el modelo por las variables ficticias o variables ‘dummy’. que sea relevante clínicamente. frente a la categoría de referencia. la OR la calcularemos al elevar el número ‘e’. En estos casos. el logaritmo neperiano del coeficiente de esa variable expresaría la OR por cada unidad de aumento en dicha variable. Una vez que se ha fijado un nivel de cambio relevante (c). Por lo tanto. En estos casos de variables cuantitativas se puede establecer un nivel de “cambio” de valor de la variable. es más conveniente calcular el RR para cada variable. pero no. lo que a veces no tiene ninguna relevancia clínica. la OR obtenida a partir del coeficiente. o de la Presión Arterial (medida en mmHg). al producto de multiplicar el coeficiente‘β’ por la constante ‘c’ (e c*β). la fuerza de la asociación entre las distintas variables independientes y la dependiente. sino a través del valor de ‘p’. calculando los límites del intervalo de confianza del 95% a partir de la fórmula: e c*β ± 1. podría ser el caso del aumento de un año de edad entre 20 y 21 años ó entre 74 y 75 años y. Los límites de éstos.Curso de Estadística Avanzada Gema Vega En el caso de variables categóricas con más de dos categorías.14 - . tampoco tienen el mismo significado en los distintos valores que tome la variable. éste se obtiene a partir de dividir la incidencia de aparición del evento en los enfermos expuestos al factor de riesgo. según la fórmula: e(β1± 1. representaría la OR de esa categoría (la de la variable ‘dummy’). donde además. en el caso de la Presión Arterial. en donde cambios en una unidad de medida no tienen una traducción clínica o epidemiológica de importancia y. los cambios de 1 mmHg entre 70 y 71 mmHg ó entre 95 y 96 mmHg de Presión Arterial diastólica. sino que lo que obtenemos es la probabilidad para grupos de pacientes que presenten unas determinadas variables o características. En los casos anteriores podría ser 10 años ó 10 mmHg. Con el cálculo matemático de la ecuación obtenida en el modelo de Regresión Logística. Según la definición del RR. Aunque la OR es una buena estimación del RR cuando la incidencia de aparición del evento es baja.

‘X3=1’) entre p (‘X1=0’. que es en el que se diferencian. sólo se diferencian en la presencia o ausencia de una de ellas. también será necesario calcular los intervalos de confianza para los RR. cuya ecuación de Regresión Logística vendrá definida por p = 1/ 1+ e – (β0 + β1* X1 + β2* X2 + β3* X3) Queremos calcular el RR para la variable ‘X1’ y para ello debemos calcular la incidencia de aparición del evento cuando los pacientes tienen el factor ‘X1’ y.‘X3=1’) D) Estimación de los RR obtenidos por Regresión Logística En estos casos. Que representaría a la probabilidad de que ocurra el evento cuando se tiene el factor de riesgo ‘X1’. Y.‘X2=1’. sino a través de los valores de probabilidad obtenidos a partir de la fórmula del modelo definitivo. que definen a grupos de pacientes con unas características determinadas (‘Perfiles’ o ‘Patrones de Variables’). ‘X2’ y ‘X3’. pero tampoco será a través de los coeficientes βi. frente a la probabilidad de que ocurra el evento cuando no se tiene ese factor de riesgo ‘X1’. siempre que las variables ‘X2’ y ‘X3’ se mantengan constantes.‘X2=1’.‘X3=1’). Según las condiciones anteriores.‘X2=1’. Es decir.‘X3=1’ = 1/ 1+ e – (β0 + β1 + β2 + β3) Y. ‘X1’.‘ X2=1’.96*Sβ1). Según esto. Es decir el valor de ‘p’ cuando el factor ‘X1=1’ y el valor de ‘p’ cuando el factor ‘X1=0’.Curso de Estadística Avanzada Gema Vega obtendremos valores de probabilidad de presentar el evento. cuando dichos factores toman el valor máximo o mínimo según el coeficiente βi y su error estándar Sβ1.‘X3=1’) / p(‘X1=0’. la incidencia de aparición del evento cuando no tienen ese factor. los límites del intervalo (IC95%) se obtendrán de la siguiente manera: . RR‘X1’ = p(‘X1=1’. ‘ X2 =1’ y ‘X3=1’. el valor de ‘p’ será p ‘X1=0’.‘ X2=1’. Para nuestro ejemplo consideraremos que toman siempre el valor ‘1’. Pondremos como ejemplo un modelo en el que existen tres factores de riesgo. para aquellos pacientes que también tengan las características ‘X2=1’ y ‘X3=1’. el RR de esta variable ‘X1’.‘X3=1’ = 1/ 1+ e – (β0 + β2 + β3) Una vez obtenidos estos dos valores de ‘p’. el valor de ‘p’ será P ‘X1=1’. para aquellos pacientes que tengan las características de ‘X1=1’. podríamos obtener esa probabilidad para aquellos enfermos que. para un nivel de seguridad del 95% (βi ± 1.El límite superior del intervalo de confianza será el valor del RR obtenido . presentando todas las características idénticas. pero la variable ‘X1=0’.15 - . lo obtendremos de dividir p(‘X1=1’.‘X2=1’. Para un modelo con una sola variable X1. a partir de aquí obtendremos el RR para ese factor. Estas variables pueden tomar tanto el valor ‘0’ como el valor ’1’.

tomando como coeficiente de dicha variable a “β11.96*Sβ1” en la fórmula del modelo. que será el valor del RR obtenido a partir de dividir la probabilidad de que ocurra el evento teniendo el factor de riesgo X1. Además de estas consideraciones clínicas y/o epidemiológicas. pX1=1 = 1/ 1+ e – ((β0 + (β1 . pero que al mismo tiempo.96*Sβ1) X1)) entre la probabilidad de que ocurra el evento sin tener ese factor X1 p X1=0 = 1/ 1+ e – (β0) . Es posible. se mantendrán las dos variables independientes. Para ello hay que introducir en el análisis estadístico a la interacción de dos variables como una nueva variable (variable interacción). A pesar de ello.En el caso de que necesitemos utilizar la transformación de variables categóricas en variables ficticias (dummy). se creará un nuevo modelo donde además de la variable interacción.16 - . Esta propiedad es la que hace que el modelo sea ‘parsimonioso’. e incluso. que lo modifique. desaparezca la significación estadística de los coeficientes de las variables de la interacción por separado. y comprobar si el ajuste del modelo mejora o no. . En el caso de que sí lo sea. no se debe de basar exclusivamente en estimaciones estadísticas.96*Sβ1) X1)) entre la probabilidad de que ocurra el evento sin tener ese factor X1 pX1=0 = 1/ 1+ e – (β0) Configuración final del modelo Una vez que hemos obtenido el modelo. tomando como coeficiente de dicha variable a “β1+1. puede ocurrir que encontremos significación estadística sólo entre la variable dependiente y alguna de las variables ficticias. pues representan al mismo factor de riesgo (variable categórica policotómica). aunque no se haya conseguido demostrar que tenga una significación estadística. también es importante contemplar que el modelo definitivo debe de cumplir algunas condiciones matemáticas que comentamos a continuación: .Del mismo modo se calculará el límite inferior del intervalo de confianza.Curso de Estadística Avanzada Gema Vega al dividir la probabilidad de que ocurra el evento teniendo el factor de riesgo X1.1. es necesario mantener todas ellas en el modelo.96*Sβ1” en la fórmula del modelo. Es necesario que el investigador compruebe la relevancia del modelo. En estos casos. la configuración final del mismo. p X1=1 = 1/ 1+ e – ((β0 + (β1+ 1. al incluir alguna variable que tenga interés desde el punto de vista clínico o epidemiológico. que en el nuevo modelo la variable interacción sea significativa. hay que considerar la posibilidad de que este último modelo sea mejor o no.Hay que descartar la existencia de interacción entre las variables independientes. pues mantiene todos los niveles .

la respuesta observada y la respuesta predicha por el modelo. Esta reducción se realiza según criterios estadísticos. Mientras que. por tener mayor número de perfiles. lo que se denomina la ‘χ2 residual de Pearson’. Por el contrario. las distintas posibilidades de combinación de las variables que se encuentran en el modelo y que pueden aparecer por la presencia o ausencia de cada una de ellas. nos debemos preguntar cuál puede ser el mejor modelo. Como estas diferencias pueden ser de diferentes signos (positivas o negativas). para los distintos grados de libertad. cuando existen variables continuas en el modelo. Se estudiaran sólo aquellas interacciones entre los factores. se agrupan el elevado número de perfiles. es posible que haya tantos perfiles como individuos en la muestra. Cuando las variables independientes son categóricas.Curso de Estadística Avanzada Gema Vega ‘jerárquicos’ de las variables que están en el mismo. Pero esta aproximación es incorrecta para aquellos modelos en los que se introducen factores cuantitativos. la cuantificación del desajuste se hace a través de la suma de los cuadrados de todos los residuales. El ajuste del modelo final se estudia por ‘la bondad de ajuste’. que puedan tener una explicación biológica o fisiopatológica. Bondad de Ajuste del Modelo de Regresión Logística Una vez que hemos obtenido la configuración final del modelo. por el cual. por lo que habrá mayor número de perfiles. Este valor en Regresión Logística se denomina ‘residual de Pearson’ (χ). es poco probable que muchos pacientes presenten los mismos valores en estas variables. el número de perfiles es más pequeño que el número de enfermos incluidos en la muestra de estudio. Estas configurarán los distintos perfiles de pacientes de los que disponemos en la muestra y de los que podemos obtener el valor de probabilidad de que ocurra el evento. para mantener la asunción de aditividad. según la tabla de Pearson. en un número menor. calculando el ‘valor residual’ entre ambas. Para ello hay que tener en cuenta que el mejor modelo será aquel que mejor se ajuste a los datos reales obtenidos en la muestra del estudio o muestra de aprendizaje. que sigue una distribución de χ2 (con grados de libertad: número de perfiles menos. . Para ello es necesario que se conozcan el número de perfiles o distintos patrones de variables que tenemos en la muestra. Es decir. e incluso. Este valor se puede comparar con el máximo valor que el azar explique. En estos casos se debe de utilizar el ‘test de Hosmer-Lemeshow’. '1’ más el valor de ‘p’). y así obtener una medida del ajuste o desajuste del modelo. El ajuste del modelo logístico se mide a través del desajuste entre. en los casos en que el modelo con la interacción sea igual que el modelo con las dos variables por separado. se elegirá este último modelo.17 - .

en el caso de nuestro estudio particular con una mortalidad estimada del 8%. si el paciente ha tenido un resultado favorable. llamado “Indice c” (por la palabra “concordancia”). por el contrario. es aquella propiedad. O. el modelo es capaz de discernir entre los enfermos que van a presentar el evento de estudio. ambos modelos son totalmente diferentes en su poder de clasificación entre vivos y muertos aunque la fiabilidad sea la misma. Este índice es la probabilidad de que. el valor predicho y el observado. de acuerdo con la severidad de la variable de estudio. frente a aquellos que no lo presentarán. podemos encontrar dos modelos con una fiabilidad del 90% y no predecir la mortalidad de la misma manera. El poder discriminante. Por ejemplo. Como es lógico. pero necesitamos estar seguros de cual es la capacidad predictiva del mismo. este Indice “c” es idéntico al área bajo la curva ROC (Receiver Operating Characteristic). se puede obtener al clasificar correctamente a todos los enfermos que fallecieron y. Representaremos nuevamente la tabla de contingencia de 2x2.5” el método no tiene ningún poder discriminante.18 - . A diferencia de la fiabilidad. pues existen muchas maneras de subdividir a los pacientes en distintos grupos con similar porcentaje de bien clasificados. el método puede establecer una línea de separación entre la aparición del evento. Cuando el índice “c” toma el valor “0. La fiabilidad es una propiedad muy importante de los métodos y es necesario validarla.Curso de Estadística Avanzada Gema Vega Capacidad Predictiva del Modelo de Regresión Logística Cuando ya hemos obtenido el modelo matemático definitivo. En los modelos de Regresión Logística en los que la variable dependiente es dicotómica. también deberá ser un resultado favorable. El que un modelo tenga una fiabilidad del 90% significa que clasifica bien al 90% de los enfermos. la predicción de ese mismo paciente. concuerden. repasaremos el significado de algunos conceptos epidemiológicos y de lo que representa la curva ROC. Es decir. la estimación de la probabilidad de aparición del evento en un futuro nuevo paciente se puede obtener por un simple cálculo matemático. la fiabilidad y el poder discriminante. mientras que cuando toma el valor “1”. Para poder entender el concepto de este índice. pero planteándonos que lo que estamos . pero esta fiabilidad se puede obtener a expensas de haber clasificado bien a casi todos los enfermos que sobrevivieron y no haber clasificado correctamente a ninguno de los que fallecieron. un poco peor a aquellos que sobrevivieron. que en este caso sería el modelo. La fiabilidad se refiere a la concordancia entre la predicción y la realidad. dada una pareja de pacientes elegida al azar. Pero ésta es difícil de cuantificar. Por ejemplo. el poder discriminante de un modelo es más fácil de medir a través del índice de discriminación predictiva del modelo. el porcentaje de enfermos que están bien clasificados. Las herramientas con las que contamos para estudiar la seguridad predictiva de los modelos son fundamentalmente dos. por la cual.

la existencia o no del evento en esa misma muestra. Esto sería semejante a las tablas de contingencia que representamos.19 - . REALIDAD Enfermedad PREDICCIÓN Enfermedad No Enfermedad a c a+ c No Enfermedad b d b+ d a+ b c+ d A partir de esta tabla podremos definir distintos conceptos que sirven para valorar la eficacia de una prueba y que en nuestro estudio evaluaría la capacidad predictiva del modelo. Es decir. VPN = d / c + d . en la detección de un evento o de una enfermedad (Por ejemplo. en vez de una prueba diagnóstica. cuando estamos haciendo un análisis de la eficacia de una prueba diagnóstica. a través del cálculo de la probabilidad obtenida por el modelo y. Indicaría lo bueno que es el modelo para identificar a los pacientes que van a sufrir el evento. el valor predicho. son clasificados por el modelo como ‘no enfermedad’. VPP = a / a + b El ‘valor predictivo de un resultado negativo’ (VPN). Es decir. habiendo presentado el evento (enfermedad). el valor de las enzimas CPK y CPK_MB a partir del cual se considera que ha ocurrido un infarto agudo de miocardio). el valor observado y por otro. es el que viene determinado por aquellos pacientes que. sería la predicción de aparición del evento en la muestra de validación. por un lado. no habiendo presentado el evento (no enfermedad). En nuestro caso. habiendo sido clasificados como ‘no enfermedad’ realmente no la hubieran presentado. La sensibilidad (Sb) del modelo vendría representada por aquel porcentaje de pacientes que. habiendo sido clasificados como enfermedad. hasta qué punto el modelo es bueno para identificar a los individuos que no van a sufrir el evento.Curso de Estadística Avanzada Gema Vega relacionando es. es el que viene determinado por aquellos pacientes que. Matemáticamente se expresaría Es = d / b + d El ‘valor predictivo de un resultado positivo’ (VPP). La expresión matemática a partir de la tabla anterior sería Sb = a / a + c La Especificidad (Es) del modelo sería aquella proporción de pacientes que. Indicaría. realmente la hubieran presentado. hayan sido clasificados por el modelo como enfermedad.

denominada curva ROC. denominando a este último ‘tasa de falsos positivos’. Así. el punto de corte debe de situarse donde la especificidad sea máxima.Especificidad Figura 1.1). Entre ambos se representa una curva (Figura. esto será a expensas de disminuir en especificidad.Curso de Estadística Avanzada Gema Vega En todos los modelos predictivos de Regresión Logística obtendremos unos valores continuos de la probabilidad de aparición del evento según los pacientes presenten o no las características de las variables contenidas en el modelo. pero siempre va a ir acompañado de un valor de sensibilidad y de especificidad. Curva ROC . Posteriormente. a través de una tabla 2x2 como la anterior. que si elegimos un nivel de corte con alta sensibilidad. si lo importante fuera evitar clasificar como ‘no enfermedad’ a aquellos pacientes que si van a fallecer. primero se eligen distintos puntos de corte. el valor de la sensibilidad y la especificidad asociado. Para representarla. Los valores de los ejes variarán entre ‘0’ y ‘1’ ó entre ‘0’ y ‘100’. Por lo tanto el propio investigador es el que debe de sopesar la importancia relativa de la sensibilidad y de la especificidad para definir el punto de corte según las implicaciones que conlleven de los errores de mala clasificación. que variarán de manera inversa según el valor de probabilidad que escojamos. se realiza una representación gráfica entre la sensibilidad y el recíproco de la especificidad (1-Especificidad). A partir de estos porcentajes tenemos que escoger un valor que clasifique a los enfermos como enfermedad o ‘no enfermedad’. Mientras que. Esta curva es la expresión gráfica del cambio entre especificidad y sensibilidad según los distintos puntos de corte. Es decir. habría que tomar un punto de corte donde la sensibilidad fuera alta. Sensibilidad 2 3 1 1 . Otra forma de definir el punto de corte es utilizando la curva ROC. según consideremos ‘tanto por 1’ o en ‘tanto por ciento’. si se deben evitar los individuos que sean clasificados falsamente como enfermedad.20 - . y después se obtienen para cada nivel de corte. La elección de este punto de corte de probabilidad es arbitrario.

siendo ‘p’: la probabilidad de aparición del evento. Es obvio. obtendrán una curva que se alejará de la diagonal para aproximarse hacia el vértice superior izquierdo. donde apenas aumenta la sensibilidad. conlleva la realización de operaciones matemáticas según la fórmula de la función logística que comentamos anteriormente: f(p)=1/1+e–(β0+β1X1+β2*X2+β3*X3+…+βi*Xi). . Esta curva nos sirve para objetivar como varían conjuntamente la sensibilidad y la especificidad y comprobar la exactitud del pronóstico en distintos puntos de corte. Y el peor modelo. . El modelo ideal sería aquel que tuviera 100% de sensibilidad y 100% de especificidad. La utilización de este modelo. Y los que tengan un valor de probabilidad inferior al punto de corte que hemos determinado. con este análisis también desarrollamos un modelo matemático mediante el cual podemos calcular el riesgo relativo (RR) para cada factor de riesgo con su estimación poblacional a través del intervalo de confianza y. que la mayoría de los modelos se encuentran entre estos dos extremos. el mejor punto de corte se sitúa en la zona donde “tuerce la curva”. situándose en el margen superior izquierdo de la gráfica. . podremos clasificar a los pacientes. sin que apenas varíe la tasa de falsos positivos. según presente o no dichos factores de riesgo. cada incremento en la sensibilidad. sería aquel que viniera representado por una línea diagonal desde el margen inferior izquierdo hasta el margen superior derecho.Curso de Estadística Avanzada Gema Vega La forma de la curva se podría dividir en tres partes. serán clasificados como ‘0’.Para terminar en otro segmento recto casi sin pendiente (3). De tal manera que aquellos que tengan un valor de probabilidad de aparición del evento (obtenido a través del modelo matemático) superior al punto de corte. ‘Xi’: los factores de riesgo independientes y ‘βi’ los coeficientes de dichos factores. mientras que si van aumentando los falsos positivos. .La parte inicial de la curva vendría representada por una recta con una gran pendiente (1). vendría asociado a un incremento de igual magnitud en la proporción de falsos positivos. donde crecen tanto la sensibilidad como los falsos positivos. en la cual la sensibilidad aumenta mucho. y que aquellos modelos que tengan una buena predicción. Creación de la Escala Clínica de Riesgo A través del análisis multivariado de Regresión Logística obtenemos aquellos factores que de forma independiente contribuyen a un mal pronóstico postoperatorio de los pacientes sometidos a cirugía cardiaca con circulación extracorpórea (muerte o aparición de complicaciones).La porción intermedia que vendría representado por un segmento curvilíneo (2) con más o menos pendiente. Por lo general. el valor de probabilidad de aparición de cada uno de los dos eventos de estudio (mortalidad y morbilidad) para cada paciente individual. Además.21 - . En este último caso. Una vez obtenido el mejor punto de corte que se considere según los objetivos del estudio. serán clasificados con el valor ‘1’.

dividiremos los posibles valores de la escala en categorías progresivas de riesgo a las que les será asignada una probabilidad de aparición del evento. El valor total que tendrá cada paciente. se asignará la probabilidad de aparición del evento con su intervalo de confianza. Este valor será similar o aproximado al valor del RR obtenido por el análisis multivariado para dicho factor. es conveniente la creación de escalas clínicas que puedan sustituir al modelo matemático original. Por este motivo. se agruparán para formar categorías de riesgo. teniendo en cuenta el intervalo de confianza. a los cuales les asignaremos un valor. serán las que posteriormente se validarán en la muestra de validación. Cada una de ellas estará compuesta por los factores independientes de riesgo de aparición de dicho evento de estudio. De esta manera.Curso de Estadística Avanzada Gema Vega La necesidad de realizar estos cálculos para la obtención del valor de probabilidad de forma predictiva supone una gran limitación para que sea fácilmente utilizada por un clínico. para cada uno de los posibles valores de la escala. En aquellos valores de la escala en los que los intervalos de confianza de la probabilidad de aparición del evento se solapen. será la suma de los valores de aquellos factores de riesgo que presente dicho paciente. Posteriormente y según los resultados obtenidos en la muestra de pacientes que denominamos “de aprendizaje”.22 - . . Se creará una escala clínica de riesgo para cada una de las variables de estudio que son objeto de esta tesis. Estas escalas con sus categorías de riesgo y la probabilidad de aparición del evento asignada a cada una de ellas.