P. 1
ciencias_biomedicas

ciencias_biomedicas

|Views: 0|Likes:
Published by ernelugol22

More info:

Published by: ernelugol22 on Mar 22, 2013
Copyright:Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as PDF, TXT or read online from Scribd
See more
See less

03/05/2015

pdf

text

original

TÍTULO

EL MÉTODO ESTADÍSTICO APLICADO A INVESTIGACIÓN EN LAS CIENCIAS BIOMÉDICAS.
ALGUNAS REFLEXIONES PRÁCTICAS

LA

AUTOR Mª Rosario López Giménez Profesor contratado doctor Bioestadística (Departamento de Medicina Preventiva y Salud Pública) Facultad de Medicina de la Universidad Autónoma de Madrid e-mail: mrosario.lopez@uam.es

entender los resultados que se publican e identificar los procedimientos correctos para cada situación experimental. Finalmente desde el punto de vista de comunicación de resultados permite extrapolar los resultados mas allá de la muestra analizada (población).PRÓLOGO Después de muchos años de impartir la disciplina de Bioestadística en el grado y postgrado de la Facultad de Medicina. Nos movemos en un campo de investigación con equipos multidisciplinares y el nivel del conocimiento de un investigador biomédico respecto al método estadístico tiene que estar en la línea de poder establecer un dialogo fluido con otros investigadores. CONTENIDOS DEL MÉTODO ESTADÍSTICO 4. INTRODUCCIÓN La metodología estadística constituye una herramienta y un lenguaje imprescindible en toda investigación clínica. A la hora de explotar la información tiene los procedimientos descriptivos que permiten ordenar y resumir la información y los procedimientos analíticos que permiten establecer relaciones entre grupos y entre diferentes características o variables consideradas. En base a ello. de impartir cursos en otras instituciones y de participar en bastantes investigaciones. La estadística proporciona la metodología para todas las fases del proceso de una investigación científica. INTRODUCCIÓN 2. Actualmente cualquier persona que utiliza el método estadístico lo hace a través de uno de los múltiples programas estadísticos comercializados donde a través de un menú se solicitan las pruebas deseadas y por lo tanto lo importante es saber que se pide e interpretar lo que se obtiene. y proporcionando algunos conceptos teóricos que ayuden a la toma de decisiones y a la interpretación de resultados. GUÍA DE CONTENIDOS 5. sentía la necesidad profesional de intentar aportar alguna ayuda a los investigadores que tengan necesidad de utilizar el método estadístico o simplemente curiosidad por conocerlo. mi objetivo se verá cumplido. el objetivo de esta documento es dar los conceptos teóricos básicos que permitan utilizar con una visión crítica la guía de procedimientos expuestos. REFERENCIAS BIBLIOGRAFICAS 1. pero no debería tener como objetivo el conocimiento profundo y exhaustivo de todos los procedimientos estadísticos. etc.). ensayo clínico controlado. Pienso que si se puede hacer alguna aportación en la metodología estadística no es exponiendo otra vez los métodos con las formulas para su cálculo sino guiando su utilización según las situaciones experimentales. ÍNDICE 1. De ahí que conocer los procedimientos que contiene y saber cuando y como aplicarlos supone un conocimiento ineludible por parte de cualquier investigador. LA ESTADÍSTICA COMO MÉTODO CIENTÍFICO EN LA INVESTIGACIÓN MÉDICA 3. En el momento de planificar la investigación proporciona los procedimientos para diseñar el tipo de estudio (observacional. así que si este documento sirve de ayuda para alguno de sus potenciales lectores. 2 . controlando en la medida de lo posible el azar inherente al tipo de información utilizada mediante la cuantificación de la probabilidad de error y llegando a conclusiones científicamente válidas. para seleccionar las unidades experimentales (procedimientos de muestreo) y para determinar el tamaño muestral adecuado según los objetivos del estudio (predeterminación del tamaño muestral).

aplicando el razonamiento inductivo sobre los resultados experimentales. Si es un fenómeno aleatorio. es decir. Podemos señalar cuáles son los puntos más importantes que caracterizan al método científico: Æ El fenómeno objeto de estudio debe ser reproducible. es posible encontrar otras leyes o propiedades siguiendo un proceso lógico deductivo. haciendo réplicas de la experiencia en las mismas condiciones. El protocolo experimental (aspecto práctico) debe adecuarse a un modelo matemático (aspecto teórico) que tenga en cuenta la parte determinista y la parte aleatoria de la experiencia. La ciencia experimental sólo acepta como verdadero lo que es comprobable empíricamente. interviene en todos y cada uno de los puntos anteriormente citados.El diseño experimental que es en realidad previo al muestreo. Æ Establecidas unas leyes científicas. puesto que es sobre esta parte de la población sobre la que se plantearán generalizaciones a fin de elaborar leyes científicas. y como un lenguaje matemático capaz de precisar y clarificar conceptos que pudieran parecer ambiguos. en el análisis de datos y en la toma de conclusiones. Por lo tanto. las técnicas estadísticas inciden en la investigación estableciendo un paralelismo con los puntos que caracterizan: 1. debemos obtener los mismos resultados. las variaciones deben estar dentro de unos márgenes aceptables poco diferentes de una repetición a otra de la experiencia ( cuantificación del azar). de manera que una muestra finita (una parte) sea representativa de la población (el todo). La inducción es el proceso lógico que permite establecer una ley a partir de la evidencia empírica. Aunque cada 3 . que consiste fundamentalmente en provocar u observar cambios en una variable independiente y ver cómo influyen en una variable dependiente. 2. tiene su campo de influencia en los fenómenos aleatorios. para establecer conclusiones objetivas basadas en la evidencia. hasta el punto de que su utilización determina si un conocimiento es científico o no. La recogida de datos debe estar de acuerdo con el diseño para que sean válidas las conclusiones que vayan a tomarse. y proporciona la metodología para la recogida de datos. define las unidades experimentales y el colectivo. Æ Es necesario establecer la evidencia empírica. Es entonces cuando interviene la Estadística como método básico que incide en el método científico. Cuando se observa que los cambios de la variable independiente producen variaciones sistemáticas de la variable dependiente. procede afirmar que existe una relación funcional entre ellas. manteniendo constantes otros factores o variables extrañas. Analizada la Estadística como método o herramienta de la investigación. es un conjunto de reglas o prescripciones que regulan la forma de aplicación de las condiciones experimentales. Ello es claro cuando las leyes se han podido formular matemáticamente.2. en dos aspectos principalmente: Como una herramienta en el diseño de la investigación. LA ESTADÍSTICA COMO MÉTODO CIENTÍFICO EN LA INVESTIGACIÓN MÉDICA En la actualidad. que pudieran tener alguna influencia en las relaciones que se desean descubrir.. Según todo lo anterior la Estadística como método útil para la investigación. Es fundamental la aplicación correcta del muestreo. siendo necesario para ello recurrir a modelos aleatorios y a establecer leyes que los expliquen. el método experimental se considera consustancial en las ciencias de la naturaleza.. para describir y predecir los fenómenos naturales.El muestreo o teoría de muestras. pero toda nueva proposición debe superar con éxito la comprobación experimental.

5.experimento requiere un tipo de diseño propio. El planteamiento de una relación funcional tomando como base solamente el criterio de que se adapta bien a las observaciones. impulsadas por las enormes posibilidades de la informática. el procedimiento es distinto en las experiencias de campo o estudios observacionales. modelo de regresión logística. 6. esta no se limita a los procedimientos convencionales (distribuciones de frecuencias. cuyo principio básico es la lógica inductiva que se deriva de la ley única del azar. pues en ellos el investigador crea la experiencia y permite tener un suficiente control para adecuarla a un modelo. tendiéndose a adaptar la recogida de datos a un diseño conocido que resuelva el problema planteado. etc. y que tales relaciones vuelvan a repetirse en otras experiencias en condiciones análogas. que cumple un importante papel en la metodología científica. por técnicas basadas en un producto escalar o por técnicas ordinales. con la ayuda de la Estadística Descriptiva. modelo de Cox. a través de los métodos de la Inferencia Estadística.Así como el diseño experimental siguiendo unas reglas. Las hipótesis deben plantearse antes y no después de la experiencia. en estrecha conexión con el muestreo y el diseño experimental. resolviendo problemas de clasificación y ordenación (Análisis factorial. etc.. 4. como garantía del nivel de confianza del proceso inductivo. puede resultar arbitrario. de eficacia comprobada.). en metodología estadística se han elaborado unos diseños estándar.Por otra parte la inferencia clásica proporciona soluciones desde una perspectiva univariante dando una visión parcial sobre algunas variables respuesta pero el objetivo final será una visión científica lo más cercana posible a la realidad experimental y esto pasa por un planteamiento multivariante igual que hemos sugerido con el aspecto descriptivo (modelo lineal de regresión múltiple. forma parte de la dinámica científica y es un hecho que las observaciones sugieren otras hipótesis y planteamientos a medida que se van obteniendo. Análisis de “cluster”.) El otro aspecto de la Estadística que habíamos señalado es el lenguaje matemático en la explicación de un fenómeno. que son en mayor o menor grado inciertos por la aleatoriedad intrínseca de la experiencia. El procedimiento general es entonces establecer y probar la validez de las relaciones funcionales entre las variables. Ahora bien.Las conclusiones sobre los datos observados. índices. No obstante. pero que deberán verificar ciertos criterios de ajuste a la realidad.. etapa última de la investigación. La estadística interviene en este proceso.. Análisis de correspondencias. forma parte de los llamados estudios experimentales. Esta situación es corriente en los estudios de salud-enfermedad. siguiendo algún proceso deductivo intrínseco al fenómeno. en buena parte. La visión de la información de forma global permite describir geométricamente las relaciones entre grupos o entre los elementos de un mismo grupo.El objeto descriptivo de una ciencia puede ser resuelto. ya que uno de los objetivos de toda ciencia es poder llegar a explicar. Ello es válido siempre y cuando se cumpla con los fines de descripción y predicción de forma correcta.). deben adoptarse indicando el grado de probabilidad de error. sino que sus técnicas han llegado a un alto grado de desarrollo y sofisticación.. que no será exactas. etc. Una relación funcional debe formularse con independencia de las observaciones numéricas. 3. El ajuste de las observaciones con la relación o modelo planteado es la garantía experimental “a posteriori”. En ellas los fenómenos se presentan tal cual los encontramos sin posibilidad de controlar. gráficos. en 4 .

Con demasiada frecuencia. cruzado. deben manejarse con cuidado. etc. sin perjuicio que se utilice para corroborar una teoría que se desea demostrar a toda costa. olvidarnos de este aspecto al tratar el papel de la Estadística en la Investigación Clínica. con entradas de individuos y variables en estudio. científicas y legales obligan a planificar dichos ensayos sobre bases científicas. esto no tiene sentido fuera del contexto de la Estadística y por ello. secuencial. supone la recolección de la información pertinente. Finalmente cuando la investigación médica se realiza a través de estudios observacionales. Como hemos dicho antes. La realidad experimental debe ser traducida a términos medibles. conviene señalar que las conclusiones que se adopten de la descripción de unas relaciones cuantitativas. particularmente de estudios terapéuticos. ya sea clínica. expresando correctamente las probabilidades de acierto y error. mediante métodos estadísticos apropiados. que se traduce en un conjunto de datos u observaciones y consiste en el análisis de dichos conjuntos para la obtención de conclusiones válidas.). Sin embargo. Toda investigación médica. con los que uno simplemente se crea un fichero de datos. El software estadístico se ha ido desarrollando hasta llegar a un momento en que se han impuesto los grandes paquetes estadísticos. manipulando la interpretación de los cálculos (caso del experimentador que modifica el nivel de significación si se halla con una experiencia no significativa). es decir. Así. completamente interactivos. es en la faceta de la investigación médica donde sus procedimientos adquieren una dimensión más general. las razones éticas. En otras ocasiones. en el diseño y análisis de ensayos clínicos. 5 . y después. Asimismo el planteamiento del tipo de diseño (paralelo. la probabilidad de realizar o no análisis intermedios y otras muchas cuestiones planteadas hoy día con absoluto rigor. como es por ejemplo el caso de estudios transversales mediante encuestas. extraer la información más relevante de los resultados experimentales y tratarla de la forma adecuada para poder precisar cuantitativamente el grado de conocimiento de la realidad. Estas propiedades son ciertas respecto a las cifras. pero su generalización debe estar sujeta al sentido común. El cálculo del tamaño muestral necesario para demostrar no solo diferencias “estadísticamente significativas” sino “clínicamente relevantes” es un paso imprescindible en cualquiera de estos ensayos. Abundando aún más en el papel del método estadístico. capaces de resolver los cálculos matemáticos más complejos en un tiempo muy pequeño. epidemiológica o de laboratorio. a través de elecciones dentro de un menú. tienen una total dependencia del método estadístico para ser llevadas a cabo. El impresionante desarrollo experimentado por la Informática en los últimos años ha influido de manera considerable en la utilización de los métodos estadísticos e seguirá influyendo y no podemos por ello. los fenómenos que estudia. se seleccionan los análisis deseados. económicas. es indispensable comprender bien los principios y métodos estadísticos por parte de investigador para diseñar adecuadamente el experimento.términos cuantitativos. el lenguaje de la estadística se utiliza para aparentar contenido a experiencias mal planteadas. la interpretación puede ser errónea de forma no intencionada por no tener conocimiento del alcance de los resultados. la Estadística vuelve a ser instrumento imprescindible para que las conclusiones obtenidas sean útiles a la comunidad científica. ya que es la única posibilidad de una evaluación correcta y precisa de los resultados del ensayo con medidas de riesgos de error. por ejemplo. o bien omitiendo aquellos resultados estadísticos que no concuerdan con la teoría formulada.

que aparecen como una prolongación natural de los gráficos e índices de las distribuciones de frecuencias. es la que más va a utilizar el investigador es esta Estadística Analítica (o Inferencia Estadística). y en las que no ocurre así. gran parte de las determinaciones clínicas y medidas del cuerpo humano se distribuyen según una ley normal. Aparecen los conceptos de error estándar y de grados de libertad. Sin embargo no quiero dejar pasar un comentario importante: la facilidad de acceso a estos paquetes estadísticos facilita el tratamiento de datos pero no suple el conocimiento de los procedimientos correctos a aplicar. y Estadística Analítica. Esta comienza introduciendo el concepto de estimación. dado que es la clave de la Estadística Analítica. Aparecen las nociones de caracteres y frecuencias y las de gráficos e índices de las distribuciones de frecuencias para permitir resumir la información. SAS. se llega a ella a través de alguna transformación adecuada. Es necesario conocer los distintos modos de obtención de la muestra. ya que la decisión óptima consiste en emplear los mínimos recursos para obtener una determinada información. siendo factible la comparación de los resultados proporcionados por distintos métodos alternativos. 6 . Además. La parte del Método Estadístico que sin duda. El concepto de población y muestra es sustancial en esta metodología dado que el objetivo final es obtener información válida en la población. etc.Existen hoy en día importantes paquetes como el SPSS. desde su planteamiento hasta la elaboración de los resultados. como en el caso de caracteres cualitativos (proporción) y establece las relaciones entre precisión y riesgo de una estimación. como es sobradamente conocido. pero que esa variabilidad puede ser analizada de forma científica y que la estadística es algo a tener en cuenta en un trabajo de investigación durante todas las fases de su desarrollo. como método científico de extrapolación de los resultados de la investigación. CONTENIDOS DEL MÉTODO ESTADÍSTICO Es necesario partir de la base de que la "variabilidad" es algo inherente en los procesos biológicos. Aún conociendo el hecho que la Estadística Descriptiva son una serie de procedimientos que tratan de describir y no de explicar el conjunto de datos resultado de cualquier investigación. Por ello la Estadística Analítica tiene como propósito general obtener conocimiento o información a través de una muestra. es necesario su conocimiento como un primer paso en la organización de la información obtenida con el experimento. viendo de forma intuitiva las distribuciones hipotéticas de parámetros en el muestreo y de como así se obtiene una medida del riesgo que supone toda inferencia. Es necesario conocer la existencia de las distribuciones de probabilidad aunque solo como concepto de referencia pero incidiendo en la Distribución de Gauss o Distribución Normal. los problemas que pueden plantearse en la elección de las unidades muestrales y los que aparecen en la recogida de la información. considera los intervalos de confianza de los índices obtenidos en el caso de caracteres cuantitativos (media). Por otra parte hay que entender desde un principio la separación entre Estadística Descriptiva como método de descripción de conjuntos de datos. instalados en entorno Windows que permiten analizar con prontitud cualquier banco de datos. y es necesario conocer la forma adecuada de obtención de la muestra. pero utilizando como instrumento la muestra. 3. los paquetes estadísticos realizan lo que se les ordena a través del menú pero no “deciden” si esa petición tiene o no sentido y el juicio crítico para pedir e interpretar la información no puede sustituirse por ningún procedimiento automático. Salvo problemas de imposibilidad matemática de cálculo. Para entender los procedimientos de la Estadística Analítica es necesario conocer las distribuciones teóricas de probabilidad y los parámetros que las definen. básicos en toda la inferencia estadística..

pero mediante una ecuación de regresión podemos predecir su valor a través de otras variables biológicas fáciles de medir). es fundamental en la investigación. ya fuera una variable cuantitativa o la frecuencia de aparición de ciertas características. y evaluar si las otras fuentes de variación tienen alguna explicación diferente del azar. Hay que conocer claramente qué es una hipótesis nula y una alternativa. Si se considera ahora la posibilidad de que cada individuo de la muestra soporte la medida de dos o más variables cuantitativas. Tiene especial interés la tabla de contingencia 2x2. así como ver la posible relación entre los factores. 7 . Es preciso conocer los conceptos generales del contraste de hipótesis. La obtención de ecuaciones de regresión que nos permitan predecir los valores de una variable en función de otra u otras. que son fundamentales para comprender todas las comparaciones particulares que se harán posteriormente. son una inestimable ayuda en la solución de muchísimos problemas (la obtención de una cierta respuesta biológica en un enfermo puede ser costosa o peligrosa de conseguir. En estas situaciones surge el importante problema de la predeterminación del tamaño muestral: la primera pregunta que se hace (o debería hacerse un investigador) es: ¿cuántos individuos debo tomar en mi muestra para demostrar lo que pretendo? y es necesario responder a esta difícil pregunta con un criterio científico que no puede establecerse hasta no conocer los procedimientos del contraste de hipótesis. o bien la posibilidad de ver cómo influye un factor o varios en un grupo de medidas. una de las cuales se puede explicar por azar (o "error" en el sentido de "variabilidad" de la propia medida). etc. y es preciso analizar las posibilidades de tamaños muestrales y frecuencias esperadas para usar la corrección de Yates o la Prueba de Fisher en los casos en que se precise. aparecen los conceptos de correlación y regresión. En caso de obtener diferencias significativas globales. Bajo esta premisa de normalidad la comparación de una variable cuantitativa entre dos grupos se realiza a través de la distribución t de Student. Hasta ahora habíamos considerado una única variable respuesta en nuestro experimento. ¿está de acuerdo un experimento con una teoría aceptada como verdadera?. comparación de medias o de proporciones y datos independientes o apareados. lo que mide la probabilidad de error p. se puede plantear uno de los problemas más generales de aplicación en la investigación clínica: el contraste de hipótesis (¿es un medicamento mejor que otro?. los tipos de errores que pueden cometerse y cómo elegir un contraste unilateral o bilateral.). se resuelve el problema de la comparación múltiple de medias mediante un test "a posteriori" (test de Student-Newman-Keuls) como contrapartida del test "a priori" de la t de Student. se puede aplicar a los problemas experimentales planteados: análisis de la varianza para un factor y para dos factores y realizar la comparación global entre las medias de esos grupos indirectamente a través de la descomposición de las varianzas utilizando la distribución F de Snédecord. La técnica del análisis de la varianza resuelve un problema general: descomponer la variabilidad de un grupo de datos en distintas fuentes de variación. La solución del problema de comparación de varias muestras cuando se estudia un carácter cuantitativo.Basándose precisamente en los intervalos de confianza obtenidos para la estimación. Es necesario conocer como analizar la homogeneidad entre dos muestras en todos los tipos de casos experimentales planteados: muestras grandes y pequeñas. La comprobación de la hipótesis de normalidad de la distribución de una variable es muy importante pues es el requisito exigible a los datos en la mayoría de los test estadísticos utilizados en esta parte de estimación y contrate de hipótesis. Comprendida esta técnica general. se utiliza el test Chi-cuadrado basado en la construcción de una tabla de contingencia que refleja la distribución experimental y midiendo el ajuste de ésta con una distribución teórica construida en base a la no relación entre las características estudiadas. Para la comparación de variables cualitativas y para establecer relación entre estas características.

en función del problema experimental que deseemos resolver. y análogamente para la recta de regresión (su significado y cómo y cuándo se utiliza.Si consideramos el caso más sencillo de dos variables. Sin embargo. trasplantes. impensable sin un cálculo automático. Además. pero en algunas ocasiones son los únicos posibles a utilizar Existen los correspondientes tests no paramétricos alternativos a los tests paramétricos descritos. sino de tipo ordinal.). existen otro tipo de "tests no paramétricos" que pueden utilizarse sin hacer ninguna hipótesis teórica respecto a la distribución de las variables . necesitamos conocer como se calcula y se interpreta el coeficiente de correlación lineal. es importante el conocimiento de la existencia de esta técnica que el investigador puede utilizar y encontrar en la literatura científica que consulte. o cuando hay escaso número de observaciones. La Estadística Analítica descrita hasta ahora corresponde a la llamada "Estadística paramétrica". Una revisión de las publicaciones de los últimos años en revistas de reconocido prestigio científico llevan a la conclusión de que son escasos los artículos donde no se aplican técnicas multivariantes. no es cuantitativa. Estos métodos no paramétricos suelen ser menos precisos que los paramétricos. que es como realmente aparece en las situaciones reales. en las cuales se manejan gran cantidad de variables y responden a problemas más complejos que los planteados hasta ahora. En este caso la relación entre más de dos variables introduce los coeficientes de correlación parcial y múltiple. entendiendo la supervivencia en su sentido amplio (presentación o no de un “suceso”). y las ecuaciones de regresión múltiple. con la probabilidad de establecer modelos muy parecidos a la realidad y de poder analizar conjuntamente el gran número de características y factores que influyen generalmente en cualquier problema médico. La introducción al análisis multivariante es imprescindible en la investigación actualmente. se puedan interpretar los resultados. También es necesario plantearse el problema de la relación no lineal y cómo obtener las ecuaciones de regresión en ese caso. El estudio conjunto de un gran número de variables. también pueden utilizarse cuando la variable respuesta. y es más difícil obtener evidencias estadísticamente significativas con ellos. Solo es necesario tener una idea intuitiva de las técnicas más conocidas. entender y valorar las 8 . aún siendo numérica. dado que con el desarrollo de paquetes estadísticos potentes para ordenadores personales. y también de cómo eliminar la influencia de una tercera variable mediante el análisis de la covarianza. en el sentido en que debemos hacer ciertas hipótesis sobre las distribuciones de las variables o sobre los tamaños muestrales para que puedan aplicarse todos los test o pruebas analizadas. Es la forma de análisis obligado en oncología. analizando la relación entre correlación y regresión y estableciendo la interpretación del coeficiente de determinación. Es necesario conocer las técnicas multivariantes que fundamentalmente se utilizan y como ellas proporcionan la forma de resolver un problema de forma multidimensional. por tanto. Existen tanto las técnicas descriptivas de análisis de datos. pueden resolverse problemas. Los modelos de supervivencia se usan con mucha frecuencia en investigación médica en general. Dado que el investigador no realiza solamente la investigación por la propia satisfacción personal de la creación de conocimiento sino con el fin de comunicarlo a la comunidad científica necesita tener el conocimiento de unos criterios para analizar. abre una gran puerta a la resolución de problemas en las Ciencias Biomédicas . inaccesibles hasta hace poco tiempo para "no expertos” y permite que aunque no se conozca su desarrollo preciso. etc. indicando su utilidad y abriendo así el camino a su utilización por el investigador. como las relaciones a través de los métodos de regresión.

) Continua (temperatura. de la forma más escueta posible. Para las variables cuantitativas los principales índices de referencia son la media y la desviación típica. los índices de representación son la mediana y los cuartiles primero y tercero (o bien el rango intercuartílico que es la distancia entre ellos y se utiliza en el mismo sentido que la desviación estándar).…) Cuantitativa Discreta (número de episodios. Tipos de variables y ejemplos: Cualitativa: Nominal (Centro. se puedan extrapolar conclusiones respecto a la población . En los apartados de material y métodos. en la correcta exposición de los resultados y en el alcance de las conclusiones .…) La estadística descriptiva proporciona frecuencias y porcentajes en el caso de variables cualitativas e índices en el caso de variables cuantitativas.La idea principal que hay que adquirir es que estas conclusiones nunca serán afirmaciones rotundas: son afirmaciones que siempre van acompañadas de una probabilidad de error. Además se puede realizar representaciones gráficas en ambos casos.) Semi-cuantitativa (puntuación de un test. número de fármacos recibidos. Estadística Descriptiva: Su objetivo es organizar y resumir la información de la muestra. Si la variable no sigue una distribución normal. moderada. dando la posibilidad de depurar los datos si se detectan valores no admisibles. curación de una enfermedad.…. Inferencia estadística: Procedimiento que permite que. con unos conceptos básicos de su fundamento y con unas recomendaciones para utilizarlos. si la variable sigue una distribución normal (Distribución de Gauss) en cuyo caso la media es el valor central de la distribución. la estadística descriptiva es el primer paso para ordenar y revisar la información. Hay que tener en cuenta que el procedimiento de análisis estadístico depende del tipo de variable utilizada. El azar inherente al tipo de datos que se utilizan en investigación médica no puede eliminarse: lo que consigue el procedimiento estadístico es “controlarlo” cuantificando el error. Existen procedimientos estadísticos (criterios de bondad de ajuste) para conocer si una variable sigue o no la distribución normal y debería ser un punto de partida del análisis de datos el conocer la naturaleza de las variables que se utilizan. una guía de los procedimientos de estadística.publicaciones científicas que en mayor o menor grado según su trayectoria profesional va a tener que leer o elaborar. 9 . evaluación en una escala visual.…) Ordinal (mejoría de un síntoma: leve. tratamiento. En resumen.…. 4. colesterol. a través de la información obtenida en la muestra.…) Dicotómica (sexo. el conocimiento del método estadístico es esencial. GUÍA PRÁCTICA DE CONTENIDOS Se expone.

utilizados son los que comprenden el 95% de la probabilidad total de la distribución y se conocen como intervalos de confianza al 95% . Por ejemplo. Procedimientos de la inferencia estadística paramétrica. para calcular el error estándar de una media se toman como referencia los datos originales ( n valores de la muestra) y la propia media ( que esta calculada con esos mismos valores ) por lo que los n valores iniciales ya no están libremente determinados ( podría eliminar uno de ellos porque estaría fijado a través de la ecuación de la media) y la referencia para el calculo de las desviaciones que definen el error estándar no son los n valores sino los n-1 valores libres (“grados de libertad”) y en general y cualquier planteamiento de la inferencia estadística aparecen los de grados de libertad en lugar de los tamaños muestrales. a) Estimación: Extrapolación de los parámetros de la muestra a la población. Se obtiene no una estimación del valor puntual de la media en la población sino un intervalo que comprendería a ese valor con una determinada probabilidad de error de no contenerlo. Una cuestión importante en toda la inferencia estadística es el concepto de grados de libertad. El procedimiento teórico es estudiar la distribución de esa media a través de repeticiones en sucesivas muestras. El objetivo de cualquier investigador será obtener intervalos de confianza con una precisión adecuada para la variable que este utilizando.No se puede conocer la media poblacional pero si se puede determinar un intervalo con una determinada probabilidad de contenerla.El procedimiento a seguir en los diferentes planteamientos experimentales que vamos a encontrar depende del tipo de variable y de la distribución de las variables utilizadas. El error estándar depende de la propia dispersión de la variable (medida por la desviación típica ) y del tamaño muestral (cuanto mayor sea la muestra menor es el error estándar). por lo que deberá elegir el tamaño de muestra necesario para que le asegure dicha precisión y que debería fijarse a priori (al diseñar la investigación). Si una variable no se ajusta a la normal pero la muestra es suficientemente grande (mayor de 30 elementos) también se pueden aplicar las técnicas que vamos a indicar a continuación y que constituyen la llamada Estadística paramétrica. 10 . Los límites más. pero en el caso de variables cuantitativas es determinante el que sigan o no una distribución normal y el tamaño muestral utilizado. Para las variables cualitativas no existe ningún planteamiento en cuanto a su distribución. Dada la media de una variable en una muestra permite estimar su valor en la población y para ello se calcula el intervalo de confianza. clásicamente. Consideremos en primer lugar el caso más general que es aquel en que las variables objetivo de nuestro estudio siguen o se aproximan a una distribución normal. Aunque nuestras referencias en toda la investigación son los tamaños muestrales cuando se construyen los errores estándar aparecen estos tamaños muestrales modificados. La desviación estándar de esa distribución de medias muestrales se conoce como “error estándar” y aplicando las propiedades de la distribución normal se pueden construir intervalos centrados en la media y con una amplitud función del error estándar que contengan determinada parte de la probabilidad total de la distribución.

esto indicaría que nuestro estadístico está muy al extremo de la distribución y por lo tanto podemos aceptar que no pertenece a esa distribución. teniendo como probabilidad de error al tomar esa decisión precisamente la porción de área (probabilidad) que queda a la derecha (toda distribución de probabilidad comprende un área de valor 1). ¾ Comparación de una variable cuantitativa entre dos grupos. Construido el estadístico de contraste se mantendrá la hipótesis nula (no se puede afirmar que sea cierta sino que solo se mantiene por no haber evidencias de lo contrario) o se rechaza la hipótesis nula y se afirma que hay diferencia significativa con cierta probabilidad de error. Por la forma de construir el procedimiento de contraste lo difícil es obtener diferencias significativas y la medida de error va asociada a ellas. utilizando para su contraste frente a cero el test de la t de Student pareada. Para todos los casos se define un “estadístico “.b) Contraste de hipótesis: Este procedimiento permite comparar el comportamiento de una variable en dos o más grupos El punto de partida es establecer la hipótesis a contrastar y esta hipótesis que es común a todos los planteamientos se conoce como hipótesis nula. Dado que el tamaño muestral es relevante a la hora de poder demostrar una diferencia significativa la determinación del tamaño necesario para cumplir ese objetivo es el la primera cuestión a plantearse al diseñar el experimento. a partir de la diferencia de medias y de los errores estándar de ellas. Estamos en una situación de datos relacionados y se toma como referencia la media de todas las diferencias de la variable para los individuos considerados. El mantener la hipótesis nula no indica nada acerca de su veracidad dado que cuando más pequeños sean los tamaños muestrales mayores serán los errores estándar y mayor será la zona de aceptación de la hipótesis nula. función de los valores muestrales. Está universalmente consensuado que la probabilidad máxima de error aceptada es de 0. se concluye que existe diferencia significativa con determinada probabilidad de error.La hipótesis nula en este caso es que la diferencia es cero (no hay diferencia) y la hipótesis alternativa es que existe diferencia. por lo que determinamos en que punto del recorrido de la distribución está situado el estadístico y podemos determinar el valor de probabilidad que queda a su derecha. El planteamiento es establecer una regla o criterio de decisión que permita definir una región para aceptar la hipótesis nula y otra para rechazarla.05. Se formula siempre como no existencia de diferencias significativas o no relación significativa. que sigue la distribución t de Student. En caso contrario. Si se cumple la hipótesis nula el estadístico obtenido debe ser un valor “pausible” de esta distribución. Si esa probabilidad es pequeña. El procedimiento para realizar este análisis de la comparación de medias es construir un estadístico. 11 . y que en caso de llegar a esta conclusión nos mida la probabilidad de error.: la aparente diferencia entre los valores a contrastar puede explicarse por azar. Puede darse la situación de que en lugar de tener una variable medida en dos grupos la situación sea tener la variable medida en dos situaciones diferentes como por ejemplo presión arterial antes y después de un tratamiento hipertensivo. Esta distribución de referencia nos permite determinar la probabilidad de error al rechazar la hipótesis nula. Si se desea comparar una variable cuantitativa entre dos grupos o muestras se calcula la media de la variable en cada uno de los grupos . hipótesis alternativa. que siga una determinada distribución de probabilidad.

En este caso la construcción de la tabla de contingencia es diferente. estableciendo como hipótesis nula que la proporción de eficacia es igual para ambos fármacos y como hipótesis alternativa que no lo es (existen diferencias estadísticamente significativas entre las proporciones de eficacia con cierta probabilidad de error). Si se rechaza la hipótesis nula. El estadístico que se construye en este caso sigue una distribución F de Snédecord y permite mantener la hipótesis nula de igualdad de medias o rechazarla (al menos hay una media distinta de las demás) con cierta probabilidad de error. Como en el caso de variables cuantitativas aparece el concepto de grados de libertad. etc…) ¾ Comparación de una variable cualitativa entre dos o más grupos. 12 . También podía plantearse aquí el caso de datos relacionados: un grupo de individuos se somete sucesivamente a dos tratamientos de los que se desea comparar su eficacia. El procedimiento para realizar este análisis es considerar las frecuencias de presentación de todas las situaciones y construir lo que se conoce como tabla de contingencia (distribución experimental u observada). test de Student.¾ Comparación de una variable cuantitativa entre varios grupos Si en lugar de dos grupos hubiese varios. Bajo el supuesto de igualdad de proporciones se construye otra tabla de contingencia (distribución teórica o esperada) y se calcula la discrepancia entre ambas distribuciones a través de un estadístico que sigue la distribución Chi-cuadrado. Se comparan todas las parejas de medias posibles estableciendo una ordenación de menores a mayores diferencias. y que sirve para determinar si las diferencias entre la tablas son o no significativas. Sin embargo existe un procedimiento alternativo que permite comparar globalmente las medias de forma indirecta a través de las dispersiones o varianzas y que se conoce como análisis de la varianza (ANOVA). eficacia de un fármaco medida como SI/NO) se determina la presentación de las respuestas en cada grupo y a partir de ellas las proporciones. la derivación lógica del caso anterior sería comparar las medias combinándolas de dos utilizando el procedimiento de la t de Student. puede interesar concretar entre que medias existe diferencia y esto se realiza a través de un test de comparación múltiple o test a posteriori. Este procedimiento no es metodológicamente correcto porque pueden aparecer diferentes comparaciones que no son todas independientes entre sí y aumenta la probabilidad de error. De no ser significativas se concluye que la distribución experimental” se ajusta” a la teórica y como esta última se construye bajo la hipótesis de igualdad de las proporciones.Newman-Keuls. Existen diferentes posibilidades para realizar estos análisis: test de Tukey. Sería necesario establecer una corrección sobre el estadístico construido y tener en cuenta el numero de comparaciones implicadas ( la mas clásica es la corrección de Bonferroni). La conclusión es la contraria si las diferencias entre las distribuciones son significativas. Si se desea comparar una variable cualitativa entre dos grupos (por ejemplo. la decisión es que no se detecta diferencia significativa en la eficacia de ambos fármacos. contando las coincidencias (mejora con ambos tratamientos o no mejora con ninguno) y las discordancias (mejoras con uno si y otro no) y construyendo un test que se basa en esas divergencias y que es el Test de Mac-Nemar. En el caso de mas de dos grupos el procedimiento se generaliza sin ningún cambio (aumentan las dimensiones de la tabla de contingencia). En esta situación el elemento de referencia para calcularlos no es el tamaño muestral sino las dimensiones de la tabla de contingencia que es necesario construir y que son las que definen el estadístico Chi-cuadrado.

Es importante tener en cuenta que no son problemas distintos el determinar si existe diferencias en una variable entre dos o mas grupos o si se relacionan las variables consideradas. sino formas diferentes de enunciar el mismo concepto. Si nos planteamos una relación proporcional entre ellas. pues de no ser así no tendría sentido (una “covariación” entre dos variables no siempre debe conducir a un modelo lineal). Si además hay alguna frecuencia teórica inferior a 5 la corrección de Yates no bastaría y se aplicaría el test exacto de Fisher. Si estamos en el caso de dos variables cualitativas observadas en el mismo sujeto (por ejemplo. existe relación estadísticamente significativa entre el fármaco y la eficacia ( precisamente porque están relacionados no son iguales las proporciones). La aplicación del test de Chi-cuadrado tiene algunas exigencias respecto a los tamaños muestrales considerados y a las frecuencias de la tabla teórica considerada. ¾ Análisis de la relación o asociación entre pares de variables. lo que hace que en algunos casos su aplicación necesite alguna corrección u otro test alternativo y que solo puede realizarse en tablas de dimensión 2x2. Si el tamaño muestral utilizado es inferior a 200. y la conclusión equivalente a la de diferencia significativas entre las proporciones es decir que. o sea. Este índice tiene como limites de variación los valores 0 (no correlación) y 1 (máxima correlación). dado que si existe una relación lineal entre las dos variables. Hipótesis nula: No relación entre las variables (o sea un coeficiente cero o prácticamente cero desde el punto de vista estadístico) Hipótesis alternativa: Relación estadísticamente significativa entre las variables con cierta probabilidad de error. clase social y grado de control del embarazo) la forma de analizar la relación es a través de la tabla de contingencia de la distribución conjunta aplicando el test de Chicuadrado. Para que esto tenga sentido debe haber un orden de prioridad entre las variables de modo que una sea la variable explicativa y otra la explicada. una relación causa –efecto. sea cual sea el tamaño de la tabla.La forma de enunciar los problemas y las conclusiones da lugar a errores en algunas ocasiones: en el último ejemplo utilizado el problema de detectar diferencias entre las dos proporciones de eficacia se podría enunciar como ¿existe relación entre el fármaco y la eficacia?. Chi-cuadrado con corrección de Yates y prueba exacta de Fisher). Supongamos ahora el caso de dos variables cuantitativas medidas en el mismo sujeto (por ejemplo colesterol y presión arterial) y nos interesa saber si están relacionadas. deben reagruparse categorías hasta llegar a una tabla de dimensión 2x2 y aplicar una corrección a la Chi-cuadrado llamado corrección de Yates o corrección por continuidad. se puede calcular la ecuación que las relaciona y mediante ella estimar los valores de una variable a través de la otra. de forma similar al caso anteriormente descrito para comparar dos proporciones. Hipótesis nula: no relación (distribución similar de las proporciones de una variable en las categorías de la otra) Hipótesis alternativa: relación entre ambas variables (por ejemplo. En este último caso se abre una nueva posibilidad. Cuando se realiza este análisis a través de un software estadístico se calculan automáticamente los tres procedimientos (Chi-cuadrado simple. 13 . ya sea en sentido directo o inverso (aumento de una arrastra aumento de la otra o aumento de una arrastra disminución de la otra) esta relación se determina a través del coeficiente de correlación lineal de Pearson. Es misión del investigador saber a través de cual debe establecer la conclusión según los criterios enunciados. la proporción de buen control del embarazo es mayor en la clase social alta).

Las situaciones que hacen necesario el uso de esta estadística no paramétrica son las siguientes: -Variables cuantitativas que no siguen una distribución normal y están analizadas en muestras pequeñas (si la variable no sigue la normal pero las muestras son grandes. son ordinales o semi-cuantitativas. El concepto es similar y solo cambiaría el modelo matemático y la interpretación de los coeficientes. En caso de duda siempre se pueden utilizar pruebas no paramétricas.). Una vez determinados los valores de a y b la ecuación permite predecir valores de Y para “cualquier” valor de X.5. se pueden aplicar los test paramétricos). El coeficiente b tiene una interpretación muy útil: indica la tasa de cambio en la variable Y por cada unidad de cambio en la variable X y el poder conocer esto justifica a veces el cálculo de la regresión. lo que sucede es que son menos potentes que las paramétricas (es más difícil detectar diferencias significativas) y por ello no se suele recurrir a ellas sin ser necesario. sino los rangos u ordenes que se pueden establecen con estos valores. Existen test no paramétricos alternativos a los paramétricos descritos anteriormente: .Por otra parte la condición de que el coeficiente de correlación lineal sea significativo no es suficiente garantía para poder calcular esa ecuación ( llamada modelo de regresión lineal) sino que debe tener un valor elevado para garantizar la calidad predictiva del modelo . solo tiene sentido en un rango de valores de las variables X e Y similares a las medidas experimentales (fuera de ese rango el modelo puede no predecir la realidad y por otra parte no todos los valores pueden ser viables). Procedimientos de la inferencia estadística no paramétrica. aún sin la finalidad de estimar Y en función de X. Existen situaciones experimentales donde pese a ser la variable respuesta cuantitativa. El procedimiento de regresión no queda limitado a la regresión lineal sino que se podrían plantear otro tipo de relaciones representadas por una función matemática no lineal (exponencial. Es preciso tener en cuenta que aunque matemáticamente el modelo puede utilizarse así. logarítmica. o dicho de otra forma.) que permite resolver un amplio campo de situaciones experimentales.Variables numéricas que no son medidas (no respetan la relación de proporcionalidad entre sus valores). En general no se utiliza como medida de la calidad del modelo el coeficiente de correlación lineal sino el coeficiente de determinación (que coincide en este caso de la regresión lineal con el cuadrado del coeficiente de correlación). .Comparación de una variable cuantitativa entre dos grupos o muestras: 14 . Estas pruebas no exigen ningún tipo de distribución a las variables y por ello no utilizan los valores obtenidos ni por supuesto ningún parámetro calculado con ellos (como media.Cuanto más próximo a 1 sea este coeficiente. etc. etc. La recta de regresión se puede notar como Y= a +bX donde Y es la variable efecto (variable dependiente) y X es la variable causa (variable independiente). entendiendo como tal mayores de 30. mejor será el modelo y se considera aceptable a partir de 0. y que determina la parte de dispersión de los datos que explica el modelo . tiene que ser un buen coeficiente de correlación ( se considera como criterio general r > 0. pueden darse algunas particularidades que no permiten aplicar los test descritos hasta ahora para este tipo de variables. desviación. o sea.7) y que el diagrama de dispersión que podría obtenerse representando por un punto en el plano cada par de medidas del individuo diese una aproximación a una línea recta sin excesiva dispersión de los datos.

todos los individuos están en observación (vivos). Este procedimiento permite construir un gráfico a través del cual se puede estimar la probabilidad de supervivencia en cada uno de los momentos. como si cada una de las características consideradas no tuviese relación con el resto. Procedimientos multivariantes La información de todas las variables para cada unidad muestral constituye un todo y la estadística univariante va dando aspectos parciales y resultados sesgados. tiempo desde una intervención hasta que se produce la muerte. El punto final de la observación de un individuo puede deberse a diferentes razones: muerte. pero existen situaciones donde el objetivo es observar la presentación de un suceso a lo largo del tiempo. siendo un punto relevante la mediana de supervivencia (tiempo en el cual permanecen vivos el 50% de los individuos) y lógicamente el intervalo de confianza de ella. Al comienzo del periodo. La información que hemos utilizado hasta ahora es la información sobre un conjunto de individuos en un instante determinado.Si las muestras son independientes en lugar de test de la T de Student el test de Mann – Whitney. de una forma transversal. Si las muestras son relacionadas en lugar de la T de Student para datos pareados el test de Wilcoxon. Si se desean obtener diferentes gráficos de supervivencia para grupos establecidos ( por ejemplo diferentes estadios de gravedad de un cáncer ). Ejemplos de estos periodos de observación son: tiempo desde una intervención hasta recaída. Análisis de datos dependientes del tiempo. aunque el suceso en cuestión no sea necesariamente la muerte en sentido biológico. .Comparación de una variable cuantitativa entre varios grupos muestras En lugar del análisis de la varianza el test de Kruskal-Wallis . Se plantea el seguimiento del suceso durante un periodo de tiempo y se observa para cada uno de los individuos lo que ha sucedido y en que momento. los individuos que van abandonando el estudio por muerte van haciendo disminuir la probabilidad de supervivencia y se puede calcular la supervivencia acumulada a lo largo del tiempo. Con todo el proceso descrito hasta ahora se puede analizar la información de un conjunto de individuos de forma parcial. El procedimiento mas generalizado para el cálculo de estas probabilidades es el de Kaplan-Meier. considerando tiempo hasta que se produce la” muerte”. El objetivo es poder establecer un procedimiento que permita conocer la probabilidad de que este suceso ocurra a lo largo del periodo de observación.Relación entre dos variables cuantitativas En lugar del coeficiente de correlación de Pearson el coeficiente de correlación de Spearman. luego la probabilidad de supervivencia general es 1. etc. Esto dista bastante de la realidad experimental dado que existe en 15 . pérdida de seguimiento (vivo hasta ese momento) o permanecer vivo en el momento final del estudio. Para unificar el procedimiento se le conoce como análisis de supervivencia. se pueden comparar las diferentes curvas de supervivencia a través del test de Log-Rank y detectar si existen diferencias estadísticamente significativas entre ellas. A medida que transcurre el tiempo. tiempo desde un trasplante hasta rechazo. o sea.

Su objetivo es obtener “variables sintéticas” que sean función de las categorías de las diferentes variables estudiadas. sin establecerse ninguna prioridad entre ellas. resumirlas en un número inferior (llamadas factores o componentes principales) que explique la mayoría de la información de las variables originales.general relación entre las diferentes características que configuran un todo. Este método tiene la ventaja de que en el caso de obtener dos variables sintéticas. y la elección de los factores o variables sintéticas no tienen una probabilidad de error de ser una buena o mala decisión: son resultados descriptivos. puede haber una serie de características de los pacientes que puedan influir sobre la variable seleccionada además del fármaco (edad. Por citar un ejemplo. se puede obtener una representación gráfica considerándolas como ejes de coordenadas y estableciendo las coordenadas de cada categoría respecto a esos ejes. Esto permite obtener patrones de asociación en las categorías de las variables y obtener diferentes perfiles (por ejemplo una encuesta de salud en el embarazo contiene datos de nivel socio-económico. En cualquiera de los análisis descritos todas las variables son igualmente relevantes en el estudio. con buen control del embarazo. etc. Las Técnicas descriptivas tienen como objetivo resumir la información y son el análisis factorial o de componentes principales y el análisis de correspondencias. En este sentido. 16 . se obtiene una división del plano en cuatro cuadrantes donde se dibujan con un punto las categorías de todas las variables. Un inconveniente que poseen la técnicas multivariantes es la poca transparencia de los cálculos y la complejidad en la interpretación de los resultados que hacen posible en muchas ocasiones llegar a conclusiones erróneas y más aún si no se han interpretado los resultados mas sencillos. pero por muy homogéneos que sean los pacientes o por muy bien realizado que este el proceso de randomización. ansiedad. etc.) y sería deseable analizar conjuntamente toda la información. tiempo con la enfermedad. cada individuo tiene un perfil de información múltiple que se analiza a la vez. y esto permirtiría ver en un cuadrante se asocian clase social alta. Los procedimientos multivariantes responden a la misma estructura que el método estadístico descrito presentándose por tanto Técnicas descriptivas y Técnicas analíticas. Esto no quiere decir que la estadística univariante no sea aplicable y útil: sería poco coherente hacer el abordaje multivariante de una investigación sin haber hecho previamente los correpondientes análisis univariantes. etc.) ¾ El Análisis de Correspondencias responde al mismo concepto que el anterior pero en el caso de variables cualitativas (no se tienen valores numéricos de las variables sino frecuencias de aparición de diferentes categorías). control de peso. Es por lo tanto una técnica de reducción de datos e intenta encontrar factores que tengan cierta interpretación (sería por ejemplo el caso de un test psicológico compuesto por diferentes ítems y que a través de ellos se pudieran crear factores que se interpretaran como síntomas de estrés. Al considerar los dos ejes. partiendo de un determinado número de variables cuantitativas. hábitos de vida. etc constituyendo un perfil diferente a otros que se agrupan en otros cuadrantes). De esta forma. supongamos que se desea comparar la eficacia de dos fármacos que se suele medir a través de una variable principal (“end point”). ¾ El Análisis Factorial pretende. los procedimientos multivariantes son un conjunto de técnicas estadísticas que permiten realizar un análisis global de los datos de un conjunto de variables observadas o medidas en una o varias muestras de individuos.

es importante a la hora de considerar el modelo tener en cuenta no solo que sea estadísticamente significativo. Modelos de regresión multivariantes: ¾ Regresión Lineal: El objetivo de este procedimiento. Además son pruebas de significación con las probabilidades de error para cada una de las conclusiones que se obtengan. Análogamente al caso univariante. El concepto de relación es común a todos los casos pero aparecen distintos modelos en función del tipo de información. El 17 . Además es preciso hacer un análisis de los residuos (diferencias de los valores experimentales a las predicciones del modelo) y ver que no son significativos. Los procedimientos automáticos permiten llegar a elegir el modelo óptimo de entre una serie de posibles combinaciones de variables independientes manteniendo solo aquellas que aportan información relevante. es casi imposible obtener una buena predicción utilizando solo los valores de otra variable. El modelo permite predecir el valor de la respuesta en función de las variables y estimar el peso de cada una de ellas en la respuesta. No hay una función matemática directa que relacione las variables dado que realmente la respuesta puede tomar solo dos “valores” (Si o No que se podrían traducir a 1 y 0) y esto no podría ser una variable respuesta. Para resolver el problema lo que se modeliza es la probabilidad de presentación de ese resultado que ya si tiene una escala de valores continuos entre 0 y 1 (variable dependiente del modelo de regresión). sino que tenga una buena calidad de ajuste (poca dispersión de los datos experimentales respecto a las predicciones que proporciona el modelo) y que viene medida por el mismo coeficiente de determinación. El modelo logístico es una función creciente. En estos casos hay una variable principal o variable respuesta y otra serie de variables que se pretenden relacionar con ella y en este sentido el planteamiento responde a modelos de regresión. estimándose la forma en como influyen las variables independientes en la respuesta a través de un modelo exponencial y dando lugar a lo que se conoce como modelo logístico. como ya se ha indicado antes. El modelo de regresión lineal simple se extiende a un modelo. pero sin embargo existen más posibilidades de conseguirlo utilizando diferentes variables predictivas a la vez. que crece más que proporcionalmente (a medida que aumenta el riesgo aumenta la probabilidad de la enfermedad). que sigue teniendo solo una variable respuesta. ¾ Regresión logística: Cuando la variable dependiente es de tipo cualitativo y dicotómica (presencia o ausencia de determinada circunstancia) la forma de obtener el modelo es distinta a la anterior. pero puede tener diferentes variables independientes o explicativas. hasta llegar un momento en que la probabilidad no crece más. que viene dado por los coeficientes de regresión. Todas las variables que se consideren para establecer la regresión lineal deben ser cuantitativas y seguir una distribución normal. ajustado por el resto de variables. Toda esta información es proporcionada por cualquiera de los paquetes estadísticos que se puedan utilizar y lo único importante es saber que hay que tenerla en cuenta a la hora de decidirse por un modelo.Las Técnicas analíticas van mas allá estableciendo relación entre variables y un orden de prioridad entre ellas. es explicar el comportamiento de una variable a través de otras. A la hora de predecir los valores de una variable.

Además como en todo modelo multivariante estos riesgos están ajustados por el resto de variables incluidas en el modelo. ante una situación experimental con los factores de riesgo en un individuo (variables independientes. puede haber diferentes circunstancias que influyan en la probabilidad de supervivencia. Además permite obtener los “odds ratio” en el caso de variables cuantitativas (aumento de la probabilidad de presentación de la enfermedad por cada unidad de cambio en la variable riesgo). ¾ Regresión de COX Cuando se analizan datos de supervivencia. Este modelo logístico tiene la ventaja de que en el caso univariante (un solo factor de riesgo) la estimación que da el modelo para el peso del factor en la enfermedad coincide con el calculo del “odds ratio” que podría obtenerse a través de una tabla de contingencia. Los odds ratio se obtienen como la exponencial de los coeficientes de regresión del modelo y por tanto se pueden obtener además sus intervalos de confianza. y esto hace que en el caso multivariante obtengamos los “odds ratio” para cada factor ajustado por los demás. de modo similar a como se obtiene el “odds ratio” en regresión logística (exponencial del coeficiente). Ahora bien. situación que no es posible analizar con tablas de contingencia. La utilización del modelo implica que se están haciendo ciertas hipótesis sobre la realidad experimental que son las siguientes: 18 . Esta probabilidad permite establecer la concordancia entre lo que el modelo predice y lo que realmente ha sucedido y a través del porcentaje de concordancias se puede conocer la calidad predictiva del modelo. Como en cualquier modelo de regresión se analizará la significación de cada una de las variables incluidas en él y la significación global del modelo. Un caso práctico donde se utiliza con mucha frecuencia es para ver como influyen determinados factores de riesgo (variables independientes) en la presentación de una enfermedad (variable dependiente). Desde otro punto de vista. la probabilidad en el modelo logístico es una función creciente y la probabilidad de supervivencia es una función decreciente (al comienzo del periodo de observación todos los individuos están vivos y se van perdiendo a lo largo del tiempo) por lo que a la hora de obtener el modelo se usa la función inversa a la supervivencia (función de riesgo). La forma del modelo debe responder a una función matemática conocida y dado que la variable dependiente también es una probabilidad debería guardar cierta similitud con la regresión logística y utilizarse también una función exponencial. La variable dependiente en este caso es la probabilidad de supervivencia (que tiene la particularidad que depende del tiempo) y que es función de las variables “independientes” consideradas. y el procedimiento de regresión puede ser una herramienta para incluir esas variables o circunstancias en el modelo.procedimiento de ajuste en este caso es diferente al modelo lineal y ya no aparece el concepto de coeficiente de determinación para analizar la calidad del modelo. que pueden ser cualitativas o cuantitativas) el modelo hace una predicción de la probabilidad de presentar la enfermedad. De esta forma los coeficientes que se obtienen para cada una de las variables independientes incluidas en el modelo determinan el aumento en la probabilidad de muerte (o presentación del suceso en general) por cada unidad de cambio en esa variable (para las variables cuantitativas) o en el paso de una a otra categoría en el caso de variables cualitativas.

el aumento del riesgo de no sobrevivir crece más que proporcionalmente. SA. Harcourt Brace. Carrasco. Norma. Estadística para la Investigación Biomédica. 7. Los años de publicación de los libros no corresponden necesariamente a la última edición 1. Silva. JL. T. y Luna. S(t. x). JL. o sea . Applied survival analysis: regression modelling of time to event data. and Berry. 1999 10. Appplied Logistic Regresion. J. Wiley and Sons. sino solo se indican algunos de los que introducen esta metodología en la misma línea de enfoque práctico en que están redactados estos contenidos y algún otro de nivel mas elevado para temas mas específicos (6 y 7). Diaz de Santos. 1995. Hosmer. Ed. Wiley and Sons. 1999. Lemeshow. Lemeshow. Ciencia 3. ÆLa relación de los riesgos entre las diferentes variables es multiplicativa. Wiley and Sons. Madrid. A. A. Colton. Estadística en Medicina. Norma 1994 9. Madrid. 1997. MA. JL. El Método Estadístico en la Investigación Médica. 8. JD. Ed. 50 +. o sea. Ed. 1997 19 . Martín.Masson-Little Brown and Company. S. 2. REFERENCIAS BIBLIOGRÁFICAS En la misma línea del resto de los contenidos no se va a exponer una relación completa de textos sobre Metodología Estadística dado el gran panorama de libros y autores existentes. Hernán.ÆUn cambio de D unidades en una variable se traduce en un cambio de exp (bD) en la probabilidad de no supervivencia. Bioestadística para las Ciencias de la Salud. G. Martín. DW. la presencia de dos factores de riesgo no da lugar a una suma de efectos en la supervivencia sino a un producto de efectos. S. DW. 1995. y Luna. Ed Ciencia 3. Madrid. JD. Carrasco. LC. 1993. Estadística Multivariante en las Ciencias de la Vida. 1999. Ed. 6. Ed. ÆLa medida del efecto de una variable o factor de riesgo (exp b) es constante a lo largo del tiempo e independiente del resto de variables. P. 4. Fleiss. ÆPara dos individuos diferentes la razón entre sus supervivencias es constante a lo largo del tiempo y por ello este modelo recibe también el nombre de modelo de riesgos proporcionales. J. Madrid. The Design and Analysis of Clinical Experiments. Finalmente la función de supervivencia que proporciona el modelo. coincide con la estimación de la probabilidad de supervivencia de Kaplan–Meier si se suprime la información de las variables o factores de riesgo (caso univariante) 5.10 horas de Bioestadística. 1989. 5. Cultura estadística e investigación científica en el campo de la salud: una mirada crítica. J. 3. Barcelona. Hosmer. Armitage.

You're Reading a Free Preview

Download
scribd
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->