You are on page 1of 11

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

net/publication/275021061

Estadística analítica

Chapter · January 2013

CITATIONS READS

0 13,948

3 authors, including:

Pedro Romero-Aroca
Hospital Universitari Sant Joan de Reus
149 PUBLICATIONS   2,241 CITATIONS   

SEE PROFILE

Some of the authors of this publication are also working on these related projects:

Diabetic Retinopathy View project

Infectious ophthalmic diseases View project

All content following this page was uploaded by Pedro Romero-Aroca on 03 August 2015.

The user has requested enhancement of the downloaded file.


Capítulo 23

ESTADÍSTICA ANALÍTICA
Julio José Gonzalez López, Carlos Lázaro García, Pedro Romero Aroca

«Aunque es fácil mentir con estadísticas, es mucho más fácil mentir sin ellas»
Frederick Mosteller

1.  Contraste de Hipótesis pacientes tratada con el fármaco B). El contraste de


   a) Significación estadística hipótesis permite a partir de la información obtenida
    b)  Elección de la prueba estadística con muestras, poner a prueba nuestra hipótesis a ni-
    c) Prueba de bondad de ajuste a la distribución vel poblacional.
normal. Kolmogorov-Smirnov Se procede basándose en la lógica falsacionista,
2.  Análisis bivariante. es decir, se asume que es cierta la hipótesis contraria
a la nuestra, a la que se suele denominar hipótesis
    a) Tablas de contingencia
nula (H0), dado que recoge la igualdad o inexisten-
    b) Prueba de Ji (o Chi) cuadrado cia de relación entre nuestros parámetros de estudio
    c) Test exacto de Fischer (A no es mejor que B). La contraria es la hipótesis
    d) Test de Student alternativa (Ha), que asume que no existe igualdad o
    e) «U» de Mann-Whitney que sí existe relación entre los parámetros (A es me-
    f) Test de ANOVA y Kruskal-Wallis jor que B). Ambas son excluyentes y cubren todos los
    g) Pruebas de correlación: Pearson y Spearman
posibles resultados (o es mejor A que B o no lo es).
Como ya explicamos extensamente en el capítulo
    h) Regresión lineal simple
7, todo contraste de hipótesis puede dar lugar a dos
   i) Regresión logística tipos de errores:
    j) Análisis de supervivencia 1.  Error tipo I o error α, consiste en aceptar
3.  Medidas de tratamiento de efecto nuestra hipótesis alternativa cuando es falsa (falso
   a) 
Riesgo relativo positivo).
   b) Odds ratio 2.  Error tipo II o error ß, implica rechazar nuestra
4.  Análisis multivariante
hipótesis alternativa cuando es cierta (falso negativo).
Estos errores se producen porque trabajamos so-
    a) Regresión lineal múltiple
bre muestras y no sobre poblaciones (capítulo 6), que
   b) Regresión logística sería el caso ideal, pero imposible de realizar en la
práctica. Lo único que podemos hacer es minimizar-
los al máximo.

1.  CONTRASTE DE HIPÓTESIS


a)  Significación estadística
Como ya comentamos en el capítulo 5, en un tra-
bajo de investigación de tipo analítico se parte de una En muchas ocasiones la expresión «estadística-
hipótesis científica (el descenso de la PIO es mayor mente significativo» (el valor de la famosa p) se toma
con el fármaco A que con el B) que debe traducirse a como «garantía de calidad», el equivalente a clíni-
una hipótesis estadística en términos de parámetros camente relevante o como la prueba que un efecto
(la media de las PIOs de los pacientes tratados con es producido por determinada variable, pero no es
el fármaco A es significativamente superior que los así. Es muy importante separar el concepto de signi-
178 23.  Estadística analítica

ficación estadística de la interpretación que nosotros esa distribucion o el tamaño muestral es pequeño (en
hacemos de dichos resultados (ver capítulo  22). La general, menos de 30), debemos utilizar pruebas no
significación estadística lo que nos indica es cuan paramétricas.
separados están nuestros resultados con los que ob- Combinando estos factores, los principales test
tendríamos si fueran debidos solo al azar. En el ca- que podemos utilizar son los que se muestran en las
pítulo 24 se exponen algunos errores comunes en el tablas I y II. La primera muestra la prueba de elección
manejo de la significación estadística. según los factores anteriormente referidos y la tabla II
De manera arbitraria se determina que un resul- muestra alternativas si no pueden realizarse pruebas
tado es estadísticamente significativo cuando existe paramétricas.
un 95% de probabilidades de que el resultado ob-
tenido NO sea debido al azar (p<0,05). Dicho de
otra forma, solo tenemos un 5% de probabilidades Ejemplo 23.1
de cometer un error tipo alfa. Si deseamos estar aún
más seguros, podemos elevar el nivel de significación  eseamos comprobar si un nuevo AINE
D
hasta un 99% (p<0,01). Debemos destacar que la sig- es más eficaz en el tratamiento del ede-
nificación estadística depende de dos factores: la di- ma macular postquirúrgico que el que
ferencia que estamos intentando probar (cuanto ma- solíamos utilizar habitualmente. Como
yor sea, más fácil es probarla) y el tamaño muestral variable de respuesta tomamos la agude-
(más fácil detectar diferencias cuanto mayor tamaño za visual. (cuantitativa) y comparamos
muestral tengamos). dos grupos de tratamiento, uno con cada
fármaco, (variable cuantitativa dicotó-
mica, es decir, de dos categorías). Con-
b)  Elección de la prueba estadística sultando la tabla I, vemos que la prueba
que debemos utilizar es la t de Student.
Una de las causas más frecuentes de duda del in- Si nuestra muestra es pequeña o no sigue
vestigador con poca experiencia es la elección del una distribución normal (veremos más
test estadístico en los contrastes de hipótesis, pero tarde como se comprueba eso) debería-
en la inmensa mayoría de los casos es sencillo. Esta mos utilizar una prueba no paramétrica,
elección depende de: que consultando la Tabla II es la U de
1. Tipos de variables: cuantitativas (y si son dos Mann-Whitney. Si existen más de dos
grupos o más de dos grupos de comparación) y cua- grupos de comparación (en el caso en
litativas (y dentro de estas últimas si son nominales u que comparemos tres o más tipos de AI-
ordinales, ver capítulo 8). NES) la prueba sería la ANOVA o un test
2.  Si los datos son apareados o independien- no paramétrico en muestras pequeñas
tes. Son datos apareados los que se realizan en (Kruskal-Walls).
los mismos sujetos (por ejemplo la medida de la
PIO antes y después de la administración de un
colirio hipotensor), mientras que son datos inde-
pendientes los que se obtienen de individuos dife- Ejemplo 23.2
rentes (por ejemplo, al comparar la eficacia de dos
técnicas quirúrgicas en dos grupos de pacientes  eseamos determinar si un nuevo mé-
D
diferentes). todo de receta hospitalaria informatiza-
3.  La distribución de las variables estudiadas. Las da disminuye el número de errores en
pruebas paramétricas suponen una distribución es- el proceso de prescripción y adminis-
pecífica en las variables estudiadas (generalmente la tración de fármacos comparándolo con
distribucion normal o de Gauss). Para ver si nuestra el método convencional con soporte de
distribución es normal debemos utilizar un test es- papel. Tenemos una variable cualitativa
tadístico, habitualmente el de Kolmogorov-Smirnov. dicotómica (error/no error) y dos grupos
Ver el apartado de la t de Student en este mismo ca- de estudio (pacientes con receta infor-
pítulo, donde se explica como se comprueba esto matizada y pacientes con receta en pa-
mediante un ejemplo. Estas pruebas son de elección pel). Por lo tanto el test de elección sería
y son más potentes. Si no nos es posible determinar un Ji (o Chi) cuadrado.
23.  Estadística analítica 179

Tabla I: Elección del test estadístico


Variable de respuesta
Factor de estudio Cualitativa nominal (2 Cualitativa nominal Cualitativa ordinal Cuantitativa
categorías) (>2 categorías)
Cualitativo: 2 gru- Chi al cuadrado Chi al cuadrado* U de Mann-Whitney* t de Student
pos independientes Fisher *
Z comparación propor-
ciones
Cualitativo: Mc Nemar* Q de Cochran Prueba de los signos* t de Student
2 grupos apareados Fisher* Prueba de Wilcoxon*
Cualitativo: Chi al cuadrado* Chi al cuadrado Kruskal-Walls* ANOVA
> 2 grupos inde-
pendientes
Cualitativo: Q de Cochran* Q de Cochran* Friedman* ANOVA
> 2 grupos aparea-
dos
Cuantitativo t de Student ANOVA Correlación de Correlación de
Spearman* Pearson
Tau de Kendall* Regresión lineal
* Pruebas no paramétricas.

Tabla II.  Equivalencia entre pruebas


Existen árboles de decisión on-line para la elección
paramétricas y no paramétricas del test estadístico. Por ejemplo:
– http://www.microsiris.com/Statistical%20Deci-
Muestra Prueba paramé- Prueba no para-
trica métrica sion%20Tree/
– http://www.socialresearchmethods.net/selstat/
Muestras relacio-
nadas ssstart.htm
  2 muestras t de Student Wilcoxon
   > 2 muestras ANOVA Friedman
Muestras inde- 3. UTILIZACIÓN DE LOS TEST ESTADÍSTICOS
pendientes MÁS FRECUENTES
  2 muestras t de Student U de Mann-
Whitney a)  Tablas de contingencia
   > 2 muestras ANOVA Kruskal-Walls
En la investigación biomédica, con frecuencia nos
encontramos con variables cualitativas, que se clasi-
fican en dos o más categorías excluyentes. Cuando
Ejemplo 23.3 se pretende comparar dos o más grupos respecto a
una variable de este tipo, los resultados se muestran
 eseamos saber si el grosor corneal está
D como tablas de contingencia, que es esto:
influido por la edad. En este caso tene-
mos dos variables cuantitativas, por lo Propiedad B
que la prueba de elección sería un test Propiedad A + - Total
de correlación o regresión (veremos + a b a+b
más tarde la diferencia entre ambos).
- c d c+d

Aunque existen multitud de test estadísticos, en Total a+c b+d N


la inmensa mayoría de trabajos se utilizan los más
frecuentes, entre los que encontramos los tres ante- Hay diversos procedimientos estadísticos para
riores. Si nuestras necesidades son más complejas, analizar las tablas de contingencia, entre ellos la
lo mejor es solicitar el asesoramiento de un experto. prueba de Ji cuadrado y el test exacto Fisher.
180 23.  Estadística analítica

b)  Prueba de Ji (o Chi) cuadrado Tabla de contingencia Sexo


Recuento GradoKK Total
Esta prueba nos permite saber si dos variables
categóricas están asociadas. Para su cálculo, es ne- I II III IV
cesario saber las frecuencias esperadas y compa- Sexo M 8 10 8 1 27
rarlas con las frecuencias observadas realmente. El V 6 12 3 0 21
estadístico c2 va a medir la diferencia entre el valor
Total 14 22 11 1 48
observado y el que se obtendría si ambas variables
* GradoKK
fueran totalmente independientes. El valor de c2 es
tanto mayor cuanto mayor sea esta diferencia, y por
lo tanto mayor relación existirá entre ambas varia- Pruebas de chi-cuadradado
bles. Se ha de tener en cuenta que este test nos va Valor gl Sig.
a decir si existe relación entre ambas variables pero asintótica
(bilateral)
no sabremos en qué sentido se produce. Tras obtener
el valor de c2 se habrá de plantear un contraste de Chi-cuadrado de Pearson 3,038ª 3 ,386
hipótesis frente a la hipótesis nula en la que no existe Razón de verosimilitudes 3,461 3 ,326
asociación entre ambas variables y la hipótesis alter- N de casos válidos 48
nativa en la que sí existe asociación. En la hipótesis ª  3 casillas (37,5%) tienen una frecuencia esperada inferior a
nula los valores de c2 se distribuyen dependiendo 5. La frecuencia mínima esperada es ,44.
de los grados de libertad, que es igual al número de
filas menos 1 por el número de columnas menos 1. En el recuadro superior se ordenan
Si no existiera asociación entre ambas variables, es nuestros casos por número de pacientes
decir, de ser cierta la hipótesis nula, el valor que se según estadio y sexo. En el segundo re-
ha obtenido ha de estar en el rango de mayor pro- cuadro vemos que no existe diferencia
babilidad según la distribución ji-cuadrado. El valor significativa entre sexos (p=0,386).
«p» que se obtiene es la probabilidad de obtener los
datos observados si fuera cierta la hipótesis de inde- Existen calculadoras on-line muy sencillas de uti-
pendencia. Si el valor «p» es <0,05, entonces se re- lizar para calcular la Ji-cuadrado. Por ejemplo:
chazaría la hipótesis nula y por lo tanto se aceptaría – http://graphpad.com/quickcalcs/chisquared1.
que existe relación entre ambas variables. cfm
– http://www.socscistatistics.com/tests/chisquare/
Ejemplo 23.4 Default2.aspx

Tenemos una muestra de 48 queratoco-


nos clasificados según su correspondien- c)  Test exacto de Fischer
te estadio de la enfermedad (variable
ordinal, de I a IV). Queremos saber si la Cuando la muestra a estudiar es pequeña, es pre-
distribución de estos estadios es igual en ferible utilizar el test exacto de Fisher. Se basa en eva-
ambos sexos. Para ello introducimos los luar la probabilidad de cada una de las tablas 2 x 2
datos en el SPSS (las variables aquí no que se pueden formar si conservamos los mismos to-
son del tipo «numéricas», sino «cadenas» tales de filas y columnas que los de la tabla observada.
en la notación del SPSS). Lo siguiente es Cada una de estas probabilidades se obtiene bajo la
hacer la correspondiente tabla de con- hipótesis nula de independencia de las dos variables
tingencia. Para ello entramos en Analizar analizadas. Conviene usar la prueba exacta de Fisher
g Estadísticos Descriptivos g Tablas de cuando al menos un 25% de las casillas de la tabla
Contingencia y señalamos que la variable de contingencia tienen un valor absoluto inferior a 5.
sexo vaya por filas y el grado de querato-
cono por columnas. Seguidamente vamos
a estadísticos y marcamos el test Ji-cua- d)  Test T de Student
drado (vemos que hay muchos otros test
que podemos realizar con estas tablas). Este test es uno de los test más frecuentemente
Los resultados obtenidos se muestran así: utilizados en los estudios estadísticos en ciencias de
23.  Estadística analítica 181

la salud, generalmente en la comparación entre dos entre la distribución de nuestra muestra y el modelo
técnicas quirúrgicas, tratamientos o pruebas diagnós- de distribución normal. En el programa SPSS vamos a
ticas si medimos los resultados con variables cuanti- la pestaña Analizar gPruebas no paramétricas gK-S
tativas. Podemos realizar el test «t» de Student para de una muestra y señalamos entre sus posibilidades
comparar el valor medio obtenido por ejemplo con la distribución de contraste normal (vemos que tam-
un nuevo fármaco hipotensor ocular antes y después bién ofrece la posibilidad de comprobar si se ajusta a
de su instauración (muestras apareadas). También otros tipos de distribuciones). Entonces nos aparece
nos informa sobre las diferencias en un nuevo trata- un cuadro de resultados con un nivel de significación
miento respecto a uno anterior o a los valores basales estadística. Si p<0.05 existe una diferencia estadís-
de referencia (pruebas de conformidad). O bien nos ticamente significativa respecto a una distribución
permite comparar efectos en muestras diferentes, por NORMAL, luego NO es una distribución normal. En
ejemplo el valor medio de presión intraocular tras nuestro caso particular encontramos que el valor de
realizar una trabeculoplastia selectiva en un grupo «p» es mayor de 0,05, por lo que nos encontramos
con Síndrome Pseudoexfoliativo con de un grupo ante una distribución NORMAL.
con Glaucoma Pigmentario. Después hemos de saber si existe o no igualdad
Al ser un test paramétrico, se requiere que la dis- de varianzas aplicando el test de Levene, pero esto
tribución muestral de las medias siga una distribu- ya nos lo da el programa en el cuadro de la t de Stu-
ción normal (habitualmente comprobada mediante dent. Para llegar a él señalamos Analizar g Comparar
el test de Kolmogorov-Smirnov) y que el tamaño de la medias g Prueba T para una muestra, introducimos
muestra sea grande (generalmente más de 30 casos, las variables de estudio y se nos muestra el siguiente
siempre que la distribución de la variable no presente cuadro:
asimetría ni anomalías destacables). No es necesario Si p>0,05 (test de Levene), existe homocedastici-
que ambos grupos sean iguales en número. Asimis- dad u homogeneidad de varianzas y hay que tomar el
mo es necesario analizar la varianzas, ya que si no valor correspondiente (marcado en rojo en la figura).
existe homogeneidad de varianzas, el resultado del Si p<0,05, existe heterocedasticidad, o heterogenei-
test se verá afectado. dad de varianzas y hay que tomar el valor correspon-
Dado que este es el test más utilizado, vamos a diente (Marcado en azul en la figura).
desarrollar un ejemplo a modo de tutorial utilizando En nuestro caso se cumple el criterio de homoge-
el programa estadístico SPSS. Estudiaremos si la pa- neidad de varianzas. Una vez que sabemos es nor-
quimetría corneal es diferente entre hombres y muje- mal y las varianzas son homogéneas, podemos utili-
res Para ello realizamos una paquimetría ultrasónica zar la t de Student. A mayores valores de «t» menor es
a 100 hombres y 100 mujeres de un mismo rango de el valor de «p». El valor de «p» obtenido en nuestro
edad. La hipótesis nula (H0) es que las medias de espe- ejemplo es 0,833, por lo que podemos afirmar que
sor corneal son las mismas en ambos grupos, mientras no se encuentran diferencias estadísticamente signifi-
que la hipótesis alternativa (H1) es que son distintas. cativas entre los valores de espesor corneal observa-
Lo primero es comprobar si esta distribución si- dos entre hombres y mujeres. De esta manera acep-
gue una ley normal, que es un paso muy importante tamos la hipótesis nula que nos dice que las medias
para saber si la prueba que debemos utilizar es pa- de espesor corneal son las mismas en ambos sexos.
ramétrica o no. La prueba que debemos utilizar es la Existen calculadoras on line para la t de Student,
de Kolmogorov-Smirnov, que hace una comparación algunos introduciendo todos los datos y otros con
182 23.  Estadística analítica

media, desviación típica y tamaño muestral. Deja- pacinetes de ascendencia amerindia.


mos dos ejemplos: Tras comprobar la normalidad de la dis-
– http://graphpad.com/quickcalcs/ tribución, podemos observar como en
ttest1/?Format=SD los pacientes de ascendencia africana y
– http://studentsttest.com/ amerindia el espesor corneal es menor.
Esta diferencia es además estadística-
mente significativa (p=0,46), por lo que
e)  «U» de Mann-Whitney rechazamos la hipótesis nula. En la pri-
mera tabla se encuentran las medias y
Esta prueba se utiliza cuando no se cumple el desviaciones estándar de las poblacio-
criterio de normalidad de la distribución, o cuan- nes estudiadas y en la segunda vemos
do el tamaño de la muestra es pequeño (menor de los resultados de la prueba de ANOVA.
30), independientemente de la distribución. Puede
incluso utilizarse para comparar variables ordinales. Report
El estadístico de contraste U se calcula mediante la Paquimetría
ordenación de ambas muestras de menor (valor 1) a PAC Mean N Std. Deviation
mayor (valor n1+n2). Si la hipótesis nula H0 es cierta,
1 535,46 50 23,857
los rangos deben distribuirse de forma aleatoria entre
las dos muestras, y por tanto el rango promedio de 2 524,74 50 25,845
ambas debe ser muy parecido. Al ser esta prueba no 3 534,08 50 24,125
paramétrica, en su cálculo no intervienen ni la media 4 524,60 50 26,606
ni la desviación estándar.
Total 529,72 200 25,458

f)  Test de ANOVA y Kruskal-Wallis ANOVA


Paquimetría
La prueba de ANOVA o análisis de la varianza Sum of Mean
la utilizamos cuando las comparación la queremos df F Sig.
Squares Square
realizar entre 3 o más grupos, ya que la compara- Between 5148,600 3 1716,200 2,717 ,046
ción de varios grupos de dos en dos va a incrementar groups
la probabilidad de que encontremos una diferencia Within 123821,7 196 631,743
estadísticamente significativa (p<0,05) cuando en groups
realidad no existe. Esta es una prueba paramétrica
que por tanto va a precisar la normalidad de la dis- Total 128970,3 199
tribución y la homogeneidad de varianzas, tanto me-
nos importante cuanto mayor sea el tamaño de los Imaginemos ahora que nos encontramos ante el
grupos. La prueba de ANOVA puede ser considerada mismo estudio pero el tamaño de cada grupo es de
como una generalización de la «t» de Student, hasta 25 pacientes o que al analizar la normalidad, es una
el punto que si realizamos esta prueba con tan sólo distribución no normal. En este caso tendremos que
2 grupos, nos encontraremos con los mismos resulta- utilizar un test no paramétrico como el de Kruskal-
dos que si empleamos una «t» de Student. Wallis

Ejemplo 23.5
g) Pruebas de correlación: Pearson y Spearman
 
Realizamos un estudio para analizar
nuevamente el espesor corneal, esta Cuando nos encontramos ante variables cuantita-
vez en 4 poblaciones distintas. El pri- tivas que pueden estar relacionadas, hemos de apli-
mer grupo estará compuesto por 50 car análisis de correlación y regresión para estudiar
pacientes de ascendencia caucásica, el vínculo entre ellas. Si aplicamos una correlación
el segundo por 50 de ascendencia afri- vamos a estudiar la dirección y la potencia de aso-
cana, el tercero por 50 sujetos de as- ciación entre ambas variables pero en ningún caso
cendencuia asiática y el cuarto por 50 seremos capaces de establecer una relación de cau-
23.  Estadística analítica 183

salidad. Cuando una variable es causa o depende di-


rectamente de otra, podremos aplicar una regresión
simple. El coeficiente de correlación de Pearson (r) es
una prueba paramétrica que nos va a permitir medir
el grado de asociación entre dos variables cuantitati-
vas que cumplen criterios de normalidad. Cuando el
criterio de normalidad no se cumple, habremos de
utilizar el test no paramétrico de Spearman (rho). El
coeficiente de Pearson toma siempre valores entre -1
y 1. Las correlaciones positivas nos indican que si una
variable aumenta, la otra también lo hace; y al contra-
rio, si el valor de «r» es negativo, al aumentar una va-
riable, la otra disminuye. De forma general se puede
considerar que si r es mayor de 0,8 la relación es muy
alta, entre 0,6 y 0,8 es alta, entre 0,4 y 0,6 moderada,
entre 0,2 y 0,4 baja y menos de 0,2 muy baja.

h)  Regresión lineal simple


Fig.  1: Representación gráfica de la correlación de dos va-
riables: r=0,957 (muy alta). Se representa también la recta
Esta prueba se utiliza cuando una de las dos va- de regresión.
riables se cree que es causa o dependiente de la otra.
Además de analizar la asociación entre ellas podre-
mos predecir el comportamiento de una conociendo un estado final en el que se representan las propor-
el resultado de la otra. En la representación gráfica ciones de supervivencia en función del tiempo. La
se representa la variable dependiente en el eje de las función de supervivencia S(t) indica la probabilidad
ordenadas (A) y la independiente en el eje de las abs- de que un sujeto de la población sobreviva durante
cisas (B). Se pretende encontrar la recta que mejor se un intervalo de tiempo superior a «t», siendo «T» la
ajuste a la «nube de puntos» calculada por el método variable aleatoria que representa el tiempo de super-
de los mínimos cuadrados, tal y como se puede ob- vivencia de los sujetos de una determinada pobla-
servar en la figura 1. ción. Esta función de supervivencia es la «Probabili-
Se obtiene una fórmula para la recta de regresión dad de Supervivencia» o «Probabilidad Acumulada
de la variable dependiente (A) en función de la inde- de Supervivencia». La prueba más utilizada es la Su-
pendiente (B) que será A=a+bB, siendo «a» la cons- pervivencia Acumulada de Kaplan-Meier.
tante de la recta y «b» su pendiente. Los tres datos que
obtenemos al realizar esta prueba son: «r al cuadra- Ejemplo 23.6
do», que es el coeficiente de correlación de Pearson
elevado al cuadrado. Es el coeficiente de determina-  nalizamos la probabilidad de control
A
ción y siempre estará entre 0 y 1. Así un valor de 0,85 del glaucoma tras cirugía filtrante con dos
significa que la variable independiente es capaz de criterios de control diferentes. El primer
explicar el 85% de la variabilidad de la variable de- criterio es obtener una presión intraocu-
pendiente A. También obtendríamos los coeficientes lar (PIO) por debajo de 21 mmHg pero
de regresión, la constante «a» y la pendiente «b». Por por encima de 16 y el segundo criterio
último se obtendría la ANOVA de la regresión, que es obtener una PIO por igual o menor a
nos da la medida de la significación estadística (p). 16 mmHg. Se puede así observar en este
caso una probabilidad acumulada de su-
pervivencia del 95,95% a los 5 años en
i)  Análisis de supervivencia el grupo de pacientes en los que se con-
siguió mantener siempre una PIO posto-
La curva de supervivencia nos va a permitir anali- peratoria igual o menor a 16 mmHg y del
zar la evolución de un grupo de sujetos desde un es- 86,58% en el grupo con PIO entre 16 y
tado inicial en el que comienza nuestro estudio hasta 21 mmHg (fig. 2).
184 23.  Estadística analítica

3.  MEDIDAS DE TAMAÑO DE EFECTO

Hasta ahora hemos visto si el azar es capaz de y el riesgo relativo sería:


explicar las asociaciones observadas en nuestra
muestra, o si por el contrario las diferencias son lo
suficientemente grandes como para que podamos Su interpretación es sencilla. El valor del riesgo
relativo nos dice cuánto más frecuente es el evento
en los expuestos frente a los no expuestos, de modo
que:
– Si RR > 1, el evento es más frecuente en los
expuestos
–  Si RR < 1, el evento es menos frecuente en los
expuestos
–  Si RR = 1, la probabilidad de presentar el even-
to es igual en expuestos y no expuestos
En nuestro ejemplo, el evento sería 3 veces más
frecuente en los expuestos que en los no expuestos.
Ahora bien, el valor que hemos obtenido es una es-
Fig.  2: Supervivencia acumulada de Kaplan Meier. timación puntual y (como vimos en la estimación de
parámetros) debemos calcular también el intervalo de
confianza. Simplemente observando el intervalo de
confianza, podemos saber si la relación entre las dos
concluir que no son debidas al azar. Como hemos variables es suficientemente grande como para que el
visto eso es lo que define el valor de la p. Sin embar- azar no sea suficiente para explicarla, esto es, que sea
go, ¿no nos aportaría más información el ser capaces estadísticamente significativa. Si el intervalo de con-
de cuantificar esas asociaciones? (ver capítulo 24). fianza del 95% del RR incluye el valor 1, el azar po-
Las medidas de tamaño de efecto nos van a permitir dría explicar la relación, por lo que la relación no es
no sólo saber si dos variables se asocian entre sí, sino estadísticamente significativa. Si inferior a 1, el evento
cuantificar esta asociación. es menos frecuente en los expuestos y si es superior a
1, el evento es más frecuente en los expuestos.

a)  Riesgo relativo Ejemplo 23.7

El riesgo relativo se define como el cociente de S e ha encontrado un RR de 24 (IC entre


la incidencia de un evento en el grupo de expuestos 17 y 26) de padecer cáncer de pulmón
a un factor entre la incidencia del evento en los no en los fumadores de más de 20 cigarri-
expuestos al factor (es decir, el número de veces que llos al día con respecto a la población
es más probable que la enfermedad se desarrolle en general. La interpretación de estos datos
el grupo expuesto con relación al sano): Imaginen el es que este tipo de fumadores tienen 24
siguiente ejemplo: veces más probabilidad de tener cáncer
de pulmón que la población normal. El
Enfermos Sanos TOTAL IC no contiene el 1, es muy superior, por
Expuestos 30  70 100 lo que la asociación es claramente signi-
No expuestos 10  90 100 ficativa.
TOTAL 40 160 200
El riesgo relativo es la mejor medida de efecto
En este caso, la incidencia en expuestos sería: para cuantificar relaciones entre variables cualita-
tivas. No obstante, para su cálculo es necesario po-
der calcular la incidencia de los eventos. Por tanto,
necesitamos estudios prospectivos (estudios observa-
la incidencia en no expuestos sería: cionales de cohortes, o bien estudios experimentales)
para poder calcularlo.
23.  Estadística analítica 185

b)  Odds ratio glaucoma, a fin de tratarlos. Para ello rea-


lizamos un estudio multivariante de los
La Odds Ratio (OR) es otra buena forma de cuan- posibles factores de riesgo, a fin de saber
tificar el tamaño de la asociación entre un factor y cuáles deberíamos tomar en cuenta, su
un evento (dos variables dicotómicas) cuando, por importancia relativa y cuáles son menos
el diseño del experimento, es imposible conocer relevantes. Entre estos factores de ries-
la incidencia (por ejemplo, en estudios de casos y go tenemos tanto variables cuantitativas
controles). En nuestro ejemplo, entre los pacientes (PIO) como cualitativas (antecedentes
expuestos existen 30 enfermos por cada 70 sanos familiares).
(20/70). Entre los no expuestos, hay 10 enfermos por
cada 90 sanos (10/90). Por tanto, entre los expuestos Los modelos multivariantes que aquí estudia-
expuestos habrá remos (los más usados en medicina) se basan en el
veces más enfermos que modelo lineal generalizado. Se trata de una genera-
entre los no expuestos. lización flexible de la regresión lineal simple de mí-
nimos cuadrados que hemos estudiado previamente
A esta razón de enfermos:sanos entre los expues- en estadística bivariante. Estas técnicas van a permi-
tos y no expuestos se le denomina Odds Ratio o, por tirnos analizar de forma simultánea relaciones entre
razones obvias, «razón de productos cruzados». variables, así como predecir el valor que tomará una
variable respuesta en función de una serie de varia-
bles predictoras. En general, el análisis multivariante
nos permite hacer aflorar la estructura subyacente de
nuestras distribuciones, y profundizar en las verda-
deras relaciones que existen entre las variables ob-
servando sus interacciones y eliminando relaciones
Cuanto más baja sea la incidencia, más se aproxi- espurias de confusión.
marán los valores de RR y OR. En epidemiología, se
considera que ambos valores son equivalentes cuan-
do las incidencias son inferiores al 10%. La interpre- a)  Regresión lineal múltiple
tación de los valores de la OR, y de sus intervalos de
confianza, es similar a los del RR. Como hemos visto previamente en el capítulo de
estadística bivariante, el objetivo del análisis de re-
gresión es estimar el valor que va a tomar una deter-
4.  ANÁLISIS MULTIVARIANTE minada variable cuantitativa en función de otra. Sin
embargo, ¿no sería más precisa nuestra predicción
La estadística que hemos visto hasta ahora nos si contásemos con más variables predictoras? Si fué-
ayuda a entender cómo se comporta una variable (es- semos capaces de añadirlas a nuestro modelo, esta-
tadística univariante) y cómo se relacionan entre sí ríamos mejorando nuestra capacidad de predicción.
dos variables (estadística bivariante). Sin embargo, es Además, estaríamos mejorando nuestra comprensión
raro en la vida que una cosa dependa sólo de otra, y de las relaciones entre cada una de las variables
con frecuencia nos hallamos ante redes de relaciones predictoras y la variable respuesta, puesto que eli-
difíciles de descifrar con estadística bivariante. Es aquí minamos los efectos de confusión e interacción que
donde el análisis multivariante tiene su papel, va a puedan existir (1). Lo que hacemos al construir un
permitirnos relacionar entre sí variables cuantitativas, modelo de regresión lineal múltiple no es más que
cualitativas o ambas de forma simultánea. Las técni- aumentar las dimensiones de nuestra nube de pun-
cas multivariante van a permitirnos obtener la infor- tos. Si pasamos de 1 variable predictoras a 2 variables
mación importante, separándola de lo accesorio. predictoras, nuestra nube de puntos pasa de un plano
bidimensional a un espacio tridimensional Si en un
Ejemplo 23.8 esfuerzo de abstracción añadimos una tercera varia-
ble predictora, pasaremos a estar buscando la ecua-
 esulta clínicamente relevante saber qué
R ción de la recta que mejor se adapte a nuestra nube
pacientes entre todos los hipertensos de puntos en un espacio tetra-dimensional. Podemos
oculares tienen más riesgo de desarrollar seguir añadiendo variables predictoras hasta llegar
186 23.  Estadística analítica

a un espacio n-dimensional, donde la ecuación de riables pueden tener importancia sobre el valor de la
nuestra recta sería: variable resultado (por ejemplo, si queremos conocer
los factores de riesgo de progresión de un glaucoma
pensaremos en el valor de la PIO, en la edad, en los
Donde y es el valor que tomaría la variable res- antecedentes familiares, paquimetría, etc.). Una vez
puesta; a es el término independiente (valor de y decidido cuáles pueden ser interesantes, se trata de
cuando el valor de todas las variables predictoras es seleccionar aquellas que tengan mayor relación con
0); ßi (para i desde 1 hasta n) es el coeficiente de re- la variable resultado, buscando el modelo más simple
gresión de xi; y xi (para i desde 1 hasta n) es el valor (con menor número de variables) que mantenga una
que toma cada una de las variables predictoras (6). capacidad explicativa y predictiva. Con el objetivo de
El cálculo de la ecuación de regresión es laborio- ayudarnos en esta decisión, los diferentes programas
so, y se realiza mediante métodos informatizados. El informáticos incorporan métodos de incorporación
coeficiente de determinación R2 es el índice propio progresiva (forward) o de eliminación progresiva (bac-
de cada modelo de regresión que nos permite medir kward). Los métodos forward comienzan introducien-
la calidad de ajuste o predicción lograda. Se inter- do en el modelo la variable con mayor correlación con
preta de igual forma que en regresión lineal simple la respuesta, y luego siguen con aquellas que mejor
(esto es, indica la proporción de la variación de la mejoran el modelo (mayor aumento de R2). El proce-
variable respuesta que es atribuible a los factores pre- so acaba cuando la mejoría del modelo producida al
dictores), y permite comparar entre sí distintos mode- incluir la siguiente variable no mejora la función pre-
los de regresión. dictora del modelo de forma significativa. Los métodos
backward parten de un modelo que incluye todas las
variables, y van excluyendo de una en una a las peores
b)  Regresión logística hasta que la capacidad predictora del modelo dismi-
nuye de forma significativa. Los métodos paso a paso
Vamos a hablar ahora de la técnica multivariante (stepwise) son una mejora sobre los anteriores. Estos
más usada en medicina. Las posibles razones de esto métodos evalúan las variables incluidas en el modelo
son: cada vez que una nueva variable entra, de modo que
– Utilidad para predecir variables dicotómicas pueden excluir variables que dejen de aportar informa-
(estar o no enfermo). ción una vez que la nueva variable entra en el modelo.
– Permite incluir como predictores variables
cuantitativas (Gaussianas o no) y cualitativas (7). BIBLIOGRAFÍA
– Permite el cálculo de Odds Ratios «controla-
das» por el resto de variables  1. Devore JL. Probabilidad y estadística para ingenieros y
ciencias. Editorial: Cenpage Learning Editores S.A. de C.V.;
En este caso, ya no hablamos de una ecuación li- 2008 pag 10-31.
neal. Una vez tenemos el modelo, podemos calcular   2. Pardell H, Cobo E, Canela J. Manual de bioestadística. Edi-
la probabilidad que tiene cada individuo de presen- torial MASSON SA Barcelona 1986. pag: 11-14.
tar la variable respuesta, en función de las variables   3. Milton JS, Tsokos JO. Estadística para biología y ciencias
predictoras. La calidad de la predicción del modelo de la salud. INTERAMERICANA-MCgraw-hill, Madrid
1989, pag: 103-131.
puede medirse usando una curva de características
  4. Martel PJ, Diez Vega FJ. Probabilidad y estadística en me-
operativas de receptor (curva ROC), que enfrenta la dicina. Ed Díaz de Santos, Madrid 1997 pag: 308-313, 95.
sensibilidad contra la especificidad del modelo pro-  5. Cohen J. Statistical Power Analysis for the Behavioral
bado en los mismos individuos con los que ha sido Sciences (second ed.). Lawrence Erlbaum Associates 1988.
construido. El área bajo esa curva es el índice que re-  6. Marill KA. Advanced statistics: linear regression, part II:
multiple linear regression. AcadEmerg Med 2004; 11: 94-
sume la capacidad de predicción de la ecuación, y se
102.
conoce como índice C (fig. 2). Un modelo que siem-   7. Worster A, Fan J, Ismaila A. Understanding linear and lo-
pre acertase tendría un índice C de 1 (clasificaría bien gistic regression analyses. CJEM 2007; 9(2): 111-3.
al 100% de los individuos), mientras que un modelo   8. Ahmed FE, Vos PW, Holbert D. Modeling survival in colon
que clasificase a los individuos al azar tendría un ín- cancer: a methodological review. Molecular cancer 2007;
6: 15.
dice C de 0,5 (acertaría en un 50% de los individuos).
  9. Klein JP, Rizzo JD, Zhang MJ, Keiding N. Statistical methods
Elección de variables independientes en regresión for the analysis and presentation of the results of bone ma-
multivariante: El primer paso a la hora de construir un rrow transplants. Part 2: regression modeling. Bone ma-
modelo de regresión multivariante es elegir qué va- rrow transplantation 2001; 28: 1001-11.

View publication stats

You might also like