Professional Documents
Culture Documents
Man0056 PDF
Man0056 PDF
FUNDAMENTOS DE ESTADSTICA
EN CIENCIAS DE LA SALUD
Fundamentos de estadstica en ciencias de la salud / Miguel Martn Mateo ... [et al.]. Bellaterra :
Universitat Autnoma de Barcelona,
Servei de Publicacions, 2010. (Manuals de la Universitat Autnoma de Barcelona ; 56)
ISBN978-84-490-2632-4
Composici:
Fotocomposicin gama, sl
Travessera de les Corts, 55, 2n 1a
08028 Barcelona
Edici i impressi:
Universitat Autnoma de Barcelona
Servei de Publicacions
Edifici A
08193 Bellaterra (Cerdanyola del Valls)
Tel.: 93 581 10 22. Fax: 93 581 32 39
sp@uab.cat
www.uab.cat/publicacions
ISBN978-84-490-2632-4
Dipsit legal: B. 34.483-2010
Printed in Spain
1. Presentacin
1.1 Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.2 La variabilidad es la base de la investigacin . . . . . . . . . . . . . . . . . . . . 14
1.3 El por qu de la necesidad del cambio de enfoque . . . . . . . . . . . . . . . . 17
1.4 El ejemplo prctico y las herramientas de estudio . . . . . . . . . . . . . . . . 19
1.5 Qu tipos de anlisis incluye este libro? . . . . . . . . . . . . . . . . . . . . . . . 20
Estadstica univariada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
Estadstica bivariada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
1.1 Introduccin
Exactitud
Error (Variabilidad)
Precisin
Figura 1.1
Variabilidad en las mediciones fsicas.
11
Si comparamos este rango de valores con el que se podra obtener con una balanza
ms sencilla, por ejemplo 0,9 y 1,1, diramos de esta ltima que tiene una precisin
ms pobre o menor precisin.
Existe sin embargo la posibilidad de que, al pesar el patrn de kilogramo, los resul-
tados obtenidos fluctuaran entre 0,869 y 0,871, es decir de forma bastante precisa (1
mg), pero claramente ms alejados de la realidad que los dos casos anteriormente ex-
puestos.
Ese aspecto es el que mide la exactitud, concepto que nos relaciona el promedio de
las medidas en comparacin con el verdadero valor del patrn medido. Es decir si el
promedio de las mediciones coincidiese con el verdadero valor del patrn utilizado, la
balanza, en este caso, sera totalmente exacta, aunque ninguna de las pesadas coinci-
diese con el verdadero valor.
Comentario:
Si tuviese que escoger entre un aparato de medida muy preciso o muy exacto, por
cul de los dos se decantara su eleccin?
Qu preferira, un termmetro que sistemticamente diera de lectura 4 grados
por encima de la verdadera pero muy preciso o un termmetro muy exacto pero con
una mala precisin?
En el primer caso, slo hay que restarle los 4 grados para saber la temperatura
del momento, dado que la lectura efectuada es muy precisa, necesitando por lo tan-
to slo una medicin. En el segundo supuesto, al tener una mala precisin, tendra-
mos que efectuar un nmero determinado de mediciones para conocer el promedio
y as conocer la temperatura medida, debido a que el termmetro es muy exacto.
El manejo de estos errores ha dado paso a una serie de conceptos muy utilizados en
Estadstica, como los llamados generalmente error estndar y error estndar de la me-
dia, el intervalo de confianza, etc. Estos trminos, como veremos a lo largo de este li-
bro, no tienen aplicacin estricta en el sentido etimolgico a la hora de analizar las
diferentes mediciones que pueden realizarse en un conjunto de individuos. As, no
existen individuos estndar ni mucho menos errneos aunque s, lgicamente, medidas
errneas pero no en el concepto de los experimentos fsicos, sino porque se midi la
propiedad de forma inadecuada.
En las ciencias experimentales observacionales, las que componen la mayor parte
de la experimentacin biolgica y de la salud en general, no existen tampoco ese tipo
de patrones de referencia. Como veremos ms adelante, los mrgenes de normalidad
fisiolgica se determinan siempre tras anlisis complejos en funcin de las pruebas que
se van acumulando en la literatura. Lgicamente, los aparatos de medida deben poseer
una exactitud como mnimo controlada y una precisin adecuada a lo que se pretende
medir, pero incluso un mismo individuo no sirve como patrn de s mismo en sus ca-
ractersticas, ya que stas varan y fluctan a lo largo del tiempo, incluso en perodos
muy cortos.
En esta situacin las variaciones que se observan al efectuar varias mediciones no
implican que los diferentes resultados sean valores errneos, sino que, a diferencia de
los parmetros o las constantes fsicas, las mediciones corresponden a la cuantificacin
de fenmenos que fluctan de forma aleatoria, incontrolable y por lo tanto sin explica-
cin racional alguna.
Comentario:
A poco que el lector reflexione comprender que si la nica fuente de variacin
entre los valores de las mediciones, o entre los distintos valores de la variable obser-
vada, fuese exclusivamente la fluctuacin aleatoria, poco espacio quedara para in-
vestigar un fenmeno. Es lgico pensar que, si la variabilidad se debiese
exclusivamente al azar, con encontrar un modelo matemtico de probabilidad para
conocer esa fluctuacin no cabra otro estudio ms.
Error de medida
Variabilidad Aleatoria
Atribuible
Variabilidad observable
Figura 1.2
Componentes de la variabilidad en medidas
biolgicas o en Ciencias de la Salud.
Esto se hace evidente si consideramos una propiedad que utilizaremos con frecu-
encia a lo largo del texto y es la tensin arterial sistlica.
Cul es la tensin arterial sistlica estndar de un individuo? Nadie sera capaz de
definir un concepto de este estilo, en todo caso, lo adecuado sera indicar la tensin
arterial ptima para no presentar riesgos de algn tipo de patologa. Por ejemplo, prue-
bas publicadas y consensos clnicos indican que sera recomendable tener una tensin
arterial sistlica TAS que no superase los 90 mm de Hg. Como todo consenso es cam-
biante, no es de extraar que esa cifra se convierta en 85 despus de diferentes pruebas
posteriores, mal llamadas en castellano evidencias debido a una inadecuada traduccin
del trmino en ingls evidence.
Tal y como se ha comentado en el prrafo anterior, en este libro se intenta que el lector
entienda que el origen de la necesidad de aplicar la Estadstica es la variabilidad y que
esta necesidad es an mayor en el momento en que estudiamos variables de tipo clasi-
ficatorio o categrico, tanto de tipo cualitativo o nominal, como ser o no hipertenso, o
bien cuantitativo como puede ser el nmero de personas que mueren cada 100.000
habitantes en un ao en una poblacin.
Observe la figura que se muestra a continuacin.
Los datos que se muestran en la Figura 1.3 corresponden a los datos de mortalidad
por todas las causas, as como por enfermedades cardiovasculares, de los centros par-
ticipantes en el proyecto MONICA, de la Organizacin Mundial de la Salud (OMS).
Comentario:
La figura 1.3 se ha obtenido en http://www.ktl.fi/publications/monica/monogra-
ph_cd/slides.htm
La informacin del proyecto se describe en la pgina http://www.who.int/car-
diovascular_diseases/resources/publications/en/index.html.
Muestras de los datos originales son accesibles desde la pgina
http://www.ktl.fi/publications/monica/monograph_cd/formats/survey.
htm#Data_book .
Los datos concretos que se utilizarn a lo largo de este libro se pueden acceder
desde la pgina http://graal.uab.es.
Men Women
POL-WAR UNK-GLA
LTU-KAU POL-WAR
RUS-NOC LTU-KAU
UNK-GLA USA-STA
FIN-NKA DEN-GLO
RUS-NO BEL-CHA
RUS-MOC RUS-NOC
CZE-CZE
YUG-NOS
YUG-NOS
RUS-MOI CZE-CZE
BEL-CHA UNK-BEL
FRA-LIL RUS-MOC
POL-TAR BEL-GHE
FIN-KUO GER-EGE
UNK-BEL RUS-NOI
FIN-TUL RUS-MOI
FRA-STR MEZ-AUC
GER-EGE POL-TAR
ITA-FRI FRA-LIL
GER-BRE AUS-NEW
BEL-GHE CHN-BEI
USA-STA CAN-HAL
DEN-GLO GER-BRE
GER-AUG FIN-NKA
SWE-GOT SWE-GOT
NEZ-AUC FIN-KUO
ITA-BRI ITA-FRI
AUS-NEW
CAN-HAL CER-AUG
SEI-VAF FIN-TUL
CHD FRA-STR
ICE-ICE
SWENS Stroke ICE-ICE
SWI-TIC AUS-PER
AUS-PER
Other CVD ITA-BRI
FRA-TOU Non CVD SWE-NSS
SPA-CAT FRA-TOU
CHN-BEL SPA-CAT
Annual mortality rate per 100 000 Annual mortality rate per 100 000
Figura 1.3
Tasa de mortalidad por 100.000 habitantes en los pases participantes
del estudio MONICA.
En la grfica puede observarse una gran variabilidad de mortalidad entre las subpo-
blaciones de los centros colaboradores. Tanto en el caso de hombres como en el de
mujeres existen diferencias que se pueden resumir como que hay pases en los que la
mortalidad por todas las causas es tres veces mayor que en otros.
Lo mismo ocurre si se observa la mortalidad por enfermedades cardiovasculares,
en que las diferencias pueden ser cuatro y cinco veces entre dos pases.
Esta inmensa variabilidad, en el supuesto de que los mtodos de registro de morta-
lidad fuesen estrictamente comparables y no estuvisemos introduciendo errores de
medida, puede ser de tipo exclusivamente aleatorio?
Intuitivamente e incluso emocionalmente no podramos aceptar que la mortalidad
puede ser tres veces mayor comparando dos centros pertenecientes a la Unin Euro-
pea, por ejemplo. Sin embargo, cientficamente no podemos basarnos en intuiciones ni
emociones o deseos, sino que el proceso de anlisis debera seguir el siguiente es
quema:
En otras palabras, segn el esquema descrito en la Figura 1.2, existe una variabili-
dad atribuible.
Sin duda, no se trata tampoco de ignorar si el valor promedio de la mortalidad en el
estudio es alto y qu factores podran modificarse para que, en el global, la mortalidad
disminuyese. Sin embargo, en la mayora de los casos, un proyecto no experimental no
se centra tanto en los niveles promedio de las variables como qu parte de la variabili-
dad es atribuible a un factor y qu implicara su modificacin.
Automticamente, la intervencin que conduzca a una disminucin del problema
en las situaciones extremas irremediablemente conducir a una mejora en los valores
promedio siendo, con toda la seguridad, ms fcil de planificar que en una accin que
buscase la disminucin en todos los estratos de la poblacin.
As pues los objetivos fundamentales de la Bioestadstica podran enunciarse de
forma genrica como:
Estos dos enunciados implican que de forma ms concreta las acciones ms frecu-
entes en el campo del estudio de la variabilidad sean:
En la figura 1.4 se muestran los cuatro apartados que se desarrollarn en este libro
y que los lectores que ya tienen conocimientos estadsticos podrn reconocer como los
cuatro grandes apartados de cualquier curso de Bioestadstica, si bien bajo otra pers-
pectiva.
Objetivos de la Bioestadstica
Figura 1.4
Objetivos centrales de la Bioestadstica.
todo acabar con la confusin que existe entre las distinciones necesarias en su poca
entre mtodos aproximados y mtodos exactos.
En general el enfoque clsico de esta materia ha tenido dos grandes condicionantes.
El primero el hecho de su origen. Como ya hemos dicho anteriormente, el primer
mbito de aplicacin de la Estadstica fue la medicin fsica y posteriormente cualquier
tipo de medicin, pero en general ligada a poder precisar la media o el promedio de una
variable o magnitud. Es decir, intentando estimar de alguna forma la exactitud de la me-
dicin con la mxima precisin posible o por lo menos cuantificada. Incluso los grandes
estadsticos del siglo pasado, Pearson, Fisher, Gosset, Snedecor, Wilcoxon, y tantos
otros, se dedicaron preferentemente o bien al control de calidad o al diseo experimental,
sobre todo en el mbito agropecuario, rea en la que los resultados obviamente se centran
en los promedios de produccin obtenidos con la menor variabilidad posible.
En Ciencias de la Salud, se han aplicado histricamente esos criterios en el entorno
ms cercano al ensayo experimental, como es el ensayo clnico. Sin embargo, tambin
aqu, por desgracia, el formalismo es slo parecido y en realidad, como se podr ver en
algn ejemplo, existen grandes diferencias conceptuales entre los ensayos clnicos y
los diseos experimentales desarrollados por los citados autores.
Por otro lado, en el rea citada, una gran parte de los estudios no pretenden observar
el promedio resultante al efectuar una experiencia o al efectuar una observacin pre o
postintervencin en un colectivo de pacientes. A nadie le satisfara la idea de que le cura-
sen en promedio, sino que lo que es de inters es cul es la probabilidad de curacin, cul
es la probabilidad de sobrevivir ms de un nmero de aos determinado despus de una
intervencin quirrgica oncolgica o despus de haber sufrido un infarto de miocardio.
Es decir, en la mayora de casos el inters del clnico se basa en la necesidad de
precisar la probabilidad de que ocurra un fenmeno o no, y eso en general se denomina
el valor pronstico de una accin. Este tipo de anlisis requiere de la resolucin y de-
terminacin de funciones de probabilidad que no tienen nada que ver, en principio, con
la conocidsima pero poco comprendida distribucin normal o campana de Gauss.
Cul es el motivo de la persistencia en la utilizacin de la distribucin normal? La
respuesta reside en que la mayora de distribuciones de inters en Ciencias de la Salud,
como la multinomial, binomial, hipergeomtrica, Poisson y tantas otras, requieren el
clculo de permutaciones y por lo tanto de la determinacin de factoriales, es decir N!.
Es un proceso engorroso para efectuar manualmente o casi imposible sin los procesa-
dores actuales por el tiempo requerido en cuanto N es un valor elevado.
Esto obligaba a recurrir a mtodos aproximados en los que los estadsticos mate-
mticos mostraban siempre que para N tendiendo a infinito acaba ajustndose bien una
normal, y que luego finalmente se acababa diciendo que, a partir de un nmero ms
humilde de datos, generalmente 30, tambin se aplicaba.
Comentario:
Recuerde que el factorial de un nmero N se expresa como:
N*(N-1)(N-2)*. (N-k)* *3*2*1
Y que aparte de requerimientos de tiempo tiene problemas de magnitud. As
incluso con los primeros ordenadores de 8 bits, manejar factoriales de nmeros su-
periores a 20 era si no imposible, impensable por el tiempo necesario de clculo.
El desarrollo del libro se basa en analizar los datos de un estudio realizado en el proyec-
to MONICA patrocinado por la Organizacin Mundial de la Salud, OMS, que se ha
indicado anteriormente. Los lectores pueden conocer el estudio en profundidad en:
http://www.who.int/cardiovascular_diseases/media/en/intro.pdf
Es sobre la base del anlisis de la informacin ofrecida por uno de los informes
anuales de este proyecto que los autores consideran que el estudiante y lector de este
libro podr adquirir los conocimientos que le sern de utilidad, evitando en lo posible
los ejemplos que, de tanto intentar ser acadmicos y didcticos, acaban alejados de la
realidad con la que se enfrentar el profesional en el futuro.
La base de datos que se utiliza en todos los captulos se deriva de una informacin
abierta y disponible desde la pgina web indicada anteriormente. La matriz de datos
accesible requiere de un trabajo adicional que permita un anlisis posterior cmodo e
interpretable. Las variables o propiedades que contiene estn codificadas con claves
que deben interpretarse a partir de los cuestionarios que tambin estn disponibles en
la misma web. Debe, pues, efectuarse un ejercicio de etiquetaje de variables y de defi-
niciones de la naturaleza y el formato de las variables que conforman la informacin
del estudio.
Por otro lado, no estn declarados qu valores se corresponden con casos en los que
la informacin no se conoce, no proceda medirla o el paciente no se present a cumpli-
mentar la encuesta. En esos casos, siguiendo un esquema ya conocido desde hace bas-
tante tiempo, los responsables de la gestin de la informacin del proyecto decidieron
codificarlos con nmeros como 9999 o bien 8888 o bien 7777, entre otros. Esa forma de
indicar la falta de informacin por las diferentes causas posibles est documentada en
los cuestionarios, pero, si no se introduce con criterio estadstico en la base de datos,
puede llevar a errores muy serios. Por ejemplo, el permetro de cintura expresado en
milmetros: si no se tiene en cuenta que si la medida es 999 quiere decir que no se sabe
el permetro, al efectuar anlisis como el promedio, este nmero lo consideraremos
como un valor y el resultado que observaramos estara completamente desviado.
Hay que efectuar, por lo tanto, una labor de anlisis de calidad de los datos descritos
en la base y ciertamente eso requiere cierta prctica en las herramientas informticas,
como SPSS y R, y si no se siguiese el mismo criterio que han usado los autores, a la larga
obtendramos constantemente resultados diferentes a los que se muestran en el texto.
Por esa razn, los lectores tienen a su disposicin la base de datos ya etiquetada,
purgada de errores de transcripcin y con la definicin completa de qu valores cuan-
titativos se corresponden con valores perdidos o no medidos o que no podran medirse
porque la medicin no procede, como, por ejemplo, datos sobre la menstruacin en el
caso de hombres. No obstante, se sugiere al lector que efecte un control de calidad de
las variables con el fin de detectar posibles casos de falta de informacin y su posterior
recodificacin.
Puede accederse a dichas bases de forma gratuita en http://graal.uab.es en el apar-
tado datos MONICA.
En la figura 1.5 se muestra un resumen de las variables que conforman la base de
datos utilizada en este libro:
Figura 1.5
Contenido del archivo de datos MONICA utilizado.
Los ejemplos que se muestran a partir del prximo apartado estn resueltos en R,
de forma que su presentacin no se diferencie en la prctica con los resultados que se
obtendran si se hubiesen creado con SPSS, paquete estadstico habitual en gran nme-
ro de libros de referencia.
Este libro no pretende convertirse en una gua de los programas citados y, por lo
tanto, al lector se le supone suficiente experiencia en al menos uno de los programas
para poder seguir con pleno rendimiento el libro. En caso contrario, le remitimos a
cualquiera de las obras que se citan en la bibliografa y que pueden considerarse una
introduccin suficiente para el manejo de ambas herramientas.
Estadstica univariada
Siguiendo el esquema de razonamiento del apartado anterior, de entrada se enunciar
el concepto de variabilidad para cualquier tipo de variable, as como la forma de des-
Histograma
1200
media = 26,2
1000
600
400
200
0
15 20 25 30 35 40 45 50 55 60 65
ndice msico corporal (IMC)
Figura 1.6
Descripcin de los valores de IMC, ndice msico corporal
(peso en Kg./talla2 en m).
media = 142,8
desviacin tpica = 29,4
n = 5 909
NA (missings) = 210
400
Frecuencia
300
200
100
0
Figura 1.7
Descripcin de la segunda medicin de la presin sistlica en mujeres.
80
60
Porcentaje
40
20
0
a
es
do
ro
do
tro
ej
lte
nt
ia
u
r
pa
Vi
ie
rc
So
fic
vo
en
su
di
o
in
o
do
o
s
ad
to
sa
Da
r
Ca
pa
Se
Estado civil
Figura 1.8
Distribucin de las opciones posibles de la variable estado civil.
Grupo de edad
Figura 1.9
Grupos de edades presentes en la muestra.
Una vez familiarizado el estudiante con los conceptos de variabilidad y las defini-
ciones que complementan este concepto, en un segundo apartado se introducir al
alumno en la descripcin de la variabilidad de una propiedad en funcin de otra o fac-
tor. Se pretende con ello describir el primer abordaje al anlisis de las variabilidades
atribuibles a factores y no exclusivamente al azar.
Estadstica bivariada
En las dos figuras siguientes, 1.10 y 1.11, se muestra grficamente el concepto de an-
lisis bivariado. Consiste ste en la representacin, cuantificacin y comparacin de las
variabilidades observadas en una propiedad en funcin de la existencia de un factor
externo que puede introducir una variabilidad atribuible al factor y adicionable a la
propia de la variable bajo un concepto estrictamente aleatorio.
Fuma cigarrillos?
Mujer ocasionalmente
si regularmente
no
Sexo
Hombre
Figura 1.10
Hbito tabquico descrito segn la variable sexo.
2500
enseanza superior
FP
bachillerato
primaria
2000
1500
Recuento
1000
500
0
Hombre Mujer
Sexo
Figura 1.11
Nivel educativo para hombres y mujeres.
Cualquiera de estos dos ejemplos, figuras 1.10 y 1.11, nos muestra la variabilidad
observada de dos propiedades categricas con ms de dos categoras, hbito tabquico
con tres y nivel educativo con cuatro.
La mera descripcin bivariada nos hace apreciar diferencias en las distribuciones
de las dos variables para hombres y mujeres; sin embargo en este nivel lo nico que
podemos plantearnos es si la variabilidad observada es slo atribuible al azar o no. Para
ello se llevarn a cabo anlisis para cuantificar las diferencias y plantear si stas difie-