You are on page 1of 52

1

P. Universidad Católica de Chile
Facultad de medicina
Departamento de Salud Pública


Bioestadística
Apunte 4. Test de Hipótesis y Asociación de Variables

L.Villarroel


1. Introducción a los Test de Hipótesis

Un test de hipótesis, también llamado dócima de hipótesis, es un procedimiento
estadístico que permite determinar la veracidad de una hipótesis planteada
respecto a parámetros poblacionales, usando para esto los resultados de una
muestra obtenida de la o las poblaciones en estudio.

Al igual que en estimación puntual e intervalos de confianza, los test de hipótesis
son una manera de hacer inferencias a una población a partir de una muestra
aleatoria. A diferencia de aquellos, en test de hipótesis las preguntas no se
refieren al valor de un parámetro, sino si éste es mayor o menor que un
determinado valor, o si un parámetro medido en dos poblaciones toma o no el
mismo valor.

Los pasos que se deben seguir para llevar a cabo una dócima de hipótesis los
provee el método científico:

• Comienza con la elaboración de una hipótesis estadística que refleje la creencia del
investigador acerca del parámetro poblacional de interés.

• Se toma una muestra aleatoria de la población en estudio y se obtienen las medidas
resumen apropiadas para el parámetro de interés.

• Se contrastan los resultados muestrales con lo planteado en la hipótesis.

• De acuerdo a la distancia entre los resultados muestrales y lo planteado en la
hipótesis, se calcula la probabilidad de que la hipótesis sea correcta o incorrecta.

• Termina con la aceptación o rechazo de la hipótesis planteada, de acuerdo a la
probabilidad obtenida.


El contraste de los resultados muestrales con la hipótesis de interés se hace
mediante cálculo de probabilidades, como se verá más adelante.
2
1.1 Hipótesis Estadísticas

El problema se formula a través de dos hipótesis estadísticas: una hipótesis nula
(H
0
) y una hipótesis alternativa (H
1
).

• La Hipótesis nula H
0
es la hipótesis que generalmente se quiere rechazar y refleja el
conocimiento actual del problema. Es decir, generalmente plantea que no hay cambios
en el estado de las cosas.

• La Hipótesis alternativa H
1
muestra un enunciado en desacuerdo H
0
, al plantear un
cambio en el actual conocimiento sobre el problema. Esta hipótesis suele reflejar lo
que el investigador sospecha es verdadero.

Las hipótesis H
0
y H
1
deben ser exhaustivas (deben cubrir todos los posibles
resultados) y excluyentes (no deben compartir ningún resultado).



Ejemplo. Un investigador sostiene que las mujeres que fuman durante el embarazo
tienen guaguas con menor peso promedio que la media nacional µ = 3,400 y desviación
estándar σ = 550. Los pasos a seguir para determinar si el investigador está en lo correcto
o está equivocado se muestran en el esquema siguiente.



3
Las hipótesis estadísticas pueden ser bilaterales o unilaterales. Algunos ejemplos
de hipótesis estadísticas son:




Las hipótesis bilaterales deben su nombre a que se rechaza la hipótesis nula para
valores muy grandes o muy pequeños de x ) ˆ ( p o . En las hipótesis unilaterales,
en cambio, sólo se rechaza H
0
para valores de x ) ˆ ( p o en un sentido.


Ejemplo. En la hipótesis H
0
:P=0.5 versus H
1
:P≠0.5, se rechaza H
0
si se observa un
estimador pˆ mucho menor o mucho mayor que 0.5. En cambio, en la hipótesis H
0
:µ≥100
versus H
1
:µ<100, se rechaza H
0
sólo si el estimador x es mucho menor que 100.


Nótese que se pueden plantear hipótesis en las cuales se compara un parámetro
con un valor constante, el cual es obtenido generalmente de la literatura. En otros
casos, interesa comparar el mismo parámetro entre dos o más poblaciones.

Por su estructura, los test de hipótesis se usan para buscar diferencias entre dos
parámetros (determinar si hay evidencia en los datos para rechazar H
0
). Cuando
se quiere probar si dos parámetros son iguales, se utilizan los llamados test de
hipótesis de equivalencia, los cuales no son vistos en este curso.
4
1.2 Posibles situaciones al contrastar los datos con la realidad

Supongamos que las únicas decisiones posibles de tomar, en base a los datos
muestrales, son aceptar que H
0
es verdadera o que H
1
es verdadera. Pero podría
ocurrir que los datos indiquen, por ejemplo, que H
0
es verdadera, cuando en
realidad es falsa, o viceversa.

Por supuesto que nosotros desconocemos esa realidad (si la supiéramos, no
tendríamos que hacer test de hipótesis), pero al menos debemos tener en cuenta
que podemos equivocarnos al tomar una decisión.

Luego, al tomar una decisión en base a una muestra se tendrá una de las
siguientes situaciones:




Las cuatro situaciones en la tabla se miden como una probabilidad.

• La probabilidad de cometer un error tipo I (de rechazar H
0
cuando es verdadera) se
denomina nivel de significación y se denota α αα α.

• La probabilidad de cometer un error de tipo II (de aceptar H
0
cuando la hipótesis
alternativa es verdadera) se denota β ββ β.

• La potencia es la probabilidad de rechazar H
0
cuando la hipótesis alternativa es
verdadera. Es decir, es la probabilidad de encontrar diferencias cuando efectivamente
existen. La potencia se denota 1-β ββ β.

• La confianza es la probabilidad de aceptar H
0
cuando ésta es verdadera. Es decir, es
la probabilidad de no encontrar diferencias cuando no las hay. Se denota 1-α αα α.


La confianza y el error tipo I son probabilidades de sucesos complementarios, por
lo que suman 1. Lo mismo ocurre con la potencia y el error tipo II.
5
Ejemplo: Al comparar P
A
y P
B
, el porcentaje de pacientes que mejora con tratamientos A
y B, se plantean las hipótesis H
0
:P
A
=P
B
versus H
1
:P
A
≠P
B
, entonces:

• El error α αα α equivale a la probabilidad de concluir que P
A
≠P
B
(los tratamientos difieren)
cuando en realidad los dos tratamientos tienen el mismo efecto.
• El error β ββ β equivale a la probabilidad de concluir que P
A
=P
B
(los tratamientos son
iguales) cuando en realidad uno de ellos es mejor que otro.
• La confianza 1- α αα α equivale a la probabilidad de no encontrar diferencias entre
tratamientos A y B cuando no las hay.
• La potencia 1-β ββ β equivale a la probabilidad de encontrar diferencias reales entre los
tratamientos A y B.


Nótese que todas las probabilidades anteriores son condicionales. Estas pueden
escribirse como:

β β
α α
= − =
= − =
) | ( 1 ) | (
) | ( 1 ) | (
0 0 0 0
0 0 0 0
F es H H aceptar P F es H H rechazar P
V es H H rechazar P V es H H aceptar P


El objetivo del Test de Hipótesis es maximizar las probabilidades 1-α y 1-β, lo que
a su vez minimiza las probabilidades de error.

Tradicionalmente se considera más grave cometer un error α que un error β.
Luego, se fija el máximo error α que se está dispuesto a cometer. Luego, se
quiere:
α ≤ ) | (
0 0
V es H H rechazar P

Generalmente se fija la significancia α en 5%. Cuando se cuenta con tamaños
muestrales reducidos se suele usar α=10% y cuando se tienen tamaños
muestrales grandes se puede usar α=1%.


Ejemplo. En el ejemplo en página 2, para averiguar si µ≠3400 el argumento comienza
asumiendo que H
0
es verdadera (o sea, µ=3400). Así, lo que se hace es construir la
condición “H
0
es V” en la probabilidad condicional.

Luego, usando , x el estimador muestral de µ, se calcula la probabilidad de rechazar H
0

(erróneamente, ya que se asumió que H
0
es V). Si esta probabilidad calculada es menor
que α, significa que la probabilidad de que estemos rechazando erróneamente H
0
es muy
baja, por lo que podemos rechazar H
0
. Pero si la probabilidad calculada es mayor que α,
significa que la probabilidad de error es muy alta, por lo que no rechazamos H
0
. Esta
probabilidad calculada se llama valor p.


La significancia α se fija antes de hacer la dócima de hipótesis (a priori). El valor p
se calcula después de tomar una muestra de la población en estudio (a posteriori).
6
1.3 Concepto de Valor p

El valor p es la probabilidad de observar un valor igual o más extremo que el
obtenido en nuestro experimento, asumiendo que la hipótesis nula es verdadera.


Ejemplo. Consideremos nuevamente el ejemplo de las madres fumadoras. Para
averiguar si el peso promedio de nacimiento de niños de madres fumadoras es menor que
3400 gramos, se plantean las siguientes hipótesis unilaterales:

H
0
: µ ≥ 3400
H
1
: µ < 3400

Asumamos un nivel de significancia α=0.05 (5%); es decir, queremos que la probabilidad
de rechazar erróneamente H
0
sea a lo más 0.05.

Supongamos que en una muestra aleatoria de n=100 recién nacidos de madres
fumadoras se obtiene 550 2950± = x . La pregunta es si este resultado es compatible con
lo planteado en H
0
.

Para hacer la dócima es necesario asumir que H
0
es verdadera. Para esto, basta con
asumir que µ=3400, ya que éste o cualquier valor superior pertenece a H
0
. Luego, como el
tamaño muestral es grande, bajo H
0
se cumple que:

)
100
, 3400 ( ~
2
σ
N x

El valor p se define como “la probabilidad de encontrar un igual o más extremo que el
obtenido en nuestro experimento, asumiendo que H
0
es verdadera”. Es decir:

) | 2950 (
0
V es H x P p valor < =

Nótese que la condición “H
0
es Verdadera” está implícita en la distribución asumida para
x , ya que su media es µ=3400. Al calcular el valor p, se tiene:

0005 . 0 ) 18 . 8 ( )
100 550
3400 2950
( )
2950
( ) | 2950 (
) 99 ( ) 99 ( 0
< − < =

< =

<

= < t P t P
n s n s
x
P V es H x P
µ µ


La estandarización es “t” y no “z”, ya que σ
2
es desconocida. Luego, el valor p < 0.0005.
Como este valor es bastante menor que α=0.05, se rechaza H0 a favor de la alternativa.
Se concluye que el investigador tiene razón: las madres fumadoras tienen niños con peso
promedio inferior a la media nacional 3400 gramos (p<0.0005).

Nótese que si la hipótesis fuera bilateral (H
0
:µ=3400 versus H
1
:µ≠3400), el valor p se
calcularía como P(t
(99)
<-8.18 ó t
(99)
>8.18) = P(t
(99)
<-8.18) + P(t
(99)
>8.18), ya que se
rechaza H
0
para valores muy grandes o muy pequeños de x . En este caso, se obtiene
valor p < 0.001, el cual sigue siendo muy significativo.
7
Esquemáticamente, la relación entre la significancia α y el valor p es la siguiente:




El diagrama incorpora un elemento adicional no descrito en el ejemplo en página
previa: el valor de x que acumula una probabilidad 0.05 ( x =3261). Luego, basta
con comparar el x muestral con este límite. Si x es menor que 3261, entonces
acumula una probabilidad menor que 0.05 y por lo tanto es significativo (permite
rechazar H
0
). Si x es mayor que 3261, entonces acumulará una probabilidad
mayor que 0.05 y no permitirá rechazar H
0
.

Aún cuando siempre es posible determinar el p o x ˆ límite entre H
0
y H
1
, siempre
es preferible calcular directamente el valor p, ya que el límite sólo nos permite
saber si valor p < α, pero el cálculo del valor p nos permite saber la probabilidad
real de rechazo de H
0
.



Ejercicio. En una localidad se determinó el porcentaje de alcoholismo crónico,
encontrándose 98 alcohólicos en 1500 encuestados (6.5% de los casos). Interesa
determinar si esta prevalencia es distinta al 5% reportado en población general.

8
2. Test de Hipótesis para una Proporción (test “z”)

Cuando se estudia una sola población, en ocasiones interesa determinar si la
proporción P de personas con una determinada característica es distinta, mayor o
menor que un valor conocido p
0
. Este valor conocido puede ser el valor que toma
P en población general, un valor reportado en la bibliografía, etc.

En este caso, las hipótesis posibles de plantear son:

(a) H
0
:P=p
0
vs H
1
:P≠p
0
(Cuando interesa determinar si P ≠ p
0
)
(b) H
0
:P≥p
0
vs H
1
:P<p
0
(Cuando interesa determinar si P < p
0
)
(c) H
0
:P≤p
0
vs H
1
:P>p
0
(Cuando interesa determinar si P > p
0
)

Donde p
0
es el valor de referencia y se asume que es conocido.

Asumiendo que H
0
es verdadera y si el tamaño muestral es grande, la proporción
estimada en la muestra cumple (por TCL):

Nótese que la distribución de pˆ está centrada en p
0
, que es el valor que toma P
asumiendo que H
0
es verdadera.

De acuerdo a la definición en página 6, el valor p es la probabilidad de encontrar
un valor tan extremo o más que el observado en la muestra, asumiendo H
0

verdadera.

Por ejemplo, si la hipótesis planteada es bilateral (hipótesis (a)), entonces se
rechaza H
0
para valores muy grandes o muy pequeños de pˆ . Equivalentemente,
si estandarizamos pˆ , se rechaza H
0
si z
0
toma valores muy grandes o muy
pequeños.

Luego, para cada hipótesis planteada el valor p corresponde a:

Para las hipótesis: el valor-p es:
(a) H
0
:P=p
0
vs H
1
:P≠p
0
(a) p = P(z <-z
0
o z> z
0
) = 2*P(z ≥|z
0
|)
(b) H
0
:P≥p
0
vs H
1
:P<p
0
(b) p = P(z<z
0
)
(c) H
0
:P≤p
0
vs H
1
:P>p
0
(c) p = P(z>z
0
)

Finalmente, se rechaza H
0
si el valor-p calculado es menor que la significancia α
fijada a priori.

)
) 1 (
, ( ~
0 0
0
^
n
p p
p N P

) 1 , 0 ( ~
) 1 (
0 0
0
^
0
N
n
p p
p p
z


=
9
Ejemplo. En una localidad se determinó el porcentaje de alcoholismo crónico,
encontrándose 98 alcohólicos en 1500 encuestados (6.5% de los casos). Interesa
determinar si esta prevalencia es similar al 5% reportado en población general.

Hipótesis. La hipótesis es bilateral. p
0
es igual a 0.05. Luego,

H
0
: P=0.05
H
1
: P≠0.05.

Muestra Aleatoria. En la muestra de n=1500 personas se encontraron 98 alcohólicos
(6.5%). Luego, 065 . 0 ˆ = p . Asumiendo H
0
verdadera y por TCL:


Luego, estandarizando se tiene


Valor-p. Dado que la hipótesis es bilateral, rechazamos H
0
para valores muy grandes o
muy pequeños de z
0
. Luego,

Valor p = P(z < - z
0
o z > z
0
) = 2P(z >|z
0
|) = 2P(z>2.67) = 2*0.00379 = 0.00758

Conclusión. Con p=0.0076 se rechaza H
0
. Por lo tanto, la prevalencia de alcoholismo en
la localidad estudiada es distinta de la prevalencia observada a nivel nacional.




Ejercicio. A continuación se muestran los pesos de nacimiento de 30 niños cuyas madres
aumentaron más de 12 kilos de peso durante su embarazo. Los datos se muestran
ordenados de menor a mayor:

2100 2230 2420 2820 3000 3050 3080 3140 3180 3220
3280 3310 3330 3370 3410 3410 3460 3480 3500 3520
3610 3730 3840 3920 3970 3990 4100 4120 4200 4220

Interesa determinar si la proporción de niños con peso superior a 4000 es distinto del 10%
reportado en la literatura.
)
1500
) 95 . 0 ( 05 . 0
, 05 . 0 ( )
) 1 (
, ( ~ ˆ
0 0
0
N
n
p p
p N p =

67 . 2
0056 . 0
015 . 0
1500
) 05 . 0 1 ( 05 . 0
05 . 0 065 . 0
) 1 (
ˆ
0 0
0
0
= =


=


=
n
p p
p p
z
10
3. Test de Hipótesis para un Promedio (test “t”)

En forma análoga al caso de una proporción, podría ser de interés determinar si el
promedio poblacional µ de una variable aleatoria X es distinto, mayor o menor que
un valor conocido µ
0
, donde el valor de referencia µ
0
es conocido.

En este caso, las hipótesis posibles de plantear son:

(a) H
0
:µ=µ
0
vs H
1
:µ≠µ
0
(Cuando interesa determinar si µ ≠ µ
0
)
(b) H
0
:µ≥µ
0
vs H
1
:µ<µ
0
(Cuando interesa determinar si µ < µ
0
)
(c) H
0
:µ≤µ
0
vs H
1
:µ>µ
0
(Cuando interesa determinar si µ > µ
0
)

Donde µ
0
es el valor de referencia y se asume conocido.

Cualquiera sea la hipótesis de interés, es necesario tomar una muestra aleatoria
tamaño n de la población en estudio y calcular x (el estimador muestral de µ).
Asumiendo que H
0
es verdadera y que la media muestral tiene distribución
Normal, (ya sea porque la distribución de la variable X es Normal o por TCL), se
tiene:

Lo cual significa que t
0
, la estandarización “t”, tiene distribución t de Student con n-
1 grados de libertad. Nótese que se asume que ) , ( ~
2
0
n N x σ µ . Es decir, la
distribución de x está centrada en µ
0
, ya que se asume que H
0
es verdadera.

Luego, siguiendo la misma lógica que en test de hipótesis para una proporción
(página 8), para cada hipótesis planteada el valor p es:


Para las hipótesis: el valor-p es:
(a) H
0
:µ=µ
0
vs H
1
:µ≠µ
0
(a) p = P(t
(n-1)
<-t
0
o t
(n-1)
> t
0
) = 2*P(t
(n-1)
≥|t
0
|)
(b) H
0
:µ≥µ
0
vs H
1
:µ<µ
0
(b) p = P(t<t
0
)
(c) H
0
:µ≤p
0
vs H
1
:µ>µ
0
(c) p = P(t>t
0
)

Finalmente, se rechaza H
0
si el valor-p calculado es menor que la significancia α
fijada a priori.
) 1 ( ~
0
0


=

n t
n
s
X
t
µ
11
Ejemplo. Resolvamos el problema planteado varias veces antes: determinar si el peso de
nacimiento de niños de mujeres fumadoras es menor que la media nacional de 3400
gramos.

Hipótesis. La hipótesis es unilateral. La media de referencia µ
0
es igual a 3400. Luego,

H
0
: µ ≥ 3400
H
1
: µ < 3400

Muestra Aleatoria. En una muestra aleatoria de 100 niños recién nacidos de madres
fumadoras se obtuvo: . 550 . 2950 grs s y grs x = = Asumiendo que H
0
es verdadera
(µ=3400 gramos) y que x tiene distribución Normal (TCL), se tiene:

Valor-p. Dado que la hipótesis es unilateral, rechazamos H
0
para valores muy pequeños
de t
0
. Luego,

Valor-p = P(t
(99)
<t
0
) = P(t
(99)
<-8.18) <0.0005

Conclusión. Con p<0.0005 se rechaza H
0
. Se concluye que el peso promedio de
nacimiento de niños de madres fumadoras es menor que la media nacional de 3400
gramos.




Ejercicio. Considere nuevamente los pesos de nacimiento de 30 niños cuyas madres
aumentaron más de 12 kilos de peso durante su embarazo (ejercicio propuesto en página
9). Los datos se muestran ordenados de menor a mayor:

2100 2230 2420 2820 3000 3050 3080 3140 3180 3220
3280 3310 3330 3370 3410 3410 3460 3480 3500 3520
3610 3730 3840 3920 3970 3990 4100 4120 4200 4220

Interesa determinar si en la población de mujeres que aumentan más de 12 kilos durante
el embarazo, el peso promedio de nacimiento es mayor de 3200 gramos.

(Nota: para los 30 casos descritos, el peso de nacimiento promedio muestral fue
. 3400 grs x = con una desviación estándar . 540 grs s = )

) 99 ( 0
2
~ 18 . 8
100
550
3400 2950
)
100
, 3400 ( ~ t t N X − =

= →

σ
12
4. Introducción a la Asociación de Variables

Se dice que entre dos variables aleatorias existe asociación si éstas no son
independientes. La determinación de si existe o no asociación se realiza
mediante test de hipótesis.


Ejemplo. Se piensa que un nuevo medicamento para controlar la presión arterial en
pacientes hipertensos (medicamento A) es mejor que uno de uso estándar (medicamento
B). Para probarlo, 150 pacientes fueron asignados al azar a cada medicamento. Al final
del estudio se determinó que el 42% de los pacientes con A y el 41.3% de los pacientes
con B logró controlar la presión arterial (63 y 62 pacientes, respectivamente).

Desde el punto de vista de la asociación de variables. Se observa que hay dos
variables involucradas en el estudio: “medicamento” (que toma valores A y B) y “control de
presión arterial” (con valores si y no).

El resultado del estudio muestra que el porcentaje de control de presión arterial es
prácticamente el mismo usando medicamento A o B. Es decir, la mejoría es independiente
del medicamento administrado. Se concluye que no hay asociación entre el medicamento
y el control de presión arterial. En consecuencia, la hipótesis del investigador era falsa.

Desde el punto de vista probabilístico. Si definimos los sucesos A=”El paciente toma el
medicamento A”, B=” El paciente toma el medicamento B” y C=” El paciente controla su
presión arterial”, se observa que:






Es decir, la probabilidad de que el paciente controle su presión arterial dado que tomó el
medicamento A, que es P(C |A), es 0.42, es igual a la probabilidad de que el paciente
controle su presión arterial P(C). Lo mismo ocurre con P(C | B) = P(B). Luego, el control
de la presión arterial es independiente del medicamento administrado.

Desde el punto de vista de los test de hipótesis. Si llamamos P
A
y P
B
al porcentaje de
pacientes que controla su presión con medicamento A y B, respectivamente, entonces las
hipótesis estadísticas podrían ser:

H
0
: P
A
= P
B

H
1
: P
A
≠ P
B


La dócima requiere fijar un nivel de significancia (por ejemplo, α=5%) y hacer el test
usando los resultados muestrales 413 . 0 ˆ , 150 42 . 0 ˆ , 150 = = = =
B B A A
p n y p n . El
resultado de esta dócima será que no hay diferencias significativas entre P
A
y P
B
.
) ( 413 . 0 ) | ( ) ( 42 . 0 ) | (
417 . 0
300
62 63
) (
C P B C P y C P A C P
C P
≈ = ≈ =
=
+
=
13
4.1 Variable Explicada y Explicatoria

El objetivo de un estudio suele ser el buscar una explicación a un determinado
fenómeno, medido a través de una variable, la cual es llamada variable explicada,
dependiente o respuesta. Generalmente se usa la letra Y para denotar la
variable aleatoria que identifica el fenómeno en estudio.

Por otra parte, la búsqueda de una explicación para el fenómeno se hace a través
de un conjunto de variables que podrían estar asociadas al problema. Estas son
llamadas variables explicatorias, independientes o factores. Se usa la letra X
para identificar una variable explicatoria, o las letras X
1
, X
2
, …, X
k
para identificar
un conjunto de k posibles variables explicatorias del fenómeno en estudio.



Ejemplo. Interesa determinar variables asociadas a la presencia de litiasis vesicular. La
planilla siguiente muestra las variables en estudio para algunos individuos.



La planilla tiene el formato necesario para ser utilizada como base de datos: cada
columna representa una variable aleatoria en estudio y cada fila representa un individuo.

Dado que el fenómeno en estudio es la litiasis vesicular, la variable respuesta
corresponde a la última columna de la planilla. Todas las otras variables son posibles
explicatorias del fenómeno, con excepción del número de identificación (variable ID).


Nótese que la variable respuesta en el ejemplo anterior es categórica y entre las
explicatorias hay variables categóricas y numéricas. El tipo al que pertenecen las
variables X e Y define el camino metodológico para determinar si existe asociación
entre las variables.
14
4.2 Camino metodológico según el tipo de variable

Hay cuatro situaciones posibles de encontrar al determinar la asociación, las
cuales se identifican según el tipo al que pertenece cada variable. Los siguientes
planteamientos de problemas de investigación ejemplifican estas situaciones.


Problema X Y
Interesa determinar si la pertenencia a un grupo étnico se
asocia con la presencia de cálculos vesiculares.
Grupo étnico
(categórica)
Cálculos
(categórica)
Se quiere saber si la presencia o ausencia de hipertensión
arterial influye sobre la ganancia de peso durante el embarazo
(en kilos).
HTA
(categórica)
Ganancia peso
(numérica)
Se quiere saber si el valor de un score de gravedad (que varía
entre 0 y 100 puntos, con un mayor puntaje indicando mayor
gravedad) es predictor de mortalidad cardiaca.
Score gravedad
(numérica)
Mortalidad
(categórica)
Se quiere determinar si el peso del recién nacido (en gramos)
está asociado con la edad de la madre (en años).
Edad materna
(numérica)
Peso RN
(numérica)


De esta forma, la variable explicada y cada una de las explicatorias pueden ser
clasificadas como categórica o numérica. En la asociación de ambas se tiene sólo
una de las siguientes alternativas:


Situación Explicatoria (X) Explicada (Y)
1 categórica categórica
2 categórica numérica
3 numérica categórica
4 numérica numérica


En la práctica las situaciones 2 y 3 se resuelven usando los mismos métodos
estadísticos, por lo que pueden ser vistas como una sola situación. Luego, el
camino metodológico a seguir depende de si (i) X e Y son categóricas; (ii) X e Y
son numéricas; o (iii) X es categórica e Y es numérica o viceversa.


Ejercicio. Un grupo de 200 personas obesas se dividió aleatoriamente en 3 grupos: un
grupo de 80 personas recibió una dieta baja en calorías; a un grupo de 70 personas se le
prescribió ejercicio físico y a otro grupo de 50 personas se les prescribió un medicamento.
Todas las personas fueron pesadas al principio del estudio y después de 6 meses de
tratamiento, registrándose la diferencia (en kilos) entre el peso inicial y final.

¿Cuántas variables identifica usted en este estudio?
¿Cuál es la variable explicada y la(s) explicatoria(s)?
¿A cuál situación metodológica corresponde, según la tabla previa?
15
5. Asociación Categórica – Categórica


Ejemplo. Interesa determinar si existe asociación entre el sexo del paciente
(masculino/femenino) y la presencia de cálculos vesiculares (codificado como 0=No y
1=Si), para un total de 965 personas.


Cuando las variables X e Y son ambas categóricas, con 2 o más niveles cada una,
se puede construir una tabla de contingencia para resumir el resultado conjunto
de las variables.

Una tabla de 2x2 como la siguiente es la más reducida posible de construir. La
presentación estándar de la tabla consiste en poner la variable X como fila y la
variable Y como columna. Además, la presencia del factor (X presente)
corresponde a la primera fila y la ausencia a la segunda; mientras que la presencia
de la enfermedad corresponde a la primera columna y la ausencia a la segunda.










La tabla anterior muestra en cada celda el número de casos en cada combinación
de X e Y. En la tabla es necesario calcular porcentajes por fila o por columna
(dependiendo del tipo de estudio: prospectivo, retrospectivo o de prevalencia
1
).

1
Para una descripción de los tipos de estudio mencionados, vea el anexo “Estudios Transversales,
Prospectivos y Retrospectivos” al final de este apunte.
16
Las figuras siguientes muestran los porcentajes que interesa calcular (y comparar)
en estudios de cohorte y caso – control.










Ejemplo (caso – control). En un estudio de factores de riesgo de enuresis infantil, se
eligieron al azar 400 niños que habían mojado sus camas por lo menos una vez durante
los 3 meses precedentes y 420 niños que no las habían mojado. Se determinó que los
niños con enuresis eran más pequeños, más niños que niñas y con niveles más elevados
de sufrimiento psicológico que los que no mojaban sus camas.



Ejemplo (cohorte). Un estudio de cohorte muy conocido es el estudio de Framingham de
enfermedad cardiovascular. Este estudio se inició en 1948 para investigar factores
relacionados con el desarrollo de enfermedad cardiovascular (Gordon y Panel, 1970).
5127 hombres y mujeres con edades entre 30 y 62 años de Framingham, Massachussets,
estuvieron de acuerdo en participar inicialmente en este estudio que incluyó entrevistas y
exámenes físicos de seguimiento cada 2 años. Actualmente ya se estudia la tercera
generación de esta cohorte inicial.
17
5.1 Dócima de Hipótesis: Test Chi-cuadrado y Exacto de Fisher

Cualquiera sea el tipo de estudio (prospectivo o retrospectivo), las hipótesis
estadísticas de interés son:

H
0
: P
1
= P
2

H
1
: P
1
≠ P
2


Si el estudio es de prevalencia (estudio transversal), las hipótesis estadísticas se
plantean como:

H
0
: No hay asociación entre X e Y
H
1
: Hay asociación entre X e Y

Nótese que H
0
:P
1
=P
2
es equivalente a H
0
:No hay asociación entre X e Y. Por
ejemplo, si el estudio es de cohorte, P
1
= P
2
significa que el porcentaje de
personas que enferma con y sin el factor de riesgo es el mismo. Es decir, el
porcentaje de enfermos no se modifica al estar X presente. Luego, no hay
asociación entre la aparición de la enfermedad y la presencia del factor.

Para docimar la hipótesis se toma una muestra de expuestos y no expuestos o de
casos y controles, según si el estudio es de cohorte o caso – control, y se calculan
los porcentajes muestrales
2 1
ˆ ˆ p y p .

En tablas de 2x2, se comparan los porcentajes con test Chi-cuadrado (si el
tamaño muestral es suficientemente grande) o Test exacto de Fisher (cuando n
es pequeño). Si la tabla tiene más de 2 filas o columnas, sólo se puede calcular
test Chi-cuadrado.

En tablas de 2x2, el valor de Chi-cuadrado se puede obtener con la fórmula:


Dado que la tabla es de 2x2, el estadístico χ
2
0
tiene distribución chi-cuadrado con
1 grado de libertad (ver propiedades de la distribución en página siguiente).


En general, si una tabla tiene I filas y J columnas, entonces χ
2
0
tiene distribución
Chi-cuadrado con (I-1)x(J-1) grados de libertad.

2
) 1 (
2
2
0
~
) )( )( )( (
) (
χ χ
d c b a d b c a
bc ad n
+ + + +

=
18
Distribución Chi-cuadrado

La fórmula para calcular χ
2
0
en tablas de 2x2 es una simplificación de la siguiente
fórmula, que se usa para calcular χ
2
0
para tablas de cualquier dimensión:

2
) 1 ( ) 1 (
2
2
0
~
) (
− × −



=
J I
celdas
i
i i
E
E O
χ χ


Donde O
i
es el valor observado y E
i
es el valor esperado en cada celda de la tabla
asumiendo que H
0
es verdadera (o sea, asumiendo independencia entre X e Y).

El valor esperado en cada celda se calcula como el producto de los 2 márgenes
de la tabla dividido por el total de casos tabulados. Por ejemplo, si la tabla es de
2x2, para la celda (1,1) se tienen O
1
=a casos observados y n c a b a E ) ( ) (
1
+ × + = .

La distribución Chi-cuadrado es asimétrica, sesgada hacia la derecha y siempre
toma valores positivos (noten que al calcular χ
2
0
no hay sumandos negativos). La
forma de la distribución depende de sus grados de libertad (como la t de Student).










El estadístico χ
2
0
tiene distribución Chi-cuadrado si n es suficientemente grande.
En la práctica, se requiere que no más del 20% de las celdas tengan valor
esperado menor que 5. Si esto no se cumple, se debe usar Test Exacto de Fisher
(si la tabla es de 2x2) o juntar categorías (si la tabla es de dimensión mayor a 2x2)


Nótese que la fórmula de χ
2
0
se basa en la diferencia entre lo observado y lo
esperado asumiendo que H
0
es verdadera (independencia). Luego, si los O
i
son
muy distintos de los E
i
, será evidencia de que lo observado no es similar a lo
esperado bajo H
0
. En consecuencia, se rechaza H
0
para valores grandes de χ
2
0
.

Luego, cualquiera sea la dimensión de la tabla, el valor p se calcula como:

) (
2
0
2
) 1 ( ) 1 (
χ χ > =
− × − J I
P p valor
19




Ejemplo de uso de la tabla. Supongamos que en una tabla de contingencia de
dimensión 3x4 (una tabla con 3 filas y 4 columnas), al calcular el valor del test chi-
cuadrado se obtiene χ
2
0
= 15.3.

Como la tabla tiene I=3 filas y J=4 columnas, los grados de libertad son (I-1)x(J-1)=2x3=6.

Como la hipótesis nula H
0
:No hay asociación, se rechaza para valores grandes de χ
2
0
, el
valor p es: p = P(χ
2
(I-1)x(J-1)
> χ
2
0
) = P(χ
2
(6)
> 15.3).

Dado que la tabla Chi-cuadrado entrega probabilidades acumuladas (como la tabla t de
Student), se observa en la fila de 6 grados de libertad que la probabilidad acumulada
hasta 14.4 es: P(χ
2
(6)
<14.4) = 0.975. Luego, P(χ
2
(6)
>14.4) = 0.025.

Como el valor 15.3 está más a la derecha que 14.4, se deduce que P(χ
2
(6)
> 15.3) < 0.025.
Como el valor p es menor que 0.025, se rechaza la hipótesis H
0
.


20
Ejemplo: Interesa determinar si hay diferencias en el porcentaje de personas con
depresión entre dos poblaciones A y B. Para esto, se tomó una muestra de 150 personas
de la población A y 200 de la población B, encontrándose 48 y 50 personas con
depresión, respectivamente. La tabla siguiente resume los resultados:







Luego, de la tabla se tiene:

El test es:




Valor-p: Se rechaza H
0
para valores grandes de χ
2
0
. Luego, el valor p está dado por:

p = P(χ
2
(1)
> χ
2
0
) = P(χ
2
(1)
> 2.08) > 0.1.

Dado que el valor p es mayor que α=5%, se concluye que no hay suficiente evidencia en
los datos para rechazar H
0
.


Ejemplo. Usando los datos en la tabla previa, calculemos χ
2
0
mediante la fórmula general.
Para esto, tenemos que usar los valores observados y esperados en cada celda.

Siguiendo el orden a, b, c y d de las celdas de la tabla, los valores observados son:



Los valores esperados en las celdas a, b, c y d, respectivamente, son:




Luego, el valor χ
2
0
está dado por:





El valor calculado χ
2
0
es el mismo usando esta fórmula y la fórmula reducida (dada en
página 17). La diferencia es que en tablas de 2x2 es más fácil usar la fórmula reducida,
pero si la tabla es de dimensión mayor a 2x2, sólo se puede calcular χ
2
0
a través de la
diferencia entre valores observados y esperados.
Si No Total
A a=48 b=102 a+b=150
B c=50 d=150 c+d=200
Total a+c=98 b+d=252 n=350
Depresión
Población
%) 25 ( 25 . 0
200
50
ˆ %) 32 ( 32 . 0
150
48
ˆ = = = =
B A
p y p
08 . 2
200 150 252 98
) 102 50 150 48 ( 350
) )( )( )( (
) (
2 2
2
0
=
× × ×
× − × ×
=
+ + + +

=
d c b a d b c a
bc ad n
χ
150 50 102 48
4 3 2 1
= = = = O O O O
144
350
252 200
56
350
98 200
108
350
252 150
42
350
98 150
4 3 2 1
=
×
= =
×
= =
×
= =
×
= E E E E
08 . 2
144
) 144 150 (
56
) 56 50 (
108
) 108 102 (
42
) 42 48 ( ) (
2 2 2 2 2
2
0
=

+

+

+

=

=

∀celdas i
i i
E
E O
χ
21
5.2 Caso especial en tablas de 2x2: Riesgo Relativo (RR) y Razón de
Chances (Odds ratio, OR)

Una limitación de los test Chi-cuadrado y Fisher es que estos sólo indican si existe
asociación entre X e Y (o diferencia entre dos proporciones p
1
y p
2
), pero no
permiten cuantificar el grado de asociación.

Indirectamente, el valor p nos indica qué tan importante es la asociación existente
(a menor valor p, mayor es la asociación), pero no es útil como indicador del grado
de asociación.

En esta sección estudiaremos 2 indicadores de riesgo: el odds ratio (OR) el cual
se usa en estudios retrospectivos y el riesgo relativo (RR) que se usa en estudios
prospectivos.

Consideremos la relación entre una variable que indica la exposición a un factor
(variable de exposición, con niveles presente/ausente) y una enfermedad (también
con niveles presente/ausente). La relación se puede tabular como:



Enfermedad
Total
Si No
Exposición
Si a b a+b = n
1

No c d c+d = n
2

Total a+c = m
1
b+d = m
2
n




Riesgo Relativo (RR)

Si la tabla previa es el resultado de un estudio prospectivo (de cohorte), entonces
interesa determinar p
1
y p
2
, el porcentaje de personas que enferma en grupos
expuesto y no expuesto, respectivamente.

El riesgo relativo se define como RR = p
1
/p
2
. Un estimador puntual de RR está
dado por
2 1
ˆ / ˆ
ˆ
p p R R = , e indica cuántas veces más riesgo hay de enfermar en
presencia del factor de exposición comparado con la ausencia del factor.

El RR siempre es positivo, y se puede interpretar de la siguiente forma:

• Si RR<1, entonces el factor de exposición es un factor protector de la enfermedad.
• Si RR=1, significa que la proporción de enfermos es igual en expuestos y no
expuestos, por lo que el factor de exposición no se asocia con la enfermedad.
• Si RR>1, entonces el factor de exposición es factor de riesgo de la enfermedad.
22
Generalmente el estimador del riesgo se presenta junto a un intervalo de
confianza. Se puede demostrar que un intervalo de confianza 1-α para RR está
dado por la siguiente expresión:






Donde “e” es la base de los logaritmos naturales (e≈2.718).

Nótese que si no hay asociación entre X e Y, entonces p
1
= p
2
y por tanto RR=1.
Luego, RR=1 indica de ausencia de asociación entre X e Y. En consecuencia,
para determinar si un estimador de RR es significativo (distinto de 1) con
significancia α, basta con observar si el intervalo de confianza (1-α) incluye el valor
1 o no. Si el intervalo no incluye el valor RR=1, entonces el RR es significativo.



Ejemplo. Mediante un estudio prospectivo, se quiere determinar el riesgo de morir a 30
días en una muestra de 441 pacientes que entran al hospital por una neumonía, según
compromiso de conciencia al ingreso.










De la tabla se tiene:




Luego, el riesgo de morir es 4.46 veces más alto entre los pacientes que presentan
compromiso de conciencia al ingreso.

Un intervalo de confianza de 95% para RR es (2.6, 7.8). Es decir, con confianza 95% el
riesgo de morir cuando hay compromiso de conciencia varía entre 2.6 y 7.8 veces más
que cuando no hay compromiso de conciencia.


(
(
¸
(

¸

+ + + −
− −
2 1
2 / 1
2 1
2 / 1
)
ˆ
ln( )
ˆ
ln(
,
cn
d
an
b
z R R
cn
d
an
b
z R R
e e
α α
Compromiso de conciencia al examen fisico * Estado a 30 dias
Crosstabulation
Count
27 84 111
18 312 330
45 396 441
Si
No
Compromiso de
conciencia al
examen fisico
Total
Muerto Vivo
Estado a 30 días
Total
46 . 4
330 / 18
111 / 27
= = RR
23
Odds Ratio (Razón de Chances)

Si el estudio es retrospectivo (caso – control), entonces no podemos calcular la
proporción de personas que enferma en expuestos y no expuestos, como en un
estudio prospectivo.

En este caso, recurriremos a la definición de chance de enfermar: si p es la
probabilidad de ocurrencia de un evento de interés, entonces la chance a favor del
evento se define como p/(1-p). Luego, Si p
1
y p
2
son las probabilidades de
ocurrencia del evento en dos grupos, entonces la chance a favor del evento en
cada grupo son Odd
1
=p
1
/(1-p
1
) y Odds
2
=p
2
/(1-p
2
).

Luego, la razón de las chances Odds
1
y Odds
2
es lo que denominamos Odds
Ratio,




El OR provee una medida para relacionar dos proporciones, como el RR. Nótese
que si p
1
y p
2
son pequeñas, entonces 1-p
1
y 1-p
2
serán cercanas a 1 y el OR
tomará un valor cercano a RR. Luego, el OR es usado como una aproximación del
riesgo relativo para enfermedades raras.

Dado que el estudio es retrospectivo, el OR se estima mediante:




Una observación importante es que si el OR se calculara en forma prospectiva, se
tendría:





Es decir, el OR calculado en forma retrospectiva es el mismo que al calcularlo en
forma prospectiva. Esta relación es muy útil en estudios caso – control, ya que nos
provee de una estimación del riesgo relativo en estudios retrospectivos.

Al igual que en el caso del RR, el Odds Ratio se presenta habitualmente con un
intervalo de confianza (1-α). Se puede demostrar que este intervalo es de la forma:




[ ] [ ]
[ ] [ ] bc
ad
d b d d b b
c a c c a a
R O =
+ +
+ +
=
) /( / ) /(
) /( / ) /(
ˆ
|
|
¹
|

\
| + + + + + + + −
− −
d c b a
z R O n
d c b a
z R O
e e
1 1 1 1
) ˆ (
1 1 1 1
) ˆ ln(
2 / 1 2 / 1
,
α α
) 1 (
) 1 (
2
2
1
1
2
1
p
p
p
p
Odds
Odds
OR


= =
[ ] [ ]
[ ] [ ] bc
ad
b a b d c c
d c d b a a
p
p
p
p
R O =
+ × +
+ × +
=


=
) /( ) /(
) /( ) /(
) ˆ 1 (
ˆ
) ˆ 1 (
ˆ
ˆ
2
2
1
1
24
La interpretación de un OR es similar a la interpretación de un RR:

• Si OR<1, entonces el factor de exposición es un factor protector de la enfermedad.
• Si OR=1, significa que la proporción de exposición es igual en casos y controles, por
lo que el factor de exposición no se asocia con la enfermedad.
• Si OR>1, entonces el factor de exposición es factor de riesgo de la enfermedad.

Aunque en estricto rigor el OR estima cuántas veces más chance hay de tener el
factor de exposición en los casos respecto a los controles, éste se interpreta
generalmente como cuántas veces más chance hay de enfermar en el grupo
expuesto respecto al grupo no expuesto. Esto es posible gracias a que el cálculo
del OR no cambia al hacerlo en forma prospectiva o retrospectiva.



Ejemplo. Interesa determinar si el consumo de leche durante la infancia y la adolescencia
disminuye el riesgo de fractura de cadera en adultos mayores. Para esto, se tomó una
muestra aleatoria de 180 adultos mayores de 65 años con fractura de cadera y se
comparó con 180 adultos sin fractura. El resultado del estudio fue el siguiente:

Fractura(+) Fractura(-) Total
Consumía leche 78 106 184
No consumía leche 102 74 176
Total 180 180 360


El OR estimado es igual a (78x74)/(102x106)=0.53. Es decir, hay un 47% menos de
riesgo de fractura al consumir leche durante la infancia y la adolescencia.

Un intervalo de 95% de confianza para OR está dado por:

) 81 . 0 , 35 . 0 ( ) , (
74
1
102
1
106
1
78
1
96 . 1 ) 53 . 0 ln(
74
1
102
1
106
1
78
1
96 . 1 ) 53 . 0 ln(
=
+ + + × + + + + × −
e e

Se observa que el consumo de leche es un factor protector significativo de fractura de
cadera, ya que el intervalo no incluye el 1.

Nótese que es importante el orden en que se ponga el consumo y no consumo de leche
en la tabla. Por ejemplo, si se tabula como:

Fractura(+) Fractura(-) Total
No consumía leche 102 74 176
Consumía leche 78 106 184
Total 180 180 360


En este caso, el OR es 1.87, con un intervalo de confianza de 95% igual a (1.23, 2.85),
que muestran que el no consumo de leche es factor de riesgo de fractura de cadera.

25
5.3 Caso especial en tablas de 2x2: Concordancia y Discordancia

La metodología descrita hasta ahora nos permite saber si existe asociación entre
dos variables dicotómicas (chi-cuadrado, test exacto de Fisher) y determinar el
grado de asociación (OR, RR).

Sin embargo, hay muchas situaciones en que las variables están correlacionadas
por construcción. Es decir, se espera que exista asociación entre ellas porque
fueron diseñadas para ello.


Ejemplo. Un cuestionario sobre consumo de alimentos fue administrado por correo a 537
enfermeras en Estados Unidos en dos ocasiones separadas por varios meses. El
cuestionario consultaba por el consumo de más de 100 alimentos diferentes. La tabla
siguiente muestra la cantidad de carne de vacuno consumida en los dos tiempos.


Encuesta-2



Total

≤ ≤≤ ≤1 vez/sem >1 vez/sem
Encuesta-1
≤ ≤≤ ≤1 vez/sem. 136 92 228
>1 vez/sem. 69 240 309
Total 205 332 537

Usando chi-cuadrado, se concluye que existe asociación entre ambos cuestionarios

2
=77.4, p<0.005 según tabla chi-cuadrado). Sin embargo, el resultado más importante
es determinar si existe concordancia entre las dos encuestas.



Ejemplo. Interesa determinar si dos observadores clasifican de la misma forma (como
positivo o negativo) a un conjunto de 50 observaciones.








En este caso tampoco interesa determinar si existe asociación entre los observadores,
sino si son concordantes o discordantes.

Un ejemplo clásico de esta tabla es el análisis de resultados de “telemedicina”. Por
ejemplo, determinar si un radiólogo clasifica de la misma forma un conjunto de
radiografías (como patología presente o ausente) al observarlas “en directo” o a través de
la pantalla de un computador. Si hay concordancia entre la observación in situ y la
observación a distancia, entonces se valida el procedimiento a distancia.
26
Para determinar la concordancia o discordancia entre los resultados de ambas
encuestas, se puede utilizar el Test Kappa (que se centra en la concordancia de
las dos variables) y Test de McNemar (que se centra en las discordancias).



El Test Kappa.

Para determinar el grado de concordancia se calcula el estadígrafo Kappa (Қ) que
varía entre -1 y +1. Mientras más cercano a 1, mayor es la concordancia. Si es
cercano a -1, mayor es la discordancia. El valor Қ=0 indica que ni siquiera existe
asociación entre X e Y. Si hay concordancia entre las variables se dice
generalmente que hay reproducibilidad.

Қ se calcula en tablas cuadradas de cualquier dimensión (deben tener el mismo
número de filas y columnas) y siempre que los 2 observadores tengan las mismas
categorías de respuestas (por ejemplo, si un observador tiene respuestas “bien”,
“regular” y “mal”, el otro observador debe presentar esos mismos niveles).

Aunque se pueden docimar las hipótesis H
0
: Қ=0 versus H
1
: Қ≠0, nótese que H
0

se rechazaría cuando Қ sea muy negativo o muy positivo. Si se rechaza H
0
y Қ es
negativo, basta con cambiar el “criterio” de clasificación de uno de los
observadores para tener un valor Қ positivo. Luego, es habitual que este cambio
se haga antes de hacer el test, de modo que las hipótesis de interés sean:

H
0
: Қ≤0
H
1
: Қ>0

El valor de Қ está dado por

Donde p
0
es la proporción de concordancias observadas y p
e
es la proporción de
concordancias esperadas asumiendo que las respuestas de los dos observadores
son independientes. El cálculo de p
e
sigue el mismo camino que el cálculo de E
i
en
el test Chi-cuadrado.

Además, se puede probar que el error estándar de Қ está dado por





Luego, para docimar H
0
:Қ=0 versus H
1
:Қ>0 se usa el test
) (
0
κ
κ
se
z = .
Se rechaza H
0
para valores grandes de z
0
. Es decir, valor p = P(z > z
0
).

e
e
p
p p


=
1
0
κ
)
`
¹
¹
´
¦
+ − + ×

=

=
c
i
i i i i e e
e
b a b a p p
p n
se
1
2
2
) (
) 1 (
1
) (κ
27
Independiente de su significancia estadística, el valor de Kappa en ocasiones es
evaluado de la siguiente forma:

• Un valor Қ>0.75 denota una excelente reproducibilidad.
• Un valor 0.4≤Қ≤0.75 denota una buena reproducibilidad.
• Un valor Қ<0.4 denota una reproducibilidad marginal.
(Referencia: Le C. Introductory Biostatistics. Wiley 2003)



Ejemplo. Calculemos el valor de Қ para los datos sobre consumo de alimentos (página
25). Las concordancias entre ambas encuestas son 136 y 240 (en la diagonal principal de
la tabla). Luego, la concordancia observada es:




Por otra parte, para calcular la concordancia esperada se requiere calcular primero el
número esperado de concordancias (como el producto de los 2 márgenes de la tabla
dividido por el total de casos tabulados). Los valores esperados para las 2 celdas de la
diagonal principal son:




Luego, teniendo el número esperado de concordancias, podemos calcular la proporción
esperada de concordancias como:



Luego,






Se puede verificar que el error estándar de Қ es se(Қ)=0.043.

Luego, el valor de z
0
está dado por 8 . 8
043 . 0
378 . 0
) (
0
= = =
κ
κ
se
z .

El valor p es P(z>8.8) < 0.001. Se rechaza H
0
y se concluye que hay concordancia entre
las dos encuestas. Sin embargo, aún cuando Қ es significativamente distinto de cero, el
grado de concordancia es más bien bajo (Қ <0.4).


7 . 0
537
240 136
0
=
+
= p
191
537
332 309
87
537
205 228
2 1
=
×
= =
×
= e y e
518 . 0
537
191 87
=
+
=
e
p
378 . 0
482 . 0
182 . 0
518 . 0 1
518 . 0 70 . 0
= =


= κ
28
El Test de McNemar

El Test de McNemar se usa sólo en tablas de 2x2 y se basa en las discordancias
de la tabla.

El interés del test se centra en determinar si el número de discordancias se
distribuye uniformemente entre las 2 celdas discordantes. Nótese que si la
distribución es uniforme (la mitad de las discordancias están en una de las celdas
y la otra mitad en la otra), entonces no hay un patrón de error sistemático.

Luego, las hipótesis de interés son

H
0
: Las discordancias se distribuyen uniformemente
H
1
: Las discordancias no se distribuyen uniformemente

Nótese que si llamamos n
A
al número de casos discordantes en una de las celdas
de la diagonal secundaria (por ejemplo la celda “b”) y n
B
al número de
discordantes en la otra celda (la celda “c”), entonces lo que se espera (bajo H
0
) es
que la proporción de discordantes en cada una de las 2 celdas sea p = ½.

Luego, las hipótesis previas las podemos escribir como: H
0
:p=½ versus H
1
:p≠½.

El test estadístico usado para docimar la hipótesis es el test chi-cuadrado de
McNemar (χ
2
MN
) dado por





El estadístico χ
2
MN
~ χ
2
(1)
.

Nótese que si H
0
es verdadera, entonces p=½ y por lo tanto debiera cumplirse que
n
A
≈ n
B
(las discordancias se distribuyen uniformemente). Luego, en el numerador
de χ
2
MN
debiera ocurrir que |n
A
- n
B
| ≈ 0. En consecuencia, se rechaza H
0
:p=½
para valores grandes de χ
2
MN
.



Ejemplo. Usando los datos sobre consumo de alimentos (página 25), las discordancias
son: n
A
=92 y n
B
=69. Luego, el test de McNemar es

( )
2
) 1 (
2
2
~ 01 . 3
69 92
1 69 92
χ χ =
+
− −
=
MN


Luego, de tabla chi-cuadrado se tiene valor p = P(χ
2
(1)

2
MN
) = P(χ
2
(1)
>3.01) >0.05. Se
concluye que las discordancias se distribuyen uniformemente.
( )
( )
B A
B A
MN
n n
n n
+
− −
=
2
2
1
χ
29
5.4 Caso especial en tablas de 2x2: Sensibilidad y Especificidad

Cuando se mide la concordancia y discordancia entre dos test diagnóstico, el
resultado no aporta información sobre la efectividad de estos test. Por ejemplo,
dos test alternativos para diagnosticar fiebre tifoidea podrías ser totalmente
concordantes, pero al ser confrontados con el verdadero estado de los pacientes
que clasificaron, podrían arrojar pésimos resultados.

Cuando se conoce el “verdadero estado” de un paciente (generalmente sano o
enfermo), es de interés determinar si uno o más test diagnósticos clasifican en
forma correcta a estos sujetos. Estas pruebas diagnósticas pueden ser
dicotómicas (clasifican a cada sujeto como positivo o negativo) o numéricas.


Ejemplo. En un estudio del Centro de Control de Enfermedades de Estados Unidos
(CDC, 1985), se desea valorar la precisión de 13 laboratorios en el análisis de orina para
diversos medicamentos. Cada laboratorio recibió 100 muestras de orina; en 30 a 40% de
éstas se agregó una concentración conocida de un medicamento. La tabla siguiente
muestra el número de muestras positivas (con medicamento) y el número de muestras
negativas (sin medicamento) que fueron correctamente identificadas por los laboratorios.




Medicamento
Muestras positivas Muestras negativas

Total
Correctamente
identificadas

Total
Correctamente
identificadas
Barbitúricos 455 187 689 689
Anfetaminas 572 177 637 618
Metadona 533 469 663 583
Cocaína 416 150 793 785
Codeína 481 216 715 708
Morfina 468 178 728 713


Se observa que los laboratorios identificaron mejor la ausencia de un medicamento que la
presencia de éste. La identificación correcta de una muestra positiva se denomina
sensibilidad y la identificación correcta de una muestra negativa se denomina
especificidad.



Ejemplo. El “detector de mentiras” es un aparato que registra los cambios fisiológicos
sufridos por un individuo como respuesta a una lista de preguntas en la que, con algunos
temas neutros e inofensivos, se intercalan cuestiones relacionadas con un delito.

Según sus detractores, aunque el detector es capaz de identificar correctamente a un alto
número de sujetos culpables (tiene una alta sensibilidad), su principal problema es que
podría clasificar como culpable también a un alto número de personas inocentes (tiene
una baja especificidad).
30
En general, la sensibilidad y especificidad se obtienen de una tabla de 2x2 en la
que se clasifica el verdadero estado del paciente (como columnas) y el test
diagnóstico (como filas). La tabla resultante tendrá la siguiente forma:


Enfermedad

Presente

Ausente
Prueba o
Test
Diagnóstico

Positiva
a
Verdaderos Positivos
(VP)
b
Falsos Positivos
(FP)

Negativa
c
Falsos Negativos
(FN)
d
Verdaderos Negativos
(VN)


La sensibilidad (S) es la proporción o porcentaje de casos positivos clasificados
como positivos por el test.



La especificidad (E) es la proporción o porcentaje de casos negativos clasificados
como negativos por el test.



También se define la tasa de falsos negativos (TFN) y de falsos positivos (TFP)
como 1-S y 1-E, respectivamente.




Ejemplo. La tabla siguiente resume el resultado de la capacidad de los laboratorios para
detectar la presencia de cocaína en las muestras.


Cocaína en la Muestra


Total
Presente Ausente
Prueba de
Laboratorio
Cocaína (+) 150 8 158
Cocaína (-) 266 785 1051
Total 416 793 1209

De la tabla se tienen los siguientes resultados:

Sensibilidad = 150/416=36% Especificidad = 785/793=99%
Tasa Falsos(-) = 266/416=64% Tasa Falsos(+) = 8/793=1%


FP VN
VN
d b
d
E
+
=
+
=
FN VP
VP
c a
a
S
+
=
+
=
31
La elección de un test diagnóstico depende de la gravedad de la enfermedad. Si la
enfermedad es grave, se prefiere un test que tenga alta sensibilidad (o sea, una alta
probabilidad de detectar un enfermo). En cambio, si la enfermedad no es grave, se
prefiere un test que sea más específico (o sea, una alta probabilidad de detectar un sano).


En la práctica, lo que se quiere es tener un test diagnóstico que permita identificar
precozmente una persona enferma y descartar una sana. Para determinar si un
test diagnóstico tiene estas cualidades, se planifica un estudio “prospectivo”, en el
que se seleccionan a+b individuos con test diagnóstico positivo y c+d individuos
con test diagnóstico negativo.

Luego, la capacidad predictiva del test se determina mediante su valor predictivo
positivo y su valor predictivo negativo.

El valor predictivo positivo (VPP o VP(+)) es la fracción de verdaderos positivos
respecto al total de casos clasificados como positivos por el test.




El valor predictivo negativo (VPN o VP(-)) es la fracción de verdaderos
negativos respecto al total de casos clasificados como negativos por el test.




El resultado de los valores predictivos está relacionado directamente con la
prevalencia de la enfermedad.


Nótese que durante el proceso de construcción de una prueba diagnóstica, el
investigador fija el número de enfermos y sanos a considerar en el estudio (o sea,
a+c y b+d). Este diseño permite estimar la sensibilidad y especificidad del test y no
los valores predictivos.


FP VP
VP
b a
a
VP
+
=
+
= +
FN VN
VN
d c
d
VP
+
=
+
= −
32
Ejemplo. Los valores predictivos positivo y negativo en la detección de cocaína por parte
de los laboratorios son:

VP+ = 150/158 = 94.9% VP- = 785/1051 = 74.7%

Pero, ¿qué habría ocurrido si el CDC hubiese enviado un número 10 veces mayor de
muestras sin cocaína a los laboratorios? En ese caso, y suponiendo que la sensibilidad y
especificidad se mantienen, la tabla habría sido la siguiente:


Cocaína en la Muestra


Total
Presente Ausente
Prueba de
Laboratorio
Cocaína (+) 150 80 230
Cocaína (-) 266 7850 8116
Total 416 7930 8346

Se observa que S y E no cambian (36% y 99%), pero ahora VP+=150/230=65.2% y VP-
=96.7%.

Este ejemplo muestra que cuando se quiere validar el test construido, se clasifica primero
a los pacientes según el test diagnóstico (como “positivo” o “negativo”) y se determina
posteriormente el verdadero estado de los pacientes. Este procedimiento prospectivo es
el que permite estimar los valores predictivos positivo y negativo.




Ejemplo (VP+ y VP- por “Método de la Abuelita”). Un nuevo test diagnóstico para cierta
enfermedad tiene sensibilidad 80% y especificidad 50%. Si la prevalencia de la
enfermedad es 5%, ¿Cuál es el valor predictivo positivo y negativo del nuevo test?

R. La prevalencia 5% indica que de cada 1000 personas, 50 tienen la enfermedad. Luego,
al tabular 1000 personas (ficticias) de acuerdo a la información disponible de sensibilidad,
especificidad y prevalencia, se tendrá:


Enfermedad


Total
Presente Ausente
Test
(+) 40 475 515
(-) 10 475 485
Total 50 950 1000


De la tabla se obtiene VP+ = 40/515=7.8% y VP- =475/485= 97.9%. Esto muestra que,
cuando el test resulta negativo, virtualmente descarta la enfermedad. Sin embargo,
cuando resulta positivo, sólo en el 7.8% de los casos la enfermedad está presente.

En general, los procedimientos con sensibilidad elevada son útiles para descartar una
enfermedad en pacientes cuya probabilidad a proiri de tenerla sea baja (o sea, cuando la
prevalencia es baja).
33
Análisis de Pruebas Diagnósticas Numéricas.

Cuando los valores de la prueba diagnóstica se miden en una escala numérica, la
sensibilidad y especificidad dependen del punto de corte establecido en la variable
para clasificar los “positivos” y “negativos” del test.

En este punto surgen 2 preguntas respecto al test numérico: ¿Qué tan buen
predictor es este test diagnóstico para la enfermedad? ¿Cuál es el punto de corte
en la variable que arroja la mayor sensibilidad y especificidad?

La respuesta a ambas preguntas se puede obtener mediante las curvas ROC
(Receiver Operating Characteristic curve), que consiste en un gráfico de la
sensibilidad versus 1-especificidad calculada usando como punto de corte todos
los valores observados de la variable numérica.

Para ilustrar la forma de obtener una curva ROC e interpretarla, consideremos el
siguiente ejemplo.



Ejemplo. Se quiere construir un modelo predictivo de infección en una Unidad de
Cuidados Intensivos (UCI). Para esto, se tiene la información de 39 pacientes, 21 con
infección y 18 sin infección. Las variables que se cree están asociadas con la presencia
de infección son Sexo, Edad, PCR (resultado de un test precoz de infección), y Recuento
de glóbulos blancos (RCTOGB). Usando estas 4 variables se construyó un score de
riesgo de infección, con el siguiente resultado para los 49 pacientes:

Sin infección: 735.3, 658.92, 566.6, 844.49, 467.29, 1056.32, 416.55, 738.7, 954.02, 7.49, 564.82,
634.88, 688.12, 874.44, 483.9, 33.95, 684.81, 594.97

Con infección: 1696.21, 1115.21, 1093.48, 922.06, 917.09, 908.84, 700.59, 895.31, 787.9,
1799.1, 959.8, 584.2, 1013.03, 876.68, 340.33, 732.31, 897.43, 1020.87, 1442.85, 1095.81, 1217.8

Si se elige un punto de corte arbitrario en el score, se puede obtener la sensibilidad y
especificidad de ese punto de corte específico. Por ejemplo, usando corte ≤800 versus
>800 puntos, y asumiendo que un puntaje alto en el test es indicador de infección, se
obtiene:


Infección


Total
Presente Ausente
Test
>800 16 4 20
≤800 5 14 19
Total 21 18 39

Se observa que la sensibilidad es 16/21=76.2% y la especificidad es 14/18=77.8%.

34
Si se repite el proceso de cálculo de la sensibilidad y especificidad para todos los valores
del score, se tiene la tabla siguiente. Al graficar la sensibilidad versus 1-especificidad (en
escala de 0 a 1) se obtiene la curva ROC.






Nótese que el área máxima que puede cubrir una curva ROC es 1. Este valor sólo se
puede obtener si existiera un punto de corte “perfecto” en el test diagnóstico (un valor que
arrojara sensibilidad y especificidad iguales a 1).

La línea diagonal (en verde) acumula un área bajo la curva igual a 0.5. Si una variable
tiene área 0.5, significa que no es mejor que el azar para hacer la clasificación de los
pacientes (por ejemplo, no es mejor que clasificarlos lanzando una moneda al aire).
Luego, la hipótesis de interés es:

H
0
: El área bajo la curva ROC = 0.5
H
1
: El área bajo la curva ROC ≠ 0.5

Usando un programa estadístico se puede obtener el área bajo la curva ROC y el error
estándar del área. En el ejemplo, el área es 0.847 con un error estándar igual a 0.064.
Luego, con p<0.001 se rechaza la hipótesis nula y se concluye que usar el score es mejor
que el azar para determinar infección.

Nótese que si el área bajo la curva ROC es menor que 0.5, basta con cambiar el criterio
de clasificación para tener un área mayor que 0.5.

Finalmente, de la tabla con todos los puntos de corte se observa que el valor 874.44 del
score es el que arroja la mayor sensibilidad y especificidad (S = 76.2% y E = 88.9%). Sin
embargo, se debe tener en cuenta que elegir el punto de corte de modo que el test tenga
la más alta sensibilidad y especificidad, implica que se le da la misma importancia a los
falsos positivos (clasificar un sano como enfermo) y falsos negativos (clasificar un
enfermo como sano).
35
6. Asociación Categórica – Numérica

Ejemplo. Interesa determinar si existe asociación entre la edad del paciente (en años) y la
presencia de cálculos vesiculares (codificado como 0=No y 1=Si), para un total de 965
personas.














Cuando la variable X es numérica e Y categórica, o viceversa, se requiere obtener
medidas resumen (generalmente número de casos, promedio y desviación
estándar) de la variable numérica para cada nivel de la variable categórica.



Ejemplo. Para determinar la
asociación entre la edad del paciente
y la presencia de cálculos vesiculares,
en base a una muestra de 965
personas, se obtuvieron los siguientes
resultados (la planilla muestra los
primeros 14 datos):




Ejemplo. Para evaluar la eficacia de
un fármaco contra la hipertensión
arterial, se seleccionaron 45
hipertensos y se asignaron a un grupo
sin tratamiento, otro con una dieta sin
sal y un tercero con el fármaco (15
casos al azar en cada grupo). Interesa
comparar los resultados de presión
arterial sistólica al final del tratamiento
(la planilla muestra los primeros 15
datos).

36
Para determinar si existe asociación entre X e Y se comparan los promedios de
la variable numérica entre los niveles de la variable categórica. Como se muestra
en los ejemplos en página previa, el número de promedios a comparar depende
del número de niveles de la variable categórica.

o Si la variable categórica tiene 2 niveles, se comparan los promedios de la
numérica con test t de Student para muestras independientes. Las hipótesis
posibles de plantear en este caso son:

(a) H
0

A

B
vs H
1

A
≠µ
B
(Cuando interesa determinar si µ
A
≠µ
B
)
(b) H
0

A
≥µ
B
vs H
1

A

B
(Cuando interesa determinar si µ
A

B
)
(c) H
0

A
≤µ
B
vs H
1

A

B
(Cuando interesa determinar si µ
A

B
)


o Si la variable categórica tiene más de 2 niveles, se comparan los promedios
con Análisis de la Varianza en una vía (one way ANOVA). En este caso, las
hipótesis son:

H
0
: µ
1

2
=... = µ
k
H
1
: Algún µ
i
≠µ
j


Si la ANOVA arroja diferencias entre los promedios, la conclusión es que al
menos uno de los promedios es distinto al resto. Para detectar cuál o cuáles
son los promedios distintos se usa un test de comparaciones múltiples. El test
más utilizado en la literatura biomédica es el test de Bonferroni.



Ejemplo (Corrección de Bonferroni). En la evaluación del fármaco contra la
hipertensión arterial comparado con grupos sin tratamiento y sin sal (página 35), el test
adecuado es ANOVA, ya que se comparan 3 promedios. ¿Es válido comparar todos los
pares de promedios usando test t de Student para muestras independientes?

R. Si en cada comparación se rechaza H
0

1

2
con confianza 1-α, entonces en k
comparaciones la confianza es: (1-α)
K
. Luego, la probabilidad de que al menos una de las
k comparaciones sea significativa es 1-(1-α)
K
.

En el ejemplo, con α=5%, la probabilidad de rechazar erróneamente al menos una de las
3 comparaciones es 1-(1-0.05)
3
= 0.1426. Es decir, la probabilidad de encontrar una
diferencia significativa por error es 0.14 en vez de 0.05.

Para solucionar este problema se usa la Corrección de Bonferroni.

Si se quieren hacer k comparaciones con significancia global α, entonces cada
comparación individual debe ser significativa al nivel
|
|
¹
|

\
|
=
2
*
k
α α
.
Por ejemplo, como se quieren k = 3 comparaciones, cada hipótesis debe ser significativa
al nivel α*=0.017, de modo que la probabilidad de error global es 1-(1-0.017)
3
=0.05.
37
6.1 Supuestos del test t de Student para muestras independientes y ANOVA

Para utilizar test t de Student para muestras independientes o ANOVA es
necesario que se cumplan los siguientes supuestos:

o Se requiere que los valores de la variable numérica sean independientes al
interior y entre los niveles de la variable categórica.

Una variable numérica medida en distintos individuos es casi siempre
independiente (es decir, el valor que toma la variable en un individuo no
depende del valor que toma en otro). Algunas excepciones ocurren cuando se
hacen mediciones genéticas en individuos de una misma etnia o familia, efecto
de mediciones ambientales en individuos de una misma comunidad, etc.

Más común es la falta de independencia entre los niveles de la variable
categórica.


Ejemplo. Se quiere evaluar el efecto de un fármaco para tratar la hipertensión arterial.
Para esto, se midió la presión arterial a un grupo de n personas hipertensas antes de
comenzar el tratamiento, después de 1 mes de iniciado el tratamiento y después de 6
meses de tratamiento.

Nótese que, aunque las presiones arteriales son independientes al interior de cada
tiempo, no son independientes entre tiempos, ya que se trata de las mismas personas
medidas en 3 tiempos.


o El promedio de la variable numérica debe tener distribución normal al interior
de cada nivel de la variable categórica.

Este supuesto se cumple cuando el número de observaciones en cada grupo
es grande (ya que los promedios muestrales tienen distribución Normal por
TCL) o cuando los datos tienen distribución Normal (ya que los datos
distribuidos normalmente generan promedios con distribución Normal.


Ejemplo. En el ejemplo de asociación de asociación edad – litiasis en página 35, los
promedios muestrales de edad tienen distribución Normal por TCL, por lo que se
puede usar t de Student para muestras independientes.

En el ejemplo de asociación tratamiento – presión arterial en página 35, es necesario
asumir que la presión arterial tiene distribución Normal, ya que hay sólo 15 casos en
cada grupo de tratamiento. Este supuesto es aceptable, ya que habitualmente se
considera que la presión arterial tiene distribución Normal o, al menos, que su
distribución es simétrica.

38
Ejemplo (uso de t de Student para muestras independientes). En el ejemplo de
asociación Litiasis – Edad (página 35), no hay inconveniente en usar test t de Student
para muestras independientes, ya que los promedios muestrales tienen distribución
Normal por TCL.

Usando MINITAB, se obtiene el siguiente resultado para la comparación de medias:




La última línea de la salida de MINITAB muestra el valor p (P-Value = 0.000). Luego, con
p<0.001 se rechaza la hipótesis de igualdad de medias. Se concluye que la edad
promedio de los litiásicos (45.8±13.9) es significativamente mayor que la edad promedio
de los no litiásicos (36.1±13.0). Equivalentemente, existe asociación entre edad y litiasis.



Ejemplo (uso de ANOVA). En la evaluación del fármaco contra la hipertensión arterial
comparado con grupos sin tratamiento y sin sal (página 35) se requiere comparar los
promedio con ANOVA.







Usando MINITAB, para la hipótesis H
0

1

2
=µ3 se obtiene p<0.001. Luego, se rechaza la
hipótesis de igualdad de medias. Usando test de Bonferroni, se concluye que existen
diferencias significativas entre todos los pares de promedios (p<0.05 para cada
comparación).

Nótese que, aunque se concluye que los promedios son distintos, con esta comparación
no se puede concluir que el grupo con tratamiento sea mejor para disminuir la presión
arterial que los otros grupos, ya que no sabemos cuál que la presión arterial inicial de
estos pacientes.

Un diseño adecuado debiera comparar los promedios de las diferencias de presión arterial
inicial – final entre los 3 grupos. Nótese que mientras más positivo sea el delta promedio,
indica una mayor disminución de la presión arterial. Luego, un delta promedio
significativamente mayor en el grupo tratado en comparación con el resto sería indicador
de un mayor efecto del tratamiento.
39
6.2. Test de Hipótesis para dos promedios

Cuando se quieren comparar dos promedios µ
A
y µ
B
que cumplen con los
supuestos planteados en 6.1, las hipótesis posibles de plantear son:

(a) H
0

A

B
vs H
1

A
≠µ
B
(Cuando interesa determinar si µ
A
≠µ
B
)
(b) H
0

A
≥µ
B
vs H
1

A

B
(Cuando interesa determinar si µ
A

B
)
(c) H
0

A
≤µ
B
vs H
1

A

B
(Cuando interesa determinar si µ
A

B
)


Cualquiera sea la hipótesis de interés, se toman muestras aleatorias tamaño n
A
y
n
B
de las poblaciones A y B, respectivamente, y se calcula el promedio y
desviación estándar de la variable numérica para cada muestra.

Asumiendo que el supuesto de independencia se cumple, el supuesto de
normalidad implica que ) , ( ~
2
A A A A
n N x σ µ y ) , ( ~
2
B B B B
n N x σ µ . Se puede
demostrar que ) , ( ~
2 2
B B A A B A B A
n n N x x σ σ µ µ + − − . Luego, si se asume que H
0
es
verdadera (µ
A

B
), entonces bajo H
0
se tiene que ) , 0 ( ~
2 2
B B A A B A
n n N x x σ σ + − .
Al estandarizar y reemplazar las varianzas poblacionales (que son desconocidas)
por las varianzas muestrales, se tiene:







Lo cual significa que t
0
tiene distribución t de Student con n
A
+ n
B
-2 grados de
libertad.

Siguiendo la misma lógica del test para una proporción (página 8) o para un
promedio (página 10), para cada hipótesis planteada el valor p es:


Para las hipótesis: el valor-p es:
(a) H
0

A

B
vs H
1

A
≠µ
B
(a) p=P(t
(nA+nB-2)
<-t
0
o t
(nA+nB-2)
> t
0
) =2*P(t
(nA+nB-2)
≥|t
0
|)
(b) H
0

A
≥µ
B
vs H
1

A

B
(b) p = P(t
(nA+nB-2)
<t
0
)
(c) H
0

A
≤µ
B
vs H
1

A

B
(c) p = P(t
(nA+nB-2)
>t
0
)


Finalmente, se rechaza H
0
si el valor-p calculado es menor que la significancia α
fijada a priori.
) 2 ( ~
) (
2 2
0
− +
+

=
B A
B
B
A
A
B A
n n t
n
s
n
s
x x
t
40
Ejemplo: Se calculó la disminución de peso (en kilos) de 18 pacientes sometidos a dos
tratamientos para la obesidad: 10 pacientes con tratamiento A y 8 con tratamiento B. Los
datos están expresados como

Delta = Peso al inicio de tratamiento - Peso al final del tratamiento












Interesa determinar si el tratamiento A es más efectivo que el tratamiento B.

R. Si se quiere usar test t de Student para muestras independientes es necesario asumir
que los datos de delta de peso poblacionales tienen distribución Normal.

Si µ
A
y µ
B
son los delta de peso promedio en poblaciones A y B, respectivamente,
entonces la hipótesis que plantea que A es más efectivo que B es H
0

A
≤ µ
B
vs H
1

A

B
.

De las muestras de A y B se obtiene: 26 . 4 33 . 3 , 10 ± = =
A A
x n y 89 . 3 61 . 0 , 8 ± = =
B B
x n .
Luego, el test estadístico es







Dado que se rechaza para valores grandes de t
0
(que es consistente con H
1

A

B
), el
valor p es P(t
(16)
> 1.41)=1- P(t
(16)
< 1.41) > 0.05. No hay evidencia suficiente en los datos
para rechazar H
0
. Por lo tanto, el tratamiento A no es más efectivo que el B.

Nótese que 33 . 3 =
A
x es bastante mayor que 61 . 0 =
B
x y sin embargo no hay diferencias
significativas entre los promedios. Esto se debe a que las varianzas son muy grandes
(
2 2
26 . 4 =
A
s y
2 2
89 . 3 =
B
s ) y los tamaños muestrales son muy pequeños ( 10 =
A
n y
8 =
B
n ), lo que hace que los errores estándar sean muy grandes.
) 16 ( ) 2 ( ~ 41 . 1
706 . 3
72 . 2
8
89 . 3
10
26 . 4
61 . 0 33 . 3 ) (
2 2 2 2
0
t n n t
n
s
n
s
x x
t
B A
B
B
A
A
B A
= − + = =
+

=
+

=
41
6.3 Análisis de datos pareados (o medidas repetidas).

Como se mencionó en los supuestos del test t de Student para muestras
independientes y ANOVA (página 37), generalmente el valor que toma una
variable numérica en un individuo no depende del valor que toma en los demás.
Es decir, habitualmente existe independencia entre individuos.

Sin embargo, si la variable numérica es medida en los mismos individuos en dos o
más tiempos o condiciones experimentales (que corresponde a los niveles de la
variable categórica), entonces las observaciones son independientes al interior de
cada tiempo, pero no entre tiempos, ya que son los mismos pacientes. Es decir,
no hay independencia intra individuos.



Ejemplo. La tabla siguiente muestra el conteo de células T-CD4 (x mm
3
) en una muestra
aleatoria de 20 pacientes con diagnóstico primario de VIH. El valor basal corresponde al
conteo de células T antes de iniciar un tratamiento con terapia antiretroviral (TAR) y los
controles 1 al 4 corresponde al conteo en 4 controles sucesivos, separados
aproximadamente por 6 meses entre sí.

















El gráfico muestra cómo evoluciona el conteo de células T CD4 entre los controles en esta
muestra. Interesa determinar si existe un aumento significativo en el conteo de células T
CD4 en el tiempo.

Nótese que se trata de la asociación de una variable numérica (CD4) y una categórica
(tiempo, con 5 niveles). Aunque el valor de CD4 de un paciente es independiente del valor
que toma en los otros pacientes, no hay independencia entre tiempos, ya que se trata de
los mismos pacientes.
42
Como en el caso de datos independientes (página 36), el test a utilizar depende
del número de condiciones experimentales o tiempos en que se mide la variable
numérica.

o Si la variable numérica se mide en dos tiempos o condiciones, se comparan los
promedios con test t de Student para muestras pareadas.

Dado que cada individuo tiene dos valores, las hipótesis se pueden plantear en
términos del promedio de diferencias entre los tiempos. Es decir, si y
1i
e y
2i
son
los valores en tiempo 1 y 2 del individuo i-ésimo, entonces para cada sujeto se
puede calcular d
i
=y
1i
- y
2i
. Nótese que si no hay diferencias entre los tiempos,
entonces se espera que el promedio de las diferencias sea igual a cero.

En general, si llamamos µ al promedio de las diferencias en la población,
entonces las hipótesis posibles de plantear son:

(a) H
0
:µ=0 vs H
1
:µ≠0 (Cuando interesa determinar si µ ≠ 0)
(b) H
0
:µ≥0 vs H
1
:µ<0 (Cuando interesa determinar si µ < 0)
(c) H
0
:µ≤0 vs H
1
:µ>0 (Cuando interesa determinar si µ > 0)

Nótese que estas hipótesis son un caso particular de las planteadas en Test de
Hipótesis para un Promedio, con µ
0
=0 (ver páginas 10 y 11).


o Si la variable numérica se mide en más de dos tiempos o condiciones, se
comparan los promedios con Análisis de la Varianza para medidas
repetidas. En este caso, las hipótesis son:

j tiempo i tiempo
k tiempo tiempo tiempo
Algún H
H
µ µ
µ µ µ

= = =
− − −
:
:
1
2 1 0
K


Si la ANOVA para medidas repetidas arroja diferencias entre los promedios, se
recurre nuevamente a los test de comparaciones múltiples (por ejemplo,
Bonferroni) para determinar cuál o cuáles son los promedios distintos.



Supuestos del análisis
Al igual que en el caso de muestras independientes, se requiere que el promedio
de la variable numérica tenga distribución Normal al interior de cada tiempo o
condición experimental. También se requiere que la variable numérica sea
independiente al interior de cada condición.


43
Ejemplo. Interesa comparar el peso promedio entre dos tiempos: al inicio y al final de un
tratamiento para la obesidad. Los datos disponibles son los siguientes:






Para cada paciente se calcula la diferencia entre el peso inicial y el peso final. En este
caso los deltas son: 6, 4, 6, 11, 0, 1, -1, 5, 11, -2. En este esquema, plantear que no hay
diferencias entre los valores PRE y POST equivale a plantear que el delta promedio es
igual a cero. Si llamamos µ al delta promedio poblacional, entonces las hipótesis son:

0 :
0 :
1
0

=
µ
µ
H
H


De los datos se obtiene: 63 . 4 1 . 4 10 ± = = d n . Como la hipótesis es un caso particular
del test para un promedio descrito en página 10 (con µ
0
=0), el test es:

Dado que la hipótesis es bilateral, se rechaza para valores muy grandes o muy pequeños
de t
0
. Luego, el valor p es P(t
(n-1)
<-t
0
o t
(n-1)
> t
0
) = 2*P(t
(n-1)
≥|t
0
|) = 2*P(t
(9)
≥2.8) < 0.01. Se
concluye que existen diferencias significativas entre el peso PRE y POST. Luego, como la
diferencia promedio es positiva, se concluye que el tratamiento es efectivo.




Ejemplo. Para los datos de conteo de células T-CD4 (x mm
3
) en pacientes con
diagnóstico primario de VIH, se utiliza ANOVA para medidas repetidas, ya que esta
variable se mide en 5 tiempos. La hipótesis de interés es:

j tiempo i tiempo
control control basal
Algún H
H
µ µ
µ µ µ

= = =
− −
:
:
1
4 1 0
K


Usando MINITAB, se obtiene p<0.001 para la hipótesis. Se concluye que al menos un
tiempo tiene un promedio distinto al resto. Usando test de Bonferroni, se observa que el
tiempo basal tiene un promedio significativamente menor que el resto (p<0.001 en cada
par de comparaciones) y el promedio en control 4 es significativamente mayor que en
control 1 (p=0.003).


) 9 ( ) 1 ( ~ 8 . 2
10
63 . 4
0 1 . 4
0
0
t n t
n
s
X
t ≡ − =

=

=

µ
44
6.4 Transformaciones y Test no paramétricos

Los test t de Student y ANOVA, en sus versiones independientes y pareadas,
requieren que los promedios muestrales tengan distribución Normal al interior de
cada nivel de la variable categórica.

Si los datos no son normales y el tamaño muestral es insuficiente para asumir
normalidad por TCL, hay dos alternativas para hacer un análisis de los datos
mediante test de hipótesis: usar transformaciones de los datos o usar test no
paramétricos.


Transformaciones
Si X es una variable aleatoria numérica no normal, una transformación de X podría
lograr el efecto de simetrizar los datos, de modo que podríamos utilizar los test
paramétricos estudiados sobre los datos transformados. Las conclusiones que
obtengamos para los test de hipótesis planteadas con los datos transformados
serán válidas para los datos originales.

Aunque teóricamente cualquier función f que sea monótona (creciente o
decreciente) y uno-a-uno puede usarse para transformar los datos, en la práctica
se utilizan sólo algunas funciones.

La transformación más utilizada es el logaritmo natural. Si el logaritmo de una
variable numérica tiene distribución normal, se dice que la variable original tiene
distribución log-normal. Nótese que el logaritmo sólo se puede usar cuando X>0.
Si X puede tomar el valor 0, en ocasiones se usa la transformación log(X+1).












Cuando la variable es un conteo (por ejemplo, número de personas, número de
hijos, etc.) una transformación usada con frecuencia es la raíz cuadrada. Cuando
la variable numérica es una proporción, generalmente se usa arcoseno(p).
45
Test no paramétricos
Cuando se asume normalidad, en el fondo se está asumiendo que se conoce la
forma de la distribución de los datos, la cual esta basada en parámetros (como la
media µ y la varianza σ
2
de la distribución Normal). Por este motivo, estas
distribuciones se llaman paramétricas, y los test basados en estas distribuciones
se denominan test paramétricos.

Una alternativa al análisis de datos asumiendo normalidad (u otra distribución,
como Poisson, Binomial, etc.) son los test no paramétricos, los cuales hacen
pocos supuestos acerca de la forma de la distribución.

Dado que en este curso el énfasis está puesto en los test paramétricos, sólo se
mencionan a continuación cuáles son los test no paramétricos equivalentes a los
test paramétricos estudiados.


Si el test paramétrico adecuado para la
hipótesis es …
El test no paramétrico equivalente
es…
t de Student para muestras independientes Test de rangos de Wilcoxon
ANOVA en una vía Test de Kruskal-Wallis
Test de Bonferroni Test de Dunn

t de Student para muestras pareadas Test de rangos signados de Wilcoxon
ANOVA para medidas repetidas Test de Friedman


46
7. Asociación Numérica – Numérica

Ejemplo. Interesa determinar si existe asociación el peso (en kilos) y el nivel de colesterol
total en una muestra de 965 personas, constituida por individuos litiásicos y no litiásicos.














Cuando las variables X e y son ambas numéricas, se determina si existe
asociación lineal entre las variables mediante al correlación muestral de
Pearson (si ambas variables tienen origen intervalar) o la correlación por rangos
de Spearman (si al menos una de ellas es de origen ordinal). La correlación
muestral se denota generalmente con la letra “r”, mientras que la correlación
poblacional (que es la que queremos estimar) se denota con la letra ρ (rho).

En forma complementaria al cálculo de la correlación se debiera hacer un gráfico
de dispersión de X versus Y, el cual puede arrojar (entre otras) alguna de las
siguientes tendencias:








47
Los gráficos superiores (gráficos 1 y 2) muestran asociaciones lineales directa e
inversa, respectivamente. Estas tendencias debieran ser detectadas por el
coeficiente de correlación.

Los gráficos inferiores (gráficos 3 y 4) en cambio, no muestran asociación lineal,
pero con resultados muy distintos: el gráfico 3 no muestra ningún tipo de
tendencia, mientras el gráfico 4 muestra una clara tendencia de tipo exponencial.

Las características de la correlación muestral (y poblacional) son las siguientes:

• La correlación varía entre -1 y +1.
• Si r es cercano a 1, significa que existe asociación lineal directa entre X e Y.
• Si r es cercano a -1, significa que existe asociación lineal inversa entre X e Y.
• Si r es cercano a 0, indica que no hay asociación lineal entre X e Y.

Estas características las comparten la correlación de Pearson y de Spearman.

Nótese que si la correlación es cercana a cero, sólo podemos concluir que no
existe asociación lineal. Sin embargo, observando sólo el valor de r no podemos
diferenciar entre una falta total de asociación de una asociación no lineal (como en
los gráficos 3 y 4). Para esto es necesario hacer el gráfico de dispersión.

Las hipótesis de interés en este caso son:

0 :
0 :
1
0

=
ρ
ρ
H
H


En una muestra de tamaño n los datos observados de X e Y forman pares
ordenados del tipo (x
1
,y
1
), ..., (x
n
,y
n
). La correlación de Pearson se calcula como:

Se puede demostrar que la siguiente transformación de r tiene distribución Normal:

Y el valor p para docimar la hipótesis H
0
:ρ=0 se calcula como p=2*P(z ≥ |z
0
|). Se
rechaza H
0
si el valor-p es menor que la significancia α fijada a priori.



2
_
2
_
_ _
) ( ) (
) )( (
∑ ∑

− −
− −
=
y y x x
y y x x
r
i i
i i
) 1 , 0 ( ~
) 3 (
1
)
1
1
ln(
2
1
0
N
n
r
r
z


+
=
48
Ejemplo: Interesa determinar si hay asociación
lineal entre el porcentaje de personas que lee
(literacy) y mortalidad infantil (por cada 1000
nacidos vivos) para una muestra de 25 países
(datos 1995).

Al aplicar la fórmula para calcular “r”, se obtiene
una correlación muestral de Pearson r = -0.931

El estadígrafo z
0
es:


El valor-p es 2*P(z |≥z
0
|)=2*P(z ≥7.81) < 0.001. Se
concluye que existe una asociación lineal inversa
significativa entre alfabetización y la mortalidad
infantil.



Una desventaja de la correlación muestral es que tiende a ser más significativa a
medida que aumenta el tamaño muestral. Luego, un r significativo no permite
determinar si la variable X es un buen predictor de Y (sólo permite decir que existe
una asociación lineal significativa). Para saber si X es un buen o mal predictor de
Y generalmente se usa el siguiente criterio, el cual se usa en forma independiente
del valor p.

Si la correlación varía entre … Entonces …





X es un mal predictor de Y





X es un pobre predictor de Y





X es un buen predictor de Y





X es un excelente predictor de Y
) 1 , 0 ( ~ 81 . 7
) 3 25 (
1
)
931 . 0 1
931 . 0 1
ln(
2
1
0
N z − =

+

=
49
ANEXO
Estudios Transversales, Prospectivos y Retrospectivos


Estudio Transversal

Estos estudios, denominados también estudios de prevalencia, estudian
simultáneamente la exposición y la enfermedad en una población bien definida, en
un momento determinado.

Esta medición simultánea no permite conocer la secuencia temporal de los
acontecimientos y no es por tanto posible determinar si la exposición precedió a la
enfermedad o viceversa.

La realización de estos estudios requiere definir claramente:
• La población de referencia sobre la que se desea extrapolar los resultados.
• La selección y definición de las variables por las que se va a caracterizar el
proceso.
• Las escalas de medida a utilizar.
• La definición de “caso”.

Los estudios transversales se utilizan fundamentalmente en dos situaciones:

1. Para conocer la prevalencia de una enfermedad o de un factor de riesgo. Es
decir, el porcentaje total de casos que tiene una enfermedad determinada.
2. Para conocer la incidencia de una enfermedad. Es decir, el porcentaje de
nuevos casos portadores de una enfermedad determinada.



Ejemplo. “Estudio de Prevalencia de Factores de Riesgo en una cohorte de 412 mujeres
mayores de 15 años en la Región Metropolitana” (Ximena Berríos et.al. 1992). El estudio
arrojó los siguientes resultados:

En este caso se podría hacer una tabla de contingencia para determinar, por ejemplo, la
asociación de sedentarismo y obesidad. Sin embargo, no nos permitiría concluir que el
sedentarismo produce la obesidad, ya que no se sabe cuál de los dos factores ocurrió
primero (¿podría ser que debido a la obesidad una persona se puso sedentaria?).
Factor de Riesgo 1992 (%)
Tabaquismo 44.6
Consumo de Alcohol 29.8
Sedentarismo 80.1
Hipertensión 17.6
Obesidad 39.9
Colesterol > 200 mg 46.1
50
Características de un Estudio Retrospectivo (Caso – Control)

Este tipo de estudio identifica un grupo de personas que es portador de la
enfermedad en estudio (o de otra característica de interés) y lo compara con un
grupo apropiado de personas que no tenga la enfermedad.

El grupo portador de la enfermedad se denomina generalmente como casos, y el
grupo sin la enfermedad se llama grupo control. Por este motivo a estos estudios
se les denomina estudio caso – control. Por otra parte, el hecho de que la
enfermedad ya haya ocurrido le da al estudio su carácter retrospectivo.

Generalmente es de interés determinar la relación de la enfermedad con uno o
más factores (de riesgo o protectores de la enfermedad), comparando la
frecuencia de exposición al factor entre casos y controles.


Casos Controles Total
Expuestos a b a+b
No expuestos c d c+d
Total a+c b+d n


El margen fijo en la tabla previa corresponde a las columnas a+c y b+d. Por lo
tanto, los porcentajes de interés se calculan usando estos denominadores.

La función del grupo control es estimar la proporción de exposición esperada en
un grupo que no tiene la enfermedad. Este grupo debe ser representativo de la
población de donde provienen los casos. Es decir, los casos y controles no deben
entenderse como dos grupos representativos de poblaciones distintas, sino como
dos grupos que provienen de la misma población.


Ejemplo. Se condujo un estudio para determinar la asociación del uso de anticonceptivos
orales (ACO) y enfermedad cardiaca en mujeres de 40 a 44 años de edad. Para esto, se
tomó una muestra de 180 mujeres que fueron atendidas en un hospital por infarto al
miocardio (IAM) y un grupo de 250 mujeres sanas. Al revisar sus antecedentes de uso de
ACO, se encontraron los siguientes resultados:

Infarto al Miocardio
Si No Total
Uso de
ACO
Si 105 120 225
No 75 130 205
Total 180 250 430


Los porcentajes de interés en este caso son el porcentaje de uso de ACO en los casos (el
grupo con infarto) y en los controles (el grupo sin infarto).
51
Características de un Estudio Prospectivo

En este tipo de estudio los individuos son identificados en función de la presencia
o ausencia de exposición a un determinado factor. En el momento de la selección,
todos los sujetos están libres de la enfermedad de interés y son seguidos durante
un período de tiempo para observar la frecuencia de aparición del fenómeno que
nos interesa.

Estos estudios se denominan también estudios de cohorte (la cohorte es el
grupo de sujetos que es observado en distintos instantes de tiempo) o estudios
de seguimiento.


Enfermos Sanos Total
Expuestos a b a+b
No expuestos c d c+d
Total a+c b+d n


El margen fijo en esta tabla son las filas a+b y c+d. Por lo tanto, los porcentajes de
interés se calculan usando estos denominadores.

Se debe tener certeza de que la enfermedad está ausente al inicio del estudio. Por
otra parte, es necesario considerar posibles pérdidas de seguimiento (sujetos que
no vuelven a control, cambian su condición de expuesto o no expuesto, mueren,
etc.). Los no expuestos deben ser representativos de la población de donde
provienen los expuestos. Como en estudios Caso – Control, estos grupos deben
entenderse como representativos de la misma población.


Ejemplo. Se condujo un estudio para determinar el efecto del uso de anticonceptivos
orales (ACO) sobre enfermedad cardiaca en mujeres de 40 a 44 años. Se encontró que
entre 5000 usuarias actuales de ACO, 13 tuvieron un infarto al miocardio (IAM) en un
período de 3 años, y entre 10000 no usuarias de ACO, 7 tuvieron un IAM en 3 años.


IAM No IAM Total
Grupo con ACO 13 4987 5000
Grupo sin ACO 7 9993 10000
Total 20 14980 15000


Los porcentajes de interés en este caso son el porcentaje de IAM en los expuestos (el
grupo con ACO) y en los no expuestos (el grupo sin ACO).

Nótese que al inicio del estudio es necesario verificar que ninguna de las 15000 personas
seleccionadas haya tenido un infarto al miocardio.
52
Ventajas de los Estudios Caso – Control y Cohorte

Estudio Caso – Control Estudio de Cohorte
Menos costosos que los estudios de
seguimiento
Aceptados como el tipo de estudio que
aporta más evidencia de asociación entre
un factor y una enfermedad
Habitualmente son estudios de corta
duración
La secuencia temporal entre exposición y
enfermedad se puede establecer más
claramente
Útiles para el estudio de enfermedades
raras
Permiten estimar incidencias
Permite el análisis de varios factores de
riesgo para una determinada enfermedad
Permite el examen de múltiples efectos
ante una exposición determinada



Desventajas de los Estudios Caso – Control y Cohorte

Estudio Caso – Control Estudio de Cohorte
Son considerados estudios exploratorios
(no confirmatorios)
Elevado costo y dificultad en la ejecución
La secuencia temporal entre exposición y
enfermedad no es fácil de establecer
No son útiles para el estudio de
enfermedades raras
No permiten estimar incidencias Requieren generalmente tamaños
muestrales elevados
Hay facilidad de introducir sesgos de
selección y/o información
Posibilidad de pérdida de seguimiento