You are on page 1of 12

Tamaño de la muestra

CALCULO DEL TAMAÑO DE LA MUESTRA


EN PSIQUIATRIA Y SALUD MENTAL
(principios básicos para su estimación)

Carlos Gómez Restrepo1.


Ricardo Sánchez Pedraza 2 .

El presente trabajo tiene por objeto repasar los conceptos subyacentes al


cálculo del tamaño de la muestra necesarios en la etapa de planeación de
cualquier estudio en Psiquiatría y Medicina. Se revisan conceptos tales como
el de error tipo I o alfa, error tipo II o beta , poder del estudio, variabilidad de los
resultados y diferencias estadística y clínicamente significativas. Estos son los
elementos básicos a utilizar en las fórmulas que ayudan a establecer el número
de pacientes necesarios en un estudio.
Palabras clave: Cálculo, Tamaño de muestra

This work deals with concepts related with sample size estimation that are
necessarywhen planing any study in Psychiatry or Medicine. Concepts such
as type I error or alpha error, type II error or beta error, Power, variability and
clinical and statistical significative differences are revised. These elements are
needed to apply statistical formulas useful to determine the number of patients
needed in a study.
Key words: Estimation, Sample size

INTRODUCCION
Una vez el investigador ha definido qué pregunta desea responder y cómo lo
va hacer, surge el cuestionamiento acerca del tamaño de la muestra.
¿Cuántos pacientes se requieren para el estudio?, ¿Cuál sería el número
mínimo de pacientes con los cuales podría llegar a conclusiones válidas?,
¿Cómo se calcula el tamaño de la muestra?, ¿en qué consiste el poder y el
nivel de significancia de un estudio?, ¿Qué diferencia habría entre 12, 25 o más
pacientes en cada grupo?, ¿Qué ocurre si se sobreestima la muestra?,
¿Cuánto tiempo puede durar el estudio de acuerdo con la muestra calcula-
da?, ¿Es factible el estudio dada la cantidad de pacientes requeridos? Estas
y otras preguntas son a menudo un obstáculo para colegas interesados en la
investigación o en evaluar de una manera más responsable y adecuada la
literatura y la evidencia clínica disponible.

1 Médico-Psiquiatra. Profesor Asistente . Departamento de Psiquiatría y Salud Mental y Unidad de


Epidemiología Clínica y Bioestadística. Pontificia Universidad Javeriana.
2 Médico-Psiquiatra . Profesor Asociado. Departamento de Psiquiatría y Centro de Epidemiología Clínica.
Universidad Nacional de Colombia.

Rev. Col. Psiquiatría, Vol. XXVII, No. 2, 1998. 131


Gómez C. y Sánchez R.

Desde hace algunos años los editores de revistas médicas internacionales, y


en ciertos casos nacionales, exigen a los autores de un determinado artículo
que expliquen con mayor detenimiento los lineamientos metodológicos
utilizados y la forma en que se realizó el muestreo y el cálculo del tamaño de
la muestra. Este cambio de actitud, que en un principio se pudo haber
calificado como sorprendente, persecutorio o inclusive innecesario, obedeció
a las pruebas cada vez más concluyentes de parte de la Epidemiología
Clínica, de la Epidemiología General y de otras especialidades médicas, de
la necesidad de garantizar que estudios rigurosamente planeados y realiza-
dos no fallaran en encontrar diferencias significativas debido a tamaños de
muestra insuficientes.
En esta línea se ha demostrado que múltiples experimentos clínicos contro-
lados han errado en encontrar diferencias entre grupos por falta de muestras
lo suficientemente grandes que permitan discriminar entre determinadas
características(1). Este detalle, que podría sonar para algunos como una
minucia epidemiológica, tiene consecuencias éticas de gran relevancia. Sí
por ejemplo, estamos probando una nueva droga que fuera útil para la
Esquizofrenia Desorganizada, para la cual no existe un tratamiento del todo
exitoso y por falta de una muestra suficientemente grande concluyéramos que
este medicamento no es diferente del placebo, esta droga útil sería descar-
tada del mercado y perderíamos una opción terapéutica para estos pacien-
tes. Por otro lado, si existe un extracto floral que en realidad no tiene ninguna
utilidad para pacientes esquizofrénicos y lo comparamos con un antipsicótico
tradicional, podemos llegar a la falsa conclusión de que es un tratamiento
adecuado, debido a que una muestra muy pequeña me permite detectar
diferencias con el tratamiento convencional.
Para el adecuado cálculo del tamaño de la muestra se requieren algunos
conceptos fundamentales que facilitan aproximarse a la lógica y a la mecá-
nica del procedimiento (2,3,4). Los autores consideran que el objetivo de un
escrito sobre este tema no debe ser el presentar una o más formulas mágicas
que permitan estimar muestras para proporciones, medias, validación de
escalas, evaluación de pruebas diagnósticas u otros procedimientos estadís-
ticos. Lo fundamental es conocer los conceptos subyacentes al procedimien-
to con el fin de saber qué es lo que se busca, qué diferencias clínicamente
relevantes se espera encontrar y finalmente cuál es el procedimiento mate-
mático más adecuado para la aproximación al tamaño de muestra requerido.
En otras palabras, más importante que la fórmula, es conocer los aspectos
que determinan las diferencias en el tamaño de la muestra para el estudio que
se realizará. De no ser así, un estudio bien concebido alrededor de una
hipótesis de gran interés en nuestra área, podría venirse abajo por no tener en
cuenta los tópicos que se describirán posteriormente.
Todo libro o artículo que trate sobre el tema del cálculo del tamaño de la
muestra tiene como base los siguientes conceptos :
- Error Tipo I o Alfa.
- Error Tipo II o Beta.
- Poder.

132 Rev. Col. Psiquiatría, Vol. XXVII, No. 2, 1998.


Tamaño de la muestra

- Variabilidad.
- Diferencia clínica y estadísticamente significativa.
El presente trabajo no pretende agotar el tema sino dar las bases para que el
lector pueda profundizar en esta área, sugiriendo a los intesados alguna
bibliografía de profundización. (5 ,6 ,7 ,8).
CONCEPTOS BASICOS
Siempre que un investigador inicia un estudio debe tener una pregunta bien
establecida de la cual deriven hipótesis susceptibles de ser rebatidas o
confirmadas.
Por ejemplo, un investigador se plantea la siguiente pregunta: ¿Entre la
psicoterapia cognoscitiva y la psicoterapia de orientación dinámica, cuál es
más efectiva para el tratamiento a mediano plazo (1 año) de pacientes con
Trastorno Hipocondríaco?
A partir de esta pregunta se puede postular una hipótesis de trabajo en
términos que se pueda rebatir, lo cual equivale a lo que conocemos en el
lenguaje médico y estadístico como Hipótesis Nula. Esta podría plantearse
así:
Ho: “No hay diferencias en la eficacia de la psicoterapia cognoscitiva y la de
orientación dinámica para el tratamiento a mediano plazo del Trastorno
Hipocondríaco”.
A su vez la Hipótesis Alternativa, que aceptaríamos en caso de rechazar la
nula, podría ser planteada de las siguientes forma:
H1: “La psicoterapia cognoscitiva es más eficaz que la psicoterapia de
orientación dinámica para el tratamiento a mediano plazo del Trastorno
Hipocondríaco”
H2: “La psicoterapia de orientación dinámica es más eficaz que la psicotera-
pia cognoscitiva para el tratamiento a mediano plazo del Trastorno Hipocon-
dríaco”
H3: “Existen diferencias significativas entre la eficacia de la psicoterapia
cognoscitiva y la psicoterapia de orientación dinámica para el tratamiento a
mediano plazo del Trastorno Hipocondríaco”.
De acuerdo con esto podemos construir una tabla que nos represente todas
las opciones, teniendo en cuenta que existe una verdad absoluta a la cual cada
estudio intenta aproximarse con mayor o menor éxito (Tabla 1).
En la tabla podemos observar que tomamos la decisión correcta cuando los
resultados del estudio corresponden a la verdad en la población. En caso
contrario incurriríamos en errores, que son precisamente, los que intentamos
minimizar cuando calculamos correctamente el tamaño de muestra. Estos
conceptos se describen a continuación:
1 - Error Tipo I, o Falso Positivo, o Error Tipo Alfa
Alfa:
Refiriéndonos al ejemplo citado, supongamos que en realidad la terapia
cognoscitiva es tan efectiva como la de corte dinámico en el tratamiento del

Rev. Col. Psiquiatría, Vol. XXVII, No. 2, 1998. 133


Gómez C. y Sánchez R.

Tabla 1
RESULTADOS POSIBLES EN UN ESTUDIO

VERD AD EN LA POBLACIÖN

HIPOTESIS NULA HIPOTESIS ALTERNA


CORRECTA CORRECTA
( X=Y) (X¹Y)

RESULTADOS HIPOTESIS NULA Error Tipo II o


DEL CORRECTA Verdadero Negativo Falso Negativo o
ESTUDIO ( X=Y) Beta

HIPOTESIS ALTERNA Error Tipo I o


CORRECTA Falso Positivo o Verdadero Positivo
(X¹Y) Alfa

Trastorno Hipocondríaco, pero que en el estudio concluimos que la primera


es más efectiva que la de corte dinámico. Esto quiere decir que rechazamos
la hipótesis nula de no diferencias entre las dos terapias (que es la verdad) y
aceptamos erróneamente la hipótesis alternativa que establece una mayor
efectividad para la terapia cognoscitiva en el manejo del Trastorno Hipocon-
dríaco.
En este caso estamos incurriendo en lo que se denomina un Error tipo I. Se
concluye falsamente que una terapia es mejor que la otra cuando en realidad
no lo es. Ahora, este error que medimos a través del nivel Alfa o del nivel de
significación P puede ser, de acuerdo con el estudio, más o menos indesea-
ble. Por ejemplo, si tenemos un medicamento X que es tan eficaz para el
tratamiento de la Esquizofrenia Indiferenciada como los fármacos ya dispo-
nibles, pero que es costoso o posee algún potencial de efectos secundarios
serios y por error decimos que es mejor que los otros (se rechaza equivoca-
damente la hipótesis nula de no diferencias), se podría estar aconsejando un
medicamento que incrementa gastos y otros problemas al paciente, lo cual
a todas luces resulta indeseable.
Como se mencionó, el Error Tipo I ha sido medido con el nivel alfa o nivel de
significación P que se define como la probabilidad, habitualmente menor del
5 %, de obtener un resultado tan extremo o más que el encontrado por azar.
Dicho de otra forma, la probabilidad de encontrar el resultado del estudio por
azar es tan pequeña (menor del 5%) que se puede asumir que esta diferencia
es debida a la intervención o al tratamiento realizado.
Tradicionalmente y por consenso, en la literatura biomédica el nivel de P, o
nivel de significación, o alfa se ha establecido en el 5 % y ningún resultado por
encima de este nivel es aceptado como positivo, por el riesgo de incurrir en
Error de Tipo I. Este nivel del 5 % (p< 0.05) sería aquel por debajo del cual se
rechazaría la hipótesis nula de no diferencias entre grupos. Por otra parte, para
estudios con comparaciones múltiples, se ha establecido que la realización de
pruebas estadísticas repetidas lleva a que por simple azar alguna de ellas sea

134 Rev. Col. Psiquiatría, Vol. XXVII, No. 2, 1998.


Tamaño de la muestra

positiva. Por tal razón hay una tendencia cada vez mayor a disminuir el valor
de p a nivel de p< 0.001 (1 %) (9).
Para reducir el Error Tipo I se requiere incrementar el tamaño de la muestra,
cuestión que implica un costo adicional para el investigador. De esta forma,
una sencilla regla es que a menor Alfa o p se incrementa el número de sujetos
requeridos para el estudio.
2- Error Tipo II, o Falso Negativo, o Error Tipo Beta:
Como se planteó anteriormente, resulta inconveniente concluir que hay
diferencias estadísticamente significativas cuando en realidad no las hay. Sin
embargo lo contrario también es cierto. ¿Qué ocurriría si teniendo un trata-
miento altamente efectivo para el manejo de Trastornos Fóbicos específicos
concluyéramos que no es diferente o que es equivalente a otros tratamientos
convencionales? Este es el que llamamos Error Tipo II o Beta que simplemente
significa que falsamente aceptamos la Hipótesis Nula y descartamos la
Hipótesis Alterna cuando realmente existen diferencias entre los grupos. Esta
situación traería, como es obvio, consecuencias éticas evidentes.
Podemos definir el error tipo Beta como la máxima probabilidad que se esta
dispuesto a arriesgar por un resultado falso negativo. Al igual que con el Alfa,
se ha establecido un nivel máximo de Beta tolerable, que de acuerdo con la
comunidad científica es del 0.20 (20 % ). Dicho de otra manera, es bueno
desconfiar de todo estudio que nos sugiera una probabilidad mayor del 20 %
de que sus resultados sean falsos negativos.
Por otra parte, y al igual que con el Error Tipo I, en la medida en que deseemos
disminuir la posibilidad de error de falsos negativos, por ejemplo, un Beta del
10 % (0.1) en lugar del 20% (0.2), se requiere un tamaño de muestra mayor. Es
el precio por disminuir el margen de error y tener así mayor certeza en los
resultados.
3- Poder del Estudio:
Intimamente ligado al concepto de Error Tipo II esta el de Poder de un estudio
que matemáticamente lo podríamos definir como:
Poder = 1 - Beta
Como puede verse, el Poder depende enteramente del nivel de Beta fijado por
el investigador. Teniendo en cuenta un máximo tolerable del 20% (0.2), se
tendrá un poder del 80% (0.80). La anterior fórmula también permite apreciar
que al disminuir el Error Tipo II se aumentará el Poder del estudio para detectar
diferencias.
Otra forma de interpretar el Poder o Sensibilidad es considerarlo como la
capacidad del estudio para detectar diferencias significativas entre los gru-
pos, sí es que estas existen. Por ejemplo, un estudio con un poder del 80% tiene
una probabilidad de 0.8 de detectar diferencias sí las hay. Ahora, si deseamos
tener un poder mayor (0.9, 0.95, etc.) se requerirían muestras de un tamaño
superior.

Rev. Col. Psiquiatría, Vol. XXVII, No. 2, 1998. 135


Gómez C. y Sánchez R.

Algunos autores (10 ,11 ,12) sugieren la importancia de determinar como no


conclusivos aquellos trabajos o estudios que no hubiesen podido rechazar la
hipótesis nula y que tengan un poder menor del 60%. En esta línea Freiman,
Chalmers y Colaboradores (1) reportan que 50 de 71 ensayos clínicos contro-
lados publicados en el New England Journal of Medicine carecían del poder
suficiente para detectar amplias diferencias entre grupos. Lo anterior nos
obliga a pensar en el concepto de poder del estudio cada vez que se deban
tomar decisiones clínicas basadas en artículos o publicaciones médicas.
4- Variabilidad:
Esta se refiere a la dispersión de los datos que se esperan encontrar.
Estadísticamente se representa por la varianza y su raíz cuadrada (desviación
estándar). A menor dispersión de los resultados, será más fácil diferenciar un
grupo de otro, puesto que cada uno conformará conglomerados alrededor
del promedio y así no se confundirán los hallazgos de un grupo y del otro.
Estadísticamente se ha comprobado que al incrementar el número de
sujetos, los resultados tienden a agruparse con mayor probabilidad alrededor
del promedio y a variar cada vez menos. A la inversa, con pocos sujetos, las
mediciones tienden a variar más y por lo tanto a confundirse, más fácilmente,
con las mediciones del otro grupo.
De esta forma podemos concluir que a mayor variabilidad esperada de los
resultados se requerirá de un mayor tamaño de muestra que lleve a discrimi-
nar los grupos participantes y evidenciar las diferencias entre estos. Por otro
lado, si se espera un desenlace con escasa variación, la muestra requerida
tenderá a ser menor.
5- Diferencias estadística y clínicamente significativas:
Tradicionalmente se nos ha enseñado la importancia de hallar una diferencia
estadísticamente significativa y es así como muchos colegas se enorgullecen
diciendo que los resultados de su estudio lo son. Habremos oído o leído
repetidamente que se da un gran valor a un hallazgo que resulte significativo
a un nivel de p menor al 5 o 1% (p< 0.05 ó 0.01).

Tabla 2
RESULTADOS: ESTUDIO COMPARATIVO DE DOS ANTIDEPRESIVOS
PARA EL MANEJO DE LA DEPRESIÓN MAYOR

Puntajes de
depresión-escala de Tratamiento Tratamiento
Hamilton para antidepresivo A antidepresivo B
depresión

Nivel Basal - HAM-D 28 28

Nivel Final - HAM-D 10 8

N = 130 pacientes en cada Grupo

136 Rev. Col. Psiquiatría, Vol. XXVII, No. 2, 1998.


Tamaño de la muestra

Antes de discutir estas afirmaciones, sería útil comentar un estudio que


comparaba la eficacia de dos antidepresivos para el tratamiento de la
Depresión Mayor y cuyo desenlace fue medido a través de los puntajes
obtenidos en la Escala de Hamilton para depresión arrojando los resultados
que se presentan en la Tabla 2:
El estudio informaba diferencias estadísticamente significativas (p< 0.05) que
favorecían la terapia con el antidepresivo B, a partir de lo cual concluyeron los
autores que se debería utilizar este medicamento como tratamiento de
elección.
En este punto vemos que ciertamente ambos antidepresivos fueron útiles
para reducir los puntajes en la Escala de Hamilton (de 28 a 10 y de 28 a 8). Sin
embargo se podría plantear: ¿es relevante clínicamente una diferencia de 2
puntos (10 vs 8) en el HAM-D? Posiblemente la mayoría de colegas
responderán que no. Con este ejemplo se quiere ilustrar que no siempre lo que
es estadísticamente significativo tiene importancia clínica. No obstante, toda
diferencia que sea clínicamente relevante lo debe ser desde el punto de vista
del análisis estadístico. Si complicamos un tanto el ejemplo y agregamos que
la droga A tiene un costo 3 veces menor que la droga B, ¿Cuál se recetaría?.
Con lo anterior se intenta demostrar que para el cálculo del tamaño de la
muestra se debe conocer de antemano, no sólo el valor de la diferencia que
estadísticamente consideremos significativa y que está fijada por el alfa o valor
de p en 1 o 5 %, sino la diferencia que se espera encontrar entre los grupos,
también relevante clínicamente. Así, en el ejemplo anterior, dado el costo
diferencial de las drogas (mayor 3 veces para el medicamento B), se podría
suponer que una diferencia de menos de 7 a 10 puntos a favor del tratamiento
B no sería clínicamente importante. Esta última (mínima diferencia clínica-
mente significativa ) es determinada por el investigador o por el consenso que
exista en la literatura médica en ese momento, consideración que, obviamen-
te, repercute en el tamaño de la muestra escogida.
En resumen, cuando deseamos detectar diferencias grandes entre grupos se
necesitan pocos pacientes o muestras pequeñas y si se desea detectar
diferencias pequeñas se requieren muestras grandes.
PROCEDIMIENTOS BÁSICOS PARA CALCULAR EL TAMAÑO DE LA
MUESTRA
El proceso de selección de una muestra se basa en dos aspectos:
1. Se desea conocer alguna característica de una población y el tamaño de
esa población es tan grande que resulta muy difícil hacer la medición en cada
uno de los miembros de ella.
2. Trabajar con una muestra puede tener una buena aproximación a la
característica de la población que se quiere conocer, con la ventaja de ahorrar
tiempo y recursos.
Por ejemplo, si el propósito es conocer la estatura promedio de los colombia-
nos, se pueden hacer dos cosas:

Rev. Col. Psiquiatría, Vol. XXVII, No. 2, 1998. 137


Gómez C. y Sánchez R.

1. Tomar la estatura de todos y cada uno de los colombianos y calcular el valor


promedio.
2. Tomar una muestra de colombianos y calcular el valor promedio de esa
muestra.
El valor encontrado en el primer caso es el valor real y se denomina
Parámetro .
En el segundo caso tendremos un valor aproximado al valor real que se
denomina Estimador
Estimador.
En la notación utilizada en publicaciones sobre estos temas los Parámetros se
representan con letras griegas y los Estimadores con letras latinas. En el
ejemplo que se vinen manejando el valor real del promedio de estatura de los
colombianos se denota como m y el valor que arroja la muestra, es decir el
Estimador, se denota como x.
Vemos que en muchos casos obtener el verdadero valor de una población
(Parámetro) es prácticamente imposible debido a lo difícil que resulta hacer
la medición en un número muy grande de personas. Por esta razón se debe
trabajar con una muestra que permita obtener un Estimador lo más cercano
posible al Parámetro. Para lograrlo se deben dar dos condiciones:
1. Asegurar un adecuado proceso de muestreo: Los resultados del proceso
de muestreo serán válidos sólo si se parte de la certeza de contar con una
muestra que satisfaga las condiciones exigidas por la inferencia (13). Por
ejemplo, si en una muestra se incluye únicamente los habitantes de Neiva, o
exclusivamente mujeres, no se obtendrá un buen Estimador del Parámetro.
2. Obtener un buen tamaño de muestra: Entre mayor el número de sujetos
seleccionados más cerca estará el Estimador del Parámetro. La clave en esta
situación es obtener un número suficientemente grande de casos de manera
que se logre un satisfactorio nivel de precisión.
El obtener un buen Estimador permite sacar conclusiones que sean aplicables
a toda la población de la cual se obtuvo la muestra. Los estudios en los cuales
se maneja este propósito se pueden enmarcar dentro de dos categorías:
1. Estudios para estimar alguna característica de la población: Por ejemplo
conocer el porcentaje de personas esquizofrénicas que hay en Bogotá
(estimación de una proporción) o la edad promedio de inicio del primer
episodio depresivo en los habitantes de Cali (estimación de una media).
2. Estudios para evaluar diferencias: Es el caso de un estudio que busca
diferencias en los puntajes promedio de una escala de depresión luego de
administrar un tratamiento farmacológico (diferencia de medias), o de un
estudio que pretende evaluar cambios en la prevalencia de hechos violentos
después de aplicar un programa educativo en las escuelas de una ciudad
(diferencia de proporciones).
Con base en lo anterior se plantearán las estrategias elementales para el
cálculo del tamaño de la muestra en estas dos situaciones (14) :

138 Rev. Col. Psiquiatría, Vol. XXVII, No. 2, 1998.


Tamaño de la muestra

1 . Estudios de esti mación de características poblacionales


estimación poblacionales:
Los Estimadores de estas características deben tener un determinado nivel de
precisión. Esta precisión se mide con los intervalos de confianza: entre más
estrecho el intervalo, mayor será la precisión. Un intervalo de confianza del 95%
entre «x» y «y» quiere decir que si se repite el procedimiento de selección de
muestra y de medición 100 veces, en 95 oportunidades el verdadero valor se
encontrará entre las cantidades «x» y «y».
1.1. Estimación de un promedio: para calcular el tamaño de la muestra en esta
circunstancia se necesita conocer:
1.1.1 La amplitud del intervalo de confianza (∆).
1.1.2. Un estimativo de la desviación estándar de las observaciones (S)
1.1.3. El nivel de confianza (100 (1-α )%). Generalmente se establece en
el 95 ó 99 %.
1.1.4. Los valores de f (1-α): son valores constantes que, dependiendo
del nivel de confianza se establecen en:
Para el 90% de nivel de confianza 2,706.
Para el 95% de nivel de confianza 3,842.
Para el 99% de nivel de confianza 6,635.
La fórmula utilizada para el cálculo respectivo es:
n=S 2/∆2 f (1-α)
Como ejemplo para ilustrar este cálculo, supongamos que se ha diseñado un
estudio en el cual se pretende determinar la edad promedio de los consumi-
dores de basuco en un sector de Bogotá. Se desea que el estimativo del
promedio tenga una probabilidad del 95% de estar 3 años por encima o por
debajo del verdadero valor. Con estos datos efectuamos los siguientes
cálculos:
n=152 /32 x 3,842= 225/9 3,842= 96
para este estudio se necesita una muestra de 96 habitantes del sector.
1.2. Estimación de una proporción (15)) : para este cálculo se necesita conocer:
1.2.1 La amplitud del intervalo de confianza (∆).
1.2.2 Un estimativo de la desviación estándar de las observaciones (S)
1.2.3 El nivel de confianza (100 (1-α )%). Generalmente se establece en
el 95 ó 99 %.
1.2.4 Los valores de f (1-α ) mencionados previamente.
La fórmula utilizada es la siguiente:
n= P(100-P)/∆2 f(1-α)

Rev. Col. Psiquiatría, Vol. XXVII, No. 2, 1998. 139


Gómez C. y Sánchez R.

A manera de ejemplo, supongamos que se desea conocer la proporción de


fumadores en el grupo de estudiantes que ingresan a primer semestre en una
universidad. Se cree que el estimativo de esa proporción será de aproxima-
damente 30% y se espera que el resultado tenga una probabilidad del 95% de
estar 4% por encima o por debajo del verdadero valor. Con estos datos se
realizan los siguientes cálculos:
n=30(100-30)/4 2 x 3,842= 2100/16 x 3,842= 504
Se necesita una muestra de 504 estudiantes.
2 . Estudios para evaluar diferencias
diferencias:
2.1. Diferencia entre medias: los datos que se necesitan para el cálculo son:
2.1.1 El tamaño de la diferencia que clínicamente me interesa (∆)
2.1.2 Un estimativo de la desviación estándar de las observaciones (S).
2.1.3 Un nivel de significación o de error tipo I aceptable (generalmente
0.05 ó 0.01).
2.1.4 Definir si se pretende establecer diferencia en cualquier sentido, es
decir que no interesa si un promedio es mayor que otro siempre y cuando sean
diferentes (Hipótesis a dos colas), o probar una diferencia en un solo sentido,
es decir que se está interesado en demostrar que uno de los promedios es
mayor que el otro (hipótesis a una cola).
2.1.5 El poder requerido, usualmente 80%.
Con los elementos anteriores se aplica la siguente fórmula:
n=2S 2/∆2 f (α-β)
Los valores f(α,β) se toman de la siguiente tabla (16) :

Nivel de significación alfa

Una cola Dos colas


Poder, 1 - β
0.05 0.01 0.05 0.01

0.8 6.18 10.04 7.85 11.68

0.9 8.56 13.02 10.51 14.88

Por ejemplo, se desea evaluar si una intervención educativa puede mejorar en


5 puntos el CI de niños de escuelas distritales de Bogotá y se tiene el dato que
la desviación estándar del CI en niños de esas características es 10, y lo que
se pretende evaluar, es si el CI es mayor después de la intervención educativa,
se tiene una hipótesis a una cola.
Usando un nivel de significación del 0.05% y un poder del 80%, los cálculos son
los siguientes:
n= 2 X 102/ 52 X6,18=50

140 Rev. Col. Psiquiatría, Vol. XXVII, No. 2, 1998.


Tamaño de la muestra

Se requieren 50 niños para hacer el estudio.


2.2. Diferencia entre proporciones: los datos que que requieren para el cálculo
son:
2.2.1 Un estimativo de la proporción en cada uno de los grupos (P1 y
P2).
2.2.2 El nivel de significación o de error tipo I aceptable (generalmente
0.05 ó 0.01).
2.2.3 Definir si se propone establecer diferencia en cualquier sentido, es
decir que no interesa si una proporción es mayor que la otra, siempre y cuando
sean diferentes (Hipótesis a dos colas) o interesa probar una diferencia en un
solo sentido, es decir, se pretende demostrar, por ejemplo, que una de las
proporciones es mayor que la otra (hipótesis a una cola).
2.2.4 El poder requerido, usualmente 80%.
Con estos datos se utiliza la siguiente fórmula:
n= P1(100-P1)+P2(100-P2)/(P1-P2)2 X f(α,β)
Se quiere evaluar un programa psicoeducativo para mejorar la adherencia al
tratamiento en pacientes deprimidos. Calculando que la no adherencia pueda
reducirse de un 40 a un 35%, se establece una hipótesis a dos colas (también
se espera detectar si el programa produce un efecto paradójico), y se
determina un nivel de significación del 0.005, con un poder del 0.9. Los
cálculos son los siguientes:
n= (40X60)+(35X65)/52 X 7,85+ 1.468
En este caso se necesita un número de pacientes muy grande (1.468), por lo
cual es necesario buscar estrategias que reduzcan el tamaño de la muestra.
Lo más sencillo seria aumentar el tamaño de la diferencia que se busca,
aceptando una disminución del 10%, el tamaño de la muestra resultante será
de 353 pacientes.
Los métodos aquí presentados corresponden a las técnicas básicas aplica-
das a diseños de investigación elementales. Existen métodos más precisos y
aplicaciones específicas para diseños metodológicos particulares, que so-
brepasan la intención del presente escrito pero que pueden ser utilizadas sin
dificultad cuando se conocen los principios básicos enunciados en este texto
(17,18,19)
.
Puede agilizarse, e incluso obviarse, los cálculos respectivos utilizando pro-
gramas de computación, dentro de los cuales uno de los más ampliamente
difundidos, por su disponibilidad y facilidad, es Epiinfo
Epiinfo. Este programa
puede descargarse sin ningún costo desde la dirección http://www.cdc.gov/
epo/epi/downepi6.htm. También existe una versión española del programa
que se puede obtenerser sin ningún costo en la dirección http://www.cica.es/
aliens/sveacsa/epiinfo.htm. El programa dispone de varios módulos para
calcular tamaños de muestras tales como Statcalc (permite hacer cálculos
para encuestas poblacionales, para estudios transversales, de cohortes y de

Rev. Col. Psiquiatría, Vol. XXVII, No. 2, 1998. 141


Gómez C. y Sánchez R.

casos y controles no apareados), Epitable (dispone de comandos para


calcular tamaño y poder de muestras) y CSample.

REFERENCIAS

1 Freiman JA, Chalmers TC y Cols. The importance of Beta, the type II errors and the
sample size in the design and interpretation of the randomized controlled trial. N Engl
J Med 1978; 299: 690-4, .
2 Dupont WD. y Plummer WD. Power and Sample Calculations: A Review and a
Computer Program. Controlled Clinical Trials 1990; 11:116-128.
3 Browner WS. Newman TB y Cols. Getting Ready to Estimate Sample Size:Hypothesis
and Underlying Principles. En: Hulley, Stephen y Cummings, Steven R. Designing
Clinical Research. Baltimore: Williams y Wilkins, 1988; Pp.128 -138.
4 Lachin JM. Introduction to Sampole Size determination and Power Analysis for
Clinical Trials. Controlled Clin Trials 1981; 2: 93-114,
5 Ingelfinger JA, Mosteller F, Thibodeau LA y Col. Biostatistics in Clinical Medicine. New
York: Macmillan Publishing Co. Inc.,1983.
6 Kelsey Jl, Thompson W D y Evans A S. Methods in Observational Epidemiology. New
York: Oxford University Press, 1986.
7 Schlesselman JJ. Case Control Srtudies.New York: Oxford University Press, 1982.
8 Rosner B. Fundamentals of Biostatistics.Belmont: Duxburry Press, 1990.
9 Dennis R. Como estimar el Tamaño de Muestra necesario en Investigaciones
Humanas. Unidad de Epidemiología Clínica. Pontificia Universidad Javeriana.
10 Henneckens C H y Mayrent S L. Epidemiology in Medicine. Boston: Little, Brown and
Company, 1987.
11 Guyatt GH, Sackett DL. y Cols. User´s Guides to the Medical Literature: How to Use
an article about Therapy or Prevention. Are the Results of the Study Valid. JAMA 1993;
270.(21): 2598-2601.
12 Guyatt GH, Sackett DL. y Cols. User´s Guides to the Medical Literature: How to Use
an article about Therapy or Prevention. What were the Results and will they help me
in Caring for my Patients? JAMA 1994: 271(1): 59-63.
13 Bautista L. Diseños de Muestreo Estadístico. Bogotá: U.N. de Colombia: 1998.
14 Machin D,Campbell M, Fayers P, Pinol A. Sample Size Tables for Clinical Studies.
London: Blackwell Science, 1987.
15 Kahn HA, Sempos CT. Statistical Methods in Epidemiology. New York: Oxford
University Press, 1989.
16 Dobson AJ. Calculating Sample Size. Transac. Menzies Found 1984; 7:75-79.
17 Schelesselman JJ. Sample Size Requirements in Cohort and Case-Control Studies
of Disease. Am J Epidemiology 1974;99:381-384.
18 Donner A, Eliasziw M. Sample Size Requirements for Realibility Studies. Statistics in
Medicine 1987; 6:441-448.
19 Connett JE,Smith JA, McHugh B. Sample Size and Power for Pair-Matched Case-
Control Studies. Statistics in Medicine 1987;6:53-59.

142 Rev. Col. Psiquiatría, Vol. XXVII, No. 2, 1998.