You are on page 1of 4

Rev. Chilena de Cirugía. Vol 60 - Nº 1, Febrero 2008; págs.

86-89
86 Rev. Chilena de Cirugía. Vol 60 - Nº 1, Febrero 2008

DOCUMENTOS

El valor de “p” y la “significación estadística”.


Aspectos generales y su valor en la práctica clínica*
Interpretation of medical statistics
Drs. CARLOS MANTEROLA D.,1,2 VIVIANA PINEDA N.1, GRUPO MINCIR
1Departamento de Cirugía, Facultad de Medicina, 2CIGES (Capacitación, Investigación y Gestión para la Salud
Basada en Evidencia), Universidad de La Frontera, Temuco, Chile.

INTRODUCCIÓN que queremos probar y el tamaño de la muestra; si


estos elementos no están adecuadamente conside-
Desarrollar cualquier estudio clínico tiene rados en el estudio permitirán la generación de
como objetivo poner de manifiesto la existencia de resultados espurios, que pueden finalmente llevar a
asociación entre variables. Sin embargo, esta aso- la toma incorrecta de decisiones, ya sea por errores
ciación puede ser real o ficticia, ya sea producto del de tipo I ó II.
azar, la existencia de sesgos, presencia de confun- Existen formas más apropiadas de representar
dentes, etc. los resultados en investigación clínica como la ra-
Es quizás por esto que los clínicos, nos basa- zón de odds, el riesgo relativo, el número necesario
mos habitualmente en la “significación estadística” de pacientes a tratar para reducir un evento, entre
para nuestra toma de decisiones. Este artículo, in- otras, que se asocian a la significación clínica y
tenta poner una nota de alerta al respecto en rela- permiten dilucidar de mejor forma la incertidumbre
ción a que, si bien es cierto que es una herramienta existente frente a una situación clínica puntual.
útil, no necesariamente va ligada a la relevancia Desarrollar cualquier estudio clínico tiene
clínica del fenómeno en estudio; esto se debe a que como objetivo poner de manifiesto la existencia o
la “significación estadística” puede no resolver la no de asociación entre diversas variables. La aso-
incertidumbre clínica ante un escenario puntual, ciación encontrada puede ser real; sin embargo,
dado que es un concepto exclusivamente matemá- con mayor frecuencia de la que uno se imagina
tico y no de garantía de calidad. ésta es producto del azar, de la existencia de
El concepto “significación estadística” se rela- sesgos, de la presencia de variables de confusión
ciona con la necesidad de “probar hipótesis”, situa- o de la variabilidad biológica del fenómeno en estu-
ción a la cual los clínicos no estamos habituados y, dio. Para dilucidar este problema existen una serie
quizás, sea ésta una de las razones por las que de pasos fundamentales al momento de diseñar y
confiamos tanto en el concepto de “significación conducir una investigación; y, posteriormente, al
estadística” y nos dejamos llevar por el “valor de p”. momento del análisis de los datos, que es donde
Antes de valorar el “valor de p”, es relevante aparece recién la utilización de herramientas estadís-
tener en cuenta que este concepto depende de dos ticas tanto de carácter descriptivo como analítico. Y
elementos esenciales: la magnitud de la diferencia es la utilización de estas últimas la que permite

*Recibidoel 1 de Julio de 2007 y aceptado para publicación el 28 de Agosto de 2007.


Correspondencia: Dr. Carlos Manterola D.
Casilla 54-D, Temuco, Chile.
Fax: 56-45-325761
e-mail: cmantero@ufro.cl
El valor de “p” y la “significación estadística”. Aspectos generales... / Carlos Manterola y cols. 87

generalizar resultados, o inferir los resultados obte- con KTP/532 láser y 442 disecados con electro-
nidos de la muestra estudiada a la población blanco cirugía monopolar), se observó desarrollo de com-
que la generó1. plicaciones graves en 16 pacientes disecados
Por todo lo anteriormente expuesto es que re- con KTP/532 láser y 11 con electrocirugía mono-
sulta fundamental el cuidadoso diseño del estudio, polar. ¿Existe diferencia significativa respecto del
tomar en consideración los criterios de selección y porcentaje de complicaciones graves entre ambas
la estimación del tamaño de la muestra, puesto que técnicas de disección?5.
mientras más grande es el tamaño de la muestra, H0 (hipótesis nula)= No hay diferencia entre
mayor es la precisión; y por ende, la variabilidad ambas técnicas de disección.
secundaria al azar se reduce. De todos modos, el Ha (hipótesis alternativa)= Sí existe diferencia
rol que siempre jugará el azar debe tenerse en entre ambas técnicas de disección.
cuenta, evaluarse y medirse, por ejemplo conside-
rando los intervalos de confianza que nos permiten Tratamiento Nº pacientes Respuesta p
conocer la precisión de la estimación dentro de un
margen de error previamente establecido2,3. KTP/532 láser 199 16/199 = 0,080 p1
Es por todo esto que, desde la perspectiva Electrocirugía mono- 422 11/422 = 0,026 p2
polar
clínica, el concepto de “significación estadística” no
es relevante, pues no resuelve la incertidumbre. Se
Si [p1 - p2] es mayor que el producto de 1,96 (Zα-0,05)
debe tener en cuenta que estamos hablando de un
multiplicado por el error estándar, concluimos que la dife-
concepto matemático, por lo que una asociación
rencia es significativa. Por lo tanto, hemos de calcular el
estadísticamente significativa puede no ser clínica-
error estándar para luego compararlo con la diferencia
mente relevante; una asociación estadísticamente
observada en los grupos en estudio.
significativa puede no ser causal; y una asociación
estadísticamente no significativa puede deberse a
[p1 - p2] = [0,080 - 0,026] = 0,054
un problema de tamaño de muestra insuficiente. Es
p= [p1 + p2] / 2 = [0,080 + 0,026] / 2= 0,053
decir, podemos encontrar asociaciones “estadísti-
camente significativas y conceptualmente espu-
El error estándar se calcula de la siguiente forma:
rias”4; por ello, hay que tener siempre presente que
Error estándar= √ p (1-p) (1/n1+ 1/n2) =
el término “estadísticamente significativo” no es
= √ 0,053 (1-0,053) (1/199+ 1/422)= 0,00035
"garantía de calidad".
El concepto “significación estadística” se rela- Error estándar multiplicado por Zα-0,05 = 0,00035 * 1,96=
ciona con la necesidad de “probar hipótesis”. Este 0,00069
proceso se realiza utilizando “pruebas de hipóte-
sis”, las que permiten cuantificar hasta que punto la Entonces, si la diferencia de [p1 - p2] = 0,054
variabilidad de la muestra en estudio es responsa- supera al error estándar multiplicado por Zα-0,05
ble de los resultados obtenidos en el estudio. Es así (0,00069) concluimos que existe una diferencia
como H0 o hipótesis nula, representa la afirmación estadísticamente significativa entre los grupos en
de que no hay asociación entre las dos variables; y estudio; razón por la cual rechazamos H0, por ende,
Ha, o hipótesis alternativa, afirma que existe asocia- aceptamos la Ha.
ción entre las dos variables. Entonces, la estadísti- No obstante ello, se ha de tener en cuenta que
ca nos permite decidir sobre que hipótesis debe- el rechazo de H0 tiene implícito el riesgo de cuan-
mos elegir, lo que será con el nivel de seguridad tificar el “valor de p”, que representa la probabilidad
que previamente se haya establecido por el equipo de aceptar la Ha, cuando en realidad la hipótesis
de investigación (habitualmente en clínica es 95%). correcta podría ser H0.
Las pruebas estadísticas funcionan entonces El “valor de p” que indica que la asociación es
de la siguiente forma: se verifica la magnitud de la estadísticamente significativa ha sido arbitraria-
diferencia existente entre los grupos a comparar (A mente aceptado por consenso; y, en clínica, se
y B). Si esta magnitud es mayor que un error admite 0,05. Dicho en otros términos, esto repre-
estándar definido multiplicado por una seguridad senta una seguridad del 95% que la asociación que
definida, concluimos que la diferencia entre A y B estamos estudiando no sea por el azar; por lo que
es significativa; por ende, “se rechaza la hipótesis si queremos trabajar con un margen de seguridad
nula” y se “acepta la hipótesis alternativa”. Por de 99%, éste lleva implícito un valor de p inferior a
ejemplo, en un estudio en el que se compararon los 0,01.
resultados obtenidos en 641 pacientes colecis- Pero ¿qué significa que el “valor de p" sea
tectomizados por vía laparoscópica (199 disecados superior a 0,05? Entonces hemos de plantearnos
88 Rev. Chilena de Cirugía. Vol 60 - Nº 1, Febrero 2008

que los resultados pueden estar influidos por el error tipo I? Realizar un adecuado diseño y planifi-
azar y entonces no podemos rechazar H0, que cación del estudio de forma tal de evitar buscar
avala que las variables no están asociadas6. asociación entre variables “por si resulta” o “dispa-
Sin embargo, es relevante tener en cuenta que rar a la bandada esperando que caiga algo”; reducir
el concepto de “significación estadística” depende el número de pruebas estadísticas a utilizar, sólo a
de dos elementos esenciales: la magnitud de la las necesarias, evitando sobreutilizar herramientas
diferencia que queremos probar y el tamaño de la estadísticas; limpiar la base de datos para evitar
muestra. Con respecto a la magnitud de la diferen- errores de valores extremos que puedan producir
cia, es importante comprender que a mayor diferen- hallazgos falsamente significativos; recurrir al uso
cia entre las variables en estudio, más fácil será de valores de alfa más pequeños o reducir los
poder demostrar que la diferencia es significativa; intervalos de confianza (0,01 ó 0,001); observar si
al revés, si la diferencia es pequeña las posibilida- los resultados del estudio se pueden reproducir.
des de detectar diferencias se minimizan. Ahora, ¿Cómo reducir la probabilidad de cometer un
respecto del tamaño de la muestra, es fácil com- error tipo II? Incrementar el tamaño de la muestra,
prender que mientras mayor sea éste, más fácil evaluar el poder estadístico del estudio, aumentar
será detectar diferencias entre las variables en es- el tamaño del efecto a detectar, elevar el valor de
tudio; entonces, cuando las diferencias son peque- alfa y utilizar pruebas estadísticas más robustas
ñas se requiere de muestras de gran tamaño; al como las denominadas pruebas paramétricas (t-
revés, cuando las diferencias son grandes se nece- test, ANOVA, etc.).
sita de muestras pequeñas para conducir el estu- Por todas las razones antes expuestas, más
dio. Así, el tamaño de la muestra afecta la significa- relevante que hablar de “significación estadística”
ción estadística a través del error estándar que se es utilizar el concepto de “relevancia clínica”; esto,
hace más pequeño cuantos más pacientes tenga el debido a que la relevancia clínica de un fenómeno
estudio. En resumen, cualquier diferencia entre las va más allá de cálculos matemáticos y depende de
variables en estudio puede ser “estadísticamente la gravedad del problema, la morbilidad y mortali-
significativa” si se dispone del número suficiente de dad generada por el mismo, la magnitud de la dife-
pacientes. rencia, la vulnerabilidad, los costes involucrados,
Por ejemplo, en un estudio referente a trata- etc.
miento de cáncer gástrico, al calcular la muestra De este modo, las formas más apropiadas de
necesaria con una supervivencia de 50% para el representar los resultados en investigación clínica
grupo de cirugía y quimiorradioterapia y 41% para son la razón de odds, el riesgo absoluto (RA), el
el grupo con cirugía exclusiva (resultados reporta- riesgo relativo (RR), la reducción relativa del riesgo
dos en el artículo), un alfa de 0,05 y una potencia (RRR), la reducción absoluta del riesgo (RAR), el
de 80%, la muestra necesaria para la conducción número necesario de pacientes a tratar para reducir
del estudio es de 960 sujetos (480 por grupo); y no un evento (NNT) y el número necesario de pacien-
556 en total (281 para el grupo de cirugía y tes a dañar (NND)10-12; y la significación estadística
quimiorradioterapia; 275 para el grupo de cirugía no es nada más que eso, “la significación estadís-
exclusiva)7,8. tica”, que en ocasiones puede ser positiva y
Con este ejemplo, se hace patente la aparición clínicamente irrelevante, o negativa, sin que eso
de dos conceptos: el de error tipo I o alfa y el de signifique necesariamente que no hay diferencias
error tipo II o beta. El error tipo I corresponde a un reales entre las variables en estudio.
“falso positivo”, es decir rechazar la H0 cuando en Por ello es que el “valor de p”, debe ser obser-
realidad es verdadera; en términos más sencillos, vado con cautela y siempre tomado en cuenta en el
creer que hay una asociación estadísticamente sig- contexto del estudio, su diseño, las características
nificativa cuando no la hay, que es lo que ocurrió en de la muestra o la población en estudio, de los
el estudio de MacDonald7,8. Éste es un claro ejem- potenciales sesgos, etc. Y no como una cifra mági-
plo que el “valor de p” no es un indicador de fuerza ca que nos seduzca de tal forma, que nos invite o
de una asociación, como tampoco de su importan- autorice a tomar decisiones o cambiar conductas
cia (para ello existen la razón de Odds, el riesgo relacionadas con la práctica clínica cotidiana.
relativo, etc.). Por otra parte, el error tipo II corres- Por último, antes de tomar decisiones o cam-
ponde a un “falso negativo”, es decir, consiste en biar conductas basadas en un “valor de p”, se ha de
aceptar H0 cuando es falsa; en términos más sen- considerar además la validez externa o generaliza-
cillos, creer que no existe una asociación estadís- ción de los resultados obtenidos en ese estudio
ticamente significativa cuando quizás la hay9. respecto de la población blanco y, particularmente,
¿Cómo reducir la probabilidad de cometer un respecto de nuestros pacientes o nuestra realidad
El valor de “p” y la “significación estadística”. Aspectos generales... / Carlos Manterola y cols. 89

laboral, que pueden ser no necesariamente equiva- 7. MacDonald JS, Smalley SR, Benedetti J, Hundahl
lentes a los utilizadas en el estudio valorado por SA, Estes NC, Stemmermann GN et al. Chemora-
nosotros. diotherapy after surgery compared with surgery
alone for adenocarcinoma of the stomach or the
gastroesophageal junction. New Engl J Med 2001;
REFERENCIAS
345: 725-730.
8. Manterola C, Torres R, Burgos L, Vial M, Pineda V.
1. Manterola C. El proceso que conduce al desarrollo
Methodological quality of an article on the treatment
de la investigación científica. Su aplicación en ciru- of gastric cancer adopted as protocol by some
gía. Rev Chil Cir 2001; 53: 104-109. Chilean hospitals. Rev Med Chil 2006; 134: 920-926.
2. Altman DG. Confidence intervals for the nember
9. Daly LE, Bourke GJ. Interpretation and uses of me-
needed to treat. BMJ 1998; 317: 1309-1312. dical statistics. Blackwell science, Oxford, 5th ed,
3. Daly LE. Confidence limits made easy: interval 2000.
estimation using a subsitution method. Am J Epide-
10. Cook RJ, Sackett DL. The number needed to treat: a
miol 1998; 147: 783-790. clincally useful measure of treatment effect. BMJ
4. Silva Ayçaguer LC. Cultura estadística e investiga- 1995; 310: 452-454.
ción científica en el campo de la salud: una mirada
11. Laupacis A, Sackett DL, Roberts RS: An assesment
crítica. Editorial Díaz de Santos, Madrid, 1997. of clinically useful measures of treatment. New Engl
5. Lane GE, Lathrop JC. Comparison of results of KTP/ J Med 1988; 318: 1728-1733.
532 laser versus monopolar electrosurgical dissec-
12. Sackett DL, Richarson WS, Rosenberg W, Hynes
tion in laparoscopic cholecystectomy. J Laparo- RB. Evidence-based medicine: how to practice and
endosc Surg 1993; 3: 209-214. teach EBM. Churchill-livingstone; London, 2nd ed.
6. Jekel JF, Elmore JG, Katz DL. Epidemiology Biosta-
2000.
tistics and Preventive Medicine. WB Saunders
Company, Philadelphia, 1996.