You are on page 1of 6

¿¡Cuáles son las probabilidades!?

La “falacia del aeropuerto” e inferencia estadística


Bert Guntery Christopher Tong usan un encuentro casual en una sala de espera de aeropuerto para
discutir que la confianza generalizada en la frecuente inferencia estadística no puede dejar llevar a la
ciencia por mal camino
Imaginese a usted mismo en el aeropuerto, esperando para abordar su avion. Usted entabla una
conversación con la persona sentada a su lado, y durante la conversación, descubre que su tia abuela
Tilly era profesora de piano de la primera esposa del tío de la otra persona.

“¿Cuáles son las probabilidades !?” dicen ambos, considerando que son minúsculas. Pero es casi
seguro que si charlamos bastante tiempo que seguramente encontrará algún tipo de conexión que los
dos compartían: que ambos trabajaban para la misma empresa en algún momento de sus carreras,
tal vez, o les gustan los mismos ingredientes en la pizza, o que ambos vivieron en Cleveland al mismo
tiempo.

Pero tan pronto como gritaste “¿Cuáles son las probabilidades !?” invocaste una presunción de que
era palpablemente falsa: esas probabilidades podrían ser calculadas, cuando no pueden ser. La razón
es que las probabilidades - es decir, esas probabilidades - requieren que un espacio de probabilidad
se especifique primero para calcular su fuente, y eso es exactamente lo que no se ha hecho aquí. No
se definio ningún espacio de probabilidad de las conexiones a las cuales limitaste tus consideraciones
de antemano. No es justo para decidir, después del hecho, de que sólo se va a considerar la conexión
con la tía abuela Tilly, o profesores de piano o parientes de primera y segunda generación que podrían
haberse conocido unos a otros. Eso es como hacer sus apuestas luego de que la carrera termino. La
realidad es que nada en absoluto podría haber surgido entre las infinitas posibilidades que te han
sorprendido - y, por supuesto, algo lo hizo.

Una cosa es invocar una suposición falsa durante una conversación en el aeropuerto, y otra muy
distinta es hacerlo durante una investigación científica. Pero esta “falacia del aeropuerto” a menudo
surge cuando se utilizan las estadísticas para inferir “significados científicos” de datos usados en
procedimientos como la prueba de una hipótesis, intervalos de confianza, p-valores, razones de
verosimilitud, y así. Estos procedimientos adjudican el significado científico mediante la aplicación de
los principios de probabilidad para distinguir patrones “al azar” en los datos - meras constelaciones en
el cielo nocturno - de “verdad”, y en algún sentido fenómenos científicos replicables. La creencia
popular es que tales métodos, conocidos colectivamente como la inferencia estadística, puede
responder a la pregunta: “¿Estoy siendo aleatoriamente engañado?” (tomando prestada una frase del
estadista critico Nassim Taleb).

Peor aún, sostenemos que la falacia aeropuerto es una consecuencia casi inevitable de la buena
práctica científica, no está mal; es decir, la inferencia estadística de este tipo es a menudo incompatible
con la buena ciencia (y la mala práctica científica puede agravar aún más el problema).

El enfoque frecuencial
Antes de ir más lejos, es importante tener en cuenta que estamos describiendo un solo paradigma
específico de la inferencia estadística - el enfoque frecuencial. En términos generales, se considera
que las probabilidades fijadas como frecencias a largo plazo se podrían observar si el proceso de
generación de los datos se replicara una y otra vez. Sin embargo, hay otros, marcos compitiendo por
la inferencia estadística. Un bayesiano, por ejemplo, podría tratar probabilidades como “medidas de
creencia” que son modificados por los datos disponibles. Se podría argumentar que este enfoque, por
tanto, no está sujeto a la falacia (aunque, por supuesto, plantea sus propios problemas, que están más
allá del alcance de este artículo). Sin embargo, el paradigma frecuencial es por mucho el más
ampliamente (aunque tácitamente) que se utiliza en la práctica científica, y por lo tanto que es lo que
vamos a entender aqui por “inferencia estadística”.

Así que ¿cómo surge la falacia aeropuerto, naturalmente, en la práctica científica? Gelman y Loken
dan una descripción ordenada, pero aquí hay algunos ejemplos de lo que nosotros (en su mayoría)
consideramos bueno, o al menos aceptable, la práctica de análisis de datos. Tenga en cuenta que en
cada caso la inferencia se aplica - las probabilidades se calculan - después de que los datos se
analizan y manipulan para restringir las posibilidades; en otras palabras, las apuestas se colocan
después de los caballos han corrido.

Ejemplo 1: Revisar cuidadosamente los datos en busca de errores, valores atípicos - también
conocidos como “aislados” - quizá realizan pruebas estadísticas para determinar qué datos deben ser
excluidos. A continuación, utilice la inferencia sobre los datos que quedan.

Aquí está el problema: ¿Cuáles son todos los posibles errores y otras “anomalías” que podrían ser
considerados sujetos de exclusión? ¿Quién los define y cómo? ¿Qué pruebas se podrían utiizar?
¿Cuánto podrían los datos restantes por analizar cambiar basado en esto? Todo esto es parte del
espacio de posibilidades que se deben definir primero y forman parte de la inferencia.

Ejemplo 2: Hacer gráficos de los datos para descubrir patrones interesantes y asociaciones que
podrían indicar la ciencia significativa para su examen detallado y seguimiento. Utilice la inferencia
estadística para decidir cuáles de los patrones son “reales” y cuales son “al azar”.

Aquí está el problema: ¿Cuáles son todas las posibles graficos que se podrían hacer? ¿Cómo
“interesante” definido? asociaciones lineales? asociaciones no lineales? Ciclos? agrupación? ... Una
constelación de posibilidades que ignora la inferencia posterior.

Ejemplo 3: Para que los datos se ajusten a lo que se consideran prerrequisitos estadísticos necesarios,
utilizar graficos de probabilidad normales y / o mejor ajuste las pruebas para ver si los datos
contradicen tales suposiciones. Si es así, elegir transformaciones apropiadas para normalizarlos o
utilizar otras suposiciones de distribución por inferencia.

Aquí está el problema: Las graficos y las pruebas también son parte del espacio de posibilidades que
debe tenerse en cuenta para el cálculo de probabilidades. La aleatoriedad en los datos afectará lo que
se ve en los graficos y calculadas a partir de las pruebas, y por tanto las transformaciones que se
eligieron. Esta variabilidad debe ser pre-especificada para calcular las probabilidades correctas.

El problema común es que no se puede mirar primero los datos para decidir qué hacer y luego
pretender que no los vio cuando la etapa de análisis comienza. Esa es la esencia de la falacia del
aeropuerto - definir las posibilidades de lo que podría ser descubierto después de haberlas
descubierto.

Para evitar estos problemas, un analista podría dividir al azar primero los datos en dos partes. Una
parte será encerrada, oculta a la vista; por otra parte, toda la proyección de datos, el trazado, pruebas,
etc., que constituye un acertado análisis de datos científico que se llevará a cabo. Una vez hecho esto,
el analista puede entonces definir el espacio adecuado de posibilidades para la inferencia. Los datos
ocultos entonces serán descubiertos, y ahora este conjunto pre especificado de procedimientos y
posibilidades se aplicarán a los nuevos datos. Esto significa que los cálculos de probabilidad e
inferencia sobre los nuevos datos son correctos y válidos, ¿verdad?

Por desgracia, no. En realidad, hay dos problemas con este aparentemente honesto sistema de
validación cruzado. El primero es que los “nuevos” datos no son realmente nuevos. Debido a que los
datos originales se dividieron al azar, los nuevos datos van a ser bastante similares a los originales,
por lo que el espacio de posibles anomalías y patrones también sea bastante similar. Por lo tanto,
todavía estamos casi usando los nuevos datos para determinar cuáles son las posibilidades, y luego
pretender que no lo hicimos al hacer los cálculos de probabilidad. El punto es que si quieres nuevos
datos tienes que salir y obtener nuevos datos. dividirlos al azar no lo hara. O como Freedman dijo: “En
general, la replicación y la predicción de nuevos resultados proporcionan un régimen de validación
más duro y más útil que la prueba estadística de muchos modelos en un conjunto de datos. Se
necesitan menos suposiciones, hay menos posibilidades de artefacto, varios tipos de variación pueden
ser exploradas, y las alternativas de expliacion pueden ser descartadas.

El otro problema es que en la práctica la tentación de engañar es casi irresistible. Esto ocurre cuando
los procedimientos se aplican a los datos desbloqueados y las cosas no salen como se desea. Cuando
eso sucede, parece casi obligatorio regresar a los datos originales, determinar la forma de ajustar los
procedimientos allí, y luego volver a aplicar el procedimiento de ajuste a la parte bloqueada de los
datos de nuevo para obtener una respuesta “honesta”. Excepto que no hay nada honesto al respecto.
Todo el asunto regresar y ajustar ocurrio debido a que la parte bloqueada de los datos fue
desbloqueada y fue vista, por lo que ahora se debe de nuevo usar esos datos para determinar el
análisis de los mismos datos.

Para aquellos que conocen (o les importan) tales cosas, estas preocupaciones son más fundamentales
que los problemas más pequeños de la multiplicidad o inferencia después de la selección del modelo,
para los que se les ha ofrecido una variedad de soluciones técnicas. Estas soluciones se ajustan para
una clase más grande y más compleja de posibles inferencias que podrían hacerse. Sin embargo, el
punto vital es que todas las posibilidades todavía deben ser pre -especificadas (y, por supuesto, ser
consistentes con los datos del proceso de generación - un problema técnico a menudo ignorado y
potencialmente difícil). Pero en la falacia del aeropuerto, se derivan de los datos y sólo están limitadas
por la imaginación activa del analista de datos. De hecho, si el analista sólo piensa en hacer algo, pero
luego decide no hacero después de hacer algunos graficos, que afectan a la inferencia. ¿Por qué?
Porque con otra muestra aleatoria del mismo proceso subyacente, algo más se podía hacer, lo que
significa que cualquier cálculo de probabilidad adecuada debe tener en cuenta esta posibilidad. En
pocas palabras, tu estado mental puede afectar las probabilidades de inferencia.

Evitar la ilusión
No estamos en desacuerdo con la (no -inferencial) de datos -analítico y el modelo-prácticas de
construcción que hemos mencionado en la sección anterior (con la excepción de los procedimientos
puramente estadísticos eliminación de las demás). Creemos que son el tipo de cosas que los
científicos rutinariamente hacen y rutinariamente deberían hacer. Es la (frecuencial) inferencia
estadística que más tarde es el problema: la pretensión de que los métodos estadísticos basados en
una falacia pueden servir como un filtro objetivo de validez científica.

Uno podría preguntarse entonces, ¿hay algún lugar en el trabajo científico en el que la inferencia
estadística sea confiable? Muchos podrían afirmar que la clave para evitar la falacia del aeropuerto
está en predefinir todo lo que se va a realizar como parte del análisis antes de que uno ve los datos -
de hecho, incluso antes de la recoleccion de los datos, ya que lo que sucede en la recopilación de
datos a menudo afecta a los datos que se recogen, de forma que actúe como una especie de “vistazo”
a los datos que influyen en el análisis. Aunque ha habido llamadas para dicha pre -especificación en
los círculos científicos, la aceptacion ha sido limitada.

Por una buena razón, pensamos. Considerando esto: para obtener un mejor manejo en la
“reproducibilidad” de la investigación publicada, el Proyecto de reproducibilidad (bit.ly/2ry1WBK) Se ha
dedicado a tratar de reproducir algunos resultados importantes en la biología del cáncer. Al momento
de escribir esto, afirman que cuatro de siete informes se reprodujeron. Sin embargo, Jocelyn Kaiser
reporta en Science (bit.ly/2tmkshQ) Que: “Algunos científicos se sienten frustrados por la decisión del
Proyecto de reproducibilidad a pegarse al rígido protocolo registrado en eLife para cada replicación,
que no dejaba lugar a la resolución de problemas” En otras palabras, la pre-especificación es buena
para la inferencia, pero mala para la ciencia.

Aunque la pre-especificación parece como una manera de salir de este problema, pre -especificar el
análisis estadístico no es suficiente: falla al limitar la cantidad de otras practicas de manejo de datos
que definen los datos incluso antes de analizarlos. Estos también deben tenerse en cuenta en el
espacio de probabilidad subyacente para evitar sesgar las probabilidades. Entre ellos: la detección y
selección de datos; fallos al asignar aleatoriedad a los experimentos (los experimentos se hacen a
menudo en un orden específico por razones de eficiencia); no -cegamiento de los tratamientos o
medidas, posiblemente incluyendo re elaboracion o re medicion de resultados sospechosos para
ponerlos en línea con las expectativas; y rellenando los datos que faltan con varios criterios previos al
análisis. Abofetear el semblante de respetabilidad estadística sobre la empresa con remedios que no
abarcan la gama completa de prácticas de manejo de datos aún nos deja atrapados en el aeropuerto.
Los procedimientos de pre especificación parciales todavía resultan en sesgo.

El único lugar que conocemos, donde la falacia del aeropuerto puede ser evitada usando rigurosa pre
especificación es en la realización de ensayos clínicos fundamentales en la medicina. En este estrecho
ámbito, las agencias gubernamentales de regulación hacen cumplir la estricta adhesión a las prácticas
destinadas a asegurar la validez de la inferencia estadística. Estos incluyen la asignación al azar y el
cegamiento en la recolección de datos, aplicación de tratamientos, y la medición de los resultados; y
especialmente pre-especificación no sólo de todos los análisis de datos y procedimientos estadísticos
que se emplearán, sino también el suministro del actual código de computadora que será utilizado
para llevar a cabo tales procedimientos antes de obtener los datos. No conocemos ninguna otra
actividad científica que va a tales extremos. Es difícil, consume tiempo, y es extremadamente caro
muy por encima de los recursos de la ciencia ordinaria y científicos ordinarios. Y, como hemos visto,
también es probablemente inapropiado la mayor parte del tiempo. Pero cuando miles de vidas y miles
de millones están potencialmente en juego, puede ser justificado. Si tiene éxito o no plenamente
todavía es discutible.

Por último, cabe preguntarse, ¿realmente importa? ¿Qué daño se hace por inferencia estadística
engañosa? Después de todo, miles de científicos de todo el mundo la utilizan rutinariamente como
parte de su actividad lucrativa. No ofrecemos una exposición detallada de estas preguntas aquí, pero
los intentos de cuantificar el impacto del modelo construcción y la inferencia utilizando el mismo
conjunto de datos, por ejemplo, fueron hechas por Freedman, Faraway, Blettner y Sauerbrei, Chatfield,
y muchos otros. La literatura sobre el tema reconoce que el impacto las distorsiones de nivel de
significativo o de precisión - puede variar, aunque a veces la “magnitud puede venir como una
sorpresa, incluso para un estadístico experimentado”. El papel que juegan estas prácticas para
contribuir a la irreproducibilidad de la investigación científica aludida anteriormente la “crisis de
reproducibilidad” científica es desconocida, aunque Gelman y Loken, entre otros, han argumentado
que debe haber un enlace.

La ciencia sin la inferencia


Si bien la crisis de reproducibilidad en la ciencia es sin duda un gran problema, no es nuestra principal
preocupación aquí. Nuestro argumento es que, al margen de ese debate, tenemos que reconocer el
desajuste fundamental entre lo que se requiere para la validez de la inferencia estadística y la forma
en que la mayor pare de la ciencia lo hace y debe hacerse. Debido a esto, pensamos que se ganaría
mucho al abandonar (frecuencial) la inferencia estadística por completo en la mayoría de la
investigaciónes científicas. Como han señalado Freedman, y Gigerenzer y Marewski, gran ciencia ha
sido, puede ser, y se está haciendo sin eso (véase el recuadro).
Mogil y Macleod han propuesto recientemente un enfoque prometedor para la investigación médica
preclínica que podría servir de modelo más útil generalmente. Como nosotros, ellos proponen que
encontrar la hipótesis preliminar en experimentos que exploran y dilucidan los mecanismos biológicos
se abstienen de significación estadística / inferencia del todo: la estadística descriptiva (o de la
divulgación de los datos reales) sería suficiente. Sin embargo, la hipótesis final seleccionada para la
confirmación sería objeto de un estudio aleatorizado, ciego, gran muestra (es decir, un apropiadamente
accionado) “ensayo preclínico” con un plan de protocolo y analisis prestablecido llevado a cabo por un
laboratorio independiente. La publicación del trabajo exploratorio estaría condicionada sobre la
inclusión de tal estudio confirmatorio.

A pesar de ello, creemos que la tentación de desviarse de un plan de análisis estadístico pre
especificado puede ser demasiado fuerte. Por otra parte, como se señaló anteriormente, la resolución
de problemas científicos a veces requiere tales desviaciones. Tambien surgen otras preguntas: ¿cómo
seria tal programa extendiendo sus estudios basado principalmente en datos de observación (por
ejemplo, epidemiología, ciencias sociales, ecología), donde la replicación independiente de los datos
relevantes pueda ser difícil o imposible? Tal vez lo más importante, ¿de dónde podría venir la
financiación para los laboratorios independientes? Sin embargo, este es un ejemplo de la clase de
pensamiento fuera de la caja que estadísticos y científicos deben fomentar y desarrollar de manera
que cuando se utiliza la inferencia estadística, esta no fomente la ilusión y distorsione la ciencia.

Por desgracia, a pesar de la falta de adaptación que hemos descrito, la inferencia estadística
frecuencial aún mantiene gran parte de la ciencia en un puño de hierro. Si bien es imposible medir en
detalle el daño que esto causa, creemos que la confianza generalizada en la inferencia de la falacia
del aeropuerto no puede evitar llevar a la ciencia por mal camino. Por supuesto, el reconocimiento de
que el problema no es una solución, pero es necesario un precursor para encontrar una. El abandono
de la inferencia estadística podría no estar donde queremos terminar, pero puede estimular los
esfuerzos para averiguar dónde deberíamos. En cualquier caso, no podemos seguir basando la ciencia
en la ilusión. Es el momento de dejar el aeropuerto atrás.

La ciencia sin la inferencia estadística


Dos ejemplos de la historia muestran cómo la ciencia puede hacerse sin la inferencia estadística: el
descubrimiento de Max Planck en 1900 de la cuantificación de la energía en la radiación de un cuerpo
negro, y el trabajo epidemiológico de John Snow, a mediados del siglo diecinueve en Londres sobre la
causa del cólera.

El trabajo de Planck se centró en los datos experimentales para las curvas de radiación de un cuerpo
negro, por lo general graficados como densidad de energía vs longitud de onda; diferentes
temperaturas resultan en diferentes curvas. Las mejoras en las mediciones de estas curvas en el
momento habían socavado una fórmula teórica existente. Planck creó primero una fórmula de
interpolación matemática, con dos coeficientes desconocidos, motivado por conocidas restricciones
teóricas y experimentales sobre su forma, tales como el comportamiento limitante de los derivados
relacionados. (En esta etapa, la única función de los datos fue sugerir estas limitaciones no hay
mínimos cuadrados u otro procedimiento de ajuste de datos que fuera directamente aplicado a los
datos.) Uno de los equipos experimentales que lo lideraron compararon cinco competentes fórmulas
propuestas, y declaró el de Planck el mejor ajuste con sus datos. Sin embargo, la física no se trata
simplemente de ajuste de curvas. Planck procedió a desarrollar un modelo teórico del sistema físico,
que consta de resonadores en equilibrio térmico con la radiación. Para derivar la fórmula de
interpolación a partir de los primeros principios en su teoría, el suposo que los osciladores sólo podían
tener energía en unidades discretas, o cuantos. La derivación resultante le permitió relacionar los
coeficientes desconocidos con constantes conocidas de la naturaleza, con la excepción de un nuevo
coeficiente que ahora llamamos la constante de Planck. Planck recurrió al uso de los datos actuales
sólo cuando estimaba esta constante (y proporcionar estimaciones mejoradas de otras constantes).
Estas estimaciones no se derivan de la curva real ajustada, mas bien son argumentos físicos
combinados con mediciones relacionadas (como la energía total irradiada por una superficie fija
durante un tiempo fijo, a dos temperaturas diferentes). Basta decir que Planck es recordado hoy en
día por la introducción de la cuantificación de la energía en la física teórica, no por sus estimaciones
de los parámetros. Su logro fue posible gracias a la fuerte estructura teórica que pudo ser desarrollada
en la física, una característica carente de ciencias más empíricas tales como la epidemiología, un
campo examinaremos despues.

El trabajo de Snow evolucionó a partir de su conjetura basada en síntomas de la enfermedad y la


epidemiología de que el cólera fue causado por organismo transmitido por el agua “que se metia en el
tubo digestivo a través de alimentos o bebidas, se multiplicaba en el cuerpo, y generaba un veneno
que causaba que el cuerpo expulsara el agua. El organismo sale del cuerpo con estas nuevas
evacuaciones, puesto de nuevo en el suministro de agua, e infecta a nuevas víctimas.” Para apoyar
esta conjetura, el hizo una amplia investigación sobre la distribución geográfica de los casos,
determinando donde la incidencia de la enfermedad fue más alta a través de varias epidemias, de
donde vino el agua en ambas tanto a altas- y bajas áreas de incidencia, y donde las descargas de
alcantarillado estaban situados con respecto a las tomas de agua. Por citar sólo un ejemplo, la nieve
se encontró que había una fábrica de cerveza en una zona con una alta incidencia del cólera en el que
nadie se enfermó. ¿Por qué? Obviamente, los trabajadores bebían cerveza, no el agua (la fábrica de
cerveza también tenía su propio pozo). El trabajo de investigación de Snow también incluye su famoso
mapa de lugares, lo que llevó a la desactivación de un surtidor de agua en Broad Street después de
que se mostraran varios casos agrupados cerca.

You might also like