You are on page 1of 6

Breve historia de los resultados potenciales

Aplicación a la inferencia causal
2.1 INTRODUCCIÓN
El enfoque de la inferencia causal esbozado en el primer capítulo tiene
antecedentes importantes en la literatura. En este capítulo revisamos
algunos de estos antecedentes para poner en perspectiva el enfoque de
potenciales resultados. Los dos desarrollos iniciales más importantes, en
sucesión rápida en los años veinte, son la introducción de resultados
potenciales en las asignaciones aleatorias de Neyman (Neyman, 1923,
traducido y reimpreso en Neyman, 1990) y la introducción de la
aleatorización como la "base razonada" para la inferencia por Fisher(Fisher,
1988, p.14).
Una vez introducida, la idea básica de que los efectos causales son las
comparaciones de los resultados potenciales puede parecer obvia, como se
podría esperar, ser un principio establecido desde hace mucho tiempo del
pensamiento científico. Sin embargo, aunque las semillas de la idea se
remontan al menos al siglo XVIII, la notación formal de los resultados
potenciales no fue introducida hasta 1923 por Neyman. Los mismos
estadísticos, al analizar tanto los datos experimentales como
observacionales con el objetivo de inferir los efectos causales, utilizarían
regularmente la notación de los resultados potenciales en estudios
experimentales pero cambiando la notación a una puramente en términos
de resultados observados y realizados para estudios observacionales. Más
recientemente, en los 70 con el trabajo de Donald Rubin (1974), el lenguaje
y el razonamiento de los resultados potenciales se situaron en primer plano
en los entornos de los estudios observacionales, y tomó otro cuarto de siglo
antes de que se encontrara aceptado como una manera natural de evaluar
los efectos causales , independientemente de la configuración.
Por otra parte, antes del siglo XX parece haber sido sólo limitado del
concepto de mecanismo de asignación. Aunque en la década de 1930 se
había establecido de forma aleatoria en algunas áreas de la investigación
científica, especialmente en los experimentos agrícolas, no había una
declaración formal para un mecánico de asignación general y, por lo demás,
ni siquiera los argumentos formales a favor de la asignación al azar hasta
Fisher (1925).
2.2 RESULTADOS POTENCIALES Y LA ASIGNACIÓN MECANISMO ANTE
NEYMAN
Antes del siglo XX podemos encontrar semillas de la definición de resultados
potenciales de efectos causales entre los experimentadores y los filósofos.
Por ejemplo, se puede ver una idea de los resultados potenciales, aunque
aún no etiquetados como tales, en las el debate del filósofo y economista
Mill (1973, p.327), quien ofrece:
Si una persona come de un plato en particular, y muere en
consecuencia, eso es, no habría muerto, si no hubiera comido de
ella, la gente sería capaz de decir que comer de ese plato era la
causa de su muerte.

Esto es.224) sin los beneficios en el marco de los resultados potenciales.. Fisher (1918. Neyman presenta lo que él llama "Rendimiento potencial" U ik . no hemos encontrado ningún escritor temprano que formalmente persiguieron estas intuiciones sobre los resultados potenciales que definen los efectos causales. el bien conocido epidemiólogo estadounidense que estudió el fumar y cáncer de pulmón también luchó con esto: "Si los cigarrillos son carcinógenos. asociado con una sola unidad. . Aplicando la notación de resultados potenciales a esta cita. por lo tanto fumar no causa cáncer de pulmón. m. ¿por qué No todos los fumadores tienen cáncer de pulmón? "(Cornfield. es "no muerte". 1959. y sólo en el contexto de un modelo de urna para asignar tratamientos a las parcelas. Y (comer del plato). el padre de muchas de las estadísticas modernas. sus autores pueden o no haber querido que sus palabras significaran cuando elegimos interpretarlas. y que en este caso hubiera sido más pequeño. Tampoco se discutió la importancia de los mecanismos de asignación. Aquí también vemos una referencia. Jerome Cornfield. Y (comer del plato) y Y (no comer plato) para la misma persona. En este caso. para que el plato sea la causa de la muerte. "Este muchacho ha crecido alto porque ha sido bien alimentado. . y Mill postula que si el resultado potencial alternativo. p. estamos sugiriendo Que probablemente hubiera estado peor alimentado.. donde i indexa la variedad. k = 1. El primero de estos usos matemáticos de la idea de los resultados potenciales fue introducido por Jerzey Neyman (1923). La definición formal general de los efectos causales en términos de resultados potenciales. No importa cuán interpretados. Los rendimientos potenciales no son iguales al . un niño. a dos resultados potenciales. es "muerte". que son necesarios para la evaluación de los efectos causales. i = 1. una temprana industria del tabaco argumentó utilizando una noción similar de causalidad: no todo el que fuma dos o más paquetes de cigarrillos al día tiene cáncer de pulmón. así como la definición formal del mecanismo de asignación. este resultado debe ocurrir cada vez que es consumido. Del mismo modo.. o quizás por cualquier persona.. Curiosamente. Por ejemplo. . algo implícita. el resultado observado. 2. Véase también Rubin (2012). p. a principios del siglo XX. Mill parece considerar los dos posibles resultados." . en particular. Mill pasa a requerir una "conjunción constante" para asignar la causalidad . argumentó: Si decimos. en su Argumento. A pesar de las ideas que podemos percibir en estas citas..3 NEYMAN (1923) POTENCIAL RESULTADO NOTACIÓN EN EXPERIMENTOS ALEATORIOS Neyman (en la versión traducida de 1990) comienza con una descripción de un experimento de campo con m parcelas sobre las cuales se podrían aplicar v variedades. por esta persona.Hasta que Neyman lo hizo en 1923. Y (no comer plato). entonces se podría inferir que comer el plato era la fuente (causa) de la muerte. estaba todavía a otro medio siglo de distancia. Y (bien alimentado)= Alto y Y (no bien alimentado) = más corto. v y k indica la parcela. nadie desarrolló una notación formal para la idea de los resultados potenciales. . sin embargo..214).

Como se defone los potenciales resultados. A lo largo de la recolección de resultados potenciales. . y continúa señalando que ciertas fórmulas para esta situación que se han justificado en la base de la independencia (es decir. Ahora. aún usando la notación de Neyman. La "mejor estimación" (término de Neyman) de la rendimiento de la i-ésima variedad en el campo es el promedio de los resultados potenciales para esa variedad de todas las m parcelas. la estimación estándar del efecto de la variedad i frente a la variedad j. tratar a los U ik como variables aleatorias normales independientes dado algunos parámetros) necesitan una consideración más cuidadosa. el promedio de los resultados potenciales sobre todos las m parcelas.. si la parcela k recibe la variedad i. x i−x j es imparcial (sobre asignaciones aleatorias repetidas en las m parcelas) para el estimador causal ai−a j . m} se considera a priori fijo pero desconocido. este modelo es estocásticamente idéntico al experimento completamente aleatorio con n=m/ v parcelas expuestas a cada variedad. Neyman entonces continúa describiendo un modelo de urna para determinar qué variedad cada parcela recibe. sea x i la media de la muestra de las n parcelas realmente expuestos a la i-ésima variedad. el valor promedio de x i−x j sobre todas las asignaciones que son posibles bajo sus dibujos de urna. no las estimaciones de ellos.. y (iii) consideración implícita de un modelo para la asignación de tratamientos a unidades corresponde a un experimento .. . el efecto promedio de la variedad i frente a la variedad j en todos las m parcelas.. U = { U ik : i = 1. . V. es decir. es ai−a j . entonces la parcela l es menos probable que reciba la variedad i). Así. Neyman muestra que la expectativa de x i−x j . Señala la falta de independencia entre las asignaciones para diferentes parcelas implicadas por este muestreo restringido de tratamientos sin reemplazo (Es decir. en lugar de ai . K = 1. la diferencia en medias observadas. y cada parcela se expone a una sola variedad. El formalismo de Neyman hizo tres aportaciones: (i) notación explícita de los resultados potenciales. son los valores "verdaderos" bajo SUTVA.rendimiento real o observado porque i indexa todas las variedades y k indica todas las parcelas. (ii) consideración implícita de algo como la suposición de estabilidad. . m 1 ai= ∑ U ik N k=1 Neyman llama ai a la "mejor estimación" debido a su preocupación por la definición de "verdadero rendimiento ". algo con lo que luchó nuevamente en Neyman (1935).

siente que el modelo matemático fue un avance: Neyman siempre ha depreciado los trabajos estadísticos que produjo en Bydogszcz [Que es donde Neyman (1923) se hizo]. 2. sin embargo. la provisión explícita de la notación matemática para los resultados potenciales fue un gran avance.5 FISHER'S (1925) PROPUESTA PARA ALEATORIZAR TRATAMIENTOS A UNIDADES . y decenas de otros lugares. 45) 2.464) escribe en su introducción a la traducción de Neyman (1923): "Implícito no es explícito.Sin embargo. la aleatorización es como un acto físico. Anscombe (1948). 1982. pp.4 CONSEJOS ANTERIORES PARA LA ALEATORIZACIÓN FÍSICA La noción del papel central de la asignación al azar. como en Fisher (1925). 1978. la notación de Neyman rápidamente se convirtió en estándar para definir la relación promedio de los efectos causales en experimentos aleatorios. Véase. 1958). es no en las pocas fórmulas que dan varias expectativas matemáticas. a finales de siglo XIX. . Específicamente. (Reid. e incluso en textos introductorios (Freedman. Jones y Tukey (1978). Brillinger. págs. el concepto de Neyman de estimación imparcial cuando se utiliza el muestreo aleatorio y parece haber pensado incluso en la aleatorización como un proceso físico (Peirce. era una novedad. El propósito de la aleatorización fue crear secuencias tales que "cualquier posible adivinación psicológica de los cambios que el operador [experimentador] probablemente seleccionaría (Stigler. 281-282) escribe: "Si ahora las parcelas habían sido colocadas al azar. pág.4). "Student" (Gossett. 1980. Hedges y Lehman (1970. . Peirce también parece haber anticipado. por ejemplo. p. en ese momento. 79-80). Pero no podemos encontrar ninguna sugerencia para la aleatorización física de los tratamientos a las unidades como una base para la inferencia bajo Fisher (1925). Welch (1937). Pitman (1937). págs. 9. un psicólogo y filósofo estadounidense. en retrospectiva. reimpreso en Stigler. 1931).completamente al azar. 1923.”. todavía estaba por ser introducido por Fisher”. y después de la introducción de Fisher de experimentos aleatorios en 1925. Charles Sanders Peirce. aunque no como una base para la inferencia. 75-83) utilizaron la aleatorización física para crear secuencias de tratamiento binario (pesos más pesados versus pesos más ligeros) en un experimento psicológico de medidas repetidas. parece haber estado "en el aire" en los años 20 antes de que se introdujera explícitamente por Fisher. y más tarde como una base para el análisis. diciendo que si hay algún mérito en ellos. 1990. como si los números hubieran sido mezclados y se anotan en orden aleatorio "(véase Rubin. El propio Neyman. aunque no sean experimentos aleatorios reales. a menudo asumiendo aditividad como en Cox (1956. parece haber propuesto la aleatorización física décadas antes. pp. Peirce y Jastrow (1885. Pero como Speed (1990. página 477). sec. p. si todas las parcelas estuvieran indiferenciadas. sino en la construcción de un modelo probabilístico de ensayos agrícolas que. Por ejemplo. 1955). Kempthorne (1952. Un tanto notable.473) escriben "Además. Pisani y Purves. 456-458). McCarthy (1939). y Fisher y MacKenzie (1923.

Fisher (1925) propuso la aleatorización física de unidades y.45) También. siguen siendo el estándar riguroso aceptado para el análisis de ensayos clínicos aleatorios a comienzos del siglo XXI y validar los denominados análisis de la intención de tratar. . A. (Neyman. los valores p de Fisher.6 LA NOTACIÓN DE RESULTADOS OBSERVADOS EN OBSERVACION ESTUDIOS PARA EFECTOS CAUSALES A pesar de la aceptación casi inmediata de los experimentos aleatorios. Aunque la distinción puede parecer trivial en retrospectiva. independientemente del trabajo de Neyman. y los investigadores continuaron con modelos de resultados observados en lugar de pensar en términos de resultados potenciales. en 1925. . como se analiza en los Capítulos 5 y 23. desarrolló un método de inferencia basado en esta clase especial de mecanismos de asignación. el trabajo sobre los experimentos aleatorizados por Fisher. no dio el siguiente paso de proponer la necesidad de aleatorización física para evaluar de manera creíble los efectos causales. 2. Neyman no lo vio como tal: En una ocasión. que casi exclusivamente usaban datos observados. pág. Debido al trabajo de R. Ronald Fisher. que primero comprendió esto. Fisher. A. es difícil añadir algo esencial para el conocimiento actual sobre los experimentos locales. Los "niveles de significación" de Fisher (es decir. La asignación aleatoria se puede hacer. "Student" y sus seguidores. cuando alguien lo percibía como anticipando al estadístico inglés R. . p-valores). Uno de los logros más importantes de la Escuela inglesa es su método de planificación de experimentos de campo conocidos como el método de bloques aleatorios y cuadrados latinos. en el texto actual introducido y discutidos en el Capítulo 5. estos mismos elementos no se utilizaron para nferencia causal en estudios observacionales. 109) Así. 1982. Neyman y otros.Un aspecto interesante del análisis de Neyman fue que. como se acaba de mencionar. por ejemplo. Fisher en el uso de la aleatorización. Esta no es lo mismo que el reconocimiento de que sin aleatorización un experimento tiene poco valor independientemente del tratamiento subsiguiente. Este último punto se debe a Fisher. En cambio. p. es decir. Entre los científicos sociales. se opuso vigorosamente: "Traté teóricamente un experimento agrícola sin asignación al azar y la aleatorización se consideró un requisito previo al tratamiento probabilístico de los resultados. como se describe por Neyman (1923). eligiendo bolas de una urna. y yo lo considero como uno de los más valiosos logros de Fisher "(Reid.1935. y la notación de Neyman para los resultados potenciales en el trabajo agrícola y matemático estadísticos de 1930 en esos experimentos. experimentos aleatorios. recibieron poca o ninguna atención. aunque él desarrolló su notación para tratar los datos como si surgieran de lo que más tarde se llamaría un experimento aleatoriamente asignado. Incluso entre los estadísticos involucrados en el análisis de estudios . además.

durante medio siglo después de Neyman (1923). introducido en la Sección 1. entre observaciones variables. Y i ( 0) ) . y la discusión en Cox (1958) sobre experimentos con los de Cox y McCullagh (1982) sobre la paradoja del Señor (que fue discutido utilizando el marco de resultados potencial en el Capítulo 1). durante más de un siglo. como en Yule (1897). El coeficiente de regresión de Wi en esta regresión se interpretó entonces como la estimación del efecto causal de W i=1 frente a W i=0 . por ejemplo. como la epidemiología. utilizando varios argumentos externos sobre el orden temporal de las variables. Pero en general no. W i .7. De hecho. Algo notablemente. correlaciones. usando mínimos cuadrados ordinarios. contrastar la discusión en Cochran y Cox (1956) sobre experimentos con Cochran (1965) sobre estudios observacionales. En particular. la psicología. es decir. para evaluar cuál de estas asociaciones podría estar reflejando un mecanismo causal. bajo condiciones muy específicas. que en nuestro enfoque es fundamental para definir los efectos causales. para inferir la causalidad. Por ejemplo. El enfoque en este último continúa construyendo modelos estadísticos relacionando el valor observado de la variable de resultado con las covariables y las variables indicadoras para los niveles de tratamiento. . la sociología. Y obs i =Y i ( W i )=W i∗Y i ( 1 ) + ( 1−W i )∗Y i ( 0 ) = {Y i ( 0 ) si W i=0 Y i ( 1 ) si W i=1 obs El resultado observado Yi era típicamente regresado. el par de resultados potenciales (Y i ( 1) . la educación y otras ciencias sociales. es que este enfoque funciona como se describe en el Capítulo 7. sobre las covariables Xi y el indicador para la exposición al tratamiento. fue sustituido por el valor observado de Y para la unidad i. con los efectos causales definidos en términos de los parámetros de estos modelos. así como las ciencias biomédicas. los estadísticos que escribieron con gran claridad y conocimiento sobre los experimentos aleatorios utilizando la notación de resultados potenciales no lo utilizó al discutir los estudios no aleatorios para los efectos causales.aleatorizados y no aleatorios de datos de efectos causales. Esta tradición dominó la economía. una tradición que aparece originalmente con Yule (1897). las ideas y el lenguaje matemático utilizado para la inferencia causal en el contexto de los experimentos aleatorios fueron completamente excluidos de la inferencia causal en los ajustes no aleatorios. y luego intentó. Este enfoque estimó asociaciones.