Pasante honorario de investigacin, divisin de matemticas estadstica. CSIRO, Universidad de Adelaida; Asociado forneo, Academia Nacional de Ciencias de Estados unidos, y Miembro extranjero honorario de la Real academia de ciencias suiza y de la real academia danesa de la ciencia y letras; miembro de la academia pontificia; miembro de la academia alemana de ciencias (leopoldina); profesor formal de Galton, Universidad de Londres, y Profesor de Gentica en Arthur Balfour, Universidad de Cambridge.
PREFACIO DE LA PRIMERA EDICIN
En 1925 el autor escribi un libro (Mtodos estadsticos para trabajadores de investigacin) con el objetivo de suministrar a experimentadores prcticos e, incidentalmente, profesores de matemticas estadstica, con un cuenta de aplicaciones en laboratorio de algunos delo ms recientes avances en la teora estadstica. Algunos de los nuevos mtodos, tales como el anlisis de varianza, resultaron estar tan ntimamente relacionados con los problemas del diseo de la experimentacin que una parte considerable de los 8 captulos fueron desarrollados sobre las tcnicas de experimentacin en la agricultura, y estas secciones han sido progresivamente alargadas con subsecuentes ediciones, en respuesta a las preguntas frecuentes para tratar ampliamente esta materia. El diseo de experimentos es, sin embargo, una materia muy extensa, y de una gran importancia para la formacin general de los trabajadores cientficos y para cualquier tratamiento incidental a ser adecuado. Una comprensin clara de los procedimientos estadsticos simples y estandarizados sera, como el lector se sienta satisfecho, extenderse en elucidar los principios de la experimentacin; pero estos procedimientos por ellos mismos solo son el medio para llegar a un final ms importante. Su parte es satisfacer los requerimientos del diseo del sonido e inteligible, y suministrar la maquinaria para interpretaciones ambiguas. Para atender una clara comprensin de estos requerimientos necesitamos estudiar diseos que hayan sido ampliamente exitosos en muchos campos, y para examinar su estructura en relacin a los requerimientos de inferencia valida. Los ejemplos seleccionados en este libro estn dirigidos a ilustrar los principales experimentaciones exitosas; primero, en las aplicaciones ms simples posibles, y despus; en las ms elaboradas estructuras por las cuales las diferentes ventajas buscadas puedan ser combinado. La discusin estadstica ha sido resumida al mnimo, y todos los procesos requeridos sern ms completamente ejemplificados en el trabajo previo. El lector es, sin embargo, alertado que los detalles del trabajo numrico de los ejemplos es esencial para una completa comprensin, no solo de las tcnicas, sino tambin de los principios por los cuales un procedimiento experimental puede ser juzgado para ser satisfactorio y efectivo. (Laboratorio Galtn, Julio 1935)
PREFACIO DE LA SEPTIMA EDICIN La segunda edicin difiere en poco de la primera, publicada un ao antes. Adems de las correcciones numricas los cambios principales fueron el ms amplio tratamiento de los cuadrados completamente ortogonales de la seccin 35, y la adicin de los ejemplos en la seccin 47.1, representando algunos del nuevo desarrollo de los arreglos combinatorios, lo cual ha atrado considerable inters. En la tercera edicin la seccin 45.1 y 45.2 fueron adheridas, dando una vista ms comprensiva de las posibilidades confusin con varios factores, e introduciendo los mtodos de doble confusin. En la cuarta edicin, la seccin 62.1 ha sido adherida en los lmites fiduciales de un ratio. En la quinta edicin, la seccin 35.01 de configuraciones de 3 o ms dimensiones fue adherida. En la sexta edicin la atencin debe ser llevada a la adicin que se hizo a la seccin 65, comparacin con interacciones, con una visin ms clara de las diferencias en el estado lgico entre los diferentes tipos de categoras que pueden aparecer en un anlisis factorial. Los nmeros de las secciones no han sido cambiados. En la Sptima edicin, 1960, las secciones 12.1 and 21.1 son nuevas, mientras que pequeas adiciones y clarificaciones se han hecho en el texto. (Departamento de estadsticas, CSIRO, Adelaida, Australia, Oct. 1959)
EL DISEO DE LOS EXPERIMENTO I Introduccin 1. Los motivos en los cuales la evidencia es disputada Cuando cualquier conclusin cientfica se supone que debera ser probada con evidencia experimental, los crticos que an se rehsan a aceptar la conclusin estn acostumbrados a tomar una o dos lneas de ataque. Ellos pueden clamar que la interpretacin de la experimentacin es errada, que los resultados reportados no son de hecho los que debieron ser esperados para que la conclusin sea justificada, o podran sugerir que la conclusin es falsa. Tales crticas a la interpretacin son por lo general tratadas como pertenencias a dominio de la estadstica. Normalmente son hechas por estadsticos contra el trabajo de otros, a quienes consideran como ignorantes o incompetentes en las tcnicas estadsticas; y, desde la interpretacin de cualquier cuerpo considerable de datos es probable q implique clculos, es lo natural que las preguntas que involucren la implicacin lgica de los resultados de los procesos aritmticos empleados, deban ser relegados a la estadstica. Por lo menos yo no tengo quejas de esta convencin. El estadstico no puede evadir la responsabilidad por el entendimiento de los procesos que aplica o recomienda. Mi punto inmediato es que las preguntas involucradas no pueden ser disociadas de todo lo que es estrictamente tcnico en las herramientas estadsticas, y, cuando as lo individual, son preguntas solo en el correcto uso de los poderes del razonamiento humano, que cualquier persona inteligente, que espera ser inteligible, estn igualmente preocupados, y en lo cual el estadstico, tambin, habla sin especial autoridad. El estadstico no puede excusarse de los deberes de aclarar su mente en los principios de las inferencias cientficas, pero igualmente ningn otro hombre pensante puede evadir tal obligacin. El otro tipo de crtica los que los resultados experimentales estn expuestos es que el experimento en si haya sido mal diseado, o, por supuesto, mal ejecutado. Si nosotros suponemos que el experimentador hizo lo que el intentaba hacer, ambos puntos recaen sobre la cuestin del diseo, o de la estructura lgica del experimento. Este tipo de crticas es normalmente hecho por lo que yo podra llamar autoridad de peso pesado. La experiencia prolongad, o por lo menos la posicin de una larga reputacin cientfica, es casi un prerrequisito para el desarrollo exitoso de esta lnea de ataques. Los detalles tcnicos son rara vez en la evidencia. La afirmacin autoritaria sus contrales son totalmente inadecuados debe haber desacreditado temporalmente muchas lneas de trabajo prometedoras; y como el mtodo autoritario de juzgar debe ciertamente continuar, la naturaleza humana siendo lo que es, siempre y cuando las nociones tericas de los diseos de principios experimentales estn careciendo de nocin tan claramente y explcitamente a como nosotros estamos acostumbrado a aplicar los detalles tcnicos. Ahora, el punto esencial es que los dos tipos de crticas que he mencionado son dirigidos solo a diferentes aspectos del mismo todo, aunque ellos son normalmente deliberados por diferentes tipos de personas y en un lenguaje muy distinto. Si el diseo de un experimento es errado, cualquier mtodo de interpretacin que se aplica tambin ser errneo. Es cierto que hay una gran cantidad de procedimientos experimentales que estn bien diseados y podran guiar a conclusiones decisivas, pero en otras ocasiones tambin podran fallar para esto; en estos casos, si las conclusiones decisivas son de hecho propuestas cuando son injustificadas, podramos decir que la falla est totalmente en la interpretacin, incluso en estos casos, radica en la sobrevaloracin de las caractersticas del diseo que gua a que los resultados sean a veces inclusivos, o conclusivos en algunas cuestiones pero no en todo. Entender correctamente un aspecto del problema es entender al otro. Los procesos estadsticos y el diseo experimental son solo dos diferentes aspectos del mismo todo, y ese todo comprende todos los requerimientos lgicos del proceso completo de juntar el conocimiento natural con la experimentacin. 2. La actitud matemtica a travs de la induccin. En los prrafos siguientes de la materia de este libro ha sido considerado desde el punto de vista de un experimentador, quien desea llevar a cabo su trabajo completamente, y tenindolo hecho desea salvaguardar los resultados, entonces mientras que valida lo establecido, a medida en que estn vlidamente establecidos, desde la crtica ignorante por diferentes tipos de personas superiores. Yo he asumido, como el experimentador siempre asume, que es posible dibujar inferencias vlidas desde los resultados de la experimentacin; que es posible argumentar desde consecuencias a causas, de observaciones a hiptesis; como un estadstico dira, de una muestra a una poblacin de la que la muestra fue diseada, o, como un legista lo pondra, de lo particular a lo general. Es, entonces, ciertamente que muchos matemticos, si se los presiona sobre este punto, diran rigurosamente que no es posible argumentar de o particular a lo general; que todos esos argumentos deben involucrar algn tipo de conjeturas, que ellos debern admitir que sea una conjetura aplaudible, pero es la razn fundamental por la que no estaran dispuestos, como matemticos, a discutir. Al mismo tiempo podemos admitir que cualquier inferencia de lo particular a lo general ser atendida con un grado de incertidumbre, pero esto no es lo mismo que aceptar que esta inferencia no puede ser absolutamente rigurosa, por la naturaleza y grado de incertidumbre puede por s mismo ser capaz de una rigurosa expresin. En la teora de la probabilidad, como desarrollo en esta aplicacin a los juegos de oportunidades nosotros tenemos el clsico ejemplo probando esta posibilidad. Si los aparatos de los jugadores son realmente ciertas o no sesgadas, la probabilidad de diferentes posibles eventos, o combinacin de eventos, puede ser inferida por un riguroso argumento deductivo, aunque los resultados de cualquier juego en particular son reconocidos como inciertos. El mero hecho de que las inferencias inductivas sean inciertos no puede, por tanto, ser aceptada como se opuesta a la inferencia perfectamente rigurosa e inequvoca. Naturalmente, los escritores de probabilidades han hecho esfuerzos determinantes para incluir el problema de la inferencia deductiva en el mbito de la teora matemtica de la probabilidad, desarrollando en discusiones problemas deductivos que surgen en cualquier juego de oportunidades. Para ilustrar cuanto, en algn tiempo, se pens que se haba alcanzado en esto, yo puedo citar una oracin muy lcida de Augustus de Morgan, publicada en 1838, en el prefacio de su ensayo sobre probabilidades de cabernet cyclopedia. En este periodo de confidencia en la teora de la probabilidad inversa, como fue llamada, haba alcanzado, bajo la influencia de Laaplace, su punto ms alto. Las crticas de Boole no haban sido hechas todava, tampoco el rechazo ms decidido de la teora de Venn, Chrystal y otros escritores. De Morgan est hablando de los avances en la teora que estaba dirigida a la ms amplia aplicacin a problemas prcticos. haba tambin otras circunstancias que detuvieron en una forma las primeras investigaciones, a saber, el no haber considerado, o, por lo menos, no haber descubierto el mtodo de razonamiento del suceso de un evento a la probabilidad de que suceda lo uno o lo otro. Las cuestiones tratadas en el 3er captulo de este trabajo podran no, por lo tanto, ser tratado por ellos. Dar una hiptesis presentando la necesidad de que lo uno o lo otro de un cierto, y no muy largo, nmero de consecuencias, se podra determinar el chance de que cualquiera, una u otra, de esas consecuencias deban llegar; pero n en cuenta a un evento como sucedido, y que podra ser la consecuencia de cualquiera de algunas diferentes causas, o puede ser explicado por cualquiera de algunas diferentes hiptesis, no se podra inferir la probabilidad con la que el suceso del evento provocara las diferentes hiptesis a ser vistas. Pero, como en la filosofa de seleccin de una hiptesis por medio de hechos observados es siempre preliminar a cualquier intento de descubrimiento deductivo; entonces en la aplicacin de la nocin de la probabilidad a los actuales asuntos de la vida, el proceso de razonamiento de los eventos observados a los antecedentes ms probables deben ir antes del uso directo de cualquiera de esos antecedentes, causas, hiptesis, o lo que sea debe ser correctamente determinado. Estos dos obstculos, por lo tanto, la dificultad matemtica, y el flat de un mtodo inverso, previenen a la ciencia de extender su visin ms all de los problemas de la naturaleza simple que los juegos de azar presentes. Refirindose al mtodo inverso, el despus acot: esto fue usado por primera vez por Rev. T. Bayes, y el autor, ahora casi olvidado, merece la remembranza ms honorable de todos los que tratan con la historia de la ciencia. 3. El rechazo a la probabilidad inversa Sin importar lo que fue cierto en 1838, es seguramente no cierto en estos das que thomas bayes est casi olvidado. Que parece que l fue el primer hombre en Europa que vio la importancia del desarrollo de una exacta y cuantitativa teora del razonamiento inductivo, argumentando desde la observacin de hechos a las teoras que los podran explicar, es de seguro un reclamo a tener un lugar en la historia de la ciencia. Pero el merece ser honorablemente recordado por un hecho, tambin en adicin a lo mencionado por De Morgan. Habiendo percibido el problema y divisado un axioma que, si se le concediera su verdad, traera la inferencia inversa dentro del alcance de la teora de la probabilidad matemtica, l era suficientemente crtico de su validez como para intentar evadir el enfoque axiomtico, y, sin embargo por la misma razn, para sostener su propio tratado dela publicacin hasta que sus dudas hubieran sido satisfechas. De hecho, su trabajo fue publicado despus de su muerte por su amigo Prince, y nosotros no podemos decir cules fueron sus ltimas visiones acerca del tema. La discrepancia de opiniones de los escritores de historia acerca de la probabilidad es tan magnfica que mencionar la materia es inevitable. Esto estara, sin embargo, fuera de lugar para discutir el punto en detalle. Yo solo nombrar 3 consideraciones que explicarn porqu, e la aplicacin prctica de la materia, y no debera asumir la verdad del axioma de Baye. Dos de estas razones sera, yo pienso, generalmente admitido, pero la primera, yo puedo muy bien imaginarme, sera indignantemente repudiada en algunos cuarteles. La primera es esta: el axioma dirige a aparentes contradicciones matemticas. Para explicar estas contradicciones, los defensores de la probabilidad inversa parecen estar forzados a considerar la probabilidad matemtica, no como una medida de cantidad objetiva por frecuencia observable, sino como una medida meramente de tendencia psicolgica, teoremas respetando las que son inservibles para fines cientficos. Mi segunda razn es que es la naturaleza de un axioma que es cierto que deber ser evidente para cualquier mente racional que comprende completamente s significado. El axioma de Bayes est ciertamente completamente aprehendido por a un buen nmero de mentes racionales, incluyendo la de su autor, sin que esto signifique su conviccin de que sea necesariamente cierta Esto, solo, muestra que no puede ser aceptada como la base axiomtica de un argumento riguroso. Mi tercera razn es que la probabilidad inversa ha sido usado muy raramente n la justificacin de conclusiones de hechos experimentales, aunque la teora ha sido ampliamente enseada, y muy dispersada en la literatura de probabilidad. De cualquier forma las razones son las que le dan la confianza a los experimentadores de que ellos pueden dibujar conclusiones vlidas de sus resultados, ellos parecen actuar tan fuertemente con esta creencia, hay o no escuchado acerca de la probabilidad inversa. 4. La lgica del laboratorio De hecho, en el curso de este libro, yo propuse considerar un nmero de diferentes tipos de experimentaciones, con una referencia especial a su estructura lgica, y mostrar que cuando se toma las precauciones adecuadas para hacer esta estructura completa, una inferencia completamente vlida puede ser propuesta, sin usar el disputado axioma. Si esto puede ser hecho, nosotros podramos, en el curso del os estudios tener directamente objetivos prcticos, tener resultados de dificultad terica de inferencia inductivas. La inferencia inductiva es el nico proceso conocido por nosotros por el cual esencialmente nuevo conocimiento viene al mundo. Para aclarar las condiciones autnticas de su validez, es el tipo de contribucin al desarrollo intelectual de hacer lo que nosotros deberamos esperar que la ciencia experimental pudiera ltimamente solventar. Las personas han sido siempre capaces de algunos procesos mentales de la clase que llamamos aprender por experiencia. Sin duda esta experiencia fue a menudo una base muy imperfecta, y los procesos de razonamiento eran por interpretacin y eran muy inseguros; pero deba haber en estos procesos algo de embriologa del conocimiento, mientras nuevo conocimiento era producido. Las observaciones experimentales son solo experiencia cuidadosamente planeada y diseada para formar una base segura de nuevo conocimiento; que estn sistemticamente relacionados con el cuerpo del conocimiento ya adquirido, y los resultados son deliberadamente observados, y puestos en un registros precisos. Como los avances en el arte de la experimentacin los principios deberan ser claros en virtud de lo planeado y diseado para alcanzar el propsito. Es entonces para recordar que la conexin que tiene los principios y lo mtodos de incluso el razonamiento deductivo fueron probablemente desconocidos hasta hace cientos de aos despus l establecimiento de civilizaciones prsperas y culturizadas. Nosotros tomamos los principios de este conocimiento como aceptados, solo porque la geometra es universalmente enseada en las escuelas. El mtodo y materiales enseados son esencialmente de libro de texto de Euclide del siglo 3 AC, y nadie pudo hacer un progreso en esta materia sin antes familiarizar su mente con los requerimientos de un argumento preciso deductivo. Asumiendo el axioma, el cuerpo de las consecuencia lgica est construido sistemticamente y sin ser ambiguo. Hasta ahora es ciertamente algo como un accidente histrico que en esta disciplina en articular debi convertirse en algo de moda en las universidades griegas y despus pas a formar parte del pensum de las escuelas secundarias. Sera difcil estimar cuanto de la libertad del pensamiento humano fue adeudado por esta afortunada circunstancia. Desde el tiempo de Euclide ha habido largos periodos donde el derecho al juicio individual sin restricciones ha sido exitosamente negado en lo legal, moral y en cuestiones histricas, pero en la que tiene, sin embargo, sobrevivi, hasta ahora como razonamiento deductivo puro, sin importar la cubierta de aparentemente inofensivos estudios matemticos. La liberacin del intelecto humano debi, sin embargo, quedar incompleta mientras que fuera libre solo para trabajar con las consecuencias de un cuerpo de datos dogmtico prescrito, y es negado al acceso de la verdad inesperada, que solo las observaciones directas pueden dar. El desarrollo de la ciencia experimental ha hecho ms para multiplicar la competencia tcnica de la humanidad; y si, en estas lneas introductorias, parezco vagar del propsito inmediato de este libro, es solo porque los dos tpicos de los cuales deberamos estar pendientes, el arte del diseo experimental y la validacin de la interpretacin de los resultados experimentales, en que tanto pueden ser perfeccionados tcnicamente, debe constituir el ncleo de esta afirmacin para el ejercicio de la completa libertad intelectual. El captulo que sigue esta designado para ilustrar los principios que son comunes para toda experimentacin, por medio de ejemplos escogidos por la simplicidad con los que estos principios son considerados. Luego, para exhibir los diseos principales que han sido encontrados exitosas en el campo de la experimentacin, a saber la agricultura, en cuyas cuestiones de diseo han sido ms a fondo estudiadas, y para ilustrar su aplicacin a otros campos de trabajo. Muchos de estos tiles diseos son extremadamente simples, y esto merece la ms grande de las atenciones, como es mostrado, y en qu ocasiones, mayores elaboraciones pueden ser ventajosas. El lector cuidadosa deber poder satisfacerse no solo, en detalle, en porqu algunos experimentos tiene un estructura compleja sino en cmo un registro complejo de observaciones puede ser manejado con inteligibilidad y precisin. La materia es nueva, y en muchas formas el autor puede sugerir distintas lneas de ataque al problema con otros que son confrontados. El progreso en los ltimos aos ha sido rpido, y las pocas secciones dirigidas a la materia en el libro del autor mtodos estadsticos para investigadores, primera publicacin en 1925, tiene, como cada edicin subsiguiente, tiende a ser ms y ms inadecuada. En preguntas de estadstica pura el lector deber referirse a ese libro; en la lgica, y el anlisis del significado, debe referirse a mtodos estadsticos e inferencia cientfica. El presente volumen est ideado para hacer justicia a los problemas de planificacin y visin que el experimentador puede confrontar.
LOS PRINCIPIOS DE LA EXPERIMENTACIN, ILUSTRADO POR UN PSICO-FSICO EXPERIMENTO 5. Exposicin del experimento Una dama declara que por probar una taza de t hecho con leche ella puede discriminar si fue colocado primero en la taza leche o la infusin de t. Vamos a considerar el problema de disear un experimento por medio de que esta afirmacin puede ser probada. Para este propsito vamos primero a asentar una forma simple de experimentacin con una visin de estudio a las limitaciones y las caractersticas, ambas las que parecen ser esenciales para el mtodo experimental, cuando est bien desarrollado, y aquellas que no son esenciales pero si auxiliares. Nuestra experimentacin consiste en mezclar 8 tazas de t, 4 en una forma y 4 en la otra forma, y se las presenta a un sujeto para ser juzgadas en un orden aleatorio. El sujeto ha sido puesto en conocimiento acerca de lo que se trata la prueba, a sabiendas que ella ser solicitada de probar 8 tazas, y que existen 4 de un tipo y 4 de del otro, siendo presentadas en un orden aleatorio y este no es un orden determinado arbitrariamente por eleccin humana Na, pero por la manipulacin fsica existe un en las juegos de chances, cardas, dados, ruletas, etc. O, ms expeditamente, de una coleccin publicada de nmeros de muestreo aleatorio que pretende dar los resultados reales de tal manipulacin. Su misin es dividir las 8 tazas en dos sets de 4, agregando, si es posible, a que tratamiento corresponde cada taza. 6. Interpretacin y sus bases razonadas Consideran lo apropiado de cualquier propsito del diseo experimental, siempre es necesario pronosticar todos los resultados posibles del experimento, y decidir sin ambigedad que interpretacin ser colocada sobre cada uno. Debemos saber que el argumento de esta interpretacin debe ser sustentable. En la presente instancia podemos argumentar lo siguiente. Hay 70 maneras de escoger un grupo de 4 objetos de los 8. Esto deber ser demostrado por un argumento familiar para los estudias de permutaciones y combinaciones, a sabiendas que si escogiramos los 4 objetos en sucesin deberamos tener exitosamente 8, 7, 6 y5 objetos de donde escoger, y podremos hacer nuestra sucesin de seleccin en 8x7x6x5, o 1680 formas. Pero hacindolo de esta forma, no solo estamos escogiendo todas las posibilidades en un set de 4, sino que todas las posibilidades en todos os ordenes posibles, y que los objetos pueden ser seleccionados en el orden 4x3x2x1, o 24 maneras, nosotros podemos encontrar el nmero de posibles selecciones dividiendo para 1689 para 24. El resultado es 70, es esencial para nuestra interpretacin del experimento. A lo mejor el sujeto podr juzgar correctamente todas las tazas y, sabiendo que 4 son de cada tipo, esta cantidad para elegir, fuera de los 70 sets de 4 que podran ser seleccionados, esa en particular es correcta. Un sujeto sin ninguna facultad discriminatoria podra de hecho separar las 8 tazas correctamente en 2 sets de 4 en un ensayo de 70, o ms apropiadamente, con una frecuencia que puede alcanzar 1 en 70 ms y ms cerca mientras ms veces se repita la prueba. Evidentemente, esta frecuencia, con la que el xito infalible se lograra por una persona que carece por completo la facultad bajo prueba, es calculada por el nmero de tazas usada. Las probabilidades podran hacerse ms altas aumentando el experimento, mientras que si el experimento es ms pequeo incluso un gran posible xito puede tener probabilidades tan bajas que el resultado podra, con considerable probabilidad, atribuirse a la casualidad. 7. La prueba de significancia Est abierto al experimentador ser ms o menos exacto con respecto a la pequeez de las probabilidades, el requerir antes de estar dispuesto a admitir que sus observaciones han demostrado un resultado positivo. Es obvio que un experimento sera intil si ninguno delos resultados posibles lo satisfacen. Pero, si el desea ignorar resultados teniendo probabilidades tan altas como 1 en 20 las probabilidades han sido por supuesto calculadas de la hiptesis que el fenmeno a ser demostrado es un hecho ausente ent onces ser intil para el experimentar con solo 3 tazas de t de cada tipo. Para 3 objetos pueden ser seleccionados de 6 en solo 20 formas, y entonces el xito completo de la prueba sera logrado sin una discriminacin sensorial, sino por puro chance, en un promedio de 5 ensayos de 100. Es comn y conveniente para los experimentadores tomar un 5% como nivel estndar de significancia, en el sentido en que ellos estn preparados para ignorar todos los resultados que fallaron en alcanzar este estndar, y, por estos medios, eliminar de discusiones futuras la gran parte de las fluctuaciones que la casualidad ha logrado introducir en los resultados experimentales. La seleccin no puede eliminar todos los efectos de la casualidad o coincidencia, y si aceptamos una convencin conveniente, y acordamos que en un evento puede ocurrir por casualidad solo 1 vez en 70 ensayos, ser decididamente significante en el sentido estadstico, admitimos que n hay experimentos aislados, sin embargo la significancia en s, puede satisfacer para la demostracin experimental de cualquier fenmeno natural; como el una en un milln puede sin duda ocurrir con no ms ni menos que su apropiada frecuencia, sin embargo podra sorprendernos que nos pase a nosotros. Para afirmar que un fenmeno natural puede ser demostrado experimentalmente necesitamos, no un registro aislado, sino un mtodo confiable de procedimiento. En relacin al teste de significancia, podemos decir que un fenmeno es experimentalmente demostrable cuando nosotros sabemos cmo conducir un experimento que raramente fallara para darnos un resultado significante estadsticamente. Regresando a los posibles resultado del experimento pico-fsico, habiendo decidido que si cada taza fuer correctamente clasificado un resultado positivo significativo ser registrado, o en otras palabras, que debemos admitir que la dama ha hecho bien su reclamo, cual ser nuestra conclusin si, para cada tipo de taza, su juicio son 3 buenas y 1 equivocada? Nosotros tomamos esto en la discusin presente, que cualquier error en cada set a juzgar ser compensado con el error en el otro, desde que es sabido por el sujeto que hay 4 tazas para cada tipo. Para enumerar el nmero de formas que hay para escoger 4 cosas de 8, dado que 3 estn bien y 1 equivocada, podremos notar que los 3 correctos pudieron ser escogidos, fuera de los 4 disponibles, en 4 formas y, independientemente de la eleccin, que el 1 equivocado, fuera de los 4 disponibles, tambin en 4 formas. Entonces podremos hacer una seleccin de los supuestos en 16 diferentes formas. Un argumento similar muestra que, en cada tipo de juicio, 2 podran estar bien and 2 equivocadas de 36 formas, 1 mal y 3 bien, en 16 formas y ningn bien y 4 erradas en 1 sola forma. Deber ser notado que la frecuencia de estos 5 posibles resultados de la experimentacin se hicieron juntos, como es obvio estos deberan ser, 70 casos de 70. Es obvio, tambin, que 3 xitos frente a 1 falla, mostrando un sesgo, o desviacin, a la derecha, podra no ser juzgado con evidencia significativamente estadstica de un sensor real de discriminacin. Para esta frecuencia de ocurrencia de casualidad es 16 en 70, o ms del 20%. Adems, no es el mejor resultado posible, a juicio de su significancia nosotros deberamos tomar en cuenta no solo su propia frecuencia, tambin la frecuencia de todos los mejores resultados. En la instancia presente 3 correctas y 1 falla ocurre 16 veces y 4correctas ocurre una vez en 70 ensayos, haciendo 17 casos de 70 mejores que lo observado. La razn para incluir a los mejores casos que lo observado se vuelve obvio considerando que nuestra conclusin tendra el caso de 3 correctas y 1 errada solo 1 vez y el cas de 4 correctas en 4 veces de ocurrencia en 70. El raro caso de 3 bien y 1 errada no podra ser juzgada como significante por el mero hecho de ser rara, visto desde un ms alto nivel de xito la frecuencia se dar por mero chance. 8. Hiptesis nula Nuestra examinacin de los posibles resultados del experimentos nos han llevado a una prueba estadstica de significancia, en los que os resultados estn dividido en 2 clases con interpretaciones opuestas. Las pruebas de significancia son de muchos tipos diferentes, que necesitan ser consideradas aqu. Aqu estamos solo preocupados por el hecho que el clculo fcil en permutaciones que encontramos, y que nos dio nuestra prueba de significancia, dispuesto en algn presente en todas las posibles arreglo experimentales; o por lo menos, para algn requerimiento en esta interpretacin. Las dos clases de resultados que son distinguidos por nuestra prueba de significancia son, por una parte, los que muestran una significante discrepancia con cierta hiptesis; habiendo que, en este caso, la hiptesis como el juicio dado en ninguna manera influencia de ninguna manera en el orden en que fueron agregados los ingredientes, y por otra parte, resultados que muestran la discrepancia no significativa de la hiptesis. Esta hiptesis, que podra o no ser impugnada por el resultado del experimento, es nuevamente caracterstica de toda experimentacin. Muchas confusin sera evitada si fuera explcitamente formulada cuando el experimento es diseado. En relacin con cualquier experimento podemos hablar de esta hiptesis como hiptesis nula y ser notada que la hiptesis nula nunca es probada o establecida, pero es posiblemente refutarla, en el curso de la experimentacin. Todo experimento debe existir en orden de dar a los hechos un chance de refutarla hiptesis nula. Debe ser discutido si el experimento puede refutar la hiptesis nula que el sujeto no posee discriminacin sensorial entre los 2 tipos de objetos, esto debe estar posibilitado de probar la hiptesis opuesta, que ella puede hacer alguna discriminacin. Pero esta ltima hiptesis, aunque pueda ser razonable o cierta, es inelegible como una hiptesis nula par ser probada por experimentacin, ya que es inexacta. Si se afirmara que el sujeto nunca se va a equivocar en sus juicios deberamos tener de nuevo una hiptesis exacta, y es fcil ver que esta hiptesis puede ser refutada por un simple fallo 8del sujeto), peor nunca podr ser probada por ningn conteo finito de experimentaciones. Es evidente que la hiptesis nula debe ser exacta, es libre de ideas vagas o ambiguas, porque debe compensar las bases del problema de distribucin, del cual la prueba de significancia es la solucin. Una prueba de hiptesis nula puede, de hecho, contener elementos arbitrarios, y en casos ms complicados muy seguidos los tiene; como, por ejemplo, si nosotros afirmramos que las tazas de muerte de 2 grupos de animales son iguales, sin especificar que son estas tazas de muerte en realidad. En estos casos es evidente que la igualdad preferible por enca de cualquier valor particular de las tasas de muerte que el experimento est diseado para probar, y posiblemente refutar. En los casos que involucran estimacin estadstica estas ideas podran estar extendidas a consideraciones simultneas de una serie de posibilidades hipotticas. La nocin de un error del llamado segundo tipo, acorde con la aceptacin de la hiptesis nula cuando es falsa puede ser dada un significado en referencia a la cantidad a ser estimada. No tiene significado con respecto a un simple prueba de significancia, en el que la nica expectativa disponible son que las que flotan alrededor de la hiptesis nula siendo verdad. 9. Aleatorizacin; las bases fiscas de la prueba de validez Hemos hablado de la experimentacin como prueba de cierta hiptesis nula, es sabido que en este caso , que el sujeto no posee discriminacin sensorial sin importar el tipo reivindicado; nosotros tenemos, tambin, asignado como s apropiado para esta hiptesis una cierta frecuencia de distribucin de ocurrencia, basado en la frecuencia igual de 70 posibles formas de asignar 8 objetos a 2 clases de 4 cada una; en otras palabras; la frecuencia de distribucin apropiada a una clasificacin por pura casualidad. Tenemos ahora que examinar las condiciones fsicas de las tcnicas de experimentacin necesitadas para justificar el supuesto que, si la discriminacin en la prueba est ausente, el resultado del experimento ser completamente gobernado por las leyes de la casualidad. Es fcil ver que podra ser de otra manera. Si todas las tazas hechas con la leche primero tuvieran azcar y aquellas hechas con l te primero no la tuvieran, una diferencian uy obvia en sabor sera introducida y esto reforzara que todas las hechas con azcar seran clasificadas juntas. Estos grupos podran ser clasificados todos bien o todos mal, pero en tal caso de frecuencia de un evento crtico en el cual todas las tazas son clasificadas correctamente no habra 1 en 70, sino 35 en 70 ensayos, y la significancia de la prueba sera viciada. Errores equivalentes en los principios son frecuentemente incorporados en otras formas del Buen diseo experimental. No es suficiente medio insistir en que todas las tazas deben ser exactamente iguales en un muy respetado excepto para ser probadas. Este es un requerimiento tormenta imposible en nuestro ejemplo, e igualmente en otras formas de experimentacin. En la prctica es probable que las tazas difieran perceptivamente en grosor o suavidad del material, que las cantidades de leche adicionadas a diferentes tasas no sea exactamente igual, que la fuerza de la infusin de te pueda cambiar entre la prueba de la primera taza a la ltima, y que la temperatura tambin puede hacer que l te cambie su sabor durante el curso del experimento. Estos son solo ejemplos de las diferentes probabilidades presentes; sera imposible presentar una lista exhaustiva de toda la diferencia posible para cada experimento, porque las causas no controladas que pueden influencias en el resultado son siempre estrictamente innumerables. Cuando cualquier causa es nombrada, por lo general es percibido como, incrementando el labor o gastos, podra ser eliminado en gran medida. Muy frecuente se asume que ms refinamientos constituyen mejoras para el experimento. Nuestro punto de vista, que ser ms explcitamente explicado en otras secciones, es que es una caracterstica esencial de la experimentacin que sea llevada a cabo con recursos limitados, y una esencial parte de la materia de diseo experimental como esto ser aplicado de la manera ms acertada, o, en particular, cuales casos de perturbacin debe ser atendidos and cuales sern deliberadamente ignorados. Para acertar tambin en aquellos que no son ignorados, a cuales es mejor extenderlos para disminuir la magnitud del dao. Para nuestro propsito presente, aunque, solo es necesario reconocerlo, cualquier nivel o grado de cuidado y habilidades experimentales sern gastados en la igualacin de condiciones, aquellas que son responsables de afectar los resultados, esta igualacin debe ser siempre a una mejor o menor medida incompleta y en muchos casos prcticas ser manifiestamente defectuosa. Estamos preocupados, que la igualdad, en mayor o menor grado, no permita impugnar la exactitud de la frecuencia de distribucin, en las bases de cuales resultados del experimento va a ser tasado.
10. La efectividad de la aleatoriedad
El elemento en el proceso experimental que contiene e salvaguardo esencial son las dos modificaciones de la prueba de promedio que sern preparados en orden aleatorio. Esto, de hecho, es el nico punto en el procedimiento experimental en el cual las leyes de la casualidad, que estn en control exclusivo de nueva distribucin de frecuencia, eran explcitamente introducidas. La frase orden aleatorio como si misma, aunque, debe ser tomada como una instruccin incompleta, es una especie de smbolo para el proceso completo de aleatorizacin, lo que le da validez a la prueba de significancia y que garantiza la no corrupcin por las causas de la perturbaciones que no fueron eliminadas, su validez es, de hecho, totalmente irreprochable, permitmonos imaginar todas las causas de perturbacin la fuerza de la infusin, la cantidad de leche, la temperatura a la que es probado etc. a ser predeterminada por cada taza, luego de esto, en la hiptesis nula, estn las nicas causas que influencian la clasificacin, podremos decir que la probabilidad de que cada uno de los 70 posibles opciones o clasificaciones que el sujeto puede hacer tambin son predeterminadas. Si, ahora, despus de que las causas de perturbacin estn arregladas, asignamos, estrictamente al azar, 4 de las 8tazas a cada uno de nuestros tratamientos experimentales, entonces cada set de 4, cualquiera que sea su probabilidad de ser clasificada, seguramente tendr una probabilidad de exactamente 1 en 70 de ser de 4, por ejemplo, en aquella que la leche fue puesta primero. Sin embargo de la importancia de las causas de la perturbacin, incluso como para hacer que uno delos sets de 4 reciba esta clasificacin, la probabilidad de que 4 san clasificados y que los 4 que deben ser clasificados sean los mismos, debe estar rigurosamente en concordancia con la prueba de significancia. Es aparente, que, la seleccin aleatoria de objetos para ser tratados en diferentes formas sera una completa garanta de la validez de la prueba de significancia, si estos tratamientos fueran los ltimos en usarse en la historia fsica de los objetos podran afectar a la reaccin experimental. Las circunstancias que afectan al experimento no pueden ser siempre aplicadas y vienen relativamente temprano, sin causar inconveniencia prctica; para subsecuentes casos de diferenciacin, el experimentador debe tenerlo presente para determinarlo antes de que los tratamientos sean aleatorizados. 11. La sensibilidad de un experimento. Efectos del alargamiento y repeticin Una probable objecin, para que el sujeto pueda realizar bien el experimento descrito, es solo si es que ella clasifica correctamente y juzga exitosamente cada taza. Un simple error reducir su desempeo bajando el nivel de significancia. Su reclamo, sin embargo, puede ser, no que ella puede proponer una distincin con una invariable certeza, pero que, puede pensar en algunos errores, ella clasificar correctamente ms veces; y el experimento se alargar lo suficiente o se repetir lo suficientemente seguido, para ella ser capaz de demostrar que predominan las clasificaciones correctas por encima de los errores. Una extensin de los clculos por encima de la prueba de significancia est basado en un experimento con 12 tazas, 6 de cada tipo, dando, en la prueba de hiptesis, 1 oportunidad en 924 para el xito completo, y 36 oportunidades ir 5 bien clasificadas y 1 mala. Siendo 37 mejor que 20 de 924, como una prueba puede ser contada como significante, aunque un r de tasa sido equivocadamente clasificadas, y es fcil verificar esto usando nmero ms grandes, la significancia resultante puede ser contenida con una proporcin ms grande de errores. Por incrementacin del tamao del experimento, podemos hacerlo ms sensitivo, esto quiere decir que nos permitir mejor y mayor deteccin en un grado menor de discriminacin sensorial, o, en otras palabras, de una salida cuantitativamente menor de la hiptesis nula. En todo caso el experimento es capaz de refutar, pero nunca probar esta hiptesis, podemos decir que el valor del experimento increment ya que permite que la hiptesis nula sea ms fcilmente refutada. El mismo resultado puede ser logrado repitiendo el experimento, con el diseo original, con un nmero mayor de diferentes ocasiones, contando como xito aquellos sucesos en que las 8 tasas son correctamente clasificadas el chance de xito en cada ocasin era 1 en 70, una simple aplicacin de la teora de la probabilidad muestra 2 o ms xitos en 10 ensayos ocurridos, por casualidad, con una frecuencia bajo el estndar escogido en la prueba de significancia; entonces la discriminacin sensorial ser mostrada, en 8 intentos de 20, el sujeto hizo uno o ms errores. Este proceso puede ser meramente una segunda opcin de alargar el experimento e incrementar su sensibilidad, dado que en el clculo final tomamos en cuenta el agregado de toda la serie de resultados sin importar el xito o falla. Esto claramente sera ilegtimo, y arruinara los clculos de estas bases, si los resultados no exitosos no fueran considerados en el conteo. 12. Mtodos cuantitativos para incrementar la sensibilidad. En lugar de alargar el experimento podramos intentar aumentar la sensibilidad por mejoras cuantitativas; y estas son, en trminos generales, de 2 tipos (a) la reorganizacin de la estructura y (b) refinamiento de tcnicas. Para ilustrar un cambio de estructura nosotros podemos considera que en lugar de arreglar que 4 tazas deberan ser de cada tipo, determinamos al azar como la subdivisin debera ser afectada, podemos perimir que el tratamiento para cada taza sea determinado independientemente por casualidad, o por el tiro de una moneda al aire, as cada taza tiene una oportunidad igual de ser escogida. El chance de clasificar correctamente 8 tazas aleatoriamente es tal forma con la ayuda de la discriminacin sensorial, es 1 en 28 o 1 en 256 oportunidades, y solo hay 8 oportunidades de clasificar 7 bien y 1 mal; consecuentemente la sensibilidad del experimento ha incrementado, mientras seguimos usando solo 8 tazas y es