You are on page 1of 39
09) Campbell D. & Stanley J. (2001). “Disefios experimentales y cuasi experimentales” en La investigaci6n social. Argentina: Amorrortu, pp. 31-69. 4, Tres disefios experimentales propiamente dichos Los tres disefios fundamentales que vamos a exponer en este capitulo son los recomendados en Ia actualidad Ta litera- tura metodoldégica. Son también, como se ver4, los mds reco- mendados por nosotros, aun cuando tal respaldo esté sujeto a cca re restricciones conctetas or cuanto ia Ja peteties habit y dé lugar a que aparezcan algunos signos negativos en cuadro 1 bajo el titulo Validez externa. El disefio 4 es el mds empleado de los tres; por eso, nos permitiremos la libertad de explayarnos mucho més en su ané- lisis, haciendo de él el centro de convergencia de otras conside- raciones, cuya aplicacién es més general. Obsérvese que los tres disefios se presentan en forma de comparaciones diversas de una sola X con winguna X. Los disefios que han recibido ma- yor cantidad de tratamientos por parte de la corriente del ex- perimento factorial de Fisher representan elaboraciones im- Portantes pero tangenciales respecto del hilo conductor de esta obra, y se estudian al final Piel ¢ presente capftulo, a con- tnuscn da St ie ‘Ahora. hen, ete perspec, ede recordar aqu{ que con #0 X es un exees0 aeao rc aia implificacén. En ed em araciés nse este con las activi es s dest por el grupo de control durante el perfodo en que el grupo experimental recibe la X. Por lo tanto, serfa_ mejor establecerla entre Xi y Xo, o entre Xi y Xo, o entre Xi y Xz. El que la actividad thade'nf indcotble elemento de amblghedad a a un indeseable elemento de am! a la interpreta- ibn del efecto de X- Pe Teniendo en cuenta todos estos comentarios, continuaremos en este capitulo insistiendo en Ia convencién grifica de no Ppresentar ninguna X en el grupo de control. 31 ‘Material compilado confines académicos, se prohibe su reproduccién total o parcial sina autrizaciin de cada autor. 4. Disefio de grupo de control pretest-postest Controles de validez interna Algunas de las consideraciones anteriores indujeron a los in- vestigadores psicolégicos y educacionales, entre 1900 y 1920 a agregar al disefio 2 un grupo de control, creando el actual disefio ortodoxo con oe ee coated McCall L925 15 Solo- mon [1949] y Boring [1954 en parte los protagonis- tas de esta historia, y una revisién del ‘Teachers Cottege Re- cord de aquel periodo implica més todavia, pues ya en 1912 se mencionaban grupos de control sin necesidad de mayores explicaciones [p. ¢j., Pearson, 1912]. Los disefios con grupos de control asf introducidos se clasifican en esta seccién bajo dos encabezamientos: el presente disefio 4, en el que se em- plean grupos equivalentes logrados por aleatorizacién, y el disefio 10 cuasiexperimental, en el que se utilizan grupos in- tactos de comparacién ya existentes, de equivalencia no ase- gurada. El disefio 4 adopta la forma RO: X Oz ROs Os Como el disefio controla en forma tan nitida /as siete hipétesis descritas, las presentaciones que de él se han hecho no establecido en forma explicit Tas necesidades de control que satisfacfa. En Ja tradicién de las investigaciones del aprendi- zaje, los efectos practicos de la administracién de pruebas pa- recen ofrecer el primer reconocimiento de Ia necesidad de con- tar con un grupo de control. La maduracién era a menudo el punto critico de los estudios experimentales en educacién, asf como del problema naturaleza-cultura (#ature-nurture) en el campo del desarrollo infantil. En la investigacién de los cam- bios actitudinales, como en los primeros estudios sobre los efectos de las peliculas cinematograficas, la historia puede ha- ber sido Ja consideracién primaria de necesidad. De cualquier manera, creemos conveniente analizar brevemente aqui la forma en que se controlan esos factores, asi como las con- diciones en que se lo hace. La historia se controla en la medida en que los acontecimien- tos histéricos generales que podriar. haber producido una di- ferencia del tipo O1—Oz causarfan también una diferen- cia del tipo Os-O«. Adviértase, sin embargo, que mu- 32 ‘Material compllado confines académicos, se prohibe su reproduccion total o parcial sin a autrizaciin de cada autor. chas supuestas utilizaciones del disefio 4 (0 5, 0 6) #o controlan la existencia de una historia intrasesional Unica. Si a todos los estudiantes, elegidos al azar, que integran el grupo experimental se Jos trata en una sola sesién, haciéndose lo mismo con los controles, Ios tinicos acontecimientos ocurridos en cada una de esas sesiones y que carecen de importancia (la broma exagerada, el incendio en Ja otra cuadra, los co- mentarios introductorios del experimentador, etc.) se con- vierten en hipétesis rivales que explican la diferencia de O1=Os contra O3—Oy. Este so es un verdadero experi- mento, aunque se lo presente como paradigma ilustrativo, como en la prucba de Solomon [1949] sobre Ia ensefianza del .alfabeto. (Para ser exactos, tenemos que puntualizar que So- Jomon Jo eligié para ilustrar un aspecto diferente.) Medi- tando sobre nuestras «mejores practicas» en relacién con ese aspecto, puede que ello carezca de importancia, pero nuestras «mejores pricticas» consisten en presentar experimentos que con harta frecuencia son i jibles de repetir, y esa misma fuente de diferencias «significativas» pero externas bien po- drfa ser una falla importante, Ademés, en los tfpicos experi- mentos gue describe el Journal of Experimental Psychology, el control de la historia intrasesional, se Jogra exponiendo a estudiantes y animales a pruebas individuales, y sometiendo aleatoriamente a los estudiantes y los pericdos de prueba a condiciones experimentales o de control. Obsérvese, no obs- tante, que aun con sesiones individuales la historia puede escapar al control si se trabaja con todo el grupo experimental no con el grupo de control, etc. El disefio 4 requiere que sesiones experimentales y de control sean simult4neas. Si realizamos sesiones verdaderamente simulténeas, tienen que emplearse distintos experimentadores, y las diferencias entre ellos acaso se conviertan en una forma de historia intrasesio- nal que se confunda con X. La solucién éptima es una aleatorizacién de las sesiones ex- petimentales, aplicando las restricciones requeridas para lograr una representacién equilibrada de fuentes de sesgo tan pro- bables como son los experimentadores, la hora, el dia de la semana, la parte del semestre, la proximidad de los ex4menes, etc. El recurso habitual de trabajar con sujetos experimentales en pequefios grupos —en vez de hacerlo individualmente— es inaceptable si se prescinde de ese agrupamiento en el anélisis estadistico. (Cf. mds adelante el examen de la asignacién de gtupos intactos a diversos tratamientos.) Todos los que toman parte en Ja misma sesidn participan de Ja misma historia in- 33 ‘Material compitado confines académicos, se prohibe su reproduccion total o parcial sina autrizaciin de cada autor. trasesional y tienen, por ende, fuentes de similitud distintas de X. Si tales sesiones se han asignado al azar, el procedimiento estadistico correcto ser4 el mismo que el que sefialamos més adelante para la asignacién de aulas intactas a diversos trata- mientos. (Para algunos estudios que comprenden la ad- ministracién de tests en grupos, los distintos tratamientos experimentales pueden distribuirse al azar dentro de un grupo cata a cara, como en el uso de varias formas de un test para estudiar el efecto del orden de dificultad de los ftems. En tales casos, los elementos especificos de la historia intrasesio- nal son comunes a ambos tratamientos y no se convierten en una hipétesis rival aceptable que se confunda con X cuando se explican las diferencias obtenidas. ) La maduracién y \a administracién de tests estn controladas en el sentido de que su manifestacién en los grupos experi- mentales y de control deberfa ser igual. La instrumentacion se controla con facilidad cuando se dan las condiciones para el control de historia intrasesional, en parti cuando se Joga la O por medio de reacciones de los estudiantes a un instrumento fijo, como una prueba impresa. Sin eml ¥ cuando se recutre a observadores o entrevistadores, el probl ma es ya mds grave, Si el mimero de observadores es suficien- temente efio para que su asignacién a la observacién de sesiones individuales no sea aleatoria, no solo habré que em- plear cada observador tanto para las sesiones experimentales como para las de control, sino que ademés los observadores ignorar cudles son los estudiantes que reciben cada uno Jos distintos tratamientos, a fin de que el conocimiento de hecho no sesgue sus puntajes o registros, Tales tendencias al sesgo son causas «confiables» de variancias, como lo con- firma Ja necesidad de contar en las investigaciones médicas con un segundo ciego en la prueba de dos ciegos, y también estudios recientes [ senthal 1959) y anteriores Lp. ej., Ken- nedy y Uphoff, 1939; Stanton y Baker, 1942]. El uso de negisttos de la interaccién grupal, a fin de que Jos jueces pue- dan evaluar-una serie de secciones aleatorizadas de trascrip- ciones pretest, postest, experimentales y del grupo de control, contribuye al perfecto control de la instrumentacién en las investigaciones sobre la conducta escolar y la interaccién gtupal. La regresién se controla, en lo qué alas diferencias de medias concierne y por muy extremo que sea él grupo en los puntajes pretest, si tanto el grupo experimental como el de control se asignan al azar, tom: los de este mismo conjunto extremo. 34 ‘Material compllado confines académicos, se prohibe su reproduccién total o parcial sina autorizaciin de cada autor. En tales casos, el grupo de control regresiona tanto como el experimental. Sin embargo, aun en las condiciones del di- sefio 4 se producen con frecuencia vacfos interpretativos, a causa de los mecanismos de regresién. Un experimentador puede aprovechar el grupo de contro! para confirmar los efec- tos de X sobre la media grupal, y después abandonarlo mien- tras examina cudles han sido los subgrupos de puntaje pretest del grupo experimental que han registrado mayores influen- cias, Si todo el grupo acusa una ganancia, llega a la estimu- lante conclusién artificial de que quienes al principio estaban en la posicién més baja han logrado el mayor adelanto, mien- tras que los que se hallaban en la més elevada quizd no han avanzado lo més minimo. Este resultado se asegura porque, en condiciones de ganancia media de todo el grupo, el mecanismo de regresién suple el puntaje de ganancia para los participantes con puntaje pretest inferior a la media, y tiende a eliminarlo pata quienes en el pretest tenfan puntaje elevado. (Si en el conjunto no hubo ningtin avance, el experimentador quiz4 «descubra» por error que aquello se debi6 a dos efectos mu- tuamente excluyentes: el avance de Jos bajos y el retroceso de los altos.) Un modo de evitar esos errores de interpretacién es hacer andlisis paralelos de aquellos que en el grupo de cont presentan puntajes pretest extremos, y fundar las interpreta- ciones de ganancias diferenciales en comparaciones de Jos pun- tajes postest de los correspondientes subgrupos experimenta- les y de control en el postest. (Nétese, sin embargo, que a causa de las distribuciones asimétricas resultantes de la selec- cién resulta dudosa Ja conveniencia de las estadisticas de cur- va normal.) Se elimina la seleccién como explicacién de la diferencia en la medida en que Ja aleatorizacién haya asegurado la igualdad gtupal en el momento R, medida que queda determinada por nuestra estadistica de muestreo. Asi, la garantfa de igualdad €s mayor para grandes que para pequefias cantidades de asig- naciones aleatorias. Este supuesto fallaré en ocasiones en el grado sugerido por el término de error para la hipétesis de no diferencia. En el disefio 4, ello significa que a veces habrd una aparente diferencia «significativan entre los puntajes pte- test. Por lo tanto, aunque fe aleatorizacién simple o estratifi- asegura la asignacién no sesgada a los grupos de sujetos experimentales, constituye un medio muy imperfecto para ga- rantizar la equivalencia inicial de dichos grupos. No obstante, eis seices fanaa prdctica de hacerlo, Lo decimos asf, tan categéricamente, a causa de una muy difundida y ertdénea pre- 35 ‘Material compitado confines académicos, se prohibe su reproduccion total o parcial sin a autorizaciin de cada autor. dileccién, evidenciada en Ja investigaci6n educacional durante los tltimos treinta afios, por la igualacién mediante la equi- paracién. McCall [1923] y Peters y Van Voorhis [1940] contribuyen a perpetuar este equivoco. Como veremos con mayor detalle al estudiar el disefio 10 y el ex post facto, la equiparacién no constituye una ayuda real cuando se Ja utiliza ara solucionar diferencias iniciales de grupos. Ello no signi- Rica que propugnemos Ja eliminacién lisa y Ilana de este pro- cedimiento como posible aditamento a la aleatorizacién, como cuando se obtiene mayor precisién estadistica asignando estu- diantes a pares ean y asignando después’ al azar un miembro de cada par al grupo experimental y otro al de con- trol. En la literatura sobre estadistica, esto se designa con el término «bloqueo». Véanse, en particular, los estudios de Cox [1957], Feldt [1958] y Lindquist [1953]. Pero la equipara- cién como sustituto de la aleatorizacién es tabi incluso para los disefios cuasiexperimentales que no emplean mds que dos grupos naturales intactos, uno experimental y otro de control: aun en ese endeble «experimento» hay medios mejores que la armonizacién para tratar de corregir diferencias iniciales entre Jas medias de una y otra muestra. Los datos de que disponemos gracias al disefio 4 permiten es- tablecer qué mortalidad explica aceptablemente la ganancia O1— Ox. Mortalidad, casos perdidos y casos para los cuales solo se dispone de datos parciales, son diffciles de manejar y por lo comtin se los trata de disimular. La experimentacién tfpica con métodos educativos se prolonga durante dias, se- manas © meses. Si se realizan Jos pretests y postests en las aulas de las que se toman el grupo experimental y el grupo de control, y la condicién experimental requiere la concurrencia a determinadas sesiones sin que ocurra lo ‘mismo con la con- dicién de control, la distinta concurrencia a las tres sesiones (pretest, tratamiento y postest) produce una «mortalidad» que puede introducir en la muestra sutiles sesgos. Si de todos Tos designados en un primer momento como participantes del grupo experimental eliminamos a los que no concutren a las sesiones de prueba, reducimos selectivamente el grupo expe- timental con un mecanismo que no se aplica en forma similar al grupo de control, seeeand al primero en el sentido de los responsables y sanos. El modo preferido de tratamiento, aun- que no de utilizacién habitual, parece ser el empleo de todos los estudiantes seleccionados, experimentales y de control, que completaron tanto el pretest como el postest, incluso los inte- grantes del grupo experimental que no obtuvieron la X. Es 36 ‘Material compitado confines académicos, se prohibe su reproduccion total o parcial sin a autorizaciin de cada autor. innegable que este procedimiento atemia el efecto aparente de X, pero evita el sesgo de muestreo, funddndose en el previo supuesto de que no habia sesgos de mortalidad mds simples. Este supuesto es susceptible de verificacién parcial examinan- do tanto el ntimero como los puntajes pretest de quienes participaron en el pretest pero no en el postest. Es posible que algunas X influyeran en esa tasa de abandono, en vez de modificar los puntajes individuales, Por supuesto, aun cuando tales tasas sean las mismas, queda todavia en pie la posibi- lidad de que se produzcan complicadas interacciones que propenderfan a diferenciar el cardcter de los abandonos en los grupos experimentales y de control. El problema de Ja mortalidad puede observarse con toda cla- tidad en el estudio de métodos correctivos con voluntarios. Asi, por ejemplo, se invita a un grupo de lectores deficientes de una escuela secundaria a participar en sesiones correctivas voluntarias mientras que otro grupo en las mismas condiciones no es invitado. Del primero de ellos, quizd participen en las se- siones un 30 % de sus integrantes. Los puntajes postests, asi como los pretest, provienen de pruebas de lectura est4ndar ad- ministradas a todos los que asistfan ‘a clase. No es razonable comparar el 30 % de voluntarios con el total del grupo de con- trol, porque representan a los més preocupados por sus punta- jes pretest, los capaces de trabajar con mayor ah{nco en su propio mejoramiento, etc.; pero es imposible Jocalizar sus exac- tos equivalentes en el grupo de control. Aunque tampoco pa- rece justo pata la hipdtesis de eficacia terapéutica comparar el total del grupo invitado con el total del no invitado, es esta una solucién aceptable, si bien moderada. Nétese, empero, que puede ocurrir que lo que el efecto sea la invitaci6n misma, y no precisamente ia terapia. En general, el grupo de control no invitado deberfa poseer igual conocimiento de su posicién en el pretest que el grupo invitado. Otra posibilidad es invitar a t Jos que necesitan sesiones correctivas y asig- nat fos voluncarios a grupos de tratamiento verdaderos y fal sos; mas en el estado actual del arte es probable que cualquier. terapia suficientemente bien presentada como para que parezca una ayuda al estudiante sea tan eficaz como el tratamiento mismo que se estudia. Cabe, no obstante, destacar Ja conse- cuencia innegable de que las pruebas experimentales de la 2ficacia relativa de dos procedimientos terapéuticos son mu- cho més féciles de evaluar que la eficacia absoluta de cual- quiera de ellos. La tinica solucién utilizada en Ja prdctica es crear grupos experimentales y de control entre quienes desean 37 ‘Material compllado confines académicos, se prohibe su reproduccién total o parcial sina autorizaciin de cada autor. tratamiento correctivo, manipulando los perfodos de espera [p. ¢j., Rogers y Dymond, 1954]. Esto, por supuesto, suscita a veces otras dificultades, como el excesivo abandono por parte del grupo de control con terapia pospuesta. Una aplicacién feliz y al perce no reactiva de un mecanismo de Joterfa para decidir sobre la aplicaciOn inmediata o diferda, durante un semestre, rie un curso correctivo de lectura puede verse en Reed [1956]. Factores que atentan contra la validezx externa Los factores de invalidez externa descritos hasta ahora han sido los que directamente influfan sobre los puntajes O, y que Ror si solos podian n product cambios susceptibles de confun- Sine oon los result de X, es decir, factores que, una vez agregado el grupo de control, producirfan efectos evidentes en este y_ que se sumarfan a Tos de X en el grupo exper mental. En el lenguaje propio del anilisis de variancias ~—historia, maduracién, realizacién de pruebas, etc— se los consideré efectos pi ales, y como tales se Jos ha con- trolado en el disefio 4, "dnote validez interna. Las amenazas a la validez externa, por otra patte, pueden considerarse efec- tos de interaccién entre X y alguna otra variable. Constituyen, ues, una posible especificidad de los efectos de X respecto de conjunto de condiciones inconvenientemente limita- das. anticipo diremos que, hasta donde nosotros sabe- mos, en el disefio 4 los efectos observados de X pueden ser especificos de grupos cuyo interés fue intensificado por el pretest. Como es natural, no podemos extender nuestras con- clusiones al conjunto mayor no sometido a pretest, acerca del cual deseariamos extraer conclusiones. En este capftulo examinaremos unas cuantas de esas amenazas a la posibilidad de generalizacién, asf como los procedimientos para sortearlas. Es decir que se prefieren estos disefios por ra- zones de validez externa o posibilidad de generalizacién, dado que hay disefios validos que evitan el pretest y en muchas situaciones Ceanitpe no necesariamente en la investigacién cacional) se d een generalizar precisamente con respecto a los grupos no sometidos a pretest. En el campo de la docencia Eonstituyen juicios acerca de la validez externa las dudas que con frecuencia se expresan sobre Ia aplicabilidad préctica de los resultados de ciertos experimentos muy artificiales, La in- troduccién de tales consideraciones en el anilisis de los me- 38 ‘Material compitado confines académicos, se prohibe su reproduccion total o parcial sina autorizaciin de cada autor. jores disefios experimentales resulta asf atractiva a quien tiene que aplicarlos, pues piensa con toda raz6n que se las ha sos- Ido sin motivo ea el tex ito formal cout poli meto- ol experimental. E] andlisis siguiente ratificard tales apre- ciaciones sefialando multitud de medios que, sin perder validez interna, pueden dar mayor validez externa a los experimentos bases’ mis firmes de generalizacién a la préctica docente. ero antes de entrar en ese tema nos es inevitable hacer una advertencia que introduce en Ja ciencia de Ja induccién unos cuantos problemas espinosos, a causa de la persistente resis- tencia a aceptar lo que con toda verdad dice Hume, a saber: que Ja induccién o generalizacién nunca tiene una plena justi- ficacién ldgica. Al paso que los problemas de validez interna son susceptibles de solucién dentro de los limites de la Iégica de la estadfstica probabilistica, los de validez externa no pue- den resolverse en estricto rigor Iégico en una forma nitiga y concluyente. Generalizar significa siempre mezclar la extrapo- Jacién en un cambio no representado en nuestra muestra. Di- cha extrapolacién se hace suponiendo que se conocen las leyes respectivas. Asf, si tenemos un disefio 4 internamente vélido, el efecto queda demostrado solo a propésito de las condicio- nes especificas que el grupo experimental y el de control tie- nen en comin, es decir, solo en relacidn con grupos sometidos ptetest, pero de determinada edad, inteligencia, situacién socioeconémica, regién geografica, momento histérico, conjun- cidn estelar, orientaci6n del campo magnético, presién baro- métrica, nivel de radiaciones gamma, etcétera. Desde el punto de vista /égico no podemos generalizar més all4 de dichos Kmites; es decir que no podemos generalizar en modo alguno. Pero tratamos de hacerlo conjeturando leyes y verificando algunas de dichas generalizaciones en otras con- diciones no menos especfficas pero diferentes. A lo largo de Ja historia de cada una de las ciencias, se aprende a «justificar> Jas generalizaciones propias de ella a causa de la acumulacién misma de la experiencia en hacerlo, pero no es esa una gene- ralizacién Iégica, deducible de los resultados del experimento otiginal. En esa situacién hacemos, al genetalizar, suposiciones sobre leyes atin no demostradas, incluyendo algunas que ni si- quiera se indagaron. Asf, en la investigacién educacional, su- ponemos por lo comin que Ja orientacién del campo magné- tico no la afecta, Pero sabemos de ciertos estudios que con frecuencia el pretest ha tenido'un efecto, y por lo tanto quisié- ramos eliminarlo como obstéculo para nuestra generalizacién, Si hiciéramos una investigacién sobre barras de hierro, sabria- 39 ‘Material compllado confines académicos, se prohibe su reproduccién total o parcial sina autorizaciin de cada autor. mos por Ja experiencia que una primera pesada nunca produ- ce efectos reactivos, pero que la orientacién del campo magné- tico, si no se la pid de manera sistemética, podria limitar gtavemente la posibilidad de generalizar nuestros descubri- mientos. Los motivos, pues, de invalidacién externa son pte- sunciones de leyes generales en Ja ciencia de una ciencia: con- jeturas acerca de los factores que pueden interactuar con nues- tras variables de tratamiento segiin cietta ley, y, por lo tanto, acerca de los que pueden dejarse de lado. Ademés de los elementos especificos existe una ley general empitica que nosotros, asi como el resto de los hombres de ciencia, aceptamos como supuesto: es la versién moderna de la hipétesis de Mill acerca ‘de la «legalidad» de Ia naturaleza. Esa versién, menos tajante y drastica, puede enunciarse co- mo el supuesto del «aglutinamiento» (stickiness) de la natu- raleza: cuanto més cercanos se hallan dos acontecimientos en tiempo, espacio y valor —medido este en cualquiera de sus dimensiones o en todas ellas—, més tienden a ajustarse a las mismas leyes. Si bien las interacciones complejas y las relacio- nes curvilineas habrén de confundir presumiblemente los in- tentos de generalizacién, tal posibilidad aumenta en relaci6n directa con el grado en que la situacién experimental difiere de Ja situacién con respecto a la cual se desea genetalizar. Nuestra necesidad de una mayor validez externa ser4, pues, el requerimiento de la méxima similitud entre experimentos y condiciones de aplicacién que sea compatible con Ia validez interna. Téngase en cuenta, en este sentido, que las ciencias més «présperas», como Ja ffsica y la quimica, han avanzado sin prestar la menor atencién a la representatividad (aunque sf, y mucha, a la reiterabilidad por parte de investigadores inde- pendientes). Un laboratorio artificial dentto de una torre de marfil quizd sea maravilla, pero no serd representativo, y a menudo Ja artificialidad puede resultar imprescindible si se quiees separar analiticamente variables fundamentales para los lescubrimientos de muchas ciencias. Pero, sin duda, si no in- terfiere con Ia validez interna o el andlisis, la validez externa es una consideracién de la mayor importancia, sobre todo para una ciencia aplicada como es la pedagogfa. Interaccién de las pruebas y X. En estudios del disefio experi- mental en sf, el peligro que constituye el pretest para la vali- dez externa fue denunciado por primera vez por Solomon [1949], aunque idénticas consideraciones habfan Ilevado an- 40 ‘Material compliado confines académicos, se prohibe su reproduccién total o parcial sina autrizaciin de cada autor. tes a algunos experimentadores a la aplicacién del disefio 6, que omite el pretest. En especial durante los estudios de cam- bios de actitud, en que los mismos tests introducen grandes cantidades de contenido extraordinario (p. ej., una tan abun- dante dosis de declaraciones hostiles como las que se hallan en el test tipico de prejuicios), es bastante probable que las actitudes de la persona y su propensién a dejarse persuadir varfen por influjo del pretest. Como psicélogos, dudamos se- riamente de la comparabilidad del publico que asiste a una ptoyecci6n de Gentlemen's Agreement (un film antiprejuicial ) inmediatamente después de habérsele administrado un test de 100 {tems sobre antisemitismo, con otro piblico que vea la misma pelicula sin que se lo haya sometido precisamente a dicho test. Estas eden se extienden no solo al efecto princi- pal del pretest, sino también a su efecto sobre la respuesta a Ia persuasién, Supongamos que esa pelicula en particular fue tan bien realizada que algunas personas Ilegaron a disfrutarla por su interés roméntico, sin darse cuenta siquiera del proble- ma social que planteaba. Tales personas no existirfan proba- blemente en un grupo al que se hubiere administrado un pre- test, Si el pretest sensibilizé al pablico sobre el problema, podrfa, por medio de una concentracién de la atencidn, inten- sificar en sf el efecto educativo de X. Serfa concebible que esa X solo resultase eficaz para un grupo al que se hubiese administrado un pretest. Aunque es frecuente mencionar un efecto sensibilizador de esta indole en comentarios anecdéticos sobre el tema, los pocos resultados publicados de investigaciones indican tanto la ausen- cia de efectos [p. ej., Anderson, 1959; Duncan y otros, 1957; Glock, 1958; Lana, 19594, 1959); Lana y King, 1960; Piers, 1955; Sobol, 1959; Zeisel, 1947] como un efecto de interac- cién que equivale a un amortiguador. Asf, Solomon [1949] descubrié que administrando un pretest se reducfa la eficacia del entrenamiento ortogréfico experimental, y Hovland, Lums- daine y Sheffield [1949] sugirieron que un pretest restringfa los efectos persuasivos de las peliculas cinematogréficas. Bien vale la pena evitar este efecto de interaccién aunque no sea tan expuesto a error como Ja sensibilizaci6n (ya que los falsos positivos son un problema mayor en nuestra literatura que Jos falsos negativos, a causa de la gran cantidad de descubrimien- tos publicados [Campbell, 1959, pags. 168-70]). Al restringir la validez externa, el efecto del pretest sobre X depende, naturalmente, del grado en que tales mediciones repetidas son caracterfsticas del conjunto respecto del cual se 41 ‘Material compilado confines académicos, se prohibe su reproduccion total o parcial sina autrizaciin de cada autor quiere generalizar. En el 4mbito de las comunicaciones masi- vas, la entrevista del investigador y los procedimientos del test de actitud son bastante atfpicos. Pero en la investigacién pe- dagégica nos interesa generalizar respecto de una situacién en que fa administracién de tests es una prdctica regular. Sobre todo si el experimento puede utilizar como O exémenes co- rrientes tomados en las aulas, pero quiz4 también si las O experimentales son similares a las de utilizacién habitual, no se produciria ninguna intetaccién indeseable entre la admsinis- tracion de los tests y X. Cuando se emplea un test con proce- dimientos muy poco usuales, o cuando el test implica engafio, reestructutacién conceptual o cognitiva, sorpresa, tensién, etc., los disefios con grupos no sometidos a pretest contindan sien- do muy convenientes, aunque no imprescindibles. Interaccién entre la seleccién y X. Aun cuando el disefio 4 controla los efectos de seleccién a fin de explicar las diferen- cias entre el grupo experimental y el de control, continéa en pie Ia posibilidad de que los efectos vélidamente demostrados solo se verifiquen en aquella poblacién aislada de Ja cual se extrajeron a la vez ambos grupos. Esta posibilidad es tanto mayor cuanto més graves son nuestras dificultades de’ conse- gui sujeton para el expetimento, Consideremos las posibles consecuencias de un experimento de ensefianza en el cual el investigador se ha visto rechazado por nueve sistemas escolares y aceptado por el décimo. Es casi seguro que ese iiltimo dife- fa, en més de un aspecto, de los nueve anteriores, asi como del conjunto de escuelas para el que quisiéramos generalizar. Por lo tanto, no es representativo. Podrfa asegurarse que, en cuanto a la escuela media, su personal tiene més espiritu, me- nos temor a las inspecciones y m4s deseo de mejorar. Y aun- ue los efectos que descubriéramos fuesen internamente vdli- los, podrian ser espectficos de tales escuelas. A fin de poder formular un juicio lo mds exacto posible sobre Ja materia, con- vendr4 que los informes de investigacién proporcionen da- tos sobre cudntas y cémo eran las escuelas y los cursos de los que se solicit6 cooperacién y la negaron, a fin de que el lector pueda estimar la gravedad de posibles sesgos selectivos. En general, cuanto mayor es la cooperacién prestada, mayor el grado en que se afecte la rutina y més elevada nuestra tasa de negativas, mayor seré también la ‘tunidad de que exista un efecto de especificidad de seleccién. Aclaremos més puntualmente qué es lo que en realidad sig- nifica la «interaccién entre seleccién y X». Si estuviésemos 42 ‘Material compitado confines académicos, se prohibe su reproduccion total o parcial sin a autrizaciin de cada autor. por realizar un estudio dentro de una tnica escuela volunta- tia, empleando la asignacién aleatoria de sujetos a grupos ex- perimentales y de control, no nos preocuparfa el «efecto prin- cipal» de Ja escuela en sf. Si este factor elevara por igual la media del grupo experimental y la del de control, no se causaria dafio alguno. Pero si existiesen en Ja escuela caracteristicas que hicieran més eficaz al tratamiento experimental en ella e en la k polarity de escuelas que constituyen el verdadero jetivo de Ja prueba, Jas consecuencias podrian ser graves. jos estar seguros de que puede menospreciarse la in- tetaccién entre las caracterfsticas de la escuela (probablemente relacionadas con el hecho de que es voluntatia) y Jos trata- mientos experimentales aplicados. Algunas variables experi- mentales podrfan ser bastante sensibles a las caracteristicas de Ja escuela, lo cual quiere decir que interactuarfan con ellas; otras, no. La interaccién podria datse en escuelas con Cl medios similares, o no presentarse all{ donde las diferencias de CI fuesen elevadas. Serfa de esperar, sin embargo, una mayor probabilidad de interacci6n si las escuelas difiriesen mucho en distintas caracterfsticas que si fuesen andlogas. A menudo se producen importantes sesgos de muestreo a cau- sa de Ja inercia de los experimentadores, que no a una seleccién més representativa de escuclas la oportunidad de negarse a participar. De ahi que la mayoria de las investi- gaciones sobre educacién se hagan en los establecimientos que cuentan con mayor porcentaje de alumnos hijos de profesores universitarios. Aunque es imposible la representatividad per- fecta en el muestreo, y aun se Ja descuida casi en absoluto en muchas ciencias (por ejemplo, en la oria de los estudios publicados en el Journal of Experimental Psychology), puede F idebe asgicarve ella como ctr, Gesidlcrftimentlat eesti: gacién educacional. Una forma de aumentarla es reducir el ndmero de alumnos o aulas participantes que pettenezcan a un colegio o nivel dado y aumentar Ja cantidad de escuelas y niveles en que se leve a cabo el experimento. Es obvio que nunca vamos a realizar experimentos sobre muestras que re- eseniea a todas las niles de Facade pinidos, aide mundo. ;olo poco a poco aprenderemos hasta dénde se puede genera- lizar un descubrimiento internamente valido, por medio de comprobaciones empfricas en ese sentido. Pero tales intentos de generalizacién tendrén éxito més a menudo si en el expe- rimento original se demuestra el fenémeno en una amplia va- tiedad de condiciones. En cuanto a los signos positivos y negativos que aparecen en 43 ‘Material compliado confines académicos, se prohibe su reproduccion total o parcial sina autorizacin de cada autor el cuadro 1, resulta evidente que nada seguto puede consignar- se en esa columna. Se la presenta, no obstante, porque los re- quisitos de algunos disefios exageran o atendan la. gravedad le este problema. El disefio 4, dentro del 4mbito de las acti- tudes sociales, es tan exigente en lo que a cooperacién por parte de los participantes se refiere, que en definitiva la inves- tigacién solo se hace con un piblico cautivo en vez de reaii- zarla con ciudadanos comunes, que son a quienes quisiéramos referirnos. En una situacién de esa indole, el disefio 4 mere- cerfa un signo negativo en cuanto a seleccién. No obstante, en la investigaci6n pedagégica nuestro universo de interés est4 constituido por un ptblico cautivo para el cual se pueden obte- ner disefios 4 de elevada representatividad. Otras interacciones con X. De manera patecida, las interaccio- nes de X con los dems factores pueden examinarse como amenazas a la validez externa. La mortalidad diferencial seria un producto de X y no una interaccién con ella. La interaccién de ke tystrumentactOn con X se ha incluido jmplicitamente en el andlisis de validez énterma, ya que un efecto i instrumentacién ante la presencia de X falsearia el verdadero efecto de X (p. ej., cuando los observadores asignan puntajes, conocen las hipétesis y saben cudles son los estudiantes que recibieron X), Una amenaza a Ja validez externa es la posi- bilidad de que los efectos sean especificos de los instrumentos particulares (tests, observadores, medidores, etc.) empleados en el estudio. Si en todos Jos tratamientos se utilizan vadores o entrevistadores multiples, tales interacciones pue- den estudiarse directamente [Stanley, 19612]. La regresién no interacciona con X. La maduracién tiene consecuencias de especificidad de selec- cién: los resultados pueden ser especfficos de un determi- nado grupo etario, del cansancio, etc. La interaccién de Ja historia y X implicaria que el efecto habia sido especifico de las condiciones histéricas del experimento, y aunque su ob- servacién es vdlida, no se Io hallarfa en otras, El hecho de que el experimento sc Ilevase a cabo en el trascurso de una guerra, o a continuacién de haber fracasado una huelga de maestros, etc., podria producir una reaccién frente a X que no aparecerfa en otras circunstancias. Si tu- viésemos que preparar un modelo de muestreo para este pto- blema, nos gustaria que el experimento se repitiese en una muestra aleatoria de ocasiones pretéritas y futuras, lo cual, como es obvio, resulta ‘mposible, Ademds, compartimos con 44 ‘Material compilado confines académicos, se prohibe su reproduccién total o parcial sina autrizaciin de cada autor otras ciencias el supuesto empirico de que no existen leyes a dependan en verdad del tiempo, que los efectos de la storia, cuando los haya, se deberén a combinaciones espe- cificas de condiciones de estimulo que se dieron en aquel mo- mento, y que llegardn a incorporarse en definitiva a leyes ge- nerales independientes del tiempo [Neyman, 1960]. (Tal vez parezca que las cosmologfas de un «universo en expansién» requieren una restriccién de esta afirmacién, pero no en for- mas pertinentes a lo que ahora estudiamos.) Sin embargo, feliz reiteracién de los resultados de Ja investigacién en distin- tos tiempos y situaciones aumenta nuestra confianza en el valor dela generalizacién, al disminuir la probabilidad de la interac cién con la historia, Estos distintos factores no se han incluido como otros tantos encabezamientos de columnas en el cuadro 1, porque no ofre- cen bases firmes de discriminacién entre diferentes Dispositivos reactivos. En el experimento psicolégico comin, si no en la investigacién educativa, la obvia artificialided de la situacién experimental y la conciencia del estudiante de que est4 participando en un experimento son causas més que suficientes de carencia de representatividad. Para sujetos hu- manos, se proyecta una tarea de resolucién de problemas de orden més elevado, en Ia cual se reacciona contra los procedi- mientos z el tratamiento experimental no solo en raz6n de sus simples valores de estimulo, sino también por su funcién de claves para interpretar Ia intencién del experimentador. EI representar cargos, el adivinar la intencién, el prepararse para la inspeccién, el sentir cada cual que «soy un congjillo de Indias», o muchas otras actitudes: asf generadas, no son en modo alguno representativas de la verdadera situacién escolar; parecen calificar mds bien el efecto de X, dificul- tando gravemente la generalizacién. Cuando es imposible evi- tar tales dispositivos reactivos, habria que continuar de cual- quier maneta con los experimentos de esa {ndole que tengan validez interna, peto resulta obvia la conveniencia de evitar- los cuando ello sea posible. Al hacer esta afirmacién adheri- mos en parte a Ja conocida critica antiexperimental que es frecuente en los consejos de educacién y entre los docentes, contra la «futilidad» de «toda esa experimentacién». Nuestra m4s moderada conclusién no es, sin embargo, que habria que abandonar la investigacién por ese motivo, sino més bien que, a causa de él, habrfa que mejorarla. A este respecto tene- Mos unas cuantas sugerencias que ofrecer. 45 ‘Material compllado confines académicos, se prohibe su reproduccién total o parcial sin a autrizaciin de cada autor. Cualquier aspecto del procedimiento experimental puede pro- ducir ese resultado de dispositivos reactivos. La administracién de pretests, prescindiendo de su contenido, puede hacerlo, y parte de la interaccién del pretest con X puede ser de ese tipo, aunque hay poderosas tazones para sospechar de los as- pectos mismos de contenido de la aplicacién del test. El sis- tema de aleatorizacién y asignacién a tratamientos quizd sea de esa indole. Consideremos el efecto que se produce sobre una clase cuando (como en Solomon [1949] se hace pasar a una habitacién separada a la mitad de los alumnos, elegi- dos al azar. Ese acto, mds la presencia de «maestros» extra- fios, tiene que ctear por fuerza expectaciones de hechos desusados, susciténdose as{ el asombro y una activa curiosi- dad en cuanto a su objeto y finalidad. La presentacién del tratamiento X, si fuese un acontecimiento inusitado, podria tener un efecto similar. Es de presumir que aun el postest, en un disefio 6 de postest solamente, podria crear esas mismas actitudes. Cuanto més‘evidente sea la conexién entre el tra- tamiento experimental y el contenido postest, mas probable serA ese efecto. En el campo de los cambios de opinién piblica, esos disposi- tivos reactivos suelen ser dificiles de evitar. Pero en Ia mayor parte de la investigacién de métodos educativos no hay nece- sidad de que los estudiantes sepan que se estd realizando un experimento. (Seria muy conveniente que también los maes- tras lo ignorasen, a la manera del doble ciego en medicina, pero por lo comin esto suele ser imposible.) Varios recursos permiten disimularlo. Si las X son variables sobre aconteci- mientos usuales en el aula, pero que se producen a intervalos bastante largos dentro del calendario escolar, un tercio de la batalla se habr4 ganado si los tratamientos mencionados se aplican sin previo anuncio. En forma similar, si se incl las O en exdmenes regulares, se llena el segundo requisito. Si las X son comunicaciones centradas en determinados estu- diantes, puede lograrse Ja aleatorizacién sin necesidad de tras- portar fisicamente muestras aleatorias equivalentes a aules distintas, etcétera. A la luz de estas consideraciones, asi como de observaciones personales de los experimentadores que han publicado datos pese a.tener un rapport tan pobre que sus hallazgos eran bas- tante engafiosos, los autores del presente volumen van lle- ando poco a poco a la conclusién de que la experimentaci6n dentro\de las escuclas debe realizase, siempre que sea pos! ble, con el personal regular de ella, en especial cuando los 46 ‘Material compliado confines académicos, se prohibe su reproduccion total o parcial sin a autrizaciin de cada autor. descubrimientos hayan de generalizatse a otras situaciones escolares, En estos momentos, parecen estar en boga dos tipos principa- les de «experimentacién» dentro de las escuelas: 1) estudios «impuestos» a la escuela por alguien de fuera, que persigue sus propios intereses y cuyo objetivo no es que la escuela em- prenda una accidn inmediata (o cambio), y 2) el llamado investigador «de accidn», que procura que sean los maestros mismos quienes «experimenten», tomado este término en sen- tido muy amplio. En el primer caso Jos resultados pueden ser tigurosos pero no aplicables. En el segundo, en cambio, quizé sean muy aplicables pero probablemente no son «cier- tos», a causa de una gran falta de rigor en la investigacién. Otro modelo posible es que las ideas para Ja investigacién es- colar partan de los maestros y directores, se elaboren los disefios para someterlas a prueba en cooperacién con espe- cialistas en metodologia de investigacién y luego se encar- guen de la mayor parte de la timentacién los promo- tores de la idea. Los andlisis estadisticos respectivos realizarlos el investigador metodologista, y los resultados los volverfa a introducir al grupo un intermediatio idéneo (su- pervisor, director de investigaciones del consejo escolar, etc.) que hubiera servido en tal cardcter durante todo el proceso. De esa manera se lograrian resultados pertinentes y «correc- tos». La forma de realizar investigacién bésice con un siste- ma de esta indole es un problema en pean parte sin resolver atin, pero los estudios podrian ser vez menos ad hoc y orientarse mds hacia los aspectos tedricos, bajo la supervisién de un intermediario competente. Aunque no tenemos en esta obra la intencién de destacar los buenos o malos ejemplos observables en Ia literatura es- pecializada, un reciente estudio de Page [1958] indica una utilizacién tan buena de estos aspectos (evitando dispositivos reactivos, logrando representatividad de muestreo y evitando las interacciones entre las pruebas y X), que vamos a citarlos aquf como ilustracién concreta de la préctica 6ptima. Su estudio indica que breves comentarios esctitos agregados a ex4menes objetivos que se devuelven a los alumnos hacen mejorar el ren- dimiento en pruebas objetivas posteriores, A esta conclusién se Ilegé actuando con 74 maestros, 12 consejos escolares, 6 nive- les 0 grados (7-12), 5 niveles de rendimiento (A, B, C, D, F) y gran variedad de sujetos; no hubo casi prueba alguna de efectos de interaccién. Los alumnos y las clases se eligieron al azar. Se empleé como 41 ‘Material compilado confines académicos, se prohibe su reproduccion total o parcial sina autorizaciin de cada autor. pretest el primer examen objetivo regular en cada clase. Arro- jando un dado especial, el maestro asignaba alumnos a grupos de tratamiento y, segiin los casos, agregaba o no comentarios esctitos a la prueba. La siguiente prueba objetiva, tomada de acuerdo con la programacién normal, pasé a ser el postest. Hasta donde pudo determinarse, ninguno de los 2.139 alum- nos se enterd de la experimentacién. Pocos son los procedi- mientos de instrucciones que se prestan a esta tan disimulada aleatorizacién, ya que pot lo comtin la comunicacién oral ne- cesatia se dirige a toda la clase y no a algunos individuos. (Las comunicaciones escritas permiten la aleatorizacién, aunque la captacién, por parte del estudiante, de los distintos trata- mientos constituye un problema.) Teniendo en cuenta estos ideales los investigadores pueden lograr que los experimentos tengan menos caracterfsticas teactivas que en la actualidad. Por medio de exdmenes tegulares tomados en el aula, o tests presentados como exémenes regulares y andlogos en su con- tenido, a la vez que mediante procedimientos alternativos de ensefianza presentados, sin previo aviso ni peticién de disculpas, en el curso de las actividades escolares, es probable que en la mayorfa de Jos casos puedan evitarse estas dos cau- sas de dispositivos reactivos. A veces, en grandes escuelas se- cundarias o en universidades donde los alumnos se inscriben en cursos populares dictados en determinados horarios y des- pués se los asigna en forma arbitraria a miltiples divisiones simulténeas, podrian lograrse secciones de equivalencia alea- totia mediante el control del proceso de asignacién (véase en Siegel y Siegel [1957] la aplicacién de un proceso aleatotio natural que se aproveché en esta forma). Sin embargo, por la accién de historias intragrupales unicas, tales secciones, al principio equivalentes, se tornan con el correr del tiempo en segmentos cada vez més diferenciados. La solucién a este problema, aplicable en general, es trasla- dar la aleatorizacién al aula tomada como unidad y construir grupos experimentales y de control, constituido cada uno de ellos por muchas aulas asignadas al azar [véase Lindquist, 1940, 19531. Por lo comin, aunque no es imprescindible, los cursos se clasificarfan para su andlisis sobre la base de facto- res como escuela, maestro o (cuando este tenga varias clases), hora, asignatura, nivel intelectual medio, etc.; de ellos se asig- narfan por un proceso aleatorio varios grupos de tratamiento experimental. Ya se han realizado algunos estudios de esta indole, pete creemos que pronto se generalizardn. Nétese que el test de significacién apropiado no consiste en mezclar todos 48 ‘Material compltado confines académicos, se prohibe su reproduccion total o parcial sina autorizaciin de cada autor. Jos estudiantes como si se los hubiese asignado al azar. Los detalles se estudiardn en el capitulo siguiente. Tests de significacién para el disefio 4 Hay que distinguir el disefio experimental del uso de tests estadisticos de significacién. El primero es el arte de lograr comparaciones interpretables y, como tal, seria necesario aun- ane el producto final consistiera en porcentajes graficados, fotografias de Brupos en accién, etc. En todos estos casos, la interpretabilidad de los «resultados» depende del control so- bre los factores a que hemos hecho referencia. Si la compara- cién es interpretable, se requieren tests estadisticos de signi- ficacién para decidir si las diferencias obtenidas exceden o no las fluctuaciones previsibles cuando no existan verdaderas di- ferencias para muestras de ese tamafio. El uso de tests de sig- nificacién presume que es factible establecer comparaciones en- tre los grupos, y que la diferencia descubierta es interpretable, pero no da pruebas de ello. De ahi que nos gustaria exponer el disefio experimental sobre la base del sentido comin y de con- sideraciones no mateméaticas. Esperamos que Ja mayor parte de esta obra resulte accesible a los estudiantes de ciencias de Ia educacién que carezcan todavia de preparacién estadistica. No obstante, hay que recohocer que la cuestién de los proce- dimientos estadisticos est4 {ntimamente vinculada al disesio experimental, razén por Ja cual ofrecemos estos comentarios patticulares sobre el tema, [Véase, asimismo, Green y Tukey, 1960; Kaiser, 1960; Nunnally, 1960, y Rozeboom, 1960.] Una estadistica errénea de uso comin. Aunque el disefio 4 es el comiin y frecuente, Jos tests de significacién que con él se utilizan son a menudo erréneos, incompletos o inapropiados. Al aplicar la «razén critica» comin o prueba ¢ a ese disefio experimental esténdar, muchos investigadores han computado dos #: una para la diferencia pretest-postest en el grupo ex- perimental y otra = la ganancia pretest-postest en el gru- Pe, de control. Si la primera resulta «estadisticamente signi- icativan y la otta and», Iegan a la conclusién de que X tuvo un efecto, sin ninguna comparacién estad{stica directa entre el grupo experimental y el de control. A menudo las condi- ciones fueron tales que, de haberse aplicado una prueba més aptopiada, la diferencia no habria sido significativa (como cuando los valores de significacién son casos Imites y el gru- 49 ‘Material compliado confines académicos, se prohibe su reproduccion total o parcial sina autrizacin de cada autor. po de control indica una ganancia que casi alcanza el nivel de significaci6n). Windle [1954] y Cantor [1956] han de- mostrado la frecuencia de este error. Utilizacién de puntajes de ganancia y covariancia, La prueba aceptable de uso més comtin consiste en computar para cada grupo puntajes de ganancia pretest-postest y calcular una ¢ entre los grupos experimentales y de control sobre la base de esos puntajes. El «bloqueo» o «nivelacién» aleatoria de pun- tajes pretest y el andlisis de covariancia utilizando como co- variable los puntajes de pretest son, por lo comin, preferibles a las simples compataciones de puntajes de ganancia, Puesto que la mayor parte de Jos experimentos en *i6n no acu- san diferencias significativas, y por lo tanto no suelen infor- marse, el uso de este andlisis mds preciso parece ser muy con- veniente. Considerando la labor que implica conducir un ex- perimento, el trabajo de realizar el andlisis cortecto es relati- vamente trivial. Para més detalles, pueden consultarse trata- micntos esténdar de andlisis de] tipo Fisher [véanse también Cox, 1957, 1958; Feldt, 1958, y Lindquist, 1953]. Aspectos estadisticos de la asignacién aleatoria a tratamientos de cursos intactos, La estadistica habitual solo resulta apro- ee en casos de asignacidn aleatoria de alumnos individua- les a los tratamientos. Si, en cambio, se asignaran cursos intac- tos, las férmulas precedentes darfan un término de error de- masiado pequefio, pues, como es rfatural, el procedimiento de aleatorizaci6n habr4 sido més «global» y se habrdn utilizado menos acontecimientos aleatorios. Lindquist [1953, pdgs. 172-89] ha suministrado el fundamento [égico y las férmu- Jas para Ja realizacién de un correcto andlisis. En esencia, se emplean Jas medias de la clase como observaciones bésicas, y se prueban los efectos del tratamiento contra variaciones en esas medias. Un andlisis de covariancia utilizaria como cova- riable medias pretest. Aspectos estadisticos de la validez interna. Las observaciones precedentes se hicieron 2 fin de dar a conocer Ia ortodoxia estadistica relativa al disefio experimental. Las siguientes re- Ppresentan un esfuerzo por ampliar o corregir esa ortodoxia, extendiendo al terreno de la estadistica del muestreo una in- ferencia de Ja distincién entre validez externa y validez inter- na, Los principios estad{sticos antes analizados implican en su totalidad el muestreo en un universo infinitamente gran- de, més apropiado para una encuesta de opinién piblica que 50 ‘Material compltado confines académicos, se prohibe su reproduccion total o parcial sina autrizacin de cada autor. para el experimento habitual de laboratorio. En casos muy raros, como el estudio de Page [1958], hay un muestreo real tomado de un gran universo predesignado, que se apropia las férmulas habituales. En el extremo opuesto se encuentra el experimento de laboratorio presentado en el Journal of Ex- perimental Psychology, por ejemplo, en el que Ja validez in- terna ha sido la nica consideracién y todos los integrantes de un pequefio universo tinico se asignaton a los grupos de tratamiento. En este tipo de prueba se pone gran énfasis en el procedimiento aleatotio, pero no a fin de asegurarse la re- presentatividad respecto de otra poblacién mayor, sino al ex- clusivo efecto de igualar los grupos experimentales y de control 0 los distintos grupos de tratamiento. La aleatorizacién se apli- ca, pues, a una poblacién finita muy reducida, que es en rea- lidad la suma de los grupos experimentales y de control, Esta posicién extrema sobre el universo de muestreo se jus- tifica cuando se describen procedimientos de laboratorio de esta indole: se solicitan voluntarios, prometiéndoles o no una gratificacién en dinero, puntajes de personalidad, punta- jes para la aprobacién de cursos, o cumplimiento de un re- quisito obligatorio que de todos modos tendrén que satisfacer en algdn momento del curso académico. A medida que legan, se los va asignando al azar a Jos distintos tratamientos. Cuan- se ha alcanzado determinado nimero de sujetos, se inte- rrumpe el experimento. Ni siquiera ha habido una seleccién aleatoria entre Jos integrantes de una lista mucho mayor de voluntarios. Los primeros constituyen una muestra sesgada y el universo total «muestreado» cambia de un dia a otto a medida que el experimento contimfia, que se requiere més presién pata reclutar voluntarios, etc. En un momento dado se detiene el procedimiento, después de haberse utilizado a todos los miembros designables del universo en uno u otro de los grupos de tratamiento. Nétese que los sesgos implica- dos de muestreo no amenazan en lo mds m{inimo la equiva- lencia aleatoria de los grupos de tratamiento, sino solo su arepresentatividad». Consideremos ahora a un cientifico mds meticuloso, que de una clase integrada por 250 personas extrae 100 al azar, se pone en contacto con ellas por carta o por teléfono y, después de entrevistarlos, los asigna, también al azar, a grupos de tra- tamiento. Por supuesto, unos 20 de ellos no pueden ajustarse al horario de laboratorio, estén enfermos, etc., por lo cual se ha producido una redefinicién implicita del universo. Y aunque gracias a su perseverancia consiga los 100, lo que ha- 51 ‘Material compllado confines académicos, se prohibe su reproduccion total o parcial sina autorizacin de cada autor. bré ganado, desde el punto de vista de la representatividad, ser4 la posibilidad de generalizar con seguridad estadistica a propésito del curso del afio 1961 de Psicologla Educacional A en la Escuela Normal del Estado. Este nuevo universo, aunque mayor, carece de positivo interés cientifico. Sus limi- tes no son los estatuidos por ninguna teorfa cientffica. Los aspectos de verdadero interés para la generalizacién deberén explorarse por medio del muestreo de experimentos rea- lizados en otros lugares. Por supuesto, al ser menos seleccio- nados sus alumnos, se tiene una mayor validez externa, pero no ganancia suficiente para que la mayorfa de los psicdlogos experimentales consideren que se compensa con ello el es- fuerzo realizado. Resulta, en general, obvio que el fin principal que se persi- ¢ con Ja aleatorizacién en experimentos de laboratoric fvaisies interna, no la externa. Por tanto, habria que utili- zar mérgenes de error més reducidos y apropiados, basados en _pequefios_universos finitos. Sigui ‘a Kempthorne [1955] y Wilk y Kempthorne [1956], creemos que el mo- delo correcto es Ja aleatorizacién en urnas en vez de la extrac- cién de muestras de un universo. De ese modo se dispone de un test no paramétrico mds apropiado y preciso, en el cual se toman los puntajes olientton en los grupos experimenta- les y de control y se los asigna una y otra vez a dos «urnas», generando empitita o mateméticamente una distribucién de diferencias medias que resultan en su totalidad de asignacio- nes aleatorias de esos puntajes particulares. Tal distribucién constituye el critetio con que deberfa compararse la diferen- cia media obtenida. Cuando exista una «interaccién posicién- tratamiento» (heterogeneidad de efectos reales entre los sujetos), esa distribucién tendré una variabilidad menor que la correspondiente distribucién adoptada en la comtin, Con estos comentarios no pretendemos moditicar mucho la actual prdctica en la administracién de tests de significacién en la investigacién pedagégica. Las soluciones exactas son diffciles de conseguir y, por Jo comin, muy laboriosas, La alea- torizacién por urnas, por ejemplo, suele exigir Ja utilizacién de computadoras de gran velocidad. La direccién del error es conocida: el empleo de la estadistica tradicional es demasiado conservador, con una excesiva tendencia a decir «no se regis- tran efectos». Si juzgamos que nuesttas publicaciones estén saturadas de «falsos positivos», es decir, de informacién so- bre efectos que no resiste la prueba de una validacién cru- zada (como acaece, por cierto, con Ja psicologia experimental 52 ‘Material compliado confines académicos, se prohibe su reproduccién total o parcial sin a autrizaciin de cada autor. y social, aunque no todavia con la investigacién pedagdgica), ese error —si lo es— serd siempre preferible. La posibilidad de subestimar Ia significacién es mayor cuando solo hay dos condiciones experimentales y se emplean todos los sujetos disponibles [Wilk y Kempthorne, 1955, pag. 1154]. 5, Disefio de cuatro grupos de Solomon Aunque el disefio 4 se usa més, el 5, denominado disefio de cuatro grupos de Solomon [1949] tiene con razén un ma- yor prestigio y constituye la primera consideracién explicita de factores de validez externa. El disefio es el siguiente: RO. X O2 ROs Os R X0s R Os Trazando en forma paralela los elementos del disefio 4 (O1 a Ox) con los grupos experimental y de control sin pretest, cabe determinar tanto los efectos principales de Ja realizacién de la prueba como la interaccién entre ella y X. De ese mado, no solo se aumenta Ja posibilidad de generalizar, sino que ademés se repite el efecto de X en cuatro formas diferentes: O2 > O1, O2 > Ox, Os > Oe y Os > Os. Las inestabilidades concretas de la experimentacién son tales que, si esas compara- ciones concuerdan, el vigor de Ja inferencia queda muy incre- mentado. Otra contribucién indirecta a la posibilidad de ge- neralizar los hallazgos experimentales es también que, en vit- tud de la experiencia con el] disefio 5 en cualquier 4mbito de investigacién dado, se averigua la posibilidad general de in- teracciones de «pruebas por X», pudiéndose asf interpretar mejor los disefios 4, ‘tanto futuros como pasados. Asimismo, puede advertirse (comparando Os con O; y Os) un efecto combinado de maduracién e historia. Pruebas estadisticas para el disefio 5 No hay ningiin procedimiento estadfstico particular que utili- ce a un mismo tiempo los seis conjuntos de observaciones. Las asimetrias del disefio descartan el anélisis de la variancia 53 ‘Material compllado confines académicos, se prohibe su reproduccion total o parcial sina autorizaciin de cada autor. de puntajes. (Las sugerencias de Solomon a este respecto se consideran inaceptables.) Dejando de lado los pretests, salvo como un nuevo «tratamiento» coordinado con X, se pueden estudiar los puntajes postest mediante un simple anélisis 2 X 2 del disefio de variancia: Sin X Con X Con administracién de pretest Ox Oz Sin administracién de pretest Os Os Sobre la base de Jas medias de las columnas se estima el efecto principal de X; de las medias de las filas, el efecto principal del pretest y de las medias de los casilleros, la interaccién entre la aplicacién del test y X. Si los efectos principales e interactivos de la aplicacién de las pruebas son muy pequefios, acaso sea conveniente realizar un andlisis de covariancia de O, contra Oz, con los puntajes del pretest por covariable. 6. Disefio de grupo de control con postest unicamente E] pretest es un concepto muy arraigado en el pensamiento de los investigadores en los campos de la educacién y la psi- cologia, pero en realidad no es imprescindible para los dise fios experimentales propiamente dichos. Por razones psico- légicas, es dificil renunciar a «tener la seguridad» de que los grupos experimentales y de control eran «iguales» antes del tratamiento experimental diferencial. No obstante, la aleato- tizacién implica la mayor seguridad, aplicable a cualquier fin, de la carencia de sesgos iniciales entre grupos. Dentro de los mérgenes de confianza establecidos por Jas pruebas de signi- ficacién, la aleatorizacién puede ser suficiente, sin necesidad de recurrir al pretest. En realidad, casi todos los experimen- tos agricolas realizados en la tradicién de Fisher [1925, 1935] carecen de pretest. Més todavia, en investigacién pedagégica, sobre todo en los grados primarios, tenemos que experimen- tar a menudo con métodos que permitan la introduccién ini- cial de elementos absolutamente nuevos, para los cuales son imposibles los pretests en el sentido ordinario del término, lo mismo que estarian fuera de lugar los referidos a la presunta culpabilidad 0 inocencia en un estudio acerca de los efectos 34 ‘Material compilado confines académicos, se prohibe su reproduccion total o parcial sina autrizacin de cada autor. de la informacién presentada al jurado por el abogado defen- sor. E] disefio 6 responde a esa necesidad, y ademés es apro- piado para todas las situaciones en que podrfan utilizarse los disefios 4 0 5, es decir, aquellas en que es posible una ver- dadera aleatorizacién. Su forma es la siguiente: “R XO R Oo Si bien este disefio se, utilizaba ya en la década de 1920, la mayoria de los textos metodoldgicos no lo han recomendado. Ello se debié en parte a que se lo confundfa con el disefio 3, y también a la falta de confianza en la aleatorizacién como procedimiento de igualacién. Puede considerarse que este disefio comprende los ulti- mos dos grupos del disefio de cuatro grupos de Solomon; controla la aplicacién del test como efecto principal y Ia i teraccién, pero, a diferencia del disefio 5, no los mide. Sin embargo, esa medicién es tangencial a la cuestin bdsica de si X tuvo o no un efecto. Asi, pues, el disefio 5 es preferible al 6 por las razones apuntadas, pero las mayores ventajas del 5 quizé no justifiquen el esfuerzo que demanda (més del doble). Asimismo, el disefio 6 es por lo comin preferible al 4, a menos que haya alguna duda a propésito de la autenti- cidad del proceso aleatorio de asignacién. El disefio 6 se usa demasiado poco en investigacién educacional y psicolégica. Pero en el caso de repeticidn de pruebas, que se presenta con frecuencia en la investigacién educacional, si se dispone de antecedentes apropiados en materia de variables, se los debe- tia emplear para bloqueo o nivelacién, o como covaribles, Esta recomendacién Ia hacemos por dos motivos. Primero, porque las pruebas estadisticas en que se apoya el disefio 4 son més decisivas que las existentes para el 6. El esfuerzo que exige el disefio 4 anula esta ventaja en la mayor parte de las situaciones de investigacién, pero no ocurriria asi si se dispusiese en forma automéatica de antecedentes apropiados sobte puntajes. En segundo lugar, la disponibilidad de pun- tajes pretest permite examinar Ja interaccién de X y el nivel de habilidad en el pretest, explorando asi mds a fondo Ja posibilidad de generalizar el hallazgo. Algo similar puede ha- Eiela popSalin del’ ieclso 6,emeleandiattas)me tas’ dis ponibles en vez del pretest, pero estas consideraciones, suma- das al hecho de que para la investigacién pedagégica los tests frecuentes son caracterfsticos del universo al cual se quieren 55 ‘Material compltado confines académicos, se prohibe su reproduccién total o parcial sin a autrizacin de cada autor. extender Jas generalizaciones, pueden invertir el criterio de preferir por Jo comiin el disefio 6 al 4. Nétese asimismo que para cualquier mortalidad sustancial entre R y el postest los datos de pretest del disefio 4 ofrecen mayores oportunidades de eliminar Ia hipétesis de mortalidad diferencial entre los grupos experimental y de control. ‘Aun asf, hay muchos problemas para los cuales no se dispone de pretests, o estos resultan inconvenientes o capaces de pro- vocar reacciones, y pata esos casos es preciso seguir insistien- do, en muchos sectores, acerca de Ia legitimidad del dise- fio 6. Ademés de los estudios sobre el modo de ensefiar material nuevo, queda una gtan cantidad de casos en los que la X y la O postest pueden entregarse a los alumnos o grupos como un solo «paquete» natural, y un pretest resultaria mo-- Testo. Tales situaciones se producen con frecuencia en los mismos procedimientos de prueba, asf como en estudios de instrucciones distintas, planillas de respuesta de formato di- ferente, etc. Algo similar ocurre con los estudios sobre cam- pafias para reclutar voluntarios, etc. En los casos en que hay que guatdar el anonimato del alumno, el disefio 6 suele ser el m&s conveniente, encarandose entonces Ja aleatorizaci6én por medio del ordenamiento mezclado de materiales destina- dos a la distribucién. Aspectos estadisticos del disefio 6 E] modo mis sencillo seria la prueba ¢. El disefio 6 es quizé Ja tinica situacién para la cual esa prueba es éptima. Sin em- bargo, se pueden emplear el andlisis de covariancia y el bloqueo de «variables sujeto» [Underwood, 19576], asi como niveles anteriores de educaci6n, puntajes en tests, ocupaci6n de los padres, etc., consiguiéndose asf mayor poder del test de sigaificaciSa, muy similar al que brinda un pretest. No es necesario que el pretest y el postest sean idénticos. A menudo serén formas diferentes «del mismo» test y por lo tanto me- nos idénticos que una repeticién del pretest. La mayor pre- cisién obtenida se vincula en forma directa con el grado de covatiancia, y aunque esta suele ser més elevada en formas alternadas «del mismo» test que en tests «diferentes», se trata de una cuestién de grado tan confiable y factorialmente compleja como la superioridad eventual de un promedio pun- tual respecto de un breve «pretest». Adviértase, sin embargo, que un promedio puntual no es por lo comin conveniente 56 ‘Material compltado confines académicos, se prohibe su reproduccién total o parcial sina autorizacin de cada autor. como medicién postest, a causa de su probable insensibilidad a X si se lo compara con una medicién més especificamente apropiada en contenido y oportunidad. No tiene mucha im- portancia decidir si ese seudodisefio de pretest debe clasi carse como 6 0 como 4. Tendrfa las ventajas del primero, ya que evitarfa una sesién pretest introducida por el experimen- tador, asi como la «reveladora» repetici6n de un contenido poco usual idéntico o muy similar (como en los estudios de cambios de actitud). Por estas razones la inclusién del dise- io 6 bajo el titulo de «Dispositivos reactivos» deberia ser algo més positiva que respecto de los disefios 4 y 5, La justifica- cién de esta diferencia es, por cierto, mucho més vilida para as ciencias sociales en general que para la investigacién sobre instruccién pedagdgica. Disefios factoriales Sobre Ja base conceptual de los tres disefios anteriores, pero en particular el 4 y el 6, pueden ampliarse las complejas ela- boraciones tipicas de los disefios factoriales de Fisher, agre- gando otros grupos con otras X. En un criterio tfpico de cla- sificacién tnica o anélisis de Ja variancia «en un solo sentido», tendrfamos varios «niveles» del tratamiento, por ejemplo, Xj, Xo, Xs, etc., y quizé también un grupo Xo (ausencia de X). Si se considera el grupo de control como uno de los tra- tamientos, habria en los disefios 4 y 6 un grupo para cada tratamiento, En el disefio 5 habria dos grupos (uno some- tido a pretest, el otro no) pata cada tratamiento, y aun seria posible un anélisis de variancia de doble clasificacién («en dos sentidos»). No tenemos noticia de que se hayan realizado disefios del tipo 5 en més de dos niveles. Por lo comin, si fos preocupa la interaccién pretest, empleamos el disefio 6, a causa del gran ntimero de grupos gue de no hacerlo asi setfan necesarios. Muy a menudo se utilizardn dos o més varia- bles de tratamiento, una en cada uno de los distintos «nive- les», dando una serie de grupos que podrian designarse Xa1 Xm, Xor Xvz, Xor Xos,..., Xo2 Xm, etcétera. Tales elaboraciones, complicadas con intentos de economizar eliminando algunas de las posibles permutaciones de Xe pot X», han producido parte de los inquietantes misterios del di- sefio factorial (bloques aleatorizados, parcelas divididas, cua- drados grecolatinos, repeticién fraccional, confusién, etc.), 57 ‘Material compllado confines académicos, se prohibe su reproduccion total o parcial sina autorizaciin de cada autor. origen de la enorme brecha que separa las metodologias avan- las de las tradicionales en el 4mbito de la investigacién educacional. Esperamos que esta obra ayude a salvar ese vacfo por medio de una continuidad con la metodolog{a tradicional y Jas consideraciones dictadas por el sentido comin que el es- tudiante lleva siempre consigo. También estimamos que gran parte de lo que debe ensefiarse sobre disefio experimental se entiende mejor si se lo expone en forma de disefios de dos tratamientos, sin interferencia de otras complicaciones. No obstante, la exposicién completa de los problemas plant por el uso comtin provocar4 una comprensién mayor tanto de la necesidad como de la localizacién de modernos enfoques. Al buscar la forma més eficaz de resumir el anticuado pero tan difundido diseio 4 nos vimos ya constrefiidos a disponer de un anélisis de covariancia, casi no utilizado en esta situa- cién, ¥ en el disefio 5, con un problema de dos tratamientos que se elabora sélo para obtener controles necesarios, nos alejamos de las relaciones crfticas o pruebas ¢, y nos introdu- cimos en la estadistica del andlisis de variancia. Los detalles de Jos andlisis estadisticos para disefios facto- tiales no pueden ensefiarse ni aun esbozarse siquiera en esta obra. Edwards [1960], Ferguson [1959], Johnson y Jackson [1959] y Lindquist [1953] presentan a los investigadores pedagégicos aspectos elementales de tales métodos. Confiamos, sin embargo, en que las explicaciones siguientes permitirén alguna mayor comprensién de ciertas alternativas y comple- fidadas ‘de’ partiedlat ‘relevantial en} los aspectne ‘de, die-Bo analizados en nuestra obra. Las complejidades que tenemos que analizar no comprenden las tazones comunes para fe- currir a cuadrados latinos ni a muchos otros disefios incom- pletos en que el conocimiento de ciertas interacciones se sacri- fica por meras razones de costo. (Pero el uso de cuadrados latinos como sustituto de los grupos de control en los casos en que no hay modo de aleatorizar se estudiaré més adelante, como disefio cuasiexperimental 11.) La razén de haber pres- cindido aqui de esos disefios incompletos es que para el problema de validez externa resulta muy conveniente contar con un conocimiento detallado de Jas interacciones, sobre t en una ciencia que ha tenido problemas para repetir los des- cubrimientos de un investigador en otto ambiente distinto [véase Wilk y Kempthorne, 1957]. Los conceptos que tra- tamos de exponer en este cap{tulo son los de Ja interacciép, Jas clasificaciones inclusivas y las clasificaciones cruzadas, y los modelos factoriales finitos, fijos, aleatorios y mixtos, 58 ‘Material compliado confines académicos, se prohibe su reproduccion total o parcial sina autorizaciin de cada autor Interaccién Ya hemos utilizado este concepto en situaciones en que, se- gin creemos, el lector no especializado lo habrd encontrado comprensible, Como antes, insistimos aqui en las consecuen- cias relativas a la posibilidad de generalizar. Expondremos en forma gréfica (figura 2) cinco posibles resultados de un di- sefio con tres niveles, compuesto cada uno de ellos de Xs y Xo, que denominaremos A y B. (Puesto que se han de gra- ficar tres dimensiones [A, B y O] en dos, son varias las presentaciones que resultan posibles, de las cuales no emplea- remos més que una.) En la figura 2(a) puede apreciarse un notable efecto principal tanto para A como para B, pero nin- guna interaccién. (Hay, por supuesto, una suma de efectos —siendo As, Bs el més fuerte—, pero ninguna interaccién, ya que los efectos son aditivos.) En todos los demds casos encontramos interacciones significativas adicionales, o bien en reemplazo de los efectos principales de A y B. Es decir que la ley sobre el efecto de A varia de acuerdo con el valor espe- clfico de B. En este sentido, los efectos de interaccidén son reglas de espe- cificidad de efecto y, por tanto, conducen al intento de gene- ralizacién. El efecto de interaccién en 2(d) es, sin duda alguna, de ese orden. Aqu{, A no produce un efecto principal (es decir que, si se promedian los valores de las tres B para cada A, resulta una Ifnea horizontal). Pero cuando se man- tiene B en el nivel 1, los aumentos en A producen un decreciente, en tanto que si se mantiene B en el nivel 3, A tiene un efecto incremental. Nétese gue si el experimentador s6lo hubiese vatiado A, manteniendo B constante en el nivel 1, los resultados, aunque internamente vélidos, hubiesen dado pie a que se hiciesen generalizaciones erréneas a opseito de Be y Bs. La caracteritica de méltiple factorial del disefio ha Ilevado, pues, a realizar valiosas exploraciones sobre 1a posi- ble generalizacién o validez externa de cualquier enunciacién sumaria sobre el efecto principal de A. Las limitaciones de la posibilidad de generalizar o de la espeficidad de los efectos aparecen en el andlisis estadfstico como interacciones signifi- cativas. La figura 2(e) representa una forma de interaccién atin mas extrema: ni A ni B producen efecto principal alguno (no re- sultan reglas generales sobre qué nivel de ambas es mejor) pero las interacciones son fuertes y bien definidas. Conside- remos un resultado hipotético de esta indole. Supongamos 59 ‘Material compltado confines académicos, se prohibe su reproduccion total o parcial sin a autorizaciin de cada autor. Figura 2. Algunos resultados posibles de un disefo factorial 3X3. Grados de O Grados de O (6) B | Bs \ B A As As A As As Grados de O Grados de O (c} By (d) —-—-- B ee mi A A As AA A Grados de O (e) B Bs Bi AA As 60 ‘Material compilado confines académicos, se prohibe su reproduccion total o parcial sin a autrizacin de cada autor. que: tres clases de maestros son, en general, de la misma eficiencia (p. ej., los improvisadores esponténeos, los que pre- paran a conciencia su trabajo y los que supervisan con esmero Ja tarea de sus alumnos). Asimismo, tres métodos de ense- fianza resultan, en general, de idéntica eficacia (p. ej., dis- cusién en grupo, exposicién formal y supervisin individual) . En tal caso, aun en ausencia de «efectos principales» en cual- quiera de los tipos de maestros o métodos pedagégicos, podria ocurrir que estos segundos tuviesen gran interaccién con Ja modalidad del maestro: el improvisedor esponténeo tendrfa més éxito con Ja discusién en grupo y menos con Ia super- visién individual, mientras que el acostumbrado a seguir de cerca a sus alumnos alcanzarfa los mejores resultados en la siperviin individual y los peores en el sistema de Ja discu- Desde este punto de vista, cabe distingur los tipos de int Desde este punto de vista, tinguir los tipos de interac- ciones significativas halladas. Quizé nos resulte provechoso un concepto como el de «interacciones monétonas». Nétese que en 2(b), como en el 2(a), hay un efecto principal tanto de Acomo de B, y que A produce el mismo efecto diteccional en cualquier panel separado de valores de B. En consecuencia, nos sentimos mucho més seguros si generalizamos a situacio- nes nuevas la expectativa de aumento en O con aumentos en A que si lo hacemos en 2(c), que podria producir también efectos principales significativos en A y B, asi como una in- teraccién A-B significativa. En realidad, podtiamos estar casi tan seguros de la generalidad del efecto principal de A en el caso 2(b) como en el 2(@), libre este de interaccién. Por cierto al interpretar efectos con miras a la generalizacién se las deberfa graficar y‘examinar bien, en todos sus detalles. Algunas interacciones «monétonas» 0 unidireccionales pro- ducen pocas limitaciones —-y a veces ninguna— sobre la es- pecificidad. (Véase en Lubin [1961] un profundo estudio de este problema.) Clasificaciones inclusivas En los ejemplos dados hasta agus todos los criterios de cla- sificacién (las A y las B) se «cruzado» con todos Jos demés criterios. Es decir que todos los niveles de A se han dado con todos los niveles de B. Sin embargo, el anilisis de variancia no se limita a esa situacién. Hasta ahora hemos utilizado, a titulo de ilustracién, criterios 61 ‘Material compilado confines académicos, se prohibe su reproduccion total o parcial sina autrizacin de cada autor. de clasificacién que eran «tratamientos experimentales». Otros tipos de criterios de clasificacién, como el sexo y la edad de los alumnos, podrfan introducirse en muchos experimentos en forma de clasificaciones plenamente cruzadas. Pero a fin de incorporar los usos mds comunes de clasificaciones «inclusi- vas», presentaremos la posibilidad de criterios de clasificacién menos obvios. Uno de ellos es «maestros». Operando en el ivel de cruzado total, se podria hacer una prueba en una escuela secundaria en la cual diez maestros emplearian uno de los dos métodos posibles para ensefiar una determinada asignatura a distintos cursos experimentales. En ese caso los maestros serfan un criterio de clasificacién absolutamente cruzado, pues cada uno de ellos constituirfa un «nivel» dife- rente. E) «efecto principal» de Jos «maestros» seria la evi- dencia de que algunos de ellos son mejores que otros, con prescindencia del método que emplearon. (Los estudiantes 0 las clases se habran asignado al azar; de lo contrario se con- fundirfan las idiosincrasias del maestro con las diferencias de seleccién.) Una interaccién significativa entre maestros y mé- todos significaria que el método que mejor funcioné habfa dependido del docente en particular a quien se estaba consi- derando. Supongamos ahora, siguiendo una interaccién de esta indole, que nos interesa conocer si, en general, una técnica dada es mejor para maestros que pata maestras. Si dividimos ahora nuestros diez maestros en cinco hombres y cinco mujeres, se obtiene una clasificacién «inclusiva» en el sentido de que la clasificacién maestros, aunque todavia util, no considera los sexos; es decir que el mismo maestro no aparece en uno y otro sexo, en tanto que cada maestro y cada sexo sf considera Jos métodos. Esta inclusividad exige un andlisis algo distinto de aquel en todas las clasificaciones se cruzan entre sf. (Un anilisis ilustrativo puede verse en Green y Tukey [1960] y Stanley [19612].) Ademés, quedan climinadas ciertas inte- racciones de las variables inclusivas. Asi, no son computables —ni tienen, en realidad, sentido desde el punto de vista con- connaal— Jas interacciones maestros-sexo y maestros-sexo-mé- todo. «Maestros» también podria convertirse en una clasificacién inclusiva, si el experimento anterior se extendiese a varias escuelas, de manera que ellas viniesen a constituit un ctitetio de clasificacién (en el cual los efectos principales acusarfan diferencias en Ja tasa de aprendizaje de los alumnos de los distintos establecimientos). En tal caso los maestros serfan por 62 ‘Material compitado confines académicos, se prohibe su reproduccion total o parcial sina autorizacin de cada autor. Jo comin «inclusivos» dentro de Jas escuelas, ya que lo ha- bitual es que un maestro dé clases en un solo colegio. En este caso es concebible una interaccién maestro-escuela, pero no se la podria computar a menos que todos los maestros ensefiasen en uno y otto establecimiento, en cuyo caso maes- tros y escuelas serian «cruzados», no «inclusivos». A los alumnos, 0 sujetos de un experimento, también se los puede tratar como critetio de clasificacién. En un mecanismo totalmente cruzado, a cada alumno se lo somete a cada uno de los distintos tratamientos, pero en muchos casos entra en varios, aunque no en todos, los tratamientos; es decir que no se produce el fendmeno de la inclusién, Un caso frecuente es el estudio, durante el aprendizaje, de datos obtenidos por pruebas individuales. Aqui podriamos tener curvas de apren- dizaje para los distintos alumnos, divididos estos entre dos étodos de estudio. Podrfan analizarse las interacciones prue- ba-método y alumno-prueba, peto no alumno-método. Si a los alumnos se los clasifica por el sexo, se genera también un fenémeno de inclusién. Casi todas las variables de interés en la experimentacién edu- cacional pueden cruzatse con otras variables y no tienen por qué ser objeto de inclusién. Excepciones notables, ademds de las ya mencionadas, son la edad cronolégica, la edad mental, el grado escolar (primero, segundo, etc.) y el nivel socioeco- némico. El lector inteligente habré notado que las variables independientes, o los criterios de clasificacién, pertenecen a distintos tipos: 1) variables manipuladas, como el método de ensefianza, que el experimentador puede asignar a volun- tad; 2) aspectos potencialmente manipulables, como mate- rias estudiadas, que el experimentador podrfa asignar de al- guna manera aleatoria entre los alumnos que utiliza, pero que rara vez lo hace; 3) aspectos relativamente fijos del ambiente, como comunidad, escuela o nivel socioeconémico, fuera del control directo del experimentador pero que sirven de bases explicitas para Ja estratificacién de la prueba; 4) ca- racteristicas «orgdnicas» de los alumnos, como edad, estatura, peso y sexo, y 5) caracteristicas de reaccién de los alumnos, como puntajes en distintos tests. Por lo comtin las variables independientes manipuladas de Ja clase 1 son de interés fun- ental, mientras que las variables independientes no ma- manipuladas de las clases 3, 4 y a veces 5 sitven para aumentar la precisi6n y revelar hasta qué punto son generalizables Jos efectos de las variables manipuladas. Las variables de clase 5 aparecen de ordinario como covariables 0 variables depen- 63 ‘Material compliado confines académicos, se prohibe su reproduccién total o parcial sina autorizaciin de cada autor. dientes. Otra forma de considerar Jas variables independien- tes es como intrinsecamente ordenadas (grado, nivel socio- econémico, estatura, pruebas, etc.) 0 no ordenadas (método de ensefianza, asignatura, maestro, sexo, etc.). A menudo, Jos efectos de las variables ordenadas suelen analizarse més a fondo, a fin de ver si la tendencia es lineal, cuadratica, cé- bica o de grado mds elevado [Grant, 1956; Myers, 19591. Modelos finitos, aleatorios, fijos y mixtos ‘Hace poco, estimulados por el trabajo inédito de Tukey del afio 1949, varios estadisticos matemdticos crearon modelos «finitos» para el anélisis de variancias que aplican al mues- treo de «niveles» de factores experimentales (variables inde- pendientes) los ipios, bien elaborados ya, del muestreo en poblaciones finitas. Scheffé [1956] publicé una resefia histérica de aquel desarrollo clarificador. Se dispone de me- dias cuadraticas esperadas, que ayudan a determinar «térmi- nos de error» apropiados [Sealey 1956] para el disefio fac- torial totalmente aleatorizado de tres clasificaciones. Los modelos finitos resultan de particular provecho porque pueden generalizarse con facilidad a situaciones en que uno o més de los factores son aleatorios o fijos. Ferguson dio una sencilla explicacién de aquellas extensiones en 1959. En vez de presentar férmulas, recurriremos a una ilustracién verbal para mostrar emo difieten entre sf las selecciones finita, aleatoria y fija de niveles de un factor. Supongamos que en un experimento dado Ios «maestros» constituyen una de las distintas bases de clasificacién (es decir, variables indepen- dientes). Si se dispone de 50 maestros, se podrian extraer 5 de ellos al azar y utilizarlos en el estudio. Aparecerfa en- tonces en algunas de nuestras férmulas un coeficiente de muestreo de factores (1 — 5/50) 0 0,9. Si se utilizara el to- tal de 50 maestros, constituirfan un efecto <«fijo», y el coefi- ciente se convertirfa en (1 — 50/50) = 0. Por lo contrario, si existiese una poblacién prdcticamente infinita de maes- tros, 50 de ellos elegidos al azar constituirfan un porcentaje infinitesimal, por lo que en cada efecto «aleatorio» el coeti- ciente tenderfa a 1. Los anteriores coeficientes modifican las férmulas de medias cuadréticas espetadas, y pot lo tanta de términos de «error». Ms detalles pueden verse en Brownlee [1960], Cornfield y Tukey [1956], Ferguson [1959], Wilk y Kempthorne [1956] y Winer [1962]. 64 ‘Material compitado confines académicos, se prohibe su reproduccion total o parcial sina autrizaciin de cada autor. Otras dimensiones de extensién Antes de abandonar los «verdaderos» experimentos a propé- sito de los disefios cuasiexperimentales, queremos explorar algunas otras extensiones desde este simple micleo, aplicables a todos los disefios que se verén més adelante. Aplicacién de tests en busca de efectos mediatos En Ja esfera de Ja persuasién —bastante afin a la de la edu- cacién y la ensefenza—, Hovland y sus colegas comproba- ton, en reitetadas oportunidades, que los efectos a largo plazo son no solo cuantitativa sino también cualitativamente diferentes, Estos efectos son mayores que los inmediatos en las actitudes generales, aunque més débiles en algunas actitu- des espectficas [Hovland, Lumsdaine y Sheffield, 1949]. Las afirmaciones de una persona desacreditada carecen de efecto persuasivo inmediato, pero ese efecto puede resultar signifi- cativo un mes més adelante, a menos que se recuerde a los interlocutores de qué fuente provienen [Hovland, Janis y Kelley, 1953]. Estos descubrimientos nos alertan contra 1a prdctica de establecer toda nuestra evaluacién experimental de los métodos pedagégicos sobre la base de postests o medi- ciones inmediatas realizadas en cualquier punto aislado del tiempo. A pesar de los problemas incomparablemente mayores de eje- cucién implicados (y la incomodidad que ello constituye para el desarrollo del programa de nueve meses de una tesis de doctorado), nos permitimos recomendar que en Ia planifica- cidn de las investigaciones se incluyan perfodos de postests de un mes, seis meses y un afio. Cuando las mediciones del postest consistan en calificaciones y puntajes de exdmenes que de todos modos van a obtenerse, ese estudio serd un simple problema de contabilidad (y mor- talidad). Pero cuando sea el expetimentador quien introdu- ca las O, casi todos los autores consideran que la repeticién de mediciones postest con los mismos alumnos serfa més engafiosa que el pretest. Asf se ha comprobado por cierto en investigaciones sobre memoria [p. ¢j., Underwood, 19574]. Al paso que el grupo de Hovland recurtfa a Ja tipica aplica- cidn de un pretest (disefio 4), ellos organizaron grupos se- parados experimentales y de control para cada aplazamiento cronolégico del postest, por ejemplo: 65 ‘Material compitado confines académicos, se prohibe su reproduccion total o parcial sina autrizaciin de cada autor x oO ° x oO oO Dom oooo Para los disefios 5 o 6 se exigirfa una duplicacién similar de grupos. Nétese que este disefio carece de control perfecto para su propésito de comparar las diferencias en los efectos co- mo funcién del tiempo trascurtido, puesto que tales diferencias podrfan deberse también a la interaccién entre X y los aconte- cimientos histéricos especificos que se produjeron entre la apli- cacién de los postests de corto y de largo plazo. Un control completo de esta posibilidad lleva a Ia elaboracién de disefios més complejos todavia, A causa de los grandes gastos que esos estudios exigen, salvo cuando las O se obtienen por algiin mecanismo rutinario, parece recomendable que quienes reali- zan estudios empleando O institucionalizadas reiteradamente disponibles aprovechen la ventaja que ello representa y realicen observaciones ultetiores de los efectos en varios momentos sucesivos. Generalizacién a otras X: Variabilidad en la ejecucién de X El objetivo de la ciencia comprende la generalizacién, no solo a otras poblaciones y momentos cronoldgicos, sino también a representaciones distintas de] mismo tratamiento, es decir, a ‘otras representaciones que en teorfa deberfan ser idénticas, pero que no Io son en determinados aspectos que, en prin- cipio, carecen de importancia. Esta meta es contraria a la de manda de un mayor control experimental, que a menudo resul- ta evidente y que conduce al deseo de obtener en cada repe- ticidn una réplica exacta de X. Asf, al estudiar el efecto de una apelacién emocional frente a otra racional, y volviendo al ejemplo del individuo que hace declaraciones publicas, po- driamos conseguir que la misma persona se ditigiese a a distintos tipos de grupo empleando todos los grados de pet- suasién posibles 0, con mayor rigor todavia, grabar sus decla- raciones a fin de que todos los piblicos incluidos en un deter- minado tratamiento oyesen «exactamente el mismo» men- saje. Aparentemente, esto seria mejor que si vatias personas hablasen una sola vez cada una en los distintos niveles de persuasién, ya que en este caso «no sabriamos con exactitud» qué estimulos experimentales se aplicaron en cada sesién 66 ‘Material compliado confines académicos, se prohibe su reproduccion total o parcial sina autorizaciin de cada autor. Pero ocurre Jo contrario si por «saber» interpretamos la habi- lidad para seleccionar Ja correcta clasificacién abstracta del tratamiento y trasmitir eficazmente la informacién a nuevos destinatarios. Con la entrevista gtabada hemos repetido cada vez muchos aspectos espectficos carentes de importancia; has- ta donde nos fue dado conocer, el efecto pudo haberse creado por esos detalles y no por Jas caracteristicas que incluimos adrede. No obstante, si tenemos muchos ejemplos indepen- dientes, los detalles especfficos sin importancia no serdn sus- ceptibles de repeticién en cada caso, y por tanto ser4 més probable que nuestra interpretacién de la eausa de los efectos sea correcta. Consideremos, por ejemplo, la comparacién de Guetzkow, Kelly y McKeachie [1954] entre los métodos de ensefianza por disertacién y por discusién. Nuestro «conocimiento» de cudles fueron los tratamientos experimentales, en el sentido de poder extraer recomendaciones para ottos maestros, es me- jor porque se emplearon ocho docentes, cada uno de los cua- les interpreté cada método a su manera, en vez de utilizar uno solo, o de hacer que los ocho memorizasen detalles co- munes no incluidos en la descripcién abstracta de los procedi- mientos compatados. (Como en Guetzkow y otros [1954], esa ejecucién heterogénea de X deberfa complementarse, de ser posible, con la practica de que cada tratamiento lo ejecutara ca- da uno de los participantes en el experimento, para que ningin elemento especffico sin importancia se confundiera con un tratamiento especffico. A fin ge poder estimar la significacién de la interaccién maestro-método cuando se emplean cursos intactos, convendrfa que cada maestro aplicara dos veces cada método.) En un ejemplo més sencillo, un estudio del efecto del sexo del docente sobre los primeros pasos de instruccién aritmética deberfa utilizar no uno solo, sino muchos ejemplos de cada sexo, Aunque esta es una precaucién obvia, no siempre se la ha respetado, como lo sefiala Hammond [1954]. El pro- blema constituye un aspecto de Ja insistencia de Brunswik [1956] en el disefio representativo. Underwood [1957b, pags. 281-87] ha sostenido, sobre fundamentos similares, una posicién contraria a la estandarizacién o réplica exacta de los aparatos utilizados en los distintos estudios, de manera com- patible con su vigoroso operacionalismo. 67 ‘Material compitado confines académicos, se prohibe su reproduccion total o parcial sina autrizacin de cada autor. Generalizacién a otras X: Refinamiento secuencial de X y grupos de control noveles En cualquier experimento la X real es un complicado conjun- to de lo que eventualmente se habrd de conceptualizar como distintas variables. Una vez detectado un efecto fuerte y de- finido, el curso del proceso cientifico exige que se realicen nuevos experimentos-que refinen la X, destacando bien los aspectos més esenciales al efecto. Ese refinamiento se logra- 4 por medio de tratamientos definidos y presentados en for- ma més particular y concreta, o bien organizando nuevos gtupos de control, que igualen al grupo experimental en un mimero cada vez mayor de aspectos del tratamiento, redu- ciendo las diferencias a caracterfsticas m4s especfficas de la compleja X original. El grupo de control falso y el de control con operacién simulada que se utilizan en Ja investigaci6n mé. dica son ejemplos de ello. Los experimentos anteriores traron un efecto internamente valido, pero que, no obstante, pudo haberse debido a que el paciente sabia que se lo sometia al tratamiento, o bien al quinitgico, y no a las propie- dades especificas de la droga o a Ja remocién del tejido ce- tebral: de ahf la introduccién de los controles especiales para ptever esas posibilidades. La generalizacién a otras X es un proceso exploratorio de extrapolaciones sugeridas por la teoria, pero sujetas a la experiencia, en cuyo ttanscurso es posible que el mencionado refinamiento de X represente un importante papel. Generalizacién a otras O Ast como una X dada arrastra un bagaje de caracteres espe- cificos teéricamente sin importancia, pero que pueden resultar Jos causantes del efecto, asf también cualquier O dada, cual- quier instrumento de medicién, es un complejo en el cual el contenido correspondiente est4 necesariamente inserto en una situacién instrumental concreta, cuyos detalles son marginales a la finalidad teérica. Asf, cuando utilizamos lapices y plani- Ilas de respuesta con calificacin mecénica IBM solemos ha- cerlo por razones de conveniencia y no porque queramos incluir en nuestros puntajes la variancia debida a la habilidad de los empleados, 1a familiaridad con el formulario del test, la exactitud en la observancia de las instrucciones, etc. Asi- mismo, nuestro examen de la competencia especffica en un 68 ‘Material compltado confines académicos, se prohibe su reproduccion total o parcial sina autrizaciin de cada autor. tema objeto de investigacién por medio de pruebas consisten- tes en la redaccién de ensayos habré de efectuatse empleando como vehiculos la habilidad literaria y el uso del vocabulario y, por Jo tanto, deber4 contener Ja variancia debida a esas ntes que, con frecuencia, no son importantes pata nuestros fines. Dada esa complejidad inherente a cualquier O, nos encontramos con un problema cuando queremos generalizar los resultados a otras O posibles. gA qué aspecto de nuestra O experimental se debié aquel efecto internamente valido? Como Ia finalidad de la ensefianza no es solo la de prepatar individuos para futuros exdmenes de ensayo y objetivos, dike fomarc siempre en coenta ee problema de la valides externa 0 la posibilidad de generalizacién. Una vez més, desde el punto de vista conceptual, la solucién no esté en confiar a ciegas en que se tendrén mediciones «puras» sin complejidades carentes de importancia, sino mds bien en utilizar medidas miltiples en las cuales los medios y detalles especificos sin importancia sean todo lo diferentes que sea posible, al paso que el contenido comin que nos pteocupa esté presente en todos y cada uno de ellos. Dentro de un experimento aislado, es més lo que puede hacerse en este sentido por las O que por las % jos en un solo rimento se pueden lograr muchas mediciones de efecto decir, variables dependientes). En el estudio de Guetzkow, Kelly y McKeachie [1954], se notaron efectos no solo en los exdmenes regulares de curso y en pruebas especiales de ac- titud introducidas a este fin, sino también en comportamien- tos ulteriores, como Ia eleccién de carrera y la inscripcién en cursos superiores sobre el mismo tema. (Aquellos compor- tamientos resultaron de igual sensibilidad a las diferencias de tratamiento que las mediciones del test.) Las O mdiltiples deberian ser un requisito ortodoxo en cualquier estudio sobre métodos de ensefanza. En el plano més simple, deberfan apli- carse tanta exdmenes objetivos como de ensayo [véanse Stan- ley y Beeman, 1956], junto con indices de participacién en clase, etc. (Una extensién de esta perspectiva a la cuestién de Ja validez de los tests se hallaré en Campbell y Fiske [1959] y Campbell [19603.) 69 ‘Material compllado confines académicos, se prohibe su reproduccion total o parcial sina autorizaciin de cada autor.

You might also like