You are on page 1of 640
BIOESTADISTICA: PRINCIPIOS Y PROCEDIMIENTOS segunda edicion (primera en espafiol) Robert G. D. Steel Profesor de Estadistica North Carolina State University James H. Torrie Profesor Emérito de Agronomia University of Wisconsin Traducci6n Ricardo Martinez B. Profesor Asociado Universidad Nacional de Colombia Revision desis Maria Castafio Profesor de Matematicas http://arveja.awardspace.com McGRAW-HILL Bogota, Buenos Aires, Guatemala, Lisboa, Madrid, México, Nueva York, Panama, San Juan, Santiago, Sao Paulo Auckland, Hamburgo, Johanesburgo, Londres, Montreal, Nueva elhi, Parts, San Francisco, San Luis, Sidnev, Singapur, Tokio, Torortto RESERVADOS TODOS LOS DERECHOS (D.R.) Copyright © 1985, por EDITORIAL McGRAW-HILL LATINOAMERICANA, S. A. Apartado 81078 Bogota - Colombia Ni este libro ni parte de él pueden ser reproducidos o transmitidos de alguna forma o por algiin medio electronico o mecénico, incluyendo fotocopia 0 gtabacién o por cualquier otro sistema de memoria oe archivo, sin el permiso escrito del editor. Traducido de la segunda edicion de PRINCIPLES AND PROCEDURES OF STATISTICS A Biometrial Approach Copyright © 1980 por McGraw-Hill Inc. ISBN 0-07-060926-8 0987654321 8976432105 ISBN 968-451-495-6 Impreso en Colombia Printed in Colombia Esta obra se termina en septiembre de 1985 en Editorial Presencia Ltda - Calle 23 No. 24-20 ‘osonqunseid epeu efinbues) euosied eun A aquatoed A osoystuse Josayoid un any ‘eyagJeo eARaNpold A eBI8] Eun.Oany Wp "UOSIPE Us UISUODSI AA OP PEPISISAlUs) Ef 3p BIUouOIsY ap oILeUrY JOszjorg s2oualUS BIg ‘pnyes eLeosid ap je Bled uolany ‘97.61 ap odew ep O¢ [2 ‘aWeTW Ns E sazorJaque saye sop SOT ‘ugtaips Epundges jse ap UO ooEpal e| ua Jedioiped opnd ou uamb ‘enso] “p] selueyr ep eOWeW zy] ¥ t CONTENIDO Capituto 1 12 13 La Capitulo 2 21 2.2 23 24 25 26 27 28 29 2.10 241 212 2.13 2.14 21S 2.16 Prefacio Simbolos escogidos Introduccion Definicion de la estadistica Breve historia de la estadistica La estadistica y el método cientifico El estudio de la estad{stica Observaciones Introduccion Variables Distribuciones Poblaciones y muestras Muestras aleatorias: Recoleccién de datos Presentacin, resumen y caracterizacién de la informacion Medidas de tendencia central Medidas de dispersion Desviacién estandar de las medias Coeficiente de variabilidad o de variacian Ejemplo Modelo lineal aditivo Ejemplo Eluso de codificacién en el célculo de estadtgrafos La tabla de frecuencia Ejemplo wane viii CONTENIDO Capitulo 3 3 3.2 33 34 3.5 3.6 3.7 3.8 3.9 3.40 3.1 342 Capitulo 4 4a 42 43 44 45 46 AT 48 49 4.10 an Capitulo § SL 5.2 53 54 5.5 5.6 3.7 5.8 5.9 5.10 Calculo de la media y la desviacién estandar con una tabla de frecuencia PresentaciGn grafica de la tabla de frecuencia Digitos significativos Probahilidad Introduccion Algunos elementos de probabilidad La distribucion binomial Funciones de probabilidad para variables continuas La distribucion normal . Probabilidades de una distribucion normal. Uso de una tabla de probabilidades La distribucibn normal con media yy varianza o? Distribucibn de medias Distribucion 2° Distribucion ¢ de Student Estimacién e inferencia Predicci6n de resultados de muestras Muestreo de una poblacion normal Introduecién Una poblacién con distribucién normal Muestras aleatorias de una distribucion normal Distribucion de medias muestrales Distribucion de varianzas y mucstrales y desviaciones estandar Insesgamiento de 5? Desviacion estandar de la media o etror estindar La distribuci6n f de Student ) enunciado de confianza Muestreo de diferencias Resumen sobre muestreo ‘Comparaciones entre dos medias muestrales Introduccién Pruebas de significancia Prueba de hipétesis de que una media poblacional es un valor dado Pmebas de dos o més medias Comparacibn de dos medias muestrales, muestras independientes ¥ Varianzas iguales Modelo lineal aditivo Compasacibn de medias muestrales; obsesvaciones pareadas de importancia . El modelo lineal aditivo para comparaciones pareadas Muestras independientes y varianzas desiguales La media y 1a varianza de una funcién lineal 34 35 35 37 37 a7 40 46 48 33 35 56 58 59 63 65 65 65 68 68 a 72 72 B Bs 76 80 83 83 88 91 93 97 98 101 102 103 SL 5.42, 313 Capitulo 6 6.1 6.2 63 6.4 6.5 6.6 6.7 6.8 69 6.10 6AL 6.12 6.13 Capitulo 7 a1 7.2 13 14 1S 16 Wd 78 79 7.10 Capitulo .8 81 8,2 33 8.4 8.5 8.6 CONTENIDO ix Prueba de hipdtesis de igualdad de varianzas Poder, tamajio de la muestra y determinaci6n de diferencias Muestras bietapicas de Stein Principios de disefo experimental Introduccion Qué es un experimento? Objetivos de un experimento Unidad experimental y tratamiento Error experimental Repeticiones y sus funciones Factores que afectan el ntimero de repeticiones Precision relativa de disefios con pocos tratamientos Control del error Eleccidn de los tratamientos Refinamiento de la técnica Aleatorizacion . Inferencia estadistica - Anilisis de la varianza I: Clasificacion de una via Introduccion E] disefio completamente aleatorio Datos con un solo criterio de clasificacion: El andlisis de la varianza para cualquier nimero de grupos con igual nimero de repeticiones Datos con un solo criterio de clasificacién: El anilisis de la varianza para cualquier némero de grupos con nétmero desigual de repeticiones El modelo lineal aditivo Anilisis de la varianza con submuestras: Numero igual de submuestras Modelo lineal para submuestreo Analisis de la varianza con submuestras: Desigual namero de submuestras Componentes de la varianza en experimentos planeados con submuestras Supuestos en que se fundamenta el andlisis de ta varianza ” Comparaciones miltiples Introduccion La diferencia minima significante Comparaciones Prueba de efectos sugeridos por los datos Prueba de Scheffé Procedimiento w de Tukey 108 109 116 ns Irs 8 ne 120 12 122 123 125 25 128 128 129 130. 132 132 132 134 140 144 148 154 156 139 162 166 166 167 173 175. 177 mad x CONTENIDO 8.7 88. 89 8.10 8.1L Capitulo 9 oA 92 93 94 9.5 9.6 9.7 28 ~~ 99 9.10 9.11 9.12 9.13 944 918 9.16 * Capitulo 19 . 10.1 10.2 10.3 10.4 10.5 10.6 10.7 10.8 10.9 10,10 10,11 10.12 10.13 Capitulo 11 Vl 1b.2 13 Prucba de Student-Newman-Keuls o S-N-K Nueva prueba de amplitud miltiple de Duncan, Comparacién de todas las medias con un contro] Prueba de r de raz6n & bayesiana de Waller-Duncan Pruebas de medias con namero desigual de repeticiones Andlisis de la varianza I: clasificaciones multiples Introduccion El diseito de bioque completo al azar Andlisis de la varianza para cualquier numero de tratamientos; diselio de bloque completo al azar La naturaleza del término de error Particion det error experimental Datos faltantes Estimacion de la ganancia en eficiencia El disefio de bloques completos al azar: mas de una observacion por tratamiento por bloque Modelos lineales y el andlisis de 1a varianza Agrupamiento doble: cuadrados latinos Anilisis de la varianza del cuadrado latino Parcelas faltantes en el cuadrado latino EstimaciOn de la ganancia en eficiencia #1 modelo lineal para el cuadrado latino El tamaito de un experimento ‘Transformaciones Regresién lineal Introduccién La regresin lineal de Y con respecto a El modelo y 1a ecuacin de regresion lineal Fuentes de variacion en Ja linea de regresion lineal Valores de regresion y valores ajustados Desviaciones estandar, intervalos de confianza y pruebas de hipdtesis Control de ia variacion por observaciones concomitantes . Diferencia entre dos regresiones independiente Una prediccién y su varianza Prediccion de X, modelo I Distribuciones bivariantes, modelo II Regresién a través del origen Anilisis de regresibn ponderada Correlacién lineal Introduccién La correlacion y el coeficiente de correlacion Correlacién y regresién 180 181 4182 134 185 188, 188 188 190 19S 198 202 207 208 2u1 213 215 219 221 223 224 226 232 231 21 236 240 242 244 248 250 253 256 256 258 261 263 263 263 268 114 15 11.6 Capitulo 12 121 12.2 12.3 124 \ Capitulo 13 13.1 13.2 13.3 13.4 13.5 13.6 \, Capitulo 14 14,1 14.2 14.3 144 14.5 14.6 14.7 14.8 14.9 Capitulo 15 15.4 1s. 15. 15.4 15.5 15.6 15.7 15.8 CONTENIDO xi Distribuciones muestrales, intervalos de confianza y pruebas de hipétesis Homogeneidad de los coeficientes de correlacién Correlacién intraclases Notaci6n matricial Introduccion Matrices Operaciones con matrices Inversas, dependencia lineal, y rango Regresidn lineal en notacién matricial Introduccion E] modelo y la estimacion de minimos cuadrados El andlisis de la varianza Desviaciones estandar, intervalos de confianza y pruebas, de hipotesis Estimacion y prediccion Variables indicadoras o binarias Regresion y correlaci6n miltiple y parcial Introduceién La ecuaci6n lineal y su interpretacién en mas de dos dimensiones Regresi6n tineal parcial, total y mdltiple La ecuacin muestral de regresi6n lineal multiple Regresion fineal multiple; dos variables independientes Correlacin parcial y miltiple Regresién lineal miltiple; resultados impresos para k variables independientes Miscelénea Coeficientes de regresion parcial estindar Andlisis de la varianza If: experimentos factoriales Introduccion Experimentos factoriales ” El experimento factorial 2 x 2: un ejemplo Factorial 3 x 3 x 2 6 3? x 2: unejemplo Modelos lineales para experimentos factoriales Clasificaciones de n vias y experimentos factoriales; superficies * de respuesta Grados de libertad individuales; tratamientos igualmente espaciados Un solo grado de libertad para no aditividad 269 21 273 276 276 277 278 283 288 288 292 294 296 298 303 303 304 306 308 309 316 320 324 325 328 328 328 334 340 346 352 354 363 xii CONTENIDO. Capitulo 16 —_Anilisis de la varianza IV: disefio y anfilisis de parcelas divididas “ 368 16.1 Introduccion 368 16.2 Diseiios de parcelas divididas 368 16.3. Un ejemplo de parcelas divididas 374 16.4 Datos faltantes en disefios de parcelas divididas 379 16.5 DiseAo de bloques divididos 381 16.6 Modelos de parcelas y de bloques divididos 384 16.7 Parcelas divididas en espacio y tiempo 384 16.8 Series de experimentos semejantes 386 Capitulo 17 Andlisis de la covarianza_ 392 17.1 Introduccion 392 17.2 Usos del anilisis de la covarianza 392 17.3 El modelo y lus supuestos para la covarianza 396 17.4 Prueba de medias de tratamientos ajustadas 398 17.5 Lacovarianza en el disefio de bloques completos al azar 401 17.6 Ajuste de las medias de tratamiento 406 17.7 Aumento de precision debido a la covarianza 408 17.8 Particion'de la covarianza 409 17.9 Homogeneidad de coeficientes de zegresion 412 17.40 Lavarianza cuando se particiona la suma de cuadrados de tratamiento 413 17.11 Estimacién de observaciones faitantes mediante la covarianza 417 17.12 Covarianza con dos variables independientes 418 17,13 Ciloulas de alta velocidad y salidas de computador 424 Capitulo 18 Anilisis de la varianza V: ndimero desigual de subclases 428 {8.1 Introducciéa 428 18.2 Observaciones multiples dentro de subciases 428 18.3 Andlisis de un n&imero proporcionado de subclases 429 18.4 Andlisis de un némero no proporcionado de subclases 432 18.5 Otras técnicas analiticas 440 Capitulo 19 Ajuste de curvas 442 19.1 Introduccién 442 19.2 Regresibn no lineal 442 19.3 Curvas logaritmicas 9 exponenciales 444 19.4 El polinomio de seguado grado 450 19.5 Polinomios ortogonales 451 Capitulo 20 Algunos usos del Ji-cuadrado . 458 20.1 Introduccion 458 20.2 Intervalos de confianza para 0? 458 20.3 204 20.5 Capitulo 21 2a 21.2 213 214 aus 216 27 Capitulo 22 224 22.2 22.3 22.4 22.5 22.6 22.7 22.8 22.9 22.10 22.11 22.32 Capitulo 23 23.1 23.2 23.3 23.4 23.5 23.6 23.7 Capitulo 24 24.1 24.2 24.3 24.4 24.5 24.6 CONTENIDO xiii Homogeneidad de la varianza . Bondad de ajuste para distribuciones continuas Combinaciones de probabilidades de pruebas de significancia Datos enumerativos [: clasificaciones de una via Introduccion 1 El criterio de prueba X Tablas de dos celdas, limites de confianza para una proporcion © porcentaje Tablas de dos celdas, pruebas de hipétesis Pruebas de hipétesis para un conjunto limitado de alternativas Tamaiio de la muestra Tablas de una via con n celdas Datos enumerativos II: tablas de contingencia Introduccién: El modelo de muestreo aleatorio El modelo de muestreo aleatorio estratificado Tabla cuddruple o de 2 x 2 “Prueba exacta’’de Fisher Muestras no independientes en tablas 2 « 2 Homogencidad de muestras de dos celdas Aditividad de x* > Mas sobre la aditividad de x Regresi6n lineal, tablas r x 2 Tamafio de la muestra en tablas 2 x 2 Clasificacion de n vias Algunas distribuciones discretas Introduccion La distribucién hipergeométrica ‘La distribucién binomial Ajuste de una distribucién binomial Transformacién para la distribucion binomial La distribucién de Poisson Otras pruebas con distribuciones de Poisson Estadistica no paramétrica Introduccion Prucba x? de bondad de ajuste Prueba de Kolmogoroy-Smimov con una muestra Laprueba de signos Prueba de rangos signados de Wilcoxon Prueba de Kolmogotov-Smimoy de dos muestras 460 461 464° 466 466 466 467 47h 474 478 480 482 482 482 486 489 491 493 495, 497 498 sol $03 504 508 508 508 $10 510 514 515 517 520 $20 521 522 $24 526 527 erg 6S5 6SS ess ass Lbs ors evs irs Tes Irs oes Les oes ves ves zEes zEes ogs oes ats aarpuy seqey aolpupdy SOpesawopaucd Jod o osdejannur oamsanyy eunjdg ugyoeusisy OpesyNENss oasany {Tus OLIOJEITE cansan oousipngeqoid oaysanyy OTpNysa [ap UOTAEZTURSIC ugmonpongy S¥}IUY SaUOISE]God ap oasony, Uglsergay ered UgIseZO}aTe ep EQontg AayN]-peISWO op ajuBIpPENds jap ugIoeIOOSE ap Bqantg uewvedg ap soBues ap UO!sEpeLI0D Sp ayUaTotya0y Aayshaay ep PEprendiseg SEJA SOP ap UCIOBoIy se] ve] ved wueIpaUl e] ap Eqanid eu, SETA SOP ap UOTOROIISeyD e] ETed URUIpelZy ap EgonIg SEI:SONW ¥ bred EUeIpow eB] op eqenig sexySonus y WOO SITE M-[PYSTIY ap eqonig euelpour ef op eqanig SeiysaTiUs SOp UoDd APUITYM-CURPY-UOXOITT ap Egon L'S% ost Sst rst est ust st St omnasdey OL bt SV ee Plz Eee EV ot IN'e2 OVez Sve Bye “re OOINDLNOD aX PREFACIO Esta segunda edicién de Bicestadistica (Principles and Procedures of Statistics: A Biome- trical Approach) reconoce el hecho de que la estadistica es necesaria, y ya ¢s usada por un creciente numero de disciplinas. Los principios estadisticos son independientes de la ma- teria en la cual se aplican, y los procedimientos aplicados en la agricultura y las ciencias biolégicas pueden llevarse 2 otras éreas como la industria, el gobierno, la ingenieria, la me- dicina, y dar alli tan buenos resultados como en aquellas; podréa decirse, a cualquier area donde se adelante la investigacion. Las universidades y colegios superiores aceptan gene- ralmente este hecho y exigen uno o varios cursos de estadistica como requisito para otor- gar titulos superiores. E] rapido crecimiento de la enseflanza de estadistica en los cursos de pregrado también estd asociado con los requisitos exigidos en este nivel. Este extraordi- nario crecimiento en el uso de la estadistica es paralelo en cierta medida con un rapido de- sarrollo de los procedimientos estadisticos, algunos de los cuales se cubren en este libro. Otros escapan a su nivel docente. Tendencias como la expansion en el uso de la estadistica y el crecimiento de los métodos explican por qué después de una vida vigorosa y de éxito en estos 20 afios, la edicion original Bioestadrstica (Principles and Procedures of Statistics: A Biometrical Approach) ha debido ceder el paso a esta nueva edicién actualizada, reor- ganizada y ampliada, Los supuestos basicos de ambas ediciones siguen siendo iguales: un enfoque esencial- mente no matemético porque los desarrollos algebraicos parecen crear temores en algunos estudiantes; presentacion y andlisis tempranos del disefio experimental de modo que los estudiantes y los profesionales en centros de investigacién puedan aplicar los métodos es- tadisticos aunque todavia se hallen en el proceso de aprenderlos, ¢ incorporacién de sufi- cientes técnicas que satisfagan las necesidades de la mayoria de investigadores. Esta edicién tiene unas 200 paginas mds que la primera. Obviamente se cubre més ma- terial. Entre otras cosas, tiene en cuenta los comentarios y las sugerencias que durante estos afios se han hecho a la primera edicién. Una de ellas y muy frecuente se referia al nivel de la lengua, argumentando que era muy dificil debido a su concisi6n. El autor ha w xvi PREFACIO x revisado el libro palabra por palabra y parrafo por pérrafo en un esfuerzo por ampliar las explicaciones y, por consiguiente, simpliticar el contenido. Se han incivido muchas técnicas auevas, algunas de las cuales se estudian brevemente y otras, con mayor detenimiento, Entre los miltiples y nuevos procedimientos de compa- racién se incluyen la dms protegida de Fisher, le prueba de Scheffé y la prueba f para la razon k bayesiana de Waller-Duncan, las itiles variables de indicadores se tratan breve, pero apropiadamente; el procedimiento de Satterthwaite para calcular pruebas cuasi razones F se explica cuidadosamente en una parte y se demuestra en otras; fos polinomios ortogo- pales se usan para producit ecuaciones de superticies de respuesta en experimentos facto- riales, y el capitulo 24, sobre estadistica no paramétrica, incluye ahora las pruebas de una y dos muestras para fa bondad de ajuste de Kolmogorov-Smimoy. No se ha deseuidado la modernizaci6n de las téonicas estindar. Los disefios de parce- las divididas en el tiempo se consideran como ejemplos de disefio de bloques divididos. El capitulo 14, sobre regresién mUltiple, se presenta en notacién matricial, el enfoque mo- derno que necesita de Ia interpretacion de resultados impresos que resultan de la tecnoto- gia de la computacién. La notacién matricial se ha presentado en los dos capitulos anteriores: el capitulo 12, sobre definiciones y procedimientos de operacién, pretende estimular al usuario de los paquetes de cilculos estadisticos a que adquiera un mayor dominio de los resultados impresos del computador, que los acomparian; el capitulo 13, sobre regresién lineal en presentacién de matricial, presenta en un desarrollo paralelo ef enfoque usual, tal como se desarroilé en el capitulo anterior. Este capitulo ayuda al lector a hacer la transicién a fa notacién matricial; y el anélisis de datos numérico de subclases desproporcionadas se relaciona con la regresién multiple y con los resultados impresos det computador. Hay una mejora en la organizacion del material respecto de la primera edicion. Por ejemplo, el andlisis de Ja distribucién binomial aparece ya desde el capitulo 2, en donde es muy itil para la presentacién de la distribucién normal; la discusin de una funcién lineal, su media y su varianza se han adelantado, de suerte que pueda relacionarse con la comparacién de dos medias, sea de muestras dependientes o independientes; los temas sobre contrastes y comparaciones miiltiples se han reunido en un nuevo capitulo 8, en donde las tasas de error se han definido cuidadosamente y se presentan guias y adverten- cias sobre la confusién que puede generar un exceso de pruebas; el capitulo 9 se beneficia de una discusién mejorada dei método para determinar el tamafio de un experimento; y el capitulo 24 ofrece una presentacién mas ordenada de la estadistica no paramétrica. Se ha prestado atencién a presentaciones alternativas, por ejemplo, un tratamiento més adecuado del uso de los componentes de la varianza en el planeamiento de experi- mentos con atenci6n a los costos involucrados; un manejo mas apropiado de correlaciones entre clases; un mejor enfoque —olvidado en la primera edicién— de las tablas de contin- gencia, usando modelos. Por ltimo, en atencibn a muchas solicitudes y sugerencias, la seleccién de ejercicios se ha aumentado considerablemente para incluir datos tomados de una gama mas amplia dentro de las ciencias biolégicas. Ademés, se han incluido datos obtenidos de las ciencias sociales, Para un conjunto de datos de pre-prueba y post-prueba, los andlisis propuestos incluyen tratamientos de dos conjuntos de datos, come problema de regresion y como disefio de bloques divididos. PREFACIO xvii Los autores quedan muy reconocidos con el profesor Sir Ronald A. Fisher, Cambrid- ge, con el doctor Frank Yates, Rothamsted, y con Oliver and Boyd, Ltd., Edimburgo, por haber autorizado 1a reproduccién de la tabla If de su libro Svaristical Tables for Bio- logical, Agricultural and Medical Research. Los autores tambiém expresan sus agradecimientos a Fred Gruenberger y al Numerical Analysis Laboratory de la Universidad de Wisconsin por su preparacion de la tabla A.Isa E. S, Pearson y H. O. Hartley, editores de Biometrika Tables for Statisticians, Vol\,y a Biometrika por su permiso para reproducir las tablas A.2, A.6, AS y A.1S:a CM. Thompson y a Biometrika por su permiso para reproducir la tabla A.S;a D. B. Duncan y al editor de Biometrika por su permiso para reproducir la tabla A.7; aC. W. Dunnett y al editor del Journal of the American Statistical Association por su permiso para reprodu- cir la tabla A.9; aC. I. Bliss por su permiso para reproducir la tabla A. 10 y a E. N. David y Biometrika por su permiso para reproducir la tabla A.11; a L. M. Milne-Thomson y L. J. Comrie, autores de Standard Four-figure Mathematical Tables y a MacMillan Co. Ltd., Londres, por su permiso para reproducir la tabla A.12: a G. W. Snedecor, autor de Statistical Methods, 4a. ed. y ala lowa State College Press por su permiso para reproducir la tabla A.13,a D. Mainland, L. Herrera y M, [. Sutcliffe por su permiso para reproducjr ja tabla A.14; a F, Mosteller y J, W. Tukey, editor del Journal of the American Statistical Association, y a Codex Book Company Inc., por su permiso para reproducir la tabla A.16; a Prasert Na Nagara, por su permiso para reproducir la tabla A.17; a Frank Wilcoxon y a la American Cyanamid Company por su permiso para reproducir Ja tabla A.18; a Colin White y al editor de Biometrics por su permiso para reproducir la tabla A.19; a P. S. Olmstead, J. W. Tukey, Bell Telephone Laboratories y al editor de Annals of Mathemati- cal Statistics por su permiso para reproducir la tabla A.20;a D. B. Duncan por su permiso para reproducir fa tabla A.21;a L. H. Miller y al editor de Journal of the American Statis- tical Association por su permiso para reproducir la tabla A.22; a Z. W. Birnbaum, R. A. Hall y al editor de Annals of Mathematical Statistics por su permiso para reproducir la tabla A.23; En particular, deseo agradecer a Wyman Nyquist por su valiosa critica de la primera edicién y del manuscrito de la revision. Ademds, tengo deuda de gratitud con muchos de mis colegas por sus sugerencias acerca de varios temas, con otros por sus generosos permisos para usar datos, y con aque- llas personas que me ayudaron en la preparacién de] manuscrito. Me hubiera extraviado sin las destrezas de Dorothy Green, quien mecanografié, corté y pegé el manuscrito final. Por ultimo deseo agradecer a mi esposa, Jennie, por su lectura cuidadosa de las pruebas y ayuda editorial. Robert G. D. Steel SIMBOLOS ESCOGIDOS MUWAW VE = no es igual a; por ejemplo, 3 # 4 mayor que; por ejemplo, 5 > 2 mayor que 0 igual a menor que; por ejemplo, 3 <7 menor que 0 igual a valor absoluto; por ejemplo] —7| = 7 suma de indica un conjunto de cantidades faltantes; por ejemplo 1, 2,..., 10 n(n — 1)... 1 llamado 7 factorial; por ejemplo, 3! = 3(2)1 = 6 se usa para indicar el promedio aritmético de una media sombrero; se usa para indicar una estimacién, no tanto un valor verdadero; por lo general aparece sobre letras griegas. con pocas excepciones se refieren a pardmetros de una poblacién media poblacional varianza poblacional y desviacion estandar componentes de las medias poblacionales; se usan comdnmente junto con modelos lineales error experimental verdadero error verdadero en la muestra; diferencia real coeficiente de regresién de la poblacién, efecto de bloque + coeficiente de correlacién de la poblacién Xxx SIMBOLOS ESCOGIDOS NY, S? estas letras latinas se usan como simbolos que indican poblaciones finitas, en especial en el cap. 25. Las anteriores letras griegas se wsan también con subindices para mayor claridad, Por ejemplo: uy media poblacional de las ¥ Brxz — regresion de ¥ sobre X con Z fijo 1 contribucién de la media poblacional que recibe el i-ésimo tratamiento Algunas excepeiones en el uso de letras griegas para indicar pardmetros son: x probabilidad de un error de Tipo I ira coeficiente de confianza B —_probabilidad de un error de Tipo I 1-8 poder de una pmeba estadistica x? ctiterio comin de prueba Letras latinas se usan como simbolos generales, incluyendo los de estadistica muestra) variable observaciones individuales totales de observaciones diferencia entre observaciones pareadas, ¥,; — Ya, total de tamafio de la muestra nimero de observaciones en i, j-ésima celda medias muestrales, total o parte de una muestra media de las medias muestrales varianzas muestrales, estimaciones no sesgadas de 0%, a#, y 0}, 559,59 desviaciones esténdar de la muestra Shx.5P1-- varianzas muestrales ajustadas por regresion CL, CI limites de confianza, o intervalos hls puntos extremos de los limites de confianza b —_coeficiente de regresion de la muestra byiae Coeficiente de regresion parcial de la muestra b’ —_coeficiente de regresion estandar r total de la muestra o coeficiente de correlacién simple Tiasax coeficiente de correlacién parcial de la muestra en X, y X Riz. Coeficiente de correlaci6n miltiple entre X, y otras variables §xx SOGID00Sa SOTOEWIS oyuyur SEAIEUIA}2 Sp OUN{UOS ayuatuyensn ‘eAlEWayE sisajodny Bnu sisazodny JeIwourg uIoNd}sIp eun ua sepepipiqeqosd Peprqeqoid SOTPUIGNS OWIOD ESN as ‘OpediyiyEs7s9 oarsonw ap eizeund peplun BUULy UO!DEIGOd Jod woD9aI109 O = 9 CA R10) oyuaruREN un opnuawese 'y ‘ajueysuoa so '9 yend eB] ua UgIRIEdWOD @]URISUOD sa '9 ‘SaUOIOBAIASgO Ep [BAU] UQIaUN Bun 001( /S) PEpMaEueA ap aquatsy209 BATIE[AI BIUATONS SyUBOITUBISs EUMUTU BIUaZayIp ayURoLTuats ou axl] ‘o[dwafe 1od ‘ajueoyusis ayuaureye af 7 ‘ojdwale 10d ‘ayreoyiugis (ug}eLea ap saruenj $2390 Jeorpur ered SBJ]9[ SE1}O UBSN as) EZUBTEADD B] Ud SOJINpOId so] ap 10a Jap seus SEPIPIATp sejaosed ap Ouastp un Ua JouJa [ap SeIpaus st] ap soptupend opaw opespeno soptipeno ap ewins* (4 — 4) % Ug}odBLIOS ap OUND) ‘UOToda1I09 ap .JO[EA ‘UOIIDALIOD ap 1O}EJ pewaqy ap sopesd CAPITULO. UNO INTRODUCCION 11 Definicion de la estadistica La estad stica moderna proporciona conocimientos a los investigadores. Es un tema nuevo y estimulante, producto del siglo XX, Para el cientifico, particularmente para el cientifico en Biologia, la estadistica comenz6 aproximadamente en 1925 cuando aparecié el libro de Fisher, Statistical Methods for Research Workers. La estadistica es un tema de répide crecimiento con mucho material original que todavia no se encuentra en textos; crece a medida que los estadisticos encuentran respues- tas a mas y mas problemas propuestos por los investigadores. Algunos de los primeros in- vestigadores que contribuyeron al desarrollo inicial de la estadistica todavia laboran acti- vamente, y los nuevos encuentran diversas oportunidades para sus talentos investigativos. En la aplicacién de Ja estadistica, los principios son generales aun cuando las técnicas puedan diferir, y la necesidad de formacidn estadistica crece a medida que se incrementa la aplicacién a las ciencias biotogicas y sociales, la ingenieria y la industria, Este tema nuevo y vigoroso afecta a todos los aspectos de la vida modema. Por ejem- plo, el planeamiento estadistico y la evatuacién de la investigacién contribuyen a los avan- ces tecnoldgices en el cultivo y procesamiento de alimentos; el control estadistico de calidad de los productos manufacturados hace confiables los equipos automotores y eléc- tricos. La estadistica ayuda a los encuestadores a recolectar datos para determinar las pre- ferencias de esparcimiento del piblico; proporciona informacién pata los estudios de impacto ambiental y ayuda en la evaluacion de las exigencias gubernamentales para que la industria farmacéutica demuestre que un producto es benéfico y no s6lo inofensivo. Cada vez son mas los grupos de investigacién en los cuales se encuentra un estadistico. La extensién de la estadistica hace dificil su definicin, Su desarrollo obedecié a la necesidad de tratar problemas en tos cuales, para observaciones individuales, las leyes de causa y efecto no aparecen claramente al observador y donde es necesario un enfoque objetivo. En tales problemas siempre existe un cierto grado de incertidumbre en toda infe- rencia basada en un niimero limitado de observaciones. Por lo tanto, para nuestro props- 2 BIOFSTADISTICA: PRINCIPIOS ¥ PROCEDIMUENTOS, sito, una definicién razonable y satisfactoria seria: La estadistica es la ciencia, pura y aplicada, que crea, desarrolia y aplica téenicas de modo que pueda evaluarse la incerti- dumbre de inferenctas inductivas. Para la mayoria de ics cientificos, a estadistica es [6gica o sentido comin con un fuerte ingrediente de procedimientos aritméticos. La légica proporciona el metodo me- diante el cual se deben recolectar los datos y determinar cudnto deben abarcar; la aritmé- tiea, junto con ciertas tablas auméricas, produce el material sobre el cual se basa ia infe- rencia y se mide la incertidumbze. La parte aritmética es 2 menudo rutinaria, y el estudiante necesita de formacién matemética especial, No vamos a ocuparnos directamente con las matemiticas, ya que es dificil encontrar ur campo de esta materia que no haya dado al estad istico alguna teoria util. : 1.2 Breve historia de la estadistica La historia de la estad fstica aclara en gran medida la naturaleza de la misma en el siglo XX. La perspectiva historica también es importante para ver las necesidades y las presiones que la crearon. Ei término estadistica no es nuevo, La estadistica debié comenzar como una aritmé- tica estatal para asistir al gobernante que necesitaba conocer la riqueza y el ntimero de sus stibditos con el objeto de recaudar impuestos o presupvestar la guerra, Es de presumir que todas las culturas que intencionalmente registraron su historia también registraron sus estadisticas. Sabemos que César Augusto decretd que todos los sibditos tenfan que tribu- tar y por lo tanto exigio a todas las personas que se presentaran al estadistico més cercano, que entonces era el cecaudador de impuestos. Debido a lo anterior, Jesis nacié en Belén, no en Nazareth, Guillermo el Conquistador ordené un censo de las tierras de Inglaterra para fines de tribut: ny de servi militar. Este se llamé “Domesday Book”, Tales es- tad isticas son historia. Varios siglos después del “Domesday Book”, encontramos una aplicacion de la pro- babilidad empirica ai seguro de embarque, del cual parece haber dispuesto la navegaci6n flamenca de! siglo XIV. Esto pudo haber sido poco ms que pura especulacién o juego de azar, pero legé a set la forma muy tespetable de la estadistica llamada seguros. El juego, en forma de juegos al azar, originé Ia teoria de las probabilidades, desarro- Hada por Pascal y Fermat, a mediados del siglo XVII, debido a su interés en las experien- cias de juego del Caballero de Meré. Para el estadistico y el cientifico experimental, tal teoria tiene mucho uso practico en la informatica. ‘La curva normal o la curva normal de errores ha sido muy importante en el desarro- llo de Ja estadistica. La ecuacisn de esta curva fue originalmente publicada en 1733 por de Moivre, quien no supo cémo aplicar sus resultados a observaciones experimentales y Su escrito permanecié desconocido hasta que Karl Pearson lo encontré en una biblioteca en 1924, Sin embargo, al mismo resultado legaron Iuego dos astronomos mateméticos, Laplace, 1749-1827, y Gauss, 1777-1855, independientemente el uno del otro. Un razonamiento esencialmente estadistico fue aplicado en el siglo XIX por Charles Lyell a un problema geolégico. En ¢l periodo comprendido entre 1830 y 1833 aparecie- ton tres volimenes de Principles of Geology de Lyell, quien establecié el orden de tas rocas terciarias y les asigné nombres. Con M. Deshayes, un conquilidlogo francés, identifi- 66 y enumeré especies fosiles que se presentaban en uno o mas estratos, y también logra- INTRODUCCION 3 ton dar las proporciones de las que atin vivian en ciertas partes de los mares. Basados en estas proporciones asignaron los nombres de: Pleistoceno (novisimo), Pliocene (mas reciente), Mioceno (menos reciente) y Eoceno (reciente), El razonamiento de Lyell fue esencialmente estadistico. Una vez establecidos y aceptados los nombres, el métado fue casi inmediatamente olvidado. No habéa gedlogos evolucionistas que se preguntaran si se trataba de etapas discretas, como lo implican los nombres, 0 bien si era un proceso con- tinuo y se podia utilizar para hacer predicciones. Otros descubrimientos cientificos del siglo XX también se hicieron sobre una base estadistica sin que se advirtiera apenas la naturaleza estadistica de la técnica, y desafortu- nadamente el método cayé pronto en el olvido. Esta afirmacién es valida para las ciencias biol6gicas y las fisicas Charles Darwin, 1809-1882, bidlogo, recibié en el Beagle el segundo volumen del libro de Lyell, Posteriormente Darwin formuld sus teorias y bien pudo haber influido en él la lectura de ese libro. La obra de Darwin fue, en gran parte, la naturaleza biométrica estadistica, y ciertamente renové el entusiasmo pot la Biologia. Mendel, con sus estudios sobre hrbridos vegetales publicados en 1866, también tuvo un problema biométrico 0 estadistico. “ En el siglo XIX, la necesidad de una base més sdlida para la estadistica se hizo mani- fiesta. Karl Pearson, 1857-1936, inicialmente fisico matematico aplicé sus matematicas a la evolucién, como resultado del entusiasmo que generé Darwin en 1a Biologia. Pearson dedicé casi medio siglo a la investigacién estadistica rigurosa, Ademds, fund6 Ia revista Biometrika y una escuela de estad istica; con ello tomé impulso el estudio de la estadistica. Si bien Pearson se ocupaba de muestras grandes, la teoria correspondiente resultaba inadecuada para los experimentadores que trabajan con muestras necesariamente peque- las, Entre estos estaba W,S.Gosset, 1876-1937, quien estudiaba con Karl Pearson y era técnico de la firma de cerveceros Guinness. Parece que !a matemdtica de Gosset era insufi- ciente para encontrar distribuciones exactas de Ia desviaciGn estindar de la muestra, la elacién entre la media de la muestra y la desviacidn estindar de la muestra, del coeficien- te de correlacién, estadigrafo al que dedicé especial interés. Por lo tanto, recurrié a sacar cartas calculando y compilando distribuciones de frecuencia empirica. Sus escritos sobre os resultados aparecieron en Biometrika en 1908 bajo el nombre de Student, seudénimo de Gosset mientras trabajaba con Guinness. Hoy, la t de Student es instrumento funda- - mental para estadisticos y experimentadores, y “estudentizar” es expresin corriente en estadistica. Ahora que el uso de fa distribucién ¢ de Student estd tan generalizado, es inte- resante anotar que el astrénomo alemédn, Helmert, ya la habia obtenido mateméticamente en 18752 R. A, Fisher, 1890-1962, recibié influencias de Karl Pearson y de Student, ¢ hizo numerosas ¢ importantes contribuciones a la estadistica. El y sus estudiantes dieron consi- derable impulso al uso de los procedimientos estadisticos en muchos campos, particular- mente en agricultura, biologia y genética. J, Neyman, 1894, y E. S, Pearson, 1895, presentaron una teoria sobre la verificaci6n @ prueba de hipotesis estadisticas en 1936 y 1938. La teoria fomenté en forma considera- ble la investigacion y muchos de los resultados son de uso practico. En esta breve historia, mencionaremos sélo otro estadistico. Abraham Wald, 1902- 1950. Sus dos libros, Sequential Analysis y Statistical Decision Functions, se ocupan de 4 BIOESTADISTICA: PRINCIPIOS Y PROCEDIMIENTOS grandes conquistas estadisticas no tratadas en este texto, no obstante, una aplicacida, la solucion minima de un problema de genética, se ilustra en el capitulo 21. En este siglo entonces se han desarzollado la mayoria de los métodos que actual- mente se utilizan. La estadistica de este texto es parte de esos métodos, 13 La estadistica y el métedo cientifico Se dice que los cientificos usan el método cientifico. Seria dificil definir la expresion metodo cientifico, dado que los cientificos usan cuantos métodos o medios puedan con- cebir. Sin embargo, la mayoria de estos métodos tienen puntos esenciales en comin. Sin intentar promover una controversia, consideramos que éstos son: 1, Una revisién de hechos, teorias y propuestas. Formulaci6n de una hipétesis légica sujeta a prueba mediante métodos experimen- tales. 3, Evaluacién objetiva de las hipdtesis con base en los resultados experimentales. Mucho podria escribirse respecto a estos puntos esenciales: ;Como se lega a una hipstesis? ;Cémo se disefla un experimento? ¢Cémo se evalia objetivamente una hipé- tesis? La ciencia es un estudio que se ocupa dé la observacién y clasificacién de los hechos. Los cientificos deben, entonces, ser capaces de observar un suceso 0 conjunto de eventos => como resultado de un plan o disefla, Esto es el experimento, la sustancia de! método cien- tifico. El disefio experimental es un campo de la estadistica, La evaluacion objetiva de una hipstesis presenta problemas, puesto que no es posible observar todos los eventos concebibles, y como las leyes exactas de causafecto generalmen- te se desconocen, existird variacion entre los que son observados. El cientifico debe enton- ces razonar partiendo de casos particulares a casos més generales, Este proceso es de infe- >, tencia incierta, Es un proceso que fos capacita para desaprobar hipétesis incorrectas, pero no nos permite aprobar hipdtesis correctas, Lo nico que podemos dar como demostracién es una comprobacién fuera de duda razonable. Los procedimientos estadisticos son méto- dos que nos conducen a esta suerte de pruebas. Una parte de Ja informacién posible, necesariamente conduce sélo a inferencia in- Gierta. El azar entra en juego en la obtencién de informacién:y es la causa de la incerti- dumbre, Al aplicar las leyes del azar, el estadstico de hoy puede realizar una medicién objetiva y precisa de la incertidumbre de las inferencias. Ciertamente, esto se hace para la totalidad de tas inferencias y no para cada inferencia individual. O sea que se sigue un pro- cedimiento que asegure que 9 de 10 inferencias seran correctas, 0 99 de 100, 0 algo por el estilo. ;Por qué no estar siempre en Jo correcto o muy cerca a lo correcto? El inconve- niente es el costo. El costo puede subir debido al incremento del tamafio de la muestra, a consecuencia de una decision incorrecta, o a la vaguedad de Ja inferencia necesaria para incluir la respuesta correcta. El método cientifico no es una sucesién dispersa de secuencias de hipstesis experi- mento-inferencia que se ajusten perfectamente en compartimientos. Mas bien, si un cientifi- co no logra demostrar la falsedad de una hipétesis, quizé 'a teoria abarque hechos fueradel alcance de la inferencia del experimento 0 acaso modificdndola, pueda abarcar tales hechos. E| ciclo se repite entonces. Por otra parte todos los supuestos que entran en la hipéte: INTRODUCCION § pueden no ser necesarios; entonces se formula una nueva hipdtesis con nuevos supuestos y se repite el ciclo. . En resumen, la estadistica es un instrumento aplicable en el métoda cientifico, para el cual fue desarrollada. Su aplicacién particular esta en los muchos aspectos del disefio de un experimento, desde el plan inicial para la recoleccién de los datos, y en el andlisis de los resultados a partir de los datos resumidos, hasta la evaluaciOn de fa incertidumbre de toda la inferencia extraida de ellos. 1.4 El estudio de la estadistica No se intenta convertir en estadisticos profesionales a aquellos que lean y estudien este libro. Nuestro prapésito es promover una forma de pensar clara y disciplinada, especial- mente cuando se trata de recolectar e interpretar informacién numérica, y presentar un considerable mimero de técnicas estadisticas de aplicabilidad y utilidad generales en la investigaciGn. Se requiere hacer cdlculos en estadistica, pero es cosa de aritmética, no de matemitica ni estadistica, La estadistica implica, para la mayoria de los estudiantes, una forma nueva de pen- sar en términos de incertidumbre o de improbabilidades, Acd como en otros casos, los estudiantes difieren en habilidad, y cuando se enfrentan a la estadistica por primera vez, para algunos puede parecer una tortura mental que puede ser emocionaimente perturba- dora, Creemos haber hecho todo el esfuerzo compatible con nuestros objetivos para mini- mizar los problemas del aprendizaje de la estadistica. Muchos estudiantes encontrarin que se aprende mejor la estadistica mediante la aplicaci6n directa a sus propios problemas; pocos encontraran, en el transcurso de uno 0 dos periodos, ta utilidad del material presentado, Por consiguiente, muchos estudiantes necesitarin considerable reflexién y discusién para obtener el maximo provecho de un curso basado en este texto. Se dan preguntas y ¢jercicios para estimular la reflexion y ofrecer alguna oportunidad de aplicar las técnicas y familiarizarse con ellas. Finalmente, es necesario tener en cuenta que la estadistica se ha propuesto como instrumento de investigacion. La investigacion puede ser en genética, mercadeo, nutri- cién, agronomia, etc. Es el campo de investigacién, no el instrumento, ef que debe pro- porcionar los “por qué” del problema de investigacion. A veces, este hecho se pasa por alto y los usuarios olvidan que tienen que pensar, que la estadistica no puede pensar por ellos. La estadistica, sin embargo, ayuda a los investigadores a disefiar experimentos y a evaluar abjetivamente los datos numéricos resultantes, Es nuestra intencién proporcionar a los investigadores instrumentos estad isticos litiles para este fin. Referencias LL. Box, Joan Fisher: 8. A. Fisher, The life of a scientist, Wiley, Nueva York, 1978. 1.2. Committee of Presidents of Statistical Societies: Careers in statistics, current 0: Statistical Association, Washington, D.C. 1.3, Eisenhart, Churchill: “Anniversaries in 1965 of interest to statisticians,” Amer. Statist., 19: 21-29 (1965) 14, Eisenhart, Churchill, y Allan Birnbaum: “Anniversaries in 1966-67 of interest to statisticians”, Amer. Statist., 21:22-29 (1967). 1.5. Fisher, R, A: “Biometry.” Biom., 4:217-259 (1948). fon, American Lid. LIS. way, LAS. Lg. 1.20, 12h. 1.22. 1,23. 1.24, 1.25. 1.26. 1.27. - Hotelling, Harold: “Abraham Wald.” Ammer. Starisi BIOESTADISTICA: PRINCIPIOS Y PROCEDIMIENTOS J. Roy, Statist, Soc., Ser. A., 116:1-6 (1953). “The expansion of statistics,”” Amer, Sci, 42:275-282 y 293 (1984) §, Freeman, Linton C., y Douglas M, More; “Teaching introductory statistics in the libetal arts cu- iculum, Amer. Statist., 10:20-21 (1956). Hotelling, Harold: “The teaching of statistics,” Ann. Math, Statist.. (1:1-14 (1940). Hotelling, Harold: “The impact of R. A. Fisher on statistics.” J. Amer. Statist, Ass, 46:35-46 (1951). 5218-19 (1951). Hotelling, Harald: “The statistical method and the philosophy of science,” Amer. Statist., 12: 9-14 (1958). . MeMullen, Launce: Foreword, en E. S. Pearson y John Wishart (eds.), “Studenr’s"’ collected papers, Biometrika Office, University College, London, 1947, Mahalanobis, P. C.: “Professor Ronald Ayitmer Fisher,” Senkhya, 4:265-272 (1938) Mainland, Donaid: “Statistics in clinicat research; some general principles,” Ann, N.Y, Acad. Sci,, $2:922-930 (1950). . Mather, Kenneth: “R. A, Fisher's Seatistical Methods for Research Workers, an appreciation,” J, Amer. Statist,,Ass., 46:51-54 (1951), Menger, Karl: “The formative years of Abraham Wald and his work in gcometr Statist., 23:13-20 (19523, Pearson, E, 8: “Karl Pearson, an appreciation of some aspects of his life and work, part (: 1857-1906," Biometrika, 28:193-257 (1936). Pearson, E. §.: “Karl Pearsoa, an appreciation of some aspects of his life and work, part Il: 1906-1936," Biometrika, 29:161-248 (1938). Reid, R. D.: “Statistics in clinicat research," Aan, N.Y, Acad, Sci., $2:931-934 (1950). Tintner, G.: “Abraham Wald’s contributions to econometrics,” Ann. Math. Statist., 23:21:28 1952). Walker, Helon M.: “Bicentenary of the normal curve,” J. Amer, Statist. Ass., 29:72-75 (1934), Walker, Helen M.: “Statistical Literacy, in the social sciences,” Amer, Seatist., $:6-12 (1951) Walker, Helen M.: “The contributions of Karl Pearson,” J. Amer, Statist. Ass., $3:11-27 (1958). Wolfowitz, J.: “Abraham Wald, 1902-1950,” Aan. Math. Statise., 23:1-13 (1952). Yates, F.: “The influence of Statistical Methods for Research Workers on the development of the science of statistics,”"J. Amer Statist, Ass, 46:19-34 (1951). Youden, W, J.: The Fisherian revolution in methods of experimentation,” /. Amer Statist. ss., 46:47-50 (1951). Ann, Math, CAPITULO Dos OBSERVACIONES 2.1 Introduccion 7 Las observaciones constituyen la materia prima con Ja cual trabajan los investigadores. Para que se pueda aplicar la estadistica a esas observaciones éstas deben estat en forma nu- mérica. En el mejoramiento de cultivos, los némeros bien pueden ser rendimientos por parcela; en la investigacién médica, pueden ser tiempos de recuperacién bajo varios tratae mientos; en la industria, pueden ser cantidad de defectos en varios lotes de un articulo producido en una linea de montaje. Taleymameros constituyen datos y su caracteristica comin es la variabilidad o variacién. Este capitulo se refiere a la recoleccién, presentacién, resumen y caracterizacion de la informacién. Se discutirén tos conceptos de poblaciones, muestras, modelo lineal inferencia estadistica. 2.2 Variables Proposiciones tales como “Maria es rubia”, o “El pesa mds de 20 libras”” son comunes e informativas. Se refieren a caracterfsticas que no son constantes, sino que varian de una persona a otra y que sirven para distinguir o describir. x Las caracteristicas que presentan variabilidad 0 variacién se denominan variables, ¢ variables aleatorias o variables de azar. Como gran parte de nuestro estudio debe ser general, empleamos algunos simbolos. En vez de escribir variable a cada oportunidad, sean ¥ ta variable ¥ e ¥; (léase Y sub-f) la observacién i-sima. Aqui no tenemos en mente ninguna observacién en particular, Cuan- do tengamos que referimos a una observaci6n especifica, remplazaremos / por un ndme- 10. Por ejemplo, si en una familia tres nifios pesan 52, 29 y 28 libras, y Y denota peso, Y, = 52 libsas, Y, = 29 libras y Y, = 28 libras, En términos més generales y abstractos, denotamos un conjunto de observaciones mediante V,, Y¥,,..., %. Aqui Y, s¢ refiere al Ultimo términd, el subindice nos dice el mimero total, y los tres puntosentre Y; ¢ ¥% se 7 8 — BIOESTADISTICA: PRINCIPIOS ¥ PROCEDIMIENTOS refieren al resto de observaciones, si las hay. En nuestro ejemplo, n= 3. Los simbolos se consideran una taquigrafia. Las variables pueden ser cugntitativas 0 cualitativas. Una Variable cuantitativa es aquella para la cual las observaciones resultantes pueden medirse porque poseen un orden o rango natural; por ejemplo, estaturas, pesos y niimero de caras que se presentan cuando se lanzan 10 monedas. Las observaciones sobre variables cuantitativas pueden clasificarse ademas en conti- muas 0 discretas, Ung variable continua es aquella que puede presentar cualquier valor dentro de cier- to intervalo, Estatura y peso son ejemplos obvios. La estatura puede medirse con una aproximacién de 1/4 de pulgada, pero esto no quiere decir que las estaturas existen sola- mente. para valores de 1/4 de pulgada. Nuestra limitacion depende del tipo de aparato de s>medida usado para obtener fos valores de una variable continua. Una variable disereta o discontinua es aquella para la cual los valores posibles no se pueden observar en una escala continua debido a la existencia de espacios entre estos posi- bles valores. A menudo las observaciones discretas son enteros porque provienen de con- teos, Son ejemplos, el nimero de pétalos de una flor, el némero de familias residentes en una manzana o el numero de insectos atrapados en una red. Pero el espacio entre po- sibilidades sucesivas puede ser diferente de la unidad. El promedio de puntos que se presentan al lanzar dos dados también es una variable discreta, y sus valores van de uno a seis por incrementos de un medio. Una variable cualitativa es aquella para la cual no es posible hacer mediciones numé- ricas. Se hace una observacion cuando se asigna un individuo a una o varias categorias mi- tuamente excluyentes (no se puede asignar a més de una). Las observaciones no se pueden ordenar o medir en forma significativa, s6lo se pueden clasificar y enumerar. Ejercicio 2.2.1 Clasificar las siguientes variabies como cuantitativas, cualitativas, continuas 0 discrotas segtin el caso: color de los ojos, récuente de insectos, numero de exrores por estudiante en un examen de deletreo, kilémetros recorridos por Manta hasta el primer pinchazo, tiempo para recargar de tinta un estilografo que se usa normalmente, posibles rendimientos de maiz ‘en un campo determinado, numero de niios nacidos en ¢! hospital mas cercano en el dia de afto nuevo, posibles resultados al lanzar $0 monedas, nlimero de peces en un estangue. Ejercicio 2.2.2 Al lanzar 10 veces 7 monedas, el niimero de caras fue de 2, 6, 2,2,5,3,5, 3,3. 4, Si se denotan las observaciones Yi, Yq... Yyo oudl es el valor de ? ,Cual es et valor de ¥,% de ¥5? Para qué valores de ies ¥ iguata 2, 3y 47 Distinguirentre ¥,_,¢ ¥j— 1.Cuando im 2, jqué valores toman Hoye 12 23 Distribuciones Los valores de una variable sirven para describir o clasificar individuos o distinguir entre ellos. La mayoria de nosotros hacemos algo mds que simplemente describir, clasificar 0 distinguir, porque tenemos ideas respecto a las frecuencias relativas de los valores de una variable, Asi, en Minnesota, él ser rubio no es valor raro del cutis de una persona; la mayo- tia de la gente no creeria mucho en historias sobre un gato doméstico de 65 libras; un bebé de peso de 7 1/2 libras al nacer se considera comuin y corriente con excepcién de la familia. La mente asocia una medida con el valor de una variable, una medida de lo co- rriente que es ono, ala probabilidad de ocurrencia de un valor semejante. En estadistica decimos que Ia variable tiene una funcién de probabilidad, una funcion de densidad de < OBSERVACIONES 9 probabilided o simplemente una funcidn de densidad. Asi, para una moneda equilibrada o justa, lo probabilidad de que caigs cara es la misma de que caiga sello, es decir, 1/2; ésta es una afirmacién can respecto a la funcién de densidad de una variable discreta. La afir- macién de que cierto porcentaje del peso de adultos es menor que un valor dado, corres- ponde a una distribucién de probabilidad acumulada a, simplemente, a una fiuncién de distribucion de una variable continua cuando tenemos los porcentajes de todas y cada uno de los pesos. Las expresiones “al azar” y “variable aleatoria" se usan més particular- mente para variables que poseen funciones de densidad de probabilidad. Tan pronto los términos muy relacionados dé funcidn de densidad y funcion de dis- tribucion estén bien definidos, comenzaremos a usar simplemente el término distribucion para significar uno y otro, segin convenga. La nocién de azar 0 aleatoriedad no ha sido definida. Slo hemos dado a entender que las leyes del azar son aplicables, La aleatoriedad se estudia més extensamente en tag siguiente seccién Ejercicio 2.3.1 Con base en su experiencia, clasifique la ocurrencia de los siguientes sucesos con Srecuencias relativas, alta, media 0 baja, segin el caso: Un bebé de 2 libras; un jugador de balon- cesto de 6 pies y 8 pulgadas; una temperatura nocturna baja de 0°C por lo menos una vez en octubre en su focalidad; una estudiante de primer ato de universitiad de 112 libras; una serie de 5 caras al lanzar 5 veces une moneda: un caballo de 3400 libeas; 27 caras a} lanzar una moneda 5D veces, Ejercicio 2.3.2 Si se lanza un clavo, ;caerd de cabeza tantas veces como de punta? De acuerdo con su experiencia, ,e8 probable que la seftal de ocupado en un teléfono ocurta tan frecuente- mente como | vez en 10 Hamadas a 10 personas diferentes? ,Qué porcentaje de estudiantes de primer afio de universidad espera usted que pasen al curso siguiente el proximo afto? ,Qué por- centaje completard todo un programa en la misma universidad? (Luego de reflexionar con respecto al material de los ejercicios 23.1 y 2.3.2, se caerd en cuenta de que la idea de las distribuciones, de sus promedios y su variabilidad, no es enteramente nueva). 24 Poblaciones y muestras La primera preocupacién respecto a un conjunto de datos es si se puede considerar como todos los datos posibles 0 s6lo una parte de un conjunto més grande. Esto es de gran im- portancia, y él no hacer una distincién clara ha producido ertores en Ia forma de pensar y una explicacién ambigua en algunos escritos. Una pobiacién o universo consiste en todos los posibles valores de una variable. Estos valores no tienen que ser todos diferentes ni en niimero finito. Son ejemplos los pesos de una camada de cerditos al nacer, el mimero de caras al lanzar 500 veces 10 mo- nedas, todos los posibles valores de rendimiento de mafz por acre en el estado de Iowa. La variable puede ser continua o discreta, observable 0 no observable. Cuando se conocen todos los valores de una poblacién, es posible describirla sin ambigtedad. Una muestra es una parte de una poblacién, (En algunos casos, una muestra puede incluir la poblacién entera). Por Jo general, se trata de usar la informaci6n de muestra para hacer inferenciat acerca de una poblaciOn, Por esta raz6n es particularmente importante definir la poblacién que se estudia y obtener una muestra representativa de la poblacién definida, fo cual no es cosa trivial, : 10 BIOESTADISTICA: PRINCIPIOS ¥ PROCEDIMIENTOS, Los pesos de los cerditos de una camada al nacer y el ntimero de caras en cada uno de los lanzamientos de 10 monedas, bien pueden ser muestras de poblaciones indefinida- mente numerosas y usualmente tiene mds valor considerarlas como muestras que como poblaciones. Una muestra debe ser tepresentativa de la poblacién si tiene como fin obtener infe- rencias validas. Para obtener una muestra representativa, ei principio de aleatoriedad se incorpora a las reglas para obtener la muestra. La aleatoriedad es el resultado de un prove- so mecdnico para asegurar que los sesgos individvales, conocidos o desconocides en su naturaleza, no influyan en la seleccién de las observaciones de la muestra, En consecuen- ia, se aplican las leyes de la probabilidad y se usan para extraer inferencias. Al efectuar una encuesta de opinién piblica, las conclusiones que se intenta aplicar a la poblaciéa adulta de los Estados Unidos, rara vez serian vilidas sila muestra fuera de tal modo no aleatoria que s6to incluyesen mujeres o solamente ciudadanos de Nueva Inglaterra. En este texto, la palabra muestra implicard muestra aleatoria, A medida que avancemos se daran ilustraciones del procedimiento de aleatorizacion. Ejercicio 2.4.1 Seria objetable consideras {as siguientes muestras como provenientes de pobla- ciones posiblemente infinitag. una muestra de fos pesos de 100 arenques de los Grandes Bancos? Una muestra de 200 familias de Madison, Wisconsin? Una muestra de las longitudes de fos cuer- pos de 20 orcas? Una muestrade 10 ccde sangre de una persona adulta? Explique sus respuestas, Ejercicios 2.4.2. {Serfan muestras aleatorias las siguientes: las truchas pescadas em un dia za un ago de tamafio moderado? Las ardillas capturadas en un dia en una trampa? Las respuestas es- ctitas a un pronunciamiento politico solicitadas en un anuncio de television? Una muestra autorizada de un bordnico de ta vegetacién de un campo? Explique sus respuestas. 2.5 Muestras aleatorias: Recoleccién de datos . Ha sido ampiiamente demostrado que no se puede tomar una muestra aleatoria sin emplear un proceso mecdnico. En el proceso usado para obtener una muestra aleatoria 0 para in- troducir la aleatoriedad en un experimento o encuesta, por lo general intervene una tabla de ntimeros aleatorios, como la tabla A.1. Esta tabla esta formada por los digitos 0, 1,2, 3,4, 5,6,7,8y 9 distribuidos en una tabla de 100 por 100, dando lugar a $0,000 digitos aleatorios. Estos niimeros se obtuvieron en wna maquina y no hay razén para pensar que algan numero apareciera con més frecuencia que otro, ni que alguna sucesin de nuimeros fuese mis frecuente que otra, excepto por el azar. Hay 1,015 ceros, 1,026 unos, 1,013 doces, 975 treces, 976 cuatros, 932 cincos, 1,067 seis, 1,013 sietes, 1,023 ochos, 960 nueves; 5,094 son pares y 4,906 son impares. Ilustremos el uso de la tabla tomando una muestra aleato- ria de 10 observaciones de la tabla 4.1. Los datos de la tabla 4.1 se han clasificado de acuerdo con la magnitud asigndndoles miimeros de orden, La organizacién por orden 0 es _ mecesatia para extraer muestras al azar: el orden de los nUmeros aleatorios pudo haberse asignado en forma arbitraria. Para obtener una muestra aleatoria de 10 pesos, tomense 20 digitos consecutivos de la tabla A.1 y registrense como 10 pares. Estos serin los nimeros de orden de los pesos ‘correspondientes, Se puede comenzar en cualquier parte de la tabla, pero una forma més satisfactoria es seflalar con el dedo en una de las paginas, leer los cuatro némeros opuestos mis cercanos a la punta del dedo y utilizar éstos para localizar el punto de partida, Asi: OBSERVACIONES 11 1. En Ia primera pagina de la tabla A.1 , el dedo encuentra el numero 1188 (irente a 10 y son los primeros cuatro digitos en la columna 20-24). . 2. Se vaa ls fila 11, coluaina 88, como punto de partida. 3. Se registran en pares los 20 digitos que se encuentran yendo hacia la derecha, y que son 06, 17, 22, 84, 44 y 55; por comodidad, se baja una linea y se procede al reves para obtener los otros nimezos, 0 sea, 09, 15,30 y 59. 4. Se toman los nimeros de los elementos y se evan a la tabla 4.1 para obtener las correspondientes observaciones: 20, 30, 32, 51,39, 41,25, 29,35 y 42 librus, Este es un procedimiento aleatorio que equivale a extraer de una bolsa con 100 fri- joles marcados con 100 contenidos de grasa de leche, volviendo cada frijol a la bolsa y . mezelando bien los frijoles antes de cada extraccién. Por esta razén, se dice que el mues- treo es con reemplazo. Notese que cada elemento puede sacarse cualquier niimero de veces ‘desde 0 hasta 10. El muestreo siempre se hace de la misma poblacidn y la probabilidad de sacar cada ntimero de orden es practicamente la misma. Cualquiera de los dos procedi- mientos da los mismos resultados que si las extracciones se hicieran de una poblacién infinitamente grande. Una muestra extraida de esta manera es una muestra completamente aleatoria. En trabajos experimentales y encuestas por muestras a menudo se tiene razones validas para restringit en algan grado la aleatoriedad, El uso de las restricciones se discutird en capitu- los posteriores, Ejercicio 2.5.1 Supdngase que una poblacién tiene solamente $0 elementos. ,Como se podria usar la tabla de niimerosaleatorios para obtener una muestrade 10 observaciones con reemplazo? {Puede sugerirse otro plan? Ejercicio 2.5.2 Supdngase que una poblacién tiene 40 elementos. ;COmo se podria extraer una muestra de 5 observaciones? Recuérdese que cada elemento debe tener igual oportunidad de ser ‘escogido para la muestra. Ejercicio 2.5.3 Supdngase que una poblacion tiene 75 elementos. ,Cémo se sacaria una mues- trade 10 observaciones? Ejercicio 2.5.4 Supéngase que una poblacién tiene 40 elementos y que se desea extraer una muestra de 5 observaciones sin reemplazo, ,Como se hat Kjercicio 2.5.5 Si se tiene un terreno plantado con maiz en suzcos y st desea tomar una mues- tra de plantas individuales, ,cémo se har(a ia seleccién? ;Se puede peasar en otro plan? Ejercicio 2.5.6 Si se desea muestrear la flora de una ciénaga mediante observacidn de areas de una yarda cuadrada, ;cémo se seleccionaria su muestra? Ejersicio 25.7 ;COmo se extracria, por ejemplo, una muestra completamente aleatoria de 100 tiimeros telefonicos de undirectorio tetefénico? ,Podria usarse un plan de dos etapas que impl- cara menor esfuerzo? Ejercicio 2.5.8 Al cxtraer una muestra dz 100 de una podlacién grande con igual aimero de, hombres que de mujeres, seria recomendable una muestra completamente aleatoria 9 tomar una de $0 hombres y 30 mujeres? (; Cudles son los objetives del muestre0?). Ejercicio 2.5.9 Al describir el proceso de extraccién de una muestra aleatoria utilizendo la tabla A.1, se dijo que la Zprobabilidad de extraer un elemento cualquiera es practicamente la misma”. jPor qué se usa la palabra “pricticamente™? 12 BIOFSTADISTICA: PRINCIPIOS ¥ PROCEDIMIENTOS Transporte por automévil aS 85% Trangporte porous Figura 2.1, Automévil y bus. Pueblonuevo 17,000 habitantes 2.6 Presentacién, resumen y caracterizacion de la informacion Existen muchas formas de presentar datos, entre ellas el uso de tablas, diagramas y graficas. Para datos cualitativos, la enumeracién es una forma comuin de resumir y presentar los resultados. Si un pueblo pequefio realiza una encuesta sobre las formas de transporte, los resultados pueden resumirse y presentarse como porcentajes. Para visualizar la situa- cidn, es util el siguiente diagrama de sectores (Fig. 2.1). Representaciones tales como los diagramas de sectores y de barras presentan la in- formacidn respecto a la forma como se gasta el tiempo y el dinero, y adénde van los im- puestos, Son concisos, informativos, fAciles de leer y comprender, y a menudo transmi ten la informacién en forma precisa. Ciertamente son més atractivas que las tablas de frecuencia para presentar el nimero de personas, de insectos, que poseen ciertas caracte- risticas. Desafortunadamente, pueden no ser confiables. Por ejemplo, la fig. 2.1 puede estar basada en una muestra o en un censo con respecto a millas recorridas 0 a nuimero de viajes, Son evidentes las posibilidades de engaflarse. Los diagramas pueden ser nlimeros o porcentajes efectivos. La fig, 2.2 ilustra el uso de barras o rectas verticales. Si no se indica la escala, el lector ve frecuencias relativas y no ° Julio 8, 1954 40 Junio 17, 1954 20 +0 7 20 » 10 . ° Moscas domésticas Abejas Otros Rojas Rosades Blancas Numero de insectos atrapadios Numero observado de flores en botdn Figura 2.2 Presentacién de datos discretos OBSERVACIONES 13 86. 40 35 30 25 20) Frecuencia 15 10 ‘to ‘| 3 8 13 18 23 28 33 38 43 48 83 58 63 6B Rendimiento en gramos por planta Figura 2.3 Histograma y poligono de datos para los datos de la tabla 2.1 se dard cuenta del tamafio de la muestra a menos que se le especifique. Cuando se dan los totales, se puede disponer tanto de las frecuencias como de las frecuencias relativas y pueden presentarse mediante el uso de dos escalas. Las frecuencias relativas 0 proporcio- nes son probabilidades esencialmente, como puede notarse considerando las barras 0 las coiummas como alturas o dreas. El histograma y el poligono de frecuencia de la fig. 2.3 son métodos usuales para presentar una cantidad considerable de informacién, recolectada como datos cuantitativos. El Aistograma cepresenta graficamente los datos con valores de clase, los puntos medios de los intervatos de clase, a lo largo del eje de las X y con rectingulos sobre los intervalos de clase para representar la frecuencia, El histograma presenta los datos en una forma facil de entender de tal-manera que de una ojeada se ve la naturaleza general de la distribuci6n. Si se desea comparar una distribucién observada con una distribucion teérica, se puede superponer la distribucién tedrica sobre el histograma y apreciar las discrepancias. El poligono de frecuencia se construye localizando el punto medio de cada interva- Jo de clase y marcando un punto a la altura de la frecuencia correspondiente al intervalo. Estos puntos se unen luego con lineas rectas. El poligono de frecuencias tiende a sugerir a Ja curva suave de la poblacién de donde se extrajo la muestra. El histograma y el poligono de frecuencia de los datos de la tabla 2.1 se presentanen la fig. 23. Tabla 2.1 Tabla de frecuencia de los rendimientos de 229 plantas de soya espaciadas de Richland Rendimiento en gr 3 8 13 18 23 28 33 38 43 48 53 58 63 68 Frecuencia 7 $ 7 8 2 41:37 25219 6 6 3 1 14 BIGESTADISTICA: PRINCIPIOS Y PROCUDIMIENTOS, Tabla 2.2 Némero de caras Valor de clase Erscuencia 5 4 4 1s 3 »@ 2 40 5 a 9 3 Total 100 Es importante, tanto en la elaboracién del histograma come del poligono de fie- cuencia, que el ntimero de clases sea suficientemente grande para que fa forma general d la distribucion se pueda apreciar facilmente, pero no tan pequefic que se den demasiados detalles, Finalmente, tos datos se presentan en ¢ablus de frecuencia, en las que generalmente hay mayor informacion para el lector mas serio, pero a costa de tener menos numero de lectores. Las tablas 2.1 y 2.2 son modelos para datos continuos y discretos. Las tablas de frecuencia se veran mas en detalle al comenzar la sec. 2.15. Los diagramas y graficas a menudo resumen y caracterizan los datos, pero esto tam- ‘bién puede hacerse mediante la presentacién de varios ntimeros que resuman y caracteri- cen los datos. En particular, nos referimos a un niimero que sitée el centro y otro que mida la dispersidn de las observaciones. Con frecuencia, se necesita alguna medida de posicin o de tendencia central, esto es, un mimero que localice un valor central u otdinario. Ademds, es preciso tener una medida del espaciamiento o de dispersion para saber cudn alejados se encuentran los valo- res més o menos extremos respecto del valor central. Ejercicio 2.6.1 En la “La Encuesta Nacional de Cava, Pesca y Vida Silvestre en 1975" reatizada par ef Servicio de Pesea y Vida Silvestre de los Estados Unidos, se encuestaron mas de 2.000 fa- milias por teléfono y se enviaron cuestionarios por fo menos a 1,000 cazadores y pescadores en cada estado. Toda persona de 9 0 més aflos que ca26 o pesed al menos un dia en 1975 era acep- ‘table para purticipat en la enesesta postal. De esas petsonas de 9 aiios o mas, 98.9 millones pas- ticiparon en alguna actividad relacionada con la vida silvestre. Entre los datos reportados estu~ Vicron los siguientes (a menuda aproximados a partir de una grafica): 1, $3 millones participaron en pesca; 50 millones en observacién de fa vida tlvestre; 26 millo- nos en recoleccisn de calamares, cangrejos y otros; 21 millones en caza, 17 millones en tito reercacional; 1$ millones en fotografia de vida salvaje y 5 millones en disparo con arco. 2. Ex miles de millones de dias, los estadounidenses del grupo | gastaron el siguiente tiempo con les mismas categotias sespectivamente asi: 1.32, 1.54, 0.24, 049, 0.30, 019 y 0.22. 3. La participacién de Hombres y mujeres, en las mismas categorias, fue respectivamente: ~ $7 %y 43%, 48% y 52%, B2% y 18%, 58% y 42% ¥ BIG y 19%, 4. El promedia del ingreso en détares por familia del pescador con cafia era: menos de 5,000, 17%; entre 5,000-9,999, 17%; entre 10,000-14,999, 238; entre 15,000-24,999, 29% y OBSERVACIONES tS. 5, El mimero, en millones, de pescadotes #0 gas templadas por tipa de agua. fue: 18 en he gos y ombalses, 17 em Lagos y lagunas distintos de los Grandes Lagos, 14 enacts os y 10s, 9 en estanques de granjas, 3 en desempocudueas ¥ 2 en los Grandes Lagos, 6. EL niimero de dias, en miles, de participacioa en pesca en aguas templadus por tipo de agua tal como se espetitied en vl numeral § Tue: 279,287, 254,477, 161.427, 93372. 24.973 19.011. 7. El nimero, en millones, de pescadores en rjos por tipo de agua Tue: 2.6 en 2.5 en cortientes y rfos, 2.0 vn estuarios y 1.Len los Grandes Lagos 8, El ntimers en miles de dias de participacion en pesca en ries por tipo de agua especitieada engl numeral ? fue, cespectivamente: 19,478, 18,606, 16.039 ¥ 6.739. 9. De tos cazadores de unimates erandes, que se eazan en el estado, 38.1% cxzaron en propies dad privada, 15.9% en tierrus federaies, 12.5% en ottas zonas silvestres administzudas por cl estado, 2% et otras zonas de los estados, 8% en terms pliblicas no especiticadus y 3.5% en tierras de propietario desconocide, 10. De Ios cazadores de ¢aza mayor que cazan fuera del estado en los Ustados Unidos, las cate gorias del numecal 9 dieron los siguientes porcentajes, respectivamente: 37.1%, 38.6%, 16.6%. 1.7%, 3.8% y 2.2% - Presentar cada uno de estos 10 conjuntos de datos en forma tabular o grifica, Trate de variac la presentaciga, ss saladas, Fjercicio 2.6.2 Busear en una revista técnica o cientifiea nuevas ideas sobre presentacisn de std claco, sin hacer referencia al texto, si se trata de uni poblacidn o de una mucstea’ En fa presentacion entran frecuencias relativas? (Es completamente comprensible sin hacer referencia al texto? jercicio 2.6.3 Comparar un cjemplar del informe anual de una compaiia con el de una revista técnica, ;En cual encuentsa mis graticos celativamente? ;Més tablas? Siempre tienen los grate cos una escala en el eje vertical? Ejercicio 2.6.4 Flaborar una tabla de trecuencias, otra de frecuencias relativas y un diagrama de bareas para !os niimeros enteros en la tabla AL, vee see, 2.5 Ejercicio 2.6.5 Habotar una tabla de frecuencias, un poligono de trecuencias y un histograma con los datos de la tabla 4.1 2.7 Medidas de tendencia central Expresiones tales como “estatura media” son vagas pero informativas. Relacionan un indi- viduo con un valor central. Cuando los experimentadores recolectan datos, gastando tiem- po, energia y dinero, no pueden darse ei Jujo de presentar informacin vaga, necesitan una medida definida de tendencia central. La medida de tendencia central mas comin, que a fa vez es la mejor en muchos casos, es la media aritmética 0 promedio aritmérico. Como hay otros tipos de medias, debe quedar-claro de qué tipo de media se trata. La media aritmética se representard mediante los simbolos p (Ia letra griega mu) para la de una poblacion y Y (Kéase Y barra) para la de una muestra, Es importante hacer la anterior distincion, ya que la media de la poblaci6n es una cantidad fija, mientras que la media de la muestra es variable, puesto que diferentes muestras extraidas de la misma poblaci6n tienden a tener diferentes medias. En los escritos estadisticos es posible encontrar otros simbolos. La media se da en las mis- mas unidades que los datos originales, por ejemplo, centimettos o libras. 16 BIOESTADISTICA: PRINCIPIOS ¥ PROCEDIMIENTOS. Cantidades tales como la media se Naman pardmetros cuando caracterizan pobla- ciones. y estadigrafos, ene] caso de muestras. Considérese un dado. Sus seis caras tienen uno, dos, tres, cuatro, cinco y seis puntos. Todo el nimero posible de puntos que aparecen al lanzar el dado constituyen una pobla- ci6n finita. Por definicion, el parametro T+ 243444546 pe 6 = 34 puntos Si una muestea de esta poblacién tiene cuatro observaciones, digames 3, 5,2 y 2, por definieion, el estadigrafo 3454242 2 PEP TETAS 23 puntos 4 4 Estos cdtculos pueden simbolizarse mediante o NW+he Khe hs y 4 donde VY; es el valor de la primera observaci6n, esto es, 3; ¥ es el valor de la segunda ob- servacién, y asi sugesivamente, En la situaci6n general con n observaciones, ¥/ se usa para representar la observacion éésima y ¥ esté dada por . pg htht Yt tht +h a ¥ La notaci6n Y, puede abreviarse mas o : Q1) Esta es una frase con un sujeto ¥, un verbo =, y un objeto ) (Ia letra griega sigma, maytis- cuta). La frase se lee “Y barra es igual a la suma de las ¥ dividida por n”. Esta es nuestra definicién de la media de la muestra, La letra i, usada para indicar el individuo é¢simo, es, llamada indice de la sumatoria, y va desde i =1, escrito bajo el signo de sumatoria 5, has- ta n, escrito en la parte superior. El intervalo de la sumatoria va de 1 hasta m. Cuando se vari a. sumar todos los valores, 1 y 1 se omiten por lo general. Se definen como desviaciones de la muestra las diferencias entre las observaciones y la media con sus respectivos signos, Y; - ¥. Para nuestro ejemplo, ¥) — ¥=3-3=0, %-¥=i¥,-f=~1=¥%-¥%. Una propiedad interesante de 1a media aritmética es que la'suma de las desviaciones es cero, 0 sea, OBSERVACIONES 17 Lh ¥)=0 . (22) Por ejemplo, 7 303 0 S30 42 203-1 203-1 Esta es una ilustracién, no una demostracién. Algunas veces es apropiado ponderar las observaciones que entran en una media. Por ejemplo, si se deben promediar diferentes medias que provienen de muestras con dife- rente ntimero de observaciones, entonces es conveniente usar ponderaciones que dependen de! ntimero de observaciones de cada promedio. Una media ponderada se define por 7, - ut . cn @3) Otra medida de tendencia central es la mediana, También puede usarse para comple- . mentar 12 media. La mediana es el valor en toro al cual quedan de cada lado ef 50% de las observaciones, cuando se disponen en orden de magnitud, Si el nimero de observacio- nes es par, 1a mediana es el promedio de dos valores centrales. Por ejemplo, para la muestra 3,6, 8 y 11, la mediana es (6 + 8)/2 =7. Los nimeros 3, 6, 8 y 30 tienen la misma me- diana 7, Para datos distribuidos en forma mas o menos simétrica, la media y la mediana difieren muy levemente, Sin embargo, cuando se necesita encontrar el promedio del in- greso de un grupo en el que la mayorfa tiene ingresos bajos, el ingreso medio puede ser considerablemente mayor que la mediana, e inducir{a a confusion. Ciertos tipos de datos muestran una tendencia a concentrarse o formar una cola en los extremos derecho 0 izquierdo. Tales distribuciones se dice que son asimétricas en la direc- cién de la cola larga, y la media aritmética puede no servel valor central més informativo. Otra media de tendencia central es la moda, e] valor de més frecuente ocurrencia. Otras medidas de tendencia central son promedios de ciertos cuarriles, deciles y percentiles, puntos que dividen distribuciones de valores ordenados en rangos, en cuartos, en décimos y centésimos respectivamente. Por ejemplo, 10% de las observaciones son me- nores que el primer decil. La mediana es el segundo cuartil, quinto decil y percentil 50. Para mimeros positivos, ia media geométrica y la media arménica pueden ser titiles. Sus usos principales son, respectivamente, el cdlculo de valores lativos tales como némeros indices, y en el cdlculo de promedios de razones y tasas. Se obtienen mediante las siguien- tes ecuaciones: Media geométrica, = VM =H ea) 18 BIOESTADISTICA: PRINCIPIOS Y PROCEDIMIENTOS y Media arménica, k ty (3) (2.5) Ejercicio 2.7.1 Un maestro le dijo a las nifias de su clase que estimaren su peso (ef del instruc- tor). Sus respuestas fueron: 190. 230, 105, 180, 130, 160 y 170 libras, Calcular la media de ta muestra, ,Cuil es la mediana de Ia muestra? Ejercicio 2.7.2 Los muchachos de la clase del ejercicio 2.7.1 estimaron que el peso del instruc- tor era: 180, 195, 175, 147, 175, 170, 193, 170 y 190 libras. Calcular la media de la muestsa, {Cudl es la mediana de la muestra? Ejercicio 2.7.3 (La media aritmética puede considerarse como una media ponderada con pesos iguales? ,Cudles son estos pesos? Ejercicio 2.7.4 Supdngase que tenemos las siguientes medias, 7, = 37, 7, =41y %, = 28, basadas en 50, 20y 10 observaciones respectivamente. Si hay que escoger una sola media, ,cuai seria su eleccién? ;Porqué? ;Cusles son los totales de las muestras originales? Como se usariun estos totales para hallar la media aritmética de las 90 observaciones? {Es ¢l mismo proceso usa- do para caicular la media ponderada con pesos iguales a los tamavios de las muestras? Ejercicio 2.7.5 Un método de muestrear peces en un Lago consiste en matarlos todos con rote- nona, recogerlos en baldes y entonces tomar una muestra al azar de los baldes, En un experi- mento de éstos, se tomé una muestra de Z baldes de un total de 20 y se midié la longitud de los peces en pulgadas. Los datos fueron: + Muestra A: $ peces de 5 pulgadas, 19 de 6, 19 de 7, 8 de By 3 de 9; n= 54 Muestra B: 10 peces de 5 pulgadas, 27 de 6, 1S de 7,6de8y 3de 9:7 =61 Para cada muestra, calcular la media, ;Cudl es la clase modal para cada muestra? ;Se cal- culd Ia media usando 54 (61) observaciones individuales, o como media ponderada? ,Cuantas valores diferentes de la variable se usan cuando se calcula 1a media ponderada? ;Se utilizan las, dos medias muestrales para calcular la media ponderada? {Por qué se tomaroa los pesos utiliza: dos? ;La media ponderada es la misma que la media aritmética de todas las 115 observaciones? Ejercicio 2.7.6 Para la muestra del ejercicio 2.2.2, calcular Py todas las ¥, — M's.gLay(¥ — ¥) es igual a ceo? Ejercicio 2,7,7 {Cual es la mediana de las observaciones de ja tabla 2.1? ;De la tabla 2.2? ;De Ja tabla 2.42 Bjercicio 2.7.8 Comentar Ja afirmacién: “50% de los estadounidenses tienen una intetigencia por debajo del promedio", Ejetcicio 2.7.9 Las medias geométricas son tiles al tratar de tasas y razones, Si invierto $100 y obtengo $120 al final det aio, y reinvierto y obtengo $144 al final del segundo afio, entonces he obtenido el 20% de mi inversién, Claramente la tasa de crecimiento es 1.2. La media geomé- + Datos cortesia de Don W. Hayne, Universidad del Estado de Carolina def Norte. OBSERVACIONES 19 ttica es apropiada yes /T3(12)= 12. jas tasas de crecimiento de la poblaciGn, para tasas estables de nacimiento y mortalidad, sin migracion, dan una situacién biolGgica en ia cual la media geométrica es la apropiada? ;,Son los valores constantes o variables? Catcular la media geometrica, Bercicio 2.7.10 La produccién de crudo en una compailia presentd un incremento anual de 1945 2 1955. En 1945 ta produccién fue de 3,210 barriles/dia y en 1955, 4,780 bartiles/dia, iCudl es la media geométriea? ;Para qué afio se consideraria esto como una estimacién de Ia produccién’? 2.8 Medidas de dispersion Una medida de tendencia central sélo proporciona un resumen parcial de la informacion de un conjunto de datos; es evidente la necesidad de una medida de variacién, Se dan a continuacién tres conjuntos de datos con una media aritmética comiin; nétese la diferen- cia en su variacion: 8, 8,9, 10, 11,12, 12- > 5, 6,8, 10, 12, 14,15 1, 2, 5, 10, 15, 18, 19°” La media, como otras medidas de tendencia central, no nos dice nada respecto a la varia- cién. El concepto de medida de dispersién no es facil, ;Cudnta informacién se tiene al decir que los tres conjuntos de datos tienen dispersiones de 4, 10 y 18,08ea, ¥7— Y,7 El segundo grupo de tres conjuntos 8,9, 10, 10, 10, 11, 12 5,7, 9, 10, 11, 13, 15 1,5, 8, 10, 12, 15, 19 tiene también las dispersiones 4, 10 y 18 y la media también es 10, pero fos primeros con- juntos presentan més dispersion en los extremos mientras que en el segundo grupo hay mayor concentracién hacia la media. Parece deseable tener una definicién que utilice todas las observaciones y de un valor pequefio cuando éstas se encuentran alrededor de la media y un valor grande cuando estén muy dispersas, Sean los niimeros: 5, 6, 8, 10, 12, 14, 15 De acuerdo con auestra definicién, estos ndmeros no son mds variables que los nimeros: 105, 106, 108, 110, 112, 114, 15 Asi, nuestra definicién no depende del tamaiio de los mimeros en el sentido de relacionar la medida de la dispersion con Ja media; dard el mismo valor para los dos conjuntos de datos. 20 BIOESTADISTICA: PRINCIPIOS ¥ PROCEDIMIENTOS La medida numérica de dispersin resultante debe admitir interpretacién en términos de Jas observaciones, Asi, la unidad de medida debe ser la misma. Su funcién deberd servir como una unidad para decidir si una observacién es comtin y corriente o si es un valor no usual para una poblacién dada,’ La media o un valor hipotético deberdn ser el punto de parti- da para la medicién: Por ejemplo, si un hombre esta a muchas unidades de dispersion respec- to de la media de una poblacién su efigie se puede perpetuar en bronce o bien se le puede recluir, de lo contrario, se trata dei hombre de la calle; si un estudiante varon tiene 5 pies y 4 pulgadas de alto, es improbable que pueda pertenecer a una poblacién masculina de jugadores de baloncesto porque en estatura esta demasiado distanciado de la media de esa poblacién, Finalmente, la medida debe poseer propiedades matematicas, de las cuales no nos ocuparemos por el momento. La mejor medida de dispersion y la mas generalizada es la varianza o su raiz cuadra- da, la desviacién esténdar, La varianza se representara con dos simbolos: 6? (la letca griega sigma) para la poblaciGn y s* para la muestra, Estas se leen asi: Sigma al cuadrado y s al cuadrado.-Las desviaciones esténdar de poblaciones y muestras se denotan ay s respecti- vamente. 0? y ¢ son parametros, constantes para una poblacién particular: s? y s son esta- digrafos, valores que cambian de muestra a muestra en una misma poblacién, La varianza 0 cuadrado medio se mide en términos de desviaciones al cuadrado: Supongamos que tenemos una poblacién finita de W valores, cada uno con la misma probabilidad, 1/N, de ser extraido mediante un proceso aleatorio. Se intenta muestrear esta poblacién con reemplazo, tal como se expuso en la sec, 2.5. En este caso, la varianza poblacional se define como la suma de las desviaciones al cuadrado dividida por el numero total. La varianza se mide en las mismas unidades originales pero al cuadrado, por ejemplo, centimetros al cuadrado, Simbéticamente, la varianza se define mediante (2.6) (Cuando los valores de la muestra tienen diferente probabilidad de ser tomados, cada desviacién al cuadrado se pondera con su probabilidad y entonces no se requiere el divisor V, Esta idea de ponderar puede extenderse facilmente a poblaciones infinitas con una variable discreta), (El simboio s? y Ja definicién con el divisor Y — 1 se usa para la varianza muestrat cuando el muestreo es sin reemplazo). Para el ejemplo del dado con una poblacién = Hl - 3 +2 - ay + 6 - 3h + (4-3 + (5 - AP +.(6 — 3h] 35 2 QBSERVACIONES 21 Notese que es posible lanzar un dado mds de seis veces. En este caso n 2s mayor que N, Para variables continuas, la varianza de la poblacién exige matemdticas mAs refina- das que las que se usan en este texto, La varianza de la muestra se define en forma similar pero el divisor es n — 1. eh PH) - Pet KF Xi - FP = 2.7) Notese (n= Is? = 3% - FP El numerador de s* se conoce como la sume de cuadrados y a menudo se denota SC, Para los ntimeros 3,6, 8 y 11 la suma de cuadrados es G-72 + (6-77 +(@-7 + (11-77 = (—4P + (-bF + (41)? + (447 = 34, y la varianza es 34/3 = 11.33. La rafz cuadrada de la varianza de la muestra se ‘lama desviaci6n estdndar, y se de- nota s. Desviacidn media cuadrdtica se usa menos, pero ¢s término descriptive de s, Para nuestro ejemplo, s = ,/34/3 = 3.4 unidades de las observaciones originales, Lacantidad sc=E(%- FP puede Ilamarse formula de definicion de la suma de cuadrados, pues nos dice que la suma de cuadrados es la suma de los cuadrados de las desviaciones respecto del promedio arit- mético, La formula de definicién de la suma de cuadradps se reduce a una formula de traba- jo para los céleulos, es decir: 2 (4) 2_ Mt Diy reey yA 2a) 7 22 BIOESTADISTICA: PRINCIPIOS Y PROCEDIMIENTOS En el primer término los valores se elevan al cuadrado y luego se suman, en el segundo término se suman todos los valores y luego se eleva al cuadrado. En muchos computado- res, yoy Es puede obtenerse simultaneamente, La cantidad (2) a se llama término de correcién o factor de correccién 0 ajuste de ta media y se representa por C. El término “correcci6n de la media” indica que como Ia SC es una medida de varia- cin con respecto a ¥, el término de correccion debe restarse de Ly 7 el cual s¢ denomina a menudo sumas de cuadrados sin ajustar. Como correccién, tal canti- dad no tiene nada que ver con equivocaciones. La forma n¥2, que aparece en la ec. (2.9), es menos conveniente para el céiculo ya que introduce la necesidad de redondear en una etapa anterior. 2 & ‘) nf? 9) a La validez de la ec. (2.8) puede demostrarse mediante un ejemplo numérico. Para nuestra muestra iustrativa OY KP 4 9F -4 16 -1 1 ‘ : sc=E(¥- = OBSERVACIONES 23 por la férmula de definicién, y por la formula prictica. Cuando es necesario redondear valores, tales como Ja media o los desvios, (¥;— FY se presentan pequeflas discrepancias. Es preferible usar la formula de trabajo dado que probablemente se vea menos afectada por los errores de sedondeo. La ec. (2.9) también puede comprobarse con un ejemplo. Una propiedad importante de la suma de cuadrados es la de que es un minimo, es decir, que si se remplaza ¥ por cualquier otro valor, la suma de los cuadrados de las nue- vas desviaciones seré un valor mayor. No es factible demostrar esto para todos los valores posibles. La cantidad (n — 1) se conoce como grados de libertad, denotado por glo 1 Otra medida.de dispersién es la amplitud o sea ja diferencia entre el valor mds alto y el mas bajo. Ordinariamente, esta medida no es un estadigrafo satisfactorio para una eva- luaci6a orftica de los datos, ya que se ve afectada por valores extremos o no usuales. Sin embargo, para muestras de tamafio 2, es un miltiplo de 1a desviacion estdndar; y para muestras menores de 10 es a menudo satisfactoria. En ciertas condiciones, algunas técni- cas en las que interviene la amplitud son especialmente deseabies, Una medida de variacién de cardcter intuitivo, porque tiene en cuenta todas las observaciones, es la media de los valores absolutos, 0 como frecuentemente se denomina desviacion media, Se calcula ast (2.10) Las barras verticales nos dicen que tomemos todas las desviaciones como positivas. Para los valores 3, 6, 8 11 la desviacin media es 2.5. Otras medidas de dispersi6n utilizan percentiles. Asi la diferencia entre los puntos que se separan el 85,y el 15 por ciento de las observaciones ordenadas tiene su interés; no depende de los valores extremos como pasa con la amplitud. Ejercicio 2.8.1 Al considerar una moneda, podemos asignar el valor de 1 a Ja cara y 0 al sello. Para una moneda equilibrada, estos valores acurren con igual probabilidad cvando se Ja lanza, Asi, tenemos una poblacidn finita con V = 2 valores, Se lanza la moneda en forma repetida de xal manera que podemos tener una muestra tan grande como queremos, Este muestreo ¢3 con remplazo. ,Cual es la varianza de esta poblaci6n? Ejercicio 2.8.2 Cuando se lanza una moneda dos veces, los eventos son (C,C), (C,S), (S.C)Y (S,S). Ocurten con igual frecuencia, con una moneda de verdad: Supéngase que sumamos el niimero de caras para obtener 2, 1, 1 y Oy considérense estos valores como una poblacién. ,Cudl es la varianza de esta poblacion? Si decims que tenemos una variable aleatoria con los valores 2,1 y 0 pero con probabili- dades 1/4, 1/2 y 1/4, respectivamente, ,con slo esta informacién se puede caleular la varianca poblacional? 24 BIOESTADISTICA: PRINCIPIOS Y PROCEDIMIENTOS Ejercicio 2.8.3 Con tos datos de! ejercicio 2.7.1, catcular s* y s Hallar la amplitud, Cuando se multiplica la amplitud por 0.370 (n = 7} ¢l resultado es un estimativo no sesgado de O, Hagase esto y comparese con s. Fjercicio 2.8.4 Para los datos de! ejercicio 2.7.2, calcule sy s. Encuentre la amplitud, Multi- plique !a amplitud por 0,337 (para n ~ 9) para obtener un cstimativo de 7. Compareto con 5. Bjercicio 2.8.5 Con los datos de la muestra A del gercicio 2.7.5 calcular s® ys. Repita esto para la muestra 8. Ejercicio 2.8.6 Témense dos niimeros cualesquiera, Considérelos como una muestra y calcule 5°. Tamese los mismos des niimezos, elévese al cuadrado su diferencia y dividase por dos. Los das valores que acaban de calculazse deberan ser idénticos; este resultado estd basado en una identidad algebraica, Leer ahora, cuanto se ha dicho en esta seccién respecto a la amplitud como una medida de dispersion cuando n= 2, Ejercicio 2.8.7 Obtenga un pequetio conjunto de datos en el campo que le sea mas familiar, ‘© use un conjunto de datos de uno de los cjercicios precedentes y encuentre ¥ y s7, Comprucbe las ecs. (2.8) y (2.9) con esos datos. Calcule la desviacion promedio mediante la ec. (2.10), 29 Desviacién estandar de las medias Se ha estado estudiando el muestreo de poblaciones y la caracterizaci6n de las muestras. El lector puede haber estado pensando en caracteristicas tales como estatura, peso, con plantas y animales que dan lugar a poblaciones de interés. También debe recordarse que las medias y las desviaciones estndar de las muestras estan sujetas en si mismas a variacién y forman poblaciones de medias de muestras y de desviaciones estandar de muestras. En el ejercicio 2.7.4, se pidi6 escoger la mejor media de tres con base en 50, 20 y 10 observaciones. Presumiblemente se escogié la media basada en n = 50, pero necesitamos algun criterio para hacer la eleccién. La variabifidad es una eleccién obvia. A propésito de abservaciones o intuicién, se espera que las medias de las muestras sean menos Variables que las simples observaciones. En otras palabras, las medias tienden a acumularse mas cerca de un valor central que las observaciones simples. Si tomamos dos series de medias, cada una basada en diferente niimero de observaciones, 10 y 20, por ejemplo, esperamos que la variacién entre medias de muestras pequeflas sea mayor que la variacién entre muestras grandes, Afortunadamente, existe una relacién conocida entre la vatianza entre individuos y.la vartanza entre medias de individuos. Esta relacién y 1a co- rrespondiente para las desviaciones estindar son ot n os Qn) donde of es la varianza de la poblacién de las P*obtenidas mediante muestreo de una po- blacién original de individuos con varianza 0? . Para valores de muestras se usa la misma relacidn, o sea : 8 =i aa [eas (2.12) Ss hn ¥ iY Wa va " OBSERVACIONES 25 Estas relaciones se ilustran mediante muestreo en el capitulo 4; son vilidas para todas las poblaciones. . La necesidad del subindice ¥ es clara. El subindice Y también se usa a veces. wy es la media de la poblaci6n de individuos y sf es una varianza calculada a partir de una muestra de individuos, La utilided de estas relaciones es obvia, Dada o*, podemos calcular directamente la varianza de una poblacién de medias de muestras para cualquier tamafio de muestra. Asi mismo, de una sola muestra que da una sola ¥, podemos encontrar una varianza muestral que estime la varianza de la poblacion de las ¥- La desviacion estdndar de una media se suele llamar error estandar y, menos frecuen- temente, error estdndar de una media, O sea que el término desviacion estindar se aplica a observaciones y error estandar se aplica a medias, a menos que se especifique otra cosa El error estandar es, pues, inversamente proporcional a la raiz cuadrada del mimero de observaciones en la media, Puede calcularse si se conoce s 0 s?; no se requiere mas de una ¥ Para las observaciones 3,6, 8y 11, sp = s/./n = 3.4/,/4 = 1,7 . Por comodidad en los caleulos, sp se calcula usualmente asi? ie (ALS aea17 Este es un estimativo deo”/n,la varianza de la poblacién formada por las medias de muestras tomadas de la poblacién de individuas. Si hubiéramos obtenido varias medias muestrales de cuatro observaciones y si las hubiésemos usado para calcular ta varianza de las medias, habriamos obtenido un estimativo de la misma cantidad. Nosotros tenemos una media simple, Ejercicio 2.9.1 Con los datos de los ejercicios 2.7.1 y 2.7.2, también utilizados en los ejercicios 2.8.3 y 2.8.4, calcular sy sy Bjercicio 2,9.2 Con las muestras A y B del ejercicio 2.7.5 y usadas nuevamente en el jercicio 2.85, caloular 3 ¥ Sy. [10 coctciente de variabilidad o de variacion Es una cantidad usada por los experimentadores para evaluar los resultados de diferentes experimentos en que interviene la misma caracteristica y posiblemente levados a cabo por diferentes personas. Se define por la desviacién esténdar de ta muestra, expresada como porcentaje de la media muestral segiin la siguiente ecuactén: cv = por ciento (2.13) Para saber si un determinado coeficiente de variacién es insélitamente grande o pequefio, es preciso tener experiencia con datos similares. EI CV es una medida relativa de variacion, en contraste con ta desviaci6n estdndar, la cual se expresa en las mismas unidades que las 26 BIOESTADISTICA: PRINCIPIOS Y PROCEDIMIENTOS observaciones originales. Como es la razén de dos promedios, el CV es independiente de las unidades de medida usadas, por ejemplo, da igual que se usen libras o gramos para medir el peso. . Bjercicio 2.10.1. Para los datos dados por primera vez en los cjercicios 2.7.1 y 2.7.2 catcular el wv. Bjercicio 2.10.2 Para las observaciones dadas por primera vez en ef ejercicio 2,7 5, calcular ob cy. 2.11 Ejemplo Para desarrollar una nueva técnica en Ingenieria Sanitaria, Eliassen (2.2) recolecté y presen- 16 cantidades de sulfuro de hidrageno provenientes de aguas negras almacenadas durante 42 ‘horas a 37°C en 9 series, como se dan en la tabla 2.3, La técnica se desarrollé para elirainar el Tabla 2.3. Sulfuro de hidrégeno producido en la fermentacién anaerdbica de aguas negras al cabo de 42 horas a 37°C. Y= HS. fm serie ppm ¥ 4-7 1 210, —8 2 mt +3 3 28 o 4 228 +10 $ no +2 6 27 a 7 mn +5 8 24 +6 9 192 . Totales 1983 +35 34 < +1 (debide at redondeo) 1963 =F 728 ppm (luego del redondeo) , 3 gre lf: %) hb _ A147 = (96399 9 $= /T2436 = 11 ppm ok OS ee 9 sp = 1382 = 3.7 ppm . 11,1(190) = 124.36 Wve = 5% (aproximadamente) 218) OBSERVACIONES 27 sulfuro de hidrogeno de un medio de cultivo anaerébico, mediante un gas inerte y captan- do el sulfuro de hidrdgeno para su andlisis cuantitativo con una completa exclusion de aire. Estos datos constituyen una muestra de 9 de todas las posibles observaciones que se pueden obtener con esta técnica. El experimento fue realizado en el laboratorio, habiendo introducido varios controles para reducir el CV a este valor. Asi que la poblacién es bas- tante reducida. La variabilidad entre las observaciones es causada presumiblemente por cosas tales como las muestras de aguas negeas, las muestras del cultivo anaerébico usado, la técnica del operador y por otros muchos factores conocidos y desconocidas. Es claro que no podemos esperar obtener 4 y o* para esta poblacion abstracta, pero podemos estimarlos, Esto se hace mediante el caleulo de ¥ y s; estos y otrostvaiores se dan en Ja tabla 2.3. Una ¥ es una muestra de una observacién tomada de la poblacion de todas las posi- bles medias de muestras del mismo tamafio, 0 sea, nueve. La poblacién derivads tiene una media y(= yy) y o}(= quiere decir “mayor o igual 2”). 2. La suma de probabilidades de los ensayos en un conjunto mutuamente excluyente es 1. Simbélicamente, fica “menor o igual”; > significa “ma- DPE) =1 (3.2) Un naipe de poker tiene 26 cartas rojas y 26 negras, con 13 picas, 13 tréboles, todas negras y 13 corazones y 13 diamantes, todas rojas; P(pica) = P(tébol) = P(coraz6n) = P(diamante) = 1/4. E] extraer un diamante en una sola prueba exciuye la exiraccidn de una pica, un trébol y un corazén, Estos eventos son mutuamente excluyentes y P(pica) +P(trébol) +P(corazén) +P(diamante) = 1. Hasta e] momento no se ha presentado nada nuevo al lector, excepto posiblemente el simbolismo, o notacién, o definiciones nuevas, Aun las probabitidades de las cartas y !as de los dos lanzamientos de Ja moneda debieron haber sido obvias, Pero en su célculo, se ha utilizado una definicién clasica que es: Si un ensayo aleatorio se puede presentar de formas mutuamente excluyentes € igualmente posibles y si m ensayos tienen cierta propiedad A, entonces la probabili- dad de A es la fraccién m/n, 0 nimero de éxitos P= 3) niimero total de ensayos (= éxitos + fracasos) Las probabilidades de ensayos asociados con variables discretas entran en muchos problemas de muestras, por ejemplo, encuestas de opinién, estudios de caracteres genéti- cos y problemas donde se observan recuentos. Ellas no son aplicables sin modificacién, a problemas con variables continuas, tales como el peso. 33 Ladistribucion binomial Muchos ensayos presentan s6lo dos resultados posibles, por ejemplo, una planta posee 0 mmo, cierta caracteristica, una persona vota o no, al lanzar una moneda, puede caer por cara © sello, A tales pruebas se les llama pruebas binomiales 0 de Bernoulli y los espacios mues- trales apropiados consistirén en dos puntos, El experimento aleatorio que genera observa- ciones en las mismas circunstancias esencialmente, es facil de describir. PROBABILIDAD 41 Los puntos muestrales se presentan convenientemente, a menudo por £, lo que in- dica que cierto evento ha corrido y mediante no E, £ o E, para el complemento. La va- rable aleatoria usual asignard 1a £ y 0 ano, fEn pruebas binomiales repetidas, un resultado puede no tener efecto sobre otro, como en el lanzamiento de una moneda; se dice que tales pruebas son independientes. Ademés, la probabilidad de ocurrencia de £ puede permanecer constante de una prueba & otra, Cuando estas dos propiedades se cumpien y el ntimero de pruebas es fijo, tenemos fundamentatmente una distribucién binomial, El resultado total de un experimento se- mejante es una sucesi6n ordenada de F y E ode 1y 0. Lavariable aleatoria usual asigna un valor igual al wimero de £ 0, Jo que es Jo mismo, ala suma de 1 y 0. Cuando se asocia una probabilidad con cada uno de log valores de la variable, entonces se tienc una funcién de probabilidad binomial 0 distribucién binomial, A menudo es posible presentar una formula matemitica, la cual, en un solo enuncia- do, da la probavilidad relacionada con todas y cada uno de los eventos aleatorios. Asi, para una moneda normal, si es Y = 0 para sello y ¥ = 1 para cara, la ecuacién seri PYY=¥)=12 ¥%=0,1 (G4) (léase: la probabilidad de que la variable aleatoria ¥ tome el valor particular ¥, es un. medio para ¥, = Oy para ¥; = 1), constituye una distribucién de probabilidad. Al tirar un dado equilibrado, la distribucién de probabilidad seria PY =¥)=V6 Y=1,2...,6 @5) La tabla A.I es una muestra muy grande de una poblacién con distribucién de pro- babilidad P(Y=¥}=1/l0 = 0,1,2.. (36) Si pensamos sélo en nimeros impares y pares, podemos relacionar la tabla A.1 con la ec. (3.4). Las ecs. (3.5) y (3.6), n0 son, naturalmente, binomiales sino multinomiales. Consideremos el problema de obtener una ecuacién que dé en un solo enunciado todas las probabilidades necesarias de una distribucin binomial. Supéngase que un experimento aleatorio consiste en n pruebas independientes, Sea P(E) = P(1)= p, entonces P(E) = P(0)= 1 — p, la ec. (3.2). Un resultado del experi- mento se representard como una sucesién ordenada de 1 y 0. Asi, 5 lanzamientos de una moneda pueden resultar en (0,0, 1, 1,0), esto es, dos cruces seguidas por dos caras y al final cruz, La probabilidad de este resultado puede encontrarse, debido a fa independencia de las pruebas, multiplicando las probabilidades que entran en cada etapa. Por lo tanto, la probabilidad de que el ensayo descrito ocurra es(1 — p)(1 ~ p)pp(1 — p) = p*(1 — p)°. Naturalmente, el ensayo ha ocurrido, asi que esta probabilidad se aplica antes de realizar el experimento. La probabilidad asociada con cada punto muestral se obtiene de manera parecida. Naturalménte, cuando p = 0.5, tal como ocurre al lanzar una moneda normal, todos los puntos tienen la misma probabilidad, o sea (0.5)* = 0.03125, aproximadamente 42 BIOESTADISTICA: PRINCIPIOS Y PROCEDIMIENTOS. 3 posibilidades en 100. Nétese que se ha exigido que las caras ocurran en el tercer y cuar- to lanzamientos. La variable aleatoria que asocia un valor real Unico con cada punto muestral afiadird Jas entradas en la secuencia y asi asocia el 2 y el nimero de 1s con el punto muestral de Ja ilustracién. Este no es el unico punto muestral que tiene el valor muestral 2; los dos 1s pueden ocurrir en alguna de las dos posiciones (1,2), (1,3), (1,4), (1,5), (2.3), (2.4), (2, 5), 3, 4), (3, 5 y (4, 5), 10-en total. Aqui tenemos especificadas y contadas todas las posibilidades; pero la ec. (3.7) nos permite calcular este valor en forma directa. () =a ¥i (3.7) nse lee n factorial; que se define asf: n! = n(n ~ 1)(n - 2)X ...X 2X 1, Por tanto, para ¥ = 2,0 sea, dos unos en m= 5 pruebas, es S)_5+4-3-2-1 () 1 a7 Naturalmente, cero es un posible valor de ¥; si definimos 0! = 1, no tenemos problemas en la ec, (3.7). Con una férmula para contar los puntos muestrales con el mismo valor de ¥ y otra que asigne una probabilidad a cada punto muestral, podemos escribir la distribucién de probabilidad binomial asi P(Y = ¥ilm) = (i) — pl” (38) La ecuacién (3.8) se lee: “la probabilidad de que una variable aleatoria Y tome el valor particular ¥; en un experimento aleatorio con m pruebas es igual a ...”, Recuerdese que 0 peal. Para ja ilustracién de la moneda, tenemos P(Y = 2{5)= GGPGY = 0.3125 Ahora resulta que el ensayo dos caras al lanzar uta moneda 5 veces no es tan insélito pues, ocurre tres veces de 10, en promedio. La tabla 3.1 nos da Ia distribucién binomial para n = 5 y varios valores de p. Notese que la columna de Ia izquierda se lee con valores de p a lo largo de ia linea superior, mien- tras que la columna de la derecha se lee con valores de p alo largo de la linea inferior. En cada columna, las probabilidades suman 1. Para p = 0.5, la distribucién es simetrica; a me- dida que p se aleja de ese valor, la distribucién se hace més asimétrica, PROBABILIDAD 43 Tabla 3.1 La distribucién binomial, n Y Probabilidad = p=5S pod pals pel © Gp%L—-)> 9325 07776-23780 59049 1 G@yp'{l—p)* 15625 259203951 32805 2 GU pP 3125034560 26367 07290 3 Ge’ = py 3125023080 0878900810 4 (pt(t— 2) 1562507680 01465-00055 5 p—pP 03125 cr he ee peS p=& paIS pad ¥ La media y la varianza de una variable -aleatoria con distribucién binomial son Media : Hamp G9) Varianza: a? = np -p)- (3.10) Notese que la varianza se determina con base en p, asi que slo se necesita un pardmetro para caracterizar la distribucién binomial; n es un pardmetzo observable, de modo que es de una categoria diferente. La ecuacién para la media da valores razonables; si p = 1/2, esperamos que aproxi- madamente la mitad de los lanzamientos den caras; si p = 0.1 para algin otro resultado, entonces esperamos que aproximadamente un décimo de las pruebas dé este resultado. Para la distribucién binomial de la tabla 3.1 con m = 5 y p = 0,5, tenemos que w=25, o=125, y om 112; para p= 4, w=2 oF =12, y c= 110;para p= 25, p= 125, c= 94, y o = 97; para p= 1, w= Sic? = AS, yo = 67. Nétese que la varianza de la variable aleatoria cambia lentamente a medida que p comienza a ale- Jarse de 0.5, pero luego cambia répidamente a medida que se acerca aoa J. Las tablas de la A.14A a la A.17G se basan en [a distribucién binomial y su aplica- cin; en los caps. 21 a 23 se tratan problemas donde una distribucién binomial es, en muchos casos, un supuesto fundamental. La distribucién binomial tambign se usa como una aproximacién de otras distribu- ciones de variables discretas. Por ejemplo, el muestreo se hace a menudo de poblaciones finitas, Si se representa el tamafio de la poblacién por N, entances tenemos una probabili- dad de 1/N de extraer un individuo dado en la primera prueba. La probabilidad de extraer ese individuo dada Ja segunda prueba es dependiente de to que ocurrié en Ja primera, ya que estamos muestreando sin remplazo, serd 0 si el individuo ya ha sido extraido, pero seré 1/(V — 1) si no fo ha sido. Las probabilidades no son constantes de una prueba a otra. Sin embargo, si el tamajio de Ja muestra no es muy grande en telacién con ef tamaiio de la poblaci6n, la distribucién binomial bien puede ser una aproximacion muy satisfac- toria para calcular las-probabilidades necesarias. Hay aun otras distribuciones de variables discretas para las cuales la distribucién binomial suele ser una aproximacién razonable. 44 BIOLSTADISTICA; PRINCIPIOS ¥ PROCEDIMIENTOS Kjercicio 3.3.1 Un dado cquilibrado se lanza dos veces. {Cudntos puntos tiene el espacio mucs- tral? ;Cuiles son las probabilidades asociadas con cada punto musstral? Representar el espacio ruuestral y obtener a partir del mismo Ia distribucién de probabilidad de la suma de los nime- fos en Los dos lanzamientos. Use la detiniciéa de y ode! capitulo 2 para calcular la media y la varianza de esa summa Ejercicio 3.3.2 Repetic el ejercicio 3.3.1 utitizando la media en lugar de 1a suma, ;Se hubiera podiclo aplicar la sec. 2.9 para reducir esfuerzos? Lxptique su respuesta, Ejercicio 3.3.3 Una prueba tiene 10 preguntas de eleccién maitiple, cada una de tas cuales tiene cuatro opciones, Lin estudiante se propore adivinar en el examen y se pregunta cust seri la pro- babilidad de éxito en la prueba, {Cut seria la prueba basica de Bernoulli? ;Qué probabilidades se han de asociar con el espacio muestral para una prueba simple? ,Cudntas pruebas deben ha- corse? ;Cual ¢F Ia distribucién del admero de preguntas contestadas correctamente? ,Cual ev la probabilidad de responder correctamente cinco 0 mas preguntas? Ejercicio 3.3.4 Con trecuencia los investigadores calculan intervalos pata incluir medias de 90 blaciones, Como usan datos muestzales, no pucden tener certeza de qué los intervalos contengan, las medias. Sin embargo, sus téenicas son tales, que pueden decir con qué probabilidad una apli- mn particular tendr4 éxito en producit un intervalo que contenga Ia media, La probabiliciad se tija a menudo en 0.95. SupSayase que un investigador lleva a cabo 20 investigaciones independientes. cada una de las cuales results en un solo intervalo, ; Cudl es la probabilidad de que no mds de dos intervalos incluy an la media de la pobiacién que buscaba” 34 Funciones de probabilidad para variables continuas No todas las probabilidades tienen que ver con Variables aleatorias discretas. Para vatia- bles continuas, las tablas de frecuencia y los histogramas pueden dar probabilidades ap:o- ximadas, Una probabilidad encontrada en esta forma (calculando una frecuencia relativa para cada intervalo, por ejemplo) seria una aproximacién de la probabilidad verdadera de una variable aleateria que toma un valor en un intervalo, Hay que buscar un enfoque dife- rente para describir una funcién de probabilidad. Considérese 1a ruleta de la fig. 3.2. El punto de parada se define como el punto que queda frente a la flecha fija. ,Cudntos puntos de parada hay alli? La rueda se podria dividir en 10 sectores y se define el punto de parada como el niimero més cercano a la flecha. Pero cada sector se podria dividir en mas de 10 subsectores para obtener 100 pun- tos de parada, y asi sucesivamente. Es claro que no hay un nimero finito de punto de pa- rada, y, como resultado, auestra definicién clisica de probabilidad, ec. (3.3), no opera porque no tenemos un némero para et denominador. Para una variable continua con un ntimero indefinidamente grande de ensayos, no se puede asignar una probabilidad para cada valor, Para la ruleta dividida en 10 sectores con los numeros 0, I, 2, ..., 9 marcados en Iineas de division sucesivas, no podemos hablar de probabilidades asociadas con puntos sino de probabilidades asociadas con sectores 0 intervalos. El puntero debe, naturalmente, parar en uno de los infinitos puntos. Para pro- babilidades asociadas con tales intervalos, utilizamos una expresién apropiada en Y 0 una funcién de ¥, que se escribe f(Y) y s¢ llama funcidn de densidad de probabilidad, E) sim- bolo /(Y) es un término genérico, tal como “manzana”; ademas se requiere de algo adicio- PROBABILIDAD 45 wy AYY= 110,05 ¥<10 1 +9, de otra manera lo y. L ——o Fo 1 45 6 7 8 9 10 PY) AY S YQ = 110,05 610 PIZS ¥<3)= 1/10; PLY S2) = 2/10; LY > 7) = 3/10 Figura 3,2. Una rueda de la fortuna y su correspondiente distribucion de probabilidad. nal para informarnos plenamente, Para {¥), necesitamos una ecuacién, por ejemplo, ec. (3.11); para manzana necesitas‘amos un nombre, MacIntosh, por ejemplo. Una funcién de densidad de probabilidad se interpreta facilmente en forma grafica. Refiriéndonos a las fig. 3.2, vemos que F(Y=1N0 Os Y<10 (3.11) es una funcién que describe una densidad de probabilidad. Esta es la distribucion wnifor- me, Aqui, todo valor de Y entre 0 y 10 es posible. Las areas bajo esta curva (el término 46 BIOESTADISTICA: PRINCITIOS Y PROCEDIMIFNTOS. puede incluir lineas rectas) estén asaciadas con probabilidades. Por ejemplo, el area total es (1/10)10, © 1; el drea sombreada entre 2 y 3 es 1/10; no existe drea bajo la curva para valores menores que 0 o mayores a 1. (Los néimeros 0 y 10 son Lo mismo para este ejem- plo). La funcion de distribucién acumulada P(Y) o su grifica se usan para encontrar pro- babitidades, Por ejemplo, para hallat la probabilidad de que el puntero se detenga entre los valores 2 y 3, esto es, P(2 < ¥ < 3), léase de Y= 3 hacia arriba hasta encontrar la recta inclinada, luego hasta contar con el eje de P(Y) para obtener el valor tres décimody Repetir para ¥ © 2 para obtener 2/10. Ahora restar la probabilidad de obtener un valor menor que 2 de (a probabilidad de cbtener un valor menor que 3 para obtener asi la pro- babilidad de encontrar un valor entre 2 y 3, 0 sea, PQ 1.17), Procedimiento Encontrar 1,1 en la columna de Z y 0.07 en la filade Z, 1.17 = 1.1 40.07. La probabilidad se encuentra en la interseccién de fila y columna, asi P(Z > 1.17) = 0.1210, O sea que aproximadamente 12 por ciento de las veces, en promedio, es de espe- rar extraer un valor de Z mayor que 1.17 (Ver la fig, 3.5¢). Caso La Encontrar fa probabilidad de que un valor aleatorio de Z sea menor que un valor positivo Z,, esto es, P(Z < Z,), Encontremos P(Z < 1.17) Procedimiento Dado que el dtea bajo la curva es 1, P(Z < 1.17) = | — 1210 = 8790 (Ver fig. 3.5 a). Caso Ib Encontrar la probabilidad de que un valor aleatorio de Z sea menor que un valor negativo Z,, esto es, P(Z < Z,) donde Z, < 0. Encontramos P(Z < - 1.17) Procedimiento La curva normai es simétrica. Como estamos viendo una distribucidn nor- mal con media cero, P(Z < -L.17) = P(Z = LAT) = 1210 Ver fig. 3.5d paraZ = —1.05 y + 1.05. Caso 2 Encontrar la probabilidad de que un valor aleatorio de Z caiga en un intervalo (Z;,Z3), ala derecha del origen, esto es, P(Z, < Z< Zz) dondeZ, 20 y Z,>0. Busquemos P(.42 < Z < 1.61), Procedimiento Encontrar P(Z 2 42) y P(Z = 1.61). Ahora P(42 < Z < 1.61) = P(Z = 42) — P(Z 2 1.61) = 3372 — 0537 = 2835 (Ver fig. 3.56). Caso 2a Encontrar la probabilidad de que un valor aleatorio de Z caiga en un intervalo a la izquierda del origen, esto es, P(Z; SZ 0. Encuentre P(~ 161 1.05). Procedimiento Debido a la simetria, P(|Z| > 1.08) = 2P(Z > 1.05) = 2(.1469) = 2938 (Wer fig, 35d). Este método es mas corto que el usado en el caso 25. Caso 3a Para encontrar la probabilidad de que un valor aleatorio de Z sea numéricamente inferior a Z,, es decir, que caiga dentro del intervalo (—Z,. Z,), es necesario que P(|Z| 1.05) = 1 ~ 2(.1469) = .7062 (Ver fig. 3.54). También se puede usar el procedimiento del caso 2b. En estadistica, a menudo es necesario encontrar valores de un estadigrafo tales como valores aleatorios que lo sobrepasen en una proporcin dada de casos, esto es, con una probabilidad dada,"Esto equivale a la construccin de una tabla propia con los valores deseados de P, digamos en los margenes, y valores de la variable en el cuerpo de Ia tabla. 52 BIOESTADISTICA: PRINCIPIOS Y PROCEDIMIENTOS Por ejemplo, al operar con la distribucién normal(o cualquier distribucién simétrica), el 50 por ciento de los valores aleatorios de Z seran mayares qué la media. Caso 4 Para ilustrar, encontremos el valor de Z que sea excedido con una probabilidad dada (es decir, un valor aleatorio debe caerala derecha del valor requerido con una proba- bilidad dada); por ejemplo, encontremos Z tal que P(Z > Z,) = 25. Procedimiento Buscar en el cuerpo de tabla la probabilidad 0.2500. Esta en la linea Z = 0.6, aproximadamente en {a mitad entre as columnas 0,07 y 0,08. El valor de Z esta entre 0,67 y 0.68. Asi P(Z > .67) =0.25 (aproximadamente). También se requiere a menudo un valor de Z que sta excedido numéricamente 0 9, por una probabilidad dada, Caso 5 Encontrarel vatorde Z, digamos Z,.talque P(|Z| 2 Z,) seaigual aun valor dado [esto es, que ef valor aleatorio caiga fuera del intervalo(~Z,, Z,)]. Encontremos Z, tal que P(JZ{ = Z,) = 05. Procedimiento Dado que la curva es simétrica, hallese Z, tal que P(Z = Z,)=0.05/2= 0.025. El mismo procedimiento que para el caso 4 dado | 3 + 0.06 = 1.96. Por Jo tanto, P({Z| = 196) = 0.05. Caso Sa Encontrar el valor de Z, digamos Z,, tal queP(—Z, < Z < Z,)sea igual aun valor dado {esto es, que el valor aleatorio caiga dentro del intervalo( -Z,, Z,)]. Encontre- mos Z, tal que P(-Z, $< Z S$ Z,) = 99. Procedimiento Dado que el érea bajo 12 curva es 1, nos referimos al caso 5 y observamos que P(-Z, Z,). Asi, 1-P(-Z, Z,) =1~99=01 Como en el caso 5, encuentre Zy, tal queP(Z > Z,) = 005; Z, cae entre 2.57 y 2.58. (Para tres digitos decimales Z, = 2.576.) Por lo tanto, P(—2576 < Z 52.576) = 99 Ejercicio 3.6.1 Dada una distribuciéa normal con media coro y varianza uno, encontrar P(Z > 1.70); P(Z = 96); P[Z< 144); P(Z < 144); P(-101 $2 $33), P(-1S ZS 1h P(JZ} <1}: P(]Z| = 1.65); P45 < Z < 2.08), Ejetcicio 3.6.2 Encontrar Zo tal que P(Z = Zo) = 3333; P(Z < Zo) = 6050; P(I.0O < Z 13.15). La distribucién es la misma de la seccién anterior, salvo que se ha desplazado de modo quep = 12en vez de 0. Por tanto P(Y > 13.15) = P(Y ~ p> 13.15 — 12) = P(Z > 115) = 1251 En general, deseamos encontrar P(Y; = ¥ < ¥;). Por ejemplo, P(11.20 < Y < 13.44) — P(¥ esta fuera del intervalo) [P(Y s 11.20) + P(Y > 13.44)j =1-[P(Z < —.80) + P(Z > 1.44)] = 1-[P(Z > 80) + P(Z > 1.44)] = 1 (2119 + 0749) = .7132 (Ver fig. 3.6). El método, como se ve, consiste en pasar de una variable ¥ con media dife- rente de 0 a una variable Z con media cero restando p. Para el caso més general, 0 sea, cuando x #0 y o? # I (el simbolo 4 quiere decir “diferente de”), se usa Ja tabla A calculando (3.12) una desviaciOn con respecto a la media expresada en unidades de desviacién estndar (ver fig. 3.7). Asi, transformamos una variable normal en otra con media cero y varianza uno, yaquec es la nucva unidad de medida, Fjemplo Si se hace el muestreo de una distribucién normal conp = 5 y ¢? = 40g = 2, encontrar la probabilidad de un valor muestral mayor que 7.78. Buscar en la tabla A.4 54 BIORSTADISTICA: PRINCIPIOS ¥ PROCEDIMIENTOS. ays 12 ¥ 1120 ZeYuuye¥~12 080 mao 124 13.44) Figura 3.6 Probabilidades para una distribucién normal con = 12, 07 = 1 Entonces PLY » 1.78) = (=e 1B 4) 2 = P(Z > 139) = 0823 En este caso, es la unidad de medida. La variable Z es una desviacion respecto de la media, o sea, ¥ ~ y, medida en unidades de desviaciones estandar, o sea,(Y — y/o. La anterior expresién probabilistica da la probabilidad de que un valor aleatorio de Z sea mayor que 1.395 ode que un valor aleatorio de Y esté masala derecha de « que 1.39¢. La variable Z se llama variable normal estandarizada. Si no se sabe que una distribucién es normal, entonces esa variable es una sariable estandarizada, Elenunciado {ars a < +1} =~ 241587) = 6826 quiere decir que la probabilidad de encontrar un vator aleatorio de{¥ — entre — 1 y + 1 es aproximadamente dos tercios; 0 que aproximadamente dos tercios de todos los valores de (Y — j:)/ase encuentran entre - Ly + 1. Figura 3.7. Relacidn entre ¥ y 2 para célculo de probabilidades de fa distribucién normal, PROBABILIDAD 55 Bjercicio 3.7.1 Dada una distribucién normal de ¥ con medis 3 y vatianzd 16, encontrar P(Y = 10), P(Y <0}; PO < ¥ < 15); P(Y = 5); PUY = 1S) Ejercicio 3.7.2 Dada una distribucién normal de Y con media 20 y varianza 2S, encontrar ¥y tal que PCY Yo) = 025: PUY < Yo) = OF: PLY S Yq) = 9S: PLY 2 Ya) = 99. 3.8 Distribucién de medias Cuando se muestrea una poblucién, es costumbre resumir los resultados mediante el caleu- lo de ¥ y otros estadigrafos. Un muestreo continuado genera una poblacién de ¥ con su propia media y varianza; Y es una muestra de una observacidn de esa nueva poblacion. La poblacién de la cual se hizo el muestreo se suele llamar poblacién principal o distribucion Principal; una poblacién de medias muestrales, como otras poblaciones estadisticas, se Lama distribucién derivada, ya que se cbtiene por muestreo de una poblacién principal Ya se ha dicho que la media y Ia varianza de una poblacién de medias de 1 observaciones son la media y 1 /-fsimo de la varianza de la poblaci6n principal, es decir, zy = pyo}=o7/n. La ausencia de subindice indica un parémetro de la poblacién principal. Considérese un tipo de problema que se presenta en experimentos de muestreo de poblaciones normales; a saber: jcudl es la probabilidad de que la media de una muestra sea mayor que un valor dado? Ejemplo Dada una muestra aleatoria con nt = 16 observaciones, extraiéa de una poblacién normal cong = 10y a? = 4, hallar P(Y > 11). La media muestral es una muestra de tamafio tomada de una poblavién normal con =4l6=1/4 oy = V/A = 12 Hallar en la tabla A.4 P- py -l-10 = oF 12 2 Z= Ahora P(Z = 2) = 0.0228, o sea, P(Y > 11) =0.0228, porque | corresponde a dos des- viaciones estandar a la derecha de la media de la poblacién de las 7. También P(|Z| > 2) = (0.0228) = 0.0456. Por tanto P(-~2<5Z<52)=PQOs ¥ f,) = 66: PUP > fy) = 05. 39 Disteibucién 27 Ahora se expondrd la distribucién x7 (letra griega, Ji, Iéase ji cuadrada) debido a su rela- cidn con s* y la muy importante distribucién r de Student, que serd el tema de la seecion siguiente. La ji cuadrada se define como la suma de los cuadrados de variables indepen- dientes, normalmente distribuidas con medias 0 y varianzas 1. La sec. 3.6 se ocupa exclu- sivamente de una variable normal con media Q y varianza 1, mientras la sec. 3.7 indica c6mo transformar una variable normal en otra de media 0 y varianza I. Por lo tanto tene- mos . ~ at Kam (6.13) La ecuacién (3.13) es mas general de lo que necesitamos actualmente, pues estamos viendo el muestreo de una sola poblacién con constante. Al muestrear una distribucién normal, la cantidad SC = (m — 1)s? consiste en ta suma de los cuadrados de (nm — 1) desviaciones independientes, tal como se dijo en la sec. 2.8. Se puede demostrar que tales desviaciones tienen medias cero; la division por la o comin asegura que tengan varianzas unitarias, Ast 2-25 6.44 €s.un caso particular de la ec. (3.13) y eS la ecuacién que nos interesa ahora La distribucién y? depende del mimeso de desviaciones independientes, es decir, de los grados de libertad. Para cada numero de grados de libertad hay una distribucién y?. Algunas curvas de ji cuadrada se presentan en la fig. 3.8. Obviamente x? no puede ser negativa, ya que és una suma de nimeros al cuadrado "Se ve que mientras los maximos se desfasan hacia la izquierda de los gradosde libertad, las curvas tienden a ser més simétricas, al aumentar los grados de libertad. La media y la varianza de una distribucién x? son los grados de libertad y dos veces los grados de libertad respectivamente, Se acostumbra tabular solamente unos cuantos valores de cada una de muchas cur- vas. Ast, tenemos la tabla A.S. Las probabilidades se dan en laparte superior de la tabla, Jos grados de libertad en la columna de la izquierda y los valores de ? en el cuerpo de la tabla para las combinaciones dadas de P y gl. PROBABILIDAD 57 Figura 3.8 Distribucién de z? para 2, 4 y 6 grados de libertad. Ejemplo Encontrar el valor aleatorio de x? con 15 grados de libertad que sea excedido con una probabilidad de 0,25, esto es, encontrar xj tal que P(g? > xi) = 25 Utilice la tabla A.5 para los 15 grados de libertad y lea bajo fa columna encabezada 0.250. AMY x? = 18.2 y P(x? = 18.2)= 0.25. Ejemplo Encontrar la probabilidad de que se exceda un valor observado x” = 13.1 con 10 grados de libertad. Hallar 10 grados de libertad en la tabla AS y buscar ef nimero 13.1. El valor cae entre 12.5 y 16.0, valores de 4? que son excedidos con probabilidades entre 0.25 y 0.10. Asi pues P(@? & 13.1) > .10. Estos ejemplos ilustran los problemas que més a menudo se presentan, En ellos solo entra el uso de la cola derecha de la distribucién, a diferencia de Ja distribucin de Z donde pueden interesar tanto ambas colas como una sola. La distribucién de x? con un grado de libertad se relaciona directamente con Ia dis- tribucién normal. Considérese 2 con un grado de libertad para P = 0.10. En nuestra forma abreviada, P(x” 2 2.71) =0.10, segtin la tabla AS. Como por definicién este x7 es el cuadrado de una simple desviacin normal con media cero y varianza uno,,/y" debe ser una desviacién normal con media cero y varianza uno. Asf si vamos a la tabla A.4 con Z = /2.71 = 1.645, hallar‘amos la probabilidad de obtener que un mayor valor absoluto sea (1/2\0.10) = 0.05. A partir de la tabla A4,P(Z > 1.64) = 0.0505 y P(Z > 1.65) = 0.0495. Asi, toda la tabla normal A.4 esta condensada en una linea de la tabla A.S, la correspondiente a un grado de libertad. Notese que los valores de Z de ambas colas de la distribucién normal yan a la cola superior de x? con un grado de libertad debido que al dlevar el cuadrado desaparece el signa menos, mientras que valores de Z cercanos a cero, sean positives o negativos, van aun x con un grado de libertad en la cola cercana a cero. $8 BIOESTADISTICA: PRINCIPIOS Y PROCEDIMIENTOS Generalmente los valores cercanos a cero no son de especial interés, asi que la tabla de x? se usa ordinariamente con més énfasis en valores grandes, Ejercicio 3.9.1 Encontrar un x3 tal que: P(g? 2 x3) =0.05 para 10 erados de libertad ; P(x? > x3) = 0.01 para 12 grados de libertad; P(g? = x3) = 0.50 para 25 grados de libertad: Plz? < 72) = 0.025 para 18 grados de libertad Ejercicio 3.9.2 Encontear P tal que: P(z? 2 17.01) para 6 grados de libertad: P(y? 2 6.5) para 10 grados de libertad; P(x* 2 20} para 4 erados de libertad. Pty? < 3.8) 3.10 Distribucién ¢ de Student William Sealy Gosset, 1876-1937, cervecero © estadistico seguin se mire, escribié muchcs estudios estadisticos bajo el seudénimo de Student. Reconocié que el uso de s en vez de a en el caleulo de los valores Z para su empleo en las tablas normales no era de confiar en el caso de muestras pequeilas, y que se necesitaria otra tabla, Se interes6 por una variable muy relacionada con la variable ¢ = (¥ — 44)/sp expresién en que entran dos estadigrafos, Y y sy, envezde Z = (¥ — u)/ay .con uno. Ahora, el estadigrafo Fou a -7at G15) para muestcas de distribuciones normales, se conoce universalmente como f de Student, Como la x’, £ tiene una distribucién diferente para cada valor de los grados de li- bertad. De nuevo, nos contentamos con una tabla abreviada, la tabla A.3, con valores de ¢ en vez de probabilidades, en el cuerpo de fa tabla. En la parte superior fa tabla A.3 da las probabilidades para mayores valores de ¢ sin tener en cuenta el signo, Estas son las que a menudo se llama probabilidades de dos colas. Por ejemplo, para una muestra aleatoria de tamafio 16, en la linea de los gl = 16 ~ 1 = 15 y ta columns encabezada por 0.05, encon- tramos que P(Irl 2 2.131) = 0.05. La tabla A.3 da probabilidades de encontrar valores mayores de 1; estas se pueden lamar probabilidades de una cola. Asi, para una muestra aleatoria de tamafio 16, en a linea para 15 gl y a columna con 0.025 en la parte inferior, * encontramos que A{¢2 2.131) =0.025 = P(r S ~2.131) La curva de f es simétrica, como se puede deducir por los anteriores ejemplos. Es un poco més aplanada que la distribucién de Z = (¥ ~ y)/oy situdndose un poco por debajo de Z en el centro y por encima de ella en las colas. A medida que crecen los grados de li- bertad, la distribucién de ¢ se aproxima a la normal, Esto puede verse luego de un examen de las entradas de la tabla A3, ya que la ultima fila, gl = oes Ja de una distribucién normal, y los valores en toda columna se acercan evidentemente al valor correspondiente de esta distribucion. Una propiedad importante de ¢ para muestras de poblaciones normales es que sus componentes, esencialmente Y y s, no muestran indicios de una variacién conjunta, O sea que si se recolectan muchas muestras del mismo tamafio, se calculan Y y s y se representan grificamente los pares de valores resuitantes con ¥ y s en los ejes, los puntos se dispersan PROBABILIDAD 59. de tal forma que no dan muestras de relacion alguna, tal que grandes medias estén asocia- das con desviaciones estandar grandes. Para una distribucién distinta de la normal, se pre- senta cierto tipo de celacién entre los valores muestrales de ¥ y s en un muestreo repetido. Ejercicio 3.10.1 Encontrar f» tal que P(t 2 fq) ~ 0.025 para 8 grados de libertad; P(t < tq) = 0.01 para 15 gradosde libertad; P(|¢| > to) = 0.0% para 15 grados de libertad; 0.10 para 12 grados de libertad; P(—t) < ¢ < t) = 0.80 para 22 grados de libertad, Ejercicio 3.10.2 Encontrar P(t > 2.6) para 8 grados de libertad; Pir < 1.7) para 15 grados de libertad: P(r < 1.1) para 18 grados de libertad; P(-L.1 <¢ << 2.1)paraS gradas de libertad: P(|t| = 1.8) para 6 grados de libertad, - 3.11 Estimaci6n e inferencia Lo visto hasta el momento ha tenido que ver con muestreo de poblaciones conocidas. En general, se desconocen parimetros de poblacién aunque se pueden plantear hipétesis res- pecto a sus valores, La estadistica se acupa en gran medida con la toma de inferencias de parametros poblacionales, inferencias que son inciertas debido a que se basan en compro- baciones obtenidas de las muestras. Considérese ei problema de la estimacién de pardmetros, Por ejemplo, se puede desear conocer la produccién media de una variedad de trigo en su madurez, o el tiempo promedio para recuperarse de un resfriado, Es bien claro que ¥ es un estimativo de py que s? es un estimativo de o”, especialmente si aceptamos fa idea, propuesta en la sec. 2.12, del modelo aditivo lineal, Naturalmente, éstos no son los Gnicos estimativos de esos, pardmetros. ;Hasta dénde son estos estadigrafos buenos estimativos en esos pardmetros? A menos que se conozcan los parémetros, no se puede saber la bondad de estimacion que alcanza un pardmetro con un estadigrafo muestral; hay que conformarse con saber lo bueno que es ese estimative en promedio, esto es, saber lo bien que se comporta en un, muestreo repetido, o saber cuantos valores muestrales se puede esperar que caigan dentro de un intervalo dado en torno a un prametro, Par ejemplo, considérense 3 estadigrafos 0 formulas estimativas de 2, (La mediana, la media, y et punto medio de la amplitud, son tres estimadores aunque no necesariamente los del ejemplo). Dendtense esos estimadores, con fly, fiz y jty donde a (llémelo “sombrero”) indica un estimativo y no el propio para- metro. Estas formulas se conocen como estimadores o también estadigrafos, Todos los posibles valores de jis, jtzy iy pueden generar distribuciones tales como las de la fig. 3.9, donde jt, da valores bastante coherentes, o sea, que tienen una varianza relativamente pe- quefia, pero no estén centrados en y; j1 da valores consistentes centrados en 1; ji; da va- lores centrados en , pero més bien muy dispersos. El problema ahora consiste en selec- cionar la “mejor” formula, pero primero debemos definir el concepto “mejor”. En vez de definir “mejor”, considérense varias propiedades deseables y tratése de tener el mayor niimero de ellas asociadas con la eleccién de un estimador. Por ejemplo, insesgamiento exige que la media de todas ias posibles estimaciones que da un estimador, es decir, la media de la poblacién de estimativos, sea el parémetro que se estima, La media de una poblacion de Fes es sf el parimetro que se estima para la poblacién principal, de modo que ¥.es.un éstimadsr no 2 sesgado dey. La media de una poblacién es s?, 0 sea, p42, es 07, asi que 5? es un an samad TO sesgado de o?. Sin embargo, si el divisor de la suma 60 BIOESTADISTICA: PRINCIPIOS ¥ PROCEDIMIENTOS 2) » a ta i a fol # By Figura 3,9 llustracion de Ia seleccién de un estimador. de cuadrados ha sido n en vez de n — 1, entonces la estimaci6n es sesgada, F] sesgo no es un problema grave si se conoce su magnitud. Este seria el caso sin fuese el divisor en la es- timaciGn de o?. El sesgo es serio cuando se desconoce, ya que no se puede hacer ningin tipo de correccién para ef mismo. Otra propiedad deseable, es la de tener una varianza pequefia. Lo ideal varianza mi- nima, En la fig. 3.9, jt3 presenta una varianza muy grande, mientras que jy ¥ tz tienen varianzas comparativamente pequefias y se prefieren con esa base. Se dice, entonces, que los estimadores fi, y A, son mas eficientes que fy. La sencillez del cilculo constituye otra propiedad deseable. Toda estimacién que se encuentra mediante adicién y substraccién de miltiplos de abservaciones se llama funcién lineal de ellas. La media es una funcién lineal que requiere de un n-ésimo de cada observa- cin: la varianza y la desviacién estandar no son funciones lineales. Es claro que las fun- ciones lineales son ficiles de calcular. Si para un parimetro podemos encontrar estimadores lineales insesgados y si entre todos esos estimadores hay uno con varianza minima, entonces se dice que es el mejor PROBABILIDAD 61 estimador lineal insesgado, o el me.Li. tales estimadores. A pesar de que Y y s* son estimaciones de u y 07, seria sorprendente que fueran realmente jy 4? en ver de encontrarse en ta vecindad de éstos. Esto sugiere que puede ser més apropiado dar un intervalo en torno a ¥ 0 as? y decir que estamos razonablemente confiades en que y y a, se encuentran en ese intervalo. Esto puede hacerse con la ayuda de la distribucién t de la sec. 3.10. Para # y 0? dados, es posible definir un intervalo sobte el eje ¥ y dar la probabili- dad de obtener un valor aleatorio de Y en el intervalo; deseamos invertir el proceso y para Y y s? dados definir un intervalo y establecer la probabilidad de que us se encuentre en ese intervalo. Como f1 podrd estar o no en el intervalo, esto es, = 0 6 L, la probabilidad efec. tivamente ser una medida de la confianza puesta en el procedimiento que llevé a la afir- macidn anterior. Es como lanzar un anillo a un poste fijo; no cae en la misma posicién ni tampoco cae en el poste todas las veces, Sin embargo, podemos decir que es posible ensar- tarlo en el poste 9 veces de un total de 10, 0 el valor que sea la medida de la confianza en, nuestra habilidad. Para invertir el proceso, comenzamos con un enunciado probabilistico como el siguiente Ya hemos visto que no siempre insistimos en tener Pou | tors S St os) 35 (3.16) con raspecto ala variable aleatoria «= (¥ — p)/sy. Dice que la probabilidad P de que la variable aleatoria t= (Y — p)/sy se encuentre en —to25 y +Epas es 0.95. Primero ndtese que ¢ es tal cual la ec. (3.12) pero remplazando la desviacidn esténdar poblacional por su estimativo a partir de la muestra, Esto deja inicamente en la variable aleatoria, el pardmetro desconocido, o sea yz. Segundo, el subindice de £ se refiere a la probabili- dad de que un valor aleatorio de t caiga a la derecha del valor tabulado £ 925; asi la proba- bilidad de que caiga a la derecha de f 95 0 la probabilidad de que caiga ala izquierda de tors °80.025. Algebraicamente nos permite escribir la ec. (3.16) asf PUP ~ toassp <#

os oF te a oe zr 86 si~ 9 SI i ot 18 a5 6 sz 9 6 Ro z wu oom f noi ze u 99 a 9 6 AKA pepmne 4" =! pepun ey 4-4 =o peprun spouaragig sepeaivd pp oroumy — selouazagiq sepeord oporaunN — setouarogiq] seprared = @p oleunN sauorsearasag, sauoyoeAI3eqQ souopeAresag T' 11g) vy unBas sesopeaTe souOLOPAFOSGo a1IUD SeIOUDTAJIP 9p sersoMU SOIL Sy MTEL 78 BIOESTADISTICA: PRINCIPIOS Y PROCEDIMIENTOS Tabla 4.9 Distribucién de frecuencia de 250 medias de diferencias D, para muestras de 10 diferencias. Mareade 12 105 9 15 -6 -45 -1 -15 0 1530 4s 6 759 BS ROT frecuencias 41 0} 8 6 OM HM ww Fe 2 ot Tabla 4.10 Distribucion de frecuencias de las varianzas 53 de 250 muestras aleatorias de 10 diferencias segin Ja tabla 4.4 Marea de 6 100 140 180 220 260 300 340 380 420 460 $00 540 S80 620 660 700 740 Frecuencias § 14.24 37 40 34-19 16 12 15 13 7 1 4 23°01 Ba 2727 Ta = 2908 207 = 288 Tabla 4,11 Distribucion de frecuencias de las desviaciones estandar 8p de 250 miuestras aleatorias de 10 diferencias segim fa tabla 4.1. 789 10 M1 12 13 18 15 16 17 18 19 2 2 2 2 2% 25 26 2 Frecuencias 1 $4 7 8 17 24 28 29 26 19 13 19 10 16 1 4 4 3 5p = 16041 fT? = 16761 /5h= 165110 Za? = 1697 Ib En consecuencia, La varianza muestral side diferencias de observaciones pareadas es una estimacién no sesgada de 2c. Notese que 20 observaciones han proporcionado 10 diferencias y que como conse- cuencia de hacer las diferencias quedan solo 9 grados de libertad relacionados con Ia esti- macién de s}. En la practica, cuando la varianza de la diferencia entre dos medias se nece- sita a menudo, no se hace el pareamiento aleatorio y las diferencias no se usan para calcular D ys}. Mediante un reordenamiento de ia parte aritmética, es claro que D = ¥, — ¥). A partir de una s”, se estima la varianza 20? por 2s? = s}. Los promedios de tas desviaciones estindar de las diferencias son 55 = 16.04 y \/si = \/2727 = 16.51 Ib. De nuevo el promedio directo de tas desviaciones estandar esmenor que laraiz cuadrada del promedio de las varianzas, pero ambos son razonablemente cercanos 8 oy = (207 = /288 = 16.97 Ib, las desviaciones estindar presentan un leve sesgo; las varian2as son sesgadas. Se ha dicho que of = a?/n y que of, = 2a?, Ambos teoremas dicen que Ia varianza de una diferencia entre dos medias denotada pora}es igual a 2¢?/n cuando cada media MUESTREO DE UNA POBLACION NORMAL 79 contienen observaciones. Asi, = \/ 288/10 = 5.37 Ib.Para las 250 muestras, $y = «/si/n = TRIO = 5.221b.0 sp = /2s*/n = ./2808/10 = 5.30 Ib. A partir de un solo valor de s*, s¢ pueden obtener estimaciones de los siguientes pardmetros importantes: a7, 0}, 03,04, 0,09, 7p ¥ opLas interrelaciones en los térmi- nos estadisticos se muestran diagraméticamente en la fig. 4.3. Para cada una de las 250 muestras de 10 diferencias, se calculé ¢ como (D ~ 0)/sp una desviacin respecto de la media poblacional expresado en unidades de desviacién estindar de D. Notese que t = Disp = (¥, — Ya\/sp,-7, ya queD = ¥, — ¥,.Ladistri- bucién de estos valores de ¢ se da en la tabla 4.12 y es similar a la de fa tabla 4.7 para t= (P — p)/sy. De los valores de f, 118 son positivos y 132 son negativos; su media es ~ 0.00013. Catorce valores de r exceden el 5 por ciento de nivel de significancia en com- paracin con un nimero esperado de 12.5; 4 exceden el nivel del 1 por ciento en compa- racién con 2.5, Volviendo al problema de determinar si hay diferencia real entre las respuestas a dos tratamientos, vemos que el método de muestreo expuesto ha demostrado que se ha de esperar cuando no hay diferencia real y los resultados son atribuibles sdlo al azar. Los valores t = P/sy de la tabla 4.12 se ve que ajustan bien ala distribucién de lar de Student. En la situaci6n real, es, pues, necesario calcular solamente el estadigrafo ¢ y encontrar la ptobabilidad de un valor mayor o igual cuando el muestreo es aleatorio y cuando se reali- ten una poblacién cuya media es cero. Sila probabilidad de encontrar un mayor valor es pequeda y el experimentador no estd seguro de que el muestreo s¢ hizo en una poblacién con media cero, probablemente decidira que existe una diferencia real entre las respuestas a los dos tratamientos, El célculo de intervalos de confianza conduce al mismo tipo de inferencia, porque si el muestral es mayor que el S por ciento del nivel de probabilidad o fo,e25» Pot ejemplo, entonces el intervalo de confianza al 95 por ciento no contendré el cero, Si el intervalo de confianza, no contiene el cero, el investigador puede tener escasa confianza en una afirmacién de que no existe diferencia entre las respuestas a los dos tra- tamientos. et - fz 2 oe e vz 2 2 8 ol 8 Figura 4.3 Wustracién de las celaciones entre las desviaciones estandar y las varianzas, (EI diagrama no tiene que ver con el teorema de Pitagoras: en un tridngulo rectdngulo la hipotenusa al cuadrado es igual afa suma de los cuadrados de los otros dos lados).. 80 BIOESTADISTICA: RINCIPIOS ¥ PROCEDIMIENTOS, Tabla 4.12 Valores muestrales y tedricos de t = D/s5,9 gl, tn =0 Intervalo del Muestral . Tedrico Acumulada Frecuencia Frecuencia. §<—————-_-__ De A Frecuencia porcentual porcentual Unacola Das colas - =325000 1 04 05 1000 3250-28210 00 os #5 =2821 7 28 1s 99.9. 2262-18335 20 2S 915 -1833 -13830 14 36 50 95.0 1383-1100 13 s2 $0 900 =1100 -0.703 21 84 100 850 -0.703 00 n 284 250 750 00 0703 62 248 250 500 1000 0703 L100 24 96 100 250 500 1100138310 40 50 150 300 13830183307 28 30 10.0 200 1833-22629 36 25 30 100 2262-282 og 15 25 50 29213250001 Od os Lo 20 3250 3 12 05 os 10 250 100.9 Ejercicio 4.10.1 Dadas dos muestras de abservaciones pareadas: 110, 15, 13, 1 U1 Uo i 14 1, 13 4Cudl es el valor de Y,,? ¥2? Ys? Ya — Yaa? - He? Ejercicio 410-2 Dada st= 36, ,cudi es el valor de 55? sh? Dada s}= 12, jcudl es el valor de 53? 52? dada sh = 50. , cules el valor de s?? 53? sb? 4.11 Resumen sobre muestreo En la tabla 4.13 se presenta un resumen de los resultados obtenidos mediante e] experi- mente de muestreo, Este resumen indica claramente que con el muestreo ha sido posible demostrar varias caracteristicas y teoremas importantes relacionados con poblaciones de distribucién normal. En particular: 1. Las medias de muestras aleatorias de n observaciones se distribuyen normalmente con media pt y desviacidn estdndar ¢/,/n.(Este teorema es aproximadamente cierto MUESTREO DE UNA POBLACION NORMAL 81 Tabla 4.13 Un resumen de la informacién de: . 1,500 muestras de 10 observaciones Simboto * . Divisor _ Muestra_j noted |aee | YF | ow | fiw | xy valor |e | se | am | as | a fon] ans | oe | | Valor | 000 a a 7 Pablacién| simbolo |“ ? ° ° 2, 250 muestras de 10 diferencias Ton Simbolo] 3 p s Muestra is ] F Va | Je) 5 | Mio | YBa [Vator | -085 | arm [ aman [woe [ wear | vere [ ae fsa [sm ‘Valor o Rt 1597 sa Pobiacién |simbolo| + ab a oy 3. Valores de f Sin tener en cuenta el signo Namero | . i Nimero mayor que [ Numero mayor que Nimero de Media toy = 2282 tans = 1290 muestras | Mas | Menos [Observado | Esperado | Observado| Esperado 00 soon | ow | ae | Pm 1 3 20 Zoom | te | te “ Bs ‘ as con respecto a la normalidad de las medias cuando ef muestreo se hace en poblacio- nes normales y siempre es cierto con respecto a la desviacidn estindar). 2. Las medias de las diferencias de muestras aleatorias de # observaciones se distribu- yen normalmente con media cero y desviacién estandar ./ 207 )n. 3. Una muestra aleatoria propociona estimaciones no sesgadas dey, 0”, of, 73, o%. 4, Blestadigrafor = (Y — psy o t = (D —O)/sp = (Y, — Ya)/sp,-p, se distribuye simétricamente en torno a la media cero y sigue la distribucién tabulada de la ¢ de Student. . "98 APL '8°6 "995 “4961 OA PASI MH-MEIQOW “ps RE ‘sISAqeue [eorNSTIRIS OL LOTIOMpOZUT “UP ASR fA AEM SUONIC “Tb “ESEL) 1ZETIP26 “wor .STEUD pIatA AywsoHUN AOgGMEIIS., VOILE AW ATWO ORE Ty serouasajoy “COLE 998 Jaa) ugToeiad eUNsye aysixa Is 4aa ered ¢ OjnyIdeD Jap OUOVBOgE] ap orsozale ja ua (8 (4) SOplusigo seared so] ayuawestzeI8 seyuasoiday - 07x23 [9 Ua OZTY 9s OWOD JUNseI A UaUNSal ap SeloYy Ua Sase]D ap sojepIENsBoy = “¢ “SRIPAU SBIOUAIAJIP Se] BEd OIEIO 1od G6 A SH [Ss EZURUOD ap so[earayUI SOT (2 “Wsig =1 Pp (Pp “repUupisa uUgIOeIASep ef A ezuefEA ey (2 “(SBIPALU SUT ap EaUaZapIp BI Sa USIqUIa) 9nd) “SetauesayIp Sesa ap EIpawe] (g “souls sns Woo sefouarayip sey] (7 nBpNoTeo ‘sBz}SoNU ap sazed OoUIO sO] ap OUN Eped Bey t *(SBI30 op SeUN SaqUaoeA pe SBAT]NO +@SUOD SBIJSANUE JBIQ|OS UOI oJUaTOINS Sq “sazed ap ugIoeUO; Ef Us PEpalIojeaye ke] Tesndase eied ooruRsaw Osaooid sRU ap E}[S9OaU aS OU “SBOJEITE UOS SLIJSONUE OT SE] ouloD) ‘sared OY ap stuisanu ¢ sJaweyqo ered setroiaye sesysonw OT ap sazed sa0epy] “ezueiies ns A EIpall nS ap ‘dap Sa ‘ouaUIRLO}ESIE. seprazed souciseaiesgo ap UdIoNqIysIp B[ & SPANBTeI seUCTeIedUIOS 19U21qQ oNsQdoIg oueNd O7N}}dED [a UO WOIDe]a4 Ua O1J0JB10ge] ap O}sandoud o1Ioaly SOLNFIWIGAOOU A SOMIONTYd ‘VOILSIGVLSAOla@ = 7B CAPITULO CINCO COMPARACIONES ENTRE DOS MEDIAS MUESTRALES 5.1 Introduccién La mayorva de las personas usan la estadistica de alguna manera; se hacen enunciados de confianza respecto a muchos aspectos de la vida diaria, mediante un adjetivo, un adverbio © una frase. Los experimentadores hacen enunciados de confianza basados en investiga- ciones, asignandole a cada uno de ellos una fraccién decimal entre cero y uno, que es la medida de la confianza que s¢ ha de tener en ellas. Los enunciados de confianza respecto de medias de poblacién se expusieron en la sec. 3.11. A veces se cambia el problema y se pregunta si una media poblacional puede o no tener un valor dado. Por ejemplo, podemos en forma regular calcular el recorrido de un auto por tangue de gasolina. Supéngase que el valor promedio de esos valores es 12.5 millas/gal6n y que durante un periodo de tiempo, tomamos ese valor como un pardmetro. Ahora bien, debido al reclamo publicitario de los beneficios de un aditivo en una marca de la competencia, podemos decidir luego de probar algunos tanques de esa marca ¥ determinar si las 12.5 millas/gal6n es todavia el parametro. Eso es un problema de someti- miento a prueba de hip6tesis. En este capitulo trata pruebas de hip6tesis respecto de unay dos medias de poblacién. La t de Student es el criterio principal para esto, aunque se ha introducido F en anticipa- ci6n a una generalizaci6n a mds de dos medias y del andlisis de la varianza. Se considera el problema del tamafio muestral. $2 Pruebas de significancia En la seccién 3.11 se constrayé un intervalo de confianza para una media poblacfonal 1; el procedimiento es tal que un porcentaje dado de los intervalos contendran el pardmetro. Todo valor dentro de un intervalo de confianza es un candidato aceptable ay; ninguno de e308 valores se puede eliminar. a 84 — BIOESTADISTICA: PRINCIPIOS Y PROCEDIMIENTOS. Es claro entonces que el procedimiento del intervalo de confianza puede usarse para probar una hipétesis referente a Ia localizacidn precisa de un pardmetro. Se construye el intervalo de confianza; si el valor hipotético cae dentro del intervalo, entonces la hipd- tesis debe ser aceptable, ya que para los valores de j: dentro del intervalo de confianza, el azar y la hipstesis ofrecen una adecuada explicacin de los datos. En el capitulo 4, se tomaron 500 muestras de 10 observaciones y se construyeron intervalos de confianza al 95 y 99 por ciento, Se encontré que 480, aproximadamente el 95 por ciento, y 495, aproximadamente el 99 por ciento, de los intervalos contenian a 4. En la construccién se utilizaron valores tabulados de f, para fo,025 ¥ fo,005 ,cOn * gl y se seitalé que el mimero de valores muestrales f, sin considerar el signo, que excedieron a éstos, fueron 500— 480 =20 y 500 — 596 = 4, respectivamente. En efecto, esas muestras que produjeron intervalos de confianza que no contenian p fueron las inismas que dieron jos ‘valores de ¢ muestreados que excedieron de fo, a5 ¥ fo, 005. 20 valor absoluto, Eso su- giere la posibilidad de usar el ¢ muestral directamente en pruebas de hipétesis. El procedimiento de la prueba es pues obvio, Sit de la muestra, sin tener en cuenta el signo, es mayor que el f tabulado, to 25 , por ejemplo, entonces los valores mayores que los observados deben ocurrir con probabilidad inferior a 2(0.025) = 0.05. Esencialmente, el valor observado es mayor que lo que estamos dispuestos a aceptar que se deba al azar y a la hipétesis, Concluimos que la hipstesis es falsa aunque admitiendo que esa decision puede ser errénea si tenemos una muestra aleatoria no usual, lo cual es probable que ocurra 5 veces en 100 6 I en 20, si hemos escogido 0.05 como nuestra tasa de error acep- table, Examinemos de cerca el problema de la prueba. Nos proponemos calcular un ¢ muestral como criterio de prueba, mediante roe (6.1) En éste se mide la distancia entre nuestra estimacion de p, sea Y, y el valor hipotético, sea Hoi ¥ como unidad de medida se toma la desviacidn estandar de Y. Asi, el ¢ muestral es la desviacién de una variable normal ¥ respecto de su media hipotética medida en unidades de error estandar, 0 es el ntimero de desviaciones estandar aplicable a ¥ que separa a f y Ho - Obviamente, tenemos que especificar j4g para poder calcular un valor del criterio de la prueba, aunque podemos pensar que el enunciado, un tanto vago, “en fa yecindad de y’ seria una hipétesis adecuada, Cuando planteamos una hipétesis respecto a un valor de un pardmetro de tal forma que podemos calcular un criterio de prueba, entonces tenemos una hipdtesis nula, denotada pot Hy. Ahora podemos simplemente escribir Ho: 1 = to.» Si la hipétesis nula es correcta, entonces el ¢ resultante no deberd parecer fuera de lugar comparado con valores ordinarios de ¢, por ejemplo, entre, —to25 Y fox - Sin embargo, a veces rechazamos erroneamente una hipétesis nula porque simplemente ocurre que el t es muy grande numéricamente, Estamos razonando de la muestra a la poblacién, haciendo una inferencia incierta y necesariamente tendremos Ja muestra no usual ocasio- nal, Afortunadamente, el porcentaje alto de muestras raras, en una serie larga, con inferen- cias falsas, se puede controlar, Este porcentaje és nuestra rasa de error o nivel de signift- COMPARACIONES ENTRE DOS MEDIAS MUESTRALES 85 \Volores “ordinerios”* de P Hevan a valores “ordinarios’” 1, Pera se usa Pa. “a Mo « thiporético) (verdadero) Figura $.1 Consideracion de 7 - » y ? — uy para una distribucidn dada de f. cancia, generalmente designado por a; representa lo que cuesta tener que hacer inferencias inciertas. Por otra parte, el rechazar una hipdtesis nula que es cierta, se dice que comete- mos un error de tipo I, 0 un error de primera clase, Esto conlleva a que aceptemos Ho, sies cierta, con una probabilidad 1 — a. Cuando se rechaza la hipdtesis nula, necesitamos entonces una hipdresis alternativa, H, o Hg. Esta, usualmente, no especificara un solo valor sino sencillamente establecera como alternativa que #2 no es fg, que pes Mayor que ly, 0 que y €s Menor que Yo. En forma abreviada, usamos bien sea Hy: # Ho, Hy: H> plo, OH: B < Ho, Nétese que la eleccién de la hipétesis alternativa afecta a Hy hasta cierto punto, Para estos tres casos, podemos escribir ahora,Ho: w= Ho, Ho: tS Ho, Ho: M> Mo, tespectivamente. Si la hipétesis nula es falsa, entonces 4 no es igual ap sino a otro valor. Todavia calculamos ¢ con la ec. (5.1) con # = Yo, pero nétese que ¥ — po no es la desviacion que exige la ¢ de Student, sino que posiblemente es mayor que la desviacién ¥ — p. Esto se ve claramente en la fig. 5.1. Aqui vemos que Y se distribuye respecto a con varianza 97/n, La t de Student exige calcular ? — pcomo numerador. Sin embargo, tomemos fg como y asi calculames ¥ — pg . Solamente si F se encuentra bien en la cola izquierda de su dis- tribucién, entonces P — yo es pequefia y producird pues un valor de ¢ “ordinario”; para nuestra ilustraci6n, esto ocurre con una probabilidad pequefla. O sea que si el verdadero H no es Ho, entonces lo més probable es que el valor muestral sea mds grande y asi con fre- cuencia descartaremos la hipétesis nula, tal como se desearia hacerlo, Sin embargo, cuando 1 nO €s fp, esto es, cuando H, es verdadera, aceptamos algunas veces erréneamen- te Ho en vez de descartarla. Al hacer esto, cometeremos un error de tipo IT 0 error de se- gunda clase. La probabilidad de cometer este error se representa por 8.Claro que esta pro- babilidad serd pequefia cuando jig y la verdadera y estén bien separadas, y aumentard en la medida que se acerquen el uno al otro. Finalmente, nos interesa poder detectar H, cuando H, es verdadera. Es claro que esto supone no cometer el error de tipo II, asi que la probabilidad de que eso ocurra es 1—B. Esta habilidad para detectar H, cuando H, es verdadera se llama potencia de la prueba . En resumen, para probar una hipétesis, 86 BIOESTADISTICA: PRINCIPIOS ¥ PROCEDIMIENTOS. I. Tener la poblacién de interés claramente definida y formular una hipétesis con sen- tido, para la cual se pueda calcular un estadigrafo de prueba. Esta es la hipdtesis nula Hp. Plantear una hipétesis alternativa H’, en-caso de que lo que se compruebe no corrobore la Hy . 2. Escoger una probabilidad x con base en la gravedad de rechazar una H, cuando 2s verdadera; la probabilidad de aceptar Ho cuando es verdadera sera 1 — a. Simultd- neamente, tener en cuenta que es posible aceptar H cuando H, es verdadera, Cuan- do esta tiene probabilidad f,,entonces la probabilidad de aceptar H, cuando es ver- dadera seré 1 — g, La manera de balancear estos dos errores se trata en la sec. 3.12. Ahora, se Heva a cabo el experimento y se obtienen los datos. Las probabilida- des que se aplican en las etapas 1 y 2, la fase de planeacién, no se aplicarén cuando se estén analizando los datos, El investigador sacard entonces una conclusion que serd.cierta falsa segin cud] sea la hipdtesis que representa la situaci6n verdadera, las probabilidades reales de aceptar el parametro verdadero serin cero 0 uno. 3. Caleular el valor muestral del estadigrafo de prueba y hallar la probabilidad de obte- ner, por azar, un valor mds extremo que el observado, (Hasta ahora, hemos pensado en valores grandes como extremos, pero los pequefios serén no usuales con My para algan criterio de prueba). Como alternativa para caleular esta probabilidad, hallar el valor tabulado del criterio de la prueba de modo que la probabilidad de ocurren- cia, por azar, dé un valor mds extrema, sea el a escogido en la etapa 2. 4, Sila probabilidad en la etapa 3 es tal que el azar parezca inadecuado para explicar el resultado, entonces se concluye que la hipétesis nula es incorrecta y se la descarta, si la probabilidad es menor que el @ escogide en ta etapa 2; si no, se acepta Hy. Si se encuentra un valor tabulado del criterio de prueba, se reduce Ho si el valor mues- tral de este criterio es mas extremo que el valor tabulado; si no, se la acepta, El rechazo de una hipétesis nula es una afirmacién bastante fuerte. Estamos eli- minando definitivamente el valor especifico del pardmetro escogido para Hyen fa- vor de aigin valor no especificado incluido en el conjunto de altemativas. Por otra parte, la aceptacién de Ho no quiere decir que el valor especifico Uo sea el inico aceptable para el pardmetro;no hemos logrado rechazar H pero existen otros valo- res, presumiblemente en la vecindad de 4g , que pudieran haber servida, igualmente bien, como hipétesis nulas, Por e] momento, estamos hablando mds particularmente sobre f como un criterio de prueba, Asi, si deseamos comparar rendimiento en bushels por acre de un cultivo nue- vo y de uno corriente de maiz, entonces, en la etapa 1 podiamos proponer la hipétesis nula de que no hay diferencia entre las medias de las poblaciones para los dos cultivos Ho: 4 = 0, Podemos proponer como hipétesis alternativa que la media del nuevo cultivo es mayor, o que simplemente es diferente: Hy: >0 Hy:n#0. En la etapa 2, hagamos 2 = 0.05. Estamos preparados para rechazar la hipétesis nula, aun si es verdadera, alrededor de I vez en 20, en promedio. Por lo tanto, aceptare mos Hg unas 19 veces de un total de 20 cuando es verdadera. Nos damos cuenta que al aceptar Hg, nos equivocaremos si existe una diferencia 1eal de rendimiento entre los culti- vos; pudimos no haber evaluado este riesgo. COMPARACIONES ENTRE DOS MEDIAS MUESTRALES 87 Carer) Moi ke to fy: n>0 Regidn de aceptacion; valores Regién de aceptacion; valores ordinarios de t cuando Hg es ordinarios de t cuando Hy es verdadera. verdadera. tee ‘ 2.093 oO 2,093 Regién de rechazo; valores de f no Region de rechazo; valores no uusuales cuando Hp es verdadera, usuales de ¢ cuando Ho, es verdidera, ero facilmente justificado en la My: uO. pero facilmente justificados en la Hy: > 0. Figura 5.2. Regiones de aceptacién y rechazo para la ilustracién del texto. Ahora se realiza el experimento. Se miden varias diferencias, pot ejemplo, (rendi- miento del nuevo cultivo) — (rendimiento del corriente), Estas diferencias son aleatorias, como resultado de cierto procedimiento y provienen de una poblacién que se supone normal con media 4 desconocida y desviacién estindar ¢ desconocida. A partir de los datos, calculamos un valor de f con Ja ec. (5.1), remplazando 1 por el valor hipotético = 0. Esto es parte dela etapa 3. ‘Como todavia no estamos usando un ejemplo numérico, no tenemos un ¢ muestral para él cual podamos calcular Ia probabilidad de encontrar un valor mds extremo. Supon- dremos que se dispone de 20 diferencias aleatorias y encontramos el valor critico cuando z= 0.05. ‘Lo que constituye un valor extremo de ¢ dependerd de Hy. Asi, si Hy: « #0, en- tonces cualquier valor de ¢ que sea numéricamente grapde es up valor extremo ¥ es sufi- ciente raz6n para rechazar Ho . En la tabla A.3 y para 20 —'1 = 19 gl, encontramos que = 2.093 es tal que P(|r| > 2.093) = 0.05; éste es el ¢ tabulado que en la etapa 3 resulta ser el valor critica. Aquf tenemos una pruebade dos colas, con referencia a las alternativas. Por otro lado, si, p > 0, entonces, estamos buscando valores grandes positivos de r para respaldar H, y eliminar Hy. En la tabla A3 para 20 — 1 = 19 gl, encontramos que f = 1.729 es tal que P(t > 1.729) = 0.05; éste es el valor tabulado de ¢ apto para la etapa 3 si H,: 2 > 0. Aqui tenemos una prueba de una cols. Finalmente, aceptamos 0 rechazamos Hy de acuerdo con el procedimiento de la etapa 4, La figura 5.2 muestra diagramaticamente lo que sucede en la anterior ilustracidn. El valor tabulado del criterio de prueba, que corresponda al nivel de significancia clegido, separa los posibles valores de ¢ en dos clases: Ia regién de aceptacion y la region de recha- 20 0 region critica. A los valores de + de 2.093 y 1.729 para esta ilustraci6n se les Hama valores eriticos. En muchos campos de experimentacién, se acostumbra usar los niveles de signifi- cancia del 5 y del 1 por ciento. Si por azar un valor més discrepante del criterio de prueba que el obtenido ocurre probablemente menos del 5 por ciento de las veces pero no menos el 1 por ciento cuando Ia hipdtesis nula es cierta, entonces se dice que la diferencia es ificante, y el valor del criterio de Ja prueba se marca cor Uni asteriscd. Siun valor més discrepante del criterio de prueba que ef obtenido ocurre con probabilidad menor que el 88 | BIOESTADISTICA: PRINCIPIOS Y PROCEDIMIENTOS Tabla 5.1 Decisiones y sus resultados Los datos son de una poblacion para la cual riode prueba La decisin_ —— LL muestsal ests en es Hg escierta Hy os fatsa ify es falsa H, es eierta Larogion de aceptacién Acoptar Decision correcta Decisién incorreeta 0 sea que no es Hy La probabilidad debeser alta: Se comete errar de tipo U. significante Rechazar — Simbolo: 1 ~ x= coefi- La probabilidad debera Hy cionte de confianza. ser baja Simbolo: 8 Larcgién de rechazo, Reehazar Decision incorrecta Decisidn corcecta © sea que es 2, Se comete error de tipo 1 La probabilidad debe significante Aceptar La probabilidad dobeser baja sor alta: 4, Simbola: = Nivel de significancia. Sjinbolo: | — f= 1 por ciento de las veces cuando la hipdtesis nula es verdadera, se dice que Ia diferencia es altamente significante y el valor muestral de! criterio de prueba se sefiala con dos asteris- cos. La aceptaciGn de la hipétesis nula puede indicarse con las letras ns. Los niveles del 5 y del 1 por ciento son arbitrarios, pero parecen haberse escogido adecuadamente en el campo de Ia agricultura donde fueron usados por primera vez. En el caso de experimentos de tamafio pequefio, es posible que la hipétesis nula no sea rechaza- da probablemente a esos niveles, a menos que exista una diferencia real més grande. Esto sugiere la elecci6n de otro nivel de significancia, quizd el 10 por ciento,en experimentos Pequefios. Si un experimentador usa niveles diferentes del 5 y del 1 por ciento, esto debe quedar claramente establecido. Los resultados de posibles decisiones en relacién con posibles hipdtesis se resumen enla tabla 5.1, 5.3 Prueba de hipétesis de que una media poblacional es an valor dado Sean yy a? él promedio y la varianza de una poblacién, Se extrae una muestra aleatoria de tamafio n y se calculan Ja media y la varianza de la muestra, ¥ y s?. Para probar la hipétesis Ho: = vo suponiendo que 1a poblacién tiene distribucién normal, el criterio de prueba se da mediante la ec. (5.1) como Y= Ho (52) sha (Un criterio en que interviene un estimativo de o* fue primeramente estudiado por Stu- dent en 1908. Elaboré la distribucién de un estadigrafo relacionado, al cval lamé Z. Mas tarde R.A. Fisher hizo la distribucion de ¢, la base de la tabla A.3). En la primera ilustracién, sup6ngase que tenemos un vator de = fi como hipé- tesis nula y que la alternativa es simplemente 1 # plo. Be yee, COMPARACIONES ENTRE DOS MEDIAS MUESTRALES 89 Considérese la muestra 1 de Ja tabla 4.3. Sabemos que 4 = 40, asf que probernos Ho: # = contra H,: 4 $ 40. Tenemos ¥ = 36.4 y s? = 264.04, Luego 36.4 — 40 —0.701, /264.04/10 ol En la tabla A.3,con 9 gl encontramos que P(|t| > .701) >0.5, pero muy cerca a 0.5. De otro modo, obsérvese que — 0.701 cae entre — 2.262 y 2.262, No hay razon para pensar que — 0.701 sea un valor no usual de f si = 40. Aceptamos ta hipStesis nula y rechazamos la alternativa, En este caso, sabemios que hemos aceptado 1a hipétesis nula, correctamente y con certeza. Ahora ilustremos fa prueba de una cola usando los datos de los corderos en la pri- mera columna de la tabla 5.2, Esos datos son coeficientes de digestibilidad de la materia seca, alimentados con ensilaje de maiz, medidos en porcentajes para 7 corderos. Tabla 5.2 Coeficientes de digestibilidad de materia seca, alimentados con ensilaje de maiz, en porcentaje. ¥, (Corderos) ¥, (Novitlos) 378, 42 362 587 619 o 544 65 536 598 564 592 532 Ly 3935 3675 Ev? 217441 22,53587 r ‘56.21 por ciento 61.25 por ciento Ly — RY = EF - © YP em, = 2217841 — 22,120.32 = 54.09 = (ny — 1st Ely Pa =D YE ~ (0 Ying = 22,535.87 — 22,509.37 ~ 26.50 = (0 1)6b pe LULL Hin +E YE-(E Ping -Be ee = 733, im — D+ (= 1) 6+ un estimativo de la a? comin a= (nt) tiny = mat te, fet). fiss ss = J227 =151 por ciento, ta desviacion VP mm estindar apropiada para la diferencia entre las medias muestrales, 5621 ~ 6125 _ -5o4 ih Gr 7 3a Para ¢! intervalo de confianza el 95 por ciento para j4p—p2), Fy~ ¥, + tga95%,—Fy = 5.04 * 2.201(1.51) = 5.04 * 3.32: 1) = 1.72 por ciento y ly =8.36 porciento 90 BIOESTADISTICA: PRINCIPIOS Y PROCEDIMIENTOS Supongamos que un segundo investigador esté trabajando en el mismo problema ge- neral, pero en otra raza de corderos. Este investigador se did cuenta que la investigacion estaba en progreso y decidié que cuando los datos estuvieran disponibles, él probaria la hipotesis nula Hg: 4 = $4 por ciento con la alternativa H,: > 54por ciento, pues su gran experiencia le hizo pensar como valor del parémetro el 54 por ciento, También, se hab fan acumulado pruebas de que existia una buena posibilidad de que la taza en investigacion tuviera una media mayor a este coeficiente, Calculese 56.21 — 54.00 = eae 7 1987 a Obsérvese que a diferencia esta en Ia direcci6n esperada con H,,; de otra manera aceptarfamos la hipétesis nula. Ena tabla A.3 con 6 gl, encontramos P(t > 1.947) <0.5, aunque se encuentra casi exactamente en el valor critico def = 1.943. Rechazamos Ho y aceptamos Hi. Si un intervalo de confianza es de interés, talvez se quiera conocer la locatizaci6n del minimo valor aceptable de 4, ya que la alternativa es H: «> 54 por ciento. ‘Comenzamos con el enunciado probabilistico (93) La solucién algebraica de este enunciado con respecto a la variable aleatoria(Y — y2)/sp lle- vaa Plu > P—tosse) = 95 (4) Este es un enunciado probabilistico con relacién a la localizacién del limite inferior, Y — tos sy , para el estimativo del parametro yu. Encontramos que este limite inferior es sea — 1943 [¢ 5/8). saoos Decimos que a menos que tengamos una muestra no usual, el pardmetro jz no deberd ser menor de 54,005. EI modelo lineal aditivo para una sola muestra se vid en la sec, 2.12. ‘ Bjercicio $.3.1 Los pesticidas que se aplican a los cultivos pueden afectar alos seres humanos. Un sintoma det efecto de un pesticida es la reduccién en el cerebro de ta actividad de la acetil- colinesterasa (ACE) y una reduccién grave puede ser peligrosa para las funciones del cuerpo. ‘Cuando se asperja el algodén con un pesticida, un criterio de la‘existencia de tal reduccién es ver si se presenta o no reduccidn en la actividad del ACE en codornices en los limites de los cul- twos, COMPARACIONES ENTRE DOS MEDIAS MUESTRALES 91 En ana recoleccién se hicieron tas siguientes 6 observaciones, promedios de dos determina- siones, en la actividad cerebral del ACE en codornices: $6.03, 83.67, 95.24, 92.94, 83.12 ¥ 80.224, En el supuesto de que las aves constitu(an una muestra aleatoria, construir el Limite superior, usando = = 0.01 para la lacalizacién det pardmetro En otra recolecciGn se hicieron las siguientes observaciones: 23.76, 34.59, 56.22 y 68.22. De nwevo, encuentre ef Limite superiot con x = 0.05 para a localizacién det parimetzo a Ejetcicio 5.3.2 A siete observadores s¢ Jes mostié, durante un lapso corto, una red con 161 moscas y se les pidis que estimaran el numero, Los resultados 10s da Cochran (5.2). Basadas en 5 estimaciones los valores fueron: 183,2, 149.0, 154.9, 167.2, 187.2, 158.0 y 143.9. Defina una poblacién razonable d¢ Ia cuai pudieron haberse obtenido estas medias. Probar la itipétesis nula de que la media de la poblacién es 161 moscas, usando a = 0.05. Construir un intervalo de confianza para j del 95 por ciento. Ejercicio 5.3.3 Los rendimientos de 10 plantas de fresas en un ensayo de uniformidad los presenta Baker y Baker (5.1) asi: 239.176, 235,217, 234, 216, 318, 199, 181 y 225 g. A195 y 99 por ciento, calcule los intervaios de confianza para la media poblacional. Probar la hipdtesis, # = 205 (escogida arbitrariamente) con la alternativa 4 ¥ 208 al 5 por ciento de nivel de signifi- cancia, Ejercicio $.3.4 Supéngase que un fabricante de llantas mide en miles de millas, el periodo de vida de 10 lantas, Encuentra que F = 26.68 y 5 = 12. Probar la hipdtesis mula de que 4 = 25.0 con H,: u > 25.0. Construir un intervalo de con- fianza del 95 por ciento para 4 de un solo lado de tal forma que dé un limite inferior del pardmetro. Ejercicio $3.5 Las larvas de algunas mariposas monarcas conzentzan glucésidos casdiacos a partir de plantas de algoncillo, que las hacen repugnantes para fos pijaros, los cuales las evitan después de un primer encuentro, ‘Supénease que las mariposas han sido recolectadas en una localidad y que se han medido las concentraciones de glucdsidos en relacién a sus pesos deseados. Supdngase que los datos resultantes son F =0.200 y s* = 0.012 paar =75, Construir un intervalo de confianza del 95 por ciento parala verdadera media de la pobla- cién, Probar ta hipétesis aula de que 4 =0.150 con Hy: x # 0.150: =0.150 puede considerar- se como el parimetro para otra localidad. 54 Pruebas de dos o mds medias. Supéngase que tenemos dos poblaciones con medias 1, y 2 . Se extrae una muestra alea- toria de cada poblacién para probar la hipétesis de que 1, Y #2 estén separadas por una cantidad especifica, que usualmente se toma como cero. Para la hipétesis nula de no diferencia, ¢ se define como 2k (55) Sor * Datos usados con el permiso de P.C. Smithyon y OT. Sanders, También ver fa referencia 5.11. 92 BIOESTADISTICA: PRINCIPIOS Y PROCEDIMIENTOS Aqui, sp,-p, es la desviacién estandar apropiada para una diferencia entre dos medias aleatorias de una poblacién normal, Una vez mis, obsérvese que ¢ mide la distancia de una variable aleatoria o una media hipotética en unidades de desviacién esténdar de !a variable aleatoria, Cuando las distri- buciones subyacentes son normales con una varianza comin, este estadigrato se distribu- ye como la f de Student, tabla A.3, si el valor hipotético es el verdadero valor, pero no si la hipétesis es falsa. Si el ¢ muestral no puede atribuirse razonablemente al azar y a la hipstesis nuta, concluimos que ¥, — ¥; es muy grande porque wu, # py. El cilculo de sp, -y, depende de si Las dos poblaciones tienen una varianza comin o? Los valores de los ?, 0 el ¢? comtn, se conocen o se estiman Las dos muestras son del mismo tamafio y Las observaciones son pareadas aepr La eleceién de una regién de rechazo depende de El nivel de significancia escogida 2 El tamaiio de Ja muestra La prueba necesaria, esto es, si es de una cola o de dos colas. » La prueba estd disefiada para dos medias y obviamente no es adecuada para genera- lizar a mas de dos medias, ya que no tenemos forma clara de definir un numerador para la generalizacién. Se necesita un nuevo enfoque que ahora vamos a considerar. La varianza en una poblacién de medias muestrales es 6?/n, donde a? es la varianza de los individuos en una poblacién principal y todas las muestras son de tamafio », Esto implica que pueden usarse las medias para estimar o7. Asi, usando las medias de dos muestras, calculamos un estimativo de o7/n mediante (¥; — 7)?/(2 — t)lo cual al mul- tiplicar por m estima a 07. Un segundo estimativo de a? puede encontrarse directamente a partir de los individuos de cada muestra. Ahora, cuando 1, # 4, pero las poblaciones tienen la misma varianza, el estimativo de 07 basado en medias muestrales tender4 a sobreestimar a? debido a que la diferencia entre las ¥ incluiré una contribucién atribuible a la diferencia entre las medias poblacio- nales lo mismo que cualquier diferencia aleatoria. Asi, en general, si las 41; difieren, se espera que las Y sean més variables que cuando sdle actiia ¢l azar. Por otra parte, un esti- mativo basado en los individuos se calcularia dentro de las muestras individuales usando desviaciones de cada estimativo respecto de una ;, En esta forma, las variaciones entre las H; Podrian no contribuir a la estimacién de a7. Por tanto, en una prueba de significancia de una diferencia, esto es, una prueba Ho: #y ~ Hz = 0 con Hy: uw, — pp, #0 puede entrar en juego la razén de dos de tales estimativos de a?. En particular, la ecuacién (5.6) define un criterio de prueba comin = Sstimativo de o? a partir de las medias . 66) estimativo de o? a partir de los individuos COMPARACIONES ENTRE DOS MEDIAS MUESTRALES 93 Los valores de F se dan en la tabla A.6 para 5 valores de probabilidades y varios pares de grados de libertad de numerador y denominador. Para dos medias, el estimative de para el numerador se basa en un s6lo grado de libertad; en este caso, la raiz cuadrada de Liene distribucién de ¢ de Student. 5.5 Comparacién de dos medias muestrales, muestras independientes y varianzas iguales Sean 1, y st; dos medias de dos poblaciones. Se toma una muestra eleatoria de cada po- blacién, Sean las medias de las muestras, sus varianzas y tamafios: F,, f2. 51.53, my M2, respectivamente, Con estas muestras aleatorias vamiosa probar la hipotesis nulaHo: 4, = Hz suponiendo que las poblaciones se distribuyen normalmente y tienen una varianza comin pero desconocida. Elcriterio de prueba es pa (Poe) = (Fe = oa) _ (Pi = ¥2) — (a = #4) (57) Ste Say Fa el cual para Ho: 4, = 2 se convierte en Ja ec. (5.5). En general la diferencia 4, — pty puede hacerse igual al valor hipotético que el experimentador suponga, En el criterio de la prueba, sp,-p, es un estimativo de oy, -», sujeto a la variacion de muestreo. Primero estimamos ¢” mediante la combinacin de tas sumas de cuadrados de las dos muestras y dividimos por los grados de libertad combinados: (ty = Dsi + (m2 — 18 (m, — 1) + (nz — 1) (5.8) Este es un promedio ponderado de las varianzas muestrales y es superior al promedio arit- mético, el cual da igual ponderacién a las varianzas muestrales. El promedio ponderado y el promedio aritrético coinciden cuando las muestras tienen igual tamafio, El criterio 2, cuando H, es verdadera, se distribuye con la ¢ de Student para muestras aleatorias de po- blaciones normales, pero las discrepancias considerables respecto de la normalidad pueden no afectar seriamente a la distribuci6n, especialmente en las cercanias de los valores cri- ticos, 5 y I por ciento, usados generalmente. Caso 1, La prueba cuando n, + n,.Calcilese sp,-y, mediante L 1 ny +n. _ a 2 je ) po alae f syone fel [ol ) 659) Aqui s? es el promedio ponderado de las varianzas muestrales, ec. (5.8). Se da un ejemplo en la tabla 5.2 para datos tomados de Watson et af (5.13). El i tervalo de confianza para pt — #ty en vezde p14 — pz se calculé solamente porque ¥, — ¥; €s positivo. 94 BIOESTADISTICA: PRINCIPIOS ¥ PROCEDIMIENTOS. Tabla 5.3. Andlisis de la varianza de tos datos de la tabla 5.2 Fuente de variacién gi Sumade cuadrados Cuadrado medio F Cordezos 0 novillos 1 81.93 81.93 nage Entze cordetos tentre novillos 6+5 $409 42680733 Total 2 162.52 Cuando se usa el criterio F, los resultados se presentan generalmente en una tabla de andlisis de la varianza, donde cada varianza 0 cuadrado medio es un estimativo de la misma o? sila hipstesis aula es verdadera (ver tabla 5,3). Para calcular el numerador de F, recordar que (¥, — ¥;)° estima 2c} = 207/n. Para estimar o?, hay que multiplicar por nj2. Cuando las medias provienen de muestras de diferente tamafo, el cuadrado de las diferencias es un estimativo de o?(n, + n,)/n, n,; por tanto, para tener un estimativo de o*, multiplicamos pora ny /(ny + z).Asi (56.21) — 61.25)?(6(7) (6 + 7) = 81.93 es un estimativo de 0” , basado en medias. (El calculo efectivo se hizo con totales; el que se hace con las medias difiere un poco debido a Jos errores de redondeo). Notese que nm, ra /(n, + nz) es el inverso del multiplicador de s* cuando f es el criterio y se calcula sy,_p, Ahora 1? = F, siempre que F tenga un grado de fibertad asociado con el numerador, asf (3.33)? y 11.19 son iguales dentro de tos errores de redondeo. Notese también que los grados de libertad y las sumas de cuadrados en el cuerpo de la tabla dan la suma total. La tabla A6 es lade los valores tedricos de F para varios niveles de probabilidad. La primera columna es para los casos en los cuales sélo entran das medias muestrales. (1,11) = 4.84 al nivel det 5 por ciento y 9.65 al del 1 por ciento. Como el F'= 11.18 muestral es mayor que 9.65. se concluye que la diferencia es altamente significante. Ala misma conclusién se llega con ¢ como criterio de prueba. Caso 2. La prueba cuando n, = 1, =n, También se aplica el procedimiento dado en el caso 1. El criterio es £ en la ec. (5.7) sla ec. (5.9) se reduce a Los grados de libertad son 2(n ~ 1). En la tabla 5.4 se opera con un ejemplo usando datos de Ross y Knodt (5.6). Como Ia diferencia observada entre medias s6lo es significante al nivel del 5 por ciento, el intervalo de confianza no contiene el cero, aunque lo contiene el intervalo de confianza al 99 por ciento. Cuando a? es conocida, el criterio de la prueba se convierte en 7,-%) Vem +7nz)nyn, (5.11) COMPARACIONES ENTRE DOS MEDIAS MUESTRALES 95 Tabla 5.4 Ganancia de peso en novillas Holstein . control ¥, vitamina A 175 142 132 3u 218 337 1ST 262 200 302 219 195 24 253 149 199 187 236 123 216 248 2ut 206 176 179 249 206 214 Y 2627 3,303 ¥? 511,807 817,583 PF 1876 1b 235.9 Ib ny sny sna ld Ly PP HL VF - (L ¥,) fem S11, 807 - 492,938 = 18,869 = (m, ~ 1st Ly — Pa =D EL ¥4)'/n = 817,583 — 779,272 w= 38,311 = (n, — Is} YO Hin E- H'm ~ Ae Kam, a= 1) 2 Un estimativo de la a? comin Bh An — 1) = 26 5-2, = z = 2B) <3 tb, a desviacion estindar apropiada para la diferencia entre medias muestrales 35.9 — 483 . woe a 2.73%; (C005 = 2.78) Para el intervalo de confianza al 95 por ciessto. 7, — P, + t.o2s5v,-r, = 48.3 + 2.056(17.7) = 48.34 364; 1, = 119 y 1, = 847 Ib. . Para el intervalo de confianza al 99 por ciento. % — ¥, +t oossr,-r, = 48.3 + 2,.77917.7) = 48.34 492;1,= -09 y 1, =975Ib. el cual se compara con valores tabulados en la ultima linea de la tabla de la ¢ de Student, Estos valores se toman de las tablas de la distribucién normal. ~ Ejercicio $5.1 En un programa de salud, muchos participantes miden su progreso mediante el tiempo que les toma correr determinada distancia, Un predictor de ese tipo lo constituye la tasa de recuperacién card aca (TRC) ideada en la Universidad de Harvard, Los datos siguientes son tiempos, en minutos y segundos, para una carrera de 1.5 millas para hombres que han estado corriendo por algunos afios y comenzaban una nueva estacion. 96 BIOESTADISTICA; PRINCIPIOS Y PROCEDIMIENTOS Los hombres se han repartido en eategorias. Los de TRC de 40-49 6 50-59, TRC1s 0 TRC2s res- pectivamente* 8, 8:34, 11:16, 11:52, 8:28, 12:01, 11:03, TRCI Tiempos: 12:24, 12:45, 14:04, 11:22, 11: 12:01, 11:31 TRC2 Tiempos: 14:33, 10:35, 12:51, 11:28, 11:48, 14:05, 10:51, 18:50, 18:11 Usar z= 0.05 y probar la hipstesis de que no hay diferencia entre los tiempos medios de las dos poblaciones. Calcular un intervalo de confianza al 95 por clento para las diferencias entte las medias de las dos poblaciones, {Como se hubiera podido utilizar et intervaio de con- fianza para Hegat a las mismas conclusiones que con la prueba de significancia? Ejercieio $.5.2 Datos similares a tos del ejercicio 5.5.1 pero para nuevos patticipantes son* TRC1 Tiempos: 10:22, 9:33, 9:16, 11:28, 10:59, 13:55, 10:10, 11:46 TRC2 Tiempos: 10:36, 10:40, 11:31, 12:55, 12:58, 10:54, 11:34, 11:15, 13:43 Usar «= 0,05 y probar Ia hipétesis de diferencia nula entre los tiempos medios de carrera para las dos poblaciones con la alternativa TRC2 mayor que TRCL. Estimar 1a diferencia media by ~ #4, usando un intervalo de confianze de un s6lo {ado que proporcione un limite inferior para la diferencia, ;Pueden tos dos procedimientos dar la misma informacién con respecto a si la diferencia es 0 no cero? Ejercicio $.5.3 Seria de esperar que una poblaciéa con mayor experiencia produjera menores tiempos de carrera, Probar la hipétesis usando los dos conjuntos de tiempos de carrera para TRCL individuales de los ejercicios $.5.1y 5.5.2. Ejercicio 55.4 Repitase el ejercicio 5.5.3 para los dos conjuntos de datos TRC2. Ejercicio $55 de éstas, 15 fueron ati cultivo de una variedad de guayule, se seleccionaron $4 plantas al azar, De jcas y 12 aberrantes. Los porcentajes de caucho para estas plantas fueron:"* Atipicas: 6.21, $.70, 6.04,4.47, 5.22, 4.45, 4.84, 5.88, 5.82, 6.09, $59, 6,06, 5.59, 6.74, 5.55 Aberrantes: 4.28, 7.71,6.48, 7.71, 7.37, 7.20, 7.06, 6.40, 8.93, $.91,551,6.36 Probar la hipdtesis de diferencia nula entre las medias de las poblaciones de los porcentajes de caucho, Calcular un intervalo de confianza del 95 por ciento paza la diferencia entre medias de las dgs poblaciones, Presentar los resultados ea una tabla de anilisis de varianza, Compazese F cone”, Ejercicio 5.5.6 Los pesos en gramos de 10 machos y 10 hembras jovenes de faisanes de cuello anillado atrapados en enero en el jardin botinico de la Universidad de Wisconsin fueron:* Machos: 1293, 1380, 1614, 1497, 1340, 1643, 1466, 1627, 1383, 1711 Hembras; 1061, 1065, 1092, 1017, 1021, 1138, 1143, 1094, 1270, 1028 * Datos obtenidos por cortesia de A.C. Linnerud, North Carolina State University. ** Datos cortesia deW.T. Federer, Comeli University, Ithaca, Nueva York. * Datos cortesfa de Departament of Wildlife Management, University of Wisconsin, Madison, Wis- consin, COMPARACIONES ENTRE DOS MEDIAS MUESTRALES 97 Probar la hipétesis de que hay una diferencia de 350 g (valor escogido solamente por razones ilustrativas) entre las medias poblacionales en favor de los machos con la alternativa de que la diferencia es mayor de 350, Esta es una prueba de una cola. icio 5.5.7 Si se tuvieran més muestras (k > 2), ;c6mo se podria combinar la informacién para estimar una o* comin? Sugerencia: Generalioese Ia ec. (5.8). 5.6 Modelo lineal aditivo El modelo fineal aditivo (ver sec. 2.12) trata de explicar una observacién como una media més un elemento aleatorio de variacién, donde la media puede ser la suma de varios com- ponentes asociadas con diversos efectos de fuentes de variaciGn, Para muestras de dos poblaciones con medias posiblemente diferentes pero con varianza comtin, la composicién dg una observacion esta dada por Yy=utaytey (5.12) donde i= 1,2 ¥/=1,...m parai=1y/= 1... ,m parait= 2. (rcoresponde a la letra griega tau). El modelo explica la observacién i-€sima de la poblacién i€sima como com- puesta de una media general 1, mas una componente r, para la poblacién de que se trata, més de un elemento aleatorio de variacién. En términos de la sec. 5.5K +7, = 1, ¥ +t, =. Por comodidad, cuando n, =m, hacemos p= (jt, + 4y)/2 de modo que 1 +1,=0 0 t= —t ,0 sea que las t se miden como desviaciones. Ast, si r, repre- senta un incremento, entonces t; = —r, representa un decremento igual. Si bien esto puede no ser cierto, no afecta la diferencia entre las medias, es decir, 2r; y la diferencia es el aspecto importante del problema, mientras que es simplemente un punto de referen- cia conveniente. Cuando n, 4 nz podemos hacer n, t, + 1, t, = 0. Se supone que los & provienen de una sola poblacién de ¢ con media u = Oy varianza 07. Puede estimarse, entonces, 6? a partir de una o de ambas muestras. La diferencia entre este modelo y el de la sec. 2.12 esque éste es mds general; nos permite describir simulténeamente dos poblacio- nes de individuos. Examinemos las observaciones, los totales y las medias muestrales. Obsérvese que la notacién para las sumas, ¥.., y , y para las medias, ¥,. y &. La notacién con puntos es otra manera de expresar ), La sumatoria se extiende a todos los valores del subindice para el lugar ocupado por el punto. Muestra 1 Muestra 2 Yinatntin Yat eben Yieee ten Yamane ten seat oO Yaa, SH + Cay Eyebeam tay. EY Yow tats + ap % Fiwwent wate, 98 BIOESTADISTICA: PRINCIPIOS ¥ PROCEDIMIENTOS Para obtener s*, se calcula XE O4)- PP = tm = Ost T Esta suma de cuadrados se asocia solamente coa los ¢ , pues 1 + T, es comtin a todas esas observaciones y no afécta por lo tanto a su variacién. También calculamos 2%, ~ FP 7 asociada solamente con Jos ¢ . Como las poblaciones tienen una varianza comtin a7, es decir, puesto que existe una sola poblacién de ¢ , estas sumas de cuadrados se combinan para estimar aa”, como se ve en la ec. (5.8). A la estimacién de muestreo a? no cont: buyen los r. . Ahora considérese( Yi. — Yz.) = (t1 — t2) + (&1. — 2). Estees el aumeradorde t; se utiliza en ei cdlculo del numerador de ¥. En la hip6tesis nula, las poblaciones tienen la misma media y t; =t, =O también, ¥,. — ¥,. es una diferencia de dos medias de observaciones de la misma poblacin y tiene una varianza que es multiplo de c?. Asi silos se distribuyer: normalmente, ambos, f y F, son criterios apropiados para probar hipdtesis nulas, La cantidad (&,. ~ 2.) deberd ser pequefta pues es la suma algebraica de dos canti- dades, cada una con media cero y con varianza pequefia,s?/n,. Cuando Ja hipétesis nula es falsa, la cantidad (r, — 12) = 2t, #0 dado quet; = —t, # 0; una altermativa es ver- dadera y el numerador de t o F’se amplia, dando lugar a un valor mayor del criterio de lo que se esperaria aleatoriamente si la hipdtesis nula fuera verdadera. Valores grandes del criterio son pues no usuales si la hipstesis nula es verdadera, asi que la probabilidad de detectar una diferencia, s¢ ha visto que aumenta a medida que la diferencia real aumenta, 5.7 Comparacién de medias muestrales; observaciones pareadas de impartancia Las observaciones se parean a menudo. Por ejemplo, dos raciones alimenticias pueden compararse utilizando dos animales de cada una de 10 camadas de cerdos, asignando al azar animales de cada camada, uno a cada racién; 0 puede compararse el porcentaje de aceite de dos variedades de soya producida en parcelas pareadas en 12 localidades. El pareamiento se ha hecho antes de comenzar el experimento con base en respuestas simi- lares cuando no hay efectos de tratamiento. Si los miembros de los pares tienden a corre- lacionarse positivamente, és decit, si los miembros de cada par tienden a ser grandes pequefios conjuntamente, entonces puede aumentar la capacidad del experimento para detectar una pequetia diferencia. La informacién sobre el pareamiento se usa para elimi- nar una fuente de varianza extrafia que es la que existe de un par a otro. Esto se hace calculando Ia varianza de las diferencias en vez de la de los individuos dentro de cada muestra, El nimero de grados de libertad en que se basa la estimacién de a} es el nimero de pares menos 1. Si se vaa incrementar la capacidad de un experimento para detectar una diferencia real, entonces fa varianza de diferencias debe ser lo suficientemente menor que COMPARACIONES ENTRE DOS MEDIAS MUESTRALES 99 la varianza de individuos, esto es, 45 debe ser menor que 207 para compensar la pérdida de grados de libertad debido al pareamiento; para el pareamiento aleatorio, o3 ~ 20°. El critetio de prueba es r, como en Ja ec. (5.2) remplazando a ¥ por D y calculando de la siguiente forma: 50%)— 4 [EO— Heal im 4 (5.13) (n-1) En el divisor, » — 1 son los grados de libertad y n es el ntimero de diferencias muestrales de pares. Se considera que las pruebas de hipStesis con observaciones pareadas importantes se reducen a probar que la media de las diferencias es un numero dado, a menudo igual a cero. En la tabla 5,5 se opera con un ejemplo basado en datos de Shuel (5,10). La hipétesis nula que se prueba es la de que la media de la poblacion de diferencias #5 cero; las alteraativas son que la media no es cero, El criterio de prueba se distribuye como la ¢ cuando el supuesto de que las diferencias se distribuyen normalmente es cortec- to y la hipotesis nula es verdadera. El ¢ tabulado fo,cos para 9 grados de libertad y una prueba de dos colas con a = 0.0] es 3.3, Aqui es dificil explicar la diferencia observada con base en el muestreo aleatorio de la poblacién asociada con la hipétesis nula. Se recha- za ia hipétesis nula con base en la evidencia presentada. Cuando se conoce o, se compara el f observado con el f tabulado que aparece en la Uitima linea de la tabla ¢. El criterio F para observaciones pareadas se estudia en el capitu- lo 8. Ejercicio 5.7.1 Las constantes de enfriamiento de ratones recien sacrificados y les de los mis- mos ratones recalentados hasta la temperatura del cuerpo fueron determinades por Hart (5.4) asi: Recien sactificados: 573, 482, 377, 390, $35, 414, 438, 410, 418, 368, 445, 383, 391, 410, 433,405, 340, 328, 400 Recalentados: 481, 343, 383, 380, 454, 425, 393, 435, 422, 346, 443, 342, 378, 402, 400, 360, 373,373, 412 Probar fa hipdtesis de que no hay diferencia entre las medias poblacionales. Ejercicio $.7.2 En septiembre se obtuvieron los tiempos de los corredores det ejercicio $5.1. Los tiempos fueron registrados de nuevo en mayo siguiente, Para el grupo TRC1 en el mismo orden en mayo los tiempos fueron: 11:16, 12:30, 11:30, 11:06, 11:28, 8:18, 11:44, 12:02, 8:28, 11:55, 1827, 1 3Ly L146." Con @ = 0.05, probar la hipStesis nula de que las medias de as poblaciones no han cambia- do. Construir un intervalo de confianza del 95 por ciento para las diferencias entre las medias de la poblaciéri. 100 BIOESTADISTICA: PRINCIPIOS Y PROCEDIMIENTOS Tabla 5.5 Concentracién de azicar de néctar en medias cabezas de trébol rojo a diferentes presiones de vapor durante 8 horas Presién de vapor 44mmHg 9.9 mmHg __—Diferencia K % D=n-h 62.5 S17 108 652 542 110 676 53.3 143 9 570 129 Os 564 130 70.1 OLS 86 678 ‘57.2 10.6 67.0 56.2 108 BS ‘584 101 624 558 66 Ly 64 5617 108.7 122607 = 5 (%,,— Faro $62 los ge Lo ore 22607 ~ A IBLST ° 1 7 sh_ 4.944 spa BaF moans sp = 703 D108 so ae t Boe OM para 9 gi EL intervalo de confianza del 99 por ciento de la diferencia media poblacional se calcula asi: 5 + loose = 108 + 3.3( 703). Asiquel, = 85 y 1, ~ 13.1 por ciento, Obsérvese que D(%y- Yed= EN, - LM yquey-h=h-h. Gjexcicio 5.7.3. Los tiempos para los corredares del grupo TRC2 del ejercicio 5.5.2 también se registraron en septiembre. En mayo siguiente, los tiempos correspondientes fueron I 10:39, 11:47, 12:12, 12:48, 10:30, 12:20, 11:11 y 11:00. Probar la hipétesis aula de que la media de la poblacién en mayo es menor que la de la po- blacion correspondiente en septiembre. Calcular el intervalo de confianza que se considere mas apropiado, de un solo Jado al 9$ por ciento para Ia diferencia entre [as dos medias de la pobla- cidn, Ejercicio §.7.4 Peterson (5.5) estudié el efecto dé la exposicién de flores de alfalfa a diferentes condiciones ambientales. Escogié 10 plantas vigorosas con las flores expuestas libremente en la ¥ Datos cortesia de As Linnerad, North Carolina State University. COMPARACIONES ENTRE DOS MEDIAS MUESTRALES 101. Parte alta, y flores escondidas, en Jo posible en la base, Finalmente determin6 el nimero de semillas producidas por cada dos vainas en cada localidad, Los datos fueron: Planta 1 o2 3 4 5 6 7 & 9 Flores en ta parte superior 40 5.2 57 42 48 39 41 30 46 6% Flores ena parte infertor 44 3.7 47 28 42 43 35 37 31 19 Probar la hipétesis de que no hay diferencia de las medias poblacionales con la alternativa de que las flotes de la parte superior producen ms semillas. Calcular el intervalo de confianza apropiado de un solo lado, 5.8 El modelo lineal aditivo para las comparaciones parcadas La expresién lineal aditivo para la composicién de cualquier observacion esta dada por Y= M+ ut pj + ey (5.14) Yi@s la observaci6n en la muestra /ésima para el par jésimo, i= 1,2y/=1,2,...7. De ‘nuevo tenemos una media general t una componente t; peculiar ala muestray un elemento aleatorio ¢;, ademds, existe una componente p, peculiar al par de observaciones. Los ty 0; contribuyen a {a variabilidad de las Y, a condicién de que no todos sean iguales a cero. Por conveniencia, hacemos Y1,=0 y Yi p;=0 Este modelo admite una media poblacional diferente para cada observacién, pero estas medias estén estrechamente rela- cionadas por construccién; ¥, esla tinica observaciénde la poblacin con mediayz + t; + p, pero t; esta presente en otras nt — 1 observaciones y p, en otra observacién. Los ¢ provie- nen, Como maximo, de dos poblaciones correspondientes al subindice i, pero no es nece- sario suponer que provienen de una sola poblacién como en el caso del modelo de la ec. (5.12). Debido a las relaciones entre las medias poblacionales, o sea, tos ( + t; + p,) es posible estimar una varianza apropiada para probar la diferencia de las medias muestrales. Para ver esto claramente, se establece una tabla como la siguiente: Muestra 1 Muestra 2 Diferencia Ya Ny D=N- hy Yate tp, +6, Yysetn tate, byte ley ed Fes et tt Pete Yg= ett TP te | ya ta) tle fae) Totales: Y,. =n tne, + Dp; tay. Yee aw tnt, + Yo py tay. nmlty — ty) +(e — 8p) Medias ¥,,= 41, +0, Peutey te, {ty a) + &. -8) Es obvio que las diferencias en ta altima columna tienen una variacién relacionada tnicamente con las diferencias (sumas algebraicas) de los€ , dado que (tr, — t,) es una 102 BIOESTADISTICA: PRINCIPIOS ¥ PROCEDIMIENTOS constante en todas. La varianza de las diferencias muestrales es un estimativo deo} + o3si los e, y &; tienen varianza diferente, o de 2c? si existe una varianza comin. En el numera- dor del criterio de prueba, bien sea ¢ 0 F, entra fa media de las diferencias y, por consi- guiente, tiene una contribucién proveniente de la diferencia entre las medias de los trata- mientos, t; ~ t; = 2r,, si existe, ademas de una contribucidn de los ¢. Siexiste, enton- ces el numerador es mucho mayor que el denominador, ello se atribuye corrientemente a una diferencia real entre los tratamientos y no a un suceso de azar no usual. Notese que si los p; son reales, contribuiran a toda varianza calculada directamente a partir de cualquie 1a de las dos muestras. Esta prueba tiene una propiedad importante que no poseen las pruebas anteriores en las que interviene la hipétesis de una diferencia entre las medias poblacionales. La teo- ria nos dice que la suma algebraica de variables con distribuci6n normal tiene una distri bucién normal. La aplicacién de esto al caso presente es al efecto de que las diferencias se distribuyen normalmente si los errores también lo estén, independientemente de que los & y los &, tengun o nu una varianza comin. En la sec. 5.10 se da una explicaci6n adi- ional. Un valor del pareamiento no mencionado antes tiene que ver con el alcance de la inferencia. Se ha visto que Ia variacién de un par a otro puede ser grande. Si deliberada- mente hacemos grande esta variacién, ampliamos el alcance de nuestra inferencia. Por lo tanto, nuestros pares de cerdos pueden proceder de muchas camadas engendrados por diferentes hembras y machos, y posiblemente, diferentes razas; nuestra soya pudo haberse cultivado en diferentes localidades, nuestra inferencia es amplia como resultado. 5.9 Muestras independientes y varianzas desiguales Dada una muestra de cada una de dos poblaciones con 0? # of es decir, con varianzas desiguales vamos a probar la hipétesis de que 1, = 1, usando las estimaciones muestrales de las varianzas, La 5p,-y, apropiada se calcula ast: 51" (5.15) Ni fas sumas de cuadrados ni los grados de libertad se combinan como cuando s] 53 eran estimativos de una o? comtin y las observaciones no eran pareadas como en Ia ec. (5.8). Ahora calculamos 2’ con Ia ec. (5.16). La prima indica que el criterio no se distribuye es- trictamente como la ¢ de Student, sino como una aproximacién de la misma. pati (5.16) SP, -¥, Para déterminar el valor critico de 1’, se usa una suma ponderada de valores de ¢ tabuiades con gl= 1y ponderaciones w, = s?/n,, i= 1, 2,y el resultado de esa suma COMPARACIONES ENTRE DOS MEDIAS MUESTRALES 103 se divide por la suma de las ponderaciones [Cochran y Cox (5.3)}, 0 se usa un ¢ tabulado con “gl efectivos” calculados con la ec. (5.t7). (Ver Satterthwaite (5.8) y Searle (5.9)}- wo = (si/m, + 53 /na)? Bete = Term FM ~ + elim A = ein Es improbable que los grados de libertad efectivos sean un entero, asi que es de es- perar tener que redondear o interpolar. La prueba resultante tiene una tasa de error, 2, aproximadamente igual al del t 0 los ¢ tabulados usados en ia determinacién del valor cri- tico. También se puede calcularun intervalo de confianza con un coeficiente de confienza aptoximadamente igual a 1 — x. Los datos de la tabla 5.6 tomados de Rowles (5.7) se usan para dar un ejemplo del proceso. La ecuacién (3.15) parece definir la t de Student en una forma tal, que se puede generalizar; la ¢ mide una distancia entre una variable aleatoria y su media poblacional en desviaciones estindar aplicables. {Por qué ha sido necesario cambiar ¢ por ° cuando of #0}? Una definicion més completa de ¢ fa describe como la raz6n de un valor de Z aun valory/7@/gl. Dado que Z y x” exigen variables con medias cero y varianzas unitarias, pare- oe necesario usar o? en toda aplicacién practica. Cuando o? es la misma para ambos, Z y 2%, come cuando ¥ y s* se calculan a partir de una sola muestra, no es necesario conocer este valor ya que se cancela en numerador y denominador. En el presente problema.el Z del numerador debe ser (¥, — ¥,)//a7/nm, + of /mq_ mientras que x? en el denominador debe ser (ny — 1)s3 /oj + (m2 — 1)s3/o}.. En ¢, la cancelacién no es posible, excepto en el caso improbable en que la verdadera razén of /o2 s¢ conozea, Esta raz6n puede lamar- se un pardmetro de incomodidad pues crea un problema considerable en proporcionar cri- terios como t’. Ejercicio 5.9.1 En un experimento con avena, la media fue 52.8 bushels por acre y la varianza del crror experimental fue de 20.31 con 36 gl. Un experimento andlogo en circunstancias algo diferentes podria dar ¥ = 48.4 y s? = 45.06 con 24 gl. Probar ia hipétesis nula de que las dos medias‘poblacionales tienen el mismo valor, supo- siendo que las varianzas verdaderas son diferentes, Bjercicio 5.9.2 Un experimento con congjillos de indias did una ganancia media de peso de 105.3 g. La varianza del error experimental fue 427,80. En un experimento similar pero con diferente forraje, la media de ganancia de peso fue de 175.0 g. Supongamos que s? = 726.20. Probar Ja hipdtesis nula de que las dos medias poblacionales tienen e] mismo valor, Supén- {ase que las varianzas poblacionales son diferentes y que los gl son 15 y 7 respectivamente. $,10 La media y la varianza de una funcidn lineal ‘A medida que hemos avanzado en los problemas de muestreo, se ha respondide con for- mulas apropiadas a la necesidad de conocer las varianzas de las medias, de las diferencias aleatorias y de diferencias entre dos medias muestrales con varios supuestos. Estas formu- las tienen una base comin que ahora examinaremos. Los resultados tiene otras aplicacio- nes en capitulos posteriores. 104 BIOESTADISTICA: PRINCIPIOS Y¥ PROCEDIMIENTOS Tabla 5.6 Porcentaje de grava fina en suelos superficiales Buen suelo Suelo pobre, 59 76 3 of 65 1 183) 32 182 6s 16.1 44 16 47 Y 4 276 ¥? 1,078.60 150.52 ¥y 1991 394 LK BP =D VEE Mey = 1,074.60 ~ 833.85 = 240.75 ¥, - ¥,)F _ 240.7! pe RB X07 ote NM Ti = 259% 091 = 398 _ 697 Ha. Asi, nuestro F es de una cola relativo a Fy a varianzas, pero de dos colas en relacién con las medias, es decir, H,: 6%(basado en medias) > a? (basado en indi- viduos) es equivalente a Hy: fy > Hz © fz > fy, 0 sea, equivalente aH: 4, # 142.Valo- res de f cercanos a cero cuando s¢ elevan al cuadrado se hacen positivos, valores de F cercanos a cero; claramente éstos exigen la aceptacién en vez.del rechazo de la hipétesis nula. As{ F puede ser pequefio y significante, si el numerador fuese pequefio con relacién al denominador. Para nuestro ejemplo debemos explicar tales valores atribuyéndolos al COMPARACIONES ENTRE DOS MEDIAS MUESTRALES 109 azar. En ciertos problemas de pruebas de la homogeneidad de dos varianzas, puede no haber raz6n para suponer cual varianza serd mayor, por ejemplo o} 0 03 para las poblacio- nes de la tabla 5.6; asi, no hay razon para calcular s7 /s} en vez de s}/s?. Este es un caso en el que las alternativas son oj + 03. Esto claramente pide una prueba de dos colas. Considérese la prueba de la hipotesis nula a} = ¢3 conel conjunto de alternativas ai #43. Determinar s? y s3 y calcular F por — Laf mayor (5.28) Las? menor Este F se compara con valores tabulados en la tabla A.6, donde los grados de libertad para el cuadrado medio mayor se dan en la parte superior de a tabla, y los gf para el menor, en la parte lateral. Para el conjunto de alternativas 6? + 0 los niveles de significancia dados se doblan. Si ei F calculado es mayor que Fo.¢os hay significancia al nivel del 5 por ciento; si es mayor que Fo.oos, hay significancia al nivel del 1 por ciento, y asf sucesivamente. Esta prueba es una prueba de das colas con respecto a F, ya que no especificamos cudl de Jas a? se espera que sea mayor. Desafortunadamente esta prueba tambign es sensible a la normalidad. Para el ejemplo de la sec. 5.9, comparar las dos varianzas muestrales con F' = 40.12/ 6.95 = 5.77 para 6 grados de libertad en el numerador y en el denominador. El F tabulado ¢s 5.82 al nivel del 5 por ciento para las alternativas deseadas (Fo.oa5 = 5.82) y la prueba casi no Lega a ser significante. Las tablas de F se tabulan por comodidad al efectuar pruebas de una cola dado que las alternativas asociadas son mds comumnes; en las pruebas de ¢ de este capitulo, se ha visto que se esperaba que el numerador fuese mayor cuando la hipétesis nula era falsa, esto es, que la varianza del numerador tenia que ser mayor para eliminar la hipétesis nula. Si se eleva al cuadrado cualquier valor tabulado de fo.02s © fo.00s s€ encontrard este valor en Ja tabla de F en la columna encabezada con | grado de libertad freate a los grados de Ubertad apropiado a 0.05 60.01. Ejercicio 5.11.1 Probar la homogeneidad de las varianzas de las dos poblaciones mucstreadas en las tablas 5.2, y 5.4, y en los ejercicios 5.5.1 y 5.5.2. ,Parece justificarse en todos los casos e] supuesto de varianza comin? Ejercicio 5.11.2 Probar la homogeneidad de las varianzas de las dos poblaciones TRCI de tiem- pos dados en tos ejercicios §.5.1 y 5.5.2. Repetir lo mismo para las dos poblaciones de TRC2 de los ejetcicios $5.1 ¥ 5.5.2. 5.12 Poder, tamajio de la muestra y determinacién de diferencias Las ideas de ta sec. 5.2, o sea, los errores de tipo Ty tipo IL el poder de la prueba, son esenciales para una clara comprension del problema del tamafio de la muestra. La fig. 53 ilustra las ideas cuando son apropiadas las alternativas de una cola. Ahora consideramos el problema con més detenimiento. Tomemos una muestra aleatoria de wna poblacién con u desconocida pero a* cono- ida con el propésito de probar la hipétesis, Ho: # = Ho con Hy: u> po Se usarduna 110 BIOESTADISTICA: PRINCIPIOS Y PROCEDIMIENTOS Distribucién en ta hipéresis nula Ao? k= ko 100a% Ho) ¥ (por ejemplo) Para la hipétesis nula Figura 53. Una ilustraci6n relativa a los errores de tipo Ly tipo SL, tasa de error & y el criterio de prueba seri Z = (F — tg)/ap ndtese que esto nos permite considerar las regiones de aceptacién y rechazo sobre el eje de los 7. Se calcula el valor ‘tnico critica con base en que Ho sea verdadera y ¢s fp + Z,oy. La parte superior de la fig. 5.3 es la que corresponde. Supéngase que la verdadera media es }4,, tal como se muestra en la parte inferior de fa fig. 5.3. Si ¥ cae en la regién de aceptacién, entonces se comete un error de tipo Ii con probabilidad By el poder de la prueba es 1 — f. Notese que el poder frente a la alternativa, se determin6 en el momento en que s¢ fijé el valor critico y éste a su tumo, fue determi- nado por y por la naturaleza unilateral de Hy. Independientemente del valor de 1, 1a ec. (5.29) se cumple. Si el verdadero valor = hp entonces la ec. 5.29 da el valor de a. Plde rechazo de Hy) = (Fo > 2.) (529) y Si el verdadero valor p= j1, entonces (7 — o)/op realmente no se distribuye como Z. Sin embargo, podemos reordenar Ia ecuaci6n para obtener (fam > 2,)~ ef P=# Pro >2 OF oy oy . =o(z>z,-4=*) (530) ay COMPARACIONES ENTRE DOS MEDIAS MUESTRALES 111. para #, w= 40 para Hy w>40 verdadero w wth 40 Figura $.4 Curvas de poder para la ilustracién del texto. Nétese que (Y — 1, )/opes un verdadero valor de Z y que (#1 — Hoag ¢s una constante, Jo que hace posible el célculo del poder a partir de la tabla Z. Algunos valores, encontra- dos sin interpolacion seria, se presentan en la tabla 5.7 y la curva de poder, basada en estas probabilidades, se muestra en la fig. 5.4, La curva de poder es itil por cuanto podemos referirnos a ella para tener una mejor impresi6n del poder de la prueba. El poder frente aH: 4 pg y con una tasa de error de tipo I, a , se calcula median- Ho oy + oz <-Z.2-4 =") (6.31) ? te A P(ée techazo de Hy) = oz > Zan — Uno de los términos, segtin sea el signo de 1, — Ho , afladira muy poco a la probabilidad requerida, asf que es razonable ignorarlo. En este caso usamos Pde rechazo de Hy) = oz > Zan de —tel (6.32) La tabla 5.7 da algunos valores de poder para alternativas de dos colas. Estos se re- presentan para dar la curva de poder simétrica de la fig, 5.4. En muchos experimentos, el experimentador esté interesado en determinar si un tratamiento es superior a un control. Para esto es apropiada una prueba def de una cola. La tasa de error de tipo I debe fijarse en @ y la tasa de error de tipo Il en 8. Considérese la fig. 5.5. Supéngase que tenemos una distribucién principal con 4 desconocida y varianza conocida. Entonces «, b, ¢ yd son ilustraciones de posibles distribuciones derivadas de F con diferentes medias, ug, ... ,#3 y dos varianzas posibles o?/n,, i= 1 62, segtin sea el tamafio de la muestra, Las areas sombreadas se refieren a la poblacién con mayor varian- za, ¢s decir, la muestra de menor tamafio, En particular: 112 BIOESTADISTICA: PRINCIPIOS ¥ PROCEDIMIENTOS Tabla 5.7 Poder cuando.« =0.05 para ilustraci6n con 4 = ty 48 6772 5596 50 8389 7517 32 9357 8849 34 9793 9582 36 9945, 9881 4 Para Hy: w > 40,el valor eritico es 1.645; para H.: 1 #40, el valor eritico es 1.96. @ presenta la distribucion de ¥ si Ho es verdadera. El area sombreada 100¢ por ciento por ejemplo, da la probabilidad de un ertor de tipo I. La linea que divide las dos reas separa el eje ¥ en una regién de aceptacién y otra de rechazo, El procedimien- to de la prueba se basa en H, sea cual fuere el verdadero valor dey. Si siempre tene- mos datos para los cuales Hy es verdadera, entonces concluimos erréneamente que Ho es falsa en 1002 por ciento de las veces. b presenta la distribucién de ¥ cuando Ho es falsa y 1, , es el verdadero pardmetro. Si concluimos falsamente que Ho es verdadera, cometemos un error de tipo I1. Come- temos este error cuando ¥ cae en la regién de aceptacién determinada por el crite- rio de prueba usado para probar Ho. E} area sombreada de la curva mide a B, la probabilidad de cometer error de tipo II, por encima del 50 por ciento en este caso. COMPARACIONES ENTRE DOS MEDIAS MUESTRALES 113 ¥ Jes Region de rechazo a Region de aceptacion Regién eritica (Curvas sélidas) (Curvas sblidas) Region de aceptecion Region critica (Curvas de trazos) (Curvas de trazos) (0). sh {et “I {d). #3 Figura 5.5 Una ilustracién relacionada con el tamafo de la muestra, El poder de Ia prueba, ! ~ f, con respecto a la alternativa d se mide por el rea sombreada bajo b. Esta esté asociada con la regién critica detemminada por la prueba deHo . Cuando, en efecto, # = 1, esta drea es la medida de capacidad de la prueba para detectar j1,. En este caso, si el experimentador cuenta con datos para los cuales 11, es verdadera, entonces detectaré jz,, con una frecuencia menor al 50 por ciento de tas veces, Si fuera importante detectar una diferencia real tan grande como 1 — fo", entonce seria mejor, en promedio, lanzar una moneda para escoger entre Ho ¥ #1, pues usando la moneda declararemos el 50 por ciento de las veces a favor de jy 114 BIOESTADISTICA: PRINCIPIOS ¥ PROCEDIMIENTOS Figura 5.6. Eleccién de un tamefo da muestra para una proteccion deseada. ¢ Ahora la verdadera jt es jt, Esté suficientemente alejado de jlo para ser detectada en el 50 por ciento de las veces. Sijt = fz el lanzamiento de la moneda, en relacion con el experimento sin recolectar datos es todavia un procedimiento de prueba tan satisfactorio como una basada en Mg d Si = Hs, tenemos buenas posibilidades de detectar este hecho tal com se indica por el érea no sombreada bajo la curva. El poder de la prueba es alto y ta probabili- dad de un error de tipo ITes baja. ° Si deseamos una seguridad razonable de detectar 4, cuando u = #1, véase a, serd necesario tener una muestra més grande. Esto leva a una nueva distribucién de F con menor varianza ya que a7 = o/n, por ejemplo, una de Jas distribuciones indicadas por curvas de trazos. La region de aceptacién ya no se extiende tanto hacia la derecha. Véase la curva de trazos y la Linea vertical de a Ahora la regién de rechazo incluye una nueva porcién del eje ¥ a la izquierda de la regiGn original de rechazo. Mejoran asi nuestras oportunidades de detectar una alternativa a Ho cuando una aiternativa es verdadera, Esto puede verse en las curvas de trazos de b, ¢ yd. Elerror de tipo If decrece. Al escoger un tamafio de muestra para detectar una diferencia dada, se debe admitir la posibilidad de un error de tipo Lo un error de tipo II, y escoger el tamafio de la muestra en consecuencia. Considérese la fig. 5.6. Aqui hay dos distribuciones de 5, una para la cual! jr = yuyes verdadera y otra para la cualH,: = p,es verdadera. El tamafio de la muestra se ha ajustado para dar una varianzag} tal que el punto Do divida el eje D para dar un drea del 5 por ciento a la derecha de Dg y bajo la distribucion de Hy y un area de 80 por ciento 2 la derecha de Bg y bajo la distribucién de H, . Es decir que tenemos una prueba de una cola con una tasa de error del 5 por ciento asociado a Hy y aceptaremos H, en el 80 por ciento de las veces cuando es verdadera; la probabilidad de un error de tipo 1 es 0.05, la de un error tipo II es 0.20, y el poder de la prueba es 0.80. El problema es encontrar un tamafio de muestra para lograr nuestro objetivo. En la préctica, raramente co- nocemos ¢, por to que debemos confiar en un estimativo. Cuando entran dos muestras, la variable aleatoria usualmente serd F, — F; y Ay serd fy — a = 0, mientras que H se convierte én el tamafio dep, — wy = 5 que se desea detectar. COMPARACIONES ENTRE DOS MEDIAS MUESTRALES LIS. La formula aproximada para caleular m, el ntimero de observaciones en cada trata- miento cuando las alternativas son unilaterales, se da en la ec. (5.33). Como es probable que se obtenga una fraccién, disese el entero siguiente mas alto. ($33) Recuérdese que a y fi se refieren a las probabilidades asociadas con una sola cola de ta dis- tribucién normal. Para unidades experimentales pareadas con sentido,a}es la varianza de las diferencias, mientras que para muestras independientes ¢s 207. Esta solucién tiene varias dificultades Obvias. La primera es que rara vez conocemos 07, asi que debemos estimarla. Si o? se subestima, n es demasiado pequeiio y el poder de la prueba se sobreestima; si c? se sobreestima, entonces n es demasiado grande y el poder de ia prueba se subestima. EI problema puede obviarse al definir 6 en funcién de a. Por ejemplo, podemos desear detectar una diferencia de tamafio 5 con una probabilidad especificada de 1 — 8 si 6 es la magnitud de una desviacion esténdar. Tenemos entonces 6 = ¢, de modo que of6 = 1 = 97/5? para usarse en la ec, (5.33). El raro conocimiento de ¢? también significa que no podemos usar correctamente la tabla de Z, porlo que nos gustaria reemplazar Z, y Zp por valores de f. Un procedimien- to razonable consiste en usar la ec. (5.33) para lograr un valor aproximado de n. Mull pliquese este valor por (gl del error + 3) /gl del error + 1). Para observaciones pareadas, los gl del error seran n — 1; para muestras independientes, los gl del error serén 2(n — 1). Cuando las altemativas son de dos colas, !a ec. (5.34) es una aproximacién satisfac- toria, 292 na 2a + 2,05 (5.34) De nuevo, tisese el multiplicador para ajustar este valor al hecho de usar valores de Z. Ahora ilustremos el procedimiento, En la sec. 5.5, para los datos de digestibilidad de materia seca la situacién corres- pondié a muestras independientes de corderos y novillos. Es razonable suponer que los investigadores con animales pueden esperar que los novillos tengan mayores coeficientes promedios de digestibilidad y por lo tanto se propongan probar su hipétesis con alternati- vas unilaterales. Supéngase que en un nuevo experimento, deseamos detectar, con P= 0.8, una diferencia real entre medias de una desviacin estandar con a = 0.05, Parecerfa que ésta puede ser una diferencia real del orden del 2.5 al 3 por ciento ya que 1(s) = 7.33 = 27 por ciento, En la ec. (5.33), 03 = 20%. Por lo tanto of/5 = 20/6 =2. Pare una prueba de una coh a =0.05,Z, = 1.65. Como 1 — B= 0.80, Zy = Za 20 = 0.85. Notese que cada valor de Z se ha escogido un poco grande en lugar de interpolar en la tabla A.4. Para esos valores prudenciales de Z, n =(1.65 + 0,85)? = 12.5 y redondeamos a 13. Con 13 observaciones en cada tipo de animal, el error tendré 2(12) = 24 grados de libertad. El factor de ajuste necesario es 27/25 = 1.08 con lo cual se obtiene un valor de n corregide de 12.5(1.08) = 13.5. Si usamos 14 unidades de cada tipo, Ja probabilidad de 116 BIOESTADISTICA: PRINCIPIOS Y PROCEDIMIENTOS. detectar una diferencia real de una desviacion estandar en Ja magnitud entre medias po- blacionales debera ser de por lo menos 0.80. En la seccisn §.6, los datos correspondieron a concentraciones de aziicar para medias, cabezas pareadas de trébol a diferentes presiones de vapor. Supongamos que en e! siguien- te experimento, quizds con ottas presiones, ef investigador quedard satisfecho si puede detectar una verdadera diferencia de una o, basada en diferencias, entre pt, y st, con pro- babilidad 0.80, Supéngese que la prueba se hace con dos alternativas bilaterales con a = 0.05. Aqui usamos la ec. (5.34), Esta vez,d/a = 1, asi of /5* = 1. También necesitamos Z,,> Zp>Zo,1 = 0.85. Ahora n= (1.96 + 0.85)? = 7.9 y redondeando a 8, Como estamos operando con diferencias, sélo se tienen 7 grados de libertad para ef error, El factor de ajuste necesario es 10/8 = 1.25 y el valor corregido de n es 7.9(1.25) = 9.9, y redondeamos a 10. Entonces se necesitaran para el experimento 10 cabezas de tré- bol, cada una dividida en dos. Zoms = 1.96 ¥ 5.13 Muestras bietapicas de Stein Cuando se concentra la atencién en la estimacién mas que en la prueba, se usa un procedi miento de Stein (5.12) para determinar el nimeto necesario de observaciones cuando se trata de datos continuos. El problema consiste en determinar el tamafio de la muestra necesaria para estima una media por un intervalo de confianza con la garantia que no sea de longitud mayor que la prescrita; el procedimiento consiste en tomar una muestra, estimar la varianza y entonces calcular el ntimero total de observaciones necesarias. Se obtienen entonces las observaciones adicionales y se calcula una media basada en todas las observaciones. La Iongitud de un intervalo de confianza es 2¢, sp cuando o* se conoce, no se necesita ‘una muestra inicial para estimar el tamafio muestral. Este puede calcularse tan pronto se de- cida la longitud del intervalo de confianza requerido, fijando la longitud iguala 2z,.. 0 /,/a y despejando 1). Cuando & se desconoce, tomamos una muesta y estimamos ”con la ecuacién n 2 (5.35) ty es el valor de ¢ tabulado para el nivel de confianza deseado y los grados de libertad de Ja muestra inicial y d es la mitad de la anchura del intervalo de confianza deseado, lo cual da el numero total de observacianes necesario. Se obtienen las observaciones adicionales y se calcula una nueva Y, Esta 7 estard dentro de la distancia de # a menos que el proce- dimiento total haya producido una muestra poco usual, tan poco usual que valores mas ‘extremos sdlo se han de encontrar en un porcentaje no mayor al 100a de las veces, debida al azar. El procedimiento se ha hecho aplicable para obtener el tamafio de la muestra para ‘un intervalo de confianza de una diferencia entre medias poblacionales mediante la multi- plicacién del numerador de la ec. (5.35) por 2. COMPARACIONES ENTRE DOS MEDIAS MUESTRALES 117 Fjemplo En unestudiode campo, R.T. Clausen® deseaba obtener un intervalo de confian- za al 95 por ciento de no mds de 10 mm para la longitud de hojas maduras de Sedum lucidum en varias plantas individuales. En una planta cerca a Orizaba, México, una mues- trade cinco hojas dio las longitudes 22, 19, 13, 22, y 23 mm, para las cuales ¥ = 19.8 mm y$=4,1 mm. Asi que ¢] tamaito total de la muestra debe ser ¥ n= (1067) = 5.2 observaciones 25 donde 7.71 = FUL,4) = Pgs, 16.7 =s? y 25 = (10/2). El intervalo de confianza escasa- mente se salié de la norma de longitud aceptable; con una observacién més y con una nue- va media de todas las 6 observaciones, simplemente dirfamos que la nueva media F estaba dentro de 5 mm de y con un coeficiente de confianza de 0.95, Referencias Sul. Baker, G. A. y R.E. Baker: “Strawberry uniformity yield trials” Bfomt 9:412-421 (1953). 5.2, Cochran, W, G.: “The combiation of estimates from different experiments" Biom 10:101-129 1954), 5.3. Cochran, W. G. y G. M. Cox: Experimental Designs, 2a. ed, Wiley, Nueva York, 1957. $4. Hart, J, $.: “Calorimetric determination of average body temperature of small mammals and its variation with environmental conditions.” Can. J. Zool, 29:224-233 (1951). 5S. Peterson, H. L.: “Pollination and seed set in lucerne,” Roy. Yet. Agr. Coll. Yearb., 138-169, (1954), 5.6. Ross, R. H.,y C.B. Knodt: “The effect of supplemental vitamin A upon growth, blood plasma, carotene, vitamin A, inorganic calcium, and phosphorus content of Holstein heifers,” J. Dairy Sei, 3X: 1062-1067 (1948). 5.7. Rowles, W.: “Physical properties of mineral soils of Quebec,” Can. J. Res., 16:277-287 (1938). 5.8. Satterthwaite, F, W.: “An approximate distribution of estimates of variance components,” Bio, Bull, 2:110-114 (1946). 5.9, Searle, S.R.: Linear models, Wiley, Nueva York, 1971. 5.10. Shuel, R, W.: “'Some factors affecting nectar secretion in red clover,” Plant Physiol,, 27:95-110 (2952). 5.11. Smithson, P.C., yO. T. Sanders, Jr: “Exposure of bobwhite quail and cottontail rabbits to methyl parathion,” 32d Ann. Conf. Southeast Ass. Game Fish Comm, (1978). 5.12, Stein, C= “A two-sample test for a linear hypothesis whose power is independent of the varian- "Ann. Math. Statist., 16:243-258 (1945), 5.13. Watson, C. J., et ali “Digestibility studies with ruminants XIL The comparative digestive Powers of sheep and steers,” Sei. Agr., 28:357-374 (1948). + Cornell University, Ithaca, Nueva York. CAPITULO SEIS PRINCIPIOS DE DISENO EXPERIMENTAL » 6.1 Introduccion Este capitulo es una introduccin al planeamiento y conduccién de los experimentos en telacién con los objetivos, el andlisis y la eficiencia. Si aceptamos la premisa de que el conocimiento nuevo se obtiene muy frecuente- mente a través de andlisis e interpretacién cuidadosos de los datos, entonces es muy importante que se deba dedicar tiempo y esfuerzo considerables al planeamiento y recoleccién de los mismos con el objeto de obtener la maxima informacién con el menor costo de recursos. Quiz la funcién mis importante del estadistico consultor sea dar ase- soria en el disefio de experimentos eficientes que capaciten al experimentador para obtener estimaciones insesgadas de medias y diferencias de tratamientos y del error expe- rimental. No es posible destacar demasiado el hecho de que el estadistico pueda hacer una contribucién real en la etapa de planeamiento de los experimentos. Con frecuencia se pre- sentan al estadistico datos que sélo dan estimaciones sesgadas de las medias y diferencias de los tratamientos y del error experimental; datos que no proporcionan respuestas a las preguntas planteadas al principio; datos para los cuales ciertos tratamientos no dan Ia informacién pertinente; para los cuales las conclusiones sacadas no se aplican a la pobla- cién que el experimentador tenia en mente; y tales que la precisién del experimento no es suficientemente grande para detectar diferencias importantes. A menudo, con un leve cambic en el disefio y con menor esfuerzo, el experimento hubiera dado la informacién deseada. El experimentador que consulte al estadistico consultor en la etapa de planea- miento del experimento, en lugar de al final del mismo, mejora las posibilidades de conse- guir sus objetivos. 62. {Qué es un experimento? Existen diferentes Uefiniciones de la palabra experimento. Para nuestro propdsito, consi- deramos un experimento como una biisqueda planeada para obtener nuevos conocimientos PRINCIPIOS DE DISENO EXPERIMENTAL 119 9 para confimar 0 no resultados de experimentos previos, con lo que tal indagacién ayu- dard en la toma de decisiones administrativas, tales como la recomendacién de una varie- dad, un procedimiento o un pesticida. Tales experimentos caen aproximadamente dentro de tres categorias, esto es, preliminaces, criticos v demostrativos, cada una de las cuales puede Uevar a otra, En un experimento preliminar, el investigador prucha un niimero con el objeto de obtenc indicios para futurgs trabajos; la mayoria de los tratamientos aparecen solamente una vez. En un experimento ctitico, el investigador compara las respuestas a diferentes tratamientos usando un numero suficiente de observa ciones de las respuestas para tener seguridad razonable de detectar diferencias significan- tes, Los experimentos demastrativas se evan a cabo cuando los trabajadores de extension comparan ung o més tratamientos nuevos con_un patrén. En este texto, estamos interesa- dos casi completamente en él tipo de experimentos criticos. En tal experimento, es nece- sario que definamos la poblaci6n a Ja cual se ha de aplicar las inferencias, que disefiemos el experimento en concordancia con eso, y que hagamos medidas de las variables bajo estudio. Se dispone cada experimento para proporcionar respuestas a una o més preguntas. Con esto en mente, los investigadores deciden qué comparaciones de tratamientos pro- porcionardn informacién relevante. Entonces realizan un experimento para medir 0 Probar hipétesis que tienen que ver con diferencias entre tratamientos en condiciones comparables. Toman mediciones y observaciones sobre el material experimental. A partir dela informacion obtenida en un experimento que se ha completado con éxito, responden a las preguntas planteadas ai comienzo. En este capitulo nos importan principalmente los procedimientos. Para el estadistico, el experimento es un conjunto de reglas usadas para sacar la mivestra de una poblacién. Esto hace que la definicién de la poblaciGn sea lo mas impor- tante. El-conjunta de reglac es el procedimiento experimental o digefio de experimento. Por ejemplo; el'uso de observaciones no pareadas y pareadas son disefios experimentales ara experimentos de dos tratamientos, 63 Objetivos de un experimento Al disefiar un experimento, se establecen claramente los objetivos como preguntas que han de responderse, hipstesis que han de probarse, y efectos que han de estimarse. Es aconsejable clasificar los objetivos como mayores y menores ya que ciertos disefios experi-. mentales dan mds precisién para ciertas comparaciones de tratamientos que otros. La precision, sensibilidad_o cantidad de informacion, se mide por el inversa.de la varianga de una-media. Sif representa la cantidad de informacién,entonces l= [/o} = njo? .A medida que «2 aumenta, la cantidad de-informacién-decrece; también a medida quer _ aumentg la cantidad-de-infe de-informacion-auments. Una comparacién de dos medias muestra~ Jes se hace més sensible, esto es, puede detectar una diferencia mds pequefia entre medias poblacionales, a medida que el tamajio de la muestra crece. Es de in ja definir a poblacio -a-la-cual-deben extraemse inferenci: y tomar la muestra-de esa rent forma aleatoria. Supdngase que el objetivo princi- pal det experiments Gi comparar Tos Valores de varias rciones para cerdos en deta region. Supéngase, también, que los granjeros en esa regiin crian diferentes razas de 120 BIOESTADISTICA: PRINCIPIOS ¥ PROCEDIMIENTOS cerdos, que algunos usan comederos mecénicos y otros los alimentan manualmente. Si el experimentador usa solamente una raza de cerdos en el experimento o los alimenta sola- mente con comederos mecénicos, la muestra dificilmente puede considerarse representa- tiva de la poblacién, a menos que haya informacién previa de que el tipo de comederos y de alimentacién tienen poco o ningiin efecto sobre diferencias debidas a las raciones. Si no hay informacién disponible sobre el efecto de raza sobre el método de alimentacion, seria muy ayenturado hacer inferencias a partir de un experimento basado en una raza y un método de alimentacién para todas las razas y todos los métodos. Para hacer tales recomendaciones, el experimentador debe incluir todas las razas locales y todos los méto- dos de alimentacién como factores del experimento. Al hacer esto, se amplia el alcance del experimento. Otro ejemplo es el de un experimento planeado para comparar la eficacia de dife- rentes fungicidas en el control de una enfermedad en la avena, Supdngase que en la region donde se hayan de aplicar las recomendaciones, diversas variedades cultivadas artificial mente o “‘cultivares” son de uso comin y que varia la cantidad de las semillas. Para poder dar recomendaciones adecuadas, el experimentador debe comparar los fungicidas en varios cultivares y con varias calidades de semillas por cada cultivar. Esto es esencial si el expeti- mentador va a determinar si se puede recomendar 0 no un solo fungicida para todos los cultivares y calidades de semilla en la regién, En general, inferencias de valor respecto a una poblacién extensa no pueden obtenerse a partir de un solo experimento. 64 Unidad experimental y tratamiento Una unidad experimental, 9 parcela experimental, es Ja unidad de material a la cual se _aplica un tratamiento; el tratamiento es el procedimiento cuyo efecto se mide y se com- § fratamientos. Se ve, pues, que estos ténminos son muy generales. La unidad ‘puede ser un animal, 10 pollos en corral, media hora, etoétera; el tratamien- to puede ser una racién normal, ua programa de aspersin, una combinacién temperatura- humedad, u otros. Cuando se mide el efecto de un tratamiento, se una unidad de myestreo, cierta fraccién-de- Ja-unidad experimental. Por lo tanto de muestreo puede ser a unidad completa, tal como un animal sometido a una racién de tratamiento, o una muestra aleatotia de hojas de un arbol tratado o la cosecha de 6 pies del surco cen- tra] de una unidad experimental de 3 surcos. En algunos casos, la unidad experimental serd tan grande que su uso no sea prictico como unidad de muestreo, en tanto que una sola unidad de muestreo pequefia es inadecuada. En tales casos, se miden dos o mas subdi- visiones aleatorias de la unidad experimental. Por ejemplo, al estudiar précticas de cultivo para establecer la densidad de especies forrajeras se cuentan separadamente las plantulas en dos o mds dreas pequefias, aleatorias dentro de una unidad experimental. Asi mismo, cuando se debe destruir una unidad de muestreo, como en el caso de la calidad de frutos, legumbres o un producto alimenticio para el mercado, se toman unidades de muestreo dentro de la unidad experimental. Al seleccionar un conjunto de tratamientos, es importante definir cada tratamiento cuidadosamente y considerarlo con respecto a cada uno de los demds tratamientos para asegurarse, en lo posible, que el conjunto dé respuestas eficientes relacionadas con los abjetivos del experimento. PRINCIPIOS DE DISERO EXPERIMENTAL 121 65 Error experimental Una caracteristica de todo material experimental es la vatiaci6n, El error experimental es una medida de la variacin 1 existente entre observaciones sobre medidas experimentales trataday en forma Esta afirmacién es mas sutil de lo que puede parecer a primera vibte-y se véliciona estrechamente con Ia definicién de la seccién precedente, Por ejemplo, sia SO gallinas se las enjaula juntas y se les alimenta con Ja misma racién, la unidad expe- rimental consiste en las 50 gallinas. Se necesitan otras jaulas de 50 gallinas antes de poder medir Ia variacién entre unidades tratadas en forma semejante. Esto es cierto aun si una medida como él peso de] cuerpo se mide en cada gallina en forma individual. El punto estd en que si dos tratamientos se han de comparar, cualquier diferencia observada ser en parte atribuible simplemente a Ja diferencia entre jaulas de 50 gallinas y esto es muy pro- bable que sea de mayor magnitud que las diferencias entre gallinas de la misma jaula, Por otra parte, si se enjaulan 10 ratones juntos como una unidad para alimentar, s¢ aplica el mismo argumento. Sin embargo, si la mitad de los animales son machos y la mitad hem- bras, y si estamos interesados en una posible respuesta diferencial debido al sexo, enton- ces tenemos unidades experimentales pareadas con sentido para un experimento dentro de otro. Aqui se presenta un segundo error experimental para responder a una segunda pregunta, Para responder a toda pregunta respecto 2 la posible presencia de una verdadera diferencia de tratamientos, siempre debemos tratar con la unidad a la cual se aplicé el tra- tamiento al azar. Estas y otras preguntas relativas a la eleccién de un error experimental apropiado se ilustran y se exponen en capitulos posteriores. La variacién proviene de dos fuentes principales, Primero, existe ta _variabilidad i Berente al material experimental al cual se.aplican-Jos-tratamientos. Segundo, ¢xiste una varlacion resultante de cualquier falta de unifocmidad en la realizacién.fisica del exper- . in €xperimento de nutricidn con ratas como material experimental, los indivi- duos tendran constituci6n genética diferente a menos que haya una alta endogamia; ésta s variabilidad inherente al material experimental, Las ratas se colocarén en jaulas sujetas a diferencias de calor, luz y otros factores, esto constituye una falta de uniformidad en la realizacién fisica del experimento, Las magnitudes relativas de la variacion de estas dos fuentes seran bastante diferentes segiin los varios campos de investigacién. La magnitud de, -up-inte prueba, s6lo hay dos puntos que tener en cuenta. En consecuencia, es im todo-el esfuerzo posible para reducir ef error experimental con el fin de mejorat'él poder - - de la prueba, para disminuir el tamafto de los intervalos de confianza o para lograr otro” objetivo deseable, Esto puede lograrse atendiendo a las dos principales fuentes de error experimental. Asi podemos - yanera_que se jogre reducir los efectos 2. Refinar la técnica experimental. Estos método’ se verdn en las secciones subsiguientes a la exposici6n de la repeticién y de los factores que la afectan al ntimero de repeticiones. 122 BIOFSTADISTICA: PRINCIPIOS Y PROCEDIMIENTOS 6.6 Repeticiones y sus funciones Cuando un tratamiento aparece més de una vez en un experimento se dice que estdrepe- tido. Las funciones de la repeticién son:. 1, Permitir una estim: én del error experimental. 2. Mejorar la precision de un experimento mediante la reduccién de la desviacién es- tandar de una media de tratamiento. 3, Aumentar el alcance de Ja inferencia del experimento a través de la seleccion y del uso apropiado de unidades experimentales mds variables. 4. Ejercer control sobre la varianza del error. Para las pruebas de significancia y para la estimacién del intervalo de confianza, es necesario un estimativo del error experimental. De un experimento en el cual cada trata- miento aparece solo una ver, se dice que cditsiste en una repeticién simple. De un experi- mento como éste, no es posible estimar el error experimental. Aqui es posible explicar una diferencia observada cimo una diferencia entre tratamientos 0 entre unidades experi- mentales; es imposible saber con seguridad objetiva cudl explicaciGn es la correcta. O sea, cuando no existe un método para estimar el error experimental, no hay manera de deter- minar si las diferencias observadas indican diferencias reales 0 si se deben a la variacién in- herente. El experimento no es autosuficiente ya que toda inferencia debe basarse en expe- riencias previas, (Excepciém, Se puede utilizar una sola repeticién, 0 aun una fraccién particular de una repeticién de un experimento con un ntimero grande de factores 0 tipos de tratamientos, esto permitird un estimativo del error experimental cuando se cumplan supuestos). A medida que ei niimero de repeticiones aumenta, las estimaciones de las medias poblacionales, esto es, las medias observadas de los tratamientos, se hacen mis precisa’. Si se detecta una diferencia de cinco unidades usando 4 repeticiones, un experimento de aproximadamente 16 repeticiones detectard la mitad de esa diferencia, o sea 2,5 unidades, pues las desviaciones esténdar estan en proporcién 2:1, siendo o/,/4 y o/,/16, respectiva- mente. Se usa la palabra “aproximado” porque la precisién especialmente en experimen- tos pequeftos depende en parte de Jos grados de libertad disponibles para estimar el error experimental. También, aumentar el ntimero de repeticiones puede exigir el uso de mate- rial experimental menos homogéneo o una técnica menos cuidadosa, dando asi una nueva poblacién principal con un mayor error experimental. Sin embargo, el aumento de las repeticiones por lo general mejora la precision, disminuyendo las longitudes de los interva- los de confianza y aumentando el poder de las pruebas estadisticas. En ciertos tipos de experimentos, la repeticién es un medio de aumentar el alcance de la inferencia de un experimento; la poblacion muestreada es menos restringida en su definicién y asf se amplia la inferencia, Por ejemplo, supéngase que deseamos determinar si existe una diferencia real en el rendimiento de dos variedades de un cultivo en una region, y que hay dos tipos principales de suelos en esta drea. Si el objetivo del experimen- tador es sacar inferencias para ambos tipos de suelo, es obvio que ambos deben entrar en el experimento. También es importante que el area incluida dentro de cada repeticia, esto es, en cada par de parcelas en las cuales se siembran las variedades, sea de un tipo de PRINCIPIOS DE DISERO EXPERIMENTAL — 123 suelo tan uniforme como sea posible; no es necesario y puede ser indeseable tener condi- ciones muy uniformes entre repeticiones, especialmente si la poblacién en cuestién es bastante amplia, En muchos experimentos sobre el terreno, el experimento se repite en un perfodo de afios. La razén es obvia, ya que las condiciones varian afio a aflo y es importante cono- cer el efecto de los afios sobre las diferencias entre los tratamientos, porque las recomen- daciones se suelen hacer para afios futuros. De la misma manera, se usan diferentes locali- dades para evaluar los tratamientos en las diferentes condiciones ambientales presentes en jla poblacién, esto es, en la region para la cual van a hacerse las recomendaciones. Tanto ‘tas repeticiones en tiempo (aflos) como en espacio (localidades) pueden considerarse tipos lamplios de repeticion. El propésito es aumentar el alcance de la inferencia. Frecuente- mente se usa el mismo principio en experimentos de laboratorio, o sea que el experimento completo se repita varias veces, posiblemente por personas diferentes, para determinar la tepetibilidad de los tratamientos en condiciones posiblemente diferentes que puedan exis- tir en el laboratorio de tiempo en tiempo, Finalmente, la repeticin nos permite agrupar unidades experimentales de acuerdo con la respuesta esperada en ausencia de tratamientos, El objeto es repartir ta variacion total entre las unidades experimentales de tal manera que se maximice entre los grupos y se minimice simulténeamente dentro de ellos. Ahora bien, si se aplica un conjunto de tratamientos dentro de cada grupo de éstos, las diferencias observadas medirén las verda- deras diferencias de tratamientos mejor que sila agrupacin se hubiera pasado por alto. Es claro que no debe inflarse el error experimental, que es nuestra medida para detectar di- ferencias reales entre tratamientos, debido a diferencias entre grupos, Se cuenta con las matematicas apropiadas para lograr este propésito. 6.7 Factores que afectan el mimero de repeticiones El niimero de repeticiones de un experimento depende de varios factores, de los cuales el més importante es el grado de precision deseada. Cuanto més pequefia sea la discrepancia con respecto ala hipétesis nula que se ha‘de medif' 0 défectar, mayor seré el nimero de_ repeticiones requeridas, + -Ea uf experimento, es muy importante tener una cuantia correcta de precision. No tiene objeto usar 10 repeticiones para detectar una diferencia que se puede detectar con 4 en la mayoria de Jos casos; tampoco es de utilidad levar a cabo un experiment en el que el ntimero de repeticiones sea insuficiente para detectar diferencias importantes, ex- cepto ocasionalmente. Para medix cualquier discrepancia con respecto.ala hipétesis nula, el error_experi- mental, esto es, la variacién entre observacionés experimentales tratadas de maviera atid- ~-loga; debe. proporcionar la unidad de medida. A veces no es préctico hacer una observacién ¢n la unidad experimental completa por ejemplo, en el caso de determinaciones quimicas, como Ia del contenido proteinico de un forraje, se toman muestras de la unidad experi- mental. Usualmentp Ja variacion entre unidades experimentales es grande en comparacin con la variacién entre muestras de una sola unidad. No hay raz6n para detectar un niime- ro grande de determinaciones quimicas en cada unidad experimental, ya que el error ¢x- 124 BIOESTADISTICA: PRINCIPIOS ¥ PROCEDIMIENTOS perimental debe estar basado en [a variacién entre las unidades experimentales, no en la variacion entre las muestras de esas unidades, Ciertos materiales son naturalmente més variables que otros. Considérese el proble- ma de heterogeneidad del suelo. Ciertos suelos son més uniformes que otros y, para la misma precisign, se necesitan menos repeticiones en suelos uniformes que en los hetero- géneos, Igualmente, diferentes cultivos desarrollados en [a misma localidad presentan variabilidad desigual. E] niimero de tratamientos afecta la precision de un experimento y el namero de repeticiones necesarias para un grado de precisién dado. Por ejemplo, si aumentamos el némero de tratamientos y mantenemos constante el numero de 1epeticiones para cada uno, entences aumentamos el tamafio del experimento y el mimero de grados de libertad para la estimacién de o”. Aun tenemos s} = s?/n pero es mejorlaestimacién deo? y, por tanto, es mejor la precisién. El mimero de zepeticiones puede reducirse si no se requiere ‘un aumento de precisién. Por otra parte, si mantenemos constante el tamafio del experi- mento, entonces un mayor numero de tratamientos implica menos repeticiones de cada uno de ellos y menos grados de libertad para estimar o?. Ahora s} = s/n tiene un menor ny una estimacion mas deficiente de o?. Como resultado se tiene menor precision. El ntimero de repeticiones debe aumentarse para lograr una precisién fijada. Todo este razo- namiento es mas apropiado para experimentos pequesios, por ejemplo, con menos de 20 grados de libertad en el error, EI diseflo experimental también afecta la precisién de un experimento y ei nimero de repeticiones necesarias, Cuando el ntimero de tratamientos es grande y es necesario usar Unidades experimentales mds heterogéneas, entonces aumenta el error experimental por unidad. Los disefios experimentales apropiades pueden controlar parte de esta varia- cién, Desafortunadamente, el numero de repeticiones a menudo estd determinado en gran parte por los fondos y el tiempo disponible para el experimento. No se justifica un experi- mento si no puede obtenerse la necesaria precision con los fondos de que se dispone. La solucién es posponer el experimento hasta que se tengan los fondos suficientes, o reducir el niimero de tratamientos de modo que se tengan el ntimero de repeticiones necesarias y la precisin para los tratamientos restantes. El niimero practico de repeticiones para un experimento se alcanza cuando el costo del experimento en material, tiempo, etc., ya no se compensa con un aumento de la informacién. Vale la pena mencionar el hecho de que las repeticiones no reducen el error debido a técnicas defectuosas. Ademds, Ia sola significancia estadistica puede no dar informacion sobre la importancia practica de una discrepancia con respecto a la hipétesis nula, La mag- nitud de una discrepancia real de significancia prictica puede juzgarse mediante el conoci- miento técnico del tema en estudio, esta magnitud junto con una medida de lo deseable que sea detectarla sirve para determinar la precision requerida y, en definitiva, el nimero de repeticiones necesarias, Como se ha dicho tanto sobre el nimero apropiado de repeticiones, se plantea la pregunta respecto al método para garantizar ese numero. El problema de la determinacién del tamajio de 1a muestra se estudi6 en las secs, 5.13 y 5.14. Exppsicion més detallada se da en la sec. 9.15. Con la informacion apropiada, el experimentadot puede, por lo general, encontrar un método para determinar las repeticiones neve = a PRINCIPIOS DE DISENO EXPERIMENTAL — 125 6.8 Precisién relativa de disefios con pacos tratamientos o jad d én de un experimento se-mide-por--= nfo?-En- SHe8S Una estimaci6n de la informacién depende de lo bien que s? estima a 0” y esto esti afectado por el ntimero de grados de Libertad disponibles para la est |. Los grados defibertad dependen del nariero de repeticiones, del nimera.de-tratamientos y del disefio Cuando eV hidimero de grados'de libertad es inferior a 20, bien vale la pena nentar la precision. Asi, obsérvese que to, mas para 5 grados de libertad, es 2.57; para 10 grados de libertad, 2.23; para 20 grados de libertad, 2.09 y para 60 grados de libertad, 2.00. El valor de ra todo nivel de probabilidad dismiquye notablemente por cada grado més de libertad hasta llegar a 20; més alld de este valor, la disminuci6n es lenta. Para comparar dos disefios experimentales, se compara la cantidad de informacién. Esta da la eficiencia relativa, El procedimiento de Fisher (6.5), tal como lo presenta Cochran y Cox (6.2), estima la eficiencia del diseo | en relacién con el disefio 2 mediante = Mat Hil + 3st dm + Dlre + 38 © (a+ Dla +355 (ra + Ds + SSE (6.1) donde si y s3son los cuadrados mediosdel error de los diseftos uno y dos respectivamente, ¥ my y nz son sus gtados de libertad. Si el numero de observaciones en una media de un tratamiento difiere en los dos experimentos en comparaci6n, sustitiyase s} ys} pors}.y Sh . Supéngase que deseamos comparar un disefio que tiene 5 grados de libertad para estimar c? con otro que tiene 10 grados de libertad; esto podria ser una comparacién de un experimento pareado con uno no pareado de dos tratamientos y seis tepeticiones. El disso parsaln mu precso-que el no pareado sélo sila eficiencia del primero con rela cién al Ultimo es mayor que L, esto es, sila eficiencia relativa (my + 1a + 3)s3 _ (6)(13)s}_ 886 53 (2 + 1h + 3)s7 (U8)SF SE es mayor que 1. O-sea que ¢l pareamiento se justifica si 0.8865} es mayor que s?. 69 Control del error ELcontrol del error puede lograrse mediante 1, ~Eldisetio experimental 2. Eluso de observaciones concomitantes 3. -Laclecciéndel_tamafio y-la forma de las unidades experimentales. 1 El disefio experimental El uso del disefio experimental como medio de controlar el error experimental ha sido ampliamente investigado, desde mas o menos el final del primer cuarto del siglo presente, Este es un tema amplio, asi que sélo se expondrén aqus los prin- cipios basicos, Para un tratamiento més extenso del tema, se recomienda Cox (6.3), Coch- ran y Cox (6.2), Federer (6.4), John (6.7), Kempthorne (6.8), Youden (6.9) y otros. 126 BIOESTADISTICA: PRINCIPIOS Y PROCEDIMIENTOS El control _del_error experimental consiste en el disefio de un experimento de tal manera que parte de la variacidn natu tratamientos. Por ejemplo, considérese le dos etree enel ae se utilizan dos cerdos de cada una de 10 camadas. Si aplicamos los tratamientos, uno a cada miembro de un par, entonces la descripcién matemdtica es¥,, = +7; + p; + e,;¥ ladi- ferencia entre las medias es Py, — Y,. = (ty — tz) +(é;. — &2.);n0 hay contribucién debi- da a la variacion entre los pares, esto es, debida al conjunto de 9. De otra manera, sino existe pareamiento y los 10 cerdos se escogen simplemente al azar entre los 20 y se asig- nan a un tratamiento especifico, entonces la descripcion esi, = pu + 1; + 6,donde cada 4; incluye ahora una contribuci6n proveniente de las camadas y es un elemento de una poblacién con una varianza presumiblemente mayor que la relacionada con los z del pri- mer modelo. Asi, la eleccién de un disefio con pares no aleatorios ha controlado el error experimental o”, siempre que los pares sean una fuente adicional de variacién, esto es, siempre que la varianza natural entre las observaciones sobre individuos del mismo par sea menor que la de las observaciones entre individuos de pares diferentes. Se ha visto que el sentido comin y la agudeza para reconocer fuentes de variaci6n son basicos en Ia elec- Gién de un disefto. Cuando se agrupan las unidades experimentales en bloques completos, esto es, donde cada bloque contiene todgs los tratamientos, de modo que la variacién entre unida- des dentro de un bloque sea menor que la vafiacién entre unidades en bloques diferentes, fa precision del experimento aumenta como resuttado del control del error, Tales bloques de resultados semejantes se Haman también repericiones. El diseflo se lama diserio de blo- ques completos gleatorizados. El error experimental se basa en la variacién entre unidades dentro de una repeticién después del ajuste de cualquier efecto de tratamiento global-ob- servado. Es decir; la variacionentrerepeticiones y Ia variacion entre tratamientos no en- tran en el error experimental. A medida que ef ntimero de tratamientos en un experimento aumenta, el niimero de unidades experimentales necesarias para una repeticién también aumenta. En la mayoria de los casos, ésto lleva a un incremento en el error experimental, o sea, un aumento en la varianza de la poblacién principal. Se cuenta con disefios en los cuales se subdivide el bloque completo en varios bloques incomplétds de modo. que cada bloque incompleto~— contenga s6lo-una porci6ii dé fos La subdivision en bloques incompletos se hace de acuerdo con ciertas reglas, de tal manera que el error experimental pueda estimar- se entre unidades dentro de los bloques incompletos. La precisién se aumenta hasta el punto en que las unidades experimentales dentro de un bloque incompleto sean més uni- fomes que los bloques incompletos dentro de una repeticion. Tales disefios se ilaman dise- Fos de bloques incompletos. Se remite al lector a Cochran y Cox (6.2) y Federer (6.4). fiseiio de parcélas divididas es un diseiio de bloques incompletgs en el que la pre- cisién de ciertas comparaciores se aumenta a cxpensit de ota La pe Precision total es la misma qué"la del-disefio-basico usado. En el capitulo- 16 se estudian algunos disefios de parcelas divididas. En experimentgs en los que las comparaciones entre todos los tratamientos son esencialmente de la misma importancia, se usa un tipo diferente de disefio de bloques incompletos. Los tratamientos se asignan a las unidades experimentales de manera que cada tratamiento se presenta el mismo nimero de veces con cada uno de os otros trata- PRINCIPIOS DE DISENO EXPERIMENTAL = 27 mientos dentro de su conjunto completo de bloques incompletos. Tales disefios se conocen como bloques incompletos balanceados, Hay otro grupo, conocido como de idtices par- cialmente balanceados, donde cada tratamiento se presenta solamente con ciertos trata- mientos, no con todos, en su conjunto de bloques incompletos, El mejor diseflo en una situacién dada es el disefio mas simple disponible que pro- porcione la precision requerida. No vale la pena usar un disefio comiplicado si no se obtie- ne un aumento de precisién. 2 1 uso de observaciones concomitantes En muchos experimentos, se puede aumentar la precision mediante el uso de observaciones complementarias y una técnica aritmética la- mada andlisis de covarianza, Se usa este andlisis cuando la Variacién-entre-midadesexperi- mentales se debe, en parte, a variacién en alguna otra u otras caracteristicas medibles y no suficientemente controlables para que sean utiles al asignar unidades experimentales a bloques completos o incompletos con base en resultados semejantes. El andlisis de la cova- rianza se expone en el capitulo 17. 3 Tamafo-y-forma-de las unidades experimentales Como regla general, las unidades expe- rimentales grandes presentan menos variacién que las pequefias. Esta regla se cumple, en particular, cuando Tos errores aleatorios se distribuyen normalmente con varianza comin, y es una consecuencia de Ia relacién o} = o?/n. Sin embargo, un aumento en el tamazio de Ia unidad experimental trae a menudo como consecuencia una redsicciSw efi el nlimero de repeticiones que pueden tenerse debido a lo limitado del material experimental de que suele-disponerse en un experimento dado, Generalmente es més itil lograr una repeticion adecuada de parcelas pequeftas que de parcelas grandes. En experimento con parcelas sobre el terreno, el tamafio y forma de la unidad expe- rimental, 0 parcela, lo mismo que el tamafioy forma de un bloque completo o incompleto, son importantes respecto a la precision. Los estudios de ensayos de uniformidad, es decir, estudios de datos obtenidos de experimentos donde no se aplican tratamientos, efectua- dos con muchos cultivos y en muchos paises, han demostrado que las parcelas individua- les deben ser relativamente largas y angostas para lograr la maxima precisién; el bloque, completo o incompleto, debe ser aproximadamente cuadrado. Para una varibilidad dada ~ entre unidades experimentales, este proceder tiende a maximizar la vari ques, a la vez que minimiza la variacién entre parcelas dentro de los blog! cién grande éitre bloques indica que sui uso fia sido. ati esta variacion se elimina oor expmrimeniGl 7. eins, no ConTbUYE a as deren entre Tas meas de tra- fento.. Cuando-Tos bloques son cuadrados, las diferencias entre bloques tienden a ser grandes, Es conveniente tener una variacién pequefia entre parcelas dentro de bloques y, al mismo tiempo, tener fa parcela representativa del bloque. En terrenos donde se pre- sentan curvas de nivel de fertilidad definidas, la mayor precisién se obtiene cuando los lados largos de las parcelas son perpendiculares a las curvas 0 paralelos a la direccién de el gradiente, Para algunos tipos de experimentos, las unidades experimentales se seleccionan cui- dadosamente de modo que sean tan uniformes como sea posible; por ejemplo, ratas provenientes de und linea de endogamia pueden ser tas unidades experimentales en un experimento de nutricién. Como consecuencias de esto, se reduce el error experimental, 128 BIOESTADISTICA: PRINCIPIOS Y PROCEDIMIENTOS pero al mismo tiempo el alcance de la inferencia se reduce. La respuesta que se obtiene con unidades experimentales seleccionadas puede diferir ampliamente de la obtenida con unidades no seleccionadas, y las inferencias deben hacerse tenieudo esto en cuenta. 6. WE Eleccién de los tratamientos En ciertos § Tips Ge experimentos, los tratamientos tienen efecto sustancial sobre Ia preci- sidn, Esto es especialmente cierto en el caso de los experimentos factoriales, de que se trata en el capitulo 15. En ciertos-tipos.de experimentos, la cantidad 0 proporcién de cierto factor es im. portante. Supéngase que el experimentador esté midiendo el efecto del aumento de los niveles de un autriente sobre la respuesta de una planta. Es importante incluir varios nive- les para determinar si la respuesta es de naturaleza lineal o curvilinea, Aqui, la eleccién del mimero de niveles asi como su espaciamiento es importante para lograr respuestas apropiadas a las preguntas planteadas. En general, a mayor congcimiento de} .experimentador en cuanto a tratamientos, mejor es el procedimiento de contraste que el estadistico puede idear. Este conocimiento a menudo impone la clase y cantidad de un tratamiento particular en un conjunto de tra- tamientos, Esto, a su vez, puede influir en ta precisién del experimento. Algunos aspectos de este probiema se veran en el capitulo 15, 6.11 Refinamiento de la técnica La importancia de una técnica cuidadosa en la conduccin de un experimento es evidente por si misma. Es responsabilidad del experimentador, ver que se haga todo lo posible para asegurar una técnica cuidadosa porque ningin tipo de andlisis estadistico, o de otra clase, puede mejorar los datos obtenidos mediante experimentos mal efectuados. En general, Ja variacién proveniente de_una. técnica deficiente no es aleatoria, y no estd suieta a las leyes del'azat en las cuales se basa la inferencia estadistica. Esta variacién puede denominarse ineXeti{UG; EF contraste con Ia falta de precision. Desafortunadamente, la exectitud en fa féchicstiosiempre produce alta precisién ya que ésta también tiene que ver con la varia- dilidad aleatoria entre las unidades experimentales, la cual puede ser bastante grande. A continuacion se consideran algunos puntos de técnica que deben tenerse en cuen- ta al efectuar un experimento, Es importante, tener yniformidad en {a aplicacién. detos. tratamientos. Esto se apleatanto en la aspersion de fertilizantes 0 en la aspersi6n de arbo- les frutales, como en el corte de forraje a una altura fija en todas las parcelas y el llenado de tubos de ensayo a un nivel dado. Deberd ejercerse control sobre Jas influencias externas, de tal manera que todos los tratamientos produzcan sus efectos en condiciones compara- bles y deseables. Por ejemplo, para comparar los efectos de varios tratamientos puede ser necesario crear una epidemia mediante el uso de un indculo artificial. Deben hacerse esfuerzos para lograr a mayor uniformidad posible en la epidemia. Por otra parte, si es imposible lograr condiciones uniformes, puede ser posible todavia lograr que lo sean dentro de cada uno de los bloques, Por ejemplo, en experimentos de cultivos, si no se puede efectuar un experimento completo o si no se puede cosechar en un dia, es conve- niente hacer bloques completos en un dia; en experimentos de laboratorio donde es nece- PRINCIPIOS DE DISENO EXPERIMENTAL = 129 sario emplear varios técnicos, es aconsejable que cada uno de ellos se encargue de uno o mas conjuntos completos de tratamientos. Se debe contar.con medidas adecuadas no sesgadas de los efectos de los diversos tr tamientos o de las diferencias entre ellos. A menudo, las mediciones Tequeridas son obvias y Féciles de realizar: efi OtrOs casos, se necesita considerable investigaci6n para estar segu- 103 de lograr una medida confiable para expresar los efectos de los tratamientos. Asi, los datos de ingenieria sanitaria de la tabla 2.3 se obtuvieron luego de ensayos repetidos y de revisiones de la técnica porque se habia decidido que no se utilizacia técnica alguna hasta no tener un coeficiente de variacin del orden del $ por ciento. Siempre debe tenerse cuidado para evitar errores grandes que se presenten durante la experimentacin; la ade- cuada supervision de los asistentes y un riguroso escrutinio de los datos servirin de mucho para evitarlos, La técnica defectuosa puede aumentar el error experimental de dos maneras, Puede introducir fluctuaciones adicionales de una naturaleza mas oTehos aleatoria y, posible- mente, sujetas a las leyes del azar. Tales fMluctuaciones, si son grandes, deberan revelarse por si mismas en la estimacin del error experimental, posiblemente mediante Ia observa- cién del coeficiente de variacién. Si los experimentadores encuentran que sus estimacio- nes del error experimental son consistentemente mas altas que las de otros investigadores en él mismo campo, deben examinar cuidadosamente sus técnicas para determinar el ori- gen de los errores. La otra manera como la técnica defectuosa puede aumentar el error experimental es mediante errores no aleatorios. Estos no estdn sujetos a las leyes del azar__ y no siempre puede detectarse mediante la observacion de las medidas individuales, Se dispone de pruebas estadisticas para detectarlos, pero no se estudiardn en este texto. La técnica defectuosa también puede producir medidas consistentemente sesgadas, lo que no afecta el error experimental en las diferencias entre las medias de tratamientos, pero s{ los valores de las medias de tratamientos. El error experimental no puede detectar sesgos. El error experimental estima la precisién o la repetibilidad de las medidas, pero no estima la exactitud, Un punto que algunas veces se pasa por alto es que una medida puede estar sujeta a dos principales fuentes de variacion, una de las cuales es considerablemente mayor que 1a otra. Como ilustracién, considérese la cantidad de proteina por acre producida por un cultivo forrajero. La cantidad es una funcién del rendimiento por acre y del porcentaje de proteina. La variacién entre medidas del rendimiento del forraje es mucho mayor que la variacién entre las determinaciones del porcentaje de proteina. Como consecuencia, hay que esforzarse mas en reducir la parte del error experimental asociada con el rendi- miento del forraje, que la asociada con el porcentaje de proteina. En general, cuando estén presentes varias fuentes de variacién es mds util tratar de controlar la fuente mas grande, 6.12 Aleatorizacion La funcién de 1a aleate rizacién consiste en asegurarse que obt ian estimativo vali- o_o insesgado del error cnpesiental, de lesan te io tratamientos y de as diferen- cias entre las misigas_ La aleatorizaciOn es una de las pocas caracteristicas del diserio expe- imental moderno que es realmente nueva; la idea se debe a R.A. Fisher. La aleatorizacin generalmente supone el empleo: de um dispésitivo de azar, tal como ol lanzamiento de una 130 BIOESTADISTICA: PRINCIPIOS Y PROCEDIMIENTOS moneda 0 el uso de tablas de nuimeros aleatorios. Aleatoriedad y azar no son equivalentes; la aleatorizacién no puede superar a la técnica deficiente, Para evitar el sesgo en las comparaciones entre medias de tratamientos, es necesario disponer de alguna manera de asegurar que un tratamiento particular no resulte favoreci- do en forma consistente en repeticiones sucesivas por alguna fuente externa de variacion conocida o desconocida. O sea que cada tratamiento debe tener igual oportunidad de ser asignado a una unidad experimental, sea favorable o desfayorable. La aleatoriedad ofrece el procedimiento de igual oportunidad. Cochran y Cox (6.2) dicen que “la aleatorizacién es de algtin modo andloga a un seguro, en cuanto es una precauci6n contra percances que pueden ocurrir o no, y que pueden ser graves 0 no si ocurren”’. Los disefios sistemalicos, en los cuales los tratamientos se aplican a las unidades ex- perimentales de una manera no aleatoria y seleccionada, a menudo producen ya sea una subestimacién o bien una sobreestimacién del error experimental. También pueden dar lugar a desigualdades de precisién en las diversas comparaciones entre medias de trata- miento. Esto es especialmente evidente en muchos experimentos sobre el terreno. Nume- Tosos estudios han demostrado que las parcelas adyacentes tienden a presentar una pro- ductividad mds semejante que aquellas que estan mds separadas entre st. Se dice que tales parcelas dan componentes o residuos de error correlacionados. Como resultado de este hecho, si los tratamientos se disponen en el mismo orden sistematico en cada repeticién, entonces puede haber diferencias considerables en la precision de las comparaciones en que entran diferentes tratamientos. La precisin de comparaciones entre tratamientos que se encuentran fisicamente més cerca, es mayor que la de los que estan mas alejados, La aleatorizacidn tiende a eliminar la correlacién entre los errores y a hacer que sean validas las pruebas de significancia. 6.13. Inferencia estadistica Como hemos visto, el objetivo de los experimentos es determinar si hay diferencias reales entre nuestras medias de tratamiento y estimar la magnitud de tales diferencias si existen. Una inferencia estadistica respecto a tales diferencias supone la asignacién de una medida de la probabilidad a la inferencia, Pero ello, es necesario que la aleatorizacién y fa repeti- cién se introduzcan en el experimento de una manera apropiada Las repeticiones nos aseguran la manera de calcular el error experimental, La aleatorizacién riosaseglira una medida valida del error 6xperimiental~ La eleccién entre ur experimento con una aléatorizacién adecuada y uno sistema- tico con aparente mayor precisién pero que no se puede medir, es como la eleccin entre una via de longitud y condiciones conocidas y otra de longitud y condiciones desconoci- das, de la cual sélo se sabe que es més corta. Puede ser mas satisfactorio saber qué tan lejos hay que ir y como sera Ja ida, que partir por una via de condiciones y longitud des- conocidas, con la sola seguridad de que exmds corta. Hasta cuando no se disponga de estu- dios mds detallados de los disefios sisteméticos, parece aconsejable evitar utilizarlos. COS6L) IS-REIOTI “UNG WASH. ArOyesogey aysurs & ur sysay aatyeredwo,, “r*M‘UepNoA 69 “ZS6T “MIGA Paany] ‘AdN A Siuaunvadxa fo SSAppup pun Usisap ayy “OQ ‘auioyidway = "gg “TL61 ‘410, tAony ‘UEPUDEW ‘ssMauaadxa fo SSdpDUD PU UAsap joITsUITIS “WKB UYOr "LG “CIS6L) ZZE-BOE kL “WOT VcoziMOopuel AYM,, "9g ‘Blaquaci = “9°9 “Le6L ‘oSmquipy ‘pAog 4 JoayQ “pa ‘ep ‘Ssuaunsadxa fo uatsap ayy VY ‘OUSLY “F9 “SS6T ‘HIOA BAaNN ‘URT]UDep) ‘wiap pouauadry LM ‘alepey PG "BSGT “AIO, eaonn ‘ATL ‘Syuaugeedxa fo Sumumg “Y'A*KOD *E9 “L861 “SOA Baan “AON “ps "ez ‘sussap powwowwsdxy :XOD “Wo epnyyien AD wena ‘URIDIOD *7°9 “(LSGV) OT-ZLEL “aD ‘nh “puy ,.‘usisap jeyuawuedxe jo sajdioud ayL,, oy “MW ‘aauMoIg *1°9 selouaiajay Tet TV.INSWIMd Xa ONASIC 3d SOIMIONTYd CAPITULO SIETE 2 ANALISIS DE LA VARIANZA CLASIFICACION DE UNA VIA 7.1 Introducején El anilisis de 1a varianza fue ideado por Sir Ronald A. Fisher y es esencialmente un proce-_ dimiento aritmético que descompone una suma. total de cuadrados en.componentes aso-__ ciados.con fuentes de.variacion- reconocida, Se ha usado con provecho todos los campos de investigacién en los que los datos se miden cuantitativamente. En el capitulo 7, consideramos el andlisis de la varianza en donde el nico criterio de clasificacién de los datos es el tratamiento. Estudiamos el modelo lineal aditivo y ias componentes de la varianza, los supuestos en que se basa el andlisis de la varianza y las pruebas de significancia, ef cuadrado medio residual o error experimental y el error de muestreo. En los capitulos,.9, 15, 16 y 18 se estudian otros disertos y aspectos dei andlisis de la varianza. 7.2 El disefio completamente aleatorio Este disefio es itil cuando las unidades experimentales son esencialmente homogéneas, es decir, cuando la variacién entre ellas es pequeiia y agruparias en bloques seria poco més que un proceso aleatorio. Este es el caso en muchos tipos de experimentos de laboratorio, en los que una cantidad de material estd completamente mezclada y luego se divide en porciones pequefias para formar las unidades experimentales a las cuales se asignan los tratamientos en forma aleatoria, 0 en experimentos con animales y plantas con condici nes ambientales muy parecidas. La aleatorizacién, el proceso que hace aplicables las leyes del azar, se logra asignan- do tratamientos a las unidades experimentales de manera completamente aleatoria. No se imponen restricciones a la aleatorizacion como cuando se necesita que un bloque conten- ga todos los tratamientos, La eleccién del ntimero de observaciones que han de hacerse 132 ANALISIS DE LA VARIANZA I: CLASIFICACION DE UNA VIA 133 | sobre los diversos tratamientos, no se considera una restriccién a la aleatorizacion. Cada unidad experimental tiene la misma probabilidad de, recibir un.tratamiento, esto es, que sihay 7 unidades experiméntales entonces cualquiera de los 7 tratamientos, no todos dife- fentes, claro esta, tiene la misma probabilidad de caer en cualquier unidad experimental. La aleatorizaci6n se lleva a cabo mediante él uso de una tabla de ndmeros aleatorios. Supéngase que 1§ unidades expetimentaies van a recibir cinco repeticiones de cada uno de tres tratamientos. Asignese los mimeros 1 a 15 a las unidades experimentales, en una forma conveniente, por ejemplo, en forma consecutiva, Localicese un punto de partida en una tabla de numeros aleatorios, por ejemplo, la fila 10 y columna 20 de la tabla A.l y seleccionense 15 ntimeros de 3 digitos. Al leer verticalmente obtenemos: 118 71 789 965 688 638 901 841 396 802 687 938 377 392 G48 1 8 9 18 7 5 BM 4 1 6 MH 2 3 Entonces se asignan rangos a los numeros; asi, 118 es el menor, le corresponde el rango 1 y 965 el mayor, le cortesponde el rango 15. Se considera que estos rangos son una permu- tacién aleatoria de fos nuimeros de 1 a 15 y que los S primeros son los mimeros de unida-/ des experimentales correspondientes al tratamiento uno, Por tanto, las unidades 1, 8, 9, 15 y 7 reciben el tratamiento 1, y asi sucesivamente, E] procedimiento también es aplicable cuando los tratamientos replican desigual numero de veces, por ejemplo, 6, 6 y 3. Se usan los mimeros de 3 digitos ya que es menos probable que incluya empates como puede ocurrir con mimeros de 2 digitos. En todo caso, los empates se pueden deshacer mediante el uso de mas ruimeros. Las tablas de nimeros aleatorios pueden usarse de otra manera. Por ejemplo, los mimeros de 2 digitos menores de 90 pueden dividirse por 15 y se registra el residuo, lo que da los mimeros 00, 01, ... , 14 con igual frecuencia. Se descartan los duplicados y se obtienen otros para reemplazarlos. Los nimeros 90, 91, ..., 99 no se usan, ya que harian que 00,01, ... ,09, se presentaran con mayor frecuencia que 10, 11, ... ,14. Si, durante el curso del experimento, todas las unidades experimentales se han de tratar de manera andloga, por ejemplo, la siembra en parcelas de terreno, debe hacerse en orden aleatotio si es posible que el orden afecte los resultados,como cuando una técnica mejora debido a la practica. El sndlss de ypdiseso completamente aleatorio también ee uplicable a datos en los que el “tratamientoimplica simplemente una variable de clasificacién y cuando hasta puede ser necesario suponer la aleatoriedad. Por ejemplo, se puede medir el peso de los adultos de ciertas especies de peces obtenidos en varios lagos (tratamientos), y, se desea saber si los pesos de peces adultos cambian de un lago a otro. Ventajas E\ disc completamente aleatorio es flexible en cuanto a que el miimero de tratamientos y de repeticiones s6lo estd limitado por el ntimero de unidades experimen- tales disponibles, El ntimero de repeticiones puede variar de un tratamiento a otro, aunque generalmente lo ideal seria tener un ntimero igual por tratamiento. El andlisis esta- distico es simple atin en el caso en que el mimero de repeticiones difiera con el tratamien- to ¥ si os diversos tratamientos estén sujetos a varianzas desiguales, 10 cual se conoce 134 BIOESTADISTICA: PRINCIPIOS ¥ PROCEDIMIENTOS como la falta de homogeneidad del error experimental. Sin embargo, las pruebas de signi- ficancia y la construccion del intervalo de confianza requieren atencién especial cuando hay heterogeneidad de la varianza. La sencillez del andlisis no se pierde si algunas unidades experimentales o tratamientos enteros faltan o se descartan. La pérdida de informacién debida a estos faltantes es pequefia en relacién con las pérdidas sufridas con otros disefios, El nimero de grados de libertad para estimar el error experimental es maximo; esto mejora la precisién del experimento y es importante con experimentos pequefios,o sea, en.aquellos en los que los grados de libertad para el error experimental son menos de 20 (ver sec. 6.8). Desventajas La principal objecién al disefo completamente aleatorio es su frecuente ine- ficiencia. Como la aleatorizacién no tiene restricciones, el error experimental incluye toda la variacién entre las unidades experimentales excepto la debida a los tratamientos. En muchas situaciones es posible agrupar las unidades experimentales de modo que la varia- ci6n entre unidades dentro de los grupos sea menor que la variaci6n entre las unidades de diferentes grupos. Ciertos diseitos sacan ventaja de tal agrupamiento, excluyen ta variacion del error experimental entre grupos y aumentan la precision del experimento. Algunos de es0s disefios se estudian en los caps.9, 15 y 16. 73 Datos con un sdlo criterio de clasificacién: El andlisis de la varianza para cualquier mimero de grupos con igual niimero de repeticiones En la tabla 7.1 se da el contenido de nitrégeno, en miligramos, de plantas de trébol rojo inoculadas con cultivos de Rhizobium trifolii més un compuesto de cinco cepas de Rhizo- béum meliloti, tal como lo reporta Erdman (7.9). Cada uno de los cinco cultivos de trébol R. trifolii se sometié a prueba individualmente con un compuesto de cinco cepas de alfalfa, R meliloti, y un compuesto de trébol rojo también se sometié a prueba en el compuesto de las cepas de alfalfa, lo que da seis tratamientos en total. El experimento se realiz6 en un invernadero empleando un disefio completamente aleatorio con cinco materas por tratamiento, Céteulos Disponet los datos como en la tabla 7.1. Sea Yi, Ia observaci6n j-éima bajo el tratamiento i4simo, i= 1, 2, ...,¢y/= 1,2, ... 7. Los totales de los tratamientos re ren un subindice y el total para el tratamiento isimo puede denotarse ¥,, donde el punto indica que todas las observaciones para el tratamiento i-ésimo se han sumado para obtener este total. Las letras ¢ yr se usan para designar el numero de tratamientos y el niimero de repeticiones de cada tratamiento; aqui t= 6 y r= 5. Para cada tratamiento obtener simulténeamente Y,. yd Y} con una méquina caleu- ladora, tal como se presentaen las lineas ! y 2 de los célculos de la tabla 7.1, Estos valores se totalizan luego; por lo tanto: Fier oy E(pn)-Em ANALISIS DE LA VARIANZA I: CLASIFICACION DE UNAVIA 135 Tabla 7.1 Contenido de nitrégeno de plantas de trébol rojo inoculadas con combinaciones * de cultivos de cepas de Rhizobium rifolii y cepas de Rhizobium meliloti, mg. CepadeR, trifolit - T Com Cileulo: 3DOk1 IDOKS 3DOKk4 3DOK7 3DOKII puesto Total 4 nr 70207143 173 326 248 19.4 21.0 144 194 270 279 oO 205 ‘NS IW. 3b 25.2 1g 18.8 11.6 169 330, 243 15.8 18.6 142 208 Ly=-% al 99 32663. 935 > 5966 = ¥. 7 rN 4287.53 2,932.27 1,139.42 1,989.14 88729 1,758.71 12,994.36 T (Fr 4,152.96 2,875.20 1,071.65 1,984.03 879.14 1,748.45 12,711.43 (y-%F 134575707 -67.77 SL BAS 1026 “282.93 i 288 240 146 199 133 18.7 En la linea 3, cada total de tratamiento se eleva al cuadrado y se divide por r = 5, el nu- mero de repeticiones por tratamiento. Obtener el factor de corteccién FC de la ec. (7.1) y la suma de cuadrados total (ajustada’ para la media) de la ec. (7.2). El factor de correccién es el cuadrado de la suma de todas las observaciones dividido por su mimero. Para estos datos (zx) c cara (1) ? 64.38 “re = 11,864.; Total sc= F ¥2-C (72) ad * = 12,994.36 — 11,864.38 = 1,129.98 , ‘La suma de cuadrados atribuible a la variable de clasificaciOn, esto es, a los trata- mientos, que suele amarse sina de cuadrados entre grupos o sxma de cuadrados de tra- tamientos se calcula asf: YEtr+ YR SC tratamientos = : r c 73) *_ (4aay ++ 0357 5 = 11,864.38 = 847.05 136 BIOESTADISTICA; PRINCIPIOS Y PROCEDIMIENTOS La suma de cuadrados entre individuos tratados en forma similar también se llama suma de cuadrados dentro de grupos, suma de cuadrados residual, suma de cuadrados de error o discrepancia, y generalmente se obtiene restando del total la suma de cuadrados de tratamiento, como en Ia ec. (7.4). Esto es posible por fa propiedad de aditividad de las sumas de cuadrados. SC Error = SC Total - SC Tratamientos (74) = 1,129.98 ~ 847.05 = 282.93 La suma de cuadrados de error también puede encontrarse combinando las sumas de cua- drados dentro de tratamientos como se indica en la ec. (7.5). Estas sumas de cuadsados se dan en Ja pentiltima linea de Ja tabla 7.1. Cada componente tiene 7 — 1 = 4 grados de li- bertad. La suma de las componentes es 282.93. La naturaleza aditiva de las sumas de cua- drados queda demostrada, Esta es una excelente verificacién del célculo. Ademés, propor- ciona informacién relacionada con la homogeneidad de Ja varianza del error SC Error = ( ryy- 2) (75) PN? r 2 = {428753 - a“ }- tk {1.738 7 Los resultados numéricos de un andlisis de la varianza generalmente se presentan en una tabla de andlisis de la varianza tal como la tabla 72, con simbolos, o la tabla 73, ejemplo, para los datos que se acaban de exponer, El cuadrada medio del erzor se denota s? y frecuentemente se denomina término generalizado del error ya que es un promedio de las componentes aportadas por_las dife- rentes poblaciones o tratamientos. Es un estimativo de una o? comin, la variacién entre las observaciones tratadas en forma andloga. Que exista una o? es un supuesto, y ses una estimaci6n valida de o? sélo si este supuesto es verdadero. Las componentes individuales - s¢ basan en s6lo unos pocos grados de libertad, asi que pueden variar ampliamente en torno a a7 y, porlo tanto, no son tan buenas estimaciones como la estimacién combinada. El principio es el mismo que para las medias: una media de 24 observaciones es mejor esti- macién de y que una de 4 observaciones porque la primera tiene menor varianza. Andloga- mente, una varianza muestral basada en 24 observaciones es mejor estimacién de o* que una basada en 4 observaciones ya que la primera tiene menos varianza. La validez del su- puesto de que cada una de las componentes del error os una estimacién de la misma _¢?, se puede comprobar con la prueba de homogeneidad, x7, que se estudia en Ja sec. W733 El cuadrado medio de los tratamientos es una estimacién independiente de 9? cuan- do fa hipstesis nula es verdadera. Las varianzas entre medias estiman a ¢?/r. Asi, el ren la formula de definicién de la suma de cuadrados nos asegura que ¢l cuadrado medio de tra- tamientos estima a? en vez de o?/r. Razonamiento parecido se aplica a la formula de operacién donde se usan totales de los tratamientos, La aplicacién de la sec, 5.10- muestra que las varianzas entre totales (ver ¢jercicio 5.103) estiman ro; ahora bien, es necesario un divisor 7 sieste calculo ha de dar una estimacién de a? en vez de ra®, Como F se define ANALISIS DE LA VARIANZA I: CLASIFICACION DE UNA VIA 137 Tabla 7.2. Andlisis de la varianza:clasificacion de una via, con igual nimero de repeticiones {Con simbolos) ‘Sumas de cuadrados Fuente de —— Cuadrados al Definicion mediost F yo¥? Tratamiento t-te EUR -PY EET v Enor He) Ey KI Porsustraccién Total wok zr > 4 ¥2 yoke Dyes & Un cuadrado medio es una sina de cuadrados dividida por los grados de libertad respectivos, como la razén de dos estimaciones independientes de la misma a”, entonces es necesaria la estimacién del cuadrado medio de los tratamientos, «*. Decimos que ambos cuadrados medios se calcularon por cada observacién. EI valor F se obtiene dividiendo el cuadrado medio de los tratamientos por el cua- drado medio del error, esto es, F = 169.4/11.79 = 14.37**, Por lo tanto, el valor de F da el cuadrado medio de tratamientos como un muiltiplo del cuadrado medio del error. Estos cuadrados medios son comparables ya que cada uno estima la variacién entre obser- vaciones individuales, El F calculado se compara con el # tabulado para 5 y 24 grados de libertad para decidir si aceptamos o no La hipdtesis nula de que no hay diferencia entre las medias poblacionales 9 aceptar !a hipétesis alterna de que hay diferencia. Los valores ta- bulados de F para S y 24 grados de libertad son 2.62 y 3.90 a los niveles de probabilidad del 0.05 y 0.01, respectivamente. Puesto que el F calculado excede el 1 por ciento del F tabulado, concluimos que el experimento comprueba que hay diferencia real entre las medias de los tratamientos, Para usar las tablas de F para el analisis de la varianza, se buscan a lo largo de la parte superior de la tabla los grados de libertad. del numerador, esto es, los grados de libertad del tratamiento, y los grados de libertad del error se buscan en el margen. Esto se debe a que el conjunto de hipétesis alternativas sdlo admite que existen diferencias entre tratamientos y, por tanto, aumenta el estimativo de la varianza basado en medias 0 tota- Tabla 7.3 Andlisis de la varianza de ios datos de la tabla 7.1 Fuente de variacion —g_- Suma de cuadrados Cuadrado medio F ? ’ Entre fos cultivos ? 5 84705 21641 ame Dentro de los cultivos 24 © 282.93 YF 79 Total 29° 1,129.98 138 » BIOESTADISTICA: PRINCIPIOS Y PROCEDIMIENTOS les de tratamientos, asf que sdlo los valores grandes del criterio de prueba se juzgan signi- ficantes. Si el cuadrado medio de los tratamientos es menor que el error, el resultado se declara no significante por pequefta que sea la razén. Una F significante implica que las pruebas son suficientemente sdlidas como para indicat que ningtin tratamiento pertenece} a poblaciones con una 4 comin. Sin embargo, no indica cuales diferencias se pueden con siderar estadisticamente significantes, ° Obsérvese que tanto los grados de libertad como las sumas de cuadrados dentro de Ja tabla dan la suma de los valores correspondientes en 1a linea del total. Los cuadrados medios no son aditivos. La propiedad de aditividad de las sumas de cvadrados es caracte- ristica de experimentos bien planeados y ejecutados. Permite ciertas operaciones abrevia- das en el anilisis de 1a varianza, como el cateulo de Ja suma de cuadrados del error restan- do de la suma de cuadrados total la suma de cuadrados de tratamientos como se ve en fa tabla 7.3. Experimentos que no se planean y ejecutan de modo que posean esa propiedad, generalmente suponen muchos mds calculos y tienen menor precisién por observaciéa. El error estdndar de una media de tratamiento, y el de una diferencia entre medias ‘de tratamientos se calculan con las ecs. (7.6) y (7.7), respectivamente. Los valores numé- Ticos corresponden a os datos de la tabla 7.2, 's 11.79 »- 2- [B- = [2 = PRD - 207 ie a7) Estosestad igrafos son titiles para comparar diferencias entre medias de tratamientos, como se verd en el cap. 8, y para el célculo de intervalos de confianza para medias de tra- tamientos y diferencias de medias de tratamientos. Otras aplicaciones se ven en la sec. 3.11 y et cap. 5. Bl coeficiente de variacién se calcula por 1.54 mg (76) 5¥,. cv= we 100 = pated 100 = 17.3 por ciento (78) Se mostré en la sec, 5.5 que e] andlisis de la varianza pod{a usarse en vez de la prue- ba f para comparar dos tratamientos en los que el disefio fuera completamente aleatorio, La prueba de F de una cola con 1 y # grados de libertad corresponde ala £ de dos colas con grados de libertad, Esta prueba de f no especifica la direcci6n de la diferencia entre dos medias de tratamientos para la hipétesis alterna; asi se parece.a la prueba de F de una cola que especifica cual cuadrado medio ha de ser mayor como resultado de diferencias de direccin no especificada entre tratamientos. Se puede demostrar que alge- braicamente estas pruebas son equivalentes; en particular ¢? = ¥. La relacién se muestra gréficamente en la fig. 7.1. Valores pequefios de t, cuando se elevan al cuadrado, se con- vierten en valores pequefios de F, que son positivos. Valores grandes de f, elevados al cua- drado, se convierten en valores grandes de F, ANALISIS DE LA VARIANZA I: CLASIFICACION DE UNAVIA 139, Fee 0 F de una cola 58 Figura 7.1 Relacién entze el f de dos colas y el F de una cola (las curvas son aproximadas solamente) Ejercicio 7.3.1 F.R. Urey, del Departamento de Zoologia, de la Universidad de Wisconsin, llev6 a cabo un experimento de estrégeno de varias soluciones que habian estado sujetas a una técnica de inactivacién in vitro. El peso del ttero de ratones hembras se usé como medida de la actividad estrogénica. En la tabla siguiente, se presentan los pesos en miligramos de cuatzo tte- 1095 de cuatro ratones hembras para cada una de las soluciones, una de control y seis diferentes. Controt —t 2 3 4 5 6 + . 898 844 64.4 75.2 884 56.4 65.6 938 116.0 98 62.4 2 83.2 794 + 884 84.0 88.0 624 732 90.4 656 - 126 68.6 69.4 738 878 85.6 0.2 Calcular las medias y efectuar et andlisis de la varianza de estos datos, Calcular las sumas de cuadrados de! error en forma directa y demostrar ia aditividad de las sumas de cuadrados, Cal- cular, ademids, el coeficiente de variaclén. Ejercicio 7.3.2 Calcular la suma de cuadrades entre los tratamientos de 1 a 6, esto es, sin tener en cuenta ef control. Esta tiene 5 grados de libertad. Calcular la suma de cuadrados para compa- rar el control con la media de todas las demas observaciones. (Indicacién: leer la sec. 5.5). Esta tiene un grado de libertad. Obsérvese que la suma de estas dos sumas de cuadrados es la suma de cuadrados de tratamientos en el andlisis de 1a vatianza. Se dice que tales comparaciones son or- togonales; la ortogonalidad se estudia en el cap. 8. Ejercicio 7.3.3 Individuos de la poblacién general de 1a Prisién Central, Raleigh, Carolina del Norte, se sometieron voluntariamente a un experimento para estudiar !a experiencia del “aisla- miento”, (En este establecimiento estan los reos de crimenes mayores.) El experimento fue dirigido por Jordan (7.12). En el tratamiento experimental, las presidiarios fueron expuestos 2 una combinacién de restricciones sensorial y de sugestién. El propésito era reducir las puntua- clones en Ia esgala T de desviacién pelostica (DP) en la prueba MMPI (Minnesota Multiphasie Personality Inventory), Ant Rw ahs « 140 BIOESTADISTICA: PRINCIPIOS ¥ PROCEDIMIENTOS. Brevernente, los tratantientos consistieron 1. Cuatro horas de restriceidn sensorial més 15 minutos de una grabacisn “terapéutica”, que informa que hay ayuda profesional, 2. Cuatro horas de restriccién sensorial mas 1$ minutos de una grabacién “emocionalmente neutra"* sobre adiestramiento de perros de caza. 3. Cuatro horas de restriccidn sensorial pero sin mensaje, El MMPI se administré antes y después del experimento, Los valores de las puntuaciones de T DP se dan en seguida para 14 individuos en cada tratamiento, Calcular Jas medias de los tratamientos y el anzilisis de la varianza de Jas puntuaciones ances de ta prueba. Probar la hipdtesis nula de que na hay diferencias entre grupos antes de efectuar elexperimento, Calcular 53, 83,~i, ¥ el coeficiente de variacién, Tratamiento 1 2 3 Prueba Pre Post «Pre Post_ «Pre Post Oo m4 8 a9 86 86.50 9 8h 53 33 64 6A TB Bi 302 8 6 8 4 69 67 7 6 79 1% at 76 9 &L 7% 6 76 OL 6774 ma o7t 4 o 0 8 1 o oo 0 8 6 87 oO 5757) oT HBB 76 626TH BHT o 1% mH eH nom 8 4 aon 37% LO wT Bjercicio 73.4 Calcular las medias de los tratamientos y el analisis de la varianza de las puntua- ciones de la prueba posterior (post test) dadas en el ejercicio 7.3.3. Probar la hipdtesis nula de que no hay diferencias entre los grupos de tratamientas terminado ef experimento. Calcular Sy. 54,7. ¥ el coeficiente de vatiactén. ;Se puede pensar que fa prueba F calculada en el andiisis de {a varianza cumple fa exigencia de ta prueba que supone el investigador. Explicar. 7.4 Datos con un solo criterio de clasificacién: El andlisis de la varianza para cualquier ntimero de grupos con numero desigual de repeticiones Cuando el ntimero de observaciones por tratamiento varia, tenemos un caso general para al cual la sec. 7.3 proporciona un ejemplo especial. El andlisis de la varianza se ilustrard ahora con los datos dela tabla 7.4, Las observa- ciones originales se tomaron en un experimento de invemadero en Ithaca, Nueva York, y se trataba de determinar si hay o no diferencias genéticas entre las plantas, bien sea entre o dentro de fas localidades, donde localidad se refiere af origen de Ia planta; los ANALISIS DE LA VARIANZA I: CLASIFICACION DE UNA VIA 141 Tabla 7.4 Longitud de la hoja de Sedum oxypetatum al tiempo de la floracién (suma de tres hojas) provenientes de seis localidades en el cinturén volcdnico trans-mexicano, en mm Localidad oo, DY, h. rx hire Ly iP Fi Tr i H 1167 147.00 21,609 LA 1 70 70.00 490 R 6 64 105.67 71,740, 4747.33 SN 1 5 75.00 5,625 Tep 3 387 11567 40,357 2087 Tis 2.1790 85.00 14,500 50.90 Totales 14 1Aa3— (¥ = 10307) 158,731 «153,713.00 5,018.00 Fuente: Datos sin publicar usados con permiso de R.T. Clausen, Universidad de Cornell, Ithaca, Nueva York. datos en la Tabla 7.4 son apropiados para hacer comparaciones entre localidades (mas generalmente, tratamientos) y son para sélo un cardcter de los muchos que fueron com- probados. Calcular LK y x Yi. 7 sea, la suma y ta suma de cuadrados de las observaciones para cada tratamiento; éstas se presentan también en la tabla 7.4. La ec. (7.9) es el tinico procedimiento nuevo de ealculo; Ja ec. (7.3) resulta de esta ecuacién cuando todos los r, son iguales. _ (anny . =" 148,732.07 SC Total =P Yj — C = 158,731.00 — 148,732.07 = 9,998.93 or) (79) 2 Sc Tratamientos = ¥ YE —¢ c eS, = 153,713.00 — 148,732.07 = 4,980.93 SC Error = SC Total ~ SC Tratamientos = 5,018.00 de los tratamientos. También, la ec. (7. 9) tiene la formula de definicién correspondiente dada por Obsérvese que ¥. = YEn= EK ¥,./5,71 es una media ponderada de las medias 142 BIOESTADISTICA: PRINCIPIOS Y PROCEDIMIENTOS, Tabla 7.5 Anilisis de la varianza de los datos resumidos en la tabla 7.4 Fuente de variaciin = gl SC. cM F Entre focalidades 5 498093 996.19 159 Dentro delocalidades 8 5,018.00 627.25 Total 139,998.93 Pca Lh EP 7.10) Esto muestra que estamos calculando realmente una suma ponderada de cuadrados de las desviaciones de las medias de los tratamientos de la media total. Las ponderaciones son proporcionales a la informacidn en toda media, como lo son los inversos de las varianzas, o/r,, excepto para la o” comin. Finalmente, la suma de cuadrados del error puede calcularse combinando las sumas de cuadrados dentro de los tratamientos dados en Ja wltima columna de la tabla 7.4. Es de interés observar que tres localidades no contribuyen en nada a la varianze del error, ya que cada una proporciona sdlo una observacién. El analisis de fa varianza estd dado en [a tabla 7.5.F no es significante; el F tabula- do, F(0.05) = 3.69 para 5 y 8 grados de libertad. Lo comprobado no esté en favor de la diferencia entre localidades, . Ejervicio 74.1 Wexelsen (7,18) estudié los efectos de la endogamia sabre el peso de la planta en el tebol rojo, Se dan 4 continuacion los pesos medics por planta en gramos de Lineas (F,), no endagimicas y tres grupos de familias endogimicas en orden creciente de endogamia, Fy: 154,263, 266, 337, 274, 289, 244, 265 Ligeramente endogémicas: 236, 191, 209, 212, 224 Fy: 253, 192, 141, 160, 229, 221, 150, 215, 232, 234, 193, 188 Fy 173, 164, 183, 138, 146, 125, 178, 199, 170, 197, 172, 198 Catcular ei andtisis de Ja varianza para estos datos, Obtener la suma de cuadrados del error dicectamente y demostrar ta actividad de las suas de cuadcados, Catcular el coeficiente de va- diacién Bjercicio 7.4.2 Los datos del ejercicio 7.3.3 son incompletos. También se obtuvieron las si- guientes observaciones, a) Efectuar el anilisis de fa varianca de fas puntuaciones de fa prueba previa usando todos los datos. Probar la hipstesis nula de que no hay diferencias entre fas medias poblacionales. Presentar las medias, 5 y C.V. ANALISIS DE LA VARIANZA I: CLASIFICACION DE UNA VIA 143 Tratamiento 1 2 3 Prueba Pre Post «Pre Post’ «Pre Post, BiB $30 81 86 BB at No mas 6 60 3B 830074 6) Efectuar el anilisis de fa varianza de las puntuaciones de la prueba posterior usando todos Jos datos, Probar Id hipotesis nula de que no hay diferencias entre las medias, Calcular tas medias, sy C.V. Ejercicio 7.4.3 En un estudio experimental de los efectos del Arocior 1254, en PCB, Sanders (7.14) incorporé Ia sustancia en las dietas de ratones caseros, machos, albinos de un genotipo aleatorio alimentados ad libitum. Las proporciones fueron: 0, 62.5, 250, 1,000 y 4,000 ppm. Luego de dos semanas, se inyectaron los ratones con Nembutat y se registraron sus tiempos de suefio. Estos tiempos constituyen una medida de la actividad enzimdtica miczosomética hepati- a. Los tiempos de suefio de los ratones sobrevivientes fueron Proporciones Tiempos de suenic 0 67,69, 72,79 625 96, 98, 130, 65 250-74, 24, 15, 33, 17 100049. 46 Caleular él andlisis de 1a varianza y probar la hipstesis nula de que no hay diferencias entre las medias poblacionales de las cuatro raciones, Calcular las medias, sy el C.V,de las proporciones. Ejercicio 7.4.4 Sanders (7.14) también midié el peso final en el experimento del ejercicio 7.4.3, tal como se da en la tabla, Proporciones Pesos finales 0 35, 47, 46, $3 625 47, 51,40, 44 25049, 44, 46, 51, 48 100036, 41 Repetir el ejercicio 7.4.3 con estos datos 144 BIOESTADISTICA: PRINCIPIOS Y PROCEDIMIENTOS 1.5 El modelo lineal aditivo Se ha definido una observacion como la suma de los componentes, una media, y un ele- mento aleatorio, donde l2 media, a su turno, puede ser una suma de componentes, Otro supuesto bisico en el andlisis de la varianza, cuando se Hevan a cabo pruebas de significan- cia, es que las componentes aleatorias se distribuyen independiente y normalmente en tor- no a fa media cero y con una varianza comin. Para la clasificacién de una via, el modelo lineal comienza con (7) Yg= ut tet ty los €,; son componentes aleatorias. También deben hacerse supuestos respecto a los r para calcular el modelo experi- mental. Asi tenemos: Elmodelo fifo a modelo i Lostsan fijos y Yusd constituyen una poblacidn finita y son los pardmetros de interés ademés de o?. EI modeig aleatorio o modelo i! Los t son una muestra aleatoria de una poblacién de ¢ para la cual la media es cero y la varianza es o?, el pardmetro de interés ademas de o* La diferencia consiste en que para ¢l modelo fijo, una repeticion del experimento producird el mismo conjunto de t en el nuevo experimenta; concentramas la atencién en esos t.Un experimento en fertilizacion ilustra normalmente un modelo fijo, Para un mo- delo aleatorioAuna repeticin producité un nuevo conjunio de t de la misma poblacién de Ty, con ef tiempo, la poblacién completa de las r apareceré en la posici6n i-ésima, nos interesaremos por la variabilidad de fas r pues no estamos en situacién de continuar con nuestro interés en un conjunto especifica, Un experimento que examina el efecto gentti- co de vacas lecheras en la produccidn de leche, ilustra bien el modelo aleatorio, Para e] modelo fijo, extraemas inferencias acerca de los tratamientos particulares; para el modelo aleatorio, extraemos una inferencia respecto de la poblacion de tratamientos, La ecuacién para el modelo lineal puede haberse escrito Yj = 4 + 6,. En este caso, es claro que se pueden estimar todas las z,. Ahora bien, si escribimos p; = 4 + ¢; po- demos estimar 1 + z, pero now y t,. Esto también es claro si consideramos el muestreo de una sola poblacién tratada. Qué tanto de la respuesta promediose ha de asignar ala po- blacién original y qué tanto de tratamiento” Necesitamos un punto de referencia, def cual no se dispone ordinariamente. Mas generalmente, no podemos estimar unt, 0), t,cuando tenemos ¢ poblaciones tratadas. E} presente modelo esta sobreparametrizado, . Esta dificultad se obvia mediante la imposicién de alguna’ condiciones a los parime- tros, tal como hacer que ), t; = 0 ;los economistas a menudo hacen 7; = 0. ANALISIS DE LA VARIANZA I: CLASIFICACION DE UNA VIA 145, Tabla 7.6 Valores promedios de los cuadrados medios para los modelos I y II, con igual nimero de repeticiones EL cuadrada medio es un estim: Fuentes de variacion gl Modelo | Modeto If Tratamientos 1 er L let) ot tre? Individuos dentro detratamientos lr )eer—¢ oo? a Total wet Las condiciones impuestas slo con el propésito de lograr una solucién se Haman constriceiones sobre la solucién, pero cuando hacen parte integral del modelo, esto es, cuando son supuestos, como aqui se les llama restricciones sobre ef modelo. Haver Yr, = 0 y, por tanto, 5) 7, = 0, es simplemente medir los efectos de los tra- tamientos como desviaciones respecto de una media global. Entonces, se establece facil- mente la hipétesis nula, asi Hg: 1, = 0, i=. ....eylaalterna Hy :algine,# 0.SiL¢, ha sido una condici6n, entonces Ho seria simpiemente que todos los efectos de tratamien- tos son iguales. Evidentemente, tenemos el modelo fijo en mente en nuestra discusién cuando desarrollamos la aritmética del andlisis de Ia varianza. Sin mbargo, posteriormente lo aplicamos al modelo aleatorio en que tenemos que Hy: a? = 0, Una vez decidido e] modelo particular, es posible establecer qué parémetros se estén estimando cuando se calculan los diferentes cuadrados medios y el valor de F. Para los modelos I y Il, si el experimento se repitiera indefinidamente y se promediaran fos cua- drados medios observados, tendriamos los valores dados en la tabla 7.6— valores espera- dos, Para un experimento individual, los cuadrados medios son estimativos de los corres- pondientes valores esperados en la tabla 7.6. Considérese que los datos de Rhizobium de la tabla 7.1 son los datos a los cuales se aplica el modelo I, Entonces, por las tablas 7,3 y 7.6, es claro que paraestimar S. ¢?/(t — 1), necesitamos restar el cuadrado medio dentro de cultivos, el cuadrado medio entre cultivos y luego dividir por r = §, Tenernos que a? se estima por 11.79 169.41 — 11.79 se estima por = 31.52 El valor 31.52 es una estimacién de la variabilidad del conjunto fijo de los r y cualquier viriabilidad en esta estimacién, de experimento a experimento, proviene de la variabilidad en [a estimacién de 0”; no hay diferencia en las t de una muestra a otra Para un experimento al cual se aplica el modelo II, lg varfabilidad del estimativo de 0? proviene de Ja variabilidad en el estimativo de a y oe" fas diferencias de los tde mues- traa muestra, - 146 BIOESTADISTICA; PRINCIPIOS Y PROCEDIMIENTOS Tabla 7.7 Valor promedia del cuadrado medio de los tratamientos para ef modelo I con desiguai ntimero de repeticiones Condicion impuesta £2 cuadrado medio de Jos tratamientos es un estimativo de Se eg bid =O viE Nn (-0 Ineo os (Lectve~ 1) Note que Dae? ~ EP ye aF donde t= (LMT) Cuando hay repeticiones diferentes para los tratamientos, el coeficiente correspon- diente a r para el valor promedio dei cuadrado medio de los tratamientos es, para el modelo II, nalE no Rt (722) " Para el modelo 1, et valor promedio para e} cuadrado medio de los tratamientos depende de silos r van a ser simples desviaciones respecto de una media o de si su media ponderada, y por tanto su suma ponderada, ha de ser cero. Los valores se dan en la tabla 7.7. El valor medio del cuadrade medio del error es o*, sea cuad sea la restriccién que se imponga a tas t Que fos cuadrados medios calculados para igual numero de replicaciones, tienen ios valores esperados dados en {a tabla 7.6, se demuestra ficilmente. El cuadrado medio para individuos dentro de tratamientos se obtiene combinando estimativos como el que se obtiene porY; = + t+ fiae---¥, = ut + t, + 4, donde solo varian lose . Evidente- mente, esto nos leva a un estimativo de a7, lo mismo puede decirse si res también una variable. El cuadrado medio de tratamientos se basa en totales Tht rey + ey THE Fp Ye o en medias Yosuty th, Rouwt atk Si ia hipétesis nula es verdadera, entences los totales son de la forma ry + 2. su Varianza es una estimacion de ro*. Sin embargo, el divisor de r se usa en el ciloulo de tal manera que el cuadrado medio en la tabla de andlisis de la varianza sea un estimativo de 07, Sila hipdtesis nula es falsa, entances los totales son de la formary + rt + clos cy los econ- tribuyen a la variabilidad de tos totales, La contribucion atribliible a los.< es adn a”. Al elevar al cuadrado los totales, se obtienen términos como 1°17, que dan rt} al divi- die nor r Act la contribucién atribuible a los tes 3 r?/(t — t) o una estimacion de ro?. ANALISIS DE LA VARIANZA I: CLASIFICACION DE UNA VIA 147 Como suponemos que los zy los € son independientes, entonces no hay contribucion en que entren productos de ry é Cuando se tiene un niimero desigual de repeticiones, los totales son de la forma rut rti +e: ¥ las medias de la forma + 1, + &.. El edlculo directo de un cuadrado medio de tratamientos a partir de totales no es valido ya quer, res variable e introduciria una contribucién no debida ni a losz nia los ¢ ; !os cdlculos con medias no introducen tal dificultad. Puede demostrarse que Er donde el primer miembro es Ja formula para calcular la suma de cuadrados de tratamien- tos, El segundo miembro es una suma ponderada de cuadrados de las desviaciones de las medias de los tratamientos respecto de la media general definida como ¥../(Y. 7} 0 su equi- valente (¥ 7; ¥;.)/(¥r;). Las ponderaciones asignadas a las desviaciones al cuadrado son, como se ve, inversamente proporcionales a la varianza de cada media de tratamiento, o sea que una varianza grande leva a una ponderacién pequefia y viceversa, tal como debe ser el caso. Ahora es claro que si no hay diferencias debidas a los tratamientos, el cuadrado medio de los tratamientos conduce a un estimativo de a7; si hay efectos de los tratamien- tos, también hay una contribucién debida a las «(ver tabla 7.7). Cuando F es el criterio de prueba para probar entre medias de tratamientos en un andlisis de la varianza, la hipétesis nula es la de que no hay diferencias en las medias po- blacionales de los tratamientos y la alterna es que existen diferencias fo mas a menudo sin especificar con respecto al tamafo y a la direccién, Diferencias verdaderas, pueden ser resultado de un conjunto particular ce efectos fijos o de un conjunto aleatorio de efectos Provenientes de una poblacién de efectos. La base del criterio de prueba es la comparacion de dos varianzas independientes que son estimaciones de una varianza comtin sila hipéte- sis nula es verdadera, Si hay diferencias reales entre tratamientos, tenemos aR oe pat eh Me-D patra s 5 segiin sea el modelo. Los“ , llamados simplemente sombreros, indican que no hay una manera de estimar las componentes de varianza con sélo el numerador. En promedio, entonces, el numerador ser mayor que el denominador si hay diferencia real entre trata- mientos, Estamos tratando de detectar cantidades poblacionales ( t?)/(r — 1) 0 ¢?segan sea el modelo. Formaimente, tenemos Mg: t;= 0, i=1,...,f versus H,: algun t; 3 O pa 1a el modelo fijo con la restriccin 7 t, = 0 ; por otra parte, para el modelo aleatorio, Hg: 02 = 0 versusa Hy: 0? > 0. Esta prueba se Hama de una cola, donde la referencia alas colas es respecto de la distribucion F. Ejercicio 7.5.1 Con los datos det ejercicio 7.3.1., estimar la contribucién de los efectos de los ‘tratamientos a la variabilidad medida con el cuadrado medio de los tratamientos, Decidir qué . Modelo se aplica y definir esta contribucién en términos de las componentes del modelo. 148 BIOESTADISTICA: PRINCIPIOS ¥ PROCEDIMIENTOS. Ejercicio 7.5.2 Repetir el ejercicio 7.5.1 con los datos después del tratamiento del gercicio 133. Ejercicio 7.5.3 Repetir el sjercicin 7.5.1 con los datos del ojercicio 7.4.1 y los datos después del tratamiento del ejercicio 7.4.2 7.6 Analisis de la varianza con submuestras. Numero igual de submuestras En algunas situaciones experimentales, se pueden tomar varias observaciones dentro de la unidad experimental, la unidad a la cual se aplica el tratamiento. Tales observaciones se hacen en submuestras 0 unidades de muestreo, Las diferencias entre submuestras dentro de una unidad experimental son diferencias de observacién mas que diferencias de unidad experimental, Por ejemplo, considérense fos datos de [a tabla 7.8..{Un grupo grande de plantas se asignaron aleatoriamente a unas materas, cuatro por matera, la unidad experi- mentaf; los tratamientos se asignaron al azar a las materas, tres materas por tratamiento. Todas jas materas se aleatorizaron completamente con respecto a su localizacién durante el tiempo transcurrido bajo luz del dia, y cada grupo de materas se aleatorizé completa- mente dentro de losniveles (bajo y aito) de temperatura en invernadero durante el periodo de obscuridad. Las observaciones se hicieron en plantas individuales, Dos fuentes de variacién que contribuyen a la varianza aplicable a las comparacio- nes entre medias de tratamientos son: 1, La variacin entre plantas tratadas de igual manera, esto es, entre plantas dentro de materas. Como se aplican a diferentes tratamientos, a materas diferentes y, por con- siguiente, a plantas diferentes, la variaci6n entre plantas aparecerd en las comparacio- nes entre medias de tratamientos. 2. La variacién entre plantas en diferentes matezas tratadas en forma semejante, es decir, variacién entre materas dentro de tratamientos. Esta vatiacién puede no ser mayor que la variacién entre plantas tratadas andlogamente, pero lo corriente es que lo sea. El investigador generalmente sabe si se puede esperar o no que ésta sea una fuente real de variacién; por ejemplo, puede ser que los autrientes, la luz, la hume- dad, etc., varien mds de matera a matera que dentro de una matera. Una medida de ja variacién calculada a partir de totales o medias de materas para ¢l mismo trata- miento contendr, naturalmente, ambas fuentes de variacién. ‘Los cuadrados medios de Jos dos tipos de variacién mencionados anteriormente se aman en general error de muestreo y error experimental, respectivamente. Si la segunda fuente de variacion no es real, entonces los dos cuadrados medios serdn aproximadamente iguales. De otra manera, es de esperar que el error experimental sea mayor en muestreo aleatorio puesto que contiene una fuente de variacién mas. Situaciones comparables se encuentran en muchos campos de experimentacion, Un agrénomo puede estar interesado en determinar el mimero de plantas por unidad de area en un ensayo varietal en trébol rojo, o un entomélogo puede querer determinar el ntimero de piojos en el ganado en un experimento para evaluar insecticidas para ¢l control de esos pardsitos. Bn ambos casos, las submuestras se pueden tomar en cada unidad experimental. En andlisis quimicos, deteminaciones duplicadas y triplicadas se pueden hacer en cada 149 ANALISIS DE LA VARIANZA I: CLASIFICACION DE UNA VIA. *910K ton “RORUAT ‘TOD SP PEPBreAtUN ‘osqmy “y 9p osyuLied UOD OpEZTTN uty 96 X so1Up op roe oJunfuCD UN op sized Los SOrEp KOI -a/uany 6L s9 ee zs t Le onudurmen op seen = he 086 su oar so Sr ov oqusiueyen op sammy, a — ye OSE OLE oe | OO SH OM | OR OB Oz | Oe siz Os | su oP om | StL Sut Ost ‘trapetM op soperoy, Of Of s8 | se se of | OL so se | ss os sr | os oF st | ce os sb ’ 06 OL s¥ | s# sh se | OL 08 06 | 59 os os | oF of oF | sz ss oF € OL OL 08 | $9 se ss | OL OL 09 | sw 09 sr | oF se ss | oe se OF z om 09 0% | s9 O9 09 | Ge so SB iss ss os | sp se os | oe sz se 1 €otot e 24 ec ozit | ez ot ect ‘ON EIDE "ON TATE “on e191 “ON Bro “oN Bree CON EOE a 8 a a R seiued ap oraurmy, Seummjoou semmyFraduray sexy ‘soumyoou semyezeduroy sefng, ‘tusnyp 20] 9p se10H, eapEn Hos FUN Uo SEPEANTHO e]UaU 9p seuE]d op SOME) ap RUULHES BUN U9 O}LORUITION “RL BIQEL 150 BIOESTADISTICA: PRINCIPIOS ¥ PROCEDIMIENTOS. muestra. En experimentos sobre el terreno y con animales, la variaci6n entre submuestras © unidades de muestreo dentro de una unidad experimental es una medida de homogenei- dad de la unidad, mientras que en andlisis quimicos esa variacion esté a menudo asociada con la repetibilidad de ta técnica, Esta es la variacién que Heva al error de muestreo, Al probar una hipétesis sobre medias de tratamientos, el divisor apropiado para F es el cuadrado medio def error experimental ya que éste incluye ia variacién proveniente de todas las fuentes que contribuyen a la variabilidad de las medias de los tratamientos excep- tuados los tratamientos. De los datos que pueden clasificarse segiin un sistema consistente en un orden Gnico de criterios de clasificacién, en que cada criterio es aplicable dentro de todas las categorias del criterio precedente, se dice que estan en una clasificacion jerdrquica o clasificecién anidada, Asi, los datos de la tabla 7,8 pueden clasificarse de acuerdo con los tratamientos, Ja combinacion de temperatura y tiempo, luego dentro de tratamientos de acuerdo con la matera y finalmente dentro de las materas segiin las plantas, No existe otro orden razona- ble. Los mismos tratamientos pueden clasiticarse en uno de dos érdenes, bien sea horas dentro de temperaturas 0 temperaturas dentro de horas, Los tratamientos forman una cla- sificaci6n de dos factores, que se estudiard en el cap.9. Célculos Sea ¥,, el crecimiento semanal de !a planta & en la matera/ con e] tratamiento Lk=1,.,4)= 1,2, 3,451, .... 6. Asi, la planta 2 de la matera 3 con el tratamiento 6 (alta temperatura noctura luego de 16 horas de luz diurna), presenta en una semana un crecimiento del tallo de 7.0 cm., esto es, ¥3, = 7.0 om. Los nameros de planta y materas som para comodidad en la identificacién de las observaciones. Asi, las plantas con el ni- mero 2 no tienen nada en comin excepto el nuimero; y las materas con el ndmero 3 no tienen nada en comin, excepto el numero, Por otra parte, las plantas © materas con él mismo nimero de tratamiento reciben el mismo tratamiento, asi que se espera que res- pondan en forma similar, mientras que plantas y materas con nimero diferente de trata- miento pueden responder en forma diferente. Dendtense los totales de materas por ¥;,., totales para una combinacion particular de tratamiento y matera. De este modo, el crecimiento de plantas en la matera 2 conel tratamiento 3 en una semana (baja temperatura nocturna, seguida de 16 horas de luz diurna) totaliza 21.5 em., esto es, Yy2. = 21.5 om. Denétense fos totales de tratamientos con ¥,.. El crecimiento total en una sola semana del tallo de plantas con el tratamiento 4 es 88.0 cm, esto es ¥s.. = 88.0 cm, Dendtese el gran total por ¥.. = 4165 om. La notacién con puntos (¥,., ¥,... ¥..) ¢8 una abreviatura util y comin que puede generalizarse facilmente a muchas situaciones experimentales, El punto remplaza un sub- indice e indica que todos los valores que cubre el subindice se han sumado, ta informacion particular suministrada antes por los individuos, tal como lo indica el subindice, no se ha cambiado por un resumen en forma de un total; el subindice ya no se necesita y se rem~ plaza por punto. Por lo tanto, Y= 3.5440 +30 +45 = 150 cm, Y= 35440 +--+ + 3.0 = 15.04 175 + 1: y asi sucesivamente. ANALISIS DE LA VARIANZA I: CLASIFICACION DE UNA VIA 151. Obtener los 18 totales y sumas de cuadrados de materas, es decir, Tw y OMe E para las 18 combinaciones de # y j. De estos subtotales obténgase el factor de correccién FC, la suma total de cuadrados para las materas, Estos son, respectivamente, ¥2. _ (416.5)? ot 436 = 2,409.34 donde 5 es el mimero de submuestras por parcela, o sea, el ntimero de plantas por matera, res el nlimero de repeticiones de un tratamiento, o sea, el numero de materas por trata- miento,y f es el niamero de tratamientos. sCTotal = ¥ ¥},—C fe = (3.57 + (407 +--- + (8.0)? - C = 255.91 con 71 gl EY SCMateras = “—— — € tpn 2 = (150) +0 + B50? _ 6 _ 295.47 con 17 gl Las sumas de cuadrados atribuibles a las submuestras (entre plantas dentro de mate- ras) se puede encontrar por diferencia: SCdentro de materas = SCtotal — SCmateras = 25591 - 208.47 = 5044 con 71~17=54 @ Los célculos hasta este punto se pueden colocar ahora en una tabla de andlisis de la varianza (ver tabla 7.9). La suma de cuadrados de materas mide, como la variaci6n entre materas trata cuadrados, tenemos ariacion debido a los tratamientos, asf a andloga. Al particionar esta suma de ry. SCtratamientos = ——— — C sv ~ C= 179.64 con Sgt 12 BIOESTADISTICA: PRINCIPIOS Y PROCEDIMIENTOS Tabla 7.9 Anilisis de la varianza de los datos de plantas de menta, tabla 7.8 Puente de variacion slosc) OGM CM esperado Entre materas 17 205.7 Tratamientos 5 17964 3593 ot + aa? + (ae ° eke Entre materas degtco de tratamiento error experimental 12-2583 24S a + dad Emre plantas dentro de materas = error de muestreo 54 483 ot Total WA 28595 2s - 93 93 Fe Be = 3593 = BS 92 (0 = of pata el Modelo 1) q 2 donde ¢, es una estimacién de 5, Notese que hay sr = 12 observaciones en cada total de tratamiento, ¥...,. que es, pues, el divisor para obtener la suma de cuadrados de tratamientos. Finaimente, SC materas dentro de tratamientos = SCmateras — SCtratamientos = 205.47 ~ 179.64 = 25.83 con 17 —S=12 gh. La tabla de andiisis de la varianza se puede completar ahora, inciuyendo los cuadra- dos medios (ver tabla 7.9). Este tipo de andlisis de la varianza sé presenta a menudo sin ta linea dé las materas o bien solo indicada como un subtotal debajo de la Hnea del error experimental. Notese que los diferentes divisores expresan cada cuadrado medio por ob- servaci6n, sea, con base en las submuestras. Las medias, también deben expresarse por observacién al calcularse. La suma de cuadrados obtenida por diferencia también puede calcularse directa- mente, El procedmiento directo indica muy claramente qué fuente de variacién entra en cada etapa y cémo resultan los grados de libertad. El error de muestreo se refiere a las muestras provenientes de la unidad experimen- tal, esto es, las plantas dentro de materas. Asi, la primera matera contribuye con la si- guiente suma de cuadrados: (15.07 SCplantas de la matera J, tratamiento 1 = (3.5)? + --- + (4.5)? — = 1.25 con 3gi. Calculos semejantes se efectiian para cada una de las 18 materas, io que da lugar a 18 sumas de cuadrados, cada una con 3 grados de libertad. Su total es SC entre plantas tratadas andlogamente = 1.25 + --- + 8.75 = 5045 con 18(3) = 54 gl. ANALISIS DE LA VARIANZA I: CLASIFICACION DEUNA VIA 153 Las sumas de cuadrados y los grados de libertad se combinan para estimar una vatianza muestral. Suponemos que existe una varianza comin dentro de materas, sin tener en cuenta el tratamiento. El error experimental se refiere a Ja unidad experimental tratada en forma andloga, materas dentro de tratamientos, Asi, el tratamiento { contribuye con Ja siguiente suma de cuadrados al error experimental: SC materas con el tratamiento 1 _ (1507 + (17.5)? + (11.5) = (15.0 + 175 4 11.5973 4 oo = 4.54 con 2 gl. Calculos parecidos se hacen para los otros cinco tratamientos y se suman os resultados. Obtenemos SC materas tratadas andlogamente = 4.54 +--+ + 8.67 = 2583 con 6(2)= 12 gl Aqui suponemos que la varianza entre materas es la misma para todas los tratamientos. Las sumas de cuadrados y los grados de libertad se combinan para dar una estimacién de esta varianza comin, La variacion de planta a planta, que se usa para medir el error de muestreo, también estd presente en la variacién entre materas, ya que {as diferentes materas contienen dife- rentes plantas, y por ello también estd presente en la variacién entre tratamientos, Por lo tanto, ambos, la varianza de tratamientos y la varianza de materas dentro de tratamientos, centienen una varianza de planta a planta. La variacién entre tratamientos también con- tiene una contribucién atribuible a la variacién entre materas tratadas de igual manera, si la hay, ya que los efectos de los diferentes tratamientos s¢ miden en diferentes materas. Se ve, entonces, que el error experimental es apropiado para hacer comparaciones en que entren diferentes tratamientos, en tanto que el error de muestreo no lo es, ya que el cua- drado medio de tratamiento tiene sdlo una posible fuente adicional de variacién no con- tenida en el error experimental, que ¢s la debida a los tratamientos mismos. Una prueba vilida de la hipotesis nula de que no hay diferencias entre tratamientos es la dada por Cuadrado medio de tratamientos Fou Cuadrado medio del error experimental 35.93 es Tig = 167 con Sy 12g El error experimental puede o no contener variacion ademis de la que hay entre submuestras, Esto depende de las diferencias ambientales que existen entre una unidad 154 BIOESTADISTICA: PRINCIPIOS Y PROCEDIMIENTOS experimental y otra y de si son 0 no mayores que las existentes dentro de la unidad, la matera, en nuestro caso. Se dispone de una prueba en _Cuadrado medio def error experimental Cuadrado medio del error de muestreo 5 + ai?e cor 54 py 723) in i2y 54g) F El error estindar de una media de tratamiento es sp = ./2.15/12 = 0.42 em., y el error estandar de una diferencia entre medias de tratamientos es sp x/2(Z.15)/12 0,60 cm. El coeficiente de variaci6n es (s/¥)X 100 = (1.47/3.78)100 = 25 por ciento. Los célculos por clasificaciones jerérquicas con un numero creciente de ctiterios de clasificacion son la generalizaci6n obvia de los de esta seccién. Ejercicio 7.6.1 Comprobar los cileulos con jos datos de la tabla 7.8. Obtener las sumas de cua- drados del error de muestreo y la del exzor experimental en forma directa y comprobar asf la actividad de las sumas de cuadrados en el anilisis de la varianza, Ejercicio 7.6.2 Haver la diferencia entce 1a variabilidad de una media de matera y la variabili- dad entre medias de materas (ver también sec. 7.9). 7.7 Modelo lineal para submuestreo Lo visto con los datos de las plantas de menta, tabla 7.8, hace evidente la expresin mate- matica propuesto para explicar los datos, asi: Set yt ty t on (7.13) donde con cada observacién se busca ofrecer informacién acerca de la media de la pobla- cin de tratamientos muestreados, es decir, 4 + 7. Si tratamos las t como efectos fijos como obviamente lo son, entonces los medimos como desviaciones tales que Yr = 0:si Jos consideramos como efectos aleatorios, entonces se puede suponer que provienen de una poblacién con media cero y variariza o?.Se obtienen dos elementos aleatorios con cada observacién. Los éy son la unidad experimental, 0 sea, la matera, y se supone se distribuye normal ¢ independientemente con media cero y varianza 9 ;1os 5;,,son la con- tribucién de la submuestra, o sea de las plantas, y se supone que siguen una distribucién normal independiente con media cero y varianza o*. Lose y los 6 se suponen no relacio- nados entre si, 0 sea que al tomar un valor particular de 5 no se afecta ta probabilidad de tomar un valor particula: cualquiera des. Ahora considérense los totales de materas usados en los célculos del error experi- mental, Para nuestro conjunto particular de datos, estan dados por 4p + se, 4c + Foe ANALISIS DE LA VARIANZA I: CLASIFICACION DE UNA VIA 155 para las 18 combinaciones de i y de /, Una varianza calculada con estas sumas, con / fijo, contendria un 4a? y un (4)*a? ;la primera cantidad entrando en ta varianza de las sumas de los 8 y la segunda en la varianza de un miltiplo de cada ¢, lo que en esencia es una opera- cidn de codificacién. Por lo tanto los coeficientes son 4 y 47, respectivamente. El proceso de calculo empleado exige dividir toda suma de cuadrados por el nimero de observaciones en cada cantidad elevada al cuadrado. Por consiguiente, el cuadrado medio del error expe- rimental calculado estima a? + 40? Un razonamiento parecido nos lleva a los coeficientes de los componentes del cuadrado medio de tratamientos, Los resultados se presentan en la tabla 7.9. Ahora se ve claro qué es lo que busca un valor de F. Por el valor de F, es eviden- te que tanto c? como una contribucién de tratamiento estan presentes en nuestros datos. Como ta componente de tratamiento esté presente a menos que tengamos una muestra poco comtin, concluimosque la hipstesis nula Hy: ty = tz 6 = 0, apropiada para el modelo fijo, es falsa y que por lo menos un t difiere de los otros. (Sin la restriccién ¥ 1) = 0, probamos la igualdad de todas las contribuciones de tratamientos). Obsérvese que la unidad usada fue 4 cm y que el error de muestreo fue de 0.93, con una desviacién estindar de 0.96 cm. Recuérdese que en la sec. 2.15 se recomendé un intervalo de clase no mayor que un cuarto de la desviacién esténdar para mantener baja la pérdida de informacidn. Asi, para una estimacién del error de muestreo con baja pérdida de informacién debida a la eleccién del tamafio de la unidad de medida, la unidad escogi- da no fue satisfactoria. En este caso, es cosa afortunada el relativo poco uso del error de muestreo. Otro punto que se puede destacar en relacién con la eleccin de unidad de muestreo es éste: un tratamiento como la temperatura nocturna alta con 8 horas de luz de dia, matera 3, donde todas las observaciones son idénticas, no contribuye en nada a la suma de cuadrados dei error de muestreo, pero contribuye con 3 grados de libertad. En. casos como éste, se recomienda a veces dejar estos 3 grados de libertad por fuera del total. Ejescicio 7.7.1 Mediante muestreo, construir datos para un experimente que incluya tanto el error experimental como el de muestreo, Por sencillez, tomense tres tratamientos, dos unidades experimentales por tratamiento y tres observaciones por unidad, Esbozar un posible plan de tal experimento, identificando cada unidad con una ecuacién que describa la composicion de la observacién correspondiente, Ahora, decidase en cuanto a una media general, «= #0, por sjemplo, En segundo lugar, elijase un conjunto de efectos fijos para tratamientas, por ejem- plo, t, = —4, r, = ~2y 1, = 6 Tercero, obténgase un conjunto de 6 elementos sleatorios para las 6 unidades experimentales. Para éstos, hdgase un muestreo de la tabla 4.1 y calcdlese 6, = (Y — 40/4, para Y por Ia tabla, de modo que la poblacién muestreada tenga y, = OY 9, = 3. Nétese que la muestra de los ¢ probablemente no tendré @ = 00 s, = 3, Finalmente, obténganse 18 elementos aleatorios para las 18 unidades experimentales, Para éstos, hacer un muestreo en la tabla 4,1 y calculard,, = (Y — 40/12de modo que La poblacién muestreada tenga = 00, = 1. iPor qué es cierto que 4, tienez = Oy = 3? Presente el andlisis de la varianza con lag fuentes de variaci6n, grados de libertad y pard- metros que van a estimarse. Como todos los pafimetros tienen valores conocidos, es posible indicar respuestas numérica. Hacer todos los céleulos del analisis de la varianza y comparar todas las estimaciones con tos parimetzos correspondientes. (Si resulta cémodo, presentar los, resultados con base en clases, en que cada individuo haga su propio muestreo. Calcilese el pro- medio de los valores de las distintas estimaciones obtenidas y compérense con los pardmetros). Ejercicio 7.7.2 Repetir el ejercicio 7.7.1 para el modelo aleatorio, Para remplazar los efectos fijos, obtener ¢, por muestieo de 1a tabla 4.1 con = 40 y ¢ = 12. 156 BIOESTADISTICA: PRINCIPIOS Y PROCEDIMIENTOS Tabla 7,10 Observaciones sobre la calidad de un producto obtenido en ocho manufactureras en tres zonas — don ON A i B c Punts $F 1 £3 Observaciones | & Con un razonamiento parecido al de esta seccidn, considerar fas sumas de {os tratamientos y la varianza calculada a partir de etlas y determtinar qué estima ei cuadrado medio de trata mientos, 7.8 Andiisis de la varianza con submuestras: Desigual nimmero de snbmuestras Cuando las muestras tienen un mimero desigual de submuestras, el andlisis bésico es et de la sec. 7.4; en los cdlculos, el cuadrado de cualquier total se divide por el numero de ob- servaciones en el total. Por ejemplo, considérense los mimeros de la tabla 7.10. Estos po- drian ser observaciones sobre el producto de 3 plantas manufactureras en dos zonas, A ¥ B,y de dos plantas en fa zona C, Para fas 14 observaciones, n= 14, 5 Y= 95, FY? = 659, 5 (Y — ¥)? = 14.36,cm con 13 grados de libertad, Procedimiento como en la sec, 7.4, tenemos 2 SCplantas(ignorando las zonas)= 6? + exer peg 1 xy (46484-74749) ~ 1s = 586 con7 gl. SCresidual = SCtotal — SCplantas = 14.36 ~ 5.86 = 8.50 con 13-J=6 gl. Las sumas de cuadrados de plantas se pueden particionar atin mds en una componente asociada con las zonas y otra asociada con plantas dentro de las zonas. (6+6+ 2 ve TET +9P SCzonas = 3 +8F Gee cast fete +7+9} -c =407 con 2gh. SCplantas dentro de zonas = SCplantas — SCzonas, = 5.86 ~ 407 = 1.79 con 7—-2~5 gl. ANALISIS DE LA VARIANZA I: CLASIFICACION DE UNA VIA 157 Tabla 7.11 Andlisis de ta varianza de los “‘datos” de la tabla 7.10 Puente sl. SC CM CM es una estimacién de Zonas 2 407-203? + 1.90? + 4.5007 Plantas dentro de zonas =¢ttor experimental S$) 119 036 oF + 16a? Observaciones dentro de plantas error de muestreo 6 © 850 142g? Total 1b 1436 0.36 - 142 eo. sete go 0 E] andlisis de la varianza resultante se da en la tabla 7.11. Para estos “datos”, no hay evidencia de que la variacién entre plantas séa de un orden de magnitud diferente al de la variacién entre observaciones, ya que F = 0.36/1.42 < 1. En tal caso se dice que s? = Oen vez de un valor negativo, y especialmente si los gra- dos de libertad para el error experimental son pocos, pueden combinarse los dos errores para obtener una nueva estimacién de una varianza apropiada para probar las zonas. Aqui, fa nueva estimacin seria (1.79 + 8.50)(5 + 6)=0.94, con 11 grados de libertad. Cuando se tiene un numero desigual de submuestras, el célculo de los coeficientes de las componentes de Ja varianza es mucho menos claro que en el caso de igual nimero Primero, definamos r,; como el mimero de observaciones en la planta j-ésima en la zona i-€sima; por ejemplo, r,3 = 3. Ahora, r,.es el total de observaciones realizadas en la zona i-dsima por ejemplo, r, = 1 +2+3= 6. Finalmente r.-eselmimerototal de-observaciones, 7. = 14, Sea k igual al nimero de zonas; aqui k = 3, Ei coeficiente de a? depende de ja linea en el andlisis de 1a varianza. Asi, para plan- tas dentro de zonas, el coeficiente de o? es l--zleae ) - gl (error experimental) (7.14) a A= [OF + 2 + PY + +? + PSH (HPV _ gy eee ee Para las zonas, el coeficiente de 07 es elgan)-lg/- (7.15) gi (zonas) WEP + PVE + (PEP 4 VS + (72+ BY3— (+ + PIS, . 2 58-2 => = 19 158 BIOESTADISTICA: PRINCIPIOS Y PROCEDIMIENTOS E] coeficiente de a? es * ae HAO HF + FV gl(zonas) 2 " Cuando el error de muestreo es mayor que el del ertor experimental, y ta Gnica ex- plicacién a esto parece ser el azar, se acostumbra estimar como cero a a7, 0 sea, s? = 0. En la situacién mds general, esto es, cuando 5? > 0, se presenta un problema real para prodar el efecto de las zonas para una componente ) t? 0 9? ya que ninguna linea en el andlisis de la varianza difiere de la linea del cuadrado medio de zona en un miltiplo de & ¢ oo? solamente. Este problema se presenta por la desigualdad en el tamafo de Jas submuestras. Una solucién aproximada se obtiene como sigue. En ta tabla 7.11 sean los tres cua- drados medios de arriba a abajo CM(A), CM(P) y CM(0}, donde A corresponde a zanas y asi sucesivamente. Entonces =, CM(P) — CM(O) _ 0.36 ~ 1.42 1.64 V4 Desafortunadamente, este valor es negativo en nuestro ejemplo y suficiente rz6n para 20 continuar, Haremos como si 6? fuera positivo. Ahora costruimos un “término de error” para probar zonas como sigue 8? 4 1.9062 = CM(O) + 1.99 AO) MO) =(1 - alow +1 ome) Probamos Ia hipétesis nula de que no hay diferencias entze zonas usando esta funcién Lineal de cuadrados medios independientes como denominador de una razon F sintetizada con 2 gt para el numerador y un nimero incierto para el denominador. Esto puede esti- marse como sigue. De manera més general, sea CM una funcién lineal de cuadrados medios indepen- dientes, CM;, con gl=/j, 41, ...&, dada por CM =F c,CM, (7.16) Un mimero de grados de libertad aproximado para la x° de aproximacion lo da Satter- thwaite (7.15) asf GL efectivos = (7.a7) OM) Ue, CM, ANALISIS DE LA VARIANZA J: CLASIFICACION DE UNA VIA 159 La eouacién (5.17) se consideraré como una aplicacién de esta ecuacidn. La ecuacion apropiada para los gl se da remplazando cada CM; por E(CM,), pero en la prictica no se dispondré de valores numéricos para éstos. Ejarcicio 7.8.1 Un método de muestteo de pesca se dio en el cjetcicio 2.7.5, El muestreo, en ‘ese caso, continud durante [a tarde. He aqui tna parte de los resultados, Los datos son frecuen- cias de peces en varias categor ias de longitud. Las designaciones de las muestras como Ay B no tienen significado especial Categorias de longitud, en Hora de recoleccién Muestta 3 4 5 6 7 8 9 ff 4:50 4 31919 83 Sa B 02715 63 6 3:20 A 41 2% 0 4 3 65 a 3 9 1s 8 1 BS 4:40 A 28 16 4 1S 8 a B 16 18 35 12 72 78 * Datos por cortesia de Don Hayne, Universidad del Estado de Carolina del Norte, Calcular un anilisis de Ia varianza de la variable longitud, (Fuenres’ Hora de recoleccién, muestras deatro de tiempos, individuos dentro de muestras). Probar la hipdtesis aula obvia y discutir tos resultados del experimento. Comentar sobre ta unidad de medida. 79 Componentes de la varianza en experimentos planeados con submuestras En expetimentos planeados con submuestreo, se plantea el problema de ia distribucion del tiempo y dinero disponibles, en particular, de decidir si concentrarse en muchas mues- tzas con pocas submuestras 0 pocas muestras con mds submuestras. La respuesta depende de la magnitud relativa de los errores experimentales y de muestreo, y de los costos. Asi, el uso de submuestras, donde se hace la medida, puede suponer costosos andlisis quimicos, procedimientos dispendiosos 0 ensayos destructivos de articulos costosos, mientras que obtener muestras puede ser de una magnitud trivial, Por otra parte, puede ocurrir que la obtencién de muestras exija equipo, parcelas, animales o viajes costosos, suplementarios, en tanto que el submuestreo no suponga nada de esto, Probablemente Ja verdadera situa~ cién serd intermedia, Cuando se dispone de datos, se pueden usar en el planeamiento de experimentos futuros. Los del experimento con plantas de menta que se presentan en las tablas 7.8 y 7.9 se usaran para iustrar el procedimiento, El error experimental, el criterio para juzgar la significancia de las comparaciones entre medias de tratamientos, consiste en dos fuentes de variacion, variacior entre plantas tratadas en forma similar, a”, y variacion resultante de diferencias en el ambiente de materas tratadas andlogamente, a?. Ambas fuentes de vatiacion contribuyen a la varianza entre medias de tratamientos. Las estimaciones de 07 160 BIOESTADISTICA: PRINCIPIOS Y PROCEDIMIENTOS. y 62 sons? =0.93 ys? =(2.15 -0.93)/4=0.30, Notese ques?, la variacién entre medias de materas tratadas de modo semejante, por encima y por debajo de la debida a plantas den- tro de una matera, es mayor que la varianza de la media de materas basada en el error de muestreo, es decir, ens? /4 = 0.93/4 = 0.23. Supéngase que en lugar de 4 plantas por matera y 3 materas por tratamiento, se tuvieran 3 plantas por matera y 4 materas por tratamiento, el mismo mimero de plantas por tratamiento, El error experimental seria una estimacion de o? + 307. Un experimen- to semejante conduciria a una varianza de error del orden de st 43s = 93 + 3(30) = 1.83 con 3 X 6 = 18 grados de libertad, comparada con 2.15 y 12 grados de libertad para el experimento realizado. La varianza de una media de tratamiento es el valor importante que ha de considerarse y es s} = 1.83/12 = 0.1525, comparada con 0,1792 para el experi- mento realizado, Naturalmente aqui es suficiente considerar Jas varianzas siendo fijo el niimero de plantas por tratamiento. A veces, seria bueno examinar los niimeros de las plantas. . La tabla 7.12 presenta s} para otras asignaciones de 12 plantes por tratamiento. Es claro que la varianza de una media de tratamientos decrece en Ja medida en que aumenta- mos el nimero de materas 2 costa de Jas plantas dentro de materas. Recuérdese que con s6lo una planta por matera no hay modo de estimar el error de muestreo. Nétese también el incremento de los grados de libertad para estimar el error experimental. También se debe considerar el costo. Supéngase que conseguir una planta de menta para ef experimento es bajo, y que cuesta 0.1 hora-hombre pero que el costo de la prega- racién de las materas es de 0.5 hora-hombre. Entonces el costo de disponer el experimento original es de (12 X 0.1) + (3 X 0.5)= 2.7 horas-hombre por tratamiento. Es claro que el costo debe aumentar si el mimero de plantas por matera disminuye y el nimero de mate- ras aumenta, pues las unidades experimentales suponen mayores gastos. Se presentan los costos de otros expetimentos posibles con 12 plantas por tratamiento. Recuérdese que el costo adicional va acompafiado de una disminucién des}. Se consideran, ademés, otros costos posibles de factores. Cuando el costo de cultivar una planta sube hasta 1 hora-hombre, entonces es relativamente mas lento el aumento del costo de emprender experiments con menos plantas por matera, pero con més materas. Tabla 7.12 Algunas varianzas y costos por tratamiento con 12 observaciones Costost Plantas aldel error pormatera Materas experimental W(Pdetratd) = (1,.5). (5.5) (10.5) 4 3 Pa 2IS2= 1792-27 75135 3 4 x 18Y12 = 1525 32 30 140 2 6 St 1SYI2— 127542 90 150 1 200 Ue 125/12 = 1025-72 20 180 + La primera cifta corresponde & costos por plantas én horasshombre: a segunda a costo por maters, ANALISIS DE LA VARIANZA 1: CLASIFICACION DE UNA VIA 161 Finalmente podemos considerar otras formas de distribucién del-esfuerzo. Por ejem- plo, podemos considerar dos plantas por matera con tres materas por tratamiento y au- mentar el nimero de tratamientos a doce. Este experimento tendria el mismo nimero de observaciones con un nlimero adecuado de grados de libertad para estimar el error experi- mental. Como refinamiento adicional, podriamos introducir también Ja idea de precision del experimento, como se vio en la sec. 6.8. En muchos casos, un presupuesto fijo determinara la cantidad permisible de esfuer- zo. Aqui se tratard de distribuir este esfuerzo entre unidades experimentales y unidades de muestzeo con el fin de minimizar la varianza de una media de tratamiento. O bien, se puede fijar la varianza deseada y hacer asignaci6n de tal forma que se minimice el costo. (La asignacién optima se estudia en el cap. 25). Los dos enfoques llevan a la misma solu- cién Cochran (7.4) da la solucion de asignacion éptima asi (7.18) donde ny = numero de unidades de muestreo o plantas por matera ¢, = costo por matera ¢, = costo por planta s? y s? = valores definidos en la tabla 7.11 Obsérvese que las razones de costos y las razones de varianzas son adecuadas para despejar mm Para cy =0.05 y ¢ =0.1 El ntimero de unidades de muestreo en este experimento fue 4. El investigador necesitara comparar costos, mano de obra y objetivos, asi come la eficiencia al elegir entre los posibles disefios. Ejercicio 7.9.2 ,Cudntos grados de libertad se tienen para estimar ef extor de muestreo para cada experimento alternativo sugerido en ta tabla 7.12? Ejetcicio 7.9.2 Supéngase que el experimento de plantas de menta se fuera a efectuar con seis plantas por matera y dos materas por tratamiento, o sea, el mismo numero de plantas por trata- miento. ,Cudntos grados de libertad se tienen para estimar el error experimental en un experi mento de ttatamientos :? ;Para estimar el error de muestreo? Estime Y(¥ de tratamiento) para esta asignacién, Para cada una de las tres sugerencias sobre castos, elaborar en funcién de horas-hombres los costos de efectuar el experimento. Ejercicio 7.9.3 Repetir el ejercicio 7.9.2 con dos plantas por matera y tres materas por trata- miento. Con tres plantas por matera y tres plantas por tratamiento. Con dos plantas por matera y cuatro materas por tratamiento, 162 BIOESTADISTICA: PRINCIPIOS ¥ PROCEDIMIENTOS Ejercicio 7.9.4 Encontrar Ia eficiencia para todas tas alternativas sugeridas relativas al experie mento efectuado. Ejercicio 7.9.5 Encontrar mg para cada una de las cazones de costos propuestas en la tabla 7.12, 7.10 Supuestos en que se fundamenta el andlisis de ta varianza Los supuestos basicos en el antdlisis de varianza cuando se hacen pruebas de hipstesis son 1. Los tratamientos y los efectos ambientales son aditivos 2. Los errores experimentales son aleatorios y se distribuyen normal e independiente- mente en toro a una media cero y con una varianza comdn. El supuesto de normalidad no es necesario pata estimnar las componentes de Ia va- sionza. Cuando el supvesto no se hace, es necesario que los errores no estén correlaciona- dos en vez de sez independientes. En la prictica, nunca estamos seguros de que todos estos supuestos se cumplan; a menudo hay razén para creer que algunos son falsos. Exce- lentes exposiciones de estos supuestas, las consecuencias cuando son falsos y las medidas remediales, se encuentran en Eisenhart (7.8), Cochran (7.3) y Bartlett (7.2). A continua- cign se da una breve discusidn al respecto. EL incumplimiento de uno o més supuestos puede afectar tanto el nivel de signifi cancia como la sensibilidad de F o ¢ a las discrepancias reales respecto de la hipdtesis nula. Bn el caso de no normalidad, ef verdadero nivel de significancia es corrientemente, pero a0 siempre, mayor que el nivel aparente. Esto lleva al descarte de la hipétesis nula cuando es verdadera con mayor frecuencia de lo que prescribe el nivel de probabilidad, esto es, se presentan demasiadas diferencias significantes que no existent. Los experimentadares pue- den pensar que estén usando el nivel del 5 por ciento cuando el nivel puede ser de 7 u 8 por ciento en realidad. En algunos casos, una prueba puede detectar la no normatidad en ver de una hipétesis alterna verdadera, Se presenta pérdida de sensibilidad para las prue- bas de significancia y 12 estimacién de efectos, ya que hubiera podido combinarse una prueba més poderosa si se hubiera conocido et modelo matematico exacto. Es decir, si se conociera la verdadera distribucién de los errores y la naturaleza de los efectos, su aditivi- dad 0 no aditividad, entonces podrian construirse una prueba mds capaz de detectar 0 estimar efectos reales, Para la mayoria de datos biologicos, la experiencia indica qué las perturbaciones de- bidas a que los datos no cumplen los anteriores requisitos no son de importancia, Hay casos excepcionales y se verdn procedimientos para analizar tales datos. En todo caso, !a mayoria de los datos no cumplen exactamente con los requisitos del modelo matemstico y los procedimientos de pruebas de hipdtesis y de estimaci6n de intervalos de confianza no deben considerarse exactos sino aproximados. Considérese el supuesto de que los tratamientos y los efectos ambientales son aditi- vos. Como ilustracién véase tz ec. (5.14) para unidades experimentales pareadas con sen- tido. Una forma comtin de no aditividad se presenta cuando tales efectos son multipli tivos. Considérese un caso simple en que dos ambientes, llamados pares en Ia ilustracisn que sigue, y dos tratamientos tienen efectos que son multiplicativos. Una comparacion de modelos aditivos y multiplicativos se da en la tabla 7.13, en la cual se hace caso omiso de errores experimentales, ANALISIS DE LA VARIANZA I; CLASIFICACION DEUNA VIA = 163 Tabla 7.13 Modelos aditivos y multiplicativos . Logito multiplicative Modelo Aditivo Multiplicative se convierte en aditivo) Par 12 1 2 t 2 Tratamiento! 10 = 2010 20 1.00 130 Tratamiento2 0 4030 oO 1.48, 178 Para el modelo aditivo, el aumento del bloque 2 al bloque 2 es una cantidad fija independientemente del tratamiento; lo mismo se cumple para los tratamientos, Para el modelo multiplicativo, el aumento del bloque | a 2 es un porcentaje fijo independiente- mente del tratamiento; lo mismo ocurre para tratamientos. Cuando los efectos son multi- plicativos, los logaritmos de los datos manifiestan los efectos de manera aditivia y entonces es apropiado un andlisis de la varianza de los logaritmos. Los datos nuevos, los logarit- mos, se llaman datos transformados; el proceso de cambio de los datos es pues una frans- formacién, Para otros tipos de no aditividad se dispone de otras transformaciones. La trans- formacion de los datos implica que los errores experimentales se distribuyan normal e independientemente en la escala transformada si se contempla hacer pruebas de significan- cia, En la sec, 15.8 se presenta una prueba de aditividad. La presencia de no aditividad en los datos conduce a una aparente heterogeneidad del error debido a supuestos falsos cuando no se efectiia una transformacién antes del anilisis. Las componentes de la varianza del error aportadas por Las diversas observaciones no dan estimaciones de una varianza comin. La varianza combinada del error que resulta puede ser un tanto ineficaz para hacer estimaciones del intervalo de confianza de los efectos de tratamientos y puede dar niveles de significancia falsos para ciertas comparacio- nes especificas de medias de tratamientos, mientras que el nivel de significancia para la prueba F en que entran todas las medias de tratamientos, puede ser muy poco afectado. Nuestro segundo supuesto no es independiente del primero, como se ha visto, y en realidad es un conjunto de supuestos. Considérese la independencia de los errores 0 mas generalmente e] supuesto de correlacidn cero entre ellos. Para experimentos en el terreno, las respuestas de cultivos en parcelas adyacentes tienden a ser més parecidas que las res- puestas de parcelas no adyacentes; la anterior también es cierto para observaciones de experimentos de laboratorio realizadas por la misma persona o més o menos al mismo tiempo, La consecuencia es que las pruebas de significancia pueden ser engafiosas si no se intenta superar la dificultad. En la practica, los tratamientos se asignan a las unidades expe- timentales aleatoriamente o bien el orden de las observaciones se determina aleatoriamen- te; el efecto del proceso de aleatorizacién es hacer que los errores sean independientes unos de otros. En experimentos sobre el terreno, los diseftos sistemdticos convenientes colocan los mismos tratamientos adyacentes unos a otros en todos los bloques, Como las parcelas ad- yacentes tienden a parecerse més, la precision de una comparacién es mayor para trata- mientos que caen en parcelas cercanas que para aqueéllas que caen en parcelas alejadas. Un andlisis de la varianza de tales datos da un término de error generalizado demasiado gran- de para ciertas comparaciones y demasiado pequefio para otras, No s¢ dispone de térmi- 164 BIOESTADISTICA: PRINCIPIOS Y PROCEDIMIENTOS nos de error apropiados para comparaciones individuales. Cochran y Cox (7.4) resumen bien la necesidad de la aleatorizaciOn en la siguiente afirmaci6n: La eleatorizaciSn es un tanto andloga al seguro, en cuanto et una precaucion contra perturbaciones gue pueden © no ocurtir y que pueden ser 0 no graves si ocurten, En general, es aconsejuble tomarse el trabaja de aleatorizar aun cuandy no se espere un sesgo serio por falta de ta aleatori- zacién, De esta manera, ef experimentador queda protegido ante sucesos insblitos que tastor- nen sus expectativas, El error experimental se debe distribuir normalmente Este sspuesto se aplica particular- mente a pruebas de significancia y no a la estimaciéa de componentes de la varianza. Cuando la distribucion de Jos errores experimentales es decididamente asimétrica, Ja componente del error de un tratamiento tiende a ser una funcién de la media de trata- miento. Esto produce una heterogeneidad en el término del error. Si se conoce la relacion funcional, se puede encontrar una transformacién que dé errores que se distribuyan de manera més cercana a la normal. De esta forma se puede efectuar un anilisis de la vatianza con los datos transformados de modo que ef término de error sea esencialmente homagé- neo. Transformaciones comunes y Gtiles son las logaritmicas, raiz cuadrada y arco seno; en fa sec. 9.16 se estudia su uso. Los errores experimentales deben tener una varignza comin Por ejemplo, en un diserto completamente aleatorizado, las componentes de error provenientes de los diferentes tra- tamientos, deben ser todas estimaciones de una varianza de poblacién comin. Aqui, la heterogeneidad del error puede ser resultado del comportamiento erratico de la respuesta a ciertos tratamientos. En experimentos como los destinados a determinar la eficacia de diferentes insecticidas, fungicidas o herbicidas, puede incluirse un control no tratado para medir el nivel de infestacién y proporcionar una base para determinar la efectividad de los tratamientos. La variacion de las observaciones individuales en et control de prueba puede ser considerablemente mayor que en Los otros tratamientos, ante todo porque él control puede tener una media més alta y, asi, una mayor base de variacion, En estas situaciones el término de error puede no ser homogéneo, Un remedio para esto es repartir el término del error en componentes homogéneas para probar comparaciones de tratamientos especi- ficos, Algunas veces, si fas medias de uno o dos tratamientos son mucho mayores que las otras y tienen una variaciGn significativa mayor, entonces tales tratamientos se pueden excluir del andlisis, E] que no se cumplan algunos de los demas supuestos puede dar lugar a heterogenei- dad en el error experimental, Se han hecho sugerencias para remediar esta situacién, y ‘dependen de Ja naturaleza del no cumplimiento. Referencias 7A. Afderson, R. L., y T. A. Bancroft: Statistical theory in research, McGraw-Hill, Nueva York, 1952 7.2. Bartlett, M. S.: “The use of transformatians,” Biom, 3:39-52 (1947). 7,3. Cochran, William G.: ‘Some consequences when the assumptions for the analysis of variance are not satisfled,"" Biom, 3:22-38 (1947). 7.4, Cochran, William G.: Sampling tecniques, 22, ed., Wiley, Nueva York, 1965, “SPOT ‘OSsmby “aneoAIOW ‘OISO I ‘puyn-sdeysuapin ays4on CT asua}oid wNYOfl4s ) 200] Psi UI s{s019]94 pue ‘Bulpsasqui ‘Ad[tuay ul sarpmas,, “H ‘Uastaxey Contd) S61 “fy ‘uoreoutrg ‘AySTaATUN wo}auLg ,“EUostEdoD afdnqnur Jo waqord ay, Mh “f ‘AOIRL * “QSET ‘emo] ‘sawY ‘Ssarg S597]0D BBG Emo} “pe "eS ‘spoyssUe poOITSIDIS “M “D ‘lovapeus “PSL PLL-OLL% “mong a SIUQUOdIDD SOURTIeA JO sayeUNIsa JO UONAQUIsIP seUxordde uy,, 7g “J ‘eleMypieeS “PLET “WA ‘SingsypRg ‘Auszearuy) 1E)S pue INSU] SuysaIAJog BIUIAA ‘]EIOIIOp ssa] ,,'S[9AaT TRUONTNAU UaIoJIP 18 pay pur Sossuap isieyIp 20 padea aoyur ut [Ausydiq poreuMoyostod k Jo syoorg,, vs “L “O ‘srapueg. “(6E61) OF-OZITE PaLGeuorg ,,“WOHeIAap prepurys Jo a]Buryse yuepusdepuy ue Jo SUL? ut pasaada ‘uonetndod yountou e wos) setdumes UT afuET Jo UOTINAINSIP OUL, °C ‘UeWUMEN, (9561) OLE LOE ITI “wary ,“uoReaydar Jo siequinu jenbeun yim sueaw dno 0} sysey aduer efdnynu jo uopuarxg,, 7A ‘D OWEDy “TLGT ‘ON ‘UBIaTeY ‘Arisiatur] 23215 euToIeD YON JEIOIOp se, ,,‘sayeuuUT UOStrd pay. ~d9]as 10] ANJepow luaurieary pesodoid Y :uolisa8ans pur UOTIOsa1 AlOsuag,, °° "H ‘uRDIOL (S560) 2LLt'8 SIUEITEA JO SISATEUE UL SJUBWAOTAASP JUSI9s BWOS,, OQ “H ‘ASBIEH “ULS61) 9ESATS-ET “wo ,{suostedusos ofdnyu: ui sysai oSues 105 sazts e[dwies pue seri s0179,, 21 “H “WeLEH (9P61) SST-1ST BE “UO 90g “aw ‘7,,'NOfi WiNIgoTYY pur OpJeUt whIgoz “WY Waomlag ‘7 corgomyy Buoure simooo stSoyqnue f| auTUTTAJap 0; SaIpMIg,, A EMIT ‘URW PIA “CLY6D) IZLE “wong ,2ouetsea JO Si8AJeue ay] SulAPapuN suorjduinsse-oy.E., °D ‘URuLasty “(SSED) ITT T-960T05 SSP NBS sau ‘7 ,.\}oRUOD B Yim sjuaurjpal peraass Furedwo 1oy ainpadoid suosireduios adymuw v,, “A “D ‘Wauung “(USS60) Ze 1211 Cwong ..‘s199) 4 afdninw pue edues ajdniny,, “gq “‘uesung “CIS6T) 68T°T LUIZ “WS 7 2A .,’22URLEA JO SIsAfeue UE UT SJUBWUIEIN] poxUeL uss~A19q SoouarAyIP 10] 189) BUPITTUTS y,, A “d ‘UeouNd “LS6T “yIny jddy aang utuiod “WO, AON “ANA “pa "eT ‘sudisap prwaunadxy 2x0D “W apnnien 4 "-D weIMM ‘wELyOOD + $91 VIA YN. dd NOIVOISISV1D ‘I VZNVIUVA VT 9d SISITWNY ‘eb “eve Ve Ve VL ‘ore 6k SL LL “oL Se CAPITULO OCHO COMPARACIONES MULTIPLES 8.1 Introduccién En el capitulo 7, se usd la prueba de F para probar diferencias reales entre tratamientos, Cuando no se rechaza la hipdtesis nula, pareceria innecesario plantearse més preguntas. Sin embargo, considerar el conjunto de tratamientos en el experimento de las plantas de menta hace pensar que ésta ¢s una simplificacion exagerada. En este experimento se com- pararon seis tratamientos, Supdngase que se hayan declarado no diferentes de modo signi- ficante, ,No hubiéramos podido preguntamos si alguna diferencia real entre temperaturas pudo haberse perdido al promediar con las otras posibles comparaciones? Si se rechaza ‘a hipotesis nula cuando se usa la prueba F, entonces qué tan satis. fecho esta el investigador? ;Dénde estan las diferencias reales? En el experimento con plantas de menta, ,debi6 haber planeado buscar posibles diferencias debidas a diferentes temperaturas nocturnas y a diferentes horas de iuz diurna? Si tales preguntas obvias no se formulan, entonces es razonablemente claro que la maxima diferencia observada puede declararse significante ya que Hy se ha rechazado. Ademiés, ;qué puede decirse respecta a otras. diferencias? én 1a prueba de ¢, se comete un error de tipo I al rechazar erroneamente una sim- ple hipdtesis respecto a un solo pardmetro o diferencia. Con la prueba de F, la hipétesis incluye muchos parimetros dentro de un experimento; esto se puede considerar como la prueba simulténea de hipétesis respecto a muchas diferencias en las que el rechazo general depende de una o mas diferencias no especificadas. {Ha cambiado nuestro concepto de error de tipo I? . Este capitulo se ocupa de los procedimientos y tasas de error de comparaciones miltiples. El mayor énfasis se hace sobre casos con igual nimero de repeticiones, pero el problema de repeticién desigual se consideraen la sec, 8.11. * 166 COMPARACIONES MULTIPLES 167 82 La diferencia minima significante Supongamos que al planear el experimento sobre Rhizobium de la sec, 7.3, el investigador habia decidido comparar medias de tratamientos de 3DOk1 y 3D0k5, 3DOk4 y 3D0k7, y 3DOKI3 y la combinacién con un nivel de significancia del S por ciento, usando tres prue- bas ¢; las medias se dan al pie de la tabla 7.1. © bien el investigador pudo calcutar la diferen- cia ms pequefta que se pudiera declarar significante y comparar con ella ¢l valor absoluto de cada una de las diferencias observadas, Para ésto, el valor muestral de ¢ tendria que ser igual o mayor que el valor tabulado de f usado como valor critico; esto es, para una prueba al nivel a frente a alternativas bilaterales, declararé significante la prueba cuando @ cuando | %— F,| > ty2Sz,-y,- El criterio de prueba para examinar directamente las diferencias entre medias se lama diferencia minima significante, o dms, dada por dims = t6/259,-¥) 2 = tas G para r igual para todos los 1) ’ tratamientos - donde s es la raiz cuadrada de la varianza del error combinada. Como la dms sdlo se calcu- ia una vez y se requiere de la varianza del error combinada, su uso ¢s una comodidad en telacion con la ejecucién de pruebas r individuales. ~ Para los datos de Rhizobium, WIL) dims (0.08) = toasS9.-7,. = 2.064 |“ = 4.5 mg” dms(0.01) = t 993 59, -7,. = 2.797 uP) = 6.1 mg Las diferencias observadas son ¥,. — Y,. = 28.8 — 24.0=48; Ys. - F, = 14.6 - 19.9 =-A) y Fs. — %. = 133 — 18.7 = —S4meg; todas caen dentro 4.5 y 6.1 én valor absoluto , asi que esas diferencias son significantes al nivel del 5 por ciento, pero no al nivel del 1 por ciento. Aqui tenemos un ejemplo de uso vilido de la dms. ‘ Pruebas con alternativas unilaterales tal como se vieron en el cap. 5, también pue- den Uevarse a cabo. Como la dms puede usarse incorrectamente, y a menudo asi ocurre, algunos esta- disticos vacilan en recomendarla. El uso incorrecto més comin es hacer compasaciones sugeridas por los datos, comparaciones que no se han planeado inicialmente. En una com- paracion planeada se les da nombres a fos tratamientos de antemano; no es necesario esperar los resultados, por ejemplo, para saber cudl tratamiento estd ssociado con la mayor respuesta, La realizacin de comparaciones no planeadas se suele lamar de “efectos 168 _ BIOESTADISTICA: PRINCIPIOS ¥ PROCEDIMIENTOS sugeridos por los datos” o “razonamientos posteriores a los hechos”, Para que los niveles de significancia tabulados sean vilidos, la dms s6lo deberd usarse para comparaciones pla- neadas antes de examinar los datos. Cochran y Cox (8.3) indican que en la situacién extrema en que el experimentador solo compare la diferencia entre la mas alta y la més baja de las medias de los tratamientos, mediante la prueba‘ o la dms, esta diferencia seri probablemente considerable aun cuando no exista efecto. Puede demostrarse que con 3 tratamientos el valor observado de f para la maxima diferencia sera mayor que el valor tabulado al nivel del 5 por ciento en el 13 por ciento de las veces; con seis tratamientos, la cifra es 40 por ciento, con diez tratamientos, 60 por ciento y con veinte tratamientos, 90 por ciento. Asi, cuando los experimentadores piensan que hacen una prueba f al 5 por ciento, en fealidad lo estan haciendo a un nivel del 13 por ciento para tres teatarientos, 40 por ciento para seis tratamientos, y asi sucesi- vamente. ‘Sin embargo, el nive! de probabilidad tabulado para ¢ es correcto cuando s¢ usa la dms para hacer comparaciones planeadas multiples de medias pareadas. Para ver esto, su- pdngase que son correctos todos los supuestos que exige el modelo; que todas las respues- tas atribuibles a los tratamientos son iguales, es decir, que todas las hipotesis nulas son verdaderas, y que se planea hacer varias comparaciones. Entonces si el experimento se re- pite indefinidamente, a menudo y en cada oportunidad se le pide ad que sdlo prucbe la primera hipotesis, debe encontrar que el 100a por ciento de sus diferencias son mayores que la ds; y sien cada oportunidad se le pide a B que pruebe solamente la segunda hij tesis, debe encontrar que 1002 por ciento de sus diferencias son significantes; y asi sucesi- vamente. Es claro que e! 1002 por ciento de todas las comparaciones hechas se declaran significantes en forma errdnea, Esto seria cierto todavia si s¢ hicieran todas las compara- ciones de todos los pares de medias posibles. Notese que no se ha hecho una prueba de F inicial; cada prueba de ¢ dentro del experimento se hace directamente como si fuera el dinico y todas se hacen con 1a misma varianza del error, - La tasa de error ha sido definida por implicaci6n; ef numero de inferencias erréneas se ha comparado con el niimero de inferencias hechas. Esta es una tasa de error por com paracién y es realmente el valor dado por aproximacién en la ec. (8.2) en experimentacién repetida. Tasa de error por comparacién (H verdadera) Nomero de difecencias ercéneas (8.2) ‘Namero de inferencias hechas Nétese en particular que antes del experimento, establecemos las comparaciones que se han de efectuar; ninguna ha sido sugerida por los datos, Si se hubiere pedido a A que probara la maxima diferencia observada, esta hubiera sido una comparacién planeada entre los tratamientos con denominacién previa y se habria declarado significancia con mayor frecuencia que el 100a por ciento de las veces, Por otra parte, una persona asigna- da ala labor de probar el par de medias més cercanas declararia significante esta diferen- cia con una probabilidad tabulada para . Los intervalos de confianza también pueden construirse y a menudo son mds utiles que las pruebas. La probabilidad de que un intervalo de confianza contenga la diferencia COMPARACIONES MULTIPLES 169 que se estima es 1 — a1, asi a la larga el (1 — a) 100 por ciento de los intervals de con- fianza contendran la verdaders diferencia, También pueden construirse intervalos de con- fianza unilaterales. En resumen, el uso de la dms es una prueba vilida para comparaciones planeadas. La tasa de error implicada es por comparacién y son apropiados los niveles de probabilidad tabulados para t. Como la dms sdlo necesita calcularse una vez y se aprovecha la varianza combinada del error, puede ser conveniente en cuanto al uso de prueba de ¢ miltiples. Muchos investigadores la consideran como la prueba mas apropiada cuando las compara- ciones han sido planeadas con sentido en términos de 1a naturaleza de los tratamientos, pero no la usarian para comparar todos los posibles pares de medias, Todas las posibles comparaciones pareadas, lo cual significa comparaciones de todos. los posibles pares de medias, merecen la atencién en cuanto a presentacion. Las siguientes sugerencias también pueden usarse con los procedimientos para probar que siguen para todos los posibles pares de medias. Primero, ordenar las medias de menor a mayor, o a la inversa, Puede ser util espaciar- las de una manera que se aproximen a las diferencias entre medias, 3D0k13 3DOk4 Combinacién 3DOk? 3DOkS 3DOKi 1331) 1462) 18.7) 19.9(4) 2405) 28.8(6) En seguida hacer un listado de todas las diferencias y probar. Encontramos (6) — (1) = 155 > 4.5; significante (6) - (2) = 14.2 > 4.5; significante (©) -(5)= 48> 45; significante (5) — (1) = 10.7 > 4.5; significante (5)-(2)= 94>4: significante Q2)-()= 1.3.< 45; no significante EL patron es claro. Como altemativa alas palabras “significante” y “no significante” se puede usar un “s”” y un “ns” para presentar la misma informaci6n. Una presentacién obvia que permite ahorrar espacio enumera las diferencias como ena tabla 8.1. Finalmente, Duncan (8.6) sugiere lo siguiente, que bien puede ser e! método mas popular de presentacién 13.31) 14.6(2) 18.713), 19.9{4) 24.015) 28.8(6) Las medias se colocan aproximadamente a escala. Todo par de medias no subrayado por la misma linea son significativamente diferentes. Por ejemplo, 18.7 y 19.9 estan subraya- 170 BIOESTADISTICA: PRINCIPIOS Y PROCEDIMIENTOS: Tabla 8.1 Diferencias entre medias de nitrogeno en un experimento con Rhizobium (5) (3) ro) (3) 2) GW) 155% $07 Ber S4* 13 2) 14.2% ode 53° ai G3} 101° 53° 12 (4) 8" at () 4s dos por la misma linea, asi que la evidencia es que las dos poblaciones en cuestion no se pueden distinguir; 14.6 y 19.9 no estén subrayadas por la misma linea, asf que las dos po- blaciones parecen tener diferente localizaci6n; y 28.8 aparece solo, asi que su poblacién principal es distinta de todas las otras. Para esta presentacion, stimese 4.5, 1a dms, a 13.3, El resultado es 17.8, asi que sub- rayense los valores 13.3 y 14.6 pero no 18.7. A 14.6 stimese 4.5 y continiiese el proceso. Nunca debe haber una linea que quede completamente dentro de otra mas larga; la mas larga indica ya que sus medias son homogéneas, esto es, que gertentecen a una sola pobla- cién. Para quienes deseen utilizar la dms para hacer todas las posibles comparaciones por pares de medias, se recomienda como medida prudente primero efectuar una prueba de tratamientos y sdfo si F resulta significante, entonces proceder a hacerias. Este procedi- miento se conoce como la dins (protegida)de Fisher. Como F nos conduce a aceptar 0 descartar una hipOtesis en que entran simultaneamente todas las medias, la unidad para juzgar fa tasa de error ya no es la comparacién, sino él experiment. Una tasa de ertor semejante se estudia en la sec. 8.4. Carmer y Swanson (8.1 y 8.2) consideran Jas propiedades de estas pruebas y otras introducidas en este cap(tulo, Sus estudios se refieren a la idoneidad de las pruebas para detectar diferencias reales y otras cosas. Ejercicio 8.2.1 MacDonald (8.10) estudié ia aptitud de un escollo artificial en forma de barca de transporte para atraer y mantener epifauna macrobéntica, Las variables de mayor interés fueron peso seco y densidad medidas por el numero de organismos por 400cm 7, Examinaremos algunos datos de densidad. Los datos de densidad heterogénea asi que MacDonald considers que ¥ = ecuento +05, ‘una transformacion comin para recuentos (ver sec. 9.16). Al terminar es deseable efectuar una transformacién inversa sobre las medias Y elevando al cuadrado y restando 0.5, Estas seran ak g0 més pequesias que las medias de los datos originales y, por lo tanto, estimaciones pruden- tes de la densidad media, Las siguientes medias ordenadas s¢ obtuvieron con tos datos transformados en la familia Ostreidae, astras. Cada media se basa en doce observaciones; s* = 10.697 con 66 gl. Pisosde — Cubierta de Costado de Costado Costadosde Lados de Lugares las bodegas estribor estribor de babor las bodegas las bodegas Medias 405 716 135 1048 10.54 11.28 COMPARACIONES MULTIPLES 171 Calcular la dms, probar todos los pares de medias y presentar los resultados con la técnica de subrayado de Duncan. Elaborar una tabla como la tabla 8.1, Calcular las correspondientes medias de las transformaciones inversas. Ejercicio 8.2.2 Repetir el ejercicio 8.2.1 con los siguientes datos de densidad transformados ob- tenidos por MacDonald (8,10). Estos son de la familia Arbaciidae, erizo marino. Cada media proviene de doce observaciones; s? = 0.218 con 66 gl. Lugares Pisosde Costadosde © Cubiertade CubiertaCostadoCostado lasbodegas las bodeges _estribor_ de babor —estribor de babor Medias 0,79 0.98 16 1.30 1.36 144 Bjercicio 8.2.3 Con los datos del ejercicio 7.3.1, caleular la dms, proba: todos los pares de me- dias y presentar los resultadas con Ia técnica de subrayado de Duncan. Asi mismo, elaborar una tabla como la tabla 8.1. Ejercicio 8.2.4 Considerar los datos de la prueba posterior del ejercicio 7.3.3. Calcular la dims y probar todos los pazes de medias, 8.3 Comparaciones En Ja seccién 8.2, se recomendé la dms para comparaciones planeadas, en las que intervie- nen pares de medias. Una recomendacién més general es el uso de las pruebas ¢ para compa- raciones planeadas en que entren funciones lineales de observaciones. En a secei6n 5.10, se da la media y la varianza de una funcidn lineal de observacio- nes; en particular, yer las ecs. (5.8), (5.19) y (5.23) aplicables en el siguiente desarrollo. Las comperaciones o contrastes, definidas por la ec. (8.3), son un subconjunto de funciones lineales. @=Lak con Le=0 (8.3) Las ¥f pueden ser totales 0 medias de tratamientos; los primeros son mds convenientes para las pruebas, los Gltimos para la estimacién de intervalos de confianza. Por comodidad, los ¢; son generalmente enteros; es esencial la restriccién de que ¥ c; = 0. Una compara- cién siempre tiene un solo grado de libertad, asi que ¢ es la prueba apropiada, pero puede usarse F también. Supéngase que los ¥, de Ia ec. (8.3) sean medias muestrales de r observaciones pro- venientes de poblaciones con 44, posiblemente diferentes pero con una varianza comin. Entonces las ecs. (5.19) y (5.23) dan : O=Lah eO=Tem = Le Para probar Ho: ¢;4; = Y. c% =0, caletilese r por . 2 Q (84) t=%= te Oar 172 BIOESTADISTICA: PRINCIPIOS Y PROCEDIMIENTOS donde s es la raiz cuadtada del cuadrado medio del error experimental y r es el niimero de observaciones por tratamiento. Cuando la unidad experimental se muestrea, r es un multi- plo de} nimero de repeticiones. Obsérvese que Q es un estimativo de Y c.a;= Yt. asi que un intervalo de confianza se construye facitmente como Q + ts. Para probar hipstesis nulas, generalmente es mas conveniente usar F y calcular e! numerador a partir de los totales de tratamientos. Sea la ec. (8.5) la que define una com paracién usando totales. @=Sa% oon Le=0 (8.5) Entonces E(Q) =r Yo ccsts y of =r (5c?) 07. En consecuencia, la suma de cuadrados y el cuadrado medio, por cada observacion, atribuible al contraste definido en Ia ec. (8.5), se define por 2 SC(Q) = C(O) = 25 66) — ae que puede usarse directamente como denominadar de una prueba de F cons*come deno- minador para probar Hy: Yc; 4; = 0. Considérense de nuevo los datos de plantas de menta de la tabla 7.8. Supéngase que antes de realizar el experimento, se decidié examinar las siguientes diferencias entre res- puestas: 1. Entre las temperaturas nocturnas alta y baja. 2. Entre 8 y 16 horas de Juz diurna. Como éstos son valores extremos, se espera una diferencia maxima de medias de exposicidn pareadas. 3, Entre el promedio de 8h mas 16 hy 12 h, La media de 8 mds 16 es 12. Sino se observa respuesta en 2, entonces no es probable una respuesta en esta etapa; las plantas no presentan una respuesta diferencial debido a Ja variacién en longitud del dia en este intervato. Si se abserva una respuesta en 2, entonces una respuesta ahara indica que la tasa de crecimiento varia dentro de todo el interval. 4, La respuesta en2,si es real, puede tener componentes que difieren en magnitud con Ja temperatura nocturna, En consecuencia, examinamos la diferencia entre dos dife- rencias, entre las 8 y 16 horas para temperaturas nocturnas alta y baja. 3. Lo que se dijo en 4 respecto a 2, también se aplica a 3. Enumérense [os tratamientos de la tabla 7.8, de izquierda a derecha, como 1(1]6. Formalmente, entonces, se proponen las siguientes hipotesis para probar las anteriores diferencias en cuanto a significancia; 1. Hog? (Ha + os + He /3 = (uy + He + MaV/3, 0 Ho: ty + ke + Hs — Ka ~ Hs — Wg 3 O 2 Ho: (i + Hal = (Us + B6)/2, 0 Hobe an ah COMPARACIONES MULTIPLES 173 = (ay + He + Hy + HeV4 = (Ha + 145)/2, 0 Hy 2pa + Hy + Ma 2s + He = 0 Ht — Ms = Ha — We 0 — Ha + Hy =O 5 (Hy + waV2 — He = (He + Ue V/2 — Hs, 0 tay ~ ye + Wy — Ha + 2pts — Hy =O En 3, nétese que #, — 2p, + Hy = (uy — 2) — (4a — ws) €8 una comparacién entre él crecimiento en las primeras 4 horas mis alld de 8, y en las segundas 4. En conse- cuencia, es una medida de la diferencia entre las tasas de crecimiento con temperatura nocturna baja, A su tumo, la funcién Lineal de la hipotesis 3 combina esta respuesta con ambas temperaturas. En la hipétesis 5, se examtina ta diferencia, Las funciones lineales en fa hipotesis 2 y 4 son semejantes, pero la primera es una combinacién més simple y la otra corresponde a respuestas diferenciales, Nétese la funci6n lineal de los y, dada en la segunda expresion formal de cada hipé- tesis nula, Cada fancién puede estimarse mediante la misma funcion de la ¥. , 0 bien esti- mamos un miltiplo de cada funcién mediante las ¥;, . Cada estimativo se considera una estimacién. Si los estimativos se denotan porQ,, ..., Qs éntonces las sumas de cuadrados atribuibles a cada contrasts, por cada observacin, estén dadas por la ec. (8.6) asi SC(Q,) = (44.0 + 49,5 + 62.5 — 88.0 — 77.5 — 95.0)"/4(3)6 = (—104.5)?/72 = 151.67 F= 2054") > SC (Qz) = (44.0 — 62.5 + 88.0 ~ 95.0)7/4(3)}4 (—25.5)/48 = 13.55 F=630") SC (Qs) = [44.0 — 2(49.5) + 62.5 + 88.0 — 2(77.5) + 95.0}7/4(3)12 = (35.5)*/144 = 8.75 F=4075 SC (Qa) = (44.0 — 62.5 — 88.0 + 95.0)7/4(3}4 = (- 11.57/48 = 2.76 F = 128? SC(Qs) (407 2(49.5) + 62.5 — 88.0 + 2(77.5) — 95.0}7/4(3)L2 (-20.57/144 = 2.92 Fas Cada estimativo se ha contrastado con F, usando el error experimental con 12 grades de libertad. La informacién sobre las comparaciones puede presentarse en forma conveniente en luna tabla tal como a tabla 8.2. Los totales de los tratamientos se encuentran en la parte superior de la tabla, los coeficientes de los contrastes se encuentran en el cuerpo de ta tabla, y a la derecha se completan los cdlculos, Obsérvese que el tinico efecto de un cam- bio completo de signos para cualquier contraste ¢s un cambio en el signo de Q. Ahora es claro que la mayor parte de variacion entre las medias de tratamientos est asociada con ¢] efecto de las temperaturas noctumas alta y baja; la observacion de las medias 0 el signo del contraste indica que el crecimiento es maximo con la temperatura alta. También una diferencia significante en crecimiento debida a las horas de luz diurna, con mayor crecimiento en el dia més largo. E] tercer contraste sugiere que la tasa de creci- 174 BIOESTADISTICA: PRINCIPIOS Y PROCEDIMIENTOS Tabla 8.2 Informacién de comparacién para los datos de las plantas de menta de lz tabla 7.8 Nombres de uatamientos y totales 18 LIZ £16 HB HI2 HI6 SciQy= Contraste 440 495 625 980 775 950 Q rE Orda F 1 1 tL ab =t 1 = f04s 1266) 15167 70544 2 1 Qo <1 t oO -1 ~25.5 12(4) 13.55 630" 3 1 2 1 2. 2 1 35.5 12(22) 875 407 4 i Oo -t at oO 1 POW, tuoroezatuy Uys OrXIW O[SPOHL . u to t (1M - HD) Zs + port (N= WHO) + ior + fa (E—e Z os + fore oo (1 Ald J fos 4 0 Wig 44 Mga) sg tt t= (i= Ma Jat fo (- MIRa4 ee Nae ga) 4 Gi aM (= Zant font yo (1 44d J 8 + fore po Mother Gata My (WEG a+ (i Aidd Gat fo alge ats joansanus wo oonsanu ox§ yosnsam wo oansanu tig ugpoeraiuy 100 ‘fy of2pOW. , uotsseraqur wis ‘ofts O1pop, 2 (-se oansanu op 10253, ert o e a-Mt-4 onpisoy joss + for + 20 pot 1 soyuanuneyery fos + jor + 0 for + 20" 1-4 senborg, Mostas fede fae G4 lee de! a aywong Joonsanut uo oansanw ing otr01zate of pOH soyajdiyos sanboig ap sisyjeue tm exed sorpaus sopespeno ap Sopesadsa sa10]@A T1°6 FIG. ANALISIS DE LA VARIANZA II: CLASIFICACIONES MULTIPLES 213 efectos de bloque y tratamiento con o sin muestreo. Las pruebas pueden efectuarse aun que solo se tome una observacion de muestra en la unidad experimental; sin embargo, af no puede estimar cuando s= |. “ Para el modelo aleatorio con interacci6n, se supone una componente adicional, (tB),;. Et simbolo (rf) Hama la atencién sobre la fuente de 1a componente; el subindice por fuera del paréntesis evita designar la interaccién como un efecto multiplicativo sin excluir esa posibilidad. Para un modelo con efectos aleatorios de bloques y tratamientos, se puede suponer también que los efectos de interaccién sean aleatorios con media cero ¥ varianza,a%,. Esto afiade 4 al modelo sin muestro y so% al modelo con muestreo con todas las lineas, excepto la del error muestral. Las pruebas de hipstesis pueden efectuarse aunque o? y a3, no puedan estimarse separadamente, Este modelo con interaccién no se necesita con frecuencia, Cuando es apropiade el modelo con efectos fijos sin interacciGn, todos los trata- Mmientos respecto a los cuales van a hacerse inferencias se incluyen en el experimento, Lo mismo vale para los bloques. No se pretende que inferencias respecto a tratamientos 0 bloques se apliquen a tratamientos o bloques no incluidos en el experimento, La prueba se hace sin ningan problema, con o sin muestreo. Este modelo no es raro debido a la natu- raleza misma de las categorias en un sistema de clasificacién. Para un modelo de efectos fijos con efectos de interaccion, estos tiltimos seran fijos, ya que los efectos de tratamientos y bloques son fijos. No pueden efectuarse pruebas de hipétesis satisfactorias, con o sin muestreo, asi que es importante tratar de saber algo mas sobre la naturaleza de la misma, El] modelo mixto es ciertamente un modelo comin. Lo més frecuente es que los bloques suministren los efectos aleatorios y puede suponerse que son representativos de una poblacin de bloques que cubre una gama de condiciones a las cuales van a aplicarse las inferencias respecto de los tratamientos. Los tratamientos son fos unicos de interés con respecto a las inferencias, asi que se consideran fijos en experimentacién repetida. En el modelo sin interacci6n, las pruebas, como se ve, no ofrecen problemas especiales con o sin muestreo, Para el modelo fijo con interacci6n, considérese que los efectos de interaccién estan en filas ilimitadas, donde cada columna es una poblacién finita de ¢ elementos que suman cero, en tanto que la esperanza de una columna es cero. Los elementos que entran en un experimento constituyen una muestra aleatoria de r columnas, una para cada bloque. Los valores esperados de los cuadrados medios con estos supuestos son tal como se indican. No hay problema para probar tratamientos utilizando el error experimental, independien- temente de que haya o no muestreo. No todos los estadigrafos requieren que la suma de elementos de una columna sea cero. En este caso, el coeficiente t/(t — 1) para a2 se rem- plazard por 1. Los procedimientos de prueba no se veran afectados pero si ls estimaciones de o3,. 9.10 Agrupamiento doble: cuadrados latinos En el disefio cuadrado latino, se disponen los tratamientos de dos maneras diferentes, por filas y por columnas. Para cuatro tratamientos la disposicion puede ser 214 BIOESTADISTICA: PRINCIPIOS Y PROCEDIMIENTOS Cada tratamiento se presenta una y sélo una vez en cada fila y columna; cada fila asi como cada columna, es un bloque completo, Mediante un andlisis apropiado, es posible eliminar del error la variabilidad debida a diferencias tanto en filas como en columnas. Este diseito se ha usado con ventaja en muchos campos de investigacion donde hay dos fuentes principales de variaci6n en la realizacién de un experimento. En experimentos sobre el terreno, el esquema suele ser cuadrado, permitiendo asi la eliminacién de la varia- cién proveniente de diferencias en el suelo en dos direcciones. En el invernadero o en el terreno, si hay un gradiente en una sola direccién, ef experimento se puede disponer asi: apcalecavioasne capa] Aqui las filas son bloques, y las coluninas, posiciones en los bloques. Los experimentos de mezcadeo se ajustan a este esquema, con dias como filas y almacenes como columnas. Como filas y columnas son términos generales que se refleren a criterios de clasifi- cacion, pueden ser una clase de tratamiento. Cuando no hay interacci6n entre dos cuales- quiera o entre todos los criterios —filas, columnas y tratamientos— el F calculado no se distribuye como el F tabulado, y no son posibles pruebas validas de significancia. En aquellos casos en los que el experimentador no esté preparado para suponer la ausencia de interaccién, no deberd usarse el cuadrado latino. - Babcock (9.2) usé el disefio de cuadrado latino en un experimento para determinar si habia diferencias entre las cantidades de leche producidas por los cuatro cuartos de las ubres de las vacas, siendo los cuartos los tratamientos 0 sea las letras del cuadrado. En este experimento, los tiempos de ordefio eran las filas de! cuadrado latino y las érdenes de ordefio eran las columnas —donde orden quiere decir, posicién en el tiempo-, El cuadra- do latino ha sido usado con ventaja en el laboratorio, en fa industria y en las ciencias sociales. La priricipal desventaja del cuadrado latino es que él ndmero de filas, columnas y tratamientos debe ser ei mismo. Asi, si hay muchos tratamientos, el ndmero de parcelas pronto se hace impracticable, Los cuadrados mas comunes van de 5 X 5 a8 X 8; cuadra- dos mayores de 12 X 12 se usan muy rara vez, En Jos cuadrados latinos, como en los blo- ques al azar, a medida que aumenta el tamafto del bloque, el error experimental por uni- dad probablemente aumente. Los cuadrados latinos pequefios proporcionan pocos grados de libertad para estimar el error experimental, y asi debe lograrse una disminucién sustan- cial en el error para compensar él corto nitmero de grados de liertad. Sin embargo, puede usarse mds de un cuadrado latino en et mismo experimento; por ejemplo, dos cuadrados Tatinae 4 ¥ 4 darin 15 orados de libertad para el error si los tratamientos responden de ANALISIS DE LA VARIANZA II: CLASIFICACIONES MULTIPLES 215, manera andloga en ambos cuadrados. Los grados de libertad para el andlisis de s, para cua- drados r X r son como se indican en la tabla, Fuente al Guadrados soled Filas dentro de cuadrados se- I= 6 Columnas dentro de cuadrados sr l)= 6 ‘Tratamientos r-l=3 Enor sf = fr = 2) + fs = 1X t= 15 Total st iad . La aleatorizacién en el cadrado latino consiste en elegit un cuadrado al azar entre toros los cuadrados latinos posibles. Fisher y Yates (9.11) dan el conjunto completo de cuadrados latinos desde 4 X 4 hasta 6 X 6, y muesiran cuadrados hasta de tamafio 12 X 12. Cochran y Cox (9.8) dan cuadrados latinos de muestra desde 3 X 3 hasta 12 X 12.Un modo de aleatorizacién indicado por Cochran y Cox es el que sigue Cuadrado 3 X 3 Asignar letras a los tratamientos; esto no tiene que ser al azar, Tratar un cuadrado 3 X 3 y eleatorizar el arreglo de las tres columnas y luego las de las dos Ultimas filas. Cuadrado 4 X 4 Aqui se tienen cuatro cuadrados, asi que no se puede obtener uno de ellos a partir de otro simplemente por reordenacién de filas y columnas, Entonces selecciohamos al azar uno de los cuatro cuadrados posibles y distribuimos al azar ‘todas las columnas y las tres ultimas filas. Cuadrado 5 X 5 y cuadrados mayores. Ahora hay muchos cuadrados, asi que no se puede obtener uno de ellos a partir de otro con reorganizar !as filas y columnnas. Asignar letras o los tratamientos al azar. Aleatorizar todas las columnas y todas las filas, 9.411 Aniélisis de la varianza del cuadrado latino ‘Los grados de libertad y las formulas pare Jas sumas de cuadrados para un cuadrado latino 1x r sedan en la tabla 9.12. Aqui, ¥, representa la observacion en la interseccién de la fila -¢sima y la columna -ésima. Las sumas de filas y medias se representan como Y,. y ¥ parai = 1,...,7y las sumas de columnas y medias con Y¥,y Yj, j=1,..,7- Sibienesta notacién es adecuada para localizar una observacién, no dice nada respecto al tratamiento tecibido. Hemos usado ¥, y F para denotar totales y medias de tratamientos, ¢= 1, ...,7. E} andlisis estadistico de un cuadrado latino 4 X 4 se ilustra mediante los datos de rendimiento en una prueba de evaluacién de una variedad de trigo efectuada por Ali A. El Khishen, Escuela de Agricultura, Universidad de Alejandria, Alejandria, Egipto. Los datos, th andlisis y e} plan de campo se presentan en Ja tabla 9.13. Las variedades estan represen- tadas por letras A =:Baladi 16, B = Mokhtar, C = Giza 139, y D = Thatcher. Los rendi- mientos estén en kilogramos por parcela de tamafio 42 m?. El procedimiento de célculo #8. como sigue. , 216 — BIOESTADISTICA: PRINCIPIOS Y PROCEDIMIENTOS. Tabla 9,12 Anilisis de la varianza para un cuadrado latino r X r Sumas de cuadrados Formulas Fuente de variacion | Férmalas de definicion de caleulo LY Files rol rE (R= PF foe mY Columnas ro PD - PyF i -¢ ‘Tratamientos rol rE(R- £F Etror (= 1-2) 428) — Porsusteaccion Tout ao Ey FF Ev-c Paso I Calcular los totales de filas ¥;. de columna ¥,,, de tratamientos ¥, y el gran total Y., , Simulténeamente hallar Sy» 2% para cada valor / y j, respectivamente. La suma de las cuatro cantidades resultantes para las i, sera igual a ia de las / y es una comprobacién de los célculos, Esta es la suma cuadra- dos total no ajustada. Paso 2 Haliar el tétmino de correccién y las sumas de cuadrados (ajustadas) . 2 Factor de correccién = FC = e 1672" = 1,747.24 4 SC Total =) Y} ~ C = 1,837.64 — 1,747.24 = 90.40 a LY te Sc Fitas = ~c2 Bet + oot 1,767.24 = 195 2 ry 39.0? +--+ + 44.6 2 = 1,747.24 SC Colurnnas = 2—— — r 4 ANALISIS DE LA VARIANZA Il: CLASIFICACIONES MULTIPLES 217 Tabla 9,13 Plan de campo con los rendimientos de trigo, en kilogramos por parcela dispuestos en cuadrado latino 4 Xx 4, Columna Totales de fila Fila 1 2 3 4 ¥, ry 1 C=105 D= 77 B=l2O A=132 434 487.78, 2 Ba llt 20 C=103 D= 75 409 429.55, 3 D= 58 =Q2 Asil2 BH137 429 495.61 4 A=l16 Bul} D= 59 C=t02 409 424.70 Totales dey ¥; v0 42 394 “6 Ty, LY a G columns |S YZ 40166 = 5034241034 $2222 = 1672 = 1,837.64 . Totales y medias de las variedades a B c D Totales=¥% 480 491432269 Medias =F 120° 123 108 68 Aailisis de 1a varianza Fuentes de variacion al sc cM F Filas - (@-=3 195 0.65“ 1447 Colamaas (-=3 6.80 227 5.04 Variedades (F-1)=3 78.93 2631 58.478" Error {r= Ir - = 6 2.72 04s Total (-)=5 90.40 sa O67 kg oa 34kg spay, = O4TKB CV= 64 por ciento = 6.80 ~ xv 2 SC Tratamientos = — + 26.9 = 1,747.24 _ +7893 SC error = SC(total) — (filas) — SC(columnas) — SC(tratamientos) = 90.40 — (1.95 + 6.80 + 78.93) = 2.72 Las sumas de cuadrados se Hevan a una tabla de andlisis de la varianza y luego se en- cuentran los cuadrados medios. El valor F para las variedades (tratamientos) es igual a 26.31/0.45 = 58.47**, con 3 y 6 grados de libertad; es mucho mayor que el valor tabula- do, el 1 por ciento, 9,78. Entonces se dice que hay diferencia altamente significante entre los rendimientos de las variedades. 218 — BIOESTADISTICA: PRINCIPIOS ¥ PROCEDIMIENTOS Kw El error esténdar muestral para una media de tratamiento es sy = \/S7/r = 0.34 kg., donde s? es el cuadrado medio del error y 7 es e! ntimero de unidades experimentales por tratamiento, El error estindar de una diferencia entre dos medias de tratamiento es 5p,-», = V/ist/r = O47 kg. Si se sospecha heterogeneidad de error, éste no puede dividirse tan facilmente como en el caso de diseito de bloques completos al azar. Cochran y Cox (9.8) ilustran el procedimiento. El método para determinar como difieren Jas variedades depende de los objetivos del experimento y del conocimiento que se tenga de las variedades, por ejemplo, base ge- nética. En el cap. 8 se han estudiado métodos validos. Ejercicio 9.11.1 Peterson y otros (9.15) presentan el contenido de humedad de un tipo de nabo y otros datos de un experimento efectuado como un cuadrado latino. Los datos aparecen en ta tabla adjunta de por cismtos (contenido de humedad ~ 80). Los tratamientos corresponden a tiempos de pasado, dado que las medias de humedad pueden anticiparse en un laboratorio a 70°F a medida que progresa el experimento. Tamafo de ta hoja (4 = la mis pequefta, E = la mis grande) Planta A B c D E 1 667(V)—TAS(LV} 8.290) 8.9S(IET)—9.62{T1) 2 S40{t) §—-4.77(V)—S.40(IV)—7.54{1) 6934111) 3 732011) 8S3(1) —8.0(V) 9.99(TV) 9 68(1) 4 492(1) S001), 7.290T) 785) 7.0801) 5 4838(CV) — 6.16(1) 78311) $8) BSLV) Calcular el andlisis de ta varianza. ,Cual es la desviacién estindar aplicable a una diferencia entre medias de catamiento? ;Entre medias de tamafo de hoja? Ejercicio 9.11.2 Un experimento con seis noviltas de un affo en una vaqueria se efectiio en dos cuadros latinos. Los tratamientos fueron tres racianes seleccionadas con base en la localidad y caracteristicas fisicas diversas y se alimentaron ad libitum, Cada animal recibid las ttes raciones sucesivamente, con una semana para cada una, La variable dada aqui es ¥ = libras de materia seca consumida por 100 libras de peso corporal. Los datos se presentan a continuacién. Los ni merosdentrode ( ) indican tratamientos. Los tratamientos fueron (1) forraje de alfalfa, (2) maiz ensilado, (3) pastillas de pasto azul. Cuadrado- 1 2 Novilla t 2 3 4 5 6 ‘Semana 1 271) 262) 193) 331) 23@) 0.4103) 2 212) 023) 23(1) 7G) 281) 1.82) 3 193) 210) -24Q2y 242) 1.78) 2.701) Fuente: Datos por cortesia de A.C. Linnerud, Universidad del Estado de Carolina det Norte, Raleigh, NC. ANALISIS DE LA VARIANZA Il: CLASIFICACIONES MULTIPLES 219 Calcular un andlisis de ta varianza para cada cuadrado separadamente. {Difieren significativamente para cada cuadrado las medias de las ecuaciones? ;Las medias de las-novillas para cada cuadrado? ; Las medias semanales para cada cuadrado? Ejetcicio 9.11.3 Un cuadrado iatino 3 X 3 sélo tiene 2 grados de libertad para estimar cl error. Una manera de mejorar la situactén es combinar los resultados de experimentos semejantes. Es claro que la combinacién se puede hacer por lineas de los andlisis individuales, Por ejemplo, para los cuadrad os precedentes, agregar las SC(semanas) para obtener SC(semanas den- tro de cuadrados) con 4 grados de libertad. Procédase en forma andloga con novillas, trata- mientos y error. El grado de libertad faltante es el de los “cuadrados” que se calcula fécilmente. Este anilisis no es muy bueno y deja por fuera algunos puntos. En lugar de lo anterior, combine la informacién de dos cuadros del ejercicio precedente de {a siguiente forma: 1, Calcutar SC(cuadrados) usando 10s totales de los dos cuadrados. Esto se sugirié arriba. 2, Caleular la SC(semanas) usando los totales de las 3 semanas para ambos cuadrados. Esto es diferente a la sugerencia precedente y tiene sentido st las semanas son las mismas. De otra manera, la sugerencia precedente es satisfactoria, 3. Caloular SC(novillas dentro de cuadrados) mediante 1a combinacion de SC(novillas) a par- tir de los dos cuadros, Esto tiene 4 grados de libertad. Es el procedimiento sugerido en el anterior parigrafo, (Hay $ gl entre novillas. El grado de libertad faltante es para las “dife- rencias entre aovillas en diferentes cuadrados” o simplemente “cuadrados”.) 4, Calcular SCftratamientos) usando los tres totales de tratamiento en los cuadrados. Esta es evidentemente la forma inteligente de buscar diferencias entre tratamientos, 5. Preparar una tabla de 3 X 2 de totales de semanas por cuadrada, Analizar esto por observa- cién como una clasificacién de dos factores. SC(cuadrados) y SC(semanas) ya estan en el anilisis. La $C(residuales) con 2 grados de libertad es un candidato para el error, 6, Repetir el paso $ para tratamlentos. La SC(sesiduales) es también aqui candidato para error. 7. Completar Ia tabla de andlisis de la varianza. Sumar !as columnas de grados de libertad y SC. Con esto el anilisis queda completo. 8, Hallar SC(total). ;Cudnvos g! tiene? {Es igual al total en la columan SC def 7? 9.12 Parcelas faltantes en el cuadrado latino El principio que supone la estimacién de valores faltantes se ilustra en la sec. 9.6 para el disefio en bloques completos al azar. La formula para una sola observaciOn faltante es zoe 7 AR + C + T)- 26 (9.12) . (r= r= 2) foe donde R, Cy T son los totales de los valores observados para fila, columna y tratamiento que contienen el valor faltante y Ges el gran total de los valores observados. El andlisis de la varianza se lleva a cabo en Ja forma usual, restando un gl del total y del error por cada valor faltante, Como en ef caso del disefio en bloques completos aleatorios, la suma de cuadrados de tratamientos esta sesgada hacia arriba, en esta oportunidad en una cantidad dada por y [G-R-C-(r-)TP 9.13 Se =" Te OE ee) 220 BIOESTADISTICA: PRINCIPIOS Y PROCEDIMIENTOS. El error estandar muestrai de la diferencia entre la media del tratamiento, A, con la unidad faitante y una media del tratemiento, 8, con todas sus unidades presentes es 200 1 +? 1-2 614) Sa-¥s El procedimiento sugerido como mis informativo para un experimento de bloques aleatorios con una parcela faltante puede adaptarse al cuadrado latino; sin embargo, es muy largo. Si faltan varias unidedes que no constituyen toda una fila, columna o tratamiento, el procedimiento es hacer aplicaciones repetidas de la ec. (9.12) como se hizo en la ec (9.8), Cuando se han estimado todas las unidades faltantes, se efectia el anilisis de la varianza de la manera usual, restando grados de libertad del total y del error. El procedi- miento exacto para obtener el error esténdar entre dos medias es complicado. Una aproxi- macion Gtil dada por Yates (9.20) puede usarse para determinar el numero de “replicacio- nes efectivas” para las dos medias de tratamientos que se comparan. El numero efectivo de repeticiones para un tratamiento que se compara con otro se determina sumando los valores asignados como sigue : 1 sj el otro tratamiento esta presente en la columna y fila correspondiente 2/3 si el otro falta en una fila o en una columna, pero no en ambas 1/3 si el otro falta tanto en la fila como en la columna 0 cuando falta el tratamiento en cuestion oles Esto se ilustra con cuadrados latin’ 5 X § dado enseguida con tres unidades faltantes, una para cada tratamiento A, By C, Las unidades faltantes se indican entre paréntesis. ' zu x t 3 B (4) C E D 'D B E A_() ‘EB D A CB “C E B D 4 ‘A GC D @ E£ El niimero efectivo de repeticiones para los tratamientos A y B en la comparacién de sus medias se encuentra como sigue: comenzando con la columna I, hallar A. B esta en la misma columna, pero no en la misma fila que A; asignar el valor 4 . Para la columna 2, falta A; asignar el valor 0. Para la columna 3, B estd presente con 4 tanto en la columna como en la fila; asignar el valor 1. Para la columna 4, B no aparece en Ja colurina, pero si en [a fila con A; asignar el valor 3 . Para la columna S, 8 estd con A en columna y fila; asignar el valor 1. Para B, se hace lo mismo. Los valores asignados y los nimeros efectivos de repeticiones son Para A: P+ OF 1+ 9e1= 8 . Para B: f+ 9414041532 ANALISIS DE LA VARIANZA II: CLASIFICACIONES MULTIPLES 221 Elerror esténdar de la diferencia entre las medias de los tratamientos A y Bes entonces /s*(1/r, + Urs) =./ 5° + to) donde r, y rg se refiere a las repeticiones efectivas, El némero efectivo de repeticiones para un tratamiento puede diferir con la comparacién que se hace. Cuando faltan todos los valores de una o mas filas, columnas o tratamientos, usual- mente e] andlisis se complica. El método para obviar ef problema cuando falta una fila, una columna o un tratamiento estd dado por Yates (9.21); si faltan dos 0 més, ver Yates y Hale (9.22), De Lury (9.9) también da esos métodos, Youden (9.23) presenta la construc- cién de cuadrados latinos incompletos como disefios experimentales. En algunas oportunidades, los investigadores pueden. tener nuevos materiales que desean incluir entre sus tratamientos, pero en cantidades insuficientes por replicacién, También es posible reemplazar un tratamiento en un cuadrado latino por r tratamientos no replicados y contar atin con un andlisis. Los cuadrados latinos también son la base de dise- fios aumentados en que cada parcela se divide de tal modo que el experimento permita 7 tratamientos adicionales no repetidos. Finalmente, pueden aftadirse filas seleccionadas apropiadamente al cuadrado latino para lograr diseftos en Jos cuales puedan medirse efec- tos residuales cuando ha sido necesario usar cada unidad experimental para una secuencia de tratamnientos, Experimentos sobre ganado lechero a menudo usan tales diseftos. Como ejemplo, ver Lucas (9.25). Ejercicio 9.12.1 Descartar una de las observaciones dadas en el ¢jercicio 9.11.1. Calcular un valor faltante para la obsecvacion descartada y completar el andlisis de la varianza, Calcular el sesgo en la suma de cuadrados de tratamientos. Cuil es la desviacion estindar aplicable a la diferencia entre dos medias de tratamientos, una con la observacién faltante? Ejercivig 9.12.2 Para el eercicio anterior, encontrar la suma de cuadzados total de las 24 obser vaciones no descartadas. Use ésta y la suma de cuadrados caiculada previamente para calcula la ‘SC(filas, columnas y tratamientos) con 12 gl. Ahora considere que las 24 observaciones provienen de un disefio de bioques con as filas y las columnas correspondientes a bloques y tratamientos. Calcular un valor faltante con Ia ec. (9.8). Completar el andlisis de 1a varianza, Use et método recomendado como informative para calcular la SC(filas, columnas) = SC(filas, columnas sin tener en cuenta tratamientos). Ahora SC(filas, columnas y tratamientos) — SC(filas y columnas, sin tener en cuenta tra- tamientos) = SC(tratamientos ajustados por filas y columnas). Esta SC debera ser igual e SC(tra- tamientos) del andlisis del ejercicio 9.12.2, una vez se haya reducido por el sesgo. También pudo haberse descrito como una reduccién adicional en la SC total atribuible a los efsctos de trata- miento en un modelo que previamente s6lo incluyé filas y columnas. 9.13 Estimaci6n de la ganancia en eficiencia Se puede estimar la precision relativa de un cuadrado latino respecto a experimento en bloques completos al azar. Se pueden obtener dos estimaciones de la eficiencia relativa, una cuando las filas se consideran como bloques y otra cuando las columnas se consideran como bloques. Estimamos el cuadrado medio del error para fos bloques completos al azar silas filas son los tinicos bloques, asi GR GER = EMC + + FICME . (9.15) Ethth 45) 222 — BIGESTADISTICA: PRINCIPIOS ¥ PROCEDIMIENTOS donde CMC y CME son los cuadrados medios de columnas y error en el cuadrado latino y J §, ¥f, sonlos gratos de libertad de columnas, tratamientos y error del cuadrado latino. Esto quiere decir que las columnas se deben dejar de lado como fuente de variacién. Si Jas columnas son los tnicos bloques, y se hace caso omiso de las filas reemplacese f, y CMC en la ec. 9.15 por f, y CMF, que sorflos grados de libertad y el cuadrado medio de las filas, en el cuadrado latino. Como se dispone de mas grados de libertad para estimar el cuadrado medio del error de bloques al azar que de cuadrados latinos, esto debe tenerse en cuenta al calcular la efi- ciencia relativa de los dos diseftos si el numero de grados de libertad en el error del cuadra- do latino no es inferior a 20. Esto se logra mediante la incorporacion de (f, + 1) (f + 3) (fz + 1); +3) ema formula para el factor de eficiencia donde f, y fz son los grados de libertad para los téminos de error del cuadrado latino y de fos bloques completos al azar. Los datos de Ja tabla 9.13 se usardn pata ilustrar ef procedimiento. El cuadrado me- dio del error estimado con filas como bloques y sin colummas es 3(2.27) + (3 + 6) (0.45)/ (3 + 3 +4) = 0.91; con las columnas como bloques y las filas eliminadas es 3(0.65) + G + 6) (0.45)/(3 + 3 + 6) = 0.50. El ajuste de las diferencias en grados de libertad para los dos diseflos es (6 + 1X9 + 3)/(9 + 1) (6+ 3) = 0.933. Asi, la precision relativa estimada, usando filas como bloques, de modo que comparados los diseffos con y sin co- lumnas en ta presencia de las filas, es (f+ Wh + 3) CHE BCA 19, ER(CL soa respecto a BCA) = (A rely = 933 5 75 100-= 189 por ciento Las columnas son evidentemente una fuente de variacin que un experimentador desearé controlar, Si las columnas fueran bloques, de modo que el disefio con y sin filas se pudieran comparar, ER(CL con respecto a BCA) = 933\>2'100 = 104 por ciento 0.45 La agrupacion en filas no ha logrado un control apreciable de Ja variacion y el investigador puede desear dejar de lado cuando disefie un nuevo experimento en circunstancias pareci- das. La agrupacién en columnas aumenté la precision en un porcentaje estimado del 89 por ciento y las filas, en un porcentaje estimado del 4 por ciento. Asi, si se hubiera usado ei disefio en bloques compietos ai azar con las filas del cuadrade latino como bloques y se hubiesen omitido las columnas, se habria necesitado un porcentaje estimado de mds de 89 de repeticiones para detectar diferencias de la misma magnitud que las detectadas por el cuadrado latino, mientras que se habria necesitado un 4 por ciento mis si las columnas hubieran sido bloques y se hubieran omitido las filas. Las filas parecen ser no eficientes como bloques, mientras que las columnas son razonablemente eficientes. En todo campo ANALISIS DE LA VARIANZA II: CLASIFICACIONES MULTIPLES 223 de investigacion, se necesitan varias de tales comparaciones antes de poder concluir que los cuadrados latinos son probablemente mas precisos, en promedio, que bloques al azar. Ejercicio 9.13.1 Calcular la eficiencia del cuadrado latino en relacion con la de fos bloques completosal azar para los datos del ejercicio 9.) 1.1 -usahdo el tamafio de las hojas como bloques. Repetir usando las plantas como bloques, 9.14 El modelo lineal para el cuadrado latino Sea Yjz la observacién en la interseccién de la fila ¢¢sima con la columna j4sima, Esto ubica cualquier observacién, pero no dice nada respecto al tratamiento aplicado. Un ter- cer subindice puede desorientar, haciendo pensar que se tiene r? en vez de 7? observacio- nes, Par ejemplo, el tratamiento aparece una vez en cada una de las filas, una vez en cada una de las r columnas, pero solamente 7 veces en total; asi que f= 1 supone un conjunto de variables é, j, con un nimero r. Lo mismo puede decirse para los otros valores de t. Expresamos una observacién mediante Yigg = w+ Bit Rpt ty t &y (9.16) Esto implica, al usar (¢), que no se trata de una clasificacion ordinaria de tres vias, Para sacar conclusiones vilidas, los deben ser aleatorios y no correlacionados, y si se van a efectuar pruebas de significancia o se van a construir limites de confianza, por procedimientos ya expuestos, también deben distribuirse normalmente, Un modelo con interacciones no lleva a un error vilido para probar hipétesis, y el cuadrado latino no es un disefio apropiado cuando hay interacciones presentes, Pueden hacerse varios supuestos. acerca de los componentes de las medias, esto es, las B, x y z. Los valores promedios de los diferentes cuadrados medios se dan en la tabla 9.14 de acuerdo con el modelo supuesto. No se presenta el modelo mixto, pero los valores promedios de los cuadrados me- dios se obtienen reemplazando la contribucién apropiada por Ia distribucién correspon- diente al cambiar de efectos fijos aleatorios, por ejemplo, reemplazando(S, 6?)/(r — 1) por gq. Tabla 9.14 Valores promedios de los cuadrados medios para un anilisis de un cuadrado latino ‘Valores promedios de Ios cuadrados medios Fuente el Modelo I (fijo) Modelo II (aleatorio) Filas rol eer BV- 1) ot trop Columnas rf eater -1) of teat ‘Tratamientos r— 1. ene dyer t) ot teat Residuo -e-2) oo? a 224 BIOESTADISTICA; PRINCIPIOS Y PROCEDIMIENTOS 9.15 El tamafio de un experimento El tamafio de la muestra se estudi6 en ias secs, 5.13, 5.14 y 6.7. Estas secciones tratan de la obtencién de intervalos de confianza no mayores que ina longitud dada y de la manera de detectar diferencias de magnitud dada; no se consideran problemas en que intervengan més de dos tratamientos, si bien la mayoria de los experimentos incluyen més de dos tra- tamientos. Entre los problemas del enfaque general del tamatio de un experimento estan los de Cochran y Cox (9.8), Harris y otros (9.12), Harter (9.13), Tang (9.17) y Tukey (9.19). Se estudiaran dos de ellos. El célculo del nimero de repeticiones necesarias depende de Una estimacién de o” La magnitud de la diferencia que se va a detectar. ‘De la seguridad con que se desea detectar la diferencia (poder de fa prueba = 1 — f). Del nivel de significancia que se va a usar en el experimento (error tipo 1). Del tipo de prueba requerido, bien sea de una 0 de dos colas. ween La seccién 5.13 da una solucién razonable e ilustra el procedimiento, Esta solucién. exige una tasa de error por comparacién. En la préctica, se puede obtener una estimacion de a” por experimentos previos, 0 eludir su necesidad expresando 5 como un miltiplo de la verdadera desviacion estandar, @, Para un disefio de bloques con f tratamientos, of, del cap. 5 sera 207. Asi para hipé- tesis altemas de dos colas, la ec. (5.33) que puede escribirse > AZya + 2y() (9.17) Los subindices en cada Z se basan en errores de tipo I y de tipo II aceptables, pero se refieren especificamente a !a cantidad de probabilidad en una sola cola de ls distribucién deZ. Para ilustrar el uso de la ec. (9.17), supOngase que deseamos llevar a cabo un experi- mento como él que dio lugar a los datos de la tabla 9.2, usando nuevamente seis trata- mientos. Deseamos detectar diferencias, sin importar la direcci6n de no mds del 2.5 por ciento de aceite al nivel del 95 por ciento con una seguridad del 90 por ciento de detectar una verdadera diferencia de tal magnitud, asi a = 0.05 y B=0.10. La tabla 9.2 das? = 1,31, que es una estimacién de o7:Z4;2= 20.025 =1.96 y Zp = 2p.10 = 1.28, Por consiguiente, . >it 96 + 1.28)71.31 2.5? El experiment con 6 tratamientos y 5 bloques tendré (6 ~ 1) X (5 ~ 1)= 20 gl. El factor de ajuste necesario es (20 + 3)/(20 + 1) y el néméro de bloques austado viene a ser 44 (23)/21 = 4.8, 0 sea 5 bloques. El procedimiento (9.19) de Tukey da el tamafio muestral necesario para lograr un conjunto de intervalos de confianza no mayores de un tamafio especificado por todas las == 4.4, 65, bloques ANALISIS DE LA VARIANZA Il: CLASIFICACIONES MULTIPLES 225. posibles diferencias entre medias verdaderas de tratamientos. El investigador escoge el nivel de significancia y la tasa de error se aplica aun error de tipo 1 con base experimental. Como un experimento es una muestra, es imposible dar completa seguridad de que, por ejemplo, el 95 por ciento de los intervaios sean invariablemente menores que el tama- fio especificado. Por lo tanto, resulta necesario establecer con qué frecuencia, o con qué seguridad, se desea tener intervalos de confianza menores que 1a longitud especificada. Tukey da la siguiente formula para el célculo del tamafto de un experimento. p= Heo. L NS fi) (os) donde s} es una estimacion de o?, basada en f, grados de libertad que se obtiene de Ia tabla A.8 para el coeficiente de confianza deseado y los grados de libertad, Jy, para el cua- Grado medio del error en el experimento que se planea;F,se obtiene en la tabla A.6 (una cola) para el par de grados de libertad indicados;y f se define de tal modo que 1 — sea Ja seguridad que deseamos tener de que los intervalos de confianza sean menores que 2d. Es decir, d se define como la mitad de la longitud del intervalo de semiconfianza deseado. Notese que q y F dependen del valor que sé busca. Esto implica que quizé haya que aplicar Ja formula varias veces. Para ilustrar el ernpleo de ls ec. (9,18), suponga que usamos de nuevo los datos de la tabla 9.2, Si se decide usar un conjunto de intervalos de confianza al nivel del 95 por cien- to € incluir los mismos 6 tratamientos, el miimero de tratamientos es necesario cuando se va a obtener g. Deseamios que todos los intervalos de semiconfianza al nivel del 95 por ciento tengan una longitud de no més del 2.5 por ciento de aceite con una seguridad de 090. Segin a tabla 9.2, s? = 1.31 y f, = 15 grados de libertad. Para obtener g, hay que conjeturar ef valor de f;. Si suponemos que f sera 5 repeticiones y si se planea un diseflo de bloques completos, entonces fz = (5 — 1) (6 — 1) = 20 grados de libertad y @,(P, 3) = 445. Encontramos Fo ,0(20, 15)=1.92 ¥ tenemos un conjunto de d= 2.5 de porcentaje de aceite. Asi . 1.31(4.45)*(1.92)/(2.5)? = 8.0 bloques Dado que 8 bloques es bastante mas de Jo esperado, subestimamos fz. Entonces vale ta pena estimar de nuevo a r, usando 7 u 8 para determinar f; . Para 7 bloques, fy = (7 — 1) (6 = 1)= 30 grados de libertad, Ahora r= 1.31(4,30)(1.87)/(2.5)? = 7.2 bloques Ahora resulta que 7 bloques son suficientes, pero que 8 bloques son algo més que adecuados, El procedimiento de Stein de dos muestras (sec. 5.14) ha sido generalizado por Healy (9.14) para, obtener intervalos de confianza conjuntos de longitud y coeficientes de confianza fijos para tadas las posibles diferencias entre medias poblacionales, El proce- dimiento es aplicable cuando ef investigador puede continuar el mismo experimento y no 226 BIOESTADISTICA: PRINCIPIOS ¥ PROCEDIMIENTOS. necesita preocuparse acerca de la heterogeneidad de la vatianza para las dos etapas del ex- perimento. 9.16 Transformaciones La aplicacién valida de las pruebas de significancia en el andlisis de 4a varianza exige que los errores experimentales se distribuyan normal e independientemente con una varianza comin. Ademas, la escala de medida debe ser tal que cumpla el modelo lineal aditivo. Es costumbre confiar en la aleatorizacién para romper cualquier correlacién de los errores experimentales, siempre que sea posible incorporar un proceso de aleatorizacién en la in- vesti mn. La aditividad se puede probar con un método dado en Ja sec. 15.8. La otra condicién a la cual han concedido mucha atencién los estadisticos, es la de la estabiliza- cién de ja varianza. La heterogencidad del error, o heteracedasticidad, puede clasificarse como irregular o regular. De tipo irregular, se caracteriza por ciertos tratamientos que tienen una variabi- lidad considerablemente mayor que otros, sin relacién aparentemente manifiesta entre medias y varianzas. Las diferencias en variabilidad pueden o no esperarse de antemano. Por ejemplo, al comparar insecticidas, a menudo se incluyen unidades sin tratar o de con- trol. Los nimeros de insectos presentes en las unidades de control son probablemente mucho mayores y mas variables que las de Jas unidades en que un insecticida ofrece un control considerable. Asi, las unidades de contro] contribuyen al cuadrado medio del error en mayor proporcién que las unidades tratadas. En consecuencia, las desviaciones estandar, basadas en cuadrados medios del error combinado, serdn demasiado grandes para comparacién entre insecticidas y pueden no lograr detectar diferencias reales. En otzos casos, ciertos tratamientos pueden presentar mds variacién que otros sin raz6n apa- rente. Esta parte del experimento no esta bajo control estadistico. Cuando Ja heterogeneidad del error es del tipo irregular, el mejor procedimiento es omitir ciertas porciones de los datos en el anilisis 0 subdividir el cuadrado medio del error en componentes aplicables a las diversas comparaciones de interés, El ultimo procedimien- to se estudia en la sec. 9.5 con cierta extensién. EI tipo de heterogeneidad regular se origina por lo general en algin tipo de no nor- malidad en los datos, al estar relacionada Ia variabilidad dentro de los diversos tratamientos con las medias de tratamientos de alguna manera razonable, Si se conoce la distribucion de Ia poblaci6n principal, entonces se conoce la relacién entre las medias de los tratamien- tos y las varianzas de los tratamientos calculados con base en los tratamientos individuales. Los datos pueden transformarse o medirse en una nueva escala de medida de tal manera que los datos transformados se distribuyan de forma aproximadamente normal. Tales transformaciones también se proponen hacer que las medias y las varianzas sean indepen- dientes, y que las varianzas resultantes sean homogéneas. Este resultado no siempre se consigue. Cuando es imposible hallar una transformacién que haga que las medias y las varianzas sean independientes y la varianza estable, entonces deben usarse otros métodos de anilisis, tales como el andlisis ponderado. Las transformaciones mas comunes son la raiz cuadrada, la-logaritmica y la angular © transformacién arco-seno. Se estudian brevemente a continuacién. ANALISIS DE LA VARIANZA II: CLASIFICACIONES MULTIPLES 227 Transformacién raiz cuadrada, ./¥ Cuando los datos consisten en niimeros enteros pe- queftos, por ejemplo el nimero de colonias de bacterias en un recuento de placa, el nime- ro de plantas o insectos de una especie determinada en una zona dada, tales datos siguen a menudo 1a distribucién de Poisson, en la cual la media y la varianza son iguales. (Ver sec. 23.6). El andlisis para tales datos enumerativos se logra mejor a menudo transformindalos sacando la raiz cuadrada de cada observacién antes de proceder al andlisis de la varianza. Los datos porcentuales basados en recuentos y un denominador comin, donde el intervalo de porcentaje va de 0 a 20 por ciento o de 80a 100 por ciento, pero no de am- bos, también pueden analizarse con Ja transformacién raiz cuadrada. Los porcentajes entre 80 y 100 por ciento deberdn restarse de 100 antes de hacer Ja transformacion. La misma transformacién es ttil para porcentajes en los mismos intervalos en que las observa- ciones estn en una escala continua, ya que medias y varianzas pueden ser aproximada- mente iguales. Cuando intervienen valores muy pequefios,./Y tiende a corregir en exceso, asi que el intervalo de los valores transformados que dan una media pequefla, puede sermayorque el intervalo de valores transformados que dan una media mayor. Por esta raz6n se reco- mienda a./Y +} como transformacién adecuada cuando algunos de los valores esté por debajo de 10 0 aiin por debajo de 15 y especialmente cuando hay ceros. ‘Las medias apropiadas para una tabla de medias de tratamientos se encuentra ele- vando al cuadrado Ja media de los tratamientos calculada con los valores ./Y. Estas serin menores que las medias de los datos originales, situacion que se corrige aproximadamente mediante la adicién del cuadrado medio del error sin convertir a cada una, Debe recordar- se también que el modelo aditivo debe cumplir para la escala transformada y no para la original, En la sec. 15.8 se da una prueba de aditividad, Transformacién logaritmica, log Y Cuando las varianzas son proporcionales a los cuadra- dos de las medias de los tratamientos o las desviaciones esténdar son proporcionales a las medias, la transformacién logaritmica equilibra las varianzas. Se usa la base 10 por como- didad, si bien cualquier base es satisfactoria. Los efectos que son multiplicativos en la escala original de medida, se vuelven aditivos en‘la escala logaritmica, por ejemplo, si un tratamiento da consistentemente una respuesta 20 por ciento mayor que otro; ver tabla 7.12, Las medias obtenidas volviendo a ta escala original mediante los antilog de las me- dias de fos valores de log Y son medias geométricas de los datos originales. Cuando se uusan pruebas como la dms con los datos transformados son equivalentes a las zazones mi nimas significativas de medias que han sido transformadas de nuevo a Ja escala original. Esto proporciona un método adecuado de presentar los resultados experimentales. La transformaci6n logaritmica se usa con nimeros enteros positivos que cubren un amplio intervalo. No puede usarse directamente para valores cero y cuando algunos de los valores son menores que 10, es deseable contar con una transformacion que opere como la raz cuadrada para valores pequeflos y como logaritmica para valores grandes, La suma del valor | a cada miimero antes de tomar los logaritmos tiene el efecto deseado. Esto es, log (Y + 1) se comporta como la transformaci6n raiz cuadrada para,némeros hasta 10y difiere poco de log ¥ para valores mayores de 10. En algin tipo de trabajo experimental, se desea efectuar un andlisis de la varianza en que la variable es la varianza. Es apropiada Ja transformaci6n logaritmica de las varianzas antes del andlisis, esto es, analizamos log s*. Tales varianzas deben tener 10 gl o mas para 228 — BIOESTADISTICA: PRINCIPIOS Y PROCEDIMIENTOS. que un andlisis de la varianza de los datos transformados sea aprobado. La prueba de Bar- tlett de la homogeneidad de un conjunto de varianzas, sec. 20.3, también exige el empleo de log s*. Transformacién angular o transformacion arcosen ./¥ 0 sen™! ./¥ Esta transformacion es aplicable a datos binomiales expresados como fracciones decimales o porcentajes, y se recomienda especialmente cuando los porcentajes cubren un intervalo amplio de valores. La mecdnica de la transformacién requiere fracciones decimales, pero las tablas de la transformacién arco-seno estén generalmente en porcentajes (ver tabla A.10). Los valores tabulados o valores arco-seno se expresan en grados o radianes. La varianza de las observa- ciones resultantes es aproximadamente constante, y es 821/n cuando los datos transfor. mados se expresan en grados y 1/(4n) = 0.25/n cuando estan en radianes, siendo n el de- nominador comin de todas las fracciones. Esta varianza aclara que todos los porcentajes se deben basar en un mimero igual de observaciones. Sin embargo, la transformacién se usa a menudo cuando los denominadores son desiguales, y especialmente si son aproxima- damente iguales; de otra manera, se necesita un andlisis ponderado. Bartlett (9.3) sugiere que 0 se sustituya por 25/n por ciento y que 100 por ciento se sustituya por 100 — 25/n (siendo n el divisor). La transformacion raiz cuadrada ya ha sido recomendada para porcentajes entre 0 y 20 o entre 80 y 100, debiéndose restar estos iltimos de 100 antes de hacer !a transforma- cidn. Si el intervalo de porcentaje es 30 a 70, es dudosa la Aecesidad de transformcién, Aleunas consideraciones generates Siempre es iti examinar los datos discretos para ase gurarse si existe o no correlacién entre las medias de los tratamientos y sus varianzas den- tro de los tratamientos. Desafortunadamente, esto no es posible para la mayoria de los disefias. Si ta variacién muestra poco cambio, es dudoso el valor de cualquier transforma- cid. Cuando hay cambio en fa variacién, no siempre és claro cual es 1a mejor transforma. Gon. Cuando hay duda sobre fa transformacién apropiada, a veces es util transformar los datos de varios tratamientos, incluyendo algunos con medias pequeflas, intermedias y grandes en la escala original, y de nuevo examinar varianzas y medias para ver Ia posibili- dad de alguna relaciénen la escala transformada. La transformacién para la cual [a relaci6n es minima, probablemente sea la mds apropiada. Cuando se hace una transformacién, todas las comparaciones o las estimaciones de os intervalos de confianza se hace en la escala transformada, Sino se desea presentar re- sultados en la escala transformada, entonces las medias deben transfarmarse volviendo a la escala original, Cuando se presentan los resultados de un andlisis de datos transformados en la escala original, ésta se le debe aclarar al lector. No es apropiado transformar desvia- ciones estdndar o varianzas, provenientes de datos transformados, volviéndolas a {a escala original, El experimentador que esté interesado en mayor informacién en cuanto a los su- puestos, en que se fundamenta el andlisis de la varianza y sobre transformaciones, remitase a los escritos de Eisenhart (9.10), Cochran (9.5, 9.6 y 9.7), y Bartlett (9.3). Tales escritos dan muchas referencias suplementarias, . ANALISIS DE LA VARIANZA II: CLASIFICACIONES MULTIPLES 229 Ejercicio 9.16.1 En la evaluacién de insecticidas, se observé et nimeto de gorgojos adultos vivos del ciruelo que salen de areas separadas encajonadas de suelo tratado, Los resultados que se presentan en la tabla siguiente se deben a la cortesfa de C.B. Mcintyre, Departamento de Entomologia. Universidad de Wisconsin, Obsérvese que éste es un disefio de bloques completos al azar y que no podemos medic directamente las varianzas dentro de tratamiento. ‘Tratamientos Bloque Lindane Dieldrin Aldrin EPN. Chlordane Cheek 1 14 7 6 9 22 2 6 1 1 1330 t in 3 8 0 1 % 3 202 4 36 1s 4 569 wT jQué recomendacién seria apropiada para estos datos? Analizar los datos utilizando como transformacion log(Y + 1), Usar los dos procedimientos de Duncan para probar todos los pares posibles de medias de tratamientos con exclusion de la del control. Ejercicio 9.16.2 Aughtry (9.1) presenta los siguientes datos sobre 1a simbiosis del eruce de Medicago sativa (53) ~ M.Faleata (50) cruzados con la cepa B. Los datos son porcentajes de plantas con nédulos de un total de 20 por celda. El experimento fue realizado como un disefio. de bloques completos al azar. Padres Fy Lotes de Fz de cada Fy Bloque 53 50 S350) M41 H14-2 143 Nd 1 i 6847 31 2 16 0 16 67 (32 40 16 1 8 3 6 7% 40 7 20 20 2 Qué transformacién se recomendaria para el andlisis de estos datos? Usar Ia transforma- cién angular y efectuar el anilisis de la varianza, ;Cémo se compara la varianza observada con la tedrica? Referencias 9.1. Aughtry, J. D.: “The effects of genetic factors in Medicago on symbiosis with Rhizobium, Cornell Univ. Agr. Exper. Sta, Memo, 280, 1948. ns in yield and quality of milk,” 6th Ann, Re, Wis, Agr. Exper, Sta. 9.2. 93. "The use of transformations,” Biom., 3:39.52 (1947). 94. Bing, A.: "Gladiolus control experiments, 1953,” Gladiolus 1954, New England Gladiolus So- ciety, Inc. 95. Cochran, W.G.: “Some difficulties in the statistical analysis of replicated experiments,” Empire J. Exper. Agr., 6:157-175 (1938). 9.6. Cachran, W. G.: “Analysis of variance for percentages based on unequal numbers,” Searist. Ass., 38:287-301 (1943), 230 9.10, 9.1. 912. 9.13. 9.14. 9.15, 9,16, 17 9.18. 9.19. 9.20. 9.21 9.22. 9.23, 9.24. 9.25. 9.26. 9.27, BIOESTADISTICA: PRINCIPIOS Y PROCEDIMIENTOS - Cochran, W. G.: “Some consequences when the assumptions for the analysis of variance are not satisfied,” Biom., 3:22-38 (1947). . Cochran, W.G.. 1G. M. Cox: Experimental designs, 2a, ed., Wiley, Nueva York, 1957. . DeLury, D. B.: “The analysis of latin squares when some observations are missing,” J. Amer. Statist. Ass., 41:370-389 (1946). Eisenhart, C.: “The assumptions inderlying the analysis of variance,” Biom., 3:1-21 (1947). Fisher, R. A., ¥ F. Yates: Statistical tables for biological, agricultural and medical research, 52. ed, Hafner, Nueva York, 1957, Harris, M., D. G. Horvitz, y A. M. Mood: “On the determination of sample sizes in designing experiments,” J, Amer, Statist, Ass, 43:391.402 (1948). Harter, H. L.: “Error sates and sample sizes for range tests in multiple comparisons,” Biom., 13:511-336 (1957), Healy, W. C., Jr: “Two-sample procedures in simultaneous estimation,” Ann. Math. Statist, 27:687-702 (1956). Peterson, W. 3., H. P. Tucker, J. T, Wakeley, R. E, Comstock, y F. D. Cochran: “Variation in moisture and ascorbic acid content from leaf to leaf and plant to plant in turnip greens,” No, 2 in Southern Coop, Ser. Bull, 10, pags. 13-17 (1951). Sackston,W,E,,yR.B. Carson: “Etfect of pasmo disease of flax on the yield and quality of linseed oil,” Can, J, Bot., 29:339-391 (1951). Tang, P. C.: “The power function of the analy sis of variance tests with tables and illustrations of their use," Statist, Res. Mem, 2:126-157 (1938). Tucker, H.P., J.T. Wakeley, y F.D. Cochran: “Effect of washing and removing excess moisture by wiping or by air current on the ascorbic acid content of turnip greens,” No, 10 in Southern Coop, Ser, Bull., 10 pigs $4-56 (1951). Tukey, J. W.: "The probiem of multiple comparisons,” Ditto, Princeton University, Princeton. NS, 1953. Yates, Fs “The analysis of replicated experiments when the field results are incomplete,” Empire J. Exper, Agr. 1:19-142 (1933). Yates, F.; “Incomplete tatin squares," J. Agr. Sci., 26:301-315 (1936). Yates, F, o R. W. Hale: “The analysis of latin squares when two or more rows, columns, of treatments are missing,” J, Roy Statist. Soc, Suppl., 6:67-69 (1939). Youden, W. J.: Statistical methods for chemists, Wiley, Nueva York, 1951. Taylor, J.: “Ertors of treatment comparisons, when observations are missing,” Nature, 162: 262-263 (1948) Lucas, H. Ls “Extra-period latin square change-over designs,” 4. Davy Sci., 40:225-239 (1957), Federer, W. T.: “Augmented designs with one-way elimination of heterogeneity,” Biom., 17: 447-473 (1961). Addelman, Sidney: “The generalized randomized block design.” Amer, Statist., 23(4):35-36 (1969). CAPITULO ' DIEZ REGRESION LINEAL 10.1 Introduccién En capitulos anteriores, desarrollamos la idea de que una observacion es la suma de una media poblacional y una componente aleatoria. Se disponia de un conjunto més de com- - ponentes para las medias y cada componente estaba presente 0 ausente de una media particular. Por ejemplo, en un disefio completamente aleatorio toda media poblacional contenia 4, en tanto que Ja /ésima contenia t,, pero no otra t. Ahora consideramos me- dias de poblacién con una componente, un miltiplo fijo de una cantidad variable y medi- ble, amada variable concomitante, En este capitulo se exponen los usos de una observacién concomitante, con los su- puestos de los varios usos y con los cdleulos necesarios. Los capitulos 11, 14, 17 y 19 también tratan estos problemas generales, 10.2 La regresin lineal de ¥ con respecto aX En la regresién lineal, los valores de Y se obtienen de varias poblaciones, cada una deter- minada por un valor correspondiente de X. Para que la teoria probabilistica sea aplicable, es esencial que Y sea aleatoria. As{ mismo, se supane que las poblaciones ¥ son normales y tienen una varianza comin. La variable Y se llama variable dependiente pues todo valor de ¥ depende de la po-* blacién muestreada. La variable X se lama variable independiente 0 argumento. . Como ilustracién se usan los datos de la tabla 10.1, registros de corral provenientes de una prueba de hipétesis hecha en Nueva York entre 1953-1954, La variable dependien- te corresponde al alimento consumido Y; depende la variable peso del cuerpo, X. Los diez pares de valores de 1a tabla 10.1 se representan en [a fig. 10.1. Hay una relaci6n bastante definida entre las dos variables. En particular, una recta como la trazada entre esos puntos podria servir como promedio mévil de los valores de Y. Siempre es buena idea representar 231 232 BIOESTADISTICA: PRINCIPIOS Y PROCEDIMIENTOS. Tabla 10.1 Peso promedio X y consumo de alimento ¥ de 50 gallinas provenientes de 10 razas White Leghorn Perioda de 350 dias Peso del cuerpo Consumo de alimenta xX Nax-40 ¥ =¥~90 46 06 ~ sl Sad BAL 48.08; 398 OR 44 0a! 914 ne Wg — 19 WS 195 5 at -07 gt 124 5 955 155 52 93 193 49 34 134 Sa . 944 144 Lie - kas | L(y - FP = 135.608 Yeo 1536 da wr on 9 gl Fuente: Datos cortesia de S.C. King, ahora en la Universidad de Pusdue, Lafayette, Indiana, tales datos para tener una indicacién de !a intensidad de una relacién, de su discrepancia, respecto Ge la linealidad y de las observaciones extremas 0 insGlitas. Consideramos ahora una grafica en linea recta y su ecuacién. La ecuacién de una recta puede escribirse, Y =a + bX (ver fig. 10.2). Todo punto (X,¥) de esta recta tiene una coordenada X 0 abscisa y una coordenada Y u ordenada, cuyos valores satisfacen a la ecuacién, Las ordenadas de puntos que no éstan en la recta no satisfacen a la ecuacion. Cuando X = 0, Y = a, asi que a ¢s el punto donde la recta corta el eje de tas Y, esto es, a es el intercepto de ¥. Cuando a es 0, la recta pasa por el 3 s a & ¥ = consuma de alimento (lb) 8 2 g Figora 10.1 Regresién del consumo de alimento Y respecte del peso det 40. «45° «50 55 60 cuerpo X para 10 razas de White X= Peso del cuerpo (Ib) Leghorn (promedios para 50 gallinas), , REGRESION LINEAL 233 Figura 10.2 Grifica de una recta, origen. Una unidad de variacién en X produce una variacién de b unidades en Y, asi que bes una medida de la pendiente de la recta. Cuando b es positivo, ambas variables aumen- tan o disminuyen juntas; si b es negativo, una variable aumenta cuando la otra disminuye, Para una jinea recta, cualquier par de puntos 0 la pendiente y el intercepto determinan la posicién de la recta en forma tinica. Los matematicos laman a las relaciones como Y =a + bX relaciones funcionales. Para un valor de X, una relacién funcional le da un valor a Y; una formula matemética relaciona tas dos variables. Este tipo de relacién se ha usado en el cap. 3 para asignar probabilidades, en las ecs. (3.4) a (3.6) y determinan ordenadas de una curva, como en la ec. (3.11). E] investigador cientifico que trabaja con observaciones bivariantes no tendrd datos | qug caigan en una linea recta. Aun en el caso en que las temperaturas se miden en escala Fahrenheit y Celsius, habrd variacién aleatoria atribuible a errores de medida; esto impide una relacién perfecta aun cuando exista una relacion funcional entre variables. Mas a me- nudo, los datos bivariantes siguen una ley estadistica, que se cumple en promedio. Este es el caso de los datos de la tabla 10.1. Es claro que, para un peso dado X, no existe un solo valor de consumo de alimento ¥;en vez de esto, hay una poblacién de ¥ y las observacio- nes aleatorias se extraen de esa poblacién. Cuando se va a ajustar una recta a datos consistentes en mds de dos pares de valores, se elige la recta que mejor se ajuste a los datos, esto es, aqueila que corresponda al mejor promedio mévil. Nuestro criterio de Jo que es mejor es el criterio de los minimos cuadra- dos, que exige que la suma de los cuadrados de las desviaciones de los puntos observados ‘con respecto al promedio mévil de la linea recta para un mismo valor X sea minima, En tal recta ajustada, b se llama coeficiente de regresion; la recta se llama recta de regresion y su ecuacién se denomina ecuaciérvde regresin, Para determinar el coeficiente de regresién b, necesitamos la suma de productos cruzados de las desviaciones de las observaciones respecto de sus medias correspondientes y la suma de cuadrados de X. Las formulas de definicién y de célculo para una suma de productos cruzados se dan en las ecs. (10.1) y (10.2), tespectivamente Po=¥ (xX, - X\¥,- ¥) definicion (10.1) ° ; : . LxXLY =UX- cilculo (102) . Lx 234 BIOESTADISTICA; PRINCIPIOS ¥ PROCEDIMIENTOS Para los valores codificados de X e Y, esto es, X’¢ ¥’, obtenemos (x — Ry — Py = 144.70— Paynes) = 11812 La codificacién mediante suma o resta de una constante para cada variable no afecta la suma de los productos cruzados, Las siguientes relaciones también son utiles: LO — MK- Y=F XH ~ Y=T (Ki - FY La semejanza entre una suma de productos cruzados y una suma de cuadrados, tan- to la formula de definicion como la operacién, es evidente sise reemplazan Y, y ¥ por X y & en la formula de productos cruzados. Las sumas de cuadrados y productos cruzados suelen lamarse simplemente sumas de productos. Cuando, (X — X}(¥ — ¥)se divide por fos grados de libertad, recibe ef nombre de covarianza (ver sec. 5.10), TenemosS: (X — XY ¥ — Fn — 1)=11.812/9= 1312. Una covarianza es una medida de {a variacién conjunta de dos variables y puede ser positiva o negativa. Es simétcica en X 0 en ¥, y las variables no necesitan especificarse como depen- dientes o independientes. El coeficjente de regresion se determina mediante. ~ Lf yz z . , (w= Rur-¥), b Gor (103) aoa -769 Ibs de atimento por libra de gallina | Para un aumento de una libra en ef péso del cuerpo, el consumo de alimento es de 7,69 * bras. \— La ecuacidn de regresion puede escribirse como la ec. (10.4) pues la recta de regre- sién pasa por la media muestral. ¥-YP=Hx-X) o Y=¥+d(x —X) (10.4) El * indica simplemente que ésta es la recta de regresién de la muestra, no un valor obser- vado de ¥. ¥ — 93.56 = 7.6X — 4.98) o bien. ¥ = 93.56 +7.69(X—498) oo ¥ = 55.26 + 7.69X (ver fig. 10.1), Elintercepto de ¥, a, es gual a ¥ — 6X = 55.26. REGRESION LINEAL 235 Las rectas calculadas en problemas de regresion son rectas en torno a las cuales se acumulan los pares de valores, no son rectas en las cuales queden los puntos. Un punto , sobre una linea de regresion es una estimacién de una media de una poblacion de Y, los Y¥ que tienen el correspondiente valor de X, Ejeccicio 10.2.1 Los registros de corral presentados a vontinuacién para gallinas White Leg- homs, en una competencia de muestra* aleatoria en California son similares a los datos de la tabla 10.1, ¥ (consumo de slimento en Ios.,en 350 dias) 87.8, 93.2, 98.0, 89.8, 940, 83.0, 88.3, 824, 84.8, 80.2 X(peso corporal promedio de 50 gallinas, bs) 4.15, 4,76, 5.23, 4.75, 5.13, 4.24, 4.66, 4.41, 4.50, 4.23 Calcular la ecuacién de regresién del consumo Y respecto al peso del cuerpo X. {Cudles el coeficiente de regresion y qué unidad le corresponde? ;Cudl es la interpretaciOn de este coefi- ciente de regtesion? Ejercicio 10.2.2 Demostrar algebraicamente que F(X — XX¥ — 2)= E(k — RY" (Sugeren- cia: Demostrar que cada una es igual a la formula de cilculo). Ejercicio 10.2.3 En un programa de carreras para la conservaci6n de fa salud se tomaron medi- das al final de un afto de X, =tasa de recuperacién card iaca segiin una prueba de Harvard, X. mimero de saltos hasta el agotamiento, X, =cantidad dé colesterol, X, = cantidad de dcido Gri- co y Y= tiempo en minutos: segundos tiempo de varios hombres para correr 1.5 millas, Algu- * nosde los datos son los siguientes: X52 9 STS SS xX 4 © 4 m1 0 SS 3 X, 269-279-248 HB 318284 263M XX 8 6 BW B nN & 6 45 Yo 1:16 12:30 11:30 10/17 L248 14:06 12:02 11:52 x 9 68 3 3 4 9 6 4 4&2 x, 3 dst 2505s X, 228 306, 0364253281 HG 223265 xy 8 0 6 9 % 40 0 2 Yo U:28 13:45 8:18 10:23 12:02 19:45 13:41 10:30 23:11 “Fuente: Datos cortesia de Ardell Linnerud, Universidad del Estado de Carolina del Norte, Raleigh, N.C. Calcular Ia ecuacién de regresién muestral del tiempo de carrera ¥ respecto a cada variable X separadamente, Escribir cada ecuacién con intercepto y en ta forma de la ec. (10.4). ,Cual es la interpretacién del coeficiente de regresién en cada caso? * Datos cortesia de S.C. King, Universidad de Purdue, Lafayette, Indiana. 236 BIOESTADISTICA: PRINCIPIOS ¥ PROCEDIMIENTOS. Ejercicio 10.2.4 En un estudio sobre acumulaciones en suelos forestales, se usaron parcelas de th de acre de un tipo de pino en una cuenca de Wyoming, La variable respuesta registrada es YY = peso de humus en libras por acre, Se usaron varias variables predictoras incluyendo X, ‘area basal en pulgadas cuadradas medida a la altura de la cintura, X, = densidad de arboles, gunos de los datos son K, 3,062 2347 1,948 3.075 2.899 2,138 2,316 1,968 2,827 1,072 x, 80 203307 B97 Stat Y 51916 47022 29945 42,689 43557 34.968 57,129 21,633 68,620 51,417 X, 2804 2.358 2526 2400 2.507 3009 3,766 4070 3,038 3.116 xX, 12 136 97 128 408255 HOB Y 34,008 52.667 48.575 30.793 29.242 38,174 61,653 71.410 61,625 54,180 Fuente: Datas cortesia de James Reynolds, Universidad det Estado de Carolina det Norte, Raleigh, N.C. También ver J. 1, Reynolds y 0. H. Knight (10.9). Calcular la ecuacion de zegresion muestral del peso de humus respecto de cada variable X. Escribir cada ecuacién con intercepto y en forma de desviaciones con respecto a las medias. Cuil es la interpretacién del coeficiente de regresin en cada-caso? Ejercicio 10.2.5 Reynolds y otros (10.8) estudiaron Y = (tasa de fotosintesis)10* de Larrea tridentata y su telaciGn con X , = irradiaci6a, X ; = concentracién de CO, en el ambiente, X 10/X,, ¥ X= resistencia de la hoja al vapor de agua, entre otras variables independientes. Los datos se tomaron en el fitotrén de la Universidad de Duke; algunos de los datos son los siguien- tes: X, 294 190294 S50 $50 2000 $50 580 $50 550 2,000 2,000 X, 665 67 S64 5775775766821 SOS 54S SOD X; 3401 5263 2401 L818 1818 $00 1818 1818 1818 1818 500 $00 X_ 990 948 1868 1816 252 L516 4.707 1,935 4675 2.236 1458 985 Yo MB (31 402731526 1348 4.767 685-360 G1 BIRS 1.530 X, 2.000 2000 $00. $90, 1,200 1,200 1,200 1,600 1.690 400 490 800800 X, S02 Sti 536 536586570 S47 582553575568 5B ST X; $00 500 1250 1,250 833-833-833 6256S 2.500 2,500 1250 1.250 X, 1687 646 1086 998 OL 765 428A 91S LATO SAN 1,802 “SOL 983 Y" {sis 1.567 842 927 1.099 3.086 "910 1.055 937-349 498 ORD 839 Calcular la ecuscion de regresin de la tasa de fotosintesis ( x 10*) respecto a cada una de las variables X. Escribir toda ecuacién con intercepto y como en la ec. (10.4). {Cuil es la inter- Pretacion de la regresion en cada caso? 10.3 El modelo y la ecuacién de regresién fineal Por definici6n, la verdadera regresion de ¥ con respecto a X consiste en las medias de las poblaciones de valores ¥, donde una poblacién est4 determinada por el valor de X, Una linea de regresiOn no tiene que ser recta. En el muestrea, es necesario suponer la forma de linea de Jas medias; de otra manera no seria posible desarrollar un procedimiento de cil- REGRESION LINEAL 237 culo, Hemos supuesto una linea recta o regresin lineal. Tales supuestos generalmente se « hacen con base en la teoria o la experiencia, o aun después de observar los datos represen- tados grificamente. Por facilidad en los calculos, a menudo se escoge una recta como aproximacién cuando se ajusta razonablemente bien en el intervalo de X en cuestida, aun cuando se sepa que la verdadera forma no es lineal. La definicién matemitica de una observacién esté dada por Y= by x $e = a+ BX + & = H+ BX, — X) +5; (10.5) . donde « y B son pardmetros que hay que estimar y X es un pardmetro observable; a repre- senta el intercepto de la poblacion Y, el valor de uy paraX = 0, esto es, ty.9, 6 es lae pendiente de la recta que pasa por las medias de las poblaciones Y. En la ultima forma del* modelo dada en Ia ec. (10.5), con los X medidos a partir de su media, 4 est estimado por- Y. Se supone que jos & pertenecen a una sola poblacién con media Oy varianza o?. Esta varianza es otro pardmetro que hay que estimar. El modelo de regrasion puede ser el modelo F con X fijos, 0 el modelo Il con X alea- torio, Para el modelo I, el investigador selecciona los X, no hay variacién muestral aleato- tia 0 relacidn con ellos, En cambio, los valores de ¥ deben ser aleatorios. La seleccién de los X puede inducir un conjunto especifico de valores o valores que se encuentran simple- ménte dentro de un intervalo deseado. La respuesta a un insecticida bien puede medirse asi mediante una serie especifica de diluciones, mientras que el peso del cuerpo humano puede corresponder a un intervalo de estaturas condicionadas por una descrigcién de la ocupacién. Cuando se consideran valores esperados, se usan los mismos X para definir la tepeticién del muestreo que es su base, Estos X deben medirse sin error, Los valores de la variable independiente, por ejemplo, horas de luz artificial, niveles de temperatura, cantidades de tratamientos y distancias entre plintulas, pueden estar igualmente espaciados o de otra forma conveniente para llevar a cabo el experiment. La medicién de ¥ sin error no es requisito teérico, siempre y cuando que el error de medida tenga una distribucién media conocida, generalmente 0. La varianza observada de los ¥ es, entonces, la suma de la verianza bioldgica u otra varianza en ¥ y la varianza del error de medida. Es importante, naturalmente, mantener al mfnimo los errores de las me- didas. Si se hace una observacion aleatoria de Y para X = X, correctamente identificada, entonces e] observador puede proceder a usar esta informacién con sentido. Sin embargo, si se registra incorrectamente el valor de X, como X; entonces los célculos subsiguientes pueden conducir a conclusiones desorientadoras porque la poblacién de los ¥ esta identi- ficada incorrectamente. La fig. 10.3 debe aclarar esto. Supéngase que ef modelo I es apropiado y que el problema se especifica mas de la forma siguiente. Primero, supéngase que existe. una selacién funcional fundamental entre X y Y, pero que son posibles errores de observacidn. El problema est en-estimar esa relaciéa. Si slo se miden los X sin error, tal como se ve en la fig. 10.4.2, 4, entonces son aplicables los procedimientos de célculo ya expuestos. Hay una sola recta de regresion, la de ¥ con res- pecto aX. 238 | BIOESTADISTICA: PRINCIPIOS Y PROCEDIMIENTOS, t Brew 24 aX (iby WK wre d= 1 ‘ UG, Wye) x xi x br Figura 10.3 Verdadera regresién de Y con respecto aX; ertor de medicién en X;, Segundo, si los X también se miden con error tal como aparece en la fig. 10.4.6, en- tonces se debe visualizar una distribucién bivariante en cada punto sobre [a verdadera recta, Para estimar esa relacién funcional fundamental debe usarse otro procedimiento de célculo; ver Bartlet (10.6) o Natrella (10.7). Tercero, existe una relacién 0 asociacion estadistica entre X y Y. Inicialmente, es apropiada una sola distribucién bivariante en el plano X, ¥. Sin embargo, ¥ es restringida més que aleatotia, tal como se ve en [a fig. 10.4.c. En consecuencia, s6lo hay una regre- sién con sentido por estimar, la de ¥ respecto de X. El error de medicién en Xo en ¥ es probablemente insignificante con respecto al intervalo de los X escogidos o a la variacién aleatoria en Y. Los métodos de este capitulo son apropiados para lo dicho. Para el modelo I, tanto X como ¥ son aleatorios como se ve en la fig. 10.4. Este es el problema clasico de regresiGn bivariante, en el que se supone la normalidad, El mues- treo aleatorio ¢s de individuos en los cuales se efectdan pares de medias. La eleccién de cual ha de ser la variable dependiente la determina e] problema, Son posibles dos lineas de regresiGn la de ¥ respecto X, y la de X respecto de Y. Para la regresién lineal se supone que los ¢ se distribuyen normal e independiente- mente con una varianza comin. Cuando es vilido el supuesto de una varianza comim, se aplica et cuadrado medio det error residual para hacer inferencias probabilisticas validas respecto a Una media poblacional, independientemente del valor de X. Este cuadrado me- dio se calcula a partir de las desviaciones respecto de la recta de regresin, también llama- dos residuos. Si las varianzas no son homogéneas, entonces es necesaria una regresién pon- derada o una transformacién de los datos de tal manera que las varianzas sean homogéneas; REGRESION LINEAL 239 < x L___________—_—__ x (a) Errares de observacién en ¥ (e) Restricciones sobre ¥ “ x x 1b) Errores de observacion on X y ¥ (0) Superficia biveriante (normal) Figura 10.4 Modelos graficos para modelos de regresion, por ejemplo, los entomélogos calculan andlisis prohit basados en porcentajes de mortalidad, donde la varianza es binomial por naturaleza, usan tanto ia transformacién como la pon- deracion. Los datos de las gallinas Leghom podrian provenir de un modelo fijo o de un mode- lo aleatorio, siendo el ultimo una posibilidad real. Necesitamos saber si el peso del cuerpo fue restringido de alguna manera para estos datos. Una vez estimados a y #, es posible estimar la media de una poblaci6n de ¥ sin haber observado uno solo de los individuos. Por ejemplo, no observamos ningin Y para 240 — BIOESTADISTICA: PRINCIPIOS Y PROCEDIMIENTOS X=5.5 Ibs para los datos de las gallinas White Leghom. Sin embargo, estimamos la media de la poblacin de los ¥ para X = $.5 Ibs del peso del cuerpo, usando Ia ec. (10.4) asi 5.5 = 55.26 + 7.69(5.5) = 97.6 Ib de alimentos Como Ia notacjén Ys_5 puede hacer creer facilmente que se ha observado una muestra de los ¥ con X= 5.5 (bs, se acostumbra otra manera de denotar una estimacién de una media poblacional. Usamos Y, 0 simplemente Yo fy. x._ Las estimaciones « y f se escriben como & y 8 ocomoa yb; & alimento y B .69 Ibs de alimento por libra de peso del cuerpo. La solucién del problema de la regresion lineal tiene las siguientes propiedades: = 55.26 Ibs de 1, Fipunto (¥, ¥)se encuentra sobre la recta de regresion muestral. 2. La suma de las desviaciones respecto de la recta de regresién es 0, esto es, > (¥;— Y,) = 0. Una desviacién o residuo asignada entre el valor observado y la estimacién correspondiente de la media poblacional. También, la siguiente suma ponderada es cero: SX {¥— F)=0. 3. La suma de cuadrados de los residuos es un minimo. Esto es, si reemplazamos la recta de regresin muestral calculada como en fa sec. (10.2) por cualquier otra recta, la suma de cuadrados del nuevo conjunto de residuos tendré un valor mayor. Fjercicio 10.3.1 Qué modcio se aplica a los datos del ejetcicio 10.2.1? Fjercieio 10.3.2 Para los datos del ejercicio 10.2.1, jousl es la variable dependiente? ;Cual ¢s la independiente? Considerar el requisite de que “X debe medirse sin error” segiin se aplica a estos datos, Fjercicio 10.3.3 Calcular las diez desviaciones con respecto de la recta de regresién, ejercicio 10.2.1, Demudstrese que la suma de estos diez residuos es cero dentro de tos errares de apraxi macién, Hallar las sumas de cuadrados de las diez desviaciones respecto de la recta de desvia- ciéa. Demnuéstrese que el punto (2, P)esti en la recta de regresion. Ejercicio 10.3.4 ;Qué modelo se aplicaria a los datos del ejercicio 10.2.3 cuando Y se relacions por regresion con X;?, Xz?, X32, Xa? En cada caso, dar alguna justificaciGn de eleccién de modelo, Ejercicio 10.3.5 Repetir el ejercicio 10.3.4 con los datos del ejercico 10.2.4. Ejercicio 10.3.6 Repetir el ejercicia 10.3.4 con los datos del ejercicio 10.2.5. 10.4 Fuentes de variacion en {a linea de regresi6n lineal E] modelo de regresién lineal, ec. (10.5), considera una observacién como la suma de unas media py.y=a+ BX y una componente aleatoria « . Ya que por azar 0 intencional-+ mente se observan valores diferentes de X, intervienen medias de formacién diferentes y contribuyen a la varianza total. Asi, fas dos fuentes de variacion en las observaciones son * REGRESION LINEAL 241. je de las ¥ Fa Feour- Fi Eje de tas X Figura 10.5 Regresion de ¥ con respecto a X; fuentes de variacion ea Y. medias y componentes aleatorias, La variacion atribuible a las medias puede considerarse * atribuible a X ya que X determina la media. En términos de la cegresién muestral, una observacién Y esté compuesta de una media muestral ¥ determinada por la recta de regresin y una desviacion mvestral o resi- dual ¢ = Y — ¥ respecto de esta media (ver fig. 10.5). ¥ mismo consiste en la media mues- tral P, y otra desviacionf — ¥ = b(X—X), esta ultima atribuible a la regresion, El residuo e= Y — Yes una estimacién de las desviaciones aleatorias & y también guede escribirse ey. x. Asi, la ec, (10.4) se convierte en Y-P=(¥- P)4 (¥— %)=O(K - RX) +ey.x (10.6) La suma total de cuadrados no ajustada de los Y puede particionarse de acuerdo? con estas fuentes. La suma de cuadrados atribuible a la media es n¥? = (Y. ¥)?/nsla co-- rrespondiente a la regresi6n eg * (X — X)? =[}, (X ~ XVY — PID (X — XPiy~ la correspondiente al azar es). e¥. x la cual se calcula como una suma residual de cuadra- dos. La ecuacién (10.7) se deriva de Ia ec. (10.6) y es comparable a su contraparte de poblacién, ec. (10.5). Y= ¥sb(X —X)+ey.x (10.7) Por la ecuacién (10.7) puede demostrar que UvtanP ary (x- XP + Lee es ee ¥ + SC residual. Esto pr ay 242 BIOESTADISTICA: PRINCIPIOS Y PROCEDIMIENTOS La suma de cuadrados residuat se calcula por diferencia. Por ejemplo, 135.604 = 90.836 + 44.768. La suma total de cuadrados de ¥, ¥ (¥ — Y)? = 135.604, se ha particionado en una suma de cuadrados atribuible a la regresion y una porcién no explicada, la suma resi- dual de cuadrados, La suma de cuadrados atribuible a la regresién respecto de X puede escribirse en una de las formas siguientes ny so(r|xy = = SH Oh =o D(X -XYY— ae L(K- RP HD (P- PF de las cuales la primera (Iéase como suma de cuadrado de ¥ dado X) dice que estamos tra- tando con una suma de cuadrados de ¥ atribuible a variacién de X;la segunda es la forma mis usada para los calculos, Ia tercera y fa cuarta son interesantes, pero snuy posiblemente producen errores de redondeo si se usan para hacer célculos; y la Gltima no es préctica. Esta cantidad tiene un solo grado de libertad. La suma residuat de cuadrados se encuentra por diferencia y tiene — 2 grados de libertad; el cuadrado medio de los residuos 0 varianza respecto de la regresién es wna esti- macién del error experimental, la varianza comin a”, Ejercicio 10.4.1 Caleular SC(Y1X) = CM(Y1A) y el cuadrado medio residual pata los datos de a) Ejercicio 10.2.1 4) Ejercicio 10,2.3, cuatro regresiones €) Ejercicio 10.2.4, dos regresiones ad) Fjercicio 10.2.5, cuatro cegresiones, 10.5 Valores de regresion y valores ajustados Los valores determinados por la ecuacién de regresion, valores de regresion, P son estima- ciones de parametros poblacionales, esto es, de y.x= 2+ PX, Las diferencias entre Estos y los valores observados son estimaciones de la variacién en Y, que no estd explicada por la variacién en X. Los residuos observados se presentan en la tabla 10.2 para los datos de las gallinas White Leghorn de la tabla 10.1, La suma de sus cuadrados es de 44.22, que difiere del valor encontrado en la seccién anterior, 44.768 debido a errores de redondeo. El investigador cuidadoso siempre examina las observaciones individuales. En un problema de no regresion, estara particularmente consciente de las observaciones que pre- sentan las més grandes desviaciones con respecto a la media, En un problema de regresin, se consideran desviaciones de la regresion para una informacion comparable. ‘Los residuos pueden ser particularmente titiles cuando se representan respecto de X. Si tienden a ser del mismo signo en ambos extremos de la gréfica y de signos opuestos en ¢1 medio, entonces queda comprobado que ta respuesta 10 es lineal. Si sus magnitudes cambian en manera regular, por ejemplo, aumentado con X, entonces hay evidencia de heterogeneidad de la varianza y, posiblemente, también de su naturaleza. Los valores ex- tremos o alejados pueden detectarse sin gréfica. La representacién grifica respecto de REGRESION LINEAL 243 Tabla 10.2 Consumos de regresién, residuos y consumos ajustados, para los datos de las gallinas White Leghorn t Y ¥ fae ¥~Foog 93.56 + ey x Consume de Consumo de —_Desviaciones ve Consumo Pesodel alimento. —regresién. «de In. Residuos ajustado cuempolb = Ib bb regresién lb al cuadrado. Ib 46 374 906 35 1225 90 Sa oBF 45 ahs 1.96 22 48 39.8 92.2 24 5.76 m2 44 914 89.1 423 3.29 989 59 99.5 100.6 mi L2n 924 47 924 914 +07 0.49 94,3 SA 958.5 945 +10 1.00 946 52 99.3 95.3 +40 16.0 976 49 944 929 +05 0.25 340 51 945 5 935 935.6 vO 422 938.7 + Los calculos para esta tabla se hicieron con mas decimales que los indicados y se redondearon los resultados, otras variables, tales como el tiempo, puede ser titil en el estudio de la naturaleza de la respuesta. A los valores ajustados, ec. (10.9), se les ha eliminado ta contribucién debido a la regresién, Es como si cada Y se moviera paralelamente a la recta de regresion muestral hasta por encima de X y se midiese entonces como un valor nuevo ajustado de Y. La iilti- ma columna de la tabla 10.2 contiene los consumos ajustados, que son los esperados si todas las gallinas tienen un peso del cuerpo de Y= 4.98 Ib. Estos se obtienen mediante la adicion de los residuos a Y = 93.56 Ib. ¥ ajustado = ¥+e,,4 = Y¥— A(X ¥) (10.9) La dltima forma es conveniente si no importa tener que calcular los residuos; restar la parte de la observacién atribuible a regresién, esto es, b(¥ ~ X), La media de los ¥ yla desviacién aleatoria se dejan (ver fig. 10.5). Las diferencias entre Jos valores ajustados son idénticas a las diferencias entre residuos: solamente hemos cambiado su localizacién. El uso de los valores ajustados reemplaza el valor esténdar mévil X, el valor de regresiGa, por un valor estandar fijo, el valor medi Las comparaciones entre medias sjustadas son muy itiles, Supéngase que se dis- pone de dos grupos de observaciones, por ejemplo, los datos para cada uno de los aftos, dos localidades 0 dos tipos de vivienda. Puede ser pertinente comparar las medias de grupo si se ajustan a un valor comin X, Serd necesario suponer un coeficiente de regre- sion comin, un supiesto que se puede probar come Ia hipatesis de coeficientes de regre- sign homogéneos. Los procedimientos para comparar medias ajustadas se dan en el cap. 17 sobre covarianza, 244 — BIOESTADISTICA: PRINCIPIOS Y PROCEDIMIENTOS Ejercicio 10.5.1 D. Kuesei, Universidad de Wisconsin, determina el porcentaje promedio de sus- tancias sélidas insolubles en alcohol Y y las lecturas dei tenderdmetro X para 26 muestras de arvejas de Alaska tamizadas. Las observaciones son Y, X: 7.64, 72; 808, 78; 7.39, 81; 7.45, 81; 9.56, 81; 7.96, 82; 10.81, 83; 10.70, $3; 10.56, 89; 11,75, 93; 11.56, 96; L174, 97; 13.72, 99; 15.08, 103, 16.26, 112; 16.79, 115; 15.40, 118; 15.90, 122; 16.30, 122; 37.56, 133; 17.38, 135; 17.90, 139; 18.80, 143: 19.90, 145; 20.40, 161; 22.01. 168 Te = FP = 1377462 F(X ~ RYY~Pyw 29250 Y (y— vy = 49.58 Representar grificamente las 26 pares de puntos. Calcular is ecuacién de cegresion mues- tral de ¥ respecto de X. {Enqué unidadesde medida se expresa 6? Trazar esta recta en la gritica. Obtener informacién respecto a como se hacen las lectruas del tenderémetro y comentar sobre el supuesto referente a medir X sin error. Como se probaria la hipdtesis nula de que no existe vatiacién de ¥ atuibuible a la variacion de X? Ejercicio 10.5.2 Calcular Jos valores de segresién sSlidos insolubles de alcohol (para X =78 y ‘X = 112) y las desviaciones con respects a la regresion o residues. Calcular los valores ajustados: de ¥ para estos dos valores de X y compararios Kjercicio 10.5.3 Represeatar graticamente los pares de observaciones dados en el sjercicio 10.2.1. Trazar Jas roctas de regtesion en la grdfica, Calcular los valores de regresion para X= 4.80 y X =5.13, Encuentre los valores correspondientes de bX ~ X) y las desviaciones com res+ pecto a Ja resresiéa, o residues, Ejercicio 10.5.4 Repetir el ejercicio 10.5.3 con los datos del ejercicio 10.2.3. Para X, = 35 y X= S4, Para X;, use X,= 60 y X,= 125. Para X5, use X= 248 y Xy~ 303, Para Ky, use X,= Sy X_= 70. Bjercicio 10.5.5 Repetir el ejercicio 10.5.3 con los datos del ejercicio 10.2.4. Para X, = 2.400 y X= 3075, Para Xz, use Xy = 79 y Xy = 270, Ejercicio 10.5.6 Repetit el ejercicio 10.5,3 con los datos del ejercicio 10.2.5, Para X= 1,200 y X, = 2000. Para Xz, use Xj = 545 y X, = 05. Para X,, use X, = 1935 y X= 252, 10.6 Desviaciones estdndar, intervalos de confianza y pruebas de hipétesis Una estimacién insesgada de [a verdadera varianza en torno a (a regresién la da el cuadra- do medio de los residuos con (1 — 2) grados de libertad. Se denotas?. xvse define como LPP EPP I RY - PPK FP 2 2 shiy= rex a-2 n— (10.10) para los datos de White Loghorn. A su raiz cuadrada se la lama erzor esténdar o desvia. cién esténdar de Y para X fijo o la desviacién estandar de Y manteniendo X cqnstante. REGRESION LINEAL 245 Efecto de la variacion en solo ¥ Efecto dela variacion Cn slab Banda de confianza x Figura 10.6 Efecto de Ja Variacién muestrai sobre las estimaciones de regresién de medias poblaciona- les, para un conjunto fijo de X, La figura 10.6 muestra que una sola desviacién estandar no se aplica a todos los F, sino que debe depender del valor de X que determina la poblacién ¥. Si consideramos muestras de valores de Y para un conjunto fijo de valores de X, entonces X es una cons- tante mientras que ¥ y & son variables. La variacién de Y sube o baja la recta de regresion paralelamente a si misma el efecto es aumentar o disminuir todas las estimaciones de las medias para un valor fijo. La variacién de 6 hace girar ta recta de regresin en torno al punto X, F, y el efecto sobre una estimacion depende de la magnitud de ia X — X¥ , que determina la poblacion Y. La variacién de b no tiene efecto en [a estimacion de la media si X =X, pero en otro caso lo incrementa en proporcién ala magnitud de X — X. Esta se ve facilmente en la ecuacion que estima la media poblacional, esto es, Y = ¥ + b(X — X). Una desviacién esténdar aplicable a una estimacién de una media da margen a la variacién tanto en yi como en b paral la distanciaX — X.La varianza de ¥ es simplemente una estimacién de o}.y/n 0 sea, s}.y/n. El coeficiente de regresin b es una funcién * fineal de los Y. En particular, ) (X, — X)¥;— ¥) = 5 (X,— X)¥, nos permite escri- bir Ee 2 -F) DRY be RE EARP 5 AX) =Ly map Ry (20.11) 246 — BIOESTADISTICA: PRINCIPIOS Y PROCEDIMIENTOS. Ahora b se expres como una funcién lineal L, tal como se define en la ec. (5.18) con 6 = (Xi— RYE (X,— XP; & es también una comparacién, tal como se definis en la ec, (8.3). Distingase entre los dos usos de i. En el numérador, i especifica la obsecvaci6n i¢sima; en el denominador es un indice de sumatoria, f= 1, ..., n. Ahora fa varianza se obtiene mediante la ec. (5.23); toda ay = 0, i # j, ya que el muestreo es aleatorio. La va- rianza de & es ta varianza de a}. y multiplicada por la suma de cuadrados de los coeficien- tes de los ¥. Asi, estimamos la varianza de & por = soap (10.12) La varianza requerida de una estimacién, Y= ¥ + 6(X — X),de una media pobla- cional esta dada por la suma de las varianzas de ¥ yb(X — X),ya que la covarianza entre ¥ y bes cero. [El iiltimo hecho no es evidente, pero puede deducirse al examinar los coeficientes de los ¥ en ¥ y b. Para ¥, todos son iguales a Ja constante 1/1 y para b varian, pero tienen una suma igual a cero. Usese la ec. (8.7) para comprobar la ortogonalidad | Esta varianza esta dada por 1 (x - XP destalt +See (20.13) Esta varianza aumenta aj aumentar X ~ X. Si el f tabulado multiplicado por la desviacion. estdndar se representara junto con la recta de regresién, formaria una banda como se ve en la fig, 10.6, Esta banda es aplicable punto por punto, y la tasa de error y el coeficiente de confianza asaciados son del tipo de comparacién o puntual. Una banda de confianza para la recta de regresin, en fa cual se dice que cae la recta de regresion entera, exige que la desviacion tipica implicada por la ec. (10.13) se multipli- que por \/2F,,-2 para el F tabulado. En este caso, son aplicables una tasa experimen- tal de error y un coeficiente de confianza. Para construir un intervalo de confianza para la media poblacional, es aplicable la varianza dada en la ec. (10.3) y el intervalo de confianza del 95 por ciento es Iya) = P+ X ~ 2) 4 boas sy. x (20.14) donde f es la f de Student para n—2 grados de libertad. Obsérvese que 7 + b(X — X}pue- de reemplazarse por a + bX. Para los datos de las gallinas White Leghorn, un intervalo de confianza de fa media poblacional para X = 5.5 Ib es IC (uy. yas.s) = 93.56 + 7.6915.5 ~ 4.98) + 2306(2.37) | S + ay = 976429 = (94.7, 100.5) Ib REGRESION LINEAL 247 Para una banda de confianza de 95 por_ciento en toda la recta de regresién, se re- quiere el multiplicador. \/2Fo 95 (2,8)'= ./2(4.46) = 2.99. Notese que este valor de F de una cola genera una banda. Los limites sobre la banda cuando X'= 5.5 son oF 536 = 976 + 3.7 = (93.9, 101.3} Ib 93.56 + 7.69(5.5 — 498) + 2.99(2.37) Estos limites estén sélo ligeramente mas all de la recta de regresién que los de la estimacién de los puntos del puntual ply. x=s,5- Sin embargo, la anchura de la banda ha pasado de 2(2.9) = 5.8 a 2(3.7) = 7.4 Ibs. En promedio, el 95 por ciento de tales bandas contendran toda la verdadera recta de regresion. A veces es deseable construir un intervalo de confianza para B, el parémetro de re- gresion poblacional estimado por b, Este intervalo depende de s? tal como se ve en la ec. (10.12), y esta dado por (CB) = bk Tes (915) Para los datos de White Leghorn, tenemos 2.306(2.37) = 7169+ = 7.69 +441 10) = 18 Fig 18 = 3.28, 12.10 Concluimos que f cae entre 3.28 y 12.10 Ibs de alimento por libra de gallina. Obsfrvese al efecto de ta pequefa Y (X — X)* sobre los limites de f. Bl procedimiento que nos lleva a esta conclusion es tal, que, en promedio, el 95 por ciento de tales conclusiones son correctas, Cualquier hipétesis nula pertinente acerca de una media se puede probar. Para pro- bar la hipétesis nula de que la media de la poblacién de los ¥ para los cuales X = Xges Hy. xq célculese t asi: pe te = tg (10.16) Vsi-al(l/n + Mo — X)7E (X — FF] Esta se distribuye como la ¢ de Student con — 2 grados de libertad. Para probar la hipdtesis nula que f = fo, calctilese £ como . =P oho (10.17) Vian (k -XP 248 — BIOESTADISTICA: PRINCIPIOS ¥ PROCEDIMIENTOS Esta se distribuye como Ja t de Student con (2 — 2) grados de libertad. La prueba F de ta tabla 10.3 es prueba de la hipstesis nula § = 0 o de la hipdtesis nula de que fa variacion en X no contribuye a Ja variacion de Y. Ejercicio 10.6.1 Para los datos det ejercicio 10.2.8, encomtear sy. x, 33.59, ¥ en X * 5.00, en X % 5,00, el intervalo de confianza do 95 por ciento paca la media poblacional en X = 5.00, ¥ los limites de fa banda de confianza de 95 por ciento respecto a la verdadera cecta de regresion en X = 5.00, (Recudsdese que los infervalos de confiaaza tienen una tusa de error por comparacion © puntual, niienttas que las bandas de confianza tienen tasas experimentales de error, Calewlar y comparar las fongitudes del intervalo de confianza y de la bunda de conflanza en X=5.00, Pruebe la hipstesis nula de que 6 = 0. Bereicio 10.6.2 Repetir el cjercicio 10.6.1 com los datos del eercicio 10.2.3, Para X usar X35, Usar Xy = 60. Usor X, = 248, Usar Xy = 60, Ejercicio 10.6.3 Repetir el cjercicio 10.6.1 con los datos del ejercicio 10.2.4, Para X,usar X= 2.400, Usar X, = 79. Ejercicio 10.6.4 Repetir el ejercicio 10.6.1 con los datos del ejercicio 10.2.5. Para X, usar Xy = 1,200, Usar X, = 545, Usaz X= 1,250, Usar X, = 1,935. Ejercicio 10.6.5 Repetir el ejercicio 10.6.1 con los datos del ejercicio 10.5.1, Para X, usar X= 8. 10.7 Control de Ja variacién por observacianes concomitantes Las fuentes de variacién que afectan a una variable no’ siempre son controlables mediante un plan experimental, Cuando el plan no puede efectuar el control, es posible medir algunas catacteristicas de fa fuente de variacién. Por ejemplo, {a cantidad de alimento consumido por las gallinas es una variable de importancia econémica. Seria de esperar que se viera afectada por otras variables medibles, tales como el peso del cuerpo y el niimero y peso de los huevos puestos. Para los datos de la tabla 10.2, el peso del cuerpo facilmente explica la mayor variabiidad en el alimento consumido. La importancia econémica es obvia. Ahora usamos los datos de la tabla 10.1 para ilustrar el control estadistico de una fuente de variabilidad mediante el uso de una obseryacién concomitante. La desviacion estandar de Y antes del ajuste de la variacién en Xes ./3. (Y — Y¥'/(a — 1) = ./135.604/9 = 3.88 Ibs. Hemos visto que luego de ajustarla es sy. x = 2.37 Ibs. La parte de la suma de cuadrados de Y atribuible a variacion en X la da la ec. (10.18), ver también la ec. (10.8). Reduccién en SC = SC (Regresién = SC (| 4) = Ree (1.812) = . 10.18) 1.536 90.836 ( )

You might also like