You are on page 1of 559
Estadistica para Investigadores Disefio, innovacién y descubrimiento Segunda edicién Registro bibliogrifico (Isnp) Box, George E. P. [Statistics for Experimenters: Design, Intovation, and Discovery. Expafol] Estaistica para Investigadores:diseho,innovacion y descubrimiento / George B. P. Box, J. Stuart Hunter, William G. Hunier; version espafola iraducida por Dr. Navior Tomas Morer;revisada por Dr Emosto J. Barrios Zamuio. 2" od. Barcslona = Revert, 2008 XVII 639. sil. 24.em Traduceion de: Statistics for Experimenters : Design, Innovation, and Discovery, ~ Indice DI B-34970.2008. «ISBN 9TR-84-291-5044-5 1 Probabitidad y estadistica matematica. 1 Hunter, | Stuart Il Hunter, Wiliam G. IL Tomas Morer, Xavier, trad. IV, Barrios Zamudio, Emesto J, rev, V, Titulo, 319.2 Titulo de la obra original: Statistics for Experimenters Design, Innovation, and Discovery Edicion original en lengua inglesa publicada por John Wiley & Sons, Inc., Hoboken, New Jersey ‘Copyright © 2005 by John Wiley & Sons, Inc. All rights reserved. Versién espaftola traducida por Dr. Xavier Tomas Morer Profesor Catedratico de Estadistica Institut Quimic de Sara Universitat Ramon Liull, Barcelona Revisada por Dr. Ernesto J. Barrios Zamudio Fisico-Matematico, IPN. Maestro en Ciencias, University of Wisconsin-Madison, EUA. Docior en Estadistiea, Unive Propiedad de: EDITORIAL REVERTE, S. A. Loreto, 13-15, Local B (08029 Barcelona. ESPANA Tel: G4) 93 419 33.36 Fax: (34) 93 419 5189 reverte@reverte.com www revertecom, Edicion en espanol: © Bditorial Reverté, S. A., 2008 ISBN: 978-84-291-5044-5 Reservadas tados los derechos. La reproduceiéa total o parcial de esta obra, por cualquier medio o procedimiento, comprendidos la reprografia y el tratamiento informitico, y la distribucién de ejemplares de ella mediante alquiler o préstamo publicos, queda rigurosamente prohibida sin la autorizacion escrita de los titulares de! copyright, bajo las sanciones establecidas por las leyes. Impreso en Expaita - Printed in Spain Deposito Legal: B-34970-2008 Inpresioa y encuadernaciéa: Liberdiples, 8. L, U Indice 1.3. El pr 1.4. Una tipica i 2.10. Estimacién de pardmetros _. XIV inpice Apéndice 2A. Media y varianza de una combinacién oP i 58 distribuciones de 3.1. Conju Antos y distribuciones de referencia relevantes 3.2. Diseiio de comparacion ‘de parejas aleatorizadas: ejemplo ea sre frecencias (recuentos por unidad): distribucién de Poisson _ 3.8. Tablas de contingenei: ruebas de asoci: Apéndice 3A. Comparacién de la robustez de las pruebas para comparar dos tratamientos Apéndice 3B. Calculo de la distribucién de referencia a ‘partir de datos anteriores. 110 113 4.5. Disefios balanceados de bloques incomplet Apéndice 4. Ideas sobre el ANOVA grifico_. 166 Apéndice 4B. Algunos cuadrados latinos, cuadrados : grecolatinos e hipergrecolatinos titiles ..............+0 167 s de tres factores (variables) sobre de una pelicula 3 inpice, xy 5.3. Ejemplo 2: los efectos de tres factores sobre tres (5.12. ‘Trabajar con mas de una respuesta: un experimento sobre ‘comida para animales 193 "5.13. Disefto factorial 2*: estudio del desarrollo de un proceso 199 5.14. Andlisis mediante grificos de probabilidad normal y_ Capitulo 6 Diseiios fuctoriales fraceionados s 6.1. Efectos de cinco factores sobre seis propiedades de una —— 162. B ene de un nuevo producto, cuatro inert en ‘ocho ensayos. - Disefio a columnas.. XVI inpice 6.10. Aumento de la resolucién de un diseio de Il a IV por plegamiento .. 6.11. Disefios con diceistis experimentos 6.12. Media fraccisn nodal 2 ejemplo del reactor. 257 6.14, Diseiio nodal 2!°-"', Sesenta y cuatroava fraccién de un loadin es 6.16, Eliminacién de los efectos de bloques ....2.2::.:10 271 Capitulo 7 Diseiios fraccionados adicionales y su andlisis 306 Apéndice 7A. Detalles téenicos Apis 7. Au Gis garcia eprom ara 1o : ‘disefios PB 305 Apéndice 7C. Disefios ortogonales de Hall 310 Referencias y lecturas adicionales ...... 313 Capitulo 8 Diseiios factoriales y transformacién de datos 811. Disefio factorial) de dos factores. -varianza y transmisi6n de error. 9.2. Disefios split-plot o de lotes subdivididos 9.3. Estimacién de los componentes de Ja varianza_.. 9.4, Transmision de ¢r70r ote neste nenettnnennnenene 353 inpice svn Capitulo 10 Minimos cuadrados y la necesidad de los disefios de experimentos 410 A s cua _ 416 Apéndice 10C. Anilisis de factoriales, parciales y otros 418 Apéndice 10D. Minimos cuadrados ponderados y sin ponderar 7 Referencias y lecturas adicionales..-......-.. Capitulo 11 Modelado, geometria y disefio de experimentos _. 437 11.1. Algunos modelos empiricos .. 441 112. Algunos disefios experimentalesy la funcion de informacisn del disefio. .. «447 11.3, {Esta suficientemente bien estimada la superficie de respuesta? .. 453 [i strap e iseno secuencial 454 Anilisis canénico ... 461 Referencias y lecturas adicionales 483 Capitulo 12_Algunas aplicaciones de los métodos dé superficie de respuesta . 489 12.1. Experimentacién iterativa para la mejora del disefio de un producto. 489 12.2. Simplificacién de una funcién de respuesta mediante 12.3. Deteccién y explotacidn de espacios de factores activos c inactivos para datos con multiples respuestas_...... 509 12.4. Exploraci6n de espacios de factores canénicos_. 513 12.5. Del empirismo al mecanicismo . 518 12.6. Aplicaciones de la metodologia de superficies de respuesta... 526 Apéndice 12A. Varianza media de § 527 Apéndice 12B. xvan inpice Capitulo 13_Introduccién al disefio de productos y procesos robustos 539 3.1. Robustez al entorno- 539 13.2. Robustez a los componentes de variacion 549 wemaitica para la |. Selecci6n de los criterios Referencias y lecturas adicionales Capitulo 14 Introduccién al control de procesos, pronésticos series temporales z 565 14.1. Supervisién de procesos 565 14.2. Media mévil ponderada exponencialmente . 569 14.3. El gréfico CUSUM 574 14.4. Ajuste del proceso ........ 576 14.5. Una breve visién de algunos modelos de temporales y aplicaciones .............5 585 14.6. Utilizacidn de un modelo para hacer un prondstico ... 588 14,7._Andlisis de intervencién: ejemplo de la contaminacién atmosférica en Los Angeles _.. 593 R Rc ise ie 505 Capitulo 15. Proceso en operacién evolutiva 599 15.1, Masde un factor .. 602 15.2. Multiples respuestas_...... 606 15.3. El comité del proceso en operacién evolutiva, 607 Referencias y lecturas adicionales . 608 SRR istcccasacnarcanrceamias icaicaasiaecmmac ast icici aceasta ON aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. 1.1 EL PROCESO DE APRENDIZAJE 3 Los humanos tenemos un cerebro bilateral, especificamente disefiado para rea- lizar este tipo de continua conversaci6n deductiva-inductiva. Aunque este proceso iterativo puede conducir a una solucién de un problema, no se debe esperar que la naturaleza de Ja soluci6n, o el camino que ha seguido para alcanzarla, sea nico. Un ejemplo quimico La quimica Rita Stoveing” tuyo la siguiente idea: Modelo A causa de ciertas propiedades de un catalizador recientemente descubierto, su presencia en una determinada mezcla de reaccién probablemente podria inducir a que un compuesto quimico A se combinara con otro compuesto B para formar, con un alto rendimiento, un valioso producto C. Deduccién _ Rita tiene una hipétesis tentativa y deduce sus consecuencias, pero no dispone de los datos para verificarla o rechazarla. ‘Tras largas conversaciones con colegas, una cuidadosa consulta bibliografica y biisquedas adicionales con el ordenador, sabe que nadie ha realizado dicha reaccisn. Por lo tanto, decide efectuar algunos experimentos apropiados. Basdndose en sus conocimientos de Quimica, leva a cabo un experimento en condiciones de reaccién cuidadosamente seleccionadas. En particular, supone que una temperatura de 600°C es un valor adecuado para realizar el ensayo. Datos El resultado del primer experimento es decepcionante. El esperado producto C es un liquido incoloro ¢ inodoro, y lo que ha obtenido es un producto negro y alquitranado que contiene menos de un 1% del esperado producto C. Induceién En este momento, el modelo inicial y los datos no concuerdan. Ese problema tiene preocupada a Rita y por la noche esta algo taciturna con su esposo, Peter Minerex; pero a la mi guiente, en la ducha, empieza a pensar lo siguient producto C primero se haya formado con un gran rendimiento, pero posteriormente se haya descompuesto. Modelo La teorfa sugiere que las condiciones de reaccién fueron demasiado severas. Deduceién Una menor temperatura habria conducido a un rendimiento satisfactorio de C. Rita decide hacer dos nuevos experimentos, en el primero reduce la temperatura de reacci6n a 550°C, y en el segundo, a 500°C. Datos El producto obtenido en ambos casos es mis claro y menos alquitranado. El experimento realizado a 550°C produjo un 4% del producto esperado C, y el realizado a 500°C, un 17 % Induccién A partir de estos resultados y de sus conocimientos tedricos sobre este tipo de reacciones, Rita decide que podrfa continuar la Adivina por qué se llama Rita Stoveing? 4 1 CATALIZAR LA GENERACION DEL CONOCIMIENTO experimentaci6n no s6lo variando la temperatura sino también cambiando otros factores (como concentracién, tiempo de reacci6n y cantidad de catalizador) y estudiar otras caracteristicas del producto (por ejemplo, nivel de las diferentes impurezas o la viscosidad).. Para evaluar de forma econémica este tipo de sistemas complejos, Rita tendré que utilizar el disefio de experimentos y el andlisis estadistico. Mas adelante en este texto se explicara cémo continuar la investigaci6n utilizando herramientas es- tadisticas. Ejercicio 1.1. Describir un ejemplo real o hipotético de aprendizaje iterativo en su campo de trabajo (ingenieria, agricultura, biologia, genémica, educacién, medi- cina, psicologia, etcétera). Un ciclo de retroalimentacién En la figura 1.2 se muestra la iteracién deductiva-inductiva como un proceso de realimentaci6n. A la izquierda del diagrama esti representada como M, la idea (hipétesis, modelo) inicial. Por deduccidn considera las consecuencias esperadas de Mj; es decir, qué puede ocurrir si M, es cierto y qué puede ocurrir si M; no se cumple. También deduce qué datos necesita para inyestigar M,. El plan (disenio) experimental elegido se representa por un marco a través del cual se pueden ver al- gunos aspectos del estado real de la naturaleza. Tenga en cuenta que, cuando realiza un experimento, el marco lo selecciona usted” (es su mano sujetando el marco). Los —~— Estado real do la naturaleza Andisis con Mitty Mi" Noam, Inauccén «—¥7 ce 2) Peden ~~ __[Consecvoncas de M, Figura 1.2. Soluci6n iterativa de un problema como un ciclo de retroalimentaci6n. * Naturalmente, esto no es cierto para los datos obtenidos por easualidad sobre los que no se control. ne ningin 1.2 CONSIDERACIONES IMPORTANTES 5 datos obtenidos representan algtin aspecto (aunque no siempre sea un aspecto de interés) de la realidad enmascarado por un mayor o menor “ruido”; es decir, por el error experimental. Se puede comparar el anélisis de los datos con las consecuen- cias esperadas (deducidas) de M;. Si concuerdan, el problema esta resuelto. Si no concuerdan, la forma en que discrepan le puede permitir descubrir c6mo modifi car su idea inicial M,. Si utiliza los mismos datos puede considerar anilisis alter- nativos, asi como posibles modificaciones de! modelo original M', M"" ... Puede resultar evidente que su idea original sea equivocada o que al menos necesita ser considerablemente modificada. En tal caso, ahora podré postular un nuevo mode- lo M>. Esto requeriré la seleccién de un disefio experimental nuevo o aumentado para descubrir aspectos adicionales y posiblemente diferentes de la realidad. Todo ello puede conducir a una solucién satisfactoria del problema, o alternativamente proporcionar pistas que indiquen la mejor manera de proseguir la investigaci6n. 1.2. CONSIDERACIONES IMPORTANTES Conocimiento del problema Tenga presente la importancia del conocimiento del problema para considerar y explorar modelos provisionales y para saber dénde buscar ayuda. El camino hacia la solucién de un problema no es tinico Cuando por primera vez Peter Minerex eché en falta su coche pudo facilmente haber reaccionado de forma diferente. Por ejemplo, pudo haber telefoneado inme- diatamente a la policia y de este modo iniciar diferentes (aunque quizé no tan efec- tivos) caminos de descubrimiento. De forma similar, en la anterior investigacién quimica, otro investigador, tras haber estudiado los resultados discordantes, podria haber decidido explorar una ruta quimica completamente diferente para obtener el producto deseado. El objetivo es converger hacia una soluci6n satisfactoria, aun. que el punto de partida y el camino (y algunas veces la naturaleza de la solucién) sean diferentes para los distintos investigadores. El juego de las “veinte preguntas” ilustra tales consideraciones. El objetivo del juego es identificar un objeto desconocido haciendo no mas de 20 preguntas, cada una de ellas sélo tiene una de dos posibles respuestas. Supongamos que lo que se ha de adivinar es el nombre del escritor colombiano Gabriel Garcia Marquez" y la clave inicial es animal o vegetal. Ante esta pregunta inicial, un equipo habil puede proceder de la siguiente forma: EQUIPO A Pregunta Respuesta {Animal o vegetal? Animal {Racional? Si (Hombre o mujer? Hombre {Vive actualmente? Si * N, del T. En el original et objeto a adivinar era el sombrero de copa de Abrabam Lincoln, Un latino dificilmente kabria adivinado lo del sombrero. Las preguntas son por tanto adapiadas al contexto, 6 1 CATALIZAR LA GENERACION DEL CONOCIMIENTO {Europeo? No jAmericano? Si {De América del Nort No @Centroamericano? No {Futbolista? No (Pertenece al mundo de la cultura? Si (Relacionado con la musica? No iEscritor? Si {Juan Carlos Onett No {Ernesto Sébato? No iArgentino? No {Mario Vargas Llosa? No {Gabriel Gareia Marquez? Si Pero otro equipo, entrenado en el juego, seguramente podria haber seguido un ca- mino diferente. Por ejemplo: EQUIPO B Pregunta Respuesta cAnimal o vegetal? Aninval cHombre 0 mujer? Hombre iVive? Si cAmericano? Si {Relacionado con la masica? No Futbolista? No {Literato? Si (De Sudamérica? Si iPervano? No {Premio Nobel? Si {Gabriel Garcia Marquez? Si El juego sigue el proceso iterative mostrado en las figuras 1.1 y 1.2, y el “disefio” es la seleccién de las preguntas. La conjetura a cada etapa del proceso, refinada progresivamente, conduce a la seleccién adecuada de una pregunta con nuevos datos que a su vez sugieren una adecuada modificacién de la conjetura. Los dos equipos A y B siguen diferentes caminos, pero ambos llegan a la solucién correcta, dado que los datos en que se basaron eran los verdaderos. Las cualidades necesarias para jugar este juego son: (a) el conocimiento del tema (en este caso el juego) y (b) el conocimiento de la estrategia, Respecto a la estrategia, es bien sabido que en cada etapa se plantea una pregunta que divida os objetos no eliminados previamente en aproximadamente dos mitades equipro- bables. En este ejemplo ambos equipos trataron de hacerlo con preguntas como “Hombre o mujer?” o “,Europeo 0 americano?”* © Mediante el juego de las 20 preguntas es posible adivinar una palabra sobre un diccionario que conten: ‘84 un millon de palabras. Las preguntas empiezan: “;La palabra esta en la primera mitad del diccionario © en la segurda?”, Si la respuesta es por ejemplo “En la primera mitad”, la siguiente pregunta es “Y ahora, gen la primera mitad o en la segunda”, Y asf sucesivamente, Observe que 2% 5 10°. 1.3 EL PROBLEMA DEL INVESTIGADOR Y LOS METODOS ESTADISTICOS 7 La estrategia de este juego es muy similar a los métodos estadisticos en in- vestigacién cientifica. Observe que sin conocimiento de la estrategia siempre es posible jugar, quizd no demasiado bien; mientras que sin conocimiento del proble- ma resulta absolutamente imposible hacerlo. No obstante, observe que es mucho mejor utilizar ambos, un buen conocimiento del problema y una estrategia adecua. da, Andlogamente es posible realizar una investigaci6n sin estadistica, pero resulta imposible realizarla sin conocimiento del problema. Sin embargo, el uso de méto- dos estadisticos acelera la convergencia a la solucién, y de esta forma un buen investigador se convierte atin en un mejor investigador. 1.3. EL PROBLEMA DEL INVESTIGADOR Y LOS METODOS ESTADISTICOS Las tres fuentes de dificultad a las que se enfrenta el investigador son la compleji- dad, el error experimental y la confusién entre correlacién y causalidad. Complejidad En la experimentacién para el descubrimiento 0 la mejora de un proceso’ por lo general es necesario considerar simulténeamente la influencia de varias “variables de entrada”, tales como temperatura, velocidad de alimentacién, concentracién y catalizador sobre un conjunto de “variables de salida”, tales como rendimiento, contenido en impurezas y coste econémico. Las variables de entrada controlables se denominan factores y las variables de salida respuestas. Si se estudia como mejorar un proceso, la primera pregunta es: “Qué hace qué a quién?” Con & factores y p respuestas existen k x p posibilidades que se han de consi- derar. Ademds, mientras que un determinado conjunto de factores (por ejemplo, temperatura y presi6n) pueden provocar un cambio en una respuesta (por ejemplo, rendimiento), otro conjunto de factores, similar 0 diferente al anterior (por ejem- plo, temperatura y concentracién) puede influir sobre una respuesta diferente (por ejemplo, pureza). Entonces resulta necesario llegar a un compromiso entre un alto rendimiento satisfactorio y una pureza adecuada. Asi mismo, varios factores pue- den interactuar en su influencia sobre una respuesta determinada. Por ejemplo, el cambio en el rendimiento provocado por un determinado cambio de la temperatura puede a su vez ser distinto a diferentes concentraciones. El tener en cuenta todas estas posibilidades sitda al investigador frente a un desaffo abrumador. Las estra- tegias de realizar la experimentacién por prueba y ajuste, o la de realizar “cambiar un factor ala vez” hacen que sea poco probable alcanzar un buen resultado répida y econémicamente. El uso del disefio estadistico de experimentos hace posible, minimizando la influencia del error experimental, ensayar varios factores simultineamente propor- cionado una clara imagen de c6mo influyen sobre la respuesta tanto aislados como conjuntamente. Esta informacién puede Hevarnos a la solucién empirica de pro- blemas, pero también puede Hegar a mucho més. Con los resultados de un disefio * Eltérmino proceso se utiliza en un sentido general. Asi, un proceso puede ser un método analitico © de fabricacién de un producto o agin procedimiento médico. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. 10 Comentario Pregunta Diseno y analisis Descubrimientos ‘Comentario Pregunta Disefto y andlisis Descubrimicntos: Comentario Pregunta Disefto y andlisis Descubrimientos Comentario Pregunta Disefo y analisis, 1 CATALIZAR LA GENERACION DEL CONOCIMIENTO Ambos investigadores han seguido un curso de estadistica, pero actualmente lo tienen algo olvidado, ITERACIONT {Dénde podemos encontrar un breve resumen de los principios estadisticos elementales? Capitulo 2: Fundamentos. El estudio del capitulo proporciona la re prepara para continuar el estudio. mn requerida y les FTERACION IL Minerex cree ~y Stoveing, no- que, si se utiliza una c: muy pura —y mas costosa—de la resina, se mejoraré el rendimiento. {C6mo comparar su resina “comin” con la de “alta pureza” mis costosa’) Capitulo 3: Comparacién de dos tratamientos. El rendimicnto de la resina de alta pureza, mas costosa, es practicamente igual al de Ia resina “comin”. (;Rita tenia razon!) ITERACION Minerex ha descubierto que estaba equivocado respecto a la resina de alta pureza, pero la resina de calidad “comin” todavia le parece prometedora. Por ello deciden comparar Jas muestras de laboratorio de su nueva resina con cinco resinas esténdar disponibles en el mercado. {COmo comparar su resina “comin” con las cinco resinas disponibles en el mercado? Capitulo 4: Comparaci6n de mas de dos tratamientos. Las muestras de laboratorio de su nueva resina son tan buenas como las disponibles en el mercado y quiza mejores que alguna de elas. ITERACION IV Se ha comprobado que la nueva resina funciona tan bien como sus competidoras. Sin embargo, en las condiciones que se ha considerado para realizar una fabricacién econémicamente viable, la eliminacién de nitrato resulta insuficiente para alcanzar el valor que establece la normativa aplicable al agua potable. {Cuales son los factores que mas influyen en la eliminaci6n de nitrato? ;Podrian mejorar la eliminaci6n de nitrato algunas modificaciones del equipo que afecten a factores como el caudal, la profundidad de lecho y el tiempo de regeneracién de la resina? Capitulos 5, 6, 7, y 8: Estudios en los que se utilizan disefios factoriales y factoriales fraccionados. 14 UNA TIPICA INVESTIGACION crt Descubrimientos Comentario Pregunta fo y anal Descubrimientos Comentario Pregunta Disefto y andlisis Descubrimientos Comentario Pregunta Si se realizan las adecuadas modificaciones del equipo se pueden obtener niveles de nitrato suficientemente bajos. La empresa de Rita y Peter llega a la conelus fabricacién de esa nueva resina es posible y de que podria ser rentable. Para estudiarlo se construye una planta piloto. i.Cémo afectan los niveles de las variables del proceso de fabricacién a la calidad y el coste de Ia nueva resina? {Cuales son los mejores niveles? Capitulos 10, 11 y 12: Método de minimos cuadrados modelado multidimensional y ajuste de superficies de respuesta. La investigacién en la planta piloto indica que, si se trabaja en los niveles adecuados de las variables de proceso, se puede fabricar la resina con una calidad satisfactoria y a un coste razonable. TTERACION VE Antes de que el proceso sea transferido a la fase de produccién deben resolverse los problemas de muestreo y medicién, iCémo se pueden perfeccionar los métodos de muestreo y medicidn para determinar de forma fiable valores de las caracteristicas de la nueva resina? Cap/tulo 9: Fuentes de variacién maltiples. Es posible identificar y medir los componentes de la variabilidad en el muestreo y los andlisis quimicos del producto. Sobre esta informacién se puede elaborar un protocolo de muestreo y medicién que minimice la varianza de las determinaciones al minimo coste. FPPRACION VI Antes de que la nueva resina sea comercializada se ha de estudiar su comportamiento en las diferentes condiciones experimentales en las que se puede encontrar en la realidad. Es necesario diseitar el proceso de obtencién de la resina para que sea poco sensible a las variaciones del entorno en el que se utilice la resina. .Cémo se puede disefiar el producto para que la adsorcién de nitrato no se vea afectada por factores que pueden variar segiin su diversa aplicacién, como por ejemplo el pH y la dureza del agua de suministro o la presencia de trazas de posibles impurezas? 12 Diseito y andlisis Descubrimientos Comentario Pregunta Disefio y andlisis Descubrimientos Comentario Pregunta Di fio y andlisis Descubrimientos Comentario Pregunta Disefio y analisis Descubrimientos 1 CATALIZAR LA GENERACION DEL CONOCIMIENTO Capitulo 13: Disefio de productos y procesos robustos. Es posible disefiar un proceso que asegure que la nueva resina fabricada sea insensible al cambio del pH, a la dureza del ‘agua y a cantidades no excesivas de impurezas posibles. ITERACION Vit FI proceso de regeneracién de Ia resina se realizard automaticamente mediante un sistema que contiene numerosos componentes clectronicos y mecanicos. Se sabe que pequeiias variaciones del proceso de fabricaciGn de dichos componentes pueden afectar el rendimiento del sistema. ,Cémo se puede disefiar el sistema de regeneracién de la resina para que los pequefios cambios en las caracteristicas de fabricacién de los componentes no afecten excesivamente al rendimiento del sistema? Capitulo 13: Diseito de productos y procesos robustos. Se encontré que en algunas circunstancias puede ser necesario utilizar costosos componentes con unas cespecificaciones ajustadas; y, en otras circunstancias, se pueden sustituir por otros componentes mas econémicos con unas especificaciones menos restrictivas. Para esto se desarrollé un sistema de alto rendimiento cuyo coste es bajo. ITERACION 1X La planta a gran escala no es facil de controlar. {Cémo se puede alcanzar un mejor control del proceso’ Capitulo 14: Control de proceso temporales. Se puede alcanzar un adecuado control del proceso mediante téenicas de depurado, seguimiento y retroalimentacién simple del proceso. , previsiones y series ITERACION X Las con: planta a gran eseala pro planta piloto, Cémo se pueden mejorar las condiciones de trabajo para el proceso a gran escala? Capitulo 15: Proceso de Operaciones evolutivas. ‘Trabajar de forma secuencial o evolutiva proporciona una ‘mejora continua del proceso. iones de trabajo iniciales del proceso para la nen de experimentos a nivel de 1.3 COMO UTILIZAR LAS TECNICAS ESTADISTICAS 13 Lo expuesto anteriormente no agota en absoluto la aplicacién de los métodos estadisticos que pueden ser necesarios para producir un producto provechoso y co- mercializable. Por ejemplo, puede que sea necesario determinar la dimensién del posible mercado y comparar la calidad de la nueva resina respecto a productos si- milares de la competencia. Del mismo modo quiz convenga organizar y supervisar los controles de planificacién e inventario. 1.5. COMO UTILIZAR LAS TECNICAS ESTADISTICAS ‘Todos los problemas reales presentan particularidades que se han de estudiar antes de adoptar métodos que las resuelvan. En consecuencia, cada nuevo problema se de- be tratar por si mismo y con cierto respecto. El precipitarse demasiado puede con- ducir a errores, tales como obtener la soluci6n correcta del problema equivocado. Averiguar todo cuanto se pueda sobre el problema Hagase preguntas hasta que esté convencido de que comprende totalmente el pro- blema y hasta que sea consciente de los recursos disponibles para realizar el es- tudio. A continuacién exponemos algunas de las preguntas que debe plantearse y conseguir respuesta. {Cua es el objetivo de la investigacin? ,Quign es el res- ponsable? Voy a describir el problema: ,Es correct? ;Dispone de datos anterio- res? {C6mo se han recogido estos datos? {En qué orden? ,Qué dias? ,Por quién? .Cémo? {Puedo yer los datos? {Cémo se midicron las respuestas? :Se han revi- sado recientemente los instrumentos necesarios? ;Existen otros datos similares a estos? {COmo trabaja el equipo? {Qué lo hace funcionar asi? ;Puedo verlo? ;Puedo verlo trabajando? ,Cuanto se sabe de la teorfa de este fenémeno? Si se trata de un proceso de fabricacién, ,cudles son los protocolos de muestreo, medicién y ajuste? No olvidar el conocimiento no estadistico Cuando vaya a hacer “estadistica” no descuide lo que usted y sus colaboradores ya saben respecto a la materia en estudio. Las técnicas estadisticas son inservibles a ‘menos que se combinen con el apropiado conocimiento del tema al que se aplican y con la experiencia previa. Son un complemento al conocimiento del tema, nunca un sustituto. Definir los objetivos En cualquier investigacién es de suma importancia: (1) definir claramente los obje tivos del estudio: (2) asegurarse de que todos los implicados en el estudio estin de acuerdo con dichos objetivos; (3) asegurarse de que se dispone del equipo necesa- rio para levar a cabo la investigaci6n propuesta: las instalaciones y los servicios, el personal cientifico, el tiempo, el presupuesto econdmico y los servicios de gestion; (4) estar de acuerdo con los terios que determinaran cudndo se han alcanzado los objetivos, y (5) tener previsto que, si los objetivos cambian, todas las partes interesadas lo conozcan y estén de acuerdo con los nuevos objetivos y criterios. No prestar suficiente atencién a estos aspectos puede conducir a serias dificultades y, algunas veces, al desastre. 14 1 CATALIZAR LA GENERACION DEL CONOCIMIENTO Aprender los unos de los otros: interrelacién entre teoria y practica Igual que los investigadores pueden beneficiarse mucho del uso de los métodos es- tadisticos, lo inverso es incluso mas cierto. Un experto en estadistica puede apren- der y beneficiarse muchisimo de sus discusiones con ingenieros, quimicos, bidlo- 208 0 especialistas en otras materias. La generaciGn de ideas y t6cnicas realmente nuevas en esta suele ser el resultado de un serio interés por los problemas pricticos. Sir Ronald Fisher, el padre de la mayorfa de ideas de este texto, fue un cientifico e investigador al que le gustaba trabajar en estrecha colaboracién con otros investigadores. Para él no existia mayor placer que discutir sus problemas con ottos cientificos frente a un vaso de cerveza. Lo mismo le ocurria a su amigo William S, Gosset (mas conocido como “Student”), del que un colega suyo co- ment6*: “Para muchos en el mundo de la estadfstica “Student” era considerado un asesor estadistico de las fabricas de cerveza Guiness; para otros, era un cervecero que dedicaba su tiempo libre a la estadistica ... Aunque algo cierto hay en ambas afirmaciones, se olvidan del punto central, que era la intima relacién entre su in- vestigacién estadistica y los problemas pricticos que tenia que resolver.” La obra de Gosset y Fisher refleja la caracteristica destacada de la ciencia: la interrelacion entre teoria y préctica. Sus éxitos como cientificos y su habilidad para desarro- Har técnicas estadisticas titiles estaban intimamente relacionados con su profunda implicacién en el trabajo experimental. REFERENCIAS Y LECTURAS ADICIONALES. Box, G. E. P. (1987) “In memoriam: William G. Hunter, 1937-1986", Technometrics, 29, 251-252, Dos textos importantes sobre 1a utilizacién de los métodos estadisticos en la inves- tigacién cientifica son: Fisher, R. A. (1925) Statistical Methods for Research Workers, Edinburg and London, Oliver and Boyd. Fisher, R. A. (1935) The Design of Experiments, Edinburg and London, Oliver and Boyd, Para una mayor informacién sobre métodos y asesoramiento estadistico consulte los siguientes articulos y la bibliografia citada en ellos: Derr, J. (2000) Statistical Consulting: A Guide to Effective Communication, Australia, Duxbury. Chatfield, C. (1995) Problem Solving: A Statistician 's Guide, London, Chapman and Hall. Bajaria, H. J. y Copp, R. P. (1991) Statistical Problem Solving, Garden City, MI, Multi- face Publishing, Hoadley, A. y Kettenring J. (1990) “Communications between statisticians and engi- neers/physical scientists”, Technometrics, 32, 243-274. * L, MeMullen ea el prologo de Student's Collected Papers, editado por E. S. Pearson y J. Wishart, University Press Cambridge, London, 1942, editado por Biométriea Office, University College, London, aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. CAP{TULO2 Fundamentos (probabilidad, parametros y estadfsticos) {Ha seguido algtin curso de estadistica elemental? $i lo ha curs por favor pase al Capitulo 3. Si no es asi, continiie con este capitulo. Si nec: recordar algunas cosas, este capitulo le sera itil y provechoso como referencia. lo, y lo recuerda, ita 2.1, ERROR EXPERIMENTAL Cuando se repite una operacién o un experimento bajo condiciones lo mas. res posible, los resultados obtenidos nunca son totalmente idénticos. La fluctuaci6n que se observa de una repeticién a otra se denomina ruido, variacién experimen- tal, error experimental o simplemente error. En un contexto estadistico, el término error se utiliza en un sentido técnico no peyorativo. Se refiere a una variacién que a menudo es inevitable. No esté asociado a culpa de ninguna clase. Ademis de errores de medici6n, andlisis y muestreo, muchas otras fuentes con- tribuyen al error experimental. Por ejemplo, variables tales como la temperatura ambiente, la habilidad o la destreza del personal, el tiempo transcurrido desde que se han preparado los reactivos, su pureza y la eficiencia o el estado del equipo pueden, todas ellas, contribuir al error. Debe diferenciarse el error experimental de errores tales como la colocacién errénea de la coma decimal al registrar una observaci6n 0 el uso de un reactivo quimico equivocado. Para muchos investigadores ha constituido un serio impedimento que su apren- dizaje formal no les haya preparado para enfrentarse a la situacién tan comin en que el error experimental ciertamente no puede ser despreciado. No sdlo el desco- nocimiento de los posibles efectos del error experimental es esencial en el andlisis de los datos, sino que su influencia es una consideracién primordial en la plani- ficacidn de la generacin de datos, es decir, en el diseiio de experimentos. Por consiguiente, para el disefio y andlisis de experimentos es esencial disponer de una base sélida sobre la que construir técnicas pricticas, un conocimiento elemental del error experimental y de Ia teoria de probabilidad asociada a él. 18 2 FUNDAMENTOS (PROBABILIDAD, PARAMETROS ¥ ESTADISTICOS) Un Experimento elemental Podemos decir que se ha realizado un experimento elemental 0 ensayo" cuando se ha puesto en marcha un sistema o un aparato y se le ha permitido funcionar bajo un determinado conjunto de condiciones experimentales. Por ejemplo, en un caso quimico, se podria hacer un experimento mezclando en un reactor unas cantida- des especificas de reactivos quimicos, ajustando la temperatura y la presién a los niyeles deseados y permitiendo que se realice la reaccién durante un determinado tiempo. En ingenieria un experimento podria consistir en el maquinado de una pie- za.en unas condiciones de fabricacién determinadas. Un experimento en psicologia podria consistir en someter a una persona a algunas condiciones controladas de estrés, Datos Experimentales 0 Resultados Un resultado experimental 0 daio define la respuesta de un experimento y genera mente se expresa de una forma numérica, Diez experimentos consecutivos real dos en condiciones consideradas idénticas podrian conducir a los siguientes datos: a 66,7 64,3 67,1 66,1 65,5 69,1 67,2 68,1 65,7 664 En un experiment quimico los datos podrian ser un porcentaje de rendimiento, en un experiment de ingenierfa podrian ser la cantidad de material eliminado en un maquinado y en un experimento psicol6gico los datos podrian ser los tiempos empleados por diez personas estresadas en realizar una determinada tarea. 2.2, DISTRIBUCIONES EI Diagrama de Puntos La Figura 2.1 representa un diagrama de puntos mostrando la dispersién de los valores anteriores. Estar de acuerdo en que el diagrama de puntos es una forma valiosa para representar la distribuci6n de un pequeiio grupo de datos. En conereto el diagrama de puntos muestra: 1. La localizacién de los datos (en este ejemplo veri que se agrupan sobre el valor 67 en lugar de, por ejemplo 85 0 35). 2. La dispersidn de los datos (en este ejemplo se extiende en un intervalo de aproximadamente 5 unidades). 1 1@ | ee@02e@ @ @ | a ) Rendimiento Figura 2.1. Diagrama de puntos de una muestra de 10 observaciones. © N. del T: En algunos paises también aman corrida, del inglés run, alos experimentos clementales. DISTRIBUCIONES. 19 3. Si existen algunos puntos considerablemente més separados del resto. Di- chos “resultados atfpicos” (outliers) podrfan ser la consecuencia de errores tanto de la obtencién de los datos como de la realizacién de una prueba en particular. Distribucién de Frecuencias Cuando dispone de un gran ntimero de resultados se puede apreciar mejor los da- tos construyendo una distribucin de frecuencias, también llamada histograma o diagrama de frecuencias. Esto se realiza dividiendo el eje horizontal en intervalos de tamafio adecuado y construyendo un rectingulo sobre el i-ésimo intervalo de forma que su drea sea proporcional a n,, el ntimero (frecuencia) de datos en dicho intervalo. La Figura 2.2 muestra la distribucién de frecuencias para N = 500 datos del rendimiento de un proceso de produccién’. En este ejemplo cada resultado se determiné con una cifra decimal. El menor resultado se encontraba entre 56 y 57 y el mayor entre 73 y 74. Fue por lo tanto conveniente clasificar las observaciones en 18 intervalos, cada uno de los cuales cubria un rango de una unidad. Se encontra- ron dos resultados en el primer intervalo, por tanto m, = 2. Como en este ejemplo todos los intervalos tiene una amplitud igual a 1, la frecuencia m, del yalo, i = 1,2,..., 18, es directamente proporcional a la altura (ordenada) sobre el eje vertical. La Figura 2.2 proporciona una clara imagen de las 500 observaciones. En par- ticular muestra su localizacién y dispersi6n. Pero ademas pueden observarse otras . fi 2 || = : sof $ ons : . oi 5 60 5 70 75 Rendmierto Figura 2.2. Diagrama de frecuencia (histograma, distribucién de frecuencia) de ura muestra de SO observaciones. * Muchos programas de ordenador proporcionan histogramas. En este ejemplo el histograma (diagrama de frecuencia) ttene intervalos de igual amplitud y de ah que la altura también es proporcional a 1 Sin embargo a veces se construyen histogramas para datos en los que los intervalos tienen diferentes amplitudes, En dicho easo el drea del rectingulo construido sabre eada intervalo debe ser proporcional 4 nj, la frecuencia de datos dentro de dicho intervalo. 20 2 FUNDAMENTDS (PROBABILIDAD, PARAMETROS Y ESTADISTICOS) caracteristicas, por ejemplo aproximadamente 4/5 de las observaciones se encuen- tran entre 60 y 70. Esta fracci6n, mas exactamente 382/500, esta indicada por la regiGn sombreada bajo el diagrama de frecuencias. Observe también que el his- no que disminuye lentamente para observaciones con tograma no es valores altos. Ejercicio 2.1. Construya un diagrama de puntos para los datos, expresados en millas por gal6n, de una prueba con cinco automéviles: 178 14,3 15,8 18,0 20,2 Ejercicio 2.2. Construya un histograma para estos datos relativos a la contami- nacién atmosférica, expresados en partes por mill6n de ozono: 65 21 44 47 53 26 47 30 49 47 86 50 49 40 34 56 47 2,7 24 27 22 52 53 47 68 41 5,3 7,6 24 21 46 43 30 41 61 42 Poblacién Hipotética de los Resultados representados por una Distribucin El conjunto total de observaciones te6ricamente podrian obtenerse como resultado de realizar repeticiones de una determinada operacién se denomina poblacion de obscrvaciones. Teéricamente se supone en general que esta poblacién cs infinita, pero para los propésitos de este texto puede suponer que tiene un tamaiio N siendo N grande. Las observaciones (normalmente pocas) que realmente se han obtenido se consideran como algtin tipo de muestra de esta poblacién teérica. Con un gran niimero de observaciones las desigualdades en las barras del diagrama de frecuen- cia generalmente desaparecen y se obtiene un histograma con la apariencia como la que se muestra en la Figura 2.3. (Hasta nuevo ayiso deberia fijarse en el histograma € ignorar de momento la curva suavizada que se le superpone.) Si hace que el érea del recténgulo correspondiente al i-ésimo intervalo de este histograma sea igual a la frecuencia relativa n;/N de los valores que ocurren en dicho intervalo, ello equi- vale a escoger la escala vertical de forma que el area total bajo el histograma sea igual ala unidad, 0,08 l 0,06} $0.04 0,02 70 75 Ey Figura2.3. Disribucién de probabilidad hipotética de una tedriea poblacién de resultados, 2.2. DISTRIBUCIONES 21 Aleatoriedad y Probabilidad Una extraccién aleatoria es aquella en la que cada miembro de 1a poblacién tie- he igual posibilidad de ser escogido. Suponga que ha anotado cada una de las N observaciones en un papel, ha puesto todos ellos en una urna y en una extracci6n aleatoria obtiene un determinado valor y. Entonces: 1. La probabilidad de que y sea menor que un cierto valor y), Pr(y < yu)s serd igual al rea bajo el histograma a la izquierda de yp [como ejemplo, en la Figura 2.3, si yp fuera 60, la probabilidad de que y sea menor que 60 serfa 0,361, es decir, Pry < yo) = 0,361]. 2. La probabilidad Pr(y > yp) de que y el histograma a la derecha de yp. 3. La probabilidad Pr(y) < y < y:) de que y sea mayor que yy pero menor que y; seré igual al area bajo el histograma comprendida entre yp e y;. Por ejemplo, en la Figura 2.3 la regién sombreada tiene un Area de 0,545 de forma que Pr(60 < y < 70) = 0,545. ‘a Mayor que yy Sera igual al area bajo Con Ia precisién del agrupamiento por los intervalos, el diagrama de frecuencias relativas de la poblacién total contiene toda la informacién posible relativa a la probabilidad de que un elemento de la poblacién, seleccionado aleatoriamente, caiga dentro de un rango determinado, Por consiguiente se denomina entonces distribucién de probabilidad. Densidad de Probabilidad En este ejemplo la amplitud de! intervalo de agrupaci6n es igual a una unidad de rendimiento, pero suponga que fuera igual a /: unidades de rendimiento. Suponga también que para un determinado intervalo de tamaiio h la altura del rectangulo construido es p(y) y su area es P. (Recuerde que esta area P = n/N es la probabi- lidad de que el intervalo contenga un determinado valor y seleccionado aleatoria- mente.) Entonces P = p(y) x h y p(y) = P/h. La densidad de probabilidad, esto es la ordenada p(y), se obtiene por tanto dividiendo la probabilidad, e! area asociada un intervalo dado, por la amplitud del intervalo. Tenga presente que siempre es el drea bajo 1a distribuci6n de probabilidad 1a que representa la probabilidad. La ordenada p(y) de la distribuci6n, 1a densidad en dicho punto y, no es en si misma una probabilidad y sdlo pasa a serlo cuando se multiplica por la amplitud det inter- valo considerado. La densidad de probabilidad tiene la misma interpretacion que Ja densidad en fisica. El conocimiento de 1a densidad de un metal no le dice si una determinada pieza de metal ser pesads o ligera. Para averiguarlo debe multiplicar esta densidad por el volumen de a pieza para obtener su masa. Asi, probabilidad = densidad de probabilidad x amplitud del intervalo, exactamente igual que masa = densidad x volumen. Representacién de una Distribucién de Probabilidad como una Curva Continua Imagine ahora que 1a amplitud / del intervalo considerado sea muy pequefia, 1a probabilidad P asociada al intervalo ser4 también proporcionalmente mAs pequefia aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. 24 2 FUNDAMENTDS (PROBABILIDAD, PARAMETROS Y ESTADISTICOS) generada a partir de una muestra de manzanas tomada de la parte superior de un barril puede resultar engafosa. Resulta poco afortunado que la hipétesis de muestreo aleatorio se trate en mu- cho trabajos estadisticos como si fuera un fenémeno natural. De hecho, cuando se trabaja con datos reales, es una propiedad con Ia que nunca se puede contar, aunque con las precauciones adecuadas en el disefio de un experiment, esta supo- sicidn puede ser pertinente. 2.4. MEDIDAS DE POSICION Y DISPERSION Media Poblacional, Varianza, Desviacion Estandar y Coeficiente de Variacion Como ya se ha visto, una caracteristica importante de una poblacién es su valor medio n = L.y/N. Este valor medio 7 se denomina pardmetro de la distribucién. ‘También se conoce como esperanza matemdtica de y y se representa como E(y), asi E()) = 7. Es el primer momento de la distribucién de y, y define el centro de gravedad sobre el eje horizontal, tal como se muestra en la Figura 2.4. Por tanto proporciona una medida de la posicidn de la distribucién, de si, por ejemplo, la distribucién est centrada sobre 0,6, 60 0 60000. El conocimiento de la posicién proporciona informacién atl, aunque incompleta, sobre la poblaciGn. Si les dijera a unos extraterrestres que la altura media de los hombres adultos de Estados Unidos es aproximadamente 1,78 m., podrian pensar que algunas personas de la poblaci6n tienen una talla de 2,5 cm. y otras de 2,5 m. Una medida de la dispersion de la distribuciGn ayudaria a darles una mejor perspectiva. Para nuestros objetivos, la mas util de dichas medidas es la varianza de la poblacién, representada por o* (sigma al cuadrado). Una medida de cuan lejana esté una determinada observacion y de la media es la desviacién y — 7; la varian- za o° es el valor medio de los cuadrados de dichas desviaciones considerando 1a poblacién total. Por tanto: LO-F N 0.10 0.08 = 0108 s = 0.04 092 000 oo 8 i 15 20 35 30 Media —>| 1” y Figura 2.4. La media 2 = F<) como punto de equilibrio de fa distribucién, 24 MEDIDAS DE POSICION ¥ DISPERSION 25 Asi como el simbolo especial E(y) puede utilizarse para representar el valor medio, EQ) = n, también se utiliza el simbolo especial V(y) para representar la varianz y por tanto V(y) = o*. Una medida de la dispersién que tiene las mismas unidades que las observa nales es oF, Ia rafz cuadrada positiva de la varianza raiz cuadritica media de las desviaciones. Se denomina desviacién esténdar + Wo +VEgair = +2 En ocasiones puede acompafar a o un subindice. Asi el simbolo oy no deja nin- guna duda de que se esti hablando de la desviaci6n estindar de Ia poblacién de observaciones y, y no, por ejemplo, de alguna otra poblacién de observaciones z. oat Vr Media, Varianza y Desviacién Estandar de una Muestra Los datos de que dispone un investigador pueden considerarse como una pequeiia muestra de n observaciones del hipotético conjunto mayor NV representado por la poblacién. Para los datos del diagrama de puntos de la Figura 2.1 la media mues- tral ¥ = Dy/n = 666,2/10 = 66,62 proporciona una medida de 1a posicion de la muestra, De forma similar, la varianza muestral proporciona una medida de la dispersi6n de la muestra. La varianza muestral se caleula como ny e_LO=_ Ey nl n-l La rafz cuadrada positiva de la varianza muestral da Ja desviacin estindar de 1a muestra, =4,{20=F n-1 que tiene las mismas unidades que los datos. Asf, para la muestra de los 10 datos de la Figura 2.1 la varianza muestral es > _ (66,7 ~ 66,62) + (64, ~ 66,62)? + +++ + (66,4 — 66,62)? 9 44.398,96 — 10(66,62) 136 9 y la desviacion esténdar muestral es § = 1,36. Una vez mas, como en el caso de la media poblacional 7 y la media muestral F se utiliza una letra griega para el parimetro poblacién y una letra latina para el correspondiente estadistico de la muestra. Asi, 0” yo son parametros que corres- ponden a la varianza y la desviacién estdndar de la poblacién mientras que los estadisticos s* y s representan la varianza y la desviaci6n esténdar de la muestra. En la Tabla 2.1 se muestra un resumen de lo expuesto. 26 2 FUNDAMENTDS (PROBABILIDAD, PARAMETROS Y ESTADISTICOS) ‘Tabla 2.1, Cantidades de la Poblacién y de la Muestra Definicién —_—-Poblacién: Conjunto hipotético de Muestra: Conjunto disponible N observaciones del que se su- de n observaciones (en ge pone que proviene Ia muestra neral n es pequefio) de observaciones reales. (ge ralmente N es muy grande) Pardmetros Medidade Media poblacional = SLy/N posicién Medida de Varianza poblacional Varianza muestral dispersion S0y-9F/N 2 = Dyn 1) Desviacién esténdar poblacional Desviacidn estindar muestral o= +00 iN s=+ VEC (a=) Coeficiente de Variacién Suponga que necesita saber cuin grande es la desviaci6n esténdar & respecto a la media 7. El cociente o/7 se denomina coeficiente de variaci6n, Cuando se ex- presa en porcentaje 1000/7 se Hama a veces porcentaje de error. Un coeficiente de variacién del 3% implica que o es el 3% de la media 7. Como se vera mas, adelante est muy relacionado con la desviaci6n estindar de log y. El coeficiente de variacin muestral es s/F. Su inverso, ¥/s en ocasiones se denomina relacién seiial-ruido, Para los datos del diagrama de puntos de la Figura 2.1 el coeficiente de variacién de 1a muestra s/F es 1,36/66,62 = 0,020 = 2%. Mediana Otra medida de una muestra que en ocasiones resulta util es la mediana, Puede obtenerse listando los n valores de los datos obtenidos en orden de magnitud. La ‘mediana es el valor central si n es impar o el promedio de los dos valores centrales si nes par. Re juales y Grados de Libertad Las n desviaciones de los datos de su media muestral se denominan residuales. La suma de estas residuales es siempre cero. Por ello 5 (y ~ 5) = 0 constituye una restriccign lineal de las residuales y,—J, y Yn —¥ porque cualquier conjunto de n — 1 residuales determina completamente el valor de la residual que falta. Por consiguiente se dice que las n residuales (y por tanto Ia suma de cuadrados 3 (y-5)* y la varianza muestral s° = Z(y-3)' /(n— 1) tienen n— I grados de libertad. Eneste texto el ntimero de grados libertad se representa por la letra v (nu). Para los datos del diagrama de puntos la varianza muestral es s° = 1,86, la desviacién estindar muestral es s = VT,86 = 1,36 y el niimero de grados de libertad es y = 10-1 = 9. La pérdida de un grado de libertad esté asociada al hecho de necesitar reemplazar el parametro poblacional 77 desconocido por su estimacién F obtenida de los datos 24 MEDIDAS DE POSICION ¥ DISPERSION 27 de la muestra. Puede demostrarse que debido a esta restriccidn la mejor estimacién: de 0 se obtiene dividiendo la suma de cuadrados de las residuales por v -ly no porn. En aplicaciones posteriores encontraré ejemplos en los que debido a la nece- sidad de calcular varias cantidades muestrales para reemplazar a los parimetros desconocidos de la poblacién, se introducen diversas restricciones a las residuales. Cuando existen p restricciones lineales independientes sobre n residuales, su su- ma de cuadrados y la varianza y desviacion estandar muestrales resultantes tienen vy =n ~p grados de libertad. Varianza Muestral cuando se conoce la Media Poblacional: Varianza y Desviacién Esténdar “Natural” Si se conoce la media poblacional 7, la varianza de la muestra puede calcularse de la forma habitual como la media de los cuadrados de las desviaciones respecto a la media poblacional conocida, Lo- ~ n Este estadistico se representa con un punto sobre la s para distinguirlo de s?. La suma de cuadrados Y(y — 9)? y el pardmetro §* asociado tienen en este caso n grados de libertad porque las n diferencias y~ 7 pueden variar libremente; el hecho de conocer n ~ | desviaciones no permite determinar la n-ésima. En este texto denominaremos as? la varianza natural y a § la desviacion esténdar nawral. Ejercicio 2.3. Calcular la media y la desviacién esténdar de los siguientes datos relativos al grosor de una capa epitaxial expresados en micrémetros: Verifique que la suma de residuales y—Fes cero. Muestre cémo en base a ello puede calcular la quinta residual conociendo solamente los valores de las otras cuatro. 4 grados de libertad. 14,02; s = 1,924 con y Respuesta: Ejercicio 2.4. Un psicdlogo determiné los siguientes tiempos (en segundos) re- queridos por 10 ratas para recorrer un laberinto: 24, 37, 38, 43, 33, 35, 48, 29, 30, 38. Determine la media, la varianza y la desviacién esténdar muestrales para estos datos. Respuesta: J = 35,5; 5? = 48,72; § = 6,98 con v = 9 grados de libertad. Ejercicio 2.5. Los siguientes datos relativos a la sustentacién (en kilogramos) de un plano aerodinémico se obtuvieron tras sucesivos ensayos en un tine! de viento: 9.072, 9.148, 9.103, 9.084, 9.077, 9.111, 9.096. Calcule los valores de la media, 1a varianza y la desviacién esténdar mucstrales para estas obscrvaciones. = 9.098,71; * = 667,90; s = 25,84 con v = 6 grados de libertad. Respuesta: 28 2 FUNDAMENTDS (PROBABILIDAD, PARAMETROS Y ESTADISTICOS) Ejercicio 2.6. Dados los siguientes volimenes (en litros) de reactivo gastados para valorar Q gramos de una sustancia: 0,00173 0,00158 0,00164 0,00169 0,00157 0,00180 calcular los valores de la media, la varianza y la desviaci6n esténdar muestrales para estas observaciones. Respuesta: F = 0,00167; s* = 0,798 - 10-8, libertad, 0,893 - 10 con y = 5 grados de 2.5. DISTRIBUCION NORMAL Por lo general las observaciones repetidas que difieren debido al error experimental varian alrededor de un valor central con una distribuci6n aproximadamente simétri- ca de forma que las pequenas desviaciones ocurren con mucha mayor frecuencia que las grandes. Para representar esta situacién, una importante distribucién teéri: ca, que ocupa un lugar destacado en la teorfa de la estadistica, es la distribucién Gaussiana o distribuci6n normal. En la Figura 2.5 se muestran la forma de esta distribucién y su expresién matematica. Se trata de una curva simétrica con un maximo en el centro y que tiende a cero en ambas direcciones de una manera que coincide intuitivamente con Io esperado para el error experimental. Tiene la pro- piedad de que el logaritmo de su funcién densidad es una funcién cuadratica de la residual estandarizada (y — )/c. Razones de la Importancia de la Distribucién Normal Dos factores explican la importancia de la distribucién normal: 1. El efecto del /fmite central que produce una tendencia a que las distribucio- nes de error reales sean “similares a la normal”. 2. La robustez a la no normalidad de algunos procedimientos estadfsticos co- munes, entendiendo por “robustez” la insensibilidad adesviaciones respecto a lanormalidad te6rica. 04 p(y)=conatante 1 ¢y-ni20%) Py 02 1-30 N20 NT oN Nee Ne NO Figura 2.5. Distribucin normal (Gaussiana). aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. 32 FUNDAMENTOS (PROBABILIDAD, PARAMETROS ¥ ESTADISTICOS) 2. Debido a la simetria de la distribuci6n, esta probabilidad es exactamente igual ala de que una desviacién negativa respecto a la media exceda a una desviacion estandar. 3. De estas dos afirmaciones resulta evidente que la probabilidad de que una desviacién en cualquier direccién exceda una desviacién estindar es 2 x 0,1587 = 0.3174 (aproximadamente 1/3), y en consecuencia la probabilidad de que una desviacién sea menor que una desviacién estndar es 0,6826 (aproximadamente 2/3). 4. La probabilidad de que una desviacin respecto a la media sea superior a dos desviaciones estandar es 0,0228 (aproximadamente 1/40). Esto corresponde al area sombreada mas intensamente en la Figura 2.8. 5. De nuevo, esto es exactamente igual a la probabilidad de que una desviacién negativa respecto a 1a media supere a dos desviaciones estandar. 6. De estas dos afirmaciones se sigue que la probabilidad de que una des- viacion en cualquier direccin sea superior a dos desviaciones esténdar es 0,0456 (aproximadamente 1/20 0 0,05). Por lo general, cualquier afirmacién sobre una probabilidad relativa a alguna mag- nitud y que sigue una distribucién normal se expresa mejor en términos de una desviacidn normal estandarizada o desviacidn normal unitaria, yon ov Se dice que la variable z sigue una distribucién (0, 1), es decir, z tiene una dis- uibuci6n que es normal con media 7) = 0 y varianza o? = 1. Por consiguiente podemos expresar los puntos anteriores como sigue: 1 Poy > +0) = Pr(y =m) > oF] = Pr||—42) > | = Priz > 1) = 0,1587 2. Pr(z <1) = 0,1587 3. Pr(le| > 1) = 0,3174 4, Pr(z > 2) = 0,0228 5. Pr(z < -2) = 0,0228 2 Pr(le| > 2) = 0,0456 Utilizacién de Tablas de la Distribucién Normal Por lo general, para determinar la probabilidad de que un evento y supere un ierto valor yp, es decir Pr(y > yo), debe calcular la desviacién estandarizada Z» = (iy — MI y obtener Pr(z > z) mediante un programa de ordenador o bien de la Tabla A al final del texto. (Las probabilidades asociadas a la distribuci6n normal también estén disponibles en muchas calculadoras portatiles.) Por ejemplo, dada una poblacién normal con media 7 = 39 y varianza a7 = 16, {cual es la probabilidad de obtener una observacién mayor que 42, es decir, Pr(y > 42)? La desviacin estandarizada es z = (42 ~ 39)/4 = 0,75 y la probabilidad pedida es Pr(z > 0,75) = 0,2266. Como segundo ejemplo, dado que la distribucién es N39,

You might also like