´ UNIVERSIDAD SIMON BOL´ IVAR

Quimiometr´ ıa M´todos estad´ e ısticos aplicados en el laboratorio y al dise˜o experimental n

Isabel Llatas Salvador Departamento de Procesos y Sistemas

Septiembre 2004

´ Indice general
1. Introducci´n o 1.1. Reflexiones sobre la Estad´ ıstica . . . . . . . . . . . . . . . . . . . . . 1.2. Quimiometr´ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ıa 2. Mediciones e incertidumbre 2.1. Definiciones en Metrolog´ . . . . . . . . . . . ıa 2.2. Sobre los instrumentos de medici´n . . . . . . o 2.3. Errores, variables aleatorias e incertidumbre . 2.3.1. Clasificaci´n de los errores de medici´n o o 2.4. An´lisis exploratorio de datos . . . . . . . . . a 2.4.1. Herramientas gr´ficas . . . . . . . . . . a 2.4.2. M´s sobre histogramas . . . . . . . . . a 2.4.3. Medidas Numericas . . . . . . . . . . . 1 1 2 7 8 9 10 11 13 14 16 16 21 22 23 24 26 26 27 28 30 31 32 35 35 37

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

3. Distribuciones de Referencia 3.1. Distribuciones empiricas . . . . . . . . . . . . . . . . 3.2. Distribuciones de Referencia Te´ricas . . . . . . . . . o 3.2.1. Breve resumen de la teor´ de probabilidad . . ıa 3.2.2. Valor esperado y variancia te´rica . . . . . . . o 3.2.3. Dependencia e Independencia de eventos . . . 3.3. La distribuci´n normal y el teorema central del l´ o ımite 3.4. L´ ımites de confianza para la media . . . . . . . . . . 3.5. Distribuci´n conjunta y Propagaci´n de Errores . . . o o 3.5.1. Suma de variables aleatorias . . . . . . . . . . 3.5.2. Propagaci´n de errores . . . . . . . . . . . . . o

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

4. Pruebas de Significancia, muestreo y experimentaci´n o 4.1. Principio de la Navaja de Occam . . . . . . . . . . . . . . . . . . . . 4.2. Errores en las pruebas . . . . . . . . . . . . . . . . . . . . . . . . . . i

ii

´ INDICE GENERAL 4.3. Estrategia de decisi´n . . . . . . . . . . . . . . . . . . . . o 4.3.1. Comparaci´n de las medias de dos muestras: . . . o 4.3.2. Comparaci´n de variancias . . . . . . . . . . . . . o 4.3.3. Comparaci´n de medias (2da parte) . . . . . . . . o 4.4. Pruebas estad´ ısticas y experimentos . . . . . . . . . . . . 4.5. Experimentos con un factor con k niveles: . . . . . . . . 4.5.1. M´todo de la Diferencia M´nima significativa . . e ı 4.6. An´lisis de Residuos . . . . . . . . . . . . . . . . . . . . a 4.6.1. Experimentos de bloques aleatorizados completos 4.6.2. Bloques Incompletos Balanceados . . . . . . . . . 4.6.3. Experimentos con dos o m´s factores . . . . . . . a 4.7. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 38 40 40 41 42 43 44 46 47 48 48 51 51 52 53 55 62 65 66 69 71 72 76 77 80 81 82 83 85 85 93

5. Regresi´n y Calibraci´n o o 5.1. Relaciones entre dos variables . . . . . 5.1.1. Gr´ficos y covarianza . . . . . . . . a 5.1.2. Correlaci´n . . . . . . . . . . . . . o 5.2. Regresi´n Simple . . . . . . . . . . . . . . o 5.3. Regresi´n M´ ltiple . . . . . . . . . . . . . o u 5.3.1. Estimaci´n de la variancia . . . . . o 5.3.2. Regresi´n con variables cualitativas o

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

6. Experimentaci´n o 6.1. Modelos Emp´ ıricos . . . . . . . . . . . . . . . . . . . 6.2. Metodolog´ de Superficies de Respuesta y dise˜ os 2k ıa n 6.3. Bloques en dise˜ os factoriales . . . . . . . . . . . . . n 6.4. Dise˜ os 2k fraccionales . . . . . . . . . . . . . . . . . n 6.5. Dise˜ os centrales compuestos . . . . . . . . . . . . . n 6.6. Experimentos con Mezclas . . . . . . . . . . . . . . . 6.6.1. Dise˜ os sin restricciones en los componentes . n 6.6.2. Dise˜ os con restricciones en los componentes n

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

7. Herramientas estad´ ısticas para el Aseguramiento de la calidad. 7.1. Gr´ficas de control . . . . . . . . . . . . . . . . . . . . . . . . . . . . a 8. Glosario de Terminos

Por supuesto que en el prefacio deben ir los agradecimientos y comienzo agradeciendo a Luisa Angelica Delgado. puesto que en algunas oportunidades he escogido dar m´s enfasis a la parte a de calibraci´n que a la parte de calidad en el laboratorio (y en oportunidades no he o enfatizado ninguna de las dos). como una metodolog´ sistem´tica de llevar a ıa a cabo experimentos que contengan en el menor n´ mero de ensayos la mayor cantidad u de informaci´n qu´ o ımicamente relevante. a mis a a estudiantes de todos estos a˜ os que me han obligado a pensar mejor en las formas de n decir las cosas y por supuesto a mis colegas del CESMa con quien he compartido el quehacer durante estos a˜ os. considerando que el objetivo primordial de este curso es dotar al estudiantes de vocabulario y herramientas que le permita iniciarse en el dise˜ o estad´ n ıstico de experimentos. pues sin su gesti´n como Jefe de Departamente de o Procesos y Sistemas yo nunca hubiera dictado los cursos que dan origen a este material. u ıa Se presenta m´s material que el que se dicta usualmente en un curso de un tria mestre. n Isabel Llatas Septiembre 2004 iii . no importa cuan bien dise˜ ado haya estado el experimento. no se puede n llegar a conclusiones que puedan ser utiles m´s all´ de la escala del laboratorio.Prefacio Luego de varios a˜ os dictando primero el curso llamado ”Qu´ n ımica Industrial IIIτ luego el curso de ”Dise˜ o estad´ n ıstico de experimentos”para la Licenciatura en Qu´ ımica de la Universidad Sim´n Bol´ o ıvar y haber pasado por varios libros sin que ninguno de ellos fuera enteramente satisfactorio como texto decid´ que era pertinente transformar ı las notas del curso que estaban en formato electr´nico desde hace tiempo para ser o unas notas de curso que alg´ n d´ pueden convertirse en un texto. a Daniel Celta con quien compart´ la experiencia de realizar los experimentos ı de acuerdo con un esquema estadisticamente pensado y llegar a la conclusi´n que si o no se conoce sobre la qu´ ımica o se consideran los problemas de determinaci´n en el o laboratorio.

1976 1. “psicometr´ ıa”. ımica y tecnolog´ ıa..1.. 1 . ıa. sobre la toxie cidad de qu´ ımicos. Box. y un largo etcetera o que se puede resumir diciendo que es una herramienta indispensable para obtener conclusiones a partir de resultados emp´ ıricos. la calidad de un procedimiento de medici´n. Esto) requiere del deseo de compreno der problemas complicados. “tecnometr´ asociadas al ıa” uso de t´cnicas estad´ e ısticas en biolog´ econom´ psicolog´ qu´ ıa. Hay areas que han desarrollado su propio uso de la estad´ ´ ıstica y la consideran inseparable de su desarrollo te´rico y es as´ que encontramos palabras como “bioo ı metr´ ıa”. es la de asegurar que la estructura investigacional sea s´o lida y econ´mica.” G.. “quimiometr´ ıa”. ıa. de penetraci´n para realizar las preguntas correctas y la sabidur´a o ı para ver que es y que no es importante.Cap´ ıtulo 1 Introducci´n o “La responsabilidad (del estad´stico) en un equipo cient´fico ı ı . de la paciencia para escuchar. (. La Estad´ ıstica es reconocida como la unica metodolog´ ´ ıa confiable para basar juicios sobre la eficacia de procedimientos m´dicos.P.E. Reflexiones sobre la Estad´ ıstica Las aplicaciones de la Estad´ ıstica y del pensamiento estad´ ıstico son tangibles hoy en d´ en casi cualquier contexto humano donde el aprendizaje a trav´s del ıa e m´todo cient´ e ıfico es requerido. “econometr´ ıa”..

se ha nutrido de muchas fuentes y ha tenido como una de sus principales tareas el desarrollar m´todos e de obtenci´n y an´lisis de datos por medio de los cuales se puede llegar a conclusiones o a conducentes a acciones en el ciclo de aprendizaje (Porter. el m´todo cient´ e ıfico ha acelerado este proceso en al menos cuatro aspectos: 1. Seg´ n G. 2. El inter´s en las aplicaciones de la Estad´ e ıstica a todo tipo de problemas ha crecido sin detenerse desde finales de la d´cada de los 20 del siglo pasado. Obteniendo resultados cambiando deliberadamente las condiciones del sistema. Fisher. E. 1986). e 4. en parte a consee cuencia de los desarrollos de t´cnicas y aplicaciones realizados por Pearson. Gosett. Deduciendo las consecuencias l´gicas de un conjunto de hechos. La historia de este desarrollo es paralela a la historia del desarrollo del m´todo cient´ e ıfico como acelerador del proceso de aprendizaje y creaci´n de informaci´n.2 ´ CAP´ ITULO 1. o ıa 3. P. Box o o u 1997. que vienen siendo descripciones del proceso iterativo de aprendizaje inductivo-deductivo y cuyo ´xito en los e diferentes campos ha sido potenciado en la actualidad por la disponibilidad de poderosas herramientas computacionales que han liberado a los practicantes de las barreras impuestas por las dificultades de c´lculo. y en parte como consecuencia del desarrollo de lo que ha sido llamado “pensamiento estad´ ıstico”: la posibilidad de usar un conjunto de procedimientos basados en la teor´ de probabilidades para el ıa estudio de fen´menos tanto sociales como del medio f´ o ısico (Porter. 1986). que . INTRODUCCION entre otras muchas areas que se encuentran en la necesidad de medir propiedades o ´ examinar atributos de elementos.2. pero cuya su relaci´n no hab´ sido identificada. cada uno conoo cido individualmente. Edgeworth a principios de ese siglo. Proveyendo un mejor entendimiento de la naturaleza interactiva del aprendizaje. Quimiometr´ ıa En este material se considerar´n aspectos relacionados con la aplicaci´n a las a o areas de la Qu´ ´ ımica. de las metodolog´ derivadas del pensamiento estad´ ıas ıstico. 1. como disciplina del conocimiento. a Ciertamente la Estad´ ıstica. e Galton. Observando y analizando pasivamente sistemas en operaci´n y datos adquiridos o de ´stos. para comparar teor´ tentativas y obtener nuevos ıas conocimientos. Cada uno de estos puntos se corresponde con procedimientos metodol´gicos que ahora o se identifican con el nombre de “Mejoramiento Continuo”.

por ejemplo en (?) se considera las cuales variables en la producci´n de una mayonesa baja en calorias tiene mayor influencia o en el tiempo de vencimiento del producto. a o Como hilo conductor de este material se consideran los Siete H´bitos que se a pretende desarrollar a lo largo del material. Para esto se har´ necesario considerar modelos de regresi´n. cuando se o a considera el pensamiento estad´ ıstico. a ıa o . considerando las posibles condiciones de almacenamiento. la informaci´n qu´ o ımicamente relevante para la toma de decisiones”.2. En la segunda parte se considerar´ el problema experimental propiamente dicho. considerando para ello los modelos de medidas repetidas y los modelos de incertidumbre. puesto que lo importante para el experimentador es llegar a conclusiones en base a esa cuantificacion. Lo que se presenta a continuaci´n es una o ligera modificaci´n de los Seis H´bitos propuestos en (Beebe. se considera a la Quimiometr´ como “El proceso de extraer de datos. la Quimiometr´ no es s´lo eso. a ıa producidos en un experimento. o a H´bito 1: Planifique la estrateg´ de recolecci´n de datos cuidadosamente. pero. puesto que los ıa o problemas considerados usualmente son conducidos por la necesidad de informaci´n o para tomar algunas decisiones que validen (o no) los supuestos del experimentador. estudiar el efecto que se produce sobre una (o varias) variables cuando se cambia las condiciones del sistema bajo estudio. esto a es. ıa e de modelaje matem´tico que ayudan a la estructuraci´n de un problema qu´ a o ımico de manera que pueda ser expresado como una relaci´n matem´tica. a va mas alla de establecer con un marg´n de incertidumbre. QUIMIOMETR´ IA 3 puede ser visto como parte de la Quimiometr´a. la composici´n elemental e o y molecular de un material. De lo escrito anteriormente no debe deducirse que no consideraramos aqui las preguntas m´s relevantes para los qu´ a ımicos an´liticos.1. 2000). Aqui. siendo este proceso mucho m´s que la aplicaci´n directa de un conjunto de a o pruebas estad´ ısticas cl´sicas a datos obtenidos en un laboratorio de qu´ a ımica an´litica. que seg´ n (?). son: a u ¿ C´mo estar seguro que el valor obtenido experimentalmente es cercano al valor o verdadero? ¿ Cu´nta incertidumbre se tiene de que el valor obtenido es el mismo (o distinto) a del valor obtenido con la misma muestra en un momento distinto o por otra persona? Responder esas preguntas es el objetivo de la primera parte de este material. m´s bien. 2002) ı es “la aplicaci´n de m´todos matem´ticos a la soluci´n de problemas qu´ o e a o ımicos de todos los tipos”. Visto as´ la Quimiometr´ considera el uso de diferentes t´cnicas ı. que de acuerdo con (Miller.

y se descompone en Y = Se˜ al + Ruido n De acuerdo con algunos autores el papel de los modelos es convertir los datos en “ruido”. el tiempo en almacen puede haber cambiado la composici´n por problemas de conservaci´n. luego de reo colectar las muestras en el terreno puede haber ocurrido alguna contaminaci´n o en el traslado o almacenaje. pues para establecer cu´l es la a a a a estrateg´ adecuada debemos conocer y entender claramente el prop´sito de ıa o nuestra investigaci´n. por ejemplo) y . cual es el procedimiento anal´ que se va a emplear en el laboratorio. entendiendose por ello aquella representaci´n del sistema o fen´meno o o que puede ser tratada mas facilmente. Ahora bien en muchos casos en el laboratorio de qu´ ımica el dato puede ser un espectro (salida de un cromatografo de gases. tener informaci´n sobre los posibles errores y resultados. Cada uno de estos pasos representa una fuente de discrepancia entre el verdadero valor de la concentraci´n promedio y los resultados. significa que el modelo ha extraido la mayor parte de la “se˜ al” o de la informaci´n determin´ n o ıstica que se encontraba escondida en el dato Y . El primer h´bito nos plantea la necea sidad de considerar en donde vamos a muestrear. o Esta es la etapa de dise˜ o de la investigaci´n. INTRODUCCION Este h´bito es en realidad el h´bito b´sico. cual es la base te´rica de la propuesta o y as´ sucesivamente. que pretende formular alg´ n n o u modelo. o Por ejemplo considere un trabajo de campo para determinar la concentraci´n o 3+ promedio de Cr en un lote de terreno. pues en la mayor´ de los casos esto s´lo conduce ıa o a una perdida de tiempo o material sin ganancia de informaci´n. una simplificaci´n que permite acercarse o a la descripci´n y pron´stico de lo que podr´ acontecer en el futuro. o o ıa H´bito 2: Examine los datos a Uno puede considerar que los ensayos y experimentos son mecan´ ısmos de generaci´n de “verdades” pero lo que se observa son resultados sujetos a error. y finalmente la elaboraci´n de un ıtco o reporte. esto es. a a H´bito 3: Preprocese los datos como sea necesario a Muchos de los modelos que trataremos en este material est´n basados en la idea a de los modelos de comunicaciones. se recibe un impulso Y . o o considerar que modelos se van a proponer. esto es. el dato. Un examen gr´fico y descriptivo o o a de los resultados puede ayudar a revisar cu´n alejados ellos est´n de la realidad. Obtener datos no puede ser simplemente plantearse unas ı experiencias en el laboratorio. Si se ha sido exitoso.4 ´ CAP´ ITULO 1. pensar c´mo escoger o los lugares de donde se van a obtener las muestras.

hay que o implementar esa recomendaci´n y realizar las experiencias de acuerdo con las o nuevas condiciones definidas..2. ¿Cu´n bien el modelo estima los resultados individuales obsero a vados que fueron usados para la estimaci´n?. se comporta de acuerdo con lo que se espera de un n ruido aleatorio o queda informaci´n que puede ser extraida? o H´bito 6: Use el modelo para predicci´n a o Una vez el experimentador est´ razonablemente convencido que su modelo se a ajusta a los datos que se han observado hasta el momento pues ha llegado la hora de usar el modelo ajustado para responder preguntas y tomar decisiones en base a la predicci´n del modelo: ¿ Hay alg´ n cambio en el rendimiento de la reacci´n o u o cuando la temperatura varia?. H´bito 7: Valide la predicci´n a o Claro.1. y el ciclo comienza de nuevo. Responder estas preguntas requiere usar el modelo ajustado. QUIMIOMETR´ IA 5 es necesario procesar este dato para que el resultado pueda ser interpretado como una se˜ al que tenga sentido qu´ n ımico. Dependiendo de la forma del modelo. una vez se ha tomado una decisi´n o se ha considerado que es rentable o la ultilizaci´n del catalizador a 5 ppm pues el rendimiento aumenta. la estimaci´n puede ser obtenida simplemente por un m´todo de o e resoluci´n de ecuaciones lineales o no lineales. ¿ C´ al ser´ el rendimiento si la concentraci´n del u a o catalizador es de 5 ppm?.. A veces el pre-procesaminto tiene como objetivo disminuir la escala de variabilidad de los resultados. o H´bito 5: Examine los resultados / Valide el modelo a Ning´ n modelo puede ser usado para predicci´n sin haber pasado por un proceso u o de validaci´n. o H´bito 4: Estime el modelo a Esto significa encuentre dentro de la familia de posibles modelos aquel que mejor represente los datos con la menor complejidad. ¿Una vez que se ha ajustado la o se˜ al lo que queda. . cuando se considera utilizar escalas logaritmicas o inversas en lugar de la escala natural del instrumento de medici´n utilizado. El pre-procesamiento es tambi´n una e fuente de variabilidad de los resultados que debe tomarse en cuenta. el ruido.

6 ´ CAP´ ITULO 1. INTRODUCCION .

piensese en la o o 7 . Sin embargo para la utilio o zaci´n de los resultados del proceso de medici´n no basta decir est´n bastante cerca o o o a se parecen. puesto que lo que para un investigador significa ‘cerca’puede ser ‘lejos’para otro. o o por ejemplo: El objeto de medici´n o El m´todo de medici´n e o Los instrumentos de medici´n o El ambiente de medici´n o El observador El m´todo de c´lculo e a Este proceso tiene imperfecciones que dan lugar a diferentes resultados a´ n cuando u las condiciones en las que se realiza el procedimiento puedan pensarse como ‘iguales’. pues la diferencia depende de la raz´n y motivo de la medici´n. El proceso de medici´n comienza con una apropiada especificaci´n de que se quiere o o medir y cu´l ser´ el m´todo o protocolo que se utilizar´ para realizar la medici´n. Dua a e a o rante la realizaci´n de una medici´n intervienen factores que determinan el resultado. Por supuesto que no se puede dar un valor unico pero se puede hablar del rango de ´ variaci´n de los resultados del procedimiento de medici´n.Cap´ ıtulo 2 Mediciones e incertidumbre Todo anal´ qu´ ısis ımico cuantitativo o procedimiento anal´ ıtico es la aplicaci´n de o un tipo particular de m´todo de medici´n que tiene como objetivo determinar el valor e o de una magnitud (por ejemplo el pH o el porcentaje en peso) de acuerdo a una serie de operaciones bien definidas.

8

CAP´ ITULO 2. MEDICIONES E INCERTIDUMBRE

escala de distancia entre galaxias que utilizan los astr´nomos con respecto a la escala o de distancia entre moleculas que utilizan los qu´ ımicos. Lo cierto es que los resultados de un proceso de medici´n, para ser v´lidos, deben o a ir acompa˜ ados de una estimaci´n de la incertidumbre de la medici´n. Pero, ¿Qu´ se n o o e entiende por incertidumbre de la medici´n.? Desde el punto de vista del lenguaje o coloquial la incertidumbre viene asociada a las dudas que se tienen de los resultados de una medici´n y su definici´n debe focalizarse a considerar el rango de valores que el o o analista cree que puede ser razonablemente atribuido a los resultados de la medici´n. o Para entender los t´rminos de esa variaci´n de resultados es necesario construir e o un lenguaje com´ n de representaci´n tanto de los procesos de medici´n como de u o o representaci´n de la variabilidad. o

2.1.

Definiciones en Metrolog´ ıa

En el a˜ o 1993 varias organizaciones internacionales dedicadas a la estandarizaci´n n o de procesos de medici´n, como por ejemplo, el Bur´ Internacional de Pesos y Medidas o o (BIPM), y el International Standard Organizacion (ISO) publicaron el resultado de su trabajo para la creacion de un “Vocabulario Internacional de T´rminos B´sicos e a y Generales en Metrolog´ con el objeto de estandarizar los conceptos asociados a la ıa¸ incertidumbre de las mediciones. Sobre el m´todo de medici´n e o Como se dijo en la introducci´n el m´todo de medici´n es una secuencia l´gica o e o o de operaciones usada en la mayor´ de las mecdiconesne de acuerdo con un principio ıa dado, por ejemplo por comparaci´n directa o por sustituci´n. El procedimiento de o o medici´n es el conjunto de operaciones utilizadas en la ejecuci´n de la medici´n paro o o ticular. Usualmente el procedimiento de medici´n est´ registrado en un documento y o a contiene un grado suficiente de detalle para permitirle a un operador llevar a cabo la medici´n sin informaci´n adicional. o o As´ cualquier procedimiento de medici´n involucra la utilizaci´n de cuatro reı, o o cursos a saber: el M´todo, la Mano de obra, los instrumentos o Maquinaria y la e Muestra, o Material que se quiere medir (las cuatro eMes). Cuando se dice que una medici´n fue realizada bajo condiciones de repetibilidad o (o repetir una medicion bajo las mismas condiciones) se est´ considerando el mismo a ‘mensurando’, el mismo observador, el mismo instrumento de medici´n, utilizando las o mismas condiciones, el mismo lugar, y un corto intervalo de tiempo entre mediciones. Es decir, que cuando se habla de repetibilidad en el procedimiento las cuatro

´ 2.2. SOBRE LOS INSTRUMENTOS DE MEDICION

9

cuatro eMes permanecen iguales, mientras que la repetibilidad de los resultados se refiere a la cercania o acuerdo entre los resultados de mediciones llevadas a cabo bajo condiciones de repetibilidad. Por otra parte, cuando las mediciones se llevan a cabo bajo otras condiciones se habla de reproducibilidad, donde los cambios en las condiciones pueden ser en cualquiera de las cuatro eMes: M´todo de medici´n e o Observador Instrumento de medici´n o Patr´n de referencia o Ubicaci´n o Condici´n de uso o Tiempo

2.2.

Sobre los instrumentos de medici´n o

Primero tenemos que aclarar que un instrumento de medici´n es cualquier dispoo sitivo utilizado a realizar una medici´n, s´lo o en uni´n de otros dispositivos. o o o Cada dispositivo de medici´n tiene: o 1. Rango de indicaci´n: Conjunto de valores limitado por las limitaciones extremas o del instrumento de medici´n. o 2. Valor nominal: Valor redondeado o aproximado de una caracteristica de un instrumento de medici´n que sirve de guia para su utilizaci´n. o o 3. Intervalo de medici´n: M´dulo de la diferencia entre los l´ o o ımites de un rango nominal. 4. Valor de divisi´n: Diferencia entre los valores correspondientes a dos marcas o sucesivas del escala. 5. Resoluci´n: Menor diferencia entre indicaciones de un dispositivo de indicaci´n o o que puede ser distinguida de forma significativa.

10

CAP´ ITULO 2. MEDICIONES E INCERTIDUMBRE

2.3.

Errores, variables aleatorias e incertidumbre

Primero que nada hay que establecer que se entiende por el “error”en una medici´n. En general se supone que si se pudiera tener una medida perfecta, la cantidad o o valor del mensurando caracterizar´ a la magnitud particular que se quiere medir. ıa Esta cantidad, denotada por la letra griega µ, difiere del resultado de la medici´n Y o por una cantidad que ser´ el error de medici´n, , esto es: a o Y = µ+ (2.1)

a este modelo lo llamaremos de ahora en adelante el modelo de medidas repetidas. Hay que recordar que nunca podremos medir sin el error de medici´n y tambi´n o e que nunca podremos conocer el error, puesto que es imposible determinar el valor de µ, pero si nuestro proceso de medici´n se realiza varias veces en condiciones de o repetibilidad (inclusive de reproducibilidad) tendriamos que las sucesivas medidas, a pesar de ser distintas entre s´ deber´ mostrar valores cercanos, con una distribuci´n ı, ıan o de valores centrados alrededor de un valor. La incertidumbre en los resultados de la medici´n es consecuencia directa de que no hay un s´lo valor, sino un n´ mero infinito o o u de valores que pueden ser atribuidos al mensurando. Ahora bien, seg´ n el Vocabuu lario Internacional de Metrolog´ la incertidumbre de medici´n es un par´metro que ıa, o a caracteriza la dispersi´n de los valores que pudieran ser razonablemente atribuidos o al mensurando y no debe ser confundida con el error de medici´n. Por supuesto que o antes de realizar la medici´n no conocemos el valor de Y , por lo que decimos que o Y es una variable aleatoria. Notese que hay situaciones donde el resultado de una realizaci´n de un “experimento” no tiene error, por ejemplo si estuvieramos lanzando o un dado de seis caras; tenemos incertidumbre acerca de cu´l ser´ el resultado, pero a a una vez el dado ha sido lanzado y se detiene, el resultado es conocido sin error. Este no es el caso de las medidas realizadas en un laboratorio de qu´ ımica anal´ ıtica, pues aun cuando se haya estandarizado la muestra para que el resultado de la medici´n o sea conocido, el procedimiento de estandarizaci´n en si mismo tiene una cantidad de o factores que lo afectan y por tanto est´ sujeto a error. a De acuerdo con el modelo de la ecuaci´n (2.1), en sucesivas mediciones Y1 , Y2 , . . . , Yn , o el valor de µ no cambia, de manera que la variabilidad observada debe ser atribuida a la variabilidad del error; por ello, si el sistema de medici´n fueses lo m´s cercano a lo o a ideal, se esperar´ que los valores de 1 , 2 , . . . , n fueran cercanos a cero y que valores ıa muy alejados del cero ocurriesen con poca frecuencia. Lo cierto es que patrones en los datos repetidos nos brindan informaci´n sobre el comporamiento de los errores y por o lo tanto de la incertidumbre de medici´n. El valor de µ se suele estimar considerando o

2) de acuerdo con esto. proveniente de la limitaci´n de los intrumentos de meo dici´n en dos aspectos: o a) Errores en el proceso de calibraci´n o b) Errores por efecto de carga. VARIABLES ALEATORIAS E INCERTIDUMBRE el promedio aritm´tico de los valores observados.2. Los errores pueden surgir por multiples razones a la hora de realizar la medici´n. o siendo las mas usuales: 1. errores en el paralelaje o de intepolaci´n visual al leer enla escala de un instrumento. esto es. o 2. como presencia de campos electroest´ticos a en el area del laboratorio. al usar un principio de medici´n y o e o o considerar que se debe cumplir una ley f´ ısica determinada. ´ 4. omisi´n de operaciones o o previas a la medici´n. Errores instrumentales. errores que surgen a consecuencia de la influencia del instrumento de medici´n sobre las propiedads del objeto o o feno´meno que se mide.3. i=1 n n 11 (2. Errores de m´todo. ERRORES.1 ajustado a los datos obtenidos en el laboratorio. se podr´ considerar estimar los errores como la diferencia entre ıa el valor estimado de µ y el valor de cada medici´n: o ˆi = Yi − µ = ei ˆ donde ei lo llamaremos el residuo del modelo 2. por ejemplo.1. o cuando se utilizan relaciones emp´ ıricas para dar un valor al mensurando. por ejemplo. Clasificaci´n de los errores de medici´n o o Podemos distinguir entre los siguientes tipos de error: De ahora en adelante. etc.3. 3.o o 2. Errores debidos a agentes externos. Errores debidos al observador. esto es:1 e µ= ˆ Yi . entendiendose por esto a los errores debidos a la imperfece ci´n del m´todo de medici´n. o condiciones de temperatura o humedad. cuando un par´metro aparezca con un techo (“ˆ ”) encima se trata de un a estimador de dicho par´metro a 1 .

(Mismo analista. Error Sistematico o Sesgo: tiende a dar resultados que se encuentran siempre por encima o por debajo del valor verdadero. Ejemplo: Realizar todas las pesadas por diferencia. o a En cuanto a los errores aleatorios ellos pueden ser tratados realizando mayor n´ mero de repeticiones y teniendo en cuenta las fuentes de estos errores a la hora u de realizar las mediciones.2) a o est´ muy alejado del verdadero valor de µ. pero a´ n as´ o o u ı. Si se o a conoce de su existencia se puede compensar. el equipo no est´ calibrado). a o Lo ideal es contar con un procedimiento de medici´n que garantice que los resulo tados ser´n precisos y exactos. (Ejemplo: cuando un equipo presenta una falla. En este caso podemos considerar que la medici´n es el resultado o de sumar al error una cantidad aleatoria que puede tomar valores muy alejados del cero. el resultado de la medici´n ser´ un estimador del valor del mensurando. relativa a la variabilidad de esto es: Y = µ+ε =µ+θ+ donde θ representa dicha cantidad aleatoria.12 CAP´ ITULO 2. un paso del m´todo de medici´n no fue a e o llevado a cabo). esto es que cuando se consider´ el estimado de µ de la ecuaci´n (2. MEDICIONES E INCERTIDUMBRE Error Craso: Es decir que se present´ una falla en el proceso de medici´n y se o o requiere que el ensayo se realice de nuevo. esto es menor ser´ la dispersi´n de los valores obtenidos y por o a o lo tanto menor ser´ la incertidumbre de medici´n. Y1 = µ + µ f + δ + Y2 = µ f + δ + Y1 − Y 2 = µ + ( 1 2 1 + 2) Error Aleatorio: Variaciones que ocurren cuando las mediciones se realizan con las mismas condiciones. misma muestra). La existencia de sesgo en las mediciones conlleva a que los resultados carecen de exactitud. Ahora bien. Mientras menor sean los errores aleatorios mayor ser´ la a precisi´n del resultado. No puede ser compensado por correciones. (El analista no es capaz de juzgar cambios de color en una titulaci´n visual. Pudiera pensarse que casi cualquier procedimiento de a . el reactivo est´ contaminado. Se pesa primero el pesafiltro con la muestra y luego sin ella. en cada situaci´n es posible e o encontrar alguna estrategia que permita revelar la presencia de errores sistem´ticos a y disminuirlos aplicando correci´nes o factores de correcci´n conocidos.

o pueden ser variables ordinales.4. o de variables n´ mericas de eventos. 4: salaa do. volumen. .. en condiciones que nos permitan suponer la existencia de una poblaci´n o infinita de resultados a la que accedemos a trav´s de la escogencia de una muestra (o e conjunto finito de individuos que van a ser medidos u observados por el experimentados). intensidad.´ 2. 2.? (¿cuantas bacterias murieron en el ensayo de toxicidad?. s´lo cambiando de o o o instrumento se prodr´ logr´r major exactitud. claro est´. cuantas llamadas telef´nicas se recibieron?) o Datos Continuos: Producto de mediciones de variables que toman valores en un intervalo de n´ meros. sin embargo. temperatura. o Para cada tipo de datos hay un tipo de herramientas del arsenal del modelaje que se puede utilizar. ANALISIS EXPLORATORIO DE DATOS 13 medici´n estandarizado deberia cumplir esto. En principio supondremos que los datos han sido obtenidos en condiciones similares. es decir que tienen un orden de mayor a menor pero la escala no est´ certificada (0: sin sal. presi´n. 5: saladisimo). y el gasto s´lo se justificar´ cuando sea o ıa necesario de acuerdo con la utilizaci´n posterior de los resultados de la medici´n. 2: sabroso. hay que tener en cuenta o que cada instrumento de medici´n tiene un l´ o ımite por debajo del cual es imposible disminuir su error de indicaci´n o umbral de discriminaci´n. esto es. 1: Se detecta). 1: desabrido. es necesario distinguir entre distintos tipos de datos: a Datos Discretos: Pueden provenir de una variable cualitativa. An´lisis exploratorio de datos a Por an´lisis exploratorio de datos se entiende un conjunto de t´cnicas gr´ficas y a e a num´ricas que nos permiten estudiar los patrones y distintos comportamientos de e los datos obtenidos con el objeto de proponer modelos estad´ ısticos que nos ayuden a interpretar los datos.. Las primeras pueden ser codificaciones establecidas arbiu trariamente (0: No se detecta un analito.4. otro que se puede adaptar y otro que NO se debe utilizar. Concentraci´n. por ejemplo. u o peso. o o de manera que en muchas ocasiones tendremos que lidiar con la variabilidad de las medidas y encontrar estrategias para identificar cuando y por cuanto nos estamos equivocando. pero el costo de los intrumentos y a a los requerimientos de las condiciones necesarias para su correcto funcionamiento son proporcionales a la exactitud del mismo. Las segundas usualmente contesta la pregunta de ¿Cuanto . 3: un poco salado.

51 0.46 0.50 0. Por ejemplo considerese la Tabla 2.52 0. MEDICIONES E INCERTIDUMBRE Cuadro 2.1 donde o se realizaron en condiciones de repetibilidad cincuenta ensayos de medici´n de iones o de nitrato en una muestra de agua: En la Figura 2. esto es.4.51 0.53 0.48 0.51 0.47 0.51 0.4. El primer gr´fico (esquina superior izquierda) muestra la sucea si´n de valores en el orden temporal en que fueron adquiridos.48 0. que representa un valor que deja al 75 % de los datos po debajo y al 24 % de los datos por encima. o El segundo gr´fico (diagrama de puntos) contiene la misma informaci´n pero ahora a o considerando que los datos se obtuvieron en corridas de 10 en 10.49 0.51 0. El objetivo es detectar o la existencia de patrones que puedan indicar que hubo manipulaci´n de datos o que o hay alguna relaci´n entre las medidas en distintos momentos.49 0.51 0.1: Cincuenta medidas repetidas de la concentraci´n ion nitrato (µg/ml) dada con dos o cifras significativas en una muestra de agua.50 0.49 0.51 0.50 0.50 0. un valor que deja al 25 % de los datos por debajo y al otro 75 % por encima.49 0.53 0.1.52 0.14 CAP´ ITULO 2.50 0.52 0.49 0. La caja viene constituida por tres lineas que representan la divisi´n o de los datos en cuatro. 0.50 0.50 0. Herramientas gr´ficas a ´ Utiles cuando el conjunto de datos es relativamente grande y no se puede establecer un patr´n sencillo viendo la tabla de datos.49 0.51 0.51 0.52 0.49 0. tambi´n se presenta unas l´ e ıneas llamadas “bigotes”que .48 0.53 0.50 0.49 0.48 0.51 0. En los diagramas de caja.47 0.49 0.1 se muestra cuatro gr´ficos que se usan para observar distintos a patrones en los datos.49 0.52 0.47 0. El tercer gr´fico presenta una representaci´n de los cincuenta datos que se llama a o diagrama de caja que permite analizar conjuntamente una serie de m´didas n´ mee u ricas de los datos. la l´ ınea inferior es el Primer cuartil.51 0. la Mediana que representa el valor u observaci´n (o intervalo entre observaciones) que deja al 50 % o de las observaciones por encima y al otro 50 % por debajo de este valor y finalmente el tercer cuartil.50 0.51 0.48 0.50 0.51 2.

son una estimaci´n no param´trica del rango de los datos y se calculan o e como: L1 = q1 − f × (q3 − q1 ) L2 = q3 + f × (q3 − q1 ) donde q1 corresponde al primer cuartil.1: Descripci´n de los datos de concentraci´n o o 0. ANALISIS EXPLORATORIO DE DATOS Figura 2.46 0. es decir. En la fig 2.52 0.4.48 0. Estos “bigotes”en o realidad.50 0. proporcional a la frecuencia de ocurrencia del intervalo.46 0.46 0.50 0.47 0. Usualmente se recomienda utilizar intervalos de la misma longitud.2 una de las observaciones para reflejar un error craso.51 0.48 0.53 1 15 2 Concentracion 3 4 5 0 10 20 Index 30 40 50 0. en la Fig.50 0.52 Histogram of Concentracion 0.48 0. q3 al tercero y f es un factor que depende de ciertas suposiciones sobre la distribuci´n.48 0.49 0.54 Concentracion representan los l´ ımites esperados de la dispersi´n de los datos.5. que es simplemente un diagrama de a barras donde el area de cada barra es proporcional al n´ mero de datos que se encuen´ u tran en el intervalo que sirve de base a la barra. El cuarto gr´fico corresponde al histograma.52 0. pero los valores m´s usados son f = 0.49 0.47 0.51 0. o .75 y o a f = 1.52 0.3 se v´ como afectar´ los resultados cuando las observaciones que se llevaron a cabo en e ıa la posici´n 11 a 20 fueron realizadas por un t´cnico de laboratorio que olvid´ alg´ n o e o u paso y por tanto presentan un error sistem´tico. u A continuaci´n presentamos tres variaciones de estos gr´ficos cambiando en el caso o a de la Figura 2.4 se puede ver el efecto a de un cambio de instrumento de medici´n en alg´ n paso del proceso que aumenta la o u variabilidad (o disminuye la precisi´n) de las observaciones.´ 2.50 0.53 Frequency 0 2 4 6 8 10 12 0.46 0. 2. por lo que la altura de cada barra es proporcional al n´ mero de datos.

5 2 Concentracion 0. Si el histograma representase mediciones realizadas en las mismas condiciones se espera que.5 Histogram of Concentracion 0. por o ejemplo.2: Error Craso: 0. A este tipo de resumenes num´ricos de los datos los llamaremos e estad´sticos que pueden pensarse como el resultado de una funci´n evaluada en el ı o conjunto de datos. Lo primero que se puede plantear para un conjunto de datos es donde se encuentran localizados en el rango de posibles valores. .3 4 0. a Cuando esto ocurre.1 5 10 15 20 25 30 0. M´s sobre histogramas a Diremos que una distribuci´n de frecuencias es sim´trica si el lado derecho de o e la gr´fica (con respecto a la mediana) es la imagen especular del lado izquierdo. MEDICIONES E INCERTIDUMBRE Figura 2.2.16 CAP´ ITULO 2.3.4 3 0. lo segundo es cu´n grande es ese rango de a posibles valores.4. en ausencia de errores sistem´ticos.3 0.51 → 0.3 0.4 0.5 0. a e 2.5 Concentracion 2.15 1 0. como se dispersan los valores alrededor de un valor central.2 0.2 0 0. la media y la mediana coinciden. el histograma sea sim´trico. Medidas Numericas Un gr´fico puede ser sumamente informativo pero a veces es necesario resumir a las datos de manera n´ merica de manera que se pierda la m´ u ınima informaci´n.4. cuando se desea estimar alg´ n par´metro poblacional en base a un conjunto u a de datos observados.4 0.2 5 0 10 20 Index 30 40 50 0.3 0.2 0.4 Frequency 0.

60 1 2 17 Concentracion 0. .52 4 0.50 5 10 15 0. esto es.45 0.58 0. a valores de los datos que sean muy distintos al com´ n de los observados.50 0.50 0.60 0. .54 0. por lo que cuando se .4.46 0.3: Error Sistem´tico: Datos 11 al 22 → 0. cuando consideramos que cada punto muestral tiene la misma masa. La Moda: Es el valor muestral que m´s se repite.54 0.48 0. Entre las medidas m´s comunes se encuentran: a a La Media Muestral: Para el conjunto de observaciones x1 .07 a 0. ANALISIS EXPLORATORIO DE DATOS Figura 2.58 0. xn se define como n xi x = i=1 ¯ n Es el centro de masa de los datos.58 Histogram of Concentracion 0. Esto no ocurre con la mediana. a La Mediana: Es el valor (o intervalo entre valores) que deja al 50 % de los datos por debajo del mismo (y al otro 50 % por arriba).55 0. El valor de la media muestral (tambi´n llamado valor promedio aritm´tico) es sensible e e a observaciones extremas.50 5 0. x2 .56 0.54 0.46 0 10 20 Index 30 40 50 0. .´ 2.52 Frequency 0 0. . obtenidos en sucesivos ensayos. se agrupar´n.46 0. pues en este caso no se u comparan magnitudes sino el orden entre los datos obtenidos.48 0.60 Concentracion Medidas de localizaci´n: o Pretenden dar una idea el valor alrededor del cual los datos.56 3 0.

65 1 0. 13 x = 4. .65 0.65 Histogram of Concentracion 0.55 0.50 4 0. a n Datos:2. Algunas de las medidas m´s comunes o o a a son: Rango: Simplemente es el valor m´ximo menos el m´ a ınimo R = m´x{x1 .50 0.60 0. ¯ Medidas de dispersi´n o Se usan para cuantificar el tama˜ o del intervalo en donde los datos obtenidos de n la observaci´n de un fen´meno se encontrar´n.18 CAP´ ITULO 2.55 0.60 0.45 0. 4. . .4: M´s incertidumbre: Datos 11 al 22 a 0.60 0.55 3 0. .60 2 Concentracion 0. MEDICIONES E INCERTIDUMBRE Figura 2. .40 0. 5. .45 0.5 .65 Concentracion tiene una apreciable diferencia entre la media y la mediana hay evidencia de asimetr´ ıa del histograma y a la hora de modelar estad´ ısticamente estos datos tendr´ que ser a considerado. 33 %) = 3. xk } a ın{x T − M ean(33. .35 5 10 15 20 0. 2. 1.50 0.45 0.40 0 0.5.40 0.50 Frequency 0. Una manera de hacer la media menos sensible a valores extremos es “truncarla” La Media truncada (T-Mean): Es el valor del promedio de los datos muestrales cuando no se consideran un porcentaje de los valores extremos (los m´s a grandes o m´s peque˜ os).55 0. xk } − m´ 1 .40 0 10 20 Index 30 40 50 0.45 5 0. .

´ 2.1 0.6: Histogramas asim´tricos e Asimetr´ positiva ıa 0.00 0 10 20 30 40 50 60 0.5: Histograma sim´trico e 0. ANALISIS EXPLORATORIO DE DATOS 19 Figura 2.02 0.00 −40 0.03 0.2 0.4 Frecuencia relativa 0.03 0.04 Frecuencia relativa 0.02 0.0 −4 0.4.01 0.01 0.05 Asimetr´ negativa ıa 0.3 −2 0 2 4 Figura 2.04 −30 −20 −10 0 10 .05 Frecuencia relativa 0.

. s= n i=1 (xi − x )2 ¯ n−1 La variancia muestral: Es simplemente el cuadrado de s. Observaci´n: en la mayoria de los textos de metrolog´ y qu´ o ıa ımica an´litca se a considera a la Desviaci´n est´ndar como el par´metro asociado a la incertidumbre de o a a la medici´n. Rq = q 3 − q 1 Desviaci´n est´ndar: Es una mediada de la ‘lejan´ o a ıa’promedio de los valores con respecto a la media muestral. o Variabilidad Relativa Medida m´ ıxta: El coeficiente de variaci´n CV o Desviaci´n est´ndar relativa o o a que se define como: s DER = 100 x ¯ Es un ejemplo de error relativo.20 CAP´ ITULO 2. MEDICIONES E INCERTIDUMBRE Rango intercuantil: Es la longitud del intervalo central donde est´n contenia dos el 50 % de los datos. se puede utilizar para comparar precisiones de resultados que tienen diferentes unidades o magnitudes.

una parte esencial de las reglas del o aprendizaje.001. En principio pudieramos pensar o en construirla utilizando los datos del sistema. Lo cierto es que si hemos desarrollado un proceso de medici´n para el o que conocemos que los valores obtenidos se encuentran entre 0 y 5. lo que nos interesa a la hora de iniciar una investigaci´n o un proceso de o medici´n. que la falta de ox´ ıgeno mata la vida aer´bica y as´ sucesivamente. as´ todos nosotros tenemos cas´ certeza que ma˜ ana saldr´ el sol. pero No podemos obtener todos y cada uno de los resultados de una poblaci´n en tiempo finito y en ocasioo 21 . Un valor de 50 nos lleva a pensar que. ı ı n a que el fuego quema. que es. nos llamar´ poa derosamente la atenci´n un reporte en el que se diga que el valor del mensurando es o de 50. o ı estamos acostumbrados a pensar que el pasado sirve para comprender el futuro siendo esto realmente una suposici´n de trabajo.Cap´ ıtulo 3 Distribuciones de Referencia Las medidas n´ mericas y los gr´ficos son ‘resumenes’de los resultados obtenidos u a pero no indican la forma en que estar´n distribuidos nuevos resultados. a fin a de cuentas. teorias y heuristicas para representar la ocurrencia de eventos que est´n sujetos a a incertidumbre. Evidentemente nuestra experiencia ha construido una referencia de lo que es y no es posible que ocurra en el sistema. estamos en presencia de un cambio en el sistema de medici´n y debemos o revisar en donde ocurrieron esos cambios. ¿tambi´n concluiriamos que han ocurrido cambios en el sistema? y esto nos e lleva a preguntarnos ¿ En cuanto estamos dispuestos a aceptar desviaciones (difieren los resultados) para decidir que estamos observando cambios en el sistema? Para responder a preguntas como esta se ha desarrollado una serie de principios. Se pretende construir una distribuci´n de referencia que condense la o informaci´n sobre la medida (el estado del sistema). casi sin dudas. Claro est´ que tenemos que considerar que pasaria si el resultado hubiera sido a 5. Por supuesto una de las habilidades m´s importantes del cerebro humano o a est´ en la capacidad de sintetizar de la experiencia y establecer reglas que deber´ a ıan suceder en el futuro.

1. podemos decir que esperamos o o que el pr´ximo valor este cerca de 50 gr. obtenido o e . o Claro est´ que en ocasiones estamos interesados en hacer preguntas un poco m´s a a dificiles. Como ya hemos visto. representa una cantidad grande de mediciones (en este caso del ion nitrato). o 3. Parece natural contestar esta pregunta con negativamente. un histograma como el de la Figura ??. el e o primero A es el m´todo est´ndar. Lo que estamos haciendo al comparar contra el histograma es comparar la magnitud del mensurando contra la frecuencia de ocurrencia de magnitudes parecidas a esa. o De esta manera estamos usando la frecuencia de ocurrencia como una medida de cuan raro o no es el evento que estamos observando y esto nos permite realizar inferencias sobre la poblaci´n de medidas representadas en el histograma. La pregunta pertinente e a e es si el m´todo B puede ser considerado como una alternativa viable al m´todo A. que son fotografias parciales de la e poblaci´n. Distribuciones empiricas Si tenemos la suerte de contar con suficientes datos provenientes del sistema bajo estudio. ¿ lo aceptamos como un resultado proveniente del mismo sistema?.35 gr. Ahora. Usualmente estamos restringidos al conocimiento imperfecto adquirido a trav´s de muestras. Si nos pidieran que ‘adivinasemos´l pr´xie o mo resultado ¿qu´ contestamos?. Lo que est´ funcionando en este razonamiento es que si algo ocurre frecuentea mente es algo “natural” en el proceso. Con ella podemos construir una referencia para la ocurrencia de valores en el futuro. o relevantes para nuestro proposito. pues el valor est´ muy alejado de a los valores observados previamente. el B es un nuevo m´todo. por ejemplo considerese que se proponen dos m´todos de desulfurizaci´n.22 CAP´ ITULO 3. considerandolos valores “posibles”. es factible que no haya sido generado por el mismo fen´meno que los anteriores. es decir estamos en el campo de las ideas. si nos dijeran que el resultado fue o 0.1 A continuaci´n se muestra un resumen num´rico de los datos anteriores. Considerando la distribuci´n de los datos obtenidos e o y bajo la suposici´n que el pr´ximo dato ser´ generado por el mismo mecanismo (proo o a ceso de medici´n) que el que di´ lugar a los observados. considerando la frecuencia de ocurrencia de estos valores en el pasado. e e de verdad ¿ Hay mejora ? Los resultados de diez mediciones por cada m´todo se e muestran en la tabla 3. pero si ese valor es infrecuente. se puede considerar la distribucion empiricas de los datos observados. DISTRIBUCIONES DE REFERENCIA nes ni siquiera tenemos un sistema f´ ısico que nos permita realizar las mediciones. entendiendose por ella una manera de representar la frecuencia de ocurrencia de los eventos observados.

6 89.7 81.20 > summary(b) Min. DISTRIBUCIONES DE REFERENCIA TEORICAS 23 Cuadro 3.2.3 % m´s que el m´todo A.7 86. 91. Con esta ‘distribuci´n’de la diferencia de los promedios o podemos decidir si 1.30 83. 1st Qu. Sin embargo.70 Max.1 83.90 S.7 85. pero ¿c´mo decir si 1.D 2. 84.3 82. Esta distribuci´n emp´ u o ırica construida con los datos disponibles nos puede servir de referencia.5 84. 79.90 S.3 es ‘raro’/ o simplemente es ‘com´ n’.70 82. a o las que previamente denominamos Variables Aleatorias.1 83.33 Median 84. es decir.65 Luego de realizar los ensayos y encontrar el porcentaje de azufre eliminado. > summary(a) Min.1: 10 mediciones para cada m´todo. Distribuciones de Referencia Te´ricas o En muchos casos no es posible contar con datos hist´ricos y mucho menos contar o con la seguridad de que puedan ser usados a lo largo del tiempo. la pregunta con respecto a la mejora se transforma en una pregunta de tipo n´ merico. 89.2 91. u ¿ Es la diferencia de los resultados lo suficientemente grande como para cambiar de metodolog´ Lo que estamos viendo es que en promedio el m´todo B elimina un ıa? e 1.1 81.9 86.54 87. 85. el orden corresponde al orden temporal e A B 89. que pueden ser usadas como referencias.3 79.4 84. desulfuriza m´s.7 83.40 Mean 3rd Qu.50 Median 85. el orden corresponde al ıa e orden temporal todas las posibles diferencias de los promedios de diez datos sucesivos en las mismas condiciones.03 Mean 3rd Qu. 79.7 84.95 Max.2.D 3. en casi todos los casos se pueden establecer simplificaciones y suposiciones que permiten construir distribuciones de frecuencia de ocurrencia de los eventos basadas en consideraciones te´ricas.8 87.7 88.5 con un programa estad´ ıstico. 3.´ 3.5 84.3 % es a e a o el resultado de un cambio de m´todo o es simplemente un resultado posible a´ n e u cuando no se haya cambiado el m´todo? Una manera de pensar en esa comparaci´n e o ser´ considerar construir 10 mediciones para cada m´todo. o Para esto se considera que los eventos pueden estar caracterizados o relacionados con cantidades aleatorias que deben ser medidas en una poblaci´n finita o infinita.3 79.24 85. . 1st Qu.

24

CAP´ ITULO 3. DISTRIBUCIONES DE REFERENCIA

3.2.1.

Breve resumen de la teor´ de probabilidad ıa

Uno de los avances m´s significativos en la historia humana lo constituye el desaa rrollo de todo un cuerpo de ideas que considera el resultado del azar como algo que puede ser medido, si bien no desde el punto de vista de la completa cuantificaci´n o si desde el punto de vista de su frecuencia de ocurrencia. Esto es, considerando que se pueden presentar muchas veces la situaci´n de observaci´n de un fen´meno, cu´n o o o a frecuente es que ocurra un evento en particular. La teor´ de probabilidad considera que para un fen´meno observable de acuerdo ıa o con la ocurrencia de ciertos eventos, existe una funci´n de ese espacio de eventos o que identifica cuan frecuentemente se puede observar dicho evento en una repetici´n o de la observaci´n, llamando a esa funci´n funci´n de probabilidad. Por ejemplo, si el o o o fen´meno fuese el lanzamiento de un dado y los eventos el n´ mero de puntos que o u aparece en la cara superior despues del lanzamiento, bajo la suposici´n de que en o el mecanismo aleatorio no hay preferencia por un resultado que por otro, se puede considerar a la funci´n: o P (n) =
      
1 6

Si n = 1, 2, 3, 4, 5, 6 en otro caso

0

como una funci´n que representa la incertidumbre asociada al lanzamiento. Ciertao mente previo al lanzamiento no sabemos cual va a ser el resultado, pero tenemos bastante informaci´n sobre la frecuencia de ocurrencia de los posibles resultados. o Para que una funci´n P sea considerada como la probabilidad de un evento E o tiene que cumplir lo siguiente1 : 1. 0 ≤ P (E) ≤ 1 2. Si A y B son dos eventos disjuntos (es decir que si uno ocurre el otro no puede ocurrir), entonces p(A ∪ B) = P (A) + P (B). Esta propiedad se llama aditividad. 3. Si A y B son dos eventos disjuntos tales que su union es el conjunto de todos los eventos posibles entonces P (A ∪ B) = 1 y por la propiedad de aditividad, consecuentemente se tiene que P (A) = 1 − P (B). Si la variable X es discreta y toma valores xi , i = 1, 2, . . ., la distribuci´n de o frecuencia te´rica se puede representar con una funci´n f tal que o o Prob{X = xi } = f (xi )
Estas son condiciones m´ ınimas, si se quiere mayor detalle sobre las condiciones que debe cumplir puede consultar cualquier libro de probabilidad matem´tica a
1

´ 3.2. DISTRIBUCIONES DE REFERENCIA TEORICAS

25

Por supuesto f (xi ) ≥ 0 y i f (xi ) = 1 Ejemplo: Se supone que se tiene n muestras de las que se quiere conocer cuantas tiene contenidos de ars´nico que pueden considerarse t´xico. Llamemos a esa cantidad e o X, donde X puede tomar valores enteros entre cero y n. Si las muestras provienen de la misma poblaci´n se puede considerar que individualmente s´lo hay dos opciones: o o o contiene m´s de la cantidad o no lo contiene. Una situaci´n como esa es la llamada a o situaci´n de un “experimento Bernoulli”en el que se presentan dos resultados, uno o llamado exito y el otro fracaso. Con este esquema basta establecer cual es la probabilidad de exito, digamos p, puesto que la probabilidad de fracaso ser´ 1 − p. Bajo la a suposici´n que las n muestras fueron obtenidas de manera independiente2 , entonces o obtener k exitos y n − k fracasos tiene una probabilidad de pk (1 − p)n−1 con lo que: Prob(X = k) = 

Si la variable X es continua, lo que se requiere es una funci´n f tal que, si I es o un intervalo en la recta real: Prob{X ∈ I} =
I

n  k p (1 − p)n−k k

f (x)dx

y aqu´ f (x) ≥ 0 y f (x)dx = 1. A esta funci´n f se la conoce como funci´n de ı o o densidad de probabilidad. A la funci´n F definida como: o F (t) =
t −∞

f (x)dx

se le llama funci´n de distribuci´n acumulada de probabilidad. o o Ejemplo 1: Distribuci´n Poisson de par´metro λ o a λx f (x) = exp (−λ) x! para x = 0, 1, . . .. Este es un modelo probabil´ ıstico muy utilizado en el caso en que se pueda considerar que los eventos se refieren a la ocurrencia de un fen´meno a tasa de ocurrencia o constante, por ejemplo las llegadas de llamadas a centrales telef´nicas. o Ejemplo 2: Distribuci´n exponencial de par´metro θ o a f (x) =
2

      

0

si

x<0 x≥0

θ exp(−θx) si

se define m´s adelante a

26

CAP´ ITULO 3. DISTRIBUCIONES DE REFERENCIA

Este modelo es frecuentemente usado para la duraci´n de algun procedimiento que o tiene tasa de ocurrencia constante. (Por ejemplo el tiempo que se emplea en procesar una muestra en el laboratorio con un procedimiento est´ndar). a

3.2.2.

Valor esperado y variancia te´rica o

De la misma manera que se definieron descripciones num´ricas de conjuntos de e datos, se pueden definir descripciones num´ricas para las funciones de distribuci´n de e o probabilidad, por ejemplo: Esperanza matem´tica: Es el centro de masa de la densidad de probabilidad. a • X discreta
∞ i=0

E(X) =

xi f (xi )

• X continua

E(X) =

∞ −∞

xf (x)dx

Variancia: Es el momento de inercia de la densidad de probabilidad • X discreta
∞ i=0

V (X) =

(xi − E(X))2 f (xi ) (x − E(X))2 f (x)dx

• X continua

V (X) =

∞ −∞

La desviaci´n est´ndar, al igual que en el caso discreto es igual a la ra´ cuadrada o a ız de la variancia y es una medida de la incertidumbre te´rica asociada a la variable o X.

3.2.3.

Dependencia e Independencia de eventos

Volvamos al ejemplo simple del lanzamiento del dado. Ciertamente antes de lanzar el dado lo unico que sabemos es que la frecuencia de ocurrencia del evento es 1/6. ´ Ahora supongamos que salimos de la habitaci´n, alguien lanza el dado y nos avisa o que el resultado fue un n´ mero impar. ¿ tenemos la misma incertudumbre que la u que teniamos previo a ese aviso?. La respuesta es no, puesto que ahora los unicos ´ resultados posibles en el lanzamiento son el 1, el 3 y el 5. El aviso es un evento informativo sobre el resultado del experimento y por tanto estamos en una situaci´n o con m´s informaci´n. a o

LA DISTRIBUCION NORMAL Y EL TEOREMA CENTRAL DEL L´ IMITE27 Si A y B son dos eventos se define la probabilidad de A condicional a la ocurrencia de B como: P (A ∩ B) P (A|B) = P (B) donde el lado izquierdo de la ecuaci´n se lee: “probabilidad de A dado B” . la representaci´n desde el punto de vista de la o frecuencia de ocurrencia tien un modelo teorico. o En t´rminos de probabilidad condicional lo que se tiene es que si los eventos son e independientes P (A|B) = P (A) y en consecuencia P (A ∩ B) = P (A)P (B) a esta ultima se la conoce como la regla de la multiplicaci´n de probabilidades de ´ o eventos independientes. esto a es. La distribuci´n normal y el teorema central o del l´ ımite Al hablar del modelo de medidas repetidas Y = µ+ deciamos que si el procedimiento de medici´n era adecuado. considerando que las diferencias entre medici´n y medici´n provienen de una ‘acumulaci´n’de errores y causas aleatorias en o o o el proceso.´ 3. esperariamos que el histograma de las mediciones fuera sim´trico alrededor del e valor real del mensurando. y no tendr´ o ıamos ninguna raz´n o para pensar que errores positivos fueran m´s frecuentes que errores negativos.3. Ahora bien. o Ahora dos eventos son independientes si la ocurrencia de uno de ellos no aporta informaci´n sobre la ocurrencia del otro. o dicho de otra manera: = Suma de muchas cosas aleatorias Teoricamente se demuestra que la suma de muchas (infinitas) cosas aleatorias que tienen como valor esperado µ y variancia finita. que se representa con la funci´n de densidad: o o f (x) = √ 1 (x − µ)2 exp − σ2 2πσ 2 . es decir. tienen una distribuci´n que se puede o identificar como ‘normal´ gaussiana. 3. se esperar´ que los errores o ıa de medici´n estuvieran cercanos en magnitud al cero.3. no disminuye su incertidumbre.

Esto nos permite considerar como o estimados de los par´metros de una distribuci´n normal a los valores de la media y a o la variancia muestral de los datos observados. En el intervalo (µ−σ.3 0.4 −2 −1 0 1 2 .96) y en (µ − 2 × σ.1 Densidad Normal 0. pues empirio camente verific´ que datos provenientes de muchos fen´menos que pueden pensarse o o como consecuencia de m´ ltiples efectos aleatorios tenian histogramas aproximados a u la curva normal. la campana est´ centrada en µ y o a a los punto de cambio de concavidad se encuentran en µ − σ. DISTRIBUCIONES DE REFERENCIA Galton fue uno de los primeros investigadores en considerar a la distribuci´n noro mal como el modelo te´rico de la frecuencia de ocurrencia para datos. se obtiene que el valor esperado o o es igual a µ y la variancia te´rica es igual a σ. σ = 1 3 Para una distribuci´n con par´metros µ y σ. µ + 2 × σ) el 99. Figura 3. L´ ımites de confianza para la media Una caracteristica de una muestra de n datos distribuida normalmente N (µ.23 % de los resultados.0 0. con valor esperado µ ¯ e a −3 0. µ + σ. (El 95 % exacto se obtiene cambiando el 2 por 1.79 %.41 %. σ) es que la media muestral x tambi´n est´ distribuida normalmente.2 0. 3.28 CAP´ ITULO 3. µ+2×σ) el 95.1: La densidad de una distribuci´n normal. µ+σ) se espera encontrar el 68. Es interesante notar que si se realizan los c´lculos correspondientes al valor espea rado y a la variancia para esta distribuci´n te´rica. en (µ−2×σ. de par´metro o a µ = 0.4.

96 × √ ) x ¯ n n que contiene a µ. x + 1. Este ultimo intervalo es el llamando Intervalo de confianza al 95 % ´ de la media. por supuesto.96 × √ . estimaci´n que contiene su o a o cuota de incertidumbre con respecto al valor de σ. o Esta distribuci´n se la conoce con el nombre de Distribuci´n t (de Student. L´ IMITES DE CONFIANZA PARA LA MEDIA 29 σ y desviaci´n est´ndar √n . o o aunque quien la propuso se apellidaba Gosset) con n − 1 grados de libertad. cuando se habla de un resultado de una medici´n no tiene sentido dar o unic´mente un valor puntual. hace falta establecer un intervalo en el que razonablea mente se pueda suponer que contendr´ al valor real µ. ¯ . Esto de grados de libertad se refiere al n´ mero de desviaciones (xi − x) que se requieren u ¯ para calcular s cuando se conoce x. tambi´n es razonable pensar que el 95 % de las muestras nos dar´n un e a intervalo σ σ (¯ − 1.3.96 × √ . dependiendo del tama˜ o de la muestra que se est´ utilizando para la n e estimaci´n de σ. Ahora bien.96 × √ ) n n o dicho de otra forma: σ |¯ − µ| < √ x n con lo que. Cuando no se tiene el valor de sigma (¿ Y cuando es que se tiene ?!!) es necesario estimar σ. o o o es razonable esperar que el 95 % de las muestras nos den valores medios (promedio aritm´tico) que se encuentren en el intervalo e σ σ (µ − 1. 1) pero que tiene m´s masa o a en las colas. En este caso lo que pasa es que el cociente x−µ ¯ s √ n = √ n x−µ ¯ s tiene una distribuci´n que se parece a la Normal N (0.4. a Si consideramos como distribuci´n de referencia te´rica a la distribuci´n normal. µ + 1. utilizando la desviaci´n est´ndar muestral s. Notese que el intervalo antes mencionado necesita el valor de σ. que a no hay errores sistem´ticos. o a Esto dice que a mayor n menos desviaci´n debe esperarse de las mediciones de la o media en torno a µ. asumiendo.

Varias recomendaciones se encuentran en la literatura: Uso de un material de referencia: Permite obtener informaci´n sobre el efecto o combinado de muchas fuentes potenciales de incertidumbre. o Por ejemplo cuando se reporta el Error m´ximo permisible (Em ) de un a equipo. como por ejemplo. puesto que usualmente hay fuentes de error que no han sido consideradas. o • Informaci´n de estudios entre laboratorios. s s (¯ − tα/2 × √ . De esta manera. o Pero hay que considerarlos con cuidado. ¿ Qu´ se puede hacer en el caso en que no se disponga e de tantas mediciones?. 3. u u . x + tα/2 × √ ) x ¯ n n Usualmente para obtener experimentalmente un buen valor de aproximaci´n de σ se o realizan n = 15 mediciones.30 CAP´ ITULO 3. la variancia es: V ar(X) = Em x2 E2 dx = m 3 −Em 2Em √ con lo que la desviaci´n queda estimada con Em / 3. Esto quiere decir que no se puede considerar la reproducibilidad reportada en un m´todo como la medida de e incertidumbre para ser utilizada en nuestro estudio pero es una guia sobre lo que se puede esperar • Uso de criterio de expertos. pre-tratamiento para homogenizar. DISTRIBUCIONES DE REFERENCIA Ahora para calcular el intervalo de confianza (100×(1−α) % hay que considerar las ecuaciones anteriores consiguiendo el valor tα/2 que sea razonable que el (1−α)×100 % de las muestras caigan en ese intervalo. etc. Distribuci´n conjunta y Propagaci´n de Erroo o res Una buena parte de los resultados de mediciones qu´ ımicas son obtenidos como un valor n´ merico que depende de un n´ mero de mediciones intermedias observables. Estimaci´n basada en resultados previos: Cuando no es posible realizar ning´ n o u ensayo es necesario encontrar algunas fuentes alternativas de informaci´n: o • Informaci´n dado por los suplidores de equipos.5. el muestreo. y no se tiene m´s informaci´n se puede suponer que la distribuci´n a o o de cualquier valor medido es “Uniforme”entre los valores de ±Em .

desde el punto de vista de la teor´ de probabilidad tenemos que considerar como se distribuyen conjunıa tamente las variables a y b. en pricipio. Si estamos en este caso. esto es: E(A + B) = E(A) + E(B) m´s a´ n. donde fa es o la funci´n de densidad que define la probabilidad (marginal) de los resultados de la o medida de a y fb la correspondiente a b. . por ejemplo considerar la probabilidad de los eventos{a ≤ a0 .5.5.3) . entonces se tiene 2 2 V ar(ψ1 A + ψ2 B) = ψ1 V ar(A) + ψ2 V ar(B) (3.1. . entonces se dice que a y b son independientes.1) En el caso de las variancias Si las variables son independientes. . o que al conocer el resultado de uno no se gana informaci´n sobre el resultado de otro. si ψ1 y ψ2 son constantes (sin error ni incertidumbre) se tiene que a u E(ψ1 A + ψ2 B) = ψ1 E(A) + ψ2 E(B) (3. b ≤ b0 } es decir encontrar una funci´n de dos variables tal que: o P ({a ≤ a0 . esto es. x2 )dx1 dx2 Si ocurre que f (x1 . . c. x2 ) = fa (x1 )fb (x2 ) (regla de la multiplicaci´n!!). e Para establecer cual es la incertidumbre asociada a Y es necesario entender como interactuan las mediciones en los resultados intermedios. Suma de variables aleatorias Si se tienen dos variables aleatorias A y B cuya distribuci´n conjunta de probalidad o se conoce se puede demostrar matem´ticamente que el valor esperado de la suma es a igual a la suma de los valores esperados. b. debemos ver si hay alguna funci´n de probabilidad o que nos permita. b ≤ b0 }) = a0 b0 −∞ −∞ f (x1 . .2) (3.) donde a. DISTRIBUCION CONJUNTA Y PROPAGACION DE ERRORES 31 El resultado final puede ser una combinaci´n de las medidas que puede. esto es. Lo ideal es que encontrar un resultado intermedio (digamos a) no proporcione informaci´n sobre la magnitud del o resultado intermedio b. Ahora bien. representan bloques del trabajo en el m´todo empleado.´ ´ 3. Y = f (a. Por supuesto que lo que sucede en el laboratorio es que se procura realizar los bloques de medici´n de manera que no se puedan considerar dependientes. . o expresarse algebraicamente. o 3. es intuitivamente l´gico que digamos o que las variables aleatorias a y b son independientes.

. si lo que se tiene es que la medida final es una Combinaci´n L´neal o ı de bloques Y = k + k a a + kb b + kc c . . la incertidumbre de la medici´n puede ser expresada como: o d. . . . pero se puede o o considerar “linearizar”la funci´n utilizando para esto la aproximaci´n en series de o o Taylor de una funci´n continua y diferenciable de varias variables y aplicar la ecuaci´n o o 3. y considerando como la incertidumbre a la desviaci´n est´ndar de una variable. con valor esperado ¯ µ y variancia σ 2 .(Y ) = σY = (ka σa )2 + (kb σb )2 + . . Xm independientes. en el caso en que suponemos que las medio ciones que dieron lugar a a. Propagaci´n de errores o Utilizando las expresiones anteriores. . se puede aproximar la incertidumbre de una o a medida que se lleva a cabo en bloques.3 a los sumandos resultantes de la serie. si las medidas son INDEPENDIENTES σY = ∂Y ∂a 2 2 σa + ∂Y ∂b 2 2 σb + ..(Y ) = σY = k × Y σa a 2 + σb b 2 +. c. si X representa el promedio aritm´tico de las variables: e ¯ E(X) = µ 1 ¯ V ar(X) = 2 n n V ar(Xi ) = i=1 σ2 n 3. Con ello se puede ver que.3 nos permite encontrar. identicamente distribuidas. Si ahora lo que se tiene es una Expresi´n multiplicativa o Y = k(abc . . . . b.3.. . .32 CAP´ ITULO 3. como una “Propagaci´n”de las incertidumbres o asociadas a los bloques. X2 .5. .e.e. Por ejemplo. . fueron hechas Independientemente entonces. DISTRIBUCIONES DE REFERENCIA Una aplicaci´n importante de estos resultados es que si se tienen n variables aleao torias X1 .) se complica un poco la utilizaci´n de las reglas en la ecuaci´n 3. la ecuaci´n 3. . entonces. con la suposici´n o de que las mediciones fueron hechas independientemente: d.2. . En lineas generales.

N F Calcule el contenido total de carne Mtot Los componentes de incertidumbre: (c´lculo de Pmeat ) a • N F . (obtenido por ejemplo con el an´lisis de Kjeldahl). DISTRIBUCION CONJUNTA Y PROPAGACION DE ERRORES Si las medidas NO SON INDEPENDIENTES.xj donde σxi ..xj es un indicador de la relaci´n lineal entre xi y xj que se conoce con el o nombre de Covariancia y se calcula considerando la funci´n de distribuci´n conjunta o o entre xi y xj .. xj ) = E[xi − E(xi ))(xj − E(xj )] Ejemplo: ¿ Como estimar la incertidumbre de la medici´n del contenido de carne para dos tipos o de muestra. esto es mucho mas complejo: 33 2 σY = i ∂Y ∂xi 2 2 σx i + ij ∂2Y ∂xi ∂xj σxi .5. Cov(xi . uno con aditivo con base a nitr´geno y otra con proteina de soya? o M´todo: El contenido total de carne.´ ´ 3. a Paso 1 2 3 4 Descripci´n o Cantidad Determine el contenido de grasa Ftot Determine el contenido de nitrogeno en la Nmeat carne Calcule el contenido de carne ‘desgrasada’ Pmeat . Mtot es dada por e Mtot = Pmeat + Ftot donde Pmeat = total de proteina de la carne ( %w/w) Ftot = total de contenido de grasa ( %w/w) Pmeat = 100 ∗ Nmeat NF con N F un factor de nitrogeno espec´ ıfico del material y Nmeat el contenido total de nitrogeno en la carne. conocimiento incompleto del material • Reproducibilidad del m´todo e • Sesgo ? .

0212 + 0.16 de σ de 2√3 = 0. Si lo consideramos como una uniforme en el intervalo. e.65 UPmeat = Pmeat × = 90.E.11 0. se puede expresar como: SR = 0.052 • Para Ntot la informaci´n pertinente se basa en un estudio de colaboraci´n o o entre laboratorios.34 ¿ Como estimarlos? CAP´ ITULO 3.relativa N F )2 0. El rango observado es de 0.29 Nmeat = 100 ∗ = 90. relativa 5.65 0. En este estudio se encontr´ que la desviaci´n estandar o o de reproducibilidad SR .1 × (D.57.16. [3. para el que σ = 0.E.6 UMtotal = 2 2 UPmeat + UFtot = 2.5 0. (Si suponemos que E(X) = µ1 = µ + sesgo) E(X − µ)2 = E(X − (µ1 − sesgo))2 = V ar(X) + sesgo2 • Para Ftot : Desviaci´n estandar de 0.g.021 3.072 0.005Ntot .5 Si un nivel del 95 % de confianza es requerido.02 3.E.1 % NF 3. basado en un estudio que contiene muchas muestras. 3.73].6 ± 5 % .021 × Ntot (utilizando una recta de regresi´n por el origen) Tambi´n se encontr´ que o e o es posible un error sistem´tico de 0. esto nos da un estimado 0.046. Contribuci´n al error total no a o importante.relativa Nmeat )2 + (D. • En otra referencia puede encontrarse un estimador de σ para N F .052 0. el reporte del contenido de carne es: 95.29 0. DISTRIBUCIONES DE REFERENCIA • La incertidumbre en N F puede se estimada a partir de algunos rangos de valores publicados.02Ftot o Param´tro e Ftot ( %) Nmeat NF Valor U D.014 Pmeat = 100 ∗ 3.026 Mtotal = Pmeat + Ftot = 95.0142 = 0.

o unidad a experimental. Las hip´tesis forman o e o o parte del modelo conceptual del sistema bajo estudio y la validaci´n usualmente eso ta basada en el comportamiento de algunas propiedades que pueden ser medidas u observables. Para ello es necesario no solamente estimar el valor de interes sino tambi´n una medida de la variabidad de esperada en los resultados de la e medici´n. estos tratamientos ser´n aplicados a alguna muestra. que constituyen un conjunto de factores que no pueden ser controlados por el experimentador.1. que a su vez necesitan ser validados. La mayoria de los experimentos reales est´n expuestos a diversas fuentes de erroa res. Principio de la Navaja de Occam Llamado as´ en honor al Fraile Guillermo de Occam u Ockham (1285-1348) (?) es ı un principio b´sico del pensamiento cient´ a ıfico al considerar: “Pluralitas e dispensata sine necessitatem” 35 .Cap´ ıtulo 4 Pruebas de Significancia. o 4. Por supuesto. As´ el tratamiento de los resultados para obtener ı. piense simplemente en el error de medici´n o el la diferencia entre las distintas o unidades experimentales. factores o tratamientos. muestreo y experimentaci´n o En todo sistema de conocimiento cient´ ıfico se considera la validaci´n de las hip´teo o sis planteadas sobre un fen´meno a trav´s de la experimentaci´n. conclusiones validas debe ser llevado a cabo usando m´todos estad´ e ısticos. De esta manera podemos pensar que el objetivo de la experimentaci´n o es el estudiar el efecto que sobre una (o varias) variable(s) de respuesta tiene un conjunto de otras variables que llamaremos variables experimentales.

y por lo tanto es o a la que se prefirir´ de acuerdo con el Principio de la Navaja de Occam siempre que ella a explique lo observado satisfactoriamente. MUESTREO Y EXPERIMENTACION “non sunt multiplicanda entia praeter necessitatem” o dicho de otra manera. A esta hip´tesis la llamaremos Hip´tesis o o B´sica o nula y la denotaremos por H0 . la raz´n para preferir la explicaci´n o o complicada debe ser que esta explica mejor el fen´meno observado. uno que supone que no hay cambios en las condiciones y las diferencias observadas son producto de influencias aleatorias. PRUEBAS DE SIGNIFICANCIA. una que requiere mayores supuestos que la otra. o Ciertamente tendriamos que observar inconsistencias suficientemente grandes entre consecuencias de la suposici´n sencilla y lo que efectivamente estamos observando o para preferir la hip´tesis alternativa. La primera hip´tesis es la m´s sencilla.´ 36CAP´ ITULO 4. y el otro que considera que los cambios en las condiciones efectivamente influyen en el observado en el sistema. . En a nuestro caso. o Las pruebas de hip´tesis estad´ o ısticas consideran el contraste de dos posibles resultados. o En las pruebas estad´ ısticas de significancia se utiliza el lenguaje ‘legal’. se debe preferir y utilizar la m´s sencilla. Decidimos por H0 cuando no hay suficiente evidencia que nos indique que estamos equivocados al preferirla. el que debe ser u a utilizado para la predicci´n ser´ el modelo con el menor n´ mero de par´metros. es decir. que cuando se consideren varias explicaciones equivalentes para un fen´meno (conjunto de teor´ o ıas). que no se pueden identificar. o a u a Una consecuencia de este principio es que si tenemos dos posibles explicaciones. o Ejemplos de hip´tesis b´sicas: o a No hay desviaciones sistem´ticas en las mediciones a No hay diferencias en los promedios de las mediciones de los laboratorios No hay diferencias en los resultados de los procedimientos de desulfurizaci´n o No hay efecto de los cambios de temperatura en la concentraci´n. las explicaciones de los fen´menos que estamos analizando la constituo yen los modelos estad´ ısticos y el Principio de la Navaja de Occam es equivalente al Principio de Parasimonia que considera que si hay varios modelos que explican los datos con la misma precisi´n y se define la complejidad de cada modelo en funci´n o o del n´ mero de par´metros que deben ser estimados para el ajuste. la hip´tesis m´s compleja se conoce como a o a Hip´tesis Alternativa.

o ıa e o podemos decidir por la hip´tesis alternativa. puesto que si rechazo H0 sin necesitarlo. esto es. ejemplos de como tomar decisiones bajo incertidumbre. Errores en las pruebas Las pruebas estadisticas son en verdad. o a o 2.4. o error de tipo I esta asociado al Principio de Parsimonia. ¿ Se sigue usando a a el procedimiento de desulfurizaci´n o se prefiere el nuevo procedimiento?. Estrategia de decisi´n o Como se plante´ en la secci´n anterior. cuando la mejor manera ser´ a trav´s de la alternativa. La necesidad de establecer una prueba de signficancia estad´ ıstica radica en que no se conoce c´ al es el mecan´ u ısmo que est´ influyendo en el fen´meno de a o manera completa. ERRORES EN LAS PRUEBAS 37 4. o . o pero tenemos que decir utilizar una de ellas. El segundo error o error de tipo II usualmente tiene consecuene cias econ´micas. estoy complicando la interpretaci´n del modelo tamo bi´n !’Sin necesitarlo!. o o a 1 Recordemos que un estad´ ıstico es una funci´n que resume los datos muestrales. y as´ suceo ı sivamente. El primer error. Considerar que la hip´tesis b´sica es la que explica mejor el fen´meno. puesto que se decide cambiar la l´ o ınea de produccion consdierando que se va a obtener un mejor rendimiento y en realidad no es as´ ı.3. Esto nos dice que estamos expuestos a comenter un error de juicio. el problema es decidir sobre cual hip´tesis o o o utilizar cuando se cuenta con poca informaci´n. Para decidir a favor de una u otra hip´tesis lo que hacemos es: o 1. Con los datos disponibles construir un estad´ ıstico cuyo valor refleje la discrepancia entre las hip´tesis1 del que se pueda obtener una Distribuci´n de o o Referencia basada en la consideraci´n de que la hip´tesis b´sica se cumple. y abandonar el uso de la hip´tesis o o sencilla cuando en realidad es ella suficiente para explicar lo observado.2. En definitiva. La informaci´n disponible usualo o mente viene dada como una muestra. por ejemplo. no conocemos cual hip´tesis se ajusta mejor a la realidad.2. podemos decidir que la hip´tesis b´sica es suficiente o a para explicar el fen´meno. s´lo tenemos un conjunto usualmente peque˜ o de experieno n cias y resultados de ensayos pero es necesario tomar una decisi´n. ¿Se o calibra el equipo si es que est´ presentando un error sistem´tico?. como resultado de un conjunto de ensayos o experimentos. Resumen de posibles errores en las pruebas estad´ ısticas Realidad Decisi´n Hip´tesis Alternativa o o Hip´tesis Nula o H1 No Error tipo I H0 Error tipo II No 4.

MUESTREO Y EXPERIMENTACION 3. variancia σ 2 ). de maa o a a nera que cada observaci´n puede pensarse que viene dada por el modelo de medidas o repetidas.4 37. En el ejemplo. Si no es compatible. o o .1.1 % ¿ Alguna evidencia de error sistem´tico? a ¯ El valor que reporta el metodo (X ± s) es de 37. o entonces decido a favor de H0 . (H0 ). decido a favor de H1 Ejemplo: En un m´todo para determinar mercurio por la t´cnica de absorci´n at´mica de vapor e e o o frio se obtuvieron los siguientes valores en un material de referencia que contiene 38. esto es: Yi = µ + ε i ´ εi se supondr´ que es una variable ALEATORIA con DISTRIBUCION NORMAL a (media = cero. ´ Entonces BAJO LA HIPOTESIS NULA el estad´ ıstico ¯ ¯ X −µ √ X −µ t= = n s √ s n tiene una distribuci´n de referencia conocida (La t de Student con n − 1 grados de o libertad).964 y debe comportarse (bajo la hip´tesis b´sica) como un n´ mero proveniente de una o a u distribuci´n t con 2 grados de libertad. Siendo un nuevo procedimiento no hay datos que nos permitan construir una distribuci´n de referencia o emp´ ırica para los promedios de tres mediciones repetidas.8 − 38. PRUEBAS DE SIGNIFICANCIA.8 % ± 0.964 %.´ 38CAP´ ITULO 4.98 0. Comparaci´n de las medias de dos muestras: o El ejemplo t´ ıpico es cuando se tienen dos m´todos anal´ e ıticos y se quiere ver si est´n a dando resultados equivalente. el valor OBSERVADO de t es igual a t= (3) 37.9. 37. que NO hay error sistem´tico. Esta distribuci´n de referencia es la que se usar´ para construir una regla de o a decisi´n: o Si el valor del estad´ ıstico es compatible con la distribuci´n de referencia.3. Se supondr´ como hip´tesis b´sica.9 % de mercurio: 38. o 4. Primero supondremos que tienen la misma variancia esto es que tienen la misma precisi´n de medici´n.9 = 1.

Lo primero que hay que hacer para obtener informaci´n es proponer un modelo o que respresente a este conjunto de datos.E(¯1 ) + V.25 con 7 ensayos. para el m´todo i: e e Yij = µi + εij .3. j = 1.E(¯2 ) y y y1 − y 2 ¯ ¯ = + s2 ) n2 −6 0. ni con εij i.0 0.´ 4. esto es. . .i.1 Densidad 0. .3 0. s´lo que fueron realizados o en dos bloques de medici´n.3. 28.1: Descripci´n de los datos de concentraci´n o o 6 39 Comparaci’on de Normal con t con 2 g. En este caso lo que tenemos son dos muestras iguales. en 10 ensayos.l 2 4 Ejemplo: Con el primer m´todo se obtuvo x ± s. 2.0 ± 0.2 0.d. . lo que podemos es considerar una extensi´n o del modelo de medidas repetidas para cada m´todo. De acuerdo con el modelo esto es o equivalente a suponer que µ1 = µ2 . 25 ± 0. Normales (0. y con el segundo e ¯ 26. o En este caso se puede calcular la desviaci´n estandar conjunta como o s2 = (n1 − 1)s2 + (n2 − 1)s2 2 1 n1 + n 2 − 2 y1 − y 2 ¯ ¯ s2 n1 Entonces se puede construir el estad´ ıstico t de comparaci´n: o V.4 −4 −2 Medicion 0 . ESTRATEGIA DE DECISION Figura 4. σ) (donde σ no depende de i) Hip´tesis de trabajo: No hay diferencias.

en este caso el estad´ ıstico t ser´: a ¯ ¯ Y2 − Y1 t= S1 + S2 n1 n2 y se puede utilizar la distribuci´n t como una aproximaci´n de la distribuci´n de este o o o estad´ ıstico. MUESTREO Y EXPERIMENTACION donde V.0 − 26.267 10 + 1 6 Este valor se encuentra en una regi´n de probabilidad menor de 1 %. Comparaci´n de variancias o En la secci´n anterior supusimos que las variancias de las muestras eran iguales. y o de nuevo la pregunta: ¿cuan lejos hay que estar de uno para afirmar que tenemos suficiente evidencia para rechazar la hip´tesis de trabajo?. no se puede utilizar la estimaci´n o ponderada de la variancia. . tiene dos par´metros que equivalen a los grados de libertad del numerador (el primero en a las tablas) y del denominador (el segundo en las tablas). por lo que o se concluye que la evidencia no favorece a la hip´tesis b´sica. (las muestras provienen de la misma poblaci´n) la diso a o tribuci´n de referencia te´rica de este estad´ o o ıstico es la distribuci´n t con n1 + n2 − 2 o grados de libertad. Sirve tambi´n cuando el estad´ e ıstico se contruye como un cociente de sumas de cuadrados divididos por sus grados de libertad 4.69 t= 1 0. e 4.25 = 12.E quiere decir variancia estimada.2. este cociente debe estar cerca de uno. o En este caso el estad´ ıstico que se utiliza es el cociente: s2 1 F = 2 s2 Si nuestra hip´tesis de trabajo se cumple. o La distribuci´n F de Fisher ES LA DISTRIBUCION DE REFERENCIA TEOo RICA cuando se supone que los valores utilizados provienen de una NORMAL. o Una manera de verificar esto es considerando una prueba estad´ ıstica. s= 9(0.´ 40CAP´ ITULO 4.3. Comparaci´n de medias (2da parte) o Si se tiene que las variancias son distintas.281 9+6 28. cuya Hip´tesis o = 2 de trabajo es nuestra suposici´n: H0 : σ1 σ2 .25)2 = 0.3)2 + 6(0.3. que deberiamos o a considerar que los m´todos no nos estan dando los mismos resultados. esto es. PRUEBAS DE SIGNIFICANCIA.3. Bajo la hip´tesis b´sica.

Es por eso que se consideran o los bloques definidos como un grupo de material experimental homogeneo que puede ser dividido en unidades experimentales sobre los que se aplican los tratamientos En el libro de Box-Hunter-Hunter se realiza el siguiente comentario: Bloquee lo que pueda. Por supuesto en ese caso hay una cantidad de factores. Evitar la dependencia entre las observaciones Bajo esta suposici´n es posible validar los procedimientos de an´lisis estad´ o a ıstico m´s a comunes como por ejemplo la famosa prueba t de diferencia entre tratamientos. aleatorize lo que no pueda .4.4. que van a cambiar los resultados de los ensayos. otros no. Esto se realiza con el fin de: 1. las diferencias observadas pueden ser atribuidas tanto a la diferencia entre los tratamientos como a la diferencia a las unidades experimentales. PRUEBAS ESTAD´ ISTICAS Y EXPERIMENTOS 41 4. Cuando los cambios son intencionales nos encontramos en una situaci´n donde el observador o est´ experimentando. A veces no es posible cumplir con este principio. Si se coloca los distintos tratamientos de manera aleatoria y se toman las medidas. o El principio de Aleatorizaci´n o La suposici´n es que los factores no controlados por el experimentador se asignan o de manera aleatoria a las unidades experimentales.4. De aqu´ surge la pregunta: ¿Puede hacer el experimentador ı algo para que los an´lisis estad´ a ısticos basados en una distribuci´n de referencia sean o validos y las conclusiones de las pruebas de significancia puedan ser extrapoladas m´s a alla de la muestra considerada?. como por ejemplo en el caso de un experimento con un material carbonoso proveniente de distintas minas ( % distintos de carbon en cada muestra). por ejemplo cuando de antemano sabemos que nuestras unidades experimentales no son homogeneas. Pruebas estad´ ısticas y experimentos Cuando se est´ usando una prueba estad´ a ıstica implicitamente se est´ considerando a una situaci´n en la que o bien se sospecha que han ocurrido cambios en las condiciones o o intencionalmente se han introducido los cambios en las condiciones. algunos a que pueden ser controlados por el experimentador. que se suponen intercambiables. Prevenir la existencia de sesgos 2. Para responder esta pregunta es necesario considerar como se procede a la medici´n y como se asignan los tratamientos a las diferentes unidades experimentales. Necesariamente tenemos que planificar nuestra experimentaci´n o con el objetivo de separar estas dos fuentes de variaci´n.

2. Experimentos con un factor con k niveles: El modelo usual para los experimentos de este tipo supone que las diferencias entre los valores de los k grupos se reflejan fundamentalmente en la localizaci´n de o las muestras (sesgo entre ellas) y no en la variancia. diferencias entre los distintos niveles del factor. bajo las suposiciones usuales de normalidad de los errores e independencia entre los ensayos se puede probar la hip´tesis H0 :αi = 0 para todo i. j = 1.´ 42CAP´ ITULO 4. Descomposici´n de las observaciones: o ¯ ¯ ¯ ¯ Yij − Y = (Yi − Y ) + (Yij − Yi ) Para esto. k . lo que equivale a decir que en la ecuaci´n siguiente: o Yij = µi + εij = µ + αi + εij i = 1. Suposiciones usuales: εij ∼ N (0. . Ahora bien. ni . 4. contra o la alternativa H1 :alg´ n αi es distinto de cero usando una comparaci´n entre dos esu o timados de la variancia muestral bajo la hip´tesis nula. cuya distribuci´n es conocida o o . es decir. 2. n = ni los errores ε se suponen identicamente distribuidos (usualmente tambi´n se supone e que la distribuci´n es normal y que los ensayos se realizaron de manera independiente. de manera que es necesario medir el tama˜ o de la dispersi´n o la n o variabilidad de los resultados obtenidos en distintas realizaciones del ensayo bajo condiciones similares. .5. Un experimento bien dise˜ ado es un experimento que n a pesar de las dificultades inherentes al sistema es capaz de soportar un modelo que aporta informaci´n con un m´ o ınimo de ensayos experimentales. . del 5 %). Por supuesto. si existen. MUESTREO Y EXPERIMENTACION Este comentario est´ en el fondo de toda la experimentaci´n llevada a cabo usando a o los conocimientos estad´ ısticos. . PRUEBAS DE SIGNIFICANCIA. σ 2 ). independientes. El objetivo de estos experimentos es encontrar. . al ser nuestros datos solo ejemplos de los efectos de estos niveles nuestra inferencia ser´ estad´ a ıstica. en cada ensayo obtenemos informaci´n contaminada por los factores o no controlados. o con la asignaci´n de las unidades experimentales a los tratamientos hecha en orden o aleatorio. que podemos mostrar que hay diferencias con un nivel de confianza fijo (por ejemplo. .

5.4. EXPERIMENTOS CON UN FACTOR CON K NIVELES: 43 Fk−1.n−k = ¯ ¯ n i ( Y i −Y ) 2 k−1 ¯ (Yij −Yi )2 n−k Si esta fracci´n es mucho mayor que el valor cr´ o ıtico para el nivel de la prueba especificado. se dice que hay evidencias a favor de la diferencia entre los tratamientos. ˆ µ=Y ˆ ¯ SCP F p Con esto se puede hablar de los estimados de pr´ximos valores de Yij o ˆ ¯ ¯ ¯ Yij = µ + αi = Y + (Yi − Y ˆ ˆ y de los RESIDUALES: ˆ ¯ eij = Yij − Yij = Yij − Yi Si la prueba global nos permite pensar que tenemos diferencias en los efectos de los nivels del tratamiento hay que realizar comparaciones m´ ltiples.k Total n-1 ESTIMADOS DE LOS EFECTOS: ¯ ¯ α i = Yi − Y .5. Tabla ANOVA Fuente GL SC Entre tratamientos k-1 Dentro del tratamiento n .1. M´todo de la Diferencia M´ e ınima significativa Intervalo de confianza para la diferencia µi − µj ¯ ¯ Yi − Yj − (µi − µj ) ∼ tn−k 1 s ni + nj ˆ 1 M´todo de comparaci´n usando una distribuci´n de referencia: e o o ¯ Yi − µ i √ ∼ tn−k s/ n ˆ ¯ . para u responde donde est´ la diferencia: a 4.

. MUESTREO Y EXPERIMENTACION • Problema: Si tenemos m´ ltiples comparaciones u ˆ ˆ Prob |Yi − Yj | ≤ tα/2 s ˆ Suponiendo independencia: Prob ( m parejas cumplan la desigualdad ) = (1 − α)m • M´todo de comparaci´n m´ ltiple de Tukey e o u ¯ YM : M´ximo valor de los promedios por grupo a ¯ Ym : m´ ınimo valor de los promedios por grupo ¯ ¯ YM − Ym √ ∼ q(k. • Gr´ficos de Residuales: a ◦ Gr´fico de distribuci´n Normal: a o Este gr´fico presenta los datos ordenados x(i) . 100 % i I +1 ◦ Histograma de los residuales. Si los datos siguen una distribuci´n normal. es decir. en el gr´fico se debe obo a servar una linea ‘recta’.6. 2. en una escala equivalente a la distribuci´n normal. o x(i) . con i = 1. t) es la distribuci´n de “rangos studentizados” o 1 1 + ni nj =1−α 4. n − k) s/ n ˆ q(s. . cona tra la frecuencia acumulada que estos datos representan.´ 44CAP´ ITULO 4. lo que sobra cuando uno ajusta el modelo. PRUEBAS DE SIGNIFICANCIA. I. HOMOSEDASTICIDAD y NORMALIDAD de los ε ¿ Como se ‘detecta’si estas suposiciones son razonables? • Hay que considerar los RESIDUALES. . An´lisis de Residuos a Todos los resultados de las pruebas de significancia que hemos mostrado hasta el momento DEPENDEN de las suposiciones de INDEPENDENDENCIA. . .

6.4: Histograma sim´trico e ^ y . a Este gr´fico tiene como objetivo revisar si existe alguna tendencia que a no ha sido explicada todavia con el modelo que estamos ajustando.2: Histograma sim´trico e 3 45 ri ^ y -3 Figura 4. o ri Figura 4. ◦ Gr´fico de Residuales vs Tiempo: a Este gr´fico busca mostrar patrones de tendencias en el tiempo.3: Histograma sim´trico e ri ^ y ˆ ◦ Gr´fico de Residuales vs Valores Ajustados: (Yij . que a pueden indicar que la suposici´n de independencia no es razonable.´ 4. ANALISIS DE RESIDUOS Figura 4. eij ).

. MUESTREO Y EXPERIMENTACION 4. . J βj representa el efecto incremental del j − esimo bloque. . . . . . . j = 1. . El n´ mero de par´metros en el modelo es u a 1 + (I − 1) + (J − 1) + 1 = I + J Se est´ suponiendo que no hay interacci´n entre los bloques y los tratamientos a o (modelo aditivo) . yIJ yij = µ + αi + βj + εij αi = 0 βj = 0 yij = µ + αi + βj + εij αi = 0 βj = 0 Con este modelo se puede proponer una descomposici´n de las observaciones por o fuente de variaci´n: o ¯ ¯ ¯ ¯ ¯ ¯ ¯ ¯ yij − Y = (Yi − Y ) + (Yj − Y ) + (yij − Yi − Yj + Y ) i = 1. . .´ 46CAP´ ITULO 4. .. 2.. .6. I .. 1 2 . . • J hornos de preparaci´n de material o El orden de los tratamientos dentro de cada bloque es aleatorio. . . yI2 . I. Experimentos de bloques aleatorizados completos Supongamos que tenemos I distintos tratamientos que queremos comparar y disponemos de J bloques que pueden ser divididos en I partes • J jueces en un estudio sensorial donde I es lo suficientemente peque˜ o n para no introduccir problemas de fatiga. . 2. . . J y1J y2J . PRUEBAS DE SIGNIFICANCIA.. Usualmente s´lo hay una observacion en cada cruce ‘bloque’× ’tratamiento’. o 1 y11 y21 . yI1 2 y12 y22 .1. . . . ...

Se seleccionan las combinaciones de tratamientos de manera que cada par de tratamientos sea asignado el mismo n´mero de veces r entre los bloques. r debe u ser mayor que 2 para calcular variabilidades. Bloques Incompletos Balanceados Cuando no se puede dividir el bloque en I partes.6.´ 4. sino en un n´ mero k menor u que I.I)] Total n-1 47 4. el promedio ajustado por bloque es: Y + αi . a Ejemplo: Si tenemos que los bloques se pueden dividir en 3 partes y se tienen I = 6 tratamientos.1 -[(J . a El modelo es igual al anterior. pero ahora hay que ajustar los par´metros ya que a no todos los tratamientos ocurren simultaneamente en los bloques. ANALISIS DE RESIDUOS Tabla ANOVA Tabla de Fuentes de Variabilidad y c´lculos de incertidumbre a Fuente GL SC SCP F p Entre Tratamientos I-1 Entre Bloques J-1 Residuales n .2.1) + (I .6. Usualmente las exigencias del balance establecen m´s repeticiones. Llamando Ti a la suma de las observaciones del i-esimo tratamiento y Bi a la suma de las observaciones de los bloques que contienen el i-esimo tratamiento se tiene: Qj = kTi = Bi y el estimado del efecto del tratamiento es: αi = ˆ Qi Ir ¯ ˆ Asi. podemos utilizar el ‘dise˜ o combinatorio’ n (A B C) (A C E) (A B D) (A C F) (A B E) (A D E) (A B F) (A D F) (A C D) (A E F) (B C D) (B E F) (B C E) (C D E) (B C F) (C D F) (B D E) (C E F) (B D F) (D E F) que tiene r= 4 y cada tratamiento est´ asignado a la mitad (10) de los bloques.

´ 48CAP´ ITULO 4. Una por los Efectos de Interacci´n γij o Una por los errores aleatorios εijk 4. cada una de ellas con variancia igual a σ 2 ? e) ¿ Cuantos ensayos deben ser realizados para ajustar un modelo con cinco factores a cuatro niveles cada uno? . MUESTREO Y EXPERIMENTACION Fuente Bloques Tratamiento Ajustado por bloque Residuales Total Ajustado GL J-1 I-1 ¯ (yij − Y )2 i SC SCP F Q2 /krI i 4. Ejercicios 1. Se le pide que d´ respuesta a las siguientes preguntas conceptuales. Experimentos con dos o m´s factores a Experimentos de factores cruzados: yijk = µ + αi + βj + γij + εijk Aqu´ γij representa el efecto de interacci´n entre los factores.7.3. ıas ı o a) ¿ Cual es la diferencia entre repetibilidad y reproducibilidad? b) ¿ Qu´ es una distribuci´n de referencia? e o c) ¿ Qu´ es un modelo emp´ e ırico? d ) ¿ Cual es la variancia del promedio de n observaciones identicamente distribuidas.6. Apoyese en e dibujos o analog´ si as´ considera que se puede entender mejor su explicaci´n. PRUEBAS DE SIGNIFICANCIA. ı o Descomposici´n de las observaciones: o ¯ ¯ ¯ ¯ ¯ ¯ ¯ ¯ ¯ ¯ yijk = Y + (Yi − Y ) + (Yj − Y ) + (Yij − Yi − Yj + Y ) + (yijk − Yij ) La tabla anova ahora tiene cuatro entradas: Dos por Efectos Principales: lo que corresponde a αi y βj .

02 22 62 g. 2 2 2 17 Variancia Contraste F 10. D) de tratamiento a 3 niveles cada uno con s´lo 9 ensayos.62 4. Para comprobar el desgaste de cuatro distintos tipos de caucho (C1-C4) se seleccionaron tres vehiculos (V1-V3) a los que se les coloc´ en orden aleatorio o neum´ticos fabricados con los cuatro tipos de cauchos.82 Complete la tabla.01 0.35 1. B. mientras que un experimento completamente aleatorizado o requiere 81 ensayos.23 5.000 Km a se midi´ el desgaste resultando en los valores de la tabla o Por fila Prom Diff 14 -6 18 -2 21 1 27 7 20 C1 C2 C3 C5 Prom Diff V1 18 23 22 33 24 4 V2 V3 9 15 19 12 21 20 27 21 19 17 1 -3 a) ¿ Qu´ tipo de dise˜ o experimental se us´? e n o b) Proponga un modelo emp´ ırico para analizar los datos y uselo para establecer cuales son las componentes de variabilidad de los mismos. ¿Qu´ efectos no se e pueden estimar al usar este dise˜ o? n 3. EJERCICIOS 49 f ) ¿ Para qu´ se usa el anal´ de residuales provenientes de los modelos e ısis probabilisticos? 2. Usando un dise˜ o experimental llamado cuadrado greco-latino es posible estun diar el efecto de cuatro factores (A. c) Plantee una prueba estad´ ıstica que le permita tomar una decisi´n sobre la o diferencia del desgaste debido al tipo de caucho.70 1. C.l.4. . Supongase que el experimento se replica completamente y los resultados son analizados de acuerdo con la siguiente tabla ANOVA Fuente Efecto A Efecto B Efecto C Efecto D Residual Total Sum Cua 21. Al cabo de 10. ¿cuales son los factores importantes?.7.39 4.11 2.92 2.

Los siguientes c´lculos pueden ser necesarios para la tabla ANOVA. MUESTREO Y EXPERIMENTACION d ) Construya la tabla anova asociada a la prueba probabilistica. a 2 ¯ Y ) = 448 3 × (62 + 22 + 12 + 72 ) = 270 4 × (42 + 12 + 32 ) = 104 ij (Yij − . e) Concluya si hay o no diferencias entre los tipos de caucho. PRUEBAS DE SIGNIFICANCIA.´ 50CAP´ ITULO 4.

suelen usarse relaciones de la forma respuesta = se˜ al + ruido n 51 . sino tambi´n en identificar relaciones entre e variables.1. ¿Qu´ pasa cuando se quiere n e estudiar un mayor n´ mero de niveles o se quiere considerar la relaci´n funcional entre u o las variables? 5. Ejemplos: Relaci´n entre la densidad de veh´ o ıculos y la velocidad Relaci´n entre la cantidad de veh´ o ıculos de transporte p´ blico y el tiempo de u viaje. En casos como ´stos. nos gustar´ poder predecir una de las variables (variable de rese ıa puesta o variable dependiente cuando la otra variable explicativa o variable dependiente es conocida. estamos interesados no s´lo en describir o considerar o modelos probabilisticos para una variable. a un numero usualment peque˜ o de niveles.Cap´ ıtulo 5 Regresi´n y Calibraci´n o o En el capitulo anterior se estudiaron modelos considerando un n´ mero peque˜ o u n de factores. Para ello. Relaciones entre dos variables En muchas oportunidades. Relaci´n entre cantidad de cierto aditivo en un combustible y potencia obtenida o por el veh´ ıculo.

Covarianza La covarianza entre X y Y se define como SXY 1 n (xi − x)(yi − y ) ¯ ¯ = n i=1 Veamos c´mo se puede interpretar esta cantidad: o SXY > 0 Y SXY < 0 + − 01  ¡ ¦§ ¢£ ¤¥ ¨© − 45 89 23 bc Y + + − + XY VW `a RS TU PQ HI X  DE FG  __ (x.1. Este tipo de expresiones son conocidas como Modelos estad´sticos. o una constante a o trozos. .y)   ! @A 67 BC  "# $% () &' __ (x. y1 ). 5.52 ´ ´ CAP´ ITULO 5. el modelo de medidas repetidas. Diagramas causa-efecto Sean (x1 . . . yn ) las observaciones para el par de variables X y Y .y) X − . Si llamamos Y a la a o variable de respuesta y X a la variable explicativa. y permiten realizar predicciones de los valores de la variable de respuesta ı para ciertos valores de inter´s de la variable explicativa. por ejemplo. Representar estas observaciones sobre unos ejes de coordenadas nos permite obtener una nube de puntos. cuyo comportamiento ser´ indicativo de la relaci´n a o entre las dos variables. la respuesta ser´ una funci´n de la variable explicativa. Gr´ficos y covarianza a Estudiaremos algunas herramientas que nos permitir´n estudiar las relaciones ena tre dos variables observadas. (xn . e Ya hemos visto algunos modelos de esta forma. REGRESION Y CALIBRACION En general. . donde la funci´n f (X) es simplemente una constante.1. podemos escribir esta relaci´n como o Y = f (X) + ε donde ε representa un ruido aleatorio.

1.5. una medida de dependencia lineal entre variables. si medimos variables en metros obtendremos ı covarianzas diferentes que si las medimos en kil´metros). Si |r| est´ cercano a 1. . esperamos una relaci´n o a o lineal fuerte entre las variables. S´lo toma valores entre −1 y 1.y) X (x. RELACIONES ENTRE DOS VARIABLES SXY ≈ 0 Y Y 53 (x. la covarianza es cero. o Para evitar este problema. o 5. y es por tanto dif´ de inn ıcil terpretar por s´ misma (por ejemplo. definimos la correlaci´n muestral entre X y Y como o r= SXY SX SY Propiedades de la correlaci´n: o Es adimensional (carece de unidades de medida). Si dos variables no est´n relacionadas (o son independientes en el sentido de que a conocer el valor de una de ellas no aporta informaci´n sobre los posibles valores o de la otra). ı. El rec´ ıproco no es cierto: dos variables que tienen covarianza cero pueden estar relacionadas entre s´ pero la relaci´n no es lineal.y) X La covarianza es.1. Correlaci´n o La covarianza depende del tama˜ o de las variables. Es invariante ante cambios de origen y de escala de las variables. entonces.2.

7 17.1 Y 62.8 18.8 13.816 .9 X 17.1 25.3 67.3 13.6 66.5 54.6 77.1 21.13 SXi Yi = 5.3 66. Y ) con id´nticas caracter´ o e ısticas num´ricas.8 15.4 66.2 Y 17.4 16.4 12.5 X 66.6 90.7 68. Para evidenciar ´sto.5 rXY = 0. Al realizar los c´lculos correspondientes.2 19.54 ´ ´ CAP´ ITULO 5.1 88. o Ejemplo: En un estudio para verificar la relaci´n entre densidad X (Veh´ o ıculos por km) y velocidad Y (kmh) se encontraron los siguentes datos: X 12. u o a Sin embargo. Anscombe (1973) o e construy´ cuatro pares de variables (X. puede afirmarse que no existe relaci´n lineal entre las variables.1 16. obtenemos SXY = −416.8 50.1 16.4 19.9 46. es necesario recordar que la covarianza y la correlaci´n tienen limitao ciones como medida de relaci´n entre variables.0 Y 50.0 13.4 y rXY = a −0.4 81.6 62.6 17.2 Tiempo de suministro 10 20 30 40 50 60 70 5 10 Numero de cajas 15 20 El gr´fico nos hace esperar una covarianza negativa y una correlaci´n bastante a o cercana a -1.2 18.97. las e cuales se muestran a continuaci´n: o xi = 9 ¯ var(xi ) = 11 yi = 7.8 81.4 22.8 56.3 17. REGRESION Y CALIBRACION Cuando r ≈ 0.8 12.7 50.1 63.2 76.3 60.2 18. estos n´ meros confirman la intuici´n que obtuvimos del gr´fico causa-efecto.5 ¯ var(yi ) = 4.7 50.6 46.2 18.

(No suele ser cierto en caso de series cronol´gicas) o . una serie cronol´gica.´ 5. a 11 10 9 9 Y1 8 Y2 7 6 5 4 4 6 8 X1 10 12 14 3 4 4 5 6 7 8 6 8 X2 10 12 14 Gr´fico causa-efecto para los conjuntos de datos de Anscombe (1973). Modelo: Y = β0 + β1 X + ε Se supone que ε representa la parte no explicada por X o el ruido introducido por factores aleatorios y se modela como una variable aleatoria con esperanza matem´tica a cero. a 12 12 Y4 8 6 4 6 8 X3 10 12 14 6 8 8 10 Y3 10 10 12 X4 14 16 18 5. REGRESION SIMPLE Veamos gr´ficamente cada conjunto de datos a 55 Gr´fico causa-efecto para los conjuntos de datos de Anscombe (1973). Regresi´n Simple o Usada cuando se supone una relaci´n lineal entre una variable controlable o explio cativa (X) y una variable dependiente (Y ). En el caso en que la variable explicativa sea el tiempo y Y = Yt . la regresion lineal simple sirve para o ajustar la tendencia lineal.2.2. Todas las observaciones son realizadas de manera independiente con la misma estructura aleatoria. Suposiciones te´ricas: o La variable X se considera que puede ser medida sin error (no es aleatoria).

 β2  . . . REGRESION Y CALIBRACION La estructura aleatoria de las observaciones (ε) se puede aproximar por el modelo gaussiano. y i = β 0 + β 1 xi + ε i . N (0.  . .  . .  .56 ´ ´ CAP´ ITULO 5. yn         =         ε 1 x1    1     1 x 2  β1  ε2    + .   εn 1 xn    Distintas rectas pueden ser escogidas para representar la relaci´n lineal ¿ Cu´l es o a la mejor? Depende del criterio de bondad de ajuste usado para medir la diferencia entre el valor observado y el valor estimado por el modelo: MAD (Acr´nimo en ingles por Promedio de los valores absolutos de la desviao ci´n) o n i=1 ˆ |Yi − Yi | OLS (M´ ınimos cuadrados ordinarios) n i=1 ˆ (Yi − Yi )2 WLS (M´ ınimos cuadrados pesados) n i=1 ˆ ωi (Yi − Yi )2 Estimaci´n por OLS o Ecuaciones normales:       n n n i=1 n xi i=1 i=1 x2 i xi         ˆ β0   =  ˆ β1    n i=1 n i=1 xi y i yi       . La forma vectorial de este modelo es Y = Xβ +         y1 y2 . σ 2 ). .   .

∼ Nn (0. En lo que sigue supondremos que el vector de errores aleatorios se distribuye como una normal n-variada con vector de medias 0 y matriz de varianza σ 2 I. justo el par´metro que queremos estimar. Cuando esto sucede a ˆ decimos que el estimador. Por lo tanto. σ 2 I).´ 5. REGRESION SIMPLE Equivalentemente ˆ n β0 + n i=1 n i=1 n i=1 57 ˆ xi β1 = ˆ x2 β1 = i n yi i=1 n ˆ xi β0 + xi y i i=1 Al resolver este sistema de ecuaciones obtenemos: ˆ β0 = y − x β1 ¯ ¯ˆ n x¯ i=1 xi yi − n¯y ˆ β1 = n 2 x2 i=1 xi − n¯ n ¯ ¯ i=1 (xi − x)(yi − y ) = n 2 ¯ i=1 (xi − x) de esta manera podemos obtener la Predicci´n de un valor de Y para distintos o valores de X: ˆ ˆ ˆ Y x = β0 + β1 x y los Residuales definidos como: ˆ e i = Y i − Yi ˆ ˆ Ahora β0 y β1 son variables aleatorias y se debe usar una distribuci´n de referencia o para decidir sobre su significancia.2. σ 2 I) ˆ E(β) = E((X X)−1 X Y) = (X X)−1 X E(Y) = (X X)−1 X Xβ = β ˆ Luego. Y ∼ Nn (Xβ. E(β) = β. . en este caso β. es decir. es insesgado.

´ ´ CAP´ ITULO 5. REGRESION Y CALIBRACION ˆ ˆ ˆ ˆ ˆ V ar(β) = E{(β − E(β))(β − E(β)) } ˆ ˆ = E{(β − β)(β − β) } Como ˆ β − β = (X X)−1 X Y − β = (X X)−1 X (Xβ + ) − β = (X X)−1 X . σ 2 cii ) donde cii es el elemento de la diagonal de la matriz C = (X X)−1 que corresponde a βi .58 ˆ Calculemos V ar(β). ˆ ˆ ˆ Y x = β0 + β1 x ˆ De acuerdo con las ecuaciones anteriores se puede calcular V ar(Yx ): ˆ V ar(Yx ) = σ 2 1 + n (x − x)2 ¯ n ¯2 i=1 (xi − x) Pron´stico de valores alejados del centro de los datos tienen muy alta variancia o Significancia estad´ ıstica del modelo y el coeficiente de determinaci´n R2 o Descomposici´n natural de las observaciones: o ¯ ˆ ¯ ˆ Yi − Y = (Yi − Y ) + (Yi − Yi ) Variaci´n total o Grados de libertad n-1 = k-1 + n-k = Variaci´n o explicada + Variaci´n o no explicada . = β + (X X)−1 X − β ˆ V ar(β) = σ 2 (X X)−1 Es decir ˆ βi ∼ N (βi .

11 8 8.74 12.74 8 7.71 8.0 2.84 4.10 5.29 7.6 Probabilidad=0. Variaci´n Explicada o Fk−1.81 8.56 7.´ 5. REGRESION SIMPLE Densidad F con 3 y 29 grados de libertad 59 0.76 8.84 8 8.13 6. lo que parece igual puede ser muy diferente An´lisis de Residuales a R2 = X1 10 8 13 9 11 14 6 4 12 7 5 Y1 8.84 8 7.73 .95 7.08 8 5.42 8 7.10 8.93403 0 1 2 3 4 5 6 Figura 5.58 8.4 0.76 8 6.58 8.77 8 5.47 9.50 9.13 8.82 5. Variaci´n NO Explicada o n−k Variaci´n Valores Estimados o Variaci´n Valores Observados o Como vimos antes.14 6.2.33 9.04 6.96 7.n−k = k−1 S. C.15 8 5.26 10.91 8 6.68 Y2 Y3 X2 Y4 9.04 6.1: Figura de distribuci´n o Comparaci´n: o S.26 6.2 Densidad 0.14 7.25 3.24 4. C.77 7.81 8.74 5.89 4.39 19 12.95 0.

νii puede ser interpretado como una medida de la distancia entre el punto X y el ¯ promedio de los datos (X). REGRESION Y CALIBRACION 12 10 • • 10 • • • • • 4 6 • 8 X1 • • • 12 Y1 8 Y2 8 • • • • 4 6 • • • • • • • 6 4 10 12 14 4 Mismo ajuste 6 Mismo ajuste 8 X1 10 12 14 12 10 Y3 8 • • • • • • • • • 6 Mismo ajuste 4 6 8 X1 10 12 14 6 Y4 8 • 10 12 • • •• • •• •• Mismo ajuste 8 10 12 14 16 18 X2 4 Figura 5. Si el punto est´ muy alejado del centro νii est´ cerca de a a uno y Var(ei ) es cercana a cero.60 ´ ´ CAP´ ITULO 5.2: Datos de Anscombe Residuales: ei = y i − y i ˆ Estimador de σ 2 : s2 = R Bajo las suposiciones estad´ ısticas: Var(ei ) = σ 2 (1 − νii ) con νii el elemento diagonal de X(X X)−1 X . Residuales estandarizados: ri = s2 R √ ei 1 − νii e2 i n−k−1 Residuales Studentizados igual al anterior exceptuando que s2 se calcula de maR nera independiente de ei . An´lisis de Residuales a 4 .

(Usando el logaritmo.3: Residuales para los Datos de Anscombe Gr´fico de dispersi´n de los residuales vs predicciones.´ 5. a o • Patr´n de variancia diferente → Heterocedasticidad. REGRESION SIMPLE 61 Residuales -1 0 1 • • • • 5 6 • • • Residuales -1. Si el punto est´ muy alejado del centro νii est´ cerca a a de uno y Var(ei ) es cercana a cero.2. a Residuales estandarizados: ri = √ ei 1 − νii s2 R con νii el elemento diagonal de X(X X)−1 X .0 0. (Multiplicativo en lugar de aditivo) Una transformaci´n de la variable dependiente puede ayudar a corregir el o problema.0 • • • • • • • • • • • • -2.0 -2 • 7 8 Ajustados 9 10 • 5 6 7 8 Ajustados 9 • 10 3 • Residuales -1 0 1 • • • • •• • • • • 7 • Residuales 0 1 2 • • • • • • • 5 6 -1 • • 7 8 9 Ajustados • 10 8 9 10 11 12 Ajustados Figura 5. o Heterocedasticidad puede ser causada por una formulaci´n erronea del o modelo.0 0. Residuales Studentizados igual al anterior exceptuando que s2 se calcula de R manera independiente de ei .5 1. νii puede ser interpretado como una medida de la distancia entre el punto X y el ¯ promedio de los datos (X). . o transformaciones de la forma Y λ ) • Patr´n no aleatorio → ¿ Falta variable explicativa? o Gr´ficos de probabilidad de los residuales estandarizados.

a An´lisis de Residuales a Si los datos fueron recolectados en diferentes tiempos un gr´fico que brinda infora maci´n es el de los residuales vs tiempo y el gr´fico de et vs et−1 . gr´fico normal. El estad´ ıstico de Ljung-Box combina autocorrelaci´n de ordenes mayores: o Q = n(n − 2) 2 rh n−k h=1 m La distribuci´n de referencia en este caso es (asint´tica) χ2 con m − k − 1 grados o o de libertad.62 ´ ´ CAP´ ITULO 5. Problemas: En la inversi´n de X X o . 5. Regresi´n M´ ltiple o u Multicolinearidad: Cuando algunas variables independientes presentan una relaci´n lineal (o cercana o a lineal) entre ellas.3. REGRESION Y CALIBRACION • Gr´ficos de caja. o a Efectos de la dependencia: ˆ Los estimados β son centrados pero no eficientes (no tienen la variancia m´ ınima Las pruebas estad´ ısticas no son validas y pueden se˜ alar relaciones no existentes n Autocorrelaci´n estimada de orden h: o rh = n t=h+1 et et−h n 2 t=1 et El estad´ ıstico de Durbin-Watson mide la existencia de autocorrelaci´n de orden 1 o entre los residuales: D−W = n 2 t=2 (et − et−1 ) n 2 t=1 et ≈ 2(1 − r1 ) Si no hay autocorrelaci´n la distribuci´n de referencia para este estad´ o o ıstico es sim´trie ca alrededor de dos (2). a a Una transformaci´n de la variable dependiente tambi´n ayuda a obtener datos o e m´s normales. histogramas.

Tratamiento: Eliminar regresores Incluir informaci´n externa a los datos o Si los regresores efectivamente influyen pero son eliminados por un problema en el dise˜ o de la muestra entonces los estimados de los efectos de las dem´s variables n a est´n sesgados. • Usualmente se basa en estad´ ısticos t. o (M´s t´cnico: Examinando el ´ a e ındice de condicionamiento que se define en funci´n o de los autovalores de la matriz).3. La primera variable a entrar es aquella que tenga mayor correlaci´n con Y . o • Se comienza con el modelo Y = β0 . REGRESION MULTIPLE ˆ Los estimados βi tienen variancia grande y alta correlaci´n o 63 Detecci´n: o Examinando la matriz de correlaci´n de las variables explicativas R. hasta que ya no se puede eliminar ninguna. Entra aquella variable que tenga mayor correlaci´n parcial. Inclusi´n Progresiva. (F -to-enter en los paquetes) • Luego se compara el modelo actual con todos los modelos anidados con una variable menos y se considera para la eliminaci´n aquella cuyo estadi´ o ıstico F sea menor. Estas correlaciones se las llama correlaciones parciales. • Las siguientes variables se pueden incluir de dos maneras: ◦ Buscar la correlaci´n entre las demas variables y los residuales del moo delo anterior. o ◦ Ajustar todos los modelos de la forma Y = β0 + β1 X1 + β2 X2 + ε y compararlos con el modelo anterior: Usando las pruebas F y selecionando aquella variable que tenga mayor valor de este estad´ ıstico. Se realiza la prueba de significancia o del modelo F y si no es significante el proceso termina.´ ´ 5. Si no es significativa se elimina la variable del modelo (F -toremove. a Escogencia autom´tica de regresores a Eliminaci´n Regresiva o “hacia atras”: o • Se comienza con el modelo mas complicado y se van eliminando variables (una a la vez).) .

Las perturbaciones tienen una distribuci´n normal. As´ se incluye a a ı modelos polinomiales: Yi = β0 + β1 Xi + β2 Xi2 + ε Estimaci´n por m´ o ınimos cuadrados: ˆ e=Y−Y El vector ˆ debe ser ortogonal a Y ˆ e=Y−Y Xe=0 Ecuaciones normales: ˆ X Y = (X X)(β) Ortogonalidad implica: ¯ ˆ ¯ ||Y − Y||2 = ||Y − Y||2 + ||e||2 Descomposici´n de la variaci´n total en variancia explicada m´s variancia no o o a explicada como se vi´ anteriormente. βk Xki + ε Las perturbaciones tienen media cero. REGRESION Y CALIBRACION Considerese una regresi´n con p variables o X = [X1 : X2 ] Contraste F: ´ MODELO GENERAL DE REGRESION Yi = β0 + β1 X1i + β2i + . o Notese que la componente sistem´tica es lineal en los par´metros.64 ´ ´ CAP´ ITULO 5. . o Propiedad de los estimadores: ˆ βi ∼ N (βi . σ 2 cii ) . Las perturbaciones son independientes entre si. . La variancia de las perturbaciones es constante.

REGRESION MULTIPLE 65 5.3. ˆ ¯ ( Yi − Y ) 2 ˆ (Yi − Yi )2 ¯ (Yi − Y )2 g.c. σ 2 x (X X)−1 x) . ∼ N (x β. Fuente Explicada por los regresores s.3.1. el lado derecho corresponde a una estimaci´n de un valor de los predictores o muy alejado del resto. Estimaci´n de la variancia o σ 2 = s2 = ˆ R e2 i gl(residuos) donde La distribuci´n de referencia de s2 viene dada por o R gl(residuos) = n − k − 1 (n − k − 1)s2 R ∼ χ2 gl(residuos) σ2 Intervalos de confianza para los coeficientes: ˆ βi ∼ N (βi . σ 2 cii ) (n − k − 1)s2 R ∼ χ2 2 gl(residuos) σ son independientes ˆ βi − β i √ ∼ tn−k−1 sR cii Esto sirve para la prueba estad´ ıstica H0 : βi = 0.´ ´ 5.l k MSE (1) F = Residual Total n-k-1 n-1 (2) (1) (2) F Coeficiente de determinaci´n corregido: o Predicci´n: o Variancia Residual ¯ R2 = 1 − Variancia de y n−1 = 1 − (1 − R2 ) n−k−1 ˆ yx = x β ˆ σ2 ≤ Var(ˆx ) ≤ σ 2 y n El lado izquierdo de la desigualdad corresponde a una estimaci´n en el centro de o los datos.

Regresi´n con variables cualitativas o Problemas de omitir un atributo Modelos por separado: A A YA = β 0 + β 1 X + ε B B YB = β 0 + β 1 X + ε Dividir los datos en grupos y ajustar regresiones distintas en cada uno de los grupos no es una buena idea: • No hay suficientes datos en cada grupo para un “buen.66 ´ ´ CAP´ ITULO 5.2.3. • No se pueden comparar los resultados. REGRESION Y CALIBRACION 5. Mejor es incluir la(s) variable(s) atributo en el modelo: Con los datos en dos grupos definamos la variable ficticia: Z=    0 1 si la observaci´n est´ en el primer grupo o a si la observaci´n est´ en el segundo grupo o a .ajuste.

En el ejemplo anterior δ1 es la medida de interacci´n entre la variable X y la o variable cualitativa. Contrastar δ1 = 0 es equivalente a contrastar por la presencia de interacci´n.3.´ ´ 5. REGRESION MULTIPLE y un modelo para la situaci´n de anterior seria: o Y = β0 + β1 X + δ0 Z + δ1 XZ + ε B A B A δ0 representa la diferencia β0 − β0 mientras que δ1 representa a β1 − β1 67 Interacci´n o En el caso en que queremos separar en D grupos se pueden definir D − 1 variables ficticias   0 si la observaci´n no est´ en el grupo i o a Z= 1 si la observaci´n est´ en el grupo i o a El grupo modifica el comportamiento de la respuesta a cambios en las variables explicativas. o Modelos de variables cualitativas Clasificaci´n por un factor (atributo) en varios grupos (niveles). o Yij = µi + εij = µ + αi + εij .

Clasificaci´n por dos factores: o Yijk = µ + αi + βj + γij + εijk Descomposici´n de las observaciones (factores cruzados): o ¯ ¯ ¯ ¯ ¯ ¯ ¯ ¯ ¯ ¯ Yijk = Y + (Yi. − Y ) + (Yij − Yi. ) Probar que los promedios de los grupos son iguales es equivalente a probar que todos los αi son cero. Este modelo se puede ajustar usando las t´cnicas de regresi´n lineal. e o ¯ ¯ ¯ ¯ Yij = Y + (Yi.j. (Cov(εij . ) . − Y.. − Yi. REGRESION Y CALIBRACION Como siempre supondremos que εij se distribuye normal y ellos constituyen una secuencia independiente. εkl ) = 0 para sub-indices distintos). + Y ) + (Yijk − Yij.j. − Y ) + (Yij.. − Y ) + (Y.68 ´ ´ CAP´ ITULO 5.

• El principio de Aleatorizaci´n La suposici´n es que los factores no controo o lados por el experimentador se asignan de manera aleatoria a las unidades experimentales. De esta manera podemos pensar que el objetivo de la experimentaci´n o es el estudiar el efecto que sobre una (o varias) variable(s) de respuesta tiene un conjunto de otras variables que llamaremos variables experimentales. que a su vez necesitan ser validados. conclusiones validas debe ser llevado a cabo usando m´todos estad´ e ısticos. Prevenir la existencia de sesgos 69 . Por supuesto. estos tratamientos ser´n aplicados a alguna muestra. Para ello es necesario no solamente estimar el valor de interes sino tambi´n una medida de la variabidad de esperada en los resultados de la e medici´n. que constituyen un conjunto de factores que no pueden ser controlados por el experimentador. o unidad a experimental. factores o tratamientos. piense simplemente en el error de medici´n o en la diferencia entre las distintas o unidades experimentales. Las hip´tesis forman o e o o parte del modelo conceptual del sistema bajo estudio y la validaci´n usualmente eso ta basada en el comportamiento de algunas propiedades que pueden ser medidas u observables. As´ el tratamiento de los resultados para obtener ı. Esto se realiza con el fin de: 1. que se suponen intercambiables. o ¿ Bajo que condiciones son validos los an´lisis estad´ a ısticos ? Para responder esta pregunta es necesario considerar como se asignan los tratamientos a las diferentes unidades experimentales.Cap´ ıtulo 6 Experimentaci´n o En todo sistema de conocimiento cient´ ıfico se considera la validaci´n de las hip´teo o sis planteadas sobre un fen´meno atrav´s de la experimentaci´n. La mayoria de los experimentos reales est´n expuestos a diversas fuentes de erroa res.

las diferencias observadas pueden ser atribuidas tanto a la diferencia entre los tratamientos como a la diferencia a las unidades experimentales. como por ejemplo en el caso de un experimento con un material carbonoso proveniente de distintas minas ( % distintos de carbon en cada muestra). se podr´ mejorar el dise˜ o o a n del experimento y aumentar la resoluci´n de los resultados. EXPERIMENTACION 2. o comporta. Por supuesto si se pueden realizar secuencialmente una serie de ensayos con los que se empiecen a revelar los ‘secretos’del fen´meno bajo estudio. de manera que es necesario medir el tama˜ o de la dispersi´n o n o la variabilidad de los resultados obtenidos en distintas realizaciones del ensayo bajo condiciones similares. Necesariamente tenemos que planificar nuestra experimentaci´n con el objetivo de separar estas dos fuentes o de variaci´n. el caracter iterativo del aprendizaje tambi´n se e presenta aqu´ pues para saber cual es la mejor configuraci´n hay que conocer como se ı. Evitar la dependencia entre las observaciones Bajo esta suposici´n es posible validar los procedimientos de an´lisis eso a tad´ ıstico m´s comunes como por ejemplo la famosa prueba t de diferencia a entre tratamientos. El problema b´sico del dise˜ o de experimentos es decidir qu´ configuraci´n de a n e o puntos caracteristicos en una regi´n de inter´s revelar´ mejor los aspectos del probleo e a ma. o . este puede ser dividido en unidades experimentales sobre los que se aplican los tratamientos Comentario del libro de Box-Hunter-Hunter: Bloquee lo que pueda.70 ´ CAP´ ITULO 6. en cada ensayo obtenemos informaci´n contaminada por los factores o no controlados. aleatorize lo que no pueda Este comentario est´ en el fondo de toda la experimentaci´n llevada a cabo a o usando los conocimientos estad´ ısticos. por ejemplo cuando de antemano sabemos que nuestras unidades experimentales no son homogeneas. A veces no es posible cumplir con este principio. Un experimento bien dise˜ ado es un exn perimento que a pesar de las dificultades inherentes al sistema es capaz de soportar un modelo que aporta informaci´n con un m´ o ınimo de ensayos experimentales. Ahora bien. Es por eso que se consideran los bloques definidos como: o Bloque: es un grupo de material experimental homogeneo. pero como hemos venido viendo. y para conocer como se comporta es necesario realizar los experimentos!. Si se coloca los distintos tratamientos de manera aleatoria y se toman las medidas.

y los xi son niveles de un n´ mero de variables como el tiempo. Esta ecuaci´n es un modelo mecan´ o o ıstico o te´rico porque est´ basado en una apreciaci´n de la teor´ f´ o a o ıa ısica o mecanicista que gobierna el proceso. . si designamos por ν al valor medio de la concentraci´n de B en el tiempo x. Sin embargo el experimentador tiene un conocimiento previo sobre el mecanismo de acci´n del fen´meno que le permite descartar algunos o o modelos evidentemente inadecuados. u la concentraci´n.1. La construcci´n de modelos es una parte o muy importante del trabajo cient´ ıfico.1. tambi´n debe considerar algunas u e alternativas y dise˜ ar el experimento de tal manera que se pueda detectar los puntos n en los que el modelo inicial no sea adecuado. xk ) (6. entonces la tasa de formaci´n de e o B en cualquier instante es proporcional a la cantidad de A que a´ n no ha reaccionado. MODELOS EMP´ IRICOS 71 6. Modelos Emp´ ıricos Comencemos por entender que los datos. por ejemplo consideraciones f´ o o ısicas o de balance de masas. no tienen un significado mas alla del de la diferencia de magnitud (caso real) o magnitud y direcci´n (caso o vectorial). a escrutinio. junto a otros nuevos modelos. . u esto es. por si solos. en el que se ponen a prueba modelos alternativos y los sobrevivientes se someten. a´ n cuando el experimentador u este muy seguro de c´ al puede ser el mecanismo.6. . . los posibles modelos o o son en la pr´ctica. de manera que hay infinitos modelos que se pueden a adecuar a los datos observados. Los datos comienzan a tener sentido cuando se relacionan con un modelo conceptual del fen´meno que di´ origen a los datos. el tipo de catalizador u otras que puedan ser controladas por el o experimentador.1 o dν = β2 (β1 − ν) dx con lo que la relaci´n entre ν y x puede expresarse como: o ν = β1 (1 − eβ2 x ) donde β2 es la tasa constante de reacci´n. Ahora bien. En general. la eficacia. pero tambien. Se supone que 1 mol de B se forma a partir de 1 mol de A y que la concentraci´n de A cuando o x = 0 es β1 1 . la calidad. innumerables.1) donde ν representa el valor esperado de una respuesta como la cantidad. En ocasiones el fen´meno estudiado es bien conocido y es posible escribir una o f´rmula a partir de consideraciones te´ricas. Supongamos que una sustancia A es el reactivo y la B el producto y que son aplicables las leyes cin´ticas de primer orden. los experimentadores est´n interesados en estudiar relaciones a ν = f (x1 . x2 .

1 en una regi´n de inter´s en que las variables de control o o o e tienen campos limitados. pero es evidente que los dise˜ os factoriales con muchos niveles pueden n requerir un n´ mero de ensayos que los hace infactibles. Por esto suelen ser llamados experimentos 2k Cuando los factores son variables continuas como temperatura o presi´n lo que se o est´ considerando es una codificaci´n o cambio de escala de la regi´n experimental a o o para que quede identificada con el (hiper)cubo cuyos vertices se encuentran localizados en los puntos definidos como (±1. Metodolog´ de Superficies de Respuesta y diıa se˜ os 2k n Frecuentemente se necesita saber la influencia de gran n´ mero de factores sobre u una variable de respuesta.2.2) k k k ν = β0 + i=1 βi xi + i=1 j=1 βij xixj (6. Por supuesto. para que se pueda detectar como influyen las variables independientes o factores en la cantidad o la calidad hay que variar los niveles de los factores. . . esto es ν = β 0 + β 1 x1 + β 2 x2 + . ±1). una aproximaci´n a la o funci´n f de la ecuaci´n 6. esto es.3) 6.72 ´ CAP´ ITULO 6. . . ±1. con un n´ mero accesible de o u experimentos La Metodolog´ de Superficies de Respuesta es una forma sistem’tica de realiıa zar esta experimentacion secuencial. en los que no ser´ raro que ocurriese por ejemplo. En estas casos un modelo emp´ ırico. primero considerando factores unicamente a dos niveles: ALTO (+) y BAJO (-) Para k variables se est´ hablando de experimentos con 2k distintas combinaciones a de los factores. por lo que se hace necesario u una estrategia de experimentaci´n secuencial que permita considerar factores elegio dos en funci´n de los resultados de etapas anteriores. β k xk (6. Si consideramos a X+ el valor de la variable a nivel alto y X− al valor de la variable . pero algunos de estos factores pueden ser inertes de manera que se debe considerar como detectar estos factores con el menor n´ mero de experiu metos posibles. que ıa relaciones lineales o de segundo orden fueran adecuadas. EXPERIMENTACION Ahora bien. es muy frecuente que el mecanismo que gobierna el proceso no se conoce lo suficiente o es demasiado complicado para permitir que un modelo exacto sea postulado. . .

esto ı es. esto es. la variable codificada es: Xc = X− X+ +X− 2 X+ −X− 2 73 Se define como efecto de un factor al incremento promedio de la respuesta cuando este factor pasa de (-) a (+) Esto quiere decir: ¯ ¯ Y+ − Y− Dise˜os ortogonales de primer orden n Son llamados as´ porque permiten ajustar modelos empiricos de primer orden. se puede considerar un experimento tipo 23 en el que ocho los ensayos pueden escribires A + + + + B + + + + C + + + + Este experimento est´ escrito en el orden est´ndar. n Para el experimento 23 . el modelo emp´ ırico de primer orden se escribe como: Y = β0 + β1 A + β 2 B + β 3 C + ε Efectos Principales = 2 * βi Este es un ejemplo de un dise˜ o ortogonal de primer orden n . la tercera de cuatro en cuatro (4 = 22 ) y en general la j-´sima columna se construye alternando los signos e τ ”+”en tandas de tama˜ o igual a 2j−1 . modelos en los que se considera que los cambios que ocurrir´n en la respuesta media a son proporcionales a tama˜ o de los cambios de los factores o variables independientes. n Por ejemplo. la primera columna a a se alternan los signos τ ”+”(comenzando por el signo ”) de uno en uno (1 = 20 ).˜ 6. en el caso de que k sea tres. la segunda columna se alternan los signos de dos en dos (2 = 21 ).2. METODOLOG´ DE SUPERFICIES DE RESPUESTA Y DISENOS 2K IA a nivel bajo.

0 +11.375 Efecto principal del Metanol: 11. X − promedio de los niveles alto y bajo Xcod = (Rango entre los niveles alto y bajo)/2 Aqu´ k es el n´ mero de factores (variables de control) usadas en el experimento (o ı u funci´nes de las variable usadas).925 Efecto principal del acido citrico: 10.5 + 10.3+11. o Factores: Proporci´n de Metanol en la fase movil (metanol:agua) (M) o Concentraci´n de Acido C´ o ıtrico (C) ´ Concentraci´n de Acido Ac´tico (A) o e Estos acidos son agregados a la fase movil porque ellos pueden reducir problemas ´ de ’punto de cola’. que es una m´xima del procedimiento de aprendizaje cient´ a ıfico.9) = -0.3 8.0+9. La respuesta es la funcion de respuesta cromatogra’fica.8 11.74 ´ CAP´ ITULO 6.25 Un primer paso de simplificaci´n en el ajuste de modelos emp´ o ıricos.7) .0 C 9. EXPERIMENTACION Ejemplo: Separaci´n de fenoles por HPLC (high performance liquid chromatoo graphy).9.7 AMC 9.0 MC 10.425 .4) donde las variables Xi .7 + 8.8 + 11. 0 A M AM 10.9 11. es considerar el modelo (ecuaci´n) m´s simple para describir la relaci´n entre las variables (o funciones de estas o a o variables) de control y la variable que queremos controlar o medir. ´ n Efecto de interacci´n: o MC = 0. Lo m´s simple es a considerar un polinomio de primer grado en estas variables.325 . . es decir: Y = β 0 + β 1 X1 + β 2 X2 + .125.4 = 1. . AC = 0.1/4(10. i = 1.825 . 125 Este ultimo es bastante peque˜ o con respecto a los otros dos. en forma matricial el modelo puede escribirse como o Y = Xβ + ε .5 AC 11. . + β k Xk + ε (6. k toman los valores de la variable de codificaci´n o usual.10. . AM = 0. .7 Efecto principal del acido acetico: 1/4(9.3 = 0. Hay varios factores que influencian la separacion. . ¿ Cuales son los importantes? Como se puede optimizar la separaci´n de fenoles contaminantes en un sistema de o HPLC (que no cambia la composicion del solvente durante la medici´n).

En caso o en que la respuesta sea afirmativa (el modelo no modela bien) entonces los efectos de estas interacciones pueden ser estimados aumentando la matriz X con columnas construidas por medio de la multiplicaci´n dos a dos (tres a tres.j . . y esto no parece una explicaci´n muy satisfactoria del porque se deben incluir. . Si estamos usando un dise˜ o factorial con k factores a dos niveles cada uno (por n simplicidad supongamos que estamos usando el dise˜ o completo) con n0 puntos cenn t trales. 1/2(Y2+ − Y2− ). X2. ECM = Error Cuadratico Medio ˆ (Yi − Yi )2 = n−p . . el error cuadr´tico medio) es tambi´n un estimador de la variabilidad del o a e error experimental.). . que no es otra cosa que un estimado de la variabilidad de la respuesta bajo condiciones ‘equivalentes’. . X1. o Puntos Centrales y la estimaci´n del error puro o Cuando se tiene disponibles repeticiones en el punto central se puede estimar el llamado error de repetibilidad. METODOLOG´ DE SUPERFICIES DE RESPUESTA Y DISENOS 2K IA 75 donde la fila j de la matriz X corresponde al vector (1. La variabilidad se puede estimar usando la conocida f´rmula de la desviaci´n standard: o o σerror puro = ˆ2 ¯ (Yi. .j . o error experimental. 2 ) y los estimados del vector β quedan como ¯ ¯ ¯ ¯ ¯ ¯ ¯ (Y . 1/2(Y1+ − Y1− ). . de las columnas o que corresponen al experimento principal.5) Notese que los resultados de los puntos centrales s´lo se usan para la estimaci´n de o o β0 . . . siendo los valores de la a k k k diagonal igual a (2 + n0 . 1/2(Yk+ − Yk− )) (6. a Por supuesto que al suponer un modelo de primer orden estamos dejando de lado los efectos de interacci´n entre los factores de control. si el modelo que se propone ajusta correctamente los datos observados. y p es el n´ mero u de par´metros considerados en el modelo lineal. entonces la matriz X X ser´ una matriz diagonal. . . . .2. Xk. es natural pensar que el estimado de la variancia derivado de los residuales. . ˆ donde Yi es el valor estimado de la respuesta en la i-esima corrida.0 − Y0 )2 n0 − 1 Ahora bien. 2 .j . . pero no intervienen en el estimado σerror puro de manera que se puede usar estos dos estimados para realizar una prueba ˆ2 de la ‘bondad de ajuste del modelo´ mas bien de si existe o no falta de ajuste.˜ 6. (ver siguiente ecuaci´n. Estos efectos ‘engordan´l o e estimado de la variabilidad obtenido como ECM .

consideremos M SF A = ˆ (Yi − Yi )2 − (cuadrados error puro) GLresidual − GLerror puro El estadistico F queda como M SF A/ˆerror puro . i = 1. sabemos que o n los resultados en los puntos centrales no intervienen en el c´lculo de los estimados de a los coeficientes βi . cuando asumimos que el modelo de primer orden es correcto. k. De acuerdo con la discusi´n sobre los dise˜ os ortogonales. Consideremos ahora una situaci´n para la que a o se asume que el modelo correcto es el modelo en (6. ¿ qu´ pasa si esta suposici´n no es correcta ?. . ˆ (Para ver si es grande o peque˜ o se usa el estad´ n ıstico t de comparaci´n de medias o ). estiman el valor n de β0 . . σ2 o bajo la hip´tesis NO hay falta de ajuste corresponde a una Fisher con los grados de o libertad correspondientes a los denominadores de los factores que intervienen en el estad´ ıstico. cuya distribuci´n de referencia.76 ´ CAP´ ITULO 6. Pero. . Consideremos ahora los resultados obtenidos en el llamado punto central del experimento. bajo la suposici´n de que el modelo de primer orden es el correcto. EXPERIMENTACION El estad´ ıstico de la prueba de falta de ajuste es un estad´ ıstico de comparaci´n de o variancias.3. . 6.4). pero si el o modelo es uno de segundo orden entonces se est´ estimando el valor de β0 + βii (ver a ecuaci´n (6. Bloques en dise˜ os factoriales n • Ejemplo: Un experimento del tipo 23 pero cada dia se pueden obtener unicamente 4 datos Se prevee que una variable conocida puede introducir heterogeneidad Se requiere estimar los efectos principales (y las interacciones de orden peque˜ o) n libre de los efectos del bloque. As´ la diferencia entre los promedios de estas observaciones o a ı y de las observaciones en el punto central estimar´ βii y el error estandard para a este estimado viene dado por σ 1/n0 + 1/2k−p.6) m´s abajo). . ¿c´mo darse cuenta? e o o El promedio de los valores observados en los vertices del dise˜ o. Puntos Centrales y una prueba de cuadratura En la sub-secci´n anterior consideramos el papel de los puntos centrales para el o c´lculo del error puro o experimental.

˜ 6. Dise˜ os 2k fraccionales n Estos son dise˜ os exploratorios que pueden brindar informaci´n sobre los efector n o k principales aun cuando no se realicen todos los 2 experimentos. . + .). Algo se pierde: Modelo ajustado: Y = X 1 β1 + ε 1 Modelo m´s cercano a la realidad: a β1  Y = [X1 . .. k(k − 1) efectos de interacci´n de segundo orden. 23 en orden estandar: ABC = (-.4. . DISENOS 2K FRACCIONALES 77 Para esto es necesario que aparezcan en las columnas de signos la misma cantidad de (+) que de (-). +) • Dos bloques A − + − + B − + − + C − − + + A + − − + B − + − + C − − + + 6. X2 ]  +ε β2 Estimados por m´ ınimos cuadrados: t t ˆ β1 = (X1 X1 )−1 X1 Y   . Con un experimento 2k completo se pueden estimar 2k efectos (k efectos principales. o Escogencia de una fracci´n (de tama˜ o 2k−p ) de manera que se puedan estimar o n los efectos de primer orden.. . + + . .. Soluci´n: Usar las columnas de las interacciones de orden superior para detero minar las corridas que deben ir en cada bloque.4. .

en el caso de tener k = 6 factores. o ¿Cuando los efectos son significativos? Como los efectos se calculan como diferencias de promedios entonces la variancia de un efecto es: σ2 V ar(Ef ecto) = p−f 2 As´ un efecto ser´ importante cuando sea bastante m´s grande que su desviaı. a a ci´n est´ndar ( V ar(Ef ecto)) o a .-)” ◦ I es una columna con todas las entradas (+) ◦ Cualquier columna de signos multiplicada por si misma da I ◦ Cualquier columna multiplicada por I da la misma columna Definicio´n Resoluci´n = 1 + orden de interacci´n m´s baja confundida con o o o a un efecto principal. Dise˜ os saturados: Dise˜ os de resoluci´n III que no dejan grados de libertad n n o para estimaci´n del error.78 Valor esperado: ˆ E β1 ´ CAP´ ITULO 6. se puede escoger un dise˜ o de tama˜ o 16 considerando las n n fracciones que corresponden a las combinaciones de signos: I = ± ABCD = ± ACEF La relaci´n de definici´n de la fracci´n permite calcular el patr´n de confusi´n o o o o o ´ • “ Algebra de columnas (+. EXPERIMENTACION t t = (X1 X1 )−1 X1 E(Y ) β1  t t = (X1 X1 )−1 X1 [X1 . X2 ]  β2 t t = β1 + (X1 X1 )−1 X1 X2 β2 t t La matriz A = (X1 X1 )−1 X1 X2 se la llama matriz de “alias .o matriz de confusiones (de los par´metros) a   Escogencia de la fracci´n de manera que los efectos principales (y posiblemente o las interacciones de segundo orden) esten lo m´s desconfundido s que se pueda. Por ejemplo. a Relaci´n de definici´n o o Para construir un dise˜ o 2k−p balanceado es necesario escoger p columna s de n signos entre las interacciones de orden superior.

25 -8.50 -0. o Ensayo 0 A B AB C AC BC ABC D AD BD ABD CD ACD BCD ABDC Y 71 61 90 82 68 61 87 80 61 50 89 83 59 51 85 78 Orden (8) (2) (10) (4) (15) (9) (1) (13) (16) (5) (11) (14) (3) (12) (6) (76) Estimado 72.25 -0.25)2 + (−0.75 -1.75)2 + (−0.30 = 0. principalmente a la variabilidad de los errores aleatorios V ar(Ef ecto) ≈ en este caso: 1 1. • Parece que un incremento en presi´n puede reducir la conversi´n en cerca o o del 2 %.25 -0.50 [(−0.55.00 1. los efectos o o de estas variables deben ser vistos en conjunto: .25 -0.00 24.75)2 + (0. DISENOS 2K FRACCIONALES 79 No hay replicas.25 0.75 -0. • Como existe interacci´n entre la temperatura y la concentraci´n.00 4.25 Variable A Carga catalizador (lb) B Temperatura (C) C Presi´n (psi) o D Concentraci´n ( %) o 10 220 50 10 + 15 240 80 12 SUMA de (efectos despreciables) 2 N´ mero de efectos despreciables u Interpretaci´n: o • Un incremento en la carga de 10 a 15 libras reduce la conversi´n en cerca o de 8 %.˜ 6.30 5 5 √ con lo que la desviaci´n del efecto es 0.50 0.25)2 ] = = 0.50 0.50)2 + (−0. ¿ qu´ se puede hacer para estimar la variabilidad de un efecto?.75 -5. e Podemos suponer que los efectos de las interacciones triples y cuadruples son ‘despreciables’y lo que estamos viendo alli son variabilidades entre promedios debida.00 -2.4.

Se les acostumbra llamar puntos estrella (ver figura). mientras que en o o altas la concentraci´ no parece jugar un papel preminente. u Funci´n de Variancia de la predicci´n: o o ˆ V ar(Y ) = σ 2 xt Xt Xx (6. como antes. − 65 + 84 . el n´ mero de repeticiones del punto central. . Y = β0 + i=1. Tambi´n pueden e replicarse (la estrella completa un n´ mero rs de veces). . nc n´ mero de ensayos (corridas) que corresponden a un experimento factorial a u dos niveles. o 6. pero a bajas temperaturas. . ns n´ mero de experimentos que ser realizan para completar los cinco niveles u de las variables de control. de manera que ns = 2krs u 3. Es decir nc = 2k−f rc .k β i Xi + i<=j βij Xi Xj + ε (6. que corresponden a la idea de los experimentos uno por vez.5. n0 es.6) La idea es conseguir los ’grados de libertad’suficientes para ajustar el modelo de segundo orden completo.7) Se dice que un dise˜ o es rotable si la funci´n de variancia solo depende del tama˜ o n o n (norma) del vector (x).80 ´ CAP´ ITULO 6. 2. o un incremento en la concentraci´n reduce la conversi´n. posiblemente fraccionado. En los dise˜ os centrales compuestos esto se logra pidiendo n que nc 1/4 α= rc . EXPERIMENTACION − + 55 . . posiblemente con rc replicas (repeticiones del experimento completo. Notaci´n: o 1. 85 Altas temperaturas producen alta conversi´n. Dise˜ os centrales compuestos n Estos dise˜ os permiten ajustar modelos emp´ n ıricos de segundo orden.

6.6. si se desea partir el experimento en varios bloques de forma balanceada para estimar el efecto del bloque sin confusi´n con efectos principales o efectos de o interes. entonces. Experimentos con Mezclas Productos cuya calidad no depende de la cantidad total de los ingredientes en la mezcla sino de las proporciones de los mismos • Xi : Proporci´n del i-esimo componente o • k: N´ mero de componentes u 0 ≤ Xi ≤ 1 k Xi = 1 i=1 Estas restricciones introducen una dependencia (matem´tica) entre las compoa nentes • Para k = 2 X 2 X1 + X2 = 1 X 1 Modelo lineal general k E(Y ) = β0 + i=1 β i Xi util cuando se considera que la combinaci´n de componentes no produce sinergia ´ o ni antagonismo (medidos en funci´n de la variable de respuesta) o .6. EXPERIMENTOS CON MEZCLAS 81 Ahora bien. con el fin de garantizar est´ propiedad. 6. hay que ’balancear´l n´ mero a e u de puntos centrales a ser realizados en cada bloque.

(0. una soluci´n posible: a ´ o q−1 Xq = 1 − Xi o=1 En este caso el efecto del q-esimo componente est´ obscurecido a Mejor usar la “forma can´nica”(usando que 1 = o E(Y ) = i k i=1 Xi ) βi∗ Xi con βi∗ = β0 + βi . x2 . . 3 3 q+m−1  puntos de medici´n o En total hay  m   . .3 n 2 1 (x1 . . x3 ) = {(1.1. ( .82 Modelo cuadr´tico general a k ´ CAP´ ITULO 6. . (0. referidos como dise˜ os {q. 0. . . EXPERIMENTACION k E(Y ) = β0 + i=1 β i Xi + i≤j βij Xi Xj Los par´metros ajustados no son unicos. 1 m m • Se toman todas las posibles combinaciones en las proporciones anteri ores Dise˜ o 3. 1. ). . 0.6. m} n n • Las proporciones de cada componente toman m + 1 valores equiespaciados entre 0 y 1 1 2 Xi = 0. 0). 0). . 1). . 3 3 2 1 ( . 0. . Para el modelo cuadr´tico a E(Y ) = i βi∗ Xi + i<j ∗ βij Xi Xj 6. Dise˜ os sin restricciones en los componentes n En este caso cualquier mezcla pura puede ser usada Dise˜ os simplex para un modelo de grado m. 0).

1 ≤ x2 ≤ 0.2 0. 0.8 0.6.0 0. pi˜ a y naranja.6..8 0.6..2 0.. . De antemano se sabe que este coctel debe n contener no mas del 80 % de jugo de patilla 0.2 .0 0.2 | | | | 0.0 0.1 0.2.2 0..3 0. Dise˜ os con restricciones en los componentes n Es bastante frecuente que en una mezcla las componentes puras no sean fisicamente obtenibles o estas no sean de interes Pseudo-componentes: Se usan para los problemas en los que las componentes est´n acotados inferiormente: Xi ≥ Li a Xi = 1− Xi − L i k j=1 Lj Cuando una o varias proporciones de las componentes tienen restricciones superiores se pueden modificar los dise˜ os simplex substituyendo las componentes n restringidas con mezclas con proporciones dadas de las componentes no restringidas • Se quiere encontrar una formulaci´n para un coctel de frutas con jugos de o patilla. parchita.0 0.1 0.0 0.4 0 0.6 ≤ x3 ≤ 0..0 0.8 Es necesario ajustar estos l´ ımites para que sean consistentes (con el objeto de procurar dise˜ os de vertices consistentes) n .4 0.3 Cuando se tienen restricciones tanto superior como inferiormente la regi´n de o interes es un conjunto convexo de multiples caras 0 ≤ L i ≤ Xi ≤ U i ≤ 1 Las restricciones se llaman consistentes cuando todas y cada una de las proporciones extremas de las componentes pueden ser obtenidas Las restricciones siguientes son inconsistentes: 0 ≤ x1 ≤ 0.8 0.8 0.0 0.2 0.1 0. .0 0. EXPERIMENTOS CON MEZCLAS 83 6.0 0.. ..2 0.8 0..0 0.

.+ hq 2 ≤1 donde (c1 . EXPERIMENTACION En las regiones altamente restringidas se usan dise˜ os: n • De vertices • Definici´n de una regi´n “elipsoidal” o o x1 − c 1 h1 2 x2 − c 2 + h2 2 xq − c q +. c2 .84 ´ CAP´ ITULO 6. . . ... cq ) define el centro de la regi´n de interes y 2hi representa o el rango del i-esimo componente .

o • Es usual agrupar N observaciones en n subgrupos de tama˜ o k. Las gr´ficas de control estad´ a ısticas se usan para evaluar la estabilidad del proceso en cuanto a la localizaci´n y dispersi´n de la variable que representan la o o caracter´ ıstica. 7. en orden cronol´gico. que se espera corresponda al valor de la especificaci´n requerida para la caracter´ o ıstica y l´ ıneas de aviso. 3208:1996 Las gr´ficas de control son herramientas que sirven para analizar din´micamente a a la conducta del proceso al tomar muestras temporalmente y examinar alguna caracter´ ıstica del producto. Gr´ficas de control a Normas Relacionadas Covenin 3140:1995. o l´ ımites de control.Cap´ ıtulo 7 Herramientas estad´ ısticas para el Aseguramiento de la calidad. n • n puede representar el n´ mero de lote de producci´n mientras que k es el u o n´ mero de productos examinados en ese lote u En la gr´fica se muestra una l´ a ınea central. ¿ Qu´ debemos esperar observar en las gr´ficas de control cuando el e a proceso est´ trabajando bajo CONTROL? a 85 . Los gr´ficos de Control de Shewhart se construyen graficando alguna medida a estad´ ıstica para una serie de muestras o subgrupos.1.

cuadr´ticas. HERRAMIENTAS ESTAD´ ISTICAS PARA EL ASEGURAMIENTO DE LA CALIDAD • Cualitativamente podemos decir que la gr´fica de control debe ser no infora mativa. y los l´ ımites superior de control.86CAP´ ITULO 7. • Gr´fica de control para las observaciones a En este caso Yi = Xi . el proceso se puede o considerar como estable. LSC. . LIC. o • Los l´ ımites deben ser: ◦ Lo suficientemente sensibles para que cuando haya un cambio este sea detectado ◦ Lo suficientemente robustos para que no ocurran muchas falsas alarmas debido a la variabilidad natural del proceso. e inferior de control. LC. • No deben existir mediciones fuera de los l´ ımites naturales del proceso. • No deben existir tendencias lineales. ¿ Como se determinan los l´ ımites de control ? • Si identificamos cual es la variable aleatoria Y que est´ bajo estudio. como ¯ LSC = Y + 3ˆY σ ¯ LC = Y ¯ LIC = Y − 3ˆY σ Hay que suponer que durante el tiempo de observaci´n. los a l´ ımites de control se determinan en funci´n tanto de la variabilidad de esta o variable como por consideraciones estad´ ısticas y/o econ´micas. que no se identifique ning´ n patr´n de conducta en las mediciones u o de la caracter´ ıstica en estudio. entendiendose por estos. Usualmente se consideran tanto gr´ficas de la localizaci´n como de la dispersi´n a o o y se se interpretan conjuntamente. los l´ ımites determinados por la variabilidad resultante de las causas comunes o no asignables. Es com´ n dise˜ ar los gr´ficos de control estimando la variancia y la localizaci´n u n a o de la variable aleatoria Y y definiendo la l´ ınea central. sinosoidales o cualquier a otra que determine que el proceso est´ condicionado a alguna dependencia e temporal.

σY = ˆ d2 k ¯ R √ ¯ ¯ LSC = X + A2 R ¯ LC = X ¯ ¯ LIC = X − A2 R donde A2 = 3 √ . con agrupac´n de k datos ı o ¯ ¯ Estimaci´n de localizaci´n mediante Y = X y de la dispersi´n mediante o o o n 1 ¯ el uso de R = j=1 Ri n N 1 ¯ (Xi − X)2 N − 1 i=0 Ri es el rango del i-esimo subgrupo. d2 k A2 est´ tabulada en la Tabla 6. donde o ˆ σX = ˆ con lo que se obtiene: ¯ LSC = X + 3ˆX σ ¯ LC = X ¯ LIC = X − 3ˆX σ • Gr´fica de Control para promedios a ¯ Aqu´ Yj = Xj con j = 1. GRAFICAS DE CONTROL 87 ¯ Calcular X (que estima localizaci´n) y σX (que estima variancia). pag. 2. c2 k est´ tabulada en la Tabla 7. 6. a . a • Gr´fica de Control para promedios: a ¯ Aqu´ Yj = Xj con j = 1. . . ı o ¯ Estimaci´n de dispersi´n usando σ . . a σY = ˆ c2 k σ ¯ √ ¯ LSC = X + A1 σ ¯ ¯ LC = X ¯ LIC = X − A1 σ ¯ A1 = 3 √ . Norma Covenin 3140. . el proEstimaci´n de localizaci´n: X. pag. Norma Covenin 3140. n. . o o o o ¯ medio de los σi : desviaciones est´ndar de cada subgrupo.´ 7. . 6. n con agrupaci´n de k datos. .1. . 2.

030 0.037 0.003 74.026 0. el promedio de los Ri coo o o rrespondiente a los rangos de cada subgrupo. Se tienen veinticinco muestras de tama˜ o k = 5.012 74. n i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 Concentraci´n (ppm) o 74.017 0.006 74.005 73.023 0.009 74.001 73.006 74.009 0.001 74.011 74.010 74.997 73.995 74.013 73.015 0.007 74.004 73.000 74.995 74.006 73.012 73.997 74. pag.003 74.989 74.010 74.001 73.002 74.028 73. σY = ˆ ¯ d3 R d2 ¯ LSC = D4 R ¯ LC = R ¯ LIC = D3 R D3 = 1 − 3d23 y D4 = 1 + 3d23 . .008 0.987 73.996 73. las mediciones de la concentraci´n de contaminante se muestran en la o tabla: .992 74.006 73.986 74.996 74.985 73.999 74.009 74.013 73.012 73.033 0.983 73.001 74.005 73. HERRAMIENTAS ESTAD´ ISTICAS PARA EL ASEGURAMIENTO DE LA CALIDAD • Gr´fica de Control para Dispersi´n (Rangos) a o En este caso Yj = Rj con j = 1.001 74.994 73.88CAP´ ITULO 7.012 73.997 74.994 73.002 74.005 ¯ R= Ri 0.991 74.988 73.001 74.026 0.004 73.008 74.012 73.001 Continuaci´n: Se tomaron 15 muestras adicionales.004 73.986 73.000 74.012 74.976 74.016 73.998 74.006 73.024 0.006 74.013 73.014 73.001 74. a Ejemplo: La siguiente tabla contiene los valores de concentraci´n (en ppm) de o una sustancia en aguas residuales.999 74.003 74.997 74.991 74.003 74.006 74.002 73.011 ¯ ¯ X = ¯ Xi 74.016 0. . 2.989 74. .994 73. n.989 74.015 0.006 73.993 74.015 73.994 74.998 73.999 74.999 74. tama˜ o o n cinco.005 74.986 74.999 73.000 74.013 0. ¯ Estimaci´n de localizaci´n y dispersi´n con R.008 73.990 73.993 74.025 0.998 74.002 74.043 0.009 74.009 0.984 74.999 73.994 73.989 74.001 74.019 74.978 73.006 74.022 73.020 73.042 0.996 74.003 74.012 0.009 74.006 74.007 73.010 0.000 74.003 73.997 74.005 74. d d D3 y D4 est´n tabuladas en la Tabla 6.003 74.992 73.000 74. Las aguas provienen de un proceso que su supone estable.008 74. del agua residual.000 74.004 74.019 0.017 0.987 74.999 74.001 74.038 0.003 73.001 73.008 73.014 74. 6.998 74. Norma Covenin 3140.006 73.020 0.008 74.988 73.005 73.009 73.009 74.997 74.021 74.012 74.991 73.000 74.025 0.987 73.004 74.995 74.008 74.997 74.007 74.988 74.996 74.997 73.001 74.009 74.003 73.005 74.009 73.

062 0.014 73.015 73.05 Grafica R Concentracion (ppm) • • • • • • • • • • • LCL 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 Group Number of Groups = 25 Number beyond limits = 0 Number violating runs = 0 Target = 0. GRAFICAS DE CONTROL Group Summary Statistics 73.996 74.007 73.007 74.095 0.005 74.016 0.004 74.0220704 Lower Control Limit = 0.947 74.997 74.052 73.005 0.993 73.025 ¯ ¯ X = 74.017 73.001 74.000 74.078 0.012 74.000 74.008 73.012 74.997 74.03 0.993 73.999 74.986 73.996 74.´ 7.022 0.994 73.997 73.000 74.998 74.997 73.998 74.010 73.988 73.026 0.028 0.019 0.011 73.997 73. proceso estable a i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Concentraci´n (ppm) o 74.996 74.994 74.010 74.0029911 Upper Control Limit = 0.012 74.014 74.979 74.1: Gr´ficas X.038 .006 74.000 74.022 74.997 73.037 73.991 74.980 73.023 73.996 74.015 74.018 73.994 73.01 0.023 0.997 73.997 74.011 74.020 74. las mediciones de la concentraci´n de contaminante se muestran en la o tabla: i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 74.012 ¯ R= Ri 0.025 73.000 73.022 0.015 73.020 0.0155945 UCL • • • • • • • • • • • • • • Group Summary Statistics 0.011 73.016 73.029 0.996 73.006 74.988 74.005 74.033 73.010 73.006 74.001 74. n = 25.015 ¯ ¯ X = ¯ Xi 74.982 73.990 74. tama˜ o o n cinco.030 0.004 74.004 74.998 73.005 89 Grafica X barra Concentracion (ppm) UCL • • • • • • • • • • • • • • • • • • • • • • • • • LCL 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 Group Number of Groups = 25 Number beyond limits = 0 Target = 74.003 74.005 Continuaci´n: Se tomaron 15 muestras adicionales.1.010 74.981 74.022 0.997 73.014 74.994 74.010 0.999 73.004 73.986 ¯ R= Ri 0.0555259 ¯ ¯ Figura 7.995 74.034 74.009 74.006 73.008 74.998 74.004 74.991 73.987 73.007 74.998 73.049 0.995 74.007 73.018 0.991 73.004 73.957 73.008 74.025 0.993 73.996 74.998 73.025 74.997 74.029 73.004 74.010 74.990 74.028 0.996 73.996 73.996 74.001 74.013 73.016 74.000 74.030 74.020 0.002 74.024 Concentraci´n (ppm) o 73.003 74.002 ¯ Xi 74.011 74.000 74.036 0.006 74.017 73.012 74.008 74.008 74.984 73.960 73.000 73.987033 Upper Control Limit = 74.014 74.984 73.995 74.002 73.000 73.021 0.009 74.020 74.975 74.012 74.007 73.056 73.001 74.014 74. del agua residual.985 74.992 74.997 74.018 73.013 74.022 74.999 74.016 74.013 74.996 73.026 74.010 74.992 73.994 74.001 73.006 74.992 73.999 74.023 0.0013138 Number violating runs = 0 Lower Control Limit = 73.010 73.021 0.031 0.998 73.003 74.004 73.985 74.039 74.998 73.998 73.003 74. k = 5.998 73.985 73.008 0.020 74.014 74.034 0. R.005 74.995 73.995 73.019 74.058 0.032 0.997 74.002 74.

01 0.2 Aspectos para el an´lisis de la gr´ficas de control a a Anomal´ del proceso son posibles cuando: ıas • Al menos una realizaci´n de la medici´n de la caracter´ o o ıstica en estudio cae fuera de los l´ ımites de control.990 74. Estimaci´n de localizaci´n y dispersi´n o o o con σ . k = 5. Norma Covenin 3140. n = 15.2: Gr´ficas X. .0048159 Number violating runs = 1 Lower Control Limit = 73. n. . el promedio de los σi correspondiente a las desviaciones est´ndar de ¯ a cada subgrupo.9903653 Upper Control Limit = 74.90CAP´ ITULO 7. a 4. pag.05 Grafica R Concentracion (ppm) • • • • • • • • • • LCL 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Group Number of Groups = 15 Number beyond limits = 0 Number violating runs = 0 Target = 0. 6. • Al menos dos (2) de tres (3) realizaciones sucesivas caen del mismo lado a m´s de dos (2) desviaciones est´ndar de la l´ a a ınea central. 2. .03 0. HERRAMIENTAS ESTAD´ ISTICAS PARA EL ASEGURAMIENTO DE LA CALIDAD Group Summary Statistics 73. .0192665 UCL • • • • • Group Summary Statistics 0.0030267 Upper Control Limit = 0.020 UCL • • • • Grafica X barra Concentracion (ppm) • • • • • • • • • • • LCL 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Group Number of Groups = 15 Number beyond limits = 0 Target = 74. . LSC = B4 σ ¯ LC = σ ¯ LIC = B3 σ ¯ B3 y B4 est´n tabuladas ver Tabla 7. L´ a ımites propios • Gr´fica de Control para Dispersi´n (Desviaci´n Est´ndar) a o o a Ahora Yj = σj con j = 1.0561864 ¯ ¯ Figura 7.023301 Lower Control Limit = 0.005 74. R.

´ 7. • Al menos ocho (8) realizaciones sucesivas caen del mismo lado con respecto a la l´ ınea central.1.005 91 Grafica X barra Concentracion (ppm) • • UCL • • • • • • • • • • • • • LCL 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Group Number of Groups = 15 Number beyond limits = 1 Target = 74.01 0. R.0220704 Lower Control Limit = 0. k = 5. • Al menos doce (12) de catorce (14) realizaciones sucesivas caen al mismo lado con respecto a la l´ ınea central.03 0.0555259 ¯ ¯ Figura 7.3: Gr´ficas X. .05 Grafica R Concentracion (ppm) • • • • • • • • • • LCL 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Group Number of Groups = 15 Number beyond limits = 0 Number violating runs = 0 Target = 0. n = 15.0013138 Number violating runs = 2 Lower Control Limit = 73.987033 Upper Control Limit = 74. • Al menos diez (10) de once (11) realizaciones sucesivas caen al mismo lado con respecto a la l´ ınea central. L´ a ımites proceso estable • Al menos cuatro (4) de cinco (5) realizaciones sucesivas caen del mismo lado a m´s de una (1) desviacion est´ndar de la l´ a a ınea central. GRAFICAS DE CONTROL Group Summary Statistics 73.990 74.0155945 UCL • • • • • Group Summary Statistics 0.0029911 Upper Control Limit = 0.

9745354 Upper Control Limit = 74.0020825 Number violating runs = 3 Lower Control Limit = 73.0074.0155945 Group Summary Statistics 0. R. L´ a ımites propios Group Summary Statistics 73. k = 5.02 0.0013138 Number violating runs = 3 Lower Control Limit = 73. n = 15.0 0. R.04 0.92CAP´ ITULO 7.987033 Upper Control Limit = 74.0220704 Number violating runs = 1 Lower Control Limit = 0.0057699 Upper Control Limit = 0. L´ a ımites proceso estable .0296297 UCL Group Summary Statistics 0. n = 15.4: Gr´ficas X.0375646 Lower Control Limit = 0. k = 5. HERRAMIENTAS ESTAD´ ISTICAS PARA EL ASEGURAMIENTO DE LA CALIDAD Group Summary Statistics 73.9874.06 0.0029911 Upper Control Limit = 0.10 Grafica R Concentracion (ppm) • • • • • • • • • • • • • • • LCL 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Group Number of Groups = 15 Number beyond limits = 0 Number violating runs = 7 Target = 0.990 74.08 Grafica R Concentracion (ppm) UCL • • • • • • • • • • • • • • • LCL 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Group Number of Groups = 15 Number beyond limits = 4 Target = 0.5: Gr´ficas X.005 UCL • • • Grafica X barra Concentracion (ppm) • • • • • • • • • • • LCL • 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Group Number of Groups = 15 Number beyond limits = 1 Target = 74.0555259 ¯ ¯ Figura 7.02 UCL • Grafica X barra Concentracion (ppm) • • • • • • • • • • • • • • LCL 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Group Number of Groups = 15 Number beyond limits = 0 Target = 74.1071081 ¯ ¯ Figura 7.

Este proceso es repetido usando diferentes sub-conjuntos de calio braci´n hasta que cada muestra ha sido incluida en al menos uno de estos o conjuntos. Estos grupos de ensayos pueden ser realizados independientemente entre si. • Conjunto de entrenamiento o de calibraci´n Colecci´n de muestras o o que son usadas para construir un modelo de calibraci´n. uno que es usado como el conjunto de calibraci´n y otro es usado para predecir el conjunto de valio daci´n. • Variables ◦ de Bloqueo Es una variable usada para dividir los distintos ensayos de un experimento en grupos a los que llamaremos bloques. El modelo es construido a partir de un conjunto de datos de calibraci´n que miden o una respuesta posiblemente multivariada (R) y las correspondientes concentraciones o caracter´ ısticas conocidas (C). • Validaci´n cruzada Proceso utilizado para validar modelos que consiso te en dividir la muestra en dos subconjuntos. • Calibraci´n El proceso de contruir un modelo que pueda ser usado para o predecir caracter´ ısticas o propiedades de muestras desconocidas. o • Identificaci´n Proceso realizado en el laboratorio anal´ o ıtico para establecer la presencia de un analito.Cap´ ıtulo 8 Glosario de Terminos • Analito o Componente Una especie qu´ ımica contenida en una muestra de material. • Determinaci´n o cuantificaci´n Proceso realizado en el laboratorio o o anal´ ıtico para establecer la cantidad presente de un analito. 93 .

• Modelo cuadr´tico a Es aquel en el que se pretende modelar el cambio de la respuesta en funci´n o de los terminos lineales. etc. tales como ‘marca’. ◦ de Mezcla Estas son variables continuas que obtienen valores entre cero y uno. ◦ Categorica Es cualquier variable que puede pensarse con unicamente un n´ mero de categorias discretas. ajustados o ¯ con la media (es decir Y − Y ). con las suma de todas ellas igual a uno. pero no contiene a a e o u t´rminos c´ bicos puros. un horno puede tener cabida solo para cinco unidades experimentales pero se desea realizar 20 distintos ensayos. es necesario dise˜ ar el experimento de manera que se puede introducir en el an´lisis n a las correcciones debidas a posibles diferencias entre los bloques (las cuatro horneadas). existencia u o no de una cierta propiedad. y T es la suma de cuadrados de los valores observados. color. Estado del sistema: El conjunto de variables necesarias para describir un sistema en un tiempo particular. entonces R2 = 1 − S T Si las sumas de cuadrados son iguales (en magnitud) entonces R2 estar´ cera ca de cero. indicando que “el modelo no explica bien los datos”. Si S es la suma de cuadrados de los residuos del modelo de regresi´n. . Cada valor de la variable categorica se le llama nivel. e u • R2 : M´dida de bondad de ajuste de las regresiones que de ninguna fore ma puede ser usada como determinante de si un modelo de regresi´n es o “correcto”. de interacci´n y cuadr´ticos de las variables de o a dise˜ o. GLOSARIO DE TERMINOS Por ejemplo.94 CAP´ ITULO 8. El interes del experimentador es la dependencia de la respuesta en las proporciones relativas en lugar de en las cantidades absolutas. Sistema: Es un conjunto de entidades que actuan e interactuan para la obtenci´n de un fin espec´ o ıfico. Para dos variables el modelo es de la forma n 2 2 β0 + β1 X1 + β2 X2 + β12 X1 X2 + β11 X1 + β22 X2 • Modelo Cubico Parcial Este modelo contiene todos los t´rminos de un e modelo cuadr´tico m´s t´rminos de interacci´n c´ bica.

o u %recuperado = β0 + β1 T + β2 %Catalizador Modelos Convenientes El modelo de medidas repetidas xi = µ + ε i = 1. como por ejemplo ecuaciones diferenciales basadas en leyes de conservaci´n de masa. la relaci´n del o d movimiento rectilineo uniforme: V = t . la ecuaci´n de Maxwell-Boltzmann sobre la cin´tica o o e de gases enrarecidos (las moleculas interactuan con una fuerza inversamente proporcional a la quinta potencia de la distancia). . . . La mayoria de los modelos mecan´ ısticos son determin´sticos ı • Modelos Convenientes: Simplificaci´n de las relaciones como en los modelos o de regresi´n m´ ltiple. ε corresponde a todas las fuentes de incertidumbre (variabilidad) que cambian los resultados entre mediciones. • Sistemas Continuos: Cuando las variables de estado cambian continuamente con el tiempo Modelo: Representaci´n del sistema o Para qu´? e • Para resumir los ‘datos’de comportamiento de un sistema en operaci´n. o • Para predecir resultados tanto en el caso de que el sistema est´ operando e como en el caso en que el sistema no existe en el mundo f´ ısico. a • Modelos Mecan´ ısticos: Descripci´n del sistema en t´rminos de relaciones obtenidas de teor´ eso e ıa pec´ ıfica. .95 • Sistemas Discretos: Cuando los cambios en las variables de estado ocurren instanteamente en puntos separados del tiempo. n La componente µ representa el “verdadero valor” de la cantidad a ser medida (volumen. octanaje). Modelos: • F´ ısicos: Por ejemplo modelos a escala de aviones • Matem´ticos: Representan el sistema en t´rminos de relaciones l´gicas y a e o cuantitativas que pueden ser manipuladas para estudiar como el sistema reaccionar´ frente a esos cambios (siempre que el modelo sea adecuado!). densidad.

Wiley and Sons. The rise of statistical thinking 1820–1900. T. ı ı ı ı Madrid. Box. 30. P. E..1. G. P.... La componente µ se asume constante . Journal of the American Statistical Association.. Princeton University Press. M. (1976). (1997). . Miller. 791–799. Quality Progress. New York. Princeton. Chemometric. (2002). Prentice Hall. 47–50. Science and statistics. 71. Porter. Estad´stica y quimiometr´a para qu´mica anal´tica. (2000). (1986). G.96 Bibliografıa Notese que el modelo supone implicitamente que estos dos componentes forman la respuesta xi ADITIVAMENTE. Scientific method: The generation of knowledge and quality. E. ¿ Qu´ se puede decir de ε.? e ¿Com´ describir la variabilidad? o ¿Com´ describir patrones posibles en los datos? o Bibliografıa Beebe. Box.

Sign up to vote on this title
UsefulNot useful