´ UNIVERSIDAD SIMON BOL´ IVAR

Quimiometr´ ıa M´todos estad´ e ısticos aplicados en el laboratorio y al dise˜o experimental n

Isabel Llatas Salvador Departamento de Procesos y Sistemas

Septiembre 2004

´ Indice general
1. Introducci´n o 1.1. Reflexiones sobre la Estad´ ıstica . . . . . . . . . . . . . . . . . . . . . 1.2. Quimiometr´ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ıa 2. Mediciones e incertidumbre 2.1. Definiciones en Metrolog´ . . . . . . . . . . . ıa 2.2. Sobre los instrumentos de medici´n . . . . . . o 2.3. Errores, variables aleatorias e incertidumbre . 2.3.1. Clasificaci´n de los errores de medici´n o o 2.4. An´lisis exploratorio de datos . . . . . . . . . a 2.4.1. Herramientas gr´ficas . . . . . . . . . . a 2.4.2. M´s sobre histogramas . . . . . . . . . a 2.4.3. Medidas Numericas . . . . . . . . . . . 1 1 2 7 8 9 10 11 13 14 16 16 21 22 23 24 26 26 27 28 30 31 32 35 35 37

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

3. Distribuciones de Referencia 3.1. Distribuciones empiricas . . . . . . . . . . . . . . . . 3.2. Distribuciones de Referencia Te´ricas . . . . . . . . . o 3.2.1. Breve resumen de la teor´ de probabilidad . . ıa 3.2.2. Valor esperado y variancia te´rica . . . . . . . o 3.2.3. Dependencia e Independencia de eventos . . . 3.3. La distribuci´n normal y el teorema central del l´ o ımite 3.4. L´ ımites de confianza para la media . . . . . . . . . . 3.5. Distribuci´n conjunta y Propagaci´n de Errores . . . o o 3.5.1. Suma de variables aleatorias . . . . . . . . . . 3.5.2. Propagaci´n de errores . . . . . . . . . . . . . o

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

4. Pruebas de Significancia, muestreo y experimentaci´n o 4.1. Principio de la Navaja de Occam . . . . . . . . . . . . . . . . . . . . 4.2. Errores en las pruebas . . . . . . . . . . . . . . . . . . . . . . . . . . i

ii

´ INDICE GENERAL 4.3. Estrategia de decisi´n . . . . . . . . . . . . . . . . . . . . o 4.3.1. Comparaci´n de las medias de dos muestras: . . . o 4.3.2. Comparaci´n de variancias . . . . . . . . . . . . . o 4.3.3. Comparaci´n de medias (2da parte) . . . . . . . . o 4.4. Pruebas estad´ ısticas y experimentos . . . . . . . . . . . . 4.5. Experimentos con un factor con k niveles: . . . . . . . . 4.5.1. M´todo de la Diferencia M´nima significativa . . e ı 4.6. An´lisis de Residuos . . . . . . . . . . . . . . . . . . . . a 4.6.1. Experimentos de bloques aleatorizados completos 4.6.2. Bloques Incompletos Balanceados . . . . . . . . . 4.6.3. Experimentos con dos o m´s factores . . . . . . . a 4.7. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 38 40 40 41 42 43 44 46 47 48 48 51 51 52 53 55 62 65 66 69 71 72 76 77 80 81 82 83 85 85 93

5. Regresi´n y Calibraci´n o o 5.1. Relaciones entre dos variables . . . . . 5.1.1. Gr´ficos y covarianza . . . . . . . . a 5.1.2. Correlaci´n . . . . . . . . . . . . . o 5.2. Regresi´n Simple . . . . . . . . . . . . . . o 5.3. Regresi´n M´ ltiple . . . . . . . . . . . . . o u 5.3.1. Estimaci´n de la variancia . . . . . o 5.3.2. Regresi´n con variables cualitativas o

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

6. Experimentaci´n o 6.1. Modelos Emp´ ıricos . . . . . . . . . . . . . . . . . . . 6.2. Metodolog´ de Superficies de Respuesta y dise˜ os 2k ıa n 6.3. Bloques en dise˜ os factoriales . . . . . . . . . . . . . n 6.4. Dise˜ os 2k fraccionales . . . . . . . . . . . . . . . . . n 6.5. Dise˜ os centrales compuestos . . . . . . . . . . . . . n 6.6. Experimentos con Mezclas . . . . . . . . . . . . . . . 6.6.1. Dise˜ os sin restricciones en los componentes . n 6.6.2. Dise˜ os con restricciones en los componentes n

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

7. Herramientas estad´ ısticas para el Aseguramiento de la calidad. 7.1. Gr´ficas de control . . . . . . . . . . . . . . . . . . . . . . . . . . . . a 8. Glosario de Terminos

u ıa Se presenta m´s material que el que se dicta usualmente en un curso de un tria mestre. Por supuesto que en el prefacio deben ir los agradecimientos y comienzo agradeciendo a Luisa Angelica Delgado. considerando que el objetivo primordial de este curso es dotar al estudiantes de vocabulario y herramientas que le permita iniciarse en el dise˜ o estad´ n ıstico de experimentos. n Isabel Llatas Septiembre 2004 iii . no se puede n llegar a conclusiones que puedan ser utiles m´s all´ de la escala del laboratorio. a Daniel Celta con quien compart´ la experiencia de realizar los experimentos ı de acuerdo con un esquema estadisticamente pensado y llegar a la conclusi´n que si o no se conoce sobre la qu´ ımica o se consideran los problemas de determinaci´n en el o laboratorio.Prefacio Luego de varios a˜ os dictando primero el curso llamado ”Qu´ n ımica Industrial IIIτ luego el curso de ”Dise˜ o estad´ n ıstico de experimentos”para la Licenciatura en Qu´ ımica de la Universidad Sim´n Bol´ o ıvar y haber pasado por varios libros sin que ninguno de ellos fuera enteramente satisfactorio como texto decid´ que era pertinente transformar ı las notas del curso que estaban en formato electr´nico desde hace tiempo para ser o unas notas de curso que alg´ n d´ pueden convertirse en un texto. no importa cuan bien dise˜ ado haya estado el experimento. pues sin su gesti´n como Jefe de Departamente de o Procesos y Sistemas yo nunca hubiera dictado los cursos que dan origen a este material. a mis a a estudiantes de todos estos a˜ os que me han obligado a pensar mejor en las formas de n decir las cosas y por supuesto a mis colegas del CESMa con quien he compartido el quehacer durante estos a˜ os. puesto que en algunas oportunidades he escogido dar m´s enfasis a la parte a de calibraci´n que a la parte de calidad en el laboratorio (y en oportunidades no he o enfatizado ninguna de las dos). como una metodolog´ sistem´tica de llevar a ıa a cabo experimentos que contengan en el menor n´ mero de ensayos la mayor cantidad u de informaci´n qu´ o ımicamente relevante.

Reflexiones sobre la Estad´ ıstica Las aplicaciones de la Estad´ ıstica y del pensamiento estad´ ıstico son tangibles hoy en d´ en casi cualquier contexto humano donde el aprendizaje a trav´s del ıa e m´todo cient´ e ıfico es requerido. “tecnometr´ asociadas al ıa” uso de t´cnicas estad´ e ısticas en biolog´ econom´ psicolog´ qu´ ıa. sobre la toxie cidad de qu´ ımicos. ımica y tecnolog´ ıa.. de penetraci´n para realizar las preguntas correctas y la sabidur´a o ı para ver que es y que no es importante. de la paciencia para escuchar. 1976 1. “quimiometr´ ıa”. “psicometr´ ıa”.1.E. Esto) requiere del deseo de compreno der problemas complicados.. (. ıa. Box. 1 .” G. es la de asegurar que la estructura investigacional sea s´o lida y econ´mica. ıa. “econometr´ ıa”.. Hay areas que han desarrollado su propio uso de la estad´ ´ ıstica y la consideran inseparable de su desarrollo te´rico y es as´ que encontramos palabras como “bioo ı metr´ ıa”..Cap´ ıtulo 1 Introducci´n o “La responsabilidad (del estad´stico) en un equipo cient´fico ı ı .P. La Estad´ ıstica es reconocida como la unica metodolog´ ´ ıa confiable para basar juicios sobre la eficacia de procedimientos m´dicos. la calidad de un procedimiento de medici´n. y un largo etcetera o que se puede resumir diciendo que es una herramienta indispensable para obtener conclusiones a partir de resultados emp´ ıricos.

Obteniendo resultados cambiando deliberadamente las condiciones del sistema. el m´todo cient´ e ıfico ha acelerado este proceso en al menos cuatro aspectos: 1. Quimiometr´ ıa En este material se considerar´n aspectos relacionados con la aplicaci´n a las a o areas de la Qu´ ´ ımica. y en parte como consecuencia del desarrollo de lo que ha sido llamado “pensamiento estad´ ıstico”: la posibilidad de usar un conjunto de procedimientos basados en la teor´ de probabilidades para el ıa estudio de fen´menos tanto sociales como del medio f´ o ısico (Porter. Fisher. que . 1. P. en parte a consee cuencia de los desarrollos de t´cnicas y aplicaciones realizados por Pearson. pero cuya su relaci´n no hab´ sido identificada. como disciplina del conocimiento.2 ´ CAP´ ITULO 1. o ıa 3. E.2. Observando y analizando pasivamente sistemas en operaci´n y datos adquiridos o de ´stos. Gosett. Edgeworth a principios de ese siglo. 2. INTRODUCCION entre otras muchas areas que se encuentran en la necesidad de medir propiedades o ´ examinar atributos de elementos. e Galton. a Ciertamente la Estad´ ıstica. La historia de este desarrollo es paralela a la historia del desarrollo del m´todo cient´ e ıfico como acelerador del proceso de aprendizaje y creaci´n de informaci´n. Proveyendo un mejor entendimiento de la naturaleza interactiva del aprendizaje. cada uno conoo cido individualmente. 1986). e 4. Cada uno de estos puntos se corresponde con procedimientos metodol´gicos que ahora o se identifican con el nombre de “Mejoramiento Continuo”. de las metodolog´ derivadas del pensamiento estad´ ıas ıstico. Deduciendo las consecuencias l´gicas de un conjunto de hechos. 1986). Box o o u 1997. que vienen siendo descripciones del proceso iterativo de aprendizaje inductivo-deductivo y cuyo ´xito en los e diferentes campos ha sido potenciado en la actualidad por la disponibilidad de poderosas herramientas computacionales que han liberado a los practicantes de las barreras impuestas por las dificultades de c´lculo. El inter´s en las aplicaciones de la Estad´ e ıstica a todo tipo de problemas ha crecido sin detenerse desde finales de la d´cada de los 20 del siglo pasado. Seg´ n G. para comparar teor´ tentativas y obtener nuevos ıas conocimientos. se ha nutrido de muchas fuentes y ha tenido como una de sus principales tareas el desarrollar m´todos e de obtenci´n y an´lisis de datos por medio de los cuales se puede llegar a conclusiones o a conducentes a acciones en el ciclo de aprendizaje (Porter.

1. considerando las posibles condiciones de almacenamiento. son: a u ¿ C´mo estar seguro que el valor obtenido experimentalmente es cercano al valor o verdadero? ¿ Cu´nta incertidumbre se tiene de que el valor obtenido es el mismo (o distinto) a del valor obtenido con la misma muestra en un momento distinto o por otra persona? Responder esas preguntas es el objetivo de la primera parte de este material. o a H´bito 1: Planifique la estrateg´ de recolecci´n de datos cuidadosamente. a ıa o . a o Como hilo conductor de este material se consideran los Siete H´bitos que se a pretende desarrollar a lo largo del material. la Quimiometr´ no es s´lo eso. cuando se o a considera el pensamiento estad´ ıstico. Aqui. esto a es. estudiar el efecto que se produce sobre una (o varias) variables cuando se cambia las condiciones del sistema bajo estudio. siendo este proceso mucho m´s que la aplicaci´n directa de un conjunto de a o pruebas estad´ ısticas cl´sicas a datos obtenidos en un laboratorio de qu´ a ımica an´litica. De lo escrito anteriormente no debe deducirse que no consideraramos aqui las preguntas m´s relevantes para los qu´ a ımicos an´liticos. En la segunda parte se considerar´ el problema experimental propiamente dicho. que de acuerdo con (Miller. 2002) ı es “la aplicaci´n de m´todos matem´ticos a la soluci´n de problemas qu´ o e a o ımicos de todos los tipos”. Para esto se har´ necesario considerar modelos de regresi´n. la informaci´n qu´ o ımicamente relevante para la toma de decisiones”. la composici´n elemental e o y molecular de un material. Visto as´ la Quimiometr´ considera el uso de diferentes t´cnicas ı. pero. puesto que los ıa o problemas considerados usualmente son conducidos por la necesidad de informaci´n o para tomar algunas decisiones que validen (o no) los supuestos del experimentador. que seg´ n (?).2. 2000). a va mas alla de establecer con un marg´n de incertidumbre. por ejemplo en (?) se considera las cuales variables en la producci´n de una mayonesa baja en calorias tiene mayor influencia o en el tiempo de vencimiento del producto. puesto que lo importante para el experimentador es llegar a conclusiones en base a esa cuantificacion. ıa e de modelaje matem´tico que ayudan a la estructuraci´n de un problema qu´ a o ımico de manera que pueda ser expresado como una relaci´n matem´tica. se considera a la Quimiometr´ como “El proceso de extraer de datos. considerando para ello los modelos de medidas repetidas y los modelos de incertidumbre. Lo que se presenta a continuaci´n es una o ligera modificaci´n de los Seis H´bitos propuestos en (Beebe. m´s bien. QUIMIOMETR´ IA 3 puede ser visto como parte de la Quimiometr´a. a ıa producidos en un experimento.

se recibe un impulso Y . esto es. tener informaci´n sobre los posibles errores y resultados. pues en la mayor´ de los casos esto s´lo conduce ıa o a una perdida de tiempo o material sin ganancia de informaci´n. Ahora bien en muchos casos en el laboratorio de qu´ ımica el dato puede ser un espectro (salida de un cromatografo de gases. cual es el procedimiento anal´ que se va a emplear en el laboratorio. Un examen gr´fico y descriptivo o o a de los resultados puede ayudar a revisar cu´n alejados ellos est´n de la realidad. pues para establecer cu´l es la a a a a estrateg´ adecuada debemos conocer y entender claramente el prop´sito de ıa o nuestra investigaci´n. El primer h´bito nos plantea la necea sidad de considerar en donde vamos a muestrear. luego de reo colectar las muestras en el terreno puede haber ocurrido alguna contaminaci´n o en el traslado o almacenaje.4 ´ CAP´ ITULO 1. el tiempo en almacen puede haber cambiado la composici´n por problemas de conservaci´n. Obtener datos no puede ser simplemente plantearse unas ı experiencias en el laboratorio. por ejemplo) y . y finalmente la elaboraci´n de un ıtco o reporte. esto es. Si se ha sido exitoso. significa que el modelo ha extraido la mayor parte de la “se˜ al” o de la informaci´n determin´ n o ıstica que se encontraba escondida en el dato Y . entendiendose por ello aquella representaci´n del sistema o fen´meno o o que puede ser tratada mas facilmente. el dato. a a H´bito 3: Preprocese los datos como sea necesario a Muchos de los modelos que trataremos en este material est´n basados en la idea a de los modelos de comunicaciones. o o ıa H´bito 2: Examine los datos a Uno puede considerar que los ensayos y experimentos son mecan´ ısmos de generaci´n de “verdades” pero lo que se observa son resultados sujetos a error. INTRODUCCION Este h´bito es en realidad el h´bito b´sico. pensar c´mo escoger o los lugares de donde se van a obtener las muestras. cual es la base te´rica de la propuesta o y as´ sucesivamente. o Por ejemplo considere un trabajo de campo para determinar la concentraci´n o 3+ promedio de Cr en un lote de terreno. una simplificaci´n que permite acercarse o a la descripci´n y pron´stico de lo que podr´ acontecer en el futuro. o o considerar que modelos se van a proponer. Cada uno de estos pasos representa una fuente de discrepancia entre el verdadero valor de la concentraci´n promedio y los resultados. o Esta es la etapa de dise˜ o de la investigaci´n. que pretende formular alg´ n n o u modelo. y se descompone en Y = Se˜ al + Ruido n De acuerdo con algunos autores el papel de los modelos es convertir los datos en “ruido”.

o H´bito 5: Examine los resultados / Valide el modelo a Ning´ n modelo puede ser usado para predicci´n sin haber pasado por un proceso u o de validaci´n. QUIMIOMETR´ IA 5 es necesario procesar este dato para que el resultado pueda ser interpretado como una se˜ al que tenga sentido qu´ n ımico. y el ciclo comienza de nuevo. .1. ¿ C´ al ser´ el rendimiento si la concentraci´n del u a o catalizador es de 5 ppm?. se comporta de acuerdo con lo que se espera de un n ruido aleatorio o queda informaci´n que puede ser extraida? o H´bito 6: Use el modelo para predicci´n a o Una vez el experimentador est´ razonablemente convencido que su modelo se a ajusta a los datos que se han observado hasta el momento pues ha llegado la hora de usar el modelo ajustado para responder preguntas y tomar decisiones en base a la predicci´n del modelo: ¿ Hay alg´ n cambio en el rendimiento de la reacci´n o u o cuando la temperatura varia?. El pre-procesamiento es tambi´n una e fuente de variabilidad de los resultados que debe tomarse en cuenta. el ruido. cuando se considera utilizar escalas logaritmicas o inversas en lugar de la escala natural del instrumento de medici´n utilizado. Dependiendo de la forma del modelo. la estimaci´n puede ser obtenida simplemente por un m´todo de o e resoluci´n de ecuaciones lineales o no lineales. H´bito 7: Valide la predicci´n a o Claro. Responder estas preguntas requiere usar el modelo ajustado. A veces el pre-procesaminto tiene como objetivo disminuir la escala de variabilidad de los resultados. ¿Cu´n bien el modelo estima los resultados individuales obsero a vados que fueron usados para la estimaci´n?. ¿Una vez que se ha ajustado la o se˜ al lo que queda.2. una vez se ha tomado una decisi´n o se ha considerado que es rentable o la ultilizaci´n del catalizador a 5 ppm pues el rendimiento aumenta.. o H´bito 4: Estime el modelo a Esto significa encuentre dentro de la familia de posibles modelos aquel que mejor represente los datos con la menor complejidad.. hay que o implementar esa recomendaci´n y realizar las experiencias de acuerdo con las o nuevas condiciones definidas.

INTRODUCCION .6 ´ CAP´ ITULO 1.

Cap´ ıtulo 2 Mediciones e incertidumbre Todo anal´ qu´ ısis ımico cuantitativo o procedimiento anal´ ıtico es la aplicaci´n de o un tipo particular de m´todo de medici´n que tiene como objetivo determinar el valor e o de una magnitud (por ejemplo el pH o el porcentaje en peso) de acuerdo a una serie de operaciones bien definidas. piensese en la o o 7 . o o por ejemplo: El objeto de medici´n o El m´todo de medici´n e o Los instrumentos de medici´n o El ambiente de medici´n o El observador El m´todo de c´lculo e a Este proceso tiene imperfecciones que dan lugar a diferentes resultados a´ n cuando u las condiciones en las que se realiza el procedimiento puedan pensarse como ‘iguales’. El proceso de medici´n comienza con una apropiada especificaci´n de que se quiere o o medir y cu´l ser´ el m´todo o protocolo que se utilizar´ para realizar la medici´n. pues la diferencia depende de la raz´n y motivo de la medici´n. Por supuesto que no se puede dar un valor unico pero se puede hablar del rango de ´ variaci´n de los resultados del procedimiento de medici´n. Dua a e a o rante la realizaci´n de una medici´n intervienen factores que determinan el resultado. puesto que lo que para un investigador significa ‘cerca’puede ser ‘lejos’para otro. Sin embargo para la utilio o zaci´n de los resultados del proceso de medici´n no basta decir est´n bastante cerca o o o a se parecen.

8

CAP´ ITULO 2. MEDICIONES E INCERTIDUMBRE

escala de distancia entre galaxias que utilizan los astr´nomos con respecto a la escala o de distancia entre moleculas que utilizan los qu´ ımicos. Lo cierto es que los resultados de un proceso de medici´n, para ser v´lidos, deben o a ir acompa˜ ados de una estimaci´n de la incertidumbre de la medici´n. Pero, ¿Qu´ se n o o e entiende por incertidumbre de la medici´n.? Desde el punto de vista del lenguaje o coloquial la incertidumbre viene asociada a las dudas que se tienen de los resultados de una medici´n y su definici´n debe focalizarse a considerar el rango de valores que el o o analista cree que puede ser razonablemente atribuido a los resultados de la medici´n. o Para entender los t´rminos de esa variaci´n de resultados es necesario construir e o un lenguaje com´ n de representaci´n tanto de los procesos de medici´n como de u o o representaci´n de la variabilidad. o

2.1.

Definiciones en Metrolog´ ıa

En el a˜ o 1993 varias organizaciones internacionales dedicadas a la estandarizaci´n n o de procesos de medici´n, como por ejemplo, el Bur´ Internacional de Pesos y Medidas o o (BIPM), y el International Standard Organizacion (ISO) publicaron el resultado de su trabajo para la creacion de un “Vocabulario Internacional de T´rminos B´sicos e a y Generales en Metrolog´ con el objeto de estandarizar los conceptos asociados a la ıa¸ incertidumbre de las mediciones. Sobre el m´todo de medici´n e o Como se dijo en la introducci´n el m´todo de medici´n es una secuencia l´gica o e o o de operaciones usada en la mayor´ de las mecdiconesne de acuerdo con un principio ıa dado, por ejemplo por comparaci´n directa o por sustituci´n. El procedimiento de o o medici´n es el conjunto de operaciones utilizadas en la ejecuci´n de la medici´n paro o o ticular. Usualmente el procedimiento de medici´n est´ registrado en un documento y o a contiene un grado suficiente de detalle para permitirle a un operador llevar a cabo la medici´n sin informaci´n adicional. o o As´ cualquier procedimiento de medici´n involucra la utilizaci´n de cuatro reı, o o cursos a saber: el M´todo, la Mano de obra, los instrumentos o Maquinaria y la e Muestra, o Material que se quiere medir (las cuatro eMes). Cuando se dice que una medici´n fue realizada bajo condiciones de repetibilidad o (o repetir una medicion bajo las mismas condiciones) se est´ considerando el mismo a ‘mensurando’, el mismo observador, el mismo instrumento de medici´n, utilizando las o mismas condiciones, el mismo lugar, y un corto intervalo de tiempo entre mediciones. Es decir, que cuando se habla de repetibilidad en el procedimiento las cuatro

´ 2.2. SOBRE LOS INSTRUMENTOS DE MEDICION

9

cuatro eMes permanecen iguales, mientras que la repetibilidad de los resultados se refiere a la cercania o acuerdo entre los resultados de mediciones llevadas a cabo bajo condiciones de repetibilidad. Por otra parte, cuando las mediciones se llevan a cabo bajo otras condiciones se habla de reproducibilidad, donde los cambios en las condiciones pueden ser en cualquiera de las cuatro eMes: M´todo de medici´n e o Observador Instrumento de medici´n o Patr´n de referencia o Ubicaci´n o Condici´n de uso o Tiempo

2.2.

Sobre los instrumentos de medici´n o

Primero tenemos que aclarar que un instrumento de medici´n es cualquier dispoo sitivo utilizado a realizar una medici´n, s´lo o en uni´n de otros dispositivos. o o o Cada dispositivo de medici´n tiene: o 1. Rango de indicaci´n: Conjunto de valores limitado por las limitaciones extremas o del instrumento de medici´n. o 2. Valor nominal: Valor redondeado o aproximado de una caracteristica de un instrumento de medici´n que sirve de guia para su utilizaci´n. o o 3. Intervalo de medici´n: M´dulo de la diferencia entre los l´ o o ımites de un rango nominal. 4. Valor de divisi´n: Diferencia entre los valores correspondientes a dos marcas o sucesivas del escala. 5. Resoluci´n: Menor diferencia entre indicaciones de un dispositivo de indicaci´n o o que puede ser distinguida de forma significativa.

10

CAP´ ITULO 2. MEDICIONES E INCERTIDUMBRE

2.3.

Errores, variables aleatorias e incertidumbre

Primero que nada hay que establecer que se entiende por el “error”en una medici´n. En general se supone que si se pudiera tener una medida perfecta, la cantidad o o valor del mensurando caracterizar´ a la magnitud particular que se quiere medir. ıa Esta cantidad, denotada por la letra griega µ, difiere del resultado de la medici´n Y o por una cantidad que ser´ el error de medici´n, , esto es: a o Y = µ+ (2.1)

a este modelo lo llamaremos de ahora en adelante el modelo de medidas repetidas. Hay que recordar que nunca podremos medir sin el error de medici´n y tambi´n o e que nunca podremos conocer el error, puesto que es imposible determinar el valor de µ, pero si nuestro proceso de medici´n se realiza varias veces en condiciones de o repetibilidad (inclusive de reproducibilidad) tendriamos que las sucesivas medidas, a pesar de ser distintas entre s´ deber´ mostrar valores cercanos, con una distribuci´n ı, ıan o de valores centrados alrededor de un valor. La incertidumbre en los resultados de la medici´n es consecuencia directa de que no hay un s´lo valor, sino un n´ mero infinito o o u de valores que pueden ser atribuidos al mensurando. Ahora bien, seg´ n el Vocabuu lario Internacional de Metrolog´ la incertidumbre de medici´n es un par´metro que ıa, o a caracteriza la dispersi´n de los valores que pudieran ser razonablemente atribuidos o al mensurando y no debe ser confundida con el error de medici´n. Por supuesto que o antes de realizar la medici´n no conocemos el valor de Y , por lo que decimos que o Y es una variable aleatoria. Notese que hay situaciones donde el resultado de una realizaci´n de un “experimento” no tiene error, por ejemplo si estuvieramos lanzando o un dado de seis caras; tenemos incertidumbre acerca de cu´l ser´ el resultado, pero a a una vez el dado ha sido lanzado y se detiene, el resultado es conocido sin error. Este no es el caso de las medidas realizadas en un laboratorio de qu´ ımica anal´ ıtica, pues aun cuando se haya estandarizado la muestra para que el resultado de la medici´n o sea conocido, el procedimiento de estandarizaci´n en si mismo tiene una cantidad de o factores que lo afectan y por tanto est´ sujeto a error. a De acuerdo con el modelo de la ecuaci´n (2.1), en sucesivas mediciones Y1 , Y2 , . . . , Yn , o el valor de µ no cambia, de manera que la variabilidad observada debe ser atribuida a la variabilidad del error; por ello, si el sistema de medici´n fueses lo m´s cercano a lo o a ideal, se esperar´ que los valores de 1 , 2 , . . . , n fueran cercanos a cero y que valores ıa muy alejados del cero ocurriesen con poca frecuencia. Lo cierto es que patrones en los datos repetidos nos brindan informaci´n sobre el comporamiento de los errores y por o lo tanto de la incertidumbre de medici´n. El valor de µ se suele estimar considerando o

o condiciones de temperatura o humedad. omisi´n de operaciones o o previas a la medici´n. i=1 n n 11 (2. esto es:1 e µ= ˆ Yi .3. entendiendose por esto a los errores debidos a la imperfece ci´n del m´todo de medici´n. errores en el paralelaje o de intepolaci´n visual al leer enla escala de un instrumento.2) de acuerdo con esto.1. por ejemplo. al usar un principio de medici´n y o e o o considerar que se debe cumplir una ley f´ ısica determinada. esto es. etc. cuando un par´metro aparezca con un techo (“ˆ ”) encima se trata de un a estimador de dicho par´metro a 1 . 3. o siendo las mas usuales: 1.o o 2. o 2. ´ 4.2. Errores debidos al observador. VARIABLES ALEATORIAS E INCERTIDUMBRE el promedio aritm´tico de los valores observados. Errores debidos a agentes externos. como presencia de campos electroest´ticos a en el area del laboratorio.3. ERRORES.1 ajustado a los datos obtenidos en el laboratorio. Los errores pueden surgir por multiples razones a la hora de realizar la medici´n. Errores instrumentales. se podr´ considerar estimar los errores como la diferencia entre ıa el valor estimado de µ y el valor de cada medici´n: o ˆi = Yi − µ = ei ˆ donde ei lo llamaremos el residuo del modelo 2. Clasificaci´n de los errores de medici´n o o Podemos distinguir entre los siguientes tipos de error: De ahora en adelante. Errores de m´todo. o cuando se utilizan relaciones emp´ ıricas para dar un valor al mensurando. por ejemplo. proveniente de la limitaci´n de los intrumentos de meo dici´n en dos aspectos: o a) Errores en el proceso de calibraci´n o b) Errores por efecto de carga. errores que surgen a consecuencia de la influencia del instrumento de medici´n sobre las propiedads del objeto o o feno´meno que se mide.

en cada situaci´n es posible e o encontrar alguna estrategia que permita revelar la presencia de errores sistem´ticos a y disminuirlos aplicando correci´nes o factores de correcci´n conocidos. (Ejemplo: cuando un equipo presenta una falla. MEDICIONES E INCERTIDUMBRE Error Craso: Es decir que se present´ una falla en el proceso de medici´n y se o o requiere que el ensayo se realice de nuevo. No puede ser compensado por correciones. relativa a la variabilidad de esto es: Y = µ+ε =µ+θ+ donde θ representa dicha cantidad aleatoria. un paso del m´todo de medici´n no fue a e o llevado a cabo). esto es menor ser´ la dispersi´n de los valores obtenidos y por o a o lo tanto menor ser´ la incertidumbre de medici´n. La existencia de sesgo en las mediciones conlleva a que los resultados carecen de exactitud. Error Sistematico o Sesgo: tiende a dar resultados que se encuentran siempre por encima o por debajo del valor verdadero. Si se o a conoce de su existencia se puede compensar. pero a´ n as´ o o u ı. el resultado de la medici´n ser´ un estimador del valor del mensurando. Pudiera pensarse que casi cualquier procedimiento de a . misma muestra). Y1 = µ + µ f + δ + Y2 = µ f + δ + Y1 − Y 2 = µ + ( 1 2 1 + 2) Error Aleatorio: Variaciones que ocurren cuando las mediciones se realizan con las mismas condiciones. (El analista no es capaz de juzgar cambios de color en una titulaci´n visual.2) a o est´ muy alejado del verdadero valor de µ. a o Lo ideal es contar con un procedimiento de medici´n que garantice que los resulo tados ser´n precisos y exactos. el reactivo est´ contaminado. Ejemplo: Realizar todas las pesadas por diferencia. Ahora bien.12 CAP´ ITULO 2. el equipo no est´ calibrado). Se pesa primero el pesafiltro con la muestra y luego sin ella. (Mismo analista. En este caso podemos considerar que la medici´n es el resultado o de sumar al error una cantidad aleatoria que puede tomar valores muy alejados del cero. Mientras menor sean los errores aleatorios mayor ser´ la a precisi´n del resultado. o a En cuanto a los errores aleatorios ellos pueden ser tratados realizando mayor n´ mero de repeticiones y teniendo en cuenta las fuentes de estos errores a la hora u de realizar las mediciones. esto es que cuando se consider´ el estimado de µ de la ecuaci´n (2.

es decir que tienen un orden de mayor a menor pero la escala no est´ certificada (0: sin sal. 1: Se detecta). o de variables n´ mericas de eventos. o pueden ser variables ordinales. hay que tener en cuenta o que cada instrumento de medici´n tiene un l´ o ımite por debajo del cual es imposible disminuir su error de indicaci´n o umbral de discriminaci´n. Concentraci´n. y el gasto s´lo se justificar´ cuando sea o ıa necesario de acuerdo con la utilizaci´n posterior de los resultados de la medici´n. en condiciones que nos permitan suponer la existencia de una poblaci´n o infinita de resultados a la que accedemos a trav´s de la escogencia de una muestra (o e conjunto finito de individuos que van a ser medidos u observados por el experimentados).´ 2. s´lo cambiando de o o o instrumento se prodr´ logr´r major exactitud. pero el costo de los intrumentos y a a los requerimientos de las condiciones necesarias para su correcto funcionamiento son proporcionales a la exactitud del mismo. 2. intensidad. 2: sabroso. presi´n. claro est´. volumen. Las primeras pueden ser codificaciones establecidas arbiu trariamente (0: No se detecta un analito. 1: desabrido. 5: saladisimo). Las segundas usualmente contesta la pregunta de ¿Cuanto . En principio supondremos que los datos han sido obtenidos en condiciones similares. o o de manera que en muchas ocasiones tendremos que lidiar con la variabilidad de las medidas y encontrar estrategias para identificar cuando y por cuanto nos estamos equivocando. u o peso. ANALISIS EXPLORATORIO DE DATOS 13 medici´n estandarizado deberia cumplir esto. es necesario distinguir entre distintos tipos de datos: a Datos Discretos: Pueden provenir de una variable cualitativa. temperatura. cuantas llamadas telef´nicas se recibieron?) o Datos Continuos: Producto de mediciones de variables que toman valores en un intervalo de n´ meros.4. . por ejemplo. otro que se puede adaptar y otro que NO se debe utilizar.4. o Para cada tipo de datos hay un tipo de herramientas del arsenal del modelaje que se puede utilizar. 4: salaa do..? (¿cuantas bacterias murieron en el ensayo de toxicidad?. An´lisis exploratorio de datos a Por an´lisis exploratorio de datos se entiende un conjunto de t´cnicas gr´ficas y a e a num´ricas que nos permiten estudiar los patrones y distintos comportamientos de e los datos obtenidos con el objeto de proponer modelos estad´ ısticos que nos ayuden a interpretar los datos.. esto es. 3: un poco salado. sin embargo.

50 0. 0. El objetivo es detectar o la existencia de patrones que puedan indicar que hubo manipulaci´n de datos o que o hay alguna relaci´n entre las medidas en distintos momentos.4.49 0.50 0.50 0. MEDICIONES E INCERTIDUMBRE Cuadro 2. que representa un valor que deja al 75 % de los datos po debajo y al 24 % de los datos por encima.1 se muestra cuatro gr´ficos que se usan para observar distintos a patrones en los datos.48 0.51 0.49 0.50 0. la l´ ınea inferior es el Primer cuartil.52 0. La caja viene constituida por tres lineas que representan la divisi´n o de los datos en cuatro.1: Cincuenta medidas repetidas de la concentraci´n ion nitrato (µg/ml) dada con dos o cifras significativas en una muestra de agua.51 0. Por ejemplo considerese la Tabla 2.52 0.48 0.49 0. tambi´n se presenta unas l´ e ıneas llamadas “bigotes”que . Herramientas gr´ficas a ´ Utiles cuando el conjunto de datos es relativamente grande y no se puede establecer un patr´n sencillo viendo la tabla de datos.49 0. un valor que deja al 25 % de los datos por debajo y al otro 75 % por encima.49 0.49 0. o El segundo gr´fico (diagrama de puntos) contiene la misma informaci´n pero ahora a o considerando que los datos se obtuvieron en corridas de 10 en 10. El primer gr´fico (esquina superior izquierda) muestra la sucea si´n de valores en el orden temporal en que fueron adquiridos.51 0.50 0.51 0.51 0.49 0.51 0.52 0.49 0.47 0.50 0.52 0.1 donde o se realizaron en condiciones de repetibilidad cincuenta ensayos de medici´n de iones o de nitrato en una muestra de agua: En la Figura 2.46 0.51 0.50 0.47 0. la Mediana que representa el valor u observaci´n (o intervalo entre observaciones) que deja al 50 % o de las observaciones por encima y al otro 50 % por debajo de este valor y finalmente el tercer cuartil.50 0.48 0.50 0.1.14 CAP´ ITULO 2.53 0.49 0.51 0.51 0.48 0.53 0.51 0.49 0.51 0.51 2.4. En los diagramas de caja.52 0.47 0.53 0.51 0. esto es.48 0.50 0. El tercer gr´fico presenta una representaci´n de los cincuenta datos que se llama a o diagrama de caja que permite analizar conjuntamente una serie de m´didas n´ mee u ricas de los datos.

48 0.46 0.3 se v´ como afectar´ los resultados cuando las observaciones que se llevaron a cabo en e ıa la posici´n 11 a 20 fueron realizadas por un t´cnico de laboratorio que olvid´ alg´ n o e o u paso y por tanto presentan un error sistem´tico. es decir.4.48 0.53 1 15 2 Concentracion 3 4 5 0 10 20 Index 30 40 50 0.48 0. o .50 0.52 0. proporcional a la frecuencia de ocurrencia del intervalo.5.46 0.52 0.53 Frequency 0 2 4 6 8 10 12 0. u A continuaci´n presentamos tres variaciones de estos gr´ficos cambiando en el caso o a de la Figura 2.51 0. En la fig 2.48 0.´ 2. ANALISIS EXPLORATORIO DE DATOS Figura 2.52 Histogram of Concentracion 0.50 0.54 Concentracion representan los l´ ımites esperados de la dispersi´n de los datos. El cuarto gr´fico corresponde al histograma.50 0.50 0.46 0.51 0. 2.75 y o a f = 1.46 0.47 0. q3 al tercero y f es un factor que depende de ciertas suposiciones sobre la distribuci´n. en la Fig. Usualmente se recomienda utilizar intervalos de la misma longitud.49 0.4 se puede ver el efecto a de un cambio de instrumento de medici´n en alg´ n paso del proceso que aumenta la o u variabilidad (o disminuye la precisi´n) de las observaciones. que es simplemente un diagrama de a barras donde el area de cada barra es proporcional al n´ mero de datos que se encuen´ u tran en el intervalo que sirve de base a la barra. pero los valores m´s usados son f = 0. Estos “bigotes”en o realidad.52 0.2 una de las observaciones para reflejar un error craso. son una estimaci´n no param´trica del rango de los datos y se calculan o e como: L1 = q1 − f × (q3 − q1 ) L2 = q3 + f × (q3 − q1 ) donde q1 corresponde al primer cuartil. por lo que la altura de cada barra es proporcional al n´ mero de datos.47 0.1: Descripci´n de los datos de concentraci´n o o 0.49 0.

2 0.51 → 0.15 1 0.4 0.3 0. en ausencia de errores sistem´ticos.5 Concentracion 2.3. lo segundo es cu´n grande es ese rango de a posibles valores.2 0.5 Histogram of Concentracion 0.4 0. la media y la mediana coinciden. a Cuando esto ocurre. el histograma sea sim´trico. MEDICIONES E INCERTIDUMBRE Figura 2.5 0. a e 2.4 Frequency 0. Medidas Numericas Un gr´fico puede ser sumamente informativo pero a veces es necesario resumir a las datos de manera n´ merica de manera que se pierda la m´ u ınima informaci´n.2 0 0. M´s sobre histogramas a Diremos que una distribuci´n de frecuencias es sim´trica si el lado derecho de o e la gr´fica (con respecto a la mediana) es la imagen especular del lado izquierdo.3 0. Si el histograma representase mediciones realizadas en las mismas condiciones se espera que. por o ejemplo.4.3 4 0.4.3 0.5 2 Concentracion 0.2: Error Craso: 0. Lo primero que se puede plantear para un conjunto de datos es donde se encuentran localizados en el rango de posibles valores. cuando se desea estimar alg´ n par´metro poblacional en base a un conjunto u a de datos observados.1 5 10 15 20 25 30 0.4 3 0. A este tipo de resumenes num´ricos de los datos los llamaremos e estad´sticos que pueden pensarse como el resultado de una funci´n evaluada en el ı o conjunto de datos. . como se dispersan los valores alrededor de un valor central.2 5 0 10 20 Index 30 40 50 0.2.16 CAP´ ITULO 2.

a valores de los datos que sean muy distintos al com´ n de los observados.45 0. obtenidos en sucesivos ensayos.52 Frequency 0 0. ANALISIS EXPLORATORIO DE DATOS Figura 2.54 0.3: Error Sistem´tico: Datos 11 al 22 → 0.58 0.52 4 0.56 3 0.50 0.46 0 10 20 Index 30 40 50 0.50 0. .54 0.48 0. se agrupar´n. La Moda: Es el valor muestral que m´s se repite.60 1 2 17 Concentracion 0. cuando consideramos que cada punto muestral tiene la misma masa. pues en este caso no se u comparan magnitudes sino el orden entre los datos obtenidos. xn se define como n xi x = i=1 ¯ n Es el centro de masa de los datos. El valor de la media muestral (tambi´n llamado valor promedio aritm´tico) es sensible e e a observaciones extremas.58 0.54 0. Entre las medidas m´s comunes se encuentran: a a La Media Muestral: Para el conjunto de observaciones x1 .48 0. x2 . .07 a 0.56 0.55 0.60 Concentracion Medidas de localizaci´n: o Pretenden dar una idea el valor alrededor del cual los datos.60 0.4. a La Mediana: Es el valor (o intervalo entre valores) que deja al 50 % de los datos por debajo del mismo (y al otro 50 % por arriba). .´ 2. por lo que cuando se .46 0. .50 5 10 15 0.58 Histogram of Concentracion 0. Esto no ocurre con la mediana.46 0.50 5 0. esto es.

. . . 5. Una manera de hacer la media menos sensible a valores extremos es “truncarla” La Media truncada (T-Mean): Es el valor del promedio de los datos muestrales cuando no se consideran un porcentaje de los valores extremos (los m´s a grandes o m´s peque˜ os).60 0. xk } a ın{x T − M ean(33. .18 CAP´ ITULO 2.65 Concentracion tiene una apreciable diferencia entre la media y la mediana hay evidencia de asimetr´ ıa del histograma y a la hora de modelar estad´ ısticamente estos datos tendr´ que ser a considerado.60 2 Concentracion 0.60 0. a n Datos:2.65 1 0. Algunas de las medidas m´s comunes o o a a son: Rango: Simplemente es el valor m´ximo menos el m´ a ınimo R = m´x{x1 .40 0 0.5 .45 0. . MEDICIONES E INCERTIDUMBRE Figura 2. 1. xk } − m´ 1 . .40 0.45 5 0.60 0.45 0.55 3 0. .50 0.4: M´s incertidumbre: Datos 11 al 22 a 0.50 0.40 0.50 4 0. . 4. ¯ Medidas de dispersi´n o Se usan para cuantificar el tama˜ o del intervalo en donde los datos obtenidos de n la observaci´n de un fen´meno se encontrar´n.55 0.35 5 10 15 20 0.65 0.5.50 Frequency 0.45 0.55 0. 13 x = 4. 2. 33 %) = 3.40 0 10 20 Index 30 40 50 0.65 Histogram of Concentracion 0.55 0.

01 0. ANALISIS EXPLORATORIO DE DATOS 19 Figura 2.5: Histograma sim´trico e 0.3 −2 0 2 4 Figura 2.04 Frecuencia relativa 0.0 −4 0.00 0 10 20 30 40 50 60 0.02 0.6: Histogramas asim´tricos e Asimetr´ positiva ıa 0.03 0.05 Asimetr´ negativa ıa 0.02 0.´ 2.01 0.00 −40 0.2 0.05 Frecuencia relativa 0.4.03 0.1 0.04 −30 −20 −10 0 10 .4 Frecuencia relativa 0.

Rq = q 3 − q 1 Desviaci´n est´ndar: Es una mediada de la ‘lejan´ o a ıa’promedio de los valores con respecto a la media muestral. . MEDICIONES E INCERTIDUMBRE Rango intercuantil: Es la longitud del intervalo central donde est´n contenia dos el 50 % de los datos. se puede utilizar para comparar precisiones de resultados que tienen diferentes unidades o magnitudes. Observaci´n: en la mayoria de los textos de metrolog´ y qu´ o ıa ımica an´litca se a considera a la Desviaci´n est´ndar como el par´metro asociado a la incertidumbre de o a a la medici´n.20 CAP´ ITULO 2. o Variabilidad Relativa Medida m´ ıxta: El coeficiente de variaci´n CV o Desviaci´n est´ndar relativa o o a que se define como: s DER = 100 x ¯ Es un ejemplo de error relativo. s= n i=1 (xi − x )2 ¯ n−1 La variancia muestral: Es simplemente el cuadrado de s.

Lo cierto es que si hemos desarrollado un proceso de medici´n para el o que conocemos que los valores obtenidos se encuentran entre 0 y 5.Cap´ ıtulo 3 Distribuciones de Referencia Las medidas n´ mericas y los gr´ficos son ‘resumenes’de los resultados obtenidos u a pero no indican la forma en que estar´n distribuidos nuevos resultados. ¿tambi´n concluiriamos que han ocurrido cambios en el sistema? y esto nos e lleva a preguntarnos ¿ En cuanto estamos dispuestos a aceptar desviaciones (difieren los resultados) para decidir que estamos observando cambios en el sistema? Para responder a preguntas como esta se ha desarrollado una serie de principios. una parte esencial de las reglas del o aprendizaje. que la falta de ox´ ıgeno mata la vida aer´bica y as´ sucesivamente. Evidentemente nuestra experiencia ha construido una referencia de lo que es y no es posible que ocurra en el sistema. lo que nos interesa a la hora de iniciar una investigaci´n o un proceso de o medici´n. En principio pudieramos pensar o en construirla utilizando los datos del sistema. estamos en presencia de un cambio en el sistema de medici´n y debemos o revisar en donde ocurrieron esos cambios. Se pretende construir una distribuci´n de referencia que condense la o informaci´n sobre la medida (el estado del sistema). o ı estamos acostumbrados a pensar que el pasado sirve para comprender el futuro siendo esto realmente una suposici´n de trabajo. ı ı n a que el fuego quema. Por supuesto una de las habilidades m´s importantes del cerebro humano o a est´ en la capacidad de sintetizar de la experiencia y establecer reglas que deber´ a ıan suceder en el futuro. as´ todos nosotros tenemos cas´ certeza que ma˜ ana saldr´ el sol. Un valor de 50 nos lleva a pensar que. teorias y heuristicas para representar la ocurrencia de eventos que est´n sujetos a a incertidumbre. nos llamar´ poa derosamente la atenci´n un reporte en el que se diga que el valor del mensurando es o de 50. pero No podemos obtener todos y cada uno de los resultados de una poblaci´n en tiempo finito y en ocasioo 21 . a fin a de cuentas. casi sin dudas.001. Claro est´ que tenemos que considerar que pasaria si el resultado hubiera sido a 5. que es.

considerandolos valores “posibles”.1 A continuaci´n se muestra un resumen num´rico de los datos anteriores. Distribuciones empiricas Si tenemos la suerte de contar con suficientes datos provenientes del sistema bajo estudio. o relevantes para nuestro proposito. pero si ese valor es infrecuente. por ejemplo considerese que se proponen dos m´todos de desulfurizaci´n. Lo que est´ funcionando en este razonamiento es que si algo ocurre frecuentea mente es algo “natural” en el proceso. Con ella podemos construir una referencia para la ocurrencia de valores en el futuro. si nos dijeran que el resultado fue o 0. DISTRIBUCIONES DE REFERENCIA nes ni siquiera tenemos un sistema f´ ısico que nos permita realizar las mediciones. podemos decir que esperamos o o que el pr´ximo valor este cerca de 50 gr. representa una cantidad grande de mediciones (en este caso del ion nitrato). o Claro est´ que en ocasiones estamos interesados en hacer preguntas un poco m´s a a dificiles. Ahora. Considerando la distribuci´n de los datos obtenidos e o y bajo la suposici´n que el pr´ximo dato ser´ generado por el mismo mecanismo (proo o a ceso de medici´n) que el que di´ lugar a los observados. pues el valor est´ muy alejado de a los valores observados previamente. Como ya hemos visto.35 gr. se puede considerar la distribucion empiricas de los datos observados. obtenido o e . o 3. que son fotografias parciales de la e poblaci´n.1.22 CAP´ ITULO 3. el B es un nuevo m´todo. Si nos pidieran que ‘adivinasemos´l pr´xie o mo resultado ¿qu´ contestamos?. el e o primero A es el m´todo est´ndar. un histograma como el de la Figura ??. o De esta manera estamos usando la frecuencia de ocurrencia como una medida de cuan raro o no es el evento que estamos observando y esto nos permite realizar inferencias sobre la poblaci´n de medidas representadas en el histograma. considerando la frecuencia de ocurrencia de estos valores en el pasado. La pregunta pertinente e a e es si el m´todo B puede ser considerado como una alternativa viable al m´todo A. entendiendose por ella una manera de representar la frecuencia de ocurrencia de los eventos observados. Lo que estamos haciendo al comparar contra el histograma es comparar la magnitud del mensurando contra la frecuencia de ocurrencia de magnitudes parecidas a esa. Usualmente estamos restringidos al conocimiento imperfecto adquirido a trav´s de muestras. ¿ lo aceptamos como un resultado proveniente del mismo sistema?. es factible que no haya sido generado por el mismo fen´meno que los anteriores. es decir estamos en el campo de las ideas. e e de verdad ¿ Hay mejora ? Los resultados de diez mediciones por cada m´todo se e muestran en la tabla 3. Parece natural contestar esta pregunta con negativamente.

70 Max. 3. 1st Qu.D 2. que pueden ser usadas como referencias. 79.30 83. a o las que previamente denominamos Variables Aleatorias.5 84. > summary(a) Min.3 % m´s que el m´todo A.95 Max.9 86. en casi todos los casos se pueden establecer simplificaciones y suposiciones que permiten construir distribuciones de frecuencia de ocurrencia de los eventos basadas en consideraciones te´ricas.7 81. 84. DISTRIBUCIONES DE REFERENCIA TEORICAS 23 Cuadro 3. u ¿ Es la diferencia de los resultados lo suficientemente grande como para cambiar de metodolog´ Lo que estamos viendo es que en promedio el m´todo B elimina un ıa? e 1.D 3.7 85.6 89.2.3 82.1 83.24 85.3 79.70 82.54 87. .50 Median 85.5 con un programa estad´ ıstico. Distribuciones de Referencia Te´ricas o En muchos casos no es posible contar con datos hist´ricos y mucho menos contar o con la seguridad de que puedan ser usados a lo largo del tiempo.40 Mean 3rd Qu.90 S.3 79. o Para esto se considera que los eventos pueden estar caracterizados o relacionados con cantidades aleatorias que deben ser medidas en una poblaci´n finita o infinita.7 86.33 Median 84. 89. Con esta ‘distribuci´n’de la diferencia de los promedios o podemos decidir si 1.3 % es a e a o el resultado de un cambio de m´todo o es simplemente un resultado posible a´ n e u cuando no se haya cambiado el m´todo? Una manera de pensar en esa comparaci´n e o ser´ considerar construir 10 mediciones para cada m´todo. 79. 85. desulfuriza m´s. 1st Qu.1 83.1 81.20 > summary(b) Min.2 91.2.7 84.7 83.4 84.90 S. el orden corresponde al orden temporal e A B 89. la pregunta con respecto a la mejora se transforma en una pregunta de tipo n´ merico. el orden corresponde al ıa e orden temporal todas las posibles diferencias de los promedios de diez datos sucesivos en las mismas condiciones. es decir. Esta distribuci´n emp´ u o ırica construida con los datos disponibles nos puede servir de referencia. 91. Sin embargo.7 88.5 84. pero ¿c´mo decir si 1.´ 3.1: 10 mediciones para cada m´todo.8 87.65 Luego de realizar los ensayos y encontrar el porcentaje de azufre eliminado.03 Mean 3rd Qu.3 es ‘raro’/ o simplemente es ‘com´ n’.

24

CAP´ ITULO 3. DISTRIBUCIONES DE REFERENCIA

3.2.1.

Breve resumen de la teor´ de probabilidad ıa

Uno de los avances m´s significativos en la historia humana lo constituye el desaa rrollo de todo un cuerpo de ideas que considera el resultado del azar como algo que puede ser medido, si bien no desde el punto de vista de la completa cuantificaci´n o si desde el punto de vista de su frecuencia de ocurrencia. Esto es, considerando que se pueden presentar muchas veces la situaci´n de observaci´n de un fen´meno, cu´n o o o a frecuente es que ocurra un evento en particular. La teor´ de probabilidad considera que para un fen´meno observable de acuerdo ıa o con la ocurrencia de ciertos eventos, existe una funci´n de ese espacio de eventos o que identifica cuan frecuentemente se puede observar dicho evento en una repetici´n o de la observaci´n, llamando a esa funci´n funci´n de probabilidad. Por ejemplo, si el o o o fen´meno fuese el lanzamiento de un dado y los eventos el n´ mero de puntos que o u aparece en la cara superior despues del lanzamiento, bajo la suposici´n de que en o el mecanismo aleatorio no hay preferencia por un resultado que por otro, se puede considerar a la funci´n: o P (n) =
      
1 6

Si n = 1, 2, 3, 4, 5, 6 en otro caso

0

como una funci´n que representa la incertidumbre asociada al lanzamiento. Ciertao mente previo al lanzamiento no sabemos cual va a ser el resultado, pero tenemos bastante informaci´n sobre la frecuencia de ocurrencia de los posibles resultados. o Para que una funci´n P sea considerada como la probabilidad de un evento E o tiene que cumplir lo siguiente1 : 1. 0 ≤ P (E) ≤ 1 2. Si A y B son dos eventos disjuntos (es decir que si uno ocurre el otro no puede ocurrir), entonces p(A ∪ B) = P (A) + P (B). Esta propiedad se llama aditividad. 3. Si A y B son dos eventos disjuntos tales que su union es el conjunto de todos los eventos posibles entonces P (A ∪ B) = 1 y por la propiedad de aditividad, consecuentemente se tiene que P (A) = 1 − P (B). Si la variable X es discreta y toma valores xi , i = 1, 2, . . ., la distribuci´n de o frecuencia te´rica se puede representar con una funci´n f tal que o o Prob{X = xi } = f (xi )
Estas son condiciones m´ ınimas, si se quiere mayor detalle sobre las condiciones que debe cumplir puede consultar cualquier libro de probabilidad matem´tica a
1

´ 3.2. DISTRIBUCIONES DE REFERENCIA TEORICAS

25

Por supuesto f (xi ) ≥ 0 y i f (xi ) = 1 Ejemplo: Se supone que se tiene n muestras de las que se quiere conocer cuantas tiene contenidos de ars´nico que pueden considerarse t´xico. Llamemos a esa cantidad e o X, donde X puede tomar valores enteros entre cero y n. Si las muestras provienen de la misma poblaci´n se puede considerar que individualmente s´lo hay dos opciones: o o o contiene m´s de la cantidad o no lo contiene. Una situaci´n como esa es la llamada a o situaci´n de un “experimento Bernoulli”en el que se presentan dos resultados, uno o llamado exito y el otro fracaso. Con este esquema basta establecer cual es la probabilidad de exito, digamos p, puesto que la probabilidad de fracaso ser´ 1 − p. Bajo la a suposici´n que las n muestras fueron obtenidas de manera independiente2 , entonces o obtener k exitos y n − k fracasos tiene una probabilidad de pk (1 − p)n−1 con lo que: Prob(X = k) = 

Si la variable X es continua, lo que se requiere es una funci´n f tal que, si I es o un intervalo en la recta real: Prob{X ∈ I} =
I

n  k p (1 − p)n−k k

f (x)dx

y aqu´ f (x) ≥ 0 y f (x)dx = 1. A esta funci´n f se la conoce como funci´n de ı o o densidad de probabilidad. A la funci´n F definida como: o F (t) =
t −∞

f (x)dx

se le llama funci´n de distribuci´n acumulada de probabilidad. o o Ejemplo 1: Distribuci´n Poisson de par´metro λ o a λx f (x) = exp (−λ) x! para x = 0, 1, . . .. Este es un modelo probabil´ ıstico muy utilizado en el caso en que se pueda considerar que los eventos se refieren a la ocurrencia de un fen´meno a tasa de ocurrencia o constante, por ejemplo las llegadas de llamadas a centrales telef´nicas. o Ejemplo 2: Distribuci´n exponencial de par´metro θ o a f (x) =
2

      

0

si

x<0 x≥0

θ exp(−θx) si

se define m´s adelante a

26

CAP´ ITULO 3. DISTRIBUCIONES DE REFERENCIA

Este modelo es frecuentemente usado para la duraci´n de algun procedimiento que o tiene tasa de ocurrencia constante. (Por ejemplo el tiempo que se emplea en procesar una muestra en el laboratorio con un procedimiento est´ndar). a

3.2.2.

Valor esperado y variancia te´rica o

De la misma manera que se definieron descripciones num´ricas de conjuntos de e datos, se pueden definir descripciones num´ricas para las funciones de distribuci´n de e o probabilidad, por ejemplo: Esperanza matem´tica: Es el centro de masa de la densidad de probabilidad. a • X discreta
∞ i=0

E(X) =

xi f (xi )

• X continua

E(X) =

∞ −∞

xf (x)dx

Variancia: Es el momento de inercia de la densidad de probabilidad • X discreta
∞ i=0

V (X) =

(xi − E(X))2 f (xi ) (x − E(X))2 f (x)dx

• X continua

V (X) =

∞ −∞

La desviaci´n est´ndar, al igual que en el caso discreto es igual a la ra´ cuadrada o a ız de la variancia y es una medida de la incertidumbre te´rica asociada a la variable o X.

3.2.3.

Dependencia e Independencia de eventos

Volvamos al ejemplo simple del lanzamiento del dado. Ciertamente antes de lanzar el dado lo unico que sabemos es que la frecuencia de ocurrencia del evento es 1/6. ´ Ahora supongamos que salimos de la habitaci´n, alguien lanza el dado y nos avisa o que el resultado fue un n´ mero impar. ¿ tenemos la misma incertudumbre que la u que teniamos previo a ese aviso?. La respuesta es no, puesto que ahora los unicos ´ resultados posibles en el lanzamiento son el 1, el 3 y el 5. El aviso es un evento informativo sobre el resultado del experimento y por tanto estamos en una situaci´n o con m´s informaci´n. a o

que se representa con la funci´n de densidad: o o f (x) = √ 1 (x − µ)2 exp − σ2 2πσ 2 . es decir. no disminuye su incertidumbre.3. se esperar´ que los errores o ıa de medici´n estuvieran cercanos en magnitud al cero. esto a es. o Ahora dos eventos son independientes si la ocurrencia de uno de ellos no aporta informaci´n sobre la ocurrencia del otro. o dicho de otra manera: = Suma de muchas cosas aleatorias Teoricamente se demuestra que la suma de muchas (infinitas) cosas aleatorias que tienen como valor esperado µ y variancia finita. La distribuci´n normal y el teorema central o del l´ ımite Al hablar del modelo de medidas repetidas Y = µ+ deciamos que si el procedimiento de medici´n era adecuado. considerando que las diferencias entre medici´n y medici´n provienen de una ‘acumulaci´n’de errores y causas aleatorias en o o o el proceso. esperariamos que el histograma de las mediciones fuera sim´trico alrededor del e valor real del mensurando. la representaci´n desde el punto de vista de la o frecuencia de ocurrencia tien un modelo teorico. Ahora bien. o En t´rminos de probabilidad condicional lo que se tiene es que si los eventos son e independientes P (A|B) = P (A) y en consecuencia P (A ∩ B) = P (A)P (B) a esta ultima se la conoce como la regla de la multiplicaci´n de probabilidades de ´ o eventos independientes.3. tienen una distribuci´n que se puede o identificar como ‘normal´ gaussiana.´ 3. LA DISTRIBUCION NORMAL Y EL TEOREMA CENTRAL DEL L´ IMITE27 Si A y B son dos eventos se define la probabilidad de A condicional a la ocurrencia de B como: P (A ∩ B) P (A|B) = P (B) donde el lado izquierdo de la ecuaci´n se lee: “probabilidad de A dado B” . y no tendr´ o ıamos ninguna raz´n o para pensar que errores positivos fueran m´s frecuentes que errores negativos. 3.

con valor esperado µ ¯ e a −3 0. µ + σ. Esto nos permite considerar como o estimados de los par´metros de una distribuci´n normal a los valores de la media y a o la variancia muestral de los datos observados. σ = 1 3 Para una distribuci´n con par´metros µ y σ. µ + 2 × σ) el 99. L´ ımites de confianza para la media Una caracteristica de una muestra de n datos distribuida normalmente N (µ.23 % de los resultados. σ) es que la media muestral x tambi´n est´ distribuida normalmente. la campana est´ centrada en µ y o a a los punto de cambio de concavidad se encuentran en µ − σ. DISTRIBUCIONES DE REFERENCIA Galton fue uno de los primeros investigadores en considerar a la distribuci´n noro mal como el modelo te´rico de la frecuencia de ocurrencia para datos. en (µ−2×σ. µ+σ) se espera encontrar el 68.28 CAP´ ITULO 3.2 0. 3.3 0. Figura 3.4 −2 −1 0 1 2 . pues empirio camente verific´ que datos provenientes de muchos fen´menos que pueden pensarse o o como consecuencia de m´ ltiples efectos aleatorios tenian histogramas aproximados a u la curva normal. de par´metro o a µ = 0. se obtiene que el valor esperado o o es igual a µ y la variancia te´rica es igual a σ. En el intervalo (µ−σ. µ+2×σ) el 95.1: La densidad de una distribuci´n normal.96) y en (µ − 2 × σ.79 %. Es interesante notar que si se realizan los c´lculos correspondientes al valor espea rado y a la variancia para esta distribuci´n te´rica.0 0.4.1 Densidad Normal 0.41 %. (El 95 % exacto se obtiene cambiando el 2 por 1.

96 × √ ) n n o dicho de otra forma: σ |¯ − µ| < √ x n con lo que.96 × √ ) x ¯ n n que contiene a µ. por supuesto. tambi´n es razonable pensar que el 95 % de las muestras nos dar´n un e a intervalo σ σ (¯ − 1. Ahora bien. asumiendo. o o o es razonable esperar que el 95 % de las muestras nos den valores medios (promedio aritm´tico) que se encuentren en el intervalo e σ σ (µ − 1. que a no hay errores sistem´ticos. L´ IMITES DE CONFIANZA PARA LA MEDIA 29 σ y desviaci´n est´ndar √n .96 × √ . cuando se habla de un resultado de una medici´n no tiene sentido dar o unic´mente un valor puntual. hace falta establecer un intervalo en el que razonablea mente se pueda suponer que contendr´ al valor real µ. Cuando no se tiene el valor de sigma (¿ Y cuando es que se tiene ?!!) es necesario estimar σ. dependiendo del tama˜ o de la muestra que se est´ utilizando para la n e estimaci´n de σ.96 × √ . µ + 1.3. 1) pero que tiene m´s masa o a en las colas. Notese que el intervalo antes mencionado necesita el valor de σ. a Si consideramos como distribuci´n de referencia te´rica a la distribuci´n normal. En este caso lo que pasa es que el cociente x−µ ¯ s √ n = √ n x−µ ¯ s tiene una distribuci´n que se parece a la Normal N (0. ¯ . estimaci´n que contiene su o a o cuota de incertidumbre con respecto al valor de σ. o Esta distribuci´n se la conoce con el nombre de Distribuci´n t (de Student. Este ultimo intervalo es el llamando Intervalo de confianza al 95 % ´ de la media. o a Esto dice que a mayor n menos desviaci´n debe esperarse de las mediciones de la o media en torno a µ. x + 1.4. utilizando la desviaci´n est´ndar muestral s. o o aunque quien la propuso se apellidaba Gosset) con n − 1 grados de libertad. Esto de grados de libertad se refiere al n´ mero de desviaciones (xi − x) que se requieren u ¯ para calcular s cuando se conoce x.

Distribuci´n conjunta y Propagaci´n de Erroo o res Una buena parte de los resultados de mediciones qu´ ımicas son obtenidos como un valor n´ merico que depende de un n´ mero de mediciones intermedias observables. x + tα/2 × √ ) x ¯ n n Usualmente para obtener experimentalmente un buen valor de aproximaci´n de σ se o realizan n = 15 mediciones. u u . la variancia es: V ar(X) = Em x2 E2 dx = m 3 −Em 2Em √ con lo que la desviaci´n queda estimada con Em / 3. 3.5. etc. Varias recomendaciones se encuentran en la literatura: Uso de un material de referencia: Permite obtener informaci´n sobre el efecto o combinado de muchas fuentes potenciales de incertidumbre. Estimaci´n basada en resultados previos: Cuando no es posible realizar ning´ n o u ensayo es necesario encontrar algunas fuentes alternativas de informaci´n: o • Informaci´n dado por los suplidores de equipos. pre-tratamiento para homogenizar. o • Informaci´n de estudios entre laboratorios. s s (¯ − tα/2 × √ . como por ejemplo. De esta manera. el muestreo. puesto que usualmente hay fuentes de error que no han sido consideradas. Esto quiere decir que no se puede considerar la reproducibilidad reportada en un m´todo como la medida de e incertidumbre para ser utilizada en nuestro estudio pero es una guia sobre lo que se puede esperar • Uso de criterio de expertos.30 CAP´ ITULO 3. o Pero hay que considerarlos con cuidado. DISTRIBUCIONES DE REFERENCIA Ahora para calcular el intervalo de confianza (100×(1−α) % hay que considerar las ecuaciones anteriores consiguiendo el valor tα/2 que sea razonable que el (1−α)×100 % de las muestras caigan en ese intervalo. y no se tiene m´s informaci´n se puede suponer que la distribuci´n a o o de cualquier valor medido es “Uniforme”entre los valores de ±Em . ¿ Qu´ se puede hacer en el caso en que no se disponga e de tantas mediciones?. o Por ejemplo cuando se reporta el Error m´ximo permisible (Em ) de un a equipo.

es intuitivamente l´gico que digamos o que las variables aleatorias a y b son independientes. esto es. DISTRIBUCION CONJUNTA Y PROPAGACION DE ERRORES 31 El resultado final puede ser una combinaci´n de las medidas que puede. . esto es. b. entonces se tiene 2 2 V ar(ψ1 A + ψ2 B) = ψ1 V ar(A) + ψ2 V ar(B) (3. b ≤ b0 } es decir encontrar una funci´n de dos variables tal que: o P ({a ≤ a0 .) donde a. x2 )dx1 dx2 Si ocurre que f (x1 . representan bloques del trabajo en el m´todo empleado. . b ≤ b0 }) = a0 b0 −∞ −∞ f (x1 . si ψ1 y ψ2 son constantes (sin error ni incertidumbre) se tiene que a u E(ψ1 A + ψ2 B) = ψ1 E(A) + ψ2 E(B) (3. entonces se dice que a y b son independientes. o 3.3) . Lo ideal es que encontrar un resultado intermedio (digamos a) no proporcione informaci´n sobre la magnitud del o resultado intermedio b. por ejemplo considerar la probabilidad de los eventos{a ≤ a0 . Ahora bien. .5. . desde el punto de vista de la teor´ de probabilidad tenemos que considerar como se distribuyen conjunıa tamente las variables a y b. e Para establecer cual es la incertidumbre asociada a Y es necesario entender como interactuan las mediciones en los resultados intermedios. Suma de variables aleatorias Si se tienen dos variables aleatorias A y B cuya distribuci´n conjunta de probalidad o se conoce se puede demostrar matem´ticamente que el valor esperado de la suma es a igual a la suma de los valores esperados. Y = f (a. o expresarse algebraicamente. c. donde fa es o la funci´n de densidad que define la probabilidad (marginal) de los resultados de la o medida de a y fb la correspondiente a b. en pricipio. x2 ) = fa (x1 )fb (x2 ) (regla de la multiplicaci´n!!).1. Por supuesto que lo que sucede en el laboratorio es que se procura realizar los bloques de medici´n de manera que no se puedan considerar dependientes. o que al conocer el resultado de uno no se gana informaci´n sobre el resultado de otro. .1) En el caso de las variancias Si las variables son independientes.5.2) (3. esto es: E(A + B) = E(A) + E(B) m´s a´ n. debemos ver si hay alguna funci´n de probabilidad o que nos permita. Si estamos en este caso.´ ´ 3. .

. . Si ahora lo que se tiene es una Expresi´n multiplicativa o Y = k(abc . .5. se puede aproximar la incertidumbre de una o a medida que se lleva a cabo en bloques. con valor esperado ¯ µ y variancia σ 2 . si X representa el promedio aritm´tico de las variables: e ¯ E(X) = µ 1 ¯ V ar(X) = 2 n n V ar(Xi ) = i=1 σ2 n 3. .2. . en el caso en que suponemos que las medio ciones que dieron lugar a a.e. DISTRIBUCIONES DE REFERENCIA Una aplicaci´n importante de estos resultados es que si se tienen n variables aleao torias X1 . c. . si lo que se tiene es que la medida final es una Combinaci´n L´neal o ı de bloques Y = k + k a a + kb b + kc c .e. entonces.3 nos permite encontrar.3. . X2 . la incertidumbre de la medici´n puede ser expresada como: o d. b. . . y considerando como la incertidumbre a la desviaci´n est´ndar de una variable. Propagaci´n de errores o Utilizando las expresiones anteriores.) se complica un poco la utilizaci´n de las reglas en la ecuaci´n 3. . con la suposici´n o de que las mediciones fueron hechas independientemente: d. . identicamente distribuidas. si las medidas son INDEPENDIENTES σY = ∂Y ∂a 2 2 σa + ∂Y ∂b 2 2 σb + . En lineas generales.(Y ) = σY = k × Y σa a 2 + σb b 2 +. la ecuaci´n 3.. .. Xm independientes.32 CAP´ ITULO 3. . Con ello se puede ver que. como una “Propagaci´n”de las incertidumbres o asociadas a los bloques. . Por ejemplo. pero se puede o o considerar “linearizar”la funci´n utilizando para esto la aproximaci´n en series de o o Taylor de una funci´n continua y diferenciable de varias variables y aplicar la ecuaci´n o o 3. . .(Y ) = σY = (ka σa )2 + (kb σb )2 + .3 a los sumandos resultantes de la serie. fueron hechas Independientemente entonces.

. Cov(xi .´ ´ 3.xj donde σxi . esto es mucho mas complejo: 33 2 σY = i ∂Y ∂xi 2 2 σx i + ij ∂2Y ∂xi ∂xj σxi . N F Calcule el contenido total de carne Mtot Los componentes de incertidumbre: (c´lculo de Pmeat ) a • N F . DISTRIBUCION CONJUNTA Y PROPAGACION DE ERRORES Si las medidas NO SON INDEPENDIENTES. conocimiento incompleto del material • Reproducibilidad del m´todo e • Sesgo ? . xj ) = E[xi − E(xi ))(xj − E(xj )] Ejemplo: ¿ Como estimar la incertidumbre de la medici´n del contenido de carne para dos tipos o de muestra. Mtot es dada por e Mtot = Pmeat + Ftot donde Pmeat = total de proteina de la carne ( %w/w) Ftot = total de contenido de grasa ( %w/w) Pmeat = 100 ∗ Nmeat NF con N F un factor de nitrogeno espec´ ıfico del material y Nmeat el contenido total de nitrogeno en la carne.xj es un indicador de la relaci´n lineal entre xi y xj que se conoce con el o nombre de Covariancia y se calcula considerando la funci´n de distribuci´n conjunta o o entre xi y xj . (obtenido por ejemplo con el an´lisis de Kjeldahl).5. a Paso 1 2 3 4 Descripci´n o Cantidad Determine el contenido de grasa Ftot Determine el contenido de nitrogeno en la Nmeat carne Calcule el contenido de carne ‘desgrasada’ Pmeat . uno con aditivo con base a nitr´geno y otra con proteina de soya? o M´todo: El contenido total de carne..

65 0.16. (Si suponemos que E(X) = µ1 = µ + sesgo) E(X − µ)2 = E(X − (µ1 − sesgo))2 = V ar(X) + sesgo2 • Para Ftot : Desviaci´n estandar de 0. para el que σ = 0.34 ¿ Como estimarlos? CAP´ ITULO 3.65 UPmeat = Pmeat × = 90.1 % NF 3. basado en un estudio que contiene muchas muestras.046. [3.73]. esto nos da un estimado 0.29 0. Si lo consideramos como una uniforme en el intervalo.16 de σ de 2√3 = 0.052 0.052 • Para Ntot la informaci´n pertinente se basa en un estudio de colaboraci´n o o entre laboratorios.29 Nmeat = 100 ∗ = 90.026 Mtotal = Pmeat + Ftot = 95. e.g.relativa N F )2 0.021 × Ntot (utilizando una recta de regresi´n por el origen) Tambi´n se encontr´ que o e o es posible un error sistem´tico de 0. se puede expresar como: SR = 0.005Ntot .021 3.5 Si un nivel del 95 % de confianza es requerido.014 Pmeat = 100 ∗ 3. El rango observado es de 0. 3. el reporte del contenido de carne es: 95.6 ± 5 % .5 0. Contribuci´n al error total no a o importante.6 UMtotal = 2 2 UPmeat + UFtot = 2.E. En este estudio se encontr´ que la desviaci´n estandar o o de reproducibilidad SR .02 3. relativa 5.E.E.57.072 0. • En otra referencia puede encontrarse un estimador de σ para N F .0142 = 0. DISTRIBUCIONES DE REFERENCIA • La incertidumbre en N F puede se estimada a partir de algunos rangos de valores publicados.0212 + 0.1 × (D.02Ftot o Param´tro e Ftot ( %) Nmeat NF Valor U D.11 0.relativa Nmeat )2 + (D.

Las hip´tesis forman o e o o parte del modelo conceptual del sistema bajo estudio y la validaci´n usualmente eso ta basada en el comportamiento de algunas propiedades que pueden ser medidas u observables. Para ello es necesario no solamente estimar el valor de interes sino tambi´n una medida de la variabidad de esperada en los resultados de la e medici´n. piense simplemente en el error de medici´n o el la diferencia entre las distintas o unidades experimentales. que constituyen un conjunto de factores que no pueden ser controlados por el experimentador. conclusiones validas debe ser llevado a cabo usando m´todos estad´ e ısticos. As´ el tratamiento de los resultados para obtener ı. La mayoria de los experimentos reales est´n expuestos a diversas fuentes de erroa res.1. estos tratamientos ser´n aplicados a alguna muestra. Por supuesto. o 4. De esta manera podemos pensar que el objetivo de la experimentaci´n o es el estudiar el efecto que sobre una (o varias) variable(s) de respuesta tiene un conjunto de otras variables que llamaremos variables experimentales. o unidad a experimental. factores o tratamientos. Principio de la Navaja de Occam Llamado as´ en honor al Fraile Guillermo de Occam u Ockham (1285-1348) (?) es ı un principio b´sico del pensamiento cient´ a ıfico al considerar: “Pluralitas e dispensata sine necessitatem” 35 . muestreo y experimentaci´n o En todo sistema de conocimiento cient´ ıfico se considera la validaci´n de las hip´teo o sis planteadas sobre un fen´meno a trav´s de la experimentaci´n.Cap´ ıtulo 4 Pruebas de Significancia. que a su vez necesitan ser validados.

o a u a Una consecuencia de este principio es que si tenemos dos posibles explicaciones. o Ejemplos de hip´tesis b´sicas: o a No hay desviaciones sistem´ticas en las mediciones a No hay diferencias en los promedios de las mediciones de los laboratorios No hay diferencias en los resultados de los procedimientos de desulfurizaci´n o No hay efecto de los cambios de temperatura en la concentraci´n. En a nuestro caso. las explicaciones de los fen´menos que estamos analizando la constituo yen los modelos estad´ ısticos y el Principio de la Navaja de Occam es equivalente al Principio de Parasimonia que considera que si hay varios modelos que explican los datos con la misma precisi´n y se define la complejidad de cada modelo en funci´n o o del n´ mero de par´metros que deben ser estimados para el ajuste. se debe preferir y utilizar la m´s sencilla. PRUEBAS DE SIGNIFICANCIA. la hip´tesis m´s compleja se conoce como a o a Hip´tesis Alternativa. MUESTREO Y EXPERIMENTACION “non sunt multiplicanda entia praeter necessitatem” o dicho de otra manera. Decidimos por H0 cuando no hay suficiente evidencia que nos indique que estamos equivocados al preferirla. o En las pruebas estad´ ısticas de significancia se utiliza el lenguaje ‘legal’. A esta hip´tesis la llamaremos Hip´tesis o o B´sica o nula y la denotaremos por H0 . la raz´n para preferir la explicaci´n o o complicada debe ser que esta explica mejor el fen´meno observado. y el otro que considera que los cambios en las condiciones efectivamente influyen en el observado en el sistema. una que requiere mayores supuestos que la otra. uno que supone que no hay cambios en las condiciones y las diferencias observadas son producto de influencias aleatorias. que cuando se consideren varias explicaciones equivalentes para un fen´meno (conjunto de teor´ o ıas). La primera hip´tesis es la m´s sencilla. . que no se pueden identificar. el que debe ser u a utilizado para la predicci´n ser´ el modelo con el menor n´ mero de par´metros.´ 36CAP´ ITULO 4. es decir. y por lo tanto es o a la que se prefirir´ de acuerdo con el Principio de la Navaja de Occam siempre que ella a explique lo observado satisfactoriamente. o Las pruebas de hip´tesis estad´ o ısticas consideran el contraste de dos posibles resultados. o Ciertamente tendriamos que observar inconsistencias suficientemente grandes entre consecuencias de la suposici´n sencilla y lo que efectivamente estamos observando o para preferir la hip´tesis alternativa.

y abandonar el uso de la hip´tesis o o sencilla cuando en realidad es ella suficiente para explicar lo observado. o pero tenemos que decir utilizar una de ellas. Con los datos disponibles construir un estad´ ıstico cuyo valor refleje la discrepancia entre las hip´tesis1 del que se pueda obtener una Distribuci´n de o o Referencia basada en la consideraci´n de que la hip´tesis b´sica se cumple.4. esto es.3. estoy complicando la interpretaci´n del modelo tamo bi´n !’Sin necesitarlo!. ERRORES EN LAS PRUEBAS 37 4. o . o o a 1 Recordemos que un estad´ ıstico es una funci´n que resume los datos muestrales. En definitiva. Resumen de posibles errores en las pruebas estad´ ısticas Realidad Decisi´n Hip´tesis Alternativa o o Hip´tesis Nula o H1 No Error tipo I H0 Error tipo II No 4. o ıa e o podemos decidir por la hip´tesis alternativa. por ejemplo. el problema es decidir sobre cual hip´tesis o o o utilizar cuando se cuenta con poca informaci´n. El segundo error o error de tipo II usualmente tiene consecuene cias econ´micas. cuando la mejor manera ser´ a trav´s de la alternativa. como resultado de un conjunto de ensayos o experimentos.2. puesto que se decide cambiar la l´ o ınea de produccion consdierando que se va a obtener un mejor rendimiento y en realidad no es as´ ı. s´lo tenemos un conjunto usualmente peque˜ o de experieno n cias y resultados de ensayos pero es necesario tomar una decisi´n. La informaci´n disponible usualo o mente viene dada como una muestra. o error de tipo I esta asociado al Principio de Parsimonia. Considerar que la hip´tesis b´sica es la que explica mejor el fen´meno. Estrategia de decisi´n o Como se plante´ en la secci´n anterior. podemos decidir que la hip´tesis b´sica es suficiente o a para explicar el fen´meno. El primer error. puesto que si rechazo H0 sin necesitarlo. no conocemos cual hip´tesis se ajusta mejor a la realidad. ejemplos de como tomar decisiones bajo incertidumbre. y as´ suceo ı sivamente.2. Esto nos dice que estamos expuestos a comenter un error de juicio. Errores en las pruebas Las pruebas estadisticas son en verdad. ¿Se o calibra el equipo si es que est´ presentando un error sistem´tico?. o a o 2. La necesidad de establecer una prueba de signficancia estad´ ıstica radica en que no se conoce c´ al es el mecan´ u ısmo que est´ influyendo en el fen´meno de a o manera completa. Para decidir a favor de una u otra hip´tesis lo que hacemos es: o 1. ¿ Se sigue usando a a el procedimiento de desulfurizaci´n o se prefiere el nuevo procedimiento?.

Primero supondremos que tienen la misma variancia esto es que tienen la misma precisi´n de medici´n.8 − 38. Se supondr´ como hip´tesis b´sica.9. Si no es compatible. Comparaci´n de las medias de dos muestras: o El ejemplo t´ ıpico es cuando se tienen dos m´todos anal´ e ıticos y se quiere ver si est´n a dando resultados equivalente.98 0. (H0 ). ´ Entonces BAJO LA HIPOTESIS NULA el estad´ ıstico ¯ ¯ X −µ √ X −µ t= = n s √ s n tiene una distribuci´n de referencia conocida (La t de Student con n − 1 grados de o libertad). 37. Esta distribuci´n de referencia es la que se usar´ para construir una regla de o a decisi´n: o Si el valor del estad´ ıstico es compatible con la distribuci´n de referencia. MUESTREO Y EXPERIMENTACION 3. o o .8 % ± 0. o entonces decido a favor de H0 .9 = 1. el valor OBSERVADO de t es igual a t= (3) 37. esto es: Yi = µ + ε i ´ εi se supondr´ que es una variable ALEATORIA con DISTRIBUCION NORMAL a (media = cero. Siendo un nuevo procedimiento no hay datos que nos permitan construir una distribuci´n de referencia o emp´ ırica para los promedios de tres mediciones repetidas. PRUEBAS DE SIGNIFICANCIA. decido a favor de H1 Ejemplo: En un m´todo para determinar mercurio por la t´cnica de absorci´n at´mica de vapor e e o o frio se obtuvieron los siguientes valores en un material de referencia que contiene 38. variancia σ 2 ). o 4. que NO hay error sistem´tico.3.1.4 37.964 y debe comportarse (bajo la hip´tesis b´sica) como un n´ mero proveniente de una o a u distribuci´n t con 2 grados de libertad.´ 38CAP´ ITULO 4. En el ejemplo.1 % ¿ Alguna evidencia de error sistem´tico? a ¯ El valor que reporta el metodo (X ± s) es de 37. de maa o a a nera que cada observaci´n puede pensarse que viene dada por el modelo de medidas o repetidas.9 % de mercurio: 38.964 %.

3 0. Normales (0. 2.1: Descripci´n de los datos de concentraci´n o o 6 39 Comparaci’on de Normal con t con 2 g. 25 ± 0.´ 4.E(¯2 ) y y y1 − y 2 ¯ ¯ = + s2 ) n2 −6 0. para el m´todo i: e e Yij = µi + εij . y con el segundo e ¯ 26. esto es.2 0.E(¯1 ) + V. σ) (donde σ no depende de i) Hip´tesis de trabajo: No hay diferencias.4 −4 −2 Medicion 0 .3. . En este caso lo que tenemos son dos muestras iguales. . j = 1. en 10 ensayos. 28.l 2 4 Ejemplo: Con el primer m´todo se obtuvo x ± s.0 0.1 Densidad 0.25 con 7 ensayos.i.3.d. lo que podemos es considerar una extensi´n o del modelo de medidas repetidas para cada m´todo.0 ± 0. s´lo que fueron realizados o en dos bloques de medici´n. . o En este caso se puede calcular la desviaci´n estandar conjunta como o s2 = (n1 − 1)s2 + (n2 − 1)s2 2 1 n1 + n 2 − 2 y1 − y 2 ¯ ¯ s2 n1 Entonces se puede construir el estad´ ıstico t de comparaci´n: o V. ni con εij i. . De acuerdo con el modelo esto es o equivalente a suponer que µ1 = µ2 . ESTRATEGIA DE DECISION Figura 4. Lo primero que hay que hacer para obtener informaci´n es proponer un modelo o que respresente a este conjunto de datos.

´ 40CAP´ ITULO 4.3. esto es.281 9+6 28.3.25 = 12. cuya Hip´tesis o = 2 de trabajo es nuestra suposici´n: H0 : σ1 σ2 . tiene dos par´metros que equivalen a los grados de libertad del numerador (el primero en a las tablas) y del denominador (el segundo en las tablas).3. Comparaci´n de medias (2da parte) o Si se tiene que las variancias son distintas. e 4. en este caso el estad´ ıstico t ser´: a ¯ ¯ Y2 − Y1 t= S1 + S2 n1 n2 y se puede utilizar la distribuci´n t como una aproximaci´n de la distribuci´n de este o o o estad´ ıstico. no se puede utilizar la estimaci´n o ponderada de la variancia. este cociente debe estar cerca de uno. MUESTREO Y EXPERIMENTACION donde V.0 − 26. Sirve tambi´n cuando el estad´ e ıstico se contruye como un cociente de sumas de cuadrados divididos por sus grados de libertad 4. Comparaci´n de variancias o En la secci´n anterior supusimos que las variancias de las muestras eran iguales.3)2 + 6(0. PRUEBAS DE SIGNIFICANCIA. y o de nuevo la pregunta: ¿cuan lejos hay que estar de uno para afirmar que tenemos suficiente evidencia para rechazar la hip´tesis de trabajo?. por lo que o se concluye que la evidencia no favorece a la hip´tesis b´sica.E quiere decir variancia estimada. o La distribuci´n F de Fisher ES LA DISTRIBUCION DE REFERENCIA TEOo RICA cuando se supone que los valores utilizados provienen de una NORMAL.25)2 = 0. s= 9(0. . (las muestras provienen de la misma poblaci´n) la diso a o tribuci´n de referencia te´rica de este estad´ o o ıstico es la distribuci´n t con n1 + n2 − 2 o grados de libertad.267 10 + 1 6 Este valor se encuentra en una regi´n de probabilidad menor de 1 %.69 t= 1 0.2. que deberiamos o a considerar que los m´todos no nos estan dando los mismos resultados. o En este caso el estad´ ıstico que se utiliza es el cociente: s2 1 F = 2 s2 Si nuestra hip´tesis de trabajo se cumple. Bajo la hip´tesis b´sica. o Una manera de verificar esto es considerando una prueba estad´ ıstica.

otros no. Pruebas estad´ ısticas y experimentos Cuando se est´ usando una prueba estad´ a ıstica implicitamente se est´ considerando a una situaci´n en la que o bien se sospecha que han ocurrido cambios en las condiciones o o intencionalmente se han introducido los cambios en las condiciones. Si se coloca los distintos tratamientos de manera aleatoria y se toman las medidas. como por ejemplo en el caso de un experimento con un material carbonoso proveniente de distintas minas ( % distintos de carbon en cada muestra).4. algunos a que pueden ser controlados por el experimentador. que se suponen intercambiables. Necesariamente tenemos que planificar nuestra experimentaci´n o con el objetivo de separar estas dos fuentes de variaci´n.4. las diferencias observadas pueden ser atribuidas tanto a la diferencia entre los tratamientos como a la diferencia a las unidades experimentales. Por supuesto en ese caso hay una cantidad de factores. aleatorize lo que no pueda . Prevenir la existencia de sesgos 2. que van a cambiar los resultados de los ensayos. De aqu´ surge la pregunta: ¿Puede hacer el experimentador ı algo para que los an´lisis estad´ a ısticos basados en una distribuci´n de referencia sean o validos y las conclusiones de las pruebas de significancia puedan ser extrapoladas m´s a alla de la muestra considerada?. por ejemplo cuando de antemano sabemos que nuestras unidades experimentales no son homogeneas. Es por eso que se consideran o los bloques definidos como un grupo de material experimental homogeneo que puede ser dividido en unidades experimentales sobre los que se aplican los tratamientos En el libro de Box-Hunter-Hunter se realiza el siguiente comentario: Bloquee lo que pueda. Evitar la dependencia entre las observaciones Bajo esta suposici´n es posible validar los procedimientos de an´lisis estad´ o a ıstico m´s a comunes como por ejemplo la famosa prueba t de diferencia entre tratamientos.4. Cuando los cambios son intencionales nos encontramos en una situaci´n donde el observador o est´ experimentando. o El principio de Aleatorizaci´n o La suposici´n es que los factores no controlados por el experimentador se asignan o de manera aleatoria a las unidades experimentales. PRUEBAS ESTAD´ ISTICAS Y EXPERIMENTOS 41 4. A veces no es posible cumplir con este principio. Para responder esta pregunta es necesario considerar como se procede a la medici´n y como se asignan los tratamientos a las diferentes unidades experimentales. Esto se realiza con el fin de: 1.

Suposiciones usuales: εij ∼ N (0. si existen. de manera que es necesario medir el tama˜ o de la dispersi´n o la n o variabilidad de los resultados obtenidos en distintas realizaciones del ensayo bajo condiciones similares. o con la asignaci´n de las unidades experimentales a los tratamientos hecha en orden o aleatorio.5. .´ 42CAP´ ITULO 4. σ 2 ). 2. ni . del 5 %). . . bajo las suposiciones usuales de normalidad de los errores e independencia entre los ensayos se puede probar la hip´tesis H0 :αi = 0 para todo i. Un experimento bien dise˜ ado es un experimento que n a pesar de las dificultades inherentes al sistema es capaz de soportar un modelo que aporta informaci´n con un m´ o ınimo de ensayos experimentales. k . 2. Descomposici´n de las observaciones: o ¯ ¯ ¯ ¯ Yij − Y = (Yi − Y ) + (Yij − Yi ) Para esto. . al ser nuestros datos solo ejemplos de los efectos de estos niveles nuestra inferencia ser´ estad´ a ıstica. j = 1. es decir. en cada ensayo obtenemos informaci´n contaminada por los factores o no controlados. lo que equivale a decir que en la ecuaci´n siguiente: o Yij = µi + εij = µ + αi + εij i = 1. independientes. que podemos mostrar que hay diferencias con un nivel de confianza fijo (por ejemplo. Ahora bien. Por supuesto. MUESTREO Y EXPERIMENTACION Este comentario est´ en el fondo de toda la experimentaci´n llevada a cabo usando a o los conocimientos estad´ ısticos. Experimentos con un factor con k niveles: El modelo usual para los experimentos de este tipo supone que las diferencias entre los valores de los k grupos se reflejan fundamentalmente en la localizaci´n de o las muestras (sesgo entre ellas) y no en la variancia. . 4. n = ni los errores ε se suponen identicamente distribuidos (usualmente tambi´n se supone e que la distribuci´n es normal y que los ensayos se realizaron de manera independiente. diferencias entre los distintos niveles del factor. . El objetivo de estos experimentos es encontrar. cuya distribuci´n es conocida o o . PRUEBAS DE SIGNIFICANCIA. contra o la alternativa H1 :alg´ n αi es distinto de cero usando una comparaci´n entre dos esu o timados de la variancia muestral bajo la hip´tesis nula.

ˆ µ=Y ˆ ¯ SCP F p Con esto se puede hablar de los estimados de pr´ximos valores de Yij o ˆ ¯ ¯ ¯ Yij = µ + αi = Y + (Yi − Y ˆ ˆ y de los RESIDUALES: ˆ ¯ eij = Yij − Yij = Yij − Yi Si la prueba global nos permite pensar que tenemos diferencias en los efectos de los nivels del tratamiento hay que realizar comparaciones m´ ltiples.4.n−k = ¯ ¯ n i ( Y i −Y ) 2 k−1 ¯ (Yij −Yi )2 n−k Si esta fracci´n es mucho mayor que el valor cr´ o ıtico para el nivel de la prueba especificado. M´todo de la Diferencia M´ e ınima significativa Intervalo de confianza para la diferencia µi − µj ¯ ¯ Yi − Yj − (µi − µj ) ∼ tn−k 1 s ni + nj ˆ 1 M´todo de comparaci´n usando una distribuci´n de referencia: e o o ¯ Yi − µ i √ ∼ tn−k s/ n ˆ ¯ .5. se dice que hay evidencias a favor de la diferencia entre los tratamientos. EXPERIMENTOS CON UN FACTOR CON K NIVELES: 43 Fk−1.5. Tabla ANOVA Fuente GL SC Entre tratamientos k-1 Dentro del tratamiento n .1.k Total n-1 ESTIMADOS DE LOS EFECTOS: ¯ ¯ α i = Yi − Y . para u responde donde est´ la diferencia: a 4.

. n − k) s/ n ˆ q(s. 2. Si los datos siguen una distribuci´n normal. . en una escala equivalente a la distribuci´n normal. I. lo que sobra cuando uno ajusta el modelo.´ 44CAP´ ITULO 4. o x(i) . PRUEBAS DE SIGNIFICANCIA. MUESTREO Y EXPERIMENTACION • Problema: Si tenemos m´ ltiples comparaciones u ˆ ˆ Prob |Yi − Yj | ≤ tα/2 s ˆ Suponiendo independencia: Prob ( m parejas cumplan la desigualdad ) = (1 − α)m • M´todo de comparaci´n m´ ltiple de Tukey e o u ¯ YM : M´ximo valor de los promedios por grupo a ¯ Ym : m´ ınimo valor de los promedios por grupo ¯ ¯ YM − Ym √ ∼ q(k. • Gr´ficos de Residuales: a ◦ Gr´fico de distribuci´n Normal: a o Este gr´fico presenta los datos ordenados x(i) . con i = 1. es decir. t) es la distribuci´n de “rangos studentizados” o 1 1 + ni nj =1−α 4. . An´lisis de Residuos a Todos los resultados de las pruebas de significancia que hemos mostrado hasta el momento DEPENDEN de las suposiciones de INDEPENDENDENCIA. . cona tra la frecuencia acumulada que estos datos representan. en el gr´fico se debe obo a servar una linea ‘recta’. .6. HOMOSEDASTICIDAD y NORMALIDAD de los ε ¿ Como se ‘detecta’si estas suposiciones son razonables? • Hay que considerar los RESIDUALES. 100 % i I +1 ◦ Histograma de los residuales.

6. que a pueden indicar que la suposici´n de independencia no es razonable.2: Histograma sim´trico e 3 45 ri ^ y -3 Figura 4. a Este gr´fico tiene como objetivo revisar si existe alguna tendencia que a no ha sido explicada todavia con el modelo que estamos ajustando. ANALISIS DE RESIDUOS Figura 4. ◦ Gr´fico de Residuales vs Tiempo: a Este gr´fico busca mostrar patrones de tendencias en el tiempo. eij ).3: Histograma sim´trico e ri ^ y ˆ ◦ Gr´fico de Residuales vs Valores Ajustados: (Yij .4: Histograma sim´trico e ^ y . o ri Figura 4.´ 4.

El n´ mero de par´metros en el modelo es u a 1 + (I − 1) + (J − 1) + 1 = I + J Se est´ suponiendo que no hay interacci´n entre los bloques y los tratamientos a o (modelo aditivo) .6. . .. PRUEBAS DE SIGNIFICANCIA. .. . . . . . . .. yIJ yij = µ + αi + βj + εij αi = 0 βj = 0 yij = µ + αi + βj + εij αi = 0 βj = 0 Con este modelo se puede proponer una descomposici´n de las observaciones por o fuente de variaci´n: o ¯ ¯ ¯ ¯ ¯ ¯ ¯ ¯ yij − Y = (Yi − Y ) + (Yj − Y ) + (yij − Yi − Yj + Y ) i = 1.1. yI1 2 y12 y22 . . Usualmente s´lo hay una observacion en cada cruce ‘bloque’× ’tratamiento’. . . 2. J βj representa el efecto incremental del j − esimo bloque. . . j = 1. • J hornos de preparaci´n de material o El orden de los tratamientos dentro de cada bloque es aleatorio. 2. MUESTREO Y EXPERIMENTACION 4. . J y1J y2J . . o 1 y11 y21 . . . yI2 .. . . . I . I. Experimentos de bloques aleatorizados completos Supongamos que tenemos I distintos tratamientos que queremos comparar y disponemos de J bloques que pueden ser divididos en I partes • J jueces en un estudio sensorial donde I es lo suficientemente peque˜ o n para no introduccir problemas de fatiga.. ..´ 46CAP´ ITULO 4. 1 2 .

el promedio ajustado por bloque es: Y + αi . Llamando Ti a la suma de las observaciones del i-esimo tratamiento y Bi a la suma de las observaciones de los bloques que contienen el i-esimo tratamiento se tiene: Qj = kTi = Bi y el estimado del efecto del tratamiento es: αi = ˆ Qi Ir ¯ ˆ Asi. r debe u ser mayor que 2 para calcular variabilidades. Usualmente las exigencias del balance establecen m´s repeticiones. podemos utilizar el ‘dise˜ o combinatorio’ n (A B C) (A C E) (A B D) (A C F) (A B E) (A D E) (A B F) (A D F) (A C D) (A E F) (B C D) (B E F) (B C E) (C D E) (B C F) (C D F) (B D E) (C E F) (B D F) (D E F) que tiene r= 4 y cada tratamiento est´ asignado a la mitad (10) de los bloques.6. sino en un n´ mero k menor u que I. Bloques Incompletos Balanceados Cuando no se puede dividir el bloque en I partes.1) + (I . Se seleccionan las combinaciones de tratamientos de manera que cada par de tratamientos sea asignado el mismo n´mero de veces r entre los bloques. pero ahora hay que ajustar los par´metros ya que a no todos los tratamientos ocurren simultaneamente en los bloques.2. a El modelo es igual al anterior.6.1 -[(J . a Ejemplo: Si tenemos que los bloques se pueden dividir en 3 partes y se tienen I = 6 tratamientos.´ 4. ANALISIS DE RESIDUOS Tabla ANOVA Tabla de Fuentes de Variabilidad y c´lculos de incertidumbre a Fuente GL SC SCP F p Entre Tratamientos I-1 Entre Bloques J-1 Residuales n .I)] Total n-1 47 4.

Experimentos con dos o m´s factores a Experimentos de factores cruzados: yijk = µ + αi + βj + γij + εijk Aqu´ γij representa el efecto de interacci´n entre los factores. ı o Descomposici´n de las observaciones: o ¯ ¯ ¯ ¯ ¯ ¯ ¯ ¯ ¯ ¯ yijk = Y + (Yi − Y ) + (Yj − Y ) + (Yij − Yi − Yj + Y ) + (yijk − Yij ) La tabla anova ahora tiene cuatro entradas: Dos por Efectos Principales: lo que corresponde a αi y βj .´ 48CAP´ ITULO 4. ıas ı o a) ¿ Cual es la diferencia entre repetibilidad y reproducibilidad? b) ¿ Qu´ es una distribuci´n de referencia? e o c) ¿ Qu´ es un modelo emp´ e ırico? d ) ¿ Cual es la variancia del promedio de n observaciones identicamente distribuidas. MUESTREO Y EXPERIMENTACION Fuente Bloques Tratamiento Ajustado por bloque Residuales Total Ajustado GL J-1 I-1 ¯ (yij − Y )2 i SC SCP F Q2 /krI i 4. Apoyese en e dibujos o analog´ si as´ considera que se puede entender mejor su explicaci´n. PRUEBAS DE SIGNIFICANCIA. Ejercicios 1. cada una de ellas con variancia igual a σ 2 ? e) ¿ Cuantos ensayos deben ser realizados para ajustar un modelo con cinco factores a cuatro niveles cada uno? . Se le pide que d´ respuesta a las siguientes preguntas conceptuales.3. Una por los Efectos de Interacci´n γij o Una por los errores aleatorios εijk 4.6.7.

02 22 62 g.01 0. 2 2 2 17 Variancia Contraste F 10. EJERCICIOS 49 f ) ¿ Para qu´ se usa el anal´ de residuales provenientes de los modelos e ısis probabilisticos? 2.l. Supongase que el experimento se replica completamente y los resultados son analizados de acuerdo con la siguiente tabla ANOVA Fuente Efecto A Efecto B Efecto C Efecto D Residual Total Sum Cua 21. mientras que un experimento completamente aleatorizado o requiere 81 ensayos.000 Km a se midi´ el desgaste resultando en los valores de la tabla o Por fila Prom Diff 14 -6 18 -2 21 1 27 7 20 C1 C2 C3 C5 Prom Diff V1 18 23 22 33 24 4 V2 V3 9 15 19 12 21 20 27 21 19 17 1 -3 a) ¿ Qu´ tipo de dise˜ o experimental se us´? e n o b) Proponga un modelo emp´ ırico para analizar los datos y uselo para establecer cuales son las componentes de variabilidad de los mismos.7.62 4.4. c) Plantee una prueba estad´ ıstica que le permita tomar una decisi´n sobre la o diferencia del desgaste debido al tipo de caucho.11 2. C.70 1. ¿Qu´ efectos no se e pueden estimar al usar este dise˜ o? n 3. Usando un dise˜ o experimental llamado cuadrado greco-latino es posible estun diar el efecto de cuatro factores (A. .92 2.23 5. ¿cuales son los factores importantes?. B.39 4.82 Complete la tabla. D) de tratamiento a 3 niveles cada uno con s´lo 9 ensayos. Para comprobar el desgaste de cuatro distintos tipos de caucho (C1-C4) se seleccionaron tres vehiculos (V1-V3) a los que se les coloc´ en orden aleatorio o neum´ticos fabricados con los cuatro tipos de cauchos.35 1. Al cabo de 10.

´ 50CAP´ ITULO 4. MUESTREO Y EXPERIMENTACION d ) Construya la tabla anova asociada a la prueba probabilistica. e) Concluya si hay o no diferencias entre los tipos de caucho. PRUEBAS DE SIGNIFICANCIA. a 2 ¯ Y ) = 448 3 × (62 + 22 + 12 + 72 ) = 270 4 × (42 + 12 + 32 ) = 104 ij (Yij − . Los siguientes c´lculos pueden ser necesarios para la tabla ANOVA.

sino tambi´n en identificar relaciones entre e variables. Relaciones entre dos variables En muchas oportunidades. suelen usarse relaciones de la forma respuesta = se˜ al + ruido n 51 . a un numero usualment peque˜ o de niveles. En casos como ´stos.1. nos gustar´ poder predecir una de las variables (variable de rese ıa puesta o variable dependiente cuando la otra variable explicativa o variable dependiente es conocida. Ejemplos: Relaci´n entre la densidad de veh´ o ıculos y la velocidad Relaci´n entre la cantidad de veh´ o ıculos de transporte p´ blico y el tiempo de u viaje. ¿Qu´ pasa cuando se quiere n e estudiar un mayor n´ mero de niveles o se quiere considerar la relaci´n funcional entre u o las variables? 5.Cap´ ıtulo 5 Regresi´n y Calibraci´n o o En el capitulo anterior se estudiaron modelos considerando un n´ mero peque˜ o u n de factores. Para ello. estamos interesados no s´lo en describir o considerar o modelos probabilisticos para una variable. Relaci´n entre cantidad de cierto aditivo en un combustible y potencia obtenida o por el veh´ ıculo.

1.1. . e Ya hemos visto algunos modelos de esta forma.y)   ! @A 67 BC  "# $% () &' __ (x. Diagramas causa-efecto Sean (x1 . 5. Si llamamos Y a la a o variable de respuesta y X a la variable explicativa. Gr´ficos y covarianza a Estudiaremos algunas herramientas que nos permitir´n estudiar las relaciones ena tre dos variables observadas.52 ´ ´ CAP´ ITULO 5. y permiten realizar predicciones de los valores de la variable de respuesta ı para ciertos valores de inter´s de la variable explicativa. . (xn . Este tipo de expresiones son conocidas como Modelos estad´sticos. donde la funci´n f (X) es simplemente una constante. yn ) las observaciones para el par de variables X y Y . el modelo de medidas repetidas. REGRESION Y CALIBRACION En general. por ejemplo. Covarianza La covarianza entre X y Y se define como SXY 1 n (xi − x)(yi − y ) ¯ ¯ = n i=1 Veamos c´mo se puede interpretar esta cantidad: o SXY > 0 Y SXY < 0 + − 01  ¡ ¦§ ¢£ ¤¥ ¨© − 45 89 23 bc Y + + − + XY VW `a RS TU PQ HI X  DE FG  __ (x. la respuesta ser´ una funci´n de la variable explicativa. y1 ). Representar estas observaciones sobre unos ejes de coordenadas nos permite obtener una nube de puntos. cuyo comportamiento ser´ indicativo de la relaci´n a o entre las dos variables. o una constante a o trozos.y) X − . . podemos escribir esta relaci´n como o Y = f (X) + ε donde ε representa un ruido aleatorio. .

o 5. Si |r| est´ cercano a 1.5. si medimos variables en metros obtendremos ı covarianzas diferentes que si las medimos en kil´metros). la covarianza es cero. y es por tanto dif´ de inn ıcil terpretar por s´ misma (por ejemplo.y) X La covarianza es.1. o Para evitar este problema. Correlaci´n o La covarianza depende del tama˜ o de las variables. .y) X (x. RELACIONES ENTRE DOS VARIABLES SXY ≈ 0 Y Y 53 (x. ı. Es invariante ante cambios de origen y de escala de las variables. S´lo toma valores entre −1 y 1.2. esperamos una relaci´n o a o lineal fuerte entre las variables. Si dos variables no est´n relacionadas (o son independientes en el sentido de que a conocer el valor de una de ellas no aporta informaci´n sobre los posibles valores o de la otra). definimos la correlaci´n muestral entre X y Y como o r= SXY SX SY Propiedades de la correlaci´n: o Es adimensional (carece de unidades de medida).1. una medida de dependencia lineal entre variables. El rec´ ıproco no es cierto: dos variables que tienen covarianza cero pueden estar relacionadas entre s´ pero la relaci´n no es lineal. entonces.

las e cuales se muestran a continuaci´n: o xi = 9 ¯ var(xi ) = 11 yi = 7. Y ) con id´nticas caracter´ o e ısticas num´ricas.4 22.8 13.5 54.1 21.4 y rXY = a −0.816 .4 81.3 66.13 SXi Yi = 5.7 17.1 16.1 16.4 19.6 17.8 18. es necesario recordar que la covarianza y la correlaci´n tienen limitao ciones como medida de relaci´n entre variables.54 ´ ´ CAP´ ITULO 5.6 77.5 X 66.4 12.7 50.4 66.6 66.6 46. REGRESION Y CALIBRACION Cuando r ≈ 0.8 15. Al realizar los c´lculos correspondientes.1 63.1 Y 62. Anscombe (1973) o e construy´ cuatro pares de variables (X.2 18.0 Y 50. puede afirmarse que no existe relaci´n lineal entre las variables.97. u o a Sin embargo.8 81.9 46. obtenemos SXY = −416.1 88.8 50.3 17.0 13.7 68.4 16.2 76.3 13.2 18.5 rXY = 0. estos n´ meros confirman la intuici´n que obtuvimos del gr´fico causa-efecto.2 Y 17.7 50.8 12.2 19. o Ejemplo: En un estudio para verificar la relaci´n entre densidad X (Veh´ o ıculos por km) y velocidad Y (kmh) se encontraron los siguentes datos: X 12.2 18.6 90.8 56. Para evidenciar ´sto.1 25.5 ¯ var(yi ) = 4.9 X 17.3 67.2 Tiempo de suministro 10 20 30 40 50 60 70 5 10 Numero de cajas 15 20 El gr´fico nos hace esperar una covarianza negativa y una correlaci´n bastante a o cercana a -1.3 60.6 62.

Todas las observaciones son realizadas de manera independiente con la misma estructura aleatoria. Modelo: Y = β0 + β1 X + ε Se supone que ε representa la parte no explicada por X o el ruido introducido por factores aleatorios y se modela como una variable aleatoria con esperanza matem´tica a cero. la regresion lineal simple sirve para o ajustar la tendencia lineal.2. (No suele ser cierto en caso de series cronol´gicas) o . a 11 10 9 9 Y1 8 Y2 7 6 5 4 4 6 8 X1 10 12 14 3 4 4 5 6 7 8 6 8 X2 10 12 14 Gr´fico causa-efecto para los conjuntos de datos de Anscombe (1973). Regresi´n Simple o Usada cuando se supone una relaci´n lineal entre una variable controlable o explio cativa (X) y una variable dependiente (Y ). una serie cronol´gica. REGRESION SIMPLE Veamos gr´ficamente cada conjunto de datos a 55 Gr´fico causa-efecto para los conjuntos de datos de Anscombe (1973). Suposiciones te´ricas: o La variable X se considera que puede ser medida sin error (no es aleatoria).2. a 12 12 Y4 8 6 4 6 8 X3 10 12 14 6 8 8 10 Y3 10 10 12 X4 14 16 18 5. En el caso en que la variable explicativa sea el tiempo y Y = Yt .´ 5.

56 ´ ´ CAP´ ITULO 5.  .   . σ 2 ). La forma vectorial de este modelo es Y = Xβ +         y1 y2 . . yn         =         ε 1 x1    1     1 x 2  β1  ε2    + . y i = β 0 + β 1 xi + ε i . . .  β2  . N (0. .   εn 1 xn    Distintas rectas pueden ser escogidas para representar la relaci´n lineal ¿ Cu´l es o a la mejor? Depende del criterio de bondad de ajuste usado para medir la diferencia entre el valor observado y el valor estimado por el modelo: MAD (Acr´nimo en ingles por Promedio de los valores absolutos de la desviao ci´n) o n i=1 ˆ |Yi − Yi | OLS (M´ ınimos cuadrados ordinarios) n i=1 ˆ (Yi − Yi )2 WLS (M´ ınimos cuadrados pesados) n i=1 ˆ ωi (Yi − Yi )2 Estimaci´n por OLS o Ecuaciones normales:       n n n i=1 n xi i=1 i=1 x2 i xi         ˆ β0   =  ˆ β1    n i=1 n i=1 xi y i yi       . REGRESION Y CALIBRACION La estructura aleatoria de las observaciones (ε) se puede aproximar por el modelo gaussiano.  .  . .

∼ Nn (0. E(β) = β. En lo que sigue supondremos que el vector de errores aleatorios se distribuye como una normal n-variada con vector de medias 0 y matriz de varianza σ 2 I.2. es insesgado. Y ∼ Nn (Xβ. Cuando esto sucede a ˆ decimos que el estimador. justo el par´metro que queremos estimar. . Por lo tanto. en este caso β. σ 2 I) ˆ E(β) = E((X X)−1 X Y) = (X X)−1 X E(Y) = (X X)−1 X Xβ = β ˆ Luego.´ 5. σ 2 I). REGRESION SIMPLE Equivalentemente ˆ n β0 + n i=1 n i=1 n i=1 57 ˆ xi β1 = ˆ x2 β1 = i n yi i=1 n ˆ xi β0 + xi y i i=1 Al resolver este sistema de ecuaciones obtenemos: ˆ β0 = y − x β1 ¯ ¯ˆ n x¯ i=1 xi yi − n¯y ˆ β1 = n 2 x2 i=1 xi − n¯ n ¯ ¯ i=1 (xi − x)(yi − y ) = n 2 ¯ i=1 (xi − x) de esta manera podemos obtener la Predicci´n de un valor de Y para distintos o valores de X: ˆ ˆ ˆ Y x = β0 + β1 x y los Residuales definidos como: ˆ e i = Y i − Yi ˆ ˆ Ahora β0 y β1 son variables aleatorias y se debe usar una distribuci´n de referencia o para decidir sobre su significancia. es decir.

58 ˆ Calculemos V ar(β). ´ ´ CAP´ ITULO 5. = β + (X X)−1 X − β ˆ V ar(β) = σ 2 (X X)−1 Es decir ˆ βi ∼ N (βi . σ 2 cii ) donde cii es el elemento de la diagonal de la matriz C = (X X)−1 que corresponde a βi . ˆ ˆ ˆ Y x = β0 + β1 x ˆ De acuerdo con las ecuaciones anteriores se puede calcular V ar(Yx ): ˆ V ar(Yx ) = σ 2 1 + n (x − x)2 ¯ n ¯2 i=1 (xi − x) Pron´stico de valores alejados del centro de los datos tienen muy alta variancia o Significancia estad´ ıstica del modelo y el coeficiente de determinaci´n R2 o Descomposici´n natural de las observaciones: o ¯ ˆ ¯ ˆ Yi − Y = (Yi − Y ) + (Yi − Yi ) Variaci´n total o Grados de libertad n-1 = k-1 + n-k = Variaci´n o explicada + Variaci´n o no explicada . REGRESION Y CALIBRACION ˆ ˆ ˆ ˆ ˆ V ar(β) = E{(β − E(β))(β − E(β)) } ˆ ˆ = E{(β − β)(β − β) } Como ˆ β − β = (X X)−1 X Y − β = (X X)−1 X (Xβ + ) − β = (X X)−1 X .

58 8.89 4.14 6.04 6. C.91 8 6.77 8 5.76 8 6.93403 0 1 2 3 4 5 6 Figura 5.74 12.´ 5.n−k = k−1 S.10 8.15 8 5.74 8 7. REGRESION SIMPLE Densidad F con 3 y 29 grados de libertad 59 0.11 8 8.58 8.68 Y2 Y3 X2 Y4 9.82 5.2.71 8. Variaci´n Explicada o Fk−1.95 0.81 8.84 4.26 10.13 8.0 2.84 8 8.42 8 7. lo que parece igual puede ser muy diferente An´lisis de Residuales a R2 = X1 10 8 13 9 11 14 6 4 12 7 5 Y1 8.25 3.1: Figura de distribuci´n o Comparaci´n: o S.74 5.84 8 7.56 7.26 6.33 9.96 7.08 8 5.76 8.77 7.6 Probabilidad=0.47 9.95 7.10 5.2 Densidad 0.13 6.24 4.50 9. C.39 19 12.73 .04 6.4 0.81 8.29 7. Variaci´n NO Explicada o n−k Variaci´n Valores Estimados o Variaci´n Valores Observados o Como vimos antes.14 7.

Residuales estandarizados: ri = s2 R √ ei 1 − νii e2 i n−k−1 Residuales Studentizados igual al anterior exceptuando que s2 se calcula de maR nera independiente de ei . An´lisis de Residuales a 4 .60 ´ ´ CAP´ ITULO 5.2: Datos de Anscombe Residuales: ei = y i − y i ˆ Estimador de σ 2 : s2 = R Bajo las suposiciones estad´ ısticas: Var(ei ) = σ 2 (1 − νii ) con νii el elemento diagonal de X(X X)−1 X . REGRESION Y CALIBRACION 12 10 • • 10 • • • • • 4 6 • 8 X1 • • • 12 Y1 8 Y2 8 • • • • 4 6 • • • • • • • 6 4 10 12 14 4 Mismo ajuste 6 Mismo ajuste 8 X1 10 12 14 12 10 Y3 8 • • • • • • • • • 6 Mismo ajuste 4 6 8 X1 10 12 14 6 Y4 8 • 10 12 • • •• • •• •• Mismo ajuste 8 10 12 14 16 18 X2 4 Figura 5. Si el punto est´ muy alejado del centro νii est´ cerca de a a uno y Var(ei ) es cercana a cero. νii puede ser interpretado como una medida de la distancia entre el punto X y el ¯ promedio de los datos (X).

Si el punto est´ muy alejado del centro νii est´ cerca a a de uno y Var(ei ) es cercana a cero.´ 5.0 -2 • 7 8 Ajustados 9 10 • 5 6 7 8 Ajustados 9 • 10 3 • Residuales -1 0 1 • • • • •• • • • • 7 • Residuales 0 1 2 • • • • • • • 5 6 -1 • • 7 8 9 Ajustados • 10 8 9 10 11 12 Ajustados Figura 5. a o • Patr´n de variancia diferente → Heterocedasticidad.5 1. (Multiplicativo en lugar de aditivo) Una transformaci´n de la variable dependiente puede ayudar a corregir el o problema. .0 0.0 • • • • • • • • • • • • -2.2.3: Residuales para los Datos de Anscombe Gr´fico de dispersi´n de los residuales vs predicciones.0 0. o transformaciones de la forma Y λ ) • Patr´n no aleatorio → ¿ Falta variable explicativa? o Gr´ficos de probabilidad de los residuales estandarizados. Residuales Studentizados igual al anterior exceptuando que s2 se calcula de R manera independiente de ei . (Usando el logaritmo. νii puede ser interpretado como una medida de la distancia entre el punto X y el ¯ promedio de los datos (X). a Residuales estandarizados: ri = √ ei 1 − νii s2 R con νii el elemento diagonal de X(X X)−1 X . REGRESION SIMPLE 61 Residuales -1 0 1 • • • • 5 6 • • • Residuales -1. o Heterocedasticidad puede ser causada por una formulaci´n erronea del o modelo.

Problemas: En la inversi´n de X X o . gr´fico normal. 5. a An´lisis de Residuales a Si los datos fueron recolectados en diferentes tiempos un gr´fico que brinda infora maci´n es el de los residuales vs tiempo y el gr´fico de et vs et−1 . a a Una transformaci´n de la variable dependiente tambi´n ayuda a obtener datos o e m´s normales. histogramas. REGRESION Y CALIBRACION • Gr´ficos de caja. Regresi´n M´ ltiple o u Multicolinearidad: Cuando algunas variables independientes presentan una relaci´n lineal (o cercana o a lineal) entre ellas.3. o a Efectos de la dependencia: ˆ Los estimados β son centrados pero no eficientes (no tienen la variancia m´ ınima Las pruebas estad´ ısticas no son validas y pueden se˜ alar relaciones no existentes n Autocorrelaci´n estimada de orden h: o rh = n t=h+1 et et−h n 2 t=1 et El estad´ ıstico de Durbin-Watson mide la existencia de autocorrelaci´n de orden 1 o entre los residuales: D−W = n 2 t=2 (et − et−1 ) n 2 t=1 et ≈ 2(1 − r1 ) Si no hay autocorrelaci´n la distribuci´n de referencia para este estad´ o o ıstico es sim´trie ca alrededor de dos (2).62 ´ ´ CAP´ ITULO 5. El estad´ ıstico de Ljung-Box combina autocorrelaci´n de ordenes mayores: o Q = n(n − 2) 2 rh n−k h=1 m La distribuci´n de referencia en este caso es (asint´tica) χ2 con m − k − 1 grados o o de libertad.

a Escogencia autom´tica de regresores a Eliminaci´n Regresiva o “hacia atras”: o • Se comienza con el modelo mas complicado y se van eliminando variables (una a la vez). hasta que ya no se puede eliminar ninguna. Inclusi´n Progresiva.3. Tratamiento: Eliminar regresores Incluir informaci´n externa a los datos o Si los regresores efectivamente influyen pero son eliminados por un problema en el dise˜ o de la muestra entonces los estimados de los efectos de las dem´s variables n a est´n sesgados. o (M´s t´cnico: Examinando el ´ a e ındice de condicionamiento que se define en funci´n o de los autovalores de la matriz). REGRESION MULTIPLE ˆ Los estimados βi tienen variancia grande y alta correlaci´n o 63 Detecci´n: o Examinando la matriz de correlaci´n de las variables explicativas R. Se realiza la prueba de significancia o del modelo F y si no es significante el proceso termina.) . • Usualmente se basa en estad´ ısticos t. Estas correlaciones se las llama correlaciones parciales.´ ´ 5. o ◦ Ajustar todos los modelos de la forma Y = β0 + β1 X1 + β2 X2 + ε y compararlos con el modelo anterior: Usando las pruebas F y selecionando aquella variable que tenga mayor valor de este estad´ ıstico. Si no es significativa se elimina la variable del modelo (F -toremove. o • Se comienza con el modelo Y = β0 . La primera variable a entrar es aquella que tenga mayor correlaci´n con Y . (F -to-enter en los paquetes) • Luego se compara el modelo actual con todos los modelos anidados con una variable menos y se considera para la eliminaci´n aquella cuyo estadi´ o ıstico F sea menor. • Las siguientes variables se pueden incluir de dos maneras: ◦ Buscar la correlaci´n entre las demas variables y los residuales del moo delo anterior. Entra aquella variable que tenga mayor correlaci´n parcial.

o Propiedad de los estimadores: ˆ βi ∼ N (βi . Las perturbaciones tienen una distribuci´n normal. o Notese que la componente sistem´tica es lineal en los par´metros. σ 2 cii ) . . βk Xki + ε Las perturbaciones tienen media cero. La variancia de las perturbaciones es constante. REGRESION Y CALIBRACION Considerese una regresi´n con p variables o X = [X1 : X2 ] Contraste F: ´ MODELO GENERAL DE REGRESION Yi = β0 + β1 X1i + β2i + . As´ se incluye a a ı modelos polinomiales: Yi = β0 + β1 Xi + β2 Xi2 + ε Estimaci´n por m´ o ınimos cuadrados: ˆ e=Y−Y El vector ˆ debe ser ortogonal a Y ˆ e=Y−Y Xe=0 Ecuaciones normales: ˆ X Y = (X X)(β) Ortogonalidad implica: ¯ ˆ ¯ ||Y − Y||2 = ||Y − Y||2 + ||e||2 Descomposici´n de la variaci´n total en variancia explicada m´s variancia no o o a explicada como se vi´ anteriormente. .64 ´ ´ CAP´ ITULO 5. Las perturbaciones son independientes entre si.

1. REGRESION MULTIPLE 65 5.l k MSE (1) F = Residual Total n-k-1 n-1 (2) (1) (2) F Coeficiente de determinaci´n corregido: o Predicci´n: o Variancia Residual ¯ R2 = 1 − Variancia de y n−1 = 1 − (1 − R2 ) n−k−1 ˆ yx = x β ˆ σ2 ≤ Var(ˆx ) ≤ σ 2 y n El lado izquierdo de la desigualdad corresponde a una estimaci´n en el centro de o los datos.c.3. ∼ N (x β. el lado derecho corresponde a una estimaci´n de un valor de los predictores o muy alejado del resto. ˆ ¯ ( Yi − Y ) 2 ˆ (Yi − Yi )2 ¯ (Yi − Y )2 g.3. Fuente Explicada por los regresores s. σ 2 cii ) (n − k − 1)s2 R ∼ χ2 2 gl(residuos) σ son independientes ˆ βi − β i √ ∼ tn−k−1 sR cii Esto sirve para la prueba estad´ ıstica H0 : βi = 0. Estimaci´n de la variancia o σ 2 = s2 = ˆ R e2 i gl(residuos) donde La distribuci´n de referencia de s2 viene dada por o R gl(residuos) = n − k − 1 (n − k − 1)s2 R ∼ χ2 gl(residuos) σ2 Intervalos de confianza para los coeficientes: ˆ βi ∼ N (βi .´ ´ 5. σ 2 x (X X)−1 x) .

REGRESION Y CALIBRACION 5.66 ´ ´ CAP´ ITULO 5.ajuste. Mejor es incluir la(s) variable(s) atributo en el modelo: Con los datos en dos grupos definamos la variable ficticia: Z=    0 1 si la observaci´n est´ en el primer grupo o a si la observaci´n est´ en el segundo grupo o a . Regresi´n con variables cualitativas o Problemas de omitir un atributo Modelos por separado: A A YA = β 0 + β 1 X + ε B B YB = β 0 + β 1 X + ε Dividir los datos en grupos y ajustar regresiones distintas en cada uno de los grupos no es una buena idea: • No hay suficientes datos en cada grupo para un “buen.3.2. • No se pueden comparar los resultados.

REGRESION MULTIPLE y un modelo para la situaci´n de anterior seria: o Y = β0 + β1 X + δ0 Z + δ1 XZ + ε B A B A δ0 representa la diferencia β0 − β0 mientras que δ1 representa a β1 − β1 67 Interacci´n o En el caso en que queremos separar en D grupos se pueden definir D − 1 variables ficticias   0 si la observaci´n no est´ en el grupo i o a Z= 1 si la observaci´n est´ en el grupo i o a El grupo modifica el comportamiento de la respuesta a cambios en las variables explicativas.´ ´ 5. o Yij = µi + εij = µ + αi + εij .3. o Modelos de variables cualitativas Clasificaci´n por un factor (atributo) en varios grupos (niveles). Contrastar δ1 = 0 es equivalente a contrastar por la presencia de interacci´n. En el ejemplo anterior δ1 es la medida de interacci´n entre la variable X y la o variable cualitativa.

− Y ) + (Yij − Yi. − Yi. e o ¯ ¯ ¯ ¯ Yij = Y + (Yi.j. − Y. − Y ) + (Y.68 ´ ´ CAP´ ITULO 5. Clasificaci´n por dos factores: o Yijk = µ + αi + βj + γij + εijk Descomposici´n de las observaciones (factores cruzados): o ¯ ¯ ¯ ¯ ¯ ¯ ¯ ¯ ¯ ¯ Yijk = Y + (Yi. ) . εkl ) = 0 para sub-indices distintos). + Y ) + (Yijk − Yij. REGRESION Y CALIBRACION Como siempre supondremos que εij se distribuye normal y ellos constituyen una secuencia independiente. Este modelo se puede ajustar usando las t´cnicas de regresi´n lineal. − Y ) + (Yij.. (Cov(εij . ) Probar que los promedios de los grupos son iguales es equivalente a probar que todos los αi son cero..j.

La mayoria de los experimentos reales est´n expuestos a diversas fuentes de erroa res. estos tratamientos ser´n aplicados a alguna muestra.Cap´ ıtulo 6 Experimentaci´n o En todo sistema de conocimiento cient´ ıfico se considera la validaci´n de las hip´teo o sis planteadas sobre un fen´meno atrav´s de la experimentaci´n. piense simplemente en el error de medici´n o en la diferencia entre las distintas o unidades experimentales. Esto se realiza con el fin de: 1. que a su vez necesitan ser validados. o unidad a experimental. conclusiones validas debe ser llevado a cabo usando m´todos estad´ e ısticos. Prevenir la existencia de sesgos 69 . que constituyen un conjunto de factores que no pueden ser controlados por el experimentador. Las hip´tesis forman o e o o parte del modelo conceptual del sistema bajo estudio y la validaci´n usualmente eso ta basada en el comportamiento de algunas propiedades que pueden ser medidas u observables. Por supuesto. • El principio de Aleatorizaci´n La suposici´n es que los factores no controo o lados por el experimentador se asignan de manera aleatoria a las unidades experimentales. De esta manera podemos pensar que el objetivo de la experimentaci´n o es el estudiar el efecto que sobre una (o varias) variable(s) de respuesta tiene un conjunto de otras variables que llamaremos variables experimentales. Para ello es necesario no solamente estimar el valor de interes sino tambi´n una medida de la variabidad de esperada en los resultados de la e medici´n. que se suponen intercambiables. As´ el tratamiento de los resultados para obtener ı. factores o tratamientos. o ¿ Bajo que condiciones son validos los an´lisis estad´ a ısticos ? Para responder esta pregunta es necesario considerar como se asignan los tratamientos a las diferentes unidades experimentales.

pero como hemos venido viendo. las diferencias observadas pueden ser atribuidas tanto a la diferencia entre los tratamientos como a la diferencia a las unidades experimentales. Un experimento bien dise˜ ado es un exn perimento que a pesar de las dificultades inherentes al sistema es capaz de soportar un modelo que aporta informaci´n con un m´ o ınimo de ensayos experimentales. el caracter iterativo del aprendizaje tambi´n se e presenta aqu´ pues para saber cual es la mejor configuraci´n hay que conocer como se ı. y para conocer como se comporta es necesario realizar los experimentos!.70 ´ CAP´ ITULO 6. o . Evitar la dependencia entre las observaciones Bajo esta suposici´n es posible validar los procedimientos de an´lisis eso a tad´ ıstico m´s comunes como por ejemplo la famosa prueba t de diferencia a entre tratamientos. Es por eso que se consideran los bloques definidos como: o Bloque: es un grupo de material experimental homogeneo. o comporta. Necesariamente tenemos que planificar nuestra experimentaci´n con el objetivo de separar estas dos fuentes o de variaci´n. como por ejemplo en el caso de un experimento con un material carbonoso proveniente de distintas minas ( % distintos de carbon en cada muestra). aleatorize lo que no pueda Este comentario est´ en el fondo de toda la experimentaci´n llevada a cabo a o usando los conocimientos estad´ ısticos. de manera que es necesario medir el tama˜ o de la dispersi´n o n o la variabilidad de los resultados obtenidos en distintas realizaciones del ensayo bajo condiciones similares. Ahora bien. Por supuesto si se pueden realizar secuencialmente una serie de ensayos con los que se empiecen a revelar los ‘secretos’del fen´meno bajo estudio. se podr´ mejorar el dise˜ o o a n del experimento y aumentar la resoluci´n de los resultados. EXPERIMENTACION 2. A veces no es posible cumplir con este principio. este puede ser dividido en unidades experimentales sobre los que se aplican los tratamientos Comentario del libro de Box-Hunter-Hunter: Bloquee lo que pueda. por ejemplo cuando de antemano sabemos que nuestras unidades experimentales no son homogeneas. en cada ensayo obtenemos informaci´n contaminada por los factores o no controlados. El problema b´sico del dise˜ o de experimentos es decidir qu´ configuraci´n de a n e o puntos caracteristicos en una regi´n de inter´s revelar´ mejor los aspectos del probleo e a ma. Si se coloca los distintos tratamientos de manera aleatoria y se toman las medidas.

Esta ecuaci´n es un modelo mecan´ o o ıstico o te´rico porque est´ basado en una apreciaci´n de la teor´ f´ o a o ıa ısica o mecanicista que gobierna el proceso. Supongamos que una sustancia A es el reactivo y la B el producto y que son aplicables las leyes cin´ticas de primer orden. en el que se ponen a prueba modelos alternativos y los sobrevivientes se someten.1. Ahora bien. la eficacia. de manera que hay infinitos modelos que se pueden a adecuar a los datos observados. el tipo de catalizador u otras que puedan ser controladas por el o experimentador. pero tambien. tambi´n debe considerar algunas u e alternativas y dise˜ ar el experimento de tal manera que se pueda detectar los puntos n en los que el modelo inicial no sea adecuado. En ocasiones el fen´meno estudiado es bien conocido y es posible escribir una o f´rmula a partir de consideraciones te´ricas. Se supone que 1 mol de B se forma a partir de 1 mol de A y que la concentraci´n de A cuando o x = 0 es β1 1 . xk ) (6. no tienen un significado mas alla del de la diferencia de magnitud (caso real) o magnitud y direcci´n (caso o vectorial). . la calidad. a´ n cuando el experimentador u este muy seguro de c´ al puede ser el mecanismo. En general. Sin embargo el experimentador tiene un conocimiento previo sobre el mecanismo de acci´n del fen´meno que le permite descartar algunos o o modelos evidentemente inadecuados.1) donde ν representa el valor esperado de una respuesta como la cantidad. por si solos. entonces la tasa de formaci´n de e o B en cualquier instante es proporcional a la cantidad de A que a´ n no ha reaccionado. . a escrutinio. y los xi son niveles de un n´ mero de variables como el tiempo. . x2 . junto a otros nuevos modelos. si designamos por ν al valor medio de la concentraci´n de B en el tiempo x. Modelos Emp´ ıricos Comencemos por entender que los datos.1. por ejemplo consideraciones f´ o o ısicas o de balance de masas. . MODELOS EMP´ IRICOS 71 6. Los datos comienzan a tener sentido cuando se relacionan con un modelo conceptual del fen´meno que di´ origen a los datos.6. innumerables. u esto es. los experimentadores est´n interesados en estudiar relaciones a ν = f (x1 . los posibles modelos o o son en la pr´ctica. La construcci´n de modelos es una parte o muy importante del trabajo cient´ ıfico.1 o dν = β2 (β1 − ν) dx con lo que la relaci´n entre ν y x puede expresarse como: o ν = β1 (1 − eβ2 x ) donde β2 es la tasa constante de reacci´n. u la concentraci´n.

En estas casos un modelo emp´ ırico.2. . β k xk (6. es muy frecuente que el mecanismo que gobierna el proceso no se conoce lo suficiente o es demasiado complicado para permitir que un modelo exacto sea postulado. primero considerando factores unicamente a dos niveles: ALTO (+) y BAJO (-) Para k variables se est´ hablando de experimentos con 2k distintas combinaciones a de los factores.1 en una regi´n de inter´s en que las variables de control o o o e tienen campos limitados. . ±1). . esto es ν = β 0 + β 1 x1 + β 2 x2 + . en los que no ser´ raro que ocurriese por ejemplo. . por lo que se hace necesario u una estrategia de experimentaci´n secuencial que permita considerar factores elegio dos en funci´n de los resultados de etapas anteriores.2) k k k ν = β0 + i=1 βi xi + i=1 j=1 βij xixj (6. una aproximaci´n a la o funci´n f de la ecuaci´n 6. . Por esto suelen ser llamados experimentos 2k Cuando los factores son variables continuas como temperatura o presi´n lo que se o est´ considerando es una codificaci´n o cambio de escala de la regi´n experimental a o o para que quede identificada con el (hiper)cubo cuyos vertices se encuentran localizados en los puntos definidos como (±1. pero algunos de estos factores pueden ser inertes de manera que se debe considerar como detectar estos factores con el menor n´ mero de experiu metos posibles. esto es.3) 6. con un n´ mero accesible de o u experimentos La Metodolog´ de Superficies de Respuesta es una forma sistem’tica de realiıa zar esta experimentacion secuencial. Si consideramos a X+ el valor de la variable a nivel alto y X− al valor de la variable . Por supuesto. EXPERIMENTACION Ahora bien. Metodolog´ de Superficies de Respuesta y diıa se˜ os 2k n Frecuentemente se necesita saber la influencia de gran n´ mero de factores sobre u una variable de respuesta. ±1. pero es evidente que los dise˜ os factoriales con muchos niveles pueden n requerir un n´ mero de ensayos que los hace infactibles.72 ´ CAP´ ITULO 6. para que se pueda detectar como influyen las variables independientes o factores en la cantidad o la calidad hay que variar los niveles de los factores. . que ıa relaciones lineales o de segundo orden fueran adecuadas.

2. la segunda columna se alternan los signos de dos en dos (2 = 21 ). el modelo emp´ ırico de primer orden se escribe como: Y = β0 + β1 A + β 2 B + β 3 C + ε Efectos Principales = 2 * βi Este es un ejemplo de un dise˜ o ortogonal de primer orden n . la tercera de cuatro en cuatro (4 = 22 ) y en general la j-´sima columna se construye alternando los signos e τ ”+”en tandas de tama˜ o igual a 2j−1 . modelos en los que se considera que los cambios que ocurrir´n en la respuesta media a son proporcionales a tama˜ o de los cambios de los factores o variables independientes. METODOLOG´ DE SUPERFICIES DE RESPUESTA Y DISENOS 2K IA a nivel bajo.˜ 6. se puede considerar un experimento tipo 23 en el que ocho los ensayos pueden escribires A + + + + B + + + + C + + + + Este experimento est´ escrito en el orden est´ndar. esto es. n Por ejemplo. esto ı es. n Para el experimento 23 . la primera columna a a se alternan los signos τ ”+”(comenzando por el signo ”) de uno en uno (1 = 20 ). en el caso de que k sea tres. la variable codificada es: Xc = X− X+ +X− 2 X+ −X− 2 73 Se define como efecto de un factor al incremento promedio de la respuesta cuando este factor pasa de (-) a (+) Esto quiere decir: ¯ ¯ Y+ − Y− Dise˜os ortogonales de primer orden n Son llamados as´ porque permiten ajustar modelos empiricos de primer orden.

X − promedio de los niveles alto y bajo Xcod = (Rango entre los niveles alto y bajo)/2 Aqu´ k es el n´ mero de factores (variables de control) usadas en el experimento (o ı u funci´nes de las variable usadas).7 + 8.7) .3+11. .4 = 1.74 ´ CAP´ ITULO 6. .4) donde las variables Xi . La respuesta es la funcion de respuesta cromatogra’fica.25 Un primer paso de simplificaci´n en el ajuste de modelos emp´ o ıricos.7 AMC 9.325 . k toman los valores de la variable de codificaci´n o usual.0+9.5 AC 11.0 C 9. en forma matricial el modelo puede escribirse como o Y = Xβ + ε .425 . .1/4(10. . ¿ Cuales son los importantes? Como se puede optimizar la separaci´n de fenoles contaminantes en un sistema de o HPLC (que no cambia la composicion del solvente durante la medici´n). Hay varios factores que influencian la separacion. 125 Este ultimo es bastante peque˜ o con respecto a los otros dos. i = 1. 0 A M AM 10.8 + 11.3 = 0. o Factores: Proporci´n de Metanol en la fase movil (metanol:agua) (M) o Concentraci´n de Acido C´ o ıtrico (C) ´ Concentraci´n de Acido Ac´tico (A) o e Estos acidos son agregados a la fase movil porque ellos pueden reducir problemas ´ de ’punto de cola’. EXPERIMENTACION Ejemplo: Separaci´n de fenoles por HPLC (high performance liquid chromatoo graphy).0 +11. . ´ n Efecto de interacci´n: o MC = 0. es considerar el modelo (ecuaci´n) m´s simple para describir la relaci´n entre las variables (o funciones de estas o a o variables) de control y la variable que queremos controlar o medir.7 Efecto principal del acido acetico: 1/4(9.925 Efecto principal del acido citrico: 10.375 Efecto principal del Metanol: 11.3 8.10.9) = -0. Lo m´s simple es a considerar un polinomio de primer grado en estas variables.9 11.125.9. + β k Xk + ε (6. AM = 0. que es una m´xima del procedimiento de aprendizaje cient´ a ıfico.5 + 10. es decir: Y = β 0 + β 1 X1 + β 2 X2 + .8 11. . AC = 0.825 .0 MC 10.

pero no intervienen en el estimado σerror puro de manera que se puede usar estos dos estimados para realizar una prueba ˆ2 de la ‘bondad de ajuste del modelo´ mas bien de si existe o no falta de ajuste. .). . entonces la matriz X X ser´ una matriz diagonal. (ver siguiente ecuaci´n. o error experimental. . .2. Xk. o Puntos Centrales y la estimaci´n del error puro o Cuando se tiene disponibles repeticiones en el punto central se puede estimar el llamado error de repetibilidad. . . si el modelo que se propone ajusta correctamente los datos observados. . 1/2(Y2+ − Y2− ). a Por supuesto que al suponer un modelo de primer orden estamos dejando de lado los efectos de interacci´n entre los factores de control.j . . La variabilidad se puede estimar usando la conocida f´rmula de la desviaci´n standard: o o σerror puro = ˆ2 ¯ (Yi. de las columnas o que corresponen al experimento principal. siendo los valores de la a k k k diagonal igual a (2 + n0 . y esto no parece una explicaci´n muy satisfactoria del porque se deben incluir. 2 . . En caso o en que la respuesta sea afirmativa (el modelo no modela bien) entonces los efectos de estas interacciones pueden ser estimados aumentando la matriz X con columnas construidas por medio de la multiplicaci´n dos a dos (tres a tres.˜ 6.j . . . X1. Estos efectos ‘engordan´l o e estimado de la variabilidad obtenido como ECM . METODOLOG´ DE SUPERFICIES DE RESPUESTA Y DISENOS 2K IA 75 donde la fila j de la matriz X corresponde al vector (1. X2. . Si estamos usando un dise˜ o factorial con k factores a dos niveles cada uno (por n simplicidad supongamos que estamos usando el dise˜ o completo) con n0 puntos cenn t trales.j . 1/2(Yk+ − Yk− )) (6. .5) Notese que los resultados de los puntos centrales s´lo se usan para la estimaci´n de o o β0 . el error cuadr´tico medio) es tambi´n un estimador de la variabilidad del o a e error experimental. 2 ) y los estimados del vector β quedan como ¯ ¯ ¯ ¯ ¯ ¯ ¯ (Y . es natural pensar que el estimado de la variancia derivado de los residuales. . 1/2(Y1+ − Y1− ).0 − Y0 )2 n0 − 1 Ahora bien. ECM = Error Cuadratico Medio ˆ (Yi − Yi )2 = n−p . y p es el n´ mero u de par´metros considerados en el modelo lineal. que no es otra cosa que un estimado de la variabilidad de la respuesta bajo condiciones ‘equivalentes’. . ˆ donde Yi es el valor estimado de la respuesta en la i-esima corrida.

pero si el o modelo es uno de segundo orden entonces se est´ estimando el valor de β0 + βii (ver a ecuaci´n (6. 6. k. bajo la suposici´n de que el modelo de primer orden es el correcto. Pero. ¿c´mo darse cuenta? e o o El promedio de los valores observados en los vertices del dise˜ o. . i = 1. Bloques en dise˜ os factoriales n • Ejemplo: Un experimento del tipo 23 pero cada dia se pueden obtener unicamente 4 datos Se prevee que una variable conocida puede introducir heterogeneidad Se requiere estimar los efectos principales (y las interacciones de orden peque˜ o) n libre de los efectos del bloque.76 ´ CAP´ ITULO 6. ¿ qu´ pasa si esta suposici´n no es correcta ?. σ2 o bajo la hip´tesis NO hay falta de ajuste corresponde a una Fisher con los grados de o libertad correspondientes a los denominadores de los factores que intervienen en el estad´ ıstico. Consideremos ahora una situaci´n para la que a o se asume que el modelo correcto es el modelo en (6. cuando asumimos que el modelo de primer orden es correcto.3. As´ la diferencia entre los promedios de estas observaciones o a ı y de las observaciones en el punto central estimar´ βii y el error estandard para a este estimado viene dado por σ 1/n0 + 1/2k−p. . .6) m´s abajo). Puntos Centrales y una prueba de cuadratura En la sub-secci´n anterior consideramos el papel de los puntos centrales para el o c´lculo del error puro o experimental. sabemos que o n los resultados en los puntos centrales no intervienen en el c´lculo de los estimados de a los coeficientes βi . cuya distribuci´n de referencia. ˆ (Para ver si es grande o peque˜ o se usa el estad´ n ıstico t de comparaci´n de medias o ). . .4). consideremos M SF A = ˆ (Yi − Yi )2 − (cuadrados error puro) GLresidual − GLerror puro El estadistico F queda como M SF A/ˆerror puro . estiman el valor n de β0 . EXPERIMENTACION El estad´ ıstico de la prueba de falta de ajuste es un estad´ ıstico de comparaci´n de o variancias. De acuerdo con la discusi´n sobre los dise˜ os ortogonales. Consideremos ahora los resultados obtenidos en el llamado punto central del experimento.

. k(k − 1) efectos de interacci´n de segundo orden.. 23 en orden estandar: ABC = (-. DISENOS 2K FRACCIONALES 77 Para esto es necesario que aparezcan en las columnas de signos la misma cantidad de (+) que de (-). + + . . X2 ]  +ε β2 Estimados por m´ ınimos cuadrados: t t ˆ β1 = (X1 X1 )−1 X1 Y   . o Escogencia de una fracci´n (de tama˜ o 2k−p ) de manera que se puedan estimar o n los efectos de primer orden. . Con un experimento 2k completo se pueden estimar 2k efectos (k efectos principales. Soluci´n: Usar las columnas de las interacciones de orden superior para detero minar las corridas que deben ir en cada bloque.4.. Dise˜ os 2k fraccionales n Estos son dise˜ os exploratorios que pueden brindar informaci´n sobre los efector n o k principales aun cuando no se realicen todos los 2 experimentos. .4. . +) • Dos bloques A − + − + B − + − + C − − + + A + − − + B − + − + C − − + + 6.). .. + . Algo se pierde: Modelo ajustado: Y = X 1 β1 + ε 1 Modelo m´s cercano a la realidad: a β1  Y = [X1 .˜ 6.

78 Valor esperado: ˆ E β1 ´ CAP´ ITULO 6. Por ejemplo. se puede escoger un dise˜ o de tama˜ o 16 considerando las n n fracciones que corresponden a las combinaciones de signos: I = ± ABCD = ± ACEF La relaci´n de definici´n de la fracci´n permite calcular el patr´n de confusi´n o o o o o ´ • “ Algebra de columnas (+. X2 ]  β2 t t = β1 + (X1 X1 )−1 X1 X2 β2 t t La matriz A = (X1 X1 )−1 X1 X2 se la llama matriz de “alias . o ¿Cuando los efectos son significativos? Como los efectos se calculan como diferencias de promedios entonces la variancia de un efecto es: σ2 V ar(Ef ecto) = p−f 2 As´ un efecto ser´ importante cuando sea bastante m´s grande que su desviaı. EXPERIMENTACION t t = (X1 X1 )−1 X1 E(Y ) β1  t t = (X1 X1 )−1 X1 [X1 . Dise˜ os saturados: Dise˜ os de resoluci´n III que no dejan grados de libertad n n o para estimaci´n del error. a Relaci´n de definici´n o o Para construir un dise˜ o 2k−p balanceado es necesario escoger p columna s de n signos entre las interacciones de orden superior. a a ci´n est´ndar ( V ar(Ef ecto)) o a .o matriz de confusiones (de los par´metros) a   Escogencia de la fracci´n de manera que los efectos principales (y posiblemente o las interacciones de segundo orden) esten lo m´s desconfundido s que se pueda.-)” ◦ I es una columna con todas las entradas (+) ◦ Cualquier columna de signos multiplicada por si misma da I ◦ Cualquier columna multiplicada por I da la misma columna Definicio´n Resoluci´n = 1 + orden de interacci´n m´s baja confundida con o o o a un efecto principal. en el caso de tener k = 6 factores.

˜ 6. • Parece que un incremento en presi´n puede reducir la conversi´n en cerca o o del 2 %.50)2 + (−0.25 -0.25 -0.50 -0.75 -5.30 5 5 √ con lo que la desviaci´n del efecto es 0.00 4. o Ensayo 0 A B AB C AC BC ABC D AD BD ABD CD ACD BCD ABDC Y 71 61 90 82 68 61 87 80 61 50 89 83 59 51 85 78 Orden (8) (2) (10) (4) (15) (9) (1) (13) (16) (5) (11) (14) (3) (12) (6) (76) Estimado 72.75)2 + (−0.25)2 ] = = 0.50 0.50 [(−0.4.25 -8.25 Variable A Carga catalizador (lb) B Temperatura (C) C Presi´n (psi) o D Concentraci´n ( %) o 10 220 50 10 + 15 240 80 12 SUMA de (efectos despreciables) 2 N´ mero de efectos despreciables u Interpretaci´n: o • Un incremento en la carga de 10 a 15 libras reduce la conversi´n en cerca o de 8 %.00 -2.75)2 + (0. los efectos o o de estas variables deben ser vistos en conjunto: .25 0.30 = 0.25 -0.25)2 + (−0.50 0.75 -1.00 1. • Como existe interacci´n entre la temperatura y la concentraci´n. DISENOS 2K FRACCIONALES 79 No hay replicas.00 24. e Podemos suponer que los efectos de las interacciones triples y cuadruples son ‘despreciables’y lo que estamos viendo alli son variabilidades entre promedios debida. principalmente a la variabilidad de los errores aleatorios V ar(Ef ecto) ≈ en este caso: 1 1.55. ¿ qu´ se puede hacer para estimar la variabilidad de un efecto?.75 -0.

o 6. . Dise˜ os centrales compuestos n Estos dise˜ os permiten ajustar modelos emp´ n ıricos de segundo orden. n0 es. − 65 + 84 . que corresponden a la idea de los experimentos uno por vez. de manera que ns = 2krs u 3. Notaci´n: o 1.k β i Xi + i<=j βij Xi Xj + ε (6. 2. posiblemente con rc replicas (repeticiones del experimento completo. Es decir nc = 2k−f rc . como antes.5. . nc n´ mero de ensayos (corridas) que corresponden a un experimento factorial a u dos niveles. EXPERIMENTACION − + 55 . En los dise˜ os centrales compuestos esto se logra pidiendo n que nc 1/4 α= rc .80 ´ CAP´ ITULO 6.6) La idea es conseguir los ’grados de libertad’suficientes para ajustar el modelo de segundo orden completo. . pero a bajas temperaturas. Y = β0 + i=1. el n´ mero de repeticiones del punto central. ns n´ mero de experimentos que ser realizan para completar los cinco niveles u de las variables de control. Se les acostumbra llamar puntos estrella (ver figura).7) Se dice que un dise˜ o es rotable si la funci´n de variancia solo depende del tama˜ o n o n (norma) del vector (x). mientras que en o o altas la concentraci´ no parece jugar un papel preminente. 85 Altas temperaturas producen alta conversi´n. u Funci´n de Variancia de la predicci´n: o o ˆ V ar(Y ) = σ 2 xt Xt Xx (6. Tambi´n pueden e replicarse (la estrella completa un n´ mero rs de veces). posiblemente fraccionado. . o un incremento en la concentraci´n reduce la conversi´n.

6.6. si se desea partir el experimento en varios bloques de forma balanceada para estimar el efecto del bloque sin confusi´n con efectos principales o efectos de o interes. con el fin de garantizar est´ propiedad. hay que ’balancear´l n´ mero a e u de puntos centrales a ser realizados en cada bloque.6. Experimentos con Mezclas Productos cuya calidad no depende de la cantidad total de los ingredientes en la mezcla sino de las proporciones de los mismos • Xi : Proporci´n del i-esimo componente o • k: N´ mero de componentes u 0 ≤ Xi ≤ 1 k Xi = 1 i=1 Estas restricciones introducen una dependencia (matem´tica) entre las compoa nentes • Para k = 2 X 2 X1 + X2 = 1 X 1 Modelo lineal general k E(Y ) = β0 + i=1 β i Xi util cuando se considera que la combinaci´n de componentes no produce sinergia ´ o ni antagonismo (medidos en funci´n de la variable de respuesta) o . EXPERIMENTOS CON MEZCLAS 81 Ahora bien.6. entonces.

1 m m • Se toman todas las posibles combinaciones en las proporciones anteri ores Dise˜ o 3.1. (0. ). 0). x3 ) = {(1. Para el modelo cuadr´tico a E(Y ) = i βi∗ Xi + i<j ∗ βij Xi Xj 6. . 0). . una soluci´n posible: a ´ o q−1 Xq = 1 − Xi o=1 En este caso el efecto del q-esimo componente est´ obscurecido a Mejor usar la “forma can´nica”(usando que 1 = o E(Y ) = i k i=1 Xi ) βi∗ Xi con βi∗ = β0 + βi . . . 0. 3 3 2 1 ( . (0. m} n n • Las proporciones de cada componente toman m + 1 valores equiespaciados entre 0 y 1 1 2 Xi = 0. 0. 0. .3 n 2 1 (x1 . . x2 . . referidos como dise˜ os {q. . 3 3 q+m−1  puntos de medici´n o En total hay  m   . EXPERIMENTACION k E(Y ) = β0 + i=1 β i Xi + i≤j βij Xi Xj Los par´metros ajustados no son unicos.82 Modelo cuadr´tico general a k ´ CAP´ ITULO 6.6. . ( . 1). Dise˜ os sin restricciones en los componentes n En este caso cualquier mezcla pura puede ser usada Dise˜ os simplex para un modelo de grado m. . 1. 0).

8 0.6.0 0. EXPERIMENTOS CON MEZCLAS 83 6.8 0.2 0. 0.3 Cuando se tienen restricciones tanto superior como inferiormente la regi´n de o interes es un conjunto convexo de multiples caras 0 ≤ L i ≤ Xi ≤ U i ≤ 1 Las restricciones se llaman consistentes cuando todas y cada una de las proporciones extremas de las componentes pueden ser obtenidas Las restricciones siguientes son inconsistentes: 0 ≤ x1 ≤ 0.2. pi˜ a y naranja.0 0.1 ≤ x2 ≤ 0.0 0.1 0. .2 0. Dise˜ os con restricciones en los componentes n Es bastante frecuente que en una mezcla las componentes puras no sean fisicamente obtenibles o estas no sean de interes Pseudo-componentes: Se usan para los problemas en los que las componentes est´n acotados inferiormente: Xi ≥ Li a Xi = 1− Xi − L i k j=1 Lj Cuando una o varias proporciones de las componentes tienen restricciones superiores se pueden modificar los dise˜ os simplex substituyendo las componentes n restringidas con mezclas con proporciones dadas de las componentes no restringidas • Se quiere encontrar una formulaci´n para un coctel de frutas con jugos de o patilla.6.8 Es necesario ajustar estos l´ ımites para que sean consistentes (con el objeto de procurar dise˜ os de vertices consistentes) n .1 0. .. De antemano se sabe que este coctel debe n contener no mas del 80 % de jugo de patilla 0..2 0.2 0.8 0.0 0...4 0.6 ≤ x3 ≤ 0.1 0.0 0..2 0.0 0.0 0.0 0.8 0.3 0. parchita.0 0..8 0.4 0 0. ..0 0..2 | | | | 0.6.2 .

. .. EXPERIMENTACION En las regiones altamente restringidas se usan dise˜ os: n • De vertices • Definici´n de una regi´n “elipsoidal” o o x1 − c 1 h1 2 x2 − c 2 + h2 2 xq − c q +. .84 ´ CAP´ ITULO 6.. cq ) define el centro de la regi´n de interes y 2hi representa o el rango del i-esimo componente . c2 .+ hq 2 ≤1 donde (c1 . .

Los gr´ficos de Control de Shewhart se construyen graficando alguna medida a estad´ ıstica para una serie de muestras o subgrupos. en orden cronol´gico. Gr´ficas de control a Normas Relacionadas Covenin 3140:1995. que se espera corresponda al valor de la especificaci´n requerida para la caracter´ o ıstica y l´ ıneas de aviso. Las gr´ficas de control estad´ a ısticas se usan para evaluar la estabilidad del proceso en cuanto a la localizaci´n y dispersi´n de la variable que representan la o o caracter´ ıstica. o • Es usual agrupar N observaciones en n subgrupos de tama˜ o k.Cap´ ıtulo 7 Herramientas estad´ ısticas para el Aseguramiento de la calidad. 3208:1996 Las gr´ficas de control son herramientas que sirven para analizar din´micamente a a la conducta del proceso al tomar muestras temporalmente y examinar alguna caracter´ ıstica del producto.1. 7. ¿ Qu´ debemos esperar observar en las gr´ficas de control cuando el e a proceso est´ trabajando bajo CONTROL? a 85 . n • n puede representar el n´ mero de lote de producci´n mientras que k es el u o n´ mero de productos examinados en ese lote u En la gr´fica se muestra una l´ a ınea central. o l´ ımites de control.

• No deben existir tendencias lineales. LSC. LIC. el proceso se puede o considerar como estable. Usualmente se consideran tanto gr´ficas de la localizaci´n como de la dispersi´n a o o y se se interpretan conjuntamente. los a l´ ımites de control se determinan en funci´n tanto de la variabilidad de esta o variable como por consideraciones estad´ ısticas y/o econ´micas. y los l´ ımites superior de control. sinosoidales o cualquier a otra que determine que el proceso est´ condicionado a alguna dependencia e temporal. LC. ¿ Como se determinan los l´ ımites de control ? • Si identificamos cual es la variable aleatoria Y que est´ bajo estudio. HERRAMIENTAS ESTAD´ ISTICAS PARA EL ASEGURAMIENTO DE LA CALIDAD • Cualitativamente podemos decir que la gr´fica de control debe ser no infora mativa. Es com´ n dise˜ ar los gr´ficos de control estimando la variancia y la localizaci´n u n a o de la variable aleatoria Y y definiendo la l´ ınea central. e inferior de control.86CAP´ ITULO 7. entendiendose por estos. cuadr´ticas. • Gr´fica de control para las observaciones a En este caso Yi = Xi . . como ¯ LSC = Y + 3ˆY σ ¯ LC = Y ¯ LIC = Y − 3ˆY σ Hay que suponer que durante el tiempo de observaci´n. o • Los l´ ımites deben ser: ◦ Lo suficientemente sensibles para que cuando haya un cambio este sea detectado ◦ Lo suficientemente robustos para que no ocurran muchas falsas alarmas debido a la variabilidad natural del proceso. • No deben existir mediciones fuera de los l´ ımites naturales del proceso. que no se identifique ning´ n patr´n de conducta en las mediciones u o de la caracter´ ıstica en estudio. los l´ ımites determinados por la variabilidad resultante de las causas comunes o no asignables.

a • Gr´fica de Control para promedios: a ¯ Aqu´ Yj = Xj con j = 1. ı o ¯ Estimaci´n de dispersi´n usando σ . . Norma Covenin 3140. GRAFICAS DE CONTROL 87 ¯ Calcular X (que estima localizaci´n) y σX (que estima variancia). . c2 k est´ tabulada en la Tabla 7. . . a .1. n. 6. n con agrupaci´n de k datos. pag. σY = ˆ d2 k ¯ R √ ¯ ¯ LSC = X + A2 R ¯ LC = X ¯ ¯ LIC = X − A2 R donde A2 = 3 √ . 2. . donde o ˆ σX = ˆ con lo que se obtiene: ¯ LSC = X + 3ˆX σ ¯ LC = X ¯ LIC = X − 3ˆX σ • Gr´fica de Control para promedios a ¯ Aqu´ Yj = Xj con j = 1. .´ 7. . pag. Norma Covenin 3140. 6. 2. d2 k A2 est´ tabulada en la Tabla 6. a σY = ˆ c2 k σ ¯ √ ¯ LSC = X + A1 σ ¯ ¯ LC = X ¯ LIC = X − A1 σ ¯ A1 = 3 √ . el proEstimaci´n de localizaci´n: X. con agrupac´n de k datos ı o ¯ ¯ Estimaci´n de localizaci´n mediante Y = X y de la dispersi´n mediante o o o n 1 ¯ el uso de R = j=1 Ri n N 1 ¯ (Xi − X)2 N − 1 i=0 Ri es el rango del i-esimo subgrupo. . o o o o ¯ medio de los σi : desviaciones est´ndar de cada subgrupo.

986 74.009 0.88CAP´ ITULO 7.007 73.038 0.999 73.011 74.023 0.026 0.007 74.006 73.000 74.009 74.006 73.006 74.004 74.008 74.014 73. Se tienen veinticinco muestras de tama˜ o k = 5.025 0.001 74.024 0.017 0.005 74.988 73.003 74.001 74. del agua residual.008 73. Norma Covenin 3140.001 74.001 73.996 74.005 74.989 74.003 74.020 73.997 74.985 73.990 73.012 74.006 74.012 73.003 73. pag.998 73. el promedio de los Ri coo o o rrespondiente a los rangos de cada subgrupo.015 73.006 73.003 74.019 74.994 74. ¯ Estimaci´n de localizaci´n y dispersi´n con R.007 74.008 74.997 74.998 74.986 73.009 74.033 0. .014 74.008 74.995 74.012 73.005 73.989 74.988 74.001 74.987 73.999 73.997 73. 2. d d D3 y D4 est´n tabuladas en la Tabla 6.002 74. σY = ˆ ¯ d3 R d2 ¯ LSC = D4 R ¯ LC = R ¯ LIC = D3 R D3 = 1 − 3d23 y D4 = 1 + 3d23 .001 74.019 0. HERRAMIENTAS ESTAD´ ISTICAS PARA EL ASEGURAMIENTO DE LA CALIDAD • Gr´fica de Control para Dispersi´n (Rangos) a o En este caso Yj = Rj con j = 1.000 74.983 73.012 74.984 74.989 74.017 0.999 74.999 74.013 0.006 74.005 ¯ R= Ri 0.013 73. n i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 Concentraci´n (ppm) o 74. a Ejemplo: La siguiente tabla contiene los valores de concentraci´n (en ppm) de o una sustancia en aguas residuales.003 74.000 74.978 73.004 73.001 Continuaci´n: Se tomaron 15 muestras adicionales.005 74.987 74.001 74.000 74. tama˜ o o n cinco.002 74.999 74.001 74.997 74.988 73.993 74.001 74.005 73.006 73.001 73.009 74.994 73.996 74.025 0.013 73.998 74.997 74.003 74.006 73.997 74.010 0.009 74.999 74.011 ¯ ¯ X = ¯ Xi 74.001 73.021 74. .008 0.042 0.989 74.003 73.000 74.015 0.008 73. n.013 73.994 73.009 73.004 73.986 74.010 74.994 73.037 0.015 0.991 74.003 73.997 73.010 74.005 73.992 74.030 0.009 0. Las aguas provienen de un proceso que su supone estable.026 0.022 73. .006 74.008 74.000 74.012 74.997 74.995 74.016 73.002 73.016 0.006 74.976 74.991 74.006 74.995 74.009 73.991 73. las mediciones de la concentraci´n de contaminante se muestran en la o tabla: .987 73.003 74.998 74.043 0.004 74.009 74.028 73.009 74.999 74.992 73.012 73.012 73.000 74.004 73.996 74.002 74.012 0.993 74.994 73.020 0.996 73. 6.

k = 5.013 73.009 74.996 73.015 73.1.998 73.016 74.005 74.994 74.002 74.000 74.008 74.010 73.995 74.998 74.026 0.985 73.001 74.012 ¯ R= Ri 0.009 74.016 73.997 74.023 73.004 74.008 0.998 73.999 74.994 73.020 74. n = 25.991 73.01 0.028 0.012 74.975 74.002 ¯ Xi 74.015 74.010 73.023 0.995 74.013 74.996 74.017 73.0555259 ¯ ¯ Figura 7.007 73.014 74.010 74.987 73.005 89 Grafica X barra Concentracion (ppm) UCL • • • • • • • • • • • • • • • • • • • • • • • • • LCL 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 Group Number of Groups = 25 Number beyond limits = 0 Target = 74.052 73.994 73.003 74.049 0.039 74.988 73.997 73.062 0.997 74.029 0.991 73.981 74.984 73.998 73.031 0.012 74.998 73.004 73.008 74.014 74.004 74.979 74.015 73.014 73.006 74.022 0.05 Grafica R Concentracion (ppm) • • • • • • • • • • • LCL 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 Group Number of Groups = 25 Number beyond limits = 0 Number violating runs = 0 Target = 0.002 74.998 73.022 74.012 74.005 74.010 0. del agua residual.001 74. las mediciones de la concentraci´n de contaminante se muestran en la o tabla: i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 74.001 74.018 73.997 74.020 0.022 0.058 0.996 74.014 74.095 0.012 74.998 74.007 74.030 0.996 74.025 ¯ ¯ X = 74.003 74.994 74.990 74.000 74.996 74.025 73.997 74.03 0.997 73.026 74.034 0.005 0.957 73.996 74.004 73.034 74.0155945 UCL • • • • • • • • • • • • • • Group Summary Statistics 0.988 74.005 74.993 73.011 73.003 74.018 73.0013138 Number violating runs = 0 Lower Control Limit = 73.029 73.999 74.037 73.007 74.020 0.010 73.001 74.0220704 Lower Control Limit = 0.990 74.010 74.024 Concentraci´n (ppm) o 73.032 0.006 74.007 73.000 74.012 74.014 74.992 74.030 74.006 74.995 73.995 73.992 73.998 73.020 74.004 74.022 74.992 73.000 73.021 0.025 74.005 Continuaci´n: Se tomaron 15 muestras adicionales.997 73.999 74.998 73.003 74.982 73.016 0.078 0.004 74.018 0.0029911 Upper Control Limit = 0.010 74.014 74.000 73. R. GRAFICAS DE CONTROL Group Summary Statistics 73.010 74. proceso estable a i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Concentraci´n (ppm) o 74.999 73.008 74.019 0.004 74.997 73.987033 Upper Control Limit = 74.993 73.001 73.007 73.993 73.984 73.1: Gr´ficas X.991 74.004 73.996 73.996 73.´ 7.008 73.998 74.028 0.980 73.997 73.997 74.015 ¯ ¯ X = ¯ Xi 74.986 73.038 .997 74.022 0.013 74.011 74.986 ¯ R= Ri 0. tama˜ o o n cinco.947 74.000 74.000 74.036 0.995 74.000 73.019 74.997 73.016 74.996 74.033 73.023 0.006 74.017 73.011 73.000 74.996 73.006 73.994 74.960 73.006 74.056 73.020 74.025 0.011 74.008 74.002 73.021 0.985 74.985 74.

005 74.01 0. . el promedio de los σi correspondiente a las desviaciones est´ndar de ¯ a cada subgrupo.020 UCL • • • • Grafica X barra Concentracion (ppm) • • • • • • • • • • • LCL 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Group Number of Groups = 15 Number beyond limits = 0 Target = 74. Norma Covenin 3140. L´ a ımites propios • Gr´fica de Control para Dispersi´n (Desviaci´n Est´ndar) a o o a Ahora Yj = σj con j = 1. HERRAMIENTAS ESTAD´ ISTICAS PARA EL ASEGURAMIENTO DE LA CALIDAD Group Summary Statistics 73.0030267 Upper Control Limit = 0. R. Estimaci´n de localizaci´n y dispersi´n o o o con σ .9903653 Upper Control Limit = 74.2 Aspectos para el an´lisis de la gr´ficas de control a a Anomal´ del proceso son posibles cuando: ıas • Al menos una realizaci´n de la medici´n de la caracter´ o o ıstica en estudio cae fuera de los l´ ımites de control.990 74.0192665 UCL • • • • • Group Summary Statistics 0.2: Gr´ficas X.0561864 ¯ ¯ Figura 7. pag. n. . • Al menos dos (2) de tres (3) realizaciones sucesivas caen del mismo lado a m´s de dos (2) desviaciones est´ndar de la l´ a a ınea central. 6. .023301 Lower Control Limit = 0.05 Grafica R Concentracion (ppm) • • • • • • • • • • LCL 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Group Number of Groups = 15 Number beyond limits = 0 Number violating runs = 0 Target = 0. n = 15.03 0. 2. . LSC = B4 σ ¯ LC = σ ¯ LIC = B3 σ ¯ B3 y B4 est´n tabuladas ver Tabla 7.0048159 Number violating runs = 1 Lower Control Limit = 73.90CAP´ ITULO 7. . k = 5. a 4.

GRAFICAS DE CONTROL Group Summary Statistics 73. .0155945 UCL • • • • • Group Summary Statistics 0.005 91 Grafica X barra Concentracion (ppm) • • UCL • • • • • • • • • • • • • LCL 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Group Number of Groups = 15 Number beyond limits = 1 Target = 74.01 0.0555259 ¯ ¯ Figura 7. n = 15.0220704 Lower Control Limit = 0.987033 Upper Control Limit = 74.1.0013138 Number violating runs = 2 Lower Control Limit = 73.03 0.3: Gr´ficas X.990 74.´ 7. • Al menos diez (10) de once (11) realizaciones sucesivas caen al mismo lado con respecto a la l´ ınea central.05 Grafica R Concentracion (ppm) • • • • • • • • • • LCL 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Group Number of Groups = 15 Number beyond limits = 0 Number violating runs = 0 Target = 0. R.0029911 Upper Control Limit = 0. k = 5. L´ a ımites proceso estable • Al menos cuatro (4) de cinco (5) realizaciones sucesivas caen del mismo lado a m´s de una (1) desviacion est´ndar de la l´ a a ınea central. • Al menos ocho (8) realizaciones sucesivas caen del mismo lado con respecto a la l´ ınea central. • Al menos doce (12) de catorce (14) realizaciones sucesivas caen al mismo lado con respecto a la l´ ınea central.

987033 Upper Control Limit = 74. L´ a ımites proceso estable .990 74. HERRAMIENTAS ESTAD´ ISTICAS PARA EL ASEGURAMIENTO DE LA CALIDAD Group Summary Statistics 73. R.0013138 Number violating runs = 3 Lower Control Limit = 73.02 0.0074. k = 5.06 0.0375646 Lower Control Limit = 0.9874.0029911 Upper Control Limit = 0. n = 15.0296297 UCL Group Summary Statistics 0.08 Grafica R Concentracion (ppm) UCL • • • • • • • • • • • • • • • LCL 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Group Number of Groups = 15 Number beyond limits = 4 Target = 0.0155945 Group Summary Statistics 0.02 UCL • Grafica X barra Concentracion (ppm) • • • • • • • • • • • • • • LCL 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Group Number of Groups = 15 Number beyond limits = 0 Target = 74. L´ a ımites propios Group Summary Statistics 73.5: Gr´ficas X.0555259 ¯ ¯ Figura 7.005 UCL • • • Grafica X barra Concentracion (ppm) • • • • • • • • • • • LCL • 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Group Number of Groups = 15 Number beyond limits = 1 Target = 74.04 0. R.4: Gr´ficas X.0 0.0057699 Upper Control Limit = 0. k = 5.10 Grafica R Concentracion (ppm) • • • • • • • • • • • • • • • LCL 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Group Number of Groups = 15 Number beyond limits = 0 Number violating runs = 7 Target = 0.1071081 ¯ ¯ Figura 7.0020825 Number violating runs = 3 Lower Control Limit = 73.92CAP´ ITULO 7. n = 15.0220704 Number violating runs = 1 Lower Control Limit = 0.9745354 Upper Control Limit = 74.

El modelo es construido a partir de un conjunto de datos de calibraci´n que miden o una respuesta posiblemente multivariada (R) y las correspondientes concentraciones o caracter´ ısticas conocidas (C). • Calibraci´n El proceso de contruir un modelo que pueda ser usado para o predecir caracter´ ısticas o propiedades de muestras desconocidas. 93 .Cap´ ıtulo 8 Glosario de Terminos • Analito o Componente Una especie qu´ ımica contenida en una muestra de material. Estos grupos de ensayos pueden ser realizados independientemente entre si. • Determinaci´n o cuantificaci´n Proceso realizado en el laboratorio o o anal´ ıtico para establecer la cantidad presente de un analito. o • Identificaci´n Proceso realizado en el laboratorio anal´ o ıtico para establecer la presencia de un analito. • Conjunto de entrenamiento o de calibraci´n Colecci´n de muestras o o que son usadas para construir un modelo de calibraci´n. Este proceso es repetido usando diferentes sub-conjuntos de calio braci´n hasta que cada muestra ha sido incluida en al menos uno de estos o conjuntos. uno que es usado como el conjunto de calibraci´n y otro es usado para predecir el conjunto de valio daci´n. • Variables ◦ de Bloqueo Es una variable usada para dividir los distintos ensayos de un experimento en grupos a los que llamaremos bloques. • Validaci´n cruzada Proceso utilizado para validar modelos que consiso te en dividir la muestra en dos subconjuntos.

• Modelo cuadr´tico a Es aquel en el que se pretende modelar el cambio de la respuesta en funci´n o de los terminos lineales. El interes del experimentador es la dependencia de la respuesta en las proporciones relativas en lugar de en las cantidades absolutas. Si S es la suma de cuadrados de los residuos del modelo de regresi´n. GLOSARIO DE TERMINOS Por ejemplo. existencia u o no de una cierta propiedad. tales como ‘marca’. .94 CAP´ ITULO 8. Estado del sistema: El conjunto de variables necesarias para describir un sistema en un tiempo particular. un horno puede tener cabida solo para cinco unidades experimentales pero se desea realizar 20 distintos ensayos. de interacci´n y cuadr´ticos de las variables de o a dise˜ o. entonces R2 = 1 − S T Si las sumas de cuadrados son iguales (en magnitud) entonces R2 estar´ cera ca de cero. y T es la suma de cuadrados de los valores observados. Para dos variables el modelo es de la forma n 2 2 β0 + β1 X1 + β2 X2 + β12 X1 X2 + β11 X1 + β22 X2 • Modelo Cubico Parcial Este modelo contiene todos los t´rminos de un e modelo cuadr´tico m´s t´rminos de interacci´n c´ bica. ◦ de Mezcla Estas son variables continuas que obtienen valores entre cero y uno. con las suma de todas ellas igual a uno. ajustados o ¯ con la media (es decir Y − Y ). e u • R2 : M´dida de bondad de ajuste de las regresiones que de ninguna fore ma puede ser usada como determinante de si un modelo de regresi´n es o “correcto”. color. etc. Cada valor de la variable categorica se le llama nivel. ◦ Categorica Es cualquier variable que puede pensarse con unicamente un n´ mero de categorias discretas. indicando que “el modelo no explica bien los datos”. es necesario dise˜ ar el experimento de manera que se puede introducir en el an´lisis n a las correcciones debidas a posibles diferencias entre los bloques (las cuatro horneadas). pero no contiene a a e o u t´rminos c´ bicos puros. Sistema: Es un conjunto de entidades que actuan e interactuan para la obtenci´n de un fin espec´ o ıfico.

ε corresponde a todas las fuentes de incertidumbre (variabilidad) que cambian los resultados entre mediciones. Modelos: • F´ ısicos: Por ejemplo modelos a escala de aviones • Matem´ticos: Representan el sistema en t´rminos de relaciones l´gicas y a e o cuantitativas que pueden ser manipuladas para estudiar como el sistema reaccionar´ frente a esos cambios (siempre que el modelo sea adecuado!). . . La mayoria de los modelos mecan´ ısticos son determin´sticos ı • Modelos Convenientes: Simplificaci´n de las relaciones como en los modelos o de regresi´n m´ ltiple. como por ejemplo ecuaciones diferenciales basadas en leyes de conservaci´n de masa. la ecuaci´n de Maxwell-Boltzmann sobre la cin´tica o o e de gases enrarecidos (las moleculas interactuan con una fuerza inversamente proporcional a la quinta potencia de la distancia). . octanaje). . densidad. o • Para predecir resultados tanto en el caso de que el sistema est´ operando e como en el caso en que el sistema no existe en el mundo f´ ısico. • Sistemas Continuos: Cuando las variables de estado cambian continuamente con el tiempo Modelo: Representaci´n del sistema o Para qu´? e • Para resumir los ‘datos’de comportamiento de un sistema en operaci´n. la relaci´n del o d movimiento rectilineo uniforme: V = t . a • Modelos Mecan´ ısticos: Descripci´n del sistema en t´rminos de relaciones obtenidas de teor´ eso e ıa pec´ ıfica.95 • Sistemas Discretos: Cuando los cambios en las variables de estado ocurren instanteamente en puntos separados del tiempo. o u %recuperado = β0 + β1 T + β2 %Catalizador Modelos Convenientes El modelo de medidas repetidas xi = µ + ε i = 1. n La componente µ representa el “verdadero valor” de la cantidad a ser medida (volumen.

? e ¿Com´ describir la variabilidad? o ¿Com´ describir patrones posibles en los datos? o Bibliografıa Beebe... 30. Chemometric. M. G. New York. ı ı ı ı Madrid. (1976). La componente µ se asume constante . 791–799.. (1986). 71. (1997). Porter. Journal of the American Statistical Association.1. Miller. (2000). P.. Prentice Hall. Estad´stica y quimiometr´a para qu´mica anal´tica. Scientific method: The generation of knowledge and quality. Princeton. Box. . Box. Princeton University Press. 47–50. The rise of statistical thinking 1820–1900.. ¿ Qu´ se puede decir de ε. Quality Progress. Wiley and Sons. G.96 Bibliografıa Notese que el modelo supone implicitamente que estos dos componentes forman la respuesta xi ADITIVAMENTE. E. Science and statistics. T. P. (2002). E.

Sign up to vote on this title
UsefulNot useful