Quimiometria

UNIVERSIDAD SIMON BOL IVAR
Quimiometr a Mtodos estad e sticos aplicados en el laboratorio y al diseo experimental n
Isabel Llatas Salvador Departamento de Procesos y Sistemas
Septiembre 2004
Indice general
1. Introduccin o 1.1. Reexiones sobre la Estad stica . . . . . . . . . . . . . . . . . . . . . 1.2. Quimiometr . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . a 2. Mediciones e incertidumbre 2.1. Deniciones en Metrolog . . . . . . . . . . . a 2.2. Sobre los instrumentos de medicin . . . . . . o 2.3. Errores, variables aleatorias e incertidumbre . 2.3.1. Clasicacin de los errores de medicin o o 2.4. Anlisis exploratorio de datos . . . . . . . . . a 2.4.1. Herramientas grcas . . . . . . . . . . a 2.4.2. Ms sobre histogramas . . . . . . . . . a 2.4.3. Medidas Numericas . . . . . . . . . . . 1 1 2 7 8 9 10 11 13 14 16 16 21 22 23 24 26 26 27 28 30 31 32 35 35 37
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
3. Distribuciones de Referencia 3.1. Distribuciones empiricas . . . . . . . . . . . . . . . . 3.2. Distribuciones de Referencia Tericas . . . . . . . . . o 3.2.1. Breve resumen de la teor de probabilidad . . a 3.2.2. Valor esperado y variancia terica . . . . . . . o 3.2.3. Dependencia e Independencia de eventos . . . 3.3. La distribucin normal y el teorema central del l o mite 3.4. L mites de conanza para la media . . . . . . . . . . 3.5. Distribucin conjunta y Propagacin de Errores . . . o o 3.5.1. Suma de variables aleatorias . . . . . . . . . . 3.5.2. Propagacin de errores . . . . . . . . . . . . . o
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
4. Pruebas de Signicancia, muestreo y experimentacin o 4.1. Principio de la Navaja de Occam . . . . . . . . . . . . . . . . . . . . 4.2. Errores en las pruebas . . . . . . . . . . . . . . . . . . . . . . . . . . i
ii
INDICE GENERAL 4.3. Estrategia de decisin . . . . . . . . . . . . . . . . . . . . o 4.3.1. Comparacin de las medias de dos muestras: . . . o 4.3.2. Comparacin de variancias . . . . . . . . . . . . . o 4.3.3. Comparacin de medias (2da parte) . . . . . . . . o 4.4. Pruebas estad sticas y experimentos . . . . . . . . . . . . 4.5. Experimentos con un factor con k niveles: . . . . . . . . 4.5.1. Mtodo de la Diferencia Mnima signicativa . . e 4.6. Anlisis de Residuos . . . . . . . . . . . . . . . . . . . . a 4.6.1. Experimentos de bloques aleatorizados completos 4.6.2. Bloques Incompletos Balanceados . . . . . . . . . 4.6.3. Experimentos con dos o ms factores . . . . . . . a 4.7. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 38 40 40 41 42 43 44 46 47 48 48 51 51 52 53 55 62 65 66 69 71 72 76 77 80 81 82 83 85 85 93
5. Regresin y Calibracin o o 5.1. Relaciones entre dos variables . . . . . 5.1.1. Grcos y covarianza . . . . . . . . a 5.1.2. Correlacin . . . . . . . . . . . . . o 5.2. Regresin Simple . . . . . . . . . . . . . . o 5.3. Regresin M ltiple . . . . . . . . . . . . . o u 5.3.1. Estimacin de la variancia . . . . . o 5.3.2. Regresin con variables cualitativas o
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
6. Experimentacin o 6.1. Modelos Emp ricos . . . . . . . . . . . . . . . . . . . 6.2. Metodolog de Supercies de Respuesta y dise os 2k a n 6.3. Bloques en dise os factoriales . . . . . . . . . . . . . n 6.4. Dise os 2k fraccionales . . . . . . . . . . . . . . . . . n 6.5. Dise os centrales compuestos . . . . . . . . . . . . . n 6.6. Experimentos con Mezclas . . . . . . . . . . . . . . . 6.6.1. Dise os sin restricciones en los componentes . n 6.6.2. Dise os con restricciones en los componentes n
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
7. Herramientas estad sticas para el Aseguramiento de la calidad. 7.1. Grcas de control . . . . . . . . . . . . . . . . . . . . . . . . . . . . a 8. Glosario de Terminos
Prefacio
Luego de varios a os dictando primero el curso llamado Qu n mica Industrial III luego el curso de Dise o estad n stico de experimentospara la Licenciatura en Qu mica de la Universidad Simn Bol o var y haber pasado por varios libros sin que ninguno de ellos fuera enteramente satisfactorio como texto decid que era pertinente transformar las notas del curso que estaban en formato electrnico desde hace tiempo para ser o unas notas de curso que alg n d pueden convertirse en un texto. u a Se presenta ms material que el que se dicta usualmente en un curso de un tria mestre, puesto que en algunas oportunidades he escogido dar ms enfasis a la parte a de calibracin que a la parte de calidad en el laboratorio (y en oportunidades no he o enfatizado ninguna de las dos), considerando que el objetivo primordial de este curso es dotar al estudiantes de vocabulario y herramientas que le permita iniciarse en el dise o estad n stico de experimentos, como una metodolog sistemtica de llevar a a a cabo experimentos que contengan en el menor n mero de ensayos la mayor cantidad u de informacin qu o micamente relevante. Por supuesto que en el prefacio deben ir los agradecimientos y comienzo agradeciendo a Luisa Angelica Delgado, pues sin su gestin como Jefe de Departamente de o Procesos y Sistemas yo nunca hubiera dictado los cursos que dan origen a este material, a Daniel Celta con quien compart la experiencia de realizar los experimentos de acuerdo con un esquema estadisticamente pensado y llegar a la conclusin que si o no se conoce sobre la qu mica o se consideran los problemas de determinacin en el o laboratorio, no importa cuan bien dise ado haya estado el experimento, no se puede n llegar a conclusiones que puedan ser utiles ms all de la escala del laboratorio, a mis a a estudiantes de todos estos a os que me han obligado a pensar mejor en las formas de n decir las cosas y por supuesto a mis colegas del CESMa con quien he compartido el quehacer durante estos a os. n Isabel Llatas Septiembre 2004
iii
Cap tulo 1 Introduccin o

La responsabilidad (del estadstico) en un equipo cientco ... es la de asegurar que la estructura investigacional sea so lida y econmica. (... Esto) requiere del deseo de compreno der problemas complicados, de la paciencia para escuchar, de penetracin para realizar las preguntas correctas y la sabidura o para ver que es y que no es importante. G.E.P. Box, 1976
1.1.
Reexiones sobre la Estad stica
Las aplicaciones de la Estad stica y del pensamiento estad stico son tangibles hoy en d en casi cualquier contexto humano donde el aprendizaje a travs del a e mtodo cient e co es requerido. La Estad stica es reconocida como la unica metodolog a conable para basar juicios sobre la ecacia de procedimientos mdicos, sobre la toxie cidad de qu micos, la calidad de un procedimiento de medicin, y un largo etcetera o que se puede resumir diciendo que es una herramienta indispensable para obtener conclusiones a partir de resultados emp ricos. Hay areas que han desarrollado su propio uso de la estad stica y la consideran inseparable de su desarrollo terico y es as que encontramos palabras como bioo metr a, econometr a, psicometr a, quimiometr a, tecnometr asociadas al a uso de tcnicas estad e sticas en biolog econom psicolog qu a, a, a, mica y tecnolog a, 1
CAP ITULO 1. INTRODUCCION
entre otras muchas areas que se encuentran en la necesidad de medir propiedades o examinar atributos de elementos, para comparar teor tentativas y obtener nuevos as conocimientos. El inters en las aplicaciones de la Estad e stica a todo tipo de problemas ha crecido sin detenerse desde nales de la dcada de los 20 del siglo pasado, en parte a consee cuencia de los desarrollos de tcnicas y aplicaciones realizados por Pearson, Fisher, e Galton, Gosett, Edgeworth a principios de ese siglo, y en parte como consecuencia del desarrollo de lo que ha sido llamado pensamiento estad stico: la posibilidad de usar un conjunto de procedimientos basados en la teor de probabilidades para el a estudio de fenmenos tanto sociales como del medio f o sico (Porter, 1986). La historia de este desarrollo es paralela a la historia del desarrollo del mtodo cient e co como acelerador del proceso de aprendizaje y creacin de informacin. Seg n G. P. E. Box o o u 1997, el mtodo cient e co ha acelerado este proceso en al menos cuatro aspectos: 1. Proveyendo un mejor entendimiento de la naturaleza interactiva del aprendizaje. 2. Deduciendo las consecuencias lgicas de un conjunto de hechos, cada uno conoo cido individualmente, pero cuya su relacin no hab sido identicada. o a 3. Observando y analizando pasivamente sistemas en operacin y datos adquiridos o de stos. e 4. Obteniendo resultados cambiando deliberadamente las condiciones del sistema. Cada uno de estos puntos se corresponde con procedimientos metodolgicos que ahora o se identican con el nombre de Mejoramiento Continuo. que vienen siendo descripciones del proceso iterativo de aprendizaje inductivo-deductivo y cuyo xito en los e diferentes campos ha sido potenciado en la actualidad por la disponibilidad de poderosas herramientas computacionales que han liberado a los practicantes de las barreras impuestas por las dicultades de clculo. a Ciertamente la Estad stica, como disciplina del conocimiento, se ha nutrido de muchas fuentes y ha tenido como una de sus principales tareas el desarrollar mtodos e de obtencin y anlisis de datos por medio de los cuales se puede llegar a conclusiones o a conducentes a acciones en el ciclo de aprendizaje (Porter, 1986).
1.2.
Quimiometr a
En este material se considerarn aspectos relacionados con la aplicacin a las a o areas de la Qu mica, de las metodolog derivadas del pensamiento estad as stico, que
1.2. QUIMIOMETR IA
puede ser visto como parte de la Quimiometra, que de acuerdo con (Miller, 2002) es la aplicacin de mtodos matemticos a la solucin de problemas qu o e a o micos de todos los tipos. Visto as la Quimiometr considera el uso de diferentes tcnicas , a e de modelaje matemtico que ayudan a la estructuracin de un problema qu a o mico de manera que pueda ser expresado como una relacin matemtica, pero, cuando se o a considera el pensamiento estad stico, la Quimiometr no es slo eso, puesto que los a o problemas considerados usualmente son conducidos por la necesidad de informacin o para tomar algunas decisiones que validen (o no) los supuestos del experimentador. Aqui, ms bien, se considera a la Quimiometr como El proceso de extraer de datos, a a producidos en un experimento, la informacin qu o micamente relevante para la toma de decisiones, siendo este proceso mucho ms que la aplicacin directa de un conjunto de a o pruebas estad sticas clsicas a datos obtenidos en un laboratorio de qu a mica anlitica, a va mas alla de establecer con un margn de incertidumbre, la composicin elemental e o y molecular de un material, puesto que lo importante para el experimentador es llegar a conclusiones en base a esa cuanticacion. De lo escrito anteriormente no debe deducirse que no consideraramos aqui las preguntas ms relevantes para los qu a micos anliticos, que seg n (?), son: a u Cmo estar seguro que el valor obtenido experimentalmente es cercano al valor o verdadero? Cunta incertidumbre se tiene de que el valor obtenido es el mismo (o distinto) a del valor obtenido con la misma muestra en un momento distinto o por otra persona? Responder esas preguntas es el objetivo de la primera parte de este material, considerando para ello los modelos de medidas repetidas y los modelos de incertidumbre. En la segunda parte se considerar el problema experimental propiamente dicho, esto a es, estudiar el efecto que se produce sobre una (o varias) variables cuando se cambia las condiciones del sistema bajo estudio, por ejemplo en (?) se considera las cuales variables en la produccin de una mayonesa baja en calorias tiene mayor inuencia o en el tiempo de vencimiento del producto, considerando las posibles condiciones de almacenamiento. Para esto se har necesario considerar modelos de regresin. a o Como hilo conductor de este material se consideran los Siete Hbitos que se a pretende desarrollar a lo largo del material. Lo que se presenta a continuacin es una o ligera modicacin de los Seis Hbitos propuestos en (Beebe, 2000). o a Hbito 1: Planique la estrateg de recoleccin de datos cuidadosamente. a a o
CAP ITULO 1. INTRODUCCION Este hbito es en realidad el hbito bsico, pues para establecer cul es la a a a a estrateg adecuada debemos conocer y entender claramente el propsito de a o nuestra investigacin, tener informacin sobre los posibles errores y resultados, o o considerar que modelos se van a proponer, cual es la base terica de la propuesta o y as sucesivamente. Obtener datos no puede ser simplemente plantearse unas experiencias en el laboratorio, pues en la mayor de los casos esto slo conduce a o a una perdida de tiempo o material sin ganancia de informacin. o Esta es la etapa de dise o de la investigacin, que pretende formular alg n n o u modelo, entendiendose por ello aquella representacin del sistema o fenmeno o o que puede ser tratada mas facilmente, una simplicacin que permite acercarse o a la descripcin y pronstico de lo que podr acontecer en el futuro. o o a Hbito 2: Examine los datos a Uno puede considerar que los ensayos y experimentos son mecan smos de generacin de verdades pero lo que se observa son resultados sujetos a error. o Por ejemplo considere un trabajo de campo para determinar la concentracin o 3+ promedio de Cr en un lote de terreno. El primer hbito nos plantea la necea sidad de considerar en donde vamos a muestrear, esto es, pensar cmo escoger o los lugares de donde se van a obtener las muestras, cual es el procedimiento anal que se va a emplear en el laboratorio, y nalmente la elaboracin de un tco o reporte. Cada uno de estos pasos representa una fuente de discrepancia entre el verdadero valor de la concentracin promedio y los resultados; luego de reo colectar las muestras en el terreno puede haber ocurrido alguna contaminacin o en el traslado o almacenaje; el tiempo en almacen puede haber cambiado la composicin por problemas de conservacin. Un examen grco y descriptivo o o a de los resultados puede ayudar a revisar cun alejados ellos estn de la realidad. a a Hbito 3: Preprocese los datos como sea necesario a Muchos de los modelos que trataremos en este material estn basados en la idea a de los modelos de comunicaciones, esto es, se recibe un impulso Y , el dato, y se descompone en Y = Se al + Ruido n De acuerdo con algunos autores el papel de los modelos es convertir los datos en ruido. Si se ha sido exitoso, signica que el modelo ha extraido la mayor parte de la se al o de la informacin determin n o stica que se encontraba escondida en el dato Y . Ahora bien en muchos casos en el laboratorio de qu mica el dato puede ser un espectro (salida de un cromatografo de gases, por ejemplo) y
1.2. QUIMIOMETR IA
es necesario procesar este dato para que el resultado pueda ser interpretado como una se al que tenga sentido qu n mico. El pre-procesamiento es tambin una e fuente de variabilidad de los resultados que debe tomarse en cuenta. A veces el pre-procesaminto tiene como objetivo disminuir la escala de variabilidad de los resultados, cuando se considera utilizar escalas logaritmicas o inversas en lugar de la escala natural del instrumento de medicin utilizado. o Hbito 4: Estime el modelo a Esto signica encuentre dentro de la familia de posibles modelos aquel que mejor represente los datos con la menor complejidad. Dependiendo de la forma del modelo, la estimacin puede ser obtenida simplemente por un mtodo de o e resolucin de ecuaciones lineales o no lineales. o Hbito 5: Examine los resultados / Valide el modelo a Ning n modelo puede ser usado para prediccin sin haber pasado por un proceso u o de validacin. Cun bien el modelo estima los resultados individuales obsero a vados que fueron usados para la estimacin?, Una vez que se ha ajustado la o se al lo que queda, el ruido, se comporta de acuerdo con lo que se espera de un n ruido aleatorio o queda informacin que puede ser extraida? o Hbito 6: Use el modelo para prediccin a o Una vez el experimentador est razonablemente convencido que su modelo se a ajusta a los datos que se han observado hasta el momento pues ha llegado la hora de usar el modelo ajustado para responder preguntas y tomar decisiones en base a la prediccin del modelo: Hay alg n cambio en el rendimiento de la reaccin o u o cuando la temperatura varia?; C al ser el rendimiento si la concentracin del u a o catalizador es de 5 ppm?. Responder estas preguntas requiere usar el modelo ajustado. Hbito 7: Valide la prediccin a o Claro, una vez se ha tomado una decisin o se ha considerado que es rentable o la ultilizacin del catalizador a 5 ppm pues el rendimiento aumenta, hay que o implementar esa recomendacin y realizar las experiencias de acuerdo con las o nuevas condiciones denidas... y el ciclo comienza de nuevo.
CAP ITULO 1. INTRODUCCION
Cap tulo 2 Mediciones e incertidumbre

Todo anal qu sis mico cuantitativo o procedimiento anal tico es la aplicacin de o un tipo particular de mtodo de medicin que tiene como objetivo determinar el valor e o de una magnitud (por ejemplo el pH o el porcentaje en peso) de acuerdo a una serie de operaciones bien denidas. El proceso de medicin comienza con una apropiada especicacin de que se quiere o o medir y cul ser el mtodo o protocolo que se utilizar para realizar la medicin. Dua a e a o rante la realizacin de una medicin intervienen factores que determinan el resultado, o o por ejemplo: El objeto de medicin o El mtodo de medicin e o Los instrumentos de medicin o El ambiente de medicin o El observador El mtodo de clculo e a Este proceso tiene imperfecciones que dan lugar a diferentes resultados a n cuando u las condiciones en las que se realiza el procedimiento puedan pensarse como iguales. Por supuesto que no se puede dar un valor unico pero se puede hablar del rango de variacin de los resultados del procedimiento de medicin. Sin embargo para la utilio o zacin de los resultados del proceso de medicin no basta decir estn bastante cerca o o o a se parecen, puesto que lo que para un investigador signica cercapuede ser lejospara otro, pues la diferencia depende de la razn y motivo de la medicin, piensese en la o o 7
CAP ITULO 2. MEDICIONES E INCERTIDUMBRE
escala de distancia entre galaxias que utilizan los astrnomos con respecto a la escala o de distancia entre moleculas que utilizan los qu micos. Lo cierto es que los resultados de un proceso de medicin, para ser vlidos, deben o a ir acompa ados de una estimacin de la incertidumbre de la medicin. Pero, Qu se n o o e entiende por incertidumbre de la medicin.? Desde el punto de vista del lenguaje o coloquial la incertidumbre viene asociada a las dudas que se tienen de los resultados de una medicin y su denicin debe focalizarse a considerar el rango de valores que el o o analista cree que puede ser razonablemente atribuido a los resultados de la medicin. o Para entender los trminos de esa variacin de resultados es necesario construir e o un lenguaje com n de representacin tanto de los procesos de medicin como de u o o representacin de la variabilidad. o
2.1.
Deniciones en Metrolog a
En el a o 1993 varias organizaciones internacionales dedicadas a la estandarizacin n o de procesos de medicin, como por ejemplo, el Bur Internacional de Pesos y Medidas o o (BIPM), y el International Standard Organizacion (ISO) publicaron el resultado de su trabajo para la creacion de un Vocabulario Internacional de Trminos Bsicos e a y Generales en Metrolog con el objeto de estandarizar los conceptos asociados a la a incertidumbre de las mediciones. Sobre el mtodo de medicin e o Como se dijo en la introduccin el mtodo de medicin es una secuencia lgica o e o o de operaciones usada en la mayor de las mecdiconesne de acuerdo con un principio a dado, por ejemplo por comparacin directa o por sustitucin. El procedimiento de o o medicin es el conjunto de operaciones utilizadas en la ejecucin de la medicin paro o o ticular. Usualmente el procedimiento de medicin est registrado en un documento y o a contiene un grado suciente de detalle para permitirle a un operador llevar a cabo la medicin sin informacin adicional. o o As cualquier procedimiento de medicin involucra la utilizacin de cuatro re, o o cursos a saber: el Mtodo, la Mano de obra, los instrumentos o Maquinaria y la e Muestra, o Material que se quiere medir (las cuatro eMes). Cuando se dice que una medicin fue realizada bajo condiciones de repetibilidad o (o repetir una medicion bajo las mismas condiciones) se est considerando el mismo a mensurando, el mismo observador, el mismo instrumento de medicin, utilizando las o mismas condiciones, el mismo lugar, y un corto intervalo de tiempo entre mediciones. Es decir, que cuando se habla de repetibilidad en el procedimiento las cuatro
2.2. SOBRE LOS INSTRUMENTOS DE MEDICION
cuatro eMes permanecen iguales, mientras que la repetibilidad de los resultados se reere a la cercania o acuerdo entre los resultados de mediciones llevadas a cabo bajo condiciones de repetibilidad. Por otra parte, cuando las mediciones se llevan a cabo bajo otras condiciones se habla de reproducibilidad, donde los cambios en las condiciones pueden ser en cualquiera de las cuatro eMes: Mtodo de medicin e o Observador Instrumento de medicin o Patrn de referencia o Ubicacin o Condicin de uso o Tiempo
2.2.
Sobre los instrumentos de medicin o
Primero tenemos que aclarar que un instrumento de medicin es cualquier dispoo sitivo utilizado a realizar una medicin, slo o en unin de otros dispositivos. o o o Cada dispositivo de medicin tiene: o 1. Rango de indicacin: Conjunto de valores limitado por las limitaciones extremas o del instrumento de medicin. o 2. Valor nominal: Valor redondeado o aproximado de una caracteristica de un instrumento de medicin que sirve de guia para su utilizacin. o o 3. Intervalo de medicin: Mdulo de la diferencia entre los l o o mites de un rango nominal. 4. Valor de divisin: Diferencia entre los valores correspondientes a dos marcas o sucesivas del escala. 5. Resolucin: Menor diferencia entre indicaciones de un dispositivo de indicacin o o que puede ser distinguida de forma signicativa.
10
2.3.
Errores, variables aleatorias e incertidumbre
Primero que nada hay que establecer que se entiende por el erroren una medicin. En general se supone que si se pudiera tener una medida perfecta, la cantidad o o valor del mensurando caracterizar a la magnitud particular que se quiere medir. a Esta cantidad, denotada por la letra griega , diere del resultado de la medicin Y o por una cantidad que ser el error de medicin, , esto es: a o Y = + (2.1)
a este modelo lo llamaremos de ahora en adelante el modelo de medidas repetidas. Hay que recordar que nunca podremos medir sin el error de medicin y tambin o e que nunca podremos conocer el error, puesto que es imposible determinar el valor de , pero si nuestro proceso de medicin se realiza varias veces en condiciones de o repetibilidad (inclusive de reproducibilidad) tendriamos que las sucesivas medidas, a pesar de ser distintas entre s deber mostrar valores cercanos, con una distribucin , an o de valores centrados alrededor de un valor. La incertidumbre en los resultados de la medicin es consecuencia directa de que no hay un slo valor, sino un n mero innito o o u de valores que pueden ser atribuidos al mensurando. Ahora bien, seg n el Vocabuu lario Internacional de Metrolog la incertidumbre de medicin es un parmetro que a, o a caracteriza la dispersin de los valores que pudieran ser razonablemente atribuidos o al mensurando y no debe ser confundida con el error de medicin. Por supuesto que o antes de realizar la medicin no conocemos el valor de Y , por lo que decimos que o Y es una variable aleatoria. Notese que hay situaciones donde el resultado de una realizacin de un experimento no tiene error, por ejemplo si estuvieramos lanzando o un dado de seis caras; tenemos incertidumbre acerca de cul ser el resultado, pero a a una vez el dado ha sido lanzado y se detiene, el resultado es conocido sin error. Este no es el caso de las medidas realizadas en un laboratorio de qu mica anal tica, pues aun cuando se haya estandarizado la muestra para que el resultado de la medicin o sea conocido, el procedimiento de estandarizacin en si mismo tiene una cantidad de o factores que lo afectan y por tanto est sujeto a error. a De acuerdo con el modelo de la ecuacin (2.1), en sucesivas mediciones Y1 , Y2 , . . . , Yn , o el valor de no cambia, de manera que la variabilidad observada debe ser atribuida a la variabilidad del error; por ello, si el sistema de medicin fueses lo ms cercano a lo o a ideal, se esperar que los valores de 1 , 2 , . . . , n fueran cercanos a cero y que valores a muy alejados del cero ocurriesen con poca frecuencia. Lo cierto es que patrones en los datos repetidos nos brindan informacin sobre el comporamiento de los errores y por o lo tanto de la incertidumbre de medicin. El valor de se suele estimar considerando o
2.3. ERRORES, VARIABLES ALEATORIAS E INCERTIDUMBRE el promedio aritmtico de los valores observados, esto es:1 e = Yi , i=1 n
n
11
(2.2)
de acuerdo con esto, se podr considerar estimar los errores como la diferencia entre a el valor estimado de y el valor de cada medicin: o i = Yi = ei donde ei lo llamaremos el residuo del modelo 2.1 ajustado a los datos obtenidos en el laboratorio. Los errores pueden surgir por multiples razones a la hora de realizar la medicin, o siendo las mas usuales: 1. Errores instrumentales, proveniente de la limitacin de los intrumentos de meo dicin en dos aspectos: o a) Errores en el proceso de calibracin o b) Errores por efecto de carga, esto es, errores que surgen a consecuencia de la inuencia del instrumento de medicin sobre las propiedads del objeto o o fenomeno que se mide.o o 2. Errores de mtodo, entendiendose por esto a los errores debidos a la imperfece cin del mtodo de medicin, por ejemplo, al usar un principio de medicin y o e o o considerar que se debe cumplir una ley f sica determinada, o cuando se utilizan relaciones emp ricas para dar un valor al mensurando. 3. Errores debidos a agentes externos, como presencia de campos electroestticos a en el area del laboratorio, o condiciones de temperatura o humedad. 4. Errores debidos al observador, por ejemplo, errores en el paralelaje o de intepolacin visual al leer enla escala de un instrumento, omisin de operaciones o o previas a la medicin, etc. o
2.3.1.
Clasicacin de los errores de medicin o o
Podemos distinguir entre los siguientes tipos de error:

De ahora en adelante, cuando un parmetro aparezca con un techo ( ) encima se trata de un a estimador de dicho parmetro a
1
12
CAP ITULO 2. MEDICIONES E INCERTIDUMBRE Error Craso: Es decir que se present una falla en el proceso de medicin y se o o requiere que el ensayo se realice de nuevo. (Ejemplo: cuando un equipo presenta una falla, el reactivo est contaminado, un paso del mtodo de medicin no fue a e o llevado a cabo). En este caso podemos considerar que la medicin es el resultado o de sumar al error una cantidad aleatoria que puede tomar valores muy alejados del cero, relativa a la variabilidad de esto es: Y = + =++ donde representa dicha cantidad aleatoria. Error Sistematico o Sesgo: tiende a dar resultados que se encuentran siempre por encima o por debajo del valor verdadero. (El analista no es capaz de juzgar cambios de color en una titulacin visual, el equipo no est calibrado). Si se o a conoce de su existencia se puede compensar. Ejemplo: Realizar todas las pesadas por diferencia. Se pesa primero el pesaltro con la muestra y luego sin ella. Y1 = + f + + Y2 = f + + Y1 Y 2 = + (
1 2 1
2)
Error Aleatorio: Variaciones que ocurren cuando las mediciones se realizan con las mismas condiciones. (Mismo analista, misma muestra). No puede ser compensado por correciones. La existencia de sesgo en las mediciones conlleva a que los resultados carecen de exactitud, esto es que cuando se consider el estimado de de la ecuacin (2.2) a o est muy alejado del verdadero valor de . Ahora bien, en cada situacin es posible e o encontrar alguna estrategia que permita revelar la presencia de errores sistemticos a y disminuirlos aplicando correcines o factores de correccin conocidos, pero a n as o o u , el resultado de la medicin ser un estimador del valor del mensurando. o a En cuanto a los errores aleatorios ellos pueden ser tratados realizando mayor n mero de repeticiones y teniendo en cuenta las fuentes de estos errores a la hora u de realizar las mediciones. Mientras menor sean los errores aleatorios mayor ser la a precisin del resultado, esto es menor ser la dispersin de los valores obtenidos y por o a o lo tanto menor ser la incertidumbre de medicin. a o Lo ideal es contar con un procedimiento de medicin que garantice que los resulo tados sern precisos y exactos. Pudiera pensarse que casi cualquier procedimiento de a
2.4. ANALISIS EXPLORATORIO DE DATOS
13
medicin estandarizado deberia cumplir esto, sin embargo, hay que tener en cuenta o que cada instrumento de medicin tiene un l o mite por debajo del cual es imposible disminuir su error de indicacin o umbral de discriminacin, slo cambiando de o o o instrumento se prodr logrr major exactitud, pero el costo de los intrumentos y a a los requerimientos de las condiciones necesarias para su correcto funcionamiento son proporcionales a la exactitud del mismo, y el gasto slo se justicar cuando sea o a necesario de acuerdo con la utilizacin posterior de los resultados de la medicin, o o de manera que en muchas ocasiones tendremos que lidiar con la variabilidad de las medidas y encontrar estrategias para identicar cuando y por cuanto nos estamos equivocando.
2.4.
Anlisis exploratorio de datos a
Por anlisis exploratorio de datos se entiende un conjunto de tcnicas grcas y a e a numricas que nos permiten estudiar los patrones y distintos comportamientos de e los datos obtenidos con el objeto de proponer modelos estad sticos que nos ayuden a interpretar los datos, claro est, es necesario distinguir entre distintos tipos de datos: a Datos Discretos: Pueden provenir de una variable cualitativa, o de variables n mericas de eventos. Las primeras pueden ser codicaciones establecidas arbiu trariamente (0: No se detecta un analito; 1: Se detecta). o pueden ser variables ordinales, es decir que tienen un orden de mayor a menor pero la escala no est certicada (0: sin sal, 1: desabrido, 2: sabroso, 3: un poco salado, 4: salaa do, 5: saladisimo). Las segundas usualmente contesta la pregunta de Cuanto ...? (cuantas bacterias murieron en el ensayo de toxicidad?, cuantas llamadas telefnicas se recibieron?) o Datos Continuos: Producto de mediciones de variables que toman valores en un intervalo de n meros, por ejemplo, Concentracin, volumen, intensidad, u o peso, temperatura, presin. o Para cada tipo de datos hay un tipo de herramientas del arsenal del modelaje que se puede utilizar, otro que se puede adaptar y otro que NO se debe utilizar. En principio supondremos que los datos han sido obtenidos en condiciones similares, esto es, en condiciones que nos permitan suponer la existencia de una poblacin o innita de resultados a la que accedemos a travs de la escogencia de una muestra (o e conjunto nito de individuos que van a ser medidos u observados por el experimentados).
14
Cuadro 2.1: Cincuenta medidas repetidas de la concentracin ion nitrato (g/ml) dada con dos o cifras signicativas en una muestra de agua. 0.51 0.51 0.51 0.50 0.49 0.52 0.53 0.50 0.51 0.52 0.53 0.48 0.50 0.52 0.49 0.49 0.49 0.48 0.46 0.49 0.48 0.49 0.49 0.51 0.51 0.51 0.51 0.48 0.47 0.50 0.51 0.49 0.51 0.50 0.50 0.53 0.52 0.50 0.50 0.51
0.51 0.47 0.49 0.50 0.49 0.47 0.50 0.48 0.52 0.51
2.4.1.
Herramientas grcas a
Utiles cuando el conjunto de datos es relativamente grande y no se puede establecer un patrn sencillo viendo la tabla de datos. Por ejemplo considerese la Tabla 2.1 donde o se realizaron en condiciones de repetibilidad cincuenta ensayos de medicin de iones o de nitrato en una muestra de agua: En la Figura 2.4.1 se muestra cuatro grcos que se usan para observar distintos a patrones en los datos. El primer grco (esquina superior izquierda) muestra la sucea sin de valores en el orden temporal en que fueron adquiridos. El objetivo es detectar o la existencia de patrones que puedan indicar que hubo manipulacin de datos o que o hay alguna relacin entre las medidas en distintos momentos. o El segundo grco (diagrama de puntos) contiene la misma informacin pero ahora a o considerando que los datos se obtuvieron en corridas de 10 en 10. El tercer grco presenta una representacin de los cincuenta datos que se llama a o diagrama de caja que permite analizar conjuntamente una serie de mdidas n mee u ricas de los datos. La caja viene constituida por tres lineas que representan la divisin o de los datos en cuatro, esto es, la l nea inferior es el Primer cuartil, un valor que deja al 25 % de los datos por debajo y al otro 75 % por encima; la Mediana que representa el valor u observacin (o intervalo entre observaciones) que deja al 50 % o de las observaciones por encima y al otro 50 % por debajo de este valor y nalmente el tercer cuartil, que representa un valor que deja al 75 % de los datos po debajo y al 24 % de los datos por encima. En los diagramas de caja, tambin se presenta unas l e neas llamadas bigotesque
2.4. ANALISIS EXPLORATORIO DE DATOS Figura 2.1: Descripcin de los datos de concentracin o o
0.46 0.47 0.48 0.49 0.50 0.51 0.52 0.53
1
15
Concentracion
10
20 Index
30
40
50
0.46
0.48
0.50
0.52
Histogram of Concentracion
0.46 0.47 0.48 0.49 0.50 0.51 0.52 0.53
Frequency
10
12
0.46
0.48
0.50
0.52
0.54
Concentracion
representan los l mites esperados de la dispersin de los datos. Estos bigotesen o realidad, son una estimacin no paramtrica del rango de los datos y se calculan o e como: L1 = q1 f (q3 q1 ) L2 = q3 + f (q3 q1 ) donde q1 corresponde al primer cuartil, q3 al tercero y f es un factor que depende de ciertas suposiciones sobre la distribucin, pero los valores ms usados son f = 0,75 y o a f = 1,5. El cuarto grco corresponde al histograma, que es simplemente un diagrama de a barras donde el area de cada barra es proporcional al n mero de datos que se encuen u tran en el intervalo que sirve de base a la barra. Usualmente se recomienda utilizar intervalos de la misma longitud, por lo que la altura de cada barra es proporcional al n mero de datos, es decir, proporcional a la frecuencia de ocurrencia del intervalo. u A continuacin presentamos tres variaciones de estos grcos cambiando en el caso o a de la Figura 2.2 una de las observaciones para reejar un error craso; en la Fig. 2.3 se v como afectar los resultados cuando las observaciones que se llevaron a cabo en e a la posicin 11 a 20 fueron realizadas por un tcnico de laboratorio que olvid alg n o e o u paso y por tanto presentan un error sistemtico. En la g 2.4 se puede ver el efecto a de un cambio de instrumento de medicin en alg n paso del proceso que aumenta la o u variabilidad (o disminuye la precisin) de las observaciones. o
16
CAP ITULO 2. MEDICIONES E INCERTIDUMBRE Figura 2.2: Error Craso: 0,51 0,15
1
0.5
Concentracion
0.4
0.3
0.2
10
20 Index
30
40
50
0.2
0.3
0.4
0.5
0.5
0.4
Frequency
0.3
0.2
0
0.1
10
15
20
25
30
0.2
0.3
0.4
0.5
Concentracion
2.4.2.
Ms sobre histogramas a
Diremos que una distribucin de frecuencias es simtrica si el lado derecho de o e la grca (con respecto a la mediana) es la imagen especular del lado izquierdo. a Cuando esto ocurre, la media y la mediana coinciden. Si el histograma representase mediciones realizadas en las mismas condiciones se espera que, en ausencia de errores sistemticos, el histograma sea simtrico. a e
2.4.3.
Medidas Numericas
Un grco puede ser sumamente informativo pero a veces es necesario resumir a las datos de manera n merica de manera que se pierda la m u nima informacin, por o ejemplo, cuando se desea estimar alg n parmetro poblacional en base a un conjunto u a de datos observados. A este tipo de resumenes numricos de los datos los llamaremos e estadsticos que pueden pensarse como el resultado de una funcin evaluada en el o conjunto de datos. Lo primero que se puede plantear para un conjunto de datos es donde se encuentran localizados en el rango de posibles valores, lo segundo es cun grande es ese rango de a posibles valores, como se dispersan los valores alrededor de un valor central.
2.4. ANALISIS EXPLORATORIO DE DATOS Figura 2.3: Error Sistemtico: Datos 11 al 22 0,07 a
0.58 0.60
1 2
17
Concentracion
0.54
0.56
0.52
0.48
0.50
0.46
0
10
20 Index
30
40
50
0.46
0.50
0.54
0.58
0.60
0.56
0.58
0.54
0.52
Frequency 0
0.45
0.46
0.48
0.50
10
15
0.50
0.55
0.60
Concentracion
Medidas de localizacin: o Pretenden dar una idea el valor alrededor del cual los datos, obtenidos en sucesivos ensayos, se agruparn. Entre las medidas ms comunes se encuentran: a a La Media Muestral: Para el conjunto de observaciones x1 , x2 , . . . , xn se dene como n xi x = i=1 n Es el centro de masa de los datos, cuando consideramos que cada punto muestral tiene la misma masa. La Moda: Es el valor muestral que ms se repite. a La Mediana: Es el valor (o intervalo entre valores) que deja al 50 % de los datos por debajo del mismo (y al otro 50 % por arriba). El valor de la media muestral (tambin llamado valor promedio aritmtico) es sensible e e a observaciones extremas, esto es, a valores de los datos que sean muy distintos al com n de los observados. Esto no ocurre con la mediana, pues en este caso no se u comparan magnitudes sino el orden entre los datos obtenidos, por lo que cuando se
18
CAP ITULO 2. MEDICIONES E INCERTIDUMBRE Figura 2.4: Ms incertidumbre: Datos 11 al 22 a

0.65
1
0.60
Concentracion
0.55
0.50
0.45
0.40
0
10
20 Index
30
40
50
0.40
0.45
0.50
0.55
0.60
0.65
0.60
0.65
0.55
0.50
Frequency
0.45
0.40
0
0.35
10
15
20
0.40
0.45
0.50
0.55
0.60
0.65
Concentracion
tiene una apreciable diferencia entre la media y la mediana hay evidencia de asimetr a del histograma y a la hora de modelar estad sticamente estos datos tendr que ser a considerado. Una manera de hacer la media menos sensible a valores extremos es truncarla La Media truncada (T-Mean): Es el valor del promedio de los datos muestrales cuando no se consideran un porcentaje de los valores extremos (los ms a grandes o ms peque os). a n Datos:2, 4, 5, 2, 1, 13 x = 4,5, Medidas de dispersin o Se usan para cuanticar el tama o del intervalo en donde los datos obtenidos de n la observacin de un fenmeno se encontrarn. Algunas de las medidas ms comunes o o a a son: Rango: Simplemente es el valor mximo menos el m a nimo R = mx{x1 , . . . , xk } m 1 , . . . , xk } a n{x T M ean(33, 33 %) = 3,5
2.4. ANALISIS EXPLORATORIO DE DATOS 19
Figura 2.5: Histograma simtrico e

0.4 Frecuencia relativa 0.0 4 0.1 0.2 0.3
Figura 2.6: Histogramas asimtricos e Asimetr positiva a

0.05
Asimetr negativa a
0.05 Frecuencia relativa
0.04
Frecuencia relativa
0.03
0.02
0.01
0.00
10
20
30
40
50
60
0.00 40
0.01
0.02
0.03
0.04
30
20
10
10
20
CAP ITULO 2. MEDICIONES E INCERTIDUMBRE Rango intercuantil: Es la longitud del intervalo central donde estn contenia dos el 50 % de los datos. Rq = q 3 q 1 Desviacin estndar: Es una mediada de la lejan o a apromedio de los valores con respecto a la media muestral. s=
n i=1 (xi
x )2 n1
La variancia muestral: Es simplemente el cuadrado de s. Observacin: en la mayoria de los textos de metrolog y qu o a mica anlitca se a considera a la Desviacin estndar como el parmetro asociado a la incertidumbre de o a a la medicin. o Variabilidad Relativa Medida m xta: El coeciente de variacin CV o Desviacin estndar relativa o o a que se dene como: s DER = 100 x Es un ejemplo de error relativo; se puede utilizar para comparar precisiones de resultados que tienen diferentes unidades o magnitudes.
Cap tulo 3 Distribuciones de Referencia

Las medidas n mericas y los grcos son resumenesde los resultados obtenidos u a pero no indican la forma en que estarn distribuidos nuevos resultados, que es, a n a de cuentas, lo que nos interesa a la hora de iniciar una investigacin o un proceso de o medicin. Por supuesto una de las habilidades ms importantes del cerebro humano o a est en la capacidad de sintetizar de la experiencia y establecer reglas que deber a an suceder en el futuro, as todos nosotros tenemos cas certeza que ma ana saldr el sol, n a que el fuego quema, que la falta de ox geno mata la vida aerbica y as sucesivamente; o estamos acostumbrados a pensar que el pasado sirve para comprender el futuro siendo esto realmente una suposicin de trabajo, una parte esencial de las reglas del o aprendizaje. Lo cierto es que si hemos desarrollado un proceso de medicin para el o que conocemos que los valores obtenidos se encuentran entre 0 y 5, nos llamar poa derosamente la atencin un reporte en el que se diga que el valor del mensurando es o de 50. Evidentemente nuestra experiencia ha construido una referencia de lo que es y no es posible que ocurra en el sistema. Un valor de 50 nos lleva a pensar que, casi sin dudas, estamos en presencia de un cambio en el sistema de medicin y debemos o revisar en donde ocurrieron esos cambios. Claro est que tenemos que considerar que pasaria si el resultado hubiera sido a 5.001, tambin concluiriamos que han ocurrido cambios en el sistema? y esto nos e lleva a preguntarnos En cuanto estamos dispuestos a aceptar desviaciones (dieren los resultados) para decidir que estamos observando cambios en el sistema? Para responder a preguntas como esta se ha desarrollado una serie de principios, teorias y heuristicas para representar la ocurrencia de eventos que estn sujetos a a incertidumbre. Se pretende construir una distribucin de referencia que condense la o informacin sobre la medida (el estado del sistema). En principio pudieramos pensar o en construirla utilizando los datos del sistema, pero No podemos obtener todos y cada uno de los resultados de una poblacin en tiempo nito y en ocasioo 21
22
CAP ITULO 3. DISTRIBUCIONES DE REFERENCIA
nes ni siquiera tenemos un sistema f sico que nos permita realizar las mediciones, es decir estamos en el campo de las ideas. Usualmente estamos restringidos al conocimiento imperfecto adquirido a travs de muestras, que son fotograas parciales de la e poblacin. o
3.1.
Distribuciones empiricas
Si tenemos la suerte de contar con sucientes datos provenientes del sistema bajo estudio, o relevantes para nuestro proposito, se puede considerar la distribucion empiricas de los datos observados, entendiendose por ella una manera de representar la frecuencia de ocurrencia de los eventos observados. Como ya hemos visto, un histograma como el de la Figura ??, representa una cantidad grande de mediciones (en este caso del ion nitrato). Con ella podemos construir una referencia para la ocurrencia de valores en el futuro, considerando la frecuencia de ocurrencia de estos valores en el pasado, considerandolos valores posibles. Si nos pidieran que adivinasemosl prxie o mo resultado qu contestamos?. Considerando la distribucin de los datos obtenidos e o y bajo la suposicin que el prximo dato ser generado por el mismo mecanismo (proo o a ceso de medicin) que el que di lugar a los observados, podemos decir que esperamos o o que el prximo valor este cerca de 50 gr. Ahora, si nos dijeran que el resultado fue o 0,35 gr. lo aceptamos como un resultado proveniente del mismo sistema?. Parece natural contestar esta pregunta con negativamente, pues el valor est muy alejado de a los valores observados previamente. Lo que estamos haciendo al comparar contra el histograma es comparar la magnitud del mensurando contra la frecuencia de ocurrencia de magnitudes parecidas a esa. Lo que est funcionando en este razonamiento es que si algo ocurre frecuentea mente es algo natural en el proceso, pero si ese valor es infrecuente, es factible que no haya sido generado por el mismo fenmeno que los anteriores. o De esta manera estamos usando la frecuencia de ocurrencia como una medida de cuan raro o no es el evento que estamos observando y esto nos permite realizar inferencias sobre la poblacin de medidas representadas en el histograma. o Claro est que en ocasiones estamos interesados en hacer preguntas un poco ms a a diciles, por ejemplo considerese que se proponen dos mtodos de desulfurizacin, el e o primero A es el mtodo estndar, el B es un nuevo mtodo. La pregunta pertinente e a e es si el mtodo B puede ser considerado como una alternativa viable al mtodo A, e e de verdad Hay mejora ? Los resultados de diez mediciones por cada mtodo se e muestran en la tabla 3.1 A continuacin se muestra un resumen numrico de los datos anteriores, obtenido o e
3.2. DISTRIBUCIONES DE REFERENCIA TEORICAS
23
Cuadro 3.1: 10 mediciones para cada mtodo, el orden corresponde al orden temporal e A B 89.7 81.4 84.5 84.8 87.3 79.7 85.1 81.7 83.7 84.5 84.7 86.1 83.2 91.9 86.3 79.3 82.6 89.1 83.7 88.5
con un programa estad stico. > summary(a) Min. 1st Qu. 79.70 82.20 > summary(b) Min. 1st Qu. 79.30 83.33
Median 84.50 Median 85.40
Mean 3rd Qu. 84.24 85.03 Mean 3rd Qu. 85.54 87.95
Max. 89.70 Max. 91.90
S.D 2.90 S.D 3.65
Luego de realizar los ensayos y encontrar el porcentaje de azufre eliminado, la pregunta con respecto a la mejora se transforma en una pregunta de tipo n merico, u Es la diferencia de los resultados lo sucientemente grande como para cambiar de metodolog Lo que estamos viendo es que en promedio el mtodo B elimina un a? e 1.3 % ms que el mtodo A, es decir, desulfuriza ms, pero cmo decir si 1,3 % es a e a o el resultado de un cambio de mtodo o es simplemente un resultado posible a n e u cuando no se haya cambiado el mtodo? Una manera de pensar en esa comparacin e o ser considerar construir 10 mediciones para cada mtodo, el orden corresponde al a e orden temporal todas las posibles diferencias de los promedios de diez datos sucesivos en las mismas condiciones. Con esta distribucinde la diferencia de los promedios o podemos decidir si 1,3 es raro/ o simplemente es com n. Esta distribucin emp u o rica construida con los datos disponibles nos puede servir de referencia.
3.2.
Distribuciones de Referencia Tericas o
En muchos casos no es posible contar con datos histricos y mucho menos contar o con la seguridad de que puedan ser usados a lo largo del tiempo. Sin embargo, en casi todos los casos se pueden establecer simplicaciones y suposiciones que permiten construir distribuciones de frecuencia de ocurrencia de los eventos basadas en consideraciones tericas, que pueden ser usadas como referencias. o Para esto se considera que los eventos pueden estar caracterizados o relacionados con cantidades aleatorias que deben ser medidas en una poblacin nita o innita, a o las que previamente denominamos Variables Aleatorias.
24
3.2.1.
Breve resumen de la teor de probabilidad a
Uno de los avances ms signicativos en la historia humana lo constituye el desaa rrollo de todo un cuerpo de ideas que considera el resultado del azar como algo que puede ser medido, si bien no desde el punto de vista de la completa cuanticacin o si desde el punto de vista de su frecuencia de ocurrencia. Esto es, considerando que se pueden presentar muchas veces la situacin de observacin de un fenmeno, cun o o o a frecuente es que ocurra un evento en particular. La teor de probabilidad considera que para un fenmeno observable de acuerdo a o con la ocurrencia de ciertos eventos, existe una funcin de ese espacio de eventos o que identica cuan frecuentemente se puede observar dicho evento en una repeticin o de la observacin, llamando a esa funcin funcin de probabilidad. Por ejemplo, si el o o o fenmeno fuese el lanzamiento de un dado y los eventos el n mero de puntos que o u aparece en la cara superior despues del lanzamiento, bajo la suposicin de que en o el mecanismo aleatorio no hay preferencia por un resultado que por otro, se puede considerar a la funcin: o P (n) =

1 6
Si n = 1, 2, 3, 4, 5, 6 en otro caso
como una funcin que representa la incertidumbre asociada al lanzamiento. Ciertao mente previo al lanzamiento no sabemos cual va a ser el resultado, pero tenemos bastante informacin sobre la frecuencia de ocurrencia de los posibles resultados. o Para que una funcin P sea considerada como la probabilidad de un evento E o tiene que cumplir lo siguiente1 : 1. 0 P (E) 1 2. Si A y B son dos eventos disjuntos (es decir que si uno ocurre el otro no puede ocurrir), entonces p(A B) = P (A) + P (B). Esta propiedad se llama aditividad. 3. Si A y B son dos eventos disjuntos tales que su union es el conjunto de todos los eventos posibles entonces P (A B) = 1 y por la propiedad de aditividad, consecuentemente se tiene que P (A) = 1 P (B). Si la variable X es discreta y toma valores xi , i = 1, 2, . . ., la distribucin de o frecuencia terica se puede representar con una funcin f tal que o o Prob{X = xi } = f (xi )
Estas son condiciones m nimas, si se quiere mayor detalle sobre las condiciones que debe cumplir puede consultar cualquier libro de probabilidad matemtica a
1
3.2. DISTRIBUCIONES DE REFERENCIA TEORICAS
25
Por supuesto f (xi ) 0 y i f (xi ) = 1 Ejemplo: Se supone que se tiene n muestras de las que se quiere conocer cuantas tiene contenidos de arsnico que pueden considerarse txico. Llamemos a esa cantidad e o X, donde X puede tomar valores enteros entre cero y n. Si las muestras provienen de la misma poblacin se puede considerar que individualmente slo hay dos opciones: o o o contiene ms de la cantidad o no lo contiene. Una situacin como esa es la llamada a o situacin de un experimento Bernoullien el que se presentan dos resultados, uno o llamado exito y el otro fracaso. Con este esquema basta establecer cual es la probabilidad de exito, digamos p, puesto que la probabilidad de fracaso ser 1 p. Bajo la a suposicin que las n muestras fueron obtenidas de manera independiente2 , entonces o obtener k exitos y n k fracasos tiene una probabilidad de pk (1 p)n1 con lo que: Prob(X = k) =
Si la variable X es continua, lo que se requiere es una funcin f tal que, si I es o un intervalo en la recta real: Prob{X I} =
I
n k p (1 p)nk k
f (x)dx
y aqu f (x) 0 y f (x)dx = 1. A esta funcin f se la conoce como funcin de o o densidad de probabilidad. A la funcin F denida como: o F (t) =
t
f (x)dx
se le llama funcin de distribucin acumulada de probabilidad. o o Ejemplo 1: Distribucin Poisson de parmetro o a x f (x) = exp () x! para x = 0, 1, . . .. Este es un modelo probabil stico muy utilizado en el caso en que se pueda considerar que los eventos se reeren a la ocurrencia de un fenmeno a tasa de ocurrencia o constante, por ejemplo las llegadas de llamadas a centrales telefnicas. o Ejemplo 2: Distribucin exponencial de parmetro o a f (x) =
2
si
x<0 x0
exp(x) si
se dene ms adelante a
26
Este modelo es frecuentemente usado para la duracin de algun procedimiento que o tiene tasa de ocurrencia constante. (Por ejemplo el tiempo que se emplea en procesar una muestra en el laboratorio con un procedimiento estndar). a
3.2.2.
Valor esperado y variancia terica o
De la misma manera que se denieron descripciones numricas de conjuntos de e datos, se pueden denir descripciones numricas para las funciones de distribucin de e o probabilidad, por ejemplo: Esperanza matemtica: Es el centro de masa de la densidad de probabilidad. a X discreta
i=0
E(X) =
xi f (xi )
X continua
E(X) =
xf (x)dx
Variancia: Es el momento de inercia de la densidad de probabilidad X discreta

i=0
V (X) =
(xi E(X))2 f (xi ) (x E(X))2 f (x)dx
X continua
V (X) =
La desviacin estndar, al igual que en el caso discreto es igual a la ra cuadrada o a z de la variancia y es una medida de la incertidumbre terica asociada a la variable o X.
3.2.3.
Dependencia e Independencia de eventos
Volvamos al ejemplo simple del lanzamiento del dado. Ciertamente antes de lanzar el dado lo unico que sabemos es que la frecuencia de ocurrencia del evento es 1/6. Ahora supongamos que salimos de la habitacin, alguien lanza el dado y nos avisa o que el resultado fue un n mero impar. tenemos la misma incertudumbre que la u que teniamos previo a ese aviso?. La respuesta es no, puesto que ahora los unicos resultados posibles en el lanzamiento son el 1, el 3 y el 5. El aviso es un evento informativo sobre el resultado del experimento y por tanto estamos en una situacin o con ms informacin. a o
3.3. LA DISTRIBUCION NORMAL Y EL TEOREMA CENTRAL DEL L IMITE27 Si A y B son dos eventos se dene la probabilidad de A condicional a la ocurrencia de B como: P (A B) P (A|B) = P (B) donde el lado izquierdo de la ecuacin se lee: probabilidad de A dado B . o Ahora dos eventos son independientes si la ocurrencia de uno de ellos no aporta informacin sobre la ocurrencia del otro, es decir, no disminuye su incertidumbre. o En trminos de probabilidad condicional lo que se tiene es que si los eventos son e independientes P (A|B) = P (A) y en consecuencia P (A B) = P (A)P (B) a esta ultima se la conoce como la regla de la multiplicacin de probabilidades de o eventos independientes.
3.3.
La distribucin normal y el teorema central o del l mite
Al hablar del modelo de medidas repetidas Y = + deciamos que si el procedimiento de medicin era adecuado, se esperar que los errores o a de medicin estuvieran cercanos en magnitud al cero, y no tendr o amos ninguna razn o para pensar que errores positivos fueran ms frecuentes que errores negativos, esto a es, esperariamos que el histograma de las mediciones fuera simtrico alrededor del e valor real del mensurando. Ahora bien, la representacin desde el punto de vista de la o frecuencia de ocurrencia tien un modelo teorico, considerando que las diferencias entre medicin y medicin provienen de una acumulacinde errores y causas aleatorias en o o o el proceso, o dicho de otra manera: = Suma de muchas cosas aleatorias Teoricamente se demuestra que la suma de muchas (innitas) cosas aleatorias que tienen como valor esperado y variancia nita, tienen una distribucin que se puede o identicar como normal gaussiana, que se representa con la funcin de densidad: o o f (x) = 1 (x )2 exp 2 2 2
28
Galton fue uno de los primeros investigadores en considerar a la distribucin noro mal como el modelo terico de la frecuencia de ocurrencia para datos, pues empirio camente veric que datos provenientes de muchos fenmenos que pueden pensarse o o como consecuencia de m ltiples efectos aleatorios tenian histogramas aproximados a u la curva normal. Figura 3.1: La densidad de una distribucin normal, de parmetro o a = 0, = 1
3
Para una distribucin con parmetros y , la campana est centrada en y o a a los punto de cambio de concavidad se encuentran en , + . En el intervalo (, +) se espera encontrar el 68,23 % de los resultados, en (2, +2) el 95,41 %, (El 95 % exacto se obtiene cambiando el 2 por 1.96) y en ( 2 , + 2 ) el 99,79 %. Es interesante notar que si se realizan los clculos correspondientes al valor espea rado y a la variancia para esta distribucin terica, se obtiene que el valor esperado o o es igual a y la variancia terica es igual a . Esto nos permite considerar como o estimados de los parmetros de una distribucin normal a los valores de la media y a o la variancia muestral de los datos observados.
3.4.
L mites de conanza para la media
Una caracteristica de una muestra de n datos distribuida normalmente N (, ) es que la media muestral x tambin est distribuida normalmente, con valor esperado e a
3
0.0 0.1 Densidad Normal 0.2 0.3 0.4
3.4. L IMITES DE CONFIANZA PARA LA MEDIA
29
y desviacin estndar n . o a Esto dice que a mayor n menos desviacin debe esperarse de las mediciones de la o media en torno a . Ahora bien, cuando se habla de un resultado de una medicin no tiene sentido dar o unicmente un valor puntual, hace falta establecer un intervalo en el que razonablea mente se pueda suponer que contendr al valor real , asumiendo, por supuesto, que a no hay errores sistemticos. a Si consideramos como distribucin de referencia terica a la distribucin normal, o o o es razonable esperar que el 95 % de las muestras nos den valores medios (promedio aritmtico) que se encuentren en el intervalo e
( 1,96 , + 1,96 ) n n o dicho de otra forma: | | < x n con lo que, tambin es razonable pensar que el 95 % de las muestras nos darn un e a intervalo ( 1,96 , x + 1,96 ) x n n que contiene a . Este ultimo intervalo es el llamando Intervalo de conanza al 95 % de la media. Notese que el intervalo antes mencionado necesita el valor de . Cuando no se tiene el valor de sigma ( Y cuando es que se tiene ?!!) es necesario estimar . utilizando la desviacin estndar muestral s, estimacin que contiene su o a o cuota de incertidumbre con respecto al valor de . En este caso lo que pasa es que el cociente x
s n
x s
tiene una distribucin que se parece a la Normal N (0, 1) pero que tiene ms masa o a en las colas, dependiendo del tama o de la muestra que se est utilizando para la n e estimacin de . o Esta distribucin se la conoce con el nombre de Distribucin t (de Student, o o aunque quien la propuso se apellidaba Gosset) con n 1 grados de libertad. Esto de grados de libertad se reere al n mero de desviaciones (xi x) que se requieren u para calcular s cuando se conoce x.
30
Ahora para calcular el intervalo de conanza (100(1) % hay que considerar las ecuaciones anteriores consiguiendo el valor t/2 que sea razonable que el (1)100 % de las muestras caigan en ese intervalo. s s ( t/2 , x + t/2 ) x n n Usualmente para obtener experimentalmente un buen valor de aproximacin de se o realizan n = 15 mediciones. Qu se puede hacer en el caso en que no se disponga e de tantas mediciones?. Varias recomendaciones se encuentran en la literatura: Uso de un material de referencia: Permite obtener informacin sobre el efecto o combinado de muchas fuentes potenciales de incertidumbre. Estimacin basada en resultados previos: Cuando no es posible realizar ning n o u ensayo es necesario encontrar algunas fuentes alternativas de informacin: o Informacin dado por los suplidores de equipos. o
Por ejemplo cuando se reporta el Error mximo permisible (Em ) de un a equipo, y no se tiene ms informacin se puede suponer que la distribucin a o o de cualquier valor medido es Uniformeentre los valores de Em . De esta manera, la variancia es: V ar(X) =
Em
x2 E2 dx = m 3 Em 2Em con lo que la desviacin queda estimada con Em / 3. o Informacin de estudios entre laboratorios. o Pero hay que considerarlos con cuidado, puesto que usualmente hay fuentes de error que no han sido consideradas, como por ejemplo, el muestreo, pre-tratamiento para homogenizar, etc. Esto quiere decir que no se puede considerar la reproducibilidad reportada en un mtodo como la medida de e incertidumbre para ser utilizada en nuestro estudio pero es una guia sobre lo que se puede esperar
Uso de criterio de expertos.
3.5.
Distribucin conjunta y Propagacin de Erroo o res
Una buena parte de los resultados de mediciones qu micas son obtenidos como un valor n merico que depende de un n mero de mediciones intermedias observables. u u
3.5. DISTRIBUCION CONJUNTA Y PROPAGACION DE ERRORES
31
El resultado nal puede ser una combinacin de las medidas que puede, en pricipio, o expresarse algebraicamente, Y = f (a, b, c, . . .) donde a, . . . representan bloques del trabajo en el mtodo empleado. e Para establecer cual es la incertidumbre asociada a Y es necesario entender como interactuan las mediciones en los resultados intermedios. Lo ideal es que encontrar un resultado intermedio (digamos a) no proporcione informacin sobre la magnitud del o resultado intermedio b. Si estamos en este caso, es intuitivamente lgico que digamos o que las variables aleatorias a y b son independientes. Ahora bien, desde el punto de vista de la teor de probabilidad tenemos que considerar como se distribuyen conjuna tamente las variables a y b, esto es, debemos ver si hay alguna funcin de probabilidad o que nos permita, por ejemplo considerar la probabilidad de los eventos{a a0 ; b b0 } es decir encontrar una funcin de dos variables tal que: o P ({a a0 ; b b0 }) =
a0 b0
f (x1 , x2 )dx1 dx2
Si ocurre que f (x1 , x2 ) = fa (x1 )fb (x2 ) (regla de la multiplicacin!!), donde fa es o la funcin de densidad que dene la probabilidad (marginal) de los resultados de la o medida de a y fb la correspondiente a b, entonces se dice que a y b son independientes. Por supuesto que lo que sucede en el laboratorio es que se procura realizar los bloques de medicin de manera que no se puedan considerar dependientes, esto es, o que al conocer el resultado de uno no se gana informacin sobre el resultado de otro. o
3.5.1.
Suma de variables aleatorias
Si se tienen dos variables aleatorias A y B cuya distribucin conjunta de probalidad o se conoce se puede demostrar matemticamente que el valor esperado de la suma es a igual a la suma de los valores esperados, esto es: E(A + B) = E(A) + E(B) ms a n, si 1 y 2 son constantes (sin error ni incertidumbre) se tiene que a u E(1 A + 2 B) = 1 E(A) + 2 E(B) (3.2) (3.1)
En el caso de las variancias Si las variables son independientes, entonces se tiene

2 2 V ar(1 A + 2 B) = 1 V ar(A) + 2 V ar(B)
(3.3)
32
Una aplicacin importante de estos resultados es que si se tienen n variables aleao torias X1 , X2 , . . . , Xm independientes, identicamente distribuidas, con valor esperado y variancia 2 , entonces, si X representa el promedio aritmtico de las variables: e E(X) = 1 V ar(X) = 2 n
n
V ar(Xi ) =
i=1
2 n
3.5.2.
Propagacin de errores o
Utilizando las expresiones anteriores, y considerando como la incertidumbre a la desviacin estndar de una variable, se puede aproximar la incertidumbre de una o a medida que se lleva a cabo en bloques, como una Propagacinde las incertidumbres o asociadas a los bloques. Por ejemplo, si lo que se tiene es que la medida nal es una Combinacin Lneal o de bloques Y = k + k a a + kb b + kc c . . . la ecuacin 3.3 nos permite encontrar, en el caso en que suponemos que las medio ciones que dieron lugar a a, b, c, . . . fueron hechas Independientemente entonces, la incertidumbre de la medicin puede ser expresada como: o d.e.(Y ) = Y = (ka a )2 + (kb b )2 + . . .
Si ahora lo que se tiene es una Expresin multiplicativa o Y = k(abc . . .) se complica un poco la utilizacin de las reglas en la ecuacin 3.3, pero se puede o o considerar linearizarla funcin utilizando para esto la aproximacin en series de o o Taylor de una funcin continua y diferenciable de varias variables y aplicar la ecuacin o o 3.3 a los sumandos resultantes de la serie. Con ello se puede ver que, con la suposicin o de que las mediciones fueron hechas independientemente: d.e.(Y ) = Y = k Y a a
2
b b
+...
En lineas generales, si las medidas son INDEPENDIENTES Y = Y a

2 2 a +
Y b
2 2 b + . . .
3.5. DISTRIBUCION CONJUNTA Y PROPAGACION DE ERRORES Si las medidas NO SON INDEPENDIENTES... esto es mucho mas complejo:
33
2 Y
=
i
Y xi
2 2 x i
+
ij
2Y xi xj
xi ,xj
donde xi ,xj es un indicador de la relacin lineal entre xi y xj que se conoce con el o nombre de Covariancia y se calcula considerando la funcin de distribucin conjunta o o entre xi y xj . Cov(xi , xj ) = E[xi E(xi ))(xj E(xj )] Ejemplo: Como estimar la incertidumbre de la medicin del contenido de carne para dos tipos o de muestra, uno con aditivo con base a nitrgeno y otra con proteina de soya? o Mtodo: El contenido total de carne, Mtot es dada por e Mtot = Pmeat + Ftot donde Pmeat = total de proteina de la carne ( %w/w) Ftot = total de contenido de grasa ( %w/w) Pmeat = 100 Nmeat NF
con N F un factor de nitrogeno espec co del material y Nmeat el contenido total de nitrogeno en la carne, (obtenido por ejemplo con el anlisis de Kjeldahl). a Paso 1 2 3 4 Descripcin o Cantidad Determine el contenido de grasa Ftot Determine el contenido de nitrogeno en la Nmeat carne Calcule el contenido de carne desgrasada Pmeat , N F Calcule el contenido total de carne Mtot
Los componentes de incertidumbre: (clculo de Pmeat ) a N F , conocimiento incompleto del material Reproducibilidad del mtodo e Sesgo ?
34 Como estimarlos?
La incertidumbre en N F puede se estimada a partir de algunos rangos de valores publicados. e.g. [3.57, 3.73]. El rango observado es de 0.16. Si lo consideramos como una uniforme en el intervalo, esto nos da un estimado 0,16 de de 23 = 0,046. En otra referencia puede encontrarse un estimador de para N F , basado en un estudio que contiene muchas muestras, para el que = 0,052 Para Ntot la informacin pertinente se basa en un estudio de colaboracin o o entre laboratorios. En este estudio se encontr que la desviacin estandar o o de reproducibilidad SR , se puede expresar como: SR = 0,021 Ntot (utilizando una recta de regresin por el origen) Tambin se encontr que o e o es posible un error sistemtico de 0,005Ntot . Contribucin al error total no a o importante. (Si suponemos que E(X) = 1 = + sesgo) E(X )2 = E(X (1 sesgo))2 = V ar(X) + sesgo2 Para Ftot : Desviacin estandar de 0,02Ftot o Paramtro e Ftot ( %) Nmeat NF Valor U D.E. relativa 5.5 0.11 0.02 3.29 0.072 0.021 3.65 0.052 0.014
Pmeat = 100
3,29 Nmeat = 100 = 90,1 % NF 3,65
UPmeat = Pmeat = 90,1
(D.E.relativa Nmeat )2 + (D.E.relativa N F )2 0,0212 + 0,0142 = 0,026
Mtotal = Pmeat + Ftot = 95,6 UMtotal =

2 2 UPmeat + UFtot = 2,5
Si un nivel del 95 % de conanza es requerido, el reporte del contenido de carne es: 95,6 5 %
Cap tulo 4 Pruebas de Signicancia, muestreo y experimentacin o

En todo sistema de conocimiento cient co se considera la validacin de las hipteo o sis planteadas sobre un fenmeno a travs de la experimentacin. Las hiptesis forman o e o o parte del modelo conceptual del sistema bajo estudio y la validacin usualmente eso ta basada en el comportamiento de algunas propiedades que pueden ser medidas u observables. De esta manera podemos pensar que el objetivo de la experimentacin o es el estudiar el efecto que sobre una (o varias) variable(s) de respuesta tiene un conjunto de otras variables que llamaremos variables experimentales, factores o tratamientos. Por supuesto, estos tratamientos sern aplicados a alguna muestra, o unidad a experimental. La mayoria de los experimentos reales estn expuestos a diversas fuentes de erroa res, piense simplemente en el error de medicin o el la diferencia entre las distintas o unidades experimentales, que constituyen un conjunto de factores que no pueden ser controlados por el experimentador. As el tratamiento de los resultados para obtener , conclusiones validas debe ser llevado a cabo usando mtodos estad e sticos, que a su vez necesitan ser validados. Para ello es necesario no solamente estimar el valor de interes sino tambin una medida de la variabidad de esperada en los resultados de la e medicin. o
4.1.
Principio de la Navaja de Occam
Llamado as en honor al Fraile Guillermo de Occam u Ockham (1285-1348) (?) es un principio bsico del pensamiento cient a co al considerar: Pluralitas e dispensata sine necessitatem 35
36CAP ITULO 4. PRUEBAS DE SIGNIFICANCIA, MUESTREO Y EXPERIMENTACION non sunt multiplicanda entia praeter necessitatem o dicho de otra manera, que cuando se consideren varias explicaciones equivalentes para un fenmeno (conjunto de teor o as), se debe preferir y utilizar la ms sencilla. En a nuestro caso, las explicaciones de los fenmenos que estamos analizando la constituo yen los modelos estad sticos y el Principio de la Navaja de Occam es equivalente al Principio de Parasimonia que considera que si hay varios modelos que explican los datos con la misma precisin y se dene la complejidad de cada modelo en funcin o o del n mero de parmetros que deben ser estimados para el ajuste, el que debe ser u a utilizado para la prediccin ser el modelo con el menor n mero de parmetros. o a u a Una consecuencia de este principio es que si tenemos dos posibles explicaciones, una que requiere mayores supuestos que la otra, la razn para preferir la explicacin o o complicada debe ser que esta explica mejor el fenmeno observado. o Las pruebas de hiptesis estad o sticas consideran el contraste de dos posibles resultados, uno que supone que no hay cambios en las condiciones y las diferencias observadas son producto de inuencias aleatorias, es decir, que no se pueden identicar, y el otro que considera que los cambios en las condiciones efectivamente inuyen en el observado en el sistema. La primera hiptesis es la ms sencilla, y por lo tanto es o a la que se prerir de acuerdo con el Principio de la Navaja de Occam siempre que ella a explique lo observado satisfactoriamente. A esta hiptesis la llamaremos Hiptesis o o Bsica o nula y la denotaremos por H0 ; la hiptesis ms compleja se conoce como a o a Hiptesis Alternativa. o Ejemplos de hiptesis bsicas: o a
No hay desviaciones sistemticas en las mediciones a No hay diferencias en los promedios de las mediciones de los laboratorios No hay diferencias en los resultados de los procedimientos de desulfurizacin o No hay efecto de los cambios de temperatura en la concentracin. o Ciertamente tendriamos que observar inconsistencias sucientemente grandes entre consecuencias de la suposicin sencilla y lo que efectivamente estamos observando o para preferir la hiptesis alternativa. o En las pruebas estad sticas de signicancia se utiliza el lenguaje legal. Decidimos por H0 cuando no hay suciente evidencia que nos indique que estamos equivocados al preferirla.
4.2. ERRORES EN LAS PRUEBAS
37
4.2.
Errores en las pruebas
Las pruebas estadisticas son en verdad, ejemplos de como tomar decisiones bajo incertidumbre. La necesidad de establecer una prueba de signcancia estad stica radica en que no se conoce c al es el mecan u smo que est inuyendo en el fenmeno de a o manera completa, esto es, slo tenemos un conjunto usualmente peque o de experieno n cias y resultados de ensayos pero es necesario tomar una decisin, por ejemplo, Se o calibra el equipo si es que est presentando un error sistemtico?, Se sigue usando a a el procedimiento de desulfurizacin o se preere el nuevo procedimiento?, y as suceo sivamente. En denitiva, no conocemos cual hiptesis se ajusta mejor a la realidad, o pero tenemos que decir utilizar una de ellas. Esto nos dice que estamos expuestos a comenter un error de juicio, podemos decidir que la hiptesis bsica es suciente o a para explicar el fenmeno, cuando la mejor manera ser a travs de la alternativa, o a e o podemos decidir por la hiptesis alternativa, y abandonar el uso de la hiptesis o o sencilla cuando en realidad es ella suciente para explicar lo observado. El primer error, o error de tipo I esta asociado al Principio de Parsimonia, puesto que si rechazo H0 sin necesitarlo, estoy complicando la interpretacin del modelo tamo bin !Sin necesitarlo!. El segundo error o error de tipo II usualmente tiene consecuene cias econmicas, puesto que se decide cambiar la l o nea de produccion consdierando que se va a obtener un mejor rendimiento y en realidad no es as . Resumen de posibles errores en las pruebas estad sticas Realidad Decisin Hiptesis Alternativa o o Hiptesis Nula o H1 No Error tipo I H0 Error tipo II No
4.3.
Estrategia de decisin o
Como se plante en la seccin anterior, el problema es decidir sobre cual hiptesis o o o utilizar cuando se cuenta con poca informacin. La informacin disponible usualo o mente viene dada como una muestra, como resultado de un conjunto de ensayos o experimentos. Para decidir a favor de una u otra hiptesis lo que hacemos es: o 1. Considerar que la hiptesis bsica es la que explica mejor el fenmeno. o a o 2. Con los datos disponibles construir un estad stico cuyo valor reeje la discrepancia entre las hiptesis1 del que se pueda obtener una Distribucin de o o Referencia basada en la consideracin de que la hiptesis bsica se cumple. o o a
1
Recordemos que un estad stico es una funcin que resume los datos muestrales. o
38CAP ITULO 4. PRUEBAS DE SIGNIFICANCIA, MUESTREO Y EXPERIMENTACION 3. Esta distribucin de referencia es la que se usar para construir una regla de o a decisin: o Si el valor del estad stico es compatible con la distribucin de referencia, o entonces decido a favor de H0 , Si no es compatible, decido a favor de H1 Ejemplo: En un mtodo para determinar mercurio por la tcnica de absorcin atmica de vapor e e o o frio se obtuvieron los siguientes valores en un material de referencia que contiene 38.9 % de mercurio: 38,9, 37,4 37,1 % Alguna evidencia de error sistemtico? a El valor que reporta el metodo (X s) es de 37,8 % 0,964 %. Siendo un nuevo procedimiento no hay datos que nos permitan construir una distribucin de referencia o emp rica para los promedios de tres mediciones repetidas. Se supondr como hiptesis bsica, (H0 ), que NO hay error sistemtico, de maa o a a nera que cada observacin puede pensarse que viene dada por el modelo de medidas o repetidas, esto es: Yi = + i i se supondr que es una variable ALEATORIA con DISTRIBUCION NORMAL a (media = cero, variancia 2 ). Entonces BAJO LA HIPOTESIS NULA el estad stico X X t= = n s s n tiene una distribucin de referencia conocida (La t de Student con n 1 grados de o libertad). En el ejemplo, el valor OBSERVADO de t es igual a t= (3) 37,8 38,9 = 1,98 0,964
y debe comportarse (bajo la hiptesis bsica) como un n mero proveniente de una o a u distribucin t con 2 grados de libertad. o
4.3.1.
Comparacin de las medias de dos muestras: o
El ejemplo t pico es cuando se tienen dos mtodos anal e ticos y se quiere ver si estn a dando resultados equivalente. Primero supondremos que tienen la misma variancia esto es que tienen la misma precisin de medicin. o o
4.3. ESTRATEGIA DE DECISION Figura 4.1: Descripcin de los datos de concentracin o o

6
39
Comparacion de Normal con t con 2 g.l
Ejemplo: Con el primer mtodo se obtuvo x s, 28.0 0.3, en 10 ensayos, y con el segundo e 26, 25 0,25 con 7 ensayos. Lo primero que hay que hacer para obtener informacin es proponer un modelo o que respresente a este conjunto de datos; lo que podemos es considerar una extensin o del modelo de medidas repetidas para cada mtodo, esto es, para el mtodo i: e e Yij = i + ij , j = 1, 2, . . . , ni con ij i.i.d. Normales (0, ) (donde no depende de i) Hiptesis de trabajo: No hay diferencias. De acuerdo con el modelo esto es o equivalente a suponer que 1 = 2 . En este caso lo que tenemos son dos muestras iguales, slo que fueron realizados o en dos bloques de medicin. o En este caso se puede calcular la desviacin estandar conjunta como o s2 = (n1 1)s2 + (n2 1)s2 2 1 n1 + n 2 2 y1 y 2
s2 n1
Entonces se puede construir el estad stico t de comparacin: o V.E(1 ) + V.E(2 ) y y y1 y 2 = +

s2 ) n2
6
0.0 0.1 Densidad 0.2 0.3 0.4
Medicion
40CAP ITULO 4. PRUEBAS DE SIGNIFICANCIA, MUESTREO Y EXPERIMENTACION donde V.E quiere decir variancia estimada. Bajo la hiptesis bsica, (las muestras provienen de la misma poblacin) la diso a o tribucin de referencia terica de este estad o o stico es la distribucin t con n1 + n2 2 o grados de libertad. s= 9(0,3)2 + 6(0,25)2 = 0,281 9+6 28,0 26,25 = 12,69 t= 1 0,267 10 + 1 6
Este valor se encuentra en una regin de probabilidad menor de 1 %, por lo que o se concluye que la evidencia no favorece a la hiptesis bsica, esto es, que deberiamos o a considerar que los mtodos no nos estan dando los mismos resultados. e
4.3.2.
Comparacin de variancias o
En la seccin anterior supusimos que las variancias de las muestras eran iguales. o Una manera de vericar esto es considerando una prueba estad stica, cuya Hiptesis o = 2 de trabajo es nuestra suposicin: H0 : 1 2 . o En este caso el estad stico que se utiliza es el cociente: s2 1 F = 2 s2 Si nuestra hiptesis de trabajo se cumple, este cociente debe estar cerca de uno, y o de nuevo la pregunta: cuan lejos hay que estar de uno para armar que tenemos suciente evidencia para rechazar la hiptesis de trabajo?. o La distribucin F de Fisher ES LA DISTRIBUCION DE REFERENCIA TEOo RICA cuando se supone que los valores utilizados provienen de una NORMAL, tiene dos parmetros que equivalen a los grados de libertad del numerador (el primero en a las tablas) y del denominador (el segundo en las tablas). Sirve tambin cuando el estad e stico se contruye como un cociente de sumas de cuadrados divididos por sus grados de libertad
4.3.3.
Comparacin de medias (2da parte) o
Si se tiene que las variancias son distintas, no se puede utilizar la estimacin o ponderada de la variancia; en este caso el estad stico t ser: a Y2 Y1 t= S1 + S2 n1 n2 y se puede utilizar la distribucin t como una aproximacin de la distribucin de este o o o estad stico.
4.4. PRUEBAS ESTAD ISTICAS Y EXPERIMENTOS
41
4.4.
Pruebas estad sticas y experimentos
Cuando se est usando una prueba estad a stica implicitamente se est considerando a una situacin en la que o bien se sospecha que han ocurrido cambios en las condiciones o o intencionalmente se han introducido los cambios en las condiciones. Cuando los cambios son intencionales nos encontramos en una situacin donde el observador o est experimentando. Por supuesto en ese caso hay una cantidad de factores, algunos a que pueden ser controlados por el experimentador, otros no, que van a cambiar los resultados de los ensayos. De aqu surge la pregunta: Puede hacer el experimentador algo para que los anlisis estad a sticos basados en una distribucin de referencia sean o validos y las conclusiones de las pruebas de signicancia puedan ser extrapoladas ms a alla de la muestra considerada?. Para responder esta pregunta es necesario considerar como se procede a la medicin y como se asignan los tratamientos a las diferentes unidades experimentales. o El principio de Aleatorizacin o La suposicin es que los factores no controlados por el experimentador se asignan o de manera aleatoria a las unidades experimentales, que se suponen intercambiables. Esto se realiza con el n de: 1. Prevenir la existencia de sesgos 2. Evitar la dependencia entre las observaciones Bajo esta suposicin es posible validar los procedimientos de anlisis estad o a stico ms a comunes como por ejemplo la famosa prueba t de diferencia entre tratamientos. A veces no es posible cumplir con este principio, por ejemplo cuando de antemano sabemos que nuestras unidades experimentales no son homogeneas, como por ejemplo en el caso de un experimento con un material carbonoso proveniente de distintas minas ( % distintos de carbon en cada muestra). Si se coloca los distintos tratamientos de manera aleatoria y se toman las medidas, las diferencias observadas pueden ser atribuidas tanto a la diferencia entre los tratamientos como a la diferencia a las unidades experimentales. Necesariamente tenemos que planicar nuestra experimentacin o con el objetivo de separar estas dos fuentes de variacin. Es por eso que se consideran o los bloques denidos como un grupo de material experimental homogeneo que puede ser dividido en unidades experimentales sobre los que se aplican los tratamientos En el libro de Box-Hunter-Hunter se realiza el siguiente comentario: Bloquee lo que pueda, aleatorize lo que no pueda
42CAP ITULO 4. PRUEBAS DE SIGNIFICANCIA, MUESTREO Y EXPERIMENTACION Este comentario est en el fondo de toda la experimentacin llevada a cabo usando a o los conocimientos estad sticos. Un experimento bien dise ado es un experimento que n a pesar de las dicultades inherentes al sistema es capaz de soportar un modelo que aporta informacin con un m o nimo de ensayos experimentales. Ahora bien, en cada ensayo obtenemos informacin contaminada por los factores o no controlados, de manera que es necesario medir el tama o de la dispersin o la n o variabilidad de los resultados obtenidos en distintas realizaciones del ensayo bajo condiciones similares.
4.5.
Experimentos con un factor con k niveles:
El modelo usual para los experimentos de este tipo supone que las diferencias entre los valores de los k grupos se reejan fundamentalmente en la localizacin de o las muestras (sesgo entre ellas) y no en la variancia, lo que equivale a decir que en la ecuacin siguiente: o
Yij = i + ij = + i + ij i = 1, 2, . . . k ; j = 1, 2, . . . ni ; n = ni
los errores se suponen identicamente distribuidos (usualmente tambin se supone e que la distribucin es normal y que los ensayos se realizaron de manera independiente, o con la asignacin de las unidades experimentales a los tratamientos hecha en orden o aleatorio. Suposiciones usuales: ij N (0, 2 ), independientes. El objetivo de estos experimentos es encontrar, si existen, diferencias entre los distintos niveles del factor. Por supuesto, al ser nuestros datos solo ejemplos de los efectos de estos niveles nuestra inferencia ser estad a stica, es decir, que podemos mostrar que hay diferencias con un nivel de conanza jo (por ejemplo, del 5 %). Descomposicin de las observaciones: o Yij Y = (Yi Y ) + (Yij Yi ) Para esto, bajo las suposiciones usuales de normalidad de los errores e independencia entre los ensayos se puede probar la hiptesis H0 :i = 0 para todo i, contra o la alternativa H1 :alg n i es distinto de cero usando una comparacin entre dos esu o timados de la variancia muestral bajo la hiptesis nula, cuya distribucin es conocida o o
4.5. EXPERIMENTOS CON UN FACTOR CON K NIVELES:
43
Fk1,nk =
n i ( Y i Y ) 2 k1 (Yij Yi )2 nk
Si esta fraccin es mucho mayor que el valor cr o tico para el nivel de la prueba especicado, se dice que hay evidencias a favor de la diferencia entre los tratamientos. Tabla ANOVA Fuente GL SC Entre tratamientos k-1 Dentro del tratamiento n - k Total n-1 ESTIMADOS DE LOS EFECTOS: i = Yi Y , =Y
SCP
Con esto se puede hablar de los estimados de prximos valores de Yij o Yij = + i = Y + (Yi Y y de los RESIDUALES: eij = Yij Yij = Yij Yi Si la prueba global nos permite pensar que tenemos diferencias en los efectos de los nivels del tratamiento hay que realizar comparaciones m ltiples, para u responde donde est la diferencia: a
4.5.1.
Mtodo de la Diferencia M e nima signicativa
Intervalo de conanza para la diferencia i j Yi Yj (i j ) tnk 1 s ni + nj 1 Mtodo de comparacin usando una distribucin de referencia: e o o Yi i tnk s/ n
44CAP ITULO 4. PRUEBAS DE SIGNIFICANCIA, MUESTREO Y EXPERIMENTACION Problema: Si tenemos m ltiples comparaciones u Prob |Yi Yj | t/2 s Suponiendo independencia: Prob ( m parejas cumplan la desigualdad ) = (1 )m Mtodo de comparacin m ltiple de Tukey e o u YM : Mximo valor de los promedios por grupo a Ym : m nimo valor de los promedios por grupo YM Ym q(k, n k) s/ n q(s, t) es la distribucin de rangos studentizados o 1 1 + ni nj =1
4.6.
Anlisis de Residuos a
Todos los resultados de las pruebas de signicancia que hemos mostrado hasta el momento DEPENDEN de las suposiciones de INDEPENDENDENCIA, HOMOSEDASTICIDAD y NORMALIDAD de los Como se detectasi estas suposiciones son razonables? Hay que considerar los RESIDUALES, es decir, lo que sobra cuando uno ajusta el modelo. Grcos de Residuales: a Grco de distribucin Normal: a o Este grco presenta los datos ordenados x(i) , con i = 1, 2, . . . , I, cona tra la frecuencia acumulada que estos datos representan, en una escala equivalente a la distribucin normal, o x(i) , 100 % i I +1 Histograma de los residuales.
Si los datos siguen una distribucin normal, en el grco se debe obo a servar una linea recta.
4.6. ANALISIS DE RESIDUOS Figura 4.2: Histograma simtrico e

3
45
ri
^ y
-3

ri
^ y
Grco de Residuales vs Valores Ajustados: (Yij , eij ). a Este grco tiene como objetivo revisar si existe alguna tendencia que a no ha sido explicada todavia con el modelo que estamos ajustando. Grco de Residuales vs Tiempo: a Este grco busca mostrar patrones de tendencias en el tiempo, que a pueden indicar que la suposicin de independencia no es razonable. o
ri
^ y
46CAP ITULO 4. PRUEBAS DE SIGNIFICANCIA, MUESTREO Y EXPERIMENTACION
4.6.1.
Experimentos de bloques aleatorizados completos
Supongamos que tenemos I distintos tratamientos que queremos comparar y disponemos de J bloques que pueden ser divididos en I partes J jueces en un estudio sensorial donde I es lo sucientemente peque o n para no introduccir problemas de fatiga. J hornos de preparacin de material o El orden de los tratamientos dentro de cada bloque es aleatorio. Usualmente slo hay una observacion en cada cruce bloque tratamiento. o 1 y11 y21 . . . yI1 2 y12 y22 . . . yI2 ... ... ... . . . J y1J y2J . . .
1 2 . . . I
. . . yIJ
yij = + i + j + ij i = 0 j = 0
yij = + i + j + ij i = 0 j = 0
Con este modelo se puede proponer una descomposicin de las observaciones por o fuente de variacin: o yij Y = (Yi Y ) + (Yj Y ) + (yij Yi Yj + Y ) i = 1, 2, . . . , I, j = 1, 2, . . . , J j representa el efecto incremental del j esimo bloque. El n mero de parmetros en el modelo es u a 1 + (I 1) + (J 1) + 1 = I + J Se est suponiendo que no hay interaccin entre los bloques y los tratamientos a o (modelo aditivo)
4.6. ANALISIS DE RESIDUOS Tabla ANOVA Tabla de Fuentes de Variabilidad y clculos de incertidumbre a Fuente GL SC SCP F p Entre Tratamientos I-1 Entre Bloques J-1 Residuales n - 1 -[(J - 1) + (I - I)] Total n-1
47
4.6.2.
Bloques Incompletos Balanceados
Cuando no se puede dividir el bloque en I partes, sino en un n mero k menor u que I. Se seleccionan las combinaciones de tratamientos de manera que cada par de tratamientos sea asignado el mismo nmero de veces r entre los bloques. r debe u ser mayor que 2 para calcular variabilidades. Usualmente las exigencias del balance establecen ms repeticiones. a Ejemplo: Si tenemos que los bloques se pueden dividir en 3 partes y se tienen I = 6 tratamientos, podemos utilizar el dise o combinatorio n (A B C) (A C E) (A B D) (A C F) (A B E) (A D E) (A B F) (A D F) (A C D) (A E F) (B C D) (B E F) (B C E) (C D E) (B C F) (C D F) (B D E) (C E F) (B D F) (D E F)
que tiene r= 4 y cada tratamiento est asignado a la mitad (10) de los bloques. a El modelo es igual al anterior, pero ahora hay que ajustar los parmetros ya que a no todos los tratamientos ocurren simultaneamente en los bloques. Llamando Ti a la suma de las observaciones del i-esimo tratamiento y Bi a la suma de las observaciones de los bloques que contienen el i-esimo tratamiento se tiene: Qj = kTi = Bi y el estimado del efecto del tratamiento es: i = Qi Ir
Asi, el promedio ajustado por bloque es: Y + i
48CAP ITULO 4. PRUEBAS DE SIGNIFICANCIA, MUESTREO Y EXPERIMENTACION Fuente Bloques Tratamiento Ajustado por bloque Residuales Total Ajustado GL J-1 I-1 (yij Y )2
i
SC
SCP
Q2 /krI i
4.6.3.
Experimentos con dos o ms factores a
Experimentos de factores cruzados: yijk = + i + j + ij + ijk Aqu ij representa el efecto de interaccin entre los factores. o Descomposicin de las observaciones: o yijk = Y + (Yi Y ) + (Yj Y ) + (Yij Yi Yj + Y ) + (yijk Yij ) La tabla anova ahora tiene cuatro entradas: Dos por Efectos Principales: lo que corresponde a i y j . Una por los Efectos de Interaccin ij o Una por los errores aleatorios ijk
4.7.
Ejercicios
1. Se le pide que d respuesta a las siguientes preguntas conceptuales. Apoyese en e dibujos o analog si as considera que se puede entender mejor su explicacin. as o a) Cual es la diferencia entre repetibilidad y reproducibilidad? b) Qu es una distribucin de referencia? e o c) Qu es un modelo emp e rico? d ) Cual es la variancia del promedio de n observaciones identicamente distribuidas, cada una de ellas con variancia igual a 2 ? e) Cuantos ensayos deben ser realizados para ajustar un modelo con cinco factores a cuatro niveles cada uno?
4.7. EJERCICIOS
49
f ) Para qu se usa el anal de residuales provenientes de los modelos e sis probabilisticos? 2. Usando un dise o experimental llamado cuadrado greco-latino es posible estun diar el efecto de cuatro factores (A, B, C, D) de tratamiento a 3 niveles cada uno con slo 9 ensayos, mientras que un experimento completamente aleatorizado o requiere 81 ensayos. Supongase que el experimento se replica completamente y los resultados son analizados de acuerdo con la siguiente tabla ANOVA Fuente Efecto A Efecto B Efecto C Efecto D Residual Total Sum Cua 21,23 5,39 4,02 22 62 g.l. 2 2 2 17 Variancia Contraste F 10,62 4,35 1,92 2,70 1,11 2,01 0,82
Complete la tabla. cuales son los factores importantes?. Qu efectos no se e pueden estimar al usar este dise o? n 3. Para comprobar el desgaste de cuatro distintos tipos de caucho (C1-C4) se seleccionaron tres vehiculos (V1-V3) a los que se les coloc en orden aleatorio o neumticos fabricados con los cuatro tipos de cauchos. Al cabo de 10.000 Km a se midi el desgaste resultando en los valores de la tabla o Por la Prom Di 14 -6 18 -2 21 1 27 7 20
C1 C2 C3 C5 Prom Di
V1 18 23 22 33 24 4
V2 V3 9 15 19 12 21 20 27 21 19 17 1 -3
a) Qu tipo de dise o experimental se us? e n o b) Proponga un modelo emp rico para analizar los datos y uselo para establecer cuales son las componentes de variabilidad de los mismos. c) Plantee una prueba estad stica que le permita tomar una decisin sobre la o diferencia del desgaste debido al tipo de caucho.
50CAP ITULO 4. PRUEBAS DE SIGNIFICANCIA, MUESTREO Y EXPERIMENTACION d ) Construya la tabla anova asociada a la prueba probabilistica. e) Concluya si hay o no diferencias entre los tipos de caucho. Los siguientes clculos pueden ser necesarios para la tabla ANOVA. a 2 Y ) = 448 3 (62 + 22 + 12 + 72 ) = 270 4 (42 + 12 + 32 ) = 104
ij (Yij
Cap tulo 5 Regresin y Calibracin o o

En el capitulo anterior se estudiaron modelos considerando un n mero peque o u n de factores, a un numero usualment peque o de niveles. Qu pasa cuando se quiere n e estudiar un mayor n mero de niveles o se quiere considerar la relacin funcional entre u o las variables?
5.1.
Relaciones entre dos variables
En muchas oportunidades, estamos interesados no slo en describir o considerar o modelos probabilisticos para una variable, sino tambin en identicar relaciones entre e variables. Ejemplos: Relacin entre la densidad de veh o culos y la velocidad Relacin entre la cantidad de veh o culos de transporte p blico y el tiempo de u viaje. Relacin entre cantidad de cierto aditivo en un combustible y potencia obtenida o por el veh culo.
En casos como stos, nos gustar poder predecir una de las variables (variable de rese a puesta o variable dependiente cuando la otra variable explicativa o variable dependiente es conocida. Para ello, suelen usarse relaciones de la forma respuesta = se al + ruido n
51
52
CAP ITULO 5. REGRESION Y CALIBRACION
En general, la respuesta ser una funcin de la variable explicativa. Si llamamos Y a la a o variable de respuesta y X a la variable explicativa, podemos escribir esta relacin como o Y = f (X) + donde representa un ruido aleatorio. Este tipo de expresiones son conocidas como Modelos estadsticos, y permiten realizar predicciones de los valores de la variable de respuesta para ciertos valores de inters de la variable explicativa. e
Ya hemos visto algunos modelos de esta forma, por ejemplo, el modelo de medidas repetidas, donde la funcin f (X) es simplemente una constante, o una constante a o trozos.
5.1.1.
Grcos y covarianza a
Estudiaremos algunas herramientas que nos permitirn estudiar las relaciones ena tre dos variables observadas. Diagramas causa-efecto Sean (x1 , y1 ), . . . , (xn , yn ) las observaciones para el par de variables X y Y . Representar estas observaciones sobre unos ejes de coordenadas nos permite obtener una nube de puntos, cuyo comportamiento ser indicativo de la relacin a o entre las dos variables. Covarianza La covarianza entre X y Y se dene como SXY 1 n (xi x)(yi y ) = n i=1
Veamos cmo se puede interpretar esta cantidad: o SXY > 0

Y
SXY < 0
+
01
45 89 23 bc
XY
VW
`a
RS
TU
PQ
HI
X

DE
FG

__ (x,y)
!
@A
67 BC "# $% () &'
__ (x,y) X
5.1. RELACIONES ENTRE DOS VARIABLES SXY 0

Y Y
53
(x,y) X (x,y) X
La covarianza es, entonces, una medida de dependencia lineal entre variables. Si dos variables no estn relacionadas (o son independientes en el sentido de que a conocer el valor de una de ellas no aporta informacin sobre los posibles valores o de la otra), la covarianza es cero. El rec proco no es cierto: dos variables que tienen covarianza cero pueden estar relacionadas entre s pero la relacin no es lineal. , o
5.1.2.
Correlacin o
La covarianza depende del tama o de las variables, y es por tanto dif de inn cil terpretar por s misma (por ejemplo, si medimos variables en metros obtendremos covarianzas diferentes que si las medimos en kilmetros). o Para evitar este problema, denimos la correlacin muestral entre X y Y como o r= SXY SX SY
Propiedades de la correlacin: o Es adimensional (carece de unidades de medida). Es invariante ante cambios de origen y de escala de las variables. Slo toma valores entre 1 y 1. Si |r| est cercano a 1, esperamos una relacin o a o lineal fuerte entre las variables.
54
CAP ITULO 5. REGRESION Y CALIBRACION Cuando r 0, puede armarse que no existe relacin lineal entre las variables. o
Ejemplo: En un estudio para vericar la relacin entre densidad X (Veh o culos por km) y velocidad Y (kmh) se encontraron los siguentes datos:
X 12.7 50.2 76.1 63.2 18.4 22.3 60.6 62.1 Y 62.1 25.8 13.6 17.8 50.9 46.2 19.7 17.9 X 17.1 88.3 66.6 77.4 19.2 18.8 56.3 67.0 Y 50.4 12.3 17.8 15.7 50.6 46.1 21.1 16.5 X 66.4 81.8 81.6 90.1 16.6 66.4 66.7 68.2 Y 17.0 13.3 13.8 12.5 54.4 16.8 18.2 18.2
Tiempo de suministro
10
20
30
40
50
60
70
10 Numero de cajas
15
20
El grco nos hace esperar una covarianza negativa y una correlacin bastante a o cercana a -1. Al realizar los clculos correspondientes, obtenemos SXY = 416,4 y rXY = a 0,97; estos n meros conrman la intuicin que obtuvimos del grco causa-efecto. u o a Sin embargo, es necesario recordar que la covarianza y la correlacin tienen limitao ciones como medida de relacin entre variables. Para evidenciar sto, Anscombe (1973) o e construy cuatro pares de variables (X, Y ) con idnticas caracter o e sticas numricas, las e cuales se muestran a continuacin: o xi = 9 var(xi ) = 11 yi = 7,5 var(yi ) = 4,13 SXi Yi = 5,5 rXY = 0,816
5.2. REGRESION SIMPLE Veamos grcamente cada conjunto de datos a
55
Grco causa-efecto para los conjuntos de datos de Anscombe (1973). a

11 10 9 9 Y1 8 Y2 7 6 5 4 4 6 8 X1 10 12 14 3 4 4 5 6 7 8
8 X2
10
12
14
Grco causa-efecto para los conjuntos de datos de Anscombe (1973). a

12 12 Y4 8 6 4 6 8 X3 10 12 14 6 8 8 10
Y3
10
10
12 X4
14
16
18
5.2.
Regresin Simple o
Usada cuando se supone una relacin lineal entre una variable controlable o explio cativa (X) y una variable dependiente (Y ). En el caso en que la variable explicativa sea el tiempo y Y = Yt , una serie cronolgica, la regresion lineal simple sirve para o ajustar la tendencia lineal. Modelo: Y = 0 + 1 X + Se supone que representa la parte no explicada por X o el ruido introducido por factores aleatorios y se modela como una variable aleatoria con esperanza matemtica a cero. Suposiciones tericas: o La variable X se considera que puede ser medida sin error (no es aleatoria). Todas las observaciones son realizadas de manera independiente con la misma estructura aleatoria. (No suele ser cierto en caso de series cronolgicas) o
56
CAP ITULO 5. REGRESION Y CALIBRACION La estructura aleatoria de las observaciones () se puede aproximar por el modelo gaussiano, N (0, 2 ). y i = 0 + 1 xi + i , La forma vectorial de este modelo es Y = X +

y1 y2 . . . yn
1 x1 1 1 x 2 1 2 + . . . . . 2 . . . . n 1 xn
Distintas rectas pueden ser escogidas para representar la relacin lineal Cul es o a la mejor? Depende del criterio de bondad de ajuste usado para medir la diferencia entre el valor observado y el valor estimado por el modelo: MAD (Acrnimo en ingles por Promedio de los valores absolutos de la desviao cin) o
n i=1
|Yi Yi |
OLS (M nimos cuadrados ordinarios)

n i=1
(Yi Yi )2
WLS (M nimos cuadrados pesados)

n i=1
i (Yi Yi )2
Estimacin por OLS o Ecuaciones normales:

n
n
n i=1 n
xi
i=1 i=1
x2 i
xi
0 = 1
n i=1 n i=1
xi y i
yi

5.2. REGRESION SIMPLE Equivalentemente n 0 +

n i=1 n i=1 n i=1
57
xi 1 = x2 1 = i
yi
i=1 n
xi 0 +
xi y i
i=1
Al resolver este sistema de ecuaciones obtenemos: 0 = y x 1 n x i=1 xi yi ny 1 = n 2 x2 i=1 xi n n i=1 (xi x)(yi y ) = n 2 i=1 (xi x) de esta manera podemos obtener la Prediccin de un valor de Y para distintos o valores de X: Y x = 0 + 1 x y los Residuales denidos como: e i = Y i Yi Ahora 0 y 1 son variables aleatorias y se debe usar una distribucin de referencia o para decidir sobre su signicancia. En lo que sigue supondremos que el vector de errores aleatorios se distribuye como una normal n-variada con vector de medias 0 y matriz de varianza 2 I, es decir, Nn (0, 2 I). Por lo tanto, Y Nn (X, 2 I)
E() = E((X X)1 X Y) = (X X)1 X E(Y) = (X X)1 X X = Luego, E() = , justo el parmetro que queremos estimar. Cuando esto sucede a decimos que el estimador, en este caso , es insesgado.
58 Calculemos V ar().
V ar() = E{( E())( E()) } = E{( )( ) } Como = (X X)1 X Y
= (X X)1 X (X + ) = (X X)1 X , = + (X X)1 X
V ar() = 2 (X X)1 Es decir i N (i , 2 cii ) donde cii es el elemento de la diagonal de la matriz C = (X X)1 que corresponde a i . Y x = 0 + 1 x De acuerdo con las ecuaciones anteriores se puede calcular V ar(Yx ): V ar(Yx ) = 2 1 + n (x x)2 n 2 i=1 (xi x)
Pronstico de valores alejados del centro de los datos tienen muy alta variancia o Signicancia estad stica del modelo y el coeciente de determinacin R2 o Descomposicin natural de las observaciones: o Yi Y = (Yi Y ) + (Yi Yi ) Variacin total o Grados de libertad n-1 = k-1 + n-k = Variacin o explicada + Variacin o no explicada
5.2. REGRESION SIMPLE

Densidad F con 3 y 29 grados de libertad
59
0.2
Densidad 0.4
0.6
Probabilidad=0.95
0.0
2.93403 0 1 2 3 4 5 6
Figura 5.1: Figura de distribucin o Comparacin: o S. C. Variacin Explicada o Fk1,nk =

k1
S. C. Variacin NO Explicada o
nk
Variacin Valores Estimados o Variacin Valores Observados o Como vimos antes, lo que parece igual puede ser muy diferente Anlisis de Residuales a R2 = X1 10 8 13 9 11 14 6 4 12 7 5 Y1 8.04 6.95 7.58 8.81 8.33 9.96 7.24 4.26 10.84 4.82 5.68 Y2 Y3 X2 Y4 9.14 7.76 8 6.58 8.14 6.77 8 5.76 8.74 12.74 8 7.71 8.77 7.11 8 8.84 8 8.47 9.29 7.81 8.10 8.84 8 7.04 6.13 6.08 8 5.25 3.10 5.39 19 12.50 9.13 8.15 8 5.56 7.26 6.42 8 7.91 8 6.89 4.74 5.73
60
12
10
10
4 6 8 X1
12
Y1 8
Y2 8
4 6
10 12 14
Mismo ajuste
Mismo ajuste 8 X1 10 12 14
12
10
Y3 8
Mismo ajuste 4 6 8 X1 10 12 14
Y4 8
10
12
Mismo ajuste 8 10 12 14 16 18 X2
Figura 5.2: Datos de Anscombe Residuales: ei = y i y i Estimador de 2 : s2 = R Bajo las suposiciones estad sticas: Var(ei ) = 2 (1 ii ) con ii el elemento diagonal de X(X X)1 X . ii puede ser interpretado como una medida de la distancia entre el punto X y el promedio de los datos (X). Si el punto est muy alejado del centro ii est cerca de a a uno y Var(ei ) es cercana a cero. Residuales estandarizados: ri = s2 R ei 1 ii e2 i nk1
Residuales Studentizados igual al anterior exceptuando que s2 se calcula de maR nera independiente de ei . Anlisis de Residuales a
5.2. REGRESION SIMPLE
61
Residuales -1 0 1
5 6
Residuales -1.0 0.0 0.5 1.0
-2.0
-2
7 8 Ajustados 9 10
7 8 Ajustados
10
Residuales -1 0 1
Residuales 0 1 2
5 6
-1
7 8 9 Ajustados
10
9 10 11 12 Ajustados
Figura 5.3: Residuales para los Datos de Anscombe Grco de dispersin de los residuales vs predicciones. a o Patrn de variancia diferente Heterocedasticidad. o
Heterocedasticidad puede ser causada por una formulacin erronea del o modelo. (Multiplicativo en lugar de aditivo) Una transformacin de la variable dependiente puede ayudar a corregir el o problema. (Usando el logaritmo, o transformaciones de la forma Y )
Patrn no aleatorio Falta variable explicativa? o Grcos de probabilidad de los residuales estandarizados. a Residuales estandarizados: ri = ei 1 ii
s2 R
con ii el elemento diagonal de X(X X)1 X . ii puede ser interpretado como una medida de la distancia entre el punto X y el promedio de los datos (X). Si el punto est muy alejado del centro ii est cerca a a de uno y Var(ei ) es cercana a cero. Residuales Studentizados igual al anterior exceptuando que s2 se calcula de R manera independiente de ei .
62
CAP ITULO 5. REGRESION Y CALIBRACION Grcos de caja, grco normal, histogramas. a a Una transformacin de la variable dependiente tambin ayuda a obtener datos o e ms normales. a
Anlisis de Residuales a Si los datos fueron recolectados en diferentes tiempos un grco que brinda infora macin es el de los residuales vs tiempo y el grco de et vs et1 . o a Efectos de la dependencia: Los estimados son centrados pero no ecientes (no tienen la variancia m nima Las pruebas estad sticas no son validas y pueden se alar relaciones no existentes n Autocorrelacin estimada de orden h: o rh =
n t=h+1 et eth n 2 t=1 et
El estad stico de Durbin-Watson mide la existencia de autocorrelacin de orden 1 o entre los residuales: DW =
n 2 t=2 (et et1 ) n 2 t=1 et
2(1 r1 )
Si no hay autocorrelacin la distribucin de referencia para este estad o o stico es simtrie ca alrededor de dos (2). El estad stico de Ljung-Box combina autocorrelacin de ordenes mayores: o Q = n(n 2)
2 rh nk h=1 m
La distribucin de referencia en este caso es (asinttica) 2 con m k 1 grados o o de libertad.
5.3.
Regresin M ltiple o u
Multicolinearidad: Cuando algunas variables independientes presentan una relacin lineal (o cercana o a lineal) entre ellas. Problemas: En la inversin de X X o
5.3. REGRESION MULTIPLE Los estimados i tienen variancia grande y alta correlacin o
63
Deteccin: o Examinando la matriz de correlacin de las variables explicativas R. o (Ms tcnico: Examinando el a e ndice de condicionamiento que se dene en funcin o de los autovalores de la matriz). Tratamiento: Eliminar regresores Incluir informacin externa a los datos o Si los regresores efectivamente inuyen pero son eliminados por un problema en el dise o de la muestra entonces los estimados de los efectos de las dems variables n a estn sesgados. a Escogencia automtica de regresores a Eliminacin Regresiva o hacia atras: o Se comienza con el modelo mas complicado y se van eliminando variables (una a la vez), hasta que ya no se puede eliminar ninguna. Usualmente se basa en estad sticos t. Inclusin Progresiva. o Se comienza con el modelo Y = 0 . La primera variable a entrar es aquella que tenga mayor correlacin con Y . Se realiza la prueba de signicancia o del modelo F y si no es signicante el proceso termina. Las siguientes variables se pueden incluir de dos maneras: Buscar la correlacin entre las demas variables y los residuales del moo delo anterior. Estas correlaciones se las llama correlaciones parciales. Entra aquella variable que tenga mayor correlacin parcial. o Ajustar todos los modelos de la forma Y = 0 + 1 X1 + 2 X2 + y compararlos con el modelo anterior: Usando las pruebas F y selecionando aquella variable que tenga mayor valor de este estad stico. (F -to-enter en los paquetes) Luego se compara el modelo actual con todos los modelos anidados con una variable menos y se considera para la eliminacin aquella cuyo estadi o stico F sea menor. Si no es signicativa se elimina la variable del modelo (F -toremove.)
64
Considerese una regresin con p variables o X = [X1 : X2 ] Contraste F:
MODELO GENERAL DE REGRESION Yi = 0 + 1 X1i + 2i + . . . k Xki + Las perturbaciones tienen media cero. La variancia de las perturbaciones es constante. Las perturbaciones son independientes entre si. Las perturbaciones tienen una distribucin normal. o Notese que la componente sistemtica es lineal en los parmetros. As se incluye a a modelos polinomiales: Yi = 0 + 1 Xi + 2 Xi2 + Estimacin por m o nimos cuadrados: e=YY El vector debe ser ortogonal a Y e=YY
Xe=0 Ecuaciones normales: X Y = (X X)() Ortogonalidad implica: ||Y Y||2 = ||Y Y||2 + ||e||2 Descomposicin de la variacin total en variancia explicada ms variancia no o o a explicada como se vi anteriormente. o Propiedad de los estimadores: i N (i , 2 cii )
5.3. REGRESION MULTIPLE
65
5.3.1.
Estimacin de la variancia o
2 = s2 = R e2 i gl(residuos)
donde La distribucin de referencia de s2 viene dada por o R gl(residuos) = n k 1
(n k 1)s2 R 2 gl(residuos) 2 Intervalos de conanza para los coecientes: i N (i , 2 cii )
(n k 1)s2 R 2 2 gl(residuos) son independientes i i tnk1 sR cii Esto sirve para la prueba estad stica H0 : i = 0. Fuente Explicada por los regresores s.c. ( Yi Y ) 2 (Yi Yi )2 (Yi Y )2 g.l k MSE (1) F = Residual Total n-k-1 n-1 (2) (1) (2) F
Coeciente de determinacin corregido: o
Prediccin: o
Variancia Residual R2 = 1 Variancia de y n1 = 1 (1 R2 ) nk1 yx = x
2 Var(x ) 2 y n El lado izquierdo de la desigualdad corresponde a una estimacin en el centro de o los datos; el lado derecho corresponde a una estimacin de un valor de los predictores o muy alejado del resto.
N (x , 2 x (X X)1 x)
66
5.3.2.
Regresin con variables cualitativas o
Problemas de omitir un atributo Modelos por separado:
A A YA = 0 + 1 X + B B YB = 0 + 1 X +
Dividir los datos en grupos y ajustar regresiones distintas en cada uno de los grupos no es una buena idea: No hay sucientes datos en cada grupo para un buen.ajuste. No se pueden comparar los resultados. Mejor es incluir la(s) variable(s) atributo en el modelo: Con los datos en dos grupos denamos la variable cticia: Z=

0 1
si la observacin est en el primer grupo o a si la observacin est en el segundo grupo o a
5.3. REGRESION MULTIPLE y un modelo para la situacin de anterior seria: o Y = 0 + 1 X + 0 Z + 1 XZ +

B A B A 0 representa la diferencia 0 0 mientras que 1 representa a 1 1
67
Interaccin o
En el caso en que queremos separar en D grupos se pueden denir D 1 variables cticias 0 si la observacin no est en el grupo i o a Z= 1 si la observacin est en el grupo i o a El grupo modica el comportamiento de la respuesta a cambios en las variables explicativas.
En el ejemplo anterior 1 es la medida de interaccin entre la variable X y la o variable cualitativa. Contrastar 1 = 0 es equivalente a contrastar por la presencia de interaccin. o Modelos de variables cualitativas Clasicacin por un factor (atributo) en varios grupos (niveles). o
Yij = i + ij = + i + ij
68
CAP ITULO 5. REGRESION Y CALIBRACION Como siempre supondremos que ij se distribuye normal y ellos constituyen una secuencia independiente. (Cov(ij , kl ) = 0 para sub-indices distintos). Este modelo se puede ajustar usando las tcnicas de regresin lineal. e o Yij = Y + (Yi. Y ) + (Yij Yi. ) Probar que los promedios de los grupos son iguales es equivalente a probar que todos los i son cero. Clasicacin por dos factores: o Yijk = + i + j + ij + ijk Descomposicin de las observaciones (factores cruzados): o Yijk = Y + (Yi.. Y ) + (Y.j. Y ) + (Yij. Yi.. Y.j. + Y ) + (Yijk Yij. )
Cap tulo 6 Experimentacin o

En todo sistema de conocimiento cient co se considera la validacin de las hipteo o sis planteadas sobre un fenmeno atravs de la experimentacin. Las hiptesis forman o e o o parte del modelo conceptual del sistema bajo estudio y la validacin usualmente eso ta basada en el comportamiento de algunas propiedades que pueden ser medidas u observables. De esta manera podemos pensar que el objetivo de la experimentacin o es el estudiar el efecto que sobre una (o varias) variable(s) de respuesta tiene un conjunto de otras variables que llamaremos variables experimentales, factores o tratamientos. Por supuesto, estos tratamientos sern aplicados a alguna muestra, o unidad a experimental. La mayoria de los experimentos reales estn expuestos a diversas fuentes de erroa res, piense simplemente en el error de medicin o en la diferencia entre las distintas o unidades experimentales, que constituyen un conjunto de factores que no pueden ser controlados por el experimentador. As el tratamiento de los resultados para obtener , conclusiones validas debe ser llevado a cabo usando mtodos estad e sticos, que a su vez necesitan ser validados. Para ello es necesario no solamente estimar el valor de interes sino tambin una medida de la variabidad de esperada en los resultados de la e medicin. o Bajo que condiciones son validos los anlisis estad a sticos ? Para responder esta pregunta es necesario considerar como se asignan los tratamientos a las diferentes unidades experimentales. El principio de Aleatorizacin La suposicin es que los factores no controo o lados por el experimentador se asignan de manera aleatoria a las unidades experimentales, que se suponen intercambiables. Esto se realiza con el n de: 1. Prevenir la existencia de sesgos 69
70
CAP ITULO 6. EXPERIMENTACION 2. Evitar la dependencia entre las observaciones Bajo esta suposicin es posible validar los procedimientos de anlisis eso a tad stico ms comunes como por ejemplo la famosa prueba t de diferencia a entre tratamientos. A veces no es posible cumplir con este principio, por ejemplo cuando de antemano sabemos que nuestras unidades experimentales no son homogeneas, como por ejemplo en el caso de un experimento con un material carbonoso proveniente de distintas minas ( % distintos de carbon en cada muestra). Si se coloca los distintos tratamientos de manera aleatoria y se toman las medidas, las diferencias observadas pueden ser atribuidas tanto a la diferencia entre los tratamientos como a la diferencia a las unidades experimentales. Necesariamente tenemos que planicar nuestra experimentacin con el objetivo de separar estas dos fuentes o de variacin. Es por eso que se consideran los bloques denidos como: o Bloque: es un grupo de material experimental homogeneo; este puede ser dividido en unidades experimentales sobre los que se aplican los tratamientos Comentario del libro de Box-Hunter-Hunter: Bloquee lo que pueda, aleatorize lo que no pueda Este comentario est en el fondo de toda la experimentacin llevada a cabo a o usando los conocimientos estad sticos. Un experimento bien dise ado es un exn perimento que a pesar de las dicultades inherentes al sistema es capaz de soportar un modelo que aporta informacin con un m o nimo de ensayos experimentales. Ahora bien, en cada ensayo obtenemos informacin contaminada por los factores o no controlados, de manera que es necesario medir el tama o de la dispersin o n o la variabilidad de los resultados obtenidos en distintas realizaciones del ensayo bajo condiciones similares.
El problema bsico del dise o de experimentos es decidir qu conguracin de a n e o puntos caracteristicos en una regin de inters revelar mejor los aspectos del probleo e a ma, pero como hemos venido viendo, el caracter iterativo del aprendizaje tambin se e presenta aqu pues para saber cual es la mejor conguracin hay que conocer como se , o comporta, y para conocer como se comporta es necesario realizar los experimentos!. Por supuesto si se pueden realizar secuencialmente una serie de ensayos con los que se empiecen a revelar los secretosdel fenmeno bajo estudio, se podr mejorar el dise o o a n del experimento y aumentar la resolucin de los resultados. o
6.1. MODELOS EMP IRICOS
71
6.1.
Modelos Emp ricos
Comencemos por entender que los datos, por si solos, no tienen un signicado mas alla del de la diferencia de magnitud (caso real) o magnitud y direccin (caso o vectorial). Los datos comienzan a tener sentido cuando se relacionan con un modelo conceptual del fenmeno que di origen a los datos. Ahora bien, los posibles modelos o o son en la prctica, innumerables, de manera que hay innitos modelos que se pueden a adecuar a los datos observados. Sin embargo el experimentador tiene un conocimiento previo sobre el mecanismo de accin del fenmeno que le permite descartar algunos o o modelos evidentemente inadecuados, pero tambien, a n cuando el experimentador u este muy seguro de c al puede ser el mecanismo, tambin debe considerar algunas u e alternativas y dise ar el experimento de tal manera que se pueda detectar los puntos n en los que el modelo inicial no sea adecuado. La construccin de modelos es una parte o muy importante del trabajo cient co, en el que se ponen a prueba modelos alternativos y los sobrevivientes se someten, junto a otros nuevos modelos, a escrutinio. En general, los experimentadores estn interesados en estudiar relaciones a = f (x1 , x2 , . . . , xk ) (6.1)
donde representa el valor esperado de una respuesta como la cantidad, la calidad, la ecacia, y los xi son niveles de un n mero de variables como el tiempo, u la concentracin, el tipo de catalizador u otras que puedan ser controladas por el o experimentador. En ocasiones el fenmeno estudiado es bien conocido y es posible escribir una o frmula a partir de consideraciones tericas, por ejemplo consideraciones f o o sicas o de balance de masas. Supongamos que una sustancia A es el reactivo y la B el producto y que son aplicables las leyes cinticas de primer orden, entonces la tasa de formacin de e o B en cualquier instante es proporcional a la cantidad de A que a n no ha reaccionado, u esto es, si designamos por al valor medio de la concentracin de B en el tiempo x,1 o d = 2 (1 ) dx con lo que la relacin entre y x puede expresarse como: o = 1 (1 e2 x ) donde 2 es la tasa constante de reaccin. Esta ecuacin es un modelo mecan o o stico o terico porque est basado en una apreciacin de la teor f o a o a sica o mecanicista que gobierna el proceso.
Se supone que 1 mol de B se forma a partir de 1 mol de A y que la concentracin de A cuando o x = 0 es 1
1
72
CAP ITULO 6. EXPERIMENTACION
Ahora bien, es muy frecuente que el mecanismo que gobierna el proceso no se conoce lo suciente o es demasiado complicado para permitir que un modelo exacto sea postulado. En estas casos un modelo emp rico, esto es, una aproximacin a la o funcin f de la ecuacin 6.1 en una regin de inters en que las variables de control o o o e tienen campos limitados, en los que no ser raro que ocurriese por ejemplo, que a relaciones lineales o de segundo orden fueran adecuadas. esto es = 0 + 1 x1 + 2 x2 + . . . k xk (6.2)
= 0 +
i=1
i xi +
i=1 j=1
ij xixj
(6.3)
6.2.
Metodolog de Supercies de Respuesta y dia se os 2k n
Frecuentemente se necesita saber la inuencia de gran n mero de factores sobre u una variable de respuesta, pero algunos de estos factores pueden ser inertes de manera que se debe considerar como detectar estos factores con el menor n mero de experiu metos posibles. Por supuesto, para que se pueda detectar como inuyen las variables independientes o factores en la cantidad o la calidad hay que variar los niveles de los factores, pero es evidente que los dise os factoriales con muchos niveles pueden n requerir un n mero de ensayos que los hace infactibles, por lo que se hace necesario u una estrategia de experimentacin secuencial que permita considerar factores elegio dos en funcin de los resultados de etapas anteriores, con un n mero accesible de o u experimentos La Metodolog de Supercies de Respuesta es una forma sistemtica de realia zar esta experimentacion secuencial, primero considerando factores unicamente a dos niveles: ALTO (+) y BAJO (-) Para k variables se est hablando de experimentos con 2k distintas combinaciones a de los factores. Por esto suelen ser llamados experimentos 2k Cuando los factores son variables continuas como temperatura o presin lo que se o est considerando es una codicacin o cambio de escala de la regin experimental a o o para que quede identicada con el (hiper)cubo cuyos vertices se encuentran localizados en los puntos denidos como (1, 1, . . . , 1).
Si consideramos a X+ el valor de la variable a nivel alto y X al valor de la variable
6.2. METODOLOG DE SUPERFICIES DE RESPUESTA Y DISENOS 2K IA a nivel bajo, la variable codicada es: Xc = X
X+ +X 2 X+ X 2
73
Se dene como efecto de un factor al incremento promedio de la respuesta cuando este factor pasa de (-) a (+) Esto quiere decir: Y+ Y Diseos ortogonales de primer orden n Son llamados as porque permiten ajustar modelos empiricos de primer orden, esto es, modelos en los que se considera que los cambios que ocurrirn en la respuesta media a son proporcionales a tama o de los cambios de los factores o variables independientes. n Por ejemplo, en el caso de que k sea tres, se puede considerar un experimento tipo 23 en el que ocho los ensayos pueden escribires A + + + + B + + + + C + + + +
Este experimento est escrito en el orden estndar, esto es, la primera columna a a se alternan los signos +(comenzando por el signo ) de uno en uno (1 = 20 ), la segunda columna se alternan los signos de dos en dos (2 = 21 ), la tercera de cuatro en cuatro (4 = 22 ) y en general la j-sima columna se construye alternando los signos e +en tandas de tama o igual a 2j1 . n Para el experimento 23 , el modelo emp rico de primer orden se escribe como: Y = 0 + 1 A + 2 B + 3 C + Efectos Principales = 2 * i Este es un ejemplo de un dise o ortogonal de primer orden n
74
Ejemplo: Separacin de fenoles por HPLC (high performance liquid chromatoo graphy). Hay varios factores que inuencian la separacion, Cuales son los importantes? Como se puede optimizar la separacin de fenoles contaminantes en un sistema de o HPLC (que no cambia la composicion del solvente durante la medicin). o Factores: Proporcin de Metanol en la fase movil (metanol:agua) (M) o Concentracin de Acido C o trico (C) Concentracin de Acido Actico (A) o e Estos acidos son agregados a la fase movil porque ellos pueden reducir problemas de punto de cola. La respuesta es la funcion de respuesta cromatograca. 0 A M AM 10.0 C 9.5 AC 11.0 MC 10.7 AMC 9.3 8.8 11.9 11.7
Efecto principal del acido acetico: 1/4(9.5 + 10.7 + 8.8 + 11.7) - 1/4(10.0 +11.0+9.3+11.9) = -0.375 Efecto principal del Metanol: 11.325 - 9.4 = 1.925 Efecto principal del acido citrico: 10.425 - 10.3 = 0. 125 Este ultimo es bastante peque o con respecto a los otros dos. n Efecto de interaccin: o MC = 0.825 ; AM = 0.125, AC = 0.25 Un primer paso de simplicacin en el ajuste de modelos emp o ricos, que es una mxima del procedimiento de aprendizaje cient a co, es considerar el modelo (ecuacin) ms simple para describir la relacin entre las variables (o funciones de estas o a o variables) de control y la variable que queremos controlar o medir. Lo ms simple es a considerar un polinomio de primer grado en estas variables, es decir: Y = 0 + 1 X1 + 2 X2 + . . . + k Xk + (6.4)
donde las variables Xi , i = 1, . . . , k toman los valores de la variable de codicacin o usual. X promedio de los niveles alto y bajo Xcod = (Rango entre los niveles alto y bajo)/2 Aqu k es el n mero de factores (variables de control) usadas en el experimento (o u funcines de las variable usadas). en forma matricial el modelo puede escribirse como o Y = X +
6.2. METODOLOG DE SUPERFICIES DE RESPUESTA Y DISENOS 2K IA
75
donde la la j de la matriz X corresponde al vector (1, X1,j , X2,j , . . . , Xk,j . Si estamos usando un dise o factorial con k factores a dos niveles cada uno (por n simplicidad supongamos que estamos usando el dise o completo) con n0 puntos cenn t trales, entonces la matriz X X ser una matriz diagonal, siendo los valores de la a k k k diagonal igual a (2 + n0 , 2 , . . . , 2 ) y los estimados del vector quedan como (Y , 1/2(Y1+ Y1 ), 1/2(Y2+ Y2 ), . . . , 1/2(Yk+ Yk )) (6.5)
Notese que los resultados de los puntos centrales slo se usan para la estimacin de o o 0 , y esto no parece una explicacin muy satisfactoria del porque se deben incluir. o Puntos Centrales y la estimacin del error puro o Cuando se tiene disponibles repeticiones en el punto central se puede estimar el llamado error de repetibilidad, o error experimental, que no es otra cosa que un estimado de la variabilidad de la respuesta bajo condiciones equivalentes. La variabilidad se puede estimar usando la conocida frmula de la desviacin standard: o o error puro = 2 (Yi,0 Y0 )2 n0 1
Ahora bien, si el modelo que se propone ajusta correctamente los datos observados, es natural pensar que el estimado de la variancia derivado de los residuales, (ver siguiente ecuacin, el error cuadrtico medio) es tambin un estimador de la variabilidad del o a e error experimental.
donde Yi es el valor estimado de la respuesta en la i-esima corrida, y p es el n mero u de parmetros considerados en el modelo lineal. a Por supuesto que al suponer un modelo de primer orden estamos dejando de lado los efectos de interaccin entre los factores de control. Estos efectos engordanl o e estimado de la variabilidad obtenido como ECM , pero no intervienen en el estimado error puro de manera que se puede usar estos dos estimados para realizar una prueba 2 de la bondad de ajuste del modelo mas bien de si existe o no falta de ajuste. En caso o en que la respuesta sea armativa (el modelo no modela bien) entonces los efectos de estas interacciones pueden ser estimados aumentando la matriz X con columnas construidas por medio de la multiplicacin dos a dos (tres a tres, . . .), de las columnas o que corresponen al experimento principal.
ECM = Error Cuadratico Medio (Yi Yi )2 = np
76
El estad stico de la prueba de falta de ajuste es un estad stico de comparacin de o variancias, consideremos M SF A = (Yi Yi )2 (cuadrados error puro) GLresidual GLerror puro
El estadistico F queda como M SF A/error puro , cuya distribucin de referencia, 2 o bajo la hiptesis NO hay falta de ajuste corresponde a una Fisher con los grados de o libertad correspondientes a los denominadores de los factores que intervienen en el estad stico. Puntos Centrales y una prueba de cuadratura En la sub-seccin anterior consideramos el papel de los puntos centrales para el o clculo del error puro o experimental. Consideremos ahora una situacin para la que a o se asume que el modelo correcto es el modelo en (6.4). Consideremos ahora los resultados obtenidos en el llamado punto central del experimento. De acuerdo con la discusin sobre los dise os ortogonales, sabemos que o n los resultados en los puntos centrales no intervienen en el clculo de los estimados de a los coecientes i , i = 1, . . . , k, cuando asumimos que el modelo de primer orden es correcto. Pero, qu pasa si esta suposicin no es correcta ?, cmo darse cuenta? e o o El promedio de los valores observados en los vertices del dise o, estiman el valor n de 0 , bajo la suposicin de que el modelo de primer orden es el correcto, pero si el o modelo es uno de segundo orden entonces se est estimando el valor de 0 + ii (ver a ecuacin (6.6) ms abajo). As la diferencia entre los promedios de estas observaciones o a y de las observaciones en el punto central estimar ii y el error estandard para a este estimado viene dado por 1/n0 + 1/2kp. (Para ver si es grande o peque o se usa el estad n stico t de comparacin de medias o ).
6.3.
Bloques en dise os factoriales n

Ejemplo: Un experimento del tipo 23 pero cada dia se pueden obtener unicamente 4 datos
Se prevee que una variable conocida puede introducir heterogeneidad
Se requiere estimar los efectos principales (y las interacciones de orden peque o) n libre de los efectos del bloque.
6.4. DISENOS 2K FRACCIONALES
77
Para esto es necesario que aparezcan en las columnas de signos la misma cantidad de (+) que de (-). Solucin: Usar las columnas de las interacciones de orden superior para detero minar las corridas que deben ir en cada bloque. 23 en orden estandar: ABC = (-, + + , - , + , - , - , +) Dos bloques
A + +
B + +
C + +
A + +
B + +
C + +
6.4.
Dise os 2k fraccionales n
Estos son dise os exploratorios que pueden brindar informacin sobre los efector n o k principales aun cuando no se realicen todos los 2 experimentos. Con un experimento 2k completo se pueden estimar 2k efectos (k efectos principales, k(k 1) efectos de interaccin de segundo orden, . . .). o Escogencia de una fraccin (de tama o 2kp ) de manera que se puedan estimar o n los efectos de primer orden. Algo se pierde: Modelo ajustado: Y = X 1 1 + 1 Modelo ms cercano a la realidad: a 1 Y = [X1 ; X2 ] + 2 Estimados por m nimos cuadrados:
t t 1 = (X1 X1 )1 X1 Y
78 Valor esperado: E 1
t t = (X1 X1 )1 X1 E(Y )
1 t t = (X1 X1 )1 X1 [X1 ; X2 ] 2
t t = 1 + (X1 X1 )1 X1 X2 2 t t La matriz A = (X1 X1 )1 X1 X2 se la llama matriz de alias .o matriz de confusiones (de los parmetros) a
Escogencia de la fraccin de manera que los efectos principales (y posiblemente o las interacciones de segundo orden) esten lo ms desconfundido s que se pueda. a Relacin de denicin o o Para construir un dise o 2kp balanceado es necesario escoger p columna s de n signos entre las interacciones de orden superior. Por ejemplo, en el caso de tener k = 6 factores, se puede escoger un dise o de tama o 16 considerando las n n fracciones que corresponden a las combinaciones de signos: I = ABCD = ACEF La relacin de denicin de la fraccin permite calcular el patrn de confusin o o o o o Algebra de columnas (+,-) I es una columna con todas las entradas (+) Cualquier columna de signos multiplicada por si misma da I Cualquier columna multiplicada por I da la misma columna
Denicion Resolucin = 1 + orden de interaccin ms baja confundida con o o o a un efecto principal. Dise os saturados: Dise os de resolucin III que no dejan grados de libertad n n o para estimacin del error. o Cuando los efectos son signicativos? Como los efectos se calculan como diferencias de promedios entonces la variancia de un efecto es: 2 V ar(Ef ecto) = pf 2 As un efecto ser importante cuando sea bastante ms grande que su desvia, a a cin estndar ( V ar(Ef ecto)) o a
6.4. DISENOS 2K FRACCIONALES
79
No hay replicas, qu se puede hacer para estimar la variabilidad de un efecto?. e Podemos suponer que los efectos de las interacciones triples y cuadruples son despreciablesy lo que estamos viendo alli son variabilidades entre promedios debida, principalmente a la variabilidad de los errores aleatorios V ar(Ef ecto) en este caso: 1 1,50 [(0,75)2 + (0,50)2 + (0,25)2 + (0,75)2 + (0,25)2 ] = = 0,30 5 5 con lo que la desviacin del efecto es 0,30 = 0,55. o Ensayo 0 A B AB C AC BC ABC D AD BD ABD CD ACD BCD ABDC Y 71 61 90 82 68 61 87 80 61 50 89 83 59 51 85 78 Orden (8) (2) (10) (4) (15) (9) (1) (13) (16) (5) (11) (14) (3) (12) (6) (76) Estimado 72.25 -8.00 24.00 1.00 -2.25 0.75 -1.25 -0.75 -5.50 0.00 4.50 0.50 -0.25 -0.25 -0.75 -0.25 Variable A Carga catalizador (lb) B Temperatura (C) C Presin (psi) o D Concentracin ( %) o 10 220 50 10 + 15 240 80 12 SUMA de (efectos despreciables) 2 N mero de efectos despreciables u
Interpretacin: o Un incremento en la carga de 10 a 15 libras reduce la conversin en cerca o de 8 %. Parece que un incremento en presin puede reducir la conversin en cerca o o del 2 %. Como existe interaccin entre la temperatura y la concentracin, los efectos o o de estas variables deben ser vistos en conjunto:
80
+ 55 . . . 65
+ 84 . . . 85
Altas temperaturas producen alta conversin, pero a bajas temperaturas, o un incremento en la concentracin reduce la conversin, mientras que en o o altas la concentraci no parece jugar un papel preminente. o
6.5.
Dise os centrales compuestos n
Estos dise os permiten ajustar modelos emp n ricos de segundo orden, Y = 0 +

i=1,k
i Xi +
i<=j
ij Xi Xj +
(6.6)
La idea es conseguir los grados de libertadsucientes para ajustar el modelo de segundo orden completo. Notacin: o 1. nc n mero de ensayos (corridas) que corresponden a un experimento factorial a u dos niveles, posiblemente fraccionado, posiblemente con rc replicas (repeticiones del experimento completo. Es decir nc = 2kf rc . 2. ns n mero de experimentos que ser realizan para completar los cinco niveles u de las variables de control, que corresponden a la idea de los experimentos uno por vez. Se les acostumbra llamar puntos estrella (ver gura). Tambin pueden e replicarse (la estrella completa un n mero rs de veces), de manera que ns = 2krs u 3. n0 es, como antes, el n mero de repeticiones del punto central. u Funcin de Variancia de la prediccin: o o V ar(Y ) = 2 xt Xt Xx (6.7)
Se dice que un dise o es rotable si la funcin de variancia solo depende del tama o n o n (norma) del vector (x). En los dise os centrales compuestos esto se logra pidiendo n que nc 1/4 = rc
6.6. EXPERIMENTOS CON MEZCLAS
81
Ahora bien, si se desea partir el experimento en varios bloques de forma balanceada para estimar el efecto del bloque sin confusin con efectos principales o efectos de o interes, entonces, con el n de garantizar est propiedad, hay que balancearl n mero a e u de puntos centrales a ser realizados en cada bloque.
6.6.
Experimentos con Mezclas
Productos cuya calidad no depende de la cantidad total de los ingredientes en la mezcla sino de las proporciones de los mismos Xi : Proporcin del i-esimo componente o k: N mero de componentes u 0 Xi 1
k
Xi = 1
i=1
Estas restricciones introducen una dependencia (matemtica) entre las compoa nentes Para k = 2
X 2
X1 +
X2 = 1
X 1
Modelo lineal general

k
E(Y ) = 0 +
i=1
i Xi
util cuando se considera que la combinacin de componentes no produce sinergia o ni antagonismo (medidos en funcin de la variable de respuesta) o
82 Modelo cuadrtico general a

k
E(Y ) = 0 +
i=1
i Xi +
ij
ij Xi Xj
Los parmetros ajustados no son unicos; una solucin posible: a o

q1
Xq = 1
Xi
o=1
En este caso el efecto del q-esimo componente est obscurecido a Mejor usar la forma cannica(usando que 1 = o E(Y ) =
i k i=1
Xi )
i Xi
con i = 0 + i . Para el modelo cuadrtico a E(Y ) =

i
i Xi +
i<j
ij Xi Xj
6.6.1.
Dise os sin restricciones en los componentes n
En este caso cualquier mezcla pura puede ser usada Dise os simplex para un modelo de grado m, referidos como dise os {q, m} n n Las proporciones de cada componente toman m + 1 valores equiespaciados entre 0 y 1 1 2 Xi = 0, , , . . . , 1 m m Se toman todas las posibles combinaciones en las proporciones anteri ores Dise o 3,3 n
2 1 (x1 , x2 , x3 ) = {(1, 0, 0), (0, 1, 0), (0, 0, 1), ( , , 0), 3 3 2 1 ( , 0, ), . . . 3 3 q+m1 puntos de medicin o En total hay m

6.6. EXPERIMENTOS CON MEZCLAS
83
6.6.2.
Dise os con restricciones en los componentes n
Es bastante frecuente que en una mezcla las componentes puras no sean sicamente obtenibles o estas no sean de interes Pseudo-componentes: Se usan para los problemas en los que las componentes estn acotados inferiormente: Xi Li a Xi = 1 Xi L i
k j=1
Lj
Cuando una o varias proporciones de las componentes tienen restricciones superiores se pueden modicar los dise os simplex substituyendo las componentes n restringidas con mezclas con proporciones dadas de las componentes no restringidas Se quiere encontrar una formulacin para un coctel de frutas con jugos de o patilla, parchita, pi a y naranja. De antemano se sabe que este coctel debe n contener no mas del 80 % de jugo de patilla 0,8 0,8 0,8 0,4 0,2 0,0 0,1 0,2 0,0 0,2 0,1 0,2 0,0 0,0 0,0 0,2 | | | | 0,8 0,0 0,0 0,0 0,8 0,0 0,0 0,2 ... ... ... ... 0,4 0 0,3 0,3
Cuando se tienen restricciones tanto superior como inferiormente la regin de o interes es un conjunto convexo de multiples caras 0 L i Xi U i 1 Las restricciones se llaman consistentes cuando todas y cada una de las proporciones extremas de las componentes pueden ser obtenidas Las restricciones siguientes son inconsistentes: 0 x1 0,1 0,1 x2 0,2 0,6 x3 0,8 Es necesario ajustar estos l mites para que sean consistentes (con el objeto de procurar dise os de vertices consistentes) n
84
CAP ITULO 6. EXPERIMENTACION En las regiones altamente restringidas se usan dise os: n De vertices Denicin de una regin elipsoidal o o x1 c 1 h1
2
x2 c 2 + h2
xq c q +...+ hq
donde (c1 , c2 , . . . , cq ) dene el centro de la regin de interes y 2hi representa o el rango del i-esimo componente
Cap tulo 7 Herramientas estad sticas para el Aseguramiento de la calidad.

7.1. Grcas de control a
Normas Relacionadas
Covenin 3140:1995, 3208:1996
Las grcas de control son herramientas que sirven para analizar dinmicamente a a la conducta del proceso al tomar muestras temporalmente y examinar alguna caracter stica del producto. Las grcas de control estad a sticas se usan para evaluar la estabilidad del proceso en cuanto a la localizacin y dispersin de la variable que representan la o o caracter stica. Los grcos de Control de Shewhart se construyen gracando alguna medida a estad stica para una serie de muestras o subgrupos, en orden cronolgico. o Es usual agrupar N observaciones en n subgrupos de tama o k. n n puede representar el n mero de lote de produccin mientras que k es el u o n mero de productos examinados en ese lote u En la grca se muestra una l a nea central, que se espera corresponda al valor de la especicacin requerida para la caracter o stica y l neas de aviso, o l mites de control. Qu debemos esperar observar en las grcas de control cuando el e a proceso est trabajando bajo CONTROL? a 85
86CAP ITULO 7. HERRAMIENTAS ESTAD ISTICAS PARA EL ASEGURAMIENTO DE LA CALIDAD Cualitativamente podemos decir que la grca de control debe ser no infora mativa, que no se identique ning n patrn de conducta en las mediciones u o de la caracter stica en estudio. No deben existir tendencias lineales, cuadrticas, sinosoidales o cualquier a otra que determine que el proceso est condicionado a alguna dependencia e temporal. No deben existir mediciones fuera de los l mites naturales del proceso, entendiendose por estos, los l mites determinados por la variabilidad resultante de las causas comunes o no asignables. Como se determinan los l mites de control ? Si identicamos cual es la variable aleatoria Y que est bajo estudio, los a l mites de control se determinan en funcin tanto de la variabilidad de esta o variable como por consideraciones estad sticas y/o econmicas. o Los l mites deben ser: Lo sucientemente sensibles para que cuando haya un cambio este sea detectado Lo sucientemente robustos para que no ocurran muchas falsas alarmas debido a la variabilidad natural del proceso. Es com n dise ar los grcos de control estimando la variancia y la localizacin u n a o de la variable aleatoria Y y deniendo la l nea central, LC, y los l mites superior de control, LSC, e inferior de control, LIC, como LSC = Y + 3Y LC = Y LIC = Y 3Y Hay que suponer que durante el tiempo de observacin, el proceso se puede o considerar como estable. Usualmente se consideran tanto grcas de la localizacin como de la dispersin a o o y se se interpretan conjuntamente. Grca de control para las observaciones a En este caso Yi = Xi .
7.1. GRAFICAS DE CONTROL
87
Calcular X (que estima localizacin) y X (que estima variancia), donde o X = con lo que se obtiene: LSC = X + 3X LC = X LIC = X 3X Grca de Control para promedios a Aqu Yj = Xj con j = 1, 2, . . . , n, con agrupacn de k datos o Estimacin de localizacin mediante Y = X y de la dispersin mediante o o o n 1 el uso de R = j=1 Ri
n N 1 (Xi X)2 N 1 i=0
Ri es el rango del i-esimo subgrupo. Y = d2 k R
LSC = X + A2 R LC = X LIC = X A2 R donde A2 =

3 . d2 k
A2 est tabulada en la Tabla 6, Norma Covenin 3140, pag. 6. a Grca de Control para promedios: a Aqu Yj = Xj con j = 1, 2, . . . , n con agrupacin de k datos. o Estimacin de dispersin usando , el proEstimacin de localizacin: X. o o o o medio de los i : desviaciones estndar de cada subgrupo. a Y = c2 k
LSC = X + A1 LC = X LIC = X A1 A1 =
3 , c2 k
est tabulada en la Tabla 7, Norma Covenin 3140, pag. 6. a
88CAP ITULO 7. HERRAMIENTAS ESTAD ISTICAS PARA EL ASEGURAMIENTO DE LA CALIDAD Grca de Control para Dispersin (Rangos) a o En este caso Yj = Rj con j = 1, 2, . . . n. Estimacin de localizacin y dispersin con R, el promedio de los Ri coo o o rrespondiente a los rangos de cada subgrupo. Y = d3 R d2
LSC = D4 R LC = R LIC = D3 R D3 = 1 3d23 y D4 = 1 + 3d23 . d d D3 y D4 estn tabuladas en la Tabla 6, Norma Covenin 3140, pag. 6. a Ejemplo: La siguiente tabla contiene los valores de concentracin (en ppm) de o una sustancia en aguas residuales. Las aguas provienen de un proceso que su supone estable. Se tienen veinticinco muestras de tama o k = 5. n
i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 Concentracin (ppm) o 74.002 73.993 74.010 74.003 74.005 74.006 73.986 74.000 74.001 73.996 74.004 73.999 74.021 74.003 73.983 73.978 73.992 73.999 74.028 73.992 74.014 74.008 74.014 73.999 74.009 74.002 74.006 74.005 73.998 73.994 73.994 73.994 73.988 73.998 74.005 74.009 74.002 74.003 74.008 73.999 73.989 74.001 74.006 74.009 74.004 73.987 73.991 74.004 74.008 74.003 74.004 74.006 74.001 74.012 73.987 73.984 74.009 74.009 73.990 73.991 74.015 73.997 73.996 74.012 73.996 73.988 74.001 74.012 73.986 73.988 73.989 74.000 74.013 73.989 74.011 X = Xi 74.000 74.007 74.001 73.998 74.005 74.000 74.003 74.003 74.006 74.003 73.997 74.001 74.003 73.995 74.006 73.999 74.000 74.006 73.997 73.999 74.001 73.994 74.005 73.997 74.005 R= Ri 0.017 0.010 0.030 0.009 0.038 0.042 0.043 0.017 0.008 0.015 0.025 0.016 0.009 0.012 0.013 0.025 0.037 0.015 0.026 0.019 0.024 0.026 0.033 0.020 0.023 0.022
73.993 74.007 74.004 73.995 74.009 74.020 73.997 74.000 74.003 74.007 73.998 74.001 74.005 73.989 74.000 74.002 74.013 73.997 74.001 74.008 73.991 73.986 74.019 74.001 74.008
74.001 74.012 74.016 73.995 74.011 74.009 73.985 73.996 74.010 74.009 74.013 73.994 73.999 73.997 74.012 74.012 73.976 74.012 74.006 73.997 74.006 73.987 74.006 74.008 74.006 74.001
Continuacin: Se tomaron 15 muestras adicionales, del agua residual, tama o o n cinco, las mediciones de la concentracin de contaminante se muestran en la o tabla:

Group Summary Statistics 73.990 74.005
89
Grafica X barra Concentracion (ppm)
UCL
LCL 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 Group Number of Groups = 25 Number beyond limits = 0 Target = 74.0013138 Number violating runs = 0 Lower Control Limit = 73.987033 Upper Control Limit = 74.0155945 UCL
Group Summary Statistics 0.01 0.03 0.05
Grafica R Concentracion (ppm)

LCL 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 Group Number of Groups = 25 Number beyond limits = 0 Number violating runs = 0 Target = 0.0220704 Lower Control Limit = 0.0029911 Upper Control Limit = 0.0555259
Figura 7.1: Grcas X, R, n = 25, k = 5, proceso estable a

i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Concentracin (ppm) o 74.015 73.996 73.999 74.001 74.008 74.029 73.998 73.993 73.993 73.997 73.996 73.997 73.995 73.996 74.011 74.007 74.014 73.994 73.995 73.982 73.997 73.985 74.001 74.007 73.984 73.997 74.007 73.994 74.001 74.005 74.006 74.030 74.004 74.016 74.020 74.012 74.001 74.025 74.004 74.012 74.022 74.020 74.016 73.995 74.015 X = Xi 74.000 74.007 73.996 73.996 74.000 74.006 73.995 74.003 74.000 74.005 74.014 74.013 74.010 74.016 74.012 R= Ri 0.021 0.032 0.005 0.022 0.016 0.020 0.030 0.028 0.028 0.021 0.036 0.025 0.023 0.019 0.022 0.023
73.994 73.997 73.997 74.008 74.003 74.000 73.991 74.006 74.012 74.015 73.998 73.995 74.009 74.003 74.018
73.997 74.002 73.998 73.985 73.997 74.012 74.012 74.014 74.000 74.008 74.034 74.020 74.009 74.022 74.014 74.005
Continuacin: Se tomaron 15 muestras adicionales, del agua residual, tama o o n cinco, las mediciones de la concentracin de contaminante se muestran en la o tabla:
i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 74.011 73.994 74.014 74.017 73.998 73.991 73.987 73.981 74.011 74.004 74.000 74.039 74.056 73.979 74.024 Concentracin (ppm) o 73.997 74.004 74.025 73.980 73.998 73.985 74.010 73.992 73.999 73.996 73.988 73.986 73.992 73.997 73.999 74.014 74.005 74.000 73.996 74.013 73.992 74.015 74.010 74.007 74.010 74.003 74.000 74.006 74.017 73.998 74.033 73.988 74.026 74.019 74.052 73.999 74.004 73.998 73.994 74.008 74.037 73.998 73.960 73.975 74.025 X = 74.011 73.993 73.997 74.010 73.991 73.998 74.004 73.996 74.004 73.997 73.984 73.957 73.996 74.018 73.947 74.002 Xi 74.010 73.990 74.002 74.000 73.996 74.001 73.998 74.002 74.006 74.004 74.006 74.013 74.010 74.008 73.986 R= Ri 0.029 0.018 0.022 0.031 0.008 0.023 0.026 0.034 0.010 0.020 0.049 0.095 0.062 0.058 0.078 0.038
90CAP ITULO 7. HERRAMIENTAS ESTAD ISTICAS PARA EL ASEGURAMIENTO DE LA CALIDAD

UCL

LCL 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Group Number of Groups = 15 Number beyond limits = 0 Target = 74.0048159 Number violating runs = 1 Lower Control Limit = 73.9903653 Upper Control Limit = 74.0192665 UCL

LCL 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Group Number of Groups = 15 Number beyond limits = 0 Number violating runs = 0 Target = 0.023301 Lower Control Limit = 0.0030267 Upper Control Limit = 0.0561864
Figura 7.2: Grcas X, R, n = 15, k = 5, L a mites propios
Grca de Control para Dispersin (Desviacin Estndar) a o o a
Ahora Yj = j con j = 1, 2, . . . , n. Estimacin de localizacin y dispersin o o o con , el promedio de los i correspondiente a las desviaciones estndar de a cada subgrupo. LSC = B4 LC = LIC = B3 B3 y B4 estn tabuladas ver Tabla 7, Norma Covenin 3140, pag. 6. a
4.2 Aspectos para el anlisis de la grcas de control a a Anomal del proceso son posibles cuando: as Al menos una realizacin de la medicin de la caracter o o stica en estudio cae fuera de los l mites de control; Al menos dos (2) de tres (3) realizaciones sucesivas caen del mismo lado a ms de dos (2) desviaciones estndar de la l a a nea central;

91

UCL

Figura 7.3: Grcas X, R, n = 15, k = 5, L a mites proceso estable
Al menos cuatro (4) de cinco (5) realizaciones sucesivas caen del mismo lado a ms de una (1) desviacion estndar de la l a a nea central; Al menos ocho (8) realizaciones sucesivas caen del mismo lado con respecto a la l nea central; Al menos diez (10) de once (11) realizaciones sucesivas caen al mismo lado con respecto a la l nea central; Al menos doce (12) de catorce (14) realizaciones sucesivas caen al mismo lado con respecto a la l nea central;
92CAP ITULO 7. HERRAMIENTAS ESTAD ISTICAS PARA EL ASEGURAMIENTO DE LA CALIDAD
Group Summary Statistics 73.9874.0074.02
UCL


Figura 7.4: Grcas X, R, n = 15, k = 5, L a mites propios
UCL

LCL 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Group Number of Groups = 15 Number beyond limits = 1 Target = 74.0013138 Number violating runs = 3 Lower Control Limit = 73.987033 Upper Control Limit = 74.0155945

UCL
LCL 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Group Number of Groups = 15 Number beyond limits = 4 Target = 0.0220704 Number violating runs = 1 Lower Control Limit = 0.0029911 Upper Control Limit = 0.0555259
Figura 7.5: Grcas X, R, n = 15, k = 5, L a mites proceso estable
Cap tulo 8 Glosario de Terminos

Analito o Componente Una especie qu mica contenida en una muestra de material. Calibracin El proceso de contruir un modelo que pueda ser usado para o predecir caracter sticas o propiedades de muestras desconocidas. El modelo es construido a partir de un conjunto de datos de calibracin que miden o una respuesta posiblemente multivariada (R) y las correspondientes concentraciones o caracter sticas conocidas (C). Conjunto de entrenamiento o de calibracin Coleccin de muestras o o que son usadas para construir un modelo de calibracin. o Identicacin Proceso realizado en el laboratorio anal o tico para establecer la presencia de un analito. Determinacin o cuanticacin Proceso realizado en el laboratorio o o anal tico para establecer la cantidad presente de un analito. Validacin cruzada Proceso utilizado para validar modelos que consiso te en dividir la muestra en dos subconjuntos, uno que es usado como el conjunto de calibracin y otro es usado para predecir el conjunto de valio dacin. Este proceso es repetido usando diferentes sub-conjuntos de calio bracin hasta que cada muestra ha sido incluida en al menos uno de estos o conjuntos. Variables de Bloqueo Es una variable usada para dividir los distintos ensayos de un experimento en grupos a los que llamaremos bloques. Estos grupos de ensayos pueden ser realizados independientemente entre si. 93
94
CAP ITULO 8. GLOSARIO DE TERMINOS Por ejemplo, un horno puede tener cabida solo para cinco unidades experimentales pero se desea realizar 20 distintos ensayos, es necesario dise ar el experimento de manera que se puede introducir en el anlisis n a las correcciones debidas a posibles diferencias entre los bloques (las cuatro horneadas). Categorica Es cualquier variable que puede pensarse con unicamente un n mero de categorias discretas, tales como marca, color, existencia u o no de una cierta propiedad, etc. Cada valor de la variable categorica se le llama nivel. de Mezcla Estas son variables continuas que obtienen valores entre cero y uno, con las suma de todas ellas igual a uno. El interes del experimentador es la dependencia de la respuesta en las proporciones relativas en lugar de en las cantidades absolutas. Modelo cuadrtico a Es aquel en el que se pretende modelar el cambio de la respuesta en funcin o de los terminos lineales, de interaccin y cuadrticos de las variables de o a dise o. Para dos variables el modelo es de la forma n
2 2 0 + 1 X1 + 2 X2 + 12 X1 X2 + 11 X1 + 22 X2
Modelo Cubico Parcial Este modelo contiene todos los trminos de un e modelo cuadrtico ms trminos de interaccin c bica, pero no contiene a a e o u trminos c bicos puros. e u R2 : Mdida de bondad de ajuste de las regresiones que de ninguna fore ma puede ser usada como determinante de si un modelo de regresin es o correcto. Si S es la suma de cuadrados de los residuos del modelo de regresin, y T es la suma de cuadrados de los valores observados, ajustados o con la media (es decir Y Y ), entonces R2 = 1 S T
Si las sumas de cuadrados son iguales (en magnitud) entonces R2 estar cera ca de cero, indicando que el modelo no explica bien los datos. Sistema: Es un conjunto de entidades que actuan e interactuan para la obtencin de un n espec o co. Estado del sistema: El conjunto de variables necesarias para describir un sistema en un tiempo particular.
95 Sistemas Discretos: Cuando los cambios en las variables de estado ocurren instanteamente en puntos separados del tiempo. Sistemas Continuos: Cuando las variables de estado cambian continuamente con el tiempo Modelo: Representacin del sistema o Para qu? e Para resumir los datosde comportamiento de un sistema en operacin. o Para predecir resultados tanto en el caso de que el sistema est operando e como en el caso en que el sistema no existe en el mundo f sico. Modelos: F sicos: Por ejemplo modelos a escala de aviones Matemticos: Representan el sistema en trminos de relaciones lgicas y a e o cuantitativas que pueden ser manipuladas para estudiar como el sistema reaccionar frente a esos cambios (siempre que el modelo sea adecuado!). a Modelos Mecan sticos: Descripcin del sistema en trminos de relaciones obtenidas de teor eso e a pec ca, como por ejemplo ecuaciones diferenciales basadas en leyes de conservacin de masa, la ecuacin de Maxwell-Boltzmann sobre la cintica o o e de gases enrarecidos (las moleculas interactuan con una fuerza inversamente proporcional a la quinta potencia de la distancia), la relacin del o d movimiento rectilineo uniforme: V = t . La mayoria de los modelos mecan sticos son determinsticos Modelos Convenientes: Simplicacin de las relaciones como en los modelos o de regresin m ltiple. o u %recuperado = 0 + 1 T + 2 %Catalizador Modelos Convenientes El modelo de medidas repetidas xi = + i = 1, . . . n
La componente representa el verdadero valor de la cantidad a ser medida (volumen, densidad, octanaje); corresponde a todas las fuentes de incertidumbre (variabilidad) que cambian los resultados entre mediciones.
96
Bibliografa Notese que el modelo supone implicitamente que estos dos componentes forman la respuesta xi ADITIVAMENTE. La componente se asume constante ... Qu se puede decir de .? e Com describir la variabilidad? o Com describir patrones posibles en los datos? o
Bibliografa
Beebe, (2000). Chemometric. Wiley and Sons, New York. Box, G. E. P., (1976). Science and statistics. Journal of the American Statistical Association, 71, 791799. Box, G. E. P., (1997). Scientic method: The generation of knowledge and quality. Quality Progress, 30,1, 4750. Miller, (2002). Estadstica y quimiometra para qumica analtica. Prentice Hall, Madrid. Porter, T. M., (1986). The rise of statistical thinking 18201900. Princeton University Press, Princeton.

Quimiometria

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Quimiometria

Uploaded by

Copyright:

Available Formats

UNIVERSIDAD SIMON BOL IVAR

Quimiometr a Mtodos estad e sticos aplicados en el laboratorio y al diseo experimental n

Isabel Llatas Salvador Departamento de Procesos y Sistemas

Cap tulo 1 Introduccin o

Reexiones sobre la Estad stica

CAP ITULO 1. INTRODUCCION

CAP ITULO 1. INTRODUCCION

Cap tulo 2 Mediciones e incertidumbre

CAP ITULO 2. MEDICIONES E INCERTIDUMBRE

2.2. SOBRE LOS INSTRUMENTOS DE MEDICION

Sobre los instrumentos de medicin o

CAP ITULO 2. MEDICIONES E INCERTIDUMBRE

Errores, variables aleatorias e incertidumbre

Clasicacin de los errores de medicin o o

Podemos distinguir entre los siguientes tipos de error:

2.4. ANALISIS EXPLORATORIO DE DATOS

Anlisis exploratorio de datos a

CAP ITULO 2. MEDICIONES E INCERTIDUMBRE

0.46 0.47 0.48 0.49 0.50 0.51 0.52 0.53

CAP ITULO 2. MEDICIONES E INCERTIDUMBRE Figura 2.4: Ms incertidumbre: Datos 11 al 22 a

2.4. ANALISIS EXPLORATORIO DE DATOS 19

Figura 2.5: Histograma simtrico e

Figura 2.6: Histogramas asimtricos e Asimetr positiva a

Cap tulo 3 Distribuciones de Referencia

CAP ITULO 3. DISTRIBUCIONES DE REFERENCIA

3.2. DISTRIBUCIONES DE REFERENCIA TEORICAS

Median 84.50 Median 85.40

Max. 89.70 Max. 91.90

S.D 2.90 S.D 3.65

Distribuciones de Referencia Tericas o

CAP ITULO 3. DISTRIBUCIONES DE REFERENCIA

Breve resumen de la teor de probabilidad a

3.2. DISTRIBUCIONES DE REFERENCIA TEORICAS

CAP ITULO 3. DISTRIBUCIONES DE REFERENCIA

Valor esperado y variancia terica o

Variancia: Es el momento de inercia de la densidad de probabilidad X discreta

(xi E(X))2 f (xi ) (x E(X))2 f (x)dx

Dependencia e Independencia de eventos

La distribucin normal y el teorema central o del l mite

CAP ITULO 3. DISTRIBUCIONES DE REFERENCIA

L mites de conanza para la media

3.4. L IMITES DE CONFIANZA PARA LA MEDIA

CAP ITULO 3. DISTRIBUCIONES DE REFERENCIA

Uso de criterio de expertos.

Distribucin conjunta y Propagacin de Erroo o res

3.5. DISTRIBUCION CONJUNTA Y PROPAGACION DE ERRORES

f (x1 , x2 )dx1 dx2

Suma de variables aleatorias

En el caso de las variancias Si las variables son independientes, entonces se tiene

CAP ITULO 3. DISTRIBUCIONES DE REFERENCIA

En lineas generales, si las medidas son INDEPENDIENTES Y = Y a

CAP ITULO 3. DISTRIBUCIONES DE REFERENCIA

3,29 Nmeat = 100 = 90,1 % NF 3,65

UPmeat = Pmeat = 90,1

(D.E.relativa Nmeat )2 + (D.E.relativa N F )2 0,0212 + 0,0142 = 0,026

Mtotal = Pmeat + Ftot = 95,6 UMtotal =

Cap tulo 4 Pruebas de Signicancia, muestreo y experimentacin o

Principio de la Navaja de Occam

4.2. ERRORES EN LAS PRUEBAS

Errores en las pruebas

Comparacin de las medias de dos muestras: o

4.3. ESTRATEGIA DE DECISION Figura 4.1: Descripcin de los datos de concentracin o o

Comparacion de Normal con t con 2 g.l