You are on page 1of 79

Tratamiento Estadstico de Datos Qumicos Utilizando Minitab

UNIVERSIDAD NACIONAL DE INGENIERA


CENTRO DE EXTENSIN Y PROYECCIN SOCIAL

CEPS UNI

Mg. Christian Jacinto Hernndez

Mg. Christian Jacinto H.

Tratamiento Estadstico de Datos Qumicos Utilizando Minitab

INDICE
1. CALIDAD EN EL LABORATORIO QUMICO 1.1 Introduccin ............................................................................................................................................5 1.2 Estadstica en la Qumica Analtica ..........................................................................................................6 1.3 Tipos de errores ......................................................................................................................................6 1.4 Poblacin y muestra ................................................................................................................................7 2. INTRODUCCIN AL MINITAB 2.1 Estadstica y Minitab ...............................................................................................................................9 2.2 Tipos de variables ................................................................................................................................... 9 2.2.1 Categricas .................................................................................................................................... 9 2.2.2 Numricos o cuantitativos .............................................................................................................9 2.3 Elementos de Minitab ...........................................................................................................................10 2.4 Entrada, grabacin y recuperacin de datos .........................................................................................11 2.5 Hoja de trabajo .....................................................................................................................................12 2.6 Opciones del Men Calc. .......................................................................................................................12 2.7 Opciones del Men Data .......................................................................................................................14 3. ESTADSTICA DESCRIPTIVA 3.1 Introduccin ..........................................................................................................................................16 3.2 Parmetros que estiman el valor central ............................................................................................... 16 3.2.1 Media ..........................................................................................................................................16 3.2.2 Mediana ......................................................................................................................................16 3.2.3 Moda ..........................................................................................................................................16 3.2.4 Otras medidas de posicin ..........................................................................................................16 3.3 Parmetros que estiman la dispersin ..................................................................................................17 3.3.1 Amplitud o rango ........................................................................................................................17 3.3.2 Desviacin estndar ....................................................................................................................17 3.3.3 Varianza ......................................................................................................................................17 3.3.4 Desviacin estndar relativa ........................................................................................................17 3.4 Medida de la forma de distribucin .......................................................................................................17 3.4.1 Asimetra .....................................................................................................................................18 3.4.2 Curtsis .......................................................................................................................................18 3.5 Lmites de confianza ..............................................................................................................................19 3.6 Prctica .................................................................................................................................................20 4. ENSAYOS DE HIPTESIS 4.1 Ensayos de hiptesis .............................................................................................................................26 4.2 Tipos de Error I y II ................................................................................................................................26 4.2.1 Nivel de significancia ...................................................................................................................26 4.2.2 P-valor .........................................................................................................................................27 4.3 Pasos de la prueba de hiptesis ............................................................................................................27 4.4 Prueba paramtricas y no paramtricas ................................................................................................27 4.5 Pruebas de normalidad .........................................................................................................................28 4.5.1 Grficos de probabilidad .............................................................................................................28 4.5.2 Prueba de Anderson Darling ........................................................................................................29 4.5.3 Prueba de Kolmogorov-Smirnov ..................................................................................................29 4.5.4 Prueba de Shapiro-Wilks .............................................................................................................29 Ejercicio 1 ............................................................................................................................................29 4.6 Valores anmalos ..................................................................................................................................30 4.6.1 Lmites de confianza ....................................................................................................................31 4.6.2 Prueba Q de Dixon ......................................................................................................................31 4.6.3 Prueba de Cochran ......................................................................................................................31 4.6.4 Prueba de Grubbs .......................................................................................................................32 Mg. Christian Jacinto H. 1

Tratamiento Estadstico de Datos Qumicos Utilizando Minitab

4.7 Comparacin de Resultados con los ensayos de Hiptesis .....................................................................33 4.7.1 Comparacin de una media con un valor referencial ...................................................................33 a. Prueba paramtrica: Prueba t ..........................................................................................................33 Ejercicio 2 ............................................................................................................................................34 b. Prueba no paramtrica: Prueba de Wilcoxon ...................................................................................35 Ejercicio 3 ............................................................................................................................................35 4.7.2 Comparacin de dos varianzas ....................................................................................................36 a. Prueba paramtrica: Test F ..............................................................................................................36 Ejercicio 4 ............................................................................................................................................36 b. Prueba no paramtrica: Test de Barlett y de Levene ........................................................................37 Ejercicio 5 ............................................................................................................................................38 4.7.3 Comparacin de dos medias .......................................................................................................40 a. Comparacin de dos medias homogneas .......................................................................................40 Ejercicio 6 ............................................................................................................................................40 b. Comparacin de dos medias heterogneas ......................................................................................42 Ejercicio 7 ............................................................................................................................................41 c. prueba no paramtrica: Ensayo de Mann-Whitney ...........................................................................44 Ejercicio 8 ............................................................................................................................................44 4.7.4 Comparacin de datos apareados ............................................................................................... 45 Ejercicio 9 ............................................................................................................................................45 4.7.5 Comparacin de mas de dos medias ...........................................................................................46 Ejercicio 10 ..........................................................................................................................................47 a. Prueba no paramtrica: Ensayo de Kruskal-Wallis ............................................................................49 Ejercicio 11 ..........................................................................................................................................49 5. PRUEBAS DE CONTROL 5.1 Introduccin ..........................................................................................................................................51 5.2 Construyendo los grficos de control ....................................................................................................52 5.2.1 Etapa preliminar ..........................................................................................................................53 5.2.2 Etapa de control ..........................................................................................................................54 5.3 Grficas de Control X y R ..................................................................................................................54 5.4 Construccin de las Grficas de Control ............................................................................................... 54 5.4.1 Grficas de Control X ...............................................................................................................54 5.4.2 Grficas de Control R ...................................................................................................................55 5.5 Casos Fuera de Control ........................................................................................................................55 5.6 Grficos de sumas acumuladas (CUSUM) .............................................................................................57 Ejercicio 1 ...................................................................................................................................................58 6. REGRESIN LINEAL 6.1 Introduccin ..........................................................................................................................................60 6.2 Modelo de Regresin Lineal ..................................................................................................................60 6.3 Requisitos para la Regresin Lineal .......................................................................................................61 6.4 Validacin del modelo lineal .................................................................................................................61 6.4.1 Clculo del coeficiente de correlacin .........................................................................................61 6.4.2 Grfico de residuales ...................................................................................................................62 6.4.3 Anlisis de la Varianza (ANOVA) ..................................................................................................62 6.5 Incertidumbre de los Coeficientes de Regresin ..................................................................................63 6.6 Lmite de deteccin ..............................................................................................................................64 Ejercicio 1 ...................................................................................................................................................64 Ejercicio 2 ...................................................................................................................................................65 REFERENCIAS BIBLIOGRFICAS ..................................................................................................................66 ANEXOS ......................................................................................................................................................67

Mg. Christian Jacinto H.

Tratamiento Estadstico de Datos Qumicos Utilizando Minitab

INTRODUCCIN
El concepto de calidad no est relacionado slo al mbito empresarial, o actividades mercantiles, en donde estn involucrados empresarios y clientes. Actualmente se ha convertido en un factor decisivo en cualquier actividad humana, en este sentido, el trabajo en el laboratorio analtico no escapa de esta responsabilidad, ya que sus resultados son decisivos y tienen una gran influencia a nivel comercial, ambiental, sanitario, etc. La qumica analtica genera una gran cantidad de resultados que deben cumplir ciertos criterios segn las normas de calidad en el laboratorio, entre los mas principales la trazabilidad y comparabilidad entre laboratorios, es decir, nuestros resultados deben ser comparables con los de otros laboratorios, de esta manera el cliente est conforme con lo obtenido. Es aqu donde interviene la estadstica, ya que nuestros resultados no estn libres de errores, la estadstica hace clculos de incertidumbre para los diferentes casos de evaluacin de la trazabilidad y comparabilidad de los resultados. Actualmente se hace necesario tener conocimientos de las diferentes herramientas estadsticas y como aplicarlas para las diversas situaciones del tratamiento de los datos qumicos. Es as que se ha creado este curso, en donde el uso de Programas o Paquetes estadsticos se ha hecho indispensable. Minitab, es uno de estos programas estadsticos muy utilizados en los laboratorios qumicos, debido a su fcil uso y trabajar con muchas herramientas estadsticas que son las ms recurridas en el laboratorio qumico; adems de ser compatible con Excel, la hoja de clculo universalmente utilizada por nosotros. En la primera parte tratar la importancia de las herramientas estadsticas en el trabajo de calidad en el laboratorio qumico, luego describiremos las caractersticas de Minitab que es necesario reconocer antes de su aplicacin en el tratamiento de datos qumicos. Luego veremos como la estadstica descriptiva y la inferencial (ensayos de hiptesis) nos ayudan a verificar los diferentes casos de trazabilidad y comparabilidad de resultados, la estadstica descriptiva nos evala una serie de datos, y los ensayos de hiptesis hace las comparaciones y nos permiten hacer la toma de decisiones. Por ltimo veremos las herramientas del control estadstico de la calidad, para evaluar la consistencia de nuestros resultados en el tiempo; y, las rectas de regresin, para tambin aplicarlos a casos de comparabilidad y curvas de calibracin. Finalmente, es mi deseo que este curso sea til y aprovechado por todos aquellos que de alguna forma estn involucrados en el trabajo del laboratorio qumico, y no solo en los laboratorios de ensayo, sino tambin, es muy til en el trabajo de investigacin.

Christian Jacinto Hernndez

Mg. Christian Jacinto H.

Tratamiento Estadstico de Datos Qumicos Utilizando Minitab

CAPTULO PRIMERO

CALIDAD EN EL LABORATORIO QUMICO

Mg. Christian Jacinto H.

Tratamiento Estadstico de Datos Qumicos Utilizando Minitab

1.1 Introduccin

a calidad tiene y tendr una consideracin creciente en mbitos sociales, cientficos y tecnolgicos. En el ltimo tramo del siglo XX puede afirmarse que es una preocupacin constante para empresarios, tecnlogos y usuarios en general. La qumica analtica es la Ciencia Metrolgica Qumica cuya misin fundamental es la generacin de informacin cualitativa, cuantitativa y estructural sobre cualquier tipo de materia o sistema. La relacin entre calidad y laboratorio puede tener diferentes enfoques. Por una parte debe considerarse la Calidad Externa referido a los productos o sistemas que son los objetivos del ente pblico o privado del cual depende el laboratorio. La Calidad Interna del laboratorio analtico comprende la calidad del trabajo que se realiza y la calidad de los resultados que se generan. Esta ltima acepcin es la mas utilizada para definir la calidad en los laboratorios analticos. Entonces la Calidad del Laboratorio Analtico puede definirse como el conjunto de caractersticas de informacin generada que satisfacen las demandas/exigencias del organismo pblico/privado del que depende y/o del cliente o usuario. Las propiedades analticas pueden considerarse divididas en dos grupos segn su importancia relativa: las denominadas bsicas como exactitud, precisin, sensibilidad, selectividad y rapidez; y las complementarias tales como coste, grado de participacin humana (automatizacin), robustez, seguridad para el personal, etc.
Representatividad

Exactitud

Calidad de los resultados analticos

Muestreo

Precisin

Selectividad

Sensibilidad

Calidad en el Trabajo Analtico

Fuera del laboratorio

En el laboratorio

Figura 1.1. Criterios de Calidad en el Laboratorio Qumico

Con el uso de materiales de referencia y comparaciones interlaboratorios o pruebas de aptitud se puede otorgar trazabilidad y comparabilidad a las mediciones que realizan diferentes laboratorios. La experiencia y conocimiento actual nos permite establecer que para controlar y asegurar la calidad de los resultados de mediciones, nunca sern suficiente las medidas que se tomen y se deber establecer una relacin de costo beneficio entre los requerimientos de informacin y la certeza de la misma, toda vez que las mediciones siempre estn sujetas a un grado de incertidumbre. Es as que se requiere tambin de armonizacin de los sistemas y/o procesos de medicin a nivel nacional regional e internacional, que aseguren el uso de:

Mg. Christian Jacinto H.

Tratamiento Estadstico de Datos Qumicos Utilizando Minitab

Procedimientos armonizados de validacin de mtodos analticos que permitan asegurar la comparabilidad de los parmetros tales como lmites de deteccin, lmites de cuantificacin, sensibilidad, etc. Procedimientos para determinar la incertidumbre. Procedimientos para establecer la trazabilidad. Materiales de referencia, y Participacin en pruebas de aptitud. Asimismo, los laboratorios de anlisis pueden suscribirse al uso de sistemas de control y aseguramiento de la calidad que presentan sus lineamientos bajo normas o guas, tales como la ISO/IEC 17025 que describe los requerimientos generales para la competencia de laboratorios de ensayo y calibracin. Finalmente, y en orden a establecer la comparabilidad de las mediciones se requiere de la aplicacin y uso correcto del proceso analtico, establecer una adecuada cadena de trazabilidad y establecer la conmutatividad entre la muestra real y el uso de materiales de referencia. 1.2 Estadstica en la qumica analtica La Qumica Analtica en su papel de ciencia metrolgica qumica tiene una amplia vinculacin con la estadstica. Ello se desarrolla, bsicamente a travs de lo que se denomina como Quimiometra, que es la aplicacin de mtodos matemticos, estadsticos, grficos o similares para maximizar la informacin qumica que puede extraerse de un conjunto de datos. Las medidas experimentales generan la informacin analtica, y es un hecho que cualquier medida est sujeta a una variabilidad y esta se va extender a los resultados y a la informacin final en forma de una incertidumbre. En este contexto, uno de los objetivos ms inmediatos de la estadstica es la estimacin del valor ms probable con su variabilidad correspondiente. 1.3 Tipos de errores La variabilidad de las medidas puede deberse a errores experimentales, estos pueden clasificarse en sistemticos y aleatorios. Los errores sistemticos, o tambin llamados errores determinados, son errores constantes que se pueden detectar y corregir. Un ejemplo podra ser el uso de un medidor de pH estandarizado incorrectamente. Los errores sistemticos siempre afectan en el mismo sentido y pueden detectarse utilizando estndares. La caracterstica clave del error sistemtico es que, tomando precauciones y trabajando con esmero, puede detectarse y corregirse. El error aleatorio tambin se denomina como error indeterminado. Se debe a las limitaciones naturales para realizar las mediciones. Como su nombre lo indica, el error

Mg. Christian Jacinto H.

Tratamiento Estadstico de Datos Qumicos Utilizando Minitab

aleatorio es a veces positivo y a veces negativo. Siempre existe, no puede ser corregido y es la limitante definitiva de las determinaciones experimentales. 1.4 Poblacin y Muestra Uno de los intereses fundamentales del analista es la obtencin de valores que sean una buena estimacin del valor verdadero y el error asociado conlleva dicha estimacin. Para ello se deben llevar a cabo repeticiones del proceso analtico y se han de introducir conceptos estadsticos. Dentro del contexto de un laboratorio, la poblacin consiste en todas las posibles determinaciones que puedan llevarse a cabo, mientras que la muestra es solo una pequea parte, es decir las determinaciones que realmente se llevan a cabo.

Figura 1.2. Ejemplo de Poblacin y Muestra

Cuando la frecuencia con que aparece cada valor en una serie de repeticiones suficientemente grande vara en forma de campana o curva gaussiana, se dice que existe una distribucin normal (ver figura ). Esta curva se caracteriza por el valor del mensurando que aparece con mayor frecuencia y por los puntos de inflexin situados a ambos lados del lado central. Como la curva es simtrica, el valor es el mismo a ambos lados. Estos puntos caractersticos coinciden respectivamente con la media aritmtica, que sera la mejor estimacin del valor medio, y la desviacin estndar. Figura 1.3. Curva de Distribucin Normal

Mg. Christian Jacinto H.

Tratamiento Estadstico de Datos Qumicos Utilizando Minitab

CAPTULO SEGUNDO

INTRODUCCIN AL MINITAB

Mg. Christian Jacinto H.

Tratamiento Estadstico de Datos Qumicos Utilizando Minitab

2.1 Estadstica y Minitab

a Estadstica es una rama de las Matemticas que facilita la toma de decisiones en base al anlisis de una serie de datos recolectados, y posteriormente procesados y clasificados. Para facilitar el clculo estadstico, uno de los mejores paquetes de herramientas estadsticas es Minitab. Minitab es un software con un diseo muy intuitivo que ofrece un potente conjunto de utilidades enfocadas al clculo estadstico. 2.2 Tipos de Variables Antes de empezar a utilizar Minitab conozcamos como se clasifican las variables ya que es importante al ingresarlos en cualquier software estadstico. Se le llama variable a una caracterstica que toma un valor para cada individuo de una poblacin. Las variables pueden ser de dos tipos: 2.2.1 Categricas Las variables categricas se refieren a caractersticas o cualidades que no pueden ser medidas con nmeros. Podemos distinguir dos tipos: Variable categrica nominal Una variable cualitativa nominal presenta modalidades no numricas que no admiten un criterio de orden. Por ejemplo: - El estado civil, con las siguientes modalidades: soltero, casado, separado, divorciado y viudo. Variable categrica ordinal o variable cuasicuantitativa Una variable cualitativa ordinal presenta modalidades no nmericas, en las que existe un orden. Por ejemplo: - La nota en un examen: suspenso, aprobado, notable, sobresaliente. - Puesto conseguido en una prueba deportiva: 1, 2, 3, ... - Medallas de una prueba deportiva: oro, plata, bronce. 2.2.2 Numricos o cuantitativos Una variable numrica o cuantitativa es la que se expresa mediante un nmero, por tanto se pueden realizar operaciones aritmticas con ella. Podemos distinguir dos tipos: Variable discreta Una variable discreta es aquella que toma valores aislados, es decir no admite valores intermedios entre dos valores especficos. Por ejemplo: - El nmero de hermanos de 5 amigos: 2, 1, 0, 1, 3. Variable continua Una variable continua es aquella que puede tomar valores comprendidos entre dos nmeros. Por ejemplo: - La altura de los 5 amigos: 1.73, 1.82, 1.77, 1.69, 1.75.
Mg. Christian Jacinto H. 9

Tratamiento Estadstico de Datos Qumicos Utilizando Minitab

2.3 Elementos de Minitab Al ejecutar Minitab 15 aparece la pantalla de la Figura 2.1


Barra de Men Barra de Herramientas

Ventana de Sesin

Hoja de Datos

Ventana de proyecto

Figura 2.1. Componentes de la Ventana de Minitab Esta pantalla inicial presenta los siguientes elementos: En la primera lnea aparece la barra de ttulo con el nombre de la ventana y los botones de minimizar, maximizar y cerrar. La barra de mens con los 10 mens que contienen. La barra de herramientas donde, mediante botones con iconos, se representan algunas de las operaciones ms habituales. Si pasamos el puntero del ratn por cualquiera de ellos, aparecer en la pantalla un texto indicando la funcin que se activa. La ventana de sesin (Sesin) es la parte donde aparecen los resultados de los anlisis realizados. Tambin sirve para escribir instrucciones, como forma alternativa al uso de los mens. La hoja de datos (Hoja de trabajo) tiene el aspecto de una hoja de clculo, con filas y columnas. Las columnas se denominan C1, C2, . . ., tal como est escrito, pero tambin se les puede dar un nombre, escribindolo debajo de C1, C2, . . . Cada columna es una variable y cada fila corresponde a una observacin o caso. En la parte inferior aparece (minimizada) la ventana de proyecto (Proyect Manager). En Minitab un proyecto incluye la hoja de datos, el contenido de la ventana de sesin, los grficos que se hayan realizado, los valores de las constantes y de las matrices que se hayan creado, etc. Para activar la Ventana de sesin o la Hoja de datos podemos hacerlo a travs de los iconos de la Barra de herramientas:

Figura 2.2. Botones de Ventana de Sesin y Hojas de Datos

Mg. Christian Jacinto H.

10

Tratamiento Estadstico de Datos Qumicos Utilizando Minitab

2.4 Entrada, grabacin y recuperacin de datos Antes de realizar ningn anlisis estadstico es necesario tener un conjunto de datos en uso, para lo cual podemos proceder de cuatro formas: Escribirlos a travs del teclado. Obtenerlos desde un archivo. Pegarlos. Generarlos por patrn o de forma aleatoria.

Una vez introducidos los datos, estos pueden guardarse en un fichero para poder ser utilizados en cualquier otro momento. Para guardar nicamente la ventana de datos hay que seleccionar: Archivo > Guardar hoja de trabajo actual (Ver Figura 2.2). Si queremos guardar toda la informacin actual del programa (la hoja de datos, el contenido de la ventana de sesin, los grficos que se hayan realizado, los valores de las constantes y de las matrices que se hayan creado, etc.) usaremos la opcin Archivo > Guardar Proyecto o Guardar Proyecto como. Es muy importante diferenciar entre ficheros de datos (.mtw) y ficheros de proyectos (.mpj).

Figura 2.3. Ventana para Guardar una hoja de Trabajo Un archivo slo puede ser recuperado de la forma en que fue grabado. Si se ha grabado como hoja de datos (.mtw) se recupera con la opcin Archivo > Abrir hoja de trabajo (Ver Figura 2.4). Si se ha grabado como proyecto de Minitab (.mpj) se recupera con la opcin Archivo > Abrir Proyecto . Importante: Las Hojas de Excel (extensin .xls) se abre con la opcin Hoja de trabajo. Minitab se entiende muy bien con Excel, puede importar una hoja de datos de Excel usando la opcin Archivo > Abrir hoja de trabajo

Mg. Christian Jacinto H.

11

Tratamiento Estadstico de Datos Qumicos Utilizando Minitab

Figura 2.4. Ventana para Abrir una hoja de trabajo 2.5 Hoja de Trabajo Los datos estn ordenados en columnas, que tambin se denominan variables. El nmero y el nombre de las columnas aparecen en la parte superior de cada columna. Cada fila de la hoja de trabajo representa un caso, que es informacin acerca de un pedido de libros.
Columna con datos de fecha/hora Columna con datos numricos Columna con datos de texto

Nombre de Columna

Nmero de Fila

Figura 2.5. Componentes de una Hoja de Trabajo 2.6 Opciones del Men Calc Para construir una nueva variable mediante transformaciones de otras ya existentes, se tiene que elegir la opcin Calc > Calculadora con lo que se abre la figura siguiente:
Mg. Christian Jacinto H. 12

Tratamiento Estadstico de Datos Qumicos Utilizando Minitab

Nombre de la columna en la que aparecer el resultado

Expresin que se va a calcular

Columna que tienen nombre y/o datos

Figura 2.6. Ventana de la opcin Calculadora Abramos el archivo Pulse.mtw para continuar. Calculemos la media geomtrica de las variables Pulso1 y Pulso2 (raz cuadrada del producto de ambas variables). Para ello, seleccionamos la opcin Calc > Calculadora; en Almacenar resultado en variable tenemos que teclear la posicin de la columna que contendr los resultados; o el nombre que queremos darle a dicha columna. En Expresin tenemos que colocar la operacin que se realiza para determinar la media geomtrica indicada: SQRT( 'Pulso1' * 'Pulso2' ) (Tambin podemos escribirlo a travs del cuadro de Funciones). Por ltimo, pulsamos en Aceptar. La opcin Calc > Estadsticas de columnas calcula, para una columna (o variable), uno de los estadsticos segn la siguiente figura:

Clculos disponibles

Columna sobre la que se har el clculo

Constante (K1, K2) en la que se desea almacenar el resultado

Figura 2.7. Ventana de la opcin Estadsticas de Columnas Vamos a determinar la mediana de los datos de la columna Alto y a guardar el resultado en una constante que vamos a denominar Mediana. Para ello, seleccionamos Calc > Estadsticas de columnas; activamos la opcin Mediana; hacemos clic en el recuadro que hay a la derecha de Variable de entrada y seleccionamos (haciendo doble clic sobre su nombre) la columna Alto; en Almacenar resultado en tecleamos Mediana y pulsamos en Aceptar. Minitab guarda esta constante tambin como K1. Esta constante se puede consultar, en cualquier momento, en la ventana Proyect Manager y puede ser utilizada en clculos posteriores:

Mg. Christian Jacinto H.

13

Tratamiento Estadstico de Datos Qumicos Utilizando Minitab

Figura 2.8. Ventana del Project Manager 2.7 Opciones del Men Data Slo se explicarn algunas de las opciones ms utilizadas del men Datos. a. Apilamiento de columnas Con la opcin Datos > Apilar columnas se pueden apilar varias columnas en una sola. Opcionalmente se puede indicar de que columna procede cada valor mediante una nueva variable (subndices). b. Desapilamiento de columnas La opcin Datos > Desafilar columnas permite separar una columna en varias segn los valores de la columna de alguna variable (que contiene los subndices). Esta opcin es la contraria de la explicada en el apartado anterior. c. Ordenacin de los datos La opcin Datos > Ordenar, ordena los datos de una columna segn los resultados de una o varias columnas. Lo normal es ordenar una columna segn los resultados de dicha columna. d. Ordenacin por rangos La opcin Datos > Clasificar crea una nueva columna que indica la posicin que ocupara cada dato si los ordenramos de menor a mayor. Cuando dos o ms valores de la columna son iguales (empates) se asigna a cada uno de ellos el rango medio de los rangos que tendran si fueran distintos. e. Codificacin o clasificacin de datos La opcin Datos > Codificar permite la clasificacin o codificacin de los datos de una columna. Se puede codificar transformando datos numricos en datos numricos, datos numricos en datos de texto, datos de texto en datos de texto, datos de texto en datos numricos, etc.

Mg. Christian Jacinto H.

14

Tratamiento Estadstico de Datos Qumicos Utilizando Minitab

CAPTULO TERCERO

ESTADSTICA DESCRIPTIVA

Mg. Christian Jacinto H.

15

Tratamiento Estadstico de Datos Qumicos Utilizando Minitab

3.1 Introduccin

a estadstica descriptiva se puede definir como los mtodos estadsticos que pretenden describir las caractersticas ms importantes de un conjunto de datos, sea que provenga de una muestra o de una poblacin. Utiliza tcnicas estadsticas, como la representacin grfica, cuadros estadsticos, medidas de posicin y de variabilidad. 3.2 Parmetros que Estiman el Valor Central Las medidas de tendencia central tienen como objetivo el sintetizar los datos en un valor representativo. Son medidas estadsticas que se usan para describir como se puede resumir la localizacin de los datos. Ubican e identifican el punto alrededor del cual se centran los datos. Las medidas de tendencia central nos indican hacia donde se inclinan se agrupan ms los datos. Las ms utilizadas son: la media aritmtica la mediana y la moda. 3.2.1 Media o Simplemente Promedio ( x ) Es el promedio aritmtico de un conjunto de valores. La media muestral es:
n

i 1

xi

3.2.2 Mediana (m) Es el valor que ocupa la posicin central de un conjunto de observaciones ordenadas. El 50% de las observaciones son mayores que este valor y el otro 50% son menores. 3.2.3 Moda (mo) Es el valor, clase o categora que ocurre con mayor ocurrencia. 3.2.4 Otras medidas de posicin: Percentiles: Son 99 valores que dividen a un conjunto de datos en 100 partes iguales. Cuartiles: Son 3 valores Q1; Q2 y Q3 que dividen a los datos en 4 partes iguales Deciles: Son 9 valores D1, D2; D3; D4; D5; D6; D7; D8 y D9 que dividen a un conjunto de datos en 10 partes iguales. En metrologa se adopta un valor de referencia como valor de verdadero convencional xr, que si es conocido, y por tanto tiene existencia real. Es importante la comparacin de valores experimentales con el valor de referencia. La diferencia entre el valor medio ( x ) y el valor de referencia xr, es una medida del error, y que reciben el nombre de sesgo o veracidad.

Mg. Christian Jacinto H.

16

Tratamiento Estadstico de Datos Qumicos Utilizando Minitab

3.3 Parmetros que Estiman la Dispersin Las medidas de dispersin cuantifican la variabilidad de un conjunto de datos respecto al valor central. Las medidas ms utilizadas son: Rango, Varianza, Desviacin estndar, Desviacin Estndar Relativa, Rango Intercuartlico. 3.3.1 Amplitud o Rango Se define como la diferencia existente entre el valor mayor y el menor de un conjunto de datos.
R xmax xmin

3.3.2 Desviacin Estndar Mide la variabilidad de los datos respecto al promedio, se expresa en las mismas unidades en que venga dada la variable. La desviacin estndar muestral es:
n i 1

(Xi X) 2 S
3.3.3 Variancia El cuadrado de la desviacin estndar se denomina varianza. Las varianzas son aditivas si existen varias causas independientes de variacin en un proceso global. La varianza muestral se expresa s2. 3.3.4 Desviacin Estndar Relativa (RDS) Es una medida de variabilidad de los datos que se expresa en porcentaje en la cual se compara la desviacin estndar con el respectivo valor del promedio de los datos.

__

n -1

RDS

S
__

x 100

X
La estimacin de la dispersin es una medida de la precisin de nuestros resultados. La precisin se puede evaluar en dos condiciones diferentes, como repetibilidad (los datos se obtienen en la misma sesin de trabajo) o reproducibilidad (en sesiones diferentes de trabajo). En algunos casos tambin conviene trabajar en condiciones de reproducibilidad intermedia, es decir mismo laboratorio, pero diferentes das y analistas. 3.4 Medida de la Forma de Distribucin Las medidas de distribucin nos permiten identificar la forma en que se separan o aglomeran los valores de acuerdo a su representacin grfica. Estas medidas describen la manera como los datos tienden a reunirse de acuerdo con la frecuencia con que se hallen
Mg. Christian Jacinto H. 17

Tratamiento Estadstico de Datos Qumicos Utilizando Minitab

dentro de la informacin. Su utilidad radica en la posibilidad de identificar las caractersticas de la distribucin sin necesidad de generar el grfico. Sus principales medidas son la Asimetra y la Curtosis. 3.4.1 Asimetra Evala el grado de distorsin o inclinacin que adopta la distribucin de los datos respecto a su valor promedio tomado como centro de gravedad. El coeficiente de asimetra de Fisher es:

Donde (g1) representa el coeficiente de asimetra de Fisher, (Xi) cada uno de los valores, ( X ) la media de la muestra y (ni) la frecuencia de cada valor. Los resultados de esta ecuacin se interpretan: (g1 = 0): Se acepta que la distribucin es Simtrica, es decir, existe aproximadamente la misma cantidad de valores a los dos lados de la media. Este valor es difcil de conseguir por lo que se tiende a tomar los valores que son cercanos ya sean positivos o negativos ( 0.5). (g1 > 0): La curva es asimtricamente positiva por lo que los valores se tienden a reunir ms en la parte izquierda que en la derecha de la media. (g1 < 0): La curva es asimtricamente negativa por lo que los valores se tienden a reunir ms en la parte derecha de la media. Desde luego entre mayor sea el nmero (Positivo o Negativo), mayor ser la distancia que separa la aglomeracin de los valores con respecto a la media.

Figura 3.1. Tipos de Curvas asimtricas 3.4.2 Curtosis Evala el grado de apuntamiento de la distribucin, el coeficiente de curstosis es:

Mg. Christian Jacinto H.

18

Tratamiento Estadstico de Datos Qumicos Utilizando Minitab

Donde (g2) representa el coeficiente de Curtosis, (Xi) cada uno de los valores, ( X ) la media de la muestra y (ni) la frecuencia de cada valor. Los resultados de esta frmula se interpretan: (g2 = 0) la distribucin es Mesocrtica: Al igual que en la asimetra es bastante difcil encontrar un coeficiente de Curtosis de cero (0), por lo que se suelen aceptar los valores cercanos ( 0.5 aprox.). (g2 > 0) la distribucin es Leptocrtica. (g2 < 0) la distribucin es Platicrtica.

Figura 3.2. Tipos de Curvas curtsicas Cuando la distribucin de los datos cuenta con un coeficiente de asimetra (g 1 = 0.5) y un coeficiente de Curtosis de (g2 = 0.5), se le denomina Curva Normal. Este criterio es de suma importancia ya que para la mayora de los procedimientos de la estadstica de inferencia se requiere que los datos se distribuyan normalmente. 3.5 Lmites de confianza Es la probabilidad de que el verdadero valor del parmetro estimado en la poblacin se site en el intervalo de confianza obtenido. El lmite de confianza se denota por (1-), aunque habitualmente suele expresarse con un porcentaje ((1-)100%). Es habitual tomar como nivel de confianza un 95% o un 99%, que se corresponden con valores de 0,05 y 0,01 respectivamente. Para una distribucin normal y a un nivel de confianza dado, los lmites de confianza estn dado por:
x z n x z n

Cuando el tamao de la muestra disminuye, la ecuacin se modifica para calcular los lmites de confianza, que ahora sera: s x t n Donde t es el parmetro de Student que est tabulado para un cierto nivel de significacin y el nmero de grados de libertad de la serie de resultados considerada. Existen tambin tablas de t de una o de dos colas, segn el acotamiento de las curvas de distribucin se produzca solo en uno o en los dos extremos de la curva.

Mg. Christian Jacinto H.

19

Tratamiento Estadstico de Datos Qumicos Utilizando Minitab

3.6 Prctica Para practicar esta opcin, podemos abrir el fichero de datos (Worksheet) Pulso.mtw. Recordemos que su contenido fue recogido en una clase de 92 alumnos. De cada estudiante se observ su pulso antes de correr, Pulse1; su pulso despus de correr, Pulse2; si corri o no, Corri (1=S corri, 2=No corri); si es fumador o no, Fuma (1=S fuma, 2=No fuma); el sexo, Sexo (1=Hombre, 2=Mujer); su altura en pulgadas, Alto; su peso en libras, Peso; y su nivel de actividad fsica, Actividad (0=Ninguna actividad, 1=Baja, 2=Media, 3=Alta). Vamos a calcular los estadsticos descriptivos ms importantes para Pulso1, Alto y Peso: Estadsticas > Estadsticas bsicas > Mostrar Estadsticas Descriptivas

Figura 3.3. Ventana Mostrar estadsticas descriptivas

En la Ventana de Sesin nos salen los resultados para cada una de las variables:
Resultados para: Pulso.MTW Estadsticas descriptivas: Pulso1, Alto, Peso
Variable Pulso1 Alto Peso Variable Pulso1 Alto Peso Media 72.87 68.717 145.15 Mximo 100.00 75.000 215.00 Desv.Est. 11.01 3.659 23.74 IQR 16.00 6.000 31.50 Varianza 121.19 13.390 563.56 CoefVar 15.11 5.33 16.35 Mnimo 48.00 61.000 95.00 Q1 64.00 66.000 125.00 Mediana 71.00 69.000 145.00 Q3 80.00 72.000 156.50

Modo 68 68, 69 150, 155

N para moda 11 10 10

Sesgo 0.40 -0.22 0.37

Kurtosis -0.44 -0.80 -0.07

Mg. Christian Jacinto H.

20

Tratamiento Estadstico de Datos Qumicos Utilizando Minitab

Para observar los Histogramas y Diagramas de Cajas para las tres variables. Seleccionar un grfico, luego en el Men Editor > Herramienta de diseo seleccionamos las grficas que deseamos agrupar, luego Finalizar.
Histograma (con curva normal) de Pulso1
Media 72.87 Desv.Est. 11.01 N 92

Histograma (con curva normal) de Alto


10.0
Media 68. 72 Desv.Est. 3.659 N 92

20

7.5

Frecuencia

Frecuencia
50 60 70 Pulso1 80 90 100

15

5.0

10

2.5

0.0

60

63

66

69 Alto

72

75

Histograma (con curva normal) de Peso


Media 145. 2 Desv.Est. 23.74 N 92

16

12

Frecuencia

100

120

140

160 Peso

180

200

220

Figura 3.4. Histogramas con ajuste a la Curva Normal Los histogramas agrupan los datos en intervalos, representando sobre ellos rectngulos de rea proporcional a la frecuencia absoluta de cada intervalo. Los resultados muestran que los datos Pulso1 y Peso poseen una distribucin normal, los datos de Alto poseen una Curtosis negativa, que indica una distribucin platicrtica. Los Diagramas de Caja se muestran a continuacin:
Grfica de caja de Pulso1
100 76

Grfica de caja de Alto

72

Pulso1

Alto

75

68

64

50 60

Grfica de caja de Peso

200

175
Peso

150

125

100

Figura 3.5. Diagrama de Cajas de Bigotes

Mg. Christian Jacinto H.

21

Tratamiento Estadstico de Datos Qumicos Utilizando Minitab

Los diagramas de cajas o de bigotes representan los valores mnimo y mximo (extremos de los bigotes), los cuartiles Q1 y Q3 (extremos de la caja) y la mediana. Dentro de la caja tendremos el 50% de los datos de la muestra y en cada bigote tendremos el 25% de los datos ms extremos. Este grfico nos permite visualizar tanto el valor central como la dispersin de los datos, y es muy til a la hora de comparar datos de distintas muestras o grupos. Con la misma hoja de datos, podemos calcular los estadsticos de la variable Pulso2 (Pulso despus de correr) separando sus resultados segn los valores de la variable Corri (corri o no corri?). Para ello, seleccionamos Estadsticas > Estadsticas bsicas > Mostrar Estadsticas Descriptivas; en el recuadro Variables del cuadro de dilogo resultante seleccionamos la variable Pulso2; y en Por variables (opcional) seleccionamos la variable Corri.

Figura 3.6. Ventana de Mostrar Estadsticas descriptivas En consecuencia, en la ventana de sesin aparecen los resultados de los mencionados estadsticos de la variable Pulso2 separados para cada grupo de resultados de la variable Corri. Observemos los resultados de los histogramas y diagramas de cajas:
Histograma (con curva normal) de Pulso2 por Corri
60 25 1 80 100 2 120 140
1 Media Desv .Est. N 2 Media Desv .Est. N 92.51 18.94 35 72.32 9.948 57

Grfica de caja de Pulso2


140 130 120 110
Pulso2

20

Frecuencia

15

100 90 80 70 60

10

60

80

100

120

140

50 1 Corri 2

Pulso2 Variable de panel: Corri

Figura 3.7. Histogramas y Diagrama de cajas para cada variable Este tipo de anlisis nos permite comparar el efecto de correr o no correr en la medida del Pulso despus de correr. La media del pulso de las personas que han corrido

Mg. Christian Jacinto H.

22

Tratamiento Estadstico de Datos Qumicos Utilizando Minitab

es 92,51 (mediana 88) y de las que no han corrido es 72,32 (mediana 70), aparentemente hay una diferencia significativa; pero tambin tendramos que evaluar su dispersin a travs de la comparacin con la desviacin estndar. En el Captulo 3 se realizarn los procedimientos correctos para la comparacin. Otro procedimiento para realizar un estudio estadstico mas rpido es: Estadsticas > Estadsticas bsicas > Resumen de Grficas . Estudiaremos la influencia de en el pulso de las personas que Fuma (=1) y no Fuman (=2), para ello en Variables seleccionar Pulso1, y en Por Variables (opcional) escoger Fuma a un Nivel de Confianza de 95 %. Se obtienen dos grficas:
Resumen para Pulso1
Fuma = 1
P rueba de normalidad de A nderson-D arling A -cuadrado V alor P M edia D esv .E st. V arianza S esgo Kurtosis N M nimo 1er cuartil M ediana 3er cuartil M ximo 69.768 68.000
Intervalos de confianza de 95%
Media Mediana 70 75 80 85

0.66 0.075 75.000 13.493 182.074 0.090785 -0.877135 28 48.000 66.000 71.000 89.500 100.000 80.232 85.310 18.366

50

60

70

80

90

100

Interv alo de confianza de 95% para la media Interv alo de confianza de 95% para la mediana Interv alo de confianza de 95% para la desv iacin estndar 10.668

Resumen para Pulso1


Fuma = 2
P rueba de normalidad de A nderson-D arling A -cuadrado V alor P M edia D esv .E st. V arianza S esgo Kurtosis N M nimo 1er cuartil M ediana 3er cuartil M ximo 69.514 68.000
Intervalos de confianza de 95%
Media Mediana 68 70 72 74

0.60 0.113 71.938 9.702 94.123 0.476358 -0.328525 64 54.000 64.000 71.000 78.000 96.000 74.361 74.000 11.750

50

60

70

80

90

100

Interv alo de confianza de 95% para la media Interv alo de confianza de 95% para la mediana Interv alo de confianza de 95% para la desv iacin estndar 8.264

Figura 3.8. Diagrama de Resumen de grficas Estos resultados son tiles ya que muestran unos estadsticos que evalan la normalidad (prueba de Anderson Darling) y los intervalos de confianza al nivel de confianza dado. Adems de los grficos que se obtienen por los procedimientos que ya hemos visto, una opcin importante de todos los grficos creados a travs del men Grfica es
Mg. Christian Jacinto H. 23

Tratamiento Estadstico de Datos Qumicos Utilizando Minitab

que haciendo clic sobre ellos con el botn derecho del ratn y activando la opcin Actualizar grfica automticamente del men contextual que aparece, el grfico cambia automticamente al modificar los datos con que se han construido (ya sea aadiendo, modificando o eliminando). Las opciones que aparecen en el men Grfica se muestran a continuacin:

Figura 3.9. ventana del Men Grafica Queda como ejercicio al lector que practique hacer estas grficas, especialmente la de Grfica de dispersin, Grfica de matriz, Histograma, Grfica de cajas y Grfica de barras con los datos de la hoja de trabajo Pulso.mtw.

Mg. Christian Jacinto H.

24

Tratamiento Estadstico de Datos Qumicos Utilizando Minitab

CAPTULO CUARTO

ENSAYOS DE HIPTESIS

Mg. Christian Jacinto H.

25

Tratamiento Estadstico de Datos Qumicos Utilizando Minitab

4.1 Ensayos de Hiptesis

nsayar una hiptesis es realizar una comparacin entre un dato o un descriptor muestral y un valor de referencia, o bien, entre dos o mas descriptores muestrales. La comparacin se realiza formulando una hiptesis llamada hiptesis nula, Ho, que establece que los parmetros son iguales. Al rechazarse la hiptesis nula aparece la hiptesis alternativa, que debe ser contrastado con la hiptesis nula. Ejemplos de hiptesis nulas:
2 Igualdad de dos varianzas: Ho : s12 = s 2 .

Igualdad de dos medias: Ho : x1 = x 2 . Igualdad de una media muestral y un valor de referencia, Ho : x1 = xr . Igualdad de varias medias muestrales, Ho : x1 = x 2 = x 3 = = x n La decisin de aceptar o rechazar Ho se toma estableciendo previamente su nivel de significacin crtico o lmite de decisin c. Para cualquier ensayo de hiptesis se calcula directamente la significacin observada, o. En este caso, Ho se rechaza si o es menor que la significacin previamente adoptada como lmite de decisin, c. 4.2 Tipos de Error I (error ) y Error II (error ) El Error o de tipo I, cuando la hiptesis nula, siendo cierta, se rechaza incorrectamente, este tipo de error se llama tambin falso positivo y se puede aplicar cuando se quiere verificar la ausencia de un analito. El Error o de tipo II, cuando se acepta la hiptesis nula, cuando en realidad es falsa. Tabla 4.1. Resumen de las alternativas de decisin con respecto a H o Decisin es Ho realmente verdadera Ho realmente falsa No rechazar Ho Decisin correcta Error tipo II Rechazar Ho Error tipo I Decisin correcta Se observa que cuando el error II aumenta el error I se reduce. Debido a esto suele adoptarse el valor de compromiso c = 0.05 a no ser que se diga lo contrario. 4.2.1 Nivel de significancia Al contrastar una cierta hiptesis, la mxima probabilidad con la que estamos dispuestos a correr el riesgo de cometer un error de tipo I se llama nivel de significancia. Esta probabilidad se denota por p, se suele especificar antes de la muestra, de manera que los resultados no influyan en nuestra eleccin. En la prctica es frecuente un nivel de significancia de 0.05 0.01, si bien se usan otros valores. Si, por ejemplo, se escoge un nivel de significancia del 5% 0.05 al disear una regla de decisin entonces hay unas cinco oportunidades entre cien de rechazar la
Mg. Christian Jacinto H. 26

Tratamiento Estadstico de Datos Qumicos Utilizando Minitab

hiptesis cuando debiera haberse aceptado; es decir, tenemos un 95% de confianza de que hemos adoptado la decisin correcta. En tal caso decimos que la hiptesis a sido rechazada al nivel de significancia 0.05 lo cual quiere decir que la hiptesis tiene una probabilidad del 5% de ser falsa. 4.2.2 P-valor El P-valor nos muestra la probabilidad de haber obtenido el resultado que hemos logrado si suponemos que la hiptesis nula es cierta. Se rechaza la hiptesis nula si el Pvalor asociado al resultado observado es igual o menor que el nivel de significacin establecido, convencionalmente 0.05 0.01, punto que se llama potencia del contraste. 4.3 Pasos de la Prueba de Hiptesis Para realizar un ensayo de hiptesis, se debe realizar los siguientes procedimientos: Expresar la hiptesis nula y la hiptesis alternativa Especificar el nivel de significancia Determinar el tamao de la muestra Establecer los valores crticos que establecen las regiones de rechazo de las de no rechazo. El tamao de la regin crtica est determinada por el nivel bajo de significacin , y su ubicacin est determinada por la hiptesis alternativa . Determinar la prueba estadstica. Coleccionar los datos y calcular el valor de la muestra de la prueba estadstica apropiada. Determinar si la prueba estadstica ha sido en la zona de rechazo a una de no rechazo. Determinar la decisin estadstica. Expresar la decisin estadstica en trminos del problema.

Hoy en da, pruebas de hiptesis se realiza generalmente mediante los diferentes programas (por ejemplo, Minitab). En este caso, el procedimiento se limita a calcular el P-valor para un determinado conjunto de datos, despus de seleccionar una prueba estadstica apropiada. El P-valor se compara con el valor supuesto del nivel de significacin . Si el P-valor calculado es menor que el valor (p <), la hiptesis nula H o se rechaza. De lo contrario, la hiptesis nula no se rechaza. 4.4 Pruebas Paramtricas y no Paramtricas Hay dos clases de pruebas estadsticas: Las paramtricas y las no paramtricas. Las Pruebas Paramtricas tienen mayor capacidad para detectar una relacin real o verdadera entre dos variables, si es que la misma existe. Por ello, exigen que los datos a los que se aplican, cumplan tres requisitos: Variable numrica: Que la variable de estudio (dependiente) est medida en una escala que sea por lo menos de intervalo.
Mg. Christian Jacinto H. 27

Tratamiento Estadstico de Datos Qumicos Utilizando Minitab

Normalidad: Que los valores de la variable dependiente sigan una distribucin normal; por lo menos, en la poblacin a la que pertenece la muestra. Prueba estadstica: Kolmogorov Smirnov o de Anderson Darling. Homocedasticidad: Que las varianzas de la variable dependiente en los grupos que se comparan sean aproximadamente iguales (homogeneidad de las varianzas). Prueba estadstica: Test de Levene o de Barlett. Las pruebas estadsticas no paramtricas , no hacen a los datos ninguna de las exigencias que les hacen las pruebas estadsticas paramtricas; por eso se les denomina "pruebas estadsticas libres de distribucin". 4.5 Prueba de la Normalidad Antes de realizar cualquier anlisis estadstico se deben tener presentes las condiciones de aplicacin del mismo. En casi todos los anlisis estadsticos, la asuncin de normalidad es un comn denominador, por lo que es un requisito importante evaluar si los datos tienen una distribucin normal o no la tienen. Para tal fin, hay pruebas grficas (Grficos de Probabilidad) y estadsticas formales (Prueba de Anderson-Darling, Kolmogorov-Smirnov, Shapiro-Wilks, entre otros) para evaluar la normalidad de los datos. Cuando se demuestra que un conjunto de resultados no sigue la distribucin normal existen diversas posibilidades. En primer lugar se pueden llevar a cabo distintas pruebas estadsticas que permitan indicar la presencia de observaciones discrepantes (outliers), en segundo lugar se pueden intentar una transformacin de los datos de tal forma que los resultados transformados se adecuen a una distribucin normal. Si ambas posibilidades no resultan satisfactorias ser incorrecto llevar a cabo pruebas pensadas para distribuciones de datos normales y se tendrn que intentar ensayos no Paramtricos. Las transformaciones de datos no slo se utilizan para llevar la distribucin a la normalidad sino que tambin se usan para igualar las varianzas de distintos conjuntos de observaciones. Entre las ms usuales figuran la transformacin logartmica, la extraccin de la raz cuadrada o la sustitucin de los resultados por sus valores recprocos. 4.5.1 Grficos de Probabilidad Consiste en enfrentar, en un mismo grfico, los datos que han sido observados frente a los datos tericos que se obtendran de una distribucin gaussiana. Si la distribucin de la variable coincide con la normal, los puntos se concentrarn en torno a una lnea recta, aunque conviene tener en cuenta que siempre tender a observarse mayor variabilidad en los extremos. En los grficos P-P se confrontan las proporciones acumuladas de una variable con las de una distribucin normal. Los grficos Q-Q se obtienen de modo anlogo, esta vez representando los cuantiles respecto a los cuantiles de la distribucin normal.

Mg. Christian Jacinto H.

28

Tratamiento Estadstico de Datos Qumicos Utilizando Minitab

4.5.2 Prueba de Anderson-Darling Es una prueba no paramtrica sobre si los datos de una muestra provienen de una distribucin especfica. La frmula para el estadstico A determina si los datos vienen de una distribucin con funcin acumulativa F. Es una de las herramientas estadsticas ms potentes para la deteccin de la mayora de las desviaciones de normalidad. 4.5.3 Prueba de Kolmogorov-Smirnov Es una prueba no paramtrica que se basa en la idea de comparar la funcin de distribucin acumulada de los datos observados con la de una distribucin normal, midiendo la mxima distancia entre ambas curvas. La prueba Kolmogrov-Smirnov es ms sensible a los valores cercanos a la mediana que a los extremos de la distribucin. La prueba de Anderson-Darling proporciona igual sensibilidad con valores extremos. 4.5.4 Prueba de Shapiro-Wilks La prueba de Shapiro-Wilks se basa en estudiar el ajuste de los datos graficados sobre un grfico probabilstico en el que cada dato es un punto cuyo valor de abscisa es el valor observado de probabilidad para un valor determinado de la variable, y el de ordenada el valor esperado de probabilidad. Ejercicio 1: Abramos el archivo Pulso.mtw. Hagamos primero la grfica de normalidad: Estadsticas > Estadsticas bsicas > Prueba de normalidad:
Grfica de probabilidad de Peso
Normal
99.9 99 95 90 80 70 60 50 40 30 20 10 5 1 0.1 Media Desv .Est. N AD Valor P 145.2 23.74 92 0.523 0.179

Porcentaje

50

75

100

125 Peso

150

175

200

225

Figura 4.1. Ventana de la Prueba de Normalidad y resultado obtenido

Los puntos obtenidos se ajustan aproximadamente a la recta, adems el estadstico de Anderson-Darling que es 0,523, y el P-valor de 0,179 mayor a 0,05, indica que los datos tienen una distribucin normal.

Mg. Christian Jacinto H.

29

Tratamiento Estadstico de Datos Qumicos Utilizando Minitab

Otro procedimiento que ya hemos visto es utilizando el men Estadsticas, que es mas rpido: Estadsticas > Estadsticas bsicas > Resumen de Grficas (ver Figura 3.7). Otro procedimiento mediante el men Grafica: Grfica > Grfica de probabilidad > Individual

click

Figura 4.2. Ventanas de la Grfica Probabilidad.


Grfica de probabilidad de Peso
Normal - 95% de IC
99.9 99 95 90 80 70 60 50 40 30 20 10 5 1 0.1 Media Desv .Est. N AD Valor P 145.2 23.74 92 0.523 0.179

Porcentaje

50

100

150 Peso

200

250

Figura 4.3. Grfica de Probabilidad de la variable Peso

Los datos deben estar en el rango del intervalo de confianza para considerarlo que tienen una distribucin normal.

4.6 Valores anmalos A veces, al observar un conjunto de valores de una serie de datos, aparecen valores "extraos" de cuya "validez" o representatividad cabe dudar. Por esta razn estas medidas se denominan resultados discrepantes, anmalos, atpicos (outliers).

Mg. Christian Jacinto H.

30

Tratamiento Estadstico de Datos Qumicos Utilizando Minitab

4.6.1 Lmites de Confianza Comprueba si un determinado conjunto de resultados incluye un resultado(s) con un grave error. Procedimiento: Excluir del conjunto de resultados el dato considerado como atpico. Calcular los extremos del intervalo de confianza para un resultado nico, basado en la frmula siguiente: n g xm tcrt SD n 2 donde xm es la media para una serie sin atpicos; SD es la desviacin estndar para una serie sin atpicos; n es el tamao total de una serie, junto con un resultado incierto; tcrit es el parmetro crtico de la prueba de la t de Student, leer para f = n - 2 grados de libertad Inferencia: Si un resultado incierto cae fuera de los lmites del intervalo de confianza, se rechaza, de lo contrario, es compensada para clculos futuros, y los valores de xm y SD son calculados de nuevo. 4.6.2 Prueba Q de Dixon Comprueba si un determinado conjunto de resultados incluye un resultado atpico. Procedimiento: Ordenar los resultados en una secuencia creciente: x1, . . . , xn. Calcular el valor del rango R de acuerdo con la frmula: R = xn - x1. Calcular el valor de los parmetros Q1 y Qn de acuerdo a las frmulas: xn xn 1 x2 x1 Q1 Qn R R Comparar el valor obtenido con el valor del Qcrt (ver Anexo ), leer para el nivel de significancia seleccionado y el nmero de grados de libertad f = n. Inferencia: Si uno de los parmetros calculados excede el valor crtico Q crit, entonces el resultado de la cual se calcul (xn o x1) debe ser rechazado como consecuencia de un grave error y slo entonces xm y SD debe ser calculado. 4.6.3 Prueba de Cochran Detecta los atpicos de una serie de datos para la prueba de variabilidad intralaboratorio. La prueba evala valores extremos de un solo lado, ya que el criterio de la prueba examina slo la mayor desviacin estndar.

Mg. Christian Jacinto H.

31

Tratamiento Estadstico de Datos Qumicos Utilizando Minitab

Requerimientos: El nmero de resultados en una serie es mayor o igual a 2, pero slo cuando el nmero de laboratorios de comparacin es mayor que 2. Los conjuntos de datos tienen la misma cantidad. Procedimiento: Calcular las desviaciones estndar para cada uno de los conjuntos de comparacin de los resultados. Calcular el valor del parmetro C mediante la frmula: 2 SDmax C p SD 2i
i 1

donde SDmax es la mxima desviacin estndar en el conjunto investigado (entre los laboratorios investigados), SDi es la desviacin estndar para una serie determinada (datos de un laboratorio), y p es el nmero de desviaciones estndar (el nmero de laboratorios comparados). Luego se compara el valor calculado de C con el valor crtico para un valor de n dado, el nmero de resultados en una serie, y p el nmero de laboratorios (ver Anexo ). Inferencia: Si el valor del parmetro de prueba calculado es menor o igual al valor crtico correspondiente al nivel de significancia = 0.05, entonces el re sultado investigado se considera correcto. Si el valor numrico de un parmetro de la prueba respectiva es mayor que el valor crtico correspondiente al nivel de significancia = 0.05 y menor o igual al valor crtico correspondiente al nivel de significancia = 0.01, entonces el resultado es un valor incierto. Si el valor del parmetro de prueba es mayor que el valor crtico correspondiente al nivel de significancia = 0.01, entonces el resultado investigado se considera un valor atpico. 4.6.4 Prueba de Grubbs Detecta valores atpicos de un conjunto dado de datos para la prueba de la variabilidad entre laboratorios. Requerimientos: El nmero de resultados en la serie es mayor o igual a 2, pero slo cuando el nmero de laboratorios de comparacin es mayor que 2. El mismo nmero de resultados en los conjuntos de los resultados. Con un solo uso, permite la deteccin de un valor atpico, por lo que debe repetirse hasta que no se observan valores atpicos en los resultados restantes Procedimiento: Calcular la desviacin estndar para el conjunto de resultados. Ordenar el conjunto de datos xi para i = 1, 2,. . . , p en una sucesin creciente.
Mg. Christian Jacinto H. 32

Tratamiento Estadstico de Datos Qumicos Utilizando Minitab

Calcular el valor del parmetro Gp de acuerdo a la relacin: x p xm Gp SD donde xp es el valor en el conjunto de resultados considerados como un valor atpico, xm es la media, y SD es la desviacin estndar. Comparar el valor de Gp calculado con el valor crtico para un valor de p dado, el nmero de laboratorios (ver Anexo ). Inferencia: Si el valor del parmetro de prueba calculado es menor o igual al valor crtico correspondiente al nivel de significancia = 0.05, entonces el resultado investigado se considera correcto. Si el valor numrico de un parmetro de ensayo correspondiente es mayor que el valor crtico correspondiente al nivel de significancia = 0.05, y menor o igual al valor crtico correspondiente al nivel de significancia = 0.01, entonces el resultado es un valor incierto. Si el valor del parmetro de prueba es mayor que el valor crtico correspondiente al nivel de significancia = 0.01, entonces el resultado investigado se considera un valor atpico, a partir del rechazo de este valor del conjunto de resultados, la prueba para la serie de p - 1 resultados pueden llevarse a cabo de nuevo, y el curso de accin debe continuar hasta que no haya valores atpicos ms en el conjunto de resultados.

4.7 Comparacin de Resultados con los Ensayos de Hiptesis La demostracin de la trazabilidad es un requisito petrolgico bsico para los resultados de un laboratorio. Para ello es necesario disponer de materiales de referencia con valores bien establecidos o bien comparar con mtodos alternativos considerados como referencias. La comparacin respecto a muestras con valores de referencia se lleva a cabo mediante los Ensayos de Hiptesis, mientras que la comparacin con mtodos alternativos de referencia puede realizarse mediante anlisis de regresin (Captulo 6). 4.7.1 Comparacin de una Media con un Valor Referencial a. Prueba Paramtrica: Prueba t Esta prueba se utiliza con frecuencia para demostrar la trazabilidad de los resultados obtenidos en el laboratorio. Hiptesis: Contraste bilateral:
__

Contraste unilateral:
__

H0 : X
__

texp x s/ n

H0 : X
__

( X )
( X )
__

__

Ha : X
El clculo del texperimental:

Ha : X

Mg. Christian Jacinto H.

33

Tratamiento Estadstico de Datos Qumicos Utilizando Minitab

Decisin:

Contraste texp < tTabla texp tTabla

Decisin Aceptamos Ho Rechazamos Ho

Ejercicio 2: En el ciclismo profesional, un hematocrito superior al 50 % implica sancin por dopaje con EPO (eritropoyetina). Para la siguiente serie de medidas se quiere decidir para = 0,05 si se ha sobrepasado el lmite legal: 51,9, 50,6, 50,8, 49,3, 50,0, 51,2, 51,7, 50,9. Ho: x = 50 % H1: x 50 % (prueba de dos colas) = 0,05 Estadsticas > Estadsticas bsicas > t de 1 muestra

Usamos esta opcin cuando no tenemos todos los valores de la muestra sino solamente su media y desviacin tipo

Figura 4.4. Ventana para la prueba t


Dos colas Una cola

El resultado que se obtiene con nuestros datos es:


T de una muestra: EPO
Prueba de mu = 50 vs. no = 50 Media del Error estndar 0.302

Variable EPO

N 8

Media 50.800

Desv.Est. 0.855

IC de 95% (50.085, 51.515)

T 2.65

P 0.033

El P-valor es menor que nuestro valor de significancia 0,05, por lo que se dice que se rechaza la Ho, entonces hay diferencias significativas a un 95 % de confianza entre la media y el valor referencial de 50 %.
Mg. Christian Jacinto H. 34

Tratamiento Estadstico de Datos Qumicos Utilizando Minitab

b. Prueba no Paramtrica: Prueba de Wilcoxon Prueba si la mediana (Me) de la muestra es igual a un valor de referencia. Hiptesis: Contraste bilateral: Contraste unilateral:
H0 : Me
Ha : Me

H 0 : Me

( Me )
( Me )

H a : Me
Ejercicio 3:

Se encontr que los niveles de plomo en sangre (en pg/mL) de siete nios eran 104, 79, 98, 150, 87, 136, y 101. Podran proceder estos datos de una poblacin que se supone es simtrica, con una mediana de 95 pg/mL? Ho : Me = 95 pg/mL H1 : Me 95 pg/mL (prueba de dos colas) = 0,05 Estadstica > No paramtricos > Wilcoxon de 1 muestra

Figura 4.5. Ventana de la Prueba de Wilcoxon Se obtienen los resultados:


Prueba de clasificacin con signos de Wilcoxon: Plomo
Prueba de la mediana = 95.00 vs. la mediana no = 95.00 Nmero de prueba 7 Estadstica de Wilcoxon 20.0 Mediana estimada 103.3

Plomo

N 7

P 0.353

Evaluamos el P-valor 0,353 que es mayor que el nivel de significancia crtico 0,05, por lo que aceptamos la Ho. A un nivel de confianza del 95 %, los datos provienen de una poblacin con mediana 95 pg/mL.

Mg. Christian Jacinto H.

35

Tratamiento Estadstico de Datos Qumicos Utilizando Minitab

4.7.2 Comparacin de dos varianzas Existen situaciones en las que se debe comparar la distribucin de dos poblaciones y analizar si tienen el mismo nivel de precisin o cul es ms precisa. Incluso para comparar valores medios entre muestras se requiere, en mltiples ocasiones, una comparacin previa de sus varianzas. a. Prueba Paramtrica: Test F
2 Es una prueba sencilla para comparar dos varianzas s12 y s 2 , es decir se quiere comparar la precisin de dos mtodos de anlisis, de dos analistas, de dos instrumentos, etc. 2 Ho : s12 = s 2 (homogneas u homocedsticas) 2 H1 : s12 > s 2 (ensayo de un lado) 2 H1 : s12 s 2 (ensayo de dos lados)

s12 2 s2 Con grados de libertad del numerador, t1 = (n1-1) y del denominador, t2 = (n2-1). Si Fexp > F se rechaza la hiptesis nula Ho.
El estadstico Fexp es: Fexp Ejercicio 4: Las dos series de n1 = 10 y n2 = 9 se han obtenido midiendo un estndar de As(III) en dos espectrofotmetros de absorcin atmica. Se desea saber si los dos instrumentos dan varianzas iguales o distintas. Serie 1: 325, 333, 322, 322, 314, 323, 323, 327, 325, 321 Serie 2: 312, 311, 307, 316, 310, 314, 309, 310, 311 Comparemos las varianzas de las dos series mediante el Men Estadsticas: Estadsticas > Estadsticas bsicas > 2 Varianzas

Se utiliza cuando los datos se encuentran en una columna.

Se utiliza cuando se tiene solo las varianzas y nmero de datos.

Figura 4.6. Ventana de la opcin 2 varianzas.

Mg. Christian Jacinto H.

36

Tratamiento Estadstico de Datos Qumicos Utilizando Minitab

El resultado obtenido
Prueba de varianzas iguales: Serie 1, Serie 2
Intervalos de confianza de Bonferroni de 95% para desviaciones estndares Serie 1 Serie 2 N 10 9 Inferior 3.14841 1.70898 Desv.Est. 4.81318 2.66667 Superior 9.69207 5.68492

Prueba F (distribucin normal) Estadstica de prueba = 3.26, valor p = 0.111 Prueba de Levene (cualquier distribucin continua) Estadstica de prueba = 0.84, valor p = 0.371
Prueba de igualdad de varianzas para Serie 1, Serie 2
Prueba F Serie 1 Estadstica de prueba Valor P Prueba de Lev ene Estadstica de prueba Valor P 0.84 0.371 3.26 0.111

Serie 2

2 4 6 8 Intervalos de confianza de Bonferroni de 95% para Desv.Est.

10

Serie 1

Serie 2

310

315

320 Datos

325

330

335

Figura 4.7. Resultados de la prueba de varianzas Los resultados obtenidos muestran los valores de varianzas de ambas series de datos, y el P-valor para la prueba F es mayor a 0,05, por lo que se mantiene la Ho, es decir la varianzas son iguales a un Nivel de Confianza del 95 %. b. Prueba No Paramtrica: Test de Bartlett y de Levene Minitab calcula y muestra una estadstica de prueba y P-valor tanto para la prueba de Bartlett, como para la prueba de Levene donde, respectivamente, la hiptesis nula corresponde a varianzas iguales. Si slo hay dos niveles, se realiza una prueba F en lugar de la prueba de Bartlett. Utilice la prueba de Bartlett cuando los datos provengan de distribuciones normales, la prueba de Bartlett no es slida cuando los datos se apartan de la normalidad. Utilice la prueba de Levene cuando los datos provengan de distribuciones continuas, pero no necesariamente distribuciones normales. Este mtodo considera las distancias de las observaciones con respecto a la mediana de la muestra en lugar de la media de la muestra, esto hace que la prueba sea ms slida para las muestras ms pequeas.

Mg. Christian Jacinto H.

37

Tratamiento Estadstico de Datos Qumicos Utilizando Minitab

Ejercicio 5: Ensayar los datos de la determinacin de sulfatos en aguas por electroforesis capilar. Serie 1 23 25 26 24 23 26 25 Serie 2 51 54 47 48 53 49 52 Serie 3 95 106 98 104 102 97 96

Primero realizamos unas pruebas estadsticas para verificar la normalidad de los datos. Estadsticas > Estadsticas bsicas > Resumen grfico
Resumen para Serie 1
P rueba de normalidad de A nderson-D arling A -cuadrado V alor P M edia D esv .E st. V arianza S esgo Kurtosis N M nimo 1er cuartil M ediana 3er cuartil M ximo 23.395 23.000
Intervalos de confianza de 95%
Media

Resumen para Serie 2


P rueba de normalidad de A nderson-Darling A -cuadrado V alor P M edia D esv .E st. V arianza S esgo Kurtosis N M nimo 1er cuartil M ediana 3er cuartil M ximo 48.133 47.733
Intervalos de confianza de 95%
Media

0.38 0.302 24.571 1.272 1.619 -0.22190 -1.71488 7 23.000 23.000 25.000 26.000 26.000 25.748 26.000 2.802

0.20 0.790 50.571 2.637 6.952 -0.11222 -1.63776 7 47.000 48.000 51.000 53.000 54.000 53.010 53.267 5.806

23

24

25

26

48

50

52

54

Interv alo de confianza de 95% para la media Interv alo de confianza de 95% para la mediana Interv alo de confianza de 95% para la desv iacin estndar 0.820

Interv alo de confianza de 95% para la media Interv alo de confianza de 95% para la mediana Interv alo de confianza de 95% para la desv iacin estndar 1.699

Mediana 23 24 25 26

Mediana 48.0 49.5 51.0 52.5 54.0

Resumen para Serie 3


P rueba de normalidad de A nderson-D arling A -cuadrado V alor P M edia D esv .E st. V arianza S esgo Kurtosis N M nimo 1er cuartil M ediana 3er cuartil M ximo 95.765 95.733
Intervalos de confianza de 95%
Media

0.33 0.404 99.714 4.271 18.238 0.47321 -1.65003 7 95.000 96.000 98.000 104.000 106.000 103.664 104.533 9.404

95.0

97.5

100.0

102.5

105.0

Interv alo de confianza de 95% para la media Interv alo de confianza de 95% para la mediana Interv alo de confianza de 95% para la desv iacin estndar 2.752

Mediana 95.0 97.5 100.0 102.5 105.0

Figura 4.8. Resultados del Resumen Grfico La prueba de Anderson-Darling nos dan un P-valor mayor a 0,05, lo que indica que los datos provienen de una poblacin normal. Para realizar la prueba de varianzas con la Prueba de Bartlett, Minitab requiere que los datos estn apilados en una columna, entonces primero haremos esta operacin a travs del Men Datos: Datos > Apilar > Columnas
Mg. Christian Jacinto H. 38

Tratamiento Estadstico de Datos Qumicos Utilizando Minitab

Obtenemos la siguiente ventana, llenamos los datos como se indica:

Figura 4.9. Ventana de la opcin apilar columnas. Observamos que los datos se han apilado en la columna C4, y en C5 estn los ttulos de cada dato. Ahora hacemos la prueba de varianzas del Men Estadsticas: Estadsticas > ANOVA > Prueba de varianzas iguales:

Figura 4.10. Ventana de la opcin de la prueba de Varianzas Iguales Los resultados obtenidos:
Prueba de varianzas iguales: C4 vs. C5
Intervalos de confianza de Bonferroni de 95% para desviaciones estndares C5 Serie 1 Serie 2 Serie 3 N 7 7 7 Inferior 0.74995 1.55406 2.51705 Desv.Est. 1.27242 2.63674 4.27061 Superior 3.4525 7.1544 11.5877

Prueba de Bartlett (distribucin normal) Estadstica de prueba = 6.96, valor p = 0.031 Prueba de Levene (cualquier distribucin continua) Estadstica de prueba = 2.97, valor p = 0.077

Mg. Christian Jacinto H.

39

Tratamiento Estadstico de Datos Qumicos Utilizando Minitab

Prueba de igualdad de varianzas para C4


Prueba de Bartlett Estadstica de prueba Valor P Prueba de Levene Estadstica de prueba Valor P 2.97 0.077 6.96 0.031

Serie 1

C5

Serie 2

Serie 3

0 2 4 6 8 10 12 Intervalos de confianza de Bonferroni de 95% para Desv.Est.

Figura 4.11. Resultados de la Prueba de Varianzas La Prueba de Bartlett que corresponde para esta serie de datos que provienen de datos normales, dan un P-valor de 0,031, lo cual indica que los datos difieren en sus varianzas a un Nivel de Confianza del 95 %. Este tipo de datos tambin se le llama Heterogneos o Heterocedsticos. Si poseen varianzas iguales son Homogneos o Homocedsticos.

4.7.3 Comparacin de dos medias A veces en el Laboratorio se quiere comparar las medias de dos muestras para comparar dos mtodos de anlisis, o dos analistas, las respuestas de dos instrumentos, etc. Primero se debe conocer si los datos son homogneos o heterogneos para realizar la prueba t. a. Comparacin de dos medias homogneas Con la prueba F se comprueba si los datos son homogneos. Si es as se puede hallar la varianza promedio:

s2

2 (n1 1) s12 (n2 1)s2 n1 n2 2

Entonces: Ho : x1 = x 2 H1 : x1 > x 2 (ensayo de un lado) H1 : x1 x 2 (ensayo de dos lados) x1 x 2 El to se calcula: to 1 1 s2 n1 n2

1 2

para n1 + n2 2 grados de libertad

Mg. Christian Jacinto H.

40

Tratamiento Estadstico de Datos Qumicos Utilizando Minitab

Ejercicio 6: Las dos series de n1 = 10 y n2 = 9 del cuadro se han obtenido midiendo un estndar de As(III) en dos espectrofotmetros de absorcin atmica. Las medias de las dos series difieren significativamente a un nivel de confianza del 95 %?. Serie 1: 325, 333, 322, 322, 314, 323, 323, 327, 325, 321 Serie 2: 312, 311, 307, 316, 310, 314, 309, 310, 311 La prueba de varianza ya se realiz en el Ejercicio 4, por lo que datos son homogneos. En el Men Estadsticas de Minitab; Estadsticas > Estadsticas bsicas > t de 2 muestras La Ho : x1 = x 2 , y la H1 : x1 x 2 (ensayo de dos lados).

Cuando todas las muestras estn en una sola columna. Cuando no se tienen las muestras y solo se conoce su tamao, media y desviacin estndar.

Figura 4.12. Ventana t de 2 muestras.


Prueba de dos colas

Obtenemos los resultados en la Ventana de sesin de Minitab


Prueba T e IC de dos muestras: Serie 1, Serie 2
T de dos muestras para Serie 1 vs. Serie 2 Media del Error estndar 1.5 0.89

Serie 1 Serie 2

N 10 9

Media 323.50 311.11

Desv.Est. 4.81 2.67

Diferencia = mu (Serie 1) - mu (Serie 2) Estimado de la diferencia: 12.39 IC de 95% para la diferencia: (8.56, 16.22) Prueba T de diferencia = 0 (vs. no =): Valor T = 6.82 Ambos utilizan Desv.Est. agrupada = 3.9511

Valor P = 0.000

GL = 17

Mg. Christian Jacinto H.

41

Tratamiento Estadstico de Datos Qumicos Utilizando Minitab

En los resultados de la Ventana de Sesin se obtiene la diferencia entre las medias, y con el P-valor que es menor a 0,05 rechazamos la Ho, es decir a un nivel de confianza de 95 % hay diferencias significativas entre las medias de las dos series de datos. b. Comparacin de dos medias heterogneas Si la prueba F confirma que los datos son heterogneos, entonces: Ho : x1 = x 2 H1 : x1 > x 2 (ensayo de un lado) H1 : x1 x 2 (ensayo de dos lados) x1 x 2 1 El to se obtiene: to 2 2 s12 s2 n1 n2 Para hallar los grados de libertad, se utiliza la frmula aproximada:

s12 n1 s12 n1 n1 1
2

2 s2 n2

2 s2 n2 n2 1

Ejercicio 7: Los datos de la siguiente tabla proporcionan la concentracin de tiol (mM) en el plasma sanguneo de dos grupos de voluntarios, siendo el primer grupo normal y el segundo sufriendo artritis reumatoide. Se pide hallar si la media de tiol las personas normales es significativamente menor al de las personas con reumatoide a un nivel de significancia de 0,05
Normal 1,84 1,92 1,94 1,92 1,85 1,91 2,07 Reumatoide 2,81 4,06 3,62 3,27 3,27 3,76

Realicemos una Prueba F para evaluar si los datos :

Figura 4.13. Ventana de 2 varianzas para la prueba F


Mg. Christian Jacinto H. 42

Tratamiento Estadstico de Datos Qumicos Utilizando Minitab

Los resultados en la Ventana de Sesin:


Prueba de varianzas iguales: Normal, Reumatoide
Intervalos de confianza de Bonferroni de 95% para desviaciones estndares Normal Reumatoide N 7 6 Inferior 0.045941 0.258273 Desv.Est. 0.075593 0.440488 Superior 0.19015 1.26021

Prueba F (distribucin normal) Estadstica de prueba = 0.03, valor p = 0.001 Prueba de Levene (cualquier distribucin continua) Estadstica de prueba = 12.25, valor p = 0.005

El P-valor indica que las varianzas de las series son distintas. Luego la comparacin de medias es de datos heterogneos. En el men Estadsticas: Estadsticas > Estadsticas bsicas > t de 2 muestras La Ho : x normal = x reumatoide , y la H1 : x normal < x reumatoide (ensayo de un lado).

Prueba de una cola:

Quitar el check

Figura 4.14. Ventana de t de 2 muestras. Los resultados en la Ventana de sesin:


Prueba T e IC de dos muestras: Normal, Reumatoide
T de dos muestras para Normal vs. Reumatoide Media del Error estndar 0.029 0.18

Normal Reumatoide

N 7 6

Media 1.9214 3.465

Desv.Est. 0.0756 0.440

Diferencia = mu (Normal) - mu (Reumatoide) Estimado de la diferencia: -1.544 Lmite superior 95% de la diferencia: -1.177 Prueba T de diferencia = 0 (vs. <): Valor T = -8.48

Valor P = 0.000

GL = 5

Mg. Christian Jacinto H.

43

Tratamiento Estadstico de Datos Qumicos Utilizando Minitab

El resultado del P-valor menor a 0,05 indica que se rechaza la Ho, es decir hay diferencias significativas entre las medias de los dos resultados. Luego la concentracin de tiol en el plasma sanguneo para personas normales es significativamente menor al de personas con reumatoide. c. Prueba no Paramtrica: Ensayo de Mann - Whitney Es la contraparte no paramtrica de la prueba t de dos muestras. Realiza una prueba de hiptesis de la igualdad de dos medianas de poblacin y calcula la estimacin del punto y el intervalo de confianza correspondientes. Ho : Me1 = Me2 H1 : Me1 Me2 (ensayo de dos colas) H1 : Me1 < Me2 Me1 > Me2 (ensayo de una cola)

Ejercicio 8: Se analiz una muestra de material fotogrfico de desecho mediante EAA para conocer el nivel de plata, proporcionando para cinco determinaciones sucesivas los valores 9.8, 10.2, 10.7, 9.5 y 10.5 mg/mL. Despus de recibir el tratamiento qumico se volvieron a analizar por el mismo procedimiento. Los resultados obtenidos para las cinco determinaciones sucesivas fueron las siguientes: 7.7, 9.7, 8.0, 9.9 y 9.0 mg/mL. Hay una evidencia de que el tratamiento traiga consigo una reduccin significativa en los niveles de plata? Compararemos la mediana de los niveles de plata antes del tratamiento, y si disminuye despus del tratamiento. Ho : Meantes = Medespus H1 : Meantes > Medespus (prueba de una cola) Estadsticas > No paramtricos > Mann-Whitney

Figura 4.15. Ventana de la Prueba de Mann-Whitney

Mg. Christian Jacinto H.

44

Tratamiento Estadstico de Datos Qumicos Utilizando Minitab

Los resultados en la Ventana de Sesin:


Prueba de Mann-Whitney e IC: Antes, Despus
Antes Despus N 5 5 Mediana 10.200 9.000

La estimacin del punto para ETA1-ETA2 es 1.200 96.3 El porcentaje IC para ETA1-ETA2 es (-0.099,2.700) W = 37.0 Prueba de ETA1 = ETA2 vs. ETA1 > ETA2 es significativa en 0.0301

Minitab calcula las medianas de muestra de los datos ordenados como 9 y 10,2. El 96,3 % de intervalo de confianza para la diferencia en medianas de la poblacin, (ETA1 ETA2) es [-0,099 2,700]. La estadstica de prueba W = 37,0 tiene un valor p de 0,0301. Debido a que el P-valor es menor que el nivel elegido de 0,05, se concluye que se puede rechazar la Ho. Por lo tanto, a un nivel de confianza del 95 % hay disminucin significativa de los niveles de plata debido al tratamiento. 4.7.4 Comparacin de datos apareados Se utiliza para comparar dos conjuntos de resultados cada uno, cuyos datos en funcin de algn criterio objetivo, se pueden reunir de dos en dos formando parejas: (x 1, y1), (x2, y2), , (xn, yn). Se halla la diferencia, di = xi yi, para cada pareja (con su signo) y se calcula la media aritmtica x d de las diferencias y su desviacin estndar sd. Ho : x d = 0 H1 : x d 0 El estadstico to:

to

xd n sd

Los grados de libertad: (n-1) Ejercicio 9: El desgaste de un motor se puede evaluar a partir del anlisis del aceite lubricante, que se va enriqueciendo de ciertos metales. En un ensayo de comparacin de motores, se tomaron muestras de aceite de lubricante a distintos tiempos de funcionamiento. Se desea saber si uno de los motores se desgasta mas rpidamente que el otro, o si por el contrario el desgaste es el mismo. Horas 100 200 300 500 750 1000 Sn, motor 1 0,218 0,312 0,365 0,373 0,379 0,383 Sn, motor 2 0,244 0,299 0,353 0,379 0,388 0,394

Mg. Christian Jacinto H.

45

Tratamiento Estadstico de Datos Qumicos Utilizando Minitab

Los datos forman pares de los resultados de Sn en ambos motores para cada tiempo en horas. La prueba es de datos apareados. Estadsticas > Estadsticas > t apareada

Diferencia 0

Figura 4.16. Ventana de la t pareada.

Los resultados en la Ventana de sesin:


IC y Prueba T pareada: Sn, motor 1, Sn, motor 2
T pareada para Sn, motor 1 - Sn, motor 2 Media del Error estndar 0.0263 0.0243 0.00607

Sn, motor 1 Sn, motor 2 Diferencia

N 6 6 6

Media 0.3383 0.3428 -0.00450

Desv.Est. 0.0644 0.0596 0.01487

IC de 95% para la diferencia media:: (-0.02010, 0.01110) Prueba t de diferencia media = 0 (vs. no = 0): Valor T = -0.74

Valor P = 0.492

El resultado del P-valor mayor a 0,05 indica que las diferencias entre los resultados de cada par no se diferencian significativamente de cero, por lo que no hay diferencia siginificativa en cada par a un nivel de confianza del 95 %. 4.7.5 Comparacin de mas de dos medias (ANOVA) Es una herramienta estadstica que permite comparar simultneamente varias medias muestrales a partir de la comparacin de las varianzas. Es muy til cuando se quiere hacer comparaciones interlaboratorio entre las medias de los resultados de cada laboratorio. El anlisis de las hiptesis es: Ho : x1 = x 2 = x 3 = x 4 = H1 : al menos una de ellas es diferente a las dems

Mg. Christian Jacinto H.

46

Tratamiento Estadstico de Datos Qumicos Utilizando Minitab

Para aplicar el ANOVA debe cumplir ciertos requisitos: Independencia, los datos no deben estar correlacionados entre si. Normalidad, todos las series de datos deben tener una distribucin normal, hacer la prueba de normalidad de Anderson-Darling o la de Kolmogorov-Smirnov. Homocedasticidad, las series de datos deben tener varianzas iguales, hacer la prueba de Levene (o tambin verificar la normalidad de los residuos). Generalmente los programas estadsticos muestran la siguiente tabla: Tabla 4.2. Tabla de resultados de ANOVA
Fuente de Varianza Entre series Residual Total Grados de Libertad h1 Nh N1 Suma de Cuadrados SC SCs SCres SCT
h

Cuadrado medio CM SCs/(h-1) SCres/(N-h)

Significacin

CMs/CMres

Donde SCs es la suma de cuadrados entre series, SCs


j 1

n j (x j

x)2
h nj

SCres es la suma de cuadrados residual dentro de la serie, SCres


j 1 i 1

( xij

x) 2

El ANOVA hace comparaciones entre la varianza residual de cada serie (CMres) y la varianza entre las medias de las series (CMs), si esta ltima es significativamente mayor que la varianza residual, el resultado es positivo y se rechaza la hiptesis nula, Ho. Ejercicio 10: Se desea saber si las distintas condiciones de almacenaje de una disolucin afectan a la intensidad de su fluorescencia. Tratamiento
A) B) C) D) Preparacin reciente Oscuridad, 1 h Luz tenue, 1 h Luz intensa, 1 h

Intensidad de Fluorescencia
102, 99, 101, 102, 103, 100 102, 100, 104, 101, 102, 103 97, 95, 99, 95, 98, 96 90, 92, 93, 91, 93, 92

x s
101,17 + 1,47 102,00 + 1,41 96,67 + 1,63 91,83 + 1,17

Estableciendo la Ho y H1: Ho : x A = x B = x C = x D H1 : x A x B x C x D Estadsticas > ANOVA > Un solo factor (Desapilado)

Mg. Christian Jacinto H.

47

Tratamiento Estadstico de Datos Qumicos Utilizando Minitab

Figura 4.17. Ventana del Anlisis de varianza Obtenemos los resultados en la Ventana de Sesin:
ANOVA unidireccional: A, B, C, D
Fuente Factor Error Total GL 3 20 23 SC 394.83 41.00 435.83 MC 131.61 2.05 F 64.20 P 0.000

S = 1.432

R-cuad. = 90.59%

R-cuad.(ajustado) = 89.18% ICs de 95% individuales para la media basados en Desv.Est. agrupada -+---------+---------+---------+-------(--*---) (--*---) (--*---) (--*---) -+---------+---------+---------+-------91.0 94.5 98.0 101.5

Nivel A B C D

N 6 6 6 6

Media 101.17 102.00 96.67 91.83

Desv.Est. 1.47 1.41 1.63 1.17

Desv.Est. agrupada = 1.43

El P-valor menor a 0,05 establece que se puede rechazar la Ho, es decir a un nivel de confianza del 95 % por lo menos una de las medias de los tratamientos es significativamente diferente a las dems, hay influencia de la condicin de almacenaje en la intensidad de fluorescencia. Los grficos obtenidos:
Grfica de caja de A, B, C, D
104 102 100 98 96 94 92 90 A B C D
Frecuencia Porcentaje

Grficas de residuos para A, B, C, D


Grfica de probabilidad normal
99 90 50 10 1 -4 -2 0 Residuo 2 4
Residuo

vs. ajustes
2 1 0 -1 -2 93 96 99 Valor ajustado 102

Datos

Histograma
4.8 3.6 2.4 1.2 0.0 -2 -1 0 Residuo 1 2

Figura 4.18. Grfica de Cajas y de residuos de cada serie


Mg. Christian Jacinto H. 48

Tratamiento Estadstico de Datos Qumicos Utilizando Minitab

El diagrama de cajas compara las medias y dispersin de cada una de las series. El grfico de residuos frente a valores previstos es una buena opcin para verificar lo homocedasticidad de los datos. El histograma y grfico de probabilidad de los residuos nos ayuda a evaluar la normalidad y la no existencia de anomalas. a. Prueba no paramtrica: Ensayo de Kruskal-Wallis Prueba si dos o ms pruebas independientes provienen de poblaciones idnticas. La prueba de Kruskall-Wallis es una alternativa no paramtrica a un ANOVA de un solo factor. La prueba no requiere que los datos sean normales, pero utiliza la clasificacin de los valores de datos en lugar de los valores de datos reales del anlisis. Ho : Me1 = Me2 = Me3 = Me4 H1 : Me1 Me2 Me3 Me4 Ejercicio 11: Se hicieron mediciones de crecimiento de bacterias en muestras de leche a las que se suministr uno de tres tratamientos. Se desea evaluar si hay influencia del tratamiento en el crecimiento de las bacterias.
Tratamiento 1 15.1 13 14.9 13.2 11.9 Tratamiento 2 13.1 13 12.9 12.8 12 Tratamiento 3 16.2 13.8 17 14.7 15 16.5

En lugar de asumir una distribucin de datos y probar la igualdad de las medias de poblacin con ANOVA de un factor, vamos a realizar el procedimiento de Kruskal-Wallis. Ho : Me1 = Me2 = Me3 H1 : Me1 Me2 Me3 Elegir: Estadsticas > No paramtricos > Kruskal-Wallis:

Figura 4.19. Ventana de la Prueba de Kruskal-Wallis


Mg. Christian Jacinto H. 49

Tratamiento Estadstico de Datos Qumicos Utilizando Minitab

Los resultados en la Ventana de Sesin:


Prueba de Kruskal-Wallis: Crecimiento vs. Tratamiento
Prueba de Kruskal-Wallis en Crecimiento Tratamiento 1 2 3 General H = 8.63 H = 8.64 N 5 5 6 16 Mediana 13.20 12.90 15.60 Clasificacin del promedio 7.7 4.3 12.7 8.5 Z -0.45 -2.38 2.71

GL = 2 GL = 2

P = 0.013 P = 0.013

(ajustados para los vnculos)

Las medianas para los tres tratamientos son 13.2, 12.9 y 15.6. El valor z para el nivel 1 es - 0.45, el valor z absoluto ms pequeo. Este tamao indica que la clasificacin de medias para el tratamiento 1 es la que difiere menos de la clasificacin de medias para todas las observaciones. La clasificacin de medias para el tratamiento 2 fue menor que la clasificacin de medias para todas las observaciones, el valor z es negativo (z = -2.38). La clasificacin de medias para el tratamiento 3 es ms alta que la clasificacin de medias para todas las observaciones, el valor z es positivo (z = 2.71). El P-va de 0.013, tanto no ajustados como ajustados para empates, indicando que se puede rechazar la hiptesis nula en a un nivel de significancia de 0,05.

Mg. Christian Jacinto H.

50

Tratamiento Estadstico de Datos Qumicos Utilizando Minitab

CAPTULO QUINTO

PRUEBAS DE CONTROL

Mg. Christian Jacinto H.

51

Tratamiento Estadstico de Datos Qumicos Utilizando Minitab

5.1 Introduccin

no de los principales parmetros a verificar en la validacin de un mtodo analtico es la exactitud de los resultados proporcionados por dicho mtodo. La exactitud, suma de la veracidad y la precisin, se comprueba asegurando la trazabilidad de los resultados proporcionados por el mtodo analtico a una referencia. Por lo tanto, comparndonos a una referencia podemos saber si somos trazables a la referencia utilizada en el momento de la comparacin. Pero la comparacin a una referencia, como por ejemplo pueden ser los materiales de referencia certificados (MRC) o los ejercicios interlaboratorio, no se efecta de una forma rutinaria en el laboratorio, y pueden pasar meses entre la comparacin entre dos referencias. Por lo tanto, los laboratorios de anlisis necesitan algn tipo de herramienta para asegurar sistemticamente la trazabilidad de los resultados que proporcionan. Una de las herramientas ms utilizadas son los grficos (o cartas) de control. Una grfica de control es una comparacin grfica de los datos de desempeo de proceso con los lmites de control estadstico calculados, dibujados como rectas limitantes sobre la grfica. Los datos de desempeo de proceso por lo general consisten en grupos de mediciones que vienen de la secuencia normal de produccin y preservan el orden de los datos.

Figura 5.1. Forma bsica del Grfico de Control de Shewhart

5.2 Construyendo los Grficos de Control Los grficos para el control de productos industriales fueron desarrollados inicialmente por W. Shewhart en 1931, con el principal objetivo de investigar si un proceso se encuentra bajo control estadstico. El elemento clave en los grficos de control es la muestra de control, que nos servir para construir el grfico y monitorizar el estado del procedimiento analtico. Esta muestra, que tiene que ser estable con el tiempo, puede ser:

Mg. Christian Jacinto H.

52

Tratamiento Estadstico de Datos Qumicos Utilizando Minitab

Una sustancia patrn. Una muestra sinttica adicionada. Un material de referencia o un material de referencia certificado. Una muestra real.

En la mayora de estos tipos de muestras el valor de la concentracin o propiedad que deseamos monitorizar ya nos viene dado (en las sustancias patrn, materiales de referencia o materiales de referencia certificados), o bien lo conocemos de una forma muy exacta (en el caso de muestras sintticas fortificadas). Pero en el tipo de muestras de control ms utilizado (una muestra real), desconocemos este valor de la concentracin o propiedad a controlar. En este tipo de muestras la estimacin de la concentracin o propiedad a monitorizar se debe llevar a cabo analizando la muestra de control con nuestro mtodo analtico una vez hemos acabado de verificar la trazabilidad del mismo. El fundamento de los grficos de control se basa en la asuncin de la normalidad de los resultados de medida: cuando se lleva a cabo algn proceso (por ejemplo, un mtodo de anlisis) de forma sistemtica, es decir, bajo las mismas fuentes de influencia o variacin, el proceso se ver afectado por errores aleatorios que conducirn a una distribucin normal de los resultados. Esta afirmacin es una consecuencia del teorema del lmite central. Se dir que el mtodo analtico est bajo control si los resultados obtenidos con este mtodo siguen las caractersticas de una distribucin normal. En la construccin de un grfico de control podemos distinguir las siguientes etapas: 5.2.1 Etapa preliminar En esta etapa se obtienen los resultados iniciales con la muestra de control. En el caso de utilizar una muestra real, se debera comprobar la normalidad y la presencia de resultados discrepantes y su eliminacin. Con los resultados iniciales de la muestra de control se establece el valor de la lnea central. Este valor debera obtenerse con un mnimo de 15-30 anlisis de la muestra de control. Los diferentes lmites suelen establecerse a una distancia del valor central 2s (lnea de aviso), y a una distancia del valor central 3s (lnea de control). Estas lneas pueden observarse en la figura siguiente:

Figura 5.2. Lneas de aviso y de control en una grfica de control

Mg. Christian Jacinto H.

53

Tratamiento Estadstico de Datos Qumicos Utilizando Minitab

Los lmites de aviso y de control situados a unas distancias de 2s y 3s respectivamente, pueden construirse utilizando los valores 2 y 3 cuando el valor promedio de la muestra de control ha sido encontrado con un nmero suficientemente grande de repeticiones (alrededor de 30). En este caso se asume que se conocen los valores reales de los parmetros (promedio y desviacin estndar). Si se tienen menos repeticiones, se aconseja considerar que los valores reales de estos parmetros son desconocidos, y se deben efectuar correcciones sobre la asuncin de distribucin normal. Esto implica utilizar valores tabulados (ver por ejemplo, en lugar de los valores 2 y 3. Normalmente un laboratorio empieza considerando como desconocidos los valores de los parmetros, hasta que se han recogido suficientes datos como para poder considerar estos parmetros como conocidos. 5.2.2 Etapa de control En esta etapa se representan frente al tiempo los diversos resultados de la muestra de control con el objetivo de detectar tendencias y situaciones fuera de control. 5.3 Grficas de Control X y R Las cartas de control X y R se usan ampliamente para monitorear la media y la variabilidad. El control del promedio del proceso, o nivel de calidad medio, suele hacerse con la grfica de control para medias, o grfica X . La variabilidad de proceso puede monitorizar con una grfica de control para el rango, llamada grfica R. Generalmente, se llevan grficas X y R separadas para cada caracterstica de la calidad de inters. 5.4 Construccin de las Grficas de Control 5.4.1 Grficas de Control X En estas grficas se representan, en funcin del tiempo, el valor medio de un cierto nmero de determinaciones llevados a cabo en una sesin de trabajo sobre un material de control. El grfico consta de un eje vertical de concentracin y un eje horizontal de tiempo (o nmero de orden de las series). Las lneas de aviso y de control estn dados por los lmites de confianza al 95 % y 99,7 % respectivamente. Lneas de Aviso (lmites al 95 %):

2 n 3

Lneas de Control (lmites al 99,7 %):

Donde es la capacidad del proceso, que es la desviacin estndar sobre un tiempo de periodo largo, llega a ser conocida por la experiencia. Cuando el nmero de valores disponible de cada grupo es reducido, una posibilidad consiste en utilizar el recorrido R, es decir, la diferencia del ms alto y el ms bajo de cada grupo. El promedio R permite realizar una estimacin del valor :
Mg. Christian Jacinto H. 54

Tratamiento Estadstico de Datos Qumicos Utilizando Minitab

R d1

1 ni

xi
2, n

xi

en donde d1 es un parmetro que depende del nmero de grupos de datos utilizados para calcular R y del nmero de valores de cada grupo: Tabla 5.1. Valores de d1 en la estimacin de Valores por N de grupos grupos 1 3 5 10 2 1.41 1.23 1.19 1.16 3 1.91 1.77 1.74 1.72 4 2.24 2.12 2.10 2.08

1.13 1.69 2.06

5.4.2 Grficas de Control R Cuando se dispone de dos determinaciones del material en cada grupo, o pocas medidas, se utiliza los recorridos R. En este caso el valor central ser el recorrido promedio R de los recorridos de cada grupo. Los lmites se obtienen multiplicando R por unos factores estadsticos: Lnea de aviso inferior: R w1 Lnea de aviso superior: R w2 Lnea de accin inferior: R a1 Lnea de accin superior: R a2 Tabla 5.2. Tabla de valores de w y a para el clculo de los lmites en las Grficas de Control R Valores por Lneas de aviso Lneas de control grupos w1 w2 a1 a2 2 0.039 2.809 0 3.267 3 0.179 2.179 0 2.575 4 0.289 1.935 0 2.282 5 0.365 1.804 0 2.115

5.5 Casos Fuera de Control La confirmacin sobre si el sistema se encuentra bajo control estadstico se obtiene mediante la observacin visual del grfico de control: si los puntos representados en el grfico se encuentran distribuidos de una forma aproximadamente aleatoria, se dice que el sistema se encuentra bajo control estadstico. Algunos cambios en el procedimiento analtico que podemos detectar con los grficos de control. Se considera que el procedimiento analtico se encuentra fuera de control, o que ha cambiado significativamente, cuando hay:
Mg. Christian Jacinto H. 55

Tratamiento Estadstico de Datos Qumicos Utilizando Minitab

1 punto ms all de la zona de control: se estima que la probabilidad de que pase esto es suficientemente baja (de hecho es inferior al 0.3%) como para sospechar que el sistema est fuera de control. 2 de 3 puntos consecutivos en la zona de control: similar al caso anterior, ya que la probabilidad de que esto suceda es inferior al 0.0625%. 6 puntos consecutivos en lnea ascendente o descendente: se considera que el sistema sigue una tendencia no aleatoria. 9 puntos consecutivos a un lado de la lnea central (ya sea por encima de ella o por debajo): este caso suele constituir un desplazamiento del promedio o del valor central, generalmente debido a un cambio significativo en el sistema. 14 puntos consecutivos alternando arriba o abajo: fenmeno cclico o series temporales. 15 puntos consecutivos en la zona de control: esto implica una mejora de la precisin y una menor desviacin estndar asociada. Se tendran que volver a recalcular los lmites de aviso y de control. 4 de 5 puntos consecutivos en la zona de aviso o ms all. 8 puntos consecutivos por encima y por debajo de la zona de control: 2 poblaciones diferentes. Grficos de los casos fuera de control:

Mg. Christian Jacinto H.

56

Tratamiento Estadstico de Datos Qumicos Utilizando Minitab

5.6 Grficos de sumas acumuladas (CUSUM) Los grficos de sumas acumuladas o grficos cusum, son mas sensibles que los grficos de Shewhart en la deteccin de las situaciones de falta de control del proceso, sin incrementar por ello el riesgo de falsas alarmas. Se representa, respecto al tiempo o al nmero de observaciones, la suma de las sucesivas diferencias entre los resultados obtenidos y el valor de referencia. Una diferencia de la Grfica Cusum con la de Control se muestra:

Figura 5.4. Grfica de Control y CUSUM de una misma serie de datos.

Mg. Christian Jacinto H.

57

Tratamiento Estadstico de Datos Qumicos Utilizando Minitab

Ejercicio 1 Con el objeto de controlar los valores medios de resultados obtenidos al analizar el contenido de cromo en aguas residuales de una empresa, se pretende establecer un grfico de control de valores medios. Para establecer los lmites de dicho diagrama, se analiza una muestra de control por duplicado por 25 das consecutivos (Tabla 1), adems se obtienen datos para la fase de control rutinario (Tabla 2).

Tabla 1
Fase de Preparacin Serie Anlisis 1 Anlisis 2 1 22.3 24.7 2 21.3 20.2 3 22.4 23.9 4 23.8 21.3 5 23.3 24.9 6 24.7 22.1 7 20.3 20.7 8 22.6 24.1 9 24.9 23.7 10 21.7 22.5 11 25.1 23.1 12 23.9 23.5 13 24.1 22.3 14 22.6 23.4 15 24.3 23.2 16 21.6 23.7 17 22.1 22.4 18 23.9 22.5 19 24.2 24.9 20 23.5 21.8 21 21.5 23.3 22 20.7 22.5 23 21.9 22.1 24 24.3 23.2 25 23.2 21.9

Tabla 2
Fase de Preparacin Serie Anlisis 1 Anlisis 2 1 22.2 24.8 2 21.1 20.2 3 22.4 24.9 4 21.8 23.3 5 20.3 24.9 6 24.6 23.1 7 22.3 20.6 8 25.1 24.1 9 20.9 23.2 10 21.7 24.9 11 25.1 20.1 12 23.9 23.5 13 22.6 22.3 14 23.4 22.6 15 24.3 24.3

Mg. Christian Jacinto H.

58

Tratamiento Estadstico de Datos Qumicos Utilizando Minitab

CAPTULO SEXTO

REGRESIN LINEAL

Mg. Christian Jacinto H.

59

Tratamiento Estadstico de Datos Qumicos Utilizando Minitab

6.1 Introduccin La mayora de mtodos analticos contemplan una etapa de calibracin analtica. En esta etapa se relaciona la respuesta instrumental con la propiedad que se est buscando, generalmente la concentracin del analito o analitos de inters, normalmente mediante un modelo de lnea recta. Generalmente esta etapa suele ser la etapa final del mtodo analtico. Abordaremos el tema de la calibracin analtica mediante el modelo de lnea recta, y veremos algunas estrategias para asegurar que el modelo de lnea recta es correcto y adecuado a nuestras necesidades. 6.2 Modelo de Regresin Lineal El modelo de lnea recta es el modelo ms usado en calibracin analtica, en parte debido a su soporte terico en algunas aplicaciones analticas (por ejemplo, la ley de Lambert-Beer), en parte debido a su simplicidad. El modelo de lnea recta consiste en encontrar la recta de calibrado que mejor se ajuste a una serie de n puntos experimentales, donde cada punto se encuentra definido por una variable x (variable independiente, generalmente concentracin del analito de inters) y una variable y (variable dependiente, generalmente respuesta instrumental). La recta de calibrado se encuentra definida por una ordenada en el origen (b) y una pendiente (m), a travs de la ecuacin: Y=a+bX El problema de la calibracin analtica se reducir a encontrar las estimaciones de los coeficientes de la recta de calibrado (ordenada en el origen, a y pendiente, b), y a asegurar que la recta encontrada se ajusta correctamente a los puntos experimentales (es decir, asegurar que no hay falta de ajuste). El mtodo ms universalmente empleado para encontrar los coeficientes de la recta de calibrado es el mtodo de mnimos cuadrados. Este mtodo busca la recta de calibrado que haga que la suma de los cuadrados de las distancias verticales entre cada punto experimental y la recta de calibrado sea mnima. A la distancia vertical entre cada punto experimental y la recta de calibrado se le conoce como residual. De esta manera, las estimaciones de la ordenada en el origen y la pendiente se obtienen con las siguientes expresiones:
n

( xi b
i 1

x)( yi ( xi x)
2

y)

y bx

Donde x e y corresponden, respectivamente, al valor medio de las coordenadas x e y de los n puntos experimentales. En la siguiente figura se puede observar una recta de calibrado para un conjunto de 5 puntos experimentales (n=5), junto con los residuales para cada punto experimental.

Mg. Christian Jacinto H.

60

Tratamiento Estadstico de Datos Qumicos Utilizando Minitab

Y
(x5,y5)

(x3,y3)

(x4,y4)

(x1,y1) Residual

(x2,y2)

X
Figura 6.1. Puntos experimentales y sus residuales en la recta de regresin lineal

6.3 Requisitos para la Regresin Lineal A pesar de ser el mtodo de calibracin lineal ms ampliamente utilizado, rigurosamente slo debera ser posible emplear el mtodo de mnimos cuadrados si se cumplen las siguientes condiciones: La incertidumbre asociada a la respuesta instrumental de cada punto experimental ha de ser mucho mayor que la incertidumbre asociada al correspondiente valor de concentracin. Esta condicin se suele cumplir en la mayora de los casos. La incertidumbre asociada a la respuesta instrumental (estimable por ejemplo mediante repeticiones) debe tener un valor constante a lo largo de todo el intervalo de linealidad (lo que se conoce como homoscedasticidad). Los errores aleatorios asociados a la respuesta instrumental deben ser mutuamente independientes. En la prctica esto implica que las soluciones patrn utilizadas para construir la recta de calibrado deben prepararse de forma independiente, a partir de una o varias soluciones madre. 6.4 Validacin del modelo lineal Para calcular las varianzas y los lmites de confianza de los parmetros a y b, y de las predicciones de x realizadas con el mismo modelo se deben cumplir las siguientes condiciones: 6.4.1 Clculo del coeficiente de correlacin Es un parmetro cualitativo, adimensional, que nos da una idea primaria sobre la bondad del modelo lineal; mide el grado de linealidad, o porcentaje de la variacin en y

Mg. Christian Jacinto H.

61

Tratamiento Estadstico de Datos Qumicos Utilizando Minitab

que puede explicarse por variacin en x. En la prctica analtica, las grficas de calibracin proporcionan frecuentemente valores numricos de r >0,99. Este se determina:
n

cov( x, y ) sx s y

( xi
i 1

x)( yi x) 2 ( yi

y) y)2

( xi

6.4.2 Grfico de residuales Los residuales (diferencia entre el valor de la seal real y y el valor de la se al pronosticado por la lnea recta para cada valor x). Un grfico de residuales no es nada ms que una representacin de la concentracin de los patrones respecto a su valor residual; la linealidad se confirma si hay distribucin aleatoria de los residuos alrededor de la lnea recta (normalidad de los residuos) y si son homocedsticos (tienen varianzas iguales). Linealidad y homocedasticidad e 0 x e 0 x Linealidad y heterocedasticidad

No linealidad y homocedasticidad e 0 e x 0

No linealidad y heterocedasticidad

Figura 6.2. Anlisis grfico de residuales y su interpretacin.

6.4.3 Anlisis de la Varianza (ANOVA) En aquellos casos donde se requiera una herramienta estadstica ms rigurosa para asegurar la validez de la recta de calibrado, se puede utilizar el anlisis de la varianza, desde un punto de vista prctico, la principal desventaja de la utilizacin del ANOVA para comprobar la validez de una recta de calibrado es que sta requiere replicados de cada punto experimental (2 como mnimo), por lo que el trabajo y el tiempo de anlisis se puede alargar considerablemente. De esta forma, la variabilidad total de la muestra se puede descomponer en la variabilidad explicada por el modelo de regresin y la variabilidad residual:

Mg. Christian Jacinto H.

62

Tratamiento Estadstico de Datos Qumicos Utilizando Minitab

SCtotal = SCmodelo + SCresidual Donde:


SCtotal SCmod elo yi i y y
2

SCresidual

yi

i y

Se hace una prueba F para comprobar si SC modelo es significativamente mayor que el SCresidual, una prueba positiva indica que los datos se ajustan al modelo lineal. 6.5 Incertidumbre de los Coeficientes de Regresin Como se acepta que todo el error recae sobre la ordenada, la varianza de los residuales en el proceso de regresin de y sobre x se calcula del mismo modo que cualquier otra varianza: 2 1/ 2 yi y i Desviacin estndar de los residuos sy / x : s y / x n 2 Desviacin estndar del intercepto sa y de la pendiente sb:

xi2 sa sy / x
i

1/ 2

sb

sy / x
1/ 2

n
i

xi

2
i

xi

Los lmites de confianza para la ordenada en el origen se tiene: LC (a) = a + t sa t se lee de la Tabla de Student de dos colas, para un nivel de significancia dado y (n-2) grados de libertad. Para la pendiente: LC (b) = b + t sb t tambin se lee de la Tabla de Student de dos colas, para un nivel de significancia y (n-2) grados de libertad.

dado

Cuando se hace uso de la recta de regresin obtenida con n puntos para predecir un valor xo a partir de la media de m rplicas de yo, la varianza de prediccin sxo:
2 sxo 2 sy 1 /x 2 b m

1 n

yo b2 xi

y x
2

Los lmites de confianza se calcula: LC ( xo )

xo

tsxo m

t se lee en la tabla de Student de dos lados para (m+n-3) grados de libertad.

Mg. Christian Jacinto H.

63

Tratamiento Estadstico de Datos Qumicos Utilizando Minitab

6.6 Lmite de deteccin Cuando las mediciones se realizan en niveles bajos del analito por ejemplo, en el anlisis de trazas, es importante saber cul es la mnima concentracin del analito que se pueden detectar confiablemente mediante el mtodo. El lmite de deteccin (LDD) se puede definir como la mnima concentracin de analito que se puede detectar en una muestra, pero no necesariamente cuantificar bajo las condiciones estipuladas para el ensayo". El valor de yLDD se obtiene mediante la siguiente ecuacin: yLDD = yBk + k sBk Donde yBk es la media de las medidas de blancos, sBk es la desviacin estndar de las medidas de blancos y k es un factor numrico escogido de acuerdo con el nivel de confianza deseado. Recomendaciones de organismos pblicos sugieren un valor de k=3. En la prctica los trminos yBk y sBk se determinan cuando se utiliza una recta de regresin convencional para la calibracin. Se utiliza sy/x en lugar de sBk e yBk como el intercepto de la recta. Luego el LDD es la concentracin que corresponde a y en la recta. El "lmite de cuantificacin" (LDC) es estrictamente la mnima concentracin del analito que se puede determinar con un nivel aceptable de precisin (repetibilidad) y exactitud bajo las condiciones estipuladas para el ensayo. De igual manera, varias convenciones lo definen como la concentracin del analito correspondiente a una seal (yLDC) al valor del blanco (yBk) ms 5, 6 10 desviaciones estndar de la media de blancos (sBk). Tambin se le conoce algunas veces como lmite de determinacin. El LC es un valor indicativo y normalmente no debe usarse para tomar decisiones. yLDD = yBk + 10 sBk

Ejercicio 1 Analizar la linealidad y los parmetros de regresin de los siguientes resultados de los experimentos de fluorescencia:
Concentracin ( g/mL) 0 2 4 6 8 10 Intensidad de Fluorescencia 0.1 8.0 15.7 24.2 31.5 33.0

Calcule tambin para una muestra que por triplicado da una fluorescencia de 25.8, sus lmites de confianza de la prediccin por uso de la recta de regresin.

Mg. Christian Jacinto H.

64

Tratamiento Estadstico de Datos Qumicos Utilizando Minitab

Ejercicio 2 El nivel de plomo de diez muestras de jugo de fruta se determin por un nuevo mtodo de anlisis potenciomtrico de redisolucin (APR) empleando un electrodo de trabajo de carbono vtreo, y los resultados fueron comparados con los obtenidos mediante la tcnica de espectrometra de absorcin atmica de llama (EAA). Se obtuvieron los siguientes datos (todo los resultados en g/L).
Muestra 1 2 3 4 5 6 7 8 9 10 EAA 35 75 75 80 125 205 205 215 240 350 APR 35 70 80 80 120 200 220 200 250 330

Mg. Christian Jacinto H.

65

Tratamiento Estadstico de Datos Qumicos Utilizando Minitab

REFERENCIAS BIBLIOGRFICAS
1. Estadstica

y Quimiometra para Qumica Analtica . James N. Millar y Janes C. Millar.

2002.

2. Garanta

de la Calidad en los Laboratorios Analticos, Ramn Compa y ngel Ros,

Editorial Sntesis, 2002.

3. Quimiometra, Carlos Mongay Fernndez, Universitat de Valencia, 2005.

4. Statistical

Methods in Analytical chemistry. Peter C. Meier and Richard E. Zund, Second

Edition, Vol 13. 2000.

5. Quimiometra:

Mtodos estadsticos aplicados en el laboratorio y al diseo

experimental, Isabel Llatas Salvador, Departamento de Procesos y Sistemas. Septiembre 2004.

6. Quality

Assurance and Quality Control in the Analytical Chemical Laboratory, Piotr

Konieczka and Jacek Namiesnick, CRC Press, 2009.

Mg. Christian Jacinto H.

66

Tratamiento Estadstico de Datos Qumicos Utilizando Minitab

ANEXOS
ANEXO 1: Valores crticos del Test de Student

Mg. Christian Jacinto H.

67

Tratamiento Estadstico de Datos Qumicos Utilizando Minitab

ANEXO 2: Valores crticos del Test de Q de Dixon

Mg. Christian Jacinto H.

68

Tratamiento Estadstico de Datos Qumicos Utilizando Minitab

ANEXO 3: Valores crticos del Test de Cochran

Mg. Christian Jacinto H.

69

Tratamiento Estadstico de Datos Qumicos Utilizando Minitab

Anexo 4. Valores crticos del Test de Grubbs

Mg. Christian Jacinto H.

70

Tratamiento Estadstico de Datos Qumicos Utilizando Minitab

Anexo 5. Tabla F para un ensayo de una cola a

= 0,05

Anexo 6. Tabla F para un ensayo de dos colas a

= 0,05

Mg. Christian Jacinto H.

71

Tratamiento Estadstico de Datos Qumicos Utilizando Minitab

Mg. Christian Jacinto H.

72

Tratamiento Estadstico de Datos Qumicos Utilizando Minitab

Mg. Christian Jacinto H.

73

Tratamiento Estadstico de Datos Qumicos Utilizando Minitab

Mg. Christian Jacinto H.

74

Tratamiento Estadstico de Datos Qumicos Utilizando Minitab

Mg. Christian Jacinto H.

75

Tratamiento Estadstico de Datos Qumicos Utilizando Minitab

Mg. Christian Jacinto H.

76

Tratamiento Estadstico de Datos Qumicos Utilizando Minitab

Mg. Christian Jacinto H.

77

Tratamiento Estadstico de Datos Qumicos Utilizando Minitab

Mg. Christian Jacinto H.

78

You might also like