You are on page 1of 167

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin

Irene Epifanio Lpez Pablo Gregori Huerta


Departament De matemtiques Codi assignatura IG23

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

Edita: Publicacions de la Universitat Jaume I. Servei de Comunicaci i Publicacions Campus del Riu Sec. Edifici Rectorat i Serveis Centrals. 207 Castell de la Plana http://www.tenda.uji.es e-mail: publicacions@uji.es Collecci Sapientia, 3 www.sapientia.uji.es ISBN: 978-84-692-4538-5

Aquest text est subjecte a una llicncia Reconeixement-NoComercial-CompartirIgual de Creative Commons, que permet copiar, distribuir i comunicar pblicament lobra sempre que especifique lautor i el nom de la publicaci i sense objectius comercials, i tamb permet crear obres derivades, sempre que siguen distribudes amb aquesta mateixa llicncia. http://creativecommons.org/licenses/by-nc-sa/2.5/es/deed.ca

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

Indice general Indice general


I Prefacio Repaso I Repaso

59 79 11 11 11 16 11 8 19 16 13 22 19 16
1. Repaso previo 1.1. Introducci o 1. Repaso previo n . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2. Descripcionde . . . muestra . . . . . . . . . . . . . . . . . . . . on una . . . . . . . . . . . . . . . . . . . . . . . 1.1. Introducci 1.3. Descripcin de la poblacin . . . . . . . . . . . . . . . . . . . o o 1.2. Descripcin de una muestra . . . . . . . . . . . . . . . . . . . o 1.4. Probabilidad . . poblaci. . . . . . . . . . . . . . . . . . . . . 1.3. Descripcin de la . . . . on . . . . . . . . . . . . . . . . . . . o 1.5. Algunos modelos .de .distribuciones .de probabilidad .para .varia1.4. Probabilidad . . . . . . . . . . . . . . . . . . . . . . 1.5. bles discretas . .de . . . . . . . . . . . . . . . . . . . . . . . . Algunos modelos . distribuciones 1.5.1. Binomial . . . . . . . . . . . . . . . . . . . . . . . de probabilidad para. variables discretas . . . . . . . . . . . . . 1.5.2. Binomial 1.5.1. Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . 1.6. Algunos modelos .de .distribuciones .de probabilidad .para .varia1.5.2. Poisson . . . . . . . . . . . . . . . . . . . . . bles continuas .de . . . . . . . . . . . . . . . . . . . . . . . . . distribuciones 1.6. Algunos modelos 1.6.1. Distribucin Uniforme(a,b) . . o de probabilidad para variables continuas. . . . . . . . . . . . . 1.6.2. o Uniforme(a,b) 1.6.1. Distribucin exponencial() . . . . . . . . . . . . . . . 1.6.3. o Exponencial() 1.6.2. Distribucin Weibull(,) . . . . . . . . . . . . . . . . 1.6.3. Distribucin Normal(, 2 ) . . . . . . . . . . . . . . . . 1.6.4. o Weibull(,) 1.6.4. Distribucin Otros tipos ) . . . . . o 1.7. Muestras aleatorias. Normal(, 2de .muestreo . . . . . . . . . . 1.7. 1.7.1. Distribuciones en el tipos Muestras aleatorias. Otros muestreo y estimadores . . . . . . de muestreo . . . .de muestreo . . . . . . . . . . . . . . . . . . 1.7.2. Otros tipos . . . . . . . . . . . . . . . . . . . . . . . 1.7.1. Distribuciones en el muestreo y estimadores . . . . . . 1.7.2. Otros tipos de muestreo . . . . . . . . . . . . . . . . .

. . . . . . .

. . . . . . . . . . . . . . . . .

II

Ampliacin de Estad o stica


. . . . . . . . . . . . . . . . . . . . . . . . . y . . y . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

43

21 19 23 24 22 20 26 23 21 25 23 27 29 26 24 29 27 26 31 28 26 29 31 28 29 35 28 37 32 33 39 34 34 37 36

II Ampliacin stica. Estimaci o stica 2. Inferencia estadde Estad on 2.1. Introduccin a la inferencia estad o stica 2. Inferencia estad. . . . Estimaci.n . . . . stica. . . . . . .o 2.2. Estimacin o 2.1. 2.2.1. Estimacin puntual .estad . . . Introduccin a la inferencia . . . o stica o 2.2. Estimacin . . . . . . . . . . . . . . . o 2.3. Estimacin por intervalos . . . . . . . . o 2.2.1. Estimacin puntual . . . . . . . o 2.3. Estimacin porotesis o 3. Contrastes de hipintervalos . . . . . . . .

41 45 40
45 43 41 46 43 41 48 44 42 49 45 44 46 59 4 59 57 54 66 57 54 73 64 61 80 70 68 78 75

3.1. Introduccin . . . . . . . . . . . . . . . . o 3. Contrastes de hiptesis o 3.2. Contrastes paramtricos: medias, varianzas e 3.1. Introduccin . . . . . . . . . . . . . . . . o2 3.3. Test de la . . . . . . . . . . . . . . . . 3.2. Contrastes paramtricos: medias, varianzas e 3.4. Otros contrastes no paramtricos . . . . . e 3.3. Test de la 2 . . . . . . . . . . . . . . . . 3.4. Otros contrastes no paramtricos . . . . . e
Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5 3

. . . . . . . . proporciones. . . . . . . . . . . . . . . . . proporciones. . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . .

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

4. Control estad stico de calidad 4.1. Introduccin. Qu es el control estad o e stico 4.2. Introduccin a los grcos de control . . . o a 4.3. Grcos de control para variables . . . . . a 4.4. Grcos de control de atributos . . . . . . a 4.5. Grcos de control de suma acumulada . . a 5. Diseo de experimentos n 5.1. Introduccin. Qu es el diseo o e n experimental? . . . . . . . . . . . . . . . 5.2. Diseo completamente aleatorizado: n anlisis de la varianza con un solo factor a 5.3. Diseo en bloques aleatorizados . . . . . n 5.4. Diseo factorial con dos factores . . . . . n

de la . . . . . . . . . . . .

calidad? . . . . . . . . . . . . . . . . . . . .

. . . .

. . . . .

. . . . .

7985 79 . 85 81 . 87 85 . 91 95 . 101 . 106 100 104 111

104 . . . . . . . . . . . . . 111 106 . . . . . . . . . . . . . 113 . . . . . . . . . . . . . 121 114 . . . . . . . . . . . . . 125 118

III

Apndice e
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

131 123
133 124 . 134 125 125 . 134 125 . 134 126 . 135 . 140 131 . 141 132 . 141 132 . 143 134 134 . 143 . 144 135 . 145 136 139 . 148 139 . 148 139 . 148 . 148 139 . 149 140 140 . 149 141 . 150 141 . 150 141 . 150 153 143

6. Sof tware 6.1. Repaso previo. Simulacin y abilidad . . . . . o 6.1.1. Sof tware de las prcticas . . . . . . . . a 6.1.2. Introduccin . . . . . . . . . . . . . . . . o 6.1.3. Generacin de nmeros aleatorios . . . . o u 6.2. Intervalos de conanza y contrastes de hiptesis . . . . . . . . . . . . . . . . . . . . o 6.2.1. Introduccin . . . . . . . . . . . . . . . . o 6.2.2. Inferencia paramtrica . . . . . . . . . . e 6.2.3. Inferencia no paramtrica . . . . . . . . e 6.3. Control de calidad . . . . . . . . . . . . . . . . 6.3.1. Introduccin . . . . . . . . . . . . . . . . o 6.3.2. Grcas X y R; P; U . . . . . . . . . . a 6.3.3. Otros comandos . . . . . . . . . . . . . . 6.3.4. Diagrama Pareto . . . . . . . . . . . . . 6.3.5. Grcas cusum . . . . . . . . . . . . . . a 6.4. Diseo de experimentos . . . . . . . . . . . . . . n 6.4.1. Introduccin . . . . . . . . . . . . . . . . o 6.4.2. Anlisis de la varianza con un solo factor a 6.4.3. Anlisis de la varianza con dos factores . a 6.5. Regresin . . . . . . . . . . . . . . . . . . . . . o 6.5.1. Modelo lineal . . . . . . . . . . . . . . . 7. Formulario

IV

Bibliograf a

165 154

8. Material bibliogrco a 167 155 8.1. Bibliograf bsica . . . . . . . . . . . . . . . . . . . . . . . . . 167 a a 155 8.2. Bibliograf complementaria . . . . . . . . . . . . . . . . . . . 158 a . 170 8.3. Material on-line on line . . . . . . . . . . . . . . . . . . . . . . . . 160 . 172
Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5 4 Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

Prefacio
Este material va dirigido principalmente a los estudiantes de la asignatura IG23 Ampliacin de Estad o stica de la Ingenier Tcnica en Informtica de a e a Gestin de la Universitat Jaume I. Este material se encuadra dentro del proo grama UJI Virtual, por lo que tambin se ofrece en abierto a travs de Internet, e e para que pueda ser utilizado por cualquier persona. Esta asignatura es una materia troncal, que cuenta con una asignatura previa (IG12 Estad stica). Dado que constituyen las unicas materias con con tenidos estad sticos que cursarn los estudiantes, junto con el hecho de que a la titulacin sea una ingenier hace que el aspecto prctico y aplicado cobre o a, a gran valor, pues adems el tiempo disponible es escaso en comparacin con los a o conceptos a tratar. Por estas razones, que tambin vienen respaldas por profesionales de prese tigio reconocido (basta leer los prefacios de libros como Montgomery y Runger [49], Cao et al. [11], Vilar [79], Dougherty [24], Moore [51], Devore [22], Mendenhall y Sincich [45], entre otros muchos), el enfoque de la asignatura es el de una estad stica aplicada, con que puedan resolver los problemas del mundo real con los que puedan enfrentarse, y no plantear un curso de estad stica matemtica elemental, que ser acorde a otro tipo de titulaciones. a a En este material se presenta la teor acompaada de ejemplos extra a n dos de problemas de exmenes, principalmente, todos ellos relacionados con el campo a de la informtica, junto con los comandos que usar a amos en el lenguaje R, para obtener los resultados. Hay un primer cap tulo, donde se repasa los puntos fundamentales, vistos en la asignatura previa IG12 (vase [34]), para luego ya centrarnos en los e contenidos del programa de esta asignatura, IG23: Inferencia estad stica. Estimacin; Contrastes de hiptesis; Control de calidad; Diseo de experimentos. o o n Entendemos que es fundamental trabajar esta materia mediante la realizacin de tareas, principalmente, la realizacin de problemas. Las actividades o o de aprendizaje, sin embargo, no se incluyen en este libro, sino que su lugar est en el aula virtual, tal y como se seala en el programa UJI Virtual. De toa n das formas, sobre todo de cara al autoaprendizaje, material que tambin puede e complementar parte de la materia de esta asignatura (los dos primeros temas), mediante cuestiones de verdadero/falso, a completar y de eleccin mltiple es o u [43]. Es indiscutible la importancia del uso de las clases de ordenador para la enseanza de la Estad n stica en la actualidad. Por ello, hay un cap tulo dedicado al sof tware libre R. De nuevo, no se han incluido las actividades de aprendi-

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

zaje, que se disponen en el aula virtual. Sin embargo, los estudiantes tambin e pueden disponer de material con actividades en [26]. Se incluye tambin un formulario, que recopila las frmulas ms importane o a tes tratadas en la asignatura. En el ultimo cap tulo, se realiza igualmente un breve repaso sobre diverso material, que puede ser de inters, para el aprendizaje de la materia. e Por ultimo, nos gustar agradecer a nuestras familias, la paciencia y el a apoyo, que esperemos siga siendo inagotable. Ahora slo queda esperar y desear que este material sirva para su n, o ayudar en el aprendizaje y en la resolucin de problemas de la Estad o stica. Irene Epifanio Pablo Gregori Universitat Jaume I

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

PARTE I REPASo

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

Cap tulo 1 Repaso previo


El unico ant doto para esta posible manipulacin y para participar efectio vamente en la argumentacin pblica basada en cifras y datos, consustancial o u a la vida democrtica, es un conocimiento bsico de los mtodos estad a a e sticos. En este sentido, una formacin en los conocimientos estad o sticos bsicos es a necesaria para cualquier ciudadano. Daniel Pena

Este es un tema de repaso que recapitula las ideas bsicas que ya se vieron a previamente el curso anterior en IG12 Estad stica. Slo pretende refrescar la o memoria, centrar ideas y tener una visin global en unas pocas pginas. En el o a libro de Gregori y Epifanio [34], podis encontrar material ms detallado que e a el presente tema, ya que trataba la asignatura previa a sta. e

1.1.

Introduccin o

A continuacin, se presentan varios ejemplos del tipo de problemas que o seremos capaces de resolver al nal del curso. Ejemplo 1.1: En una empresa, se realiza diariamente un control sobre el nmero de intentos de acceso fraudulentos a cuentas de los trabajadores de u la empresa. El control se realiza a partir de una muestra de 500 intentos de acceso, seleccionados aleatoriamente del total de intentos de acceso diario. Los intentos de acceso se clasican sencillamente en buenos o malos segn si la u contrasea escrita al intentar acceder es correcta o no. En teor se considera n a que la tasa de intentos de acceso fraudulentos no ha de superar el 2 % del total de intentos. Supongamos que hoy, de los 500 intentos de acceso de la muestra, 12 han sido fraudulentos, es decir, un 2.4 %. Tenemos motivos sucientes para sospechar que alguien est intentando acceder fraudulentamente al sistema o a se debe unicamente al azar? Ejemplo 1.2: Estamos interesados en comparar los tiempos de ejecucin de o 5 algoritmos de ordenacin (algoritmo de la burbuja, de seleccin, de insercin, o o o quicksort, treesort) para un cierto tipo de datos de un tamao determinado n y con un cierto grado de desorden. Para ello, consideramos diversos conjuntos de entrada de entre los que estamos interesados y obtenemos el tiempo de cpu
Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5 8 Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

de ejecucin con cada algoritmo. Algunas preguntas que querr o amos contestar en base a los resultados obtenidos podr ser: Existe diferencia signicativa an entre los 5 algoritmos? Hay un algoritmo mucho mejor que los otros? Pueden clasicarse los algoritmos en diversos grupos homogneos en el sentido que e dentro de cada grupo no dieran signicativamente? El problema podr complicarse si, por ejemplo, el tamao de los datos a a n ordenar o el grado de desorden no son siempre los mismos, entonces deber amos plantear un modelo adecuado al problema. Ejemplo 1.3: Se pretende disear un ratn ergonmico para nios de 7 a n o o n 9 aos. Hemos de conocer la forma de su mano derecha por lo que hemos de ton mar distintos datos antropomtricos de un conjunto de nios. Supongamos que e n estamos interesados en la longitud de su dedo ndice. Realizamos un estudio piloto con 30 nios, de los que obtenemos una media de 6 cm y una desviacin n o t pica de 0.4 cm. Si deseamos poder armar con un 95 % de conanza que la media es imprecisa como mucho en 0.1 cm, cuntos datos deber a amos tomar? Una vez tomados, podr amos calcular un intervalo de conanza al 95 % para la media. Ejemplo 1.4: Este ejemplo se escapa de los objetivos del curso, pero muestra otro tipo de problemas que pueden resolverse utilizando la Estad stica. Desear amos disear un detector automtico del tan molesto correo basura n a (spam), de forma que se ltrara este correo antes que colapsara los buzones de los usuarios. Utilizando la informacin de 5000 e-mails, se intentar predecir si o a un nuevo correo electrnico es correo basura o no, de manera automtica. Por o a ejemplo, variables que podr sernos utiles ser el porcentaje de aparicin an an o de determinadas palabras, como puede ser: free, help, Irene, etc. Al nal se podr obtener (mediante mtodos que no veremos) reglas como: an e si ( % Irene < 0.6) & ( % help > 1.5) entonces spam si no e-mail

Veamos ahora de qu se encarga la Estad e stica. La ciencia Estad stica tiene un doble objetivo: La generacin y recopilacin de datos que contengan informacin releo o o vante sobre un determinado problema (muestreo). El anlisis de dichos datos con el n de extraer de ellos dicha informaa cin. El primer paso en el anlisis de los datos consistir en describirlos o a a a travs de ciertas medidas y grcas, lo cual nos facilitar su comprene a a sin (estad o stica descriptiva). Sin embrago, buscamos ir ms all y poder a a sacar conclusiones basadas en dichos datos. Para ello, podremos recurrir a plantear un modelo matemtico (teor de la probabilidad) que nos a a permitir despus extraer las conclusiones que nos interesan (inferencia a e estad stica).

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

Por tanto, un modelo estad stico constar de varias partes: a) muestreo a (apartado 1.7), b) estad stica descriptiva (apartado 1.2), c) confeccin de un o modelo matemtico (teor probabilidad) (apartados 1.4, 1.5, 1.6), d) inferena a cia estad stica (este curso). Esta ultima parte (d) se considerar en este curso, a mientras que las restantes se han tratado en la asignatura IG12 Estad stica (o F04 para los procedentes del viejo plan de estudios). En resumen, la Estad stica estudia los mtodos cient e cos para recoger (hacer un muestreo), organizar, resumir y analizar datos (estad stica descriptiva), as como para obtener conclusiones vlidas (inferencia estad a stica) y tomar decisiones razonables basadas en tal anlisis. a As en el ejemplo 1.2, primero tomamos una muestra aleatoria de entre , todos los archivos de ese tipo (tamao y grado de desorden), obtenemos los n tiempos de ejecucin con cada algoritmo, despus se describir (medias, vao e an rianzas, grcos, ...), se propondr un modelo adecuado y obtendr a a amos las conclusiones de inters (respuestas a las preguntas planteadas). e Repasemos ahora algunos conceptos bsicos: a Poblacin: Conjunto de todos los individuos que son objeto de estudio y o sobre los que queremos obtener ciertas conclusiones. Ejemplos: Todos los nios entre 7 y 9 aos (ejemplo 1.3). n n Todos los e-mails recibidos y por recibir (ejemplo 1.4). Como puede verse, a veces las poblaciones existen f sicamente y son nitas aunque muy grandes, en cambio otras veces la poblacin es de carcter abso a tracto. En general, en lugar de hacer un estudio de todos los elementos que componen la poblacin (hacer un censo), se escoge un conjunto ms reducido. o a Muestra: Es un subconjunto, una parte de la poblacin que seleccionamos o para un estudio. Es deseable que la muestra extra se parezca a la poblacin, es deda o cir,que sea como la poblacin pero en tamao reducido. El objetivo es que o n la muestra sea representativa de la poblacin. Notemos que si la muestra es o mala, las conclusiones extra das no sern vlidas, podr ser errneas. a a an o Ejemplo 1.3: Si para obtener medidas para el ejemplo 1.3 acudiramos a e un entrenamiento de baloncesto de nios entre 10 a 11 aos, obtendr n n amos una muestra representativa de la poblacin o sesgada? o Es obvio que estar sesgada. a Tamao muestral: Es el nmero de observaciones de la muestra, N . n u

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

0

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

Variable aleatoria: Es una caracter stica aleatoria que podemos expresar numricamente, es la caracter e stica que estamos midiendo en cada individuo. Una caracter stica aleatoria ser una caracter a stica que tomar un valor para a cada individuo. Las variables aleatorias las denotaremos con letras maysculas: X, Y , ... u Las variables aleatorias pueden clasicarse en: Cualitativas o categricas: expresan una cualidad. o Cuantitativas: tienen propiamente carcter numrico. a e Variables cualitativas: Las variables cualitativas a su vez se subdividen en: ordinales o no ordinales, segn si las categor pueden o no disponerse u as bajo un orden con sentido. Ejemplos de variables cualitativas no ordinales: Distribucin de linux: 1 = Red Hat, 2 = Suse, 3 = Debian, 4 = Otras o Mail: 1 = SPAM, 0 = No SPAM Sexo de una persona: 1 = Mujer, 2 = Hombre Adiccin al tabaco: 1 = Fuma, 2 = No fuma o Tipo de defectos de un frigor co defectuoso: 1 = Termostato, 2 = Compresor, 3 = Motor, 4 = Cableado, 5 = Revestimiento, 6 = Otros Ejemplo 1.5: Los alumnos de 3o itig quieren irse de viaje de n de curso para celebrar que han aprobado y para sacarse unos euros deciden vender gorras. Quieren conocer el color preferido por los compradores potenciales, por tanto, les interesa la variable aleatoria: Color de la gorra preferido por los miembros de la uji, con posibles valores: 1 = Negro, 2 = Blanco, 3 = Rojo, 4 = Otros. Ejemplos de variables cualitativas ordinales: Inters sobre una determinada materia: 1 = Bajo, 2 = Medio, 3 = Alto e Cualquiera de las de la encuesta de evaluacin de la docencia: 1 = Muy o desfavorable, 2 = Desfavorable, 3 = Indiferente, 4 = Favorable, 5 = Muy favorable Las variables cuantitativas tambin se dividen en dos: e Discretas: toman valores discretos, es decir, en un conjunto numerable (podemos contar los posibles valores que pueden adoptar). Existen espacios entre los posibles valores que puede adoptar la variable. Continuas: como indica su nombre, toman valores en un conjunto no numerable. Los valores que adoptan estas variables, pueden estar tan cercanos como se quiera.

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5



Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

Ejemplos de variables discretas: 1. Nmero de piezas defectuosas en un lote de 100 piezas. u 2. Nmero de caras obtenidas al lanzar una moneda 20 veces. u 3. Nmero de cincos al lanzar un dado 60 veces. u En los tres casos anteriores los valores que pueden adoptar son nitos: en 1) de 0 a 100, en 2) de 0 a 20, en 3) de 0 a 60. Sin embargo, podr no ser as a , podr adoptar valores discretos no limitados: a 1. Nmero de errores en una supercie de grabacin magntica. u o e 2. Nmero de mensajes que llegan a un servidor en una hora. u 3. Nmero de manchas de ms de 1 mm2 en una lmina. u a a 4. Nmero de defectos en 2 m de cable. u 5. Nmero de veces al mes que va al cine un estudiante de itig. u Ejemplos de variables continuas: 1. Ejemplo 1.2: Tiempo de ejecucin del algoritmo de la burbuja para el o tipo de archivos considerado. 2. Ejemplo 1.3: Longitud de la mano de nios de 7 a 9 aos. n n 3. Peso de ciertas piezas. 4. Tiempo de vida (duracin) de ciertos motores. o 5. Dureza de cierto material. 6. Resistencia de cierto producto. 7. Notas de estudiantes de itig. 8. Euros gastados con el mvil en un mes por un estudiante de la uji. o Observacin: La distincin entre variables continuas y discretas no es o o r gida. Las variables continuas anteriores corresponden a medidas f sicas que siempre pueden ser redondeadas, por ejemplo, la longitud podemos medirla hasta el mil metro ms cercano o el peso hasta el gramo ms cercano. Aunque a a estrictamente hablando, la escala de dichas medidas sea discreta, las consideraremos continuas como una aproximacin a la verdadera escala de medida. o Resumiendo, las variables aleatorias pueden ser: 1. Categricas o cualitativas o a) No ordinales b) Ordinales

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

2

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

2. Cuantitativas a) Discretas b) Continuas

1.2.

Descripcin de una muestra o

Para describir una muestra, podemos valernos de tablas de frecuencias, de mtodos grcos (histogramas, diagramas de cajas, etc.) y medidas descriptie a vas. Recordmoslas brevemente, ayudndonos del ejemplo siguiente. e a Ejemplo 1.6: Tabla de frecuencias de las notas del grupo A de la asignatura IG23 en febrero de 2003. L mites
de clase

[0, 2.5) [2.5, 5) [5, 7.5) [7.5, 10]

(Marca Frecuencia Frecuencia Frecuencia Frecuencia de clase) absoluta relativa acumulada rel. acumulada 11 29 51 29

Frecuencia absoluta: Nmero de observaciones en el intervalo. u Frecuencia relativa: Nmero de observaciones en el intervalo / tamao u n muestral; suma 1; indica el porcentaje de observaciones en el intervalo. Frecuencia acumulada: Suma de las frecuencias de los intervalos anteriores, incluyendo el actual. Indica el nmero de observaciones por debajo u del extremo superior de la clase. Obviamente, el ultimo valor es el tamao n muestral. Frecuencia relativa acumulada: Frecuencia acumulada/tamao muestral. n Indica el porcentaje muestral por debajo del extremo superior de la clase. El ultimo valor ser 1 (100 %). a Normalmente, las clases son de igual anchura, pero podr no serlo: an Intervalo Frec. abs. Frec. rel. Frec. acum. Frec. rel. acum. [0, 5) [5, 7) [7, 9) [9,10] 40 42 20 18

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

3

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

Los grcos nos permiten tambin ilustrar la distribucin de los datos. a e o Histograma: Pueden ser de frecuencias absolutas, relativas, acumuladas o relativas acumuladas, segn que represente la altura de la barra. u Ejemplo 1.6: Ejemplo de histograma para las notas de otro grupo.
70 70

60

60

50

50

40

40

30

30

20

20

10

10

10

10

Figura 1.1: Histograma de frecuencias absolutas Los histogramas nos muestran cmo se distribuyen (cmo se reparten) los o o datos, las cimas de las barras indican la forma de la distribucin. Adems, el o a area de cada barra es proporcional a la correspondiente frecuencia. Ejemplo 1.6: El area rayada del histograma anterior es el 78.4 % del area total de todas las barras, por tanto, el 78.4 % de las notas estn en las corresa pondientes clases, o sea, el 78.4 % de las notas estn entre 5 (inclusive) y 10. a Hay muchos ms mtodos grcos: diagramas de barra, de sectores, pol a e a gonos de frecuencias, diagrama de cajas (boxplot), Pareto, etc. Adems de las grcas, otra forma de resumir los datos es mediante medidas a a descriptivas numricas, que podemos dividir en: e Medidas de posicin o centrales: dan cuenta de la posicin de las obsero o vaciones Medidas de dispersin: indican la dispersin (variabilidad) de los datos o o Medidas de forma: miden la forma de distribuirse los datos Medidas de posicin: media, mediana, moda y percentil. o Media: Si tenemos una muestra {x1 , x2 , ..., xN }, N xi x1 + x 2 + + x N x = i=1 = . N N Calculadora: x

(1.1)

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

4

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

Ejemplo 1.7: Nota media de 5 prcticas: {10, 8, 9, 7, 9} a Es 43/5= 8.6. Una medida de posicin no es suciente para describir los datos, porque no o informa acerca de la variabilidad de los datos. Ejemplo 1.8: La nota media de prcticas es 5.2 tanto para {0, 2, 5, 9, 10} a como para {4, 5, 5, 6, 6}, sin embargo, claramente su dispersin es distinta. o Si representamos los histogramas mediante curvas continuas, apreciaremos la distincin entre posicin y dispersin. o o o

Misma posicin y diferente dispersin o o

Distinta posicin y misma dispersin o o

Medidas de dispersin: rango, rango intercuart o lico, varianza, desviacin t o pica o estndar, coeciente de variacin. a o Varianza: N (xi x)2 (x1 x)2 + (x2 x)2 + + (xN x)2 2 s = i=1 = N 1 N 1 Frmula alternativa: o N xi 2 N x 2 x1 2 + x 2 2 + + x N 2 N x 2 2 s = i=1 = N 1 N 1 Calculadora: x2 , x o bien N 1 , x2 Observacin: comprobacin de la frmula alternativa o o o (xi x) =
2 N i=1

(1.2)

(1.3)

N i=1

(x2 i

2 x xi + x ) =
2 2

N i=1

x2 i

2x

N i=1

xi + N x 2 =

N i=1

x2 i

2N x +N x =

N i=1

xi 2 N x 2

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

5

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

Por la frmula 1.2 puede apreciarse que a mayor varianza, mayor dispero sin, pues calculamos desviaciones de la media al cuadrado. Por esto ultimo o (cuadrados), la varianza siempre ser mayor o igual que cero. Recordad: a nunca negativa, siempre positiva. Por qu dividir por N - 1, en lugar de por N? Por razones tcnicas que ya se e e comentarn ms adelante; una justicacin intuitiva ser considerar el caso en a a o a que N=1 (un unico valor muestral). Si N es grande no habr apenas diferencia. a Ejemplo 1.3 (continuacin): si slo observramos 1 nio (N=1) y nos o o a n 2 diera como medida 7 cm, cul ser s ? Y si dividiramos por N? a a e Si dividimos por N 1, no podemos obtener s2 , que es bastante coherente dado que con un unico dato dif cilmente podemos conocer la variacin. o La varianza es muy apropiada por ciertas propiedades (si dos variables son independientes, la varianza de la suma es la suma de las varianzas), pero tiene un problema: cambia las unidades de los datos, ya que hacemos un cuadrado. Para resolverlo se usa la ra cuadrada de la varianza: z Desviacin t o pica o estndar: a N 2 i=1 (xi x) = s2 s= N 1 Calculadora: N 1

(1.4)

1.3.

Descripcin de la poblacin o o

Hasta ahora hemos examinado diversas formas de describir una muestra. Aunque la descripcin de un conjunto de datos es de inters por s misma, o e muchas veces lo que se pretende es generalizar y extender los resultados ms a all de la limitacin de la muestra. La poblacin es realmente el foco de inters. a o o e Como ya vimos, el proceso de sacar conclusiones sobre una poblacin o basndonos en las observaciones de una muestra de dicha poblacin, es la a o inferencia estad stica. Puesto que las observaciones se realizan unicamente en la muestra, las caracter sticas de la poblacin nunca se conocern exactamente. Para poder o a inferir (deducir, concluir, tomar decisiones) de una muestra a la poblacin, o necesitaremos un lenguaje (paralelo al muestral) para describir la poblacin. o Variables categricas: Podemos describir la poblacin simplemente ino o dicando la proporcin de la poblacin en cada categor o o a.

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

6

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

Ejemplo 1.5 (continuacin): Supongamos hipotticamente que podeo e mos preguntar a todos los miembros de la uji:
Poblacin: o todos los miembros de la uji Color p 1 2 3 4 = = = = Negro Blanco Rojo Otros 0.57 0.14 0.09 0.2 La muestra de alumnos de 3o itig Frecuencia relativa () p 0.52 0.07 0.13 0.28

La proporcin muestral de una categor es una estimacin de la correspono a o diente proporcin poblacional (en general desconocida). Puesto que no tienen o porqu ser iguales (aunque s que querr e amos que fuesen cuanto ms iguales a mejor), las denotaremos con letras diferentes: p = proporcin de la poblacin o o p = proporcin de la muestra o Variables cuantitativas: Para variables cuantitativas, la media, varianza, desviacin t o pica, etc., son descripciones de la poblacin. Estas cantidades o se aproximarn con los datos muestrales y constituirn una estimacin de las a a o correspondientes cantidades para la poblacin. La media de la poblacin la deo o notaremos mediante la letra , la varianza y desviacin t o pica de la poblacin o con 2 y respectivamente. Recordemos que la media muestral era x, la varianza muestral, s2 y la desviacin t o pica, s. Notemos que x es una estimacin o de (desconocida) y s es una estimacin de (desconocida). o Nota que las cantidades poblacionales las denotamos con letras griegas que se corresponden con las respectivas letras latinas, para las cantidades muestrales. Ejemplo 1.3 (continuacin): Con la muestra de 30 nios obtenemos x o n = 6 y s = 0.4. La media de la poblacin (todos los nios entre 7 y 9 aos) la o n n llamamos y no la conocemos. La desviacin t o pica de la poblacin (todos los o nios entre 7 y 9 aos) la llamamos y no la conocemos. n n El histograma tambin es una buena herramienta que nos informa sobre la e distribucin de frecuencias de la poblacin. Si, adems, la variable es continua, o o a podemos emplear una curva suave para describirla. Esta curva puede verse como una idealizacin del histograma con clases muy estrechas. Esta curva que o representa la distribucin de frecuencias, es la curva de densidad. o

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

7

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

Interpretacin de la densidad: El area bajo la curva de densidad entre o los valores a y b equivale a la proporcin de valores de la variable Y entre a y b. o

rea = 1

Densidad

Y b

Densidad

Debido a la forma en que la curva es interpretada, el area bajo la curva entera debe ser igual a 1. Ejemplo 1.9: Supongamos que nos interesa la variable X = tiempo (en decenas de miles de horas) de vida de cierta clase de ventiladores de ordenador y que se distribuye segn la siguiente curva de densidad: u
0.7 0.7

0.6

0.6

0.5

0.5

0.4

0.4

0.3

0.3

0.2

0.2

0.1

0.1

0.5

1.5

2.5

3.5

0.5

1.5

2.5

3.5

El area rayada es igual a 0.61, lo cual indica que el 61 % de los valores de la variable estn entre 1 y 2. a Para calcular las areas bajo las curvas de densidad, necesitar amos integrar, aunque en muchos casos usaremos tablas.

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

8

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

Observacin: Cul ser la frecuencia relativa de un valor concreto, por o a a ejemplo 6 cm, de la variable del ejemplo 1.3? La respuesta es cero (el area es cero). Aunque parezca extrao que la frecuencia relativa de una longitud igual n a 6 cm sea cero, pensemos un poco. Si estamos midiendo hasta el mil metro ms cercano, entonces, en realidad estamos preguntando la frecuencia relatia va entre 5.95 cm y 6.05 cm, que no es cero. Pensemos en la longitud como una variable continua idealizada. Es similar al hecho de que una l nea de 1 m, est compuesta de puntos, cada uno de ellos de longitud cero. a En resumen, una medida numrica calculada a partir de los datos es un e estad stico. La correspondiente medida numrica que describe la poblacin es e o un parmetro. En la siguiente tabla se recogen las ms importantes: a a Medida Proporcin o Media Desviacin t o pica Muestral (estad stico) p x s Poblacional (parmetro) a p

1.4.

Probabilidad

Por qu hemos de estudiar la probabilidad? Las conclusiones de los anlisis e a estad sticos de datos vendrn generalmente dadas en trminos probabil a e sticos (como ya se ver posteriormente en este curso, hasta ahora en el apartado a anterior nos hemos limitado a describir los datos). La probabilidad entra en los anlisis estad a sticos, no unicamente porque el azar inuya en los resultados de un experimento, sino tambin a causa de los modelos tericos que se usarn e o a en la parte de inferencia estad stica. Para poder extraer conclusiones sobre la poblacin, a partir de los datos de una muestra, ser necesario recurrir a o a un modelo matemtico (un esquema terico de comportamiento) que nos dea o termine las reglas de inferencia que es necesario utilizar. La probabilidad es el lenguaje y la fundamentacin matemtica de la estad o a stica inferencial, de igual manera que las reglas de la gramtica proporcionan las bases para organizar a ideas a partir de las palabras que forman la lengua. Espacio muestral y puntos muestrales: El espacio muestral S de una variable aleatoria X es el conjunto de valores que puede tomar dicha variable. Cada uno de los elementos de S se llama punto muestral. Suceso: es un subconjunto A de S. Una probabilidad es una cantidad numrica que expresa la verosimilitud e de un cierto suceso A (certidumbre de que el suceso A ocurra), denotada como P (A) (probabilidad del suceso A). Este nmero estar siempre entre 0 y 1 u a (ambos inclusive). Slo tiene sentido hablar de probabilidad en el contexto de o un experimento aleatorio, es decir, una operacin (proceso) cuyo resultado o viene determinado al menos parcialmente por el azar. De esta forma, cada vez que se lleva a cabo una operacin, el suceso A puede ocurrir o no ocurrir. Dicho o

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

9

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

un experimento aleatorio, es decir, una operacin (proceso) cuyo resultado o viene determinado al menos parcialmente por el azar. De esta forma, cada vez que se lleva a cabo experimento aleatorio es puede ocurrir o no ocurrir. Dicho o de otro modo, un una operacin, el suceso Aaquel que proporciona diferentes de otro modo, cuando se repita aleatorio de la misma manera. un experimento siempre es aquel que proporciona diferentes resultados aun resultados aun un experimento siempre es aquel que proporciona diferentes de otro modo, cuando se repita aleatorio de la misma manera. resultados aun cuando se repita siempre de latrminosmanera. misma frecuenciales. As si un La probabilidad podemos interpretarla en e , La probabilidad podemos interpretarla en tmero innito de veces, la proe , experimento aleatorio se pudiera repetir un nrminos frecuenciales. As si un u La probabilidad podemos (A), se interpretar como la frecuencia relativa interpretarla en t mero innito de veces, la proe , experimento aleatorio se pudiera repetir un nrminos frecuenciales. As si un u a babilidad de un suceso A, P experimento aleatoriosucesoPA en repetir un nmero de repeticiones deladicho u a probabilidad de un del se pudiera una serie innita innito de veces, de la ocurrencia suceso A, (A), se interpretar como la frecuencia relativa babilidad de unsea, si ese experimento se repitiera comourepeticiones de dicho a de la ocurrencia suceso A, PA en se interpretar unde mero grande de veces del suceso (A), una serie innita n la frecuencia relativa experimento. O depor ocurrenciasea, n sucesosemos la ocurrencia o no deuA, se tendr de dicho experimento. O del ese experimento serie innita nmero grande y la cada repetici si anot A en una se repitiera unde repeticiones de veces o a a: experimento. O sea, n anotsemos la ocurrencia o no deuA, se tendr de veces y por cada repetici si ese experimento se repitiera un nmero grande o a a: nmero de veces no de A, u y por cada repeticinP(A) asemos la ocurrencia o que ocurre Ase tendr o anot a: nmero de veces que se repite el experimento u u P(A) nmeronmero de veces que ocurre A donde quiere decir: aproximadamente de veces repiteel experimento u de vecesiguales si el experimento se repite nmero que se que ocurre A u P(A) nmero de veces que se repite el experimento se repite donde quiere decir: aproximadamente iguales si el experimento muchas veces. u donde quiere decir: aproximadamente iguales si el experimento se repite muchas veces. muchas veces.1.10: P(sacar cara) = 0.5, podis lanzar una moneda muchas Ejemplo e Ejemplo 1.10: (si no est trucada, claro!). De todas maneras, f e veces y comprobarlaP(sacar cara) = 0.5, podis lanzar una moneda muchas a jate que Ejemplo 1.10: concreta del experimento, quiz no obtengas exactamente e a vecesuna realizacinP(sacar cara) = 0.5, podisDe todas maneras, f muchas y comprobarla (si no est trucada, claro!). lanzar una monedajate que a para o vecesuna realizacin (si no est hecho, cada vez quea todas maneras, f jate que para y comprobarla cara. Dea trucada, claro!). De no obtengas exactamente o la mitad de las vecesconcreta del experimento, quizrealices el experimento la para una de las veces cara. De hecho, cada vezquiz realices el experimento la o la mitad realizacin concreta del experimento, querepetirlo much frecuencia relativa seguramente cambiar, pero tras a no obtengas exactamente a simas veces la frecuencialas veces (emp De hecho, cada veztras repetirlo el la probabilidad frecuencia relativa seguramente o experimental) tender hacia experimento la a simas veces la mitad de relativa cara.rica cambiar, pero que realices much a frecuencia relativa seguramente cambiar, pero tras repetirloamuch a simas veces la o frecuencia relativa (emp rica o experimental) tender ms repeticiones se a terica del suceso. La aproximacin mejorar conformehacia la probabilidad o a la oricaadel suceso. probabilidadesexperimental) conformehacia la a menudo se frecuencia relativa (emp rica o on un experimento a te La aproximacide mejorar tender ms repeticiones a a lleven cabo. Las aleatorio probabilidad tericaadel suceso. probabilidades oderazonable del sistema as repeticiones se o La de un modelo mejorar conforme m se menudo es aproximacin un experimento aleatorio a estudia, se a lleven cabo. Las asignan sobre la base que lleven se sobre la n siguiendo las especicaciones de un modelo terico que plana asignar base de un modelo razonable del sistema queose menudo se cabo. Las probabilidades de un experimento aleatorio a estudia, es asignan decir, a asignan sobrelos n siguiendo lasapartados) y quede un modelo fenmeno que se decir, se (en la base de un modelo razonable explicar queoo que plana rico tearemosasignar dos prximos especicaciones del sistemael tese estudia, es o a decir, se asignarn siguiendo lasapartados) y quede un modelo terico queque se a dos prximos especicaciones explicarestudios meno planoo realizados. tearemos (en los o estudia. Otras veces, nos basaremos en los resultados de a el fen tearemosOtras veces, prximos apartados) yresultados de a el fenmeno que se o o estudia. (en los dos nos basaremos en los que explicarestudios realizados. estudia. Otras veces, nos basaremos en 1, siendo A unde estudios realizados. los resultados suceso. Recuerda que siempre 0 P (A) Recuerda que siempre 0 P (A) 1, siendo A un suceso. Recuerda que siempre 0 P (A) 1, siendo A un suceso.

1.5. 1.5. 1.5.

Algunos modelos de distribuciones de proAlgunos modelos de distribuciones babilidad para variables discretas Algunos modelos de distribuciones de prode probabilidad para variables discretas babilidad para variables discretas Recordemos que una variable aleatoria es una variable cuyo valor depen-

de del resultado de un experimento aleatorio. En el apartado 1.1 se vieron Recordemos que una variable aleatoria es una variable depenRecordemos que una variable aleatoria es una variable cuyo valor dependiversos ejemplos y se distingui entre variables cualitativascuyo valorricas) y o (o categ o de del resultado de un experimento aleatorio. En el apartado 1.1 se vieron del resultado de un experimento aleatorio. En el apartado 1.1 se vieron de cuantitativas. Dentro de stas ultimas, diferenciamos entre: e diversos ejemplos y se distingui entre variables cualitativas (o categricas) y o o diversos ejemplos y se distingui entre variables cualitativas (o categricas) y o o cuantitativas. Dentro de stas ultimas, diferenciamos entre: e cuantitativas. Dentro de stas ultimas, diferenciamosoentre: numerable (que e variables discretas: toman un conjunto nito innito se pueden contar) de valores. variables discretas: toman un conjunto nito o innito numerable (que variables discretas: toman un conjunto nito o innito numerable (que variables continuas: su espacio muestral est formado por un conjunto a se pueden contar) de valores. se pueden contar) de valores. innito de valores que no podemos contar. variables continuas: su espacio muestral est formado por un conjunto a variables on repasaremospodemos contar. est formado por un conjunto continuas: no espacio muestral matemticos concretos que su algunos modelos a A innito de valores que continuaci a innito de valores variabilidad asociada a una variable aleatoria. Estos que no podemos contar. nos darn la pauta de a A continuacin repasaremos distribuciones de probabilidad. Una distrio a modelos matemticos se llaman algunos modelos matemticos concretos que a nos dardela pauta de variabilidad asociada probabilidades para los posibles bucinan probabilidad es un conjunto de a una variable aleatoria. Estos o modelos matemticos se llaman distribuciones de probabilidad. Una distria bucin de probabilidad es un conjunto de probabilidades para los posibles o
Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5 20 Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

distintos sucesos que pueden darse en un experimento aleatorio, en otras palabras, lo que nos proporciona es cmo se distribuye la probabilidad entre los o sucesos que pueden producirse. Nota: el curso pasado slo visteis el caso univariante (una unica variable); o sin embargo, tambin existen modelos que consideran varias variables conjune tamente. Repasaremos 3 modelos (hay muchos ms), que correspondern a la cona a sideracin de experimentos con determinadas caracter o sticas. El n de estos modelos tericos es la descripcin razonable de algunos fenmenos aleatorios. o o o Son modelos aleatorios o estocsticos, que se diferencian de los modelos maa temticos determin a sticos. Para los modelos determin sticos, los resultados se encuentran predeterminados por las condiciones bajo las cuales se verica el experimento, es decir, dada una entrada, su salida (resultado) queda determinada. Por ejemplo, una fuente de alimentacin (E) suministra corriente a o un circuito de resistencia elctrica (R), el modelo matemtico que nos descrie a bir el ujo de corriente viene dado por la Ley de Ohm I=E/R. El modelo a suministrar el valor de I tan pronto como se dieran los valores de E y R. Sin a embargo, para los experimentos aleatorios, los resultados no pueden predecirse con certeza. Los tres modelos que repasaremos son: la uniforme discreta, la Binomial y la Poisson. Tanto la distribucin Binomial como la de Poisson tienen aplicacin o o en abilidad y en control de calidad. La abilidad estudia la probabilidad de funcionamiento de una unidad, entendida no slo como parte indescomponible o de un sistema, sino tambin como un sistema o subsistema en s e . Distribucin uniforme discreta: Es la distribucin que sigue una vao o riable aleatoria X que toma n posibles valores x1 , x2 , ..., xn con la misma probabilidad. Por tanto, 1 i = 1, ..., n n Ejemplo 1.11: X=resultado al lanzar un dado no trucado. P (X = xi ) =

1.5.1.

Binomial

Esta distribucin tiene una amplia gama de aplicaciones, sobre todo cuano do se trata de realizar pruebas cuyo resultado slo puede adoptar dos valores: o xito o fracaso. e Supongamos que llevamos a cabo un proceso de Bernoulli, es decir, una serie de pruebas. Cada prueba puede resultar en un xito o en un fracaso. e La probabilidad de xito es la misma cantidad, p, para cada prueba, sin ime portar los resultados de las otras pruebas, o sea, las pruebas son independientes.

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

2

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

La variable aleatoria X que representa el nmero de xitos en una serie de u e n pruebas de un proceso de Bernoulli, tiene una distribucin binomial. o Ejemplo 1.12: El ejemplo por excelencia de variable aleatoria distribuida u como una binomial, ser X = nmero de caras obtenidas al lanzar una moa neda no trucada 5 (por ejemplo) veces, en este caso n = 5 y p = 0.5. O bien, X = umero de caras obtenidas al lanzar una moneda trucada (de forma que n la probabilidad de salir cara sea 0.7) 10 (por ejemplo) veces, en este caso n = 10 y p = 0.7. Si la variable X sigue (se distribuye como) una distribucin binomial de o parmetros n y p (siendo n el nmero de pruebas y p la probabilidad de xito), a u e que representaremos como X Bi(n, p), las probabilidades se distribuyen de la siguiente manera (considerando combinatoria podr deducirse): a P (X = x) = n x px q nx , x = 0, 1, ..., n, q = 1 p, donde

n x

n! x! (n x)!

siendo

n! = n (n 1) (n 2) ... 2 1

F jate que una variable X Bi(n, p), slo puede tomar un nmero de vao u lores nito, de 0 a n. n Calculadora: para calcular puede emplearse las teclas nCr o bien x n n n n x! . Recuerda tambin que e = = 1, = = n, 0 n 1 n1 0! = 1 y 1! = 1. Ejemplo 1.12: Las siguientes grcas muestran cmo se distribuye (rea o parte) la probabilidad entre los puntos muestrales, para las dos variables de este ejemplo. F jate que si sumamos todas las probabilidades de los puntos muestrales obtendremos 1. Binomial(5, 0.5)
0.30 0.25

Binomial(10, 0.7)

0.25

0.20

0.15

0.10

0.05

0.00 0

0.05

0.10

0.15

0.20

10

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

22

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

En cada problema, debe especicarse qu quiere decir xito. Exito e e puede ser salir cara como en el ejemplo anterior, o bien, por ejemplo ser defectuoso, ser satisfactorio, o cumplir las especicaciones, etc. Ms ejemplos de variables aleatorias con distribucin Binomial son: a o Una mquina-herramienta desgastada produce 1 % de piezas defectuosas. a La variable X = umero de piezas defectuosas en las siguientes 50 piezas n producidas seguir una distribucin Binomial, con parmetros n = 50 a o a y p = 0.01. De todos los bits transmitidos a travs de un canal de transmisin digital, e o 10 % se reciben con error. La variable X = umero de bits con error en n los siguientes 10 bits transmitidos se distribuye como una distribucin o Binomial(10,0.1). Un producto electrnico contiene 40 circuitos integrados. La probabilidad o de que cualquiera de los circuitos integrados est defectuoso es 0.02, y e los circuitos integrados son independientes. La variable X = umero de n circuitos defectuosos de los 40 es Binomial(40,0.02). Puesto que estamos estableciendo modelos tericos que describan el como portamiento de ciertas variables aleatorias, tambin podremos establecer cul e a 2 ser la media poblacional, , y la varianza poblacional, , usando estos moa delos. Para una variable Binomial, X Bi(n, p), se tiene = np, y 2 = npq. La media, tambin se llama esperanza matemtica. e a

1.5.2.

Poisson

Consideremos ahora una serie de experimentos que consisten en observar el nmero de ocurrencias de un hecho en un intervalo de tiempo o espacio u determinado. Por ejemplo: Ejemplo: Nmero de errores en una supercie de grabacin magntica. u o e Ejemplo: Nmero de mensajes que llegan a un servidor en una hora. u Ejemplo: Nmero de fallos de un equipo industrial durante 5 aos. u n Ejemplo: Nmero de defectos de fabricacin por cada 1000 metros de cau o ble. Una variable aleatoria X sigue una distribucin de Poisson, si cuenta o el nmero de ocurrencias por unidad de magnitud, cuando: u

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

23

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

el nmero de ocurrencias en un intervalo de tiempo o del espacio es indeu pendiente del nmero de ocurrencias en otro intervalo disjunto (proceso u sin memoria). Adems, la probabilidad de que haya una sola ocurrencia en un intervalo a muy corto es proporcional a la amplitud del intervalo y la probabilidad de que haya ms de una ocurrencia en un intervalo muy a corto es despreciable. Si la variable X sigue (se distribuye como) una distribucin Poisson de o parmetro (X Po()), donde indica el nmero medio de ocurrencias a u Adem magnitud y suele denominarse par ocurrencia en un intervalo por unidad as, la probabilidad de que haya una solaametro de intensidad, las de muy corto distribuyen de la siguiente manera: probabilidades sees proporcional a la amplitud del intervalo y

la probabilidad deeque x a haya ms de una ocurrencia en un intervalo muy P (X = x) = , x = 0, 1, 2, 3, ... (x N) corto es despreciable. x! F la variable X sigue (se Po(), puede tomar distribucin innito nujate que una variable X distribuye como) una un nmero Poisson de u o Si merable (contable) de valores. parmetro (X Po()), donde indica el nmero medio de ocurrencias a u por unidad de magnitud y suele denominarse parmetro de intensidad, las a En el caso de una variable Poisson, X Po(), se tiene que = y 2 = . probabilidades se distribuyen de la siguiente manera:

Las siguientes grcas x a e muestran cmo se distribuye (reparte) la probabio Plos puntos muestrales, para dos1,variables Poisson. N) (X = x) = , x = 0, 2, 3, ... (x F lidad entre jate que si x! sumamos todas las probabilidades de los puntos muestrales obtendremos 1. F jate que una variable X Po(), puede tomar un nmero innito nuu merable (contable) de valores. Poisson(3) Poisson(15)
0.20

En el caso de una variable Poisson, X Po(), se tiene que = y 2 = .


0.06 0.00 0.02 0.04 0.08 0.10

0.00

0.05

Las siguientes grcas muestran cmo se distribuye (reparte) la probabia o lidad entre los puntos muestrales, para dos variables Poisson. F jate que si sumamos todas las probabilidades de los puntos muestrales obtendremos 1.
0.10 0.15 0 5 10 15 20

Poisson(3)
25 30 35

Poisson(15)
0 5

10

15

20

25

30

35

1.6.

modelos de distribuciones Algunos modelos de distribuciones de prode probabilidad para variables continuas babilidad para variables continuas

a o Se recordarn diversos modelos tericos de distribuciones de probabilidad a n diversos modelos tericos de distribuciones de probabilidad o para variables continuas. En el apartado 1.3, vimos como la distribucin de la variables continuas. En el apartado 1.3, vimos como la distribucin de la o o a poblacin de una variable aleatoria continua X podr describirse mediante o n de una variable aleatoria continua X podr describirse mediante a densidad (como un histograma idealizado), que representaba una curva de densidad (como un histograma idealizado), que representaba frecuencias relativas como areas bajo la curva. Si en un histograma hacemos relativas como reas bajo la curva. Si en un histograma hacemos a amplitud del intervalo de clase a cero tendremos un nmero innito u tender la amplitud del intervalo de clase a cero tendremos un nmero innito u de intervalos, convirtindose el histograma en un nmero innito de barras intervalos, convirtindose el histograma en un nmero innito de barras e u e u de grosor innitesimal, dispuestas de modo continuo (histograma idealizado). De esta forma, llegar amos a la que llamamos en el apartado 1.3 curva (o funcin) de densidad, y que denotaremos como f (x). o Irene Epifaniouno Gregori - ISBN: 978-84-692-4538-5 repasaremos 24 los que Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI Cada / Pablo de los modelos que (y no repasaremos) tiene asociado su funcin de densidad y a travs de ella podremos calcular probabilio e dades de distintos sucesos. La forma de calcular probabilidades para variables continuas diere de la que se usa para variables discretas. Ahora para calcular

de grosor innitesimal, dispuestas de modo continuo (histograma idealizado). De esta forma, llegar amos a la que llamamos en el apartado 1.3 curva (o funcin) de densidad, y que denotaremos como f (x). o Cada uno de los modelos que repasaremos (y los que no repasaremos) tiene asociado su funcin de densidad y a travs de ella podremos calcular probabilio e dades de distintos sucesos. La forma de calcular probabilidades para variables continuas diere de la que se usa para variables discretas. Ahora para calcular la probabilidad de un suceso deber amos calcular el area comprendida entre el eje x y la funcin de densidad (o sea, integrar), para los valores sealados por o n el suceso. Ejemplo 1.13: Si quisiramos conocer la probabilidad de que un estudiante e de la clase midiera entre 175 y 185 cm, P(175 X 185), deber amos calcular el area rayada, es decir, integrar la funcin de densidad entre 175 y 185 cm. o

Ejemplo 1.13: Si quisiramos conocer la probabilidad de que un estudiante e de la clase midiera entre 175 y 185 cm, P(175 X 185), deber amos calcular el rea rayada, es decir, integrar la funcin de densidad entre 175 y 185 cm. a o

160

165

170

175

180

185

190

195

200

Segn las reglas de probabilidad, tendremos que el area total bajo la u a Segn las reglas de probabilidad, tendremos que el rea total bajo la u funcin de densidad es siempre 1. Adems, puesto que la integral de un o a funcin de densidad es siempre 1. Adems, puesto que la integral de un o a punto al mismo punto vale cero (el area de una barra con grosor un punto es al mismo punto vale cero (el rea de una barra con grosor un punto es a punto nula, recuerda tambin la ultima observacin del punto 1.3), se tiene que pae o nula, recuerda tambin la ultima observacin del punto 1.3), se tiene que pae o ra variables continuas, la probabilidad de que una variable aleatoria variables continuas, la probabilidad de que una variable aleatoria ra continua tome un valor puntual es cero. As en el ejemplo anterior, P(X , continua tome un valor puntual es cero. As en el ejemplo anterior, P(X , = 168.96) = 0, por ejemplo. Por esta razn, para cualquier variable continua o = 168.96) = 0, por ejemplo. Por esta razn, para cualquier variable continua o X se cumple: P(a X b) = P(a < X b) = P(a < X < b) = P(a X < se cumple: P(a X b) = P(a < X b) = P(a < X < b) = P(a X < X b), o sea, para variable continuas (nicamente), la probabilidad ser la misma u a b), o sea, para variable continuas (nicamente), la probabilidad ser la misma u a tanto si la desigualdad es o no estricta. tanto si la desigualdad es o no estricta. F jate que esta ultima propiedad no se cumple para las variables discretas. F jate que esta ultima propiedad no se cumple para las variables discretas.
Existe gran cantidad de modelos para variables continuas. Algunos mode2 los son: la Normal, uniforme, exponencial, Weibull, la t de Student, 2 Chicuadrado y F de Snedecor. Cada una de ellas tiene una curva de densidad y viene caracterizada por un/os parmetro/s. a Como ya hemos dicho, para conocer la probabilidad de sucesos para variables continuas deber amos integrar, sin embargo, para algunos modelos es tica el valor de la integral mediante la funcin posible expresar de forma anal el valor de la integral mediantela o de distribucin acumulada que denotaremos F (x) y que nos proporcioo nar P (X x), es decir, para cada x, la funcin F nos devolver la probaa o a bilidad de que la variable X tome un valor menor o igual que x. A veces, no 25 Ampliacin Irene tal / Pablo Gregori - expl existeEpifanioexpresinISBN: 978-84-692-4538-5 preciso recurrir a tablas. de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI o cita y es

A modo de resumen aclaratorio: cada modelo continuo viene determinado por su funcin de densidad, f . Hay que tener claro que la funcin de densio o

de distribucin acumulada que denotaremos F (x) y que nos proporcioo nar P (X x), es decir, para cada x, la funcin F nos devolver la probaa o a bilidad de que la variable X tome un valor menor o igual que x. A veces, no existe tal expresin expl o cita y es preciso recurrir a tablas. A modo de resumen aclaratorio: cada modelo continuo viene determinado por su funcin de densidad, f . Hay que tener claro que la funcin de densio o dad, f , NO da probabilidades, sino el area bajo dicha funcin. Para calcular o probabilidades hay que usar F , la funcin de distribucin acumulada. o o

1.6.1.

Distribucin Uniforme(a,b) o

Es la distribucin que sigue una variable aleatoria X que toma valores en o un intervalo [a,b] con la misma probabilidad. Por ejemplo, las calculadoras cient cas con la tecla RAN o Rnd generan valores aleatorios de una variable uniforme entre 0 y 1. Su funcin de densidad y su funcin de distribucin o o o tienen la siguiente forma:
1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0.5 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0.5

0.5

1.5

0.5

1.5

(a)

(a)

(b)

(b)

Figura 1.2: (a) Funcin de densidad, f , de la Uniforme(0,1); (b) Funcin de o o distribucin, F , de la Uniforme(0,1) o La funcin de densidad, de distribucin acumulada, la media y varianza o o vienen dadas para una variable Uniforme(a,b) por: 1 a + b 2 (b a)2 si a < x < b ba , = f (x; a, b) = ; = en otro caso 2 0 12 si x < a 0 xa si a < x < b F (x; a, b) = ba 1 si x > b

1.6.2.

Distribucin exponencial() o Exponencial()

Es usada muchas veces para modelizar el comportamiento de variables alea torias del tipo tiempo transcurrido hasta el fallo de un componente industrial o tiempo que tarda en completarse un proceso determinado. La funcin de o densidad y funcin de distribucin de una exponencial de parmetro tienen o o a la siguiente forma:
Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5 26 Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

(a)

(b)

Figura 1.3: (a) Funcin de densidad, f , de la Exponencial(0.5); (b) Funcin de o o

densidad y funcin de distribucin de una exponencial de parmetro tienen o o a la siguiente forma:


2 1.8 1.6 1.4 1.2 1 0.8 0.6 0.4 0.2 0 0.5 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0.5

0.5

1.5

2.5

0.5

1.5

2.5

(a)

(b)

Figura 1.3: (a) Funcin de densidad, f , de la Exponencial(0.5); (b) Funcin de o o distribucin, F , de la Exponencial(0.5) o La funcin de densidad, de distribucin acumulada, la media y varianza o o vienen dadas para una variable Exponencial() por: 1 1 0 si x 0 f (x; ) = ; = , 2 = 2 x e si x > 0 0 si x 0 F (x; ) = 1 ex si x > 0 La distribucin exponencial est relacionada con la Poisson de la siguiente o a forma: si el nmero de ocurrencias de un determinado fenmeno es una variable u o con distribucin Poisson, el tiempo que pasa entre dos ocurrencias sucesivas o es una variable con distribucin exponencial. o La distribucin Exponencial carece de memoria, se cumple P (X > s+t|X > o s) = P (X > t), en el contexto de tiempos de vida esto quiere decir que la probabilidad de fallar es independiente del pasado, el sistema no envejece. Aunque pueda parecer algo irreal, no es descabellado por ejemplo suponer que un fusible es tan bueno como nuevo mientras est funcionado. e Ms ejemplos de variables aleatorias exponenciales son: a En una red de computadoras de una gran corporacin, el acceso de usuao rios al sistema puede modelarse como un proceso de Poisson con una media de 30 accesos por hora. La variable X = tiempo en horas desde el principio del intervalo hasta el primer acceso tiene una distribucin o exponencial con = 30. El tiempo entre la entrada de correos electrnicos en una computadora o podr modelizarse mediante una distribucin exponencial. a o La cpu de un pc tiene un periodo de vida con una distribucin expoo nencial con una vida media de 6.5 aos. n

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

27

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

1.6.3.

Distribucin Weibull(,) o

Otra de las distribuciones que se aplica adems de la Exponencial a proa blemas de abilidad y tiempos de vida de componentes - equipos, es la Weibull(,). De hecho, para = 1, la Weibull se reduce a la Exponencial. Esta distribucin no se vio el curso pasado. o La funcin de densidad para Weibull(1,) y distintos valores de puede o verse en el siguiente grco, > 0 es un parmetro de forma y > 0 de escala. a a
1.8 1.6

1.4

1.2

0.8

0.6

0.4

0.2

0 0.5

0.5

1.5

2.5

3.5

4.5

Figura 1.4: En azul y continua: Weibull(1,1), en rojo y puntos: Weibull(1,2), en verde y rayas: Weibull(1,0.95) A continuacin, aparece la expresin de su funcin de densidad: o o o 0 si x 0 f (x; , ) = 1 x x e si x > 0

Como ya se ha dicho, la distribucin Weibull puede emplearse para modeo lar el tiempo hasta presentarse un fallo en muchos sistemas f sicos diferentes. Los parmetros de esta distribucin permiten gran exibilidad para modelizar a o sistemas en los que el nmero de fallos aumenta con el tiempo (por ejemplo, u el desgaste), disminuye con el tiempo (algunos semiconductores) o permanece constante (fallos provocados por causas externas al sistema). En la siguiente pgina http://www.itl.nist.gov/div898/handbook/apr/apr.htm podris encona e trar un cap tulo dedicado a la abilidad. Ms ejemplos de variables aleatorias Weibull son: a Tiempo de vida (hasta el fallo) de un chip de memoria. Duracin de cierto tipo de tubos al vac o o.

1.6.4.

Distribucin Normal(, 2 ) o

La distribucin Normal o Gaussiana es muy importante puesto que se utilio za para modelar much simos fenmenos aleatorios; adems, incluso se usa para o a aproximar otras distribuciones. La distribucin Normal aproxima lo observado o en muchos procesos de medicin sin errores sistemticos, por ejemplo medidas o a f sicas del cuerpo humano (X = altura de los jvenes espaoles del ejemplo o n 1.13, X = longitud del dedo ndice de los nios del ejemplo 1.3), medidas de n

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

28

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

calidad en muchos procesos industriales (como se ver en el tema dedicado al a control de calidad), etc. Ms ejemplos ser a an: En la deteccin de una seal digital, el ruido de fondo podr seguir una o n a distribucin normal (denominado ruido Gaussiano) con media 0 volts y o desviacin t o pica de 0.45 volts. El dimetro de los puntos producidos por una impresora matricial sea guir una distribucin normal con un dimetro promedio de 0.002 pula o a gadas y desviacin t o pica de 0.0004 pulgadas. La vida de servicio efectiva de bater usadas en un porttil. as a El volumen de llenado de una mquina automatizada usada para llenar a latas de bebida carbonatada. La resistencia a la tensin del papel. o La vida de un componente electrnico bajo condiciones de alta tempeo ratura para acelerar el mecanismo de fallo. Voltaje de ruptura de un diodo de un tipo particular. Distribucin de resistencia de resistores elctricos, con media 40 ohmios o e y desviacin t o pica de 2 ohmios. Una justicacin de la frecuente aparicin de la distribucin Normal es el o o o teorema central del l mite: cuando los resultados de un experimento son debidos a un conjunto muy grande de causas independientes que actan sumando u sus efectos, cada uno de ellos de poca importancia respecto al conjunto, es esperable que los resultados sigan una distribucin Normal. o Ejemplo 1.3 (continuacin): Este ejemplo del ratn ergonmico nos va o o o a permitir ver varios ejemplos ms, de variables que podr suponerse Normaa an les. Para comprobar cient camente las ventajas del ratn ergonmico frente o o al tradicional, se han realizado diversos estudios. En esos estudios comparativos algunas de las variables empleadas y que podemos suponer Normales son: tiempo de movimiento de cada ratn, actividad elctrica de varios msculos o e u del antebrazo durante la utilizacin de cada ratn, intensidad del dolor medida o o en una cierta escala (VAS). La funcin de densidad de una Normal de parmetros (media de la poo a blacin) y 2 (varianza de la poblacin, siempre positiva), que denotaremos o o N(, 2 ) (a veces, tambin se denota N(,)), tiene la forma siguiente: e

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

29

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

0.4

0.4

0.4

0.35

0.35

0.35

0.3

0.3

0.3

0.25

0.25

0.25

0.2

0.2

0.2

0.15

0.15

0.15

0.1

0.1

0.1

0.05

0.05

0.05

0 4

0 4

0 6

(a) Normal (0,1)

(b)

(c)

Figura 1.5: (a) Normal(0,1); (b) Un cambio en la media, supone una traslacin: o Normal(0,1) en azul y continua, Normal(3,1) en rojo y punteada; (c) Un cambio en la varianza, supone un cambio en la variabilidad, pero el area bajo la curva sigue siendo 1, por ello tienen distinta altura: Normal(0,1) en azul y continua y Normal(0,3) en rojo y punteada

Como puede apreciarse, la Normal (campana de Gauss) es simtrica rese pecto de la media (que en este caso coincide con la mediana y la moda), o sea, el coeciente de asimetr valdr cero y adems el coeciente de curtosis es 3. a a a La funcin de densidad es: o f (x; , 2 ) = 1 2 2 e
(x)2 2 2

xR

La funcin de distribucin acumulada es: o o


2

F (x; , ) =

1 2 2

(y)2 2 2

dy
2

La dejamos de esta forma, ya que un integrando de la forma ez no tiene primitiva. Por tanto, para calcularla o bien se emplea algn mtodo numrico o u e e se usan tablas, que es lo que haremos nosotros. Para ello necesitamos presentar la: Distribucin normal estndar: Es aquella distribucin normal con meo a o dia 0 y varianza 1. La denotaremos mediante la letra Z. Los valores que se recogen en las tablas (las tablas estn en el libro de a Gregori y Epifanio [34]) son para N (0, 1), adems algunas calculadoras tama bin permiten calcular probabilidades de una Normal estndar. La tabla nos e a proporciona:
z
x2 1 e 2 dx 2

(z) = P (Z z) =

Z N (0, 1)

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

30

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

Figura 1.6: (z) F jate que, P (Z z) = 1 - P (Z z), P (Z z) = 1 - P (Z z), P (Z z) = P (Z z). Aydate de un grco si lo necesitas. u a

(a)

(b)

(c)

Figura 1.7: (a) P (Z z); (b) P (Z z); (c) P (Z z) Con la tabla de la Normal(0,1) podemos calcular cualquier probabilidad de cualquier Normal, con cualquier media y varianza 2 , no necesariamente N(0,1): Estandarizacin: sea X N(, 2 ), podemos estandarizarla (o tipicarla) o y convertirla en una N(0,1) de la siguiente forma: Z= X .
b )

O sea, si X N(, 2 ), P (a < X < b) = P ( a < Z < P (Z < a )

= P (Z <

b )

F jate que para estandarizar, dividimos por la desviacin t o pica , NO por 2 la varianza . F jate que como la Normal es simtrica respecto su media , para X e 2 N(, ): P (X ) = P (X ) = 0.5. Adems, si x , P (X x) 0.5. a Tambin, si x , P (X x) 0.5. Siempre que tengas dudas, recurre a e hacer una representacin grca. o a

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

3

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

Ejemplo 1.14: Si X N(, 2 ), la fraccin (proporcin) de nmeros que o o u estn a 3 desviaciones de la media es 0.9972, no importa el valor de , ni 2 : a P ( 3 < X < + 3) = P ( 3 < Z < +3 ) = P (3 < Z < 3) = P (Z < 3) - P (Z < 3) = 0.9986 - (1 - P (Z < 3)) = 0.9986 - (1 - 0.9986) = 0.9972 Puedes comprobar que la fraccin de nmeros que estn a 2 desviaciones o u a de la media es 0.9544 y la fraccin de nmeros que estn a 1 desviacin de la o u a o media es 0.6826.

0.9544

0.6826

+ 2

Observacin: Aunque tericamente la curva normal representa una distrio o bucin continua, a veces se usa para aproximadamente describir la distribucin o o de una variable discreta. En esos casos, podr aplicarse una correccin de cona o tinuidad, para as obtener una mayor precisin. o Otras distribuciones son la 2 Chi-cuadrado, t de Student y F de Snedecor, que usaremos este curso. Un ejemplo de ellas se muestra seguidamente.
0.1 0.09 0.08

0.4

0.8

0.35

0.7

0.3
0.07 0.06 0.05 0.04 0.03

0.6

0.25

0.5

0.2

0.4

0.15

0.3

0.1
0.02 0.01 0

0.2

0.05

0.1

10

15

20

25

30

35

40

0 5

0.5

1.5

2.5

3.5

4.5

(a)

2 10

(b) t3

(c) F(4,20)

Figura 1.8: (a)2 Chi-cuadrado; (b) t de Student; (c) F de Snedecor

1.7.

Muestras aleatorias. Otros tipos de muesOtros tipos treo de muestreo

Recordemos que nuestro objetivo es inferir sobre la poblacin. La poblao Recordemos que nuestro objetivo es inferir sobre la poblacin. La poblao cin dif on dif cilmente puede estudiarse al completo (podr ser econmicamente a ser econmicamente o ci o cilmente puede estudiarse al completo (podr a o inviable, temporalmente impracticable, existir slo conceptualmente, podr o a tambin conllevar la destruccin del objeto de estudio, como ser el caso de e o a estudiar el tiempo de vida de una partida de 32 bombillas, etc.). Por ello, nosoAmpliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5 tros slo contamos con una muestra de la poblacin. Cmo generalizar ms o o o a all de un conjunto de datos particular? El primer paso para el desarrollo de a una base para la inferencia estad stica es encontrar un modelo probabil stico

inviable, temporalmente impracticable, existir slo conceptualmente, podr o a tambin conllevar la destruccin del objeto de estudio, como ser el caso de e o a estudiar el tiempo de vida de una partida de bombillas, etc.). Por ello, nosotros slo contamos con una muestra de la poblacin. Cmo generalizar ms o o o a all de un conjunto de datos particular? El primer paso para el desarrollo de a una base para la inferencia estad stica es encontrar un modelo probabil stico de las muestras que nos permita utilizarlas para inferir informacin sobre la o poblacin de la que se han extra o do: el muestreo aleatorio simple. Existen diversas tcnicas de extraccin de muestras de una poblacin (coe o o mo veremos seguidamente). Nosotros nos centraremos en la ms simple: a Muestreo aleatorio simple: Se caracteriza por: i) cada miembro de la poblacin tiene la misma probabilidad de ser seleco cionado; ii) las selecciones son independientes las unas de las otras. Ejemplo 1.15: Imaginemos que deseamos conocer el gasto en ocio (en un mes) de los jvenes (18-30 aos) espaoles. Para ello extraemos una muestra o n n de tamao N (por ejemplo N = 100) por muestreo aleatorio simple (pregunto n el gasto a N jvenes completamente al azar). Si cada estudiante de la clase o repitiera el experimento, tendr amos tantas muestras de tamao N como esn tudiantes en la clase. Por tanto, podemos considerar las variables aleatorias X1 , X2 , ..., XN donde X1 representa el valor (gasto) de la primera persona elegida (que variar de a una muestra a otra), X2 el valor de la segunda persona, ..., XN el valor de la N -sima persona. e Por la condicin i), la distribucin de cada Xi , 1 i N , es la misma o o que la de la poblacin (todas las variables Xi siguen la misma distribucin). o o Por ii) X1 , X2 , ..., XN son independientes (el conocimiento de una variable no aporta informacin acerca de los valores de la otra variable). o En consecuencia, X1 , X2 , ..., XN , son independientes e idnticamente dise tribuidas (i.i.d) y constituyen una muestra aleatoria de tamao N . La funn cin de densidad probabilidad conjunta de la muestra ser por denicin: o o a o f (x1 , . . . , xn ) = n f (xi ), donde f (x) es la distribucin de la poblacin y o o i=1 el vector de parmetros desconocidos de la misma. Cuando las realizaciones se a conocen, f (x1 , . . . , xn ) = L() es una funcin de los parmetros desconocidos o a y se denomina funcin de verosimilitud. Esta funcin ser muy util para hacer o o a inferencias sobre los parmetros. a Estad stico: Es cualquier funcin de las variables X1 , X2 , ..., XN que o constituyen una muestra aleatoria. Algunos ejemplos son:

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

33

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

Media de muestreo: X= Varianza de muestreo: S =


2

X1 + X2 + ... + XN N N

i=1 (Xi

X)2 N 1

Un estad stico es una variable aleatoria por ser funcin de variables aleatoo rias, por lo cual tiene una distribucin que se llama distribucin de mueso o treo. Nota: denotamos con maysculas los estad u sticos de muestreo por ser variables aleatorias, de esta forma se distinguen de las cantidades muestrales (x y s2 , por ejemplo) que vimos en el apartado 1.2, que corresponden a una muestra concreta y tienen un valor numrico concreto. e

1.7.1.

Distribuciones en el muestreo y estimadores

Se vieron el curso pasado algunas distribuciones en el muestreo: distribucin o en el muestreo de una proporcin, de la media y de la varianza. o Distribucin en el muestreo de la media: o Sea X1 , X2 , ..., XN m.a.s. (muestra aleatoria simple) de v.a. (variable aleatoria) X con E(X) = y V ar(X) = 2 . Media muestral: X1 + X2 + ... + XN X= N = 1 N E(Xi ) = 1 N = E(X) i=1 i=1 N N N 1 1 V ar(X) = N 2 i=1 V ar(Xi ) = N 2 N 2 = 2 /N i=1

La distribucin exacta de X depende de la distribucin de la poblacin: o o o Si X N (, 2 ), X N (, 2 /N ) Si N grande, X puede aproximarse por N (, 2 /N ) Distribucin en el muestreo de una proporcin. Denotamos por p la proo o porcin desconocida de elementos con cierto atributo y P la proporcin o o de elementos de la muestra con dicho atributo: X1 + X2 + ... + XN P = N Xi Bernoulli(p), E(Xi ) = p, V ar(Xi ) = p(1 p)

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

34

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

Es un caso particular de la distribucin muestral de una media: o E(P ) = p V ar(P ) = p(1 p)/N

La distribucin en el muestreo para N grande: N (p, p(1 p)/N ) o Distribucin muestral de la varianza: o
N N N 1 2; 2= S = (Xi X) (Xi X) (Xi )2 N (X )2 N 1 i=1 i=1 i=1 2

E(S 2 ) = N1 ( N E[(Xi )2 ]N E[(X )2 ]) = N 1 ( N V ar(Xi ) i=1 i=1 1 1 N V ar(X)) = N 1 (N 2 2 ) = 2 1 1 1 Si denimos S 2 dividiendo por N : E( N N (Xi X)2 ) = NN 2 i=1 La distribucin es, en general, asimtrica, dependiendo de N y la poblao e cin base. Asintticamente normal, aunque con aproximacin muy lenta. o o o Para poblaciones normales:
N Xi 2 i=1

N Xi X 2 i=1

2 X + / N
2 4 N 1

X y S son independientes

(N 1)S 2 2 2

2 1 E(S 2 ) = 2 y V ar(S 2 ) = N

Especicamos las propiedades deseables de los estimadores: Insesgadez: Un estimador es insesgado si su distribucin muestral est ceno a trada en el parmetro a estimar. a Eciencia: Dados dos estimadores T1 y T2 de un mismo parmetro, se a dice que T1 es ms eciente que T2 si la varianza de T1 es menor que la a de T2 . Consistencia: Un estimador es consistente si se aproxima al crecer el tamao muestral, al valor del parmetro que estima. n a Los estimadores que usamos para estimar la media de una poblacin, la o varianza y una proporcin eran: o Media: X Estimador insesgado de

Estimador consistente de

Proporcin: caso particular de X o

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

35

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

Varianza: S 2 Estimador insesgado de 2 Si dividimos por N : Estimador sesgado de 2 (asintticamente insesgado) o

Estimador consistente de 2

Estimador consistente de 2

Se estudiaron cmo obtener estimadores que, de una manera general, teno gan buenas propiedades. En particular se consideraron los siguientes mtodos: e Mtodo de los momentos. Este es uno de los mtodos ms elementales e e a de estimacin. En una amplia variedad de problemas, el parmetro deso a conocido es una funcin conocida de un nmero nito de momentos de o u la distribucin. Su estimacin por el mtodo de los momentos, consiso o e te en sustituir los momentos de la distribucin por los correspondientes o momentos muestrales. Mxima verosimilitud. La idea de la estimacin mximo veros a o a mil de los parmetros 1 , 2 , ..., k que caracterizan una variable aleatoria X, es a elegir los valores de los parmetros que hacen que la muestra observada, a x1 , x2 , ..., xn , sea la ms veros a mil. Otros mtodos de estimacin como el mtodo herramental (jackknife) y e o e la estimacin autosuciente (bootstrap) puede encontrarse en los apndices de o e [56]. Hasta ahora nos hemos limitado a estimar puntualmente un parmetro, no a obstante, una estimacin puntual podr no ser suciente, pues no indica el o a error que cometemos con la estimacin. Por esto, ser conveniente dar cierta o a idea de la precisin de la estimacin. Una medida de la precisin que podr o o o a usarse ser el error estndar del estimador, es decir, la desviacin estndar del a a o a estimador. Otro enfoque, ser usar un intervalo de conanza, donde se espera a que est el parmetro. Este curso, trataremos la estimacin por intervalos de e a o conanza.

1.7.2.

Otros tipos de muestreo

Aunque a lo largo de este curso siempre supondremos que nuestra muestra se ha obtenido por muestreo aleatorio simple, existen otros tipos de muestreo. Un objetivo primordial de los procedimientos de muestreo es conseguir que la muestra sea representativa de la poblacin (como la poblacin, pero en tao o mao reducido). Acabamos de presentar el muestreo aleatorio simple, que se n usar cuando los elementos de la poblacin sean homogneos respecto a la caa o e racter stica a estudiar. Pero si disponemos de algn tipo de informacin sobre u o

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

36

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

la poblacin ser conveniente emplearla a la hora de seleccionar la muestra. Un o a ejemplo clsico son las encuesta de opinin, donde los elementos (personas) de a o la poblacin son (o pueden serlo) heterogneas en razn a su sexo, edad, proo e o fesin, etc. En estos casos interesar que la muestra tuviera una composicin o a o anloga a la poblacin, lo cual se conseguir mediante muestreo estraticado. a o a Muestreo estraticado: Los elementos de la poblacin se dividen en clao ses o estratos. La muestra se toma asignando un nmero de miembros a cada u estrato (pueden usarse distintos criterios: proporcional al tamao relativo del n estrato en la poblacin, proporcional a la variabilidad del estrato, considerando o costes, ...) y escogiendo los elementos por muestreo aleatorio simple dentro de cada estrato. Ejemplo 1.15 (continuacin): En este ejemplo, estar bien dividir los o a elementos segn su nivel econmico, y por ejemplo dividirlos segn la zona u o u de la ciudad en que habiten: zona centro (clase alta), zona intermedia (clase media), barrios perifricos (clase baja). e Ejemplo 1.16: Queremos conocer la resistencia de los plsticos que hay a en un almacn. Los plsticos provienen de dos fabricantes distintos. Ser mee a a jor considerar dos estratos (cada fabricante), que los plsticos como un todo a y muestrear sin distincin, porque puede que la distribucin sea diferente en o o cada estrato. Muestreo por conglomerados: Se utiliza si la poblacin se encuentra o de manera natural agrupada en conglomerados, que podemos considerar como una muestra representativa de la poblacin. La muestra se toma seleccionando o algunos conglomerados al azar y dentro de ellos analizando todos sus elementos o una muestra aleatoria simple. Ejemplo 1.15 (continuacin): Siguiendo con este ejemplo, dentro de cao da estrato (zona de la ciudad) podemos hacer divisiones en calles, las calles ser conglomerados ya que podemos considerarlas homogneas respecto a la an e caracter stica a estudiar. Ejemplo 1.17: Supongamos que queremos analizar el dimetro de unas a tuercas que tenemos almacenadas en cajas. Ser ms conveniente seleccionar a a al azar unas cajas y dentro de ellas realizar un muestreo aleatorio simple que llevar a cabo un muestreo aleatorio simple, pues esto implicar seguramente a abrir muchas ms cajas. a Las ideas de estraticacin y conglomerado son opuestas: la estraticacin o o funciona tanto mejor cuanto mayor sean las diferencias entre los estratos y ms a homogneos sean stos internamente; los conglomerados funcionan si hay muy e e pocas diferencias entre ellos y son muy heterogneos internamente. e Muestreo sistemtico: cuando los elementos de la poblacin estn ordea o a

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

37

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

nados en listas, se usa el muestreo sistemtico. Si la poblacin es de tamao a o n N y la muestra deseamos que sea de tamao n, tomaremos k como el entero n ms prximo a N/n, elegiremos un elemento al azar entre los k primeros, por a o ejemplo el n1 , despus tomaremos los elementos n1 + k, n1 + 2k, etc, hasta e completar la muestra. Como se ha visto en el ejemplo 1.15, los distintos tipos de muestreo pueden emplearse conjuntamente. Por ejemplo, en el anlisis de dimetros de tuercas a a en cajas provenientes de dos fabricantes distintos (juntamos las ideas de los ejemplos 1.16 y 1.17). Debemos tener muy presente que, tan importante es analizar bien los datos suministrados por la muestra, como obtener sta de forma adecuada. De e hecho, un mal diseo muestral, puede llevarnos a conclusiones falsas. Algunos n ejemplos de malos diseos muestrales (desgraciadamente de moda), y que por n tanto, carecen de validez estad stica ser escoger una muestra de voluntarios a: (son personas que se autoseleccionan, en respuesta a un llamamiento general, un ejemplo muy repetido ser el solicitar la opinin sobre un tema en un a o programa de TV y considerar como muestra las respuestas dadas por telfono e o sms) o el muestreo de conveniencia, donde slo se seleccionan a los individuos o u objetos de ms fcil acceso. a a Adems, debemos tener en cuenta algunas precauciones, para no sufrir a algn tipo de sesgo. Este puede venir de la falta de cobertura (cuando algunos u grupos de poblacin se dejan fuera del proceso de seleccin de la muestra), de o o la no-respuesta (cuando un individuo seleccionado en la muestra no puede ser localizado o no quiere contestar), del sesgo de respuesta (los encuestados pueden mentir o el encuestador puede tambin inuir en las respuestas), de cmo e o se hayan redactado las preguntas de la encuesta (puede ser muy inuyente), etc. Por otro lado, las encuestas muestrales son estudios observacionales, es decir, se observa a unos individuos y se mide las variables sin intervenir (inuir) en los individuos. En cambio, si lo que se pretende es tratar de establecer alguna relacin de causalidad, deber realizarse un experimento (como se ver en o a a el tema dedicado a Diseo de Experimentos). n Observacin: El n de esta aclaracin es tratar de dar una visin geneo o o ral y localizar en qu punto del temario nos encontramos, para no perder de e vista el objetivo nal, que trataremos en este curso. En el ejemplo 1.3 (el del ratn ergonmico para nios), nos interesaba estudiar toda la poblacin de o o n o nios. Como eso es inviable, extraeremos una muestra (representativa) de la n poblacin, por ejemplo, N = 100 nios (muestreo aleatorio simple, apartado o n 1.7). A partir de esa muestra estudiaremos la variable X = longitud del dedo ndice en la que estbamos interesados. Esta variable es cuantitativa y contia nua. (Pod habernos interesado ms variables continuas como Y = longitud a a entre dos puntos determinados de la mano, u otro tipo de variables, como Z . = satisfaccin con un determinado juguete). o

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

38

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

Los datos (100 en este caso) que habr amos obtenido, primeramente los podr amos describir haciendo uso de las tcnicas vistas en el apartado 1.2: tablas e de frecuencias, grcas (histogramas, diagramas de cajas, etc.) y medidas desa criptivas: media (x), mediana, varianza (s2 ), desviacin t o pica (s), percentiles, etc. Pero como ya sabemos, no estamos interesados en esos 100 nios concren tos, sino en todos los nios, toda la poblacin. Para poder extraer conclusiones n o (inferir) acerca de la poblacin (esto se ver en este curso), necesitamos asuo a mir que nuestros datos provienen de una poblacin que sigue un determinado o modelo terico (apartado 1.4, 1.5 y 1.6). A veces podr no asumirse un moo a delo paramtrico pero la estad e stica no paramtrica queda fuera de nuestro e alcance. Tambin existen tests para probar si nuestros datos provienen de un e determinado modelo, que veremos en este curso. Las conclusiones que obtendremos vendrn dadas en trminos probabil a e sticos (por ejemplo, el intervalo de conanza al 95 % para es ...) y sern conclua siones sobre descriptores de la poblacin (apartado 1.3): media (), varianza o ( 2 ), etc., que en realidad, muy dif cilmente se conocen.

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

39

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

PARTE II AMPLIACIN DE ESTADSTICA

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

40

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

Cap tulo 2 Inferencia estad stica. Estimacin o


Pienso que lo esencial, si quieres ser un buen estad stico a diferencia de ser un matemtico, es hablar a la gente y averiguar lo que estn haciendo y a a por qu lo estn haciendo. e a Florence Nightingale David

2.1.

Introduccin a la inferencia estad o stica

La inferencia estad stica trata los mtodos mediante los cuales podemos e hacer inferencias (extraer determinadas conclusiones o generalizaciones) sobre una poblacin, a partir de la informacin extra de una muestra aleatoria de o o da dicha poblacin (como acabamos de repasar). o La inferencia estad stica podr dividirse en dos reas: la estimacin y los a a o contrastes de hiptesis. En este tema trataremos la estimacin (aunque ya se o o trat en parte en el curso pasado) y en el siguiente, los contrastes de hiptesis. o o Estimacin: Busca determinar el valor de una caracter o stica desconocida (parmetro) de la poblacin. a o Contraste de hiptesis: Busca determinar si es aceptable que la cao racter stica estudiada cumpla cierta condicin o comprobar una teor o o a hiptesis sobre una poblacin. o o Veamos algunos ejemplos sencillos como ilustracin: o Ejemplo 2.1 (Examen 3/9/2007): Se han propuesto diversos mtodos e para detectar si una persona no autorizada (un intruso) accede a una cuenta con el nombre de usuario y contrasea (robada o descifrada) correctas. Uno de n ellos consiste en medir el tiempo entre las pulsaciones de las teclas. A un importante usuario autorizado (debidamente identicado) se le ha medido dicho tiempo, dando las 121 observaciones recogidas una media, x = 0.2 segundos y una desviacin t o pica (s) de 0.07 segundos. La media de dicha muestra puede emplearse para estimar la media de la poblacin entera (todos los tiempos eno tre pulsaciones de dicho usuario), sin embargo, debe quedar claro que NO es

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

4

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

la media verdadera de la poblacin. Emplearemos la distribucin de muestreo o o de X para tener una idea de la exactitud de la estimacin (Problema de o estimacin). o Ejemplo 2.2 (Examen 24/1/2007): A n de vericar la adecuacin de o un sistema informtico interactivo de venta de entradas de cine, se controla el a tiempo de servicio de los usuarios. Para que este sistema sea satisfactorio, el tiempo de servicio medio por cliente no debe superar los 2 minutos. En efecto, los estudios realizados mostraron que un tiempo medio superior produce unas colas demasiado largas, y una espera que el usuario no est dispuesto a sopora tar; por lo tanto, el cine perder clientes y dinero si el requisito mencionado a no se satisface. Para controlar el tiempo de servicio, se observa una muestra aleatoria simple de 31 usuarios en uno de los cines de la cadena (en el ABC vamo ar sine), para saber si se debe o no proceder a la modicacin del sistema o informtico de venta. El tiempo de servicio medio observado en la muestra es a de 2.17 minutos y la desviacin t o pica de 0.4 minutos. Para comprobar si se debe modicar el sistema informtico actual, se plantear la hiptesis de que a a o el tiempo medio de servicio no supera los dos minutos, y tras las pruebas oportunas, dicha hiptesis podr o no podr ser rechazada. En este ejemplo no se o a a pretende estimar un parmetro, sino decidir sobre una hiptesis. La teor del a o a muestreo tambin nos ayudar a determinar la exactitud de nuestra decisin e a o (Problema de contraste de hiptesis). o

2.2.

Estimacin o

Distinguiremos dos tipos: a) Estimacin puntual o Se trata de estimar un parmetro poblacional mediante un nmero que lo a u aproxime. En el ejemplo 2.1, estimamos la media de la poblacin () con la o media de una muestra (x). Sin embargo, no podemos esperar que una estimacin puntual coincida exactamente con el parmetro poblacional que pretende o a estimar, por ello en muchas ocasiones ser preferible proporcionar un intervalo a que contendr al parmetro poblacional con un grado razonable de certiduma a bre. b) Estimacin por intervalos o Obtendremos intervalos, en los que conamos que se encuentre el parmetro a poblacional a estimar, por ejemplo la media poblacional . A estos intervalos se les conoce como intervalos de conanza para el parmetro al (1 - ) 100 %, a donde 1 - es el grado o nivel de conanza o tambin intervalos de conanza al e nivel de signicacin . ( estar entre 0 y 1, valores comunes son: 0.1, 0.05 y o a 0.01). Cuanto mayor sea 1 - (nivel de conanza), ms amplio ser el intervalo. a a

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

42

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

Formalmente, denimos un intervalo de conanza como un intervalo aleatorio cuyos puntos extremos T1 y T2 (T1 < T2 ) son funciones de la muestra aleatoria y tales que: P (T1 (X1 , . . . , Xn ) T2 (X1 , . . . , Xn )) 1 , donde al valor 1 se le llama nivel de conanza y 0 < < 1. Para una realizacin de la muestra concreta, x1 , x2 , ..., xn , obtenemos un o intervalo numrico (T1 (x1 , . . . , xn ), T2 (x1 , . . . , xn )) que se llamar (abusando e a del lenguaje) tambin intervalo de conanza. Obviamente, en este caso no tiene e sentido hablar de probabilidad, y por ello, diremos que tenemos una conanza de 100(1 ) %, en el sentido de que si tomsemos innitas realizaciones, a x1 , x2 , ..., xn , de la muestra y construysemos los correspondientes intervalos e numricos, el 100(1 ) % de estos intervalos contendr el valor del parmee an a tro y los restantes no. Debe recalcarse que es el intervalo el que es aleatorio, y no el parmetro. a Cul es la interpretacin de un intervalo de conanza? a o Supongamos que construimos un intervalo de conanza al 95 % para , para una serie de muestras de una poblacin Normal, cada una de ellas formada por, o por ejemplo, 20 observaciones. Cada vez tendremos una media muestral (x) diferente, mientras que no var Entonces, el 95 % de los intervalos que a. construysemos contendr a . Por supuesto, en un experimento concreto slo e a o disponemos de una muestra (formada por los 20 datos) y esperaremos con conanza que nuestra muestra sea una de las del 95 % (cuidado!: no tiene sentido hablar de la probabilidad de que est en un intervalo, ya que aunque e es desconocida, no es una variable aleatoria, sino entrar amos en el campo de la inferencia Bayesiana). Vemoslo grcamente: a a

Figura 2.1: El 95 % de los intervalos de conanza contendrn a = 0.38. El a tamao muestral considerado cada vez es 20 n Si en lugar de 20, el tamao muestral en cada muestra fuera 5, los intervalos n

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

43

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

sern ms grandes, pero nuevamente el 95 % de los intervalos de conanza a a contendrn a = 0.38, segn la siguiente grca. a u a

Figura 2.2: El 95 % de los intervalos de conanza contendrn a = 0.38. El a tamao muestral considerado cada vez es 5 n

2.2.1.

Estimacin puntual o

Se ha repasado en el apartado 1.7.1, an as veamos simplemente cmo u , o estimar ciertos parmetros de determinadas distribuciones: a i) Estimador puntual de p, para una Binomial(n,p), n conocido: p=
X n

donde X es el nmero de xitos que ocurren en las n observaciones. u e

ii) Estimador puntual de , para una Normal(, 2 ): = X. Ejemplo 2.1 (continuacin): = x = 0.2 segundos. o iii) Estimador puntual de 2 , para una Normal(, 2 ): S2 =
N
i=1 (Xi X) 2

N 1

Ejemplo 2.1: Hacemos el muestreo y s2 = 0.072 Si en lugar de haber dividido por N 1, hubisemos dividido por N , hae br amos obtenido un estimador sesgado, es decir, E(S 2 ) = 2 , mientras que N (X X)2 E( i=1 N i ) = (N 1/N ) 2 . iv) Estimador puntual del parmetro de una Poisson: a = X.

2.3.

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

44

Estimacin por intervalos o

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

A lo largo de este apartado N denotar el tamao muestral y el nivel de a n

= X.

2.3.

Estimacin por intervalos o

A lo largo de este apartado N denotar el tamao muestral y el nivel de a n signicacin. o A continuacin se examinarn algunos casos particulares de intervalos de o a conanza para los parmetros ms importantes: medias, varianzas y propora a ciones. Aunque primero, veremos la construccin de un intervalo de conanza o para un parmetro desconocido (en particular ), usando un estad a stico pivote, es decir, un estad stico cuya distribucin en el muestreo no depende de o . Para el resto de casos se har anlogamente: a a A) Intervalo de conanza para , con 2 conocida: Sea X1 , X2 , ..., XN una muestra aleatoria de una poblacin con media o X 2 desconocida y conocida. Z = /N es aproximadamente N(0,1) si N es grande (por el teorema central del l mite). Por tanto, P( -z/2 Z z/2 ) = 1 - , donde z/2 es tal que P(Z z/2 ) = /2. Por ejemplo, para = 0.05: P(Z 1.96) = 0.05/2 = 0.025 y P( -1.96 Z 1.96) = 0.95 X P(-1.96 /N 1.96) = 0.95 N P(-1.96/N X 1.96/ ) = 0.95 P(-1.96/ N X - 1.96/ N - X) = 0.95 P(X + 1.96/ N X - 1.96/ N ) = 0.95 P(X - 1.96/ N X + 1.96/ N ) = 0.95.

(x - z/2 ) , x + z/2 ) con P(Z z/2 ) = /2, Z N(0,1) N N B) Intervalo de conanza para , con 2 desconocida, para Normales: (x - t/2 sN , x + t/2 sN ) con P(T t/2 ) = /2, T es t-Student con N 1 grados de libertad R: t.test(x, conf.level = 0.95, ...) Nota: la distribucin t se denomina t de Student por el seudnimo empleao o do por Gosset para publicar sus trabajos. Gosset trabajaba para la Guiness Brewers (la cervecer en Irlanda, y debido a que su patrn desaprobaba la a) o

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

45

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

publicacin de investigaciones de un empleado, tuvo que publicar sus resultao dos bajo el seudnimo Student. o Ejemplo 2.3 (Examen 21/1/2009): Imagina que disponemos de un programa para simular el sistema y obtener los resultados (asumidos normales), en el contexto siguiente: un supermercado, para el que se plantean dos estrategias de distribucin de cajas de pago y colas. Para cada una de las cuales, o hemos simulado rplicas independientes y obtenido el tiempo medio que los e clientes estar haciendo cola: an Estrategia 1 (la actualmente en uso): 1.91, 1.82, 1.71, 1.83, 2.2, 2.4 Estrategia 2: 1.53, 1.66, 1.24, 2.34, 2 Centrndonos unicamente en la estrategia 2, encuentra el intervalo de cona anza al 95 % para el tiempo medio de espera en cola. Usaremos el caso B, ya que el enunciado nos dice que el tiempo de espera es Normal, y no conocemos 2 : (x t/2 sN ). A partir de los N = 5 datos del enunciado para la estrategia 2, obtenemos x = 1.754 y s = 0.426357. A partir de las tablas (las tablas estaban en el libro de Gregori y Epifanio [34]), como = 0.05 (pues la conanza es 95 %) y los grados de libertad son N - 1 = 5 - 1 = 4, t/2 = t0.05/2 = t0.025 = 2.776. Por tanto, (x t/2 sN ) = (1.754 2.776 0.426357 ) = (1.754 0.529393) = (1.754 - 0.529393, 1.754 + 0.529393) = 5 (1.22461, 2.28339) C) Intervalo de conanza para , con 2 desconocida y N grande (N 30): (x - z/2 sN , x + z/2 sN ) con P(Z z/2 ) = /2, Z N(0,1) Observacin: Aun cuando la normalidad no pueda suponerse, si deseao mos obtener un intervalo de conanza para con la varianza desconocida, si la muestra es grande, podemos usar C). Si la muestra es pequea, usaremos n B) si la distribucin es normal. o F jate que z/2 cumple: P(Z z/2 ) = /2, Z N(0,1), es decir, la probabilidad que la variable Z sea mayor que z/2 es /2. A partir de la tabla de la Normal(0,1), podemos tener los valores cr ticos que ms frecuentemente usaremos: z0.1 = 1.28, z0.05 = 1.64, z0.025 = 1.96, z0.01 a = 2.33, z0.005 = 2.57. Ejemplo 2.1: Construye un intervalo de conanza al 99 % para el tiempo medio entre pulsaciones de dicho usuario.

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

46

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

En el enunciado del ejemplo, no aparece sealado que el tiempo entre puln saciones se distribuya normalmente, pero el tamao muestral (121) es grande, n as que usaremos el caso C, para obtener el intervalo de conanza. En este ejemplo, = 0.01, puesto que la conanza es 99 %, as que sustituyendo en el 0.07 intervalo (x z/2 sN , tendr amos (0.2 2.57 121 = (0.18,0.22) Para determinar el tamao muestral necesario para una precisin detern o minada, en el caso de la estimacin de la media a partir de una muestra o aleatoria simple, usaremos: 2 Error Cuando es desconocida, podemos recurrir a estudios previos o bien a la obtencin de una muestra piloto previa, con la que estimaremos , mediante s. o N=
/2

Ejemplo 2.1: Si deseamos que el error en la estimacin del tiempo medio o anterior sea inferior a 0.01 segundos con una conanza del 95 %, y teniendo en cuenta que podr amos asumir = 0.07, cuntas observaciones deber a an recogerse como m nimo? N= z 2 = Error
/2

1.96 0.07 0.01

Al menos, deber recogerse 189 observaciones. an Aunque no entre en la materia del curso, no est de ms conocer que, a a a veces, el inters no est en la estimacin de parmetros, sino en dnde caen e a o a o las observaciones individuales. As pues, debemos distinguir entre intervalos de conanza e intervalos de tolerancia. Para una distribucin Normal con media y o varianza desconocidas, los l mites de tolerancia estn dados por x ks, donde a k est determinado de modo que se pueda establecer con una conanza del a 100(1 - ) por ciento que los l mites contienen al menos una proporcin p de la o poblacin. En Montgomery y Runger [49] (por ejemplo), puedes encontrar las o tablas que proporcionan k, con las que calcular estos intervalos de tolerancia, y ms informacin sobre este punto. a o A continuacin, consideramos dos muestras aleatorias simples, X1 , X2 , ..., o Xn e Y1 , Y2 , ..., Ym obtenidas de dos poblaciones de inters X e Y , con el n e de construir intervalos que permitan comparar parmetros (seguimos con las a medias) de X e Y . Debemos diferenciar entre muestras independientes y apareadas. Hay veces que las muestras no son independientes, sino dependientes. Pueden ser apareadas (emparejadas), como es el caso de tener datos del tipo antes y despus e en el mismo individuo u objeto (unidad experimental), o bien si a cada objeto (u objetos emparejados) se le aplican dos mtodos, o sea, que por cada unie dad experimental tendremos dos observaciones, a diferencia de las muestras

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

47

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

independientes, donde las unidades experimentales son seleccionadas de forma independiente. En el caso de un muestreo apareado, conseguiremos grupos ms a homogneos, reducindose la variabilidad experimental. e e D) Intervalo de conanza para la diferencia de medias 1 - 2 , 2 2 con 1 y 2 conocidas, para muestras aleatorias independientes (N1 = tamao muestral de la muestra de la poblacin 1, N2 = tamao muestral n o n de la muestra de la poblacin 2): o 2 2 (x1 - x2 z/2 N1 + N2 ) con P(Z z/2 ) = /2, Z N(0,1) 1 2 E) Intervalo de conanza para la diferencia de medias 1 - 2 , 2 2 con 1 y 2 desconocidas, para muestras aleatorias independientes y tamaos muestrales grandes (N1 = tamao muestral de la muestra de la n n poblacin 1, N2 = tamao muestral de la muestra de la poblacin 2): o n o 2 s s2 (x1 - x2 z/2 N11 + N22 ) con P(Z z/2 ) = /2, Z N(0,1) Para el caso de una diferencia entre dos medias, la interpretacin del ino tervalo de conanza puede extenderse a una comparacin de las dos medias. o De esta manera, por ejemplo, si tenemos gran conanza de que una diferencia 1 - 2 es positiva, realmente inferiremos que 1 > 2 con poco riesgo de caer en un error. Por tanto, en la interpretacin de los intervalos de conanza para o diferencia de medias nos jaremos si el cero pertenece al intervalo o no. Piensa que si son iguales, su resta vale cero, con lo cual si cero no est incluido en el a intervalo, indicar que las medias poblacionales son diferentes. a F) Intervalo de conanza para la diferencia de medias 1 - 2 de poblaciones normales independientes, con varianzas poblaciona2 2 les desconocidas pero iguales (1 = 2 ) (N1 = tamao muestral de la n muestra de la poblacin 1, N2 = tamao muestral de la muestra de la poblao n cin 2): o (N1 1)s2 +(N2 1)s2 N1 +N2 1 2 (x1 - x2 t/2 ) con P(T t/2 ) = /2, T es N1 +N2 2 N1 N2 t-Student con N1 + N2 2 grados de libertad R: t.test(x,y, var.equal = TRUE, conf.level = 0.95, ...) Ejemplo 2.3: Calcula el intervalo de conanza de la diferencia de tiempos medios de espera al 95 % para ambas estrategias, asumiendo igualdad de varianzas (lo comprobaremos en un apartado posterior). Podemos suponer igualdad de medias poblacionales? Segn el enunciado, podemos asumir normalidad e igualdad de varianzas, u adems como los tamaos muestrales son pequeos (N1 = 6 y N2 = 5), y las a n n muestras son independientes, usaremos el caso F. Con la calculadora, pode-

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

48

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

Puesto 0 (-0.25,0.698), no podemos armar que exista diferencia entre los tiempos de espera medios (1 y 2 ) de ambas estrategias, al 95 % de conanza.

mos obtener los estad sticos muestrales que necesitamos (media y desviaciones t picas de cada muestra), e introducirlos en la frmula: o (N1 1)s2 +(N2 1)s2 N1 +N2 1 2 (x1 - x2 t/2 ) = (1.97833 - 1.754 N1 +N2 2 N1 N2 2 2 6+5 t0.05/2 (61)0.264833 +(51)0.426357 ) = (0.22433 0.47403) = (-0.25,0.698). 6+52 65

G) Intervalo de conanza para la diferencia de medias 1 - 2 de poblaciones normales independientes, con varianzas poblaciona2 2 n les 1 , 2 desconocidas y desiguales (N1 = tamao muestral de la muestra de la poblacin 1, N2 = tamao muestral de la muestra de la poblacin 2): o n o 2 s s2 (x1 - x2 t/2 N11 + N22 ) con P(T t/2 ) = /2, T es t-Student con grados de libertad
1 2 (s2 /N1 )2 (s2 /N2 )2 1 2 + N 1 N1 1 2

( N1 + N2 )2

s2

s2

R: t.test(x,y, conf.level = 0.95, ...) Ejemplo 2.1: Un d se graban los siguientes tiempos entre pulsaciones a para una entrada correcta de dicho usuario en segundos: 0.38, 0.31, 0.24, 0.2, 0.31, 0.34, 0.42, 0.09, 0.18, 0.46, 0.21. Asumiendo normalidad, y diferentes varianzas (que ya es algo sospechoso), por lo que a los tiempos medios entre pulsaciones se reere, usa el intervalo de conanza apropiado, para determinar si hay evidencia de que un intruso ha accedido a la cuenta de dicho usuario (con = 0.05). Construiremos el intervalo de conanza de diferencia de medias para muestras independientes con el caso G, siguiendo lo que podemos leer en el enunciado. En este problema, los grados de libertad de la t-Student son:
2 2 ( 0.07 + 0.112 )2 121 11 2 /121)2 (0.07 (0.1122 /11)2 + 1211 111

(x1 - x2 t/2 + = (0.2 - 0.285 t0.05/2 (-0.085455 2.2 0.034447) = (-0.16124, -0.00967)

11
s2 2 ) N2

s2 1 N1

0.072 121

0.1122 ) 11

Como 0 (-0.16124, -0.00967), s que hay diferencia entre las medias, s que / habr accedido un intruso. a H) Intervalo de conanza para la diferencia de medias D , para muestras apareadas, con diferencia normal.

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

49

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

sd (d t/2 N ) donde d es la media de las diferencias y sd es la desviacin o t pica de las diferencias. Adems, P(T t/2 ) = /2, T es t-Student con N a 1 grados de libertad, N es el nmero de objetos (parejas) de que disponemos u

R: t.test(x,y, paired = TRUE, conf.level = 0.95, ...) Ejemplo 2.4 (Examen 1/9/2008): Este verano ha aparecido en los medios de comunicacin un estudio realizado sobre los benecios del Brain Traio ning. En concreto, durante quince semanas un grupo de personas jug diao riamente durante un periodo corto de tiempo. A continuacin, aparece un o subconjunto adaptado de estos datos, con los tiempos en segundos (que asumiremos normal) para el ejercicio de agilidad mental, Clculo 20, en la primera a y ultima semana para 7 individuos: Semana 1 Semana 15 60 31 50 25 54 20 74 35 58 24 65 23 57 22

Sujeto Sujeto Sujeto Sujeto Sujeto Sujeto Sujeto

1 2 3 4 5 6 7

Construyamos el intervalo de conanza de la diferencia de medias al 95 %, para comprobar si existe diferencia entre ambas. Obviamente las muestras no son independientes, son apareadas, ya que medimos al mismo individuo, sin jugar y tras jugar varias semanas con el Brain Training. Por ello, como adems nos dicen que son Normales, usaremos el caso a H. Lo primero ser obtener, las diferencias de la Semana 1 - Semana 15: 29 a 25 34 39 34 42 35, a partir de las cuales calculamos d = 34 y sd = 5.71548, sd que introducimos en la frmula: (d t/2 N ) = (34 t0.05/2 5.71548 ) = (34 o 7 5.28595) = (28.7141, 39.2859) Claramente 0 (28.7141, 39.2859), en consecuencia hay diferencia entre / los tiempos medios entre antes y despus del uso del Brain Training. e A continuacin, nos interesamos por otros parmetros: o a I) Intervalo de conanza para 2 en una poblacin normal: o ( (N 1)s , (N21)s ) con P(2 > 2 ) = /2, 2 es chi- cuadrado con N 1 /2 2
/2 1/2 2 2

grados de libertad .

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

50

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

Ejemplo 2.4: Construye un intervalo de conanza de 99 % para la desviacin t o pica del Tiempo de la Semana 15. El intervalo de conanza al 99 % para la varianza poblacional 2 es: ( (71)5.34522 , (71)5.34522 ) = ( (71)5.34522 , (71)5.34522 ) = (9.2464,253.70469) 18.54 0.6757 2 2
0.01/2 10.01/2 2 2 2 2

Como buscamos el de la desviacin t o pica : ( 9.2464, 253.70469) = (3.041,15.928)


2 2 J) Intervalo de conanza para el cociente 1 /2 de varianzas de dos poblaciones normales independientes: 1 1 ( s1 F/2 , s1 F1/2 ) donde P( F > F/2 ) = /2 y F es F de Snedecor con 2 2 2 2 (N1 1, N2 1) grados de libertad s2 s2

R: var.test(x, y, conf.level = 0.95, ...) En la interpretacin de los intervalos de conanza para cociente de variano zas nos jaremos si el uno pertenece al intervalo o no. Piensa que si son iguales, su cociente vale uno, con lo cual si uno no est incluido en el intervalo, india car que las varianzas poblacionales son diferentes. a Ejemplo 2.3: Construye un intervalo de conanza al 95 % para el cociente de varianzas de ambas estrategias. Fue apropiado suponer igualdad de varianzas? El intervalo es:
1 1 1 1 0.264 1 1 ( s1 F/2 , s1 F1/2 ) = ( 0.2642 F0.05/2 , 0.2642 F10.05/2 ) = ( 0.4262 9.36 , 0.2642 1/7.39 ) = 2 2 0.426 0.426 0.426 2 2 (0.041,2.85) s2 s2
2 2 2 2

Es claro que 1 (0.041,2.85), as que s que fue apropiado suponer igualdad de varianzas. K) Intervalo de conanza para una proporcin p (de una Binoo mial) cuando N es grande y la proporcin no es cercana a cero o uno: o ( z/2 pq ), donde P( Z > z/2 ) = /2 Z N(0,1) y p = X /N, q = 1 p N - p, X = nmero de xitos u e R: prop.test(x, n, conf.level = 0.95) Nota: aunque en prcticas usemos esta funcin que lleva el R en la base (en a o la librer stats), esta funcin no devuelve el intervalo anterior que es el que a o suele aparecer en los libros de texto, sino el intervalo basado en el estad stico

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

5

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

score sin correccin de continuidad, y que segn [1] ser preferible. Si quio u a siramos obtener el intervalo que calcularemos en teor que es ms sencillo e a, a de calcular a mano, tendr amos que usar la funcin binconf de la librer Hmisc o a con la opcin asymptotic. o Ejemplo 2.5 (Examen 9/9/2005): Se toma una muestra de estudiantes universitarios de informtica y se les pregunta por su sistema operativo favoria to, como resultado se obtiene que de 200 encuestados 30 preeren el Macrochof. Si p es la proporcin de preferencia del Macrochof entre los estudiantes de o informtica, calcula un intervalo de conanza al 95 % para p. a Usando el caso K, obtendr amos: ( z/2 pq ) = (30/200 1.96 0.150.85 ) p N 200 = (0.15 0.0495) = (0.1005,0.1995) La magnitud del error que cometemos al emplear X/N como estimador de p, viene dada por: E = Error = z/2 p(1p) . Esta frmula nos puede servir o N para determinar el tamao muestral (que obviamente tendr que ser un enten a ro) necesario para alcanzar un grado de precisin deseado. o N = p(1 p) (
z/2 2 ) E

Si no dispusisemos de informacin acerca del valor de p, por ejemplo en e o base a una muestra piloto, podr amos considerar el peor caso, es decir, con la que obtendr amos la mxima N , cuando la proporcin valiera 0.5: a o N = p(1 p) (
z/2 2 ) E

1 4

z/2 2 ) E

Una vez obtenidos los N datos, tendremos un (1 )100 % de conanza que el error no exceder E. a Ejemplo 2.5: Queremos estimar la proporcin de preferencia del Macroo chof, y deseamos estar al menos 95 % seguros que el error es como mucho de 0.03. Cmo ha de ser de grande la muestra?, si: o a) no tenemos idea de cul pueda ser la proporcin real. a o N =
1 4

z/2 2 ) E

1 4

( 1.96 )2 = 1067.1 1068 0.03

b) usamos la proporcin anterior (0.15) como una muestra preliminar que o nos proporciona una estimacin preliminar. o N = p(1 p) (
z/2 2 ) E

= 0.15(1 0.15) ( 1.96 )2 = 544.2 545 0.03

L) Intervalo de conanza para una proporcin p, si sta es muy o e cercana a cero:

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

52

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

1 (0, 2N 2 ) con P(2 > 2 ) = , 2 es Chi-cuadrado con 2(X + 1) grados de libertad, X = nmero de xitos u e

M) Intervalo de conanza para la diferencia de dos proporciones, con N1 y N2 grandes (N1 = tamao muestral de la muestra de la poblacin n o 1, N2 = tamao muestral de la muestra de la poblacin 2): n o (p1 - p2 z/2 p1 q1 + p2 q2 ), donde P( Z > z/2 ) = /2 Z N(0,1), p1 = N1 N2 X1 /N1 , q1 = 1 - p1 , X1 = nmero de xitos en las N1 pruebas y p2 = X2 /N2 , u e q2 = 1 - p2 , X2 = nmero de xitos en las N2 pruebas u e R: prop.test(x, n, conf.level = 0.95) En la interpretacin de los intervalos de conanza para diferencia de proo porciones nos jaremos si el cero pertenece al intervalo o no. Piensa que si son iguales, su resta vale cero, con lo cual si cero no est incluido en el intervalo, a indicar que las proporciones poblacionales son diferentes. a Ejemplo 2.5: Adems de la muestra anterior de la universidad A, se toma a una muestra de estudiantes universitarios de informtica de otra universidad, a la B, y se les pregunta por su sistema operativo favorito, como resultado que en la universidad B preeren Macrohof 60 de los 300 encuestados. Desea determinarse si las preferencias por Macrohof dieren en ambas universidades, as que determina el intervalo de conanza al 95 % para la diferencia de proporciones. Usaremos el caso M: (p1 - p2 z/2 p1 q1 + N1 (-0.117,0.017)

p2 q2 ) N2

= (0.15 - 0.2 1.96

0.150.85 200

0.20.8 ) 300

Como 0 (-0.117,0.017), no podemos armar que haya diferencia entre ambas proporciones.

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

53

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

Cap tulo 3 Contrastes de hiptesis o


El pensamiento estad stico ser algn d tan necesario para el ciudadano a u a competente como la habilidad de leer y escribir. Herbert George Wells

3.1.

Introduccin o

Hay muchos problemas (como fue el ejemplo 2.2) en los que ms que estia mar el valor de un parmetro, debemos decidir si un enunciado referente a un a parmetro es cierto o falso, o sea, debemos probar una hiptesis sobre un (o a o ms) parmetro(s), o bien, comprobar si una teor sobre la poblacin es vea a a o ros mil dados los datos muestrales. En ellos, el objetivo de la experimentacin o es avalar o rechazar las armaciones realizadas y no la estimacin de sus valoo res reales. Entramos en una parte important sima de la inferencia estad stica: las pruebas o contrastes de hiptesis, donde se formula una hiptesis, se exo o perimenta y se juzga si los resultados apoyan estad sticamente la hiptesis de o partida. No obstante, como nos movemos en condiciones de incertidumbre, la decisin nal se realizar en trminos probabil o a e sticos. Contraste de hiptesis: Es un mtodo numrico para comprobar una o e e teor o hiptesis sobre una poblacin. a o o En primer lugar, se comenzar con una introduccin a los contrastes de a o hiptesis, tratando los conceptos bsicos, tras lo cual se vern los contrastes o a a relativos a la media, varianza y proporciones a partir de una y dos muestras, como en el tema anterior se hizo para intervalos de conanza. La ultima par te del tema se dedicar a algunos contrastes no paramtricos. Es decir, en la a e primera parte del tema se supondr conocida la distribucin terica de la(s) a o o variable(s) de inters, excepto en los valores de parmetros que la determinan, e a este tipo de hiptesis se denominarn hiptesis paramtricas, distinguiendo eno a o e tre hiptesis simples e hiptesis compuestas segn si especican un unico valor o o u o un intervalo de valores para el parmetro. a En todo contraste de hiptesis nos encontramos con una hiptesis nula (H0 ) o o y una hiptesis alternativa (H1 o HA ). Cuando la meta de un experimento sea o

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

54

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

establecer una armacin, sta se convertir en la hiptesis alternativa y su o e a o negacin ser la hiptesis nula. La hiptesis nula se supone cierta hasta que los o a o o datos indiquen lo contrario, por tanto, la que se ha de demostrar que es cierta es la hiptesis alternativa, H1 . Podr o amos plantear un s mil con los juicios. En principio, se parte de la hiptesis nula de que un acusado es inocente hasta que o se demuestre su culpabilidad. El scal es el que debe demostrar la culpabilidad y no ser hallado culpable a menos que la hiptesis nula de su inocencia sea a o claramente rechazada. Con lo cual, si es hallado no culpable, no implica que el acusado haya demostrado su inocencia, sino que slo implica que no se ha o demostrado su culpabilidad. En denitiva, se denominar hiptesis nula, H0 , a aquella que se contrasta, a o y es aquella que se mantiene a menos que los datos indiquen su falsedad. La hiptesis nula nunca se considera probada. Por ello, si el experimentador quiere o respaldar con contundencia un determinado argumento es debido a que ste e no puede ser asumido gratuitamente y, por tanto, slo podr ser defendido a o a travs del rechazo del argumento contrario (el establecido en H0 ). El rechazo e de H0 implica aceptar como correcta una hiptesis complementaria, la hipteo o sis alternativa, H1 . Ejemplo 2.2 (continuacin): A n de vericar la adecuacin de un sisteo o ma informtico interactivo de venta de entradas de cine, se controla el tiempo a de servicio de los usuarios. Para que este sistema sea satisfactorio, el tiempo de servicio medio por cliente no debe superar los 2 minutos. En efecto, los estudios realizados mostraron que un tiempo medio superior produce unas colas demasiado largas, y una espera que el usuario no est dispuesto a soportar; a por lo tanto, el cine perder clientes y dinero si el requisito mencionado no se a satisface. Para controlar el tiempo de servicio, se observa una muestra aleato ria simple de 31 usuarios en uno de los cines de la cadena (en el ABC vamo ar sine), para saber si se debe o no proceder a la modicacin del sistema o informtico de venta. El tiempo de servicio medio observado en la muestra es a o pica de s = 0.4 minutos. Denotemos de x = 2.17 minutos y la desviacin t por el tiempo de servicio medio, as que x es un valor estimado de . Para comprobar si se debe modicar el sistema informtico actual, se plantear el a a siguiente contraste: H0 : 0 = 2 (o simplemente = 0 =2) H1 : > 0 = 2

Planteamos dicho contraste ya que la hiptesis que queremos demostrar es o la necesidad de modicar el sistema. Impl citamente se est suponiendo que a el sistema actual es bueno y que los gastos de modicacin son lo suciente o importantes como para necesitar una justicacin. o Nota: Aunque en este caso sea algo rebuscado, si hubisemos partido de e que el sistema existente es malo y los gastos del cambio no fueran importantes, entonces habr que demostrar que el existente es satisfactorio y plantear a amos:

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

55

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

H0 : 0 = 2 H1 : < 0 = 2

En este tema, para contrastes paramtricos estudiaremos unicamente cone trastes con hiptesis nula simple, H0 : = 0 , puesto que los contrastes con o hiptesis nula compuesta del tipo H0 : 0 o 0 y H1 unilateral, H1 : o < 0 o H1 : > 0 respectivamente, equivaldrn al contraste simple H0 : = 0 a frente al unilateral. Intuitivamente, podemos pensar en el ejemplo anterior que si verdaderamente < 2, ms dif (y cuanto ms menor que 2, ms dif a cil a a cil) ser que los datos respalden la hiptesis alternativa > 2, de esta manera nos a o protegemos contra la peor posibilidad, el peor escenario, que ser cuando = a 2. En consecuencia se considerarn unicamente estos tres casos, donde a) es a un contraste bilateral mientras que b) y c) son contrastes unilaterales. H0 : = 0 a) H1 : = 0 b) H0 : 0 ( = 0 ) H1 : < 0 c) H0 : 0 ( = 0 ) H1 : > 0

Planteado el contraste, pasamos a explicar la metodolog de los contrasa tes, es decir, tendremos que establecer algn criterio estad u stico que permita decidir hasta qu punto los datos estn o no de acuerdo con la hiptesis nue a o la. En un contraste de hiptesis, se analizan los datos observados para ver o si permiten rechazar la H0 , comprobando si estos datos tienen una probabilidad de aparecer lo sucientemente pequea cuando la hiptesis nula es cierta. n o Por esto, es necesario denir una medida de discrepancia entre los datos muestrales y la hiptesis nula. Para contrastes paramtricos, la discrepancia o e puede expresarse como una funcin del parmetro especicado por H0 , 0 , y o a el valor estimado en la muestra, , d(0 ; ), que llamaremos estad stico de contraste, y de la que conoceremos su distribucin cuando H0 sea cierta. As si o , H0 es cierta, se conocer la probabilidad de superar el valor que el estad a stico de contraste haya tomado para una muestra concreta. Si esta probabilidad es grande, no hay razones para sospechar que la hiptesis nula sea falsa, pero o si es pequea, ello slo puede atribuirse a dos causas: o bien la aleatoriedad n o de la muestra o bien que la distribucin terica supuesta para el estad o o stico de contraste es errnea, lo cual nos conducir a haber asumido una hiptesis o a o nula falsa. Por tanto, denir un contraste de signicacin requiere: una medio da de discrepancia y una regla para juzgar qu discrepancias son demasiado e grandes. El mtodo tradicional de realizar un contraste es dividir el rango de dise crepancias que pueden observarse cuando H0 es cierta en dos regiones: una regin de aceptacin de H0 y otra de rechazo o regin cr o o o tica. Se consideran discrepancias demasiado grandes aquellas que tienen una probabilidad, , pequea de ocurrir si H0 es cierta, por ello, si rechazamos H0 cuando ocurre n

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

56

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

una discrepancia de probabilidad , este nmero, que llamaremos nivel de sigu nicacin, podemos interpretarlo como la probabilidad que estamos dispuestos o a asumir de rechazar H0 cuando es cierta, o sea, = P(rechazar H0 | H0 cierta). Fijado (habitualmente 0.1, 0.05 o 0.01), la regin cr o tica se determina a partir de la distribucin del estad o stico de contraste cuando H0 es cierta, y depender del tipo de hiptesis alternativa. a o Para una hiptesis nula simple, H0 : = 0 , y las distintas hiptesis alo o ternativas que consideramos, las regiones cr ticas tendrn la siguiente forma, a para el nivel de signicacin , que tambin pueden apreciarse en la gura 3.1: o e 1. H1 : = 0 2. H1 : > 0 3. H1 : < 0 RR = (, d1/2 ) (d/2 , ) RR = (d , ) RR = (, d1 )

donde D es el estad stico de contraste y se ha denotado por d el valor tal que = P(D d | = 0 ), que denominaremos valor cr tico. En consecuencia, la decisin tomada sobre un contraste deber acompaarse del nivel o a n de signicacin prejado, pues en realidad, todo contraste puede ser (o no) o signicativo dependiendo del nivel de signicacin. o
0,4 0,3 0,2 0,1 0 0,4 0,3 0,2 0,1 0

-5

-3

-1
0,4 0,3 0,2 0,1 0

-5

-3

-1

-5

-3

-1

Figura 3.1: Regiones cr ticas para las siguientes hiptesis alternativas respeco tivamente: H1 : = 0 ; H1 : < 0 ; H1 : > 0 Por este motivo, se dene el nivel cr tico o p-valor como la probabilidad de obtener una discrepancia mayor o igual (en relacin con el distanciamiento de o H0 en la direccin de H1 ) que la observada en la muestra, cuando H0 es cierta. o Este concepto es de suma importancia, pues adems los paquetes estad a sticos

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

57

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

expresan los resultados en trminos de p-valores. El p-valor slo puede calcue o larse una vez tomada la muestra. El p-valor puede interpretarse como un nivel m nimo de signicacin, de manera que niveles de signicacin mayores o o o iguales que el p-valor conducirn a rechazar H0 , mientras que valores de a menores, conducirn a no rechazarla. a Puesto que la decisin que se tome en favor de una u otra hiptesis eso o tar basada en la discrepancia observada entre la hiptesis nula y la informaa o cin suministrada por la muestra, existir la posibilidad de cometer dos tipos o a de errores: Error de tipo I: se produce cuando H0 es cierta pero se rechaza. La probabilidad de cometerlo se designa por . Error de tipo II: se produce cuando H0 es falsa pero se acepta. La probabilidad de incurrir en l se designa por . e Se resume en la siguiente tabla: Aceptar H0 H0 cierta Decisin correcta o H0 falsa Error II Rechazar H0 Error I Decisin correcta o

Llamaremos funcin o curva caracter o stica a la funcin que asigna a cao da posible valor del parmetro , la probabilidad de aceptar H0 cuando es a cierto, o sea, () = P(aceptar H0 |). Para = 0 , (0 ) = P(aceptar H0 |0 ) = 1 - , mientras que para otros valores proporciona la probabilidad de cometer un error de tipo II. Debe sealarse que cuanto menor sea mayor n ser () y al revs, la unica forma de disminuir la probabilidad de ambos a e errores simultneamente es aumentar el tamao muestral. En ocasiones tama n bin se utiliza la curva de potencia, que indica la probabilidad de rechazar H0 e para cada valor del parmetro: Potencia() = P(rechazar H0 |). Si la potencia a permanece siempre muy prxima a 1, entonces se dice que el estad o stico de contraste es muy potente para contrastar H0 , ya que en ese caso las muestras resultarn, con alta probabilidad, incompatibles con H0 cuando H1 sea cierta. a Por tanto, la potencia de un contraste puede interpretarse como su sensibilidad o capacidad para detectar una hiptesis alternativa. o Recopilando todo lo considerado hasta ahora, pueden establecerse los siguientes pasos para contrastar una hiptesis estad o stica: 1) Formular una hiptesis nula y alternativa apropiada. o 2) Especicar la probabilidad de error de tipo I, segn cmo de importante u o se considere una decisin errnea en favor de la hiptesis alternativa. o o o 3) Elegir un estad stico de contraste D adecuado, as como su distribucin. o

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

58

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

4) Evaluar el estad stico de contraste D, para la muestra x1 , x2 , . . . , xn , para obtener el valor d = D(x1 , x2 , . . . , xn ). 5) Determinacin de la regin cr o o tica. 6) Decisin: rechazar H0 si el valor observado d, pertenece a la regin cr o o tica, sino no rechazar H0 . Obviamente, as planteado, no controlar amos el riesgo de cometer un error de tipo II, en caso de desear controlarlo, deber amos determinar cul es el a primer valor de la hiptesis alternativa (1 ) que, de ser correcto, deseamos o detectar, adems de especicar el tamao del error de tipo II ((1 )) que estaa n mos dispuestos a asumir. A partir de las probabilidades y , calcular amos el tamao muestral adecuado para garantizar ambas probabilidades de error. n

Ejemplo 2.2: Utiliza el contraste adecuado para comprobar si se debe modicar el sistema informtico actual, a nivel de signicacin de 0.05. a o Vamos a ir paso a paso, para resolverlo: 1) Formular una hiptesis nula y alternativa apropiada: o Ya lo hab amos hecho: H0 : 0 = 2 (o simplemente = 0 =2) H1 : > 0 = 2 2) Especicar la probabilidad de error de tipo I e identicar los datos con los que contamos. 0 = 2, s = 0.4, x = 2.17, N = 31, = 0.05. 3) Elegir un estad stico de contraste adecuado, as como su distribucin o (vase la pgina 66): e a Como es un contraste sobre una media y N es grande, elegimos el caso A: Z= X 0 N (0, 1) S/ 31

4) Clculo del valor observado del estad a stico de contraste segn los datos u observados: z= 2.17 2 = 2.3663 0.4/ 31

5) Determinacin de la regin cr o o tica y el/los valor/es cr tico/s:

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

59

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

Regin cr o tica: son los valores del estad stico de contraste que nos conducen a rechazar la hiptesis nula. o Regin de aceptacin: son los valores del estad o o stico de contraste que nos llevan a aceptar = no rechazar la hiptesis nula. o Valor cr tico: valor/es que separan la regin cr o tica de la de aceptacin. o Como la hiptesis alternativa es > 2, elegimos la regin cr o o tica correspondiente a >: (z , + ) Como = 0.05 y el estad stico sigue una N(0,1), z = z0.05 = 1.64 y la regin cr o tica quedar (1.64, ). a: 6) Decisin: rechazar H0 si el valor observado pertenece a la regin cr o o tica, sino no rechazar H0 . 2.3663 (1.64, ) Rechazamos H0 , nos quedamos con H1 . La media es mayor que 2, y por tanto, el sistema debe modicarse. En los software estad sticos, para resolucin de contrastes, se nos devuelve o habitualmente el p-valor. Adems de calcular la regin cr a o tica puede calcularse el p valor (asociado a nuestros datos). Recordemos que el p valor es el menor valor de que nos conducir a rechazar H0 . Un p valor se determina a como la probabilidad de que el estad stico de contraste pertenezca a la regin o cr tica cuando el valor observado se considera valor cr tico. Valores pequeos n del p valor (por ejemplo menor que 0.05) nos llevan a rechazar H0 . Si es menor que el p valor, no rechazamos H0 . En cambio, si es mayor que el p valor, rechazamos H0 . Ejemplo 2.2: Podemos obtener en este ejemplo fcilmente el p-valor (en a otros ejemplos, su obtencin manual no ser tan sencilla, ya que no dispondreo a mos de esa informacin en las tablas, pero el ordenador siempre nos podr sacar o a del apuro). p valor = P (Z > 2.366) = 1 0.9911 = 0.0089

Observacin: Existe una relacin entre los intervalos de conanza y los o o contrastes de hiptesis. Los intervalos de conanza (bilaterales) vistos en el o tema anterior (exceptuando el L)) nos dan la regin de aceptacin de contraso o tes bilaterales al 100(1 ) % y por tanto, H0 no ser rechazada al nivel si a 0 pertenece al intervalo. O sea, intervalo de conanza (1 ) = conjunto de hiptesis aceptables a nivel . Por ejemplo, para el caso de la media de una o poblacin Normal, se acepta al nivel la hiptesis = 0 cuando el intervalo o o de conanza 1 - construido para incluye a 0 y viceversa. Ejemplo 1.9: Consideremos ventiladores de ordenador, que en condiciones normales, tienen una vida distribuida normalmente con media 15.100 horas.

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

60

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

Se introducen ciertos cambios en el proceso de fabricacin que pueden afectar o a la media pero no a la variabilidad. Para contrastar si estos cambios han producido efectos, tomamos una muestra de 4 ventiladores cuyas vidas resultan ser (en horas): 15010, 14750, 14826, 14953. Hay evidencia de un efecto sobre la media? x = 14884.75, s = 118.258, intervalo de conanza para al 95 %: (x t/2 s ) ) = (14884.75 3.182 118.258 ) = (14696.6,15072.9), como 15100 / 4) N (14696.6,15072.9) s que habr afectado a la media. a Ambos procedimientos (contrastes e intervalos) deben considerarse complementarios. Hemos de distinguir tambin entre diferencias estad e sticamente signicativas y la signicatividad prctica. Por ejemplo, si tomamos una muestra muy a grande y tratamos de contrastar si la media es 0 , nos puede ocurrir que obgrande y tratamos de contrastar si la media es 0 , nos puede ocurrir que observemos una diferencia signicativa, rechazando que la media sea 0 , cuando servemos una diferencia signicativa, rechazando que la media sea 0 , cuando en realidad, la media sea 0 + 0.00001, una diferencia que puede no ser imporen realidad, la media sea 0 + 0.00001, una diferencia que puede no ser importante a nivel prctico. As adems del contraste de hiptesis, es conveniente a , a o tante a nivel prctico. As adems del contraste de hiptesis, es conveniente a , a o realizar una estimacin de los parmetros y un anlisis de la potencia para on de los parmetros y un anlisis de la potencia para a a realizar una estimaci o a a evaluar la capacidad de discriminacin. o evaluar la capacidad de discriminacin. o

3.2.

Contrastes paramtricos: medias, variane zas y proporciones. varianzas y proporciones.

Ahora trataremos algunos contrastes paramtricos de inters prctico para e e a Ahora trataremos algunos contrastes paramtricos de inters prctico para e e a una y dos muestras: medias, varianzas y proporciones. Para cada caso, se exuna y dos muestras: medias, varianzas y proporciones. Para cada caso, se expondr el estad a stico de contraste correspondiente y la regin de rechazo. o pondr el estad a stico de contraste correspondiente y la regin de rechazo. o A) Contraste de hiptesis para la media , con N grande (N 30): o A) Contraste de hiptesis para la media , con N grande (N 30): o X 0 0 N (0, 1) Z S/ N H0 : = 0 0 0 H1 : 3 casos posibles 1

H1 < 0 = 0 > 0

Regin cr o tica (, z ) (, z/2 ) (z/2 , ) (z , )

Ejemplo 2.2: se ha resuelto en el apartado anterior.

B) Contraste de hiptesis para la media en una poblacin Noro o 2 mal con desconocida: X 0 tN 1 T = S/ N
Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

H 0 : = 0 H1 : 3 casos posibles
6

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

H1 < 0

Regin cr o tica (, t )

X 0 tN 1 T = S/ N H1 < 0 = 0 > 0

H0 : = 0 H1 : 3 casos posibles

Regin cr o tica (, t ) (, t/2 ) (t/2 , ) (t , )

R: t.test(x, alternative = c(two.sided, less, greater), mu = 0, conf.level = 0.95, ...)


2 2 C) Contraste para la diferencia de medias 1 - 2 , con 1 y 2 desconocidas, para muestras aleatorias independientes y tamaos n muestrales grandes (N1 = tamao muestral de la muestra de la poblacin n o 1, N2 = tamao muestral de la muestra de la poblacin 2): n o

X1 X2 0 Z 2 N (0, 1) s1 /N1 + s2 /N2 2 H1 1 2 < 0 1 2 = 0 1 2 > 0

H0 : 1 2 = 0 H1 : 3 casos posibles

Regin cr o tica (, z ) (, z/2 ) (z/2 , ) (z , )

Ejemplo 2.2: En dicho cine de la cadena, se instala de prueba un nuevo sistema informtico, por comprobar si mejora el anterior y recomendar su a cambio en el resto de cines de la cadena con largas colas. Esta vez, se observan 41 usuarios, con media y desviacin t o pica de 1.9 y 0.35, respectivamente. Usa el contraste que determine si el sistema nuevo mejora el anterior, en cuanto a los tiempos de servicio medios se reere (con = 0.05). Puesto que hemos de realizar un contraste para dos medias, las muestras son independientes y los tamaos muestrales son grandes (31 y 41), usaremos n el caso C. Si 1 es el tiempo medio de servicio con el sistema anterior, y 2 con el nuevo, el sistema nuevo mejorar el anterior, si disminuye el tiempo de a servicio medio, o sea, si 1 > 2 , o lo que es lo mismo, 1 2 > 0. H0 : 1 2 = 0 H1 : 1 2 > 0 Sustituyamos nuestros datos en el estad stico de contraste: z= 0.42 /31 + 0.352 /41 2.17 1.9 0 = 2.99095

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

62

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

2.991 Regin Cr o tica = (z , ) = (z0.05 , ) = (1.64, ), por tanto, rechazo H0 , el tiempo de servicio medio con el anterior es mayor que con el nuevo, es decir, el nuevo mejora el anterior. D) Contraste para la diferencia de medias 1 - 2 de poblaciones normales independientes, con varianzas poblacionales desconocidas 2 2 n o pero iguales (1 = 2 ) (N1 = tamao muestral de la muestra de la poblacin 1, N2 = tamao muestral de la muestra de la poblacin 2): n o

X1 X2 0 T = 2

(N1 1)s1 +(N2 1)s2 2 N1 +N2 2

N1 N 2 tN1 +N2 2 N1 + N 2

H0 : 1 2 = 0 H1 : 3 casos posibles

H1 1 2 < 0 1 2 = 0 1 2 > 0

Regin cr o tica (, t ) (, t/2 ) (t/2 , ) (t , )

R: t.test(x,y, alternative = c(two.sided, less, greater), mu = 0, var.equal = TRUE, conf.level = 0.95, ...)
Ejemplo 3.1 (Examen 26/1/2005): En una multinacional que se dedica a la venta de bater para porttiles, se consideran dos modelos. El departaas a mento de ingenier ha realizado pruebas de duracin para los modelos bajo a o condiciones de uso y recarga similares, que se recogen a continuacin: o Modelo viejo 8500 9500 Modelo nuevo 10000 9800 9600 8400 10300 9900 9400 10200 8300

Puede concluirse al nivel = 0.05 que la duracin media del modelo nuevo o es 800 horas superior que para el modelo viejo? Utiliza el contraste adecuado para responder la pregunta anterior. Asume normalidad y que sus varianzas no dieren. Es claro que el caso a utilizar es el D. Si 1 es la duracin media para el o modelo viejo y 2 para el nuevo, la duracin media del modelo nuevo es 800 o horas superior que para el modelo viejo cuando 2 > 1 + 800, o sea, cuando 1 + 2 > 800, es decir, cambiando el signo, 1 2 < 800. En caso de dudas, puede ayudarte el ponerte ejemplos numricos. e H0 : 1 2 = 800 H1 : 1 2 < 800 8950 10040 (800) 6 5 = 1.009 t= 5371000+443000 6+5
6+52
Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5 63 Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

-1.009 Regin cr / o tica = (, t ) = (, t0.05 ) = (g.l. son 6 + 5 2 = 9) = (, 1.833) En consecuencia, no rechazo H0 , no tenemos pruebas para armar que el modelo nuevo sea 800 horas superior al viejo, en cuanto a la duracin media se reere. o E) Contraste para la diferencia de medias 1 - 2 de poblaciones 2 2 normales independientes, con varianzas poblacionales 1 , 2 desconocidas y desiguales (N1 = tamao muestral de la muestra de la poblacin n o 1, N2 = tamao muestral de la muestra de la poblacin 2): n o X1 X2 0 T = 2 tg.l. s1 /N1 + s2 /N2 2
s2 2 2 ) N2 2 /N )2 (s2 2 + N2 1

g.l. =

( N11 +
(s2 /N1 )2 1 N1 1

s2

H0 : 1 2 = 0 H1 : 3 casos posibles

H1 1 2 < 0 1 2 = 0 1 2 > 0

Regin cr o tica (, t ) (, t/2 ) (t/2 , ) (t , )

R: t.test(x,y, alternative = c(two.sided, less, greater), mu = 0, conf.level = 0.95, ...)


F) Contraste para la diferencia de medias 1 - 2 para muestras apareadas, cuya diferencia es normal: D y SD son la media y desviacin o t pica de las diferencias D 0 tN 1 T = SD / N H1 D < 0 D = 0 D > 0 H0 : D = 0 H1 : 3 casos posibles

Regin cr o tica (, t ) (, t/2 ) (t/2 , ) (t , )

R t.test(x,y, alternative = c(two.sided, less, greater), mu = 0, paired=TRUE, conf.level = 0.95, ...)


Ejemplo 3.2 (Examen 6/2/2004): Se quiere comparar la rapidez de dos modelos de impresora A y B. Los de la compa A sostienen que su modelo na es ms de 5 segundos ms rpido que para el modelo B de los rivales, respecto a a a a tiempos medios de impresin. Se mide el tiempo de impresin de los dos o o

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

64

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

modelos (que consideraremos normal) sobre una serie de 8 plantillas estndar a y los resultados aparecen en la tabla siguiente: Tiempo para A Tiempo para B 20 26 25 29 22 27 23 28 19 29 21 30 18 25 20 26

Plantilla Plantilla Plantilla Plantilla Plantilla Plantilla Plantilla Plantilla

1 2 3 4 5 6 7 8

Utiliza el contraste adecuado para comprobar si este estudio conrma la armacin de la compa A a nivel de signicacin de 0.05. o na o Claramente por cada plantilla contamos con una pareja de datos, los tiempos para el A y B, as que usaremos el caso F. Calculamos la muestra de la variable diferencia, D = Tiempo con A - Tiempo con B, para nuestros dastico de tos, que proporciona d = -6.5 y sd = 2.07 que incluiremos en el estad contraste. F jate que si el modelo A es ms de 5 segundos ms rpido que el a a a modelo B, se traduce en que D < 5, ya que ms rpido, equivale a menos a a tiempo. H0 : D = 5 H1 : D < 5 t= 6.5 (5) = 2.049 2.07/ 8

-2.049 Regin Cr o tica = (, t ) = (, t0.05 ) = (g.l. = N - 1 = 7, ya que hay N = 8 parejas) = (, 1.895) As que rechazo H0 , s que ten razn la compa A, en media la impre a o na sora A es ms de 5 segundos ms rpida que la B. a a a G) Contraste para 2 en una poblacin normal: o (N 1)S 2 = 2 1 N 2 0 H1 2 2 < 0 2 2 = 0 2 2 > 0
2 H 0 : 2 = 0 H1 : 3 casos posibles

2 0

Regin cr o tica (0, 2 ) 1 (0, 2 ) (2 , ) 1/2 /2 (2 , )

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

65

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

2 2 H) Contraste para el cociente 1 /2 de varianzas de dos poblaciones normales independientes:

S2 F = 1 F(N1 1,N2 1) 2 S2 H1 2 2 1 < 2


2 2 1 = 2 2 2 1 > 2

2 2 H 0 : 1 = 2 H1 : 3 casos posibles

Regin cr o tica 1 (0, F1 ) = (0, (N2 1,N1 1) ) (0, F1/2 ) (F/2 , ) (F , )


F

R: var.test(x, y, ratio = 1, alternative = c(two.sided, less, greater), conf.level = 0.95, ...)


Ejemplo 2.1: Puede concluirse al nivel = 0.01 que la varianza del tiempo entre pulsaciones para el usuario autorizado es menor que para la entrada recogida posteriormente? f=
1 2 2 H 0 : 1 = 2 2 2 H 1 : 1 < 2

(0,

0.072 = 0.388665 0.1122822 1 0.388665 Regin Cr o tica = (0, F1 ) = (0, (N2 1,N1 1) ) = (0, F10.01 ) =
1
(111,1211) F0.01

) = (0,

varianza del tiempo entre pulsaciones para el usuario autorizado s es menor que para la entrada recogida posteriormente, aunque ciertamente estamos en la frontera. I) Contraste para una proporcin p (de una Binomial) cuando N o es grande y la proporcin no es cercana a cero ni a uno: o p = X/N (X = nmero de xitos en las N pruebas), q0 = 1 - p0 u e p p0 H0 : p = p 0 N (0, 1) Z H1 : 3 casos posibles p0 q0 /N H1 p < p0 p = p0 p > p0 Regin cr o tica (, z ) (, z/2 ) (z/2 , ) (z , )

(111,1211) F0.01

1 ) = (0, 2.559 ) = (0, 0.390778) Rechazo H0 , la

R: prop.test(x, n, p= NULL,alternative = c(two.sided, less, greater),conf.level = 0.95)

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

66

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

J) Contraste para la diferencia de dos proporciones, con N1 y N2 grandes (N1 = tamao muestral de la muestra de la poblacin 1, N2 = n o tamao muestral de la muestra de la poblacin 2): n o p1 = X1 /N1 (X1 = nmero de xitos en las N1 pruebas), p2 = X2 /N2 (X2 = u e nmero de xitos en las N2 pruebas), p = (X1 + X2 )/(N1 + N2 ) u e p1 p 2 H0 : p 1 = p 2 H1 : 3 casos posibles

Z N (0, 1) p(1 p)(1/N1 + 1/N2 ) H1 p1 < p 2 p1 = p2 p1 > p 2

Regin cr o tica (, z ) (, z/2 ) (z/2 , ) (z , )

R: prop.test(x, n, p= NULL,alternative = c(two.sided, less, greater),conf.level = 0.95)


Ejemplo 3.3 (Examen 2/2/2008): Se desea construir un grco de cona trol (lo veremos en el tema prximo) para controlar un proceso que fabrica o diodos para un circuito impreso. Se tienen 19 muestras, cada una formada por 50 diodos. El nmero de diodos defectuosos en cada una de las muestras apau rece a continuacin: 4 5 3 1 4 5 7 5 6 5 1 3 1 2 3 5 4 6 2. Al cabo del tiempo, o tras un reajuste, el operario sospecha que la proporcin de diodos defectuosos o puede haber disminuido, as que toma aleatoriamente 200 diodos de la cadena de produccin y comprueba que 10 son defectuosos. Utiliza el contraste adeo cuado para comprobar la sospecha del operario, a nivel de signicacin de 0.05. o Puesto que estamos tratando con dos proporciones usaremos el caso J. Si llamamos p1 y p2 a la proporcin de defectuosos antes y despus del reajuste, o e respectivamente: H0 : p 1 = p 2 H1 : p 1 > p 2

Antes del reajuste, vemos que hay 72 defectuosos de 19 50 = 950 diodos, o sea, p1 = 0.07579. Mientras que despus, p2 = 10/ 200 = 0.05. Por otro lado, e p = (X1 + X2 )/(N1 + N2 ) = (72 + 10)/950 + 200) = 0.0713 0.07579 0.05

1.288 Regin cr / o tica = (z , ) = (z0.05 , ) = (1.64, ) As que, no re chazo H0 , no tengo razones para armar que p1 > p2 , por tanto, no se ha conrmado la sospecha de que la proporcin de diodos defectuosos haya diso minuido tras el ajuste.

z=

0.0713(1 0.0713)(1/950 + 1/200)

= 1.288

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

67

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

3.3.

Test de la 2

Hasta ahora nos hemos centrado en la inferencia paramtrica, donde son e claves las siguientes tres hiptesis: independencia de los datos, ajuste a la o distribucin especicada y homogeneidad, es decir, que no tengamos heterogeo neidad: muestras de distintas distribuciones. Por un lado debemos buscar procedimientos para evaluar el cumplimiento de dichas hiptesis, y por otro lado, cuando stas no se cumplan, debemos o e buscar procedimientos alternativos a los vistos anteriormente. De todo esto, se encarga la inferencia no paramtrica. e Nosotros veremos unicamente los contrastes de bondad de ajuste y el anli a sis de tablas de contingencia. Si necesitarais ampliar este punto, el libro [11] es muy recomendable, ya que cuenta con una introduccin a la inferencia no o paramtrica muy clara, tratando: contrastes de localizacin (test de los signos, e o test de Wilcoxon de los rangos signados), contrastes de independencia (contrastes basados en rachas, contraste de Ljung-Box), contrastes de homogeneidad (contrastes de valores at picos, contraste de Wald-Wolfowitz basado en rachas, contraste de suma de rangos de Wilcoxon y el de la U de Mann-Whitney, contraste de Kolmogorov-Smirnov para dos muestras). En este apartado, veremos el test chi-cuadrado, 2 , que puede adoptar dos formas que nos permitirn contrastar la bondad de ajuste y la independencia a u homogeneidad en tablas de contingencia, como veremos a continuacin. o Una prueba de bondad de ajuste se emplea para decidir cuando un conjunto datos se puede considerar que ha sido obtenido de una poblacin con o una distribucin de probabilidad dada. o K) Prueba de la bondad de ajuste con la 2 : El objetivo de este contraste es aclarar si es cierta la hiptesis nula H0 o de que una variable sigue una distribucin terica determinada. Por ello, se o o tratar de ver si las frecuencias de las observaciones se ajustan bien con la a distribucin. o El contraste ji-cuadrado de Pearson es vlido para todo tipo de distribucioa nes, discretas y continuas, si agrupamos las observaciones en un cierto nmero u no demasiado pequeo k de intervalos. Con l podemos contrastar dos tipos n e de hiptesis nula, especicando completamente la distribucin o especicando o o simplemente la forma pero no los parmetros, que se estiman a partir de los a datos. Para esta prueba, las observaciones de la muestra aleatoria de tamao N n de la poblacin cuya distribucin de probabilidad es desconocida se ordenan o o en un histograma de frecuencia, con k intervalos de clase. Denotaremos por oi

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

68

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

la frecuencia observada en el intervalo de clase i. Calcularemos la frecuencia esperada, ei , para el intervalo i-simo, a partir de la distribucin de probabie o lidad hipottica. e El estad stico que usaremos es: 2 0 =
k (oi ei )2 i=1

ei

(3.1)

que sigue aproximadamente una distribucin 2 con k 1 grados de lio bertad, siempre que la distribucin especicada sea la correcta. Sin embargo, o es usual aplicar el test aun en casos en los que la distribucin de la variable o no est totalmente especicada, sino que depende de algn parmetro que, en a u a consecuencia, deber ser estimado (por ejemplo, el caso en que se suponga que a la variable en concreto sigue una distribucin de Poisson y falta por especicar o su parmetro ). En estos casos la distribucin aproximada del test ha de ser a o corregida para incorporar esta informacin pasando a ser una 2 con k r 1 o grados de libertad, siendo r el nmero de parmetros estimados por mxima u a a verosimilitud. La hiptesis nula de que la distribucin de la poblacin es la distribucin o o o o 2 hipottica se rechazar si el valor calculado del estad e a stico anterior 0 es mayor que 2 , o sea, la regin cr o tica (a nivel ) es: (2 , ). R: chisq.test(x, p = rep(1/length(x), length(x))) Una limitacin bastante recomendable en la prctica es la de no llevar a o a cabo el contraste cuando la frecuencia esperada de alguna clase sea menor que 5, para evitar problemas de mala aproximacin de la distribucin usada a la o o verdadera distribucin. Entonces, en los casos en los que esta condicin falle, o o podr amos agrupar varios valores adyacentes hasta que se cumpla la restriccin. o Veamos primero un ejemplo (ejemplo 3.4) en el que la distribucin viene o completamente determinada, y posteriormente otro (ejemplo 3.5) en el que la distribucin depende de uno o ms parmetros desconocidos. o a a Ejemplo 3.4 (Examen 26/1/2005): Estamos interesados en comprobar la perfeccin de un dado cbico (un dado normal de 6 caras), es decir, en o u comprobar si los resultados se distribuyen uniformemente. Con los resultados obtenidos en 60 lanzamientos del dado, decide si se distribuir uniformemente an usando = 0.05: Resultado 1 2 3 4 5 6 Frecuencia 15 9 7 13 12 4 Planteamos el contraste de bondad de ajuste:

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

69

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

H0 : Resultado al lanzar el dado es uniforme H1 : Resultado al lanzar el dado no es uniforme

Construimos una tabla con las frecuencias observadas y esperadas (f jate que en caso de seguir la uniforme, los resultados son equiprobables): Probabilidad del resultado pi 1/6 1/6 1/6 1/6 1/6 1/6 Frecuencia Frecuencia esperada observada ei oi 1/6 60 = 10 15 10 9 10 7 10 13 10 12 10 4

Resultado 1 2 3 4 5 6

2 0

k (oi ei )2 i=1

ei

(15 10)2 (9 10)2 = + + 10 10

(7 10)2 (13 10)2 (12 10)2 (4 10)2 + + + = 8.4 10 10 10 10 8.4 Regin cr / o tica = (2 , ) = (2 , ) = (g.l. = 6 - 1 = 5) = (11.07, 0.05 ) Por tanto, no rechazo H0 , no tenemos pruebas sucientes para armar que no sea una uniforme. Ejemplo 3.5 (Examen 3/9/2007): Se ha hecho un seguimiento durante una serie de d del nmero de mensajes spam al d que un cierto usuario reas u a cibe en su correo electrnico. En base a dichos datos, que se recogen en la tabla o siguiente, decide si se ajustar a una distribucin de Poisson, considerando a o = 0.05. Nmero spam diario 0 1 2 3 4 5 u Frecuencia observada 35 42 55 40 15 10 Planteamos el contraste de bondad de ajuste: u H0 : X= Nmero de spam diario es Poisson u H1 : X= Nmero de spam diario no es Poisson Para construir la tabla con las frecuencias observadas y esperadas, necesitamos previamente estimar el valor de la de la Poisson, mediante la media: = x = (350+421+552+403+154+105+36)/(35+42+55+40+15+10+3) = (42 + 110 + 120 + 60 + 50 + 18)/200 = 400/200 = 2 6 3

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

70

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

Calculamos la probabilidad de que tome cada valor y la frecuencia esperada correspondiente. Recuerda que la funcin de probabilidad de la Poisson() es: o e x P (X = x) = x! P (X = 0) = e2 20 = 0.135335 e0 = 0.135335 200 = 27.067 0! e2 21 = 0.270671 e1 = 0.270671 200 = 54.1342 1! e2 22 = 0.270671 e2 = 0.270671 200 = 54.1342 2! e2 23 = 0.180447 e3 = 0.180447 200 = 36.0894 3!

P (X = 1) =

P (X = 2) =

P (X = 3) =

P (X = 4) =

e2 24 = 0.0902235 e4 = 0.0902235 200 = 18.0447 4! e2 25 = 0.0360894 e5 = 0.0360894 200 = 7.21788 5!

P (X = 5) =

No hace falta que calculemos P (X 6), ya que como la frecuencia esperada de cada categor debe ser mayor que 5, y como la frecuencia esperada a acumulada hasta el momento es: 27.067 + 54.1342 + 54.1342 + 36.0894 + 18.0447 + 7.21788 = 196.68738, y el total era 200, slo tendr o amos disponible 200 - 196.68738 = 3.31262 que es menor que 5. En consecuencia, agrupamos las dos ultimas categor para disponer de una frecuencia esperada superior as, a 5. Probabilidad de categor a pi 0 0.14 1 0.27 2 0.27 3 0.18 4 0.09 5 1-(0.14+0.27+0.27+0.18+0.09) X
k (oi ei )2 i=1

Frecuencia esperada ei 27.07 54.13 54.13 36.09 18.04 7.21+3.31=10.53

Frecuencia observada oi 35 42 55 40 15 10+3=13

2 0

ei

(35 27.07)2 (42 54.13)2 = + + 27.07 54.13

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

7

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

(55 54.13)2 (40 36.09)2 (15 18.04)2 (13 10.53)2 + + + = 6.6 54.13 36.09 18.04 10.53

Al sacar los grados de libertad, debemos recordar que hemos estimado un parmetro, por tanto, tendremos 6 categor (tras reagrupar) - 1 - 1 (por esa as timar ) = 4 grados de libertad. 6.6 Regin cr / o tica = (2 , ) = (2 , ) = (g.l. = 6 - 1 - 1 = 4) = (9.49, 0.05 ) Por tanto, no rechazo H0 , no tenemos pruebas sucientes para armar que no sea una Poisson. Como ya hemos dicho, el contraste 2 , se usa no slo para variables diso cretas o cualitativas, sino incluso con variables continuas. En este caso, dicha variable ha de ser agrupada en intervalos. Obviamente, el resultado del test depender de cmo construyamos estos intervalos. En el siguiente apartado a o (3.4), veremos que en el caso de variables continuas, podremos usar otros tests. L) Pruebas con tablas de contingencia: Sea la tabla de contingencia siguiente: X\Y x1 . . . xi . . . xr Total y1 o11 . . . oi1 . . . or1 T.1 ... yj ... o1j . . . . . . ... oij . . . . . . ... ... orj T.j ... yc ... o1c . . . . . . ... oic . . . . . . ... ... orc T.c Total T1. Ti. Tr. T

donde Ti. es el total de observaciones de la la i-sima, T.j es el total de e observaciones de la columna j-sima y T es el total de observaciones. e Una tabla de contingencia como la anterior puede surgir en dos contextos diferentes: a) Una muestra y dos variables (X e Y ) cada una de ellas con r y c valores. En este caso podr interesarnos contrastar la hiptesis de independencia a o de las dos variables. H0 : Las dos variables son independientes H1 : Las dos variables son dependientes (asociadas) Nota: El curso pasado ya se vio el concepto de independencia con detalle, en el cap tulo 6 del libro [34].

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

72

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

Si las variables X e Y son independientes, pij = P (X = i, Y = j) = P (X = i) P (Y = j) = pi. p.j , para i = 1, ..., r, y j = 1, ..., c, por tanto, el contraste ser a: H0 : pij = pi. p.j i,j H1 : pij = pi. p.j para algn i,j u

Ejemplo 2.5: En una universidad C, los 200 encuestados aleatoriamente entre los estudiantes de informtica, pertenec a tres carreras distintas: itig a an (Ingenier Tcnica en Informtica de Gestin), itis (Ingenier Tcnica en a e a o a e Informtica de Sistemas) e ii (Ingenier Informtica). En la encuesta ten a a a an dos opciones de sistema operativo (so) favorito a elegir: Macrohof y Pingino, u de forma que los datos desglosados aparecen en la tabla siguiente: Carrera ITIG ITIS II 30 25 15 50 55 25

SO Macrochof Pingino u

Nos interesa saber a un nivel de signicacin del 5 % si la preferencia por o un so u otro es independiente de la carrera. b) c muestras independientes de c poblaciones y una variable observada con r categor es decir, X1 , X2 , ..., Xc , cada una puede tomar r valores. En este as, caso, podr interesarnos contrastar la hiptesis de que todas las distribucioa o nes de donde se seleccionan las c muestras son semejantes, es decir, que las c distribuciones son homogneas. Por ejemplo, cuando existen slo dos cae o tegor tales como xito y fracaso, defectuoso y no defectuoso, etc., entonces as, e la prueba de homogeneidad es en realidad una prueba sobre la igualdad de c parmetros binomiales. a La H0 , por tanto, quedar de la siguiente forma: a H0 : p11 = p12 = ... = p1c p21 = p22 = ... = p2c . . . . . . . . . p = p = ... = p
r1 r2 rc

Las proporciones de las poblaciones son constantes en cualquier categor a, mientras que H1 arma que al menos en una de las categor no todas las as probabilidades ser iguales. an Ejemplo 3.6 (Examen 25/1/2006): Consideremos 3 proveedores chinos de reproductores de mp3, Chin Lu, Chin Ga y Chin N a; 200 mp3 de cada proveedor son aleatoriamente seleccionadas para examinarlas obtenindose los e siguientes resultados:

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

73

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

Calidad Defectuoso No defectuoso

Chin Lu 6 194

Proveedor Chin Ga Chin N a 4 16 196 184

La proporcin de defectuosos es la misma para los 3 proveedores, o sea, o son homogneas las poblaciones? (considera = 0.01). e Para ambos casos, a) y b), el clculo del estad a stico de contraste es el mismo, aunque la forma de plantear H0 y de enunciar las conclusiones sean distintas. El estad stico que usaremos es: 2 = 0 siendo eij = Ti. T.j / T
r c (oij eij )2 , eij i=1 j=1

(3.2)

Bajo H0 , sigue aproximadamente una distribucin 2 con (r 1) (c 1) o grados de libertad. La regin cr o tica (a nivel ) es: (2 , ). Para que la apro ximacin sea correcta, todas las eij deben ser al menos 5. o R: chisq.test(x), siendo x una matriz. Ejemplo 2.5: Primero calculamos 2 . 0 Carrera itig itis II 30 25 15 50 55 25 30+50 = 80 25+55 = 80 15+25 = 40

so Macrochof Pingino u Total

Total 30+25+15 = 70 50+55+25 = 130 200

2 = 0

r c (oij eij )2 (30 70 80/200)2 (25 70 80/200)2 = + + eij 70 80/200 70 80/200 i=1 j=1

(15 70 40/200)2 (50 130 80/200)2 (55 130 80/200)2 + + + 70 40/200 130 80/200 130 80/200 (25 130 40/200)2 = 0.82 130 40/200

Como hay r = 2 las y c = 3 columnas, los grados de libertad sern a (r 1) (c 1) = (2 - 1) (3 -1) = 2 grados de libertad.

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

74

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

0.82 Regin Cr / o tica = (2 , ) = (2 , ) = (5.99, ) No rechazo H0 , 0.05 no tengo pruebas para armar que no sean independientes. Ejemplo 3.6: Proveedor Chin Lu Chin Ga Chin N a Total 6 4 16 26 194 196 184 574 200 200 200 600

Calidad Defectuoso No defectuoso Total

De forma anloga, en este ejemplo calculamos 2 que es igual a 9.97. a 0 9.97 Regin Cr o tica = (2 , ) = (2 , ) = (con (2 - 1) (3 -1) = 2 0.01 grados de libertad) = (9.21, ) Por tanto, rechazo H0 , no son homogneas, e sino heterogneas, la proporcin de defectuosos no es la misma para los tres e o proveedores.

3.4.

Otros contrastes no paramtricos e

En este apartado veremos algunos procedimientos diseados especialmente n para el contraste de ajuste a distribuciones continuas, aunque los clculos los a realizaremos en prcticas con el R. a El primero de los contrastes considerados es el de Kolmogorov-Smirnov, que se basa en la diferencia mxima entre la funcin de distribucin emp a o o rica y terica: compara la funcin de distribucin terica F con la emp o o o o rica Fn mediante el estad stico de contraste: Dn = mxx |Fn (x) F (x)|, a cuya distribucin es independiente del modelo propuesto bajo H0 y est tabuo a lada. Cuando no se especican los parmetros, sino que stos han de estimarse, a e se debe corregir la distribucin del estad o stico. R: ks.test(x, y, ...) Debido a la gran importancia de la distribucin Normal, existen diversos o contrastes espec cos para estudiar la bondad de ajuste a esta distribucin, o como: Contraste de Shapiro-Wilks: que se basa en el ajuste de la muestra a una recta al dibujarla en papel probabil stico normal. En prcticas, se a ver cmo obtener este grco (grco de probabilidad normal). a o a a R: shapiro.test(x), qqnorm(x), qqline(x)

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

75

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

Contraste de asimetr que se basa en que bajo la hiptesis de normalia, o dad, el coeciente de asimetr poblacional toma el valor cero. a Contraste de curtosis o apuntamiento, que se basa en que el coeciente de apuntamiento poblacional de la distribucin normal es cero (tras restarle o 3). A continuacin se muestra un ejemplo donde se contrasta si unos datos provieo nen de una distribucin normal. Primero, sin especicar a priori sus parmeo a tros. Ejemplo 3.7 (Examen 1/9/2008): Antes de sacar al mercado un cierto sof tware sobre edicin de v o deo, se realiza un test de utilizacin (usability o testing), en el que potenciales usuarios prueban el producto y se recogen sus datos, para con ellos renar el producto antes de sacarlo a la venta. Entre los datos recogidos estuvo el tiempo que necesitaron distintos usuarios para completar una determinada tarea de edicin, y que se recopil en el vector o o Tiempotarea. Usemos los contrastes anteriores para estudiar su posible normalidad ( = 0.05). /**** Contraste de (normalidad) de Shapiro-Wilks ****/ > shapiro.test(Tiempotarea) Shapiro-Wilk normality test data: Disco W = 0.9564, p-value = 0.4747

/**** Grco de probabilidad normal ****/ a > qqnorm(Tiempotarea) > qqline(Tiempotarea)

Normal QQ Plot
55 Sample Quantiles 25 2 30 35 40 45 50

0 Theoretical Quantiles

El contraste que planteamos es el siguiente:

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

76

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

H0 : La variable Tiempo de completar la tarea es Normal H1 : La variable Tiempo de completar la tarea no es Normal

Tanto a travs del grco (los puntos se ajustan a la recta), como a travs e a e del p-valor = 0.4747, mayor que = 0.05, podemos aceptar que los datos de Tiempotarea provengan de una distribucin Normal. o Supongamos ahora que deseamos contrastar si es Normal de media 42 y desviacin t o pica 7. H0 : La variable Tiempo de completar la tarea es Normal(42,7) H1 : La variable Tiempo de completar la tarea no es Normal(42,7) /**** Contraste de Kolmogorov-Smirnov ****/ > ks.test(Tiempotarea,"pnorm",42,7) One-sample Kolmogorov-Smirnov test data: Tiempotarea D = 0.1659, p-value = 0.6409 alternative hypothesis:two.sided De nuevo, mediante el p-valor = 0.6409, que es bastante elevado (> ), po dr amos a aceptar que Tiempo de completar la tarea siga una distribucin o Normal(42,7). Tras aplicar contrastes de normalidad como los anteriores, es posible que no se pueda aceptar que la distribucin poblacional sea normal. En ese caso, o o bien se utiliza otro modelo paramtrico que se ajuste a los datos o bien se trata e de aplicar alguna transformacin sobre la variable para tratar de conseguir que o los nuevos datos se ajusten a una normal, como son las transformaciones de Box-Cox. Para ello, se pueden consultar [11, 56]. Ejemplo 3.7: Tambin se recogieron los tiempos transcurridos entre llamae das al help desk, en el vector T iempohelp. A continuacin aparecen distintas o salidas del R, para realizar contrastes de bondad de ajuste a la distribucin o normal y exponencial (de media 230 minutos), por ese orden. En base a estas salidas, contrasta las hiptesis anteriores. o /**** Normal ****/ > shapiro.test(Tiempohelp) Shapiro-Wilk normality test data: Tiempohelp W = 0.684, p-value = 1.232e-05

El contraste es:

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

77

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

H0 : La variable Tiempo entre llamadas al help-desk es Normal H1 : La variable Tiempo entre llamadas al help-desk no es Normal

El p-valor = 1.232e-05 es muy pequeo (< = 0.05), podemos rechazar n claramente que se distribuya normalmente. /**** Exponencial ****/ > ks.test(Tiempohelp,"pexp",1/230) One-sample Kolmogorov-Smirnov test data: Tiempohelp D = 0.1873, p-value = 0.4234 alternative hypothesis: two.sided F jate que el parmetro de la exponencial es 1/media. a H0 : Tiempo entre llamadas al help-desk es Exponencial(1/230) H1 : Tiempo entre llamadas al help-desk no es Exponencial(1/230) En cambio, ahora el p-valor = 0.4234 es mayor que = 0.05, y podr amos aceptar que los datos procedieran de una Exponencial de media 230 minutos.

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

78

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

Cap tulo 4 Control estad stico de calidad


Si Japn puede ... por qu nosotros no podemos? Ellos se dieron cuenta o e de que los benecios que t obtienes mediante los mtodos estad u e sticos, son benecios que t obtienes sin nueva maquinaria, sin nuevo personal. Cualquiera u puede producir calidad si baja la tasa de produccin. Yo no estoy hablando de o eso. El pensamiento estad stico y los mtodos estad e sticos son para los trabajadores, capataces y toda la compa japonesa, una segunda lengua. Con control na estad stico tienes un producto reproducible hora tras hora, d tras d Y ves a a. qu reconfortante es para la direccin, ellos ahora saben qu pueden producir, e o e ellos saben qu costes habr. e a Los defectos no son gratis. Alguien los hace, y se le paga por hacerlos. W. Edwards Deming

4.1.

Introduccin. Qu es el control o e estad stico de la calidad?

Comencemos por el principio, qu entendemos por calidad? Calidad sige nica idoneidad de uso. Mejora de la calidad signica la eliminacin del deso perdicio, lo cual supone mayor productividad, mayor satisfaccin del cliente, o mayor reputacin en la empresa, mayor competitividad y en denitiva, una o mayor ganancia. El control estad stico de la calidad es el conjunto de mtodos de ingenier e a y estad sticos que se emplean en la medicin, vigilancia, control y mejora de o la calidad. Por qu hay inters en el control estad e e stico de la calidad? Son diversas las razones: 1. Incremento en la competitividad entre distintas empresas. 2. Necesidad de evitar prdidas de material y ahorrar nmero de horas de e u las personas. 3. Incremento en el benecio de la empresa.

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

79

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

4. Incremento en el consumismo. En la decisin de compra de un consuo midor, la calidad de un producto puede tener la misma importancia, o superior, que el coste o el tiempo de entrega del mismo. 5. Incremento en las demandas como consecuencia del mal funcionamiento del producto y la necesidad de tener informacin documentada sobre el o proceso de fabricacin para una posterior defensa legal frente a demandas o de consumidores. 6. La necesidad de conocer la capacidad real del proceso de fabricacin. o 7. Los cada vez ms exigentes requerimientos legales para que el producto a pueda ser comercializado. 8. Proliferacin de estndares industriales de obligado cumplimiento. o a 9. Incremento en estndares internacionales para comercio internacional. a Aunque nosotros solamente trataremos el control estad stico de procesos, el control de calidad se clasica en: a) Control en curso de fabricacin (de procesos). o b) Control de recepcin y de producto acabado. o El control en curso de fabricacin se realiza durante la fabricacin del proo o ducto, a intervalos jos de tiempo, y tiene por objeto vigilar el funcionamiento del sistema y recoger informacin para mejorarlo. El control de recepcin y o o de producto acabado trata de encontrar una buena manera para decidir si un producto verica las especicaciones establecidas. Control de recepcin: Un campo donde el muestreo juega un papel funo damental es en el control de recepcin que trata de comprobar que los produco tos cumplan las especicaciones de calidad. El ms empleado es el control de recepcin por atributos, en el que se insa o peccionan por muestreo las unidades de un lote. Se seleccionan art culos de cada lote y se toma una decisin con base a dicha muestra respecto a si se o acepta o se rechaza el lote, segn el nmero de unidades defectuosas que conu u tenga. Para resolver esta cuestin podemos emplear los llamados planes de mueso treo. Estos podemos clasicarlos en: a) Planes de aceptacin/rechazo: los ms conocidos son: o a las normas japonesas JIS Z 9002 las normas norteamericanas Military Standard MIL- STD- 105D; UNE 66020

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

80

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

Este ultimo tiene en cuenta el tipo de inspeccin, as como el rigor de ins o peccin. o Los muestreos pueden ser simples, dobles, mltiples y (en su caso extremo) u secuencial (un muestreo es secuencial cuando despus de cada observacin se e o toma una de las siguientes decisiones: aceptar el lote, rechazarlo o seguir con el muestreo). b) Planes de control recticativo: los lotes rechazados se inspeccionan al 100 % sustituyendo los elementos defectuosos. Los ms usados son los de Dodgea Romig. Las tablas de estos planes y una explicacin ms detallada sobre muestreo o a podis encontrarlos por ejemplo en [56], y sobre todo en cualquier libro sobre e Control de Calidad.

4.2.

Introduccin a los grcos de control o a

En todo proceso aparece una cierta variabilidad en la calidad, debida a causas aleatorias o no asignables: variabilidad de la materia prima, la precisin o de las mquinas y de los instrumentos de medida, destreza de los operarios, etc. a Otras causas no aleatorias o asignables (materias primas defectuosas, desgaste de herramientas, deciente preparacin del operario, etc.) producen ciero tos efectos previsibles y denidos. Son pocas y de aparicin irregular, pero o con grandes efectos. Son eliminables. Diremos que un proceso est en estado a de control cuando no le afecta ninguna causa asignable. Un instrumento para determinar si se da o no esta situacin son las grcas de control. o a El grco de control es una tcnica de vigilancia en l a e nea que puede ser utilizada para: 1. La deteccin rpida de causas asignables. o a 2. Estimar los parmetros del proceso de produccin. a o 3. Obtencin de informacin para la mejora del proceso, por ejemplo, reo o duciendo la variabilidad. Ejemplo 4.1: La empresa el Girasol azul se dedica en una de sus plantas al tratamiento de pipas. Estas se venden en bolsas de 200 gr, a las que se controla su peso. A intervalos de tiempo de 10 minutos, se extraen cuatro bolsas durante la produccin y se considera su peso medio, que vamos representando o como en la gura siguiente.

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

8

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

208 206

UCL = 207,50 CTR = 203,00 LCL = 198,50

X-bar

204 202 200 198 0 4 8 12 16 20 24

Subgroup

Un grco de control es una representacin de una cantidad (media, rango, a o proporcin, nmero de defectos, ...) en funcin del tiempo o nmero de mueso u o u tra con unos l mites de control. Falta todav por determinar: qu l a e mites de control son los adecuados? y cundo un proceso est bajo control? a a Si un punto se localiza fuera de los l mites de control o aun encontrndose a entre los l mites de control, si se comportan de manera sistemtica o no aleatoa ria, entonces tambin es un indicador de que el proceso est fuera de control. e a Existe una relacin entre los grcos de control y el contraste de hiptesis, o a o estudiado en el tema anterior : 1. En cada punto del grco estamos contrastando la hiptesis de que el a o proceso se encuentra en estado de control estad stico. 2. Tenemos la probabilidad de error tipo I (concluir que el proceso est fuera a de control cuando no lo est) y la probabilidad del error tipo II (concluir a que el proceso est bajo control cuando no lo est). a a Un modelo general de grco de control ser como sigue: sea W el estad a a stico muestral que mide la caracter stica de calidad en la que se tiene inters. Las e l neas central (LC), inferior (LIC) y superior (LSC) vienen dadas por LSC = W + kW , LC = W , LIC = W kW , donde W = media de W , W = desviacin t o pica de W

y k es la distancia de la l nea central a los l mites de control, siendo k = 3 una eleccin bastante comn. Estamos suponiendo que tanto la media, W , o u como la desviacin t o pica de W son conocidas. Obviamente, habitualmente esto no es as Los parmetros son t . a picamente desconocidos y los habremos de estimar a partir de la muestra. La idea de utilizar estos grcos se debe a a Walter A. Shewhart y se habla del grco de control de Shewhart. a
A continuacin, clasicaremos los grcos de control en dos tipos generales. o a

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

82

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

1. Grcos de control de variables en donde la caracter a stica de calidad es una variable continua. A su vez tendremos grcos de control para a la tendencia central (grco X) y para la variabilidad (grcos para la a a desviacin t o pica y para el rango). 2. Grcos de control de atributos: corresponden a aquellas situaciones en a que la caracter stica de calidad no puede ser medida en una escala continua o tan siquiera cuantitativamente. Podemos decidir si la unidad observada es conforme o no sobre la base de vericar o no unos ciertos atributos. O bien, podemos contar el nmero de defectos que aparece en u una unidad de producto. En otras palabras, lo anterior se resumir como sigue: el fundamento teria o co de una grca de control se basa en la construccin, a partir de los valores a o de la esperanza y la desviacin t o pica del modelo terico de distribucin o o que sigue la caracter stica de calidad, de un intervalo de control (generalmente [ - 3 , + 3]). Dentro de este intervalo estn casi todos los valores muesa trales del proceso, si ste se encuentra bajo control. Las muestras se obtienen e a intervalos regulares de tiempo. Un punto que cae fuera de los l mites de control, indicar que el proceso est fuera de control. a a El control de calidad se realiza observando en cada elemento: 1) Una caracter stica de calidad medible (longitud, resistencia, contenido de impurezas, etc.) que se compara con un estndar jado. Es el control por vaa riables (grcas X, R, S). La caracter a stica se supone distribuida normalmente. 2) Control por atributos: 2.a. Un atributo o caracter stica cualitativa que el producto posee o no (correcto o defectuoso, por ejemplo). Da lugar a las grcas p y np. La caraca ter stica se supone distribuida segn una Binomial. u 2.b. El nmero total de defectos. Da lugar a las grcas u y c. La caracu a ter stica se supone distribuida segn una Poisson. u Veamos un ejemplo sobre el diseo de una grca de control: n a Ejemplo 4.2 (Examen 25/1/2006): Una fbrica de papel utiliza gra a cos de control para monitorizar diversos aspectos. Supongamos que los papeles deben cortarse segn cierta forma y que se controla la longitud entre dos punu tos determinados, que llamaremos X, tomando cada vez muestras de tamao n 7. Supongamos que la media y desviacin t o pica del proceso bajo control fuera respectivamente: 2.05 y 0.3, es decir, X N ( = 2.05, = 0.3), y que calculamos la longitud media de cada muestra. La caracter stica que controlamos es: n 1 Xi W = n i=1

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

83

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

con n = 7 de modo que (recuerda el punto 1.7.1, o bien el libro [34]) W N (W = , W = ), n o sea, 0.3 W N (2.05, ), 7 Los l mites de control (k=3) 3 vienen dados por LSC = W + kW = 2.39 LIC = W kW = 1.71

Problemas bsicos con los que nos enfrentaremos ser: determinar el taa a mao de la muestra y la frecuencia de muestreo. n Lo ideal es mucha muestra tomada con mucha frecuencia, pero en cambio, lo habitual es pequeas muestras con alta frecuencia. Con el uso cada vez ms n a frecuente de las nuevas tecnolog los procedimientos automatizados nos irn as, a acercando a una situacin en que se muestrear cada o a tem. S que debemos poner nfasis en seleccionar los llamados subgrupos ra e cionales: seleccionar muestras que, en la medida de lo posible, recojan la variabilidad natural y excluyan la asignable. Obviamente, el orden temporal de la produccin ser la base lgica para la formacin de los subgrupos racionales. o a o o Hay dos opciones bsicas para obtener subgrupos racionales: a (i) Cada subgrupo est formado por unidades producidas al mismo tiempo e (o lo ms cercanas posibles): dar una instantnea del proceso. a a a (ii) Cada subgrupo est formado por unidades que son representativas de e todas las unidades producidas desde que se tom la ultima muestra. o El primer procedimiento es ms sensible a leves corrimientos. Mientras que a mediante el segundo podemos decidir si aceptar toda la produccin desde ultio ma muestra. Como ya hemos dicho, un grco de control puede indicar una condicin a o fuera de control cuando: (i) Uno o ms puntos caen fuera de los l a mites de control. (ii) Los puntos exhiben algn patrn no aleatorio de comportamiento. u o Se han desarrollado distintos procedimientos emp ricos. El ms importante a ser el de las reglas de la Western Electric. Segn estas reglas un proceso a u est fuera de control cuando: a

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

84

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

1. Un punto cae fuera de los l mites de control 3-sigma. 2. Dos de tres puntos consecutivos caen fuera de los l mites 2-sigma. 3. Cuatro de cinco puntos consecutivos estn fuera de los l a mites 1-sigma. 4. Entendemos que en las dos reglas anteriores los puntos que caen fuera de los l mites de control estn en el mismo lado, esto es, o son todos mayores a que el l mite superior correspondiente o menor que el l mite inferior. 5. Ocho puntos consecutivos de la grca estn en el mismo lado de la l a a nea central. Posteriormente, se volver a insistir en este punto. a

4.3.

Grcos de control para variables a

Cuando la caracter stica de calidad es cuantitativa (y asumida normal), controlaremos el valor medio (X) y la variabilidad (R o S). Suponiendo que la caracter stica de calidad X N (, 2 ), con y cono cidas, entonces la l nea central (LC) del grco X es y los l a mites de control inferior (LIC) y superior (LSC): LSC = + 3 , n LIC = 3 . n Qu hacemos cuando no conocemos los parmetros y ? e a Tomamos m muestras previas de tamao n. n Si Xi es la media de i-sima muestra entonces se estima mediante e = 1 m X . X m i=1 i

Para obtener los l mites de control necesitamos la estimacin de desviacin o o t pica : bien utilizando las desviaciones estndar de las distintas muestras o a bien utilizando los rangos de dichas muestras. Si, como es habitual n es pequea (de 4 a 7 son valores usuales), pueden usarse los rangos. Pero, si en lugar n de valores pequeos para n, se usan valores mayores que 10 o 12, la estimacin n o de la desviacin t o pica basndonos en el rango es poco ecaz. Empecemos por a el caso bastante habitual de usar los rangos.

Supongamos que Xi i = 1, . . . , n iid normales con y conocidas. El rango de la muestra aleatoria considerada y el rango relativo ser an: R = mx Xi m Xi , a n
i i

W =

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

85

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

Los parmetros de la distribucin de W dependen slo del tamao muestral a o o n n, que es conocido: EW = d2 , EW = E R ER = .

La esperanza del rango, ER, la estimamos mediante: 1 ER = R = Ri , m i=1


m

donde Ri es el rango correspondiente a la i-sima muestra. Estimaremos e mediante (d2 est tabulada): a R = . d2 Por tanto, los l mites inferior y superior de control del grco X son: a LSC = X + Denotando A2 = cos:
3 d2 n

3 3 R, LIC = X R. d2 n d2 n

(tabulado), y x, r los valores muestrales de los estad sti-

LSC = x + A2 r LC = x LIC = x A2 r En la tabla siguiente encontramos los valores de los factores que usaremos en este tema: n 2 3 4 5 6 7 8 9 10 A2 D3 D4 1.880 0 3.267 1.023 0 2.575 0.729 0 2.282 0.577 0 2.115 0.483 0 2.004 0.419 0.076 1.924 0.373 0.136 1.864 0.337 0.184 1.816 0.308 0.223 1.777 d2 1.128 1.693 2.059 2.326 2.534 2.704 2.847 2.970 3.078

Veamos ahora cmo obtener los l o mites para el grco R. a Si conocisemos la media y la desviacin t e o pica del rango, ser an: LSC = R + 3R LC = R LIC = R 3R Si no son conocidos: R ser estimada por r. Como la desviacin t a o pica de W , denotada por d3 , es funcin de n, que es conocida: o R = W R = d3 .

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

86

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

La desviacin t o pica es estimada como antes mediante: = y el estimador de R es: R = d3 R , d2 R . d2

La l nea central y l mites de control superior e inferior de grco R: a d3 W d3 d3 LSC = R + 3 R = (1 + 3 )R LC = R LIC = R 3 R = (1 3 )R d2 d2 d2 d2 Si denotamos D3 = 1 3 d3 y D4 = 1 + 3 d3 (tabulados) y sustituimos los d2 d2 estimadores por estimaciones: LSC = D4 r LC = r LIC = D3 r. En resumen: Los valores del los l mites superior e inferior del grco de control X son: a LSC = x + A2 r LC = x LIC = x A2 r

1 x e donde x = m m xi (i es la media muestral de la muestra i-sima, calcui=1 lada con los n valores de cada muestra y m es el nmero total de muestras), u 1 e r = m m ri (donde ri es el rango de la muestra i-sima) y la constante A2 i=1 aparece tabulada.

R: qcc(data, type=xbar, center, std.dev, limits, nsigmas = 3, plot = TRUE, ...)


Por otro lado, la l nea central y los l mites de control superior e inferior de un grco R son: a LSC = D4 r LC = r LIC = D3 r. Los valores de D3 y D4 para distintos valores de n aparecen tabulados.

R: qcc(data, type=R, center, std.dev, limits, nsigmas = 3, plot = TRUE,


...)

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

87

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

Un estimador de es = R /d2 , donde d2 est tabulada. a Notemos que estamos estimando unos parmetros asumiendo que las muesa tras de que disponemos estn bajo control. En el caso de que dispongamos de a muestras preliminares para llevar a cabo un estudio inicial para la determinacin de los l o mites, procederemos iterativamente como sigue: clculo de los a l mites, determinacin de las causas asignables si el proceso no ha estado bajo o control y reconstruccin del grco una vez eliminadas las anomal y as suo a as cesivamente. Ilustremos la construccin de estos grcos mediante un ejemplo. o a Ejemplo 4.3 (Examen 1/9/2008): Se muestra a continuacin las medias o y rangos para 15 d cada uno basado en 6 observaciones diarias del as, ndice de refraccin de un cable de bra optica. o Medias: 95.7; 95.4; 96.6; 97.4; 96.9; 96.8; 96.5; 98.3; 96; 97.2; 96.5; 96.6; 96.4; 95.5; 97.4 Rangos: 3.2; 6.4; 3.6; 3.2; 1.9; 3.3; 3.4; 3.5; 3.1; 2.3; 3.1; 1.4; 3.8; 1.5; 3.4 1. Utilizando todos los datos, calcula los l mites de control para las grcas a y R. de X 2. Puede concluirse que el proceso est bajo control? De no ser as supn a , o que pueden encontrarse las causas asignables, y recalcula los l mites de control una vez eliminados los puntos fuera de control. 3. Tras realizar el apartado anterior, estima la media y desviacin t o pica del proceso. 1 1 En primer lugar, obtenemos x = m m xi = 15 15 xi = 96.6133 y r = i=1 i=1 15 1 i=1 ri = 3.14. Por otro lado, como n = 6, A2 = 0.483, D3 = 0 y D4 = 15 2.004. En consecuencia, los l mites de X son: LSC = x + A2 r = 98.131 LC = x = 96.6133 LIC = x A2 r = 95.0957 La l nea central y los l mites de control superior e inferior del grco R son: a LSC = D4 r = 6.29239 LC = r = 3.14 LIC = D3 r = 0. Vemos que no est bajo control, ya que hay dos puntos fuera de los l a mites, el 8 en el de la media y el 2 en el del rango. Supongamos que hemos localizado y eliminado la causa asignable que los caus, y stos puntos vienen o e eliminados del clculo de los l a mites de control, que volvemos a recalcular tras su eliminacin (se eliminan de ambas grcas, ya que si estaban tomados bajo o a

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

88

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

la presencia de una causa asignable, no estar representando al proceso bajo an control). 1 1 En primer lugar, recalculamos x = m m xi = 13 13 xi = (96.613315 i=1 i=1 13 1 98.3 - 95.4)/13 = 96.5769 y r = 13 i=1 ri = (3.14 15 - 6.4 - 3.5)/13 = 2.86154. Igual que antes, n = 6, A2 = 0.483, D3 = 0 y D4 = 2.004. En consecuencia, los l mites de X son: LSC = x + A2 r = 97.96 LC = x = 96.5769 LIC = x A2 r = 95.1939 La l nea central y los l mites de control superior e inferior del grco R son: a LSC = D4 r = 5.73437 LC = r = 2.86154 LIC = D3 r = 0. Ahora ya estar bajo control y nos quedar a amos con estos l mites. Por ultimo, = 96.5769, y = r /d2 = 2.86154/2.534 = 1.12926.

X-bar Chart for medias


99 UCL = 98,13 CTR = 96,61 99 8 98 97 96 95 0 3 6 9 12 15 98 6 97 4
2 96 0 95

X-bar Chart for medias Range Chart for rango


UCL = 98,13 6,29 CTR = 96,61 3,14 LCL = 95,10 0,00

X-bar Range

X-bar

LCL = 95,10

Subgroup

Subgroup

12

15

X-bar Chart for medias


99 UCL = 97,96 CTR = 96,58
8

Range Chart for rango


UCL = 5,73 CTR = 2,86 LCL = 0,00

97 96 95 0 3 6 9 12 15

Range

X-bar

98

LCL = 95,19

6 4 2 0 0 3 6 9 12 15

Subgroup

Subgroup

Estos son los grcos de X y R que se obtienen con esos datos, junto con a los grcos recalculados tras eliminar los puntos 2 y 8. a Nota: No confundis m y n, sobre todo tambin en caso de tener que rea e calcular los l mites. Veamos algunas pautas sencillas para interpretar los grcos de control X a y R:

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

89

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

a) Puntos fuera de control en X; R en control: indica un cambio en la media. b) Puntos fuera de control en X y en R: indica un cambio en la variabilidad. c) Rachas: 7 puntos consecutivos por encima o debajo de la media. Puede indicar (si R est bajo control) cambios en la media (por cambios en la materia a prima, el servicio de mantenimiento, etc.). d) Tendencias: 6 puntos seguidos en sentido creciente o decreciente. Indica la presencia de algn factor que inuye gradualmente en el proceso: desgaste u de la maquinaria, cambios de temperatura, fatiga (en la grca X); envejecia miento de la maquinaria, mezclas (en R en sentido ascendente); mejora de los operarios o del mantenimiento (en R en sentido descendente). e) Periodicidades o ciclos: repeticin de agrupamientos (sucesin de picos o o y valles). Indican la presencia de efectos peridicos: temperatura, oscilaciones o de corriente (en X); turnos, acciones de mantenimiento (en R). f ) Inestabilidad: grandes uctuaciones. Puede indicar un sobreajuste de la mquina, mezcla de materiales, falta de entrenamiento del operario de la a mquina. a g) Sobreestabilidad: la variabilidad de las muestras es menor que la esperada (acumulacin de puntos en la zona central). Puede que los l o mites estn e mal calculados, que se hayan tomado incorrectamente los datos o que se haya producido un cambio positivo temporal cuya causa debe investigarse. Como antes hemos dicho, si en lugar de valores pequeos para n, se usan n valores mayores que 10 o 12, la estimacin de la desviacin t o o pica basndonos a en el rango es poco ecaz, as que se utilizarn los grcos X y S, cuyos l a a mites pueden calcularse y ser para el grco X: an a

LSC = x + A3 S LC = x, LIC = x A3 S con A3 tabulada y: 1 Si , S= m i=1 siendo Si la desviacin t o pica de la muestra i-sima. Los l e mites para el grco a S ser an:
m

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

90

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

LSC = B4 S, LC = S, LIC = B3 S, nuevamente B4 y B3 se encuentran tabuladas. Veamos su deduccin. Ahora, para cada grupo de tamao n, se calcular la o n a media y la desviacin estndar, s: o a n (xi x)2 2 s = i=1 . n1 S no es un estimador insesgado de (S 2 s estima insesgadamente 2 ): 2 (n/2) ES = c4 , c4 = n 1 ((n 1)/2) Adems, tenemos que: a S = var(S) = 1 c2 . 4

Denotando, B5 = c4 3 1 c2 y B6 = c4 + 3 1 c2 (tabulados) 4 4 LSC = B6 LC = c4 LIC = B5 .

Si conocemos (cosa poco frecuente) los l mites de control de S son: 2 LSC = c4 + 3 1 c4 LC = c4 LIC = c4 3 1 c2 . 4

Si hay que estimar , tendremos m muestras de tamao n, siendo Si la desn viacin t o pica de la muestra i-sima y estimaremos ES: e 1 Si , S= m i=1 y lo estimamos mediante: = S . c4
m

Sustituyendo los valores tericos por las estimaciones, el grco S quedar o a a: s s LSC = s + 3 1 c2 LC = s LIC = s 3 1 c2 . 4 4 c4 c4 Detonando, B3 = 1 3 c14 1 c2 y B4 = 1 + 3 c14 1 c2 , el grco de control a 4 4 ser a: LSC = B4 s LC = s LIC = B3 s.

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

9

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

Notemos que B4 = B6 /c4 y B3 = B5 /c4 . Como =

S , c4

el grco X ser a a:

s s LSC = x + 3 LC = x LIC = x 3 . c4 n c4 n Denotando A3 =


3 , c4 n

el grco X ser : a a

LSC = x + A3 s LC = x LIC = x A3 s. R: qcc(data, type=S, center, std.dev, limits, nsigmas = 3, plot = TRUE, ...) En otras ocasiones, el tamao muestral es n =1, como en las siguientes: n 1. Se utiliza tecnolog de medicin e inspeccin automatizada, con lo que a o o se analiza cada unidad producida. 2. El ritmo de produccin es lento, y resulta inconveniente permitir que o muestras de tamao n > 1 se acumulen antes de ser analizadas. n 3. Las mediciones repetidas de un proceso dieren slo debido a errores en o el laboratorio o a errores en el anlisis, como sucede en muchos procesos a qu micos. Para estimar variabilidad del proceso usamos el rango mvil de dos obsero vaciones consecutivas: M Ri =| Xi Xi1 | La idea es construir grupos articiales formados por una observacin y la o siguiente. Es posible generalizar la idea anterior tomando una observacin y o tres o cuatro o ms consecutivas a ella. Hablar a amos de rangos mviles de oro den mayor a uno. En este caso, la estimacin de ser o a: = M R/d2 = (n = 2) = M R/1.128 El grco de control para mediciones individuales ser: a a LSC = x + 3 mr d2 LC = x LIC = x 3 mr d2

El grco de control de rango mvil ser: a o a LSC = D4 mr = 3.267mr LC = mr LIC = D3 mr = 0.

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

92

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

R: qcc(data, type=xbar.one, target, center, std.dev, limits, nsigmas = 3, plot = TRUE, ...) Debido a la dicultad de interpretacin del grco de rangos mviles por o a o estar correlacionados y la menor sensibilidad del grco de mediciones indivia duales para la deteccin de pequeos desplazamientos de la media, se ver en o n a este mismo tema, otra alternativa, como es el grco de suma acumulada. a El funcionamiento de un proceso en estado de control, no garantiza que sea capaz de producir un resultado sucientemente correcto para cumplir los estndares o especicaciones de calidad que se le exijan. No deben confundirse a los l mites de control, con los l mites de las especicaciones, que son externas al proceso. Vamos a presentar dos ndices para comprobar la capacidad de un proceso. En primer lugar, el Indice de la Capacidad del Proceso (ICP): LSE LIE , 6 donde LSE y LIE son los l mites superior e inferior de especicacin. o ICP = La interpretacin del ICP es la siguiente: (1/ICP)100 es el porcentaje del o ancho de las especicaciones utilizadas por el proceso, por ello: (a) ICP > 1: pocas unidades defectuosas. (b) ICP = 1: 0.27 % de unidades defectuosas. (c) ICP < 1: muchas unidades defectuosas. La denicin de ICP asume que el proceso est centrado en la dimensin nomio a o nal. Es razonable considerar ICP como una medida de la capacidad potencial (si estuviera centrado entonces s que medir su capacidad). Por ello, se dene a ICPk como un indicador ms robusto frente a la no centralidad del proceso: a ICPk = m n{ LSE LIE , }. 3 3

En muchas compa se suele utilizar: ICP = 1.33 de un modo genrico e nas e ICP = 1.66 si la caracter stica de calidad se reere a resistencia, seguridad u otras caracter sticas cr ticas. Tambin se utiliza ICPk = 2 que recibe el nome bre de proceso 6-sigma, ya que la distancia entre la media y la especicacin o ms cercana es de seis desviaciones estndar. a a R: process.capability(object, spec.limits, nsigmas=3, ...) Ejemplo 4.2: Si las especicaciones son 2 0.1. Calcula los dos ndices anteriores, y tambin la probabilidad de producir unidades por encima, por e

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

93

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

debajo de las especicaciones, y en denitiva defectuosas. LSE = 2 + 0.1 = 2.1 y LIE = 2 - 0.1 = 1.9. Adems tambin sab a e amos que = 2.05 y = 0.3. Con lo cual: LSE LIE 2.1 2.05 2.05 1.9 , } = m n{ , } = 0.055. 3 3 3 0.3 3 0.3

ICPk = m n{

ICPk es baj simo y est muy por debajo de 1.33, es decir, el proceso no es a capaz, hay un elevado porcentaje de elementos defectuosos. Por otro lado, ICP = LSE LIE 2.1 1.9 = = 0.11 6 6 0.3

La capacidad potencial del proceso, si estuviera (que no lo est) centrado, a ser de 0.11 (muy por debajo de 1.33), es decir, el proceso no ser capaz, ni a a an estando centrado en la dimensin nominal, y habr tambin un elevado u o a e porcentaje de elementos defectuosos. Calculemos estos porcentajes. Primero obtendremos la probabilidad de que est por debajo de las especicaciones, y luego por encima: e P (X < LIE) = P (X < 1.9) = P ( 1.9 2.05 X < )= 0.3 P (Z < 0.5) = 0.3085

P (X > LSE) = P (X > 2.1) = P (

X 2.1 2.05 > )= 0.3 P (Z > 0.167) = 0.4338

En denitiva el porcentaje de defectuosos ser: 30.85 % + 43.38 % = 74.23 % a Una forma de evaluar las decisiones respecto al tamao de la muestra y la n frecuencia de muestreo es a travs de la ARL, average run length, longitud e media de la racha. El ARL nos proporcionar el nmero medio de puntos que a u deben representarse antes que cualquier punto exceda los l mites de control. Si p es la probabilidad de que cualquier punto exceda los l mites de control, entonces ARL = 1/p (recuerda la distribucin geomtrica). o e Ejemplo 4.2: Cul es la ARL, para el grco X con l a a mites 3-sigma? 0.3 X N (2.05, ), 7 Los l mites de control (k=3) 3 ven dados por an LSC = X + kX = 2.39 LIC = X kX = 1.71

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

94

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

Precisamente por cmo se hab construido los l o an mites: p = P (X < LIC) + P (X > LSC) = P (Z < 3) + P (Z > 3) = 2 0.00134996 = 0.0027 Por tanto, ARL = 1 / 0.0027 = 370.37. Cada 370 muestras o puntos de control tendr amos una falsa alarma, en promedio. Ejemplo 4.2: Ahora supongamos que el proceso se sale de control y que la media se corre a 1.85. Cul es la probabilidad de que el desplazamiento a se detecte en la primera muestra despus del corrimiento? Cul es la ARL e a despus del corrimiento? e Ahora: 0.3 X N (1.85, ), 7

p = P (X < LIC) + P (X > LSC) = P (X < 1.71) + P (X > 2.39) = 0.3 0.3 P (Z < (1.71 1.85)/ ) + P (Z > (2.39 1.85)/ ) = 7 7 P (Z < 1.23) + P (Z > 4.76) = 1 0.8906 + 0 = 0.1094 ARL= 1 / 0.1094 = 9.14 Si pensamos que es catastrco darnos cuenta de ese desplazamiento en la o novena muestra (en promedio), podemos hacer dos cosas (o una combinacin de o ambas): muestrear con mayor frecuencia (cada menos tiempo) o bien aumentar el tamao de las muestras, aumentar n, de esta forma reduciremos la ARL. n

4.4.

Grcos de control de atributos a

Empecemos con la grca P . Es un grco de control para la fraccin de a a o art culos defectuosos o que no cumplen con las especicaciones, que se basa en la distribucin binomial. o Denotamos por p la fraccin de piezas no conformes que se producen cuano do el proceso est funcionando de un modo estable. Si seleccionamos una a muestra de tamao n y D es el nmero de unidades no conformes, entonn u ces D Bi(n, p). Si conocemos p, el grco p para la fraccin de art a o culos defectuosos ser (rea cuerda la distribucin Binomial): o p(1 p) p(1 p) LC = p LIC = p 3 LSC = p + 3 n n

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

95

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

Normalmente p es desconocido, as que podemos tomar m (20-25) mues tras de tamao n. Sea Di el nmero de unidades no conformes en la muestra n u i, entonces Pi = Di es la proporcin de art o culos defectuosos en la muestra i. n Estimaremos p mediante p =
1 m

El grco p para la fraccin de art a o culos defectuosos ser: a p(1 p) p(1 p) LSC = p + 3 LC = p LIC = p 3 . n n Estos l mites se han basado en la aproximacin normal de la binomial, que o podr no ser adecuada si p es pequeo. Si p es pequeo, el l a n n mite inferior puede ser negativo, en estos casos lo tomaremos como 0.

i=1

pi =

1 mn

i=1

di .

R: qcc(data, type=p, sizes, center, std.dev, labels, limits, nsigmas = 3, plot = TRUE, ...)
Ejemplo 3.3: Se desea construir un grco de control para controlar un a proceso que fabrica diodos para un circuito impreso. Se tienen 20 muestras, cada una formada por 50 diodos. El nmero de diodos defectuosos en cada una u de las muestras aparece a continuacin: 4 5 3 1 4 5 7 5 10 6 5 1 3 1 2 3 5 4 6 2. o i) Utilizando todos los datos, calcula los l mites de control para un grco a de control apropiado. ii) Puede concluirse que el proceso est bajo control? De no ser as a , supn que pueden encontrarse las causas asignables, y recalcula los l o mites de control una vez eliminados los puntos fuera de control. En cada muestra, se est monitorizando el nmero de diodos defectuosos a u de 50 diodos, es decir, nuestra caracter stica de calidad es una Binomial, por tanto, vamos a usar la grca P . a p es la estimacin de p (fraccin defectuosa del proceso), obtenida mediante: o o 1 1 pi = pi = 0.082 p= m i=1 20 i=1
m 20

con pi la proporcin muestral de unidades defectuosas en la muestra i-sima o e (4/50, 5/50, ..., 2/50). Con lo cual: p(1 p) 0.082(1 0.082) LSC = p + 3 = 0.082 + 3 = 0.1984 n 50 LC = p = 0.082 0.082(1 0.082) LIC = 0.082 3 0 50

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

96

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

Vemos que slo el punto 9 (10/50 = 0.2) estar fuera de los l o a mites. Lo elimino (suponiendo que se ha detectado y solventado la causa asignable), y recalculo los l mites. 1 1 82 10 p= pi = pi = = 0.07579 m i=1 19 i=1 50 19
m 19

De esta forma:

p(1 p) 0.07579(1 0.07579) LSC = p + 3 = 0.07579 + 3 = 0.188 n 50 LC = p = 0.082 0.07579(1 0.07579) LIC = 0.07579 3 0 50 Ahora, el proceso s parece estar bajo control, y nos quedar amos con estos l mites. Cuando un punto muestral caiga fuera de los l mites de control, las posibles opciones son: a) El proceso ha variado, aumentando o disminuyendo (segn el sentido del u valor extremo) el valor de p. b) El sistema de medicin ha cambiado (el inspector o los criterios de meo dida). c) Se ha cometido un error al estimar el valor de p en dicha muestra. d) El proceso no ha variado, pero los l mites de control son errneos. o e) Nada ha cambiado, simplemente un suceso poco frecuente ha ocurrido. De igual forma, es posible controlar el nmero de unidades defectuosas en u una muestra. Es incluso ms fcil de interpretar por el personal que realiza la a a inspeccin. Para ello usar o amos las grcas N P , con l a mites (n es el tamao n muestral de cada muestra): p LSC = n + 3 n(1 p) p LC = n p LIC = n 3 n(1 p) p p

R: qcc(data, type=np, sizes, center, std.dev, labels, limits, nsigmas = 3, plot = TRUE, ...)

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

97

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

Si el nmero de unidades que componen nuestra muestra es variable, pou demos contemplar las siguientes dos opciones: Opcin 1: estimamos p globalmente y luego ajustamos la desviacin t o o pica de cada muestra considerando su tamao (l n mites de control que no son constantes de muestra a muestra). Si denotamos ni el tamao de la i-sima n e muestra: m Di p = i=1 . m i=1 ni Los l mites de control para la muestra i-sima: e p(1 p) p(1 p) LC = p LIC = p 3 . LSC = p + 3 ni ni

Opcin 2: en el caso en que los tamaos no sean muy distintos puede ser ms o n a prctico tomar una especie de tamao promedio que aproxime ms o menos a n a bien a todos los puntos, y lo utilizar amos para todos los puntos: m ni n = i=1 m Cuando lo que interesa es controlar el nmero de defectos que aparecen en u un individuo ms que el nmero de individuos defectuosos, utilizaremos los a u grcos C o U , que veremos seguidamente. Por ejemplo, supongamos que rea visamos un monitor TFT, concretamente el nmero de p u xeles en mal estado. Si el nmero de p u xeles no es muy grande el producto puede prestar su servicio con una buena calidad. Obviamente, un nmero excesivo de p u xeles que no funcionan adecuadamente ser algo desagradable para el usuario y nalmente a repercutir en la venta del mismo. a En el grco C controlamos el nmero total de defectos en una muestra de a u n unidades, C, asumindose que el nmero de defectos es una distribucin de e u o Poisson. Con lo cual, EC = var(C) = . Los l mites (tericos y desconocidos) del grco de control son: o a LSC = + 3 LC = LIC = 3 Si no conocemos tomaremos m muestras, siendo Ci nmero de defectos el u = C = 1 m Ci . en la i-sima muestra, y su estimador ser: e a i=1 m El grco de control C ser: a a LSC = c + 3 c LC = c LIC = c 3 c

Si el l mite de control inferior es negativo tomar amos el valor 0 en su lugar.

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

98

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

R: qcc(data, type=c, sizes, center, std.dev, labels, limits, nsigmas = 3, plot = TRUE, ...)
Si en cambio queremos controlar los defectos por unidad, usaremos el grco a U . Utilizamos el promedio de defectos por unidad en la muestra. Si tenemos n (que puede no ser un entero) unidades y un total de defectos C entonces: U= C , n

es el promedio de defectos por unidad. Con m muestras preliminares y valores aleatorios U1 , . . . , Um entonces el nmero medio de defectos por unidad es: u 1 U= Ui . m i=1 El grco de control U es el siguiente (tambin nos basamos en la aproximacin a e o normal de la distribucin de Poisson): o u LSC = u + 3 n LC = u u LIC = u 3 n R: qcc(data, type=u, sizes, center, std.dev, labels, limits, nsigmas = 3, plot = TRUE, ...)
m

Este grco, a diferencia del grco C, se puede utilizar en aquellos casos a a en que no se puede tomar una unidad del mismo tamao para controlar el n nmero de defectos, pudiendo obtener l u mites no constantes. Ejemplo 4.2: En la fbrica de papel, se controlan tambin las imperfeca e ciones en rollos de papel. Se inspeccionan 20 muestras preliminares de 10 rollos cada una, recogindose el nmero de imperfecciones totales: 3 5 7 6 8 9 10 13 e u 6 7 10 9 8 6 5 17 6 15 4 7. i) Utilizando todos los datos, calcula los l mites de control para una grca U. a ii) Puede concluirse que el proceso est bajo control? De no ser as a , supn que pueden encontrarse las causas asignables, y recalcula los l o mites de control una vez eliminados los puntos fuera de control. En primer lugar, calculamos: 1 1 1 u= ui = ui = (3 + 5 + 7 + ... + 15 + 4 + 7) = 0.805 m i=1 20 i=1 20 10
m 20

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

99

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

As los l , mites ser an: u 0.805 = 0.805 + 3 = 1.656 LSC = u + 3 n 10 LC = u = 0.805 u 0.805 LIC = u 3 = 0.805 3 0 n 10 El punto 16 se sale del l mite superior (17/10 = 1.7), procedemos a su eliminacin y recalculamos los l o mites (suponemos que hemos encontrado las causas asignables). 1 1 1 ui = ui = (161 17) = 0.7579 m i=1 19 i=1 19 10
m 19

u=

As los l mites ser an:

u 0.7579 LSC = u + 3 = 0.7579 + 3 = 1.584 n 10 LC = u = 0.7579 u 0.7579 LIC = u 3 = 0.7579 3 0 n 10 Estos son los grcos U que se obtienen con esos datos, junto con el grco a a tras eliminar el punto 16.
u Chart for Papel/10
1,8 1,5 1,2 0,9 0,6 0,3 0 0 4 UCL = 1,66 CTR = 0,81 LCL = 0,00 1,8 1,5 1,2 0,9 0,6 0,3 0

u Chart for Papel/10


UCL = 1,58 CTR = 0,76 LCL = 0,00

Subgroup

12

16

20

Subgroup

12

16

20

Tras la eliminacin del 16, el proceso s parece estar bajo control y nos o quedar amos con estos l mites.

4.5.

Grcos de control de suma acumulada a

Para nalizar el tema, se presentarn los grcos de control de suma acua a mulada (CUSUM), que al igual que los anteriores pueden aplicarse en areas diversas como control de procesos industriales, administracin, ciencias mdio e cas, marketing, comercio, biolog etc. a,

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

00

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

Estos grcos surgieron como alternativa a los grcos Shewhart, que son a a poco sensibles a pequeos corrimientos de la media (del orden de 1.5 o inn feriores). Esto se deber a que slo utilizan informacin del ultimo punto. a o o No consideran toda la secuencia. Alternativas como las reglas de la Western Electric tienen inconvenientes: por un lado, se complica la interpretacin del o grco, y por otro lado, la ARL bajo control se reduce por debajo de 370. Este a incremento de las falsas alarmas puede tener consecuencias serias en la prctica. a Usaremos los grcos de la suma acumulada para promedios muestrales y a mediciones individuales (para las que son particularmente ecaces), aunque tambin se pueden plantear para el nmero de defectos, desviaciones estndar, e u a etc. Supongamos que 0 es el objetivo para la media del proceso y Xj es la j-sima media muestral, entonces el grco de control de suma acumulada e a consiste en representar las sumas dadas por la siguiente ecuacin: o Si =
i j=1

(Xj 0 ),

con i = 1, . . . , m. Notemos que las sumas Si combinan informacin de distino tas muestras. El punto bsico a tener en cuenta es que si el proceso est bajo a a control alrededor de 0 , los distintos Si han de uctuar alrededor de cero. Si la media se desplaza a 1 mayor que 0 , entonces los Si tendern a tomar a valores positivos y cada vez mayores. Si la media se desplaza a 1 menor que 0 , entonces los Si tendern a tomar valores negativos y cada vez menores. En a consecuencia, la observacin de una tendencia en el grco es un indicativo de o a que ha habido una modicacin de la media y deber buscarse alguna causa o a asignable. Este grco no es una grca de control, ya que no tiene l a a mites de control. Dos son los enfoques que se usan para determinar los l mites de control: el procedimiento de la mscara V (que vemos en la grca siguiente) y el cua a sum tabular, en el que se denen una cusum de cola superior e inferior, que acumulan las desviaciones del valor objetivo mayores que cierta cantidad. El proceso estar fuera de control si exceden cierta constante. a
1,3 0,9 0,5 0,1 -0,3 -0,7 -1,1 0 10 20 30 40

CuSum

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

0

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

La mscara V viene denida por la distancia d y el angulo , tal y como a vemos en la gura siguiente. El origen (O) de la mscara se coloca en la ultima a suma obtenida, y si algn punto queda fuera de los brazos de la V, entendemos u que alguna causa asignable ha afectado al proceso. Si es la probabilidad de error tipo I (falsa alarma), la probabilidad del error tipo II (no detectamos un corrimiento que s se ha producido) y el corrimiento m nimo en la media del proceso que deseamos detectar, entonces valores habituales de la mscara a V son: 2 1 d = 2 ln( ) y = arctan( ) con = 2k X la magnitud del corrimiento expresado en unidades de desviacin estndar de o a la media. k es un factor de escala que relaciona la unidad del eje de ordenadas con la unidad del eje de abscisas (habitualmente k est entre X y 2X ). a

Es util para la programacin del procedimiento, su implementacin tabular. o o Tomamos b = tan(2X ) y h = 2dX tan Denimos la suma acumulada unilateral superior en el periodo i como: SH (i) = mx{0, xi (0 + b) + SH (i 1)}, a y la suma acumulada unilateral inferior como: SL (i) = mx{0, (0 b) xi + SL (i 1)}. a donde SH (0) = SL (0) = 0. SH (i) y SL (i) acumulan las desviaciones, respecto al valor deseado, que son mayores que b, con ambas cantidades puestas a cero cuando se convierten en negativas. Si SH (i) o SL (i) exceden el valor h, entonces el proceso est fuera de control. a

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

02

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

En cualquier caso, debemos tener algunas precauciones en la interpretacin o de los grcos cusum, como son: a 1. Controlar la variabilidad (ha de permanecer constante) aparte. 2. No son ecaces en la deteccin de cambios graduales en la media o que o surgen y desaparecen rpidamente. As que podemos usar cusum para a detectar saltos en la media y conjuntamente los grcos Shewhart para a ayudarnos a interpretar otras anomal as.

R: object=qcc(data, type=xbar.one, target, ...) cusum(object)

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

03

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

Cap tulo 5 Diseo de experimentos n


Llamar al especialista en estad stica despus de haber hecho el experimento e puede no signicar ms que pedirle que haga un anlisis post mrtem: es posible a a o que sea capaz de decir a causa de qu muri el experimento. e o Sir Ronald Fisher Especialmente en Africa, uno no debe slo proyectar mejores estad o sticas ociales, sino mejor trabajo experimental en agricultura, medicina e industria. Gertrude Cox

5.1.

Introduccin. Qu es el diseo o e n experimental?

En este apartado, se introducen algunos conceptos bsicos en experimentaa cin: qu es y cul es el objetivo del diseo estad o e a n stico de experimentos, qu son e los factores, los niveles o tratamientos. Un experimento es un conjunto de pruebas o medidas, cuyo objetivo es obtener informacin que permita tomar decisiones sobre el producto o proceso o bajo estudio. Los experimentos diseados estad n sticamente permiten eciencia y econom en el proceso experimental, y el empleo de los mtodos estad a e sticos para el anlisis de datos, brinda objetividad cient a ca a las conclusiones. Los factores controlados en un experimento son las caracter sticas para las que se prueban diferentes niveles o valores con el n de ver su inuencia sobre los resultados. Puede tratarse de factores cuantitativos (temperatura, velocidad, etc.) o cualitativos (proveedor, tipo de mquina, etc.). Los diversos a valores de un factor se llaman niveles del factor. En caso de controlar un unico factor, sus niveles tambin se llaman tratamientos. e En otras palabras, dentro de un experimento encontraremos: una (aunque podr haber ms) variable respuesta (dependiente) y unos factores. Los a a factores tomarn un nmero nito de posibles valores, cada uno de ellos se a u

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

04

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

llamar nivel. Se irn variando los distintos niveles para ver si inuyen sobre a a la variable respuesta. En denitiva, los modelos de diseo de experimentos, n estudian la variabilidad de la variable de inters controlando los factores que e pueden inuir en la misma, frente a los modelos de regresin, que estudian o la variabilidad de la variable de inters teniendo en cuenta la relacin funcioe o nal de sta con otras variables explicativas (que normalmente son continuas y e en muchos casos no controlables). Aunque estos dos tipos de modelos lineales pueden estudiarse con una visin unicada. o Ejemplo 5.1: Queremos probar 3 tipos de ventiladores de 3 proveedores, para comprar el que menos ruido produzca (otra caracter stica que podr ser a de inters, ser el que ms enfr es decir, tambin podr interesarnos la e a a e, e a temperatura). Experimento: seleccionamos 10 ventiladores de cada proveedor (factor). Colocamos los 30 ventiladores en el mismo ordenador aleatoriamente, ejecutando 1 hora el mismo programa y se mide el sonido (variable respuesta). A grandes rasgos, en un diseo experimental encontraremos las siguientes n etapas: a) Denir la caracter stica (o caracter sticas) sobre las que se quiere investigar los posibles efectos de los factores (las respuestas). b) Seleccionar los factores a incluir en el experimento. c) Seleccionar los niveles (cuntos y cules) considerar en cada factor. a a d) Denir en qu va a consistir cada prueba. e e) Decidir el nmero de pruebas a realizar y el tratamiento a aplicar en u cada una (eleccin del diseo experimental). o n f ) Organizar todo el trabajo experimental, asignando las responsabilidades correspondientes y precisando las necesidades de tiempo y recursos. g) Analizar estad sticamente los resultados, para obtener respuesta (y sacar las conclusiones pertinentes) a preguntas como las siguientes: qu factores e tienen un efecto signicativo sobre la media de la respuesta?, qu interaccioe nes son signicativas? (interaccin: implica que el efecto de un factor sobre la o respuesta es diferente segn el nivel al que se halle otro factor considerado), u cules ser los niveles optimos para los diferentes factores, en funcin de sus a an o efectos sobre la media de la respuesta?, qu respuesta media cabe predecir e trabajando en las condiciones optimas encontradas?, hay efectos signicati vos sobre la varianza de la respuesta?, debemos ampliar el experimento, si hubiera algn punto oscuro? u En resumen, un problema de diseo experimental comprender los siguienn a tes puntos: comprensin y planteamiento del problema, eleccin de factores y o o

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

05

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

niveles, seleccin de la variable respuesta, eleccin del diseo experimental, reao o n lizacin del experimento, anlisis de los datos, conclusiones y recomendaciones. o a Adems, el diseo experimental utiliza tres principios bsicos: obtencin de a n a o rplicas, aleatorizacin y anlisis por bloques. Veamos por orden el signicado e o a de estos tres principios, usando el siguiente ejemplo. Ejemplo 5.2: Se trata de comparar la eciencia (tiempos de ejecucin) de o tres algoritmos en la resolucin de un cierto problema numrico. o e Repeticin: Se asignan los mismos tratamientos a las diferentes unidades exo perimentales (elementos de un diseo). Ejemplo 5.2: obviamente, si slo n o tuviramos una medida para cada algoritmo, no tendr e amos manera de establecer la variabilidad natural y el error de medida. Sin la repeticin, o ser imposible. a Aleatorizacin: Es el paso fundamental de todas las estad o sticas! Las unidades experimentales se asignan al azar a los tratamientos o niveles. Ejemplo 5.2: si tomramos primero todas las medidas para el primer a algoritmo, luego para el segundo y por ultimo, para el tercero, en vez de aleatoriamente, nos podr ocurrir que algn factor no controlado, a u como calentamiento de la cpu o procesos que no controlamos, nos afectaran a los resultados. La aleatorizacin es nuestra manera de cancelar o los factores no controlados. Control local: Hace referencia a cualquier mtodo que represente y reduzca e la variabilidad natural. Una de sus formas es la agrupacin de las unidao des experimentales en bloques (cuando tratamos muestras apareadas ya estbamos utilizando este principio). Ejemplo 5.2: como los tiempos de a ejecucin se ven afectados por la eleccin del hardware, cada algoritmo o o deber ejecutarse en distintas mquinas, cada una de las cuales ser un a a a bloque.

5.2.

Dise o completamente aleatorizado: n anlisis de la varianza con un solo factor a

En este apartado, veremos los diseos con una fuente de variacin. El pron o blema ms sencillo que puede presentarse es el de detectar la inuencia de a un factor que tiene dos niveles, en una variable de inters. Este ser el mise a mo problema que el de comparar las medias de dos poblaciones, que bajo la hiptesis de normalidad podemos resolver mediante el contraste de la t, como o se ha visto en el tema sobre Contraste de hiptesis. La generalizacin de este o o problema, es contrastar la igualdad de las medias de los a niveles de un factor, es decir, estudiar la inuencia de un factor con a niveles en la variable de inters. Veamos un ejemplo de este diseo. e n

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

06

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

Ejemplo 5.3 (Examen 21/1/2009): Imagina que disponemos de un programa para simular el sistema y obtener los resultados (asumidos normales), en el contexto siguiente: control de la produccin. En la tabla siguiente aparecen o los costes (gastos) totales medios por mes para cinco rplicas independientes e de 4 pol ticas de inventario diferentes: Pol tica Pol tica 1: (20,40) Pol tica 2: (20,80) Pol tica 3: (40,60) Pol tica 4: (40,100) 126.9 118.2 120.7 131.6 Observaciones 124.3 126.7 122.6 127.3 120.2 122.4 122.7 119.4 129.3 120.6 123.6 127.3 137 129.9 129.9 131

En un diseo experimental completamente aleatorizado, describiremos las n observaciones con el modelo estad stico lineal (se considera que el factor de inters tiene a niveles y que inicialmente el nmero de observaciones, n, es e u igual para cada tratamiento): Yij = i + ij i = 1, . . . , a j = 1, ..., n,

donde Yij es una variable aleatoria que denota la observacin ij-sima, i o e ser la media del tratamiento i y para los errores {ij } haremos las siguientes a suposiciones: Tienen esperanza nula. Su varianza es siempre constante, 2 . Tienen una distribucin normal. o Son independientes entre s . Una formulacin alternativa de estas hiptesis es: o o Yij = + i + ij ij N (0, 2 ), a

con i denida como desviaciones de la media global , por lo que

i=1 i

= 0.

La hiptesis de inters en este tipo de problemas es la de que no hay dio e ferencias signicativas entre los niveles del factor, que queda formalmente expresada por H0 : 1 = . . . = a (y H1 : no todas las medias son iguales) o equivalentemente H0 : i = 0 i. La idea (que intuitivamente puede verse en el grco siguiente: en el primer a caso no est claro si hay diferencia entre los dos grupos, en cambio en el segundo a caso, es claro que s las hay, mientras que en el ultimo caso no habr diferencia) a para deducir el estad stico de contraste se basa en descomponer la variabilidad total de los datos en dos trminos: la variabilidad entre las medias de cada e muestra y la media general, y la variabilidad dentro de cada grupo o residual: a n a n )2 2 = n a (i. y..2 2 + ) ) )22 i=1 j=1 (yij y.. ) i=1 y i=1 j=1 (yij yi. ) SCT = SCT ratamientos + SCE

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

07

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

En esta identidad, yij representa la observacin j-sima obtenida en el tratao e miento i-simo, y.. es la media de todas las observaciones, yi. es la media de e las observaciones bajo el tratamiento i-simo. Adems, SCT denota la suma e a de cuadrados total, SCT ratamientos la suma de cuadrados de los tratamientos (variabilidad entre) y SCE la suma de cuadrados del error (variabilidad dentro).

5,8

6,1

6,4

6,7

7,3

7,6

5,5

5,9

6,3

6,7

7,1

7,5

7,9

11

Figura 5.1: Idea intuitiva de ANOVA La SCT ratamientos medir la variabilidad explicada por las diferencias ena tre las medias de tratamientos, mientras que SCE medir la variabilidad no a explicada. Cuando haya diferencias reales entre las medias en cada nivel, la variabilidad entre ser grande, comparada con la variabilidad residual. Juzgar a su tamao relativo requiere conocer su distribucin en el muestreo. n o Se demuestra que cuando H0 es cierta, SCE / 2 y SCT ratamientos / 2 son variables independientes que tienen una distribucin ji-cuadrado con a(n 1) o y a 1 grados de libertad respectivamente.

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

08

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

El estad stico de contraste ser pues: a F0 = SCT ratamientos /(a 1) SCE /a(n 1)

que tendr una distribucin F de Snedecor con a 1 y a(n 1) grados de a o libertad. El numerador es conocido como cuadrado medio de los tratamientos (CMT ratamientos ) y el denominador como cuadrado medio del error (CME ). Puede demostrarse tambin, que CME es un estimador insesgado de 2 . Por e otra parte, si la hiptesis nula es cierta, CMT ratamientos es un estimador ino sesgado de 2 . Sin embargo, si la hiptesis nula es falsa, el valor esperado de o 2 CMT ratamientos es mayor que . Por consiguiente, H0 se rechazar al nivel a si f0 > F,a1,a(n1) , es decir, tendremos un contraste unilateral en el que la regin cr o tica es la cola derecha de la distribucin F. o Los trminos de la descomposicin en que se basa este contraste suelen e o disponerse en una tabla conocida como tabla ANOVA (segn la arraigada teru minolog anglosajona: AN alysisOf V Ariance). En la tabla 5.1 podemos ver a la tabla ANOVA para este primer modelo. En esta tabla aparece el anlisis a de varianza cuando contamos con un diseo desbalanceado o desequilibrado n (el nmero de observaciones en cada tratamiento puede ser diferente), slo u o deben realizarse ligeras modicaciones en las frmulas anteriores de las sumas o de cuadrados. Elegir un diseo balanceado tiene dos ventajas: 1) si los tan maos son iguales, el procedimiento es relativamente insensible a las pequeas n n desviaciones del supuesto de la igualdad de varianzas y 2) la potencia de la prueba se maximiza si las muestras tienen igual tamao. Denotaremos por ni n las observaciones en el tratamiento i-simo y N el total de observaciones. e Fuente de variacin o Tratamientos (entre grupos) Error (dentro grupos) Total Suma de cuadrados a
i=1

Grados de Media de libertad cuadrados a1 N a N 1


SCT rat. (a1) SCE N a

F
CMT rat. CME

ni (i. y.. )2 y

Tabla 5.1: Tabla ANOVA de un factor Regin cr o tica (a nivel ): (F,a1,N a , ) R: a = aov(respuesta factor) anova(a) Ejemplo 5.3: Especica el modelo y prueba la igualdad de los efectos (usa = 0.05), explicando el resultado que obtengas. Se trata de anlisis de la varianza con un factor (Pol a tica), siendo la variable respuesta Costes:

(y yi. )2 i j ij 2 i j (yij y.. )

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

09

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

Yij = i + ij

Para resolver el contraste: H0 : 1 = 2 = 3 = 4 H1 : No todas las medias son iguales construimos la tabla ANOVA.

i = 1, . . . , 4 j = 1, ..., 5, ij N (0, 2 )

Supongamos que tenemos parte de la tabla, y tenemos que acabar de rellenar los huecos: ------------------------------------------------------------Fuente Suma Cuadrados GL Cuadrados medios F ------------------------------------------------------------Poltica Error 7,9705 ------------------------------------------------------------TOTAL 459,172 ------------------------------------------------------------Podemos obtener los grados de libertad fcilmente. Ser respectivamente, a an a - 1 = 4 - 1 = 3, N a = 20 - 4 = 16, N - 1 = 20 - 1 = 19. A partir de ah podemos obtener SCE = 16 7.9705 = 127.53. Con lo cual podemos tam, bin deducir el valor de SCT ratamientos = 459.172 - 127.53 = 331.64. Entonces, e podemos obtener CMT ratamientos = 331.64 / 3 = 110.55, y por ultimo, F = 110.55 / 7.97 = 13.87. En denitiva, la tabla ANOVA (segn la salida del R) quedar u a: Analysis of Variance Table Response: Costes Df Sum Sq Mean Sq F value Pr(>F) factor(Politica) 3 331.64 110.55 13.870 0.0001026 *** Residuals 16 127.53 7.97 --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1 Regin cr o tica (a nivel ): (F,a1,N a , ) = (F0.05,3,16 , ) = (3.24, ) 13.87 (3.24, ) con lo cual, rechazo H0 , s que hay diferencia entre los costes medios (i ), segn la pol u tica de inventario usada. Para estimar los parmetros del modelo, que usaremos para construir los a residuos y comprobar la validez del modelo, podemos hacerlo mediante:

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

0

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

= y.. = i = yi. =

yij

j yij ni

i = i , donde se usa

i=1

ni i = 0.

Los residuos (eij = yij yij = yij yi. ) son utiles para vericar las hiptesis o bsicas del modelo: comprobar su normalidad (recuerda los contrastes vistos en a el cap tulo 3), comprobar la variabilidad constante, representando los residuos frente a los valores ajustados o frente a los niveles del factor, la homogeneidad de varianzas tambin puede comprobarse mediante algn test como el de Bare u tlett, representar los residuos frente al tiempo (por si hubiera alguna traza de no independencia), comprobar si existen valores at picos. En [55, pg. 58] se a resumen los efectos de las desviaciones en las hiptesis bsicas. o a En la gura 5.2 se muestran grcos de residuos frente a valores previstos a (media prevista por el modelo para dicho punto). En ambas se incumplen las hiptesis del modelo, en el primero la variabilidad va aumentando con el nivel y o en el segundo, la variabilidad de un grupo es mucho mayor que en los restantes.

Figura 5.2: Diagramas de residuos frente a valores previstos

Por otro lado, en la gura 5.3, se representan los residuos en su secuencia temporal de obtencin, mostrando cuatro situaciones interesantes. En la prio mera se ha producido a partir de cierto instante un aumento en la respuesta, en el grco contiguo se observa una correlacin negativa entre los residuos, en el a o primer grco inferior el cambio es gradual y aparece una tendencia, mientras a que en el ultimo grco se muestra una reduccin paulatina de la variabilidad a o (efecto de aprendizaje).

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5



Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

primer grco inferior el cambio es gradual y aparece una tendencia, mientras a que en el ultimo grco se muestra una reduccin paulatina de la variabilidad a o (efecto de aprendizaje).

Figura 5.3: Diagramas de residuos en funcin del tiempo o Figura 5.3: Diagramas de residuos en funcin del tiempo o
Seguidamente, se vern algunos mtodos para comparar las medias, cuando a e el efecto ha sido declarado signicativo por la prueba F. Podr dividirse en an comparaciones a priori y a posteriori. En las comparaciones a priori (nosotros no las veremos en este curso), antes de llevar a cabo el experimento, ya se saben las comparaciones de inters: e se considerarn los contrastes ortogonales. Un contraste lo podemos plantear a como H0 : i ci i = 0 con c1 , . . . , ca constantes conocidas con i ni ci = 0. Dos contrastes con coecientes {ci } y {di } sern ortogonales si i ni ci di = 0. a Para probar contraste se debe comparar su suma de cuadrados SCC = un a a 2 ( i=1 ci yi. ) / i=1 ni ci (yi. es el total de las observaciones del tratamiento isimo) con la media de cuadrados del error. El estad e stico resultante tiene una distribucin F con 1 y N a grados de libertad. o Por otro lado, si no se tiene planteada ninguna pregunta con respecto a las medias de los tratamientos (comparaciones a posteriori), se presentar el mtoa e do de la m nima diferencia signicativa o LSD (Least Signicant Dierence) (otros mtodos pueden encontrarse en [47]). De esta manera, se compararn e a todos los pares de medias con las hiptesis nulas H0 : i = j (para toda i = j) o y el par de medias i y j se declarar signicativamente diferente si |i. yj. | > a y LSD, donde LSD al nivel viene denida como t/2,N a CME (1/ni + 1/nj ). jate si si tenemos el mismoumero de observaciones para el tratamiento u F F quequetenemos el mismo nnmero de observaciones para el tratamienjate to simo y j-j-simo, ni ser igualnj .nj . e i- i-simo yesimo, ni ser igual a a e e a a Se pueden representar grupos homogneos con columnas de Xs, de forma e que si estn en la misma columna no existir diferencias estad a an sticamente signicativas entre las medias.

R: multicomp.lm(objeto aov, method=lsd,error.type=cwe)


Ejemplo 5.3: Calcula la LSD al 95 % y realiza las comparaciones explicando los resultados. Identica grupos homogneos con columnas de Xs. Cul/es e a pol tica/s ser mejores? an
Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5 2

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

En este ejemplo, como todas las pol ticas tienen el mismo nmero de obu servaciones, la LSD ser la misma para todos los pares de medias: a

Ejemplo 5.3: Calcula la LSD al 95 % y realiza las comparaciones explicando los resultados. Identica grupos homogneos con columnas de Xs. Cul/es e a pol tica/s ser mejores? an En este ejemplo, como todas las pol ticas tienen el mismo nmero de obu servaciones, la LSD ser la misma para todos los pares de medias: a LSD = t/2,N a CME (1/ni + 1/nj ) = t0.05/2,16 7.97(1/5 + 1/5) = 2.12 7.97(1/5 + 1/5) = 3.785

Las medias observadas para cada tratamiento (pol tica) son: y1. = 125.56, y2. = 120.58 , y3. = 124.3, y4. = 131.88 Realizamos las comparaciones por parejas: 1-2: 1-3: 1-4: 2-3: 2-4: 3-4: |1. y |1. y |1. y |2. y |2. y |3. y y2. | y3. | y4. | y3. | y4. | y4. | = = = = = = 4.98 1.26 6.32 3.72 11.3 7.58 > < > < > > LSD LSD LSD LSD LSD LSD 1 1 1 2 2 3 = 2 = 3 = 4 = 3 = 4 = 4

Ordenamos las pol ticas, segn sus medias observadas, de menor a mayor, u y colocamos una X en distinta columna si existe diferencia entre las medias poblacionales (f jate que como la 3 no diere de la 2 ni de la 1, pero la 1 y la 2 si son distintas, la 3 tiene dos Xs para poder expresarlo):

Poltica 2 3 1 4

Media 120,58 124,3 125,56 131,88

X XX X X

Las mejores pol ticas ser la 2 y la 3, que forman un grupo homogneo. an e A continuacin, vendr el grupo formado por la 3 y la 1. Mientras que en el o a ultimo lugar, estar la pol a tica 4, que ser la peor (mayor gasto medio). a Una alternativa no paramtrica de la prueba F, es el test de Kruskal-Wallis. e Unicamente se requiere que las ij tengan la misma distribucin continua para o todos los niveles del factor. Esta prueba se basa en los rangos (orden) de las observaciones y el estad stico de la prueba es: R2 12 12 i. i. N + 1 )2 = H= ni (R 3(N + 1), N (N + 1) i=1 2 N (N + 1) i=1 ni
a a

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

3

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

donde Ri. es el total de los rangos del tratamiento i-simo y Ri. la media. Se e 2 o rechazar H0 si el valor observado h ,a1 , con un nivel de signicacin a aproximado .

5.3.

Dise o en bloques aleatorizados n

El siguiente modelo que se presenta es el diseo en bloques aleatorizados. n En el anterior modelo los factores no controlados por el experimentador y que pod inuir en los resultados se asignaban al azar a las observaciones. En an este modelo, las unidades experimentales han sido agrupadas segn otra causa u de variabilidad que puede inuir en los resultados: es una variable, denominada variable de bloqueo, cuyo efecto sobre la respuesta no es directamente de inters, pero de esta manera se obtienen comparaciones homogneas, de forma e e anloga al procedimiento de la prueba t apareada. En este diseo, tomaremos a n el mismo nmero de muestras por tratamiento dentro de cada bloque y el oru den de las medidas dentro del bloque se decidir aleatoriamente. a En otras palabras, en este diseo se considera un factor para ver su inuenn cia sobre la variable respuesta y una variable de bloqueo, llamada bloque, que har las comparaciones ms homogneas. En realidad, no se est interesado en a a e a la variable bloque, pero despreciar su inuencia (no considerar esta variable) podr ser perjudicial, anlogamente a como ocurr con las muestras apareaa a a das en los temas anteriores. El factor bloque es una variable que suponemos que inuye en la respuesta, aunque no estamos interesados en conocer su inuencia. Las hiptesis bsicas del modelo (sin repeticin) son: o a o Yij = + i + j + ij i = 1, . . . , a j = 1, . . . b, donde ij son variables N (0, 2 ) independientes. El modelo descompone la respuesta en: Una media global . El efecto incremental en la media debida al nivel del factor, i ( i i = 0). El efecto incremental en la media debida al bloque, j ( j j = 0). El error experimental, ij , que recoge el efecto de todas las restantes causas posibles de variabilidad del experimento. Notar que este modelo supone que los efectos del factor y de la variable de bloqueo son aditivos, es decir, no existe interaccin entre ambos. o Al igual que antes, resulta interesante ilustrar este diseo con un ejemplo. n Ejemplo 3.7: En otro punto del estudio, se quer comparar 3 distintas a interfaces. Para ello, a 5 sujetos se les midi el tiempo empleado en completar o

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

4

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

una determinada tarea para cada una de las interfaces, cuyo orden de presentacin fue aleatoriamente seleccionado. A continuacin, aparecen estos datos: o o Interfaz 1 2 3 Sujetos Suj. 1 Suj. 2 Suj. 3 Suj. 4 Suj. 5 55 49 43 36 45 60 53 41 40 55 51 46 39 35 45

La hiptesis de inters ser H0 : i = 0 i, pero en algunas ocasiones tamo e a bin puede ser de inters contrastar H0 : j = 0 j. e e La deduccin de los estad o sticos de contraste y sus distribuciones muestrales se obtiene de una manera completamente anloga al anterior. As la a , variabilidad total puede descomponerse en variabilidad entre tratamientos, variabilidad entre bloques y el error o variabilidad dentro de los tratamientos y bloques. a b
i=1 j=1 (yij

SCT

y.. )2 = = a b
i=1 j=1 (yij

y )2 2 i=1 (i. y.. ) +a SCT ratamientos +

y )2 2 j=1 (.j y.. ) + SSBloques +

y.j yi. + y..2 2 ) ) SCE

Las frmulas para el caso de un diseo por bloques aleatorizados con repeo n ticin pueden consultarse en [23], pero no se tratarn. o a Puede demostrarse que: E(CMT ratamientos ) = E(SCT ratamientos /a 1) = 2 2 + b a i2 /a 1, E(CMBloques ) = E(SCBloques /b 1) = 2 + a b j /b 1 i=1 j=1 y E(CME ) = E(SCE /(a 1)(b 1)) = 2 . Por tanto, la hiptesis nula de o que todos los efectos de los tratamientos son cero, se rechazar con el nivel de a signicacin , si el valor calculado del estad o stico F0 = CMT ratamientos /CME > F,a1,(a1)(b1) . En la tabla 5.2 podemos ver la tabla de ANOVA para este modelo. Fuente de variacin o Tratamientos Bloques Error Total Suma de cuadrados SCT ratamientos SCBloques SCE SCT Grados de libertad a1 b1 (a 1)(b 1) ab 1 Media de cuadrados
SCT ratamientos (a1) SCBloques b1 SCE (a1)(b1)

F
CMT ratamientos CME

Tabla 5.2: Tabla ANOVA de un diseo en bloques aleatorizados n

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

5

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

Regin cr o tica (a nivel ): (F,a1,(a1)(b1) , ) R: a = aov(respuesta factor1 + factor bloques) anova(a) Ejemplo 3.7: Especica el modelo y prueba la igualdad de los efectos ( = 0.05). Se tratar de un diseo en bloques aleatorizados, donde el factor de inters a n e es Interfaz, los bloques son los sujetos y la respuesta, el Tiempo empleado en realizar la tarea. Si asumimos que se cumplen las hiptesis del modelo (ij son o variables N (0, 2 ) independientes), la respuesta la descompondr amos en: Yij = + i + j + ij i = 1, . . . , 3 j = 1, . . . 5, Si denotamos por i = + i , entonces el contraste ser a: H0 : 1 = 2 = 3 H1 : No todas las medias son iguales Construimos la tabla ANOVA siguiente, pues se quiere estudiar si hay diferencias signicativas entre las interfaces. Fuente Suma de cuadrados GL Cuadrados medios F -----------------------------------------------------------Interfaz 111,6 2 55,8 10,53 Sujeto 628,4 4 157,1 RESIDUAL 42,4 8 5,3 -----------------------------------------------------------TOTAL 782,4 14 -----------------------------------------------------------10.53 (F,a1,(a1)(b1) , ) = (F0.05,2,8 , ) = (4.46, ). Por tanto, rechazo H0 , s que hay diferencias entre los tiempos medios (para realizar la tarea) de las tres interfaces. Es interesante tambin observar los resultados que se hubiesen obtenido si e no se hubiesen considerado los bloques, es decir, vamos a comparar el diseo n en bloques con el diseo aleatorizado para mostrar los benecios de analizar n por bloques. Ejemplo 3.7: Supongamos ahora que no se han considerado los 5 sujetos como bloques, sino que se supone que cada vez se prueba con individuos distintos, es decir, que tuviramos un diseo completamente aleatorizado. La e n tabla ANOVA ser a: Fuente Suma de cuadrados GL Cuadrados medios F ----------------------------------------------------------Interfaz 111,6 2 55,8 1,00

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

6

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

Error 670,8 12 55,9 ----------------------------------------------------------Total 782,4 14 Esta vez 1 (F,a1,N a , ) = (F0.05,2,12 , ) = (3.89, ). Con lo cual, no / rechazar H0 , no tendr pruebas para armar que hubiera diferencia entre a a los tiempos medios de las 3 interfaces. Con este ejemplo, vemos pues, que es fundamental el uso de los bloques para poder, en este caso, descubrir la diferencia entre los tiempos medios de las 3 interfaces. El no usar los bloques, nos conducir a otra conclusin. a o De igual forma que antes, es importante examinar los residuos. Ahora los valores valores ajustados o estimados ser yij = + i + j = y.. + (i. y.. ) an: y ) + (.j y.. ) = yi. + yj. y.. . Una grca de los residuos frente a los valores y ) a ajustados con forma de curva, podr sugerir una interaccin entre los trataa o mientos y los bloques. Tambin, siguiendo el esquema del punto anterior, si el anlisis de vae a rianzas hubiera indicado la existencia de diferencias entre las medias de los tratamientos, podremos utilizar el mtodo LSD, ahora calculada como LSD = e t/2,(a1)(b1) 2CME /b.

R: multicomp.lm(objeto aov, method=lsd,error.type=cwe)

Ejemplo 3.7: Calcula la LSD al 95 % y realiza las comparaciones explicando los resultados. Identica grupos homogneos con columnas de Xs. Cul/es e a interfaz/s ser mejores? an >a=aov(Tiempo~factor(Interfaz)+factor(Sujeto)) > multicomp.lm(a, method="lsd",error.type="cwe") $table estimate stderr lower upper 1-2 -4.2 1.456022 -7.5575927 -0.8424073 1-3 2.4 1.456022 -0.9575927 5.7575927 2-3 6.6 1.456022 3.2424073 9.9575927 Gracias a la salida del R, podemos ver que hay diferencia entre 1 y 2 , puesto que 0 (-7.5575927, -0.8424073). Adems, tambin hay diferencia entre 2 / a e y 3 , puesto que 0 (3.2424073, 9.9575927). Es una manera equivalente a cal/ cular la LSD = t/2,(a1)(b1) 2CME /b = t0.025,8 2 5.3/5 = 2.306 2 5.3/5 = 3.3576 y ver si el valor absoluto de la diferencia de la pareja de medias es superado o no. Por ejemplo, 1-2: |1. y2. | = |45.6 49.8| = 4.2 > 3.3576 y 1 = 2 . F jate que -4.2 3.3576 = (-7.5575927, -0.8424073). Estos son los valores de cada media. >model.tables(a,"means")

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

7

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

Tables of means Grand mean 46.2 factor(Interfaz) 1 2 3 45.6 49.8 43.2 factor(Sujeto) 1 2 3 4 5 55.33 49.33 41.00 37.00 48.33

O sea, Interfaz Media Grupos homogneos e ------------------------------------------------3 43.2 X 1 45.6 X

2 49.8 X ------------------------------------------------Los mejores interfaces ser el 3 y el 1, que forman un grupo homogneo, an e con menores tiempos medios, que con la interfaz 2.

5.4.

Dise o factorial con dos factores n

El ultimo modelo de ANOVA que se estudiar es el de dos factores, supo a nemos ahora que la observacin de la variable Y est inuida por dos factores o a de inters. e La idea bsica de los diseos factoriales es cruzar los niveles de los factores a n a todas las combinaciones posibles, ya que de esta manera podemos detectar la interaccin de factores. Existe interaccin entre dos factores, si el efecto de o o algn nivel de un factor cambia al variar de nivel en el otro factor. En esu tos experimentos nos interesar estudiar la inuencia de los dos factores en la a respuesta y la interaccin entre los factores. Resulta conveniente resaltar las o ventajas de estos diseos frente a experimentos en los que se var un factor, n a dejando constantes los dems. a Ejemplo 5.4: Imaginemos que tenemos un proceso para el que queremos minimizar un cierta respuesta R, que viene inuenciada de dos variables A y

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

8

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

B. Una posible opcin para encontrar unas condiciones optimas de trabajo en o las cuales R sea m nima (y que veremos que no ser la adecuada), ser coger el a a valor de A con el que se trabaja habitualmente (660) y mirar para dicho valor, cul es el valor de B con el que se obtiene el optimo, con el que se obtiene a menor R, que ser en este caso 815 (con respuesta 4.04). Despus, jado B a a e 815, variamos A, que nos dar un valor optimo de 685 (con respuesta 2.28). a Es ste el valor optimo? Pues si miramos la gura siguiente veremos que no e (ser 690.6 para A y 841 para B, que nos dar una respuesta de 2.03), que a a encontraremos si experimentamos con todas las combinaciones de niveles de las dos variables.

18 940 16 920 14 900 880 860 840 820 640 650 660 670 680 690 700 710 12 10 8 6 4

Ejemplo 5.5: En la limpieza del hogar, dos productos conocidos son el salfuman y la lej El uso ms conocido del primero es el de desincrustante para a. a eliminar residuos de caliza. Mientras que el segundo, entre otras cosas, puede usarse para desinfectar los lavabos. Si sus efectos se sumaran, tendr amos el producto de limpieza Estrella, pero resulta que si los mezclamos, se produce el txico gas cloro (cuidado!), vemos que hay interaccin. o o Ejemplo 5.6: Una ingeniera desea determinar si existe o no diferencia signicativa entre los efectos de dos algoritmos (A y B) diseados para contar n olivos en imgenes areas, que es de inters para las pol a e e ticas de subvenciones de la Unin Europea en agricultura. Estos algoritmos, pueden aplicarse a dos o tipos de imgenes (con distinta banda espectral y resolucin), F y G. La tabla a o siguiente da las clasicaciones del sistema para cada combinacin algoritmoo tipo de imagen.

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

9

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

Algoritmo A

Tipo de imagen 1 2 82 73 78 69 84 67 63 62 65 66 59 67

Para este modelo, consideraremos que tomamos una muestra de tamao n n en cada combinacin de factores, uno con a niveles (factor A) y el otro con b o (factor B), y las abn observaciones se realizan en orden aleatorio. Las hiptesis bsicas del modelo son ahora: o a Yijk = + i + j + ( )ij + ijk i = 1, . . . , a j = 1, . . . b k = 1, . . . , n, donde las variables ijk son N (0, 2 ) independientes. El modelo descompone la respuesta en: Una media global . El efecto incremental en la media debida al nivel i-simo del factor A, i e ( i i = 0). El efecto incremental en la media debido al nivel j-simo del factor B, e j ( j j = 0). ( )ij representa el efecto de la interaccin entre ambos factores, as que o ( )ij = 0 y j ( )ij = 0. i El error experimental, ijk , que recoge el efecto de todas la restantes causas posibles de variabilidad del experimento. Tres son las hiptesis de inters: H0 : i = 0 i, H0 : j = 0 j y o e H0 : ( )ij = 0 i, j. Anlogamente, el anlisis de varianza prueba estas hiptesis descomponiena a o do la variabilidad total de los datos en sus partes componentes, y comparando despus los diferentes elementos de esta descomposicin. En la tabla 5.3 podee o mos ver la tabla de ANOVA para este modelo.

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

20

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

Fuente de variacin o

Suma de

Grados de

Media de F
CMA CME CMB CME CMAB CME

cuadrados libertad cuadrados SCA Factor A bn i (i.. y... )2 y a1 a1 SCB 2 Factor B an j (.j. y... ) b1 y b1 SCAB 2 Interaccin n i j (ij. yi.. y.j. + y... ) (a 1)(b 1) (a1)(b1) o y SCE Error 2 ab(n 1) i l k (yijk yij. ) ab(n1) Total 2 abn 1 i j k (yijk y... ) Tabla 5.3: Tabla ANOVA de dos factores con interaccin. o R: aov(respuesta factor1 * factor2) anova(a) Ejemplo 5.6: Tabla ANOVA. Analysis of Variance Table Response: Clasificacion

Df Sum Sq Mean Sq F value Pr(>F) factor(Alg) 1 420.08 420.08 48.0095 0.0001210 *** factor(Tipoi) 1 60.75 60.75 6.9429 0.0299481 * factor(Alg):factor(Tipoi)1 154.08 154.08 17.6095 0.0030114 ** Residuals 8 70.00 8.75 --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

Debemos mirar primero el efecto de la interaccin, y posteriormente los o efectos principales. Si la interaccin no es signicativa, podemos analizar los o efectos de los factores principales. En cambio, si es signicativa, la interpretacin de los efectos principales ya no es tan clara, puesto que la interaccin o o puede enmascarar los efectos principales. En nuestro ejemplo, la interaccin y los factores principales son signicao tivos (p-valores menores que = 0.05), con el siguiente grco podemos ver a claramente la interaccin (hay cruce de los segmentos que unen las medias de o cada grupo, es decir, tienen un comportamiento diferente segn el nivel del u otro factor). Como antes, se deben examinar los residuos: eijk = yijk - yij. y tambin, e podemos realizar pruebas para medias individuales, usando el mtodo de la e LSD. Si la interaccin es signicativa, podr aplicarse a las medias de un faco a tor, jando el otro a un nivel particular.

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

2

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

InteractionPlot
82 78 Tipoimagen 1 2

Clasif

74 70 66 62 1 2

Algoritmo

En el caso en que slo dispusiramos de una observacin por celda, una sola o e o rplica, hay tantos parmetros en el modelo como observaciones y los grados e a de libertad del error son cero. Una posible consideracin es suponer que el o efecto interaccin se puede omitir (lo cual no deja de ser peligroso). En este o caso, el anlisis ser equivalente al usado en el diseo de bloques aleatorizados, a a n aunque debe hacerse notar que las situaciones experimentales que conducen a estos modelos son muy distintas.

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

22

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

PARTE III APNDICE

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

23

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

Cap tulo 6 Sof tware


Es indiscutible la importancia del uso de las clases de ordenador para la enseanza de la Estad n stica en la actualidad. Aqu unicamente pretendemos recopilar de forma general, herramientas que usaremos en las clases de laboratorio. En la asignatura anterior a sta, ya se us y present el R (vase [34] para e o o e un repaso). El R es una buena eleccin porque permite al usuario programar o fcilmente funciones adicionales si, llegado el caso, el paquete no contuviera a el procedimiento estad stico necesario. El R es apropiado porque facilita la comprensin de los conceptos vistos en teor al centrarnos unicamente en o a, los comandos que realizan lo visto en teor Muchos programas comerciales, a. muestran por pantalla una gran cantidad de resultados y mens, mucho mayor u que la vista en clase, lo cual hace que para llegar a discernir lo fundamental que se ha visto en clase, se tenga que navegar bastante por distintos mens. u Tambin hemos de tener en cuenta que al tener cdigo abierto, podemos e o ver lo que se hace en cada instruccin, lo cual es imposible de hacer con un o programa comercial, que no permite el acceso al cdigo. Esto convierte al R en o un programa ms exible. a Adems, otra caracter a stica fundamental del R es su carcter gratuito. Rea cordemos que en los estatutos de la Universitat Jaume I se seala que: La n Universitat Jaume I fomentar` ls de formats inform`tics oberts en la comua u a nicaci interna i externa, promoure el desenvolupament i ls del programari o u lliure i afavorir la lliure difusi del coneixement creat per la comunitat unio versit`ria. Pensemos que podemos usar el R en cualquier plataforma de a forma gratuita y, por tanto, tambin podis emplearlo posteriormente en e e cualquier empresa, sin tener que gastarse miles de euros en un sola licencia. Por otro lado, el R est en continua expansin, y cuenta con much a o simas librer que recogen los ultimos avances en Estad as stica, muchos de los cuales no estn disponibles en los programas de pago. a Por ultimo, a travs de la funcin Sweave() de R [41, 52] de la librer e o a

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

24

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

Por otro lado, el R est en continua expansin, y cuenta con much a o simas librer que recogen los ultimos avances en Estad as stica, muchos de los cuales no estn disponibles en los programas de pago. a Por ultimo, a travs de la funcin Sweave() de R [41, 52] de la librer e o a A Xy cdigo R para la generacin Hmisc, podemos fcilmente mezclar texto L TE a o o automtica de documentos, es decir, texto y anlisis de datos de alta calidad, a a y GRATIS!!!, qu ms se puede pedir? e a

6.1.

Repaso previo. Simulacin y abilidad o

Objetivos: Aprender a generar nmeros aleatorios de distintas distribuu ciones. Manejar los conceptos bsicos de abilidad de componentes. Simular a sistemas (sencillos) para vericar su abilidad. Repasar conceptos vistos en la asignatura del curso anterior IG12 Estad stica.

6.1.1.

Software Sof tware de las prcticas a

Usaremos R, versin de libre disposicin del lenguaje S-PLUS. Es un intrpreo o e te de comandos con una gran cantidad de funciones, orientado fundamentalmente al anlisis estad a stico. Se puede obtener en http://cran.R-project.org/, donde tambin es posible obtener distinta documentacin en ingls o en case o e tellano: http://cran.r-project.org/other-docs.html#nenglish Es el mismo programa que se utiliz en las prcticas de la asignatura IG12 o a el curso pasado. Se emplear las funciones bsicas y la librer que se encuentra a a a en Contributed packages: qcc, la librer de control de calidad. Est disponible a a tanto en Linux como en Windows. Tambin es posible obtener el cdigo fuente, en source code. e o Recuerda que puedes usar help() para ayuda on-line, o help.start() si deseas la ayuda a travs de un navegador. e Para salirte de R, teclea q() .

6.1.2.

Introduccin o

El objetivo de la prctica es dar a conocer (muy someramente) dos areas a de gran inters: la simulacin y la abilidad. Comenzaremos deniendo ambas e o materias: La simulacin es una potente herramienta para modelizar y analizar sisteo mas complejos. La mayor de sistemas reales son dif a ciles de estudiar a travs e de modelos anal ticos. En cambio, un modelo se simulacin puede construirse o casi siempre y su ejecucin (en el ordenador) genera historias del sistema de o las que podemos extraer informacin estad o stica. (Nota: tambin existe la sie mulacin f o sica, ejemplos de la cual aparecen en muchos de los cap tulos de la famosa serie de televisin csi LasV egas). o Los campos de aplicacin de la simulacin son variad o o simos: sistemas de produccin/inventario, redes de distribucin, sistemas informticos (sistemas o o a
25 Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

cliente/servidor, redes de telecomunicaciones, etc.), sistemas de transporte (aeropuertos, puertos, ferrocarriles, autopistas), etc. Algunos ejemplos conocidos de gran renombre son: el proyecto del Eurotnel o las operaciones del u canal de Suez. Para poder realizar simulaciones, necesitamos saber generar nmeros aleau torios, que nos permitan generar entradas, con las que alimentarel modelo durante la simulacin. Nosotros nos limitaremos a dar una ligera introduccin o o a la generacin de variables aleatorias, ya que la puesta en prctica de un moo a delo de simulacin requiere de nmeros aleatorios (pseudoaletorios), pero no o u iremos ms all, para ello est la materia optativa correspondiente. a a a En segundo lugar, se dene la abilidad de un componente (o de un sistema) como la probabilidad de que el componente (o el sistema) funcione en un intervalo de tiempo en condiciones especicadas.

6.1.3.

Generacin de nmeros aleatorios o u

Es habitual que los programas para la realizacin de clculos estad o a sticos incorporen un apartado dedicado a la generacin de variables aleatorias. Noso otros veremos cmo hacerlo. En este punto, deber o amos empezar considerando cmo generar valores aleatorios de una Uniforme(0,1). o La mayor de los lenguajes de programacin dispone de alguna funcin paa o o ra su generacin. Debido a la limitacin del tiempo, slo proporcionaremos la o o o siguiente informacin bibliogrca que puede encontrarse en la red sobre cmo o a o generarlos, y nos restringiremos a utilizar los valores que nos suministren dichas funciones: http://www.library.cornell.edu/nr/bookcpdf/c7-1.pdf (cap tulo 7 del libro on-line Numerical Recipes in C) [59] o sobre el generador de nmeu ros aleatorios de R (http://www.stats.ox.ac.uk/pub/MASS4/VR4stat.pdf). Slo veremos cmo generar valores aleatorios de una variable exponencial y o o Normal. Aunque para generar nmeros aleatorios de una determinada distribuu cin podemos utilizar los comandos disponibles (rnombre de la distribucin, o o por ejemplo: rbinom, rexp, rnorm, rpois, runif, etc.) vamos a generarlos a travs de la Uniforme(0,1): e runif(n, min=0, max=1) n min,max Nmero de observaciones u L mites inferior y superior de la distribucin o

Para cada distribucin, el primer argumento indicar el nmero de observacioo a u nes a generar, y los siguientes sern distintos parmetros de las distribuciones, a a cuyo signicado depender de la propia distribucin. a o Sin embargo, antes de comenzar con la generacin de la exponencial, hareo mos un ejercicio previo (el calentamiento!) para recordarla.

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

26

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

Actividad 1. La exponencial y su papel en abilidad Para hacer esta actividad, recuerda que para determinar probabilidades de una distribucin en el R usamos: (pnombre de la distribucin, por ejemplo: o o pbinom, pexp, pnorm, ppois, punif, etc.). pexp(q, rate = 1, lower.tail = TRUE, log.p = FALSE) q vector de cuantiles Media = 1/ rate lower.tail; si TRUE (por defecto), probabilidad P[X <= x], sino, P[X > x] log; si TRUE, probabilidades p vienen dadas como log(p) Para cada distribucin, el primer argumento indicar el/los valor/es para el o a que queremos calcular el valor/es de la funcin de distribucin F(x) = P(X o o x) (con lower.tail=FALSE obtendremos su contrario, el area de la cola supe rior, P(X>x)), y los siguientes sern distintos parmetros de las distribuciones, a a cuyo signicado depender de la propia distribucin. a o

El tiempo de duracin de un ensamble mecnico en una prueba de o a vibracin tiene una distribucin Exponencial con media 400 horas. Calcula y o o escribe los comandos que utilices:
a) Qu parmetro tendrs que emplear en la funcin pexp como rate? e a a o b) Cul es la probabilidad de que el ensamble falle durante la prueba en a menos de 100 horas? c) Cul es la probabilidad de que el ensamble trabaje durante ms de 500 a a horas antes de que falle? d) Si el ensamble se ha probado durante 400 horas sin fallo alguno, cul a es la probabilidad de que falle en las siguientes 100 horas? En este ultimo apartado acabamos de comprobar la propiedad de falta de memoria de la exponencial. Actividad 2. Generacin de una muestra aleatoria de una distri o bucin exponencial. Mtodo de la transformada inversa o e Sea F una funcin de distribucin (estrictamente creciente) de una variable o o aleatoria continua X y U una variable aleatoria uniforme en (0,1). Entonces, X = F 1 (U), es una variable aleatoria con distribucin F. o Para el caso de la exponencial de parmetro a, tendremos, por tanto: x = a

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

27

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

-(1/a) log(1-u), o equivalentemente, x = -(1/a) log(u) siendo u un valor aleatorio de una variable aleatoria Uniforme(0,1). 2.1. Genera una muestra de tamao 100, de una exponencial de parmetro n a 2 mediante este mtodo, es decir, primero genera 100 valores de una Unifore me(0,1) y luego transforma estos valores. Guarda los valores obtenidos, pues se usarn en otra prctica. Incluye los datos generados en la memoria. F a a jate que tus datos sern diferentes a los de tus compaeros! a n Puedes usar write.table(x, le = ) recuperables con read.table, o bien, save(x,le= ), recuperables con load(le). 2.2. Describe los valores obtenidos, incluye en la memoria: el histograma, la media y la varianza. Cules eran los valores de la media y varianza de la a poblacin de la que hemos generado los valores? Recuerda que para descrio bir una muestra podemos usar: summary(x) que incluye la media (mean(x)), var(x) para la varianza, hist(x) para el histograma, boxplot(x) para el diagrama de cajas, etc. Nota para los grcos en Linux: x11(), jpeg(chero), a hist(x), graphics.o(). Actividad 3. Generacin de una muestra aleatoria de una distri -o bucin Normal. Recordatorio del teorema central del l o mite Para generar valores aleatorios de una Normal(0,1) vamos a utilizar el teorema central del l mite, que visteis el curso pasado. Teorema central del l mite: Sean X1 , X2 , ..., XN variables aleatorias independientes e idnticamente distribuidas tales que E(Xi ) = y Var(Xi ) = 2 , e ambas nitas. Entonces cuando N es grande, la variable aleatoria X = X1 + X2 +...+ XN sigue aproximadamente una distribucin Normal con media N o y varianza N 2 . Vamos a considerar 12 muestras aleatorias independientes de Uniforme(0,1), 12 con lo cual, por el teorema central del l mite tendremos Ui N(6,1), y restndole 6 conseguir a amos una variable Z N(0,1). Para generar X 2 N(, ) a partir de Z, basta con invertir el proceso de tipicacin: X = +Z. o
i=1

3.1. Genera una muestra de tamao 200 de una Normal con media d, siendo n d los 4 ultimos d gitos de tu DNI y desviacin t o pica 2. Por ejemplo, si tu DNI es: 12345678, entonces d=5678. Para ello sigue los pasos siguientes. Genera 12 muestras de tamao 200 de una Uniforme(0,1), de la siguiente forma: n 1. Genera 12 x 200 = 2400 valores de una uniforme(0,1) en un vector llamado x. 2. Crea un vector llamado r para codicar las 12 muestras de tamao 200, n es decir, crea un vector del 1 al 200, cada uno de ellos repetido doce veces. Sugerencia: mira la ayuda de rep.

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

28

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

3. Seguidamente, realizaremos las sumas. Para ello usaremos la siguiente instruccin: sumax =aggregate(x,list(r),FUN=sum). Mira y copia la o ayuda de esta funcin para asegurarte de lo que hacemos. o

4. Para acabar de generar la Normal que quer amos, hemos de restarle 6 e invertir el proceso de tipicado: d + 2 *(sumax$x - 6), o sea, si d = 5678, escribir amos 5678 + 2 *(sumax$x - 6). Incluye estos 200 valores en la memoria y gurdalos para una prxima prctica. a o a

3.2. Vamos a comprobar visualmente que los datos anteriores son Normales, con la media y varianza pedidas, para lo cual incluye en la memoria: el histograma, la media y la varianza de esta variable. Existen otros mtodos de generacin de variables aleatorias que no se trae o tarn. En el libro [68], podis encontrar un amplio tratamiento. a e Para nalizar la prctica, vamos a simular sistemas para vericar su abia lidad. Existen diversas conguraciones: en serie, paralelo, combinaciones de stos e y otros sistemas que no estn dispuestos ni en paralelo ni en serie. a Supondremos en lo que sigue que el funcionamiento de cada componente es independiente del de los dems. a Por ejemplo, para un sistema en serie como el siguiente (el sistema funciona si y slo si todos sus componentes funcionan), la abilidad del sistema la o calcular amos como el producto de las abilidades de sus componentes.

En una conguracin en paralelo como el siguiente, el sistema funciona si, o y slo si, al menos uno de sus componentes funciona, por tanto, deber o amos calcular la probabilidad de la unin. Este clculo se facilita si calculamos la o a probabilidad del suceso contrario y usamos las leyes de De Morgan.

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

29

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

Tambin existen sistemas k de n. En una conguracin k de n, el sistema e o funciona si al menos funcionan k de los n componentes. Ntese que los sisteo mas en serie y en paralelo son casos particulares de este sistema con k = n y k = 1, respectivamente. Actividad 4. Simulacin de sistemas 3 de 5 o Vamos a simular el funcionamiento de dos sistemas 3 de 5, con dos conjuntos de abilidades. Pero primero veamos un procedimiento para generar valores de variables aleatorias discretas. Si tenemos una variable discreta X, que toma valores xi con probabilidades pi (recuerda que sumarn 1), un algoritmo para simular X ser generar a a: valores de una variable U Uniforme(0,1) y hacer X = x1 si u p1, y hacer j1 j X = xj si pi < u pi
i=0 i=0

4.1. Vamos a calcular la abilidad de un sistema 3 de 5, simulando el sistema. La probabilidad de que funcione cada una de las 5 componentes es: 0.9, 0.8, 0.7, 0.6 y 0.5. El siguiente cdigo simula 5 variables, que representan o si la componente funciona o no. As por ejemplo, para la componente 1, X1 , =1 (funciona) con probabilidad 0.9, y X1 =0 (no funciona) con probabilidad 0.1. Para cada componente del sistema, generamos 1000000 valores de una Uniforme(0,1), conjuntamente con la indicacin de si funciona o no. o

c1<-runif(1000000)<.9 c2<-runif(1000000)<.8 c3<-runif(1000000)<.7 c4<-runif(1000000)<.6 c5<-runif(1000000)<.5 Puedes comprobar, por ejemplo, que si calculamos la media de c1, obtendremos 0.9 aproximadamente. Aade este resultado en la memoria: n mean(c1)

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

30

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

Para acabar de simular el sistema, sumaremos las variables y veremos si 3 o ms componentes funcionan: a sumar<-c1+c2+c3+c4+c5 sistema<-sumar>=3 Por ultimo, la abilidad del sistema, la podemos calcular mediante la media de la variable anterior: mean(sistema) Aade este valor en la memoria. n 4.2. Vamos a calcular la abilidad de otro sistema 3 de 5. La probabilidad de que funcione cada una de las 5 componentes es: 0.7. En este caso, Xi ser a una Binomial(5,0.7). a) Vamos a calcular la probabilidad terica y la obtenida simulando el siso tema. Primero simularemos el sistema:

c1<-runif(1000000)<.7 c1<-runif(1000000)<.7 c2<-runif(1000000)<.7 c2<-runif(1000000)<.7 c3<-runif(1000000)<.7 c3<-runif(1000000)<.7 c4<-runif(1000000)<.7 c4<-runif(1000000)<.7 c5<-runif(1000000)<.7 c5<-runif(1000000)<.7 sumar<-c1+c2+c3+c4+c5 sumar<-c1+c2+c3+c4+c5 sistema<-sumar>=3 sistema<-sumar>=3 mean(sistema) mean(sistema)
Incluye en la memoria, la abilidad del sistema obtenida mediante simulacin. o b) Ahora calcula la probabilidad terica (probabilidad de que una variable o Binomial(5,0.7) sea mayor o igual que 3) y aadelo en la memoria. Recuerda n que pbinom(q, size, prob, lower.tail = TRUE) proporciona la funcin de diso tribucin de una binomial de tamao size y probabilidad de xito prob. Aade o n e n este valor a la memoria. c) Juega (aumenta y disminuye) con el nmero de simulaciones realizadas u anteriormente y comenta lo que sucede.

6.2. 6.2.

Intervalos de conanza y contrastes Intervalos de conanza y contrastes de hiptesis o de hiptesis o

Objetivos: Conocer los procedimientos para obtener intervalos de conanObjetivos: Conocer los procedimientos para obtener intervalos de conanza, realizar contrastes paramtricos y no paramtricos. Aanzar los conceptos e e za, realizar contrastes paramtricos y no paramtricos. Aanzar los conceptos e e tratados en los temas 1 y 2 del mdulo terico, sabiendo interpretar la inforo o macin que puede extraerse de un intervalo de conanza, y sabiendo plantear o y resolver / Pablo Gregori - ISBN: 978-84-692-4538-5 contrastes de hiptesis, comprendiendo los en Informtica de Gestin - UJI problemas usando los o Ampliacin de Estadstica para la Ingeniera Tcnica 3 Irene Epifanio conceptos relativos a los mismos.

de hiptesis o
Objetivos: Conocer los procedimientos para obtener intervalos de conanza, realizar contrastes paramtricos y no paramtricos. Aanzar los conceptos e e tratados en los temas 1 y 2 del mdulo terico, sabiendo interpretar la inforo o tratados en los temas 1 y 2 del mdulo terico, sabiendo interpretar la inforo o macin que puede extraerse de un intervalo de conanza, y y sabiendo plantear o que puede extraerse de un intervalo de conanza, sabiendo plantear y resolver problemas usando los contrastes de hiptesis,tesis, comprendiendo los y resolver problemas usando los contrastes deo hip comprendiendo los cono ceptos relativos a los mismos. conceptos relativos a los mismos.

6.2.1. 6.2.1.

Introduccin o Introduccin o

En esta prctica trabajaremos los intervalos de conanza y contrastes de a En esta prctica trabajaremos los intervalos de conanza y contrastes de a hiptesis (temas 1 y 2 de teor Empezaremos por los intervalos de conanotesis (temas 1 y 2 de teor Empezaremos por los intervalos de conana). hip o a). za y contrastes paramtricos para medias, varianzas y proporciones. Despus e e za y contrastes paramtricos para medias, varianzas y proporciones. Despus e e seguiremos con los no paramtricos: test ji-cuadrado (de bondad de ajuste y con los no paramtricos: test ji-cuadrado (de bondad de ajuste y e seguiremos e para tablas de contingencia) y otros tests de bondad de ajuste. para tablas de contingencia) y otros tests de bondad de ajuste.

6.2.2. 6.2.2.

Inferencia paramtrica e Inferencia paramtrica e

Se presentan a continuacin, diversos procedimientos que nos permitirn o a Se presentan a continuacin, realizar procedimientos medias, permitir y o a obtener intervalos de conanza y diversos contrastes para que nos varianzas n obtener intervalos de conanza y realizar contrastes para medias, varianzas y proporciones. proporciones. Medias Medias t.test(x, y = NULL,alternative = c(two.sided, less, greater), mu = t.test(x, y = NULL,alternative = c(two.sided, less, greater), mu = 0, paired = FALSE, var.equal = FALSE, conf.level = 0.95, ...) paired = FALSE, var.equal = FALSE, conf.level = 0.95, ...) 0,
x y Vector numrico de datos. e Vector numrico de datos: OPCIONAL. Slo lo usae o remos si estudiamos dos medias. alternative Cadena de caracteres especicando la hiptesis alo ternativa, que ser una de las siguientes opciones: a two.sided(por defecto), greater o less. Con la letra inicial es suciente. Un nmero indicando el valor u mu un numero indicando el valor verdadero de la media (o la diferencia de medias, si estamos trabajando con dos muestras). Por defecto: 0. Valor lgico que indica si o paired valor lgico que indica si las muestras son apareao das. Por defecto: FALSE. Variable lgica indicando si o var.equal variable lgica indicando si consideramos las dos o varianzas como iguales, en el caso de dos muestras independientes. Por defecto: FALSE. conf.level Nivel de conanza del intervalo (1 - ). Por defecto: 0.95. Devuelve el contraste e intervalo de conanza para la media o medias, segn u Devuelve el contraste e intervalo de conanza para la media o medias, segn u lo que le hayamos especicado. El p-valor devuelto, nos indicar si rechazar o a si rechazar o lo que le hayamos especicado. El p-valor devuelto, nos indicar a no la hiptesis nula. otesis nula. no la hip o

Varianzas

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

32

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

var.test(x, y, ratio = 1,alternative = c(two.sided, less, greater), conf.

Varianzas

var.test(x, y, ratio = 1,alternative = c(two.sided, less, greater), conf. level = 0.95, ...)
x y ratio Vector numrico de datos. e Vector numrico de datos. e Valor del cociente de varianzas poblacionales de x e y. Por defecto: 1. alternative Cadena de caracteres especicando la hiptesis alo ternativa, que ser una de las siguientes opciones: a two.sided(por defecto), greater o less. Con la letra inicial es suciente. conf.level Nivel de conanza del intervalo (1 - ). Por defecto: 0.95. Devuelve el contraste e intervalo de conanza para el cociente de varianzas, segn los valores de los argumentos que hayamos introducido. u

Proporciones

prop.test(x, n, p = NULL,alternative = c(two.sided, less, greater), conf.level = 0.95)


x n Vector con los xitos. e Vector con el nmero de pruebas, es decir, con los u tamaos muestrales. n p Probabilidad de xito. Por defecto: NULL, no se e considera. alternative Cadena de caracteres especicando la hiptesis alo ternativa, que ser una de las siguientes opciones: a two.sided(por defecto), greater o less. Con la letra inicial es suciente. conf.level Nivel de conanza del intervalo (1 - ). Por defecto: 0.95. Devuelve el contraste e intervalo de conanza para una o ms proporciones, a segn le hayamos especicado. u Nota: aunque en prcticas usemos esta funcin que lleva el R en la base a o (en la librer stats), esta funcin no devuelve el intervalo visto en teor que a o a, es el que suele aparecer en los libros de texto, sino el intervalo basado en el estad stico score sin correccin de continuidad, y que segn [1] ser preferible. o u a Si quisiramos obtener el intervalo que calculamos en teor que es ms sene a, a cillo de calcular a mano, tendr amos que usar la funcin binconf de la librer o a Hmisc con la opcin asymptotic. o

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

33

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

6.2.3.

Inferencia no paramtrica e

En esta seccin se recogen diferentes procedimientos para contrastar el o ajuste a diferentes distribuciones, y el test de la ji-cuadrado para la bondad de ajuste y las pruebas para tablas de contingencia vistas en clase. Empezaremos con este ultimo test. Test Chi-cuadrado chisq.test(x, p = rep(1/length(x), length(x))) x p Vector o matriz de datos. Vector de probabilidades de la misma longitud que x. Por defecto: equiprobables (asume una uniforme discreta).

Si x es un vector, se realiza un test de bondad de ajuste, donde la hiptesis o nula ser si las probabilidades poblacionales son iguales a las recogidas en el a vector p.

Si x fuera una matriz, se considera como una tabla de contingencia. Chisq.test Si x fuera valor observado del estad una2tabla de contingencia. Chisq.test devolver el una matriz, se considera como y tambin el p-valor que nos a stico e devolver el valor observado deltesis nula. 2 y tambin el p-valor que nos a rechazar o no la hip estad stico e indicar si a o indicar si rechazar o no la hiptesis nula. a o Otros contrastes no paramtricos e Otros contrastes no paramtricos e ks.test(x, y, ...) ks.test(x, y, ...) Vector numrico de datos. e Vector numrico de datos. e Puede ser un vector numrico o una cadena de cae Puede ser un vector numrico o una cadena de cae racteres con el nombre de la funcin de distribucin. con el nombre de la funcin de distribucin. o o racteres o o ... Parmetros de la distribucin especicada (con caa o ... Parmetros de la distribucin especicada (con caa o racteres) por y (no estimados a partir de los datos). racteres) por y (no estimados a partir de los datos). Realiza el test de Kolmogorov-Smirnov. Realiza el test de Kolmogorov-Smirnov. shapiro.test(x): lleva a cabo el test de Shapiro-Wilks de normalidad, para shapiro.test(x): lleva a cabo el test de Shapiro-Wilks de normalidad, para los datos recogidos en el vector x. los datos recogidos en el vector x. qqnorm(x): permite determinar grcamente si los datos (recogidos en el a vector x) proceden de una normal, segn sea el ajuste a la recta, que podemos u dibujar con qqline(x). x x y y

6.3.

Control de calidad

Objetivos: Calcular los grcos de control de calidad tanto para variables a Objetivos: Calcular los grcos de control de calidad tanto para variables a como para atributos tratados en el tema de Control de Calidad del mdulo para atributos tratados en el tema de Control de Calidad del mdulo o como o terico. Interpretar estos grcos. Estimar la capacidad de un proceso. o a terico. Interpretar estos grcos. Estimar la capacidad de un proceso. o a

6.3.1.

Introduccin o

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

34

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

En esta prctica abordaremos el control estad a stico de calidad, que se corresponde con el tema 3 de teor en concreto trataremos las grcas de control a, a y diagramas Pareto. El control de calidad se clasica en:

6.3.1.

Introduccin o

En esta prctica abordaremos el control estad a stico de calidad, que se corresponde con el tema 3 de teor en concreto trataremos las grcas de a, a control y diagramas Pareto. El control de calidad se clasica en: 1. Control en curso de fabricacin (de procesos). o 2. Control de recepcin y de producto acabado. o El control en curso de fabricacin se realiza durante la fabricacin del proo o ducto, a intervalos jos de tiempo, y tiene por objeto vigilar el funcionamiento del sistema y recoger informacin para mejorarlo. o El control de recepcin y de producto acabado trata de encontrar una buena o manera para decidir si un producto verica las especicaciones establecidas. Control de procesos En todo proceso aparece una cierta variabilidad en la calidad, debida a causas aleatorias o no asignables: variabilidad de la materia prima, la precisin de o las mquinas y de los instrumentos de medida, destreza de los operarios, etc. a Otras causas no aleatorias o asignables (materias primas defectuosas, desgaste de herramientas, deciente preparacin del operario, etc.) producen ciertos o efectos previsibles y denidos. Son pocas y de aparicin irregular, pero con o grandes efectos. Son eliminables. Diremos que un proceso est en estado de a control cuando no le afecta ninguna causa asignable. Un instrumento para determinar si se da o no esta situacin son las grcas de control. o a El fundamento terico de una grca de control se basa en la construccin, o a o a partir de los valores de la esperanza y la desviacin t o pica del modelo terico de distribucin que sigue la caracter o o stica de calidad considerada, de un intervalo de control (generalmente [ - 3 , + 3 ]). Dentro de este intervalo estn casi todos los valores muestrales del proceso, si ste se encuentra bajo a e control. Las muestras se obtienen a intervalos regulares de tiempo. Un punto que cae fuera de los l mites de control, indicar que el proceso est fuera de a a control. El control de calidad se realiza observando en cada elemento: 1. Una caracter stica de calidad medible (longitud, resistencia, contenido de impurezas, etc.) que se compara con un estndar jado. Es el control a stica se supone distribuida por variables (grcas X, R, S). La caracter a normalmente. 2. Control por atributos: a) Un atributo o caracter stica cualitativa que el producto posee o no (correcto o defectuoso, por ejemplo). La caracter stica se supone distribuida segn una Binomial. Por tanto, se utilizan las grcas u a vistas en el tema 3: p y np.

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

35

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

1. Una caracterestas deacas, necesitaremos, en primer lugar cargar la liPara realizar stica grcalidad medible (longitud, resistencia, contenido de impurezas, etc.) que se compara con mediante: library(qcc). el control brer El nmero total de defectos. La caracter andar jado. Es qcc Control Charts), un est b) arealizar(Quality acas, necesitaremos, en primersuponecargar la liu estas gr stica se lugar distribuida Para stica se supone distribuida por variables (grcas X, R, S). La caracter a segn una Poisson. Por tanto, se mediante: library(qcc). u utilizan las grcas vistas en el a brer qcc (Quality Control Charts), a normalmente. tema 3: u y c. 2. Control por atributos: Para realizar estas grcas, necesitaremos, en primer lugar cargar la lia brer Un atributo o caracter Charts), mediante:el producto posee o no a) a qcc (Quality Control stica cualitativa que library(qcc). (correcto o defectuoso, por ejemplo). La caracter stica se supone distribuida segn una Binomial. Por tanto, se utilizan las grcas u a vistas en el tema 3: p y np. b) El nmero total de defectos. La caracter u stica se supone distribuida segn una Poisson. Por tanto, se utilizan las grcas vistas en el u a tema 3: u y c. Para realizar estas grcas, necesitaremos, en primer lugar cargar la lia

6.3.2. a qcc (Quality Control Charts), mediante: library(qcc). a brerGrcas X y R; P; U 6.3.2. 6.3.2. Grcas X y R; P; U a Grcas X y R; P; U a

Para realizar cualquiera de estas grcas, emplearemos la misma instruca cin, pero variaremos sus parmetros. De hecho, en este enunciado slo apao a o Paralos parmetros ms relevantes, acas, emplearemos la misma instrucrealizar cualquiera de estas gr recern a a a aunque si escrib help(qcc) tendris el s e cin, pero variaremosobtiene tambin el l hecho, en este enunciado slo apao parmetros. Demite superior (ucl = upper control a o resto de opciones. Se susgrcas, necesitaremos, en primer lugar cargar la lie Para realizar estas a recern los parmetros ms relevantes, aunque si escrib help(qcc) tendris el a e inferior (lclLCL a lower control limit). a e limit) brer qcc (Quality Control Charts), mediante: s = a library(qcc). resto de opciones. Se obtiene tambin el cas, emplearemos la = upperinstruce gr l mite superior (ucl misma control Para realizar cualquiera de estas a limit) e inferior (lclLCL parmetros. De hecho, cin, pero variaremos sus = lower control limit). en este enunciado slo apao a o recern los parmetros ms relevantes, aunque si escrib help(qcc) tendris el a a a s e resto de opciones. Se obtiene tambin el l e mite target, (ucl newdata, newqcc(data, type, sizes, center, std.dev, limits,superior labels,= upper control limit) newlabels,(lclLCL = 3, condence.level, plot = TRUE, ...). e inferior nsigmas = lower control limit). sizes, 6.3.2. Grcas X center, std.dev, limits, target, labels, newdata, newa qcc(data, type, sizes, y R; P; U sizes, newlabels, nsigmas = 3, condence.level, plot = TRUE, ...) qcc(data, type, sizes, center, std.dev, limits, target, labels, newdata, newsizes, newlabels, nsigmas = 3, condence.level, plot = TRUE, ...) Para realizar cualquiera de estas grcas, emplearemos la misma instruca cin, pero variaremos sus parmetros. De hecho, en este enunciado slo apao a o recern los parmetros ms relevantes, aunque si escrib help(qcc) tendris el a a a s e resto de opciones. Se obtiene tambin el l e mite superior (ucl = upper control limit) e Gr (lclLCL y R; control 6.3.2. inferior cas X = lowerP; U limit). a

qcc(data, type, sizes, center, std.dev, limits, target, labels, newdata, newsizes, newlabels, nsigmas = 3, condence.level, plot = TRUE, ...) Para realizar cualquiera de estas grcas, emplearemos la misma instruca cin, pero variaremos sus parmetros. De hecho, en este enunciado slo apao a o recern los parmetros ms relevantes, aunque si escrib help(qcc) tendris el a a a s e resto de opciones. Se obtiene tambin el l e mite superior (ucl = upper control limit) e inferior (lclLCL = lower control limit).
Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5 36 Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

qcc(data, type, sizes, center, std.dev, limits, target, labels, newdata, newsizes, newlabels, nsigmas = 3, condence.level, plot = TRUE, ...)

data

Un data frame, matriz o vector con los datos observados para la variable a representar. Cada la del data frame o matriz, y cada valor de un vector, se reere a una muestra o grupo racional. type Cadena de caracteres indicando la grca a calcular: a Estad stico representado: Descripcin de la grca o a xbar Media : Medias de una variable continua S Desviacin t o pica : Desviaciones t picas de una continua R Rango : Rangos de una variable continua xbar.one Media : Un dato en cada tiempo de una continua p Proporcin: o Proporcin de unidades no conformes o np Cuenta : Nmero de unidades defectuosas u c Cuenta : N o defectos por unidad u Cuenta : N o medio de defectos por unidad sizes Un valor o vector de valores que especica los tamaos muesn trales asociados con cada grupo. Para datos continuos dispuestos en un data frame o una matriz, los tamaos muesn trales, se obtienen contando los elementos distintos de NA de cada la. Para las grcas p, np y ueste argumento a es necesario. center Valor indicando el centro (media) del estad stico. std.dev Un valor o vector de valores especicando la desviacin(es) o t pica(s) dentro del grupo del proceso. limits Un vector de dos valores indicando los l mites de control. target Un valor indicando el valor objetivo del proceso. labels Un vector de caracteres con etiquetas para cada grupo newdata Un data frame, matriz o vector, como en data, proporcionando ms datos que representar, pero no incluidos en los a clculos. a newsizes Un vector como el argumento sizes, proporcionando ms a tamaos muestrales de los nuevos datos a representar, pero n no incluidos en los clculos. a newlabels Un vector de caracteres con las etiquetas de cada nuevo grupo de los nuevos datos incluidos en newdata. nsigmas Un valor numrico especicando el nmero de sigmas que e u usar para calcular los l mites de control. Se ignora si se proporciona el argumento condence.level. condence. Un valor numrico entre 0 y 1 indicando el nivel de conanza e level para el clculo de los l a mites de probabilidad. plot Valor lgico. Si es TRUE se representa el grco de Shewo a hart. A lo largo de la prctica, se pueden proporcionar los valores de los parmea a tros cuando el proceso se encuentra bajo control, o bien tendremos que realizar un estudio previo, como se ha visto en el cap tulo 4, descartando los valores fuera de control (una vez estudiadas sus causas) y recalculando los l mites.

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

37

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

Aunque los grcos proporcionen pautas para su interpretacin, vosotros a o mismos podis interpretar la grca. He aqu el recordatorio de teor sobre la e a a interpretacin de los grcos X y R: o a 1. Puntos fuera de control en X; R en control: indica un cambio en la media. 2. Puntos fuera de control en Xy en R: indica un cambio en la variabilidad. 3. Rachas: 7 puntos consecutivos por encima o debajo de la media (l nea central). Puede indicar (si R est bajo control) cambios en la media (por a cambios en la materia prima, el servicio de mantenimiento, etc.). 4. Tendencias: 6 puntos seguidos en sentido creciente o decreciente. Indica la presencia de algn factor que inuye gradualmente en el proceso: u desgaste de la maquinaria, cambios de temperatura, fatiga (en la grca a X); envejecimiento de la maquinaria, mezclas (en R en sentido ascendente); mejora de los operarios o del mantenimiento (en R en sentido descendente). 5. Periodicidades o ciclos: repeticin de agrupamientos (sucesin de picos o o y valles). Indican la presencia de efectos peridicos: temperatura, oscilao ciones de corriente (en X); turnos, acciones de mantenimiento (en R). 6. Inestabilidad: grandes uctuaciones. Puede indicar un sobreajuste de la mquina, mezcla de materiales, falta de entrenamiento del operario de la a mquina. a 7. Sobreestabilidad: la variabilidad de las muestras es menor que la esperada (acumulacin de puntos en la zona central). Puede que los l o mites estn mal calculados, que se hayan tomado incorrectamente los datos e o que se haya producido un cambio positivo temporal cuya causa debe investigarse. Para los grcos P y U, los l a mites los representa no constantes, en un principio. Para especicarlos constantes, repasa la teor del cap a tulo 4. Recordemos tambin que, cuando un punto muestral caiga fuera de los e l mites de control, algunas posibilidades ser (haciendo referencia al grco an a p): 1. El proceso ha variado, aumentando o disminuyendo (segn el sentido del u valor extremo) el valor de p. 2. El sistema de medicin ha cambiado (el inspector o los criterios de meo dida). 3. Se ha cometido un error al estimar el valor de p en dicha muestra. 4. El proceso no ha variado, pero los l mites de control son errneos. o 5. Nada ha cambiado, simplemente un suceso poco frecuente ha ocurrido.

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

38

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

6.3.3.

Otros comandos

Otras instrucciones utiles son: qcc.groups(data, sample) data sample Valores observados. Indicador de muestra para los datos observados.

Permite agrupar fcilmente los datos, devolviendo una matriz de dimena siones adecuadas, de forma que puedan utilizarse como entrada (input) en la funcin qcc. o qcc.options(...): controla y devuelve distintas opciones del paquete qcc. process.capability(object, spec.limits, target, . . . )

object Un objeto qcc del tipo xbar. spec.limits Un vector indicando los l mites de especicacin infeo rior (lsl) y superior ( usl). target Un valor especicando el objetivo del proceso. Si falta se usa el valor del objeto qcc si no es NULL, sino el objetivo se toma como el valor medio entre los l mites de especicacin. o
Nos devolver los a ndices de la capacidad del proceso (Cp,Cp k), vistos en teor a.

6.3.4.

Diagrama Pareto

El diagrama Pareto es un mtodo grco para priorizar problemas o las e a causas que los producen. Consiste en un diagrama de barras ordenadas segn su u importancia (cada barra corresponde a uno de los distintos factores). Adems, a representa 2 escalas: frecuencias absolutas y relativas acumuladas (en %). Tambin devuelve la tabla de frecuencias (absolutas, acumuladas, relativas e y relativas acumuladas). Usaremos pareto.chart(x), x contiene los valores.

6.3.5.

Grcas CUSUM a cusum

Para obtener grcas de control de suma acumulada, podemos usar la funa cin cusum(object,. . . ), que usa un objeto de la clase qcc. La interpretacin o o de estos grcos se encuentra en el material de teor a a.

6.4.

Dise o de experimentos n

Objetivos: Plantear y resolver problemas reales mediante estas tcnicas e estad sticas (anlisis de la varianza) con el apoyo del R, lo cual es de suma a

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

39

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

importancia debido al elevado nmero de clculos a realizar. Estudiar la adeu a cuacin del modelo. Ser capaz de realizar comparaciones entre las medias. o

6.4.1.

Introduccin o

En esta prctica trabajaremos el tema de diseo de experimentos, que se a n corresponde con el tema 4 de teor Empezaremos explicando cmo obtener el a. o anlisis de la varianza con un solo factor (diseo completamente aleatorizado), a n siguiendo con el anlisis de la varianza con dos factores sin interaccin (diseo a o n por bloques aleatorizados) y terminando con el ANOVA de dos factores con interaccin (diseo factorial con dos factores). o n

6.4.2.

Anlisis de la varianza con un solo factor a

Los siguientes comandos nos servirn tambin para los otros modelos, moa e dicando la frmula apropiadamente: o aov(formula,. . . ) La frmula toma la forma siguiente: respuesta trminos donde respuesta o e es el vector (numrico) respuesta (la variable dependiente sobre la que queree mos contrastar la igualdad de medias) y en trminos indicaremos los factores de e la clase factor. En el caso de ANOVA de una v trminos slo ser el f actor a, e o a con los tratamientos. Si contramos con ms factores (por ejemplo, f irst y a a second), y escribiramos en trminos: f irst + second, indicar que considee e a ramos todos los trminos del f irst junto con todos los del second, eliminando e duplicados. Una especicacin de la forma f irst : second indicar el conjunto o a de trminos obtenidos de tomar todas las interacciones de todos los trminos e e en f irst con todos los trminos en second. La especicacin f irst second e o indica el cruce de f irst y second, que ser los mismo que f irst + second + a f irst : second. Al objeto devuelto por la funcin anterior podemos aplicarle distintas funo ciones:

1. anova: obtendremos la clsica tabla ANOVA, estudiada en el cap a tulo 5. 2. plot: devuelve distintos grcos de diagnsticos como son: valores ajustaa o dos vs residuos, plot Q-Q normal de los residuos estandarizados o distancias de Cook. Con el argumento which podemos seleccionar los grcos a a representar. 3. model.tables: calcula tablas resumen, por ejemplo, podemos obtener una tabla de medias con model.tables(objeto aov,means).

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

40

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

4. multicomp.lm: realiza comparaciones mltiples. Podemos obtener la lsd u con: multicomp.lm(objeto aov, method=lsd, error.type=cwe). Mediante plot del objeto devuelto, representaremos los intervalos de cada par. Estas funciones son originarias del S, y vienen incluidas en el chero cm.R que est en el aulavirtual. a 5. residuals: obtendremos los residuos.

Para realizar un test de homogeneidad (igualdad) de varianzas, puede usarse el test de Barlett: bartlett.test (formula). Si queremos obtener un diagrama de cajas de la variable respuesta por cada tratamiento, puede utilizarse plot(formula). El test de Kruskal-Wallis (kruskal.test(formula)) es una alternativa no paramtrica al ANOVA de una v que usaremos cuando las hiptesis de normae a, o lidad e igualdad de varianzas no se cumplan. El p-valor nos indicar si rechazar a o no la hiptesis nula. o

6.4.3.

Anlisis de la varianza con dos factores a

En este caso distinguiremos entre con o sin interaccin, pues en la formula, o tal y como se ha explicado previamente, aparecer con * o + respectivamente. a Podemos utilizar las funciones previamente comentadas para el objeto devuelto. Adems, en el caso de interaccin, para mostrar las interacciones podea o mos emplear: interaction.plot(x.factor, trace.factor, response), siendo x.factor, el factor cuyos niveles aparecern en el eje X, trace.factor es el otro factor y a response es la respuesta.

6.5.

Regresin o

Objetivos: Resolver problemas con el apoyo del R, trabajando los principales conceptos de regresin. Comparar los resultados de varios ajustes y o validar las hiptesis. o

6.5.1.

Modelo lineal

En principio trabajaremos con el modelo lineal con errores, normales, independientes homocedsticos: a p + e i , e i NID(0, 2 )

yi =

j=0 j x ij

En trminos matriciales: e

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

4

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

dependientes homocedsticos: a p + e i , e i NID(0, 2 )

yi =

j=0 j x ij

En trminos matriciales: e

y = X + e donde y es el vector de respuestas, X es la matriz de diseo y tiene columnas n x 0 , x 1 ,..,x p de variables independientes o predictoras. Muchas veces x 0 es una columna de 1s deniendo un trmino constante o intercept. e Con la funcin lm(formula,. . . ) ajustaremos modelos lineales. El objeto o formula sigue las mismas reglas que ya se comentaron en el apartado anterior, adems en formula pueden verse ms detalles (help(f ormula)). a a Al objeto devuelto por esta funcin podemos aplicarle distintas funciones: o 1. summary: entre otros resultados devuelve un resumen de los residuos, las estimaciones del modelo y los contrastes sobre los coecientes de regresin, estad o stico F o el coeciente de determinacin (corregido), que o nos puede proporcionar una primera idea de la bondad del ajuste. Con anova.lm obtendremos la tabla ANOVA. 2. predict.lm: predice valores basados en el objeto del modelo lineal.

predict(object,newdata,interval = c(none, condence, prediction), . . . ), segn seleccionemos interval obtendremos distintos intervalos: inu tervalo de conanza para la media y los l mites del intervalo de prediccin. o

3. Otras funciones utiles son: plot.lm que devuelve distintos grcos de a diagnstico o lm.inuence en el mismo sentido, residuals para obtener o los residuos, step para seleccionar el modelo. Si deseamos representar cada trmino frente a la variable repuesta podemos e usar plot(formula), adems en el caso de la regresin simple con abline(objeto a o lm), tendremos la recta ajustada.

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

42

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

Cap tulo 7 Formulario


Datos: {x1 , x2 , ..., xN } Media: x =
N
i=1

xi

Rango intercuart lico: Diferencia entre el tercer y primer cuartil Varianza: s =


2 N
i=1

(xi )2 x N 1

Desviacin t o pica: s =

DISTRIBUCIONES DISCRETAS: Binomial(n, p): P (X = x) = n x

i=1

x2 N x2 i N 1

i=1

(xi )2 x N 1

i=1

x2 N x2 i N 1

px q nx , x = 0, 1, ..., n, q = 1 p

= n p, y 2 = n p q n x = n! x! (n x)! siendo n! = n (n 1) (n 2) ... 2 1

Poisson(): P (X = x) = = y 2 = ESTIMACION Estimador puntual de p: experimentos.


X , N

e x , x!

x = 0, 1, 2, 3, ...

(x N)

donde X es el nmero de xitos en los N u e

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

43

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

Estimador puntual de : X Estimador puntual de 2 : S 2 =


N
i=1 (Xi X) 2

N 1

Estimador puntual del parmetro de una Poisson: = X. a INTERVALOS DE CONFIANZA: tamao muestral = N , nivel de sign nicacin = o A) Intervalo de conanza para , con 2 conocida: (x - z/2 , x + N z/2 ) con P(Z z/2 ) = /2, Z N(0,1) N B) Intervalo de conanza para , con 2 desconocida, para Normales: (x - t/2 sN , x + t/2 sN ) con P(T t/2 ) = /2, T es t-Student con N 1 grados de libertad C) Intervalo de conanza para , con 2 desconocida y N grande (N 30): (x - z/2 sN , x + z/2 sN ) con P(Z z/2 ) = /2, Z N(0,1)
/2 Seleccin del tamao de la muestra (media): N = ( Error )2 o n

2 E) Intervalo de conanza para la diferencia de medias 1 - 2 , con 1 2 y 2 desconocidas, para muestras aleatorias independientes y tamaos n muestrales grandes (N1 = tamao muestral de la muestra de la poblacin n o 1, N2 = tamao muestral de la muestra de la poblacin 2): n o 2 s s2 (x1 - x2 z/2 N11 + N22 ) con P(Z z/2 ) = /2, Z N(0,1)

2 D) Intervalo de conanza para la diferencia de medias 1 - 2 , con 1 2 y 2 conocidas, para muestras aleatorias independientes (N1 = tamao n muestral de la muestra de la poblacin 1, N2 = tamao muestral de la o n muestra de la poblacin 2): o 2 2 (x1 - x2 z/2 N1 + N2 ) con P(Z z/2 ) = /2, Z N(0,1) 1 2

F) Intervalo de conanza para la diferencia de medias 1 - 2 de poblaciones normales independientes, con varianzas desconocidas pero iguales 2 2 (1 = 2 ) (N1 = tamao muestral de la muestra de la poblacin 1, N2 n o = tamao muestral de la muestra de la poblacin 2): n o 2 +(N 1)s2 (N1 1)s1 2 N1 +N2 2 ) con P(T t/2 ) = /2, T es (x1 - x2 t/2 N1 +N2 2 N1 N2 t-Student con N1 + N2 2 grados de libertad

G) Intervalo de conanza para la diferencia de medias 1 - 2 de po2 2 blaciones normales independientes, con varianzas 1 , 2 desconocidas y desiguales (N1 = tamao muestral de la muestra de la poblacin 1, N2 n o = tamao muestral de la muestra de la poblacin 2): n o

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

44

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

(x1 - x2 t/2
s2 s2 ( N1 + N2 )2 1 2 (s2 /N1 )2 (s2 /N2 )2 1 2 + N 1 N1 1 2

s2 1 N1

s2 2 ) N2

con P(T t/2 ) = /2, T es t-Student con

grados de libertad

H) Intervalo de conanza para la diferencia de medias para muestras apareadas, con diferencia normal:
sd (d t/2 N ) donde d es la media de las diferencias y sd es la desviacin o t pica de las diferencias. Adems, P(T t/2 ) = /2, T es t-Student con a N - 1 grados de libertad, N es el nmero de objetos (parejas) de que u disponemos .

I) Intervalo de conanza para 2 en una poblacin normal: o grados de libertad . ( (N 1)s , (N21)s ) con P(2 > 2 ) = /2, 2 es chi- cuadrado con N 1 /2 2
/2 1/2 2 2

2 2 J) Intervalo de conanza para el cociente 1 /2 de varianzas de dos poblaciones normales independientes: 1 1 ( s1 F/2 , s1 F1/2 ) donde P( F > F/2 ) = /2 y F es F de Snedecor con 2 2 2 2 (N1 1, N2 1) grados de libertad . s2 s2

K) Intervalo de conanza para una proporcin p (de una Binomial) cuano do N es grande y la proporcin no es cercana a cero o uno: o ( z/2 pq ), donde P( Z > z/2 ) = /2 Z N(0,1) y p = X /N, q = p N 1 - p, X = nmero de xitos . u e Seleccin del tamao de la muestra (proporcin): o n o N = p(1 p) (
z/2 2 ) E z/2 2 ) E

1 4

L) Intervalo de conanza para una proporcin p, si sta es muy cercana o e a cero:


1 (0, 2N 2 ) con P(2 > 2 ) = , 2 es chi- cuadrado con 2(X + 1) grados de libertad, X = nmero de xitos u e

M) Intervalo de conanza para la diferencia de dos proporciones, con N1 y N2 grandes (N1 = tamao muestral de la muestra de la poblacin 1, n o N2 = tamao muestral de la muestra de la poblacin 2): n o (p1 - p2 z/2 p1 q1 + p2 q2 ), donde P( Z > z/2 ) = /2 Z N(0,1), p1 N1 N2 = X1 /N1 , q1 = 1 - p1 , X1 = nmero de xitos en las N1 pruebas y p2 = u e X2 /N2 , q2 = 1 - p2 , X2 = nmero de xitos en las N2 pruebas. u e CONTRASTE DE HIPOTESIS: tamao muestral = N , nivel de sign nicacin = o

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

45

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

H1 < 0 = 0 > 0

Regin cr o tica (, z ) (, z/2 ) (z/2 , ) (z , )

A) Contraste de hiptesis para , con N grande: o Z=


X0 S/ N

N(0,1) H0 : = 0

B) Contraste de hiptesis para , con 2 desconocida para una poblacin o o Normal: T =


X0 S/ N

tN 1 H0 : = 0 H1 < 0 = 0 > 0 Regin cr o tica (, t ) (, t/2 ) (t/2 , ) (t , )

2 2 C) Contraste para la diferencia de medias 1 - 2 , con 1 y 2 desconocidas, para muestras aleatorias independientes y tamaos muestrales n grandes (N1 = tamao muestral de la muestra de la poblacin 1, N2 = n o tamao muestral de la muestra de la poblacin 2): n o

X1 X2 0 N (0, 1) Z 2 s1 /N1 + s2 /N2 2 H1 1 2 < 0 1 2 = 0 1 2 > 0

H0 : 1 2 = 0 H1 : 3 casos posibles

Regin cr o tica (, z ) (, z/2 ) (z/2 , ) (z , )

D) Contraste para la diferencia de medias 1 - 2 de poblaciones normales independientes, con varianzas poblacionales desconocidas pero iguales 2 2 (1 = 2 ) (N1 = tamao muestral de la muestra de la poblacin 1, N2 n o = tamao muestral de la muestra de la poblacin 2): n o

X1 X2 0 T = 2

(N1 1)s1 +(N2 1)s2 2 N1 +N2 2

N1 N 2 tN1 +N2 2 N1 + N 2

H0 : 1 2 = 0 H1 : 3 casos posibles

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

46

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

H1 1 2 < 0 1 2 = 0 1 2 > 0

Regin cr o tica (, t ) (, t/2 ) (t/2 , ) (t , )

E) Contraste para la diferencia de medias 1 - 2 de poblaciones nor2 2 males independientes, con varianzas poblacionales 1 , 2 desconocidas y desiguales (N1 = tamao muestral de la muestra de la poblacin 1, N2 n o = tamao muestral de la muestra de la poblacin 2): n o X1 X2 0 T = 2 tg.l. s1 /N1 + s2 /N2 2 s2 s2 ( N11 + N22 )2 H0 : 1 2 = 0 g.l. = (s2 /N )2 (s2 /N )2 1 H1 : 3 casos posibles 1 + 2 2
N1 1 N2 1

H1 1 2 < 0 1 2 = 0 1 2 > 0

Regin cr o tica (, t ) (, t/2 ) (t/2 , ) (t , )

F) Contraste para la diferencia de medias D para muestras apareadas, cuya diferencia es normal: D y SD son la media y desviacin t o pica de las diferencias: D 0 tN 1 T = SD / N H1 D < 0 D = 0 D > 0

H0 : D = 0 H1 : 3 casos posibles

Regin cr o tica (, t ) (, t/2 ) (t/2 , ) (t , )

G) Contraste para 2 en una poblacin normal: o

2 0

(N 1)S 2 = 2 1 N 2 0 H1 2 < 0 2 2 = 0 2 2 > 0


2

2 H 0 : 2 = 0 H1 : 3 casos posibles

Regin cr o tica 2 (0, 1 ) 2 (0, 2 1/2 ) (/2 , ) (2 , )

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

47

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

2 2 H) Contraste para el cociente 1 /2 de varianzas de dos poblaciones normales independientes:

S2 F = 1 F(N1 1,N2 1) 2 S2 H1 2 < 2


2 = 2 2 > 2

2 2 H 0 : 1 = 2 H1 : 3 casos posibles

2 1 2 1 2 1

Regin cr o tica 1 (0, F1 ) = (0, (N2 1,N1 1) ) (0, F1/2 ) (F/2 , ) (F , )


F

I) Contraste para una proporcin p (de una Binomial) cuando N es o grande y la proporcin no es cercana a cero ni a uno: o p = X/N (X = nmero de xitos en las N pruebas), q0 = 1 - p0 u e p p0 Z N (0, 1) p0 q0 /N H1 p < p0 p = p0 p > p0 H0 : p = p 0 H1 : 3 casos posibles

Regin cr o tica (, z ) (, z/2 ) (z/2 , ) (z , )

J) Contraste para la diferencia de dos proporciones, con N1 y N2 grandes (N1 = tamao muestral de la muestra de la poblacin 1, N2 = tamao n o n muestral de la muestra de la poblacin 2): o p1 = X1 /N1 (X1 = nmero de xitos en las N1 pruebas), p2 = X2 /N2 u e (X2 = nmero de xitos en las N2 pruebas), p = (X1 + X2 )/(N1 + N2 ) u e p1 p 2 H0 : p 1 = p 2 H1 : 3 casos posibles

Z N (0, 1) p(1 p)(1/N1 + 1/N2 ) H1 p1 < p 2 p1 = p2 p1 > p 2

Regin cr o tica (, z ) (, z/2 ) (z/2 , ) (z , )

K) Prueba de la bondad de ajuste con la 2 : 2 0


k (oi ei )2 i=1

ei

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

48

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

Bajo H0 , sigue aproximadamente una distribucin 2 con k r 1 grados o Bajo H0 , sigue aproximadamente una distribucin 2 con k r 1 grados o de libertad, siendo r el nmero de parmetros estimados por mxima u a a de libertad, siendo r el nmero de parmetros 2 u a estimados por mxima a verosimilitud. La regin cr o tica (a nivel ) es: ( , ). verosimilitud. La regin cr o tica (a nivel ) es: (2 , ). L) Pruebas con tablas de contingencia: L) Pruebas con tablas de contingencia: X\Y X\Y x1 x1 . . . . . xi xi . . . . . xr xr Total Total y1 y1 o11 o11 . . . . . oi1 o. i1 . . . . or1 or1 T.1 T.1 ... yj ... yj ... o1j ... o. 1j . . . . . . . . . ... oij ... o. ij . . . . . . . . . ... orj ... o ... Trj .j ... T.j ... yc ... yc ... o1c ... o. 1c . . . . . . . . . ... oic ... o.ic . . . . . . . . . ... orc ... o ... Trc .c ... T.c Total Total T1. T1. Ti. Ti. Tr. Tr. T T

Ti. es el total de observaciones de la la i-sima, T.j es el total de obsere Ti. es el total de observaciones de la la i-sima, T.j es el total de obsere vaciones de la columna j-sima y T es el total de observaciones. e vaciones de la columna j-sima y T es el total de observaciones. e
r c (oij eij )2 r c (oij eij )2 , = eij = i=1 j=1 , eij i=1 j=1

2 2 siendo eij = Ti. T.j / T siendo eij = Ti. T.j / T

Bajo H0 , sigue aproximadamente una distribucin 2 con (r 1) (c 1) o Bajo H0 , sigue aproximadamente una distribucin 2 con (r 1) (c 1) o grados de libertad. La regin cr o tica (a nivel ) es: (2 , ). 2 grados de libertad. La regin cr o tica (a nivel ) es: ( , ). CONTROL DE CALIDAD: CONTROL DE CALIDAD: Grco de control X: a Grco de control X: a LSC = x + A2 r LSC = x + A2 r LC = x LC = x LIC = x A2 r LIC = x A2 r m 1 donde x = m i=1 xi (i es la media muestral de la muestra i-sima, x e 1 donde x = m m xi (i es la media muestral de la muestra i-sima, x e i=1 calculada con los valores de cada muestra y m es el nmero total de n u calculada con los n valores de cada muestra y m es el nmero total de u 1 muestras), r = m m ri (donde ri es el rango de la muestra i-sima) y e m 1 muestras), r = m i=1 ri (donde ri es el rango de la muestra i-sima) y e i=1 tabulada. la constante A2 aparece la constante A2 aparece tabulada. Grco R: a Grco R: a LSC = D4 r LSC = D4 r LC = r LC = r LIC = D3 r. LIC = D3 r. Los valores de D3 y D4 para distintos valores de n aparecen tabulados. Los valores de D3 y D4 para distintos valores de n aparecen tabulados. Un estimador de es = R /d2 , donde d2 est tabulada. a Un estimador de es = R /d2 , donde d2 est tabulada. a

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

49

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

Indices de capacidad del proceso: LSE LIE , 6 donde LSE y LIE son los l mites superior e inferior de especicacin. o ICP = ICPk = m n{ LSE LIE , }. 3 3

Longitud de racha media (ARL): ARL = 1/p, p es la probabilidad de que cualquier punto exceda los l mites de control. Grca P : a p(1 p) n p(1 p) , n

LSC = p + 3 LC = p

LIC = p 3

con pi la proporcin muestral de unidades defectuosas en la muestra i o sima. e Grco U : a u n u n

donde p es la estimacin de p (fraccin defectuosa del proceso), obtenido o o mediante: m 1 p= pi m i=1

LSC = u + 3 LC = u

LIC = u 3

donde, si tenemos n (que puede no ser un entero) unidades y un total de defectos C entonces: C U= , n es el promedio de defectos por unidad. Con m muestras preliminares y valores aleatorios U1 , . . . , Um entonces el nmero medio de defectos por u unidad es: m = 1 U Ui . m i=1

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

50

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

DISENO DE EXPERIMENTOS:

Diseo completamente aleatorizado: anlisis de la varianza con n a un solo factor

Yij = i + ij

ij N (0, 2 ) ij N (0, 2 ),

Yij = + i + ij

Denotaremos por ni las observaciones en el tratamiento i-simo y N el e total de observaciones, a es el nmero de niveles del factor. u Fuente de variacin o Tratamientos (entre grupos) Error (dentro grupos) Total Suma de cuadrados a
i=1

con i denida como desviaciones de la media global , por lo que a i=1 i = 0.

Grados de Media de libertad cuadrados a1 N a N 1


SCT rat. (a1) SCE N a

F
CMT rat. CME

ni (i. y.. )2 y

Tabla 7.1: Tabla ANOVA de un factor Regin cr o tica (a nivel ): (F,a1,N a , ) Mtodo de la m e nima diferencia signicativa o lsd (Least Signicant Difference): el par de medias i y j se declarar signicativamente diferente a si |i. yj. | > lsd, donde lsd al nivel viene denida como: y t/2,N a CME (1/ni + 1/nj )

(y yi. )2 i j ij 2 i j (yij y.. )

Diseo en bloques aleatorizados n

Yij = + i + j + ij i = 1, . . . , a j = 1, . . . b, donde ij son variables N (0, 2 ) independientes, y i i = 0 y j j = 0

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

5

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

Fuente de variacin o Tratamientos Bloques Error Total

Suma de cuadrados SCT ratamientos SCBloques SCE SCT

Grados de libertad a1 b1 (a 1)(b 1) ab 1

Media de cuadrados
SCT ratamientos (a1) SCBloques b1 SCE (a1)(b1)

F
CMT ratamientos CME

Tabla 7.2: Tabla ANOVA de un diseo en bloques aleatorizados n Regin cr o tica (a nivel ): (F,a1,(a1)(b1) , ) Mtodo LSD: LSD = t/2,(a1)(b1) 2CME /b. e FUNCIONES del R:

runif(n, min=0, max=1) pexp(q, rate = 1, lower.tail = TRUE, log.p = FALSE)

t.test(x, y = NULL,alternative = c(two.sided, less, greater), mu = 0, paired = FALSE, var.equal = FALSE, conf.level = 0.95, ...) var.test(x, y, ratio = 1,alternative = c(two.sided, less, greater), conf.level = 0.95, ...) prop.test(x, n, p = NULL,alternative = c(two.sided, less, greater),conf.level = 0.95)
chisq.test(x, p = rep(1/length(x), length(x))) ks.test(x, y, ...) shapiro.test(x) qqnorm(x) qqline(x)

qcc(data, type, sizes, center, std.dev, limits, target, labels, newdata, newsizes, newlabels, nsigmas = 3, condence.level, plot = TRUE, ...) qcc.groups(data, sample) qcc.options(...)

process.capability(object, spec.limits, target, ...) pareto.chart(x) cusum(object, ...)

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

52

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

aov(respuesta trminos, ...) e

anova plot model.tables multicomp.lm(objeto aov, method=lsd, error.type=cwe) residuals


bartlett.test (formula) kruskal.test(formula) interaction.plot(x.factor, trace.factor, response) lm(formula, ...)

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

53

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

PARTE IV BIBLIoGRAFA

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

54

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

Cap tulo 8 Material bibliogrco a


Lo vamos a dividir en tres apartados. En primer lugar, repasaremos aquellos libros que por contenidos y extensin se adecan casi completamente a la o u asignatura (podr ser utilizados como libros de texto en esta asignatura). an En segundo lugar, presentaremos los libros que se pueden recomendar a los estudiantes que estn interesados en profundizar en alguno de los temas de e esta asignatura y tambin otras referencias que por ser ms amplias o bien por e a no estar concebidas para ingenieros, pese a que ser excelentes refuerzos para an la materia, las calicar amos como bibliograf complementaria. Y en ultimo a lugar, haremos un repaso por diverso material y recursos on-line.

8.1.

Bibliograf bsica a a

Aunque muchos otros podr ser recomendados, se han escogido los sian guientes por estar dirigidos casi la totalidad de ellos a estudiantes de Ingenier Aparecen ordenados alfabticamente: as. e Ardanuy y Mart [5]. Muy ajustado a los contenidos de la asignatura, aunn que contiene algunos pocos temas ms, como las series temporales y los a nmeros u ndices. Canavos [10]. Es un libro general, claro y enfocado principalmente a la prctia ca. Cao et al. [11] y Vilar [79]. La obra de Cao et al. ser excelente para la a mayor parte del programa, ya que incide en la interpretacin y la aplicao cin de los mtodos estad o e sticos ms que en la formulacin matemtica, a o a puesto que est orientada hacia las titulaciones de carcter tcnico y exa a e perimental, pero a la vez es muy completo. Tiene gran cantidad de ejercicios resueltos y propuestos, muchos de ellos aplicados a la informtica. a Tambin, incluye colecciones de cuestiones de respuesta mltiple para la e u autoevaluacin de los estudiantes y ejercicios globales que recogen too dos los temas estudiados en el libro. Sin embargo, este libro no contiene ningn tema dedicado a modelos lineales, ni a control de calidad. Un u libro en la l nea del de Cao et al., pero dedicado a los modelos lineales en exclusiva y cuyo autor tambin pertenece a la Universidad de A Corua e n

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

55

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

ser el de Vilar [79], junto con el material que se encuentra en su pgina a a web: http://www.udc.es/dep/mate/estadistica2/estadistica 2.htm. Coronado et al. [17]. Este libro incluye todos los temas tratados, entrelazando teor con prctica (con Statgraphics pero en versin MS-DOS), lo a a o cual lo convierte en una de las referencias destacadas. No obstante, no incluye problemas. Chateld [13]. Obra general para ingenieros, clara y bastante concisa, con muchos ejemplos. Devore [22]. Es un libro de estad stica para ingenieros. Muchos de los ejemplos y ejercicios involucran aplicaciones a las ciencias biolgicas y de la o vida. Domingo [23]. Es un libro muy ajustado a la asignatura, pues su origen son unos apuntes de una asignatura semestral para una ingenier No apaa. rece la parte de control de calidad, pese a ello resulta ser una obra que se acopla a la perfeccin a la asignatura. Est escrito en cataln. o a a Dougherty [24]. Excelente libro con muchas aplicaciones a la Informtica y a a la vez con un respetable nivel matemtico. Cuenta tambin con nua e merosos problemas, cuyas soluciones aparecen al nal del texto y hasta 350 problemas resueltos. Recoge todos los contenidos de la asignatura y algunos otros que no se incluye en el programa por falta de tiempo, pero que tambin son de inters para los ingenieros informticos. Contiene e e a una pequea introduccin a los siguientes tpicos: cadenas de Markov n o o y entrop Adems, los contenidos sobre diseo de experimentos, y esa. a n tad stica no paramtrica estn ms ampliados. Tambin cuenta con un e a a e apndice dedicado a revisar el uso de diversos paquetes comerciales de e software estad stico como son: SAS, MINITAB y SPSS. Por otro lado, el autor del libro a nivel investigador goza de un gran prestigio en el campo del anlisis de imgenes, y en concreto en el area de la morfolog a a a matemtica. a Fernndez et al. [29]. Este libro contiene los aspectos que se cubrirn en las a a prcticas, pero con el Statgraphics. a Garc et al. [31]. Es el libro usado para el autoaprendizaje de la asignatura a de Estad stica I de Ingenier Tcnica en Informtica de Sistemas en la a e a uned. Tiene una excelente coleccin de problemas resueltos relacionados o con la informtica pero no cubre el bloque dedicado a modelos lineales. a Otros libros en la misma l nea por ser publicaciones de la uned ser an: Hernndez et al. [36]. a Johnson [39]. Libro de estad stica para ingenier con excelentes ejemplos a, orientados a la ingenier y ejercicios propuestos con sus soluciones. a Mendenhall y Sincich [45]. Es un libro orientado a la ingenier muy exa, tenso y con muchos ejercicios, muchos de ellos con datos reales y con aplicaciones a la informtica. a

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

56

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

Montgomery y Runger [49]. Libro de estad stica para ingenieros, con una presentacin muy sencilla y clara de los conceptos. Tiene un gran nmero o u de ejemplos del mundo de la informtica. a Nicols [53]. Libro introductorio que utiliza como sof tware estad a stico el R. Pea [56, 55]. Excelente libro que se ha convertido en clsico en la estad n a stica aplicada. Consta de dos volmenes, en el primero se tratan los tres u primeros temas de la asignatura y en el segundo volumen, el bloque de modelos lineales, adems de las series temporales que no se incluye en a el programa. Los contenidos son un poco ms amplios y con un cierto a nivel. Prez [57]. Es un excelente libro dedicado a mostrar las utilidades del prograe ma comercial Statgraphics, muy completo, con muchos casos prcticos a resueltos junto con su interpretacin. Trata muchos ms tpicos del cono a o siderado en el programa. http://www.r-project.org [60]. En la pgina web del R, adems del prograa a ma podemos encontrar distinta documentacin muy util, tanto en ingls o e como en castellano, y por supuesto, los manuales de R incluidos en todas las instalaciones (ver el directorio ./doc/manual). Ras [62]. Est escrito en cataln como un texto bsico semestral en una ingea a a nier No da ninguna coleccin de problemas y tampoco trata todos los a. o puntos del programa. Ras et al. [63]. El libro lo forman siete prcticas resueltas empleando el Stata graphics. Este libro destaca porque las prcticas no se limitan a tratar a un tema concreto, sino que son prcticas muy completas que engloban a diversos temas del programa. Romero y Znica [67]. Libro enfocado a la docencia de la estad u stica en las ingenier con ejercicios resueltos y propuestos, dando gran importancia as, al diseo de experimentos y modelos de regresin. En un fasc n o culo independiente se hallan los temas de introduccin a los procesos estocsticos o a y la teor de colas. a Scheaer y McClave [69]. Est dedicado a la estad a stica para la ingenier a, tiene muchos ejercicios. Ugarte y Militino [75]. Este libro cubre casi todos los temas, a excepcin o del control de calidad, a un nivel adecuado para ser usado como texto docente. Tiene una orientacin prctica, con ejercicios resueltos con So a PLUS y sin este paquete estad stico. Todo ello, lo convierte en un buen texto docente. Walpole et al. [80]. Excelente texto, amplio y muy claro, orientado a ingenieros y util como referencia.

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

57

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

Durante los ultimos aos han ido apareciendo diversos libros dedicados a n estad stica para ingenieros de autores espaoles, que se ajustan en mayor o n menor medida al programa de la asignatura, ya que son libros orientados a la Estad stica en las Ingenier (tal y como se estructura en la universidad as espaola) en general, pero no a las Ingenier Informticas en particular. En n as a la mayor de estos libros, se presenta los contenidos tericos fundamentales y a o numerosos problemas, resueltos y propuestos. A continuacin citamos alguno o de ellos: A. Gmez y L. M. Mar [30]. a n M. A. Castro y Y. Villacampa [12]. F. J. Alonso et al. [4]. J. M. Egusquiza [25].

8.2.

Bibliograf complementaria a

A continuacin se muestra una serie de libros (y otro material) que pueden o ser recomendados a los estudiantes para ampliar determinados temas. Tambin e incluimos referencias que por ser ms amplias o bien por no estar concebidas a para ingenieros, pese a que ser excelentes refuerzos para la materia, no an las considerar amos estrictamente como libros de texto bsicos para esta asiga natura. Sin perjuicio de que en general no las recomendaramos como texto bsico, determinados temas de estas referencias ms amplias o no dirigidas a a a las ingenier s que podr servir como referencias bsicas, pues a veces las as, an a fronteras entre lo bsico y lo complementario no son completamente claras y a denidas. En primer lugar, presentaremos en orden alfabtico estas referencias e generales, y por ultimo, detallaremos otras referencias especializadas en temas ms espec a cos. Agresti et al. [2]. Este libro contiene ejemplos y ejercicios muy interesantes, con explicaciones claras. Allen [3]. Es un libro muy completo, con un alto nivel y con una excelente orientacin a la computacin debida a la experiencia del autor coo o mo profesor en Los Angeles IBM Inf ormation System M anagement Institute. Contiene un excelente cap tulo sobre teor de colas. El bloque a de modelos lineales no lo trata con mucho detalle. Asin et al. [6]. Libro de problemas resueltos orientados a la ingenier algua, nos de ellos con aplicaciones informticas. a Ayala (http://www.uv.es/ayala) [7]. Apuntes de Anlisis de datos con R para a Ingenier Informtica, que pese a que muchos de los contenidos no se a a incluyen en los descriptores de esta asignatura, merece la pena leerlo (o al menos disponer de l para futuros problemas con los que se enfrenten los e estudiantes), por su completitud, aplicabilidad prctica y su sinceridad, a

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

58

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

que lo hace muy ameno. Adems, para los alumnos no supone coste a alguno al estar disponible en la web. Cuadras [19, 18]. Obra general de problemas y recordatorios de teor El a. primer volumen est dedicado a problemas de probabilidad, mientras a que el segundo a problemas de estad stica. Engineering Statistics handbook (online). Libro dedicado a la Estad stica Engineering Statics handbook (on-line). para ingenieros, es bastante amplio y cuenta con la ventaja de estar disponible en la red: http://www.itl.nist.gov/div898/handbook/. Gonick y Smith [33]. Es un libro que abarca la mayor de los contenidos a de la asignatura, y los explica con ilustraciones simples, muy claras y divertidas, como en un cmic, tal y como indica el t o tulo del libro. Jain [37]. Libro amplio, que abarca tambin puntos que no entran en el tee mario, pero que tiene muchas aplicaciones en la informtica. Es una a referencia completa sobre el anlisis del funcionamiento de sistemas ina formticos. a Jaisingh [38]. Es un libro de introduccin a la estad o stica, con una presentacin muy sencilla y grca y con numerosas cuestiones de autoevaluacin, o a o de verdadero/falso, eleccin mltiple y a completar. o u Moore [51]. Es la versin castellana de The Basic Practice of Statistics [50], o donde se realiza una introduccin a la estad o stica, dando gran importancia al trabajo con datos, tal y como recomendaba un comit de la e Sociedad Americana de Estad stica (asa) y la Asociacin Americana de o Matemticas (maa) creado para estudiar la enseanza de la introduccin a n o a la Estad stica [15]. Navarro et al. [44]. Libro de problemas resueltos de probabilidad y estad stica para una asignatura introductoria de estad stica en diversas titulaciones cient co-tcnicas. e R [64]. Libro general, clsico y de un cierto nivel. os a Rodr guez et al. [65]. Libro de ejercicios resueltos con el Statgraphics. Spiegel [73]. Libro general de cierto nivel y con numerosos ejercicios resueltos. Trivedi [74]. Es una obra de cierto nivel, con aplicaciones informticas. Cuena ta con diversos cap tulos dedicados a la abilidad y teor de colas. Sin a embargo, el bloque de modelos lineales lo trata muy someramente. Para ampliar la primera parte referente a la inferencia estad stica, se puede consultar DeGroot [21], tambin Rohatgi [66] y Vlez y Garc [76]. e e a Para profundizar en la inferencia bayesiana los siguientes textos pueden ser recomendados: Box [8] y Lindley [42]. Por ultimo, para ampliar la parte de Estad stica no Paramtrica podemos consultar Noether [54] y e Conover [16].

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

59

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

Dos excelentes libros que podr amos recomendar para ampliar el apartado de Control de Calidad ser principalmente Montgomery [46] y Prat an et al. [58]. Dos libros clsicos sobre Modelos Lineales son Searle [71] y Rao [61]. a Ms actuales y muy claros son Christensen [14] y Jrgensen [40]. Un a libro clsico sobre Anova es Sche [70]. Para profundizar en el diseo a e n de experimentos podemos consultar Box et al. [9]. Adems, dos libros a de Montgomery enfocados a la Ingenier y dedicados a los Diseos de a n Experimentos y el Anlisis de Regresin respectivamente, ser [47] y a o an [48]. Por ultimo, los siguientes son buenos libros, especializados en estad stica usando el programa R o el S-Plus, aunque en la mayor de los casos a los contenidos sobrepasan los objetivos del curso: Selvin [72], Verzani [78] (http://www.math.csi.cuny.edu/Statistics/R/simpleR/index.html), Faraway [28], Dalgaard [20] (http://www.biostat.ku.dk/pd/ISwR.html), Venables y Ripley [77] y Everitt [27]. Fuera ya de lo que son los contenidos de la asignatura, pero que trata el aprendizaje a partir de los datos, en una poca en la que precisae mente, hay un supervit de datos, es el magn a co libro de Hastie et al. [35], que adems cuenta con much a simas aplicaciones reales a problemas informticos-estad a sticos, desde por ejemplo, el reconocimiento de caracteres al ordenamiento de pginas de Google. a

8.3.

Material on-line on line

Pese a que esta seccin, puede quedarse obsoleta por la rapidez de los camo bios en la red, no est de ms echar un pequeo vistazo a los innumerables y a a n muy buenos recursos de los que disponemos en internet. En el departamento de Matemticas de la Universidad de A Corua existen a n numerosos enlaces a webs interesantes sobre docencia en Estad stica, con enlace: http://www.udc.es/dep/mate/Dpto Matematicas/Enlaces/rec est.htm. En la Universitat Oberta de Catalunya tambin puede encontrarse buen matee rial y ms enlaces interesantes (http://www.uoc.edu/in3/e-math/). La pgina a a http://onlinestatbook.com/rvls.hmtl est dedicada a mostrar diversos concepa tos mediante simulaciones. Tambin en este sentido, el material suplementario e on line del libro de Moore [51] es muy didctico. Para complementos, la a pgina (http://www.itl.nist.gov/div898/ handbook/ index.htm) del Engineea ring Statistics Handbook es una buena opcin. Es posible encontrar gran cano tidad de libros on-line en la pgina http://digital.library.upenn.edu/webbin/ a book/subjectstart?Q, que pueden ser de gran inters por su accesibilidad y su e especializacin, son varios los libros dedicados a repasar el papel de la Estad o stica en varias areas informticas, como puede ser el Statistical Software Engi a neering. En la pgina http://www-groups.dcs.st-and.ac.uk/history puede ena contrarse la biograf de los ms ilustres estad a a sticos y matemticos. Un blog en a

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

60

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

castellano con muchos puntos interesantes es http://predictive.wordpress.com/. De hecho, ste y otros enlaces, fueron suministrados por los propios estudiane tes, a ra de una actividad propuesta al inicio del curso, sobre bsqueda de z u informacin en la red. o
Hay tambin muchas pginas con iniciativas basadas en las nuevas tecnoloHay tambin muchas pginas con iniciativas basadas en las nuevas tecnoe a gas como las webquest (en castellano en http://www.estadisticaparatodos.es log como las webquest (en castellano en http://www.estadisticaparatodos.es as hay diverso material interesante), o las wikis, para aprendizaje colaborativo. En hay diverso material interesante), o las wikis, para aprendizaje colaborativo. este sentido, dirigindonos a los los docentes, en las distintas revistas Edue En este sentido, dirigindonos adocentes, en las distintas revistas sobre sobre cacin estad o stica, hay hay muchos culos interesantes y en muchos casos con los Educacin estadstica, muchos art artculos interesantes y en muchos casos datos disponibles, que sirven tambin para tomar ideas: Journal of Statistics e con los datos disponibles, que sirven para tomar ideas: Journal of Statistics Education (http://www.amstat.org/publications/jse/jse index.html), Teaching Education (http://www.amstat.org/publications/jse/jse index.html), Teaching Statistics (www.rsscse.org.uk/ts/), echnology Innovations Statistics Education Statistics (www.rsscse.org.uk/ts/), TTechnology Innovations in in Statistics Education (http://repositories.cdlib.org/uclastat/cts/tise/), Statistics Education Journal (http://repositories.cdlib.org/uclastat/cts/tise/), Statistics Education ResearchResearch Journal (www.stat.auckland.ac.nz/ iase/publications.php?show=serj), o Case (www.stat.auckland.ac.nz/iase/publications.php?show=serj), o Case Studies in Studies in Business, Industry and Government Statistics (cs-bigs) (www.bentley.edu/csbigs). Business, Industry and Government Statistics (cs-bigs) (www.bentley.edu/csbigs). Un Un libro tambin e proyectos para fomentar libro queque tambin recoge gran cantidad de ideasyyproyectos para fomentar recoge gran cantidad de ideas la participacin de los estudiantes es el de Gelman y Nolan [32], aunque ya participacin de los estudiantes es el de Gelman y Nolan [32], aunque ya o la advierte que para ser efectivas, las clases no deben ser numerosas. advierte que para ser efectivas, las clases no deben ser numerosas.

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

6

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

Bibliograf a
[1] A. AGRESTI. An introduction to categorical data. Wiley, segunda edicin, o 2007. [2] A. AGRESTI Y C. FRANKLIN. Statistics: The Art and Science of Learning from Data. Prentice Hall, 2006. [3] A. O. ALLEN. Probability, Statistics and Queueing Theory with Computer Science Applications. Academic Press, 1990. [4] F. J. ALONSO, P. A. GARC Y J. E. OLLERO. Estad IA stica para ingenieros (teor y problemas). Colegio de Ingenieros de Caminos, Canales y a Puertos, 1996. [5] R. ARDANUY Y Q. MART IN. Estad stica para ingenieros. Editorial Hesprides, 1993. e [6] J. AS F. G. BAD M. D. BERRADE, C. A. CAMPOS, C. GALE Y IN, IA, Probabilidad y estad P. JODRA. stica en ingenier ejercicios resueltos. a: Prensas universitarias de Zaragoza, 2002. [7] G. AYALA. Apuntes de anlisis de datos con R para ingenier informtia a a ca. http://www.uv.es/ayala. [8] G. E. P. BOX Y N. DRAPER. Bayesian Inference in Statistical analysis. Wiley, 1992. [9] G. E. P. BOX, W. G. HUNTER Y J. S. HUNTER. Estad stica para investigadores. Editorial Revert, 1993. e [10] G. C. CANAVOS. Probabilidad y Estad stica. Aplicaciones y mtodos. e McGraw-Hill, 1993. [11] R. CAO, M. FRANCISCO, S. NAYA, M. A. PRESEDO, M. VAZQUEZ, J. A. VILAR, Y J. M. VILAR. Introduccin a la estad o stica y sus aplicaciones. Pirmide, 2001. a [12] M. A. CASTRO Y Y. VILLACAMPA. Estad stica aplicada a la ingenier a civil. Club Universitario, 2000. [13] C. CHATFILED. Statistics for technology. Chapman and Hall, 1983.

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

62

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

[14] R. CHRISTENSEN. Plane answer to complex questions. The theory of linear models. Springer, 1987. [15] G. COBB. Teaching statistics. In Heeding the Call for Change: Suggestions for Curricular Action, pages 343. MAA, 22, Notes Mathematical Association of America, 1992. [16] W. J. CONOVER. Introduction to statistics: a nonparametric approach. Wiley, 1976. [17] J. L. CORONADO, A. CORRAL, P. LOPEZ, R. MINANO, B. RUIZ Y J. VILLEN. Estad stica aplicada con STATGRAPHICS. Ra-ma, 1994. [18] C.M. CUADRAS. Problemas de probabilidades y estad stica Vol. 2, Inferencia estad stica. PPU, 1991. [19] C. M. CUADRAS. Problemas de probabilidades y estad stica Vol. 1, Probabilidades. EUB, 1999. [20] P. DALGAARD. Introductory Statistics with R. Springer, 2002. [21] M. H. DEGROOT. Probabilidad y Estad stica. Addison-Wesley Iberoamericana, 1988. [22] J. L. DEVORE. Probabilidad y estad stica para ingenier y ciencias. a International Thomson, cuarta edicin, 1998. o [23] J. DOMINGO. Estad stica t`cnica. Una introducci contructivista. Unie o versitat Rovira i Virgili, segunda edicin, 1997. o [24] E. R. DOUGHERTY. Probability and statistics for the engineering, computing and physical sciences. Prentice Hall Internatinal Editions, 1990. [25] J. M. EGUSQUIZA. Apuntes de mtodos estad e sticos de la ingenier a. Geneve, 1998. [26] I. EPIFANIO Y A. RODENAS. Material docente para prcticas con R de a la asignatura IG23 Ampliacin de Estad o stica. Publicacions de la Universitat Jaume I, 2006. [27] B. S. EVERITT. A handbook of statistical analyses using S-PLUS. Chapman & Hall, 1994. [28] J. FARARWAY. Linear models with R. CRC Press, 2002. [29] F. FERNANDEZ, M. A. LOPEZ, M. MUNOZ, A. M. RODR IGUEZ, A. SANCHEZ, Y C. VALERO. Estad stica asistida por ordenador STATGRAPHICS PLUS 4.1. Universidad de Cdiz, 2000. a [30] A. GAMEZ Y L. M. MAR Estad IN. stica para ingenieros tcnicos. Unie versidad de Cdiz, 2000. a

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

63

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

[31] A. GARC V. HERNANDEZ, H. NAVARRO, E. RAMOS, R. VELEZ Y IA, NEZ. Estad I. YA stica I. Ingenier Tcnica en Informtica de Sistemas. a e a UNED, 1994. [32] A. GELMAN Y D. NOLAN. Teaching Statistics: a bag of tricks. Oxford University Press, 2002. [33] L. GONICK Y W. SMITH. La Estad stica en cmic. Editorial Zendrera o Zariquiey, 2002. [34] P. GREGORI E I. EPIFANIO. Estad stica b`sica per a la titulaa ci dEnginyeria T`cnica en Inform`tica de Gesti: teoria i pr`ctiques o e a o a amb el programa R. Publicacions de la Universitat Jaume I, en revisin, o 2008. [35] T. HASTIE, R. TIBSHIRANI Y J. FRIEDMAN. The Elements of Statistical Learning. Data mining, inference and prediction. Springer-Verlag, segunda edicin, 2009. o [36] V. HERNANDEZ, E. RAMOS E I. YANEZ. Estad stica I. Ingenier a Tcnica en Informtica de Gestin. UNED, 1994. e a o [37] R. JAIN. The art of computer systems performance. Wiley, 1991. [38] L. R. JAISINGH. Statistics for the utterly confused. McGraw-Hill, 2000. [39] R. A. JOHNSON. Probabilidad y estad stica para ingenieros de Miller y Freund. Prentice Hall Hispanoamericana, quinta edicin, 1997. o [40] B. JRGENSEN. The theroy of linear models. Chapman and Hall, 1993. [41] F. LEISCH. Dynamic generation of statistical reports using literate data analysis. In Compstat 2002 - Proceedings in Computational Statistics. Physika Verlag, 2002. http://www.ci.tuwien.ac.at/leisch/Sweave. [42] D. W. LINDLEY. Introduction to Probability and Statistics from a Bayesian Viewpoint. (2 vol.). Cambridge University Press, 1969. [43] A. LLORIA, I. EPIFANIO Y A. BELTRAN. Material docente para el autoaprendizaje y la autoevaluacin de la asignatura IS12 Estad o stica. Publicacions de la Universitat Jaume I, 2003. [44] J. NAVARRO, M. FRANCO Y A. GUILLAMON. Probabilidad y estad stica. Problemas. Diego Mar 1999. n, [45] W. MENDENHALL Y T. SINCICH. Probabilidad y estad stica para ingenier y ciencias. Prentice Hall, cuarta edicin, 1997. a o [46] D. C. MONTGOMERY. Introduction to Statistical Quality Control. John Wiley and Sons, 1985. [47] D. C. MONTGOMERY. Diseo y anlisis de experimentos. Grupo Edin a torial Iberoamrica, tercera edicin, 1991. e o

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

64

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

[48] D. C. MONTGOMERY Y E. A. PECK. Introduction to Linear Regression Analysis. John Wiley and Sons, 1992. [49] D. C. MONTGOMERY Y G. C. RUNGER. Probabilidad y estad stica aplicadas a la ingenier Limusa Wiley, segunda edicin, 2002. a. o [50] D. S. MOORE. The Basic practice of statistics. Freeman, 1995. [51] D. S. MOORE. Estad stica aplicada bsica. Antoni Bosch Editor, traduca cin y adaptacin de Jordi Comas, 1998. o o [52] M. A. MORALES. Generacin automtica de reportes con R y LAo a TEX. Technical report, http://cran.r-project.org/doc/contrib/RiveraTutorial Sweave.pdf, 2006. [53] M. J. NICOLAS. Estad stica aplicada con R. Naus a, 2003. ca [54] G. E. NOETHER. Practical Nonparametric Statistics. Houghton Miin Co., 1980. [55] D. PENA. Estad stica. Modelos y mtodos, volumen 2. Modelos lineales e y series temporales. Alianza Editorial, segunda edicin, 1989. o [56] D. PENA. Estad stica. Modelos y mtodos, volumen 1. Fundamentos. e Alianza Editorial, segunda edicin, 1991. o [57] C. PEREZ. Estad stica prctica con StatGraphics. Prentice Hall, 2001. a [58] A. PRAT, X. TORT-MARTORELL, P. GRIMA Y L. POZUETA. Mtoe dos estad sticos. Control y mejora de la calidad. Universitat Polit`cnica e de Catalunya, segunda edicin, 1995. o [59] W. H. PRESS, B. P. FLANNERY, S. A. TEULOSKY Y W. T. VETTERLING. Numerical Recipes in C: The Art of Scientic Computing. Cambridge University Press, Cambridge, 1992. [60] R DEVELOPMENT CORE TEAM. R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, 2009. ISBN 3-900051-07-0. [61] C. R. RAO. Linear Statistical Inference and its Applications. Wiley, second edicin, 1973. o [62] A. RAS. Estad stica aplicada per a enginyeria. Edicions UPC. Universitat Politcnica de Catalunya, 1994. e [63] A. RAS, G. OLIVAR Y D. MARTIN. Estad stica. Pr`ctiques. Universitat a Polit`cnica de Catalunya, 1993. e [64] S. R IOS. Mtodos estad e sticos. Ediciones del Castillo, 1977. [65] R. RODR IGUEZ, A. INFANTE, J. VALDIVIESO Y M. FERNANDEZ. Estad stica prctica con StatGraphics. Universidad de Cdiz, 1997. a a

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

65

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

[66] V. K. ROHATGI. Statistical Inference. Wiley, 1984. [67] R. ROMERO Y L. R. ZUNICA. Mtodos estad e sticos en ingenier Unia. versidad Politcnica de Valencia, 2005. e [68] S. M. ROSS. A course in simulation. Prentice Hall, 1990. [69] R. L. SCHEAFFER Y J. T. McCLAVE. Probabilidad y estad stica para ingenier Grupo Editorial Iberoamrica, 1993. a. e [70] H. SCHEFFE. The Analysis of Variance. John Wiley and Sons, 1959. [71] S. R. SEARLE. Linear Models. Wiley, 1971. [72] S. SELVIN. Modern applied biostatistical methods using S-PLUS. Oxford University Press, 1998. [73] M. R. SPIEGEL. Estad stica. McGraw-Hill/ Interamericana de Espaa n S.A., 1991. [74] K. S. TRIVEDI. Probability and Statistics with Reliability, Queueing and Computer Science Applications. Prentice-Hall, 1982. [75] M. D. UGARTE Y A. F. MILITINO. Estad stica aplicada con S-PLUS. Universidad Pblica de Navarra, 2002. u [76] J. R. VELEZ Y A. GARC Principios de Inferencia Estad IA. stica. UNED, 1993. [77] W. N. VENABLES Y B. D. RIPLEY. Modern applied statistics with S-PLUS. Springer, 2002. [78] J. VERZANI. Using R for introductory statistics. Chapman & Hall, 2005. [79] J. M. VILAR. Modelos estad sticos aplicados. Universidade da Corua, n 2003. [80] R. E. WALPOLE, R. H. MYERS Y S. L. MYERS. Probabilidad y estad stica para ingenieros. Prentice Hall, sexta edicin, 1998. o

Irene Epifanio / Pablo Gregori - ISBN: 978-84-692-4538-5

66

Ampliacin de Estadstica para la Ingeniera Tcnica en Informtica de Gestin - UJI

You might also like