You are on page 1of 104

UNIVERSIDAD AUTNOMA CHAPINGO

DIVISIN DE CIENCIAS FORESTALES

ESTIMACIN DE MXIMA VEROSIMILITUD EN LA DISTRIBUCIN WEIBULL PARA MUESTRAS COMPLETAS, CENSURADAS Y SU APLICACIN EN EL ANLISIS DE TIEMPOS DE VIDA

TESIS PROFESIONAL

QUE COMO REQUISITO PARCIAL PARA OBTENER EL TITULO DE

LICENCIADO EN ESTADSTICA

PRESENTA

LUIS ARMANDO VERDIN MEDINA

Chapingo, Estado de Mxico, Marzo del 2005

AGRADECIMIENTOS
A Dios por ser mi maestro en la vida, y por permitirme realizar uno de mis sueos. A mi querida Universidad Autnoma Chapingo por darme la oportunidad de formarme profesionalmente. Al Dr. Bulmaro Jurez por haberme tenido la paciencia y por haberme brindado todo el apoyo para la culminacin de este trabajo. A los doctores Eduardo Casas, Jos Artemio Cadena, Mario Vzquez as como al maestro Alejandro Corona. Por haber hecho posible la realizacin de la presente tesis al asesorarla de manera adecuada y por su paciencia que siempre me demostraron en el desarrollo de la misma. A Felipe Cante, Gerardo Cano, Nicforo Delgadillo por ser como mi segunda familia. Al Ing. Luis Fuentes por todo el apoyo, la orientacin y los consejos que me brinda. Al equipo representativo de ftbol rpido (2000-2004) por todas las experiencias compartidas. Lenin, David Chan, Sal Jurado, Luis Gmez, Edis flores, prof. Luis Fernando. A Margarita Lucio por su amistad desinteresada, por apoyarme, por escucharme y sobre todo por ser una gran amiga. A Evangelina Mendoza quien me brindo apoyo constantemente, compresin, y siempre me motivo para seguir adelante. Gracias por ser como eres conmigo. A Carla Norma, Roci Aguilar, Osiris Pimentel, Fran Cuevas por su amistad brindada en cada momento. A Jorge Luis, Antonio Medina, Hugo Ypez, Francisco Medina, Jess Rodrguez por hacerme pasar unas maravillosas vacaciones durante mi estancia en chapingo, y por ser buenos amigos. A mis compaeros de grupo por su amistad brindada en cada momento. Santiago Piste, Lauro Soto, Dionisio Leyva, Francisco Vicente, Russel Pacheco, Ramn Molina, Lidio Flores.

DEDICATORIA
A MI MAMA A MI TIA A MI TIA Magdalena Medina Vlez Esther Medina Vlez Bernardina Medina Vlez

A QUIENES ME HAN HEREDADO EL TESORO MS VALIOSO QUE PUEDE DRSELE A UN HIJO AMOR. A QUIENES SIN ESCATIMAR ESFUERZO ALGUNO HAN SACRIFICADO PARTE DE SU VIDA PARA FORMARME Y EDUCARME. A QUIENES LA ILUSIN DE SU EXISTENCIA HA SIDO CONVERTIRME EN PERSONA DE PROVECHO. A QUIENES NUNCA PODR PAGAR TODOS SUS DESVELOS NI AUN CON LAS RIQUEZAS MS GRANDES DE ESTE MUNDO.

A MIS HERMANOS Por todo el apoyo, cario y comprensin que siempre me han demostrado. Alicia Verdin Medina Elisa Verdin Medina Roberto Verdin Medina Ma. del Pilar Verdin Medina

A MIS SOBRINOS Que siempre me recuerdan que uno nunca deja de ser nio. Nancy Ma. de la Luz Ma. Guadalupe Alejandra Janhet Elisa Omar Rogelio Diego Armando Juan Jos Cesar David

A MIS CUADOS Por todo el apoyo y los consejos que siempre me dan. Dionisio Cano Rogelio Zarate

INDICE

Pg. Resumen..6 Summary..7 1. Introduccin..8 2. Justificacin14 3. Hiptesis del trabajo.....15 4. Objetivos..................15 4.1. Objetivo general....15 4.2. Objetivos particulares.............15 5. Antecedentes........16 6. Definiciones estadsticas bsicas en el anlisis de tiempos de vida...19 6.1. Variable aleatoria.....19 6.2. Funcin de densidad de probabilidad...20 6.3. Funcin de distribucin acumulada...21 6.4. Funcin de distribucin inversa................21 6.5. Funcin de supervivencia...21 6.6. Funcin de supervivencia inversa................24 6.7. Funcin de riesgo.24 6.8. Funcin de riesgo acumulativa..25 6.9. Clasificacin de los datos...26 6.9.1. Censura.....26 6.9.2. Censura tipo I27 6.9.3. Censura tipo II...27 6.9.4. Censura progresiva..28 6.9.5. Censura aleatoria.29 6.9.6. Censura por intervalo..29 6.9.7. Censura por la izquierda.....30 6.9.8. Censura por la derecha...30 7. Distribucin Weibull.31 7.1. Historia de la distribucin..............31 7.2. Distribucin Weibull.32 7.3. Caractersticas estadsticas de la distribucin Weibull..40

8. Estimacin en modelos parametricos...47

8.1. Mtodo de momentos.............48 8.2. Mtodo de mxima verosimilitud..............49 8.3. Estimacin por mxima verosimilitud para muestras censuradas..............53 9. Estimacin de los parmetros de la distribucin Weibull por mxima verosimilitud....................54 9.1. Estimacin por mxima verosimilitud para muestras completas............54 9.2. Estimacin por mxima verosimilitud para muestras con censura tipo II.......57 9.3. Estimacin por mxima verosimilitud para muestras con censura tipo I..................60 10. Matriz de varianza-covarianza de los estimadores...............65 11. Mtodos numricos utilizados67 11.1. Mtodo de Newton Raphson..67

12. Transformacin a un modelo de regresion de la Weibull.70 13. Prueba de Kolmogorov de bondad de ajuste..72 14. Algoritmos numricos................73 15. Aplicaciones..74 16. Conclusiones y recomendaciones....78 Apndice A A.1 Transformacin de variables de tipo discreto.79 A.2 Transformacin de variables de tipo continas..80 A.2.1 Aplicacin del teorema de la transformacin (o cambio de variable) a transformaciones de variables aleatorias...83 A.2.2 Caso particular del cambio de variable.84 A.2.3 Generalizacin del teorema de la transformacin cuando esta no es biyectiva.88 Apndice B Datos de 90 pacientes con cncer de laringe93 Apndice C Programa Newton Raphson para muestras completas96 Apndice D Prueba de Kolmogorov de bondad de ajuste usando S-PLUS98 Bibliografa....99

ESTIMACIN DE MXIMA VEROSIMILITUD EN LA DISTRIBUCIN WEIBULL PARA MUESTRAS COMPLETAS, CENSURADAS Y SU APLICACIN EN EL ANLISIS DE TIEMPOS DE VIDA1 Luis Armando Verdin Medina2 Dr. Bulmaro Jurez Hernndez3

RESUMEN

El anlisis de supervivencia es un rea estadstica en la que la variable respuesta es el tiempo de vida de un producto o artculo. En este trabajo se presenta una breve introduccin elemental a las nociones y definiciones estadsticas ms comunes y ms fundamentales usadas en el anlisis de datos de tiempo de vida. Dado que la distribucin Weibull es uno de los modelos clsicos utilizados para describir datos de tiempos de vida, se presenta una revisin detallada de las caractersticas de tal distribucin. Tambin, se hace un anlisis de la estimacin paramtrica por mxima verosimilitud en la distribucin Weibull para muestras completas, con censura tipo I y censura tipo II. Para obtener la estimacin de los parmetros mediante el mtodo de mxima verosimilitud, se utilizo el mtodo de Newton-Raphson ya que el sistema de ecuaciones no lineales que resulta de las ecuaciones de verosimilitud no tiene una solucin explcita de carcter general para los estimadores. Para esto se diseo un algoritmo Newton-Raphson escrito en el mdulo IML de SAS, que resuelve el sistema de ecuaciones no lineales que produce la aplicacin del mtodo de mxima verosimilitud. Se presenta un algoritmo en S-PLUS para realizar la prueba de bondad de ajuste de Kolmogorov y se presentan dos ejemplos de aplicacin.

Palabras Clave: tiempo de vida, distribucin Weibull, muestras completas, censura, verosimilitud, mtodo de Newton-Raphson, bondad de ajuste de Kolmogorov, ecuaciones de verosimilitud.

Resumen de la tesis profesional presentada por el autor para obtener el grado de Licenciado en Estadstica, Chapingo, Mxico. 2 Autor de la tesis. 3 Director de la tesis.

MAXIMUM LIKELIHOOD ESTIMATION IN THE WEIBULL DISTRIBUTION FOR COMPLETE, CENSORED SAMPLES AND THEIR APPLICATION IN THE ANALYSIS OF TIMES OF LIFE4 Luis Armando Verdin Medina5 Dr. Bulmaro Jurez Hernndez6

SUMMARY

Survival Analysis is an statistical method where the response variable is the lifetime of a product or item. In this work a brief elementary introduction is presented including the basics a wella the most common and more fundamental statistical definitions used in the analysis lifetime. Given that the Weibull distribution is one of the classic models used to describe data, a detailed review of the main characteristics of this distribution are presented. An analysis of the parametric estimates is made by the maximum likelihood method for complete samples, with censorship type I and it censors type II. To obtain the estimate of the parameters the method of NewtonRaphson is utilized since the system of non lineal equations that is of the equations of likelihood doesn't have an explicit solution for the general character estimates. Thus a design of an algorithm Newton-Raphson is written in IML of SAS that solves the system of non lineal equations that produces the application of the likelihood method. An algorithm is presented in S-PLUS to carry out Kolmogorov goodness of fit test and two examples are presented.

Key words: lifetime, Weibull distribution, complete samples, censor, likelihood, Newton-Raphson method, Kolmogorov goodness of fit test, likelihood equations

4 5

Summary of the professional thesis presented by autor to obtain the Degree in Statistics, Chapingo, Mexico. Autor of this thesis. 6 Director of this thesis.

1. INTRODUCCION

La idea original de la "estadstica" era la recoleccin de informacin sobre y para el "Estado". A mediados del siglo XVIII, naci la palabra estadstica significando el estudio de los arreglos polticos de los estados. Inicialmente la descripcin de los datos era verbal, pero la proporcin creciente de datos numricos en las descripciones gradualmente dio una nueva palabra de carcter cuantitativo que ahora se asocia en ella. La palabra estadstica se deriva directamente, no de las races griegas o latinas clsicas, sino de la palabra italiana Estado.

Comnmente, al termino Estadstica se le relaciona con el clculo de promedios, porcentajes, etc. y con la presentacin de datos en forma tabular y en forma grfica. Aunque las tcnicas para resumir y presentar datos son importantes, comprenden slo una parte de la Estadstica moderna: La Estadstica Descriptiva. Los estadsticos de la actualidad se ocupan fundamentalmente de los aspectos relacionados con la Inferencia Estadstica. En la Inferencia Estadstica, mediante el anlisis de los datos colectados, se generalizan o inducen conocimientos sobre un conjunto de datos mucho ms grande, del cual los datos analizados son slo un subconjunto o muestra; es decir, en este proceso va de lo particular a lo general. En otras palabras la Inferencia Estadstica se ocupa de inferencias inductivas.

As pues, el quehacer de la Inferencia Estadstica

se ubica en aquellas

investigaciones en que para caracterizar a un conjunto de elementos, se estudia solamente un subconjunto. Estrictamente hablando, esto es cierto. Sin embargo, en la realidad mltiples factores aconsejan que el estudio exhaustivo no se haga, entre estos factores se pueden encontrar el tiempo el costo, el nmero elevado de elementos, etc.

Con base en las consideraciones anteriores, ste parece ser el punto adecuado para establecer una definicin entendible de la ciencia Estadstica. sta se enuncia en la forma siguiente: La Estadstica es la parte aplicada de la probabilidad, es una

disciplina de la matemtica que desarrolla y aplica mtodos para captar, organizar y analizar datos, cuyo propsito es controlar, con un cierto margen de precisin, los probables errores que pueden cometerse al cuantificar fenmenos cuyos resultados quedan al azar de forma incierta. La mayora de los fenmenos tienen un importante componente de azar, por lo que la Estadstica es una disciplina con una amplia gama de aplicaciones, que van desde las cientficas hasta las relativas a los negocios.

La Estadstica se divide en dos partes: La primera es la Estadstica Descriptiva que contiene tcnicas para la recoleccin, presentacin y caracterizacin de un conjunto de datos que dan como resultado la descripcin de las diversas caractersticas de una poblacin o muestra. La segunda es la Inferencia Estadstica que es un proceso por medio del cual se elaboran inducciones a una poblacin con base en los resultados obtenidos a partir de una muestra, en que el grado de incertidumbre es cuantificable. Trata de las tcnicas por las que se elige aleatoriamente una muestra y despus se elabora un procedimiento que pueda perseguir dos objetivos:

Estimar el valor nico de un parmetro (medida que caracteriza a la poblacin) desconocido o bien estimar un intervalo de valores en el cual se espera con una determinada probabilidad que se encuentre el parmetro desconocido.

Evaluar la factibilidad de una hiptesis en la que se discierne si determinado valor es o no igual al preconcebido.

Durante los ltimos aos, ha habido cambios radicales en tecnologa, de administracin y de mercadeo. Esto ha generado una revolucin en el uso de mtodos estadsticos para mejorar la calidad de los productos y servicios. Una extensin natural de lo que ha pasado en el mundo de la calidad se manifiesta en un cambio de enfoque hacia la mejora de la confiabilidad. En una forma prctica, confiabilidad se define como calidad a travs del tiempo. Los administradores, ingenieros y los mismos consumidores se han convencido que buena confiabilidad es

una caracterstica indispensable para tener la oportunidad de competir en los mercados globalizados, complejos y sofisticados de hoy.

Considrense objetos, seres (personas, animales, plantas) o sistemas de cualquier clase, en los cuales se tiene inters porque ellos funcionan para algn propsito segn su naturaleza, y porque eventualmente pueden fallar despus de algn

tiempo, dejando de prestar el servicio o la funcin para el que fueron creados o construidos. Ejemplos de tales entidades son artculos como: focos que despus de cierto nmero de horas de servicio pueden fallar por fundirse su filamento; personas convencionalmente sanas que en un tiempo impredecible, de pronto enferman, sistemas de red de computadoras cuyo servidor fallar en un tiempo desconocido. En la teora y aplicaciones de la confiabilidad se est interesado en la posibilidad de que el tiempo T a la falla de un sistema o artculo, ocurra despus de cierta duracin t, a partir de algn momento seleccionado t=0.

Hay evidencia emprica que indica, que para una numerosa clase de dispositivos o artculos, el valor de T no puede ser predicho por un modelo determinstico. Es decir, sistemas idnticos sometidos a esfuerzos idnticos fallaran en tiempos diferentes e impredecibles. Algunos fallarn muy al comienzo de su servicio y otros en etapas posteriores. Naturalmente la manera de fallar depender del tipo de artculo que se considere. Por ejemplo, un fusible fallar de improviso en el sentido de que en un momento dado funciona perfectamente y al momento siguiente no lo hace. Por otra parte, una barra de acero bajo una carga pesada se debilitar gradualmente en el transcurso de un perodo largo de tiempo. En cualquier caso, el uso de un modelo probabilstico, considerando a T como una variable aleatoria, parece ser el enfoque ms realista.

Si bien en la prctica interesa la confiabilidad de artculos en particular, la construccin probabilstica de la teora exige el desarrollo de la misma y de los mtodos que de ella derivan. Considere grandes poblaciones de artculos de la misma naturaleza, como aquella en la que se est interesado, las proporciones de

10

artculos que fallan en cada tiempo T, se constituyen en esta teora, en valores de probabilidad. As, el desarrollo de la teora y sus aplicaciones exige trabajar con distribuciones de probabilidad del tiempo de falla o distribuciones de tiempos de vida.

Actualmente el uso de modelos paramtricos para ajustar datos de tiempos de vida se ha desarrollado ampliamente, en especial en reas como: medicina, biologa, salud pblica, epidemiologa, industria e ingeniera, con aplicaciones que van desde estudiar tiempos de vida en individuos con enfermedades terminales, la comparacin de efectividad de k tratamientos buscando prolongar el tiempo restante de vida de estos individuos, as como en artculos de uso cotidiano bajo condiciones normales o de vida acelerada, garanta del funcionamiento de electrodomsticos durante t unidades de tiempo, entrega de suplementos electrnicos confiables, proveer

confiabilidad de transporte, son slo algunas de las tareas en donde se hace notar el Anlisis de Supervivencia o Teora de la Confiabilidad Matemtica.

El problema de garantizar y mantener la confiabilidad tiene muchas facetas, entre otras, el diseo de equipo original, el control de calidad durante la produccin, la inspeccin de aceptacin, las pruebas de vida y las modificaciones de diseo. Para complicar an ms el asunto, la confiabilidad compite directamente o indirectamente con una magnitud de otras consideraciones de ingeniera, principalmente costo, complejidad, tamao, peso y mantenimiento.

Una definicin probabilstica comn de confiabilidad, (Meeker y Escobar, 1998), es la siguiente:confiabilidad es la probabilidad de que una unidad realice su funcin hasta un tiempo especificado bajo las condiciones de uso encontradas. Es importante que esta probabilidad sea evaluada a las condiciones ambientales o de uso encontradas para el producto, en lugar de las condiciones de trabajo para las que el producto fue diseado.

(Lawless, 2003) dice la confiabilidad se refiere al funcionamiento adecuado de equipos y sistemas, lo cual incluye factores como software, hardware, humanos y

11

ambientales. ste es un concepto ms amplio y muestra la complejidad de lo que se entiende por confiabilidad, su evaluacin, el mantenimiento y su mejora.

(Condra, 2001) afirma que un producto confiable es aquel que hace lo que el usuario quiere que haga cuando el usuario quiere que lo haga. De acuerdo con esto, la confiabilidad es calidad a travs del tiempo, por lo tanto un producto confiable debe permanecer dentro de sus lmites de especificacin durante su vida tecnolgica. Esto es, buena calidad es necesaria pero no suficiente para garantizar buena confiabilidad. Esto plantea otra dificultad, la confiabilidad de un producto se puede evaluar directamente slo despus de que ha estado en servicio por algn tiempo, por lo tanto la evaluacin y pronstico de la confiabilidad presenta varios desafos tcnicos. La confiabilidad es una rama de la ingeniera. La estadstica proporciona herramientas importantes para la evaluacin, la mejora, el diseo, el pronstico y el mantenimiento de la confiabilidad.

Es importante mencionar que existen varios modelos que se han propuesto en la literatura para describir datos de tiempo de vida, entre los modelos ms usados se encuentran el Modelo Exponencial, Weibull, el Modelo Log Normal y Gama Generalizada.

Un modelo que ha sido sugerido por varios autores, entre ellos Berry (1975), Dyer (1975) y Meier (1980), Wilks (1990), como un modelo para datos de tiempo de vida, es la distribucin Weibull, el cual es un modelo paramtrico que fue introducido en 1939 por el fsico sueco Waloddi Weibull en los procedimientos del instituto sueco real para la investigacin de ingeniera. Sin embargo fue hasta 1951 en su articulo A statistical Distribution Function of Wide Applicability , en donde contempla varias de las aplicaciones de este modelo.

El uso de la distribucin Weibull se extiende tambin a una amplia diversidad de otras aplicaciones entre las cuales se incluyen la modelacin de la velocidad del viento (Dixon y Swift 1984, Tuller y Bret 1984, Pavia y OBrien, entre otros).

12

Modelacin de datos sobre intensidad de lluvias ( Wilks 1989, Selker y Haith 1990) anlisis relacionados con ciencias de la salud (Struthers y Farewell 1989, Koehler y McGovern 1990, Ellingwood y Rosowsky 1991) la modelacin de datos de catstrofes y teora de la ruina (Embrechts y Villaseor 1988, Kluppelberg y Villaseor 1990).

Muchos procedimientos estadsticos suponen que los datos siguen algn tipo de modelo matemtico que se define mediante una ecuacin, en la que se desconoce alguno de sus parmetros, siendo stos calculados o estimados a partir de la informacin obtenida en un estudio diseado para tal fin. Existen diferentes procedimientos para estimar los parmetros de una distribucin de probabilidad, por ejemplo el mtodo de momentos, el mtodo de mxima verosimilitud, el mtodo de Bayes y el mtodo de mnimos cuadrados. De entre esos procedimientos probablemente el ms verstil, ya que se puede aplicar en gran cantidad de situaciones, y por ello uno de los ms empleados se conoce con el nombre de "mtodo de mxima verosimilitud.

Aunque para aquellos que tiene una formacin estadstica este mtodo es perfectamente conocido y comprendido, sin embargo muchos de los usuarios de los programas estadsticos, que estn habituados a calcular modelos de supervivencia y muchos otros, desconocen cmo se efecta la estimacin de los coeficientes de esos modelos, por lo que parece apropiado dedicar un capitulo de este trabajo a describir su filosofa e interpretacin.

Podemos considerar que el mtodo de mxima verosimilitud, abreviado a menudo como ML, tal y como hoy lo conocemos e interpretamos fue propuesto por Fisher (1890-1962), aunque ya de una forma mucho ms artificiosa fue inicialmente atisbado por Bernoulli (1700-1782), cuyo planteamiento fue revisado y modificado por el matemtico Euler (1707-1783). Sin embargo la resolucin de los problemas numricos planteados por este mtodo en la mayor parte de los casos son de tal

13

magnitud que no ha sido posible su amplia utilizacin hasta la llegada de los modernos ordenadores.

Los modelos estadsticos confan extensivamente en datos para hacer predicciones. En nuestro caso, los modelos son las distribuciones estadsticas y los datos son los datos de la vida o datos del tiempo a la falla de nuestro producto. La exactitud de cualquier prediccin es directamente proporcional a la calidad, la exactitud y lo completo de los datos provistos. Los buenos datos, junto con la eleccin del modelo apropiado, dan lugar generalmente a buenas predicciones. Los datos malos o escasos darn lugar casi siempre a malas predicciones.

En el anlisis de los datos de tiempos de vida, deseamos utilizar todos los datos disponibles, en cuanto a los cuales son incompletos o incluyen a veces incertidumbre cuando ocurri una falta. Para lograr esto, separamos los datos de vida en dos categoras: completo (toda la informacin est disponible) o censurado (algo de la informacin falta). El siguiente captulo detalla estos mtodos de la clasificacin de los datos junto con una breve introduccin elemental a las ecuaciones y a las definiciones estadsticas ms comunes y ms fundamentales usadas en la ingeniera de la confiabilidad y el anlisis de datos de tiempos de vida.

2. JUSTIFICACION

En el anlisis de datos de tiempos de vida hay deficiencias, en particular en la distribucin Weibull, su uso se ha hecho limitado debido a la dificultad en la estimacin de sus parmetros, desgraciadamente los clculos involucrados no siempre son fciles y stos se abordan en una forma inapropiada e incomprensible, por lo tanto el presente trabajo es cubrir tales deficiencias, as como mostrar sus aplicaciones prcticas de una forma comprensible.

14

3. HIPOTESIS DEL TRABAJO

La estimacin de los parmetros por mxima verosimilitud de la distribucin Weibull para muestras completas y censuradas, conduce a sistemas de ecuaciones no lineales, cuya solucin no depende de ecuaciones explcitas de carcter general para los estimadores.

4. OBJETIVOS

El presente trabajo de tesis se desarroll siguiendo los siguientes objetivos.

4.1 Objetivo general

Obtener estimacin puntual usando Mxima Verosimilitud de los parmetros de la distribucin Weibull en base a muestras completas y censuradas.

4.2 Objetivos particulares

Obtener los estimadores de mxima verosimilitud basados en la distribucin Weibull para muestras completas.

Obtener los estimadores de mxima verosimilitud basados en la distribucin Weibull para muestras con censura tipo I.

Obtener los estimadores de mxima verosimilitud basados en la distribucin Weibull para muestras con censura tipo II.

15

5. ANTECEDENTES

La palabra estadstica se deriva directamente, no de las races griegas o latinas clsicas, sino de la palabra italiana Estado. El nacimiento de la estadstica se ubica a mediados del siglo XVII. Un ciudadano comn llamado Juan Graunt, nacido en Londres, comenz a revisar la publicacin semanal de la iglesia, la cual era distribuida en la parroquia local y que listaba el nmero de nacimientos, bautizos, y de muertes en cada parroquia. Estas cifras de mortalidad tambin enumeraban las causas de las muertes. Graunt que era comerciante organiz estos datos en la forma que hoy llamamos estadstica descriptiva, la cual fue publicada como Observaciones Naturales y Polticas hechas sobre la tasa de Mortalidad.

La idea original de la "estadstica" era la recoleccin de informacin sobre y para el "estado". A mediados del siglo XVIII, naci la palabra estadstica significando el estudio de los arreglos polticos de los estados. Inicialmente la descripcin de los datos era verbal, pero la proporcin creciente de datos numricos en las descripciones gradualmente dio una nueva palabra de carcter cuantitativo que ahora se asocia en ella.

Diversas culturas como la sumeria, la egipcia, la india y la rabe nos han legado documentos e inscripciones en donde grandes cantidades de datos numricos se ven representados por promedios y por grficas; estos hechos se siguieron sucediendo en las culturas occidentales sin formalizacin alguna.

Por otro lado, los conocimientos que desde el renacimiento tenan algunos matemticos como la Tartaglia sobre los juegos de azar fueron tratados por Fermat (1601- 1665) en su Teora general de las combinaciones y formalizados en el siglo XVIII con los estudios de Jakob Bernoulli (1654 1705), quien formul las tablas de la distribucin de la probabilidad binomial e inici los estudios sobre la estabilidad de las series de datos obtenidos a partir de los registros de mortandad. Su obra Ars

16

conjectandi fue publicada pstumamente en 1713. En ella se establecieron las bases de la teora de la probabilidad.

Daniel Bernoulli (1702-1761) se dedicaba al estudio de la teora de las probabilidades y la relaciona formalmente en sus aplicaciones prcticas con la estadstica. Thomas Bayes (1702 1761) fue el autor de la primera inferencia inductiva formal. Estos logros culminan con la obra de Pierre Simn Laplace (1749 1827), que establece las primeras hiptesis estadsticas de orden intuitivo, lleva a cabo estudios

sistemticos de cmo se desva un conjunto de valores a partir de su promedio y escribe la Teora analtica de las probabilidades.

Ese fue el inicio de una escuela que domin a lo largo del siglo XIX. Esos estudios fueron aplicados por Carl Friedrich Gauss (1777 1855). Se refiere en ellos a la ley normal del error y al mtodo de mnimos cuadrados, tambin publica un tratado sobre las series hipergeometricas. Colabora Simn Denis Poisson (1781 1840) quien redacta la distribucin que lleva su nombre.

A este punto es relevante referirse a lo que Stephen Stiegler un historiador contemporneo de la Ciencia llam la ley de misonoma que se refiere al hecho de que nada en matemticas principalmente es llamado en honor de quien descubri o deriv. Un ejemplo es precisamente la distribucin Poisson nombrada en honor al matemtico del siglo XIX S.D Poisson, pero esta distribucin fue descrita con anterioridad por uno de los Bernoullis.

Otro ejemplo es precisamente el relacionado con la distribucin gaussiana as llamada en honor al que una vez se crey la haba primeramente formulado, excepto que no fue Carl Friedrich Gauss sino un matemtico anterior a el llamado Abraham de Moiure quien primero estableci la ecuacin de la distribucin normal. Hay adems breves razones para creer que Daniel Bernoulli se cruzo con la misma expresin antes de todo esto, pero como sea es un claro ejemplo de la ley de misonoma de Stiegler.

17

Entre las aplicaciones ms importantes que se le dieron a la estadstica ya conformada con la teora de las probabilidades se encuentran los estudios de Karl Pearson (1857-1936) sobre los problemas biolgicos de la herencia y la evolucin. Este investigador desarrollo la metodologa para algunos estudios especficos, desarrollo la prueba de ji cuadrada, escribi uno de los clsicos de la filosofa de la ciencia Grammar of Biomtrica. science y fundo junto con el primer peridico estadstico:

En 1920, George Polya enunci uno de los teoremas ms importantes de la estadstica, el teorema central del lmite.

Fisher (1897-1947) ha hecho contribuciones notables, tanto en la estadstica terica como en la estadstica aplicada, desarroll la expresin matemtica de la distribucin t de Student. Sin embrago la estadstica moderna se desarrolla prcticamente desde 1919, cuando Fisher, inicia su trabajo en la estacin experimental de Rothamstead, donde publica sus estudios sobre la Variacin de los Cultivos y que corresponde a la Estadstica Aplicada a la Agricultura y a la Gentica, estudiando el anlisis de experimentos e introduciendo el concepto de Aleatorizacion, el Anlisis de Varianza y el Anlisis de Covarianza. En 1921 Fisher introduce el concepto de Verosimilitud como mtodo de estimacin, llegndose a consagrar como el Padre de los Diseos de Experimentos.

Fisher redefini la estadstica y estableci que el objetivo de los mtodos estadsticos es la reduccin de grandes masas de datos, en lo que distingui tres problemas bsicos: los de especificacin de la clase de poblacin de la cual provienen los datos, los de la distribucin de probabilidad que siguen y los del tipo de estudio deseado y mtodos de inferencia necesarios. Estos problemas aun subsisten y el presente trabajo espera colaborar a su solucin.

18

6. DEFINICIONES ESTADSTICAS BSICAS EN EL ANLISIS DE TIEMPOS DE VIDA

En este captulo, daremos una breve introduccin elemental a las ecuaciones y a las definiciones estadsticas ms comunes y ms fundamentales usadas en la ingeniera de la confiabilidad y el anlisis de datos de tiempos de vida. Las ecuaciones y los conceptos presentes en este captulo sern utilizados extensivamente en los captulos que siguen.

6.1 Variable aleatoria

En general, la mayora de los problemas en la ingeniera de la confiabilidad se ocupan de medidas cuantitativas, tales como la tiempo a la falla de un componente, o si el componente falla o no. En la sentencia de un componente para ser defectuoso o no-defectuoso, solamente dos resultados son posibles. Podemos entonces denotar una variable aleatoria X como representante de estos resultados posibles, es decir defectuoso o no-defectuoso. En este caso, X es una variable aleatoria que puede adquirir solamente estos valores.

En el caso del tiempo a la falla, nuestra variable aleatoria X puede adquirir el tiempo a la falla (o el tiempo a un acontecimiento del inters) del producto o componente y puede estar en una gama a partir de 0 al infinito (puesto que no sabemos el tiempo exacto a priori).

En el primer caso, donde la variable aleatoria puede adquirir solamente dos valores discretos (vamos a decir defectuoso X = 0 y no-defectuoso X=1), la variable se dice ser una variable aleatoria discreta. En el segundo caso, nuestro producto se puede encontrar fallando en cualquier momento despus del tiempo 0, es decir en (12, 4 horas o en 100, 12 horas) y as sucesivamente. En este caso, nuestra variable aleatoria X se dice ser una variable aleatoria continua. Surge un tercer caso, cuando

19

el producto puede fallar en cualquier momento despus del tiempo cero, pero por alguna razn slo se puede observar el experimento hasta el tiempo t0, generando, esta situacin una variable aleatoria que se denomina como variable aleatoria mixta. En el presente trabajo haremos referencia a variables aleatorias continuas y variables
aleatorias mixtas.

Definicin 1. Dado un experimento aleatorio y X una variable aleatoria asociada a ste, cuyo rango es Rx, se denominar a X Variable aleatoria discreta(v.a.d.),

cuando el conjunto Rx resulta ser a lo ms numerable. Definicin 2. Una variable aleatoria X asociada a un experimento aleatorio cuyo rango es Rx, se denomina: Variable Aleatoria Continua P(X = x) = 0 para cualquier x R. (v.a.c.), cuando el

conjunto Rx resulta ser un intervalo del conjunto de los nmeros reales R y

Definicin 3. Una variable aleatoria X asociada a un experimento aleatorio cuyo rango es Rx, se denomina: Variable Aleatoria Mixta (v.a.m.), cuando el conjunto Rx resulta ser un intervalo del conjunto de los nmeros reales R y P(X = x) = 0 para cualquier x RX, excepto para un conjunto a lo ms numerable de RX. Dada una variable aleatoria continua X, se usar la siguiente notacin:

La Funcin de Densidad de Probabilidad, abreviado por fdp, como f (x). La Funcin de Distribucin Acumulada, abreviado por fda, como F (x).

6.2 Funcin de densidad de probabilidad

Definicin 4. A la funcin integrable f (x) en todos los reales; que cumple con las condiciones siguientes:

20

a).- f (x) 0, para toda x R.

b).-

f ( x)dx = 1
f ( x)dx
a b

c).- Para cualesquiera reales a y b tales que ab; tenemos P (a X b) =

Se le denominar aleatoria continua X.

Funcin de Densidad de Probabilidad (fdp), de la variable

6.3 Funcin de distribucin acumulada

Definicin 5. Dado una variable aleatoria contina X con funcin de densidad f(x), se denomina Funcin de Distribucin Acumulada (fda) de la variable aleatoria continua X, a la funcin F(x) definida por:

F ( x) = P ( X x) =

f (t )dt

para toda x R.

A partir de la definicin de F(x) fcilmente se deduce:

a).- F(x), es una funcin no decreciente; es decir, para todos aquellos reales x e y, si x <y, entonces F ( x) F ( y ). b). - F(x) es continua por la derecha en x R c).- lim F ( x) = 0
x

d).- lim F ( x) = 1
x +

La relacin matemtica entre la fdp y la fda se da de la siguiente manera:

21

Si f(x) es una funcin de densidad de probabilidad de la variable aleatoria continua X, entonces su funcin de distribucin acumulada F(x) es; continua en todos los reales y diferenciable en todos los reales, menos en los puntos de discontinuidad de f(x) de lo expuesto anteriormente se deduce que cuando se conozca una funcin de distribucin acumulada de una variable aleatoria continua X, podremos encontrar su funcin de densidad correspondiente, por medio de

f ( x) =

d ( F ( x)) dx

En los puntos en donde la funcin de distribucin acumulada es diferenciable. Inversamente conociendo la funcin de densidad de probabilidad de una variable aleatoria continua f ( s), podemos encontrar su funcin de distribucin de la siguiente forma;

F ( x) =

f (s)ds

6.4 Funcin de distribucin inversa

La Funcin de Distribucin inversa es lo contrario de la funcin de distribucin acumulativa. Es decir, para una funcin de distribucin calculamos la probabilidad que la variable aleatoria X sea menor o igual a un valor x dado. Para la funcin de distribucin inversa, comenzamos con la probabilidad y encontramos el

correspondiente valor de x para la distribucin acumulada. Matemticamente, esto se puede expresar como
P [ X G ( p ) ] = F(G(p)) = p

22

O alternativamente como
x = G ( p ) = G (F ( x ) )

6.5 La funcin de supervivencia

La funcin de la supervivencia (tambin a veces llamada funcin de confiabilidad) se utiliza frecuentemente en confiabilidad y campos relacionados. La funcin de supervivencia es la probabilidad de que la variable aleatoria tome un valor mayor que x, se denota por S(x) y est dada por:
S ( x) = P [ X > x ] = 1 F ( x)

S(x) tiene el siguiente significado: S(x) = Pr (X > x) = probabilidad de que un producto opere sin falla por una longitud de tiempo x.

Es claro que por las propiedades de la funcin de distribucin acumulada la funcin de supervivencia tiene las siguientes propiedades: S(0) = 1 y S(+ ) = 0.

Ahora, observ que la funcin de densidad de probabilidad en trminos de la funcin de supervivencia esta dada como:

f ( x) =

dS ( x) dx

23

6.6 Funcin de supervivencia inversa

Como habamos visto anteriormente la funcin de distribucin inversa es lo contrario de la funcin de distribucin acumulada, la funcin de supervivencia tambin tiene una funcin inversa. La funcin de supervivencia inversa denotada por Z se puede definir en los trminos de la funcin de distribucin inversa como:

Z ( p) = G (1 p)

6.7 Funcin de riesgo

La funcin de riesgo (tambin conocida como funcin de tasa de falla) se denota por h(x), y proporciona la taza de falla condicional. sta se define como la probabilidad de falla durante un intervalo de tiempo muy pequeo, asumiendo que el producto ha sobrevivido al inicio del intervalo, o como limite de la probabilidad de que el producto falle en un intervalo (x, x + x), dado que el producto ha sobrevivido hasta el tiempo x.

Desarrollaremos la funcin de riesgo (como una funcin de x). Sea h(x) la funcin de riesgo. Entonces
P ( x T < x + x T x ) x S ( x ) S ( x + x ) 1 x 0 S ( x) x

h( x) = lim

x 0

= lim

h( x) = lim

S ( x + x) S ( x) 1 x 0 x S ( x)

h( x ) =

S ( x) f ( x) = S ( x) S ( x)

24

Puesto que S(x) = 1 F (x) y S(x) = f(x). As la funcin de riesgo puede escribirse en trminos de la funcin de distribucin acumulada F(x) y la funcin de densidad de probabilidad f(x) como:

h( x ) =

f ( x) 1 F ( x)

Es importante hacer notar que la distribucin de tiempos de vida puede ser caracterizada por tres funciones:

1. La funcin de densidad de probabilidad 2. La funcin de supervivencia, o 3. La funcin de riesgo

Estas funciones son matemticamente equivalentes, esto es, si se conoce alguna de ellas entonces las otras dos funciones se pueden derivar de sta.

6.8 Funcin de riesgo acumulada

La funcin de riesgo acumulada es la integral de la funcin de riesgo. Puede ser interpretada como la probabilidad de la falla en el tiempo x dado que existe supervivencia hasta el tiempo x.

H ( x) = h(u )du
0

Esto puede expresarse alternativamente como


H ( x) = ln (1 F ( X ) )

25

6.9 Clasificacin de los datos

Existen varios tipos de datos censurados segn sea el mecanismo que produce la censura y el tipo de conjunto que contiene el valor del dato. Una clasificacin similar a la que se presenta aqu se puede encontrar en la seccin 1.4 del Captulo 1 de Lawless(2003).

Diremos que un conjunto de datos Zn consta de datos completos si tiene registrado el valor de todos los elementos que lo componen. El conjunto Zn tiene datos censurados si para al menos uno de los datos se desconoce su valor, pero s se conoce un subconjunto de los nmeros reales que contiene tal valor. A este subconjunto donde pertenece el verdadero valor del dato censurado se le denominar conjunto de censura.

Los datos completos significan que el valor de cada unidad de muestra est registrado. En muchos casos, los datos de tiempo de vida contienen incertidumbre en cuanto a cuando sucedi exactamente un evento, es decir, cuando la unidad fall. Los datos que contienen tal incertidumbre en cuanto a exactamente cuando sucedi el evento se llaman datos censurados.

6.9.1 Censura

La presencia de censura crea problemas especiales para la inferencia estadstica, algunos de los cuales aun no tienen solucin. Diremos que la censura ocurre cuando los tiempos de vida exactos de falla son conocidos para una porcin de los elementos bajo estudio y para el resto de los elementos slo se conoce que exceden a cierto valor. A continuacin se explican las formas en que surge la censura tales como: censura tipo I, censura tipo II. Sin embargo, en este trabajo se presentan otros tipos de censura con el objetivo de tener una percepcin ms amplia de los diferentes tipos de datos censurados.

26

6.9.2 Censura tipo I.

En muchos estudios el investigador debe determinar un tiempo mximo de observacin para que ocurra la falla en los individuos. En este caso diremos que una muestra presenta censura tipo I cuando las unidades de prueba x1,x2,.,xI son sujetas a periodos limitados de tiempo t01, t02,,t0n. De modo que el tiempo de falla de la i-esima prueba o unidad i; se observa si Ti t0i. Si Ti es mayor que t0i, el individuo es un sobreviviente y su tiempo de vida es censurado en el tiempo t0i. Cuando los limites t01= t02=.= t0n se tiene un tipo particular de censura tipo I. Se supone tambin que los tiempos de vida son independientes e idnticamente distribuidos con funcin de densidad de probabilidad f ( x) y funcin de sobrevivencia S ( x) . Los datos de este tipo de censura se pueden representar por medio de pares de variables aleatorias (ti , i ) donde i es una variable indicadora de T que indica el estado de la variable, es decir
1, t i = min(Ti , t0 i ) y i = 0, si Ti t0 i si Ti > t0 i

La interpretacin es la siguiente: si i=1 indica que Ti se observ exactamente y si i=0 es que Ti fue censurado. Por lo que, si se observ el tiempo de vida Ti es igual a ti y es igual a t0i si es un tiempo de vida censurado.

6.9.3 Censura tipo II.

En este caso el investigador decide prolongar el periodo de observacin hasta que ocurran n fallas de N posibles (n<N), registrando este ltimo valor de falla para el resto de los individuos (censuras) que no observ. Donde n es un entero

predeterminado entre 1 y N. Una razn comn para determinar el nmero de fallas a

27

observar es la potencia que se requiere para el estudio. Se debe notar que n es el numero de fallas y N-n el nmero de observaciones censuradas.

Adems este tipo de experimentos se utiliza para ahorrar tiempo y dinero, ya que puede pasar mucho tiempo antes de observar que todos los elementos bajo prueba fallen.

6.9.4 Censura progresiva

En muchas situaciones de pruebas de vida, la censura inicial da lugar a retiro solamente de una porcin de los sobrevivientes, con algn restante de la prueba y por lo tanto la continuacin bajo observacin hasta ltima falta o hasta que una etapa subsecuente de la censura se realiza. grandes, la censura puede ser progresiva. Para las muestras suficientemente

Para la censura progresiva tipo I. Suponga que la censura ocurre progresivamente en k estados de tiempo t0i, donde t0i > t0(i-1), i = 1,2,..., k y que en el i-simo estado de censura, ri de los elementos de la muestra que todava estn vivos en el tiempo t0i son removidos (censurados) aleatoriamente para futuras observacines. Si nosotros denotamos a N como el tamao total de la muestra, y n el nmero de especimenes que fallan y por consiguiente proporcionan el tiempo de vida completamente determinada y medida en k estados del tiempo, esto es

N = n + ri
1

La censura progresiva tipo II es una generalizacin de la censura tipo II. En este tipo de censura los primeros r1 tiempos son registrados de una muestra con N

observaciones, despus N1 de los restantes N r1 elementos son removidos (censurados) del experimento, dejando N-r1-N1 elementos an presentes. En

28

seguida, una vez que a r2 elementos de los restantes se les registra su tiempo de vida o reaccin, de los que quedan N r1 N1 r2 se retiran N2 elementos del experimento, dejando en este momento en el proceso N r1 r2 N1 N2. Este proceso continuar hasta completar n datos entre tiempos registrados y datos censurados.

6.9.5 Censura aleatoria

La censura aleatoria se presenta cuando los individuos experimentan algunos otros eventos de competencia los cuales causarn que estos sean retirados del experimento, en tales casos, no se observa el evento de inters. Algunos eventos que causan que el individuo sea censurado aleatoriamente, con respecto al evento de inters, son muertes accidentales, pacientes que abandonan una prueba clnica, y eventos similares.

6.9.6 Censura por intervalo

Los datos censurados por intervalo reflejan incertidumbre en cuanto a los tiempos exactos que las unidades fallaron dentro de un intervalo. Este tipo de datos viene con frecuencia de pruebas o de las situaciones donde los objetos de inters no se supervisan constantemente. Si estamos realizando una prueba con cinco unidades y las estamos examinando cada 100 horas, sabemos solamente que una unidad fall o no fall entre las inspecciones. Ms especficamente, si examinamos cierta unidad en 100 horas y la encontramos funcionando y despus realizamos otra inspeccin en 200 horas para encontrar que la unidad no esta funcionando, sabemos que una falta ocurri en el intervalo entre 100 y 200 horas. Es decir la nica informacin que tenemos es que fall en cierto intervalo del tiempo. Este tipo de censura es tambin llamada, por algunos autores, datos de la inspeccin.

29

6.9.7 Censura por la izquierda

Este tipo de censura es similar a la censura por intervalo y se llama censura por la izquierda. En datos con censura por la izquierda un tiempo de vida t asociado a una unidad o individuo se considera como censurado por la izquierda si es menor que un tiempo de censura ti, que indica que el evento de inters ya ha ocurrido en el individuo antes de que inicie el estudio, en el caso expuesto anteriormente para la censura por intervalo por ejemplo, podemos saber que cierta unidad fall alguna vez antes de 100 horas (es decir antes de iniciar el estudio) pero no exactamente cuando. Es decir habra podido fallar en cualquier momento entre 0 y 100 horas. Esto es idntico a los datos con censura por intervalo en los cuales la hora de salida para el intervalo es cero.

6.9.8 Censura por la derecha

El caso ms comn de la censura se refiere a datos con censura por la derecha, o datos suspendidos. En el caso de los datos de de tiempos de vida, estos datos se componen de las unidades que no fallaron. Por ejemplo, si probramos cinco unidades y solamente tres hubieran fallado para el final de la prueba, habramos suspendido datos (o datos con censura por la derecha) para las dos unidades

restantes. La censura por la derecha implica que el acontecimiento de inters, es decir el tiempo a la falla est a la derecha de nuestro punto de referencias (t0i). Es decir el valor exacto de nuestra observacin no es conocido, solamente se sabe que es mayor o igual a (t0i).

30

7. DISTRIBUCIN WEIBULL

7.1 Historia de la distribucin

La distribucin Weibull es quizs el modelo de tiempos de vida ms usado en aplicaciones industriales y biomdicas. La distribucin Weibull comienza a ser referenciada despus de que el fsico sueco, Waloddi Weibull (1887-1979) la usara en el ao de 1939 para representar la distribucin del esfuerzo de rotura de

materiales, especialmente para el anlisis de falla en elementos metalrgicos, con todo el mtodo no atrajo mucha atencin. Sin embargo, en 1951 en su articulo A statistical Distribution Function of Wide Applicability en donde contempla varias de las aplicaciones de este modelo, la concondarcia que Weibull demostr entre sus datos observados y aquellos que predijeron con los modelos Weibull era bastante impresionante. l us la distribucin para modelar datos de problemas que tratan con el lmite aparente de elasticidad del acero, la fuerza de la fibra de algodn de la india, la vida de fatiga de un acero, la estatura de nios nacidos en las Islas Britnicas y anchura de frijoles de Phaseolus vulgaris. Es interesante observar que Rosen y Rammler haban usado esta distribucin en 1933 para describir las leyes que gobiernan la fineza de carbn pulverizado. En la literatura estadstica de Rusia esta distribucin es a menudo llamada la distribucin de Weibull-Gnedenko desde que esta es una de los tres tipos de distribuciones lmite para el mximo de la muestra establecido rigurosamente por Gnedenko (1943). El nombre de distribucin Frechet se usa a veces debido al hecho que fue Frechet(1927) quin primero identific esta distribucin.

La distribucin Weibull incluye como casos especiales a la distribucin exponencial y a la distribucin Rayleigh. El uso de la distribucin en trabajos de confiabilidad y control de calidad es mencionado por algunos autores como Weibull (1951), Kao (1959), y Berrettoni (1964).

31

Las bases probabilsticas para la distribucin Weibull no se encuentra comnmente en las situaciones donde la distribucin se emplea realmente. Sin embargo, Malik (1975) y Franck (1988) tienen asignados algunos significados e interpretaciones fsicas simples para la distribucin de Weibull, as proporcionando usos naturales de esta distribucin en los problemas de confiabilidad. Algunas situaciones donde se presentar la distribucin de Weibull probablemente ha sido mencionado por Gittus (1967). Hallinan (1993) ha proporcionado recientemente una revisin excelente de la distribucin Weibull presentando diversas formas de esta distribucin segn lo utilizado por los mdicos y las posibles confusiones y errores que se presentan en su uso y aplicacin.

7.2 Distribucin Weibull

A continuacin se da la definicin de cuando una variable aleatoria continua X tiene una distribucin de probabilidad tipo Weibull.

Definicin 6. Una variable aleatoria contina X se dice que tiene distribucin Weibull con parmetros y , si su funcin de densidad esta dada por
x x 1e , f ( x; , ) = 0,

si 0 < x < ; , > 0 d.c.o.f.

(1)

Esta forma de expresar la funcin de densidad de la distribucin Weibull es la empleada por el mismo Waloddi Weibull, aunque cabe mencionar que en la actualidad algunos autores emplean otras formas equivalentes tales como:

32

x 1 , f ( x; , ) = x e 0,

si 0 < x < ; , > 0 d.c.o.f.

o bien

x 1e x , f ( x; , ) = 0,

si 0 < x < ; , > 0 d.c.o.f.

Observacin La primera expresin, se puede ver que es equivalente a la segunda sustituyendo a beta en la primera por beta elevado a la alfa. Para ver la equivalencia de la primera y la tercera expresin se efecta la siguiente reparametrizacin =

en la primera expresin. Por ltimo para ver la equivalencia

entre la segunda y tercera expresin se lleva a cabo la siguiente reparametrizacin

en la segunda expresin.

Los parmetros y de la distribucin, representan parmetros de forma y de escala, respectivamente. Es decir, al parmetro , se le llama: Parmetro de forma, y se emplea para modificar la forma de la distribucin, ver Figura 1, en donde se muestran algunas grficas de la funcin de densidad tipo Weibull, para los valores de beta igual a uno y alfa con valores de 0.75, 1, 2,3. Debido a que con frecuencia es conveniente conocer la forma de las distribuciones acumuladas en la figura siguiente se muestran tambin las funciones acumuladas para los casos anteriores.

33

Para el caso en que =1, la distribucin Weibull coincide con la exponencial. Al parmetro se le llama: Parmetro de escala y sirve para controlar las unidades en que se mide a la variable X, (ver Figura 2). En donde se fija al parmetro alfa con el valor de tres y a beta se le vara con 0.5, 1,2 y 3. Observando que la forma se conserva, ms no as su amplitud.

De las figuras 1 y 2, podemos observar que en el modelo tipo Weibull, el valor de la variable aleatoria no tiene cota superior.

34

La ecuacin para la funcin de distribucin acumulada de la variable aleatoria contina tipo Weibull con parmetros: y , se obtiene de la siguiente forma:

x F ( x; , ) = f (t )dt = t 1e dt = t 1e dt 0 0 0 x x

Ahora si se realiza el cambio de variable, y =


1 t = ( y ) , t = ( y ) 1

se tiene que

( y) , dt = dy , as reacomodando trminos se obtiene y

1 1 x ( y) F ( x; , ) = ( y ) e y dy 0 y

eliminando trminos se obtiene

F ( x; , ) = e y dy = e y
0

x 0

como y =

entonces finalmente tenemos :

F ( x; , ) = e

x 0

= 1 e

(2)

Sabemos que la funcin de distribucin inversa es lo contrario de la funcin de distribucin acumulada, por lo que la ecuacin de la funcin de distribucin inversa de la distribucin Weibull es:
Pr[X G ( p)] = p , esto es, por lo obtenido anteriormente se tiene que 1 e
x

= p,

de manera que:

x = [ ln(1 p)

35

O alternativamente

1 G ( p) = ln 1 p

(3)

En la Figura (3) se presenta el diagrama de la funcin de distribucin inversa de Weibull.

La funcin de supervivencia asociada con la distribucin de tiempos de falla tipo Weibull esta dado por:

S ( x) = 1 F ( x)

x S ( x) = 1 1 e

S ( x) = e

, si x > 0

(4)

36

En la Figura (4) se muestra el diagrama de la funcin de supervivencia de Weibull.

La ecuacin para la funcin de supervivencia inversa de la distribucin de tiempos de falla tipo Weibull es:

Z ( p) = G (1 p) 1 Z ( p ) = ln (1 p ) 1 1 Z ( p) = ln p
1 1

(5)

La Figura (5) muestra el diagrama de la funcin de supervivencia inversa de Weibull.

37

Se tiene que la funcin de riesgo esta dada de la siguiente forma:

h( x ) =

f ( x) S ( x)

por lo que para la distribucin Weibull se tiene que


x

h( x ) =

1 x e
x

es decir

h( x ) =

1 x

(6)

La Figura (6) muestra el diagrama de la funcin de riesgo de la distribucin Weibull.

38

Como la funcin de riesgo para la variable aleatoria esta dada por


H ( x) = ln (1 F ( X ) )

La funcin de riesgo acumulada de la distribucin de Weibull es:


x H ( x) = ln 1 1 e

x H ( x) = ln e
x

H ( x) =

(7)

La Figura (7) muestra el diagrama de la funcin de riesgo acumulada de la distribucin Weibull.

39

7.3 Caractersticas estadsticas de la distribucin Weibull

TEOREMA 2. Sea X una variable aleatoria continua con distribucin Weibull, y parmetros y , entonces.

1 = E( X ) = y
Demostracin

= 2

2 1 2 2

Por definicin de valor esperado


x 1 = E ( X ) = xf ( x )dx = x x e 0

x dx = x e dx 0

Haciendo

un
1

cambio

de

variable

y=

de

donde

x = ( y ) ,

x = y,

dx =

( y)
y

dy resultara:

y y = ye 0 y

( )

1 1 y y y = dy = . . y dy y e dy e 0 y 0

De manera que

1 = 1 + o bien
1

1 = E( X ) =

40

En donde ( ) , es la funcin gamma definida como:

( ) = x 1e x dx
0

>0

Para obtener la varianza, en principio se encuentra el segundo momento integrando de forma similar a lo hecho para el primer momento (es decir, se usan los mismos cambios de variable). As,
x E ( X ) = x f ( x ) dx = x x 1e 2 2 2

x +1 dx = x e dx 0

Si y =

entonces x = ( y ) , x +1 = ( y )

1+

, dx =

( y)
y

dy , de forma que al

efectuar este cambio de variable, se tiene:

E(X ) =
2

( y)
0

1+

( y)
y

1 1 2 1+ 1 y 1+ y 1 dy = y y dy y = e e dy 0 0

Por lo que

2 E X 2 = 1 +
Ahora, como 2 = E(X2) (E(X))2, entonces

( )

1 1 2 1 2 2 1 2 2 = 1 + = 2

41

Esto es,

= 2
2

2 2 1 2

La desviacin estndar es una medida de variabilidad directamente asociada la varianza, ya que esta se define como: = 2

La ventaja de esta medida se debe a que tiene como unidad de medicin, la misma unidad utilizada en los datos.

Ahora, la desviacin estndar asociada a la distribucin Weibull esta dada por:

= 2

2 2 1 2

Por otro lado, el coeficiente de variacin (C.V) es una medida de dispersin relativa, que se obtiene dividiendo la desviacin estndar entre la media. Simblicamente para la distribucin Weibull tenemos:

C.V . =

2 1 1 1 + 1 + = 1 1 1 +
2

2 1 1 1 + 1 +
2

1 1 1 +

As que,

C.V =

2 1 2 1 1 1 +

1 +

42

Puesto que tanto la desviacin estndar como la media se miden en las unidades originales, el C.V es una medida independiente de las unidades de medicin.

Para una distribucin continua, la moda (Mo) es el valor de la variable aleatoria que corresponde al mximo de la fdp .

Esto es, la vida modal (o moda), es el valor de x que satisface la ecuacin:

d [ f ( x)] =0 dx

As para el caso de la funcin de densidad tipo Weibull su moda se obtiene resolviendo la ecuacin:
x 1 d x e dx

=0

As, si se define: C = , g ( x) = x 1 , d ( x) = e y m( x) = g ( x)d ( x)

Entonces,
x 1 x e f ( x) = cm( x) = c [ g ( x)d ( x) + d ( x) g ( x) ] = x 1

x 2 + e ( 1) x

Simplificando se tiene
x

x e f ( x) = ( 1) x 2 e 2
2 2 2

2 =

2 2 x 2 2 e x 2

43

De aqu que f(x) = 0, si y slo si,


x

2 2 2 x 2 2 =0 x 2 e

Esto es, si y slo si,

2 2 2 x 2 2 x 2 = 0

O de forma equivalente si

2 2 2 2 x x 2 = 0 ) x 2 2 x 2 2 = x x x =

De donde resulta que la ecuacin tiene dos soluciones, una de las cuales corresponde a la solucin de la ecuacin:

( 1) x = 0 , esto es, x =

La otra corresponde a la solucin de la ecuacin: x 2 = 0 , es decir la solucin en este caso es: x = 0.

( 1) De manera que si > 1, la moda es: Mo = .


Si 0< 1, entonces la moda resulta ser: Mo = 0.

44

La mediana (Me), es el valor de la variable aleatoria continua, tal que,


Me

f (t )dt = 0.5

As para el caso de la funcin de densidad tipo Weibull su mediana Me es la solucin de la siguiente ecuacin integral:
t

1 t e dt = 0.5 0
x

As,
t

t 1 x 1 0.5 = t e dt = t e dt 0 0
x

Haciendo el cambio de variable y =

de donde t = ( y ) , t 1 = ( y )

dt =

( y)
y

dy resulta:

0.5 =

( y )
0

e y

( y) dy = y

e
0

dy = e y

x
0

= 1 e

De aqu que
x

= ln(0.5)

o bien

x = [ ln(2)]

45

Por lo que la mediana para funcin de densidad tipo Weibull es:

Me = [ ln(2)] .
1

El r-simo momento (alrededor de cero) para una distribucin probabilstica se define como: r' = E ( X r ) . As el r-simo momento para la distribucin Weibull se obtiene de la siguiente manera:
x = E ( X ) = x f ( x ) dx = x x 1e 0

' r

r + +1 x dx = x e dx 0

Esto es, para obtener el r-simo momento de la distribucin Weibull es necesario resolver la ltima integral, lo cual se logra haciendo el siguiente cambio de variable:

y=

de donde x = ( y ) , x r + 1 = ( y )

+1

, y dx =

( y ) dy . y

As, al efectuar el cambio de variable en la ltima integral se tiene:

1 r y +1 y = ( y ) e 0 y ' r

( )

r +1 1 dy = . . y 0
r

+1

y y 1dy

Ahora, simplificando se tiene


r r

= . y
' r

1 1 +1 + 1

dy = . y

r dy = + 1
r

Esto es,

r' =

r + 1

46

8. ESTIMACIN EN MODELOS PARAMTRICOS

El objetivo bsico de la inferencia y en particular de la estimacin es obtener informacin acerca de los parmetros de la poblacin (media, varianza) a partir de la muestra.

Definicin 7. Un estadstico es cualquier funcin de una muestra aleatoria de una distribucin probabilstica, la cual no contiene parmetros desconocidos.

Por lo tanto, un estadstico (o una estadstica) es en si misma una variable aleatoria. Definicin 8. Un estimador del parmetro (desconocido) de una distribucin, es una estadstica cuyo soporte es un subconjunto (generalmente propio) del espacio paramtrico de la distribucin. La estimacin para un parmetro , se dice que es puntual, si este se estima a

. travs de un solo valor

Existen varios mtodos de estimacin para obtener la estimacin de los parmetros de cualquier modelo paramtrico, por ejemplo el mtodo de momentos, el mtodo de mxima verosimilitud, el mtodo de Bayes y el mtodo de mnimos cuadrados, sin embargo en este trabajo slo se describen el mtodo de momentos y el de mxima verosimilitud por ser los ms usados, y en particular el segundo debido a que se obtienen estimadores con propiedades deseables y buenas propiedades lmite y puede aplicarse en gran cantidad de situaciones.

47

8.1 Mtodo de momentos Sea X1,.., Xn una muestra aleatoria de tamao n de alguna funcin de distribucin de probabilidad f ( x 1 ,... k ) , como se sabe, el k-simo momento de la poblacin (distribucin) y el k-simo momento de la muestra estn definidos como:

= E ( X k ). k-simo momento de la poblacin: k

K-simo momento de la muestra: mk =

1 n k Xi n i =1

Para el caso en que k=1, el primer momento poblacional es = E ( X ) y el primer momento de la muestra m = X Los momentos poblacionales j son una tpica funcin de 1 ,...., k es decir

k ) de (1 ,...., k ) se obtienen al j (1 ,...., k ). Los estimadores de momentos (1 ,....,


igualar los primeros m momentos mustrales a los correspondientes m momentos poblacionales y resolviendo para los parmetros 1 ,...., m , es decir

1' = E ( X ) =

1 n Xi n i =1

' 2 = E( X 2 ) =

1 n 2 Xi n i =1

M
' m = E( X m ) =

1 n m Xi n i =1

48

8.2 Mtodo de mxima verosimilitud

Dada una muestra observada ( x1 ,...., xn ) y una ley de probabilidad P , la verosimilitud cuantifica la probabilidad de que las observaciones provengan efectivamente, de una muestra (terica) de la ley P . Definicin 9.- Sea C un conjunto finito o numerable, {P } una familia de leyes de probabilidad sobre C y n un entero. Llamamos verosimilitud asociada a la familia

{P }, para una n-ada


funcin definida por:

( x1 ,...., xn ) de elementos de C y un valor del parmetro a la

L( x1 ,...., xn ; ) = P ( xi )
i =1

La interpretacin es la siguiente. Consideremos una muestra terica ( x1 ,...., xn ) de la ley P . Por definicin, las variables aleatorias X 1 ,...., X n son independientes y de una misma ley P . Por lo tanto la probabilidad que la muestra terica X 1 ,...., X n tenga por realizacin la muestra observada ( x1 ,...., xn ) , es el producto de las probabilidades de que cada X i tome el valor xi , es decir:

P[( X 1 ,...., X n ) = ( x1 ,...., x n )] = L( x1 ,...., x n ; )

En el caso de un modelo continuo, la ley P tiene una densidad sobre R, y la probabilidad que la muestra tome un valor particular es siempre nula. As que hay que reemplazar la probabilidad P por su funcin de densidad de probabilidad en la definicin de verosimilitud.

49

Definicin 10. Sean {P } una familia de leyes de probabilidad continuas sobre r y n un entero. Denotemos por f la funcin de densidad de probabilidad de la ley P . Llamamos verosimilitud asociada a la familia {P } a la funcin que para una n-ada

( x1 ,...., xn ) de elementos de R y un valor del parmetro est definida por:

L( x1 ,...., x n ; ) = f ( x i )
i =1

La interpretacin es la siguiente. Consideremos una muestra terica ( x1 ,...., xn ) de la ley continua P . Sea un nmero real estrictamente positivo. La probabilidad de que la muestra terica X 1 ,...., X n tenga una realizacin en una vecindad de radio '' de la muestra observada ( x1 ,...., xn ) puede escribirse como:

n 2 P X 1 x1 , x 2 + ,...., X n x n , x n + = f ( x)dx 2 2 2 2 i =1 x
i

xi +

f ( xi )
i =1

= n L( x1 ,...., xn ; )

Estimar un parmetro por el mtodo de mxima verosimilitud, es proponer como valor del parmetro aqul que maximice la verosimilitud, es decir, a la probabilidad de observar los datos como realizacin de una muestra de la ley P .

50

Definicin 11 Supongamos que para todo valor ( x1 ,...., xn ) , la funcin que a asocia

= ( x ,...., x ) = max L( x ,...., x ; ) en L( x1 ,...., xn ; ) admite un mximo nico. Al valor 1 n 1 n

el cual se alcanza ese mximo depende de ( x1 ,...., xn ) y le llamamos estimacin de mxima verosimilitud para el parmetro . Si X 1 ,...., X n es una muestra (terica) de la ley P , la variable aleatoria: T = ( X 1 ,...., X n ) es el estimador de mxima verosimilitud de en base a la muestra X 1 ,...., X n .

Para la mayora de las leyes de probabilidad usuales, el estimador de mxima verosimilitud se define de forma nica y se calcula explcitamente. En el plano terico tiene muchas ventajas. Bajo hiptesis que cumplen numerosos modelos de uso corriente, se demuestra que es asintticamente insesgado y consistente. Se demuestra, adems, que su varianza es mnima, por lo tanto el mtodo de mxima verosimilitud es tericamente el mejor de los mtodos de estimacin. Cuando una determinacin explcita es imposible, hay que recurrir a una determinacin numrica, empleando un algoritmo de optimizacin.

En la mayor parte de los casos de inters prctico, la ley P

y por tanto tambin la

verosimilitud, tienen una expresin calculable en funcin de . Para calcular el mximo de la verosimilitud, es necesario determinar los valores para los cuales la derivada de la verosimilitud se anula, pero por definicin la verosimilitud es un producto de probabilidades o de densidades, lo cual puede ser bastante complicado de derivar. Es preferible derivar una suma, y es por esto que comenzamos por sustituir la verosimilitud por su logaritmo. Al ser el logaritmo una funcin creciente, es equivalente maximizar log( L( x1 ,...., x n ; ) o L( x1 ,...., x n ) . Una vez determinado el valor de para el cual la derivada se anula, hay que asegurarse con la ayuda de la segunda derivada que el punto en cuestin es realmente un mximo. Es decir el punto en que la verosimilitud es mxima, es la solucin del sistema de k ecuaciones

51

L( 1, 2,....., k ) = 0, 1 L( 1, 2,....., k ) = 0, 2 M L( 1, 2,....., k ) = 0. k

Como se ha visto el mtodo de mxima verosimilitud procura encontrar los valores ms probables de los parmetros de la distribucin para un conjunto de datos, maximizando el valor de lo que se conoce como la funcin de verosimilitud. La funcin de verosimilitud se basa en la funcin de la densidad de la probabilidad (fdp) para una distribucin dada.

Los estimadores de mxima verosimilitud poseen las siguientes propiedades:

Son eficientes y ptimos asintticamente normales con media y matriz de

n(,I-1()), donde I() es la matriz varianzas y covarianzas I-1(), es decir


de informacin de Fisher.

Son consistentes simples y consistentes en error cuadrado medio. Son funcin de los estadsticos mnimos suficientes.

Adems de estas propiedades, los estimadores mximo-verosmiles poseen una

el estimador mximo-verosmil de en la propiedad, llamada invarianza, esto es si


densidad y si u ( ) es una funcin de con funcin inversa uniforme, el estimador

). mximo-verosmil de u ( ) es u (

Sin embargo, es importante notar que cuando se trata de datos censurados se debe tener mucho cuidado para construir la funcin de verosimilitud ya que sta cambia para cada tipo de censura, lo cual se revisa detalladamente a continuacin.

52

8.3 Estimacin por mxima verosimilitud para muestras censuradas

Como se mencion anteriormente, para la censura tipo II, los datos consisten de los n tiempos de vida ms pequeos X (1) X (2 ) ... X (n ) de una muestra aleatoria de N tiempos de vida X 1 ,...., X N provenientes de una distribucin de los tiempos de vida. Suponiendo que X 1 ,...., X N son independientes e idnticamente distribuidos con funcin de densidad de probabilidad f ( x) y funcin de sobrevivencia S ( x) , la funcin de verosimilitud es
N n N! n f ( xi ) S ( xn ) ( N n )! i =1

L=

(8)

Denotando esto en trminos de ( i , t i ) la notacin que nosotros tenemos i = 0 y

ti = xn para los individuos cuyo tiempo de vida es censurado, se puede ver que (8) da
una funcin de verosimilitud para los datos con censura tipo I, simplemente substituyendo el valor de x n por x 0 en la funcin de sobrevivencia es decir (8) es la funcin de verosimilitud para los datos con cesura tipo I y II.

53

9. ESTIMACIN DE LOS PARMETROS DE LA DISTRIBUCIN WEIBULL POR MXIMA VEROSIMILITUD

9.1 Estimacin por mxima verosimilitud para muestras completas

Sea X1,.,Xn una muestra aleatoria con funcin de densidad tipo Weibull. Suponiendo que X1,.,Xn son independientes e idnticamente distribuidos, entonces la funcin de verosimilitud esta dada por
xi

1 L(x1 ,......xn ; , ) = xi e i =1
n

(9)

n i=1 L ( x1 ,......xn ; , ) = xi 1 e i =1

xi
(10)

Tomando logaritmos de (10), se obtiene:


xi n n i=1 L ( x1 ,......xn ; , ) = ln xi 1 e ln i =1
n

Por lo que,
L ( x1 ,......xn ; , ) ln = n ln n 1 n 1 ln + x ) i xi ( i =1 i =1 n 1 n = n ln n ln + ( 1) ln xi xi i =1 i =1

54

Esto es,

n 1 L ( x1 ,......xn ; , ) = + ln ln ln 1 n n ( ) ln xi i =1

x
i =1 i

(11)

Luego, para obtener los estimadores de mxima verosimilitud, utilizando el criterio de las derivadas, se obtienen las derivadas parciales de (11) con respecto a y , se igualan a cero y se resuelven las ecuaciones que resultan, esto es:

ln(L ) n n 1 = + ln xi i =1 ln(L ) n 1 = + 2

x ln x
i =1 i

x
i =1 i

=0

= 0

(12)

Despejando de la primera ecuacin de (12):

x ln x
i =1 i

+ ln xi
i =1

Despejando de la segunda ecuacin de (12):

x
i =1 i

Ahora se igualan entre si las dos expresiones que se han obtenido en el miembro derecho de , se tiene:

x
i =1 i

x ln x
=
i =1 i

+ ln xi
i =1

La cual puede ser simplificada de la siguiente manera:

55

+ ln xi =
i =1

n xi ln xi
i =1

x
i =1

, de aqu se tiene que,

n xi ln xi 1 n ln xi = n i =1 n , o bien i =1 xi i =1 n xi ln xi n 1 1 ln xi = i =1 n n i =1 xi i =1

(13)

Para obtener el estimador de m.v.

de

, es decir la solucin para en la

ecuacin (13), se aplican procedimientos iterativos estndares, una vez calculado el

, se sustituye en (12) resolvindose la ecuacin en para obtener el valor de . Esto es: estimador de m.v.

x
i =1 i

(14)

El smbolo (^) se emplea para distinguir los estimadores de m.v de los parmetros que son estimados.

56

9.2 Estimacin de mxima verosimilitud para muestras con censura tipo II

Cuando los datos presentan censura tipo II la funcin de verosimilitud puede escribirse como:
N n N! n f ( x i ) 1 F ( x n ) ( N n )! i =1

L(x1 , ..., x N ; , ) =

(15)

Cabe sealar que 1 F ( xi ) por definicin representa la funcin de sobrevivencia. Entonces (15) puede escribirse como
N n N! n L(x1 , ..., x N ; , ) = f x S x ( ) ( ) i n ( N n )! i =1

(16)

Anteriormente se mostr que la funcin de sobrevivencia asociada a la distribucin Weibull es:


x

S ( x) = e

Suponiendo que X1,.,Xn son independientes e idnticamente distribuidos con funcin de densidad tipo Weibull f ( xi ) y funcin de sobrevivencia S(x) . Entonces las estimaciones de mxima verosimilitud de los parmetros de la distribucin Weibull manera:
N n

para datos con censura tipo II, se obtienen de la siguiente

N! n L(x1 , ..., x N ; , ) = ( N n )! i =1

1 i xi e

xn e

57

xi n n i=1 N ! xi 1 e L(x1 , ..., x N ; , ) = ( N n )! i =1


n

xn e

N n

(17)

Tomando logaritmos en ambos miembros de (17), empleando las propiedades de logaritmos y tomando L(,) = L(x1, . .., xN; ,), resulta:
n N! 1 ln( L( , )) = ln + n ln( ) + n ln( ) + ( 1) ln( xi ) ( N n )! i =1

x
i =1

( N n)

xn

(18)

Tomando derivadas parciales de (18) con respecto a y e igualando a cero, se obtiene


ln ( L( , ) ) ln ( L( , ) ) = 0

+ ln xi
i =1

x ln x
i i

(19)

x = 0

Donde

significa que la sumatoria se extiende sobre el total de la muestra con los

(N n ) sobrevivientes. En particular se tiene


n = xi ln xi + ( N n )xn ln xn xi ln xi i =1 * n xi + ( N n )xn xi = i =1 *

(20)

58

En la forma escrita la ecuacin (19), es anloga a la ecuacin (12) para muestras completas, es decir despejando de ambas ecuaciones en (19) resulta:

x ln x
i

+ ln xi
i =1

, al despejar de la primera ecuacin y

x
i

, al despejar de la segunda ecuacin.

Igualando entre si los dos valores de que se han obtenido resulta que:

x
i

x ln x
i

+ ln xi
i =1

, de forma que, al simplificar esta ecuacin se tiene lo siguiente:

+ ln x = n x ln x x
i i =1 i i

, y de aqu,

+ ln xi =
i =1

n xi ln xi

, o bien

x ln x
i

1 n ln xi n i =1

(21)

59

, de la ecuacin (21), se pueden utilizar mtodos Ahora, para obtener la solucin,


numricos, como por ejemplo el de Newton-Rapson, como en el caso de muestras

, completas. Una vez encontrado

, para se obtiene el estimador de m.v.,

en la segunda ecuacin de (19). Esto es: sustituyendo a por

x
i

(22)

9.3 Estimacin de mxima verosimilitud para muestras con censura tipo I

Como se ha visto, al tratar con este tipo de censura, es conveniente usar un tipo conveniente de notacin. Supngase que existen N el tiempo de vida del i-simo individuo es supone que los tiempos de vida individuos bajo estudio y que

Xi

y su tiempo de censura

x0i . Se

Xi

son variables aleatorias independientes e


f () y funcin

idnticamente distribuidas con funcin de densidad de probabilidad

de supervivencia S () . Ahora, el tiempo de vida del i-simo individuo ser observado si

X i < x0i .

As, los datos de tal situacin pueden representarse de manera

conveniente por las N parejas de variables aleatorias

(xi , i ) ,

donde

xi = min ( X i , x 0i )

i =

1, si X i < x0i 0, si X i x0i

donde i indica si el tiempo de vida es censurado o no. Ahora, la funcin de densidad conjunta de xi y i esta dada por
h( xi , i ) = [ f ( xi )] i [S ( x0i )]

1 i

60

Para verificar la validez de esta expresin, obsrvese que aleatoria mixta con una componente continua y una discreta.

xi

es una variable

La parte discreta esta dada por:

P( xi = x0i ) = P( i = 0) = P( X i x0i ) = S ( x0i )


Para la parte continua, es decir, si xi < x0i se tiene que la funcin de densidad de probabilidad est dada por:

f (xi i = 1) = lim

P(xi X i < xi + x X i < x 0i ) x

x 0

= lim

1 P( xi X i < xi + x ) x 0 x P( xi < x0i )

P( xi X i < xi + x ) 1 lim x 1 S ( x0i ) x 0 f ( xi ) 1 S (x 0i )

lo cual denotamos por:


f (xi i = 1) = P(xi X i < x0i ) = f ( xi ) 1 S (x0i )

61

As, la densidad conjunta

( xi , i )

tiene las siguientes componentes:

P( xi = x0i , i = 0 ) = P( i = 0) = S ( x0i ) ;
f ( xi ) P( xi , i = 1) = P(xi i = 1)P( i = 1) = 1 S ( x0i ) = f (xi ) 1 S (x 0i )

Combinando estas expresiones tenemos:


P( xi , i ) = [ f ( xi )] i [S ( x0i )]

1 i

, i = 1,2, K, N

Como los pares verosimilitud es:

(xi , i )

son independientes para

i = 1,2, K, N , la funcin de
1 i

L( x1 ,..., xN ; , ) = f ( xi ) S ( x0i )
i =1

Observacin: En este caso, los tiempos de censura x 0i , con i = 1,2, K, N son fijos y el nmero exacto de tiempos de vida observados es una variable aleatoria.

Suponiendo que

X 1 ,K, X N

son independientes e idnticamente distribuidos con

funcin de densidad tipo Weibull

f ( xi )

dada en (1) y funcin de sobrevivencia

S ( x0i ) dada en (4) Entonces la funcin de verosimilitud para datos con censura tipo I
es:
i
1 i

L( x1 ,......x N ; , ) = i =1
N

1 xi e

xi

x0 i e

(23)

L( x1 ,......x N ; , ) =

xi
i =1

i ( 1)

( x +(1 ) x )
i i i 0i

(24)

62

En donde r = i
i =1

denota el nmero de tiempos de vida observados y

D denota

el conjunto de aquellos individuos para los cuales i = 1.

Tomando logaritmos en ambos miembros de (24), empleando las propiedades de los mismos y tomando L( , ) = L( x1 , K, x n ; , ) , resulta:

ln (L( , )) = r ln( ) r ln( ) + ( 1) ln xi


iD

( x + (1 )x )
1
N i =1 i i i 0i

= r ln ( ) r ln ( ) + ( 1) ln xi
iD

( x )
1
N i =1 i

(25)

donde
xi = i xi + (1 i )x 0 i

Tomando derivadas parciales de (25) con respecto a y e igualando a cero, se obtiene


1 ln (L( , )) r = + ln xi iD 1 r ln (L( , )) = + 2 = 0

x ln x
i =1 i

(26)

x
i =1 i

=0

En la forma escrita la ecuacin (26), es anloga a la ecuacin (12) para muestras completas, es decir despejando de ambas ecuaciones en (26) resulta:

x ln x
i =1 i

+ ln xi
iD

, al despejar de la primera ecuacin y

63

x
i =1 i

, al despejar de la segunda ecuacin.

Igualando entre si los dos valores de que se han obtenido resulta que:

xi
i =1

x ln x
=
i =1 i

+ ln xi
iD

, de forma que, al simplificar esta ecuacin se tiene lo siguiente:

n n r x ln x = r xi ln xi , y de aqu, + i i i =1 i =1 iD n

+ ln xi =
iD

r xi ln xi
i =1

x
i =1

, o bien

x ln x
i =1 i

x
i =1

1 ln xi r iD

(27)

, de la ecuacin (27), se pueden utilizar mtodos Ahora, para obtener la solucin,


numricos, como por ejemplo el de Newton-Rapson, como en el caso de muestras

, se sustituye en (26) resolvindose la completas. Una vez calculado el valor de . Esto es: ecuacin en para obtener el estimador de m.v.

x
i =1 i

(28)

64

10. MATRIZ DE VARIANZA-COVARIANZA DE LOS ESTIMADORES

) se obtiene invirtiendo la matriz de La matriz de varianza-covarianza de ( ,


informacin, tomando el negativo del valor esperado de las segundas derivadas del logaritmo de la funcin de verosimilitud. En la presente situacin, parece apropiado aproximar los valores esperados por sus estimaciones de mxima verosimilitud. De acuerdo con esto, se tiene la matriz de la varianza-covarianza aproximada a:

2 ln(L) 2 , 2 ln(L) ,

2 ln(L) 2 ln(L) 2

) V ( Cov( ) , = ) ) V ( , Cov(

(29)

Los elementos de la matriz de informacin del lado derecho de (29) se encuentran diferenciando (12) para muestras completas, (19) para muestras con censura tipo II, y (26) para muestras con censura tipo I. As se obtiene

Para muestras completas


1 n n 2 + xi (ln xi ) 2 i =1 n 1 x ln xi 2 i i =1 1 n x ln xi 2 i i =1 2 n n 2 + 3 xi i =1

(30)

Para muestras con censura tipo II

1 * n 2 xi (ln xi ) 2 + * 1 xi ln xi 2

1 * 2 xi ln xi 2 * n 2 + 3 xi

(31)

65

Para muestras con censura tipo I


1 n n 2 + xi (ln xi ) 2 i =1 n 1 xi ln xi 2 i =1 1 n xi ln xi 2 i =1 2 n n 2 + 3 xi i =1

(32)

Aunque los resultados anteriores slo son vlidos en un sentido estricto para muestras grandes, ellos pueden encontrase en proporcin para obtener

aproximaciones razonables para estimar varianzas y covarianzas para las muestras de tamao moderado. Las estimaciones de mxima verosimilitud son consistentes y sabemos que el error de estimacin disminuye cuando el tamao de la muestra es grande.

66

11. METODOS NUMERICOS UTILIZADOS

Los sistemas de ecuaciones no lineales, obtenidos en la estimacin de los parmetros de la distribucin Weibull, conducen a la necesidad de recurrir a

mtodos iterativos a travs de programas computacionales. En este caso, se aplica el mtodo de Newton Raphson a travs de un algoritmo en IML ( Interactive Matriz Language) de SAS, para resolver los sistemas de ecuaciones no lineales, a continuacin se presenta el mtodo de Newton Raphsn

11.1 Mtodo Newton Raphson

En la estimacin de mxima verosimilitud para muestras completas, censura tipo I, y censura tipo II se puede observar que no se tienen soluciones explicitas en la obtencin de los estimadores de mxima verosimilitud, motivo por el cual se tiene que recurrir a este mtodo que es un procedimiento iterativo que puede usarse para obtener dichos estimadores. El mtodo consiste en resolver una ecuacin de la forma f ( x ) = 0 de la siguiente forma: Sea x = [x 1 x 2 K x n ] una raz deseada del sistema no lineal de n x n , de la
T

ecuacin f ( x ) = 0 , cuya i-sima ecuacin es:

f i ( x ) = f i ( x1 ,K, xn ) = 0,

i = 1,K, n

(33)

Y supongamos que xk es una aproximacin actual de x . La manera de obtener una aproximacin mejorada xk +1 es resolver un sistema lineal que aproxime al sistema (33) para
x

cerca de

xk . De manera especfica si

x = x k + dx , donde

67

dx = [dx1

dx x

K dx n ] , se puede obtener una aproximacin a la ecuacin exacta


T

f i ( x k + dx ) = 0 en (33) usando la diferencial total.

Y as tenemos

f i (x k ) +

f i ( xk ) f ( x ) f (x ) dx1 + i k dx2 + K + i k dxn = 0, x1 x2 xn

i = 1,K, n

(34)

Este sistema es lineal en dx1 , dx2 ,K, dxn ; y su forma matricial es


f1 ( xk ) x 1 ( f x 2 k) x1 M M f n ( xk ) x1 f1 ( xk ) x1 f 2 ( xk ) x1 M M f n ( xk ) x1 f1 (xk ) x1 f 2 (xk ) x1 M M f n (xk ) x1
1

L L O L

dx1 f1 ( xk ) dx 2 = f 2 ( xk ) = J 1dx = f ( x ) k M M dxn f n ( xk )

(35)

donde J = f (xk ) por lo tanto, podemos obtener xk +1 a partir de xk como xk +1 = xk + dxk donde dxk es la solucin de f ( xk ) dx = f ( xk ) .
1

La matriz J = f (xk ) en (35) es la matriz jacobiana no lineal asociada a la ecuacin


f ( x ) = 0 en xk . Observe que el rengln i de J contiene todas las derivadas

parciales de f i ( x ) (i-sima ecuacin), mientras que la columna j de J contiene todas

f ( x ) las derivadas parciales con respecto a x j (j-sima variable). As, f ( xk ) = i k . x j nxn

68

Por otro lado, si queremos estimar un vector de parmetros mediante mxima verosimilitud, se deben resolver las ecuaciones de verosimilitud, de donde:

(n +1) = n F ( n )1 f ( n )

Teniendo el logaritmo de la funcin de verosimilitud, entonces

f ( n ) =

d ln (L ) = S ( ) d
2 ln (L ) 1 2 2 ln (L ) 2 2 M M 2 ln (L ) k 2 2 ln (L ) 1 k 2 ln (L ) 2 k M M 2 ln (L ) k k

2 ln (L ) 211 ln (L ) F ( n ) = I ( ) = 1 2 M M 2 ln (L ) 1 k

L L O L

a la que llamamos matriz de informacin de Fisher. Entonces la estimacin por medio del mtodo de Newton Raphson resulta:

(n +1) = n F ( n )1 f ( n )

La ventaja del mtodo de Newton Raphson en la resolucin de sistemas de ecuaciones no lineales es su rapidez de convergencia, una vez que se conoce una aproximacin suficientemente exacta. Una de sus debilidades consiste en que se requiere una aproximacin inicial precisa de la solucin para garantizar la convergencia. Sin embargo no siempre es fcil determinar valores iniciales que conduzcan a una solucin.

69

Usualmente, los estimadores de momentos suelen ser utilizados como valores iniciales para la aplicacin del mtodo, desgraciadamente los clculos involucrados para la obtencin de los estimadores a travs del mtodo de momentos no siempre son fciles. A continuacin se considera un mtodo que elimina la limitacin anterior.

12. TRANSFORMACIN A UN MODELO DE REGRESION DE LA WEIBULL

Este mtodo consiste en determinar los valores de los estimadores a travs del anlisis de regresin, para posteriormente utilizarlos como valores iniciales para la estimacin por mxima verosimilitud Este mtodo consiste en lo siguiente: Los parmetros y de la funcin:
x

S ( x) = e

Se pueden estimar trasformando la funcin a una funcin lineal por medio de una transformacin logartmica doble
x

ln[S ( x)] =

ln{ln[1 / S ( x)]} = ln x ln

(36)

De esta forma el segundo miembro queda lineal en x. Como la funcin:

S ( x) = 1 F ( x) resulta:
ln{ln[1 / (1 F ( x) )]} = ln x ln

(37)

70

Para estimar grficamente los parmetros y se procede de la siguiente manera:

a) Los n registros de tiempos de falla se ordenan de menor a mayor y se les asigna un nmero de orden i de 1 a n .

b) Se calcula para cada falla la posicin Fi de la siguiente manera:

Fi =

(i 0.5)
n

donde Fi representa el porcentaje de fallas que ha tenido lugar antes del tiempo de falla correspondiente al orden i .

c) Se construye la grafica de la ecuacin (36) con abscisas

x i = ln t i

(38)

y ordenadas

y i = ln{ln[1 / (1 F ( x) )]}

(39)

Con lo cual (37) se transforma en:

y i = mx i + b

d) Se determina la regresin lineal de los puntos P( x i , y i ) de (38) y (39) con lo cual la pendiente m es y la ordenada al origen b es ln .

71

13. PRUEBA DE KOLMOGOROV DE BONDAD DE AJUSTE

Frecuentemente tenemos duda si una muestra es representativa de una poblacin o distribucin. Existen diferentes pruebas para verificar el ajuste de nuestros datos a una distribucin de probabilidad. Las dos ms utilizadas son el contraste 2 de Pearson, y la prueba de Kolmogorov-Smirnov. Histricamente estas comparaciones se llaman pruebas de bondad de ajuste. La prueba de Kolmogorov no solo es til para probar bondad de ajuste para una distribucin normal sino tambin para probar otras distribuciones.

Si el tamao de la muestra es pequeo, la prueba de Kolmogorov debe preferirse sobre la de 2 para probar la bondad de ajuste. La prueba de 2 supone que el nmero de observaciones es lo suficientemente grande como para que la distribucin

2 sea la apropiada para los datos. En trminos generales, la prueba de Kolmogorov


es ms poderosa que la de 2 en la mayora de los casos. El principio en el uso de la prueba de Kolmogorov es una comparacin entre el porcentaje acumulativo de la poblacin bajo la hiptesis nula F0 (x) con el porcentaje acumulativo de la muestra

S ( x) . Con una muestra de tamao n, la distribucin F0 (x) est fijada y podemos


calcular la diferencia S ( x) y F0 (x) para cada valor de la muestra. Las estadsticas que dependen de la distancia vertical entre S ( x) y F0 (x) se denominan del tipo

Kolmogorov. El protocolo de esta prueba se describe a continuacin:

Hiptesis La hiptesis del tipo Kolmogorov es:

Ho : F ( x) = Fo ( x) x

Ha : F ( x) Fo ( x) para al menos una x

72

Estadistica de prueba La estadistica del tipo Kolmogorov es:


D o = Supremo S ( x) Fo ( x)

Regla de decisin. La regla de decisin es: Rechazar H o si Do Dn ,

14. ALGORITMOS NUMRICOS

Los algoritmos de programacin que fueron utilizados en el proceso de estimacin de los parmetros de la distribucin Weibull para muestras completas y censuradas se escribieron en el paquete SAS, posteriormente se programaron en S-PLUS las correspondientes pruebas de hiptesis.

Debido a que el mtodo de mxima verosimilitud conduce a sistemas de ecuaciones no lineales, en la mayora de los casos es necesario recurrir a mtodos de aproximaciones recursivas para obtener su solucin, los cuales son implementados usando programas computacionales. Por lo tanto para la obtencin de los estimadores de los parmetros de la distribucin Weibull para muestras completas y censuradas se realizaron programas en IML de SAS.

El apndice C presenta un programa en SAS/IML para obtener los parmetros de la distribucin Weibull. Asimismo el Apndice D presenta la prueba de Kolmogorov de bondad de ajuste usando S-PLUS.

73

15. APLICACIONES

Una muestra generada de una distribucin Weibull dada por Cohen [6] se ha seleccionado para ilustrar la aplicacin prctica de los resultados obtenidos en el presente trabajo. Los datos para esta muestra se dan acontinuacin.

0.806

0.664 9.098

0.345 0.47

0.001 0.505

0.469 0.03

57.628 7.057

1.033 2.046

3.532 0.185

0.97 0.435

0.071 1.55

x (tiempos de vida observados)

1.55

En este caso los datos son completos, es decir el valor de cada unidad de muestra es observado. Para obtener los estimadores de mxima verosimilitud para este tipo de datos procedemos de la siguiente manera:

PASO 1.- Consiste en determinar los valores de los estimadores mediante el modelo de regresin de la Weibull, y as utilizarlos como valores iniciales para la estimacin por mxima verosimilitud. Los resultados obtenidos se muestran en la Tabla I.

PASO 2.- Consiste en determinar los valores de los estimadores de mxima verosimilitud utilizando el programa Newton-Raphson para muestras completas, obtenindose los resultados de la Tabla I, considerando los estimadores obtenidos mediante el modelo de regresin de la Weibull como valores iniciales.

A manera de comparacin, las estimaciones de mxima verosimilitud se listan junto con las estimaciones obtenidas mediante la regresin Weibull y los resultados obtenidos por Cohen. Tabla I. Valores de los estimadores de y . Parmetro Estimaciones de Cohen Regresin Weibull 0.53 1.40 Mxima verosimilitud 0.505 1.363

0.506 1.363

74

La matriz de varianza-covarianza de los estimadores de mxima verosimilitud es

0.0066015 0.0140154 0.0140154 0.1223352 ) = 0.1223352 y Cov ( ) = 0.0140154 . donde, V ( , ) = 0.0066015, V (

Paso 3.- Con los valores de los estimadores de mxima verosimilitud, obtenidos en el segundo paso se lleva a cabo la prueba de bondad de ajuste a la distribucin Weibull, a travs de la prueba de Kolmogorov programada en S-PLUS.

Prueba de bondad de ajuste

Las hiptesis a probar son

H 0 : F ( x ) = Wx (0.505,1.363)

vs

H a : F (x ) W x (0.505,1.363)

El Cuadro 1 muestra la salida de S-PLUS para realizar la prueba de bondad de ajuste Kolmogorov. De tablas1 obtenemos que D20, 0.05 = .294 . Puesto que Do = 0.1933 no es mayor que .294 concluimos que H o no se rechaza. Por tanto, la distribucin de la muestra analizada es W (0.505,1.363) .

Cuadro 1. Resumen de la salida de S-PLUS para la prueba de bondad de ajuste Kolmogorov. One-sample Kolmogorov-Smirnov Test Hypothesized distribution = weibull data: x ks = 0.1933, p-value = 0.3934 alternative hypothesis: True cdf is not the weibull distn. with the specified parameters
1

Ver Marta Elva, Tabla E, pag. 181.

75

De las observaciones de Klein [25] presentadas de forma completa en el Apndice B se analizan slo los datos completos y sin considerar covariables, tales tiempos de vida estn dados en la siguiente tabla.

Tiempo del estudio en meses 0.1 0.2 0.3 0.3 0.3 0.4 0.5 0.6 0.7 0.8 0.8 0.8 1 1 1.3 1.3 1.5 1.6 1.8 1.8 1.9 1.9 2 2 2.3 2.4 3.2 3.2 3.3 3.5 3.5 3.5 3.6 3.6 3.8 4 4 4 4.3 5 5.3 6 6.2 6.3 6.4 6.4 6.5 7 7.4 7.8

Primero determinamos los valores de los estimadores mediante el modelo de la regresin de la Weibull. Posteriormente determinamos los valores de los estimadores de mxima verosimilitud utilizando el programa Newton Raphson, considerando como valores iniciales los estimadores obtenidos mediante el modelo de regresin de la Weibull. Los resultados se muestran en la Tabla 2.

Tabla 2. Valores de los estimadores de y . Parmetro Regresin Weibull Mxima verosimilitud 1.25 4.23

1.17 3.87

76

La matriz de varianza-covarianza de los estimadores de mxima verosimilitud es

0.02105 0.13050 0.13050 1.16720 ) = 1.16720 y Cov( ) = 0.13050 . donde, V ( ) = 0.02105, V ( ,

Con los valores de los estimadores de mxima verosimilitud, obtenidos se realiza la prueba de bondad de ajuste a la distribucin Weibull, mediante la prueba de Kolmogorov programada en S-PLUS.

Las hiptesis a probar son

H 0 : F ( x ) = Wx (1.25,4.23)

vs

H a : F ( x ) Wx (1.25,4.23)

El Cuadro 2 muestra la salida de S-PLUS para realizar la prueba de bondad de ajuste Kolmogorov. De tablas1 obtenemos que

D50,0.05 = 0.1923 . Puesto que

Do = 0.1557 no es mayor que 0.1923 concluimos que H o no se rechaza. Por tanto,


la distribucin de la muestra analizada es W (1.25,4.23) .

Cuadro 2. Resumen de la salida de S-PLUS para la prueba de bondad de ajuste Kolmogorov. One-sample Kolmogorov-Smirnov Test Hypothesized distribution = weibull data: x ks = 0.1557, p-value = 0.1593 alternative hypothesis: True cdf is not the weibull distn. with the specified parameters

77

16. CONCLUSIONES Y RECOMENDACIONES

En el anlisis de los datos de tiempos de vida reportados por Klein para pacientes con cncer se encontr y prob que el modelo Weibull representa adecuadamente el comportamiento de estos tiempos de vida al considerar solo datos completos y sin considerar covariables.

Las ecuaciones de verosimilitud obtenidas en el modelo Weibull son un sistema de ecuaciones no lineales cuya solucin requiere el uso de mtodos numricos, tal como el mtodo de Newton Raphson; en el cual debe darse un punto de inicio adecuado para que exista convergencia. En este trabajo se encontr que el mtodo de regresin para obtener empricamente la estimacin de los parmetros del modelo Weibull da un buen punto de inicio para aplicar el mtodo de Newton Raphson para obtener la solucin de las ecuaciones de verosimilitud, debido a que con este punto la convergencia es rpida.

Este trabajo abre otras posibilidades en el anlisis de tiempos de vida, tales como, el anlisis con datos censurados cuya censura puede ser del tipo I, del tipo II, o censura progresiva, ya que se observo en la literatura que en muchos experimentos de tiempos de vida los datos son censurados. Adems, tambin se tienen posibilidades del anlisis de tiempos de vida considerando los valores observados de covariables en los elementos analizados, es decir, pueden analizarse los datos a travs del modelo extendido a un modelo de regresin.

78

APNDICE A

A.1. Transformacin de variables de tipo discreto

Los cambios de variable son tiles a la hora de trabajar con las medidas caractersticas de una variable aleatoria. A partir de una variable aleatoria X , definimos la variable Y = g ( X ) , donde g ha de ser una funcin contina y montona (esto es para poder trabajar cmodamente con inversas, aunque tambin se pueden estudiar transformaciones ms generales). Ahora veremos cmo calcular la funcin de distribucin asociada a la variable Y conociendo la de X .

En general, si denotamos por G a la funcin de distribucin de la variable Y tenemos:

P ( y ) = P (Y y ) = P (g ( X ) y ) = P x g 1 ( , y )

Ahora veremos cmo adaptar esta frmula segn la variable sea discreta o continua:

Caso discreto: Sea X una variable aleatoria discreta que toma valores xi , con funcin de masa de probabilidad p , es decir P( X = x ) = p( x ) . Entonces para la variable aleatoria Y , que toma los valores y j tenemos:

P(Y = y j ) = P(g ( X ) = y j ) = P g 1 ( y j ) = P xi g ( xi ) = y j
i

(a.1)

79

A.2. Transformacin de variables de tipo continuas

Considrese que se desea determinar una integral de la forma

K (x ,K, x )dx ,K, dx


1 n 1 A

A .

(a.2)

Supngase que se tiene la siguiente transformacin de variables:


T : A B , con

y1 = u1 ( x1 , K, x n )

y 2 = u 2 ( x1 , K, x n )

M y n = u n ( x1 , K, x n )
La cual es biyectiva, cuya transformacin inversa es:

T 1 : B A , con
x1 = w1 ( y1 , K, y n ) x 2 = w2 ( y1 , K, y n )
M x n = wn ( y1 , K, y n )
Una forma de poder obtener la integral en (a.2), que resulta frecuentemente ms conveniente, dada la transformacin anterior y su inversa con jacobiano no nulo, se enuncia el siguiente teorema, cuya demostracin puede encontrarse en libros de anlisis matemtico, por ejemplo ver, Apstol [1] .

80

TEOREMA: Si las primeras derivadas parciales de las funciones inversas existen y son continuas, y si el jacobiano J de la transformacin inversa no es igual a cero par todo punto de B entonces

K (x ,K, x )dx ,K, dx = K [w ( y ,K, y ),K, w ( y ,K, y )] J dy ,K, dy


1 n 1 n 1 1 n n 1 n 1 A B

en donde

x1 y1 x 2 J = y1 M x n y1

x1 y 2 x 2 y 2 M x n y 2

x1 y n x 2 L y n M x n L y n
L

El valor J se conoce como el jacobiano de la transformacin.

Ejemplo 1. Considrese la integral

I = ( x1 + x 2 )dx 2 dx1 , en este caso, es claro que A = {( x1 , x 2 ) 0 < x 2 < x1 < 1}; y
0 0

1 x1

considrese la transformacin:

y1 = x1 + x 2 y 2 = x1 x 2

Cuya transformacin inversa es:

y1 + y 2 2 y y2 x2 = 1 2 x1 =

81

con jacobiano
1 J= 2 1 2 1 2 =1 1 2 2

Ahora, como = {( x1 , x 2 ) 0 < x 2 < x1 < 1}, entonces se tiene que

0<

y1 y 2 y1 + y 2 < <1 2 2

De donde:

y 2 < y1 ;

0 < y 2 ; y1 + y 2 < 2 0 < y 2 < 2 y1 , de aqu que

0 y1 2 & 0 < y 2 min{y1 ,2 y1 }. As que B = {( y1 , y 2 ) 0 y1 2 0 < y 2 min{y1 ,2 y1 }}.

&

Entonces por el Teorema anterior


1 1 y + y 2 y1 y 2 I = 1 + 2 2 0 0 2 2 y1

1 dy 2 dy1 + 2 1

y1 + y 2 y1 y 2 + 2 2

1 dy 2 dy1 2

I =
0 0

1 y1

2 y1 dy 2 dy1 + 2 1

2 y1

y1 dy 2 dy1 2

82

A.2.1 Aplicacin del teorema de la transformacin (o cambio de variable) a transformaciones de variables aleatorias. Sea X = ( X 1 , K, X n ) una variable aleatoria continua de dimensin n con densidad

f x (x ) y sea A* el conjunto de Rn donde f x ( x ) > 0 .


Supngase que

Y1 = u1 ( X 1 , K, X n )

Y2 = u 2 ( X 1 , K , X n )

M Yn = u n ( X 1 , K , X n )

Donde las variables aleatorias Yi son funciones de las variables aleatorias X i tal que, y i = u i ( x1 , K, x n ) para i= 1,,n definen una transformacin uno a uno y sobre de A* en B* con inversa xi = wi ( y1 , K, y n ) para i= 1,,n, y con jacobiano J de la transformacin inversa no idnticamente cero. Sea A A * y sea B la imagen de A bajo la transformacin. Entonces.

P((Y1 , K, Yn ) B ) = P(( X 1 , K, X n ) A) = K f x ( x )d x , y por el T.C.V.


a

= K f x1 ,K, xn (w1 ( y1 , K , y n ), K , wn ( y1 , K , y n )) J dy1 , K , dy n .


B

Sea D n entonces

P(Y D ) = P(Y D B *) + P Y D B *c

D B*

( y )d y + ( y )d y ,
D B *c

83

donde

( y ) = f X ,K, X (w1 ( y1 ,K , y n ),K , wn ( y1 , K , y n )) J .


1

De aqu que la funcin de densidad de Y est dada por

f X ,K, X (w1 ( y1 , K , y n ), K , wn ( y1 , K, y n )) J , si ( y1 , K, y n ) B * f Y1 ,K,Yn ( y1 , K , y n ) = 1 n 0, de otro modo.

A.2.2 Caso particular del cambio de variable

Sean X1,,Xn

variables aleatorias continuas con densidad conjunta f . Sean

Y1,,Yn variables aleatorias definidas en trminos de las Xs. En esta seccin discutiremos un mtodo para encontrar la densidad conjunta de las Ys en trminos de f . Consideraremos principalmente el caso cuando las Ys son definidas como funciones lineales de las Xs.

Supngase entonces que

Yi = a ij X j
j =1

i=1,,n

Los coeficientes constantes aij determinan una matriz n x n.

a11 L a1n A = aij = M M a n1 K a nn

[ ]

84

Ahora, esta matriz de orden n x n tiene asociado el determinante

det A = M M a n1 K a nn

a11 L a1n

si det A 0 , entonces existe una matriz inversa nica B = bij equivalentemente

[ ]

tal que BA=I o

b
k =1

ik

1, s i = j a kj = 0, si i j

(a.3)

Las constantes bij pueden obtenerse resolviendo para cada i el sistema (a.3) de n ecuaciones en las incgnitas

bi1 , K, bin . Alternativamente, las constantes bij son

definidas de manera nica para que las ecuaciones

y i = aij x j ,
j =1

i=1,,n.

tengan soluciones:

xi = bij y j ,
j =1

i=1,,n.

(a.4)

Con las condiciones anteriores se tiene:

85

Teorema. Sean X1,,Xn variables aleatorias continuas con funcin de densidad conjunta f y sean las variables aleatorias Y1,,Yn definidas por

Yi = a ij X j ,
j =1

i=1,,n.

donde la matriz A = aij tiene det A 0 . Entonces Y1,,Yn tiene densidad conjunta

[ ]

f y1 ,K, yn dada por

f y1 ,K, yn ( y1 , K , y n ) =

1 f ( x1 , K , x n ) , det A

donde las xi estn definidas en trminos de las y i por (a.4) o como nica solucin para las ecuaciones y i = aij x j .
j =1 n

Este teorema, que es un caso particular de lo expuesto en A.2.1, es equivalente al teorema demostrado en cursos de clculo avanzado en una forma ms general envolviendo jacobianos.

Ejemplo 2. Sean X1,,Xn variables aleatorias independientes cada una teniendo una densidad exponencial con parmetro . Defina Y1,,Yn por Yi=X1++Xi, para
1 i n . Encontrar la densidad conjunta de Y1,,Yn.

La matriz aij es

[ ]

1 1 M 1

0 L 0 1 K 0 M O 0 1 1 1

86

El determinante de esta matriz, claramente es igual a 1. Las ecuaciones

y i = x1 + L + x n

para i=1,,n

tiene la solucin:
x1 = y1 ,

xi = y i y i 1 , para i=2,,n.

La densidad conjunta de X1,,Xn esta dada por


n e ( x1 +K+ xn ) , para x 1 , K , x n > 0 f ( x1 , K , x n ) = 0, d.o.m

(a.5)

As, la densidad conjunta f Y1 ,K,Yn est dada por


n e yn , para 0 < y1 < K < y n f Y1 ,KYn ( y1 , K , y n ) = 0, d.o.m

(a.6)

Por supuesto, uno puede aplicar el teorema en direccin inversa. As, si Y1,,Yn tiene densidad conjunta dada por (a.6), y las variables aleatorias X1,,Xn son definidas por X1=Y1 y Xi=Yi - Yi-1, para 2in, entonces las Xs tienen la densidad conjunta f dada por (a.5). En otras palabras, X1,,Xn son independientes y cada una tiene distribucin exponencial con parmetro .

87

A.2.3 Generalizacin del teorema de la transformacin cuando esta no es biyectiva Sea ( x1 , K, x n ) la funcin de densidad de probabilidad conjunta de las variables aleatorias continuas X 1 , K , X n . Sea

el

espacio

n-dimensional

donde

( x1 ,K , x n ) > 0 , y considere la siguiente transformacin de variables


y1 = u1 ( x1 , K, x n )

y 2 = u 2 ( x1 , K, x n )
M y n = u n ( x1 , K, x n )

la cual mapea A sobre B en el espacio n . A cada punto de A le corresponder un punto en B . Pero a un punto en B puede corresponderle mas de un punto en A . Es claro que esta transformacin no es uno a uno. Suponga, que podemos representar A como la unin de un nmero finito, digamos k , de conjuntos mutuamente excluyentes, A1 , K , AK y que

y1 = u1 ( x1 , K, x n )

y 2 = u 2 ( x1 , K, x n )
M y n = u n ( x1 , K, x n )

define una transformacin uno a uno de cada Ai sobre B . As, a cada punto en A , le corresponder exactamente un punto de A1 , K , AK .Sean

x1 = w1i ( y1 , K , y n )

x 2 = w2i ( y1 , K, y n )
M x n = wni ( y1 , K, y n )

88

para i = 1,2, K, k . Denotando k grupos de n funciones inversas, un grupo para cada una de las k transformaciones. Suponga que las primeras derivadas parciales son continuas y supngase que cada

w1i y1 w2i J i = y1 M wni y1

w1i y 2 w2i y 2 M wni y 2

w1i y n w2i L y n M wni L y n


L

i = 1,2, K, k.

no es idnticamente igual a cero en B . De una consideracin de la probabilidad de la unin de k eventos mutuamente excluyentes y aplicando la tcnica de cambio de variable, la probabilidad de cada uno de estos eventos, puede verse que la funcin de distribucin conjunta de

Y1 = u1 ( X 1 , K, X n )

Y2 = u 2 ( X 1 , K , X n )

M Yn = u n ( X 1 , K , X n )
esta dada por

k J i [w1i ( y1 , K , y n ), K , wni ( y1 , K , y n )], si ( y1 , K, y n ) B g ( y1 , K , y n ) = i =1 0, de otro modo.

89

Ejemplo 3. Sean X 1 , X 2 variables aleatorias independientes e idnticamente distribuidas en forma n(0,1) . As, la funcin de densidad de probabilidad conjunta de
X 1 y X 2 es:
2 x12 + x 2 1 exp 2 2

f ( x1 , x 2 ) =

< x1 , x 2 < .

Supngase que se tiene la siguiente transformacin de las v.a.s X 1 y X 2 .


Y1 = X1 + X 2 (media muestral) y 2

Y2 =

( X 1 X 2 )2
2

(dos veces la varianza muestral).


X2

Esta transformacin de las variables aleatorias transformacin entre sus valores numricos.
T : A B , donde

X1 y

determina la siguiente

y1 =

x1 + x 2 2

&

y2 =

(x1 x2 )2
2

La transformacin T mapea al conjunto A = {( x1 , x 2 ); < x1 , x 2 < } sobre el conjunto B = {( y1 , y 2 ); < y1 < , y 2 0}. Pero la transformacin no es uno a uno,

3 1 ya que, los puntos (1,2) y (2,1) tienen como imagen al mismo punto , . 2 2
En este caso no existe una particin de A tal que cada conjunto de la particin tenga como imagen a B , la dificultad para encontrar esta particin se encuentra en los puntos ( x1 , x 2 ) tales que x1 = x 2 , sin embargo si se redefine a la transformacin T restringida al conjunto A ' = {(x1 , x 2 ); < x1 , x 2 < , x1 x 2 } entonces la distribucin conjunta no se altera puesto que la probabilidad del conjunto de puntos excluidos dado por

{(x , x ) x
1 2

= x 2 } es cero. En esta transformacin restringida, T * = A ' B ' ,

con B ' = {( y1 , y 2 ); < y1 < , y 2 > 0} , la cual no es biyectiva, si puede particionarse

90

A en A1 = {( x1 , x 2 ); x1 < x 2 } y A2 = {( x1 , x 2 ); x1 > x 2 } , de tal forma que T * restringida en A1 o a A2 es biyectiva. As, aplicando el teorema de la transformacin cuando sta no es biyectiva con:

T1* : A1 B ' , donde

y1 =

x1 + x 2 2

&

y2 =

(x1 x2 )2
2

y T2* : A2 B ' , donde

y1 =

x1 + x 2 2

&

y2 =

(x1 x2 )2
2

cuyas inversas son:

T1*1 : B ' A1 , donde

x1 = y1

y2 2

&

x 2 = y1 +

y2 2

y T2*1 : B ' A2 , donde


x1 = y1 + y2 2

&

x 2 = y1

y2 2

cuyos jacobianos son J 1 =

1 2 y2

&

J2 =

1 . Es decir, J 1 = J 2 = 2 y2

1 . 2 y2

91

Se tiene que la conjunta de Y1 y Y2 es:

y2 y1 2 1 g ( y1 , y 2 ) = exp 2 2

y1 +

y2 2
2

2 1 2 y2 2 1 2 y2

2 y2 y2 y1 y1 + 2 2 1 exp + 2 2 2

Por lo tanto

g ( y1 , y 2 ) =

2 y12 e 2

1 1 2 2

y 22 1e
1

y2

, si < y1 < ,0 < y 2 <

De la densidad conjunta obtenida se puede observar lo siguiente:

1 a. Y1 ~n 0, 2
b. Y2 ~ (1) c. Y1 y Y2 son independientes.

92

APNDICE B

Datos de 90 pacientes con cncer de laringe.

Indicador del Tiempo del Estudio en Meses 0.6 1.3 2.4 3.2 3.3 3.5 3.5 4 4 4.3 5.3 6 6.4 6.5 7.4 2.5 3.2 3.3 4.5 4.5 5.5 5.9 5.9 6.1 6.2 6.5 6.7 7 evento 1-Observado 0-Censurado 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 Fase de la Edad al Ao del

enfermedad diagnostico diagnostico 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 77 53 45 58 76 43 60 52 63 86 81 75 77 67 68 57 51 63 48 68 70 47 58 77 64 79 61 66 76 71 71 74 74 71 73 71 76 74 72 73 72 70 71 78 77 77 76 76 75 75 75 75 75 74 74 74

93

Indicador del Tiempo del Estudio en Meses 7.4 8.1 8.1 9.6 10.7 0.2 1.8 2 3.6 4 6.2 7 2.2 2.6 3.3 3.6 4.3 4.3 5 7.5 7.6 9.3 0.3 0.3 0.5 0.7 0.8 1 1.3 1.6 1.8 1.9 evento 1-Observado 0-Censurado 0 0 0 0 0 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 Fase de la Edad al Ao del

enfermedad diagnostico diagnostico 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 73 56 73 58 68 86 64 63 70 81 74 62 71 67 51 72 47 64 66 50 53 61 49 71 57 79 82 49 60 64 74 53 73 73 73 71 70 74 77 75 77 71 72 73 78 78 77 77 76 76 76 73 73 71 72 76 74 77 74 76 76 72 71 74

94

Indicador del Tiempo del Estudio en Meses 1.9 3.2 3.5 5 6.3 6.4 7.8 3.7 4.5 4.8 4.8 5 5.1 6.5 8 9.3 10.1 0.1 0.3 0.4 0.8 0.8 1 1.5 2 2.3 3.6 3.8 2.9 4.3 evento 1-Observado 0-Censurado 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 0 0 Fase de la Edad al Ao del

enfermedad diagnostico diagnostico 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4 4 4 4 4 4 72 54 81 59 70 65 68 52 66 54 63 49 69 65 78 69 51 65 71 76 65 78 41 68 69 62 71 84 74 48 74 75 74 73 72 72 72 77 76 76 76 76 76 74 73 71 71 72 76 77 76 77 77 73 76 71 75 74 78 76

95

APNDICE C

Programa Newton Raphson para muestras completas


options nocenter; proc iml; reset noprint; /* matriz de datos */ x={ 0.806 . . 1.550}; xx=x`; print xx; n=nrow(xx); one=j(n,1,1); /* vector de unos */ /* Metodo Newton Rapson para obtener los parametros de la distribucion Weibull*/ start newton2; run fun2; /* evalua la funcion a los valores iniciales*/ do inter=1 to maxiter /* Itera hasta Maxiter Iteraciones o Convergencias */ while(max(abs(fgp))>converge) ; run deriv2; /* evalua las derivadas de jjj */ delta=-solve(jjj,fgp); /* resuelve para vector de correcciones */ para=para+delta; /* la nueva aproximacin es */ run fun2; /* evalua la funcion */ end; finish newton2; maxiter=5000; /* numero de iteraciones */ converge=.00001; /* criterio de convergencia*/ /* primeras derivadas dadas por el usuario */ start fun2; a=para[1]; b=para[2]; /* extrae los valores */ da= (n/a)+sum(log(xx))-((1/b)*sum((xx##a)#log(xx))); db= -(n/b)+ ((1/b##2)*sum(xx##a)); fgp=da//db; finish fun2;

96

/* segundas derivadas dadas por el usuario */ start deriv2; daa=-(n/a##2)-((1/b)*sum(xx##a#(log(xx))##2)); dadb=(1/b##2)*sum(xx##a#log(xx)); dbb=(n/b##2)-((2/b##3)*sum(xx##a)); jjj=(daa||dadb)//(dadb||dbb); /* jacobiano */; finish deriv2; do; para={0.1, 0.1}; /* valores iniciales */ ; run newton2; vargp=-inv(jjj); /* matriz de varianza-covarianza */; vgpb1=vargp[2,2]; end; print jjj; print fgp; print para; /* parametros estimados */; print vargp; /* la matriz de varianza-covarianza */

Observacin Para calcular los estimadores de los parmetros de la distribucin Weibull para muestras con censura tipo II y censura tipo I basta con cambiar en el programa las correspondientes primera y segunda derivada de la funcin logaritmo de verosimilitud, y el procedimiento de estimacin es el mismo.

97

APNDICE D

Prueba de Kolmogorov de bondad de ajuste usando S-PLUS

S-PLUS es un sistema para el anlisis estadstico de datos, que ofrece una extensa coleccin de herramientas para el anlisis, para programar la prueba de bondad de ajuste, primero se define una matriz de datos, posteriormente se pide que haga una prueba de bondad de ajuste Kolmogorov para la distribucin Weibull, especificando los parmetros de forma y escala. La programacin se realizo de la siguiente forma:
x<-c(0.806,.., 0.664) x ks.gof(x, distribution = "weibull",shape=0.506, scale=1.363)

98

17. BIBLIOGRAFA

1. Apostol, T. (1957) Mathematical anlisis , Adisson-Wesley, reading, Mass.

2. Barlow, Proschan (1981). Statistical Theory of Realibility and life Testing, Silver Spring.

3. Berrettoni, J. N. (1964). Practical applications of the Weibull distribution, Industrial Quality Control, 21, 71-79.

4. Berry, G. L. (1975). Design of carcinogenesis experiments using the Weibull distribution, Biometrica, 62, 321-328.

5. Berry, G. L. (1981). The Weibull distribution as a human performance descriptor, IEEE Transactions on Systems, Man, Cybernetics, 11, 501-504.

6. Cohen Clifford A. (1965). Maximum Likelihood estimation in the Weibull Distribution Based On Complete On Censored Samples. Technometrics, 7, 579-588.

7. Condra, L. W. (2001). Reliability Data in Medical with Design of Experiments. Marcel Dekker, New York.

8. Dillon, B. S. y Sing, C (1981). Engineering Realiability. New Techniques and Applications, Jhon Wiley & Sons.

9. Dixon, J. C., and Swift, R. H. (1984). The directional variation of wind speed and Weibull probability parameters, Atmospheric Enviroment, 18, 2041-2047.

99

10. Dyer, D. (1975). An analysis of the relationship of systolic blood pressure, serum choresterol, and smoking to 14-year mortality in the Chicago Peoples Gas Company Study. Par I: Total mortality in exponencial, Weibull model, Part II: Coronary and cardiovascular-renal mortality in two competing risk models, Journal of Chronic Diseases, 28, 565-578.

11. Ellingwood, B., and Rosowsky, D. (1991) Duration of load effects in LRFD for wood construction, Journal of Structural Engineering, 117, 584-596.

12. Embrechts, P. And Villaseor, J. (1988), Ruin estimates for large claims, Insurance: Mathematics and economics, 7, 269-274.

13. Franck, J. R. (1988). A simple explanation of the Weibull distribution and its applications, Realibility Review, 8, No. 3, 6-9.

14. Frechet, M. (1927) Sur la loi de probabilite de Pecart maximum, Annales de la Societe Polonaise de Mathematique, Cracovie, 6, 93-116.

15. Gittus, J. H. (1967). On a class of distribution functions, Applied Statistics, 16, 45-50.

16. Gnedenko, B. V. (1943). Sur la distribution limite du terme maximum dune serie aleatorie, Annals of Mathematics.

17. Gnedenko, B. V., Belyaev, Yu. K., and Solovev, A.D. (1965) Mathematical Methods in Reliability Theory, Moscow. ( In Russian. English Translation, New York: Academic Press).

18. Hager, Harold W., Bain, Lee J. y Antle, Charles E (1971). Realibility estimation for the generalized gamma distribution and robustness of the weibull model, Technometrics. 13, 547-557.

100

19. Hallinan, A. J., Jr. (1993). A review of the Weibull distribution, Journal of Quality Technology, 25, 85-93.

20. Harter, H.L y Moore, A.H. (1965). Maximum-Likelihood estimation of the parameters of gamma and weibull populations from complete and from censored samples, Technometrics, 7 (4), 639-643.

21. Kalbfleisch, Prentice. (1983). Statistical Analysis of Failure Time Data, Jhon Wiley.

22. Kao, J. H. K. (1958). Computer methods for estimating Weibull parameters in realibility studies, Transctions of IRE, Realiability and Quality Control, 13, 1522.

23. Kao, J. H. K. (1959). A grafical estimation of mixed Weibull parameters in lifetesting electron tubes, Technometrics, 1, 389-407.

24. Koehler, K. J., and McGovern, P. G. (1990) An application of the LFP survival model to smoking cessation data, Statistics in Medicine, 9, 409-421.

25. Klein, J. P. y Moeschberger M.L (1997). Survival Analysis: Techniques for Censured and Truncated Data, Springer-Verlag, New York, Inc.

26. Klupelberg, C and Villaseor, J., (1990), Estimation of distribution tails a parametric approach, AMS, 1-31.

27. Lange, (1999). Numerical Analysis for Statisticians. Springer-Verlag, New York.

28. Lawless, J.F.(1973). On the estimation of safe life when the underlying life distribution is Weibull. Technometrics, 4, 725-730.

101

29. Lawless, J.F.(1975). Construction of tolerance bounds for the extreme value and Weibull distributions. Technometrics, 17, 255-261.

30. Lawless, J.F.(1978). Confidence interval estimation for the Weibul and extreme value distributions. Technometrics, 25, 355-364.

31. Lawless, J.F.(1982). Statistical Models and Methods for Lifetime Data, John Wiley & Sons.

32. Lawless, J.F.(2003)., Event history analysis and longitudinal surveys. In analysis of Survey Data, R.L Chambers and C.J Skinner, Eds. John Wiley & Sons. Chichester.

33. Lawless, J.F.(2003). Statistical Models and Methods for Lifetime Data, Second Edition John Wiley & Sons.

34. Malik, M. A. K. (1975). A note on the physycal meaning of the Weibull distribution, IEEE Transactions on Reliability, 24, 95.

35. Marta Elva Ramirez Guzmn (1993), Mtodos estadsticos no parametricos, Universidad Autonoma Chapingo.

36. Meeker, W. Q. and Escobar, L. A (1998). Statistical Methods for Realibility Data. John Wiley & Sons, New York.

37. Meier, P. (1980). Estimation of a distributin from incomplete observations. In perspectives in Probability and Statistics, J. Gani, Ed. Applied Probability Trust, Sheffield, England.

38. Mendehall, W y Sincich, T. (1997). Probabilidad y Estadistica para Ingenieros y ciencias, Prentice Hall, Mxico, D.F.

102

39. Menon, M. V. (1963). Estimation of the shape and scale parameters of the Weibull distribution, Technometrics, 5,175-182.

40. Norma L.J. & Kotz S. y Balakrishnan N. (1994) Continuous Univariate Distributions,. Ed. Jhon Wiley and Sons. Vol.1, 2a Edition.

41. Pavia, E. J. And OBrien, J. J. (1986). Weibull statistics of wind speed over the ocean, Journal of Climate and Applied Meteorology, 25, 1324-1332.

42. Richard, A.J. (1998). Probabilidad y Estadstica para ingenieros de Millar y Freund, Prentice Hall.

43. Richard L. Burden y J.Douglas Faires (2001), Analisis Numerico, Sptima Edicin, Math Learning.

44. Rosen P., and Rammler, B. (1933). The laws governing the fineness of powdered coal, Journal of the Institute of Fuels, 6, 179-187.

45. Selker, J. S., and Haith, D. A. (1990). Develoment and testing of singleparameter 2733-2740. precipitation distributions, Water Resources Research, 26,

46. Struthers, C. A. And Farewell, V. T (1989). A mixture model for time to AIDS data with left truncation and an uncertain origin, Biometrika, 76, 362-369.

47. Tuller, S. E., and Brett, A.C. (1984). The characteristics of wind velocity that favor the fitting of a Weibull distribution in wind speed analysis, Journal of Climate and Applied Meteorology, 23, 124-134.

48. Weibull, W. (1939a). A statistical theory of the strength of material, Report No. 151, Ingeniors Vetenskaps Akademins Handligar, Stokholm.

103

49. Weibull, W (1939b). The phenomenon of rupture in solids, Report No. 153, Ingeniors Vetenskaps Akademiens Hadligar, Stockholm.

50. Weibull, W. (1951). A statical distribution of wide applicability, Journal of Applied Mechanics, 18, 293-297.

51. Wilks, D. S. (1989), Rainfall intensity, the Weibull distribution, and estimation of daily surface runoff, Journal of Applied Meteorology, 28, 52-58.

52. Wilks, D. S. (1990) Mathematical Statistics. John Wiley & Sons, New York.

53. http://www.weibull.com/LifeDataWeb/the_weibull_distribution.htm

54. http://www.reliasoft.com/

104