Tiempo medio entre fallas: explicación y estándares

Por Wendy Torell y Victor Avelar

Informe interno N° 78

sin el consentimiento escrito del titular del derecho de autor. www. el significado original de este término fue modificándose. en algunas. y los métodos disponibles para calcular este valor. por eso. en cualquier sistema de recuperación de cualquier tipo. Con el correr de los años.com Rev 2004-0 2 . En gran medida. Queda prohibida la utilización.Resumen ejecutivo El tiempo medio entre fallas (MTBF) es un término de confiabilidad que se utiliza con demasiada ligereza en muchas industrias y. el MTBF se basa en supuestos. En este informe se explican las complejidades y los errores subyacentes del MTBF. su uso ya es abusivo.apc. reproducción. fotocopiado. ©2004 de American Power Conversion. la definición de falla y una mirada atenta a estos detalles cobran vital importancia para lograr una interpretación correcta. y ahora causa confusión y cinismo. transmisión o almacenamiento parcial o total de esta publicación. Todos los derechos reservados.

no se trata de una falla pero.com Rev 2004-0 3 .Introducción El tiempo medio entre fallas (MTBF) se ha utilizado por más de 60 años como fundamento para varias decisiones. no resulta extraño que el MTBF sea un tema central en eterno debate. Ejemplo 1: Si falla un disco redundante en un sistema RAID. Queda prohibida la utilización. Cuando apenas unos minutos de inactividad pueden afectar en forma negativa el valor de mercado de una empresa. es posible que no se alcance el objetivo de confiabilidad de la empresa. sí constituye una falla. Todos los derechos reservados. el análisis carece prácticamente de valor. según la definición que se elija. sino que carece de utilidad alguna. según la definición 1. Con el correr de los años. Para despejar esta ambigüedad. se podría argumentar que existen dos definiciones básicas para las fallas: 1) 2) Finalización de la capacidad de un producto en su conjunto para realizar la función requerida.2 Mediante los siguientes dos ejemplos se ilustra cómo un modo de falla en particular podría clasificarse o no como falla. En este informe se explican con ejemplos todos los aspectos del MTBF. sin el consentimiento escrito del titular del derecho de autor. 1 2 IEC-50 IEC-50 ©2004 de American Power Conversion.1 Finalización de la capacidad de cualquier componente individual para realizar la función requerida. se desarrollaron más de 20 métodos y procedimientos para predecir la vida útil de los productos. la falla del disco impide que un componente del sistema de discos realice la función requerida de proveer capacidad de almacenamiento. ¿Qué es una falla? ¿Cuáles son los supuestos? Estos interrogantes deben responderse de inmediato cuando se analiza cualquier valor de MTBF. en cualquier sistema de recuperación de cualquier tipo. pero sin la finalización de la capacidad de un producto en su conjunto para funcionar. reproducción. Sería similar a promocionar el rendimiento del combustible en un automóvil expresado en “millas por tanque” sin definir la capacidad del tanque en litros o galones. Esta práctica no solo induce a errores. fotocopiado. Por lo tanto. Un área en particular en la que esto se hace evidente es el diseño de infraestructuras de misión crítica que albergan equipos informáticos y de telecomunicaciones. transmisión o almacenamiento parcial o total de esta publicación. la falla no impide que el sistema RAID cumpla la función requerida de proporcionar datos críticos en ningún momento. Sin una sólida comprensión del MTBF. es crucial que la infraestructura física que sustenta este entorno de red sea confiable. Muchas veces se cita el MTBF sin ofrecer una definición de falla. con la intención de simplificar la complejidad y esclarecer los errores. www. Sin embargo.apc. Por lo tanto. Sin las respuestas a estas preguntas. según la definición dos.

Si existieran tan solo dos d efiniciones. ¿Se consideran fallas las caídas de carga que ocasiona el técnico del distribuidor? ¿Es posible que el diseño del producto en sí aumente la probabilidad de fallas en un procedimiento de por sí riesgoso? Si fallara un indicador LED de una computadora. lo cual. Preguntas como estas son las que fijan los cimientos sobre los que pueden tomarse decisiones acerca de la confiabilidad. entre otros beneficios.com Rev 2004-0 4 . disponibilidad. solo parten de supuestos erróneos. la falla del inversor impide que un componente del sistema UPS realice la función requerida de proveer energía acondicionada. todos los supuestos deben ser razonables. Sin embargo. Sin embargo. la cantidad es infinita. En realidad. es importante tener una idea sólida de estos conceptos. los fabricantes pueden tener diversas definiciones de fallas. se trataría de una falla solo de acuerdo con la segunda definición. sin el consentimiento escrito del titular del derecho de autor. Es claro que la importancia de definir una falla debe ser obvia y debe comprenderse antes de tratar de interpreta r cualquier valor de MTBF.apc. de hecho. reproducción. el asunto es casi tan complicado como el MTBF en sí. Todos los derechos reservados. Antes de p roceder a explicar los métodos de cálculo del MTBF. elimina los defectos de los productos. ¿se consideraría falla aunque no haya afectado el funcionamiento de la computadora? El desgaste natural de un insumo. la determinación de las fallas sería bastante sencilla.Ejemplo 2: Si falla el inversor de un sistema UPS y el sistema UPS conmuta al modo de bypass estático. una batería. Es preciso basarse en supuestos para simplificar el proceso de cálculo del MTBF. A lo largo de este informe. existen más de dos definiciones de fallas. ¿se consideraría falla si presentara anomalías en forma prematura? ¿Se consideran fallas los daños sufridos durante el transporte? Podrían indicar una deficiencia en el diseño del embalaje. transmisión o almacenamiento parcial o total de esta publicación. la falla no impide que el sistema UPS cumpla la función requerida. Definición de confiabilidad. MTBF y MTTR El MTBF tiene incidencia tanto en la confiabilidad como en la disponibilidad. Lo mismo puede decirse de aquellos que calculan los valores de MTBF. por ejemplo. Lamentablemente. en cualquier sistema de recuperación de cualquier tipo. Se dice que los ingenieros nunca se equivocan. se describen los supuestos que acostumbran a utilizarse para calcular el MTBF. www. fotocopiado. Al igual que en el ejemplo anterior. La diferencia ©2004 de American Power Conversion. Sería virtualmente imposible recabar los datos para calcular un número exacto. Por lo tanto. Queda prohibida la utilización. se necesitan preguntas adicionales que definan el concepto de falla con precisión. ¿Se considera falla una mala aplicación por parte del cliente? Los diseñadores podrían haber omitido factores humanos y así surgiría la tendencia de los usuarios a aplicar mal el producto. Los fabricantes que se preocupan por la calidad aplican un control de procesos a todos los modos de fallas. que es alimentar a la carga crítica. Según el tipo de producto. cuando está en juego la reputación de un producto.

fotocopiado. no es extraño ver valores de MTBF en el orden de los millones de horas. sin presentar anomalías. En otras palabras. la variable crítica pasa a ser la rapidez con la que el sistema pueda recuperarse. Confiabilidad es la capacidad de un sistema o componente para desempeñar las funciones requeridas en las condiciones establecidas por un determinado período de tiempo [IEEE 90]. en cualquier sistema de recuperación de cualquier tipo. Disponibilidad. un centro de datos de 10 años). Queda prohibida la utilización. Sin embargo. www.com Rev 2004-0 5 . La misión de una aeronave es un ejemplo perfecto para ilustrar este concepto. en forma segura (sin fallas catastróficas). transmisión o almacenamiento parcial o total de esta publicación. En el ejemplo del centro de datos. al producirse una falla. Confiabilidad = e  Tiempo  −   MTBF  Ecuación 1 Unos de los errores más habituales acerca del MTBF es pensar que equivale a la cantidad de horas que se espera que funcione el sistema antes de que falle. El MTBF o Tiempo medio entre fallas constituye una medición fundamental de la confiabilidad de un sistema. La razón por la que estos números suelen ser tan altos es porque se basan en la tasa de fallas del producto mientras aún ©2004 de American Power Conversion. Suele contemplarse la disponibilidad porque. pero no son términos que puedan utilizarse indistintamente. sin el consentimiento escrito del titular del derecho de autor. el factor más importante debe ser que los equipos informáticos y los procesos de la empresa se reactiven y funcionen lo más pronto posible para reducir al mínimo el tiempo de inactividad.entre confiabilidad y disponibilidad suele ignorarse y malinterpretarse. Cuando los sistemas funcionan constantemente por períodos prolongados (por ejemplo. Alta disponibilidad y alta confiabilidad a menudo van de la m ano. Puede pensarse como la probabilidad de que el componente o sistema esté en condiciones para cumplir con la función requerida en determinadas circunstancias y en determinado momento de un perío do. se tiene en cuenta un objetivo: completar el vuelo. es la probabilidad de que un sistema o componente realice las funciones en forma satisfactoria durante el tiempo que dure la misión especificada. por otra parte. A mayor valor de MTBF. y sería poco razonable pensar que el sistema podría funcionar constantemente por más de 100 años sin presentar una falla. también denominada “vida operativa”. contar con un diseño de sistemas confiable es la variable más crítica pero. La disponibilidad está determinada por la confiabilidad de un sistema y también por el tiempo de recuperación ante una falla. mayor confiabilidad presenta el producto. al producirse una falla. La ecuación 1 ilustra esta relación. Cuando una aeronave despega para cumplir su misión. las fallas son inevitables. según lo planeado. Todos los derechos reservados.apc. reproducción. es el grado de funcionalidad y accesibilidad que presenta el sistema o componente cuando se lo necesita [IEEE 90]. Suele expresarse en unidades de horas.

125%/ año. la expectativa de vida (vida operativa) es mucho más corta y no existe una correlación. ¿es el mejor método? Es evidente que es más intuitivo. ¿cómo sabría el fabricante si los productos siguen en servicio. existen muchas variables que limitan el sentido práctico de utilizar este método con productos comerciales como los sistemas UPS. en cualquier sistema de recuperación de cualquier tipo. si están fuera de servicio y nunca se lo han info rmado? ©2004 de American Power Conversion. La vida operativa de esa población es de 500. A lo largo del año. Todos los derechos reservados.00125 = 800 años. y se presupone que continuará con esta tasa por siempre. Si bien los seres humanos de 25 años presentan valores de MTBF altos. en esta etapa de la vida. se recaban datos sobre las fallas (muertes) de esa población. en el caso de muchos productos. transmisión o almacenamiento parcial o total de esta publicación. Sin embargo. Por lo tanto. la única manera real de computar un valor de MTBF que equivalga a la vida operativa sería esperar que toda la muestra poblacional de personas de 25 años llegara al término de la vida. Como ejemplo. no debe hacerse una correlación directa entre la vida operativa de un producto y la tasa de fallas o MTBF. fallaron (murieron) 625 personas. podría calcularse un promedio de es tos intervalos de vida.com Rev 2004-0 6 . sin el consentimiento escrito del titular del derecho de autor. www.000 x 1 año = 500. La mayor limitación es el tiempo. Por lo tanto. el producto experimenta la menor (y constante) tasa de fallas. La mayoría concordaría que el valor rondaría entre los 75 y 80 años. Es muy factible encontrar productos con un alto grado de confiabilidad (MTBF) y un bajo nivel de vida operativa. La realidad es que los seres humanos no presentan tasas de fallas constantes. ¿cuál es el MTBF de las personas de 25 años? ¿80 u 800? ¡Los dos valores! Pero ¿como podría la misma población presentar dos valores de MTBF tan dispares? Todo se debe a los supuestos. fotocopiado. La tasa de fallas es de 625 fallas / 500. estaríamos hablando de un uso de 10 o 15 años.apc. Para poder hacerlo. Si el MTBF de 80 años refleja con mayor precisión la vida del producto (humanos. reproducción. Por ejemplo. Sin embargo.000 personas/ año. los modos de deterioro del producto limitarían la vida mucho antes que lo que expresa la cifra de MTBF. habría problemas para rastrear los productos.está en el período de “vida útil” o “vida normal”. A medida que la gente envejece. pensemos en un ser humano: Se constituye una muestra poblacional con 500. En el curso de un año. En realidad. toda la muestra poblacional debería fallar y. aun si fuera razonable esperar este período de tiempo antes de calcular el MTBF.000 seres humanos de 25 años de edad. Además. De ese modo. se producen más fallas (se deterioran). El MTBF es la relación inversa a la tasa de fallas o 1/0. en este caso).000 personas/ año = 0. Por eso. Queda prohibida la utilización.

la tecnología avanza a tal velocidad que. el mantenimiento adecuado y el reemplazo proactivo de partes desgastadas. denominada “curva en forma de bañera” de la tasa de fallas. Como consecuencia. Todos los derechos reservados. Disponibilidad = MTBF ( MTBF + MTTR) Ecuación 2 Para que las ecuaciones 1 y 2 sean válidas. El análisis anterior brinda un panorama de los conceptos y las diferencias entre confiabilidad y disponibilidad. factores humanos y fallas naturales. peor es el sistema. reproducción. La figura 1. según ya se mencionó.apc. Al igual que el MTBF. bajos factores de seguridad en el diseño. En la siguiente sección. fotocopiado. si un sistema tarda más en recuperarse ante una falla. el MTTR se expresa en unidades de horas. Como puede apreciarse en la ecuación 2. sin el consentimiento escrito del titular del derecho de autor. en cualquier sistema de recuperación de cualquier tipo. www. El "período operativo normal" o “período de vida útil" de esta curva es la etapa en la que un producto está en uso concreto. en el momento en que se pudiera calcular el valor. Con períodos holgados para pruebas de envejecimiento de componentes por parte de los fabricantes. Si aumenta el MTTR. La fórmula que se detalla a continuación ilustra cómo la disponibilidad general de un sistema se ve afectada tanto por el MTBF como por el MTTR.com Rev 2004-0 7 . Entonces se mide la calidad del producto con respecto a una tasa de fallas constante en relación con el tiempo. muchísimos de los sistemas electrónicos no están compuestos por partes móviles. ¿Quién querría el valor de MTBF de un producto que ya ha sido reemplazado por varias generaciones de actualizaciones tecnológicas? MTTR. pero no en la confi abilidad. es el tiempo que se espera que un sistema tarde en recuperarse ante una falla. o tiempo medio de reparación (o recuperación). tensión aleatoria mayor de la esperada.Por último. ©2004 de American Power Conversion. tendrá menor disponibilidad. aumenta la disponibilidad. ilustra el origen de este supuesto de que la tasa de fallas es constante. para que el técnico se acerque a la instalación y para reparar físicamente el sistema. Para simplificar. En esta etapa el origen de las fallas puede incluir defectos no detectables. y permite la interpretación adecuada del valor de MTBF. el MTTR incide en la disponibilidad. Queda prohibida la utilización. se analizan los distintos métodos de predicción del MTBF. transmisión o almacenamiento parcial o total de esta publicación. incluso si todo esto fuera posible. Si aumenta el MTBF. disminuye la disponibilidad. A diferencia de los sistemas mecánicos. debe partirse de un supuesto básico al analizar el valor de MTBF de un sistema. Este valor puede incluir el tiempo necesario para diagnosticar el problema. A mayor MTTR. ya no tendría utilidad alguna. debería evitarse el tipo de curva rápida de deterioro que representa el "período de desgaste". suele aceptarse que los componentes o sistemas electrónicos presentan tasas de fa llas constantes durante la vida útil operativa.

Todos estos métodos son de índole estadística. Mientras ©2004 de American Power Conversion. fotocopiado. sin el consentimiento escrito del titular del derecho de autor.Figura 1 – Curva en forma de bañera que ilustra la tasa de fallas constante Período anticipado de fallas Período operativo normal Período de desgaste Tasa de fallas Zona de tasa de fallas constante 0 Tiempo Métodos de predicción y cálculo de valores de MTBF A menudo los términos “predicción” y “cálculo” se utilizan indistintamente. Los métodos de predicción tienen utilidad cuando los datos concretos son escasos o inexistentes. aunque no constituyen la lista completa. Los métodos que predicen el MTBF calculan un valor basado únicamente en un diseño de sistema. gracias a un científico alemán de apellido Von Braun y a un matemático alemán llamado Eric Pieruschka. Ningún método se estandariza en toda una industria. Métodos de predicción de confiabilidad Los primeros métodos de predicción de confiabilidad surgieron en la década de 1940. reproducción. es vital que el fabricante comprenda y seleccione el mejor método para la aplicación en cuestión. en cualquier sistema de recuperación de cualquier tipo.apc. no es correcto. Queda prohibida la utilización. no deberían aplicarse los métodos de predicción. realizados después de que se ha instalado una gran cantidad de sistemas en entornos concretos. Los métodos que calculan el MTBF estiman un valor basado en una muestra de sistemas similares observados. Los métodos que se presentan a continuación. De haber datos concretos suficientes. como en el caso del trasbordador espacial o nuevos diseños de productos. habría que recurrir a métodos que calculan el MTBF porque representan mediciones concretas de las fallas. ilustran la amplitud de maneras en que se puede obtener un valor de MTBF. Los métodos de cálculo de MTBF son los más utilizados para valores de MTBF. En vez de estos. Por lo tanto. www. sin embargo.com Rev 2004-0 8 . en general. transmisión o almacenamiento parcial o total de esta publicación. lo cual significa que brindan solo una aproximación al verdadero valor de MTBF. Todos los derechos reservados. realizado previamente en el ciclo vital del producto. principalmente porque se basan en productos reales que están sometidos a uso concreto. en general.

rara vez se utiliza el método 217. En 1996. en cualquier sistema de recuperación de cualquier tipo. Todos los derechos reservados. condensadores de película). fotocopiado. Luego. con el crecimiento de la industria nuclear.com Rev 2004-0 9 . se multiplica la cantidad de componentes de cada conjunto por una tasa de fallas genérica que se encuentra en el manual 217. transmisión o almacenamiento parcial o total de esta publicación. el ejército estadounidense anunció que debería discontinuarse el uso del MIL -HDBK-217. Hoy en día. Queda prohibida la utilización.intentaba mejorar diversos problemas de confiabilidad del cohete V-1.apc. El método por esfuerzo suele arrojar una tasa de fallas inferior a la del método por conjuntos. contamos con numerosos métodos para predecir el MTBF. MIL-HDBK 217 Publicado por el ejército estadounidense en 1965. Para asignar los niveles de esfuerzo adecuados para cada componente. Por último. Según el 217. En la actualidad. reproducción. Sin embargo. ya que se había "comprobado que no era confiable y su uso ©2004 de American Power Conversion. ya que implica una sumatoria de tasas de fallas. Por definición. Pieruschka asistió a Von Braun en la confección de un modelo de confiabilidad para su cohete y así se creó el primer modelo de confiabilidad prospectivo moderno que se haya documentado. capacitores) y agrupándolos en los distintos tipos de componentes (por ejemplo. temperatura. la NASA aportó mayor madurez en el campo del análisis de confiabilidad. Luego. La Predicción por análisis del esfuerzo de las partes suele utilizarse mucho más tarde en el ciclo de desarrollo del producto. www. se creó el Manual Militar 217 con el fi n de proporcionar un estándar para el cálculo de la confiabilidad de equipos y sistemas electrónicos militares de modo de incrementar la confiabilidad de los equipos que se diseñaran. tensión). una vez que el diseño de los circuitos y el hardware están a punto de entrar en producción. humedad. se reúnen las tasas de fallas de los distintos conjuntos de componentes para obtener la tasa de fallas final. el 217. Sentó las bases para comparar la confiabilidad de dos o más diseños similares. sin el consentimiento escrito del titular del derecho de autor. deben documentarse y comprenderse a fondo el diseño del producto y el entorno esperado. Es similar al método por conjuntos. consume mucho tiempo en comparación con otros. vibración. La Predicción por conjuntos suele utilizarse para predecir la confiabilidad de un producto en una etapa inicial del ciclo de desarrollo a fin de obtener un cálculo de confiabilidad aproximado con respecto al objetivo o especificación de confiabilidad. existen dos maneras de predecir la confiabilidad: la Predicción por conjuntos y la Predicción por análisis del esfuerzo de las partes. El Manual Militar 217 también se denomina Mil Standard 217 o. simplemente. la tasa de fallas de cada uno de los componentes se calcula en forma individual según los niveles de esfuerzo específicos a los que se someterá cada componente (por ejemplo. Por el nivel de análisis que exige este método. este método presupone que todos los componentes están conectados en serie y requiere que se calculen en forma separada las tasas de fallas para componentes no conectados en serie. Se calcula una tasa de fallas contando los componentes similares de un producto (por ejemplo. en este método.

HRD5 HRD5 es el Manual de datos de confiabilidad para componentes electrónicos (Handbook for Reliability Data for Electronic Components) que se utiliza en sistemas de telecomunicaciones. sin el consentimiento escrito del titular del derecho de autor. El 217 se descartó por muchas razones. El diagrama puede representar todo un sistema o cualquier subconjunto o combinación del sistema que requiera un análisis de fallas. En la actualidad. En primer lugar. Todos los derechos reservados. se publicó en mayo de 2001 y ofrece una variedad de métodos de cálculo. IEEE Transactions on Components. pp. www. Packaging. Krolewski. RBD (diagrama de bloques de confiabilidad) El diagrama de bloques de confiabilidad o RBD es una herramienta de cálculo y de esquema representativo utilizada para confeccionar modelos de confiabilidad y disponibilidad para sistemas. La estructura de un diagrama de bloques de confiabilidad define la interacción lógica de las fallas dentro de un sistema y no necesariamente la conexión lógica o física entre ellas.. Parte A. confiabilidad o disponibilidad. Stadterman. N° 2. 1996. Cada bloque puede representar un componente individual.. T. 277-278 ©2004 de American Power Conversion. Queda prohibida la utilización. Es parecido al 217 pero no abarca tantas variables ambientales y confecciona un modelo de predicción de confiabilidad que contempla una amplia variedad de componentes electrónicos. en cualquier sistema de recuperación de cualquier tipo. La última versión de Bellcore fue la TR -332 N° 6. fue desarrollado por Bellcore Communications Research con el nombre de Bellcore como método para calcular la confiabilidad de los equipos de telecomunicaciones. M. 19. SR-332 N° 1..S.. Army Reliability Standardization Improvement Policy and Its Impact".apc. entre ellos. "U. J. SAIC adquirió Bellcore en 1997 y lo rebautizó Telcordia. fotocopiado. reproducción. se sigue aplicando el método Telcordia como herramienta de diseño de productos en esta industria. Fue desarrollado por British Telecom y se usa principalmente en el Reino Unido. Telcordia El modelo Telcordia para predicción de confiabilidad surgió a partir de la industria de las telecomunicaciones y logra imponerse gracias a una serie de modificaciones en el transcurso de los años. and Manufacturing Technology. un subsistema u otra falla representativa. Si bien Bellcore se basa en el manual 217. control de procesos o diseño de producto. Luego.com Rev 2004-0 10 . B. además de los del 217. También puede servir como herramienta de análisis para revelar el 3 Cushing. la mayoría de las cuales están relacionadas con que la confiabilidad de componentes ha experimentado grandes mejoras a tal punto que ya no es la causa principal de fallas en los productos. La última versión del Modelo de predicción Telcordia. los de telecomunicaciones. Vol.podría arrojar predicciones de confiabilidad erróneas y equivocadas"3. y Hum. de diciembre de 1997. transmisión o almacenamiento parcial o total de esta publicación. sus modelos de confiabilidad (ecuaciones) se modificaron en 1985 de modo de reflejar el desempeño real de sus equipos de telecomunicaciones. Una investigación minuciosa de las fallas en los productos electrónicos de hoy en día revelaría que las fallas tenderían a producirse por mala aplicación (error humano). Las tasas de fallas presentadas en 217 son más conservadoras (altas) que los componentes comercializados en la actualidad.

En este caso. El análisis puede trascender esta función y asignar un nivel de gravedad a cada modo de falla. los datos probabilísticos para los cálculos pueden resultar difíciles de obtener. Modelo de Markov El método de confección de modelos de Markov brinda la capacidad de analizar sistemas complejos. Queda prohibida la utilización. El FMEA se construye desde abajo hacia arriba. ya sea en casos normales como de fallas. Los árboles de fallas pueden ser útiles para detallar la vía de una circunstancia. los modelos de Markov brindan una variedad de otras mediciones de los sistemas. FMEA / FMECA El FMEA (análisis de modo de fallas y consecuencias) es un proceso utilizado para analizar los modos de fallas de un producto. La confiabilidad se calcula convirtiendo un árbol de fallas completo en un grupo de ecuaciones equivalentes. Árbol de fallas El análisis de árbol de fallas es una técnica que desarrolló Bell Telephone Laboratories para realizar evaluaciones de seguridad del Sistema de control de lanzamiento de misiles Minuteman. que derivan en una falla de los componentes o evento no deseado que está en investigación (desde abajo hacia arriba). en cualquier sistema de recuperación de cualquier tipo. Además del valor de MTBF. ©2004 de American Power Conversion. sin el consentimiento escrito del titular del derecho de autor. el valor de MTTR. transmisión o almacenamiento parcial o total de esta publicación. el análisis parte del nivel de placas de circuitos y asciende hasta completar todo el sistema. la disponibilidad.com Rev 2004-0 11 . consecuencias y nivel de gravedad). puede servir para calcular la confiabilidad general del sistema. necesarios para los cálculos. Se logra mediante la aplicación del álgebra de eventos. se lo denomina FMECA (análisis de modo de falla. el estado de una unidad UPS cuando funciona a batería. que también se denomina álgebra booleana. y así se logra un mejor diseño de producto. Todos los derechos reservados. reproducción. Luego se usa esta información para determinar el impacto que tendría cada falla en el producto. l os gráficos de estado proporcionan una representación más precisa del sistema. en especial si se presentan en diversos estados o modos operativos. Puede resultar difícil obtener los datos de probabilidad de los distintos componentes de los equipos. www. A diferencia de los diagramas de bloques. por ejemplo. El uso de gráficos de estado tiene en cuenta las relaciones entre fallas de componentes y también diversos estados que los diagramas de bloques no pueden representar. El espacio-estado se define como un conjunto de todos los estados en los que puede encontrase un sistema. Por ejemplo. fotocopiado. Además del uso como herramienta de diseño de productos. como las arquitecturas e léctricas. Después se aplicó al análisis de confiabilidad. en el caso de un sistema UPS.apc. Como el FMEA. Los modelos de Markov también se conocen como diagramas de espacioestado o gráficos de estado. la probabilidad de encontrarse en algún es tado determinado en determinado momento y muchas otras.funcionamiento de cada elemento del sistema o el modo en que cada elemento puede afectar el funcionamiento del sistema en su conjunto. entre ellas.

lo cual ofrece una herramienta para la toma de decisiones de compra o determinación de especificaciones. En productos que evolucionan con el tiempo. Sin embargo. ©2004 de American Power Conversion. Estas comparaciones permiten que los usuarios evalúen las diferencias de confiabilidad relativa entre productos. La tasa de fallas es el porcentaje de una población de unidades que se espera que "fallen" en un año calendario. este método contempla modos de falla que los métodos de predicción suelen excluir. es fundamental que las variables críticas sean las mismas en todos los sistemas que se comparen. Si desea más información sobre comparación de valores relativos de MTBF. reproducción. www. La eficacia de este método depende mayormente de la similitud entre el equipo nuevo y el existente. ya que es parte integral del programa de control de calidad de la fábrica. entornos operativos. como temperatura y vibración. transmisión o almacenamiento parcial o total de esta publicación. Se vale de un modelo matemático para calcular la cantidad de tiempo real que el producto tardaría en fallar en el uso concreto. deben investigarse con sumo cuidado las diferencias y quedar reflejadas en la predicción final.com Rev 2004-0 12 . Como en toda comparación. El método consiste en rastrear una muestra poblacional de nuevos productos y reunir los datos de l as fallas. Debe existir similitud entre los procesos de fabricación. Métodos para el cálculo de confiabilidad Método de predicción por elementos similares Este método ofrece un medio rápido para calcular la confiabilidad basado en datos históricos de confiabilidad de un elemento similar. Además de utilizar estos datos para control de calidad. funciones y diseños de los productos. los fabricantes pueden identificar y solucionar rápidamente los problemas e ir e liminando defectos de los productos. se calculan los valores de MTBF y la tasa de fallas. en cualquier sistema de recuperación de cualquier tipo. Queda prohibida la utilización. también se usan para brindar a clientes y vendedores información acerca de la confiabilidad del producto y los procesos de calidad.HALT La técnica de prueba de vida acelerada (HALT) es un método utilizado para incrementar la confiabilidad general de un diseño de producto. la función principal es mejorar la confiabilidad de diseños de producto. sometiéndolo a esfuerzos cuidadosamente medidos y controlados. Al emplearse tanto entre los fabricantes. También se utiliza para establecer cuánto tarda un producto en alcanzar el punto de quiebre. del cual se tienen datos concretos. Quizá sea el más utilizado por los fabricantes. es probable que se tomen decisiones equivocadas que podrían provocar un impacto económico negativo. Una vez recabados estos datos. De lo contrario. este método de producción es especialmente útil ya que aprovecha la experiencia concreta del pasado. “Comparaciones eficaces de valores MTBF para infraestructuras de centros de datos”. sin el consentimiento escrito del titular del derecho de autor. Dado que se basa en fallas concretas. Estos programas suelen denominarse Gestión de crecimiento de confiabilidad. sirven de base para comparar valores de MTBF. Método de medición de datos concretos Este método se basa en la experiencia real de los productos. consulte el Informe interno N° 112 de APC. Si bien HALT sirve para calcular el valor de MTBF. Todos los derechos reservados. Al rastrear la tasa de fallas de productos en uso concreto.apc. fotocopiado.

Queda prohibida la utilización. Proceedings of the IEEE. Rodhe Island. Todos los derechos reservados. M. 1 de octubre de 1998 IEEE 90 – Institute of Electrical and Electronics Engineers.Conclusiones MTBF es una sigla “de moda” que se acostumbra utilizar en la industria informática. no representa la vida operativa que se espera de un producto. reproducción. julio de 1994 2. “MIL-HDBK-217: It’s Time to Rethink It”.G. “Predicting the Reliability of Electronic Equipment”. fotocopiado. Recibió el título de Bachelor en Ingeniería Mecánica del Union College.com MIL-HDBK-338B.markov-model.com Rev 2004-0 13 . Pecht. Leonard. transmisión o almacenamiento parcial o total de esta publicación. en Schenectady. C. NY.R. Wendy cuenta con una certificación de la ASQ en el campo de la ingeniería en confiabilidad. 5. IEEE Standard Computer Dictionary: A Compilation of IEEE Standard Computer Glossaries. Vol..apc. Si bien el MTBF es un indicador de confiabilidad. sin el consentimiento escrito del titular del derecho de autor. Kingston. Victor Avelar es Ingeniero en Disponibilidad en APC. Brinda asesoramiento a los clientes respecto de los enfoques científicos sobre disponibilidad y prácticas de diseño para optimizar la disponibilidad de los entornos de los centros de datos. Victor recibió el título de Bachelor en Ingeniería Mecánica del Rensselaer Polytechnic Institute en 1995 y es miembro de ASHRAE y la American Society for Quality. Es el responsable de proveer asesoramiento y análisis sobre la disponibilidad para las arquitecturas eléctricas y el diseño de los centros de datos de los clientes. F. Nash. 3. Se publican cifras sin comprender qué expresan en realidad. N° 7. NY: 1990 Acerca de los autores: Wendy Torell es Ingeniero en Disponibilidad en la planta de APC en W.. Electronic Reliability Design Handbook . www. 4. Electronic Design.. en cualquier sistema de recuperación de cualquier tipo. 82. ©2004 de American Power Conversion. los valores de MTBF carecen de sentido sin una definición de falla y con supuestos poco razonables o ausentes. 24 de octubre de 1991 http://www. New York. Referencias 1. Por último.