You are on page 1of 94

2

3
MODELO PARA LA
GERENCIA DE MANTENIMIENTO
INDUSTRIAL
Centro de Altos Estudios Gerenciales
Instituto Superior de Investigación y Desarrollo
4
5
Copyright, 2000.
2ª. Edición Adaptada como
herramienta computacional.
Centro de Altos Estudios Gerenciales ISID
Empresa de la Fundación Educativa “María Castellanos”
Femaca e-mail: femaca@telcel.net.ve
En asociación con Cybercentrum Las Mercedes C.A.
y Edukami U.S.A.
6
AGRADECIMIENTO
A todo el equipo de colaboradores que brindaron
su valiosa cooperación para la elaboración y
revisión del texto y la programación del software
de cálculo de los parámetros de mantenimiento.
7
INDICE
Prólogo
I Gerencia de los Sistemas de Mantenimiento
1.1. Consideraciones generales. ...........................................................................10
1.2. Costos asociados. ..........................................................................................11
1.3. Parámetros de mantenimiento. ......................................................................12
II Confiabilidad de componentes
2.1. Confiabilidad...................................................................................................14
2.1.1. Indices cuantitativos de confiabilidad. ..................................................16
2.1.2. Relaciones entre los índices cuantitativos de confiabilidad. ......19
2.1.3. Variación de la confiabilidad de los elementos en función del
tiempo...................................................................................................22
2.2. Distribuciones de probabilidad de las fallas de los componentes de
un sistema. ...................................................................................................23
2.2.1. Distribuciones de probabilidad de Fallas. .............................................23
2.3. Bases de datos de confiabilidad. ....................................................................34
2.3.1. El teorema de Bayes y la confiabilidad.................................................34
2.4. Tipos de componentes. Expresiones para la evaluación de su
confiabilidad. .................................................................................................37
III Confiabilidad de Sistemas
3.1. Técnica de árboles de fallas...........................................................................47
3.2. Evaluación cualitativa del árbol de fallas. .......................................................57
IV PARAMAN: SOFTWARE PARA EL CALCULO DE LOS PARAMETROS
DE MANTENIMIENTO......................................................................................75
BIBLIOGRAFIA .....................................................................................................91
8
PROLOGO
Dentro del marco de un convenio suscrito entre la Universidad Central de
Venezuela y el Instituto Superior de Ciencias y Tecnología Nucleares, de las
Repúblicas de Venezuela y Cuba respectivamente, se ha instrumentado un
proyecto de investigación y desarrollo tecnológico en el área de la Gerencia de
Mantenimiento. Como consecuencia de dicho desarrollo, y dentro de los acuerdos
de cooperación institucional, se ha venido trabajando en un sistema de medición
para estimar los parámetros de mantenimiento, dentro del cual se destacan los
aspectos teóricos y aplicados de la teoría de confiabilidad, así como algunos
esquemas asociados a los sistemas gerenciales de mantenimiento industrial. Este
trabajo sirvió de base para el desarrollo de un proyecto más general, relacionado
con el Análisis Probabilistico de Seguridad, donde se requiere crear bases de
datos sobre la confiabilidad y mantenibilidad de un gran número de componentes y
equipos, integrados en sistemas complejos, utilizados regularmente en la industria
petrolera, metal mecánica, y eléctrica, como también en las plantas generadoras
de energía, ya sean convencionales que nucleares.
Los aspectos mencionados fueron conceptualizados y aplicados a una variada
gama de sistemas industriales, dando origen a paquetes computacionales,
preparados para la formación profesional de los ingenieros en el campo del
mantenimiento y de los aspectos probabilísticos de seguridad industrial. Sus
aplicaciones condujeron a la creación de un sistema preparado en ambiente de
computadoras personales, soportados en un esquema interactivo. Su trabajo
requirió la revisión de los aspectos conceptuales en el campo de la Ingeniería,
Estadística e Informática, lo cual condujo a la preparación de los manuales de
operación de los sistemas y a la elaboración de textos que recogiesen los
esquemas teóricos con sus respectivas aplicaciones, cumpliendo el doble
propósito de sistematizar las investigaciones y los desarrollos tecnológicos y, al
mismo tiempo, proporcionar una guía para el estudio como profesional de
pregrado y postgrado, de un tema que adquiere enorme importancia en la
industria moderna.
Una vez culminado el esquema teórico e incorporado los Métodos de Estimación
de Parámetros para el Mantenimiento Industrial, se continuó con el desarrollo de
aplicaciones diseñadas para medir todos los aspectos relativos al análisis
probabilístico de la fiabilidad de sistemas, basado en indicadores de importancia
de los eventos susceptibles de ocasionar fallas, así como evaluar la sensibilidad
de los sistemas por indisponibilidad media, instantánea y en puntos aislados del
tiempo. Este esquema, condujo a establecer los métodos para obtener la prioridad
en los trabajos de mantenimiento, monitorear sistemas y estudiar el problema de
la gerencia logística de partes y repuestos. Luego de desarrollar la parte
conceptual de estos aspectos, se construyó un sistema computarizado
denominado ARCON, abreviatura de Análisis de Riesgo y Confiabilidad para
sistemas industriales complejos, el cual permite realizar Análisis Probabilísticos de
Seguridad y estudiar los problemas relativos a los riesgos industriales. Así mismo,
9
se creó un sub proyecto de investigación referido a la medición y análisis de las
Vibraciones Mecánicas y su impacto sobre el Mantenimiento Predictivo, además
de otro sub proyecto orientado a la identificación y el estudio de las fallas humanas
en los procesos de la gestión de mantenimiento. Este proyecto está en pleno
desarrollo y el Consejo de Desarrollo Científico y Humanístico de la Universidad
Central conoció de los textos elaborados dentro del convenio, los cuales sometió
al respectivo arbitraje y procedió a la publicación de tres libros denominados:
Análisis de Riesgo Industrial; Análisis de Fallas Dependientes y Errores Humanos,
y Mantenimiento Predictivo por Vibraciones Mecánicas;
Particularmente, en este trabajo se presentan los métodos empleados para la
estimación de los parámetros de mantenimiento industrial, concebidos como una
herramienta computarizada para estimar los coeficientes de confiabilidad,
mantenibilidad y disponibilidad de componentes y de sistemas, proporcionando a
estudiantes, profesores y profesionales en general, un instrumento que facilita la
obtención de indicadores que son necesarios para cuantificar la confiabilidad de
los sistemas industriales y otros elementos asociados, y absolutamente
imprescindibles para llevar a cabo un trabajo técnico y gerencial adecuado a los
requerimientos de control de sistemas en grandes y complejas instalaciones de la
industria pesada como, por ejemplo, la industria petrolera.
Finalmente deseo expresar sincero agradecimiento al Profesor Ing. Luis A
Martínez, del Instituto Superior de Investigación y Desarrollo, por su extremada
cooperación en el análisis y desarrollo computarizado de los modelos
matemáticos, así como a los Profesores Asociados del Instituto Superior de
Ciencias y Tecnología Nucleares, Ingenieros y Doctores en Ciencias Técnicas,
José de Jesús Rivero y Jesús Salomón.
Caracas, mayo del 2000.-
.
10
I. Gerencia de los sistemas de mantenimiento.
1.1. Consideraciones generales.
Las aplicaciones científico-tecnológicas han derivado durante los últimos años
en una proporción significativa hacia la Gerencia, tomando un enfoque
cuantitativo sustentado en el desarrollo de modelos estadístico matemáticos.
Dentro de este marco general, la Gerencia Técnica ha adquirido un enorme
impulso, apoyada particularmente por el procesamiento de datos a gran
velocidad, utilizando los ordenadores electrónicos los cuales son hoy en día de
gran versatilidad, especialmente las computadoras personales.
La gerencia de mantenimiento ha venido transformándose en una actividad
cada vez más importante dentro de los complejos industriales y ha adquirido
en los últimos años importancia vital, para lograr que las instalaciones y
equipos sean mantenidos en las mejores condiciones operacionales dentro de un
ambiente de óptimo costo. El análisis y estudio de las relaciones globales dentro
de una organización y de su entorno, requieren de experticias específicas
examinando variados factores, entre los cuales está la misma organización
estructural, el uso de los recursos materiales y financieros, la operación de los
sistemas, el control de los costos, y el soporte logístico y técnico asociado.
Dentro de ese marco referencial, y ante la diversificación técnica, producto de
la variedad tecnológica y organizacional de los complejos industriales, los
sistemas de mantenimiento han adquirido un enfoque especializado, soportado
sobre desarrollos tecnológicos que los han convertido, para la Administración
del Mantenimiento, en herramientas absolutamente necesarias para la dirección
global de dichas organizaciones. El perfil de las mismas se ha hecho cada vez
más complejo ya que la tendencia es la de estar integradas por equipos
generalmente grandes, variados, ubicados en diferentes frentes de las cadenas
de producción, con operaciones automatizadas y vinculadas a sistemas
logísticos para el reabastecimiento de insumos cada día más sofisticados en su
manejo y operación. A estos aspectos se une la experticia profesional y
artesanal, lo cual requiere programas de capacitación y entrenamiento
continuos.
Los elementos mencionados hacen aparecer a la función de mantener como
una actividad dinámica, donde actúan gran cantidad de variables y relaciones
funcionales, dentro de un esquema de aleatoriedad que caracteriza al sistema
de mantenimiento. En 1967, el Dr. Howard Finley (1) introdujo el concepto
de Efectividad de un Sistema como método para modelar las actividades del
mantenimiento a objeto de optimizar su gerencia; en este sentido lo definió como:
"La probabilidad que un sistema opere a toda capacidad durante un período de
tiempo determinado"
11
1.2. Costos asociados.
El concepto de efectividad de un sistema se encuentra asociado a las variables
de costo involucradas en el sistema y, consecuencialmente, se requiere definir los
conceptos de costo directo de mantener, costo redundante y costo de
penalización.
El concepto de costo directo de mantener se refiere a la totalidad de los
costos necesarios para mantener los equipos operables, incluyendo los
servicios, reparaciones, inspección y reparaciones mayores. Con relación al costo
redundante, éste se refiere a un costo adicional por la condición de mantener
equipos en espera, para ponerlos en funcionamiento cuando el equipo principal
sale de servicio. Por último el costo de penalización se refiere a las pérdidas de
producción, cuando los equipos primarios salen de servicio y no existen equipos
en espera que los substituyan.
Las interacciones funcionales de los costos mencionados son sumamente
complejas; pero, en todo caso, la gerencia define su esquema de actuación
conducente a identificar la mejor combinación de los subsistemas asociados al
sistema, a objeto de minimizar el costo total de la operación y optimizar los
esfuerzos de mantener un complejo industrial en particular en la mejor condición
operacional, dentro de un tiempo determinado.
El esfuerzo de mantener, en primer lugar, está asociado de manera directa al
tiempo fuera de servicio de una instalación; al efecto, el costo total resultante
de la operación está en relación directa con el esfuerzo de mantener. Por lo
tanto, a mayor esfuerzo corresponde comprometer más recursos económicos y
materiales, incrementándose funcionalmente el tiempo fuera de servicio. Se
desprende de esta consideración que por mucho esfuerzo realizado el costo
no necesariamente será el óptimo, es más, podrá incluso llegar a hacerse anti-
económico.
Por otro lado, la caída de un sistema por fallas del mismo o de sus componentes,
implica un costo de penalización, como consecuencia de la pérdida del valor de
la producción no colocada en los mercados o comprometida; así se desprende
que este costo está exponencialmente asociado al tiempo fuera de servicio y al
sumarizarse al costo de mantenimiento, determina que el costo directo de
mantener se incremente. El costo total, función a su vez del esfuerzo de
mantener, tendrá un entorno óptimo, que habrá que determinar técnicamente con
la ayuda del análisis de los parámetros de mantenimiento, los cuales
contribuyen a mantener la efectividad del sistema preparado para su operación
en un período de tiempo determinado.
El concepto de sistema se define de la manera siguiente:
12
"el conjunto de elementos discretos o componentes que interactúan para el
cumplimiento de una función determinada".
1.3. Parámetros de mantenimiento.
La efectividad de un sistema, es función de un factor sumamente importante
dentro de un enfoque cuantitativo de análisis de la función de mantenimiento:
se trata del concepto de disponibilidad.
El concepto de disponibilidad se define como:
"la probabilidad que un sistema, subsistema o equipo esté disponible para su
uso durante un tiempo dado".
Esta probabilidad, asociada a la probabilidad de tener sistemas, sub-sistemas o
equipos instalados con una redundancia determinada, al estar disponibles para
su funcionamiento cuando el sistema, subsistema o equipo principal sale de
servicio, permite obtener una relación funcional que determina el
comportamiento de la Efectividad del sistema.
El concepto de disponibilidad, como medida probabilística de que un sistema
esté disponible a requerimiento del sistema operativo, es de extraordinaria
importancia para la gerencia de mantenimiento. El complemento de este
concepto o indisponibilidad de un sistema, subsistema o equipo, se utilizará con
frecuencia en los análisis de mantenimiento por la forma práctica que toma el
concepto en las aplicaciones computarizadas.
La disponibilidad como parámetro de mantenimiento, a su vez, es función de
dos elementos muy importantes: en primer lugar de la confiabilidad de un
sistema, subsistema o equipo y en segundo lugar de su mantenibilidad. El
primer elemento se define técnicamente de variadas maneras.
Conejero (2) la define como:
"la característica de un elemento expresada por la probabilidad que cumpla
sus funciones específicas durante un tiempo determinado cuando, se le coloca
en las condiciones del medio exterior".
Finley (3) la define como:
"la probabilidad que un equipo no falle mientras esté en servicio durante un
período de tiempo dado".
Por último, Valhuerdi y Quintero (4) la definen como:
13
"la propiedad de un sistema de cumplir las funciones para él previstas,
manteniendo su capacidad de trabajo bajo los regímenes y condiciones de
explotación prescritos y durante el intervalo de tiempo requerido".
El segundo elemento, es decir, mantenibilidad se define como:
"la probabilidad que un sistema, subsistema o equipo que ha fallado pueda
ser reparado dentro de un período de tiempo determinado".
La determinación de los parámetros confiabilidad y mantenibilidad son
determinantes para calcular la disponibilidad de un sistema, sub-sistema, equipo,
parte o pieza de una estructura industrial. Ello proporciona los datos
fundamentales para el análisis de la función de mantener y de una gerencia
efectiva, dentro de un ambiente de sistema total que genera gran cantidad de
información técnica y que requerirá de evaluación permanente con la ayuda de
sistemas computarizados. Este sistema total está conformado por multitud de
factores gerenciales, entre los cuales destacan: la organización y las políticas, y
procedimientos, tales como: control de trabajos, control de costos y emisión de
reportes gerenciales.
A un mayor esfuerzo en el conocimiento de los indicadores de la gestión de
mantener, habrá entonces correlativamente mayor efectividad del sistema,
asociado a menores costos de penalización y costos totales mínimos; para tales
propósitos, se desprende la necesidad de un monitoreo constante de los
parámetros de mantenimiento mediante un sistema de información y de cálculo
de variables, utilizando modelos estadístico matemáticos que sirva de apoyo
técnico para la planeación y programación de las acciones de mantener.
14
II. Confiabilidad de componentes.
2.1. Confiabilidad.
A modo de introducción, se abordan brevemente los conceptos y términos
principales de la teoría de confiabilidad de componentes y sistemas.
Sistema: Conjunto de elementos discretos o componentes que
interactúan para el cumplimiento de una función determinada.
Subconjuntos de estos componentes pueden, a su vez, denotarse como
subsistemas.
Los conceptos de sistema y subsistema son conceptos relativos y dependen de
la función que sea objeto de estudio. De acuerdo con la función que se defina,
pueden variar las fronteras de lo que se considera como sistema o subsistema.
Lo que en un estudio es sistema, puede que en otro sea subsistema. De igual
forma, la definición de los elementos discretos o componentes de un sistema
también es relativa y depende del grado de detalle con que se quiera
descomponer el sistema para su estudio y, en última instancia, de las
posibilidades que ofrezca la base de datos disponible. Así, en el caso de un
sistema de enfriamiento, uno de los componentes podría ser la bomba, mientras
que si disponemos de los datos necesarios, la bomba podría en otro caso
considerarse como sistema y sus piezas como componentes.
Confiabilidad: Es la propiedad de un sistema (elemento, componente o pieza)
de cumplir las funciones para él previstas, manteniendo su capacidad de
trabajo bajo los regímenes y condiciones de explotación prescritos y durante
el intervalo de tiempo requerido. Dicho de otra forma, la confiabilidad es la
propiedad del sistema de mantenerse sin experimentar un suceso de falla
durante el tiempo y las condiciones de explotación establecidos.
Falla: Suceso después del cual el sistema tecnológico deja de cumplir (total
o parcialmente) sus funciones. La falla es la alteración de la capacidad de
trabajo del componente o sistema.
Las fallas pueden ser clasificadas de acuerdo con una serie de índices, que se
recogen de manera general en la tabla 2.1.1.
La falla catastrófica conduce a la alteración de la capacidad de trabajo. A este
tipo de falla corresponden la ruptura y el cortocircuito; las fracturas,
deformaciones y atascamiento de las piezas mecánicas, etc. Las fallas
paramétricas son fallas parciales que conllevan a una degradación de la
capacidad de trabajo, pero no a su interrupción total.
Las fallas, como hechos casuales, pueden ser independientes o dependientes.
Si la falla de un elemento cualquiera de un sistema no motiva la falla de otros
15
elementos, éste será un hecho o acontecimiento independiente. Si la aparición
de la falla en un elemento o si la probabilidad de ocurrencia de la falla ha
cambiado con la falla de otros elementos, esta falla será un hecho
dependiente. Análogamente se definen como dependientes o independientes
las fallas de sistemas con respecto a las de otros sistemas.
Indice de clasificación Tipos de fallas
catastrófica Según el grado de influencia en la capacidad de trabajo
paramétrica
independiente Según la influencia de fallas de otros elementos
dependiente
repentina Según el carácter de su proceso de aparición
gradual
estable
temporal Según el tiempo de permanencia del estado fallado
Intermitente
de interrupción Según el momento en que se manifiesta
de bloqueo
revelable Según la forma de su detección
oculta
primaria
secundaria
comando
Según la naturaleza de su origen o causas
modo común
Tabla 2.1.1. Clasificación de las fallas.
Las fallas repentinas (inesperadas) aparecen como consecuencia de la variación
brusca (catastrófica) de los parámetros fundamentales bajo la acción de
factores casuales relacionados con defectos internos de los componentes, con la
alteración de los regímenes de funcionamiento o las condiciones de trabajo, o
bien con errores del personal de servicio, entre otras causas. En las fallas
graduales se observa la variación suave de los parámetros debido al
envejecimiento y al desgaste de los elementos o de todo el sistema.
Las fallas estables son aquellas que se eliminan sólo con la reparación o la
regulación, o bien sustituyendo al elemento que falló. Las fallas temporales
pueden desaparecer espontáneamente sin la intervención del personal de
servicio debido a la desaparición de los motivos que la provocaron. Las causas
de tales fallas son frecuentemente los regímenes y condiciones de trabajo
anormales. Las fallas temporales que se repiten muchas veces se denominan
intermitentes o alternantes. Ellas atestiguan la existencia de anormalidades en la
calidad del equipamiento o en regímenes y condiciones de trabajo.
Las fallas de interrupción son las que se producen en el equipamiento en
operación, interrumpiendo su trabajo. Las fallas de bloqueo impiden el arranque o
16
puesta en funcionamiento de sistemas o componentes a la demanda, es decir,
bloquean la puesta en funcionamiento de sistemas que están a la espera.
Las fallas revelables son aquellas que se exteriorizan al personal de operación
inmediatamente después de su ocurrencia, porque sus efectos se manifiestan
directamente en los parámetros de funcionamiento de la instalación
tecnológica o son detectados a través del sistema de control. Se trata de fallas de
sistemas en funcionamiento, o a la espera con control de sus parámetros. Las
fallas ocultas no se revelan al personal de operación por ninguna vía en el
momento de su ocurrencia, pero la condición de falla permanente está latente
hasta ser descubierta por una prueba o sobre la demanda de operación del
sistema en cuestión. Se trata, por tanto, de fallas de sistemas que trabajan a la
espera.
Las fallas primarias son intrínsecas del elemento y responden a sus
características internas. Las fallas secundarias son debidas a condiciones
ambientales o tensiones operativas excesivas impuestas a un elemento desde
el exterior. Las fallas comando son las originadas por la operación indebida o la no
operación de un elemento iniciador (elemento que controla o limita el flujo de
energía que llega al elemento considerado). Dentro de las fallas secundarias y
comando se pueden definir las fallas modo o causa común, que son aquellas en
que fallan varios elementos, producto de una misma causa.
2.1.1. Indices cuantitativos de confiabilidad.
Entre los parámetros fundamentales que caracterizan la confiabilidad de
elementos y sistemas se tienen los siguientes:
Probabilidad de trabajo sin fallas o probabilidad de supervivencia: es la
probabilidad de que en un intervalo de tiempo prefijado (o en los límites de
las horas de trabajo dadas) con regímenes y condiciones de trabajo
establecidos, no se produzca ninguna falla, es decir, la probabilidad de que
el dispositivo dado conserve sus parámetros en los límites prefijados
durante un intervalo de tiempo determinado y para condiciones de
explotación dadas. La denotaremos por Ps(t).
De esta definición se infiere que la probabilidad de supervivencia es el
índice a través del cual se cuantifica la confiabilidad de un sistema o elemento
técnico. La cuantificación de la confiabilidad como una probabilidad, está
determinada por el carácter aleatorio del suceso al que está referida (aparición de
la falla). Dicho suceso, aunque aleatorio, está condicionado por factores de
diseño, calidad de la ejecución y explotación, etc., cuya influencia se refleja en
su probabilidad de ocurrencia. Por tanto, la influencia de estos factores sobre la
confiabilidad también es susceptible de cuantificar.
17
Probabilidad de falla: es la probabilidad de que en un intervalo de
tiempo prefijado se produzca al menos una primera falla. La denotaremos por
Pf(t). Puesto que el trabajo defectuoso y el trabajo sin fallas son sucesos
complementos, tendremos que:
Pf(t) = 1 - Ps(t) [2.1.1]
Desde el punto de vista matemático Ps(t) y Pf(t) constituyen funciones de
distribución acumulada.
Densidad de fallas: es el número de fallas por unidad de tiempo, referido a
la cantidad inicial de elementos de un lote o muestra dada N0. Se representa
por f(t). Así:
dN/dt
f(t) = --  [2.1.2]
N
0
donde: N(t) es el número de componentes que no han fallado
(se encuentran operables) al cabo de un tiempo t
N
0
es el número inicial de elementos de la muestra en estudio
- dN es el diferencial de elementos que fallan en el intervalo (t, t+dt)
Tomando en cuenta las definiciones anteriores de probabilidad de supervivencia y
probabilidad de falla, resulta evidente que:
N(t)
Ps(t) =  [2.1.3]
N
0
N
0
- N(t)
Pf(t) = - [2.1.4]
N
0
Por tanto, la densidad de fallas puede expresarse en función de Ps(t) o Pf(t), de
la forma siguiente:
dP
f
(t) dP
s
(t)
f(t) =  = -  [2.1.5]
dt dt
18
La densidad de fallas representa así la función de densidad de probabilidad
asociada a la función de distribución acumulada P
f
(t), por ello también se
conoce como función de densidad de probabilidad de falla (o de la primera falla).
Intensidad de fallas o rata de fallas: es el número de fallas por unidad de tiempo,
referido al número de elementos que se encuentran operables en el instante t, y
se denota por R(t).
Así:
dN/dt
R(t) = - -- [2.1.6]
N(t)
Si expresamos [2.1.2] como:
dN/dt N(t)
f(t) = -  • 
N(t) N
0
resulta que
f(t)
R(t) =  [2.1.7]
Ps(t)
Sustituyendo [2.1.5] en [2.1.7] y tomando en cuenta [2.1.1], la rata de fallas
también puede expresarse como:
Ps'(t) Pf'(t) f(t)
R(t) = -  =  =  [2.1.8]
Ps(t) 1 - Pf(t) 1 - Pf(t)
La intensidad o rata de fallas se expresa cuantitativamente en unidades de
tiempo inversas (por lo general horas inversas: 1/h) y se puede interpretar como
la probabilidad de que el elemento falle por unidad de tiempo a partir de un
instante de tiempo t dado, con la condición de que no haya fallado hasta
dicho instante. De ahí que esta magnitud también se identifique como rata de
fallas condicional.
- Tiempo medio de operación o servicio (tiempo medio de trabajo sin fallas):
número medio de horas de trabajo de un componente hasta la primera falla. Lo
denotaremos como TMS (tiempo medio de servicio). Este se puede hallar
aproximadamente como:
19
N
Σ ti
i=1
TMS =  [2.1.9]
N
Donde: ti es el tiempo de trabajo sin fallas del i-ésimo elemento.
N es el número de elementos del lote de componentes
con que se experimenta.
Mientras mayor es el número N, más calidad estadística tiene la valoración y
mayor es la precisión del valor determinado para TMS.
-Tiempo medio de reparación o tiempo promedio para reparar: es el tiempo
medio, en horas, de duración de la reparación de un elemento después de
experimentar una falla. El valor aproximado del tiempo promedio para reparar
(TPPR) podemos hallarlo mediante
la expresión:
K
Σ t
i
i=1
TPPR =  [2.1.10]
K
Donde:
K es el número de fallas del elemento dado durante el tiempo de ensayo u
observación
t
i
es el tiempo de duración de la reparación después de la falla i.
La rata de reparación µ se define como el inverso de TPPR:
1
µ = 
TPPR
2.1.2. Relaciones entre los índices cuantitativos de confiabilidad.
- Relación entre la rata de fallas R(t) y la probabilidad de supervivencia Ps(t).
Si integramos la expresión [2.1.8] como función de Ps(t) en los límites de 0 a t
obtenemos:
20
considerando que para t=0, Ps(0)=1 (componente como nuevo), resulta:
o sea:
para: R(t) = const. = R
Ps(t) = EXP(-Rt) [2.1.12]
Por último, aplicando [2.1.1] se obtiene:
Pf(t) = 1- EXP(-Rt) [2.1.13]
- Relación entre la densidad de fallas f(t) y la probabilidad de supervivencia
Ps(t).
Si integramos [2.1.5] se obtienen las siguientes expresiones:
- Relación entre la densidad de fallas f(t) y la rata de fallas R(t).
De [2.1.7] se obtiene:
f(t) = R(t).Ps(t)

− =
t
d R Exp t Ps
0
) ) ( ( ) ( τ τ
[2.1.11]

− =
t
d f t Ps
0
) ( 1 ) ( τ τ
[2.1.15]

=
t
d f t Pf
0
) ( ) ( τ τ
[2.1.14]

− =
t
d R t Ps
0
) ( ) ( ln τ τ
)] 0 ( ln ) ( ln [ ) (
0
Ps t Ps d R
t
− − =

τ τ
21
y sustituyendo Ps(t) por [2.1.11]
- Relación entre el tiempo medio de servicio y la rata de fallas.
El TMS se determina como el valor esperado del tiempo t hasta la falla, que sigue
una función de densidad de probabilidad f(t). Así pues, su expresión general
será:
Sustituyendo f(t) en función de Ps(t) tomando en cuenta [2.1.5], resulta:
Cuando esta expresión se integra por partes se obtiene:
Consideremos el caso particular en que la rata de fallas es constante. Bajo
estas condiciones Ps(t) viene dada por [2.1.12] y [2.1.17] se transforma en:
de donde se obtiene finalmente:
TMS = 1/R [2.1.18]
Esta relación entre TMS y R (constante) es muy importante y determina que en la
práctica R y TMS sean usados indistintamente como datos de partida para los
análisis de confiabilidad.


=
0
) ( dt t tf TMS
[2.1.17]


− =
0
) ( dt t Ps TMS


=
0
) (t tdPs TMS


− =
0
) ( dt Rt Exp TMS
[2.1.16]

− =
t
d R Exp t R t f
0
) ) ( ( ). ( ) ( τ τ
22
2.1.3. Variación de la confiabilidad de los elementos en función del tiempo.
La curva de R(t) en función del tiempo para un elemento dado sigue en la
mayoría de los casos un comportamiento típico como el mostrado en la figura
2.1.1, que por su forma característica recibe el nombre de "curva de la
bañera". Esta curva puede dividirse en tres partes. La primera parte es el
período inicial de trabajo del elemento donde pueden producirse fallas tempranas
debido a deficiencias en el control de la calidad. Los fabricantes
acostumbran someter a prueba los elementos durante este período para
corregir tales fallas tempranas. La segunda parte se caracteriza por una rata
de fallas aproximadamente constante. En esta parte de la curva podemos
considerar las fallas como aleatorias e independientes del tiempo. Este es el
período de vida útil del elemento, al cual podemos asociar una distribución de
probabilidad de falla de tipo exponencial como la expresada por [2.1.13] La
tercera parte de la curva, en la que se produce un aumento sostenido de R(t)
corresponde a la salida de servicio acelerada de los elementos debido al
desgaste y el envejecimiento.
Fig. 2.1.1. Comportamiento típico de la rata de fallas de un elemento.
Para el caso particular de sistemas de alta responsabilidad, como los sistemas
de seguridad de industrias de alto riesgo, las fallas tempranas tienden a ser
aleatorias (R constante) debido a los altos requerimientos del control de calidad,
mientras que el mantenimiento y reposición de componentes contribuyen a
alargar el período de vida útil, protegiendo los sistemas contra el desgaste y el
envejecimiento. Por otro lado, cuando los dispositivos fallan de forma no
frecuente y son complejos y costosos, no pueden ser realizadas muchas
pruebas para caracterizar su confiabilidad. Solo se pueden realizar
estimaciones de R(t). Por ello, lo usual en los análisis de confiabilidad y de
cuantificación de la seguridad es asumir las fallas aleatorias, de modo que R(t)
es igual a un valor constante R.
23
Ello determina que la distribución de probabilidad más usada para la modelación
de la confiabilidad de componentes sea la distribución exponencial,
caracterizada por las expresiones [2.1.12] y [2.1.13]. Esta es la que se emplea
por lo general en los análisis de confiabilidad mediante árboles de fallas. Así, en
la literatura internacional se acostumbra a caracterizar la confiabilidad de
componentes mediante valores de ratas de fallas constantes expresadas en
forma de fracciones simples o decimales que dan la probabilidad de fallas por
hora de trabajo.
En la tabla 2.1.2 se ilustran ratas de fallas típicas para algunos componentes
de sistemas industriales con índices elevados de confiabilidad y seguridad.
Componente [1/h]
Bombas 3E-6
Tuberías 1E-9
Diesels 8E-5
Válvulas 3E-6
Instrumentos 3E-7
Tabla 2.1.2. Ratas de fallas para algunos tipos de componentes de sistemas
industriales (5).
2.2. Distribuciones de probabilidad de las fallas de los
componentes de un sistema.
2.2.1. Distribuciones de probabilidad de Fallas.
A continuación se describen las distribuciones de probabilidad más
frecuentemente utilizadas para la descripción de fallas de componentes.
2.2.1.1. Distribuciones discretas.
Dos de las distribuciones discretas de probabilidad más útiles usadas en
análisis de fallas son las distribuciones binomial y de Poisson.
Dos parámetros de interés para cualquier distribución discreta de probabilidad P(x)
de una variable aleatoria x son la media M y la varianza V(x). Para N salidas
posibles, la media es definida como:

N
M = Σ x P(x) [2.2.1]
x=0
24
mientras la varianza, que mide la desviación de los valores alrededor de la
media, es:

N
V(x) = Σ (x-M)2 P(x) [2.2.2]
x=0
- Distribución Binominal.
En el más simple de los sistemas hay sólo dos salidas, o el sistema funciona
a la demanda o falla. Estas dos probabilidades son complementarias por lo
que:
P(D) = 1 - P(D) [2.2.3]
donde D es el suceso que representa el éxito y D la falla.
Supongamos que la actuación de un sistema no es conocida y que se va a realizar
un experimento consistente de N demandas o ensayos. Se especifica que las
demandas son independientes (ensayos Bernoulli) tal que P(D) es constante
para cada ensayo. Para describir el experimento con la distribución
binominal es necesario que el orden de los sucesos no afecte el resultado del
experimento. Los posibles resultados corresponden a los diferentes términos
del desarrollo binomial de la ecuación.
[P(D)+P(D)]N = 1 [2.2.4]
Sea q = P(D) la probabilidad de falla e introduzcamos la variable aleatoria discreta
x, definida como el número de demandas para las que el sistema falla. Esta
variable sigue la distribución binomial, con parámetro q e índice N. La
probabilidad de que ocurran x fallas, es obtenida seleccionando al término
apropiado del desarrollo binomial de la ecuación [2.2.4] y tiene la forma:
N!
P(x) =  qx(1-q)N-x [2.2.5]
x! (N-x)!
Se puede demostrar que para la distribución binomial
M = Nq [2.2.6]
V(x) = Nq(1-q) [2.2.7]
Otra distribución de probabilidad obtenida de la [2.2.5] es la función de
distribución acumulada de que el sistema falle para Z o menos demandas. Se
25
obtiene por adición de los términos apropiados en el desarrollo de la Ecuación
[2.2.4]:

Z
P(x ≤ Z)= Σ P(x) [2.2.8]
x=0
Así la probabilidad de que el sistema falle para Z+1 o más demandas sería, el
complemento de P(x>=Z),

Z
P(x > Z)= 1 - Σ P(x) [2.2.9]
x=0
La distribución binomial es usada en ingeniería de confiabilidad para describir un
componente único que opera a la demanda y puede ser reparado quedando en
un estado "como nuevo" inmediatamente después de que falla. Entonces P(x) es
la probabilidad de que el componente falle x veces en N demandas.
Una segunda aplicación de esta distribución para análisis de fallas se refiere
al caso de N componentes idénticos, con una probabilidad de falla q igual para
todos. Entonces P(x) describe la probabilidad de que fallen x de los N
componentes del sistema.
- Distribución de Poisson.
La distribución de Poisson es similar a la binomial en el hecho de que describe
fenómenos para los cuales la probabilidad promedio de un suceso es constante
e independiente del número de sucesos previos. En este caso, sin embargo,
el sistema experimenta transiciones aleatoriamente desde un estado con N
ocurrencias de un suceso a otro con N+1 ocurrencias, en un proceso que es
irreversible. Es decir, el ordenamiento de los sucesos no puede ser
intercambiado. Otra distinción entre las distribuciones binomial y de Poisson es
que para el proceso de Poisson el número de sucesos posibles debe ser grande.
La distribución de Poisson puede ser deducida a partir de la identidad
EXP(-M).EXP(M) = 1 [2.2.10]
donde el número más probable de ocurrencias del suceso es M.
Si el factor EXP(M) es expandido en un desarrollo de series de potencias, la
probabilidad P(x) de que exactamente x ocurrencias aleatorias tengan lugar
puede inferirse como el x-esimo término en la serie, de donde se obtiene:
26
EXP(-M).M
x
P(x) =  x = 0,1,2,3,... [2.2.11]
X!
La media y la varianza de la distribución de Poisson son ambas iguales a M.
La función de distribución acumulada de que un suceso ocurra Z o menos veces,
viene dada por la expresión general [2.2.8], tomando en cuenta que P(x) en este
caso se describe mediante [2.2.11]. Así pues,

Z
EXP(-M).M
x
P(x ≤ Z)= Σ  [2.2.12]
x=0 X!
Por supuesto la probabilidad de que un suceso ocurra Z+1 o más veces es el
complemento de [2.2.12], es decir, 1 - P(x>=Z).
La distribución de Poisson es útil para el análisis de la falla de un sistema que
consta de un número grande de componentes idénticos que al fallar causan
transiciones irreversibles en el sistema. Cada componente se asume que falla
independientemente y aleatoriamente. Entonces M es el número más
probable de fallas del sistema durante la vida útil.
2.2.1.2. Distribuciones continuas.
Para análisis de fallas los valores de la variable aleatoria tiempo hasta la falla
se encuentran en el intervalo [0,ì“]. En este caso el valor medio de una
distribución está dado por:
y la varianza
- Las distribuciones de Erlang y Exponencial.
La distribución de Erlang es la forma dependiente del tiempo de la distribución
discreta de Poisson. Ella aparece frecuentemente en los cálculos de ingeniería
[2.2.13]


=
0
) ( dt t tf M
[2.2.14]


− =
0
2
) ( ) ( dt t f M t V
27
de confiabilidad que consideran fallas aleatorias, esto es, aquellas fallas para las
que la rata de fallas R(t) es una constante R. Su expresión puede
deducirse a partir de la expresión [2.2.11] hasta obtener finalmente la
distribución de Erlang como:
R.(Rt)x-1.EXP(-Rt)
f(t)=  R>0 , x>0 [2.2.15]
(x-1)!
La distribución de Erlang es válida para un número entero de fallas x. El caso
particular más importante es para x=1, en el que se obtiene la distribución
exponencial.
f(t)= R EXP(-Rt) [2.2.16]
La función de distribución acumulada de fallas para la distribución
exponencial es:
Pf(t)= 1 - EXP(-Rt) [2.2.17]
y los dos momentos son:
1 1
M =  , V(t) =  [2.2.18]
R R
2
- Distribución Logaritmo normal.
La distribución logaritmo normal de una variable t es una distribución para
la cual el logaritmo de t sigue una distribución normal o gaussiana. La
ecuación que describe la distribución de probabilidad de falla en este caso se
puede escribir como:
1 ln
2
(t/β)
f(t)=  EXP(-) [2.2.19]
(2π)
½
αt 2 α
2
El parámetro α (adimensional) y el parámetro β (en unidades de tiempo)
determinan la forma de f(t).
La densidad de probabilidad de fallas se presenta en la figura 2.2.1 donde se
puede apreciar que la distribución es oblicua hacia la derecha comparada con la
distribución de Gauss, que es simétrica respecto a su valor medio. La oblicuidad
se acentúa con valores crecientes de α.
28
La función de distribución acumulada se halla integrando la expresión
[2.2.19], de donde se obtiene:
1
Pf(t) =  [ 1 – erf (z) ] para t<β
2
1
=  [ 1 + erf(z) ] para t>β [2.2.20]
2
donde Z se define como:
La media y la varianza de la distribución logaritmo normal, obtenidas a
partir de [2.2.13] y [2.2.14] son:
M = β EXP( α
2
/2 )
V(t) = β2 EXP(α
2
) [ EXP(α
2
) - 1 ] [2.2.22]
Fig. 2.2.1. Densidad de probabilidad de fallas según la
distribución logaritmo normal.
La distribución logaritmo normal aparece en procesos en los que el cambio en
una variable aleatoria en el n-esimo paso es una proporción aleatoria de la
variable en el paso (n-1)-esimo. Es decir, la distribución logaritmo normal se
emplea cuando la variación está caracterizada por factores o porcientos. Así, si X
[2.2.21]
α
β
2
) / ln(t
Z =
29
representa una cantidad que puede variar con un factor de error f, abarcando un
rango de valores desde X
0
/f hasta X
0
f, donde X
0
es un punto medio de
referencia dado, la distribución logaritmo normal es la distribución adecuada
para describir el fenómeno.
La distribución logaritmo normal se aplica con frecuencia para describir las fallas
en los análisis de confiabilidad y riesgo de sucesos raros (de baja probabilidad),
en los que la información estadística limitada hace que las ratas de falla varíen
por factores. Por ejemplo una rata de fallas estimada en 10-6/h puede variar de
10-5 a 10-7/h si el factor de error es 10. Cuando la rata de fallas se expresa
como 10-x, donde x es un cierto exponente, el uso de la distribución logaritmo
normal implica que el exponente satisface una distribución normal. Así, se puede
ver la distribución logaritmo normal como apropiada para situaciones en las que
hay incertidumbres grandes en los parámetros de fallas.
Otra característica de la distribución logaritmo normal es que la oblicuidad para
tiempos mayores considera el comportamiento general de los datos para
fenómenos poco probables ya que la misma tiene en cuenta la ocurrencia de
valores poco frecuentes pero con una gran desviación, tales como ratas de fallas
anómalas debido a defectos de lotes de producción, degradación ambiental y otras
causas.
- Distribución de Weibull.
La distribución de Weibull es una distribución de fallas muy general y
ampliamente difundida por su aplicabilidad a un gran número de situaciones
diversas. La densidad de fallas es:
La función de distribución acumulada, el valor medio y la varianza, vienen
dados por las siguientes expresiones:
Pf(t) = 1 - EXP[-(t / v )
K
] [2.2.24]
M = v Γ(1 + K
-1
) [2.2.25]
V(t) = v
2
{Γ (1 + 2K
-1
) - [Γ (1 + K
-1
)]
2
} [2.2.26]
donde Γ representa la función Gamma, que aparece tabulada.
[2.2.23]













=

v
t
Exp
v
t
v
K
t f
k 1
) (
30
La forma de la distribución depende primariamente del parámetro K, como se
aprecia en la figura 2.2.2. Para K=1, se obtiene la distribución exponencial, con
rata de fallas R = v
-1.
Al incrementarse K la distribución de Weibull tiende a la
distribución normal siendo ambas casi indistintas para K mayor que 4. Un caso
particular es la distribución de Rayleigh que se obtiene para K=2.
Las aplicaciones de la distribución de Weibull se pueden comprender más
fácilmente a partir de la expresión de la rata de fallas para esta distribución:
Así pues, el modelo de Weibull es el apropiado para el ajuste de datos en los
que la probabilidad condicional de fallas R(t) satisface una ley de potencia del
tiempo. Ratas de fallas de este tipo se ilustran en la figura 2.2.3.
La aplicación de la distribución de Weibull está sujeta a la cuantificación de los
coeficientes "v" y "k" cuyas magnitudes dependen de la serie histórica de los
tiempos de operación o corrida de un equipo o componente.
Fig. 2.2.2. Densidad de probabilidad de fallas según la distribución de Weibull.
[2.2.27]
1
) (







=
k
v
t
v
K
t R
31
Fig. 2.2.3. Rata de fallas según la distribución de Weibull.
La cuantificación de los coeficientes o estimadores ha recibido importante
atención de Khirosi y Mieko, 1963; Johnson, 1964; C.Cohen, 1965; Weibull
1964 y Finley 1977 (6). A partir de los métodos de Cohen y la aplicación del
Método de Máxima Verosimilitud obtendremos soluciones aproximadas pero
confiables de los coeficientes "v" y "k" y a partir de allí derivar las estimaciones
de la rata de fallas, probabilidades de supervivencia y probabilidades de
falla. Así mismo, evaluaciones matemáticas del comportamiento de estos
indicadores para diferentes períodos de tiempo.
Sea la función de densidad de Weibull:
K t
f(t) = . t
K-1
EXP [ - ()
K
] para t>0,K>0,v>0
v
K
v
Sea "L" la función de máxima verosimilitud, dependiente de una variable "A".
La solución de la ecuación consiste en estimar el valor de "A" para el cual "L"
asume un valor máximo.
Como "Log L" presenta un máximo al mismo valor de "A", la ecuación a resolver
es:
dLog L
 = 0
dA
32
Donde la función de verosimilitud, según H. Kramer, de una muestra de n
observaciones es:
L(x1,x2,x3,...xn) = f(x1,A).f(x2,A).f(x3,A)...f(xn,A)
Si los valores de la muestra han sido dados y la función de "L" es de una
variable "A", la función de verosimilitud para la muestra completa utilizando la
función de Weibull es:
N K ti
L(t1,t2,...tn) = Π . ti.
K-1
EXP [- ()
K
] [2.2.28]
I=1 v
K
v
tomando logaritmo y derivando con respecto a V y K e igualando a cero tenemos:
δLn [L(t
i
,i=1...,n)] n.k k
n
ti
 = -  +  ⋅ Σ ()
K
= 0
δv v v
i=1
v
δLn [L(t
i
,i=1...,n)] n
n n
ti ti
 = -  - nlnv+ Σ ln ti + Σ ln  ()
K
= 0
δK K
i=1

i=1
v

v
Eliminando V y simplificando:
1
n
1
n

n
 Σ ln ti = -  + Σ ti ln ti / Σ ti
K
n
i=1
K
i=1

i=1

n
ti
K
v = [Σ  ]
1/K
[2.2.29]

i=1
n
Por iteraciones sucesivas, al efecto, una estimación de "K" se puede obtener
mediante el método de Newton-Raphson cuya técnica numérica permite encontrar
la raíz de una función F(x), y eliminar el error asegurando el valor de "K". Bajo
estas condiciones si Ki es la aproximación de una raíz, una nueva estimación
está dada por:
33
F(Ki)
Ki+1 = Ki -  [2.2.30]
F'(Ki)
la función queda definida por:
1 1
F(k) = Σ (ti)
K
.lnti -  Σ ti
K
-  Σ lnti.ti
K
k n
1 1
F'(x) = Σ (ti)
K
.(lnti)
2
-  Σ lnti.ti
K
+  Σ ti
K
-...
K K
2
1
-  Σ ln ti Σ lnti.ti
K
[2.2.31]
n
donde:
Ki+1-Ki<e siendo e=error de aproximación.
Prefijado e se limita el proceso iterativo para el cálculo de k, calculado éste se
calcula v obteniendo la estimación por máxima verosimilitud de la función de
Weibull. Con los estimados correspondientes se obtienen la rata de fallas,
probabilidad de falla, de supervivencia y los estimados del promedio y la
varianza. Los cálculos respectivos han permitido la construcción de un modelo
para obtener los parámetros de confiabilidad, cuyo programa computarizado ha
sido denominado PARAMAN.
A continuación definimos los datos de entrada, caracterizados por el tiempo de
corrida al estado entre la base de la hora y fecha de arranque del equipo y la
fecha y hora de parada caracterizando la razón de las fallas. Estos datos se
convierten en variables xi de la muestra, se ordenan de manera creciente y
finalmente se suavizan exponencialmente para mejorar en homogeneidad,
logrado este aspecto se procede al cálculo de los indicadores de confiabilidad
y se disponen para la respectiva simulación atendiendo a diferentes períodos
de tiempo.
El modelo matemático computarizado PARAMAN, que forma parte de un Sistema
de Información Gerencial de Mantenimiento, calcula la probabilidad que un
equipo se encuentre en operación o sea reparado en un lapso determinado, a
partir del comportamiento mismo del equipo, el cual se caracteriza por los
tiempos de operación y los tiempos durante los cuales está detenido por
0 F(Ki) ≠
34
reparación. La distribución de los tiempos de operación y de parada se asocian
a funciones probabilísticas que permiten encontrar los parámetros de
confiabilidad y mantenibilidad, cuya combinación da origen a la disponibilidad y
ofrece, además la posibilidad de efectuar simulaciones sobre la base de
diferentes períodos de tiempo.
El modelo PARAMAN determina la rata de fallas, el factor "k" que establece el
ciclo de vida del equipo, la edad característica de corrida, y evalúa las
probabilidades de supervivencia y de falla. Estos elementos entran en el cálculo
de los tiempos medios entre paradas y su respectiva varianza.
En el caso de mantenibilidad, se define la función de probabilidades que
calcula la posibilidad que un trabajo de mantenimiento se efectúe en un
tiempo determinado, la edad característica para reparar, su varianza y los
tiempos medios.
Resumiendo, el modelo PARAMAN permite obtener:
- Historial de un componente, equipo o planta ( arranques,
paradas, causas de la parada)
- Probabilidades de supervivencia y falla
- Tiempos de operación entre arranque y falla
- Tiempos fuera de servicio
- Disponibilidad para cada corrida
- Tiempos medios entre fallas, fuera de servicio y
disponibilidad total
- Parámetros de Weibull (tiempo de corrida característico "v",
factor "k", desviación estándar del tiempo medio entre
fallas, rata de fallas)
- Parámetros de Gumbel (Factor de forma "A", tiempo
característico de parada "U")
- Probabilidades de falla y tiempos de reparación (calculados
por simulación para diferentes valores de tiempo)
En (7) podrá encontrar una información más detallada sobre el sistema
PARAMAN.
2.3. Bases de datos de confiabilidad.
2.3.1. El teorema de Bayes y la confiabilidad.
La determinación experimental de datos de confiabilidad de componentes
para una industria en específico puede confrontar dificultades cuando las fallas
son sucesos raros. Por ello en ocasiones es necesario recurrir a datos de
35
componentes similares en otras industrias donde se disponga de una mayor
estadística de fallas y hacer un proceso de "ajuste" de estos a la experiencia de
explotación de la instalación que se analiza. Puede también darse el caso de
datos genéricos para industrias de una tecnología dada que se quieren ajustar
a los componentes análogos de la tecnología propia.
Para ello juega un papel importante el llamado Teorema de Bayes de la Teoría
de las Probabilidades.
- Teorema de Bayes.
Sea un espacio muestral S, dividido en N sucesos A1...AN mutuamente
excluyentes, tales que A1+A2+...+AN=S y otro suceso cualquiera B,
subconjunto de S. Entonces, de acuerdo con la definición de probabilidad
condicional, tenemos que:
P(Ai.B) = P(Ai/B).P(B) = P(B/Ai).P(Ai)
Igualando el segundo y tercer miembros y despejando obtenemos:
P(Ai) P(B/Ai)
P(Ai/B) =  [2.3.1]
P(B)
Si P(B) se expresa a partir de los sucesos A1...AN, se obtiene finalmente la
expresión del Teorema de Bayes:
P(A
i
) P(B/A
i
)
P(A
i
/B) =  [2.3.2]

N
ΣP(A
i
) P(B/A
i
)

i=1
La aplicación más importante de la expresión [2.3.2] en análisis de confiabilidad
está dirigida al ajuste de datos genéricos o de otras industrias, para ser utilizados
en la instalación propia, tomando en cuenta la estadística de fallas acumulada
en esta última. Esta aplicación se ilustra en el siguiente ejemplo.
Ejemplo 2.3.1: Supongamos que queremos estimar la rata de fallas de una
bomba de baja presión empleada en un sistema de enfriamiento. De la
literatura internacional conocemos que las ratas de fallas para bombas similares
en otras industrias oscilan en los órdenes 10-3, 10-4, 10-5 [1/h] . De la
experiencia de explotación de la tecnología propia se tiene que para una
muestra dada de bombas del tipo analizado no se han producido fallas durante
500 horas de trabajo en regímenes de prueba.
36
En este caso, adoptamos como sucesos A
i
las ratas de fallas encontradas en
la literatura: A
1
es el suceso rata de fallas igual a 10
-3
, A
2
igual a 10
-4
, A
3
igual
a 10
-5
, las que serán nuestras hipótesis de partida.
El suceso B será el que nos aporta la experiencia propia: 500 horas de trabajo
sin falla. Si la rata de fallas fuese 10
-3/h
, la probabilidad de B (500 horas de trabajo
sin fallas) sería:
P(B/A
1
) = (1 - 10
-3 .
)
500
Siendo 10
-3
la probabilidad de falla en una hora, 1-10
-3
es la probabilidad de
supervivencia o de ausencia de fallas en una hora. Este último término, elevado a
la potencia 500, equivale a la probabilidad de que no se produzcan fallas en 500
horas, considerando independientes entre sí los sucesos de no falla en cada hora,
por lo cual, se obtiene:
P(B/A
1
) =Exp(- 10
-3 .
500)= 0.6064
Cálculos similares permiten obtener los valores restantes de P(B/A
i
) que se
presentan en la tabla 2.3.1. Estos valores contienen el dato de la experiencia
propia que combinado con las probabilidades P(A
i
) asumidas de otras fuentes
conducen a las probabilidades condicionales P(A
i
/B).
Si para las probabilidades P(A
i
) se asume una distribución uniforme tal que
P(A
i
)=1/3, aplicando [2.3.2] podemos hallar las probabilidades de que la rata da
fallas de la bomba de nuestra industria sea 10
-3
, 10
-4
o 10
-5
dada la evidencia B
de que no se producen fallas en 500h de trabajo. Estas son las probabilidades
condicionales P(A
i
/B) de la tabla 2.3.1 para la distribución previa uniforme.
I 1 2 3
Ai 10-3 10-4 10-5
P(B/Ai) 0.6064 0.9512 0.9950
Distribución previa
uniforme
P(Ai) 0.3333 0.3333 0.3333
P(Ai/B) 0.2376 0.3726 0.3898
37
Distribución previa
no uniforme
P(Ai) 0.1 0.3 0.6
P(Ai/B) 0.0643 0.3026 0.6330
Tabla 2.3.1. Cálculos bayesianos para el ejemplo 2.3.1.
Si hubiésemos sido más realistas en nuestra primera estimación de P(Ai), como
muestra la distribución no uniforme de las probabilidades previas P(B/Ai) en
la tabla 2.3.1, entonces, como puede apreciarse para el segundo caso de
distribución previa no
uniforme, la introducción de la información B tiene menor efecto sobre los
valores previos P(Ai), pues se observa una mayor concordancia entre los
valores de P(Ai) y P(Ai/B).
Los resultados de la tabla 2.3.1 nos permiten concluir que para la bomba del
ejemplo 2.3.1 debe adoptarse una rata de fallas entre 10-4 y 10-5, más próxima
a 10-5, como podría ser 3.10-5.
Una mayor certeza inicial podría obtenerse con un mejor conocimiento de
las características y condiciones de trabajo de las bombas cuyas ratas de falla se
tabulan en la literatura, lo que permitiría asociar mayores valores de probabilidad
P(A) a las ratas de aquellas cuyas características y condiciones de trabajo se
asemejen más a la propia.
Así, el análisis bayesiano puede utilizarse para el ajuste de listados genéricos
de datos de partida para los análisis cuantitativos de confiabilidad y
seguridad, lo cual es muy frecuente en la práctica de realización de estos
análisis.
2.4. Tipos de componentes. Expresiones para la evaluación de
su confiabilidad.
Para la cuantificación de la confiabilidad de componentes nos basaremos en el
modelo exponencial, para el cual la rata de fallas es constante.
Al evaluar la confiabilidad de un componente es necesario tener en cuenta dos
aspectos. En primer lugar el régimen de trabajo bajo el cual se evalúa la
confiabilidad, lo cual determina el parámetro que la caracteriza, y en segundo
lugar, la posibilidad de restitución de la capacidad de trabajo del componente
después de una falla, es decir, si el componente es o no reparable, lo cual
determina la expresión a utilizar para el cálculo del parámetro que
corresponda.
38
En lo adelante al referirnos a la confiabilidad o al evaluarla, lo haremos en
términos de probabilidad de falla. Ello se debe a un problema práctico. Los
valores de confiabilidad de componentes y sistemas de instalaciones de alta
responsabilidad, y por tanto de altas exigencias en su calidad, son elevados, muy
próximos a la unidad (decimales con varios 9 consecutivos), mientras que su
complemento, la probabilidad de falla, son valores muy próximos a cero,
fácilmente expresables como potencias negativas de 10.
En cuanto al régimen de trabajo de los componentes existen dos posibles: el
régimen de espera, durante el cual el componente permanece listo para entrar
en funcionamiento cuando se le requiera, y el régimen de operación. El primero
es típico de los sistemas de seguridad o aquellos que permanecen como reserva,
los cuales durante la operación de la planta se mantienen a la espera de cualquier
suceso accidental o falla que requiera su actuación.
El segundo es típico de los sistemas de operación normal y corresponde
también a los sistemas de seguridad durante el período de tiempo que dure el
cumplimiento de su función de seguridad después que son demandados
(sistemas de seguridad activos).
Las ratas de fallas utilizadas para modelar los componentes deben estar
diferenciadas de acuerdo con su régimen de trabajo. Así existen ratas de falla
a la espera y ratas de fallas en operación.
También debe tomarse en cuenta la correspondencia del régimen de trabajo con
el tiempo analizado. Para el régimen de espera deberá utilizarse, por tanto, la rata
de fallas a la espera y el tiempo a la espera (tiempo durante el cual el
componente se mantiene "listo" para entrar en funcionamiento) y para el
régimen de operación se usará la rata de fallas en operación y el tiempo
analizado será el período necesario de operación del componente.
Seguidamente se describen las expresiones para el cálculo de la probabilidad de
falla de componentes, según su clasificación en modos de falla a la espera y en
operación y de acuerdo a los tipos de componentes que emplea el algoritmo
base para los modelos computarizados denominado Análisis de Riesgo y
Confiabilidad (sistema ARCON).
- Componentes a la espera.
Para la evaluación de la probabilidad de falla de componentes a la espera
definiremos una nueva magnitud que es la disponibilidad del componente.
La disponibilidad se define como la probabilidad de que el componente esté
apto o listo para actuar u operar en el momento que sea requerido. Por razones
similares a las planteadas para la fiabilidad trabajaremos no con la
disponibilidad de los componentes sino con su complemento (1 -
disponibilidad) que llamaremos indisponibilidad y denotaremos por q(t).
39
Así, la indisponibilidad q(t) se define como la probabilidad de que un
componente esté en estado fallado en el instante t y no sea posible su actuación
si es requerida (falla de bloqueo). Como se aprecia, se trata de una magnitud
puntual que evalúa la probabilidad del estado fallado en un instante t, a
diferencia de la probabilidad de falla para sistemas en operación dada por
[2.1.13], que es una función de distribución acumulada que da la probabilidad de
falla (falla de interrupción) para un intervalo de tiempo de 0 a t.
- Componentes tipo 1. Probabilidad de falla fija.
En este caso la indisponibilidad del componente es un valor constante en el
tiempo, de modo que:
q(t) = q = cte. [2.4.1]
Los componentes tipo 1 se emplean para modelar aquellos modos de falla, cuya
probabilidad es uniforme en el tiempo, así como en aquellos casos en que no se
cuenta con información suficiente para determinar una ley de variación de la
indisponibilidad en el tiempo de acuerdo a otro modelo.
Un modo de falla al cual se aplica este modelo es al error humano, por
ejemplo, el suceso de una válvula manual dejada en posición incorrecta después
de un mantenimiento. En este caso un valor típico es q=2.10-2, lo que representa
que en 100 demandas al componente, éste se encontrará como promedio 2
veces en posición incorrecta (indisponible), por el error humano.
- Componentes tipo 2. No controlable.
Se aplica a componentes cuyo estado no es controlado durante todo el tiempo en
que el sistema se encuentra a la espera, y que al presentarse la demanda
pueden fallar por mecanismos de fallas ocultas. El sistema ARCON da, además,
la posibilidad de adicionar a la indisponibilidad de este tipo de componentes
una probabilidad adicional de falla a la demanda por carga de impacto sobre el
componente en el momento que se requiere su actuación.
Así, de la expresión [2.1.13], que corresponde a componentes no reparables
cuyo tiempo hasta la falla sigue una distribución exponencial, se obtiene
adicionando la indisponibilidad por carga de impacto q
ad
:
q(t) = 1 - EXP(-Rt) + q
ad
[2.4.2]
En ARCON también se incluye un tiempo previo T
pr
que el componente
haya estado a la espera con anterioridad, sin recibir ningún tipo de mantenimiento
que permita considerarlo como nuevo al inicio de nuestro período de
observación. Esto modifica [2.4.2] de la siguiente manera:
40
q(t) = 1 - EXP[-R(T
pr
+t)] +q
ad
[2.4.3]
La expresión [2.4.3] tiene un crecimiento exponencial con el tiempo, de modo
que la indisponibilidad del componente será una función del instante en que se
produzca la demanda. En muchos casos se requiere hallar un valor de
indisponibilidad medio, representativo del comportamiento del componente
durante el tiempo a la espera T, también conocido como tiempo de
observación.
Para el cálculo de la indisponibilidad media del componente aplicamos la
expresión general:
Sustituyendo [2.4.3] e integrando, se obtiene finalmente:
_ 1
q = 1 -  {EXP[-RT
pr
] - EXP[-R(T
pr
+T)]} + q
ad
[2.4.4]
RT
- Componentes tipo 3. Controlado de forma continua.
Se aplica a los componentes cuya falla se detecta en cuanto se produce y son
sometidos de inmediato a la reparación. Para un sistema a la espera este puede
ser un tanque, cuyo salidero se detecta inmediatamente por un medidor de nivel
con indicación o señal de alarma en un panel. Se trata por tanto de una falla
revelable.
En este caso la indisponibilidad del componente se determina a partir del
balance entre los procesos de rotura y reparación, dados por la ecuación
diferencial:
q(t+dt)= [1 - q(t)].Rdt + q(t).[1 - µdt] [2.4.5]
En [2.4.5] se determina la indisponibilidad en t+dt correspondiente al
miembro de la izquierda a partir de la indisponibilidad que había en t
mediante los dos términos del miembro de la derecha. De ellos, el primero
representa la probabilidad que tiene el componente de estar disponible en t y
fallar en t+dt, mientras que el segundo corresponde a la probabilidad de
estar fallado en t y no ser reparado en t+dt.
Integrando [2.4.5] y teniendo en cuenta la condición inicial q(0)=0, se obtiene
finalmente:

=
T
dt t q
T
q
0
) (
1
41
R
q(t) =  { 1 - EXP[-( R + µ ) t ] } + q
ad
[2.4.6]
R + µ
En [2.4.6] se incorporó además la probabilidad de falla adicional que
eventualmente puede tomar en cuenta posibles cargas de impacto sobre el
componente en el instante de la demanda.
El componente tipo 3 tiene una indisponibilidad inicialmente creciente en el
tiempo, pero que se estabiliza rápidamente en su valor asintótico. Por ello, en el
cálculo de la indisponibilidad de este tipo de componentes se emplea
habitualmente la expresión [2,4.7], que es el valor asintótico de [2.4.6].
_ R
q =  + q
ad
[2.4.7]
R + µ
- Componentes tipo 4. Probado periódicamente.
Este es el caso de los componentes cuyo estado se comprueba cada cierto
tiempo T
p
mediante una prueba o ensayo de duración τ que permite detectar las
fallas del componente. En los casos en que el componente se encuentra fallado
se procede a su reparación.
La prueba puede tener una cierta ineficiencia, de modo que de la rata de fallas
total sólo se detecta una fracción que llamaremos ineficiencia de la prueba y
denotaremos por Inef. Así, la rata de fallas se desdobla en dos componentes,
la rata de fallas detectables R
det
y la rata de fallas no detectables R
no
, cuyas
expresiones son:
R
det
= R.(1-Inef). [2.4.8]
R
no
= R.Inef. [2.4.9]
La indisponibilidad de un componente de este tipo tiene un carácter periódico,
y puede dividirse en tres zonas principales:
- Durante la prueba. La contribución de la prueba a la indisponibilidad viene
dada por la expresión:
τ
q
p
=  p
nt
[2.4.10]
T
p
42
donde el cociente representa la probabilidad de que al presentarse una
demanda el componente este en prueba y p
nt
es la llamada probabilidad de no-
tránsito del estado de la prueba al estado del componente para el cumplimiento
de su misión. La probabilidad p
nt
representa la indisponibilidad del componente
durante la prueba.
- Durante la reparación posterior a la prueba (sí se detecta fallado).
Al realizar la prueba, el componente ha permanecido a la espera durante un
tiempo T
p
- τ. La probabilidad de llegar a la prueba fallado, será, de
acuerdo con [2.1.13]: 1-EXP[-R
det
(T
p
-τ)], expresión que se aproxima a R
det
(T
p
-
τ) para valores de R
det
(T
p
- τ) menores que 0.1, lo cual resulta
completamente válido en todos los casos de interés.
Tomando en cuenta lo anterior, se puede establecer la siguiente expresión para
la indisponibilidad por reparación:
T
r
qr = R
det
(T
p
- τ) [ .( 1 - p
he
) + p
he
] [2.4.11]
T
p
- τ
donde
Tr es el tiempo medio de reparación del componente(=1/µ); p
he
es la
probabilidad de error humano total, que incluye tanto la probabilidad de no
detectar la falla por error en la prueba p
hep
como la probabilidad de que el
componente quede indisponible por un error en la reparación p
her
.
p
he
= p
hep
+ ( 1 - p
hep
) p
her
En la expresión [2.4.11] el primer factor es la probabilidad de que el componente
llegue fallado a la prueba. El primer sumando entre corchetes representa la
probabilidad de que se produzca la demanda cuando el componente está en
reparación, dado que el componente se detecta fallado y se repara
correctamente. El segundo sumando es la probabilidad total de error en la prueba
o la reparación, que hacen que el componente permanezca indisponible
durante todo el tiempo T
p
- τ que media hasta la próxima prueba.
Si la expresión [2.4.11] se transforma convenientemente, se obtiene
finalmente:
q
r
= R
det
[ T
r
+ p
he
.(T
p
- τ - T
r
) ] [2.4.12]
Si la probabilidad de error humano fuera cero, la expresión se reduce a:
q
r
= R
det
.T
r
[2.4.13]
43
- Durante el tiempo (T
p
- τ) hasta la próxima prueba.
En este intervalo el componente está sometido a fallas ocultas no controlables
cuya función de distribución acumulada viene dada por [2.1.13]. Si se tiene en
cuenta la aproximación q(t)= R
det
.t, válida para valores de R
det
.t menores
que 0.1, la indisponibilidad media por fallas ocultas en este intervalo será:
Integrando, se obtiene finalmente:
1
q
oc
=  R
det
(T
p
- τ) [2.4.14]
2
Por último, la expresión de la indisponibilidad media de un componente tipo
4, se obtiene adicionando las expresiones [2.4.10],[2.4.12],[2.4.14]:
_ τ
q =  p
nt
+ R
det
[ T
r
+ p
he
.(T
p
- τ - T
r
) ] +...
T
p
1
+  R
det
(T
p
- τ) [2.4.15]
2
Cuando la ineficiencia de la prueba es mayor que cero la expresión [2.4.15]
sólo nos da el aporte a la indisponibilidad media del componente debido a las
fallas detectables en la prueba. La fracción de las fallas que no se detecta en la
prueba tiene un carácter no controlable y su aporte vendrá dado por una
expresión como [2.4.4], usando Tpr=0 y Rno como rata de fallas
_ τ 1
q =  p
nt
+ R
det
[T
r
+ p
he
.(T
p
- τ - T
r
)] +  R
det
(T
p
- τ) +...
T
p
2
1
+ 1 -  { 1 - EXP[- R
no
T] } + q
ad
[2.4.16]
R
no
T
En [2.4.16] se incluyó como último término la probabilidad de falla adicional a
la demanda por carga de impacto.
Esta función tiene además la posibilidad de ajustar las ratas de fallas de la
fórmula [2.4.16] para tomar en cuenta los casos en que la prueba degrada al



=
τ
τ
Tp
p
OC
tdt R
T
q
0
det
1
44
componente e incrementa su rata de fallas. Este es el caso típico de los
generadores diesel que se emplean en la industria para asegurar el suministro
eléctrico en condiciones de avería. Con este fin el sistema emplea un dato
adicional para los componentes tipo 4, el factor de degradación de la prueba,
expresado como el % de incremento de la rata de fallas en cada prueba..
- Componentes tipo 6. Indisponibilidad por mantenimiento.
Este modo de falla es la probabilidad de que el componente se encuentre fuera
de servicio por mantenimiento en el momento que tiene lugar una demanda. Si
Tm es el tiempo entre mantenimientos y τ
m
es la duración del mantenimiento, la
indisponibilidad por
mantenimiento viene dada por:
_ τ
m
q =  [2.4.17]
T
m
- Componentes tipo 7. Suceso desarrollado.
Es un componente de probabilidad de falla fija, que a los efectos del cálculo no
se diferencia del componente tipo 1 y su indisponibilidad viene dada también
por la expresión [2.4.1].
Se emplea para representar la falla de un subsistema, sistema de apoyo o
elemento complejo, que en el momento del análisis no se puede desarrollar en
los modos de falla más simples que lo componen por falta de información, o
bien este desarrollo se ha hecho de forma separada para una integración
posterior, cuando se vaya a conformar el modelo de confiabilidad del sistema a
partir de sus componentes en lo que se conoce como un árbol de fallas.
- Componentes en operación ( tipo 5 ).
La probabilidad de que un componente falle en operación, será la probabilidad de
que experimente al menos una falla cuando trabaja durante ese período, por lo
que puede ser cuantificada mediante la función de distribución acumulada de
fallas Pf(t), dada por [2.1.13], para R=R
op
y t=t
op
:
P
f
(t) = 1 - EXP(-R
op
. t
op
)
que puede ser aproximada como
P
f
(t) = R
op
. t
op
[2.4.18]
45
para valores de P
f
(t) menores que 0.1.
Esta expresión se aplica al cálculo de la probabilidad de falla de componentes
no reparables en operación, que a lo sumo pueden experimentar una falla.
Sin embargo, para componentes redundantes reparables, es necesario
tomar en cuenta la posibilidad de reparación, pues mientras ésta se realiza, la
misión es cumplida por el otro componente y el sistema no falla. En este
caso la falla se produce sólo si el componente redundante también falla, antes
de que el primero haya podido ser reparado.
En estos casos la probabilidad de falla del componente en operación se
determina mediante una expresión análoga a la [2.4.7], empleada para
componentes tipo 3:
R
op
P
op
=  [2.4.19]
R
op
+ µ
donde P
op
es la probabilidad de falla en operación del componente
R
op
es la rata de fallas del componente en operación
µ es la rata de reparaciones del componente, igual al
inverso del tiempo promedio para reparar.
46
III. Confiabilidad de sistemas.
La evaluación de la confiabilidad de un sistema consiste en la cuantificación de
la probabilidad de falla en el cumplimiento de su función, a partir de las
probabilidades de falla de sus componentes, que se combinan tomando
en cuenta las interconexiones e interdependencias entre ellos. Estas
interrelaciones vienen dadas por la estructura del sistema y sus procedimientos
de trabajo.
Con este fin, se requiere la construcción de un modelo que contemple tanto
las fallas de equipo como las debidas a errores humanos, así como la
influencia de los procedimientos de operación, prueba y mantenimiento del
sistema.
Sin embargo, el interés fundamental del análisis de confiabilidad no es
exclusivamente el resultado global de la probabilidad de falla del sistema, para
demostrar que éste satisface las exigencias planteadas al diseño. Los
mayores dividendos se obtienen mediante un proceso sistemático y bien
estructurado para la determinación de los contribuyentes más importantes a
dicho resultado global. Estos son los puntos del sistema que requieren mayor
atención. Consecuentemente, se considera el efecto de modificaciones en el
diseño, así como en los procedimientos de operación, prueba y mantenimiento,
que aún siendo simples, pueden conllevar a una mejora significativa de la
confiabilidad.
Para sistemas complejos e interdependientes el análisis de árboles de fallas
ha demostrado ser una herramienta poderosa que se aplica con éxito en las
industrias nuclear, aeronáutica y aeroespacial. Se emplea de forma creciente
en la industria química y, en general, resulta una técnica con alto nivel de
estructuración, estandarización y universalidad, aplicable a industrias
complejas que deben operar con elevada disponibilidad y seguridad.
La técnica de árboles de fallas tendría un alcance limitado si se aplicara
solamente al análisis de confiabilidad de sistemas aislados. El mayor beneficio
se obtiene cuando se aplica de forma combinada con la técnica de árboles de
sucesos, para la construcción de un modelo integral de la industria, que
caracteriza la respuesta de sus sistemas ante diversos sucesos iniciadores de
avería (situaciones accidentales), que de no ser controlados o mitigados tienen
un impacto negativo sobre el proceso productivo (paradas más o menos
prolongadas, daño a sistemas con pérdidas económicas de consideración, daño
al medio ambiente y a la población circundante).
Este estudio integral es lo que se conoce como un Análisis Probabilista de
Seguridad (APS). A partir del modelo básico del APS se pueden realizar
múltiples aplicaciones durante toda la vida útil de la instalación para
garantizar una elevada disponibilidad, seguridad industrial y protección del
47
medio ambiente. Estas aplicaciones se basan en el conocimiento de los puntos
débiles del proceso, que permite la toma de medidas técnicas y
organizativas, muchas veces sencillas, pero que tienen un efecto importante
sobre los índices técnico-económicos de seguridad de la industria.
El modelo de APS no permanece estático, sino que se actualiza como resultado
de la experiencia operacional y las modificaciones que se introducen en el diseño
y los procedimientos de trabajo. Esto puede hacerse con facilidad a partir del
modelo básico y permite a la gerencia un mejor conocimiento de las
características de seguridad y disponibilidad de la planta, para estar prevenidos
frente a eventuales puntos débiles y anticiparse a éstos con la toma de medidas
oportunas.
3.1. Técnica de árboles de fallas.
El árbol de fallas es un modelo lógico deductivo, que parte del suceso tope para
el cual se produce la falla del sistema. De una forma sistemática se va
desarrollando el suceso tope en los sucesos intermedios que conducen a éste,
y a su vez los sucesos intermedios en otros de menor jerarquía, hasta llegar a
los sucesos primarios, determinados por el nivel de resolución del análisis
posible o deseable. Este se establece atendiendo a los datos de fallas de que se
dispone y/o al alcance que se pretende lograr de acuerdo con los objetivos del
estudio.
Los sucesos intermedios y primarios se interconectan mediante
compuertas lógicas, que básicamente pueden ser de 3 tipos:
Compuerta OR: El estado fallado de cualquiera de los sucesos que entran a
ella produce el estado fallado a la salida.
Compuerta AND: El estado fallado a la salida de la compuerta se produce
cuando todos los sucesos que entran a ella están en estado fallado.
Compuerta n/m ("Majority"): El estado fallado a la salida de la compuerta se
produce con cualquier combinación de n sucesos en estado fallado del total de m
que entra a la compuerta.
En la figura 3.1.1 se muestran los símbolos de mayor utilización en la construcción
de árboles de fallas.
48
Fig 3.1.1. Símbolos de mayor utilización en la construcción de árboles de fallas.
Los sucesos primarios son puntos terminales del árbol que no se continúan
desarrollando. De ellos los sucesos básicos corresponden generalmente a
modos de falla propios de componentes (por ejemplo falla de una válvula a la
apertura o al cierre), mientras que el suceso desarrollado es un suceso complejo
que no se desdobla en sucesos básicos de menor jerarquía, por no contarse
con la información necesaria o porque resulta conveniente desarrollarlo
aparte como un árbol independiente. Este último es el caso de los sistemas de
apoyo (por ejemplo la falla de la alimentación eléctrica), que se acostumbra a
modelar en árboles de fallas independientes para después acoplarlos
(integrarlos) a los árboles de los diversos sistemas a los cuales este sistema de
apoyo presta servicio.
El símbolo de suceso intermedio (rectángulo) se coloca antes de cada compuerta
o suceso primario para describir con precisión el suceso de falla que se está
representando.
Los símbolos de transferencia permiten conectar un subárbol en varios puntos del
árbol principal sin necesidad de repetir varias veces la misma información, así
como establecer cortes y divisiones del árbol cuando por sus dimensiones no
puede representarse completamente en una hoja de papel. Este es el caso del
árbol de fallas que aparece posteriormente en la figura
3.1.4.
La técnica de árboles de fallas permite modelar los sistemas con un alto grado de
flexibilidad, pero deben tenerse en cuenta las siguientes premisas fundamentales:
49
1. Los sucesos básicos de un árbol de fallas tienen carácter binario, es decir, el
componente está fallado o está operable, el modo de falla se produce o no se
produce. No es posible modelar estados intermedios o degradados de los
componentes.
2. Los sucesos básicos tienen que ser estadísticamente independientes, lo cual
es una exigencia del método que se emplea para calcular la probabilidad de
falla del sistema a partir de los resultados de la evaluación cualitativa del árbol
de fallas. La existencia de modos de falla dependientes se toma en cuenta
cuando un mismo suceso intermedio o primario aparece repetido en el árbol de
fallas, como contribuyente a varios sucesos intermedios.
Para la construcción de un árbol da fallas se precisa ante todo comprender bien el
funcionamiento del sistema y sus procedimientos operacionales, de prueba y
mantenimiento.
Al desarrollar el árbol desde el suceso tope hasta llegar a los sucesos primarios,
es necesario identificar en cada paso todas las contribuciones o caminos que
pueden conducir al suceso intermedio. De modo general, para la falla de cada
componente existen al menos 5 posibilidades:
1. El equipo no recibió la señal que activa su operación.
2. El equipo no recibe servicio de algún sistema de apoyo, necesario para su
trabajo. (Ej. : alimentación eléctrica, enfriamiento, lubricación, etc.).
3. El propio equipo experimenta algún tipo de falla que le impide operar.
4. Se produce un error humano que imposibilita la activación del componente,
debido a la no-intervención del operador o su actuación tardía, o por haberse
dejado el componente en posición incorrecta después de un mantenimiento.
5. Algún suceso externo puede afectar al componente y evitar su funcionamiento.
En este caso pueden presentarse fallas del tipo causa común, que afectan
simultáneamente a varios componentes (por ejemplo, daño por incendio).
Existe un grupo de reglas básicas que se recomiendan para asegurar el desarrollo
del árbol de fallas con la calidad requerida, lo que constituye un aspecto
importante para su posterior revisión y fácil comprensión por parte de otros
especialistas. A continuación relacionamos las tres principales:
1. Describir de manera precisa los modos de falla dentro de los rectángulos que
identifican el suceso tope, los sucesos intermedios y los sucesos primarios.
2. Todas las entradas de una compuerta deben estar completamente definidas
antes de pasar a modelar otras compuertas.
50
3. No conectar compuertas con compuertas, ni sucesos primarios con
compuertas directamente. Esto se hace siempre a través del rectángulo donde
se describe con detalle el suceso intermedio o primario correspondiente.
Véase seguidamente algunos ejemplos sencillos que ilustran la construcción de
árboles de fallas.
En la figura 3.1.2 (a) se muestra el árbol de fallas del disparo de un circuito
interruptor. La falla se produce por tres causas, cualquiera de las cuales, de modo
independiente, puede dar lugar al suceso tope. Por esta razón se emplea una
compuerta OR. Los sucesos primarios que entran a la compuerta OR son el
desperfecto en el propio interruptor, la ausencia de la señal de disparo y,
eventualmente, el daño por incendio, un suceso externo que provoca condiciones
ambientales severas y conduce a la rotura del elemento. Este es un modo de falla
del tipo causa común, pues se trata de un suceso único que suele afectar a varios
componentes (todos fallan por una causa común).
Fig. 3.1.2. Arbol de fallas del disparo de un circuito interruptor.
(a)
51
En la figura 3.1.2 (b) continua el árbol a partir del suceso B, que en la figura 3.1.2
(a) aparecía como un suceso desarrollado. Para esto se toma en cuenta que la
señal de disparo se produce por la apertura de uno de dos "relays" conectados en
serie. Bajo estas condiciones, la falla de la señal de disparo tiene lugar cuando
ambos "relays" B1 y B2 fallan cerrados, puesto que con sólo uno que abra sus
contactos, el circuito de control queda desenergizado y se produce la señal. Por
ello al reemplazar el suceso B por B1 y B2 se ha empleado una compuerta AND.
Ejemplo 3.1.1: La figura 3.1.3 muestra un sistema con un tanque a presión al cual
se inyecta un gas desde un depósito mediante un compresor accionado por un
motor eléctrico. En cada ciclo el operador echa a andar un "timer" T y el tanque
se llena durante un cierto tiempo hasta que abren los contactos del "timer", mucho
antes de que se cree una condición de sobrepresión. Después de cada ciclo el gas
comprimido se descarga abriendo la válvula Vd destinada a este fin. Cuando el
tanque queda vacío se cierra nuevamente Vd y todo está listo para dar inicio a un
nuevo ciclo.
Si en el proceso de llenado del tanque no se produce el disparo del "timer" T, el
operador está instruido para verificar la presión del manómetro M y abrir los
interruptores normalmente cerrados I1 e I2, lo cual desenergiza el motor del
compresor, al interrumpirse la alimentación eléctrica tanto en el circuito de
potencia como en el de control.
(b)
52
Fig. 3.1.3. Esquema simplificado del sistema de llenado de un tanque a presión.
(a)
53
Fig. 3.1.4. Arbol de fallas del sistema del ejemplo 3.1.1.
(b)
(c)
54
Fig. 3.1.4. Arbol de fallas del sistema del ejemplo 3.1.1. (continuación).
(d)
(e)
55
Fig. 3.1.4. Arbol de fallas del sistema del ejemplo 3.1.1. (continuación).
En la figura 3.1.4 se muestra el árbol de fallas del suceso no deseado rotura del
tanque en condiciones de carga normal o por sobrepresión. La rotura del tanque
en condiciones de carga normal se representa mediante un suceso primario, pues
con la información disponible no es posible desarrollarlo más. En cambio, la rotura
por sobrepresión puede tener lugar al combinarse la falla de la protección por
sobrepresión del tanque (válvula de alivio Va) con el suceso intermedio trabajo del
compresor durante un tiempo excesivo. La necesidad de ocurrencia simultánea de
ambos determina el empleo de una compuerta AND.
A continuación se describen brevemente dos de los sucesos intermedios que
contribuyen a la ocurrencia del suceso trabajo del compresor durante un tiempo
excesivo.
- No se interrumpe la corriente en el circuito de potencia (figura 3.1.4 c y f).
Se produce cuando el manómetro M se traba o indica por debajo del valor real de
presión (el operador no se percata del peligro y no actúa), o bien no se logra abrir
el interruptor I2 por falla del equipo, o bien la acción del operador no se produce o
resulta tardía. La falla del interruptor puede ser por un problema intrínseco o
provocada por una sobrecorriente SC en el circuito que dejen "pegados" los
contactos. Este último suceso es una falla causa común que deja "pegados" los
contactos del "relay" R y además inhabilita la acción mitigadora de apertura del
interruptor I2. Por esta razón, la falla por sobrecorriente aparece como un suceso
(f)
56
primario repetido que contribuye a la ocurrencia de dos sucesos intermedios
diferentes del árbol.
- No se interrumpe la corriente en el circuito de control (figura 3.1.4 e).
En este caso aparece también la falla del manómetro M que evita la acción del
operador sobre el interruptor I1, luego vemos que este componente contribuye a la
falla en dos sucesos intermedios, es decir, produce una interdependencia que se
expresa como un componente repetido en el árbol de fallas. Los modos de falla
del interruptor I1 son similares a los de I2, con excepción de la falla por
sobrecorriente que no es posible en el circuito de control.
Cuando no se está acostumbrado al enfoque probabilista se puede pensar que
algunos de estos modos de falla pueden ser rebuscados o imposibles. Esto puede
ser cierto en algunos casos, pero debemos tomar en cuenta que, en efecto, si la
aplicación de esta técnica se realiza en industrias con elevadas exigencias a la
calidad de los equipos y a la calificación del personal, los sucesos que estamos
considerando son indudablemente de baja probabilidad. Sin embargo, la clave del
análisis de árboles de fallas radica precisamente, en no descartar de antemano
ninguno de los modos de falla posibles y si esto resultara razonable o
conveniente deben documentarse las consideraciones que fundamentan tal
decisión.
La resolución del árbol de fallas y la evaluación de las probabilidades de los
modos de falla del sistema que surjan, es la que permite sobre bases objetivas
descartar determinados modos de falla poco importantes y centrar nuestra
atención en otros que resulten los mayores contribuyentes a la indisponibilidad del
sistema. Cuando se trata de sistemas complejos y, particularmente, cuando estas
técnicas se aplican a la modelación integral de la industria, pueden aparecer
combinaciones de fallas de equipo y errores humanos que hacen una importante
contribución a la probabilidad de falla del sistema específico o de la industria y que
no habían sido tomadas en cuenta con el peso que les corresponde en razón de
su importancia. En todo caso, aunque dicha combinación de fallas fuera conocida
el método permite cuantificar su aporte y fundamentar la toma de decisiones que
corresponda.
El árbol de fallas tiene, según hemos visto hasta este punto, un carácter
totalmente cualitativo. Sin embargo, aún antes de realizar evaluación numérica
alguna, ya el propio árbol hace una contribución significativa a nuestro
conocimiento del sistema o de la industria. Buscando los posibles modos de falla,
logramos dominar con profundidad sus características técnicas de diseño, de
funcionamiento y los procedimientos de operación, pruebas y mantenimiento. El
método nos va conduciendo a los puntos débiles, a las diversas formas en que
puede fallar.
57
3.2. Evaluación cualitativa del árbol de fallas.
La resolución del árbol de fallas consta de dos etapas principales, la evaluación
cualitativa consistente en la determinación de todas las combinaciones de sucesos
primarios que hacen fallar el sistema y la evaluación cuantitativa, paso en el cual
se determina la probabilidad de falla del sistema a partir de las probabilidades de
todos los caminos posibles que conducen al suceso tope no deseado.
Así pues, la evaluación cualitativa tiene como objetivo central la determinación de
todos los llamados conjuntos mínimos de corte del árbol de fallas. Un conjunto
mínimo de corte o simplemente conjunto mínimo (CM) es un conjunto de sucesos
primarios que no puede ser reducido en número y cuya ocurrencia determina que
se produzca el suceso tope. En el ejemplo de la figura 3.1.2 (b), las fallas {A} y {C}
son CM de orden 1, pues con sólo ocurrir la falla intrínseca del interruptor o el
daño por incendio ya tiene lugar el suceso tope no deseado. El otro CM de este
ejemplo sería {B1, B2}, en este caso de orden 2 pues se necesita que ambos
"relays" fallen cerrados para que se produzca el suceso tope. {B1} no sería un CM,
pues con esta falla única no se produce el suceso tope. En cambio {A, C} aunque
da lugar al suceso tope no es CM, pues puede ser reducido en número, es decir,
sólo es necesaria la falla de A o de C para que se produzca el suceso tope, no se
requiere que fallen ambos.
Es importante destacar que la presencia de CM de orden 1 en un árbol de fallas
de un sistema indica su vulnerabilidad a esta falla única, lo cual sólo es aceptable
si dicha falla es de muy baja probabilidad. En el caso del ejemplo de la figura 3.1.2
(b) esto es posible porque se trata de un dispositivo que normalmente cumple
funciones como parte de un sistema más complejo.
El árbol de fallas es una estructura lógica integrada por sucesos primarios
binarios. Esto hace que para su evaluación cualitativa se requiera el empleo de las
reglas del álgebra de Boole, que exponemos brevemente a continuación, sobre la
base de los sucesos de falla genéricos X, Y, Z.
Propiedad conmutativa X•Y=Y•X ; X+Y=Y+X
Propiedad asociativa X• (Y•Z)=(X•Y)•Z
X+(Y+Z)=(X+Y)+Z
Propiedad distributiva X•(Y+Z)=(X•Y)+(X.Z)
X+(Y•Z)=(X+Y)•(X+Z)
Propiedad idempotente X•X=X ; X+X=X
Ley de absorción X•(X+Y)=X ; X+X.Y=X
___ _ _ ___ _ _
Leyes de Morgan X•Y=X + Y ; X+Y=X•Y
58
En las expresiones anteriores el signo "•" significa la intersección de dos
sucesos de falla, es decir, su ocurrencia simultánea, mientras que el signo "+"
representa la unión de dos sucesos de falla, es decir, la ocurrencia de uno o del
otro. Los sucesos X, Y son los eventos complementos de la falla, es decir,
representan el estado operable (éxito) del componente.
Existen diversos algoritmos para la determinación de los conjuntos mínimos de un
árbol de fallas..
El método consiste en la sustitución paulatina de las compuertas por sus entradas,
desde la compuerta tope hasta llegar a los sucesos primarios, dando prioridad a
las compuertas AND y n/m ("majority") con respecto a las compuertas OR, lo que
contribuye a evitar una expansión excesiva del número de combinaciones de
sucesos. En varias partes del proceso se realiza lo que se conoce como reducción
booleana, es decir, la eliminación de combinaciones booleanas de fallas que no
resultan mínimas. Esto asegura que al final del proceso se obtengan de forma
explícita todos los conjuntos mínimos de corte, que constituyen los modos de falla
del sistema.
Para ilustrar la evaluación cualitativa de un árbol de fallas nos basaremos en un
caso sencillo, como el del ejemplo 3.1.1, cuyo árbol de fallas aparece en la figura
3.1.4.
Si C1 representa el suceso tope, este puede representarse a partir de sus
entradas como:
C1=Tpn+C2 [3.2.1]
donde Tpn es el suceso primario rotura del tanque a presión normal y C2 es el
suceso intermedio rotura del tanque por sobrepresión.
Tpn es ya un suceso primario, luego corresponde ahora sustituir la compuerta C2,
de donde resulta:
C1=Tpn+Va.C3 [3.2.2]
Nótese como en la expresión [3.2.1] la sustitución se hace como una unión(+) de
los sucesos de falla Tpn y C2, interconectados en el árbol mediante una
compuerta OR. En cambio, al sustituir la compuerta C2 en la expresión [3.2.1]
para obtener la [3.2.2], Va y C3 se sustituyen como una intersección de sucesos
de falla, en correspondencia con la compuerta AND de la cual ambos son entradas
en el árbol de fallas.
Continuando el proceso, tendremos que:
59
C1=Tpn+Va.C4.C5 [3.2.3]
C1=Tpn+Va.C4.(R+SC+C6) [3.2.4]
C1=Tpn+Va.C4.(R+SC+T.C7) [3.2.5]
C1=Tpn+Va.(M+E+I2+SC).{R+SC+T.(M+E+I1)} [3.2.6]
Aplicando la ley distributiva de forma sucesiva, tendremos que:
C1=Tpn+Va.(M+E+I2+SC).(R+SC+T.M+T.E+T.I1) [3.2.7]
C1=Tpn+Va.(M.R+M.SC+M.T.M+M.T.E+M.T.I1+E.R+E.SC+E.T.M+E.T.E+
+E.T.I1+I2.R+I2.SC+I2.T.M+I2.T.E+I2.T.I1+SC.R+SC.SC+
+SC.T.M+SC.T.E+SC.T.I1)
[3.2.8]
Si ahora aplicamos la propiedad idempotente, resulta:
C1=Tpn+Va.(M.R+M.SC+M.T+M.T.E+M.T.I1+E.R+E.SC+E.T.M+E.T+E.T.I1+
+I2.R+I2.SC+I2.T.M+I2.T.E+I2.T.I1+SC.R+SC+SC.T.M+
+SC.T.E+SC.T.I1)
[3.2.9]
En la expresión [3.2.9] aparecen 21 términos que representan combinaciones
booleanas de fallas de componentes que conducen a la falla del sistema. Sin
embargo, como veremos seguidamente, de estas 21 combinaciones booleanas
sólo 8 son CM. En efecto, si sometemos esta expresión a un proceso de
reducción booleana aplicando la ley de absorción, resulta que:
M.SC+E.SC+I2.SC+SC.R+SC+SC.T.M+SC.T.E+SC.T.I1=SC [3.2.10]
M.T+M.T.E+M.T.I1+I2.T.M=M.T [3.2.11]
E.T.M+E.T+E.T.I1+I2.T.E=E.T [3.2.12]
y por tanto [3.2.9] se transforma en:
C1=Tpn+Va.(M.R+M.T+E.R+E.T+I2.R+I2.T.I1+SC) [3.2.13]
de donde, los CM que conducen a la rotura del tanque son:
De orden 1: 1 Tpn
De orden 2: 1 Va.SC
De orden 3: 5 Va.M.R
Va.M.T
60
Va.E.R
Va.E.T
Va.I2.R
De orden 4: 1 Va.I2.T.I1
Total : 8
Se puede apreciar como las expresiones [3.2.10], [3.2.11] y [3.2.12] reducen 7, 3 y
3 combinaciones booleanas respectivamente en la expresión [3.2.9].
Resulta siempre conveniente, a modo de comprobación, realizar un examen de
los CM obtenidos. Si nos concentramos en los modos de falla del tanque por
sobrepresión, veremos que en todos los CM aparece la falla a la apertura de la
válvula de alivio de presión del tanque Va combinada con otros sucesos de falla.
Aún sin realizar el análisis cuantitativo, la simple inspección cualitativa de los CM
nos permite concluir, en principio, que este suceso básico será probablemente un
punto débil del sistema, es decir, debemos reforzar la protección por sobrepresión.
La falla de Va puede combinarse con el suceso SC que hace fallar cerrados los
contactos del "relay" y del interruptor I2 por una causa común, o con la falla propia
del "relay" R unida a la no-indicación correcta del manómetro de presión M que
evita la intervención del operador, y así sucesivamente podemos continuar
analizando el resto de los CM.
El proceso realizado nos permite inducir las siguientes consideraciones
generales:
1. La generación de CM va produciendo una expansión paulatina del número de
términos de la expresión booleana, hasta llegar al resultado final en el que el
suceso tope se expresa como la unión de todos los sucesos de falla, dados por
los conjuntos mínimos de corte. La expresión [3.2.9] llegó a tener 21 términos.
2. Durante el proceso se generan muchas combinaciones booleanas que no son
CM, y requieren ser reducidas. En el ejemplo se redujeron 13 combinaciones
booleanas y sólo quedaron 8 CM.
3. Las cantidades de CM que se pueden derivar de un árbol de fallas de mediana
complejidad, y con sólo decenas o cientos de sucesos básicos y compuertas
pueden ser gigantescas, del orden de los millones y superiores. Cuando se
resuelven árboles que modelan el comportamiento global de la industria ante
un suceso iniciador de avería, el número de CM suele ser particularmente
elevado, debido a que las secuencias accidentales que surgen involucran
normalmente la falla de varios sistemas.
4. El elevado volumen de operaciones lógicas requerido por la determinación de
los CM, sólo es posible con eficiencia y sin errores mediante el empleo de
técnicas de computación. Debe tenerse en cuenta que el consumo de memoria
y tiempo de máquina como función del número de componentes y la
complejidad del árbol sigue una ley exponencial.
61
Para árboles de cierta complejidad, con cientos o miles de compuertas y sucesos
básicos, la determinación de los CM sólo es posible mediante un software potente
y una computadora rápida con suficiente memoria operativa y en disco. La
inmensa mayoría de los programas de APS de uso actual están soportados en
computadoras "Mainframe" y una buena parte de los que trabajan en
computadoras personales (PC) confronta serias limitaciones de memoria y
velocidad. No obstante, el creciente desarrollo de los PC ha propiciado el
surgimiento de algunos sistemas capaces de manejar árboles de fallas complejos
en PC, como es el caso del modelo ARCON el cual ha sido desarrollado como
consecuencia de este análisis.
3.3. Evaluación cuantitativa de las fallas.
La evaluación cuantitativa de árboles de fallas consiste, básicamente, en la
determinación de la probabilidad de ocurrencia del suceso tope que describe la
falla del sistema, a partir de las probabilidades de los CM, que representan las
contribuciones de todos los modos de falla posibles.
Sean CM1 y CM2 dos CM del árbol de fallas. La probabilidad de que ocurra el
modo de falla CM1 o el modo de falla CM2, es decir, la probabilidad de falla del
sistema por una de estas dos vías será:
P(CM1+CM2)=P(CM1)+P(CM2)-P(CM1.CM2) [3.3.1]
donde el suceso CM1.CM2 representa la ocurrencia simultánea de ambos modos
de falla, que de no restarse se estaría sumando dos veces al resultado final y
produciría su sobreestimación.
Si ahora se tratara de tres conjuntos mínimos CM1,CM2 y CM3, la expresión de la
probabilidad de falla del sistema por estas tres vías sería:
P(CM1+CM2+CM3)=P(CM1)+P(CM2)+P(CM3)-P(CM1.CM2)-P(CM2.CM3)-
-P(CM1.CM3)+P(CM1.CM2.CM3)
[3.3.2]
En la expresión [3.3.2] se restan las combinaciones de CM de orden 2, pues de no
hacerlo se estaría considerando dos veces. Sin embargo, al restar estos tres
términos eliminamos completamente la contribución CM1.CM2.CM3 que debe ser
restituida adicionando el último sumando.
En el caso general de N conjuntos mínimos de corte, la probabilidad de falla del
sistema viene dada por la siguiente expresión:
62
N N N N
P( Σ CMi)= Σ P(CMi) - Σ Σ P(CMi) P(CMj) +
i=1 i=1 i=1 j=i+1
N N N
Σ Σ Σ P(CMi) P(CMj) P(CMk) - ...
i=1 j=i+1 k=j+1
N
+(-1)
N+1
Π P(CMi) [3.3.3]
i=1
Para industrias de elevada confiabilidad y bajos niveles de riesgo, la expresión
[3.3.3] puede simplificarse notablemente tomando en cuenta que la probabilidad
de un CM es un valor mucho menor que 1, lo que se conoce como aproximación
de sucesos raros. Bajo estas condiciones, en la expresión [3.3.3] los términos de
segundo orden y superiores pueden ser despreciados frente al primer sumando
que hará la contribución fundamental, con lo que se obtiene la expresión:
N N
P( Σ CMi)= Σ P(CMi) [3.3.4]
i=1 i=1
Esto equivale a suponer que los CM son mutuamente excluyentes, es decir, que
se considera sumamente improbable la ocurrencia simultánea de varios CM (la
ocurrencia de un CM excluye la posibilidad de ocurrencia de cualquiera de los
otros).
Si comparamos las fórmulas [3.3.3] y [3.3.4] es fácil comprobar que el valor dado
por [3.3.4] sobrestima el valor real, por cuanto los términos que se desprecian van
siendo menores en la medida que aumenta su orden y los signos alternos
comienzan precisamente con una resta. De esta forma, la contribución que se
elimina al pasar de [3.3.3] a [3.3.4] tiene signo negativo y conduce a una
sobreestimación de la probabilidad de falla en [3.3.4]. Esta es una ventaja de la
expresión, pues al aplicarla sabemos que estamos siendo conservadores. Sin
embargo, para aquellos casos en que las probabilidades de falla son elevadas y
deja de cumplirse la aproximación de sucesos raros la sobreestimación puede ser
considerable hasta el punto de obtenerse probabilidades de falla del sistema
mayores que 1.
Veamos a continuación otra expresión para evaluar la probabilidad de falla del
sistema. En este caso se parte del supuesto de que los CM son sucesos
independientes, es decir, se asume que la ocurrencia de un CM no modifica la
probabilidad de ocurrencia de los restantes. Esta suposición resulta válida cuando
los sucesos básicos son independientes y de baja probabilidad, pues cada CM
63
contiene uno o varios componentes que lo diferencian del resto y bajo estas
condiciones la modificación de la probabilidad de un CM por la ocurrencia de otro
resulta pequeña.
La fórmula que se emplea en este caso para hallar la probabilidad de falla
del sistema (Pf) es:
N
Pf= 1 - Σ [ 1 - P(CMi) ] [3.3.5]
i=1
En esta expresión, el término 1- P(CMi) representa la probabilidad de que el
conjunto mínimo CMi no ocurra. El producto de estos términos para todos los CM
desde 1 hasta N es la probabilidad de que no suceda ningún CM, suponiendo que
ellos son independientes, es decir, la probabilidad de que el sistema no falle. El
complemento de este suceso tiene una probabilidad igual a 1 menos el valor
anterior, y es precisamente la probabilidad de que tenga lugar al menos un CM, es
decir, la probabilidad de que el sistema falle.
Aunque la expresión [3.3.5] es más compleja de evaluar y su aplicación también
está limitada a sucesos de baja probabilidad para que sea válida la suposición de
independencia entre CM, tiene una ventaja sobre la fórmula [3.3.4] y es que
nunca da valores de probabilidad superiores a la unidad. Cuando la aproximación
de sucesos raros es válida y se calcula por las expresiones [3.3.4] y [3.3.5] se
observa una diferencia despreciable entre ambas, con valores ligeramente
superiores al emplear [3.3.4]. Al dejar de cumplirse la aproximación de sucesos
raros los resultados de ambas expresiones comienzan a diferenciarse
notablemente, pues mientras [3.3.4] crece de manera sostenida cuando
aumentan las probabilidades de los conjuntos mínimos, [3.3.5] comienza a
saturarse y tiende a uno.
Hagamos seguidamente el análisis cuantitativo de las fallas del sistema del
ejemplo 3.1.1, a partir de los CM dados por [3.2.13] mediante las fórmulas de
cálculo [3.3.4] y [3.3.5]. Para ello tendremos que hallar primeramente las
probabilidades de falla de cada uno de los sucesos primarios, determinar
seguidamente las probabilidades de cada uno de los CM, y, finalmente, la
probabilidad de falla del sistema.
- Probabilidades de falla de los sucesos primarios.
Con excepción del suceso primario E, que representa un error humano por la no -
actuación a tiempo del operador, todos los modos de falla se considerarán en esta
fase del análisis como no controlables, es decir, que durante 1 año de trabajo
(aprox. T=8000h ) los componentes se explotan ininterrumpidamente entonces
64
son sometidos a un mantenimiento anual que renueva sus propiedades y reduce
la probabilidad de falla al valor inicial 0.
1) Tpn - Rotura del tanque a presión normal
Modo de falla no controlado con rata de fallas 1E-8/h. Aplicando la expresión
[2.4.4] y considerando T=8000h como el tiempo total de trabajo hasta que el
sistema se somete a mantenimiento, así como también qad=0 y Tpr=0 se
obtiene:
q
Tpn
= 1 - { 1 - EXP( -1E-8 x 8000 ) } / ( 1E-8 x 8000 ) = 4.00E-5
2) Va - No abre la válvula de alivio del tanque
Modo de falla no controlado, con rata de fallas 3E-4/h y T=8000h. De forma
análoga al caso anterior, se obtiene:
q
Va
= 1 - { 1 - EXP( -3E-4 x 8000 ) } / ( 3E-4 x 8000 ) = 6.21E-1
3) M - Manómetro del tanque trabado o indica por debajo
Modo de falla no controlado, con rata de fallas 1E-5/h y T=8000h. De forma
análoga a los casos anteriores, se obtiene:
q
M
= 1 - { 1 - EXP( -1E-5 x 8000 ) } / ( 1E-5 x 8000 ) = 3.90E-2
4) E - El operador no responde ( error humano )
Probabilidad de falla fija, estimada en q
E
= 1E-2
5) R - Los contactos del "relay" fallan cerrados
Modo de falla no controlado, con rata de fallas 2.7E-7/h y T=8000h. De forma
análoga a los casos anteriores, se obtiene:
q
R
= 1 - { 1 - EXP( -2.7E-7 x 8000 ) } / ( 2.7E-7 x 8000 ) = 1.08E-3
6) SC - Sobrecorriente en el circuito de potencia (falla causa común que mantiene
cerrados los contactos del "relay" y del interruptor I2)
Modo de falla no controlado, con rata de fallas 1E-8/h y T=8000h. De forma
análoga a los casos anteriores, se obtiene:
65
q
SC
= 1 - { 1 - EXP( -1E-8 x 8000 ) } / ( 1E-8 x 8000 ) = 4.00E-5
7) T - Los contactos del "timer" fallan cerrados
Modo de falla no controlado, con rata de fallas 1E-4/h y T=8000h. De forma
análoga a los casos anteriores, se obtiene:
q
T
= 1 - { 1 - EXP( -1E-4 x 8000 ) } / ( 1E-4 x 8000 ) = 3.12E-1
8) I1 - Los contactos del interruptor fallan cerrados
Modo de falla no controlado , con rata de fallas 8E-6/h y
T=8000h. De forma análoga a los casos anteriores, se obtiene:
q
I1
= 1 - { 1 - EXP( -8E-6 x 8000 ) } / ( 8E-6 x 8000 ) = 3.13E-2
9) I2 - Los contactos del interruptor fallan cerrados
Modo de falla no controlable, con rata de fallas 8E-6/h y
T=8000h. De forma análoga a los casos anteriores, se obtiene:
q
i2
= 1 - { 1 - EXP( -8E-6 x 8000 ) } / ( 8E-6 x 8000 ) = 3.13E-2
- Probabilidades de falla de los CM.
De orden 1: 1 Tpn 4.00E-5
De orden 2: 1 Va.SC 2.48E-5
De orden 3: 5 Va.M.R 2.61E-5
Va.M.T 7.54E-3
Va.E.R 6.70E-6
Va.E.T 1.94E-3
Va.I2.R 2.10E-5
De orden 4: 1 Va.I2.T.I1 1.90E-4
Total : 8 9.78E-3
La probabilidad de falla del sistema mediante la expresión [3.3.4] es 9.78E-3/año.
Esto significa que el tiempo medio hasta la falla del tanque por sobrepresión es
aproximadamente de 102 años. Si se emplea la fórmula [3.3.5], se obtiene un
valor ligeramente inferior, 9.76E-3/año. La concordancia de ambos resultados
demuestra la aplicabilidad de la aproximación de sucesos raros a este ejemplo.
Como ya habíamos expresado, el interés principal del análisis radica en la
evaluación de los modos de falla mayores contribuyentes a la probabilidad de falla
66
del sistema. Para esto resulta conveniente ordenar los CM según su probabilidad
de la siguiente forma:
% % Acum.
1) Va.M.T 7.54E-3 77.06 77.06
2) Va.E.T 1.94E-3 19.78 96.84
3) Va.I2.T.I1 1.90E-4 1.94 98.78
4) Tpn 4.00E-5 0.42 99.20
5) Va.M.R 2.61E-5 0.27 99.47
6) Va.SC 2.48E-5 0.25 99.72
7) Va.I2.R 2.10E-5 0.21 99.93
8) Va.E.R 6.70E-6 0.07 100.00
9.78E-3 100.00
En estos resultados se aprecia como más del 95% de las fallas del sistema se
concentran en los 2 primeros CM. Como era de esperar, la falla de la válvula de
alivio, que aparece prácticamente en todos los CM es un suceso básico clave para
la falla del sistema.
Sin embargo el CM #6, donde aparece la falla por sobrecorriente en el circuito de
potencia, prácticamente no contribuye a la falla del sistema, a pesar de su
condición de falla causa común. Esto se debe a su probabilidad de falla
comparativamente menor que la de otros modos de falla del sistema. Así pues, no
siempre los CM de orden inferior son los mayores contribuyentes. A veces una
secuencia más compleja de varias fallas puede ser preponderante. En este
ejemplo los CM de orden 1 y 2 aportan solamente un 0.67% de la probabilidad de
falla del sistema, mientras que el único CM de orden 4 aparece en la tercera
posición con un aporte de 1.94%.
Es importante que notemos la importante contribución que hace la falla de los
contactos del "timer" a la apertura, que conjuntamente con la falla de la válvula de
alivio forma parte de los 3 CM más importantes con un aporte del 98.78% de la
probabilidad de falla total.
El error humano por acción tardía del operador, aunque reviste cierta importancia
pues forma parte del CM #2 que aporta el 19.78%, no constituye un foco de
atención vital para reducir la probabilidad de falla de este sistema. La vía a seguir
debe ser tratar de elevar la confiabilidad de la válvula de alivio Va y del "timer" T.
Una alternativa puede ser realizar una prueba mensual del estado de estos
componentes para proceder al mantenimiento correctivo cuando la prueba
detecte alguna insuficiencia. Realizando estas pruebas periódicas, sólo a dichos
componentes, podemos reducir sustancialmente la probabilidad de falla del
sistema y el peligro de rotura del tanque.
67
Bajo estas condiciones, se recalculan las probabilidades de falla de la válvula de
alivio y el tanque, mediante la fórmula [2.4.14], con tiempo entre pruebas de 720
horas (1 mes) y
despreciando la duración de la prueba (ç“=0). Dado que durante la prueba el
sistema no está en operación, así como tampoco durante el mantenimiento
correctivo que se requiera, no se han considerado las contribuciones a la
probabilidad de falla dadas por [2.4.10] y [2.4.12]. En este caso, el efecto de la
prueba mensual es un corte de los mecanismos de falla de estos dos
componentes cada 720 horas y no al cabo del año de trabajo, con lo cual sus
probabilidades de falla se reducen sustancialmente.
Las nuevas probabilidades de falla son:
2) Va - No abre la válvula de alivio del tanque
Modo de falla controlado periódicamente, con rata de fallas 3E-4/h y tiempo
entre pruebas de 720h.
q
Va
= ( 3E-4 x 720 ) / 2 = 1.08E-1
7) T - Los contactos del "timer" fallan cerrados
Modo de falla controlado periódicamente, con rata de fallas 1E-4/h y tiempo
entre pruebas de 720h. De forma análoga al caso anterior, se obtiene:
q
T
= ( 1E-4 x 720 ) / 2 = 3.60E-2
Los resultados de la evaluación cuantitativa en estas nuevas
condiciones son:
% % Acum.
1) Va.M.T 1.51E-4 61.11 61.11
2) Tpn 4.00E-5 16.14 77.25
3) Va.E.T 3.89E-5 15.69 92.94
4) Va.M.R 4.54E-6 1.83 94.77
5) Va.SC 4.32E-6 1.74 96.82
6) Va.I2.T.I1 3.82E-6 1.54 98.06
7) Va.I2.R 3.65E-6 1.47 99.53
8) Va.E.R 1.17E-6 0.47 100.00
2.47E-4 100.00
El efecto de la prueba mensual de los 2 componentes seleccionados reduce la
probabilidad de falla del sistema en más de un orden. El nuevo valor de tiempo
medio hasta la falla es ahora de 4049 años. En la nueva estructura de
contribuciones de los CM vemos que aunque las fallas de la válvula de alivio y del
68
"timer" continúan siendo predominantes, su aporte relativo es menor. La falla del
tanque a presión normal comienza a tener un aporte sustancial, lo que significa
que la protección a la falla por sobrepresión se ha hecho más efectiva.
Otras posibles alternativas de mejora al sistema respecto a la variante inicial
serían:
- Usar componentes de mayor calidad y con menor rata de fallas.
Por ejemplo, si empleamos un "timer" con rata de fallas inferior en un orden (1E-
5/h), la probabilidad de falla de este componente se reduce a 3.90E-2 y la del
sistema disminuye, consecuentemente, al valor 1.32E-3/año. El tiempo medio
hasta la falla para estas condiciones es de 758 años.
La nueva estructura de los CM es:
% % Acum.
1) Va.M.T 9.43E-4 71.03 71.03
2) Va.E.T 2.42E-4 18.23 89.27
3) Tpn 4.00E-5 3.01 92.28
4) Va.M.R 2.61E-5 1.97 94.25
5) Va.SC 2.48E-5 1.87 96.12
6) Va.I2.T.I1 2.37E-5 1.79 97.91
7) Va.I2.R 2.10E-5 1.58 99.49
8) Va.E.R 6.70E-6 0.51 100.00
1.32E-3 100.00
- Utilizar un "timer" redundante idéntico en serie con el que ya aparece en el
circuito.
Esta mejora incorpora un nuevo componente y, por tanto, modifica tanto los datos
de confiabilidad como la propia estructura del árbol de fallas. Donde antes
aparecía el suceso básico T (los contactos del "timer" fallan cerrados), ahora se
incluye en su lugar una compuerta AND cuyas entradas son la falla por contactos
cerrados de los dos "timers" en serie T1 y T2. Bajo estas condiciones, es
necesario realizar la evaluación cualitativa del nuevo árbol de fallas y determinar
sus CM. Sin embargo, dada la simplicidad de la modificación realizada en este
caso específico, resulta evidente que los nuevos CM pueden obtenerse de forma
sencilla, reemplazando el suceso básico original T, por el suceso compuesto
T1.T2, que representa la falla simultánea de los dos "timers" en serie.
Finalmente, si realizamos la nueva evaluación cuantitativa partiendo de que q
T1
=
q
T2
= q
T
, se obtiene:
69
% % Acum.
1) Va.M.T1.T2 2.35E-3 75.05 75.05
2) Va.E.T1.T2 6.03E-4 19.27 94.32
3) Va.I1.I2.T1.T2 5.92E-5 1.89 96.21
4) Tpn 4.00E-5 1.28 97.49
5) Va.M.R 2.61E-5 0.83 98.32
6) Va.SC 2.48E-5 0.79 99.12
7) Va.I2.R 2.10E-5 0.67 99.79
8) Va.E.R 6.70E-6 0.21 100.00
3.13E-3 100.00
Esta modificación incrementa la confiabilidad en algo más de 3 veces. El nuevo
tiempo medio hasta la falla es de aproximadamente 320 años.
Hemos podido apreciar en un ejemplo ilustrativo muy simple, como la técnica de
árboles de fallas constituye una herramienta muy útil para fundamentar
cuantitativamente la toma de decisiones en materia de confiabilidad y seguridad
de sistemas, las cuales pueden ser modificaciones pequeñas en el diseño o tipo
de equipos utilizados, ajustes en la estrategia de pruebas y mantenimiento, etc., y,
sin embargo, pueden tener un impacto significativo y cuantificable.
Con este propósito el APS se ha ido estructurando y fortaleciendo con numerosos
indicadores y técnicas de análisis que cuantifican la importancia de diversos
factores del diseño y la explotación .
3.4. Técnica de árboles de sucesos.
Veamos, por último, un nuevo enfoque del proceso que tiene lugar en el ejemplo
3.1.1. Hasta ahora consideramos de forma deductiva, mediante la técnica de
árboles de fallas, todas las combinaciones de sucesos primarios que conducen al
suceso tope no deseado, rotura del tanque en condiciones de carga normal o por
sobrepresión. Si analizamos los sucesos primarios considerados, llegaremos a la
conclusión de que estos pueden ser de dos tipos:
Iniciadores: Fallas de equipo, errores humanos o sucesos externos que crean una
condición de peligro de daño al sistema y requieren la acción de medios
protectores o acciones del operador para contrarrestarlos o mitigar sus efectos.
Facilitadores: Fallas de equipo o errores humanos que facilitan el desarrollo de la
avería, a partir del iniciador, hacia un estado final no deseado de daño al sistema,
al inhabilitar las acciones protectoras previstas.
En el ejemplo existen 3 posibles iniciadores de una avería que conduzca a la
rotura del tanque por sobrepresión, que es el estado final no deseado. Ellos son:
70
. R - Los contactos del "relay" fallan cerrados
. SC - Sobrecorriente en el circuito de potencia
. T - Los contactos del "timer" fallan cerrados
Los facilitadores, que podrían conducir a la rotura del tanque si ocurriera alguno de
los iniciadores anteriores son:
. Va - No abre la válvula de alivio del tanque
. M - Manómetro del tanque trabado o indica por debajo
. E - El operador no responde ( error humano )
. I1 - Los contactos del interruptor fallan cerrados
. I2 - Los contactos del interruptor fallan cerrados
El nuevo enfoque a que hacemos referencia, consiste en una técnica de análisis
inductivo, denominada árbol de sucesos, que partiendo de un iniciador particular,
determina las posibles vías conocidas como secuencias, que conducen al
suceso final no deseado más general, en el ejemplo, la rotura del tanque por
sobrepresión.
En la figura 3.4.1 se muestran los árboles de sucesos para cada uno de los 3
iniciadores posibles. Los encabezamientos del árbol de sucesos son funciones
necesarias para la protección del tanque contra la rotura por sobrepresión, que
implican el funcionamiento de componentes, equipos o el éxito de determinadas
acciones del operador. En ocasiones una función se desdobla en varias acciones
o en la actuación de varios sistemas, como ocurre en la figura 3.4.1 a), donde la
función desconexión por el operador se ha desdoblado en dos actividades, la
desconexión del circuito de potencia y la desconexión del circuito de control. Para
las acciones o sistemas en el encabezamiento del árbol de sucesos se producen,
cuando corresponde, bifurcaciones en dos caminos posibles, el éxito que va
conduciendo a un estado final seguro, o la falla, que nos lleva al estado final no
deseado. El árbol de sucesos se va ramificando para dar lugar a un conjunto de
secuencias, que se diferencian por la condición de éxito o falla de las funciones
protectoras en cada caso.
En el árbol de sucesos se marcan con la letra D aquellas secuencias en
que la combinación de fallas de las funciones protectoras conducen al estado
final no deseado (daño), mientras que con la letra E se señalan los estados finales
exitosos. En el ejemplo, existe una sola secuencia de daño para cada árbol de
sucesos, pues en las restantes secuencias se garantiza un estado final seguro del
tanque. Sin embargo en los casos reales más complejos, pueden ser varias las
secuencias de daño en cada árbol de sucesos.
71
Por otra parte, no siempre se produce la bifurcación del árbol en cada sistema o
acción protectora. En el árbol de sucesos de la figura 3.4.1 a) se aprecia como,
por ejemplo, si tiene éxito la interrupción de la corriente en el circuito de potencia
no se da ninguna alternativa para las restantes acciones protectoras (interrupción
de la corriente en el circuito de control y alivio de presión en el tanque), pues la
primera ya garantiza la integridad del tanque y no se requieren otras acciones.
Existen otros casos en que determinadas funciones son alternativas a la falla de
una función anterior y sólo se modelan opciones para ellas en los casos en que
la función precedente no ha sido exitosa.
Para hallar la probabilidad del suceso final no deseado, es preciso hallar las
probabilidades de todas las secuencias que conducen al daño y sumarlas,
teniendo en cuenta las contribuciones de todos los iniciadores posibles. La
evaluación de la probabilidad de cada secuencia se realiza formando el árbol de
fallas de la secuencia, que une con una compuerta AND a todos los árboles de
fallas de las acciones protectoras que no tienen éxito en la secuencia. En la figura
3.4.2 se muestra el árbol de fallas de la secuencia que conduce al daño del tanque
por sobrepresión, para el iniciador T - Los contactos del "timer" fallan cerrados. La
única modificación con respecto al árbol de fallas de la figura 3.1.4 es que no se
incluye el suceso primario sobrecorriente en el circuito de potencia SC como modo
de falla del interruptor I2, porque SC es otro iniciador y la probabilidad de
ocurrencia simultánea de dos iniciadores (en este caso T y SC) es despreciable.
72
Fig. 3.4.2. Arbol de fallas de la secuencia que conduce al daño del tanque por
sobrepresión, para el iniciador T - Los contactos del "timer" fallan cerrados.
Si realizamos la determinación de los CM de la secuencia y el cálculo de su
probabilidad, llegaremos a los siguientes resultados:
CM Prob.
T.M.Va 7.54E-3
T.E.Va 1.94E-3
T.I1.I2.Va 1.90E-4
Total 9.67E-3
Análogamente, se determinan los CM y las probabilidades de las secuencias que
producen el daño al tanque, para los restantes iniciadores.
- Iniciador R - los contactos del "relay" fallan cerrados
CM Prob.
R.M.Va 2.61E-5
R.I2.Va 2.10E-5
R.E.Va 6.70E-6
Total 5.38E-5
73
- Iniciador SC - sobrecorriente en el circuito de potencia
CM Prob.
SC.Va 2.48E-5
Total 2.48E-5
La probabilidad de daño al tanque por sobrepresión puede hallarse como la suma
de las probabilidades de daño para cada uno de los iniciadores posibles, teniendo
en cuenta que éstos se consideran sucesos mutuamente excluyentes.
Finalmente, esta probabilidad de falla P
Tsp
será:
P
Tsp
= 9.67E-3 + 5.38E-5 + 2.48E-5 = 9.75E-3/año.
Se puede apreciar como estos resultados concuerdan con los obtenidos por la
técnica de árboles de fallas para el suceso no deseado rotura del tanque por
sobrepresión, que excluye el suceso primario T
pn
- Rotura del tanque a presión
normal.
Para el análisis de industrias complejas no resulta conveniente, como se ha hecho
en el ejemplo 3.1.1, construir un árbol de fallas único, que incluya todos los
sucesos primarios, tanto iniciadores como facilitadores, que se deducen del
suceso tope no deseado. Esto resultaría demasiado complejo y dificultaría el
análisis.
Lo más conveniente es partir de un estudio denominado Análisis de Modos y
Efectos de Fallas (FMEA en inglés), para identificar los posibles sucesos
iniciadores de avería en la industria y estimar su frecuencia de ocurrencia.
Para cada uno de los iniciadores se desarrollan los árboles de sucesos que
conducen a un estado final de daño, previamente definido de acuerdo con los
objetivos del estudio y que puede ser solamente de carácter económico o incluir
además posibles efectos nocivos sobre el personal de la industria y/o el medio
ambiente. En los árboles de sucesos se modela el comportamiento de las
funciones protectoras previstas en cada caso y se determinan las secuencias cuyo
estado final es el daño.
Para evaluar la probabilidad de fallas de las funciones protectoras se aplica
entonces la técnica de árboles de fallas, es decir, se realiza el análisis de
confiabilidad del sistema o los sistemas que cumplen cada función. Para estimar la
frecuencia esperada de ocurrencia del estado final no deseado (daño), es
necesario resolver grandes árboles de fallas para cada secuencia de daño, que
74
resulta de la integración de los árboles de fallas de los sistemas que no tienen
éxito en dicha secuencia.
Esta es la esencia del APS y, para obtener todas las ventajas que él puede
ofrecernos, el camino a seguir es la construcción de un modelo integral de la
industria, aplicando de forma combinada las técnicas de árboles de sucesos y
árboles de fallas.
Las herramientas desarrolladas en el APS permiten cuantificar la importancia de
sucesos básicos, sistemas, secuencias accidentales y sucesos iniciadores de
avería. Con esta valiosa información se pueden dirigir todos los esfuerzos a
los puntos débiles identificados con un nivel de integración que abarca toda la
industria y toma en cuenta las interrelaciones e interdependencias entre sistemas,
componentes y acciones humanas.
75
IV. Aplicaciones de los análisis de confiabilidad.
PARAMAN: SOFTWARE PARA EL CALCULO DE LOS PARAMETROS DE
MANTENIMIENTO
4.1- Consideraciones generales
Las aplicaciones tecnológicas han derivado gerencialmente hacia los
modelos cuya base es esencialmente cuantitativa. En este sentido la Gerencia
técnica de mantenimiento ha venido transformándose en una actividad cada vez
mas importante dentro de los complejos industriales y ha logrado una enorme
significación para lograr que las instalaciones y los equipos que la integran sean
mantenidos en las mejores condiciones operacionales dentro de un ambiente de
costo optimo.
El estudio de las relaciones funcionales dentro de una empresa en
particular requieren de experticias técnicas de mantenimiento específicas
combinadas con el uso de los recursos materiales y financieros dentro de un
enfoque logístico apropiado.
Dentro de este entorno, y ante la diversificación técnica, producto de la
variedad tecnológica y organizacional de los complejos industriales, los sistemas
de mantenimiento y la medición de la CONFIABILIDAD, DISPONIBILIDAD Y
MANTENIBILIDAD de los sistemas han adquirido un enfoque especializado
soportado en desarrollos técnicos que han convertido a la administración del
mantenimiento en una herramienta necesaria para la gerencia integral de los
complejos industriales.
El perfil de las industrias específicas se hace cada vez mas complejo y la
tendencia de los sistemas de mantenimiento se caracterizan por los siguientes
elementos:
Empresas generalmente grandes, con muchos equipos
Los equipos son grandes, complejos y frecuentemente son
prototipos
Los equipos están localizados en amplios frentes de trabajo
Las operaciones generalmente se encuentran distantes de
los lugares de reabastecimiento de partes y repuestos
76
Los elementos mencionados caracterizan a la función de mantenimiento
como una actividad dinámica, donde actúan numerosas variables relacionadas
funcionalmente dentro de un esquema de aleatoriedad que caracteriza a la
actividad de mantenimiento y definida dentro de los conceptos de EFECTIVIDAD
DE SISTEMAS.
Howard Finley, pionero de la gestión técnica del mantenimiento industrial
dentro de la Industria Petrolera Venezolana e Internacional, definió este Concepto
de Efectividad de Sistemas como un método para modelar las actividades de
mantenimiento “a objeto de optimizar la gerencia, consistente en medir la
probabilidad de que un sistema opere a toda capacidad dentro de un período de
tiempo determinado”.
2.- Costos de mantenimiento
El concepto de efectividad de sistemas fue asociado a variables de
costo involucradas en los sistemas de mantenimiento y consecuencialmente se
definieron los conceptos de costo de mantener, costo redundante y costo de
penalización. Las interacciones de estos costos son sumamente complejas y se
pueden observar con mayor facilidad en el siguiente diagrama:
El concepto de costo directo de mantener se refiere a la totalidad de los
costos necesarios para mantener los equipos operables incluyendo los servicios,
reparaciones, inspección y reparaciones mayores.
77
El costo redundante se refiere al costo adicional por la condición de mantener
equipos en espera, para ponerlos en funcionamiento cuando fallen los principales.
El costo de penalización se refiere a las pérdidas cuando los equipos principales
salen de servicio y no existen equipos de espera o no se pueden reparar en un
tiempo determinado.
Cuatro sistemas de carácter administrativo son importantes dentro de una política
de mantenimiento optimo, ellos son: Control de Equipos, Control de trabajo,
Control de materiales y reporte de los Costos. Estos sistemas forman parte de la
gestión de gerencia el cual de manera general incluyen a los de reportes de
proyectos, reportes de operación, costos administrativos, pronósticos, presupuesto
y control financiero.
El tradicional control de los equipos consiste esencialmente en un reporte de
control de fallas. Algunas organizaciones intentan reportar cada falla sin mucho
éxito, y otras nunca lo reportan por las dificultades metodológicas que implican su
obtención. Ante estas situaciones extremas, una posición intermedia consiste en
reportar y analizar las fallas significativas de los equipos críticos los cuales,
independientemente de su valor, son muy importantes ya que pueden poner fuera
de servicio una planta; y los equipos mayores los cuales pueden causar altos
costos de penalización al paralizar las instalaciones; así por ejemplo, en una
refinería cuya capacidad de producción esté comprendida entre 500.000 y
1.750.000 barriles diarios, puede haber menos de 1000 equipos mayores, los
cuales deben ser vigilados y analizados en lo que se refiere a la dinámica de las
fallas En este sentido, tomando como referencia la secuencia de arranques y
paradas, se estima el tiempo medio entre fallas, cuya tendencia se evalúa
regularmente para controlar las probabilidades de falla y de supervivencia del
sistema, unido obviamente al tiempo medio para reparar, el cual evalúa la
mantenibilidad del sistema y consecuencialmente la disponibilidad y confiabilidad.
.4.2.-- Parámetros de Mantenimiento
La efectividad de un sistema es función de dos conceptos muy importantes
dentro del enfoque cuantitativo. Se trata del concepto de DISPONIBILIDAD, es
decir, la probabilidad que un equipo o componente este listo para operar dentro de
un período de tiempo determinado. El complemento a este concepto es el de
INDISPONIBILIDAD. La disponibilidad como concepto es función a su vez de dos
elementos, la confiabilidad de un sistema, y la mantenibilidad. Finley define el
primero como la probabilidad que un equipo o componente no falle en servicio
dentro de un entorno de tiempo y el segundo como la probabilidad que un sistema,
equipo o componente que ha fallado sea reparado en un tiempo determinado.
78
Las relaciones gráficas de estos elementos se pueden observar en el
siguiente diagrama:
La determinación de los parámetros de mantenimiento es fundamental para
calcular la disponibilidad de un sistema, subsistema, equipo, componente, etc.;
ello entonces proporciona los datos fundamentales para el análisis de la función
de mantener y de una gerencia efectiva, dentro de un ambiente de sistema total
que genera enorme cantidad de data.
4.3- Distribuciones de probabilidad y estimación de los indicadores de
Confiabilidad de Sistemas.-
Entre los parámetros fundamentales que caracterizan la confiabilidad se
tienen los siguientes estimadores:
♦ Probabilidad de fallas y Probabilidad de supervivencia
♦ Densidad de fallas
♦ Tiempo medio entre fallas
♦ Tiempo medio fuera de servicios
♦ Rata de fallas
Los elementos anteriores se reflejan como estimadores de una data que
esencialmente consiste en la medición del tiempo transcurrido entre una parada
por fallas y el reinicio de la operación, una vez reparado el sistema. Las variables
básicas son el tiempo de inicio expresado como fecha, hora y minutos de
ocurrencia de la parada y fecha, hora y minutos de restablecimiento de la
operación. El siguiente gráfico permite apreciar estas relaciones:
79
La data obtenida con la dinámica de la operación y sus tiempos de fallas se
asocian a una distribución de probabilidad. Generalmente, la mejor aproximación
es la distribución de Weibull, cuyas expresiones funcionales permiten encontrar el
tiempo medio entre fallas, la probabilidad de supervivencia, y en función de ellos
encontrar una medición correcta de la Confiabilidad del Sistema. El
comportamiento de esta distribución estadística se puede observar en el siguiente
gráfico:
80
Básicamente, estas expresiones funcionales se resuelven con el uso del PC
mediante la solución de un modelo probabilístico cuyo software fue desarrollado
por el Centro de Estudios Gerenciales Instituto Superior de Investigación y
Desarrollo (ISID).
La expresión analítica de esta distribución de Weibull puede observarse a
continuación:
PARAMAN es la aplicación computarizada diseñada especialmente para
realizar, en forma práctica e inmediata, el cálculo de todos los indicadores
requeridos para analizar el comportamiento de componentes y determinar los
parámetros fundamentales para ejercer el control técnico de la confiabilidad y la
mantenibilidad.
La solución computarizada se basa en el procesamiento automatizado de
las variables asociadas a la dinámica operativa de un sistema, equipo o
componente.
Tomando como referencia los datos históricos, se ejecuta el cálculo
automático de los parámetros de mantenimiento, para obtener los tiempos de
operación por cada corrida y los tiempos fuera de servicio, tanto reales como
suavizados exponencialmente, así como la disponibilidad del equipo en cada
período de operación, además del cálculo de la disponibilidad y su evolución
histórica
81
El análisis de Confiabilidad pone en evidencia los indicadores funcionales
característicos del equipo y permiten evaluar su fiabilidad en función del tiempo,
para lo cual es posible utilizar las opciones de simulación incorporadas en el
sistema PARAMAN,
De igual forma, se obtienen los indicadores relativos a la Mantenibilidad,
entre los cuales se señalan los siguientes: Tiempo Medio entre Fallas, Tiempo
Medio Fuera de Servicio y Disponibilidad, y Rata de Fallas. En este caso, la
opción de simulación permite evaluar la probabilidad de reparar el equipo en
intervalos de tiempo seleccionados por el usuario.
El software proporciona, además, salidas gráficas que complementan
los estudios analíticos de los componentes.
A conclusión de los cálculos, se puede obtener un resumen impreso donde
se incluyen los indicadores más significativos, asociados a las distribuciones
estadísticas de Weibull y Gumbell, que caracterizan la confiabilidad y la
mantenibilidad de los equipos analizados.
La evaluación de la confiabilidad de un sistema consiste en la cuantificación
de la probabilidad de falla. A partir de allí, se calculan tantos elementos como
componentes se desee, los cuales se combinan mediante técnicas probabilísticas
para obtener la confiabilidad de un sistema y, finalmente, la efectividad del sistema
total. Sin embargo, el interés fundamental del Análisis de Confiabilidad es el
resultado global de las probabilidades de falla, para demostrar que satisface las
exigencias planteadas en el diseño. Las mayores ventajas se obtienen mediante
procesos que conducen a encontrar los elementos más importantes y de mayor
contribución a las fallas del sistema.
Para sistemas complejos, el análisis de los árboles de falla, sustentado en
el análisis probabilistico bayesiano, ha demostrado ser una poderosa herramienta
que requiere como data básica las probabilidades de falla y otros estimadores,
como los calculados anteriormente. Su estudio integral se conoce como Análisis
Probabilístico de Seguridad (APS) mediante el cual se realizan múltiples
aplicaciones durante la vida útil de los equipos industriales, para garantizar una
elevada disponibilidad y seguridad de las instalaciones. Así mismo, el tratamiento
de la historia de los equipos, sus partes, componentes, subsistemas o sistemas
permiten monitorear las condiciones de disponibilidad, confiabilidad y de
mantenibilidad. El Sistema de Cálculo de Confiabilidad y Disponibilidad de
Sistemas Industriales basado en las técnicas del APS también fue desarrollado en
ambiente computacional por el Centro de Estudios Gerenciales (ISID).
82
Los parámetros obtenidos mediante el modelo PARAMAN, constituyen una
herramienta de gran utilidad para el profesional de mantenimiento, al permitirle
evaluar con rapidez y precisión los coeficientes de confiabilidad, para introducirlos
luego como parámetros fundamentales en el análisis de los árboles de fallas y en
los estudios de APS los cuales posibilitan, a su vez, hacer un seguimiento
sistemático a los sistemas de mantenimiento industrial.-
A título de ejemplo, se presenta a continuación una situación típica de la gestión
ordinaria del mantenimiento industrial, en la cual se requiere determinar el valor
actual de la Rata de Fallas de un componente, para poder evaluar la confiabilidad
integral del sistema del cual ese componente forma parte integrante. Para calcular
el valor de la Rata de Fallas, se emplea el modelo PARAMAN.
83
EJEMPLO DE APLICACION
A objeto de ilustrar la aplicación del modelo PARAMAN, se plantea el estudio de
una instalación típica, simplificada, empleada para comprimir gases industriales,
constituida por un grupo moto-compresor, un tanque de almacenamiento y los
subsistemas de comando y control correspondientes, como se muestra en la Fig.
1.
Para el análisis de confiabilidad global del sistema, se recurre al empleo de la
técnica de árboles de fallas, construyendo el modelo o diagrama lógico de fallas
de la instalación (Fig. N° 2). La cuantificación de la probabilidad de falla total del
sistema requiere, como datos de entrada, la rata de fallas de cada uno de los
componentes que lo integran.
Fig, 1 . Sistema de Compresión
84
Se conoce la rata de fallas de los componentes (según la Tabla N° 1) obtenida de
la información técnica suministrada por los fabricantes y de los datos de planta.
Sin embargo, en lo que respecta al motor “M”, no se dispone sino de una relación
pormenorizada de la fecha y hora de arranque de esta instalación, así como de las
ocasiones en que fue detenida debido a fallas y otros inconvenientes imputables
al motor.
FALLA DEL SISTEMA
DE COMPRESION
+
FALLA DEL GRUPO
MOTO-COMPRESOR
FALLA DEL
MOTOR
FALLA DEL
COMPRESOR
FALLA GRUPO DE
ALMACENAMIENTO
FALLA
INTERNA DEL
TANQUE
FALLA DE
COMANDO
FALLA
EXTERNA AL
TANQUE
+
PERDIDA DE CONTROL
PRIMARIO
FALLA DE CONTROL
SECUNDARIO
INTERRUPTOR “A” NO ABRE VALVULA SEGURIDAD VS NO ABRE
+ +
+
FALLA
INTERNA DE
“IP”
FALLA
EXTERNA
A “IP”
FALLA
INTERNA
“VS”
FALLA
COMANDO
FALLA
EXTERNA
A“VS”
ERROR DE
CALIBRACIÓN
CIERRE DE
VALVULA
FALLA
COMANDO
+
ERROR DE
CALIBRACIÓN
CIERRE DE
VALVULA
Fig. 2.- Arbol de Fallas del Sistema de Compresión
85
Tabla N° 1
TIPO DE FALLA y COMPONENTE Rata de Fallas
Falla interna del interruptor de presión “A” 1E-2
Falla del interruptor “A” por causas externas 1E-7
Falla de comando del interruptor (válvula V1) 1E-1
Error de calibración del interruptor 1E-2
Falla interna de la válvula de seguridad “VS” 1E-4
Falla válvula de seguridad “VS” por causas externas 1E-7
Falla válvula de seguridad “VS” por obstrucción 1E-7
Error de calibración de la válvula de Seguridad “VS” 1E-4
Falla intrínseca del tanque “T” 1E-7
Rotura del tanque “T” por causas externas 1E-8
Falla del Compresor “C” 1E-5
El historial de datos correspondiente a la operación de la instalación y las paradas
imputables al motor eléctrico, se presenta en la Tabla N° 2, los cuales constituyen
los datos de entrada del modelo PARAMAN, requeridos para calcular los
parámetros fundamentales de mantenimiento del motor y su rata de fallas, entre
otros indicadores útiles para caracterizar el comportamiento de este componente.
Tabla N° 2- HISTORIAL DE EQUIPO
Componente: MOTOR ELECTRICO “M”
Fecha
Arranque
Hora Arranque Fecha Parada Hora Parada Causa de la Parada
03/02/1999 3:20 PM 02/05/1999 10:25 AM
Corto Circuito
03/05/1999 4:30 PM 17/07/1999 9:40 PM
Eje desalineado
19/07/1999 8:15 AM 20/08/1999 4:10 PM
Soporte flojo
23/08/1999 3:20 PM 13/12/1999 6:25 AM
Corto circuito
17/12/1999 11:00 AM 12/06/2000 7:30 PM
Falla protección
13/06/2000 9:25 AM 21/07/2000 8:15 PM
Corto a tierra
23/07/2000 9:40 PM 09/08/2000 3:45 PM
Recalentamiento
12/08/2000 4:30 PM 07/11/2000 9:20 PM
Cojinete averiado
09/11/2000 6:25 AM
(último arranque)
86
Al realizar la carga de los datos de tiempo en el modelo PARAMAN, como se
ilustra a continuación, se obtienen automáticamente los tiempos de operación y de
permanencia fuera de servicio del componente analizado, debidamente
organizados según su secuencia cronológica.
Una vez concluida la carga, de datos, es posible obtener toda la información
referente al comportamiento histórico del motor en estudio, mediante el cálculo y
despliegue de los tiempos de operación registrados a lo largo del período
analizado, así como las probabilidades de supervivencia y falla estimadas en
correspondencia de cada corrida. Seguidamente, se muestran los resultados
obtenidos para el componente en estudio.
87
De igual forma, se obtienen los resultados del cálculo de los tiempos en que el
motor ha permanecido fuera de servicio durante el período analizado, al cual se
asocian las correspondientes probabilidades estimadas de falla, como se ilustra a
continuación.
Los tiempos de operación y fuera de servicio asociados al componente, son
sometidos a un proceso de suavizado exponencial, para descartar los valores
extremos de la serie de datos originales y así obtener valores de disponibilidad del
motor mejor ajustados. La secuencia de valores reales y suavizados se presenta
seguidamente.
88
Los cómputos anteriores, proporcionan los elementos necesarios para calcular y
presentar los indicadores resultantes del Análisis de Confiabilidad, obteniéndose
de esta manera el tiempo medio entre fallas (o tiempo medio de operación) la rata
de fallas y los coeficientes de la distribución estadística (Weibull) característicos
del equipo analizado. Estos resultados se presentan como se ilustra a
continuación.
Análogamente, se realizan los cálculos y se presentan los resultados del Análisis
de Mantenibilidad, donde se incluye el Tiempo Medio Fuera de Servicio, el valor
actual de la Rata de Fallas del componente y los coeficientes de la distribución
estadística de Gumbell, propios del motor estudiado.
89
Mediante el uso de las funciones de simulación, se puede realizar
pronósticos de comportamiento del motor en función del tiempo, mediante el
cálculo de las probabilidades de supervivencia y falla para un tiempo de operación
(u observación) preestablecido. De la misma forma, se puede estimar la
probabilidad de realizar los trabajos de reparación del motor en menos de un
tiempo dado, lo cual permite evaluar la efectividad de las operaciones de
mantenimiento. Ambas opciones se presentan en los gráficos a continuación.
Los parámetros fundamentales de mantenimiento (Confiabilidad,
Mantenibilidad Disponibilidad) se muestran también bajo la forma de curvas que
evidencian la evolución de los tiempos medios de operación y fuera de servicio y
la disponibilidad suavizada, a lo largo del período de análisis.
90
Finalmente, es posible obtener un resumen impreso de los resultados de
los Análisis de Confiabilidad y Mantenibilidad, donde aparecen los indicadores,
parámetros y coeficientes asociados a la evolución operacional del equipo,
además del valor actual de la Disponibilidad y de la Rata de Fallas (5,63 E-5) que
es el dato requerido para evaluar la confiabilidad integral del sistema Moto-
Compresor, obtenido a partir de la información sobre la dinámica operativa del
sistema que se conserva en el Registro Histórico de Equipos de la planta.
91
BIBLIOGRAFIA
1- Maintenance Engineering Workshop, Houston, THFC, 1963, pág. 253.
2- Lozano Conejero, Antonio. Confiabilidad - Teoría y Práctica. Buenos Aires, Editorial
Universitaria,1969, pág. 94.
3- Finley, Howard. Principios de Optimización de Mantenimiento, Howard Finley de
Venezuela C.A., 1975, pág. 525.
4- C. Valhuerdi, R. Quintero . Seguridad nuclear. Problemas y valoraciones. Selección de
temas. Instituto Superior de Ciencias y Tecnología Nucleares, MES, La Habana, 1990.
5- IAEA-TECDOC-478. Component Reliability Data for Use in Probabilistic Safety
Assessment. IAEA, Vienna, 1988.
6- Finley, Howard. Ingeniería de Mantenimiento, Houston, 1977.
7- Mosquera, Genaro. Apoyo Logístico para el Mantenimiento Industrial, U.C.V. –
C.D.C.H., Caracas, 1987.
8- Mosquera, Genaro. Gerencia de Logística Industrial, Academia de Ciencias
Económicas, Caracas, 1994.
9- J. Rivero, J. Salomón, M. Perdomo, A. Torres. Resultados más significativos de los
estudios de análisis probabilista de seguridad en Cuba. Revista CTN No 1, Brasil,
1993.
10- J. Rivero, J. Salomón, A. Torres, M. Perdomo. El programa ARCON 4.1 para análisis
probabilista de seguridad de nivel I. Memorias del II Congreso Regional de ARCAL.
México, 1993.
11- NUREG/CR-4213. SETS Reference Manual. USNRC, Washington DC,U.S.A, 1985.
12- R. W. Randall. FTAP: Computer Aided Fault Tree Analysis. Operational Research
Center, University of California, Berkeley, ORC 78-14, 1978.
13- IAEA-TECDOC-480. J. B. Fussell, PRISIM - A Computer Program that Enhances
Operational Safety. JBFAssociates,Inc., Knoxville, Tennessee. U.S.A., 1988.
14- R. Nakai, Y. Kani. A Living PSA System LIPSAS for an LMFBR. Power Reactor and
Nuclear Fuel Development Corporation. Narita, O-arai,Ibaraki,311-13. Japan, 1991.
92
15- S. Haddad, S. Hirschberg. PSA in the Nuclear and Process Industry: Opportunities for
Interchange of Experience. International Atomic Energy Agency (IAEA). Vienna,
Austria, 1991.
16- GDA/APS. Grupo de desarrollo y aplicaciones de APS. Manual de Usuario del Código
ARCON versión docente. Cuba, 1993.
17- STI/PUB/759. IAEA, Safety Aspects of the Ageing and Maintenance of Nuclear Power
Plants. Viena, 1988.
18- IAEA-TECDOC-542. Use of Expert Systems in Nuclear Safety. Vienna. 1988.
19- N. J. Liparrulo, D. R. Sharp. B. D. Sloane, J. K. Chan. Developments in Living
Probabilistic Risk Assessment. Pittsburg. PA 15230. U.S.A, 1988.
20- GDA/APS. Grupo de desarrollo y aplicaciones de APS. Manual de instrucciones y
procedimientos de garantía de calidad del APS de la CEN Juraguá. 1993.
21- Workshop "PSA based optimization of tasks and procedures in NPP operation",
Mexico, 1993.
22- IAEA-TECDOC-480. Improving Operational Safety Management through Probabilistic
Safety Assessment on Personal Computers. Vienna, 1988.
23- Mc Cormick. Reliability and risk analysis. Methods and nuclear power applications.
1983.
24- 24-IAEA-TECDOC-590. Case study on the use of PSA methods: Determinig safety
importance of systems and components at nuclear power plants. April, 1991.
25- IAEA-TECDOC-508. Survey of Ranges of Component Reliability Data for Use in
Probabilistic Safety Assessment. IAEA, Vienna, 1989.
26- IAEA Safety Series No. 50-P-4. Procedures for Conducting Probabilistic Safety
Assessment of Nuclear Power Plants. IAEA, 1992.
27- NUREG/CR-4780. Procedures for Treating Common Cause Failures in Safety and
Reliability Studies. USNRC, 1988.
28- SRD Dependent Failures Procedures Guide. SRD, UKAEA, 1987.
29- Castillo Guilarte, Manuel. Sistematización del Departamento Técnico de Continuidad
Absoluta, Caracas, 1981, pág. 92
30- Estava Moreno, Nicolás. Mantenimiento y Subdesarrollo, Caracas, Editorial Principios,
pág. 233.
31- Foster, Caxton. Real Time Programming. Philippines, Editorial Addiso-Wesley,
Publishing Company, 1981, pág. 190.
93
32- Glass, Robert y Noiseux, Rolan. Software Maintenance Guidebook, New Jersey,
Editorial Prentice-Hall Inc., 1981, pág. 193.Goldeman, S.A. y Slattery, T.B.,
Maintainability: A mayor element of System Effectiveness, Newe York, Editorial John
Wiley & Sons Inc., 1964, pág. 282.
33- Gumbel, Emil Julius, Statistics of Extremes, 3ra. Ed., Editorial Columbia University
Press, 1066, pág. 375.
34- Jelen, F.C., Const and Optimization Engineering, New York, Editorial Mc-Graw Hill
Book Company, 1970, pág. 490
35- Newbrough, E.T., Administración de Mantenimiento Industrial, 2da. Impresión, México,
Editorial Diana, 1976, pág. 413, traducido por Mario Bracamonte Cantolla.
36- Organización de la Aviación Civil Internacional, Confiabilidad y Disponibilidad del
Equipo Electrónico, Montreal, 1968, pág. 20.
37- Bain, Lee y Antle, Charles, Estimation of Parameters in the Weibull Distribution,
Technometrics, Vol. 9, No. 4, Nov. 1967, págs. 621-627.
38- Beichelt, F. Y Fisher, K., On a basic Equation of Reliability Theory, Microelectronics
Reliability, Vol.`19, No. 1979, págs. 367-369.
39- Bosch, G., Model for Failure Rate Curves, Microelectronics Reliability, Vol.`19, No.
1979, págs. 579-588.
40- Cohen, Clifford A., Maximum Likelihood Estimation in the Weibull Distribution based on
Censored and on Complete Data, Technometrics, Vol. 7, No. 4, Nov. 1965, págs. 579-
588
41- Finley, Howard, Total Life Cycle Costs of Plant and Equipment, Canadian Society for
Chemical Engineering, 20
th
Conference, Paper 65, Oct. 1970.
42- Finley, Howard, How Cost-Effective is your Maintenance Organization?, Hydrocarbon
Processing, Enero 1972, págs. 81-86.
43- Finley, Howard, High Technology Maintenance Management, National Petroleum
Refiners Association, Atlanta, Sept. 1976.
44- Johnson, L.G., Statistical Treatment of Failure Experiments, Transactions of the 22
nd
Technical Conference of Quality Control., págs. 113-140.
45- Latour, P.R., On-Line Computer Optimization: What is it and where to do it,
Hydrocarbon Processing, Jun. 1979, págs. 73-82.
46- Mosquera C., Genaro, Administración y Mantenimiento, Universidad Central de
Venezuela, Caracas, 1979, pág. 18.
47- Qureisi, A.S., The Discrimination between two Weibull Processes, Technometrics, Vol.
6, No.1 Feb, 1964, págs. 57-75.
94
48- Redding, J.H. y Maynard, H.B., Can a Computer Reduce your Maintenance?,
Hydrocarbon Processing, January 1980, págs. 78-91.
49- Trotter, J.A., Reduce Maintenance Costs with Computers, Hydrocarbon Processing,
January 1979, págs. 133-140.
50- Weibull, Waloddi, An Statistical Representation of Fatigue Failure in Solids,
Transactions of the Royal Institute of Technology, Stockholm, No. 27, págs. 133-140.