You are on page 1of 38

CALIDAD DE REDES Y SERVICIOS DE TELECOMUNICACIONES

Francisco Apablaza M.

PRESENTACIN El tema ha sido siempre conflictivo y a la vez apasionante, conflictivo por las mltiples interpretaciones que se dan a los conceptos al llevarlos a la praxis, por como se manejan las estadsticas, as como al pobre conocimiento formal que existe sobre esta importante rea de la ingeniera, en comparacin con los sectores mineros, de la construccin o de la mecnica. Apasionante, por integrar conceptos estadsticos, de probabilidades y de tecnologa, como por el impacto que puede generar en una mejora continua en la excelencia operacional de una red de telecomunicaciones y sus servicios y su relacin con los costos e ingresos. Esto es lo que ha motivado preparar estos apuntes, que se espera sirvan de base para estudiar mas profundamente estas materias.

1|

INTRODUCCIN El establecimiento de calidad operacional de las redes y servicios, dice relacin con los criterios de diseo de las redes, la disponibilidad de RRHH y tcnicos calificados, los procedimientos de operacin y mantenimiento, como as de las situaciones particulares del medio en que se encuentren desplegados los recursos de redes y servicios, todo lo cual redunda, evidentemente, en los costos en que pueda incurrirse para conseguir una calidad deseada. Se alcanzar distintas calidades operacionales de las redes respaldadas con respecto de aquellas que no disponen de recursos de respaldo, o de repuestos en sitio. De igual modo debe tenerse en cuenta que distintas tecnologas pueden otorgar calidades diferenciadas, como puede ser el caso de un circuito va fibra ptica con relacin a uno por radio. Es preciso establecer claros criterios de definicin y medicin de ndices o indicadores de desempeo, que aunque no sean de una precisin absoluta, permitirn observar, en la medida que se mantengan las definiciones por un largo periodo, los comportamientos y tambin deducir criterios de mantenimiento, diseo, e instalacin que redunden en mejoras de los mismos ndices. Se presentan en estos apuntes los fundamentos y consideraciones prcticas relativas a los distintos aspectos relativos a disponibilidad, confiabilidad y SLA (Service Level Agreement) de redes de telecomunicaciones. Aunque sin duda son conceptos aplicables a otras disciplinas, como redes de energa, o procesos industriales. Siempre debe tenerse presente que se trata de anlisis de sistemas estocsticos, lo que conlleva que son temas a tratar con un profundo conocimiento de los fundamentos probabilsticos como por bases de datos confiables de interpretacin estadstica. Es imprescindible refrescar los conceptos de estadistica descriptiva, as como los de probabilidades, ya que son fundamentales para la comprensin de lso conceptos de confiabilidad, como para los anlisis de dispinibilidad, No obstante su importancia, no se considera afrontarlos en este documento. Los temas tratados se han organizado en: Aspectos Generales de la Calidad Tcnica de las Redes y los Servicios Teora de la Confiabilidad Teora de la Disponibilidad Confiabilidad, Disponibilidad y Mantenibilidad Criterios de Riesgo y Costos Aplicaciones y Anlisis Estadstico de Eventos Confiabilidad y Disponibilidad de Servicios

Referencias Anexo: ejercicios

2|

Aspectos Generales de la Calidad Tcnica de las Redes y los Servicios


Uno de los aspectos de la calidad son las definiciones tcnicas de fidelidad de las seales de telecomunicaciones, tales como ruidos, tasas de errores, distorsiones, etc., muchos de los cuales estn sujetos a una sensibilidad subjetiva, sin embargo, hoy, por la preponderancia de los datos, tambin hay una serie de parmetros de calidad, tales como errores, prdidas, retardos y otros. La calidad como continuidad operativa de las redes y por ende de los servicios, es quizs, el enfoque ms importante a la hora de establecer medidas de dicha calidad frente al cliente y a la vez, l mas complicado de definir por su condicin de variable aleatoria y de las expectativas del cliente. Tpicamente se habla de confiabilidad fiabilidad (Reliability), performance, disponibilidad (Availability), MTBF, MTTR, etc., sin embargo, el gran dilema es establecer la definicin de estos parmetros y llevarlos a mediciones prcticas y hacer un buen uso y comprensin de ellos. Es importante llegar a definir criterios para delimitar entre condiciones de degradacin, de intermitencia y de indisponibilidad, que son todos grados de un deterioro y degradacin del servicio de telecomunicaciones. Se constata que no es usual que renan bajo un mismo objetivo los conceptos de calidad, mejora continua, mantenibilidad y confiabilidad-disponibilidad. Hay que crear conciencia que la confiabilidad comienza por la calidad de la ingeniera de diseo y construccin de las redes. No es menos cierto que las administraciones encargadas de la operacin y mantencin de redes y sistemas, realizan todas o algunas de acciones que ac se comentarn, ya sea en forma consciente, metdica, y sistemtica, o en forma intuitiva. Las distintas tcnicas que se desarrollan, no hacen otra cosa que formalizar el conocimiento y la experiencia. A continuacin se procurar introducir a los conceptos ms bsicos de estos temas, a dar algunas definiciones, que quizs no sean las ms cannicas, pero que buscan llevarlas a aplicaciones reales que puedan ser medidas. Es importante contemplar que cualquiera de los ndices o indicadores de desempeo debe estar sustentado en un mecanismo de medicin automatizado, de registros sistemticos y de buena calidad.

3|

Teora de la Confiabilidad
Es la probabilidad que se presente una falla en un intervalo de tiempo definido, excluyendo las interrupciones producto de intervenciones programadas. Dice relacin con el intervalo de tiempo que el elemento o sistema est libre de falla. Se dice tambin de la probabilidad de sobrevivir correctamente en funciones una vez que comienza a operar. Se propone como ndice de confiabilidad a definir por ao, dependiendo de la topologa y tecnologa de la red, correspondiendo a una estimacin terica que se convierte en la referencia objetivo. Tpicamente se ha descrito, para equipos y sistemas, que la confiabilidad esperada, obedece a una tendencia de fallas que sigue un comportamiento en el tiempo, en una funcin que se le denomina la curva de la baera, la cual es una grfica que representa los incidentes de falla durante el perodo de vida til. Se llama as porque tiene la forma una baera. En ella se pueden apreciar tres etapas:

Tasa de Fallas Mayor mantenimiento Mortalidad Temprana

(t)

Vida til
Figura N1

Envejecimiento Tiempo de Vida

a) Fallas iniciales: esta etapa se caracteriza por tener una elevada tasa de fallas que desciende rpidamente con el tiempo. Estas fallas pueden deberse a diferentes razones como equipos defectuosos, instalaciones incorrectas, errores de diseo del equipo, desconocimiento del equipo por parte de los operadores o desconocimiento del procedimiento adecuado. b) Fallas normales: etapa con una tasa de errores menor y constante. Las fallas no se producen debido a causas inherentes al equipo, sino por causas aleatorias externas. Estas causas pueden ser accidentes fortuitos, mala operacin, condiciones inadecuadas u otros. c) Fallas de desgaste: etapa caracterizada por una tasa de desperfectos rpidamente creciente. Las fallas se producen por desgaste natural del equipo debido al transcurso del tiempo: cumple su vida til como activo. Pocos son los modelos de confiabilidad que se han desarrollado para hacer estimaciones de confiabilidad, quiz los ms clsicos sean los desarrollados para radio propagacin, en que un sistema de radio enlace puede deteriorarse, en cuanto a una variabilidad de la atenuacin en el medio de propagacin, por condiciones atmosfricas, lo que se conoce como desvanecimiento (fading) y modelos de probabilidad de desvanecimiento de Rayleigh, como as tambin la probabilidad de atenuacin por lluvia con otros modelos predictivos.

4|

Si se considera que el tiempo hasta que se presente una falla es una variable aleatoria X, que puede tomar cualquier valor real T entre 0 e . Siendo F(t) la funcin de distribucin y f(t) la funcin de densidad de X, se tiene que: f.1
donde F(0)

= 0 y F() = 1

F(t) corresponde a la probabilidad de que el dispositivo falle antes o en el instante t (X < t). La probabilidad complementaria corresponde a la probabilidad de que el fallo se produzca despus de t y es la funcin de confiabilidad R(t). Se supone que inicialmente el dispositivo funciona correctamente, por tanto, R(0) = 1 y que cuando el tiempo tiende a infinito, la probabilidad de funcionamiento es nula. Si tenemos un dispositivo que est funcionando correctamente en un instante de tiempo determinado t, la probabilidad de que falle en t + t es una probabilidad condicionada que se expresa: f.2 La tasa media de fallo en el intervalo (t , t + t) queda definida como Z(t, t) y se obtiene dividiendo el valor anterior por la longitud del intervalo: f.3

El lmite de Z(t + t), cuando t tiende a cero, es la tasa instantnea de falla o tasa de falla en t:

f.4 que indica que la tasa de fallas es la densidad de probabilidad de falla en t condicionada a no haber fallado antes de t. La confiabilidad de un sistema se puede calcular a partir de su tasa de fallas. Si suponemos que el sistema falla, siguiendo una distribucin exponencial, la tasa de fallas para un instante t es una constante denominada .

5|

As, en general, la Funcin de Confiabilidad Fiabilidad es del tipo:


R(t) = exp [ - t (t) dt ]

f.5

es su Distribucin de Probabilidades y = (independiente de t)= tasa de fallas por unidad de tiempo (tpicamente por miles o millones de horas de funcionamiento), o tambin, la expresin conocida como la ecuacin de Lusser, que es la forma ms simple de estimar, como una distribucin exponencial, para describir fallas aleatorias: f.6

R=e- (

= e- (/) = e- N

donde, = 1/ = MTBF (Tiempo Medio entre Fallas), y T es el tiempo de observacin o tiempo de misin (1 semana, 1 mes, 1 ao, o lo deseado) y N es el N de fallas durante el tiempo de observacin T. Notar que este intervalo de tiempo, si bien es tericamente discrecional, en situaciones practicas debe ser un tiempo suficientemente largo para que tenga un buen sentido estadstico, es recomendable 1 ao. Entonces, la Funcin de Confiabilidad R(T) es la probabilidad que un sistema, puesto en servicio en el instante t = 0, todava se encuentre en funcionamiento en el tiempo T. Si se grafica, es posible observar que R baja constantemente al aumentar el tiempo. Efecto del mantenimiento en un tiempo dado es elevar nuevamente la funcin de confiabilidad. Las curvas de confiabilidad son del tipo que se muestran en la figura:

Figura N2 En forma ms generalizada, se ha propuesto la formula de Weibull,

R=e

- (/)^

f.7

6|

donde, = 1/ = MTBF es la caracterstica tasa de edad-a-falla (ello supone un MTBF distinto segn la edad del sistema) y el factor Weibull de forma (pendiente), el que define el modo y etapa de la vida del sistema, as si: < 1, implica el modo de mortalidad infantil, = 1, corresponde al modo posibilidad de falla, y > 1, modo de mayor certeza de falla

Figura N3 En la figura N 3 se grafica para varios valores del parmetro , valores que dicen relacin con las tres fases de la curva de la baera, que es el resultado de un grfico compuesto. En la mayor parte de los casos de anlisis, puede bastar comenzar con el modelo exponencial simple, y obtener resultados suficientemente vlidos para modelar la confiabilidad de un sistema. Notar que si el valor del MTBF es largo con relacin al tiempo de misin o operatividad, entonces se tendr una buena condicin de confiabilidad, con pocas posibilidades de falla, por el contrario si ste es corto o similar a dicho intervalo, entonces una alta posibilidad de falla se prev, siendo una situacin no confiable.

Figura N4 En la figura se grafica la funcin confiabilidad para MTBF = 50.000 (R1), 150.000 (R2) y 300.000 (R3) y = 1

1 0000 ,2 0 0 0 1 0000 ,0 0 0 0

7|

En situaciones reales, los sistemas o redes son complejos, es decir, constan de mltiples componentes constitutivos, en cuyos casos para determinar su confiabilidad parece evidente, que ella depende de la confiabilidad de cada una de sus partes, y stas pueden ser un punto simple de fallas, o ser un elemento con redundancia. Para su anlisis de considera un diagrama en bloques como el de la figura N5, as a modo de ejemplo, ste es un sistema con puntos simples de falla y la confiabilidad total deber ser menor que la del eslabn ms dbil.
FUENTE PODER
MTBF=50.000

DISCO
MTBF=200.000

CPU
MTBF=150.000

Figura N5 Calculando la confiabilidad para 10.000 Hrs desde la ecuacin f.6, se tiene individualmente un R(t) = R(10.000) = 0,8187; 0,9512 y 0,9355 respectivamente, y para el sistema total, se calcula como la probabilidad de que uno u otro de los elementos falle: RT(t) = P[E1 E2 E3] RT(t) = P(E1) * P(E2) * P(E3) RT(t) = R1 * R2 * R3 En general, para N componentes,

RT(t) = Para el caso analizado: RT(t) = RFP (t) * RD(t) * RCPU(t) = 0.7286

f.8

Esto es, existe la probabilidad de un 72,86% de que el sistema no caiga en falla antes de las 10.000 Hrs. Y si se calcula lo mismo para 50.000 Hrs, esta probabilidad cae a un 20,53%, lo que evidentemente tiene lgica, pues a mas tiempo un mayor envejecimiento, y por lo tanto es mas probable que algn elemento falle. De este mismo ejemplo, el componente menos confiable es la fuente de poder, en consecuencia, para mejorar la confiabilidad del sistema, se puede contemplar colocar redundancia de sta, tal como se muestra en la figura N 6.

8|

Figura N6 En este caso la confiabilidad total del sistema, tiene un clculo ms complejo, ya que primero deber calcularse la confiabilidad del subsistema redundante, como la probabilidad de que fallen simultneamente uno y otro dispositivo:
R FPR(10000) =1- [1- RFP (t) )*(1- RFP(t)] = 0.9672

Y para el sistema completo con un elemento con redundancia para la confiabilidad de las 10.000 Hrs. es: RT(t) = RFPR (t) * RD(t) * RCPU(t) = 0.8606

FUENTE PODER

f.9

Logrndose una mejor confiabilidad con respecto al 72,86% del sistema sin renuncia de fuente de poder. Lo mismo para 50.000 Hrs sube desde 20,53% a 33,51% su confiabilidad. Si se desease una confiabilidad an mayor, deber aumentar los subsistemas redundantes.

MTBF=50.000

FUENTE
9|

Teora de la Disponibilidad
Si bien se puede usar estimadores probabilsticos para la disponibilidad, es ms comn el acercamiento a travs de una medida estadstica en un intervalo de tiempo y bajo condiciones de medicin objetivas por elemento de red o servicio. El intervalo de tiempo debiera ser el mes-calendario y el periodo de 12 meses previos (ao mvil), de modo que permita ver la tendencia del sistema y as poder tomar medidas operacionales. La disponibilidad tambin se le conoce como el uptime y la condicin antnima es la Indisponibilidad (Outage). Se define un Tiempo de funcionamiento MT(R), el cual corresponde al tiempo en que la confiabilidad del sistema cae por debajo de un nivel R dado. Se utiliza en sistemas no reparables o en sistemas que tienen un tiempo fijo entre sucesivos mantenimientos. La relacin entre R(t) y MT(R) viene dada por la ecuacin: R(MT(R)) = R y MT(R(t)) = t Suponiendo tambin que el dispositivo tiene una distribucin de fallas del tipo exponencial, con tasa de fallas , y es posible calcular el tiempo de funcionamiento como: MT(R) = t en el momento en que R(t) = R, se tiene:

R(t ) = e

= R

Aplicando logaritmos para obtener t en funcin de :

f.10 La Disponibilidad A(t) de un componente o sistema, es la probabilidad de que est funcionando en un instante de tiempo t determinado. A(t) se refiere a la disponibilidad instantnea, que en el caso de un sistema no reparable coincide con la confiabilidad. Si por el contrario el sistema se puede reparar, ste puede fallar antes de t, pero puede ser reparado, de modo que en t est funcionando correctamente. Para este tipo de sistemas se cumple que A(t) > R(t). Definiendo el coeficiente de disponibilidad media en el intervalo (t1,t2) , como el valor medio de la disponibilidad instantanea, esto es: f.11 Y si se expresa el coeficiente de disponibilidad asinttica o estabilizada, entonces se est hablando del lmite de la funcin de disponibilidad instantnea, cuando t, entonces:

En cuyo caso, la disponibilidad viene a ser

10|

f.12

Si son distribuciones exponenciales para las variables aleatorias de que NO falle el sistema con tasa o intensidad de fallas , y que con tasa como tasa de mantenibilidad o recuperacin, entonces el coeficiente de disponibilidad asinttica es:
A = / ( +)

f.13

Para modelar el sistema, se recurre a un diagrama de estados binario, un estado en condicin de operatividad normal y otro en situacin de falla. El sistema puede estar en uno de los dos estados, y transita de uno a otro con una frecuencia media fm= 1/Tm , siendo Tm el ciclo medio operacional. La probabilidad de transicin desde el estado de operacin a fuera de servicio es 1/m, mientras que a la inversa, es 1/r. En la figura N 7 se muestra grficamente.

Diagrama de Estados

En Operacin

m1

Ciclo medio T MTBF m2 m3

_ 1/r

_ 1/m En falla r1 T1 T2 r2 T3 r3

Figura N 7

Se definen los siguientes parmetros tpicos, que caracterizan tpicamente el comportamiento en estado estacionario del sistema: MTTF (Mean Time To Failure), MTTR (Mean Time To Repair) y MTBF (Mean Time Between Failure), siendo _ _ MTTF = m MTTR = r MTBF = MTTF + MTTR Dados los estados en operacin y en falla, se define la Disponibilidad (Availability) e Indisponibilidad (Outage Unavailability), que corresponde a: A + U = 1, donde, _ _ _ _ _ _ _ _
= MTTF / (MTTF + MTTR) = MTTR / (MTTF +MTTR)

A = m / T = m/(m + r) U = r / T = r / (m + r)

f.14 f.15 que MTTR << MTTF,

dado suele usarse indistintamente, MTTF = MTBF

Definiciones:

11|

Tiempo Medio a la Falla {MTTF}, es el tiempo medio que transcurre hasta que tiene lugar el primer fallo en un conjunto de sistemas idnticos libres de fallo.

f.16
0

MTTF =

R(t) dt

Tiempo Medio de Reparacin {MTTR}, es el tiempo medio que se tarda en reparar o restaurar un sistema o equipo que ha fallado. Como este parmetro es difcil de medir, normalmente se estima desde la experiencia o desde la estadstica histrica, considerando los tiempos de traslado, diagnstico y ubicacin de repuestos para poder calcular la capacidad de reparacin. Tiempo Medio entre Fallas {MTBF}, corresponde al tiempo medio entre fallas consecutivas en un sistema reparable. Este parmetro vale aproximadamente la suma de los dos anteriores. f.17 MTBF = MTTR + MTTF Recordemos que se podr estimar la prediccin de la confiabilidad a partir del MTBF mediante la ley o ecuacin de Lusser {f.6}. As, como ejemplo, la probabilidad de que un equipo trabaje sin fallar por un tiempo T, si el MTBF es 250.000Hrs y la expectativa del tiempo de operacin es de 5 aos (43.800 Hrs), entonces, R(T) = e--(T/MTBF) = e--(43800/250000) = 0,8393 Esto significa que con un 83,93% de probabilidad el equipo no falle antes de 5 aos. El parmetro base del MTBF lo entregan en general los fabricantes, quienes hacen pruebas de laboratorio, con envejecimiento acelerado y condiciones operacionales de simulacin de las condiciones ambientales de humedad y temperatura. Cuando existe medicin estadstica operacional, esta cifra podr deducirse de mediciones prcticas. Hay casos en que en vez del MTBF, se define el FIT Hrs (Failure in Time) = 109 / MTBF, unidad para expresarla tasa de fallas esperada de elementos electrnicos, y que viene a ser 1 FIT igual a 1 falla por 109 horas (1 vez en alrededor de 114.155 aos). Para la evaluacin del MTBF, considerando el funcionamiento de un equipo o elemento de red durante un determinado intervalo T, en el que ocurren n ( n>1) defectos o eventos, el tiempo medio entre fallas es definido como: f.18
MTBF = T/(n-1)

En general no existe un solo equipo o elemento de red, por lo que la expresin se modifica a: f.19 La disponibilidad (Availability) puede determinarse simplemente como el porcentaje de tiempo con relacin a un determinado periodo de
MTBF = N * T/(n-1)

12|

observacin en que un elemento, red o sistema, permanece en condiciones operacionales de cursar trfico. Esta disponibilidad se puede calcular como:
A = (1 - Ti/To) 100%

f.20

Donde: To = periodo de observacin considerado Ti = sumatoria de los tiempos de interrupcin en el periodo de observacin.

Disponibilidad multicomponentes
En el mundo real, los sistemas, las redes (mltiples nodos), los equipos estn constituidos por mltiples componentes (tarjetas), como ya se insinu en los casos de los ejemplos de las figuras N 5 y 6. Sin embargo, en estos casos cada componente es parte funcional del total del equipo o sistema. Existen otras situaciones en que se desea determinar una disponibilidad de sistemas o redes, tales como pueden ser, un mltiplex en una ruta que tiene mltiples canales o circuitos entre dos puntos, en consecuencia su disponibilidad debe analizarse como la contribucin de cada uno de ellos a la disponibilidad total del sistema. Hay mas de una opcin para definir la manera de calcular, debido a que los conceptos de confiabilidad y disponibilidad dicen relacin a la operatividad de UN equipo, sistema o mquina, Sin embargo, para redes multinodos o para equipos, en que aunque se presenten fallas, no significa que se pierda la funcionalidad total de sus servicios, ese es el caso de un multiplex, una central o un router o un conjunto de ellos como parte de nodos interconectados de red. Pueden fallar algunas puertas de acceso y no la totalidad, puede fallar un nodo, pero no toda la red. En consecuencia, se definen criterios de calculo que toman en cuenta la capacidad total instalada y la parcialidad de las fallas. Hay operadores que definen la indesponibilidad del sistema completo cuando se presneta la indicponibilidad de un porcentaje de sus servicios (p. Ej. Un 30% de sus rutas, ancho de banda o puertas).

Figura N 8 En el diagrama de la figura N8 se muestra un sistema que consta de 21 elementos individuales e independientes, en cuanto a su operatividad, esto es que la falla de uno de

Eq N Eventos >>> 1 1 1 1
13|

ellos, no afecta la correcta funcionalidad del resto. Es evidente que la disponibilidad de cada uno de los 5 elementos fallados es aproximadamente 99,9% (3 nueves) y del resto es de un 100%. Una primera opcin para determinar la disponibilidad del conjunto de elementos componentes de este sistema, puede ser la disponibilidad promedio:
A = (1 - Tim/To) 100 %

f.21

Tim = ( Donde:

tn) / N

Tim = tiempo medio de interrupcin de los elementos considerados N = nmero de elementos considerados N tn = sumatoria de los tiempos de interrupcin del elemento 1 al N As, para este caso el resultado es una disponibilidad de 99,992% (4 nueves) para la totalidad del sistema y no 99,84% si se calculase de acuerdo a f.20. Una segunda opcin de calculo es:
A = ((Tos - Ti) / Tos )100%

f.22

Tos = To* N, periodo de observacin considerado para todos los elementos (Tos - NTi) = tiempo total sin interrupcin de servicio en el periodo de observacin. En cuyo caso da una cifra levemente diferente de 99,907% para la disponibilidad del mismo sistema. Como tercera opcin de calculo, se puede calcular como:
A= (
Nd

Td +

Ni

Td -

Ni

Ti) / Tos

f.23 siendo,
Nd Ni

Td : total de tiempos sin falla (Td) de equipos qu no fallaron (Nd) Td : total de tiempos sin falla (Td) de quipos que fallaron (Ni) Ni Ti : total de tiempos con fallas (Ti) de equipos que fallaron (Ni)

resultando en este caso una disponibilidad del sistema de 99,954%. En todos estos casos se toma en cuenta la base total instalada, cuando fallan slo algunos de los componentes del conjunto. De las tres opciones se recomienda la primera de ellas, por ser la ms cannica. Es importante aclarar que conceptualmente la Confiabilidad NO ES IGUAL a la Disponibilidad, la primera nos responde a en cunto tiempo aparecer una falla?, ya que dice relacin al tiempo libre de fallas y el segundo concepto dice relacin con cmo se

14|

utiliza o aprovecha operacionalmente en el tiempo, un dispositivo o sistema: cunto tiempo est utilizable?. Ambos conceptos son iguales en el mundo ideal en que no hay fallas ni intervalos de tiempo fuera de servicio. Siendo, A(t) la funcin de probabilidad de disponibilidad y U(t) la funcin de probabilidad de fallar, stas son funciones complementarias del sistema, ya que la suma de sus valores en un determinado instante t es igual a 1, es decir, de certeza de que el sistema estar en uno de los dos estados posibles.

15|

Confiabilidad, Disponibilidad y Mantenibilidad


Como ya se ha mencionado, confiabilidad y disponibilidad van de la mano de la mantenibilidad, la cual es el proceso de recuperacin desde un estado de falla y extensin o aseguramiento de la vida til del activo.

Figura N9 El mantenimiento se puede clasificar en distintos tipos, segn sus objetivos. Desde el punto de vista de la confiabilidad, sta tiene por objeto recuperar o asegurar la operatividad del sistema, esto se consigue en forma preventiva o correctiva. Preventivamente, conociendo las perspectivas de probabilidad de falla, a medida que se acerca el instante de tiempo predicho por las curvas de confiabilidad, debiera aplicarse el mantenimiento para no caer imprevistamente en una indisponibilidad. Obviamente un mantenimiento correctivo, que corrige una imperfeccin, que ha llevado a un equipo o sistema a no prestar adecuadamente los servicios esperados de l, est recuperando su nueva puesta en servicio, es decir, es un nuevo to para las curvas de confiabilidad, pero con nueva pendiente o factor Weibull, debido a que seguramente persistirn algunas condiciones de envejecimiento. Desde el punto de vista de las estadsticas de disponibilidad, se excluyen los eventos de interrupcin programada por mantenimiento, ya que una intervencin bien programada y planificada, evitar la interrupcin de servicios, o bien, podr acordar con los usuarios un tiempo de interrupcin controlado. La mantenibilidad se define tambin como la probabilidad de que un equipo que ha fallado pueda ser reparado dentro de un perodo de tiempo dado. Existen equipos cuya operacin es continua a lo largo del tiempo, por lo tanto, si el equipo est fuera de servicio es la falla, pero si el proceso de operacin indica que el equipo est sujeto a un intervalo de tiempo prefijado (o eventual, como un grupo electrgeno de respaldo) de funcionamiento y de descanso, entonces, en estos intervalos, cuando el sistema est apagado, se le puede efectuar el mantenimiento preventivo o programado y se considera que falla slo cuando se requiere de su servicio y no funciona. La mantenibilidad se interpreta etimolgicamente como la accin de mantener y conservar los sistemas. Cuando se habla de sistemas continuos, una accin es el trabajo efectuado para corregir o reparar una falla. Generalizando, mantenimiento es el conjunto de todas las acciones que tienden a reponer las condiciones operativas iniciales del sistema, el mantenimiento aumenta la disponibilidad del sistema, pero requiere accesibilidad del sistema para permitir el

16|

mantenimiento. En el lenguaje comn se usa indistintamentamente el trmino mantenimiento o mantencin. La Posibilidad de Mantenimiento, es la aptitud de un dispositivo, en especificadas de uso, a ser conservado o repuesto en un estado, en el efectuar las funciones requeridas, cuando el mantenimiento se efecta en preestablecidas y usando los procedimientos y medios descritos. Se mide tasa de reparabilidad .
MTTR = 1 / f.29

condiciones cual pueda condiciones mediante la

Mantencin Centrada en Confiabilidad = RCM


Otro concepto y estrategia que se ha incorporado con relacin al mantenimiento es el que se conoce como RCM (Reliability Centered Maintenance) o Mantenimiento Centrado en la Confiabilidad. Esta metodologa se origin en la industria aeronutica y dice relacin con una estrategia diferente de planificar el mantenimiento, su relacin con el aseguramiento de los activos, toma de conciencia en qu, cundo y cmo se debe realizar las acciones de mantenimiento, con el objetivo de controlar los costos, para enfocarse en las funciones ms importantes de los sistemas, y evitando o quitando acciones de mantenimiento que no son estrictamente necesarias. Se mencion previamente que el mantenimiento recuperaba las proyecciones de confiabilidad, pero ello implica tener absoluta claridad en conocer el estado en que se encuentra el activo a intervenir u a qu se requiere la recuperacin, para que l cumpla con las funciones que se espera pueda desarrollar. Se dice que el proceso CRM formula algunas preguntas antes de intervenir: hay un entendimiento de que la gran mayora de los fallas no estn necesariamente vinculadas a la edad de los activos? Recordar que el modelo de confiabilidad se basa, en que una accin de mantencin obedece a un modelo "sin memoria" exponencial de distribucin de probabilidad, es decir, el cual se reinicia como si fuese To. es necesario cambiar los esfuerzos para predecir la esperanza de vida del activo, a tratar de gestionar el proceso de fallas? existe una comprensin de la diferencia entre los requisitos de un activo, desde la perspectiva del usuario, y el diseo y la fiabilidad de los mismos al proyectarlos?

se comprende cabalmente la importancia de la gestin de activos en su condicin operacional? a menudo denominada condicin de supervisin, de mantenimiento y condicin de mantenimiento predictivo. se ha vinculado los niveles tolerables de riesgo con el desarrollo de estrategias de mantenimiento? se entienden las cuatro tareas bsicas de mantenimiento de rutina? RCM ofrece cuatro opciones entre las estrategias de gestin del riesgo:

condicin de las tareas de mantenimiento, restauracin programada o descartar las tareas de mantenimiento,

17|

tareas de mantenimiento como bsqueda de potenciales fallas y cambios a tiempo en el sistema, cambios a un diseo de hardware, a las operaciones, u otras situaciones.

Un buen modelo analtico de confiabilidad y disponibilidad, puede ser til para condicionar contratos para tareas de externalizacin del mantenimiento, lo mismo que para compromisos con los clientes. Existen estudios en que se procura demostrar que una buena mtrica de los resultados de la mantenibilidad llevan a una reduccin de costos en contratistas. La mantenibilidad no es slo cuestin de calidad o de costos, sino tambin de seguridad, cuando se trata por ejemplo, de maquinas de transporte o de maquinas de salud. Los riesgos en que puede incurrirse por una mantenibilidad mal planificada pueden costar vidas, ya sea por accidentes debidos a fallas mecnicas, o por no disponer de buenos diagnsticos en instituciones de salud, casos en que pudieron evitarse si existe una buena planificacin del mantenimiento. Asegurar la confiabilidad de un equipo o sistema, por lo general va unida a la redundancia en espacio y tiempo, es decir, que se opere desde sitios diferentes y alejados entre s y que funcionen simultneamente e indistintamente para ejercer la funcin para la cual estan destinados. Asegurar los niveles de confiabilidad que hoy son expectativa, del tipo 4 nueves (99,99% = indisponibilidad de 52 minutos/ao) o de 5 nueves (99,999% = indisponibilidad de 5 minutos/ao), los que se exigen tan fcilmente a la O&M de redes y servicios, requerira excesivos costos de implementacin en mejoras en instalaciones y complejos refuerzos en recursos humanos y de repuestos. Adicionalmente, con las mejoras tecnolgicas, de remotizacin de la gestin y configuracin, los automatismos de redundancias, no resuelven el hecho de que la intervencin de recursos humanos calificados para reparar un desperfecto, los que siempre consumen mucho tiempo, en comparacin a las escalas de tiempo que significa la disponibilidad esperada. Por todo lo anterior, debe existir una tendencia al mantenimiento proactivo que trate de evitar la falla.

Tipos de Mantenimiento
Siempre que se formaliza el estudio de alguna rea del conocimiento, se intentan clasificaciones, as se encuentra una taxonoma del mantenimiento o mantencin, segn se puede ver en el diagrama de la prxima figura.

Mantencin
Mantencin post falla Mantencin Correctiva Mantencin Proactiva Mantencin pre falla

Mantencin Preventiva
Figura N10

Mantencin Predictiva

Mantencin Proactiva

18|

Estas formas de mantenimiento, sin duda, son una orientacin de clasificacin segn su oportunidad en el tiempo, la mantencin preventiva es sistemtica y programada; la predictiva est centrada en la condicin de operatividad del elemento, mientras la mantencin proactiva est para evitar la aparicin o recurrencia de las fallas, y la mantencin correctiva viene luego de una falla, y es la mas comunmente ejercida por razones obvias, y a la vez la que exige un nivel de estrs mayor. Mantenimiento correctivo: tipo tradicional, es la accin de mantenimiento (reparacin) que se efecta despus de la aparicin de la falla. El tiempo de reparacin puede ser largo porque est ligado a la individualizacin y diagnstico de la falla. Afecta a este tiempo tambin la existencia de repuestos insitu, como as los tiempos de traslado, sobre todo en telecomunicaciones, en que existe una gran dispersin georgrfica de las instalaciones. Con base al conocimiento de lamda (la tasa de fallas), puede realizarse un dimensionamiento del stock de repuestos de almacn (s lamda es elevado se necesitan muchos repuestos). El diagnstico es un conjunto de tcnicas aptas para evaluar el estado de un sistema y tambin prever que pueda surgir la falla. Es la etapa crtica para la restitucin del sistema fallado. Requiere de personal con mucha experiencia, con habilidades de deduccin, rapidez de interrelacionar experiencias anteriosres y toma de decisiones acertadas. Es til predisponer de tcnicas diagnsticas de falla para reduce tiempos y costos de mantenimiento, pero agrega costos de sensores, transductores, sistemas de supervisn y gestin remota de las configuraciones, y software de sistemas expertos, que ayudan al auto diagnosis (redes neuronales, tests estadsticos, etc.). Mantenimiento preventivo: el componente es sustituido antes de que falle, cuando se prev que est entrando en periodo de fallas por desgaste. La accin de mantenimiento es efectuada en tiempos prefijados (time-based maintenance), se aprovechan los momentos en los que no se requiere la disponibilidad del sistema, su tiempo de activacin es de duracin inferior, respecto del mantenimiento correctivo. La disponibilidad crece, a condicin de que se logre, con un buen control de calidad, utilizar para la sustitucin dispositivos con tasa de falla constante o estable (es decir privados de fallas infantiles). En electrnica de telecomunicaciones es complejo ejercer este tipo de mantencin pues en envejecimeinto o desgaste no es tan manifiesto como en dispositivos mecnicos. La definicin de los objetivos del mantenimiento, debiera definirse en la etapa de proyecto, as como la eleccin del tipo de mantenimiento (correctivo o preventivo) para establecer la condicin ptima para alcanzar los niveles de confiabilidad preestablecida en el diseo. Es necesario poder determinar los tiempos requeridos en horas hombre, para cada una de las fases de mantenimiento, lo mismo que el desarrollo de la documentacin tcnica que incluya el plan logstico de intervencin. Con el tiempo, la estrategia de mantenimiento ha evolucionado, se propende al mnimo costo de reparacin, mxima disponibilidad operativa, mnimo costo de usuario. Se pasa de mantenimiento basado en tiempo, a mantenimiento basado en condicin, esto es en prevenir, mas que en reparar.

19|

Los tiempos de reparacin de un equipo caracterizan la mantenibilidad y, el tiempo promedio para reparar (MTTR) se define como el total de horas inoperables dividido entre el nmero de acciones de mantenimiento. Los tiempos para reparar dependen generalmente de la duracin de las actividades de:

El enfriamiento del equipo (no aplica en algunos casos) Administrativas (si las hay, como obtencin de permisos de acceso o de
viticos) Traslados al sitio siniestrado (si corresponde) Ubicacin y diagnstico de la falla Espera de los materiales y repuestos Reemplazo de componentes daados Calentamiento del equipo (no aplica en algunos casos) Reinicio, reconfiguracin

Los tiempos requeridos para el enfriamiento, el calentamiento y los trmites administrativos son, generalmente, constantes pero la sumatoria de los tiempos para la ubicacin de la falla, espera de los repuestos y reemplazo de los componentes, tienen un comportamiento aleatorio sujeto a toda la estructura logstica, al entrenamiento del personal, al tipo de falla, etc. Sin embargo, el tiempo de duracin de la falla es la sumatoria de los tiempos parciales antes mencionados. En algunos sistemas hay un tiempo implcito en el intervalo de falla, el cual incrementa la duracin de la misma y se define como tiempo muerto, en donde aun cuando se ha presentado la falla no hay conocimiento de ella por falta de reporte; por lo general, ocurre con equipos que se encuentran ubicados en lugares distantes o en zonas aisladas de los grupos de trabajo.

Causas de fallas
Enumerar causas nunca va a ser exhaustivo, por la diversidad de tecnologas y de situaciones. Slo a modo de ejemplo se comentan algunos casos. En transformadores de sistemas de distribucin elctrica, la falla es en general una prdida de aislamiento, sobrecalentamiento, sobre tensiones, envejecimiento (trmico, elctrico, mecnico, ambiental), y tambin proyecto o construccin inadecuados. Los interruptores, fallan por problemas de perdida de aislamiento, sobre tensiones, sobrecalentamiento, envejecimiento, malfuncionamiento del rel de control, o problemas de circuitos auxiliares, y por problemas mecnicos, como rotura de piezas en movimiento o estticas. Las lneas areas de media tensin, fallan componentes como terminales, tensores, juntas, aisladores, postes. Los cables, ya sean de energa o de telecomunicaciones, sufren de rotura mecnica en gran proporcin, por situaciones exgenas a la operacin, por intervenciones de terceros. Aunque tambin en este caso hay deterioro y envejecimiento, como condiciones adversas ambientales. Para los aisladores es la descarga superficial, rotura mecnica, contaminacin, envejecimiento (polimricos) y actos vandlicos.
20|

En dispositivos mecnicos, grupos generadores, bancos de batera existe un desgaste y envejecimiento inherente, por lo tanto la prevencin es absolutamente necesaria. Lo mismo en partes como antenas y torres, que estn sujetas a las condiciones ambientales. Si bien en la electrnica, es difcil predecir probabilidades de falla y la mantenibilidad preventiva no es totalmente efectiva, pero si en algunos aspectos que s los afectan, en especial a las condiciones ambientales. Tambin aplican bien algunas acciones proactivas operacionales, ya que se puede alcanzar una indisponibilidad por falta de ancho de banda o falta de capacidad de procesamiento para cursar y procesar el trfico demandante. Una de las principales preocupaciones para asegurar una buena confiabilidad de los equipos de telecomunicaciones, debe ser el tener bajo control las condiciones ambientales de los recintos de instalacin. Los equipos disipan altas temperaturas que de no correctamente evacuadas, por malas condiciones de filtros, insuficiente separacin de racks y inadecuadas condiciones de enfriamiento, llevan a un calentamiento del equipo, mas all de las correctas condiciones operacionales de la circuitera electrnica.

CONSUMO DE POTENCIA

FLUJO AIRE

ESPACI O

Figura N11 Para terminar con estos conceptos de mantenibilidad, digamos sta est estrechamente vinculada con los conceptos de calidad, de mejora continua, de kaizen, de anlisis de pareto, arboles de causa efecto de Ichikawa, temas que se recomienda investigar.

21|

Criterios de Riesgo y Costos


Analizado desde la perspectiva de los costos, los gastos (OPEX) propios de un mantenimiento preventivo, redundan en un beneficio por evitar indisponibilidades que incurran en el no cumplimiento de los SLA o en prdidas de trfico.

Costo

Costo Total

CAPEX+OPEX Prdidas por Interrupcin Confiabilidad %

90

ptimo

100

Figura N12 Un anlisis probabilidades de disponibilidad (probabilidades de falla y probabilidad del tiempo de recuperacin) asociados a costos, permitir definir estratgias de mantenimiento, como puede ser la oportunidad de realizar un mantenimiento correctivo, preventivo o de diagnstico. Desde estos datos se podr priorizar acciones e inversiones. Como primera opcin un anlisis de Pareto podr ser til para dedicar mayores esfuerzos en aquellos problemas que tienen ms relevancia, detectando los pocos vitales de los muchos triviales, ya que por lo general, el 80% de los resultados totales se originan en el 20% de los elementos. De la figura N12 se puede deducir que no cosa de invertir indescriminadamente, ni de esperar que la confiabilidad de las redes y sistemas sea a toda instancia de 5 nueves. La indisponibilidad redunda en un dao econmico para el usuario final, lo mismo que para el operador. Si la confiabilidad de los componentes no varia, el dao econmico crece al crecer la complejidad del sistema. El dao econmico crece al crecer la tasa de falla de cada uno de los componentes simples. Nuevamente se insiste en que las acciones sobre el proyecto, pueden mximizar la confiabilidad de un producto industrial, de un sistema, o de una red, en esta fase se alcanza la confiabilidad intrnseca. En las fases sucesivas del ciclo de vida, R disminuye, como consecuencia de apartarse del proyecto inicial durante la produccin u operacin, o por la puesta en servicio, o por el envejecimiento durante el funcionamiento. El proyecto debe prever todos los aspectos de confiabilidad, con referencia a las prestaciones requeridas en servicio. Para dispositivos reparables (disponibilidad ms que confiabilidad) es necesario tomar en consideracin, sobre el proyecto, tambin todas las acciones que favorecern el mantenimiento del producto, sistema o red que se activa para prestar servicios.

22|

La estructura de costos, en trminos generales considera como Costo global = Costo intervencin + Costo de falla + Costo almacenamiento + Costo sobre-intervencin. El Costo Intervencin (Ci) (por unidad de tiempo = ci) rene la Mano de obra, los Materiales fungibles, y los Repuestos. El Costo de Falla (Cf) (por unidad de tiempo = cf), tiene los Ingresos no percibidos y los Gastos extras de produccin, y la Materia prima no utilizada El Costo de almacenamiento Ca (por unidad de tiempo = ca), toma en cuenta, el Inters financiero por capital detenido, la Mano de obra dedicada a gestin e inventario, los Costos de explotacin de edificio (energa, mantencin), la Depreciacin comercial, etc. Por ltimo, El Costo de sobre-intervencin, considera los Costo de equipos con mayores costos iniciales, pero menor costo de ciclo de vida (menores costos de mantenimiento, almacenamiento, vida til mayor, etc).

Anlisis FMECA
Otra til tcnica para la eliminacin de las caractersticas de diseo deficientes es el anlisis de los modos y efectos de fallas (FMEA); o anlisis de modos de fallas y efectos crticos (FMECA). La intencin es identificar las reas o ensambles o partes del todo que es ms probable que den lugar a fallas del conjunto. El FMEA define la funcin como la tarea que realiza un componente --por ejemplo, la funcin de una vlvula es abrir y cerrar-- y los modos de falla son las formas en las que el componente puede fallar. La vlvula fallar en la apertura si se rompe su resorte, pero tambin puede tropezar en su gua o mantenerse en posicin de abierta por la leva, debido a una rotura en la correa de rbol de levas. La tcnica consiste en evaluar tres aspectos del sistema y su operacin: Condiciones anticipadas de operacin, y el fallo ms probable. Efecto de fallo en el rendimiento. Severidad del fallo en el mecanismo.

La probabilidad de fallos se evala generalmente en una escala de 1 a 10, con la criticidad aumentando con el valor del nmero. Esta tcnica es til para evaluar soluciones alternativas a un problema pero no es fcil de usar con precisin en nuevos diseos. El FMEA es til para evaluar si hay en un ensamble un nmero innecesario de componentes puesto que la interaccin de un ensamble con otro multiplicar los efectos de un fallo. Es igualmente til para analizar el producto y el equipo que se utiliza para producirlo, ayuda en la identificacin de los modos de fallo que es probable que causen problemas de uso del producto. Facilita tambin, eliminar debilidades o complicaciones excesivas del diseo, y a identificar los componentes que pueden fallar con mayor probabilidad. Puede tambin usarse eficazmente para evaluar las causas de detencin en las mquinas de produccin o en nodos de una red.

Nivel de Criticidad
Para definir nivel de criticidad, usualmente los efectos de la falla se clasifican en: I. Insignificante: el efecto sobre la confiabilidad y/o disponibilidad es mnimo.
23|

II. Menor: no afecta la seguridad, pero s la confiabililidad-disponibilidad. III. Mayor: no afecta la seguridad, pero s la confiabilidad-disponibilidad de manera importante. IV. Crtica: es afectada la seguridad El autor del Arte de Mnatener recomienda los siguientes criterios para definir el nivel de criticidad:

En una red de telecomunicaciones podr analizarse todas las situaciones de vVulnerabilidades que puedan existir y asociarlas a un nivel de criticidad. Una buena ingeniera contemplar desde los inicios de un proyecto, en sus etapa de concepcin y diseos, la confiabilidad esperada y todos los medios para alcanzarla. Si como se espera de una red de telecomunicaciones, que presta servicios fundamentales para la sociedad, una disponibilidad de 5 nueves debe anlizarse de acuerdo a los distintos criterios que se han desarrollado aqu. Un anlisis detallado desde los cimientos (componentes, sistemas y subsistemas) hasta el resultado final de la red implementada, conlleva contemplar una revisin de la arquitectura total, definir objetivos de confiabilidad, ejecutar una asignacin a las partes.

RED

DISPONIBILIDAD %

NIVEL de SISTEMAS

INDISPONIBILIDAD minutos/ao

NIVEL de CIRCUITOS (tarjetas) NIVEL de COMPONENTES

MTBF horas TASA FALLAS FITs

Figura N13

24|

Realizar una evaluacin de la arquitectura, identificar deficiencias de diseo, desarrollar los diagramas en bloque de confiabilidad (tcnica RBD) y modelos de Markov, hacer la simulaciones y obtener resultados de fallas posibles y documentarlas, as se podr reducir los costos de mantencin y reparacin, identificando previamente posibles problemas de confiabilidad antes que la red entre en operacin.
SLA OLA Efecto de Multa Prdidas de trfico

Efecto de churn

25|

Aplicaciones y Anlisis Estadstico de Eventos


De lo estudiado anteriormente, se ha visto que una red o sistema, tiene un comportamiento aleatorio en cuanto a sus estados de operacin correcta y con fallas operacionales. Cuando hay historia, se puede analizar los registros de tiempos en uno y otro estado, y desde all proyectar lo que pueda suceder en el futuro de incertidumbre operacional. Incertidumbre

OK

OUT
to t1 t2 t3 t4 t

Figura N14 qu significan las cifras??

Component MTBF MTTR Availability Downtime Input 100,000 2 99.998% 10.51 Transducer hours hours minutes/year Signal 10,000 2 99.98% 1.75 Processor hours hours hours/year Hardware Signal 2190 5 99.9962% 20 Processor hours minute minutes/year Software Output 100,000 2 99.998% 10.51 Transducer hours hours minutes/year
ver= estadstica aplicada al mantenimiento;problemtica del proceso de recoleccion y validez de datos
Estadsticas de Disponibilidad en Redes de Telecomunicaciones Base de datos Reportes Modelos de Clculo Red de cables de FOEjemplo, un cable tiene 0.01 Falla por km y por ao, si el cable mide 2 km se pueden esperar 0.02 fallas por ao, anlisis de 5 aos, el FIT=? Red de Datos Red de Transporte

Acceso de radio Pareto e ichikawa

26|

105
Ya existen algunos avances en la medicin, basndose en la base de datos de la boleta de red, la que probablemente deber mejorar en para satisfacer los requerimientos de medicin que se acuerden en definitiva para cada red.

100

480 SECTORES

Fig. 1 Ejemplo Disponibilidad

MR T T

RED WLL

95
4 , 5 4 3 , 5 3 2 , 5 2 1 , 5 1 0 , 5 0
27|

Fig. 2 Resultado mediciones red de acceso

90 85

Los elementos de red a considerar pueden ser:

E Transporte
El listado no es exhaustivo ni los valores son necesariamente los que debe definir cada responsable de red, lo que estar basado en las realidades de cada caso. Cada unidad de O&M debe contar con los procedimientos de mantenimiento, contemplando mantencin preventiva, bastante disminuida en equipamientos electrnicos, pero si fortalecida en la verificacin de los mecanismos de respaldo. Mtodos de diagnstico, procedimientos de intervencin, escalamiento, documentacin tcnico-operacional, poltica de repuestos e instrumentos, informes de desempeo de red, etc. Las fallas que inducen una indisponibilidad operacional de los servicios, son producto tanto de las fallas individuales de los componentes de red, reflejadas en el MTBF, como de las intervenciones de operacin errneas o de la habilidad de las acciones de operaciones dirigidas a la restauracin de una interrupcin y contar con los medios de diagnstico adecuados (gestores, instrumentos, herramientas, medios de accin remota, etc.) Llevar una constancia de este ndice, bajo distintas vistas, como puede ser por fabricante, o por elementos componentes de un servicio, permitir diagnosticar y dnde focalizar los esfuerzos de mantenimiento o de proveedores.

R R R R

Servicios 100%
Fig. 3 causas de Indisponibilidad

90% 80%

28|

N N

Fig. 4 Ejemplo anlisis MTBF El tipo de equipo corresponde a una lnea especfica de funcionalidad comn, como pueden ser nodos DSLAM, de ese modo podr analizar que proveedor demuestra una mejor confiabilidad. O bien, podr focalizarse la atencin en el mayor parque instalado, o investigar que est sucediendo con la lnea de equipos C que demuestra una alta tasa de fallas, pudiendo deberse a una mala instalacin o a dificultades de puesta en marcha o entrenamiento. Disponibilidad ponderada y castigada....

Como referencia hay software especializados en mediciones y anlisis de estos ndices, tal es el caso de: http://www.i-mtbf.com/ http://www.relex.com/ http://www.raytheoneagle.com/asent/index.htm http://www.reliasoft.com/BlockSim/ http://www.isograph.com/workbench.htm http://www.plant-maintenance.com/freestuff/1006.shtml

Fabricante A B C D E
29|

Confiabilidad y Disponibilidad de Servicios


Para facilitar el anlisis de cmo aplicar los conceptos de confiabilidad-disponibilidad a los servicios finales, que se desarrollan sobre una red de telecomunicaciones, debe contarse con un Modelo de Servicio. El modelo tradicional aplicado a todo servicio consiste en tres componentes de red, por cada extremo, que desde el punto de vista de probabilidades, el valor compuesto de la confiabilidad ser el producto de las probabilidades de cada componente. En cambio los ndices MTBF y MTTR son variables independientes. Los tres componentes obedecen a una taxonoma que permite ordenar y organizar estos componentes en redes de Acceso, Servicios y Transporte.

Fig. 5 Modelo general de los Servicios En redes de Acceso podr existir dos componentes de acceso, cuando se trate de servicios que contemplan un nodo de acceso de datos TDM o xDSL. En el peor de los casos, las componentes de la cadena de servicio de responsabilidad de ENTEL pueden llegar a ser 13 de extremo a extremo. Si se desea precisar, puede agregarse la complejidad de considerar el nmero de nodos de conmutacin que contempla una red de servicios, sin embargo, se recomienda que en una primera aproximacin al establecimiento de criterios de medicin, se tome el modelo de dos nodos.

C ne lie t

Los ndices de Disponibilidad y MTTR son los mas significativos en los SLA de los servicios y para llevarlos a cmo se reflejan en cada servicio especfico, debe aplicarse a cada modelo de servicio una matrz de con elementos componentes de red que intervienen.

Eu o q ip T rm a e in l

Eu o q ip

A lic c n p a i

Disponibilidad >>
30|

Rd e In rio te r

-P B AX

Te

Si el servicio transita de extremo a extremo por nuestras redes, obviamente deben considerarse las componentes de ambos extremos. >>>>>*****<<<<<

Compromisos de disponibilidad hacia cliente


El ej. De servicios regulados de distr elctrica.... A continuacin se presentan una serie de aspectos de los clculos de disponibilidad y de compromisos en un formato de SLA para ser discutidos en la Comisin de Trabajo para determinar el Algoritmo de disponibilidad para los Contratos Internos de Calidad.

Disponibilidad de una red Multipunto


Una red de datos de tipo multipunto se puede considerar, para los efectos de su clculo de disponibilidad compromiso, topolgicamente compuesta como una red tipo estrella, donde existe un sitio central cuya importancia relativa para la interconectividad es mucho mayor que el resto de puntos sucursales. El valor de la disponibilidad mensual (expresada por el peor mes del ao), de la disponibilidad trimestral y de la disponibilidad anual slo presta valor til al momento de expresar un valor estimado de tiempo de indisponibilidad del servicio dentro de el rango de tiempo sealado. El formato de entrega del tiempo de indisponibilidad se har por cada par de puntos extremos de la red. Se entregar, adems, un valor de disponibilidad de la red en su conjunto. Para el clculo de este ltimo valor se propone la siguiente expresin

I Red = I 0 +

Bw I
i =1 N

i i

Bw
i =1

donde I representa el tiempo de indisponibilidad, tiempo de falla ( I 0 es el tiempo de indisponibilidad del sitio central e I i es el tiempo de indisponibilidad de la sucursal i). Se considera que la importancia relativa de cada sucursal corresponde a su propio ancho de banda, representado por Bwi para la sucursal i. Cabe sealar que estos tiempos de indisponibilidad son medidos a travs de la Boleta de Reclamo de Servicios. Si el perodo de medicin es T (1 mes, tres meses o 12 meses), entonces la disponibilidad en funcin del tiempo de indisponibilidad posee la expresin

D=

T I T

31|

de donde se puede derivar una expresin para la disponibilidad conjunta de la red de tipo multipunto para el perodo de tiempo considerado

DRed = D0 +

Bw D
i =1 N i

Bw
i =1

donde D0 corresponde al valor de la disponibilidad del acceso ltima milla del sitio central. El valor para Di que representa la disponibilidad de la sucursal i medida desde la sucursal hasta CNT, sin tomar en cuenta la influencia del acceso de ltima milla del sitio central, se puede estimar a partir de la expresin de disponibilidad extremo a extremo D0i (dada por la planilla)

Di =
Finalmente se puede escribir

D0i D0

DRed

1 = D0 + D0

Bw D
i =1 i

0i

Bw
i =1

Redundancia en el acceso de ltima milla


A continuacin se plantea una frmula para el clculo de la disponibilidad de un acceso de ltima milla consistente en dos o ms accesos redundantes. Se supone que la disponibilidad de los accesos viene dada por los valores D y D expresados en igual base de tiempo y condiciones similares. Por otra parte se asume que los accesos poseen la mayor independencia posible en cuanto a la ocurrencia de fallas (canalizacin independiente, terminadores de red diferentes, alimentacin de energa independiente, etc.). Entonces, la disponibilidad equivalente del acceso redundante tomado en su conjunto est expresado por

DP = D + D D D DP = D + D D D 100

o expresado en porcentaje

32|

Calidad, SLA, OLA


Un sistema podr ser evaluado en cuanto a calidad operacional como bueno s su MTBF >> MTTR. La calidad comienza desde la concepcin de un proyecto de red, debe estimarse desde sus inicios y considerarse las condiciones para alcanzarla, con sistemas de respaldo, redundancia, buena capacidad de energa y clima, repuestos, capacitacin,

Entrega de parmetros de desempeo a cliente


Entrega de la peor y de la mejor disponibilidad posible
Al considerar redundancia en los accesos de ltima milla, su disponibilidad puede mejorar todo lo que se desee (provisionando un acceso independiente cada vez), lo cual, desde el punto de vista de la disponibilidad de un servicio extremo a extremo, influye en que la mxima disponibilidad posible (la mejor) corresponda naturalmente a la disponibilidad entregada por la Red de Servicios. Es decir, al tender la disponibilidad del acceso de ltima milla a un valor muy cercano al 100%, el valor de disponibilidad que prevalece es el de la disponibilidad de la red interna. Se propone por lo tanto entregar a cliente por cada una de sus conexiones una disponibilidad mnima (el peor caso), que corresponde a considerar accesos simples, y una disponibilidad mxima (mejor caso) a alcanzar, cuando se considera una alta redundancia en los accesos de ltima milla. Hay que hacer notar que este valor de disponibilidad mxima es una condicin inmejorable para la disponibilidad de la mayora de los casos ya que esta variar slo al cambiar las condiciones de la Red de Servicios y/o la Red de Transporte.

Entrega de disponibilidad sobre diferentes bases de tiempo para SLA


Se propone entregar las disponibilidades en formatos de tiempo mensual, trimestral mvil y anual para elaborar los contratos de SLA donde sus valores consideren de alguna forma la ganancia obtenida en los meses de disponibilidad 100% y distienda las exigencias que se derivan de una medicin de compromiso slo mensual. Para la estimacin de estas disponibilidades se considera como dato los valores de disponibilidad del peor mes del ao y del valor de la disponibilidad anual por cada par de puntos extremos del servicio. Se propone lo siguientes valores para la disponibilidad compromiso

Disponibilidad Mensual (DM ) = Diponibilidad del peor mes del ao Disponibilidad Trimestral (DT ) = 2 DM + DA 3 Disponibilidad Anual (DA ) = Disponibilidad anual entregada para el servicio

33|

Estos valores siempre cumplen con DM < DT < DA lo cual considera una especie de crdito que entregan los meses sin falla al los meses que s presentan falla.

34|

Referencias
Estadstica bsica aplicada al mantenimiento, James Massiah Electric power distribution system engineering cap.11 - Turan Gonen - McGraw-Hill. http://canteach.candu.org/library/20040109.pdf http://www.weibull.com/ Carrier Grade Servers in Telco Evironment, Ren Wu, Intel 2002 Field, Data Collection and Evaluation on the Performance of Equipments, Networks and Service, ITU-T Rec. E880 Evaluacin de Sistemas Tolerantes a Fallos, Rafael J. Martnez,Universidad de Valencia Mantenibilidad, Jezdimir Knezevic, ISDEF, 1996, Madrid Prediction Of The System Availability Using Simulation Modeling, Alexej Chovanec, Faculty of Special Technology / Alexander Dubcek University in Trencin, 2008 Mantenimiento Centrado en la Confiabilidad, John Moubray, 2004 El Arte de Mantener, R. Pascual, DIMEC, U. Ch. Proactive Fault Handling, Felix Salfner and Miroslaw Malek, Institut fr Informatik-Humboldt Universitt zu Berlin

35|

Ejercios
Ver conf sist distrib electr UCV

Problemas y soluciones
1 - Un transformador tiene una probabilidad de falla de una falla en 2500 aos. Pf = 1 / 2500 = 0.0004 = 4.E-4 fallas por ao La confiabilidad es: Rf = 1 0.0004 = 0.9996 La reparacin de la falla demora (en promedio) 1 semana 7 / 365 de ao. La probabilidad de no contar con el transformador en servicio es entonces Pr = (7 / 365) * (1 / 2500) = 0.0000078 = 7.8E-6 de ao sin servicio La confiabilidad de operacin es: Rr = 1 0.0000078 = 0.9999922 del ao en servicio 2 Un cable tiene una probabilidad de falla de 1 falla por milla cada 100 aos, siendo 1 milla = 1.609 km, entonces una falla por km cada 100 / 1.609 = 62.15 aos. El cable tiene una longitud de 3 km, cuales seran los valores que caracterizan la falla? Pf = 3 / 62.15 = 0.048 = 4.8E-2 fallas por ao = 1 / 20.7 una falla cada 20.7 aos La confiabilidad es: Rf = 1 0.048 = 0.953 La reparacin de la falla demora (en promedio) 1 dia 1 / 365 de ao. La probabilidad de no contar con el cable en servicio es entonces Pr = (1 / 365) * (3 / 62) = 0.000132 = 1.32E-4 de ao sin servicio La confiabilidad de operacin es: Rr = 1 0.000132 = 0.99987 del ao en servicio Comparando estos resultados entre transformador y cable se tienen las siguientes relaciones Pf = 0.0004 / 0.048 = 0.0083 = 120 Rf = 0.9996 / 0.953 = 1.049 = 0.953 Pr = 0.0000078 / 0.000132 = 0.059 = 16.92 Rr = 0.9999922 / 0.99987 = 1.0001 = 0.99988 3 La alimentacin de la carga se realiza a traves de un cable y un transformador, interesa evaluar los valores que caracterizan el sistema. La probabilidad de falla es la probabilidad de ocurrencia de cualquiera de dos hechos independientes La confiabilidad es la no ocurrencia de cualquiera de los dos hechos Rf = 0.9996 * 0.953 = 0.952 = (1 0.0004) * (1 0.048) = 1 (0.0004 + 0.048) Pf = 1 - 0.952 = 0.048 La probabilidad de no contar con servicio y la confiabilidad de operacion resultan Rr = 0.9999922 * 0.99987 = (1 0.0000078) * (1 0.000132) = 1 (0.0000078 + 0.000132) Pr = 0.00014 Los resultados obtenidos muestran que la probabilidad de falla repite pacticamente la del elemento de mayor probabilidad (en este ejemplo el cable) 4 Veamos ahora la probabilidad de falla de dos cables en paralelo, lgicamente tambien hay elementos de maniobra que en caso de falla de un cable ponen en servicio el otro, o estando ambos en servicio separan al que sufre la falla. Todo funciona bien, y los elementos de maniobra no tienen ninguna probabilidad de falla (esto es una mentira, pero permite simplificar la solucion!) La probabilidad de falla es la probabilidad de ocurrencia de ambos de dos hechos independientes La confiabilidad es la no ocurrencia de ambos hechos Pf = 0.048 * 0.048 = 0.0023 Rf = 1 0.0023 = 0.9977 La probabilidad de no contar con servicio o la confiabilidad de operacin resultan Pr = 0.000132 * 0.000132 = 1.7E-8 Rr = 1 1.7E-8 La probabilidad de falla del conjunto de dos cables se compara con la de un cable solo y se observa la notable reduccin, 36|

Pf = 0.0023 / 0.048 = 0.048 Pr = 0.000000017 / 0.000132 = 0.000132 5 Se pone la doble alimentacin del transformador, y se observa el incremento de confiabilidad que se presenta en la alimentacin a los usuarios en comparacin con el caso de un solo cable alimentador Para resolver este problema se utiliza la planilla dee-conf.xls, (bajar planilla) siendo datos los siguientes valores Para dos cables en paralelo: Pf1 = 0.0023 de falla de los dos cables en paralelo Pr1 = 1.69E-08 de perdida del servicio de los dos cables Y un transformador Pf2 = 0.0004 de perdida del transformador Pr2 = 7.67123E-06 Perdida del servicio por cables o transformador Pf = 0.0027 de falla de ambos cables o transformador Rf = 0.9973 Pr = 7.68813E-06 Rr = 0.999992312 confiabilidad

37|

INDICE

38|

You might also like