Confiabilidad

CONFIABILIDAD
Requisitos de Operación
– Es el tiempo en horas en las que el Data Center puede ser apagado para mantenimiento programado.
NOTA: El término parada se refiere a que ha cesado la operación; el equipo no puede realizar sus
actividades durante ese tiempo. La parada no se refiere a la pérdida de los componentes del sistema si no
perturban la capacidad del sistema para continuar sus actividades.
Requisitos de Disponibilidad
• Es el tiempo total en la que una instalación debe mantenerse sin interrupción.

La disponibilidad se expresa en porcentaje o "nueves de disponibilidad".
Impacto de la Caída
– No todas las caídas tienen el mismo impacto. Existen cinco
clasificaciones del impacto de la caída del sistema.
Clasificación de la Disponibilidad del Data
Con el Nivel de Operación requerido, los Requisitos de Disponibilidad, y la evaluación del Impacto de
la Caída del Sistema, se puede asignar al Data Center la Clasificación de Disponibilidad.
Clasificación de la Disponibilidad del
Data Center - Ejemplo
Se tiene un Data Center cuyo horario critico es de Lunes a Viernes durante las 24 horas.
Paradas
Programadas x
Descripción Semanas x año Días Horas año
Paradas 52 2 24 2496 Horas
Requisitos de Operación
– Es el tiempo en horas en las que el Data Center puede ser apagado para mantenimiento programado.
NOTA: El término parada se refiere a que ha cesado la operación; el equipo no puede realizar sus
actividades durante ese tiempo. La parada no se refiere a la pérdida de los componentes del sistema si no
perturban la capacidad del sistema para continuar sus actividades.
Si ocurre una caída entre Lunes a Viernes el máximo tiempo que puede estar sin sistema es 30 minutos, luego de ese tiempo entre en penalidades.
Nivel Operativo : “0” - Cero

Requisitos de Disponibilidad
• Es el tiempo total en la que una instalación debe mantenerse sin interrupción. La

disponibilidad se expresa en porcentaje o "nueves de disponibilidad".
Si ocurre una caída entre Lunes a Viernes el máximo tiempo que puede estar sin sistema es 30 minutos, luego de ese tiempo entre en penalidades.
El impacto de la caída es a nivel nacional, pues brinda servicios de consultas y registros a todo el País.
Clasificación de Disponibilidad operativa : “2”

Impacto de la Caída
– No todas las caídas tienen el mismo impacto. Existen cinco
clasificaciones del impacto de la caída del sistema.
- Ejemplo
Si ocurre una caída entre Lunes a Viernes el máximo tiempo que puede estar si sistema es 30 minutos, luego de ese tiempo entre en penalidades.
Impacto de la Indisponibilidad: “Grave”

Con el Nivel de Operación requerido, los Requisitos de Disponibilidad, y la evaluación del Impacto de
la Caída del Sistema, se puede asignar al Data Center la Clasificación de Disponibilidad.
- Ejemplo
Si ocurre una caída entre Lunes a Viernes el máximo tiempo que puede estar si sistema es 30 minutos, luego de ese tiempo entre en penalidades.
Impacto de la Indisponibilidad: “Grave”
La clasificación del Data Center es de Clase 3

Preguntas de Refuerzo
Marque la alternativa incorrecta con respecto al Estándar BICSI-002

La Clasificación de Confiabilidad deseada resulta de balancear el costo futuro de caída vs. El
a)
costo actual de prevención.
b) Los Data Centers son clasificados típicamente en un sistema de 5 clases
c) El Data Center de Clase 4 es el de más alta confiabilidad.
d) El Data Center de Clase 3 es nombrado como Mantenimiento Concurrente.
e) El Data Center de Clase 2 Posee rutas de alimentación Redundantes
Complete la forma de clasificación de los Data Center según cada estandar:

a) El BICSI-002 clasifica a los Datacenter de Clase 0 a Clase 4
b) ICREA clasifica a los Data Center de Nivel I a Nivel V
c) Uptime Intitute Clasifica a los Datacenter de Tier I a Tier IV
d) TIA 942 clasifica a los Datacenter Rated 1 a Rated 4
Indique el orden correcto para determinar el Nivel de Confiabilidad del Data Center
Definir el Impacto del Tiempo de Indisponibilidad  A
Identificar clase de Disponibilidad Operativa B
Identificar los Requisitos Operativos  C
Identificar los requisitos de Disponibilidad Operativa  D
a) ABCD
b) BADC
c) CDAB
d) ABDC
GRACIAS!
17 To edit footnote click on Insert / Header & Footer

Perfiles de las Clases
• Cada Clase está asociada con un perfil específico de edificación de misión crítica y está definida por:
 Redundancia en componentes
 Redundancia de sistema.
 Calidad de componentes.
 Supervivencia
Clasificación de Data Center – Clase
• Data Center básico donde la reducción del costo de capital es la primera prioridad. Se emplea un estabilizador y/o TVSS en lugar de un UPS
 Impacto de la caída = mínimo
 Redundancia en componentes: ninguno.
 Redundancia en sistema: ninguno
 Control de Calidad: comercial
 Supervivencia: ninguno
Típicamente las características de rendimiento de los Facilities son:
Ventana de Mantenimiento Anual (Horas): > 400
Disponibilidad Objetivo: < 99%
Impacto de la Caída: Data Center Local

• Data Center básico donde el impacto de la caída no es demasiado crítico
 Impacto de la caída = mínimo
 Redundancia en componentes: ninguno.
 Redundancia en sistema: ninguno
 Control de Calidad: comercial
 Supervivencia: ninguno
Típicamente las características de rendimiento de los Facilities son:
Ventana de Mantenimiento Anual (Horas): 100 - 400
Disponibilidad Objetivo: 99%
Impacto de la Caída: Data Center Local o Regional

Clasificación de Data Center – Clase 2
Costos más altos asociados con las caídas. Cuidado con las fallas en los componentes con mayor índice de fallos (UPS, controles, generador, etc)
Redundancia en componentes: solo en componentes críticos.
Redundancia en sistema: ninguno
Control de Calidad: Premium solo para componentes críticos.
Supervivencia: cuidado moderado por la seguridad e integridad estructural.
Clasificación
• Típicamente las características

de rendimiento de los Facilities
son:
 Ventana de Mantenimiento Anual

(Horas): 50 - 99
 Disponibilidad Objetivo: 99.9 %
 Impacto de la Caída: Data Center
Local, Regional o Multi-regional.
Debe asegurar energía continua y confiable cuando los componentes mayores estén fuera de servicio.
Redundancia en componentes: Se requiere en todos los componentes que no formen parte de un sistema redundante.
Redundancia en sistema: puede darse sin redundancia en componentes.
Control de Calidad: Premium para todos los componentes.
Supervivencia: cuidado significativo por la seguridad física e integridad estructural.

Single Source – Two Utility Inputs


son:

(Horas): 0 - 49
 Impacto de la Caída: Todos los Data
Center Local, Regional o Multi-
regional, algunos Datacenter podrían
necesitar ser 3
Proporciona el nivel más alto de redundancia.
Redundancia en componentes: En todos los componentes críticos y no críticos.
Redundancia en sistema: en todos los sistemas.
Control de Calidad: Premium para todos los componentes, reduciendo el riesgo de falla.
Supervivencia: todos los sistemas son auto soportados y protegidos contra los más altos niveles de fuerzas naturales.

son:

(Horas): 0
 Impacto de la Caída: Data Center
Multi-regional o Empresas
Corporativas.
Resumen
Clase 0 Clase 1 Clase 2 Clase 3 Clase 4

Redundancia Ninguna Ninguna Para En todos los Para todos los
componentes componentes no componentes
de críticos parte de un sistema
Componente redundante
Redundancia No No No Donde no exista Para todos los

redundancia de sistemas
de Sistema componentes.
Supervivencia Ninguna Ninguna Moderada Significativa Más alto nivel de

protección.
Control de Estándar Estándar Premium para Premium Premium

componentes
Calidad críticos
Indique cual no es un indicador para la definición de la Clase de un Data Center
a) Redundancia en componentes
b) Redundancia de sistema.
c) Calidad de componentes.
d) Mantenibilidad
e) Supervivencia
Indique la alternativa incorrecta con respecto a un Data Center Clase 3:

a) Redundancia en componentes: en todos los componentes que no formen parte de un sistema redundante.
b) Redundancia en sistema: puede darse sin redundancia en componentes.
c) Control de Calidad: Premium para todos los componentes.
d) Supervivencia: cuidado significativo por la seguridad física e integridad estructural.
e) Ventana de Mantenimiento Anual (Horas): 0 - 49
f) Disponibilidad Objetivo: 99.999 %
g) Impacto de la Caída: Todos los Data Center Local, Regional o Multi-regional.
Principios de Confiabilidad
La confiabilidad se define como la probabilidad de que un sistema dado se desempeñe como se espera en un periodo de tiempo. y bajo las condiciones de operación dadas.
La confiabilidad de un sistema se puede calcular del MTBF publicado por los componentes de un sistema.
La confiabilidad depende tanto de la duración de la falla y el número de veces en que un componente o un sistema falla.
La confiabilidad no es igual que disponibilidad:
R=e^(-T/MTBF) A=MTBF/(MTBF+MTTR)
Ejemplo:
Para un servicio que es provisto en un horario 24 x 7, en un período de 30 días, se obtiene el
siguiente reporte: Se tiene dos caidas del servicio con duraciones de 6 y 14 horas, calcular la
disponibilidad y la confiabilidad.
Disponibilidad (%) = (Período de Medición – Suma de Indisponibilidad) x 100%=

Período de Medición
= (720 – 20) x 100% = 97.2%

720
Ejemplo (Continuación):
Para un servicio que es provisto en un horario 24 x 7, en un período de 30 días, se obtiene el
siguiente reporte: Se tiene dos caidas del servicio con duraciones de 6 y 14 horas, calcular la
disponibilidad y la confiabilidad.
Confiabilidad (horas) = Período de Medición – Suma de Indisponibilidad =

Número de Caidas
= 720– 20 = 350 Horas

2
Confiabilidad (%) = 48.61%

Clase de Redundancia: Serial vs Paral
• Es importante entender que la clase de confiabilidad esperada se refiere al sistema como un todo.
• La diferencia entre la confiabilidad de un componente o del sistema puede ser ilustrada en dos sistemas formados por los mismos componentes funcionando en serie o paralelo.
• La confiabilidad en los Sistemas en Serie se calcula en términos del producto de los componentes del sistema. Ejm: 0.5x0.5=0.25=25%.
• La confiabilidad en los Sistemas en Paralelo se calcula en términos del complemento del producto del complemento de los componentes del sistema. Ejm:
1-[(1-0.5)x(1-0.5)] = 1-(0.5x0.5)
=1-(0.25) = 0.75 = 75%
Sistema A1
R=50%
Sistema A2
R=50%
Sistema A1 Sistema A2
R=50% R=50%
Example (Cont.):
The reliability of a series system is equal to the product of all component

reliabilities.
The reliability of a parallel system is equal to the complement of the
product of all component complements. Thus, the reliability for the system
in Figure would be calculated as follows:
RA1A2 = RA1 × RA2 = 0.5 × 0.5 = 0.25

RA = 1 – [(1 – RA1A2 ) × (1 – RA3)] = 1 – [(1 – 0.25) × (1 – 0.5)] = 0.625
RB = 1 – [(1 – RB1 ) × (1 – RB2)] = 1 – [(1 – 0.61) × (1 – 0.61)] = 0.848
RTOTAL = RA × RB = 0.625 × 0.848 = 0.53 (53%)

Example:
A UPS module has a published MTBF of 17,520 hours (one failure every two years). Its
failure rate would then be 0.00005708 failures per hour. What is its one-year reliability,
or the probability of not failing in one year (8,760 hours)?
R = e^(–0.00005708 × 8,760)
R = 0.6065 or 60.65%
To obtain the reliability of a given system, you must compute the individual reliability of
each component, then the reliability of parallel subsystems, and then the series
reliability of all subsystems, as follows and as illustrated in Figure.
Sistema A1
R=60.60%
Sistema A1 Sistema A2
Sistema A2 R=60.65% R=60.65%
R=60.65%
Confiabilidad de la parte vs el todo
Los cálculos vistos demuestran que no solamente la confiabilidad de los componentes individuales es crucial para asegurar la confiabilidad del sistema.
Adicionalmente, la confiabilidad de un sistema depende de cómo son unidos los componentes.

Clases y la Unión más débil.
Se suele referir a la clasificación de un subsistema particular (tal como un sistema eléctrico de Clase F4)
La clasificación de un subsistema individual de un D.C. Puede variar de la del sistema como un todo.
La confiabilidad total del sistema como un todo está determinado por la confiabilidad de la unión más débil (su componente de menor confiabilidad).
Debido a que la confiabilidad de un sistema se define por su unión más débil, la presencia de puntos únicos de falla es crucial para la determinación de la clase.
Los puntos únicos de falla deberían ser eliminados para mejorar la confiabilidad, esto significa incrementar la redundancia del sistema.
Tendencias que afectan la Confiabilidad d
instalaciones indispensables de TI.
A medida que las computadoras se hacen má s confiables, ha ido en aumento el

porcentaje general de eventos de tiempo de inactividad causados por fallas críticas
del sistema. Aunque la frecuencia de dichos cortes sigue siendo
menor, la disponibilidad total se ve drá sticamente afectada porque son largos los
tiempos de reparació n (tiempo medio para reparar o MTTR) de ciertos cortes de
sistemas indispensables (es decir, generador, UPS, enfriador).
Donde resulte prá ctico, el equipo en los sistemas redundantes deben provenir de
distintos fabricantes, ser de distintos modelos, o distintos lotes de producció n para
evitar que ambos sistemas se vean afectados simultá neamente por el
mismo tipo de falla o retirada del mercado de un componente.
Confiabilidad End-to-End
• Aplicaciones
• Sistemas
Copyright © 20 de abr de 2023 por TECSUP

• Redes Aplicaciones
• Infraestructura de Cableado Sistemas
Procesamiento de datos y
• Facilities Almacenamiento
Redes
Infraestructura de Cableado
Facilities Facilities
“Una cadena es tan fuerte como su elemento

más débil.”
RTO y RPO
• Punto Objetivo de Recuperación (RPO, Recovery Point Objective) es

cuando la infraestructura, ya comenzada nuevamente, comenzará a hacerse
evidente. Básicamente, RPO significa lo que la organización está dispuesta a
perder en cantidad de datos. Para reducir un RPO es necesario aumentar el
sincronismo de réplica de datos.
• Tiempo Objetivo de Recuperación Ocurre un Recovery Time Objective) es el
(RTO,
Desastre
tiempo que pasará una infraestructura antes de estar disponible. Para reducir
el RTO, se requiere que la Infraestructura (Tecnológica, Logística, Física) esté
disponible en el menor tiempo posible pasado el evento de interrupción.
RTO y RPO
• RTO y RPO = 0

• ¿Los Sistemas están preparados para un RTO = 0?
• Las Aplicaciones están en Cluster Activo - Activo
• Las Bases de Datos están en Cluster Activo-Activo
• Las Comunicaciones están en Cluster Activo- Activo
• ¿Los Sistemas están preparados para un RPO = 0?

• Las Bases de Datos están en Cluster Activo-Activo
• Las Unidades de Almacenamiento están en Replicación Síncrona
High-availability
Any HP 3PAR
model
Fault
Tolerance
Actividad
• Empleando la metodología vista, determinar los requisitos
para el D.C. Referidos a:

• Requerimientos de operación
• Ranking de disponibilidad.
• Impacto de la caída.
• Clase de Disponibilidad.

Confiabilidad

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Confiabilidad

Uploaded by

Copyright:

Available Formats

CONFIABILIDAD

• Es el tiempo total en la que una instalación debe mantenerse sin interrupción.

Nivel Operativo : “0” - Cero

• Es el tiempo total en la que una instalación debe mantenerse sin interrupción. La

Nivel Operativo : “0” - Cero

Clasificación de Disponibilidad operativa : “2”

Nivel Operativo : “0” - Cero

Clasificación de Disponibilidad operativa : “2”

Impacto de la Indisponibilidad: “Grave”

Nivel Operativo : “0” - Cero

Clasificación de Disponibilidad operativa : “2”

Impacto de la Indisponibilidad: “Grave”

La clasificación del Data Center es de Clase 3

Marque la alternativa incorrecta con respecto al Estándar BICSI-002

Complete la forma de clasificación de los Data Center según cada estandar:

17 To edit footnote click on Insert / Header & Footer

 Impacto de la caída = mínimo

 Redundancia en componentes: ninguno.

 Redundancia en sistema: ninguno

 Control de Calidad: comercial

Ventana de Mantenimiento Anual (Horas): > 400

Disponibilidad Objetivo: < 99%

Impacto de la Caída: Data Center Local

 Impacto de la caída = mínimo

 Redundancia en componentes: ninguno.

 Redundancia en sistema: ninguno

 Control de Calidad: comercial

Ventana de Mantenimiento Anual (Horas): 100 - 400

Disponibilidad Objetivo: 99%

Impacto de la Caída: Data Center Local o Regional

Redundancia en componentes: solo en componentes críticos.

Redundancia en sistema: ninguno

Control de Calidad: Premium solo para componentes críticos.

Supervivencia: cuidado moderado por la seguridad e integridad estructural.

• Típicamente las características

 Ventana de Mantenimiento Anual

Redundancia en sistema: puede darse sin redundancia en componentes.

Control de Calidad: Premium para todos los componentes.

Supervivencia: cuidado significativo por la seguridad física e integridad estructural.

Single Source – Two Utility Inputs

• Típicamente las características

 Ventana de Mantenimiento Anual

Redundancia en componentes: En todos los componentes críticos y no críticos.

Redundancia en sistema: en todos los sistemas.

• Típicamente las características

 Ventana de Mantenimiento Anual

Clase 0 Clase 1 Clase 2 Clase 3 Clase 4

Redundancia No No No Donde no exista Para todos los

Supervivencia Ninguna Ninguna Moderada Significativa Más alto nivel de

Control de Estándar Estándar Premium para Premium Premium

Indique la alternativa incorrecta con respecto a un Data Center Clase 3:

La confiabilidad no es igual que disponibilidad:

Disponibilidad (%) = (Período de Medición – Suma de Indisponibilidad) x 100%=

= (720 – 20) x 100% = 97.2%

Confiabilidad (horas) = Período de Medición – Suma de Indisponibilidad =

= 720– 20 = 350 Horas

Confiabilidad (%) = 48.61%

=1-(0.25) = 0.75 = 75%

The reliability of a series system is equal to the product of all component

RA1A2 = RA1 × RA2 = 0.5 × 0.5 = 0.25

RTOTAL = RA × RB = 0.625 × 0.848 = 0.53 (53%)

Adicionalmente, la confiabilidad de un sistema depende de cómo son unidos los componentes.

A medida que las computadoras se hacen má s confiables, ha ido en aumento el