You are on page 1of 46

CONFIABILIDAD

Requisitos de Operación
– Es el tiempo en horas en las que el Data Center puede ser apagado para mantenimiento programado.

NOTA: El término parada se refiere a que ha cesado la operación; el equipo no puede realizar sus
actividades durante ese tiempo. La parada no se refiere a la pérdida de los componentes del sistema si no
perturban la capacidad del sistema para continuar sus actividades.
Requisitos de Disponibilidad

• Es el tiempo total en la que una instalación debe mantenerse sin interrupción.


La disponibilidad se expresa en porcentaje o "nueves de disponibilidad".
Impacto de la Caída
– No todas las caídas tienen el mismo impacto. Existen cinco
clasificaciones del impacto de la caída del sistema.
Clasificación de la Disponibilidad del Data
Con el Nivel de Operación requerido, los Requisitos de Disponibilidad, y la evaluación del Impacto de
la Caída del Sistema, se puede asignar al Data Center la Clasificación de Disponibilidad.
Clasificación de la Disponibilidad del
Data Center - Ejemplo
Se tiene un Data Center cuyo horario critico es de Lunes a Viernes durante las 24 horas.

Paradas
Programadas x
Descripción Semanas x año Días Horas año
Paradas 52 2 24 2496 Horas
Requisitos de Operación
– Es el tiempo en horas en las que el Data Center puede ser apagado para mantenimiento programado.

NOTA: El término parada se refiere a que ha cesado la operación; el equipo no puede realizar sus
actividades durante ese tiempo. La parada no se refiere a la pérdida de los componentes del sistema si no
perturban la capacidad del sistema para continuar sus actividades.
Clasificación de la Disponibilidad del
Data Center - Ejemplo

Se tiene un Data Center cuyo horario critico es de Lunes a Viernes durante las 24 horas.

Si ocurre una caída entre Lunes a Viernes el máximo tiempo que puede estar sin sistema es 30 minutos, luego de ese tiempo entre en penalidades.

Nivel Operativo : “0” - Cero


Requisitos de Disponibilidad

• Es el tiempo total en la que una instalación debe mantenerse sin interrupción. La


disponibilidad se expresa en porcentaje o "nueves de disponibilidad".
Clasificación de la Disponibilidad del
Data Center - Ejemplo
Se tiene un Data Center cuyo horario critico es de Lunes a Viernes durante las 24 horas.

Si ocurre una caída entre Lunes a Viernes el máximo tiempo que puede estar sin sistema es 30 minutos, luego de ese tiempo entre en penalidades.

El impacto de la caída es a nivel nacional, pues brinda servicios de consultas y registros a todo el País.

Nivel Operativo : “0” - Cero

Clasificación de Disponibilidad operativa : “2”


Impacto de la Caída
– No todas las caídas tienen el mismo impacto. Existen cinco
clasificaciones del impacto de la caída del sistema.
Clasificación de la Disponibilidad del Data
- Ejemplo
Se tiene un Data Center cuyo horario critico es de Lunes a Viernes durante las 24 horas.

Si ocurre una caída entre Lunes a Viernes el máximo tiempo que puede estar si sistema es 30 minutos, luego de ese tiempo entre en penalidades.

El impacto de la caída es a nivel nacional, pues brinda servicios de consultas y registros a todo el País.

Nivel Operativo : “0” - Cero

Clasificación de Disponibilidad operativa : “2”

Impacto de la Indisponibilidad: “Grave”


Clasificación de la Disponibilidad del Data
Con el Nivel de Operación requerido, los Requisitos de Disponibilidad, y la evaluación del Impacto de
la Caída del Sistema, se puede asignar al Data Center la Clasificación de Disponibilidad.
Clasificación de la Disponibilidad del Data
- Ejemplo
Se tiene un Data Center cuyo horario critico es de Lunes a Viernes durante las 24 horas.

Si ocurre una caída entre Lunes a Viernes el máximo tiempo que puede estar si sistema es 30 minutos, luego de ese tiempo entre en penalidades.

El impacto de la caída es a nivel nacional, pues brinda servicios de consultas y registros a todo el País.

Nivel Operativo : “0” - Cero

Clasificación de Disponibilidad operativa : “2”

Impacto de la Indisponibilidad: “Grave”

La clasificación del Data Center es de Clase 3


Preguntas de Refuerzo

Marque la alternativa incorrecta con respecto al Estándar BICSI-002


La Clasificación de Confiabilidad deseada resulta de balancear el costo futuro de caída vs. El
a)
costo actual de prevención.
b) Los Data Centers son clasificados típicamente en un sistema de 5 clases
c) El Data Center de Clase 4 es el de más alta confiabilidad.
d) El Data Center de Clase 3 es nombrado como Mantenimiento Concurrente.
e) El Data Center de Clase 2 Posee rutas de alimentación Redundantes

Complete la forma de clasificación de los Data Center según cada estandar:


a) El BICSI-002 clasifica a los Datacenter de Clase 0 a Clase 4
b) ICREA clasifica a los Data Center de Nivel I a Nivel V
c) Uptime Intitute Clasifica a los Datacenter de Tier I a Tier IV
d) TIA 942 clasifica a los Datacenter Rated 1 a Rated 4
Preguntas de Refuerzo

Indique el orden correcto para determinar el Nivel de Confiabilidad del Data Center
Definir el Impacto del Tiempo de Indisponibilidad  A
Identificar clase de Disponibilidad Operativa B
Identificar los Requisitos Operativos  C
Identificar los requisitos de Disponibilidad Operativa  D

a) ABCD
b) BADC
c) CDAB
d) ABDC
GRACIAS!

17 To edit footnote click on Insert / Header & Footer


Perfiles de las Clases

• Cada Clase está asociada con un perfil específico de edificación de misión crítica y está definida por:

 Redundancia en componentes

 Redundancia de sistema.

 Calidad de componentes.

 Supervivencia
Clasificación de Data Center – Clase
• Data Center básico donde la reducción del costo de capital es la primera prioridad. Se emplea un estabilizador y/o TVSS en lugar de un UPS

 Impacto de la caída = mínimo

 Redundancia en componentes: ninguno.

 Redundancia en sistema: ninguno

 Control de Calidad: comercial

 Supervivencia: ninguno
Clasificación de Data Center – Clase
Típicamente las características de rendimiento de los Facilities son:

Ventana de Mantenimiento Anual (Horas): > 400

Disponibilidad Objetivo: < 99%

Impacto de la Caída: Data Center Local


Clasificación de Data Center – Clase
• Data Center básico donde el impacto de la caída no es demasiado crítico

 Impacto de la caída = mínimo

 Redundancia en componentes: ninguno.

 Redundancia en sistema: ninguno

 Control de Calidad: comercial

 Supervivencia: ninguno
Clasificación de Data Center – Clase
Típicamente las características de rendimiento de los Facilities son:

Ventana de Mantenimiento Anual (Horas): 100 - 400

Disponibilidad Objetivo: 99%

Impacto de la Caída: Data Center Local o Regional


Clasificación de Data Center – Clase 2
Costos más altos asociados con las caídas. Cuidado con las fallas en los componentes con mayor índice de fallos (UPS, controles, generador, etc)

Redundancia en componentes: solo en componentes críticos.

Redundancia en sistema: ninguno

Control de Calidad: Premium solo para componentes críticos.

Supervivencia: cuidado moderado por la seguridad e integridad estructural.

Clasificación
Clasificación de Data Center – Clase 2

• Típicamente las características


de rendimiento de los Facilities
son:

 Ventana de Mantenimiento Anual


(Horas): 50 - 99
 Disponibilidad Objetivo: 99.9 %
 Impacto de la Caída: Data Center
Local, Regional o Multi-regional.
Clasificación de Data Center – Clase 3
Debe asegurar energía continua y confiable cuando los componentes mayores estén fuera de servicio.

Redundancia en componentes: Se requiere en todos los componentes que no formen parte de un sistema redundante.

Redundancia en sistema: puede darse sin redundancia en componentes.

Control de Calidad: Premium para todos los componentes.

Supervivencia: cuidado significativo por la seguridad física e integridad estructural.


Clasificación de Data Center – Clase

Single Source – Two Utility Inputs


Clasificación de Data Center – Clase

• Típicamente las características


de rendimiento de los Facilities
son:

 Ventana de Mantenimiento Anual


(Horas): 0 - 49
 Disponibilidad Objetivo: 99.99 %
 Impacto de la Caída: Todos los Data
Center Local, Regional o Multi-
regional, algunos Datacenter podrían
necesitar ser 3
Clasificación de Data Center – Clase 4
Proporciona el nivel más alto de redundancia.

Redundancia en componentes: En todos los componentes críticos y no críticos.

Redundancia en sistema: en todos los sistemas.

Control de Calidad: Premium para todos los componentes, reduciendo el riesgo de falla.

Supervivencia: todos los sistemas son auto soportados y protegidos contra los más altos niveles de fuerzas naturales.
Clasificación de Data Center – Clase 4
Clasificación de Data Center – Clase 4

• Típicamente las características


de rendimiento de los Facilities
son:

 Ventana de Mantenimiento Anual


(Horas): 0
 Disponibilidad Objetivo: 99.999 %
 Impacto de la Caída: Data Center
Multi-regional o Empresas
Corporativas.
Resumen

Clase 0 Clase 1 Clase 2 Clase 3 Clase 4


Redundancia Ninguna Ninguna Para En todos los Para todos los
componentes componentes no componentes
de críticos parte de un sistema
Componente redundante

Redundancia No No No Donde no exista Para todos los


redundancia de sistemas
de Sistema componentes.

Supervivencia Ninguna Ninguna Moderada Significativa Más alto nivel de


protección.

Control de Estándar Estándar Premium para Premium Premium


componentes
Calidad críticos
Preguntas de Refuerzo
Indique cual no es un indicador para la definición de la Clase de un Data Center
a) Redundancia en componentes
b) Redundancia de sistema.
c) Calidad de componentes.
d) Mantenibilidad
e) Supervivencia

Indique la alternativa incorrecta con respecto a un Data Center Clase 3:


a) Redundancia en componentes: en todos los componentes que no formen parte de un sistema redundante.
b) Redundancia en sistema: puede darse sin redundancia en componentes.
c) Control de Calidad: Premium para todos los componentes.
d) Supervivencia: cuidado significativo por la seguridad física e integridad estructural.
e) Ventana de Mantenimiento Anual (Horas): 0 - 49
f) Disponibilidad Objetivo: 99.999 %
g) Impacto de la Caída: Todos los Data Center Local, Regional o Multi-regional.
Principios de Confiabilidad
La confiabilidad se define como la probabilidad de que un sistema dado se desempeñe como se espera en un periodo de tiempo. y bajo las condiciones de operación dadas.

La confiabilidad de un sistema se puede calcular del MTBF publicado por los componentes de un sistema.

La confiabilidad depende tanto de la duración de la falla y el número de veces en que un componente o un sistema falla.

La confiabilidad no es igual que disponibilidad:

R=e^(-T/MTBF) A=MTBF/(MTBF+MTTR)
Principios de Confiabilidad

Ejemplo:
Para un servicio que es provisto en un horario 24 x 7, en un período de 30 días, se obtiene el
siguiente reporte: Se tiene dos caidas del servicio con duraciones de 6 y 14 horas, calcular la
disponibilidad y la confiabilidad.

Disponibilidad (%) = (Período de Medición – Suma de Indisponibilidad) x 100%=


Período de Medición

= (720 – 20) x 100% = 97.2%


720
Principios de Confiabilidad

Ejemplo (Continuación):
Para un servicio que es provisto en un horario 24 x 7, en un período de 30 días, se obtiene el
siguiente reporte: Se tiene dos caidas del servicio con duraciones de 6 y 14 horas, calcular la
disponibilidad y la confiabilidad.

Confiabilidad (horas) = Período de Medición – Suma de Indisponibilidad =


Número de Caidas

= 720– 20 = 350 Horas


2

Confiabilidad (%) = 48.61%


Principios de Confiabilidad
Clase de Redundancia: Serial vs Paral
• Es importante entender que la clase de confiabilidad esperada se refiere al sistema como un todo.

• La diferencia entre la confiabilidad de un componente o del sistema puede ser ilustrada en dos sistemas formados por los mismos componentes funcionando en serie o paralelo.

• La confiabilidad en los Sistemas en Serie se calcula en términos del producto de los componentes del sistema. Ejm: 0.5x0.5=0.25=25%.

• La confiabilidad en los Sistemas en Paralelo se calcula en términos del complemento del producto del complemento de los componentes del sistema. Ejm:

1-[(1-0.5)x(1-0.5)] = 1-(0.5x0.5)

=1-(0.25) = 0.75 = 75%

Sistema A1
R=50%

Sistema A2
R=50%

Sistema A1 Sistema A2
R=50% R=50%
Clase de Redundancia: Serial vs Paral

Example (Cont.):

The reliability of a series system is equal to the product of all component


reliabilities.
The reliability of a parallel system is equal to the complement of the
product of all component complements. Thus, the reliability for the system
in Figure would be calculated as follows:

RA1A2 = RA1 × RA2 = 0.5 × 0.5 = 0.25


RA = 1 – [(1 – RA1A2 ) × (1 – RA3)] = 1 – [(1 – 0.25) × (1 – 0.5)] = 0.625
RB = 1 – [(1 – RB1 ) × (1 – RB2)] = 1 – [(1 – 0.61) × (1 – 0.61)] = 0.848

RTOTAL = RA × RB = 0.625 × 0.848 = 0.53 (53%)


Clase de Redundancia: Serial vs Paral

Example:
A UPS module has a published MTBF of 17,520 hours (one failure every two years). Its
failure rate would then be 0.00005708 failures per hour. What is its one-year reliability,
or the probability of not failing in one year (8,760 hours)?
R = e^(–0.00005708 × 8,760)
R = 0.6065 or 60.65%
To obtain the reliability of a given system, you must compute the individual reliability of
each component, then the reliability of parallel subsystems, and then the series
reliability of all subsystems, as follows and as illustrated in Figure.

Sistema A1
R=60.60%

Sistema A1 Sistema A2
Sistema A2 R=60.65% R=60.65%
R=60.65%
Confiabilidad de la parte vs el todo
Los cálculos vistos demuestran que no solamente la confiabilidad de los componentes individuales es crucial para asegurar la confiabilidad del sistema.

Adicionalmente, la confiabilidad de un sistema depende de cómo son unidos los componentes.


Clases y la Unión más débil.
Se suele referir a la clasificación de un subsistema particular (tal como un sistema eléctrico de Clase F4)

La clasificación de un subsistema individual de un D.C. Puede variar de la del sistema como un todo.

La confiabilidad total del sistema como un todo está determinado por la confiabilidad de la unión más débil (su componente de menor confiabilidad).

Debido a que la confiabilidad de un sistema se define por su unión más débil, la presencia de puntos únicos de falla es crucial para la determinación de la clase.

Los puntos únicos de falla deberían ser eliminados para mejorar la confiabilidad, esto significa incrementar la redundancia del sistema.
Tendencias que afectan la Confiabilidad d
instalaciones indispensables de TI.

A medida que las computadoras se hacen má s confiables, ha ido en aumento el


porcentaje general de eventos de tiempo de inactividad causados por fallas críticas
del sistema. Aunque la frecuencia de dichos cortes sigue siendo
menor, la disponibilidad total se ve drá sticamente afectada porque son largos los
tiempos de reparació n (tiempo medio para reparar o MTTR) de ciertos cortes de
sistemas indispensables (es decir, generador, UPS, enfriador).
Donde resulte prá ctico, el equipo en los sistemas redundantes deben provenir de
distintos fabricantes, ser de distintos modelos, o distintos lotes de producció n para
evitar que ambos sistemas se vean afectados simultá neamente por el
mismo tipo de falla o retirada del mercado de un componente.
Confiabilidad End-to-End

• Aplicaciones
• Sistemas

Copyright © 20 de abr de 2023 por TECSUP


• Redes Aplicaciones
• Infraestructura de Cableado Sistemas
Procesamiento de datos y
• Facilities Almacenamiento

Redes

Infraestructura de Cableado

Facilities Facilities

“Una cadena es tan fuerte como su elemento


más débil.”
RTO y RPO

• Punto Objetivo de Recuperación (RPO, Recovery Point Objective) es

Copyright © 20 de abr de 2023 por TECSUP


cuando la infraestructura, ya comenzada nuevamente, comenzará a hacerse
evidente. Básicamente, RPO significa lo que la organización está dispuesta a
perder en cantidad de datos. Para reducir un RPO es necesario aumentar el
sincronismo de réplica de datos.
• Tiempo Objetivo de Recuperación Ocurre un Recovery Time Objective) es el
(RTO,
Desastre
tiempo que pasará una infraestructura antes de estar disponible. Para reducir
el RTO, se requiere que la Infraestructura (Tecnológica, Logística, Física) esté
disponible en el menor tiempo posible pasado el evento de interrupción.
RTO y RPO

• RTO y RPO = 0

Copyright © 20 de abr de 2023 por TECSUP


• ¿Los Sistemas están preparados para un RTO = 0?
• Las Aplicaciones están en Cluster Activo - Activo
• Las Bases de Datos están en Cluster Activo-Activo
• Las Comunicaciones están en Cluster Activo- Activo

• ¿Los Sistemas están preparados para un RPO = 0?


• Las Bases de Datos están en Cluster Activo-Activo
• Las Unidades de Almacenamiento están en Replicación Síncrona

High-availability

Any HP 3PAR
model

Fault
Tolerance
Actividad
• Empleando la metodología vista, determinar los requisitos
para el D.C. Referidos a:

Copyright © 20 de abr de 2023 por TECSUP


• Requerimientos de operación
• Ranking de disponibilidad.
• Impacto de la caída.
• Clase de Disponibilidad.

You might also like