Professional Documents
Culture Documents
Fallos
CONCEPTOS BASICOS
Para que un sistema distribuido pueda ser tolerante a fallos, se
ocupan las siguientes caracteristicas:
Disponibilidad
Confiabilidad
Seguridad
Mantenimiento.
DISPONIBILIDAD
Es definida por la propiedad de que el sistema esta listo para ser usado, en
otras palabras se entiende que el sistema esta operando correctamente.
Un sistema con alta disponibilidad es quel que puede trabajar en cualquier
tiempo.
CONFIABILIDAD
Se refiere a la propiedad de que el sistema puede trabajar continuamente sin
fallos, en contraste a la disponibilidad, la confiabilidad se refiere en lapsos de
tiempo, en vez de momentos instantaneos.
Un sistema con alta confiabilidad, es quel que funciona por largos periodos
de tiempo sin fallo alguno.
SEGURIDAD
Se refiere a la situacion en la que un sistema falla temporalmente, no
pasa nada grave, ejemplo son algunos sistemas que controlan
plantas nucleares, si algunos de esos sitemas fallan, pueden traer
consecuencias catastroficas.
MANTENIMIENTO
MODELOS DE FALLOS
Redundancia de informacin
Redundancia de Tiempo
Con esta redundancia, una accion se hecha y despues si es necesaria,
se repite la misma accion, este tipo de redundancia se presenta cuando
hay errores intrasitentes o intermitentes.
Redundancia de Fsica
Se le llama asi a la tecnica en la cual se hacen 2 o 3 copias del mismo mensaje
para evitar fallos en el recibimiento del mismo. Es una de las tecnicas mas
usadas para la tolerancia de fallos.
ESQUEMAS DE
MULTITRANSMISIN BSICOS
CONFIABLES
Significa que un mensaje enviado a un
grupo
de
procesos
deber
ser
entregado a cada uno de los miembros
de dicho grupo. Sin embargo, debemos
distinguir entre comunicacin confiable
en presencia de procesos defectuosos y
comunicacin confiable cuando se
supone que los procesos estn
operando correctamente.
ESCALABILIDAD EN
MULTITRANSMISION CONFIABLE
El problema principal con el esquema
de multitransmisin confiable es que
no puede soportar un gran numero de
destinatarios. Una solucin a este
problema es no hacer que los
destinatarios confirmen la recepcin de
un mensaje. En cambio, un destinatario
devuelve
un
mensaje
de
retroalimentacin solo para informar
que el remitente no envi ningn
MULTITRANSMISIN ATMICA
Significa que un mensaje enviado a un
grupo
de
procesos
deber
ser
entregado a cada uno de los miembros
de dicho grupo. Sin embargo, debemos
distinguir entre comunicacin confiable
en presencia de procesos defectuosos y
comunicacin confiable cuando se
supone que los procesos estn
operando correctamente.
RECUPERACION
La recuperacin de errores es
fundamental para la tolerancia a
fallas.
La idea integral sobre recuperacin
de errores, es reemplazar un estado
errneo con un estado libre de error.
Registro de mensaje.
o En este caso despus de que se ha tomado un punto
de control, un proceso (llamado registro basado en el
remitente) registra sus mensajes antes de enviarlos.
o Consiste en hacer que el proceso receptor registre
primero un mensaje entrante antes de entregarlo a la
aplicacin que este ejecutando.
o En la practica, la combinacin de marcar puntos de
control y el registro de mensajes resulta mas eficiente
que tener que marcar muchos puntos de control
Categoras de
Almacenamiento
Primero: memoria RAM ordinaria que se borra cuando
falla la corriente o una maquina se congela.
Segundo: almacenamiento en disco, el cual sobrevive
a fallas de la CPU, pero tambin se puede perder
cuando ocurren fallas de cabeza de disco
Almacenamiento Estable: (desempea un rol muy
importante cuando se trata de recuperacin en
sistemas distribuidos) esta diseado para sobrevivir a
cualquier cosa excepto a calamidades extremas tales
como inundaciones o terremotos.
Conclusin
En sistemas tolerantes a fallas, la recuperacin se logra
invariablemente marcando con puntos de control el estado del
sistema en forma regular.
La marcacin de puntos de control es completamente distribuida
Desafortunadamente, la toma de un punto de control es una
operacin cara.
Para mejorar el desempeo, muchos sistemas distribuidos
combinan la marcacin de puntos de control con el registro de
mensajes.
Registrando la comunicacin entre los procesos, llega a ser
posible repetir la ejecucin del sistema despus de ocurrida una
congelacin