Clasificación y Propiedades de Fallas en Sistemas Distribuidos

4.1 CLASIFICACIN DISTRIBUIDOS.
Clasificacin de fallas
PROPIEDADES
DE
FALLAS
EN
SISTEMAS
Las fallas de un sistema de cmputo pueden clasificarse como sigue: Falla de procesos: en una falla de proceso, la ejecucin arroja un resultado incorrecto, los procesos provocan que el sistema se desve de las especificaciones y el proceso puede suspender su progreso. Ejemplos de errores que causan la falla de los procesos son los interbloqueos, tiempo expirado, violacin de proteccin, error en la entrada provista por el usuario, violaciones de consistencia (puede ocurrir si se emplea la tcnica de control de concurrencia optimista). Dependiendo del tipo de error que cause que un proceso falle, este proceso puede ser abortado o reiniciado desde un estado anterior. Por ejemplo, un proceso inter bloqueado puede ser restablecido desde un estado anterior, donde este puede tratar de adquirir nuevamente recursos. Por otro lado, entradas errneas requieren que el proceso se aborte. Falla del sistema: una falla de un sistema ocurre cuando el procesador falla en la ejecucin. Esto es causado por errores de software y problemas de hardware (como errores de CPU, falla en la memoria principal, falla en el bus, falla de energa, etc.). En el caso de una falla de sistema, el sistema es detenido y reiniciado en un estado correcto. El estado correcto puede estar en algn estado predefinido o en un estado anterior (punto de revisin) del sistema guardado en un almacenamiento no voltil. Una falla del sistema puede ser clasificado como sigue: Falla de amnesia: ocurre cuando se reinicia el sistema en un estado predefinido, y no depende del estado del sistema antes de la falla. No se conoce el estado que tena el sistema antes de la falla.
Falla de amnesia parcial: ocurre cuando se reinicia el sistema y se conoce parte del estado que presentaba antes de ocurrirla falla. Tambin se predefine un estado inicial para fallas. Falla de pausa: ocurre cuando el sistema se reinicia al mismo estado en que se encontraba antes de la falla. Falla de aborto (halting): ocurre cuando un sistema nunca se reinicializa. Falla en medio de almacenamiento secundario: se dice que ocurre una falla en medio de almacenamiento cuando los datos almacenados no pueden ser accedidos (cualquiera de sus partes o en su totalidad). La causa de esta falla normalmente es provocada por error de paridad, dao de las cabezas lectoras, partculas de polvo depositadas en el medio. Falla en los medios de comunicacin: una falla de un medio de comunicacin, ocurre cuando un sitio no puede comunicarse con otro sitio operacional de la red. Esto es ocasionado por la falla del nodo de conmutacin y/o por los enlaces de comunicacin del sistema. La falla de un nodo de conmutacin incluye la falla del sistema y la falla de almacenamiento secundario, por otro lado, la falla de enlace incluye una ruptura fsica y ruido en los canales de comunicacin. Note que una falla en un medio de comunicacin (esto depende de la topologa y la conectividad) puede no causar la prdida total de las facilidades de comunicacin. Por ejemplo, una falla en el medio de comunicacin puede simplemente causar una prdida del mensaje, la recepcin de un mensaje con algunos errores, o la particin de una red donde un segmento de sitios pueden ser incomunicados con los sitios en otro segmento, aunque los sitios dentro de un segmento pueden comunicarse entre s.
4.2 ELEMENTOS DE LAS ESTRATEGIAS TOLERANTES A FALLAS. Un sistema puede ser diseado para que sea tolerante a falla desde dos puntos de vista. Un sistema puede ocultar la falla o puede en caso de ocurrir una falla corregirla y seguir funcionando. Cuando el sistema se disea para ocultar la falla, cuando ocurre una falla contina con sus funciones especficas. Por otro lado un sistema diseado para corregir una falla puede o no ejecutar funciones especficas, sin embargo, puede seguir acciones para recuperacin. Estrategia tolerante a fallas Redundancia. Con este enfoque, el sistema puede emplear varios procesos, muchos componentes de hardware, muchas copias de datos, etc. Cada uno con independencia en el modo de la falla, (es decir, si un componente falla no afecta la operacin de otro componente). Tcnica para sistemas tolerantes a fallas. Protocolo de compromiso. Protocolo de eleccin. La primera tcnica se utiliza parasistemas que pueden hasta cierto punto corregir las fallas y el segundo, el protocolo de eleccin, es utilizado para sistemas que oculten las fallas. Efectos de las fallas ms comunes. Un proceso muere. Cuando un proceso muere, es importante que los recursos asignados al proceso sean recuperados, de otra manera pueden estar perdidos permanentemente. La mquina falla. Cuando una mquina falla, todos los procesos ejecutndose en esa mquina se mueren. La diferencia con el caso anterior es, como detectar la falla.
La red falla. Una falla de enlace de comunicacin puede particionar la red en subredes, haciendo imposible la comunicacin entre nodos localizados en sub-redes diferentes. Un proceso no puede notar la diferencia entre una falla de mquina y una falla de enlace de comunicacin, dependiendo de la red, en algunos casos se pueden detectar falla de mquina. En las redes que no detectan falla de mquina (Ethernet), el diseo tolerante a falla debe asumir que la mquina puede estar en operacin y que los procesos en ella estn activos. Acciones atmicas y compromiso La actividad de un sistema es gobernada por una secuencia de primitivas u operaciones atmicas que ejecuta permanentemente. Generalmente, una instruccin a nivel de mquina, es indivisible, instantnea, y no puede ser interrumpida (a menos que ocurra una falla), corresponde a una operacin atmica. Sin embargo es deseable disponer de un conjunto de instrucciones que completan una cierta tarea y hacemos que este grupo sea una operacin atmica. El concepto de accin atmica se extiende al concepto de atomicidad desde un nivel de instruccin de mquina hasta una secuencia de instrucciones o un grupo de procesos los cuales deben ellos mismos ser ejecutados atmicamente. Las acciones atmicas forman un bloque bsico en la construccin de operaciones tolerantes a fallas. Una transaccin agrupa una secuencia de acciones (sobre una base de datos) y al grupo se le trata como una accin atmica que mantiene la consistencia de la base de datos. En los sistemas distribuidos, varios procesos pueden coordinarse para ejecutar una tarea. Sus acciones deben ser atmicas con respectos a los otros procesos. Como ejemplo, en un sistema de base de datos distribuidos, una transaccin debe procesarse en cada sitio o en ninguno para mantener la integridad de la base de datos.
Protocolo de compromiso de dos fases Este protocolo asume que uno de los procesos cooperativos acta como coordinador, otros procesos se les refiere como subordinados (se asume que los subordinados se ejecutan en diferentes sitios). ste protocolo asume que se dispone de un medio de almacenamiento estable en cada sitio y que se encuentra activo el protocolo de escritura de registro anticipado. Al inicio de la transaccin, el coordinador enva el mensaje inicio de transaccin a cada subordinado. 4.3 RECUPERACIN DE ERRORES. Recordemos que un error es esa parte del estado del sistema que es distinto de los valores esperados y que pueden conducir a la falla de un sistema, la recuperacin de una falla es un proceso que involucra la recuperacin de estados errneos a un estado libre de error. Hay dos enfoques para la recuperacin de un estado de error a un estado libre de error. Si la naturaleza del error y los daos causados por la falla pueden ser completamente calculados, entonces es posible remover esos errores del estado del proceso (o sistema) y habilitar el movimiento hacia adelante del proceso a un estado libre de error. Esta tcnica es conocida como recuperacin hacia adelante. Si no es posible prever la naturaleza de las fallas y remover todos los errores en el estado del proceso (o sistema), entonces el estado del proceso puede ser restaurado a un estado previo libre de error. Esta tcnica es conocida como recuperacin de error hacia atrs. Note que la recuperacin del error hacia atrs es ms simple que la recuperacin del error hacia adelante, ya que es independiente de la falla y de los errores causados por la falla. Adems un sistema puede recuperarse de una falla arbitraria por la restauracin a un estado previo. Esto generalmente habilita que la recuperacin hacia atrs sea provista como un mecanismo de recuperacin general para cualquier tipo de proceso.
Los principales problemas asociados con la recuperacin hacia atrs son: Penalidad en rendimiento: la sobrecarga de trabajo para restaurar el estado del proceso a un estado anterior libre de errores puede resultar muy alto. No est garantizado que las fallas no ocurrirn nuevamente cuando se inicialice el procesamiento desde un estado anterior. Algunos componentes del estado del sistema pueden ser irrecuperables. Por ejemplo, el dinero dispuesto en un cajero automtico no puede recuperarse. La tcnica de recuperacin hacia delante, por otro lado, provoca una menor sobrecarga, porque slo esas partes del estado que se desviaron de un valor esperado necesitan ser corregidas. Sin embargo, esta tcnica puede ser usada solo cuando los daos debido a fallas pueden ser calculados correctamente, por lo tanto, este no es un concepto tan general como la recuperacin de error hacia atrs y no puede ser provista como un mecanismo general para recuperar errores.

Clasificación y Propiedades de Fallas en Sistemas Distribuidos

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Clasificación y Propiedades de Fallas en Sistemas Distribuidos

Uploaded by

Copyright:

Available Formats

4.1 CLASIFICACIN DISTRIBUIDOS.

You might also like