BASES DE DATOS PARALELAS

En la última década los sistemas paralelos, los sistemas paralelos de base de datos han pasado de estar casi descartados.

TECNICAS DE DIVISIÓN: Turno rotatorio: Asegura una distribución homogénea de las tuplas entre los discos; es decir cada disco tiene aproximadamente el mismo número de tuplas que los demás.

DIVISIÓN POR ASOCIACIÓN: En esta estrategia de des agrupación, uno o varios atributos del esquema de la relación dada se designan como atributos de la división.

DIVISIÓN EN RANGOS:E sta estrategia distribuye rangos continuos de valores de los atributos a cada disco.

PARALELISMO: se refiere a la reducción del tiempo necesario para recuperar relaciones del disco dividiendo las relaciones en varios discos.

COMPARACION DE LAS TECNCAS DE DIVISIÓN: 1.-Explorar la relación completa.

2.- Localizar una tupla de manera asociativa (por ejemplo, nombreempleado=<<soto>>).

Localizar todas las tuplas cuyo valor de un atributo dado se halle en un rango especificado.

TRATAMIENTO DEL SESGO:L a distribución de las tuplas al dividir una relación (excepto para el turno rotatorio).   Sesgo de los valores de los atributos Sesgo de la división

PARALELISMO ENTRE CONSULTAS El paralelismo entre consultas se ejecuta en paralelo entre sí diferentes consultas o transacciones. El paralelismo entre consultas es la forma más sencilla de paralelismo que se permite en los sistemas de bases de datos.

Permitir el paralelismo entre consultas es más complicado en las arquitecturas de disco compartido o sin compartimiento.

El uso principal del paralelismo entre consultas es ampliar los sistemas de procesamiento de transacciones.

Los sistemas con arquitectura paralela también deben asegurar que dos procesadores no actualicen simultáneamente los mismos datos de manera independiente.

La productividad de de transacciones puede aumentarse con esta forma de paralelismo.

PARALELISMO EN CONSULTAS

S importante para acelerar las consultas de ejecución larga.

Se refiere a la ejecución e paralelo de una única consulta en varios procesadores y discos.

El paralelismo entre consultas no ayuda en esta labor, dado que cada consulta se ejecuta de manera secuencial.

La operación de operación de ordenación se puede realizar de la manera siguiente: cada partición se ordena en paralelo y las particiones ordenadas se concatenan para obtener la relación ordenada final.

PARALELISMO EN OPERACIONES: se puede acelerar el procesamiento de consultas haciendo paralela la ejecución de cada una de las operaciones, como puede ser la ordenación la selección, la proyección, y la reunión.

PARALELISMO ENTRE OPERACIONES: se puede acelerar el procesamiento de consultas ejecutando en paralelo las diferentes operaciones de las expresiones de las consultas.

Las dos formas de paralelismo son complementarias y pueden utilizarse simultáneamente en una misma consulta.

Dado que el numero de una consulta típica es pequeño comparado con el numero de tuplas procesado por cada operación.

La elección de algoritmos para paralizar la evaluación de las consultas depende de la arquitectura de la maquina.

El paralelismo en operaciones es natural en los sistemas de bases de datos.

ORDENACION EN PARALELO: se puede dividir en rangos de acuerdo con los atributos de ordenación y luego ordenar cada partición por separado.

PARALELISMO EN OPERACIONES

ORDENACION POR DIVISION DE RANGOS: 1.- hay que redistribuir la relación utilizando una estrategia de división de rangos.

Se puede utilizar una versión paralela del algoritmo externo de mezcla-ordenación.

2.- cada uno de los procesadores ordena localmente su partición de la relación, sin interacción con los demás procesadores.

REUNIÓN PARALELA

La operación reunión exige que se comparen pares de tuplas para ver si satisfacen la condición de reunión.

Los algoritmos de reunión paralela intentan repartir entre varios procesadores los pares que hay que hay que comparar.

Luego hay que reunir los resultados de cada procesador para producir el resultado final.

REUNIÓN POR DIVISIÓN: Es posible dividir las dos relaciones de entrada entre los procesadores y procesar localmente la reunión de cada procesador.

Para la división de rangos se debe utilizar el mismo vector de división para las dos relaciones.

División en rangos de los atributos. División por asociación de los atributos de reunión.

BASES DE DATOS DISTRIBUIDAS

A diferencia de los sistemas paralelos, en los que los procesadores están fuertemente acoplados y constituyen un solo sistema de bases de datos, los sistemas distribuidos de las bases de datos consisten en emplazamientos poco acoplados que no comparten componentes físicos.

Cada emplazamiento puede participar en la ejecución de transacciones que tiene acceso a los datos en uno o varios emplazamientos.

La diferencia principal entre los sistemas de bases de datos centralizados y los distribuidos es que en los primeros lo datos residen en una sola ubicación, mientras que los últimos los datos residen en varias ubicaciones.

Esta distribución de los datos es causa de muchas dificultades en el procesamiento de transacciones y consultas.

ALMACENAMIENTO DISTRIBUIDO DE DATOS

Considérese una relación que deba guardarse en la base de datos.

REPLICA: el sistema conserva varias replicas (copias) idénticas de la relación

RÉPLICA Y FRAGMENTACIÓN: la relación se divide en varios fragmentos. El sistema conserva varias replicas de cada fragmento.

FRAGMENTACIÓN: la relación se divide en varios fragmentos.

REPLICAS DE LOS DATOS: si se replica la relación se guardara una copia de la misma en dos o más emplazamientos.

DISPONIBILIDAD: si falla uno de los emplazamientos que contienen la relación se podrá encontrar en otro emplazamiento.

AUMENTO DE LA SOBRECARGA EN LAS ACTUALIZACIONES

AUMENTO DEL PARALELISMO: en caso de que la mayor parte de los accesos a la relación solo den por resultado la lectura de la misma.

FRAGMENTACIÓN HORIZONTAL

La relación r se divide en cierto número de subconjuntos, cada tupla de relación r debe pertenecer al menos a uno de los fragmentos.

FRAGMENTACIÓN VERTICAL Es igual que la descomposición, implica la definición de varios subconjuntos de atributos.

La fragmentación debe hacerse de modo que se pueda reconstruir la relación r a partir de los fragmentos tomando la reunión natural.

FRAGMENTACIÓN MIXTA: La relación r se divide en una serie de relaciones fragmentarias cada fragmento se obtiene como resultado de la aplicación.

REPLICA Y FRAGMENTACIÓN DE DATOS Se puede replicar un fragmento, las replicas de los fragmentos se pueden volver a fragmentar.

TRANSPARENCIA DE LA RED La denominación de los elementos de los datos. La réplica de los elementos de datos. Ubicación de fragmentos y replicas.

DENOMINACIÓN DE LOS ELEMENTOS DE DATOS Deben tener nombres únicos.

TRANSPARENCIA Y ACTUALIZACIONES

Proporcionar transparencia a los usuarios es algo más difícil que hacerlo para los que se limitan a leerla.

Procesamiento distribuido de consultas: el coste de la transmisión de los datos por la red. La ganancia potencial en rendimiento respecto de hacer varios emplazamientos procesen en paralelo parte de la consulta.

TRASNFORMACIÓN DE CONSULTAS Considérese una consulta extremadamente sencilla, buscar todas las tuplas de la relación cuenta.

ESTRATEGIA DE SEMIREUNION Esta estrategia es relativamente ventajosa cuando pocas tuplas de r contribuyen a la reunión.

PROCESAMIENTO DE REUNIONES SENCILLAS Una parte importante es la selección de estrategias de procesamiento de consultas de una elección de la estrategia de reunión.

La implementación del paralelismo en operaciones redistribuyendo las tuplas no se considera por lo general viable en sistemas distribuidos.

Sin embrago el paralelismo en operaciones incluidos el paralelismo de encauzamiento y el paralelismo independiente.

El acceso a los diferentes elementos de datos en los sistemas distribuidos suele realizarse mediante transacciones que deben conservar las propiedades.

MODOS DE FALLO DE SISTEMA
Los sistemas distribuidos pueden sufrir los mismos tipos de fallos que os sistemas centralizados.

FALOO EN EMPLAZAMIENTO

PÉRDIDA DE MENSAJES

FALLO DE UN ENLACE DE COMUNICACIONES

DIVISIÓN DE LA RED

CORTE DE COMUNICACIONES: el corte en tiempo y dinero se envían en un mensaje desde el emplazamiento.

DISPONIBILIDAD: el grado en que se puede hacer acceso a lo datos a pesar del fallo de algunos enlaces o emplazamientos. ROBUSTEZ

para que el sistema distribuidos a robusto deba detectar los fallos volver a configurar e sistema para el proceso pueda continuar.

LOS DIFERENTES TIPOS DE FALLOS SE TRATAN DE manera diferente la pérdida de mensajes se trata mediante la retransmisión.