You are on page 1of 2

Resumen del captulo

Los almacenes de datos guardan grandes cantidades de datos tomados de las bases de
datos
operativas utilizadas por una empresa, as como de otras fuentes de datos. Se usan
para sistemas
de apoyo de decisiones (DSS), procesamiento analtico en lnea (OLAP) y
minado
de datos. Los datos se toman de fuentes de datos con el uso de herramientas externas
del
sistema. Los datos extrados se reformatean, limpian, ponen en el modelo adecuado y
cargan
en el almacn. Tambin se pueden crear data marts que contienen datos
especializados.
Los almacenes usan frecuentemente un modelo multidimensional. Los datos se
pueden
representar con el uso de cubos de datos multidimensionales, que se pueden
pivotear o
rotar para mostrar una dimensin diferente. Si la dimensin es ms que tres, se usa el
trmino
hipercubo. La exploracin superficial (rollup) es un proceso de agregado de datos a
lo largo de dimensiones, mientras que su inverso, la exploracin minuciosa (drilldown), es
un proceso que proporciona ms detalle para alguna dimensin. Una tabulacin
cruzada
es un despliegue en forma de hoja de clculo con totales agregados a los datos.
La proyeccin dimensional (slicing) de un cubo de datos es equivalente a realizar una
seleccin
con igualdad de condiciones para una o ms dimensiones, mientras que la seleccin
dimensional (dicing) es equivalente a una seleccin de rango.
Los primeros sistemas OLAP multidimensionales almacenaban datos como arreglos
multidimensionales,
llamados sistemas MOLAP. Los sistemas OLAP relacionales, llamados
ROLAP, usan tablas relacionales mltiples. Un esquema estrella usa una tabla central
de
valores de datos llamada tabla de hechos, con atributos que representan
dimensiones. Cada
dimensin tiene su propia tabla de dimensin que se conecta a la tabla de hechos. En
una
variacin llamada esquema copo de nieve, las mismas tablas de dimensin tienen
tablas de
dimensin porque estn normalizadas.
Las consultas para un almacn de datos pueden usar las funciones de agregacin
estndares
de SQL, usualmente con opciones GROUP BY. SQL:1999 proporciona funciones
adicionales
para las medidas estadsticas de desviacin estndar, varianza, correlacin y
regresin.
Tambin existe una funcin rank que regresa la clasificacin de una tupla con respecto
a
algn atributo. La clusula GROUP BY puede incluir la opcin GROUP BY CUBE y
GROUP BY ROLLUP para cubos de datos.

Es posible usar tcnicas de indexado especiales en un entorno de almacn de datos


para
acelerar las consultas. Los ndices de mapa de bits son tiles si el dominio de valores
para un
atributo es pequeo. Para cada tupla se construye un vector de bits, que muestra
cules de
los valores tiene la tupla al colocar un 1 en la posicin apropiada del vector. Es posible
responder
algunas consultas directamente del ndice, sin acceder a los registros de datos. Un
ndice combinado se construye al almacenar, para cada valor del atributo indexado en
una
tabla de dimensin, las ID de tupla de todas las tuplas en la tabla de hechos que tengan
dicho valor para el atributo.
Por cuestiones de eficiencia, con frecuencia se crean vistas mediante materializacin
de
vista, y se precalculan y almacenan para uso futuro. Para vistas materializadas tambin
se
pueden crear ndices. Es necesaria una poltica de mantenimiento de vista para vistas
materializadas.
Puede ser inmediata o diferida. Si es diferida, la poltica de regeneracin puede
ser lenta, peridica o forzada.
Minado de datos significa descubrimiento de nueva informacin a partir de conjuntos
muy
grandes de datos. El propsito es ganar una ventaja competitiva al poder predecir
comportamiento, clasificar tems, identificar una actividad o evento, u optimizar el uso de
recursos.
El conocimiento descubierto puede ser como reglas de asociacin, que tienen
medidas de
cobertura y precisin. El conocimiento tambin puede expresarse como reglas de
clasificacin,
patrones secuenciales o patrones de series de tiempo. El conjunto de datos que
se
utiliza para ensear al sistema se llama conjunto de formacin. Los mtodos de
minado de
datos incluyen rboles de decisin, regresin, redes neuronales y clustering
(agrupamiento).
Las reas de aplicacin incluyen venta al por menor, banca y finanzas, fabricacin y
medicina.

You might also like