Professional Documents
Culture Documents
Los almacenes de datos guardan grandes cantidades de datos tomados de las bases de
datos
operativas utilizadas por una empresa, as como de otras fuentes de datos. Se usan
para sistemas
de apoyo de decisiones (DSS), procesamiento analtico en lnea (OLAP) y
minado
de datos. Los datos se toman de fuentes de datos con el uso de herramientas externas
del
sistema. Los datos extrados se reformatean, limpian, ponen en el modelo adecuado y
cargan
en el almacn. Tambin se pueden crear data marts que contienen datos
especializados.
Los almacenes usan frecuentemente un modelo multidimensional. Los datos se
pueden
representar con el uso de cubos de datos multidimensionales, que se pueden
pivotear o
rotar para mostrar una dimensin diferente. Si la dimensin es ms que tres, se usa el
trmino
hipercubo. La exploracin superficial (rollup) es un proceso de agregado de datos a
lo largo de dimensiones, mientras que su inverso, la exploracin minuciosa (drilldown), es
un proceso que proporciona ms detalle para alguna dimensin. Una tabulacin
cruzada
es un despliegue en forma de hoja de clculo con totales agregados a los datos.
La proyeccin dimensional (slicing) de un cubo de datos es equivalente a realizar una
seleccin
con igualdad de condiciones para una o ms dimensiones, mientras que la seleccin
dimensional (dicing) es equivalente a una seleccin de rango.
Los primeros sistemas OLAP multidimensionales almacenaban datos como arreglos
multidimensionales,
llamados sistemas MOLAP. Los sistemas OLAP relacionales, llamados
ROLAP, usan tablas relacionales mltiples. Un esquema estrella usa una tabla central
de
valores de datos llamada tabla de hechos, con atributos que representan
dimensiones. Cada
dimensin tiene su propia tabla de dimensin que se conecta a la tabla de hechos. En
una
variacin llamada esquema copo de nieve, las mismas tablas de dimensin tienen
tablas de
dimensin porque estn normalizadas.
Las consultas para un almacn de datos pueden usar las funciones de agregacin
estndares
de SQL, usualmente con opciones GROUP BY. SQL:1999 proporciona funciones
adicionales
para las medidas estadsticas de desviacin estndar, varianza, correlacin y
regresin.
Tambin existe una funcin rank que regresa la clasificacin de una tupla con respecto
a
algn atributo. La clusula GROUP BY puede incluir la opcin GROUP BY CUBE y
GROUP BY ROLLUP para cubos de datos.