Professional Documents
Culture Documents
Comparing Tabular and Multidimentional Model in A Real BI Solution
Comparing Tabular and Multidimentional Model in A Real BI Solution
net/publication/308972999
CITATION READS
1 696
5 authors, including:
Some of the authors of this publication are also working on these related projects:
MODEL RECOMMENDATION OF INFORMATION WITH SEMANTIC NOTE FOR WEB SEARCH ENGINES View project
All content following this page was uploaded by Alfredo Simón-Cuevas on 03 July 2018.
Abstract— The increase of accumulated data amount in los datos [3][4]. Sin embargo, varios autores han defendido la
organizations have provoked the emergence of new requirements propuesta del almacenamiento lógico columnar, basado
of more complex and efficient analysis tools, context in which the esencialmente en la transposición de los ficheros para mejorar
Business Intelligence spring up as a discipline for boarding this el desempeño de las consultas [3]. Mediante esta propuesta se
problem. The improvement of the efficiency in the storage and
access to analytical databases has been reported in many trata de beneficiar el procesamiento analítico de los datos,
researches, upon which results several companies have caracterizado por demandas que requieren el agrupamiento o
introduced commercial products. Microsoft SQL Server 2012 la agregación de grandes cantidades de datos sobre unas pocas
offers two independent alternatives for creating analytical columnas, desde la perspectiva de los índices de proyección a
models, the classic multidimensional model and the more recent través de las filas (column-oriented) [5].
tabular model. In this paper was carried a comparative analysis Con el desarrollo del hardware, las tecnologías han
of both models out looking deeply into their features and
potentialities. Several important considerations for undertaking evolucionado ostensiblemente, favoreciendo el
a new BI project based on Microsoft platform are suggested. A aprovechamiento de las nuevas técnicas de gestión de bases de
BI solution that provides particular and integrated visions of the datos en memoria (in-memory databases) y el almacenamiento
business status of CIMEX Co. was developed as real context to columnar para la optimización de las consultas en soluciones
perform the comparative analysis. In order to testing the analíticas. Un resultado de ello lo constituye Microsoft SQL
proposed solution and identifying the strengths and weaknesses Server 2012 (y sus versiones posteriores), el cual ofrece dos
of each model in different scenarios some experiments were
performed. opciones independientes para la creación de los modelos
analíticos que representan la lógica del negocio, el clásico
Keywords— Business Intelligence, Multidimensional Model, modelo multidimensional y el reciente modelo tabular que no
Tabular Model, Columnar Databases, In-memory Databases. constituye un remplazo del modelo multidimensional, sino
otra técnica para la instrumentación del procesamiento
I. INTRODUCCIÓN analítico de los datos [6]. El modelo tabular se ha convertido
en una alternativa interesante a considerar en el marco de la
L OS AVANCES tecnológicos de los últimos años han
provocado una gran revolución, al incrementar la
disponibilidad de acceso a la información. A medida que ha
toma de decisiones, especialmente en cuanto a la potenciación
de las funcionalidades de “autoservicio” [6][7].
El surgimiento de esta nueva y atractiva propuesta de
aumentado la cantidad de datos acumulados y las exigencias
Microsoft para la concepción y desarrollo de soluciones
de los directivos, han proliferado las necesidades de análisis
analíticas constituyó fuente importante de motivación para el
mucho más complejos para alcanzar el éxito. En este contexto
desarrollo de esta investigación, a través de la que se aportan
surge la Inteligencia de Negocios (BI, Business Intelligence)
consideraciones en cuanto a: ¿Por qué se propone un nuevo
[1] que reúne un conjunto de metodologías, procesos,
modelo de análisis de datos cuando ya existía el modelo
arquitecturas y tecnologías que permiten transformar los datos
multidimensional con más de una década de explotación?;
en información útil e importante para formular ideas
¿Cuáles son las ventajas que ofrece el modelo tabular con
estratégicas, tácticas y operativas, eficaces para la toma de
respecto a su precedente?; ¿En qué contextos se debe utilizar
decisiones [2]. Numerosas compañías de software han
uno u otro, o bien si ambos son necesarios? Las interrogantes
desarrollado plataformas que ofrecen a las empresas un
han sido analizadas en un entorno organizacional real,
producto completo que responde a las diferentes etapas del
específicamente en el Grupo Empresarial CIMEX.
proceso de BI, a partir de las cuales es posible generar
El Grupo Empresarial CIMEX es líder nacional en el
soluciones de BI propias. La mayoría de los sistemas de
mercado comercial mayorista y minorista, y tiene como
gestión de bases de datos que ofrecen herramientas para
principal objetivo la adquisición y la comercialización de
realizar el procesamiento analítico de grandes volúmenes de
productos y servicios. Adicionalmente constituye uno de los
datos (OLAP, On Line Analytic Processing), se apoyan en la
principales referentes nacionales en cuanto al desarrollo de
tecnología de almacenamiento orientada a filas/registros (row-
herramientas de BI en función de mejorar los procesos de
oriented), optimizada para el procesamiento transaccional de
dirección en la organización.
En el marco de la investigación se concibió y diseñó una
A. Simón, Grupo Empresarial CIMEX, Cuba, asimonc@gmail.com solución computacional basada en el paradigma de BI [1], a
M. Torres, Universidad de La Habana, Cuba, maitets@matcom.uh.cu través de la cual se implementaron los modelos
L. García, Universidad de La Habana, Cuba, lucina@matcom.uh.cu multidimensional y tabular sobre SQL Server 2012 Analysis
A. Simón, Universidad Tecnológica de La Habana José Antonio
Echeverría, CUJAE, Cuba, asimon@ceis.cujae.edu.cu Services (SSAS). La solución desarrollada permitió realizar
R. Ravelo, Universidad de La Habana, Cuba, r.ravelo@lab.matcom.uh.cu análisis sobre los principales indicadores comerciales,
Corresponding author: Alfredo Simón.
3394 IEEE LATIN AMERICA TRANSACTIONS, VOL. 14, NO. 7, JULY 2016
El almacenamiento por columnas significa que cada página (ODS, Operational Data Store) con información diaria
de datos contiene valores de una sola columna; además, en el detallada y mecanismos de actualización frecuente. A través
proceso de indización se conservan los valores repetidos solo de los ODS se logra tener la información centralizada y
una vez y se sustituyen las cadenas de texto y fechas por consolidada y se asegura su acceso vía web desde cualquier
números enteros, todo lo cual favorece la compresión de los establecimiento mediante reportes estáticos, los cuales están
datos [16]. Este tipo de almacenamiento tiende a ser utilizado sujetos a esquemas predefinidos y con navegación limitada.
en sistemas OLAP por su rápido procesamiento y La mayoría de las aplicaciones desarrolladas responde
optimización [19]. En este modelo, el procesamiento de directamente a los procesos del negocio y no a los sujetos de
consultas requiere más uso de CPU que lectura en disco análisis. Hasta el momento no había sido posible integrar las
[20][21]. Cabe destacar que el almacenamiento por columnas informaciones comerciales, económicas y de recursos
constituye uno de los enfoques emergentes que fundamentan humanos, así como de otras áreas, ni comprobar el grado de
el desarrollo de Big Data [22]. Por su parte, el modelo correspondencia entre ellas para evaluar el funcionamiento
dimensional utiliza el almacenamiento por filas, requiriéndose integral de la organización. Tampoco se garantizaba la
más recursos de lectura de disco y menos CPU. información histórica que posibilitara el análisis retrospectivo.
Las bases de datos in-memory utilizan la memoria principal Esta problemática es parcialmente resuelta mediante la
de la máquina (RAM) para el almacenamiento de los datos. solución BI desarrollada, la cual posibilita el análisis
Desde el punto de vista del usuario final, xVelocity posibilita integrando los datos de diferentes áreas de CIMEX, teniendo
rápidos accesos a los datos almacenados en las bases de datos en cuenta las contribuciones e inconvenientes del empleo de
tabulares utilizando aplicaciones como Excel y Power View, los modelos multidimensional y tabular.
alcanzándose un incremento (de entre 10 y 100 veces) en el
rendimiento de las consultas [18]. Power View consiste en una 2. Propuesta de solución BI
herramienta intuitiva de reportes, mediante la cual los usuarios La solución BI se centra en el diseño e implementación de
pueden interactuar con las vistas de su negocio publicadas en un almacén de datos orientado al análisis, que contiene la
SSAS, cualquiera sea el modelo analítico [23]. información comercial, contable, económico-financiera y de
En SSAS 2012 se introduce el Modelo Semántico de recursos humanos de CIMEX, y su arquitectura se muestra en
Inteligencia de Negocios (BISM, Business Intelligence la Fig. 1. El diseño del almacén de datos se basa en la
Semantic Model), único para las aplicaciones clientes y arquitectura de tres capas reportada en [26], conocida como
además común a todas las formas de presentación de la Enterprise Data Warehouse [27], cuyos componentes
información (ej. reportes, monitores, tableros de mando) [24]. fundamentales son: el data warehouse empresarial (DWE), el
BISM es una plataforma de BI que ofrece capacidades para warehouse informacional (WI) y la presentación de la
presentar la información en el modelo multidimensional (a información.
través de cubos y dimensiones) y en el modelo tabular (a La primera capa de datos corresponde a los ODS
través de tablas y relaciones) [9][25], también está presente en provenientes de los sistemas transaccionales que poseen
la versión SSAS 2014 pero sin cambios conceptuales [10]. información de los procesos económicos, comerciales y de
Esta dualidad de modelos y herramientas en la plataforma recursos humanos. La segunda capa (datos conciliados)
BISM, motivó el examen crítico de ambas alternativas en el corresponde al DWE, el cual constituye un repositorio único
desarrollo de una solución real a ser utilizada por directivos de donde se armoniza la información y se disponen los datos para
CIMEX, con la cual se respondiera a los intereses de la el análisis. La tercera capa (datos derivados) corresponde al
organización. Ello también posibilitaría profundizar en el WI, que posee un diseño multidimensional donde los datos se
estudio de cada enfoque de modo que se identificaran denormalizan para garantizar buenos tiempos de respuestas
bondades e insuficiencias, a considerar en futuros desarrollos. durante las consultas informacionales y la navegación. La
solución posee además una capa final de presentación de la
IV. SOLUCIÓN BI BASADA EN LOS MODELOS información que proporciona mayor dinamismo a partir de la
MULTIDIMENSIONAL Y TABULAR experiencia interactiva con los datos sobre SharePoint.
1. Problemática informacional en CIMEX
La actividad comercial de CIMEX, de alcance nacional y
con una red de más de un millar de tiendas minoristas que
generan diariamente un gran volumen de datos, constituye una
de las áreas de resultados claves de este grupo empresarial.
Por tanto, resulta imprescindible mantener el control de los
procesos principales que tienen lugar en cada uno de esos Figura 1. Arquitectura general de la solución BI.
puntos de venta, como: compra, venta, inventario,
transferencia y ajuste, con el objetivo de brindar información Una de las principales tareas en el desarrollo de la solución BI
actualizada del estado de los indicadores comerciales a los fue identificar los requerimientos informacionales, lo cual se
analistas y directivos, así como a instancias gubernamentales. llevó a cabo a partir de entrevistas e intercambios con los
Actualmente se cuenta con almacenes de datos operacionales analistas y directivos. Se modelaron varios sujetos del
3396 IEEE LATIN AMERICA TRANSACTIONS, VOL. 14, NO. 7, JULY 2016
negocio, tales como: Ventas por la parte comercial, Mayor En la herramienta SQL Server Data Tools se definieron las
General por la parte contable, Indicadores Financieros en el estructuras multidimensionales y tabulares que responden a
escenario económico-financiero y Pagos por la parte de los requerimientos informacionales. La fuente de datos en
recursos humanos. La integración de los escenarios comercial ambos casos está constituida por el DWE. Algunas
y contable favorece la conciliación entre ellos, para lo cual se transformaciones fueron aplicadas al origen de datos, por
modeló el esquema Validación que se muestra en la Fig. 2. ejemplo en la creación de columnas calculadas, para lo cual se
utilizó el lenguaje MDX en el modo multidimensional y DAX
en el modo tabular. Una vez delimitada la disposición de la
fuente de datos, se instrumentaron las estructuras para el WI
según los esquemas dimensionales diseñados. En el modelo
tradicional cada esquema se implementó creando cubos
multidimensionales con las medidas y dimensiones
respectivas. En el modelo tabular los esquemas se
implementaron mediante tablas relacionadas entre sí.
En cuanto a las funcionalidades analíticas, el modelo
Figura 2. Esquema dimensional “Validación”.
multidimensional dispone de forma natural de un mayor
En el diseño se modelaron las jerarquías entre los atributos número de funciones, y en el tabular algunas de las que no
presentes en cada dimensión. En particular, la dimensión ofrece originalmente se pueden lograr mediante DAX. Por
Entidad representa los establecimientos de CIMEX e incluye ejemplo, el modelo tabular no ofrece las acciones,
varias jerarquías, entre ellas: Entidades, que representa la agregaciones, relaciones muchos-muchos, reescritura, ni
estructura organizacional y es una jerarquía no balanceada o traducciones, sin embargo, se pueden lograr utilizando DAX:
parent-child; y Clasificación Comercial, que categoriza los las medidas semiaditivas, DistinctCount y las jerarquías
establecimientos y es una jerarquía balanceada. Con vistas a parent-child [6][8]. Por otra parte, ambos modelos disponen
almacenar la historia de los cambios en las dimensiones, se de las medidas calculadas, drillthrough, jerarquías, KPI,
decidió definir llaves sustitutas y utilizar el método de añadir particiones y perspectivas.
un nuevo registro con las modificaciones efectuadas [28]. Otra Entre las funcionalidades más atractivas empleadas en el
característica importante en los modelos multidimensionales WI se encuentran las medidas semiaditivas y las jerarquías
es la granularidad, pues representa el nivel de detalle en el que parent-child. Un ejemplo de uso de las medidas semiaditivas
se almacenan los registros. En la propuesta, se decidió que es el cálculo del Saldo Final en el Mayor General. Como en el
correspondiera al nivel mensual en la dimensión Período y al modo multidimensional este tipo de agregaciones está incluida
nivel de detalle en la dimensión Producto. entre las funciones disponibles, su implementación y la de
otras medidas similares se realizó de manera directa; pero en
3. Desarrollo de la solución BI el modo tabular fue necesario instrumentarlas con fórmulas
El proceso de integración de los datos en las soluciones BI, DAX. Un ejemplo de utilización de las jerarquías parent-child
conocido por ETCL (Extract, Transform, Cleaning and Load), es la instrumentación del organigrama de entidades de
agrupa un conjunto de concepciones, técnicas y subprocesos CIMEX. Es conveniente acotar que las jerarquías parent-child
que se encargan de llevar a cabo las tareas relacionadas con la del modelo multidimensional en ocasiones son lentas, y
obtención, manipulación, depuración y actualización del utilizando funciones DAX sobre jerarquías balanceadas en el
almacén de datos [29]. Estos procesos se implementaron para modelo tabular pueden resultar más eficientes [6]. Una vez
la población del DWE sobre la herramienta SQL Server 2012 creadas las estructuras multidimensionales y tabulares, se
Integration Services (SSIS). Se contempló especialmente la implementaron dos procesos ETCL para poblar las respectivas
depuración de los datos en términos de la detección de bases de datos informacionales empleando una tarea del tipo
incongruencias o información omitida. Analysis Services Processing Task. Ambos se ejecutarán
El proceso ETCL desarrollado está compuesto por tres periódicamente mediante un servicio SQL Server Agent.
módulos principales que se ejecutan de forma periódica, de La solución propuesta también incluye el componente de
modo que se actualice el repositorio de datos a partir del presentación de la información, para lo que aprovechó la
estado resultante de la ejecución anterior. En el flujo de riqueza visual de Power View y las facilidades que ofrece
ejecución se implementó la población completa de las Power Pivot. Los informes diseñados responden a un conjunto
dimensiones utilizando técnicas de concurrencia con el de consultas frecuentes, facilitan obtener resúmenes de los
objetivo de minimizar su costo computacional [29][30]. Las principales conceptos comerciales, favorecen el análisis de los
tablas de hechos correspondientes a los sujetos de análisis del resultados a partir de la visualización en mapas según la
DWE, contienen un gran volumen de datos por lo que se ubicación geográfica de las entidades de CIMEX, así como la
pueblan aplicando un filtro por períodos. La población del WI navegación por los distintos niveles jerárquicos. Los
corresponde a la implementación de las bases de datos resultados se publican en un sitio de Share Point y pueden ser
analíticas en SSAS 2012. Este proceso fue instrumentado en editados por los propios directivos según sus intereses.
los modos multidimensional y tabular, constituyéndose un
escenario real de validación y evaluación de ambos modelos.
SIMÓN CUEVAS et al.: COMPARING TABULAR AND MULTIDIMENTIONAL 3397
8000
6307
En la Tabla I se puede apreciar que el tiempo de población 5307
6000
fue menor en el modelo tabular, lo que evidencia la capacidad
4000 3063
del motor analítico xVelocity. Es preciso señalar que en este
modelo el volumen de datos se maneja completamente en la 2000 360 644 729 667
120
RAM, a diferencia del multidimensional, que almacena los 0
datos en disco, lo que resulta más apropiado para enormes Consul ta 1 Consulta 2 Consul ta 3 Consul ta 4
volúmenes de datos. El tamaño del WI obtenido fue de 600-
Modo Tabular Modo Multidimensional
700 Mb.
Experimento 3: Se diseñó con el objetivo de comparar Figura 4. Consumo de tiempo de CPU (ms).
ambos modelos en cuanto a su eficiencia en la respuesta a
3398 IEEE LATIN AMERICA TRANSACTIONS, VOL. 14, NO. 7, JULY 2016
1366 1375 1360 1389 muestran las características esenciales de los servidores de
1,500
SSAS que se deben tener en cuenta para la selección del
1,000 modelo a utilizar según los recursos disponibles [6].
500 TABLA II
127 112 120 153
CARATERÍSTICAS DE LOS SERVIDORES DE SSAS
0
Consul ta 1 Consulta 2 Consul ta 3 Consul ta 4 CARACTERÍSTICAS MULTIDIMENSIONAL TABULAR
RAM Menos (16/32 Gb) Bastante (64/128Gb)
Modo Tabular Modo Multidimensional Velocidad de RAM Es importante Es crucial
Número de CPU 4 / 8 / 16 4 / 8 / 16
Figura 5. Consumo de memoria RAM (Mb). Velocidad de CPU Menos importante Es crucial
Utilización de SSD Fuertemente recomendado No se utiliza
Velocidad de la red Importante Importante
Experimento 4: Se concibió con el objetivo de explorar la
capacidad de la solución BI y de los modelos instrumentados En general, se recomienda instrumentar ambos tipos de
para responder a los intereses organizacionales, con énfasis en modelos a la vez en las soluciones BI y propiciar que sean
la presentación de los resultados. aplicados convenientemente en dependencia de los objetivos
Como punto de partida, se elaboraron diez informes a definidos y los recursos disponibles. La instrumentación del
través de Excel y Power View dando respuesta a las solicitudes modelo tabular resulta apropiada en escenarios que requieran
contempladas y poniéndose a disposición de los usuarios la creación de un data warehouse con pequeño volumen de
finales las facilidades de “autoservicio” para su creación y datos y capacidades limitadas de hardware. Este modelo
actualización, que podían variar según el modelo analítico resulta más familiar a los desarrolladores de bases de datos,
subyacente. En la Fig. 6 se muestra un ejemplo de un reporte por lo que pueden desarrollar sus soluciones BI con relativa
que visualiza los saldos de cuentas por cobrar y pagar de las rapidez. El modelo multidimensional incorpora numerosas
sucursales. En el caso del modo tabular, siempre que se contó funcionalidades para la creación de soluciones BI con una
con datos de ubicación geográfica, fue posible visualizar los lógica de negocio compleja y que requieran el manejo de datos
valores de las ventas por entidades en gráficos de mapas con en el orden de los terabytes. Por estas razones se considera que
posibilidades de navegación (Fig. 7). Sin embargo, utilizando el modelo multidimensional en SSAS 2012 sigue siendo la
el modelo multidimensional el resultado solo se pudo opción más completa para el desarrollo de bases de datos
presentar de manera tradicional, o sea, en forma de tablas. analíticas. Sin embargo, el modelo tabular puede responder
satisfactoriamente en escenarios restringidos y favorecer la
aceptación del usuario final en el entorno. Se comprobó que
las técnicas utilizadas en el motor de búsquedas del modelo
tabular (almacenamiento por columnas, compresión de datos,
caché en memoria, entre otras), lo proveen de un
comportamiento superior en cuanto al rendimiento de las
consultas analíticas. Respecto a la presentación de los datos, el
modelo tabular ofrece a los ejecutivos mejores facilidades para
la exploración de la información y potencia el autoservicio.
VI. CONCLUSIONES
En el presente trabajo fueron evaluados los modelos
Figura 6. Ejemplo de informe utilizando Power View sobre Share Point. multidimensional y tabular a través del desarrollo de una
solución real de BI que integró información comercial,
contable, económico-financiera y de recursos humanos de
CIMEX Co. Se constató que el modelo tabular no constituye
un aporte conceptualmente diferente, sino una implementación
alternativa del modelo dimensional de datos para la
herramienta de procesamiento analítico SSAS 2012. No
obstante, el uso de técnicas como el almacenamiento columnar
y las bases de datos in-memory en la implementación del
modelo tabular le proporciona cualidades prometedoras y de
Figura 7. Visualización de la información a través de un mapa. interés actual. Las comparaciones cualitativas y
experimentales realizadas arrojaron que el modelo tabular es
Los resultados obtenidos muestran que el uso del modelo más conveniente en escenarios con pequeños volúmenes de
tabular con grandes volúmenes de datos exige elevados datos y capacidades limitadas de hardware, por otra parte, el
recursos de hardware, específicamente, memoria principal, multidimensional es más apropiado para modelar soluciones
reafirmando lo planteado por Russo [6]. En la Tabla II se más complejas y de grandes volúmenes de datos. El motor de
SIMÓN CUEVAS et al.: COMPARING TABULAR AND MULTIDIMENTIONAL 3399