You are on page 1of 8

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

net/publication/308972999

Comparing Tabular and Multidimentional Model in a real BI solution

Article  in  IEEE Latin America Transactions · July 2016


DOI: 10.1109/TLA.2016.7587647

CITATION READS
1 696

5 authors, including:

Alina Simon Maité Torres-Sánchez


The University of Calgary MedCloud Depot
12 PUBLICATIONS   8 CITATIONS    12 PUBLICATIONS   10 CITATIONS   

SEE PROFILE SEE PROFILE

Lucina García Alfredo Simón-Cuevas


University of Havana Universidad Tecnológica de la Habana "José Antonio Echeverría" (CUJAE)
27 PUBLICATIONS   15 CITATIONS    80 PUBLICATIONS   125 CITATIONS   

SEE PROFILE SEE PROFILE

Some of the authors of this publication are also working on these related projects:

Data Science from the data perspective View project

MODEL RECOMMENDATION OF INFORMATION WITH SEMANTIC NOTE FOR WEB SEARCH ENGINES View project

All content following this page was uploaded by Alfredo Simón-Cuevas on 03 July 2018.

The user has requested enhancement of the downloaded file.


IEEE LATIN AMERICA TRANSACTIONS, VOL. 14, NO. 7, JULY 2016 3393

Comparing Tabular And Multidimensional Model In


A Real BI Solution
A. Simón, M. Torres, L. García, A. Simón and R. Ravelo

Abstract— The increase of accumulated data amount in los datos [3][4]. Sin embargo, varios autores han defendido la
organizations have provoked the emergence of new requirements propuesta del almacenamiento lógico columnar, basado
of more complex and efficient analysis tools, context in which the esencialmente en la transposición de los ficheros para mejorar
Business Intelligence spring up as a discipline for boarding this el desempeño de las consultas [3]. Mediante esta propuesta se
problem. The improvement of the efficiency in the storage and
access to analytical databases has been reported in many trata de beneficiar el procesamiento analítico de los datos,
researches, upon which results several companies have caracterizado por demandas que requieren el agrupamiento o
introduced commercial products. Microsoft SQL Server 2012 la agregación de grandes cantidades de datos sobre unas pocas
offers two independent alternatives for creating analytical columnas, desde la perspectiva de los índices de proyección a
models, the classic multidimensional model and the more recent través de las filas (column-oriented) [5].
tabular model. In this paper was carried a comparative analysis Con el desarrollo del hardware, las tecnologías han
of both models out looking deeply into their features and
potentialities. Several important considerations for undertaking evolucionado ostensiblemente, favoreciendo el
a new BI project based on Microsoft platform are suggested. A aprovechamiento de las nuevas técnicas de gestión de bases de
BI solution that provides particular and integrated visions of the datos en memoria (in-memory databases) y el almacenamiento
business status of CIMEX Co. was developed as real context to columnar para la optimización de las consultas en soluciones
perform the comparative analysis. In order to testing the analíticas. Un resultado de ello lo constituye Microsoft SQL
proposed solution and identifying the strengths and weaknesses Server 2012 (y sus versiones posteriores), el cual ofrece dos
of each model in different scenarios some experiments were
performed. opciones independientes para la creación de los modelos
analíticos que representan la lógica del negocio, el clásico
Keywords— Business Intelligence, Multidimensional Model, modelo multidimensional y el reciente modelo tabular que no
Tabular Model, Columnar Databases, In-memory Databases. constituye un remplazo del modelo multidimensional, sino
otra técnica para la instrumentación del procesamiento
I. INTRODUCCIÓN analítico de los datos [6]. El modelo tabular se ha convertido
en una alternativa interesante a considerar en el marco de la
L OS AVANCES tecnológicos de los últimos años han
provocado una gran revolución, al incrementar la
disponibilidad de acceso a la información. A medida que ha
toma de decisiones, especialmente en cuanto a la potenciación
de las funcionalidades de “autoservicio” [6][7].
El surgimiento de esta nueva y atractiva propuesta de
aumentado la cantidad de datos acumulados y las exigencias
Microsoft para la concepción y desarrollo de soluciones
de los directivos, han proliferado las necesidades de análisis
analíticas constituyó fuente importante de motivación para el
mucho más complejos para alcanzar el éxito. En este contexto
desarrollo de esta investigación, a través de la que se aportan
surge la Inteligencia de Negocios (BI, Business Intelligence)
consideraciones en cuanto a: ¿Por qué se propone un nuevo
[1] que reúne un conjunto de metodologías, procesos,
modelo de análisis de datos cuando ya existía el modelo
arquitecturas y tecnologías que permiten transformar los datos
multidimensional con más de una década de explotación?;
en información útil e importante para formular ideas
¿Cuáles son las ventajas que ofrece el modelo tabular con
estratégicas, tácticas y operativas, eficaces para la toma de
respecto a su precedente?; ¿En qué contextos se debe utilizar
decisiones [2]. Numerosas compañías de software han
uno u otro, o bien si ambos son necesarios? Las interrogantes
desarrollado plataformas que ofrecen a las empresas un
han sido analizadas en un entorno organizacional real,
producto completo que responde a las diferentes etapas del
específicamente en el Grupo Empresarial CIMEX.
proceso de BI, a partir de las cuales es posible generar
El Grupo Empresarial CIMEX es líder nacional en el
soluciones de BI propias. La mayoría de los sistemas de
mercado comercial mayorista y minorista, y tiene como
gestión de bases de datos que ofrecen herramientas para
principal objetivo la adquisición y la comercialización de
realizar el procesamiento analítico de grandes volúmenes de
productos y servicios. Adicionalmente constituye uno de los
datos (OLAP, On Line Analytic Processing), se apoyan en la
principales referentes nacionales en cuanto al desarrollo de
tecnología de almacenamiento orientada a filas/registros (row-
herramientas de BI en función de mejorar los procesos de
oriented), optimizada para el procesamiento transaccional de
dirección en la organización.
En el marco de la investigación se concibió y diseñó una
A. Simón, Grupo Empresarial CIMEX, Cuba, asimonc@gmail.com solución computacional basada en el paradigma de BI [1], a
M. Torres, Universidad de La Habana, Cuba, maitets@matcom.uh.cu través de la cual se implementaron los modelos
L. García, Universidad de La Habana, Cuba, lucina@matcom.uh.cu multidimensional y tabular sobre SQL Server 2012 Analysis
A. Simón, Universidad Tecnológica de La Habana José Antonio
Echeverría, CUJAE, Cuba, asimon@ceis.cujae.edu.cu Services (SSAS). La solución desarrollada permitió realizar
R. Ravelo, Universidad de La Habana, Cuba, r.ravelo@lab.matcom.uh.cu análisis sobre los principales indicadores comerciales,
Corresponding author: Alfredo Simón.
3394 IEEE LATIN AMERICA TRANSACTIONS, VOL. 14, NO. 7, JULY 2016

contables, económico-financieros y de recursos humanos de la más difundidas es la plataforma de BI de Microsoft, elegida en


empresa y proporciona un ambiente para las consultas este estudio por las facilidades que brinda, así como por su
dinámicas con funcionalidades de autoservicio, siguiendo una utilización a nivel mundial y en CIMEX, como escenario
de las más importantes tendencias de la industria en los particular.
últimos años [6][8]. Al mismo tiempo, constituyó un escenario Colin White publicó un estudio de los diferentes modelos
práctico real sobre el cual se exploraron los modelos que adopta OLAP y cuyo resultado ha sido muy reconocido
multidimensional y tabular en el procesamiento analítico de [14]. Esta tecnología permite navegar por la información de
los datos de la empresa, enriqueciendo las valoraciones forma jerárquica, ofreciendo análisis numéricos y estadísticos,
comparativas reportadas por otros autores [9][10][11][12]. El con la posibilidad de obtener reportes rápidos y flexibles que
análisis de los modelos se llevó a cabo mediante cuatro favorecen la comprensión del estado del negocio. El Modelo
experimentos realizados sobre todas las sucursales de CIMEX, Multidimensional es una de las propuestas más significativas
obteniéndose como resultado un conjunto de consideraciones para la representación de los datos en función del
generales en cuanto a las fortalezas y las debilidades de cada procesamiento informacional, el cual está basado en el uso de
enfoque. un cubo como una estructura multidimensional de los datos,
Las contribuciones principales del trabajo son: afín con los sujetos de análisis del negocio, empleando dos
- Un análisis comparativo entre los modelos componentes fundamentales: los hechos y las dimensiones.
multidimensional y tabular sobre el desarrollo de una Por otra parte, en SQL Server 2008 R2 se incorporó una
solución real de BI para una gran empresa. herramienta para el manejo de tablas dinámicas, llamada
- Concepciones generales sobre las fortalezas y las Power Pivot. Power Pivot se ha implementado como un plug-
debilidades de cada modelo para una elección más in y utiliza un motor analítico denominado VertiPaq, cuyo
objetiva ante diferentes escenarios. funcionamiento se apoya en el almacenamiento por columnas
El trabajo se organiza a continuación en cinco secciones. que posibilita procesar millones de registros con bajos tiempos
En la sección II, se abordan los conceptos fundamentales del de respuesta. Esta herramienta extiende las capacidades de
paradigma de BI, haciendo énfasis en el procesamiento Excel para el análisis de información con cantidades masivas
analítico de los datos sobre la plataforma de Microsoft. En la de datos [15], siendo DAX (Data Analysis Expression) el
sección III, se expone la esencia del modelo tabular. En la lenguaje de codificación de fórmulas analíticas que se utiliza
sección IV se enfatiza en el empleo de los modelos analíticos para definir cálculos personalizados en las tablas dinámicas de
multidimensional y tabular en la solución BI propia. En la Excel y en los modelos tabulares a través de Power Pivot.
sección V se realiza una breve comparación de ambos
modelos sobre la base de resultados experimentales. III. MODELO ANALÍTICO TABULAR
Finalmente se presentan las conclusiones y líneas futuras en la La insuficiente autonomía de los ejecutivos ante las
sección VI. herramientas de soporte a la toma de decisiones ha sido uno de
los frenos del desarrollo informático en las empresas, lo que
II. INTELIGENCIA DE NEGOCIOS conduce a la necesidad de diseñar soluciones computacionales
sobre modelos de datos que respondan mejor a las exigencias
En la actualidad, los encargados de tomar decisiones
actuales de los usuarios respecto a la dinámica en el análisis
reconocen que es imposible actuar basándose solo en la
de la información. La concepción e instrumentación del
intuición para hacer crecer una empresa o lograr éxito en el
modelo tabular, introducida con las tablas dinámicas de Excel
mercado, sino que es preciso realizar análisis fundamentados
está basada en lograr un mayor acercamiento de los directivos
en el comportamiento de los principales indicadores del
a la interacción, exploración y visualización personalizada de
negocio [13]. En respuesta a esto, han emergido un conjunto
los datos, potenciando las funcionalidades de “autoservicio”.
de conceptos, modelos y tecnologías, cuya integración facilita
A diferencia del enfoque multidimensional, los conceptos
la conducción sólida de cualquier institución.
básicos del modelo tabular se heredan del modelo relacional
BI constituye una estrategia de desarrollo paulatino de
aunque con roles diferentes. Los conjuntos de datos analíticos
soluciones computacionales que transforman los datos
se presentan en tablas pero se manipulan por columnas. Esta
primarios en información y conocimiento en función de la
concepción resulta más simple, flexible y cercana a los
misión y la visión de la organización. Las exigencias actuales
usuarios finales [8][9]. El modelo tabular instrumenta la
del mercado han motivado que el paradigma BI se convierta
mayoría de las funcionalidades analíticas del modelo
en un modelo tecnológico de control y crecimiento
multidimensional con efectividad y, en ciertos casos, con
corporativo para lograr competitividad, de modo que las
mayor eficiencia [16]. A partir de la versión SSAS 2012
soluciones integrales se incorporan a la gestión de las
Tabular, el motor de búsqueda VertiPaq fue renombrado como
empresas cubriendo los requerimientos informacionales de sus
el motor de búsqueda analítico en memoria xVelocity, y aportó
ejecutivos. En este ámbito, la presente investigación se centra
un cambio sustancial en el rendimiento de las consultas
en el área del procesamiento analítico de los datos, como
analíticas dada la utilización de técnicas tales como:
tecnología encargada de garantizar eficientemente la salida de
almacenamiento por columnas, compresión de datos, caché en
la información y donde diversas compañías brindan
memoria y algoritmos de escaneo y agregación de datos en
plataformas para desarrollar soluciones propias. Una de las
paralelo [17][18].
SIMÓN CUEVAS et al.: COMPARING TABULAR AND MULTIDIMENTIONAL 3395

El almacenamiento por columnas significa que cada página (ODS, Operational Data Store) con información diaria
de datos contiene valores de una sola columna; además, en el detallada y mecanismos de actualización frecuente. A través
proceso de indización se conservan los valores repetidos solo de los ODS se logra tener la información centralizada y
una vez y se sustituyen las cadenas de texto y fechas por consolidada y se asegura su acceso vía web desde cualquier
números enteros, todo lo cual favorece la compresión de los establecimiento mediante reportes estáticos, los cuales están
datos [16]. Este tipo de almacenamiento tiende a ser utilizado sujetos a esquemas predefinidos y con navegación limitada.
en sistemas OLAP por su rápido procesamiento y La mayoría de las aplicaciones desarrolladas responde
optimización [19]. En este modelo, el procesamiento de directamente a los procesos del negocio y no a los sujetos de
consultas requiere más uso de CPU que lectura en disco análisis. Hasta el momento no había sido posible integrar las
[20][21]. Cabe destacar que el almacenamiento por columnas informaciones comerciales, económicas y de recursos
constituye uno de los enfoques emergentes que fundamentan humanos, así como de otras áreas, ni comprobar el grado de
el desarrollo de Big Data [22]. Por su parte, el modelo correspondencia entre ellas para evaluar el funcionamiento
dimensional utiliza el almacenamiento por filas, requiriéndose integral de la organización. Tampoco se garantizaba la
más recursos de lectura de disco y menos CPU. información histórica que posibilitara el análisis retrospectivo.
Las bases de datos in-memory utilizan la memoria principal Esta problemática es parcialmente resuelta mediante la
de la máquina (RAM) para el almacenamiento de los datos. solución BI desarrollada, la cual posibilita el análisis
Desde el punto de vista del usuario final, xVelocity posibilita integrando los datos de diferentes áreas de CIMEX, teniendo
rápidos accesos a los datos almacenados en las bases de datos en cuenta las contribuciones e inconvenientes del empleo de
tabulares utilizando aplicaciones como Excel y Power View, los modelos multidimensional y tabular.
alcanzándose un incremento (de entre 10 y 100 veces) en el
rendimiento de las consultas [18]. Power View consiste en una 2. Propuesta de solución BI
herramienta intuitiva de reportes, mediante la cual los usuarios La solución BI se centra en el diseño e implementación de
pueden interactuar con las vistas de su negocio publicadas en un almacén de datos orientado al análisis, que contiene la
SSAS, cualquiera sea el modelo analítico [23]. información comercial, contable, económico-financiera y de
En SSAS 2012 se introduce el Modelo Semántico de recursos humanos de CIMEX, y su arquitectura se muestra en
Inteligencia de Negocios (BISM, Business Intelligence la Fig. 1. El diseño del almacén de datos se basa en la
Semantic Model), único para las aplicaciones clientes y arquitectura de tres capas reportada en [26], conocida como
además común a todas las formas de presentación de la Enterprise Data Warehouse [27], cuyos componentes
información (ej. reportes, monitores, tableros de mando) [24]. fundamentales son: el data warehouse empresarial (DWE), el
BISM es una plataforma de BI que ofrece capacidades para warehouse informacional (WI) y la presentación de la
presentar la información en el modelo multidimensional (a información.
través de cubos y dimensiones) y en el modelo tabular (a La primera capa de datos corresponde a los ODS
través de tablas y relaciones) [9][25], también está presente en provenientes de los sistemas transaccionales que poseen
la versión SSAS 2014 pero sin cambios conceptuales [10]. información de los procesos económicos, comerciales y de
Esta dualidad de modelos y herramientas en la plataforma recursos humanos. La segunda capa (datos conciliados)
BISM, motivó el examen crítico de ambas alternativas en el corresponde al DWE, el cual constituye un repositorio único
desarrollo de una solución real a ser utilizada por directivos de donde se armoniza la información y se disponen los datos para
CIMEX, con la cual se respondiera a los intereses de la el análisis. La tercera capa (datos derivados) corresponde al
organización. Ello también posibilitaría profundizar en el WI, que posee un diseño multidimensional donde los datos se
estudio de cada enfoque de modo que se identificaran denormalizan para garantizar buenos tiempos de respuestas
bondades e insuficiencias, a considerar en futuros desarrollos. durante las consultas informacionales y la navegación. La
solución posee además una capa final de presentación de la
IV. SOLUCIÓN BI BASADA EN LOS MODELOS información que proporciona mayor dinamismo a partir de la
MULTIDIMENSIONAL Y TABULAR experiencia interactiva con los datos sobre SharePoint.
1. Problemática informacional en CIMEX
La actividad comercial de CIMEX, de alcance nacional y
con una red de más de un millar de tiendas minoristas que
generan diariamente un gran volumen de datos, constituye una
de las áreas de resultados claves de este grupo empresarial.
Por tanto, resulta imprescindible mantener el control de los
procesos principales que tienen lugar en cada uno de esos Figura 1. Arquitectura general de la solución BI.
puntos de venta, como: compra, venta, inventario,
transferencia y ajuste, con el objetivo de brindar información Una de las principales tareas en el desarrollo de la solución BI
actualizada del estado de los indicadores comerciales a los fue identificar los requerimientos informacionales, lo cual se
analistas y directivos, así como a instancias gubernamentales. llevó a cabo a partir de entrevistas e intercambios con los
Actualmente se cuenta con almacenes de datos operacionales analistas y directivos. Se modelaron varios sujetos del
3396 IEEE LATIN AMERICA TRANSACTIONS, VOL. 14, NO. 7, JULY 2016

negocio, tales como: Ventas por la parte comercial, Mayor En la herramienta SQL Server Data Tools se definieron las
General por la parte contable, Indicadores Financieros en el estructuras multidimensionales y tabulares que responden a
escenario económico-financiero y Pagos por la parte de los requerimientos informacionales. La fuente de datos en
recursos humanos. La integración de los escenarios comercial ambos casos está constituida por el DWE. Algunas
y contable favorece la conciliación entre ellos, para lo cual se transformaciones fueron aplicadas al origen de datos, por
modeló el esquema Validación que se muestra en la Fig. 2. ejemplo en la creación de columnas calculadas, para lo cual se
utilizó el lenguaje MDX en el modo multidimensional y DAX
en el modo tabular. Una vez delimitada la disposición de la
fuente de datos, se instrumentaron las estructuras para el WI
según los esquemas dimensionales diseñados. En el modelo
tradicional cada esquema se implementó creando cubos
multidimensionales con las medidas y dimensiones
respectivas. En el modelo tabular los esquemas se
implementaron mediante tablas relacionadas entre sí.
En cuanto a las funcionalidades analíticas, el modelo
Figura 2. Esquema dimensional “Validación”.
multidimensional dispone de forma natural de un mayor
En el diseño se modelaron las jerarquías entre los atributos número de funciones, y en el tabular algunas de las que no
presentes en cada dimensión. En particular, la dimensión ofrece originalmente se pueden lograr mediante DAX. Por
Entidad representa los establecimientos de CIMEX e incluye ejemplo, el modelo tabular no ofrece las acciones,
varias jerarquías, entre ellas: Entidades, que representa la agregaciones, relaciones muchos-muchos, reescritura, ni
estructura organizacional y es una jerarquía no balanceada o traducciones, sin embargo, se pueden lograr utilizando DAX:
parent-child; y Clasificación Comercial, que categoriza los las medidas semiaditivas, DistinctCount y las jerarquías
establecimientos y es una jerarquía balanceada. Con vistas a parent-child [6][8]. Por otra parte, ambos modelos disponen
almacenar la historia de los cambios en las dimensiones, se de las medidas calculadas, drillthrough, jerarquías, KPI,
decidió definir llaves sustitutas y utilizar el método de añadir particiones y perspectivas.
un nuevo registro con las modificaciones efectuadas [28]. Otra Entre las funcionalidades más atractivas empleadas en el
característica importante en los modelos multidimensionales WI se encuentran las medidas semiaditivas y las jerarquías
es la granularidad, pues representa el nivel de detalle en el que parent-child. Un ejemplo de uso de las medidas semiaditivas
se almacenan los registros. En la propuesta, se decidió que es el cálculo del Saldo Final en el Mayor General. Como en el
correspondiera al nivel mensual en la dimensión Período y al modo multidimensional este tipo de agregaciones está incluida
nivel de detalle en la dimensión Producto. entre las funciones disponibles, su implementación y la de
otras medidas similares se realizó de manera directa; pero en
3. Desarrollo de la solución BI el modo tabular fue necesario instrumentarlas con fórmulas
El proceso de integración de los datos en las soluciones BI, DAX. Un ejemplo de utilización de las jerarquías parent-child
conocido por ETCL (Extract, Transform, Cleaning and Load), es la instrumentación del organigrama de entidades de
agrupa un conjunto de concepciones, técnicas y subprocesos CIMEX. Es conveniente acotar que las jerarquías parent-child
que se encargan de llevar a cabo las tareas relacionadas con la del modelo multidimensional en ocasiones son lentas, y
obtención, manipulación, depuración y actualización del utilizando funciones DAX sobre jerarquías balanceadas en el
almacén de datos [29]. Estos procesos se implementaron para modelo tabular pueden resultar más eficientes [6]. Una vez
la población del DWE sobre la herramienta SQL Server 2012 creadas las estructuras multidimensionales y tabulares, se
Integration Services (SSIS). Se contempló especialmente la implementaron dos procesos ETCL para poblar las respectivas
depuración de los datos en términos de la detección de bases de datos informacionales empleando una tarea del tipo
incongruencias o información omitida. Analysis Services Processing Task. Ambos se ejecutarán
El proceso ETCL desarrollado está compuesto por tres periódicamente mediante un servicio SQL Server Agent.
módulos principales que se ejecutan de forma periódica, de La solución propuesta también incluye el componente de
modo que se actualice el repositorio de datos a partir del presentación de la información, para lo que aprovechó la
estado resultante de la ejecución anterior. En el flujo de riqueza visual de Power View y las facilidades que ofrece
ejecución se implementó la población completa de las Power Pivot. Los informes diseñados responden a un conjunto
dimensiones utilizando técnicas de concurrencia con el de consultas frecuentes, facilitan obtener resúmenes de los
objetivo de minimizar su costo computacional [29][30]. Las principales conceptos comerciales, favorecen el análisis de los
tablas de hechos correspondientes a los sujetos de análisis del resultados a partir de la visualización en mapas según la
DWE, contienen un gran volumen de datos por lo que se ubicación geográfica de las entidades de CIMEX, así como la
pueblan aplicando un filtro por períodos. La población del WI navegación por los distintos niveles jerárquicos. Los
corresponde a la implementación de las bases de datos resultados se publican en un sitio de Share Point y pueden ser
analíticas en SSAS 2012. Este proceso fue instrumentado en editados por los propios directivos según sus intereses.
los modos multidimensional y tabular, constituyéndose un
escenario real de validación y evaluación de ambos modelos.
SIMÓN CUEVAS et al.: COMPARING TABULAR AND MULTIDIMENTIONAL 3397

V. ANÁLISIS DE LOS RESULTADOS consultas. Se concibieron cuatro consultas con diferentes


La solución propuesta fue validada y los modelos niveles de complejidad para lograr una mayor riqueza en el
multidimensional y tabular fueron evaluados en el análisis de los resultados, las que se ejecutaron cinco veces
procesamiento analítico de fuentes de datos de CIMEX a por cada enfoque para tener una mayor precisión en las
través de cuatro experimentos y considerando los datos de mediciones. Las consultas fueron orientadas a lo siguiente:
todas las sucursales de CIMEX de cinco años de historia - Consulta 1: Calcular el margen comercial por tipo de
(2010-2014). Los experimentos se realizaron en una PC con entidad comercial.
sistema operativo Windows 8.1 sobre una arquitectura de 64 - Consulta 2: Calcular el saldo en cuentas por pagar a
bit, CPU QuadCore Intel Core i7-4790 K, 4000 MHz (4400 Proveedores por Sucursales.
Mhz with Turbo Boost), 8Mb Cache L3, 2 Mb Cache L2, 24 - Consulta 3: Calcular el débito y el crédito por Tipos de
Gb (DDR3 SDRAM) 2400Mhz, y 240 Gb SSD Kingston de Cuentas para las entidades de tipo Complejos.
almacenamiento. - Consulta 4: Calcular el importe promedio mensual en las
Experimento 1: Se concibió con el objetivo de comprobar ventas por Líneas de Producto y por Establecimiento.
la capacidad de los procesos ETCL implementados para Todas las consultas se ejecutaron satisfactoriamente y en
poblar el DWE, procedimiento que es independiente de los las Fig. 3, 4 y 5 se resumen los resultados obtenidos.
modelos multidimensional y tabular. Para analizar los tiempos
de ejecución de la carga histórica inicial y estimar su posterior 5000 4437

actualización mensual (período de actualización del DWE), se 4000 3531

dividió el experimento en tres fases: (1) Población de los 3000


criterios de análisis; (2) Carga de los datos de las compras en 2000
los últimos cinco años; y (3) Ejecución de todos los procesos 1000 658 639 654
228 115 169
ETCL para cinco años.
0
Como resultados, en la fase 1 se cargaron 1.3 millones de Consul ta 1 Consulta 2 Consul ta 3 Consul ta 4
registros de dimensiones en un tiempo de 9 min; en la fase 2
se cargaron 2.9 millones de registros de hechos de compras de Modo Tabular Modo Multidimensional
cinco años (2010-2014) en un tiempo de 9 min, para un
Figura 3. Consumo de tiempo total de ejecución (ms).
estimado mensual de 48 mil registros en 9 seg.; y en la fase 3
se cargaron aproximadamente 42 millones de hechos
El tiempo total de ejecución de las consultas fue mejor
(correspondientes a todos los procesos) en casi 3 horas, de
usando el modelo tabular (Fig. 3) y también con este modelo
manera que la base de datos SQL alcanzó un tamaño de 6.5
hubo un menor consumo de tiempo de CPU (Fig. 4). Otro
Gb. Los tiempos de ejecución resultantes se consideran
resultado interesante es que los tiempos totales de respuesta
aceptables, dado el volumen de datos manejados y el
para ambos modelos fueron menores que los respectivos
procesamiento necesario para garantizar la integridad
tiempos de CPU, lo cual se debe en gran medida al
referencial y la integración real de los escenarios contable,
aprovechamiento que se logra de la arquitectura multi-núcleo
comercial, económico-financiero y de recursos humanos.
sobre la cual se ejecutaron las consultas. No obstante, en el
Experimento 2: Se concibió con el objetivo de analizar el
caso de la ejecución de las consultas 2 y 3 usando el modelo
comportamiento de cada uno de los modelos implementados
tabular el aprovechamiento de este arquitectura no se
en la población del WI, específicamente, en la población de la
evidencia de forma significativa dado que las tablas
base de datos multidimensional y en la población de la base de
examinadas no superan los 8 millones de registros, por lo que
datos tabular. En la Tabla I se muestran los resultados del
el motor analítico xVelocity las ejecuta en un solo hilo [6].
tiempo total de ejecución el procesamiento de cinco años.
Lógicamente, mediante el experimento también se evidencia
TABLA I el alto consumo de memoria RAM requerido por el modelo
TIEMPO TOTAL DE EJECUCIÓN DE PROCESOS ETL
tabular (Fig. 5), lo que ratifica la necesidad de disponer de
PARÁMETRO MULTIDIMENSIONAL TABULAR elevados recursos de hardware para el uso de esta alternativa.
Tiempo 10 min. 6 min.

8000
6307
En la Tabla I se puede apreciar que el tiempo de población 5307
6000
fue menor en el modelo tabular, lo que evidencia la capacidad
4000 3063
del motor analítico xVelocity. Es preciso señalar que en este
modelo el volumen de datos se maneja completamente en la 2000 360 644 729 667
120
RAM, a diferencia del multidimensional, que almacena los 0
datos en disco, lo que resulta más apropiado para enormes Consul ta 1 Consulta 2 Consul ta 3 Consul ta 4
volúmenes de datos. El tamaño del WI obtenido fue de 600-
Modo Tabular Modo Multidimensional
700 Mb.
Experimento 3: Se diseñó con el objetivo de comparar Figura 4. Consumo de tiempo de CPU (ms).
ambos modelos en cuanto a su eficiencia en la respuesta a
3398 IEEE LATIN AMERICA TRANSACTIONS, VOL. 14, NO. 7, JULY 2016

1366 1375 1360 1389 muestran las características esenciales de los servidores de
1,500
SSAS que se deben tener en cuenta para la selección del
1,000 modelo a utilizar según los recursos disponibles [6].
500 TABLA II
127 112 120 153
CARATERÍSTICAS DE LOS SERVIDORES DE SSAS
0
Consul ta 1 Consulta 2 Consul ta 3 Consul ta 4 CARACTERÍSTICAS MULTIDIMENSIONAL TABULAR
RAM Menos (16/32 Gb) Bastante (64/128Gb)
Modo Tabular Modo Multidimensional Velocidad de RAM Es importante Es crucial
Número de CPU 4 / 8 / 16 4 / 8 / 16
Figura 5. Consumo de memoria RAM (Mb). Velocidad de CPU Menos importante Es crucial
Utilización de SSD Fuertemente recomendado No se utiliza
Velocidad de la red Importante Importante
Experimento 4: Se concibió con el objetivo de explorar la
capacidad de la solución BI y de los modelos instrumentados En general, se recomienda instrumentar ambos tipos de
para responder a los intereses organizacionales, con énfasis en modelos a la vez en las soluciones BI y propiciar que sean
la presentación de los resultados. aplicados convenientemente en dependencia de los objetivos
Como punto de partida, se elaboraron diez informes a definidos y los recursos disponibles. La instrumentación del
través de Excel y Power View dando respuesta a las solicitudes modelo tabular resulta apropiada en escenarios que requieran
contempladas y poniéndose a disposición de los usuarios la creación de un data warehouse con pequeño volumen de
finales las facilidades de “autoservicio” para su creación y datos y capacidades limitadas de hardware. Este modelo
actualización, que podían variar según el modelo analítico resulta más familiar a los desarrolladores de bases de datos,
subyacente. En la Fig. 6 se muestra un ejemplo de un reporte por lo que pueden desarrollar sus soluciones BI con relativa
que visualiza los saldos de cuentas por cobrar y pagar de las rapidez. El modelo multidimensional incorpora numerosas
sucursales. En el caso del modo tabular, siempre que se contó funcionalidades para la creación de soluciones BI con una
con datos de ubicación geográfica, fue posible visualizar los lógica de negocio compleja y que requieran el manejo de datos
valores de las ventas por entidades en gráficos de mapas con en el orden de los terabytes. Por estas razones se considera que
posibilidades de navegación (Fig. 7). Sin embargo, utilizando el modelo multidimensional en SSAS 2012 sigue siendo la
el modelo multidimensional el resultado solo se pudo opción más completa para el desarrollo de bases de datos
presentar de manera tradicional, o sea, en forma de tablas. analíticas. Sin embargo, el modelo tabular puede responder
satisfactoriamente en escenarios restringidos y favorecer la
aceptación del usuario final en el entorno. Se comprobó que
las técnicas utilizadas en el motor de búsquedas del modelo
tabular (almacenamiento por columnas, compresión de datos,
caché en memoria, entre otras), lo proveen de un
comportamiento superior en cuanto al rendimiento de las
consultas analíticas. Respecto a la presentación de los datos, el
modelo tabular ofrece a los ejecutivos mejores facilidades para
la exploración de la información y potencia el autoservicio.

VI. CONCLUSIONES
En el presente trabajo fueron evaluados los modelos
Figura 6. Ejemplo de informe utilizando Power View sobre Share Point. multidimensional y tabular a través del desarrollo de una
solución real de BI que integró información comercial,
contable, económico-financiera y de recursos humanos de
CIMEX Co. Se constató que el modelo tabular no constituye
un aporte conceptualmente diferente, sino una implementación
alternativa del modelo dimensional de datos para la
herramienta de procesamiento analítico SSAS 2012. No
obstante, el uso de técnicas como el almacenamiento columnar
y las bases de datos in-memory en la implementación del
modelo tabular le proporciona cualidades prometedoras y de
Figura 7. Visualización de la información a través de un mapa. interés actual. Las comparaciones cualitativas y
experimentales realizadas arrojaron que el modelo tabular es
Los resultados obtenidos muestran que el uso del modelo más conveniente en escenarios con pequeños volúmenes de
tabular con grandes volúmenes de datos exige elevados datos y capacidades limitadas de hardware, por otra parte, el
recursos de hardware, específicamente, memoria principal, multidimensional es más apropiado para modelar soluciones
reafirmando lo planteado por Russo [6]. En la Tabla II se más complejas y de grandes volúmenes de datos. El motor de
SIMÓN CUEVAS et al.: COMPARING TABULAR AND MULTIDIMENTIONAL 3399

búsquedas del modelo tabular lo provee de un comportamiento http://office.microsoft.com/en-001/excel-help/power-view-explore-


visualize-and-present-your-data-HA102835634.aspx
superior en cuanto al rendimiento de las consultas analíticas, [24] P. Savjani, BI Solutions using SSAS Tabular Model Succinctly.
con respecto a su precedente. Los resultados alcanzados Morrisville, USA: Synsfusion Inc., 2014.
respaldan la concepción realizada en términos informacionales [25] P. Myers, "Introducing the BI Semantic Model in Microsoft SQL
Server". Microsoft White Papers, 2012.
y el modelo de solución propuesto. [26] B. Devlin, Data Warehouse from Architecture to Implementation,
Addison Wesley Longman, Inc. 1997.
[27] R. Kimball and M. Ross, The Data Warehouse Toolkit : The Complete
REFERENCIAS Guide to Dimensional Modeling, 3th Ed. United States of America:
[1] B. Evelson and N. Nicolson, "Topic Overview: Business Intelligence". Wiley Computer Publishing, 2002.
Forrester Report, 2008. [En Línea]. Disponible en: [28] M. Véliz, "Herramienta genérica para la población del Data Warehouse
https://www.forrester.com/report/Topic+Overview+Business+Intelligen Empresarial". Tesis de Maestría en Ciencia de la Computación.,
ce/-/E-RES39218. Facultad de Matemática y Computación. Universidad de La Habana,
[2] M. Mertens, T. Krahn and H. J. Appelrath, "Utilizing Structured Cuba, 2009.
Information from Multiple External Sources in the Context of the [29] K. S. P. Srinivasu and S. C. Satapathy, "Optimization of ETL Work
Multidimensional Data Model". LNBIP, vol. 157, pp. 88-99, 2013. Flow in Data Warehouse". Int. J. on Computer Science and Engineering
[3] A. Albano, L. De Rosa, C. Dumitrescu, L. Goglia, R. Goglia, and V. (IJCSE), vol. 4, no. 9, pp. 1579-1586, 2012.
Minei, "Another Example of a Data Warehouse System Based on [30] A. Karagiannis, P. Vassiliadis and A. Simitsis, "Scheduling strategies
Transposed Files". LNCS, vol. 3896, pp. 1110-1114, 2006. for efficient ETL execution". Information Systems, vol. 38, no. 6, pp.
[4] O. Boateng, J. Singh, Greeshma, and P. Singh, "Data Warehousing". 927-945, 2013.
Business Intelligence Journal, vol. 5, no. 2, pp. 224-234, 2012.
[5] M. Stonebraker, D. J. Abadi, A. Batkin, X. Chen, M. Cherniack, M. AGRADECIMIENTOS
Ferreira, E. Lau, A. Lin, S. Madden, E. O'Neil, P. O'Neil, A. Rasin, N.
Tran and S. Zdonik, "C-Store: A Column-oriented DBMS". Proc. of the Agradecemos al Grupo de Investigación de Bases de Datos y
31st VLDB Conference, Trondheim, Norway, pp. 553 - 564, 2005. Recuperación de Información de la Universidad de La Habana, por
[6] M. Russo, A. Ferrari and C. Webb, "Microsoft SQL Server 2012 brindar el marco propicio para el desarrollo de investigaciones de
Analysis Services: The BISM Tabular Model". Microsoft Press, 2012. rigor científico en el mundo de la Inteligencia de Negocios. Además,
[7] A. Ferrari, "An Analysis Services Case Study: Using Tabular Models in agradecemos al Grupo Empresarial CIMEX, por permitir desarrollar
a Large-scale Commercial Solution". Microsoft White Paper, 2014.
y enriquecer esta investigación en un contexto real, especialmente a
[8] T. Lachev, Applied Microsoft SQL Server 2012 Analysis Services:
Tabular Modeling, Atlanta, GA, USA: Prologika Press, 2012. Datacimex, su empresa de desarrollo de tecnologías informáticas.
[9] L. Vitt and S. Cameron, "Choosing a Tabular or Multidimensional
Modeling Experience in SQL Server 2012 Analysis Services". Alina Simón Cuevas es Licenciada en Ciencia de la
Computación (2006) en la Universidad de La Habana. Máster
Microsoft White Paper, 2012.
en Ciencia de la Computación (2016) por la Facultad de
[10] "Comparing Tabular and Multidimensional Solutions (SSAS)". MSDN
Matemática y Computación de la Universidad de La Habana.
Library, 2014. Especialista principal del Grupo de Inteligencia de Negocios
[11] K. S. Goff, "The Baker’s Dozen: 13 Differences Between Analysis de la empresa Datacimex, perteneciente al Grupo Empresarial CIMEX.
Services OLAP and Tabular". CODE Magazine, 2013. Miembro del grupo de investigación de Bases de Datos y Recuperación de
[12] A. Whittles, "Analysis Services Tabular or Multidimensional? A Información de la Universidad de La Habana.
performance comparison". 2013. [En Línea]. Disponible en:
http://www.purplefrogsystems.com/blog/2014/03/analysis-services-
tabular-or-multidimensional-a-performance-comparison/ Maité Torres Sánchez, es Licenciada en Ciencia de la
[13] J. C. Aranibar, Sistemas de Información Gerencial para la Computación (2013) en la Universidad de La Habana.
Administración del Desempeño Empresarial. La Paz, Bolivia: Gráfica Profesora del Departamento de Programación e Ingeniería de
Holding s.r.l., 2013. Software de la Facultad de Matemática y Computación de esa
universidad. Miembro del grupo de investigación de Bases de
[14] N. Pendse, "OLAP Architectures". The OLAP Report, 2005.
Datos y Recuperación de Información.
[15] "Power Pivot Add-in". Microsoft Support Web Site. 2010. [En Línea].
Disponible en: http://office.microsoft.com/en-001/excel-help/power-
pivot-add-in-HA101811050.aspx Lucina García Hernández, es Doctora en Ciencias
[16] M. Russo, "BISM: Multidimensional vs. Tabular". Microsoft TechEd Matemáticas, especialidad en Ciencia de la Computación, en
2012, 2012. la Universidad de Leningrado, URSS (1984). Profesora
[17] "xVelocity in SQL Server 2012". Microsoft TechNet Library, 2012. [En Consultante de la carrera de Licenciatura en Ciencia de la
Línea]. Disponible en: https://technet.microsoft.com/en- Computación en la Facultad de Matemática y Computación
us/library/hh922900%28v=sql.110%29.aspx de la Universidad de la Habana. Dirige el Grupo de Investigación de Bases de
[18] D. Leland, "Introducing xVelocity in-memory technologies in SQL Datos y Recuperación de Información.
Server 2012 for 10-100X performance". 2012. [En Línea]. Disponible
en: Alfredo Simón Cuevas es Doctor en Ciencias Técnicas,
https://blogs.technet.microsoft.com/dataplatforminsider/2012/03/08/intr especialidad en Computación (2009), en la Universidad
oducing-xvelocity-in-memory-technologies-in-sql-server-2012-for-10- Tecnológica de La Habana José Antonio Echeverría, CUJAE.
100x-performance/ Profesor del Departamento de Inteligencia Artificial e
[19] P. Lake and P. Crowther, Concise Guide to Databases. A practical Infraestructura de Sistemas Informáticos de la Facultad de
Introduction. Springer-Verlag London: Springer, 2013. Ingeniería Informática de la CUJAE. Dirige el Grupo de Investigación de
[20] J. Sirmon, G. Galloway, C. Gross and K. Gulati, "Performance Tuning Procesamiento de Lenguaje Natural e Ingeniería de Conocimiento.
of Tabular Models in SQL Server 2012 Analysis Services". Microsoft
White Papers, 2013. [En Línea]. Disponible en: Raudel Ravelo Suárez, es Licenciado en Ciencia de la
https://msdn.microsoft.com/en-us/library/dn393915.aspx Computación (2015) en la Universidad de La Habana.
[21] J. Sirmon and H. Steen, "Hardware Sizing a Tabular Solution (SQL
Server Analysis Services)". Microsoft White Papers, 2013. [En Línea].
Disponible en: https://msdn.microsoft.com/en-us/library/jj874401.aspx
[22] J. Hurwitz, A. Nugent, F. Halper and M. Kaufman, Big Data For
Dummies: John Wiley & Sons, Inc., 2013.
[23] "Power View: Explore, visualize, and present your data". Microsoft
Support Web Site, 2013. [En Línea]. Disponible en:

View publication stats

You might also like