You are on page 1of 52

CAPTULO

6
hypercubes o
Espacios
semnticos

Cubos o hypercubes, en el sentido de los modelos de procesamiento analtico en lnea (OLAP)


de trabajo, son esquemas en vivo o activos o pobladas, lo que quiere decir que cualquier
esquema cuyo enlaces de datos estn en uso para que los datos estn conectados al esquema y
siendo manipulados de acuerdo con las reglas o frmulas definidas en ese esquema. Los
enlaces no tienen por qu replicar los datos. Los datos pueden residir en cualquier forma est
dictada por la fuente de datos con tal de que puede ser manipulado a travs de un esquema
multidimensional. Aunque no es tpicamente el caso, los datos se pueden introducir totalmente
a mano directamente en un modelo; en ese caso los enlaces de datos son los que se conecta el
teclado (u otro legado de entrada) para el esquema. (Consulte el Captulo 10 para una
discusin de los diferentes enfoques para el almacenamiento de datos multidimensionales.)

Qu ocurre cuando los datos fuente que podran existir o se cree que existen en realidad
no existen? Qu sucede cuando hay ms datos en el origen de lo que puede tenerse en cuenta
en las definiciones de tipos? Cmo puede uno supone que conectar varias fuentes de datos
diferentes de claridad dimensionalidad como datos de produccin y ventas para un solo
esquema para algn propsito analtico integrado? Hay principios de segmentacin naturales
para la definicin de esquemas?

En este captulo aprender por qu un esquema o modelo poblada constituye lo que llamo
un espacio semntico o una coleccin contigua de hechos o proposiciones que pueden ser
verdaderas o falsas. Usted aprender los pasos que debe tomar para asegurarse de que sus
esquemas estn bien definidos. Usted aprender a identificar y tratar por separado los
dominios de forma natural distintos en sus datos o modelos, y usted aprender a reunirlos
cuando sea necesario en un modelo multidominio.
137
138 Captulo 6

Significado y Sparsity
Uno de los principales atributos de un esquema es su aplicacin de significatividad. Considere
el esquema familiarizado

(Almacenar. Hora. Producto.) ~ Ventas, el Costo

conectado a travs de un conjunto de enlaces de datos con un poco de la tabla T1 (ilustrado en


la Figura 6.1), tales como los siguientes:
Almacenar. ,, Seleccione la columna T1 distinta (Col) 1
Hora. ,, Seleccionar T1Col2 distinta
Producto. ,, Seleccionar T1Col3 distinta
Ventas. ,, Seleccionar T1Col4
Costo. ,, Seleccionar T1Col5
donde el ,, smbolo acta como un operador de asignacin, y distinta significa que las
instancias nicas de cada uno de los tipos de tienda, Tiempo, y el producto se igualan a las
instancias nicas que se encuentran en las columnas a las que estn conectados.
El esquema define un espacio semntico o coleccin contigua de hechos que constan de las
declaraciones o afirmaciones acerca de las ventas y los costes para cada combinacin
storetimeproduct. Si hay 10 tiendas, 10 veces, y 10 productos, hay 1.000 afirmaciones sobre
las ventas y 1.000 afirmaciones acerca de los costos. Cada afirmacin es una fourtuple con
una ubicacin threetuple y un contenido onetuple.

Sales (Store.x, Time.x, Product.x) = Y

Lo anterior se puede leer como El valor salesascontent para la ubicacin definida por x
tienda, Tiempo x, y X es el producto Y. Valor de las ventas
Si una frmula se define para los mrgenes basados en las ventas y los costes, sin ms
especificaciones, se aplicar 1.000 veces, una vez para cada instancia de ventas y los costes.
Las restricciones de integridad, tal como se establece cuando todos los tipos de componentes
se definieron en un principio, se mantienen aqu. Por lo tanto, si usted fuera a tratar de
introducir un valor de cadena u otros outofbounds para las ventas, el esquema sera atraparlo.

col1 col2 col3 col4 COL5

ROW1 store1 time1 product1 $ 500 $ 400

...
...

Row1000 tienda 10 Hora 10 producto 10 $ 400 $ 600

Figura 6.1 Tabla T1 (con slo unos pocos valores de llenado).


Hypercubes o espacios semnticos 139

Adems, y a menos restringido de otro modo, el esquema define el contenido de ventas y


los costes para ser aplicable a toda la coleccin de ubicaciones definidas por las intersecciones
de las tiendas, los tiempos, y productos. Es por esto que hay mil afirmaciones. Por lo tanto, si
est conectado a una fuente de datos, hay lugares en los que estn presentes no hay ventas o
los costes de datos, el esquema (sin ms especificaciones) deben interpretar la falta o escasez
de datos que indican que los datos faltan pero por lo dems prxima.
Otra posible interpretacin para las filas dispersas o no presentes podra ser que slo
existen filas de elementos que se vendieron; por lo tanto, las filas no presentes significan que
cero cantidad de producto se vendi. Otra interpretacin podra ser que las filas no presentes
significan que un determinado producto es, por definicin, no se vende en una tienda
determinada y / o el tiempo y por lo tanto el contenido de ventas y los costes no son aplicables
a ciertas combinaciones de tiendas de veces y productos. Como aprender en las siguientes
secciones, la forma en que se interpretan estas filas no presentes o clulas dispersas o vacos
es crtica para la integridad de la aplicacin en su conjunto. Muchas de las herramientas
OLAP se lamentablemente carecen de mtodos para hacer las distinciones apropiadas, que
pueden conducir a derivaciones de datos incorrectos. Para una tecnologa que demanda a la
fama es la creacin de los datos derivados, eso es un error bastante serio. Un esquema bien
diseados debe correctamente proceso (o permitir que una aplicacin de proceso) todos los
tipos de datos de origen no vlidos por cualquiera de rechazo de ciertos datos, anulando
ciertos datos, sustituyendo ciertos datos, o inferir ciertos datos.

Tipos de Sparsity
Los trminos dispersos y ralitud se asocian frecuentemente con los conjuntos de datos
multidimensionales. Figura 6.2 es una vista de una matriz de cuatro dimensiones escasa. Las
cuatro dimensiones son las tiendas, el tiempo, producto y variables. La vista muestra las
variables y los productos a lo largo de las columnas, las tiendas, y los tiempos a lo largo de las
filas. Ntese que todas las clulas dispersas o en blanco.
Por qu son escasas las clulas dispersas? Qu significa una clula escasa que los datos de
la celda faltan pero potencialmente prxima, como un informe de ventas tarde? Qu significa
una clula escasa que los datos nunca se podran aplicar a la clula, tales como el nombre de
la esposa de un empleado soltera? O es una clula escasa simplemente significa que todos los
ceros estn siendo suprimidas como los ceros asociados con las ventas de productos
individuales en una tienda que lleva muchos productos, sino que slo vende un 5 por ciento de
sus artculos en un solo da?
El trmino escasa ha sido utilizado de manera indiscriminada dentro de la comunidad
OLAP para significar perder, inaplicables, y cero. Los dos primeros casos caen bajo el
epgrafe de lo que en el mundo de base de datos est pensado como datos no vlidos. Es un
tema importante. EF Codd, en sus expandidos 18 caractersticas para OLAP, sugiri que los
modelos OLAP siguen el

Las ventas Las ventas Ventas


indirectas directas totales
Sillas Mesas Total Sillas Mesas Total Sillas Mesas Total
Avon enero 150 150 250 250 400 0 400
febrero 120 220 340 300 150 450 790 370 790
marzo 300 300 300 300 300
Milwaukee enero 600 800 1400 1400 800 1400
febrero 760 200 1350 2550 2550 1350 2550
marzo 300 300 300 0 300

Figura 6.2 Ver un modelo de cuatro dimensiones escasa.


140 Captulo 6

relacional modelo de la versin 2 reglas para el manejo de falta datos.1 Estos implican lo que
se llama la lgica fourvalued. Esto ser tratado en profundidad ms adelante en esta seccin.
El tercer caso, donde el trmino escasez se ha utilizado para referirse a la existencia de
muchos ceros, es un caso especial de cmo manejar un gran nmero de repeticin de valores
donde el valor repetido pasa a ser un cero. El cero es igual de vlido un nmero como
cualquier otro nmero. Tcnicamente, es un nmero entero. Es una afirmacin perfectamente
bien formada decir que la tienda vende x cero unidades de producto y o que la diferencia de
unidades vendidas entre la tienda y guarde y x es cero. Lleva tanto valor como para decir que
la tienda vende x 15 unidades de producto y. Puede aadir restar y multiplicar con ceros
(aunque, por supuesto, no se puede dividir por ellos). Puede compararlos con otras cantidades
y as sucesivamente.
La confusin ha surgido porque las aplicaciones OLAP frecuencia encuentran un gran
nmero de repeticin de ceros y grandes cantidades de falta y datos sin sentido. Las tcnicas
para la optimizacin fsicamente el almacenamiento de un gran nmero de repeticin de
valores son similares a, y a veces el mismo que, las tcnicas para la optimizacin fsicamente
el almacenamiento de grandes cantidades de datos que faltan y los lugares sin sentido o
intersecciones.

El tratamiento ms all de los datos no vlidos


Desaparecidos y los valores sin sentido no son datos vlidos. Que no pueden ser tratados de la
misma manera que cualquier otro valor. No se puede tomar la suma de tres enteros y dos
valores que faltan. No se puede comparar el valor de un nmero entero con el de un token
inaplicable. Se requieren tcnicas especiales lgicas para manejar estos casos. El tratamiento
inadecuado de los nulos puede causar clculos inexactos. Confundir un valor faltante para un
cero, o confundir un cero a un valor perdido, o la asignacin de un valor sustitutivo donde no
es aplicable lugar crear resultados incorrectos. Por ejemplo, si un valor faltante es tratado
como un cero, entonces la suma de 31 6 1Perdido se llamar 9, que est mal. La respuesta
correcta, en ausencia de un valor proxy, est desaparecido o 91 desaparecido."
La exactitud de los clculos es de crucial importancia para el anlisis de los conjuntos de
datos, si son o no son multidimensionales. La cuestin de cmo las frmulas deben trabajar
con los escasos datos es muy importante y se debate con frecuencia en el mundo de base de
datos. Lo que se refiere a la exactitud de los clculos, especialmente en el sentido de las
consultas de bases de datos y clculos, es una cuestin de lgica.
Para la mayor parte de su historia, los lgicos han credo que eran dos valores lgicos:
verdadero y falso. reglas lgicas que se aplican a las bases de datos se expresan en trminos de
estos dos valores. Por ejemplo, la consulta de una base de datos para enumerar todos los
vendedores que vendieron ms de $ 50.000 de producto de marzo puede ser pensado como
posando, para el registro de cada vendedor para marzo, la pregunta Es cierto que este
vendedor vendi ms de $ 50.000 de producto? y una lista de todos los registros en los que la
respuesta es s, la afirmacin es cierta. Esto se ilustra en la Figura 6.3.

Los problemas surgen, sin embargo, cuando los datos no vlidos entran en un sistema
lgico o base de datos. Mira de nuevo en la Figura 6.3. Note la entrada en blanco para el
campo de la comisin en la fila cinco. Ahora imagina la consulta, Es cierto que el valor del
campo de comisin en esta fila es mayor de $ 50,000? Cul sera la respuesta?
Usted podra ser un tipo listo como Aristteles y decir la afirmacin es falsa; es decir, es
falso que el valor del campo comisin es mayor de $ 50,000, simplemente porque no hay
ningn valor. Pero hay un problema con esta respuesta. El problema es que la verdad de la
Hypercubes o espacios semnticos 141

Lista de empleados, ttulos de trabajo y el nmero de aos con la firma


(Ordenados alfabticamente por el nombre del empleado)

Ttulo
Nombre de profesion
empleado al Comisin
Anderson Ventas 75000
Awklin Ventas 65000
Bundy Ventas 82.500
informe de
finales Benson Ventas 58000
Desapa
Burnett Ventas recido
no Caloway Caloway Mrketing N/A
un vendedor
Johnson Ventas 62.500
kreiger Ventas 55000

Figura 6.3 escasez de registros.

respuesta es una funcin de cmo se formul la pregunta. En otras palabras, si la consulta ha


tenido la forma Es cierto que el valor del campo comisin es menor o igual a $ 50.000?, La
respuesta seguira siendo, de acuerdo con la misma lgica, es falsa. Pero de acuerdo a la
lgica, una proposicin y su inversa no pueden ser ambas verdaderas o tienen el mismo valor
de verdad.
Lo ms probable es que le dice: No s si es verdadera o falsa, porque los datos que faltan.
Esta es la aceptacin tcita de su incapacidad para procesar los datos que faltan, como si fuera
inexistente. En la misma lnea, y respondiendo a la misma consulta, si un empleado no sac
una comisin porque esa persona fue a sueldo, entonces el campo de comisin sera
inaplicable, como se muestra en la fila 6 de la figura 6.3. Es decir, la comisin no se aplica
porque el empleado recibe un salario. No aplicable es similar a perdido en que no se
puede procesar como un valor de datos vlidos, pero es diferente de perdido en que sera un
error para asignarle un proxy.
La lgica no tiene reglas para el manejo de datos no vlidos, sin embargo, las cosas tales
como datos que faltan e inaplicable entran regularmente todo tipo de bases de datos,
incluyendo los multidimensionales. Los lgicos estn divididos sobre la mejor manera de
tratar con datos no vlidos. Algunos prefieren usar sistemas lgicos que funcionan con tres o
ms lgicas valores. Trminos tales como desconocido y no aplicable se dan con
frecuencia a estos valores beyondtwovalued. Los valores adicionales entonces entran en el
clculo formal.
El principal problema de los tres y highervalued lgica es que el significado de las
constantes lgicas u operadores, como el trmino negacin, que se han construido y utilizado
con xito durante los ltimos 2.000 aos, depende de la existencia slo dos valores. Es
inconsistente para aadir un tercer o cuarto trmino a la piscina de valores lgicos sin dejar de
utilizar los operadores que asumen slo hay dos values.2, 3
En el modelo relacional, versin 2, Codd aboga por el uso de la lgica fourvalued. Al igual
que otros que han pasado antes, que cambia el significado del trmino negacin, lo que le da
dos significados diferentes, como se ilustra en la figura 6.4.4
Para proposiciones verdaderas y falsas, la negacin de un trmino se obtiene un trmino
diferente con un valor de verdad diferente. La negacin de la verdadera es falsa, y la negacin
de falsa es cierto. por
142 Captulo 6

P no (P)
T F

F T

T = true F = false A = ausente I = sin significado


Figura 6.4 La lgica fourvalued del modelo relacional, versin 2.

desaparecidos y proposiciones inaplicables, la negacin de un trmino es en s misma. Por lo


que la negacin de la falta ha desaparecido y la negacin de la inaplicabilidad es inaplicable.
Esta inconsistencia en la definicin de la negacin produce varios problemas que han sido
descritos elsewhere.5

Algunos prefieren conservar la lgica twovalued debido a sus propiedades deseables de


inferencia y excluir los datos no vlidos de entrar en el system.6 Por lo general, se
caracterizan datos no vlidos, ya sea como resultado de un mal diseo de base de datos o
como datos acerca de los datos (a veces llamados metadatos). Por ejemplo, en lugar de entrar
en el valor nulo para nombre del cnyuge en una base de datos de los empleados cuando un
empleado no tiene cnyuge, que sera mejor para entrar en el valor de los datos vlidos no
en un campo denominado est casado. Un cnyuge separado tabla contendra la
informacin relevante cnyuge. El diseo de la base de datos mejorada eliminara los datos no
vlidos.

El problema con este enfoque es que twovaluesplusmetadata combina dos clases generales
de datos no vlidos: faltan y meaningless.7 Las dos clases necesitan ser tratados de forma
individual, ya que afectan los clculos de diferentes maneras. Ellos simplemente no necesitan
ser tratados como valores lgicos a la par de verdadero y falso. Consideremos el siguiente
ejemplo.

Necesidad de distinguir Missing


y sin sentido
Imagnese que usted es el gerente general de ventas de una cadena de 100 tiendas por
departamentos, e imagine que necesita para calcular las ventas de calzado mensuales
promedio por tienda para todas las 100 tiendas. En el caso simple, todas las 100 tiendas de
venta de zapatos y todos los 100 tiendas reportaron sus ventas de zapatos. La aritmtica es
clara.
Si las 100 tiendas de venta de zapatos, pero slo 80 de las 100 tiendas reportaron sus
ventas, y la media de los 80 locales fue de $ 20.000, la aritmtica ya no es sencillo. No sera
exacto afirmar sin reservas que el promedio de ventas por tienda de calzado fue de $ 20.000.
Cualquier afirmacin acerca de las ventas de calzado que se aplica a todas las tiendas de la
cadena debe, implcita o explcitamente, asignar un valor predeterminado a las tiendas que no
responden. Decir que el promedio de ventas por tienda es de $ 20.000 se supone que el
promedio por tienda de la falta de notificacin es de $ 20.000 tambin. Sin embargo este valor
por defecto para las tiendas que no responden no necesita es igual al valor promedio de los
almacenes de informacin,. Por ejemplo, puede que tenga ms
Hypercubes o espacios semnticos 143

sentido suponer que las tiendas que no responden vender un valor en dlares igual a lo que
vendan el ltimo perodo modificado por alguna funcin de su tasa de crecimiento anterior.
Si la razn por la cual 20 tiendas no inform de las ventas de calzado se debe a que
recientemente dejaron de vender zapatos, entonces ninguna intervencin debe ser creado sobre
la venta de calzado que se aplica a todas las 100 tiendas. En otras palabras, no hay valor por
defecto para la venta de calzado siempre se debe asignar a las tiendas para los que el valor no
tiene sentido. En esta situacin, sera exacto afirmar que el promedio de ventas para las 80
tiendas que venden zapatos es $ 20.000.
Sin embargo, de la misma manera que un valor de proxy puede ser sustituido por un punto
de datos que falta, hay veces en que una medida o variable aplicable, tales como zapatillas,
puede ser sustituido por la variable inaplicable, ventas de zapatos. Por ejemplo, puede ser que
los zapatos son considerados como calzado y, aunque la mayora de tiendas de venta de
zapatos, algunas tiendas especializadas no venden zapatos, pero se venden zapatillas. En este
caso, lo lgico sera que informe sobre la venta de zapatillas (modificado por alguna funcin
adecuada sobre el promedio de ventas de zapatos de las zapatillas), donde una tienda no vende
zapatos.
Por lo tanto, cuando una medida o variable, como por ejemplo la venta de calzado, es
aplicable, pero los valores de datos faltan, sin importar la razn, los valores que faltan tienen
que ser asignado algn tipo de defecto si entran en operaciones con otros datos. (Siempre es
posible estipular que los valores de los datos que faltan ser eliminados de un clculo como,
por ejemplo, cuando la prima ofrecida por la direccin est ligada a las cifras de ventas de su
tienda y el bono no se pueden asignar hasta que se conozcan las cifras reales de ventas.)
Cuando una medida o variable (como las ventas de zapatos) no es aplicable a un lugar por
cualquier razn (por ejemplo, una tienda en particular que dej de vender los zapatos) y no se
utilizan las variables de sustitucin, ningn valor de datos por defecto siempre se debe asignar
a la misma para esa ubicacin.

En general, la existencia / no existencia de datos (tales como informes de ventas) y la


aplicabilidad / inaplicabilidad de medidas (tales como el valor monetario de las ventas de
calzado) pueden variar de un lugar a otro, o una clula a otra, en un modelo. Por ejemplo, si
los informes de ventas son finales, a continuacin, los datos de aplicacin no se encuentra en
esas tiendas. Si una tienda cambia sus lneas de productos, a continuacin, ciertas variables
pueden llegar a ser inaplicables y / o aplicable entre perodos de tiempo.
Desde mi experiencia, y como se describe en el resto de esta seccin, el mtodo ideal es
combinar la lgica twovalued con los procedimientos para detectar faltantes e inaplicable
datos en una basis.8 instancebyinstance Este enfoque permite al usuario incorporar libremente
reglas definidas por el usuario para la sustitucin de las medidas y los datos en caso de
detectar casos no vlidos. Para aquellas situaciones en las que el sistema se queda con los
datos inaplicables faltante y / o reglas formales se utilizan para convertir las expresiones
mixtas que contienen datos faltantes y / o inaplicables en una forma twovalued donde pueden
ser procesados a travs del uso de la lgica proposicional tradicional y consistente .

Definicin de campos de aplicacin


A menos que sus conjuntos de datos son perfectamente denso (que es poco probable) o menos
que todos escasez significa (una vez ms improbable) de cero, es esencial que se mantiene la
distincin entre datos inaplicables en las aplicaciones que faltan y. La forma ms inequvoca
de hacerlo es mediante la definicin explcita campos de aplicacin para aquellos tipos
utilizados como contenidos dentro de un esquema. (Usted puede hacer esto a travs de su
propia documentacin de la aplicacin ya que los rangos de aplicacin no son tpicamente
compatibles con los productos OLAP).
144 Captulo 6

Recordemos cualquier esquema bsico como

(Almacenar. Hora. De productos.) ~ Ventas

Este esquema se espera un valor de venta de todas las tiendas, el tiempo, y la interseccin
producto. Ahora, de hecho, rara vez las tiendas venden todos los productos todos los das. Una
tabla de resumen de ventas tpica que alimentar este tipo de esquema tendra una fila de
informacin para cada producto vendido en una base storebytime. As que ya existe una regla
de interpretacin implcita, a saber que el esquema interpreta la falta de una fila para cualquier
producto en particular para cualquier momento por el almacn en el sentido de que el cero
cantidad de ese producto se vendi en esa tienda ese da.

Ahora, qu ocurre si algunos productos, dicen prendas de invierno, no son aplicables a


(esto es, por definicin, no venden en) ciertos comercios, tales como los del sur de la Florida,
ya sea en general o en determinados momentos? En este caso, el esquema no es realmente
correcto tal como est. Las ventas no son aplicables a todas las intersecciones de tiempo
tienda y producto. Consultas de ventas promedio por tienda de ropa de invierno, como se
muestra en el apartado anterior, sern incorrectos. Tiene que haber alguna manera de
especificar la inaplicabilidad de las prendas de invierno a las tiendas del sur de Florida o la
aplicacin analizar incorrectamente las filas ausentes para prendas de invierno en el sur de la
Florida en el sentido de ceros en lugar de no aplicable. Esta especificacin es la definicin de
un rango de aplicacin y requiere algn dispositivo sintctica para especificar aplicabilidad y
inaplicabilidad.

En Contenido Situado (LC), la aplicabilidad y inaplicabilidad se especifican cuando el tipo


como variable o contenido se define como se muestra a continuacin en una continuacin del
ejemplo anterior.

Sales, (Time. Store.Southern Florida.atunder Product.Winter


garments.atunder) = n / a

La expresin entre parntesis especifica que parte del total de ubicacin-a saber, todas las
intersecciones de tiendas sur de Florida y de invierno prendas para las que las ventas es
inaplicable (n / a). Puede ser portadores de varias preguntas en este momento, como por qu
no defino el rango ubicacin para la cual las ventas era aplicable, o es N / aa valor y si es as a
qu tipo le pertenece, o podra tambin se ha declarado el mismo rango de ubicacin a faltar?

No definen el rango ubicacin para aplicabilidad porque la especificacin inicial esquema


define el contenido, las ventas, segn el caso a travs de toda la gama de tiempos, tiendas, y
productos. Por lo que la definicin de este inaplicabilidad puede ser pensado como una
excepcin o salvedad en relacin con el esquema general de que la precedi. n / a es un valor
lgico y como tal se aplica a cualquier tipo y se puede representar en notacin de puntos como
Type.n / a. Por lo tanto, se podra plantear una consulta para la relacin de aumento de
crecimiento de las ventas de las tiendas que venden prendas de invierno frente a los que no lo
hacen con la siguiente expresin:

Sales_Growth, tienda. (Sales.n / a,


Product.WinterGarments.atunder). / Sales_Growth, tienda. (Sales.a,
Product.WinterGarments.atunder).
Finalmente, de la misma manera que n / a es un valor lgico y se puede utilizar para
calificar cualquier tipo, tambin lo pueden los valores lgicos aplicables a (utilizado en la
expresin anterior), falta

TeamFly
Hypercubes o espacios semnticos 145

metro, Y el presente p. Por lo tanto, la consulta anterior podra ser reformulada para pedir la
relacin de crecimiento de las ventas de las tiendas con el presente frente a las ventas que
faltan, como se muestra aqu:

Sales_Growth, tienda. (Sales.m, Product.WinterGarments.atunder). /


Sales_Growth, tienda. (Sales.p, Product.WinterGarments.atunder).

Rangos de aplicacin en uso


El ejemplo que se muestra en la Figura 6.5 incluye informes de ventas mensuales enviados
desde las tiendas a la oficina en casa. A finales de marzo de 2002, el Ministerio del Interior
quera calcular cuntos zapatos se venden en todas las tiendas en el primer trimestre de 2002
con el fin de afinar los planes para el segundo trimestre. Cuando las cifras reales no estaban
disponibles, una estimacin tuvo que ser utilizado para facilitar el proceso de planificacin.
El 1 de febrero de 2000, como parte de un programa de especializacin, la tienda Buckley
dej de vender zapatos. Las tiendas y Ashmont Painesville no tenan, al 31 de marzo de 2000,
informaron de sus ventas para marzo. Los tipos de datos disponibles en cada tienda, y el mes,
como se destaca en la figura 6.5 (a), indican que la tienda Buckley necesitaba ser eliminado de
los clculos que implican febrero y marzo. Al mantener la informacin de aplicacin, esto se
hace fcilmente.

Los datos disponibles por tienda y meses, como se destaca en la figura 6.5 (b), requiere que
cifras de marzo para las tiendas Ashmont y Painesville estimarse ya que las mediciones fueron
aplicable, pero eran todava disponible.
Considere la siguiente frmula para calcular las ventas de calzado mensuales promedio
aplicados en todas las tiendas de la compaa durante los tres primeros meses de 2000:

Shoe_Sales, L.leaf.above. = Avg (Shoe_Sales.a, L.leaf.)

Si Shoe_Sales, L.leaf. = m
Shoe_Sales, L.leaf. = (Shoe_Sales, (Time.year. (1))) *
Shoe_Sales_Growth_Factor

En otras palabras, la lnea superior dice que el valor promedio para la venta de calzado se
calcular a niveles no hoja de la estructura ubicacin promediando los valores de las ventas de
calzado dondequiera que sean aplicables en el nivel de hoja. Sin ms especificaciones esta
frmula devuelve un valor de perderse si haba algn valores que faltan debido a que no se
dan instrucciones sobre cmo procesar los valores perdidos. La segunda seccin da
instrucciones para procesar los valores perdidos y le dice a mirar el valor de las ventas de
calzado para cada ubicacin de nivel de hoja. Si es aplicable, pero encuentra, entonces
sustituir una aproximacin determinada tomando el valor del ao pasado y multiplicndolo
por un factor de crecimiento esperado. A continuacin, calcular el promedio de ventas de
calzado de todos los valores vlidos adems de todos los valores proyectados.
Dondequiera que la variable ventas zapato es inaplicable, como en la tienda Buckley en
febrero y marzo, no se realizar ninguna sustitucin de esos lugares. Donde la variable ventas
de calzado es aplicable, pero faltan datos, tales como Painesville en marzo, la frmula crear
una estimacin basada en las ventas para el mismo perodo del ao anterior. Si no existieran
las clusulas de aproximacin en la frmula para hacer frente a los datos que faltan, o que a su
vez se encuentra, entonces la frmula en su conjunto sera no evaluables y que volvera a
consecuencia de falta.
146 Captulo 6

u
Los zapatos ya no se comercializa, es necesario excluir estos
n) almacenes meses a partir de
en que intervienen las ventas de
calzado
Mar

En Cosas
vendidas $ Ventas
e Feb abrigos 50
camisas 400
Sombreros 90
Cosas Bufandas 20
Buckley Cosas vendidas $ Ventas vendidas $ Ventas
Zapa tos 150

abrigos 85
abrigos 100
camisas 300 Cosas
camisas 250 vendidas $ Ventas
Sombreros 45 Sombreros sesenta y cinco Zapatos 150
Bufandas 15 Bufandas 15
abrigos 100
camisas 300
Cosas vendidas $ Ventas
Cosas
Middlet own

Sombreros 20
vendidas $ Ventas
Bufandas 20
Zapatos 100 Zapatos 120

abrigos 85 abrigos 75
Cosas
camisas 200 camisas 210
vendidas $ Ventas
Sombreros 30 Sombreros 45
Zapato
Bufandas 30 Bufandas 25
Capa
Shir
Cosas Sombreros
Ashmont vendidas $ Ventas Cosas vendidas $ Ventas
Zapatos 150 Zapatos 105 Cicatriz
abrigos 350 abrigos 110
camisas sesenta y cinco camisas 110 Cosas
vendidas $ Ventas
Sombreros 25 Sombreros 35
Bufandas 15 Bufandas 10 Zapatos
abrigos
camisas
Painesville Cosas vendidas $ Ventas Cosas vendidas $ Ventas Sombreros
Zapatos 85 Zapatos sesenta y cinco Bufandas
sesenta y
abrigos cinco abrigos 45
camisas 15 camisas 10
Sombreros 25 Sombreros 10

Bufandas 10 Bufandas 15

Con el fin de calcular un valor de la participacin de estas cifras no declaradas,


algunas hiptesis implcita o explcita debe hacerse sobre ellos, o
de lo contrario el hecho de que no estn disponibles deben hacer que el resultado
disponible tambin.

venta de
s calzado
e
g
u
n
d
resultado de la
o) muestra Ene Feb Mar
Buckley 150 ... ...
Middletown 100 120 150
Ashmont 150 105 130
sese
nta y
cinc
Painesville 85 o 75
Las ventas
promedio Trimestre
...
todas las
tiendas 103 2/12 N / A
2/12 est.
8/12 real

Figura 6.5 Manipulacin inaplicable frente a los datos que faltan.


Hypercubes o espacios semnticos 147

Evaluacin de expresiones con datos vlidos y no vlidos

El modelo LC ofrece un mtodo general para la evaluacin de frmulas que contienen una
mezcla de datos vlidos y no vlidos. Estos procedimientos se describen y se ilustran en la
Figura 6.6.
El siguiente procedimiento se repite para cada variable en la expresin o frmula. La
aplicacin y la frmula en conjunto determinan la estrategia para decidir qu hacer cuando se
encuentra con una variable inaplicables o datos que faltan. El procedimiento se lleva a cabo
por la ubicacin y por referencia variable dentro de la expresin.

Fase uno: Prueba para Aplicabilidad


Determinar si la variable es aplicable a esta ubicacin. Si no es as, se refieren a la estrategia
de evaluacin para saber qu hacer: sustituir por otra variable o valor, la cada de la variable, o
considerar este clculo no vlida y se detendr. trminos sustituidos siguen las mismas reglas
al igual que otras expresiones, por lo que, si la sustitucin de una variable, traerlo y reinician la
fase uno con ella. En caso contrario, proceder a la fase dos.

Segunda etapa: Prueba de los datos faltantes


Determinar si la variable tiene un valor conocido para esta ubicacin. Si no es as, se
refieren a la estrategia de evaluacin para saber qu hacer: Sustituto en otra expresin, la
cada de la variable, o considerar este clculo no vlida y se detendr. trminos sustituidos
siguen

Repita este procedimiento para cada tipo en cada lugar:

Dada variable en el
frmula siendo evaluado

utilizar variables
sustituto

no puede Dete
No proceder ner
Es aplicable? Compruebe evaluacin
estrategia caer afuera
solta
S r
utilizar valor de sustitucin (o rango) *
utilizar variables
sustituto

no puede Dete
No proceder ner
Est disponible Compruebe evaluacin
de datos?
estrategia caer afuera
solta
S r
utilizar valor de sustitucin (o rango) *

evaluar variables

Tras la parada, la evaluacin de la totalidad de frmula es


detenido.
Tras la cada, la evaluacin contina como si eso
plazo no estaban presentes en frmula original.
Valor de retorno y * Vase el texto para uso de los rangos
estado de validez

Figura 6.6 Procedimiento para el manejo de informacin no vlida / faltante.


(Contina)
148 Captulo 6

Evaluacin de expresiones con datos vlidos y no vlidos (continuacin)

las mismas reglas que las otras expresiones, por lo que, si la sustitucin de un trmino que
contiene las variables, llevar el trmino sustituto y reiniciarlo en la fase uno.

Tercera etapa: Evaluar


En esta etapa, los valores se presentan para el clculo.
Tenga en cuenta que los rangos de valores, as como los valores individuales se puede
sustituir por datos no vlidos. Cuando los datos lgicas (valores de verdad) faltan, el
resultado puede ser, a los efectos de la lgica, verdadero o falso-esencialmente un rango de
valores de falso a verdadero. Clculo de una resultado de esto, a un nivel lgico, sera
equivalente a la creacin de dos escenarios: calcular un resultado, como si el valor fuera
cierto, computando un segundo resultado como si el valor fuera falsa, y luego comparar los
resultados. Si ambos resultados son los mismos, entonces no importaba que los datos se
haba perdido, y ese resultado se puede utilizar. Si los resultados son diferentes, entonces
los datos que faltan es significativa, y el resultado es an desconocido (en espera de ms
sustituciones, por supuesto). Simplificaciones se pueden hacer al proceso a fin de evitar el
requisito de que una computadora procesa realmente todos los resultados posibles, pero la
lgica sigue siendo la misma.

Significado y comparabilidad
En la seccin anterior hemos explorado cmo hacer frente a todo tipo de datos lgicamente
dispersos dentro del contexto de una sola hipercubo, lgico creado tomando el producto
cartesiano de un conjunto de dimensiones y asociarlos en correlacin 1to1 con una coleccin
de variables.

Puede o debe todo lo que puede representar en una sola hipercubo? Qu pasa si tenemos
que aadir dimensiones a un modelo? Hay un lmite en el nmero de dimensiones en un
hipercubo? Hay estructuraciones cubo naturales? Si los hay, cmo decidir si una nueva
dimensin pertenece en un cubo existente o en algn nuevo cubo? Si resulta que tienes varios
cubos valor de los datos, cmo hacer comparaciones entre ellos? Cules son los lmites de la
comparacin? Es posible tener dos hypercubes totalmente incomparables?

Cuando necesidades de un nuevo Dimensin


un nuevo cubo
Considere la Figura 6.7, que muestra una cuadrcula de valores implcitamente reales.
Imaginemos que ahora tenemos que realizar un seguimiento de los datos reales contra los
planes y las varianzas. La mejor manera de hacer esto es mediante la adicin de una
dimensin escenario y la reclasificacin de los datos de forma explcita anteriores como
actuales. Debido a la nueva dimensin refleja nuevos datos y se conecta a los datos antiguos,
que funciona bien como una adicin a la estructura tridimensional inicial. El cubo modificado
se muestra en la Figura 6.8.
Imaginemos ahora que empezamos el seguimiento de los empleados y el nmero de horas
que pasan en cada tipo de tarea: ayuda al cliente, almacenamiento, y la caja registradora.
Adems de una dimensin de los empleados y un conjunto de variables que denotan horas
trabajadas por la tarea, los datos
Hypercubes o espacios semnticos 149

Ene Feb Mar Abr

1 Las ventas
tienda de calzado 200 250 150 270

Tienda 1 Costos de
calzado 180 200 200 270

1 Las ventas
tienda de la camisa 320 350 400 300

1 Los costos
tienda de la camisa 300 300 350 270

Figura 6.7 Una rejilla de valores implcitamente reales.

guin

Diferencia
Plan
En
Real e Feb Mar Abr
Tienda 1 del zapato de ventas 200 250 150 270 hora

Tienda 1 Costos de calzado 180 200 200 270


Tienda 1 Camisa de
ventas 320 350 400 300
Tienda 1 camisa
Costos 300 300 350 270

almacn de productos
Nota: los datos originales,
tales como
March.Store1.Shoe ventas, se
convierte
Ventas
Actual.March.Store1.Shoe

Figura 6.8 El cubo modificado.

tambin contendra tienda y las dimensiones de tiempo. Si estas dimensiones y datos


asociados pueden aadir al cubo original de la misma manera que plane datos con su
dimensin escenario asociado se aadi, o deben ir los datos en un cubo separado? Hace
alguna diferencia? Vamos a tratar de aadir esta nueva informacin para el cubo original y ver
qu pasa.
En el modelo modificado, medidas de ventas siguen siendo identificado por su tienda, la
hora y el producto, adems de las que se identifican adems por un empleado y la tarea
150 Captulo 6

variable. En vista de ello, esto no parece tener mucho sentido. De acuerdo con el cubo
modificado, las ventas son ahora una funcin de la tienda, el tiempo, los productos, los
empleados, y la tarea. Sin embargo, los valores de venta medidos no se diferencian por
empleado o tarea por empleado.
Parecera que los datos de Tarea empleado describe una situacin fundamentalmente
diferente de los datos de ventas de productos (a pesar de que las dos situaciones comparten
algunas dimensiones) y por lo tanto debe ser definido como un cubo de datos separada. Esto
contrasta con los datos planificados y la varianza, que, sin embargo generada por una
situacin distinta de la de los datos de ventas reales, encajan limpiamente en el modelo
original.
Cul es la diferencia entre estas dos modificaciones? Por qu parece una modificacin a
la medida y otra parece no encajar?

VISUALIZANDO INTERSECCIONES sin sentido

Figura 6.9 muestra cmo para todos pero el allemployee y alltask miembros de las regiones
definidas por los empleados y la tarea estn vacas. Observe el panel inferior derecha de la
figura. Se ven dos tablas compuestas de una columna cada uno. Estamos empezando con 22
puntos de datos. En la parte superior izquierda de la figura es el cubo que resulta de la
combinacin de los dos conjuntos de datos. El cubo resultante es 11 por 11 por 2, lo que le da
242 intersecciones. Slo hay 22 puntos de datos en ella: 11 valores de las ventas de
productos y valores de 11 horas de los empleados. Figura 6.8 muestra donde los nmeros de
las dos tablas originales encajan en el cubo combinado, y muestra todas las intersecciones sin
sentido. Los datos de horas de los empleados se ajustan a lo largo del empleado por
allproduct por hora regin. Los datos de ventas de productos se ajustan a lo largo de los
productos por parte de todos los empleados de la zona de venta. El resto del cubo no tiene
sentido.

ventas 3
horas 1
e1 e2 empleado E7 E8 1todas
p1 4 3
p2 2
5
1
sin sentido 3 Dado
4
venta
P8 27 horas s
P9
2 31 3 3 4 2 5 1 2 26 EMP1 2 prod1 3
toda
s EMP2 3 Prod2 1
EMP3 1 PROD3 1
: : : :
: : : :
: : : :
: : : :
: : : :
emp10 2 prod10 4
Tod To
as 26 das 27

Figura 6.9 A excepcin de allemployees y alltasks, regiones definidas por los


empleados y la tarea no tienen sentido.
Hypercubes o espacios semnticos 151

Los datos del plan y la varianza tienen la misma estructura tridimensional como los datos
originales. Los datos (reales) original y los nuevos datos del plan estn dimensionados tanto
por la tienda, el tiempo, y el producto. Adems, se puede reclasificar las variables de ventas
(unidades vendidas, el valor del dlar se vende) como variables reales. De este modo, los
datos originales podran haber sido dimensionada por la tienda, el tiempo, el producto y
escenario en el escenario tena un nico miembro, el miembro de datos reales. De esta manera,
la adicin del plan y la varianza puede ser visto como la incorporacin de nuevos miembros a
la dimensin escenario. En contraste, los datos de los empleados y las horas no comparten la
misma estructura dimensional como los datos originales. Los datos originales no estn
dimensionados por empleado o por horas de trabajo, y los nuevos datos no se dimensionan por
variables de productos o ventas.

Un esquema de dominio individual


Un esquema de dominio hipercubo o solo lgico se compone de un conjunto de tipos en forma
de LC, es decir, que algunos tipos estn actuando como localizadores y algunos como
contenidos, y todos los contenidos o variables se aplica a todos los mismos localizadores o
dimensiones. De acuerdo con esta definicin, el hecho de aadir la dimensin de un escenario
no viola la definicin de un hipercubo lgico, ya que las nuevas variables comparten las
mismas dimensiones de identificador como los viejos variables. Por el contrario, la adicin de
variables de una hora y dimensin identificador del empleado no viola la definicin de un
hipercubo lgico, ya que las nuevas variables no comparten las mismas dimensiones de
identificador como las variables de ventas de edad.
Adems de la definicin typebased de un solo esquema de dominio, hay dos formas
adicionales y complementarios para medir el grado en que los datos representan el valor de la
informacin de mltiples dominios. La primera forma, descrita en la siguiente seccin, es ms
dataoriented; la segunda manera, que se describe en la seccin sobre esquemas multidominio,
es ms fuente semanticsoriented.

Prueba de Dominio DataOriented


Si dos conjuntos de datos pertenecen a la misma hipercubo lgico, la densidad de su
combinacin ser igual a la media ponderada de sus densidades antes de ser combinado,
donde la ponderacin es una funcin del nmero de puntos de datos por conjunto de datos.
Por ejemplo, si un cubo perfectamente denso se define en trminos de 100 tiendas, 10
perodos de tiempo, 100 productos, y 5 medidas de ventas, contendr 500.000 puntos de datos.
Si un segundo cubo se define en trminos de 100 tiendas, 10 perodos de tiempo, 100
productos, 5 medidas, y 3 escenarios en los 3 escenarios son de planta, real, y la varianza, y
existen datos slo para el plan, que tambin contendr 500.000 datos puntos, pero tenga slo
el 33 por ciento densa. La combinacin de los dos cubos contendra 1.000.000 de puntos de
datos y ser del 67 por ciento densa.
Si dos conjuntos de datos no pertenecen a la misma lgica hipercubo, la densidad de su
combinacin ser menor que la de cualquiera de los dos conjuntos de datos originales. Por
ejemplo, si un cubo perfectamente denso se define en trminos de 100 tiendas, 10 perodos de
tiempo, 5 medidas de ventas, y 100 productos, contendr 500.000 puntos de datos. Si un
segundo cubo perfectamente denso se define en trminos de 100 tiendas, 10 perodos de
tiempo, 200 empleados y 5 Medidas de tareas, contendr 1.000.000 de puntos de datos. Como
cubos separados, que son cada uno perfectamente denso.
152 Captulo 6

La densidad cae en picado, sin embargo, si se combinan los dos cubos. El cubo combinada
tendra 100 tiendas, 10 veces, 100 productos, 5 medidas de ventas, 200 empleados y 5
Medidas de tareas. Esto define a 500 millones de intersecciones, pero tenemos slo 1,5
millones de puntos de datos. Mediante la combinacin de dos cubos perfectamente densos,
creamos un cubo que fue de 98,5 por ciento vaco!

Los esquemas multidominio


El hecho de que los datos no hace todos pertenecen en un solo cubo no quiere decir que no
quiere traer juntos para fines analticos. Muchas aplicaciones analticas dependen de datos de
ms de un tipo de situacin o de dominio, como financiera y de marketing, o la fabricacin y
distribucin, o demogrfica y ventas. Considere todas las consultas analticas que dependen de
informacin de varios dominios, tales como las correlaciones de los cambios en los costos de
produccin con los cambios en los volmenes de ventas, o correlaciones de cambios
timelagged en el flujo de caja libre con los cambios en las campaas de marketing. En la
seccin anterior, la consulta que colm el hipercubo solo requiere los datos de las ventas y de
los empleados, pero qu es exactamente una situacin o de dominio? Hemos visto un mtodo
typebased y un mtodo para la identificacin de databased un nico esquema de dominio.
Pero, cmo se producen? Cul es la fuente de un dominio? Por qu mtodo se puede contar
el nmero de dominios en un conjunto de datos? Cmo se puede construir un modelo
multidominio?
Los conjuntos de datos son como los alimentos envasados. En el momento en que se trata
de alcanzar 16 oz squashy, plasticwrapped paquete en un estante de supermercado, muchas de
las diferencias originales entre los alimentos envasados ahora (por ejemplo, si es de origen
animal o vegetal) se han eliminado o ocluido. Del mismo modo, los conjuntos de datos con
sus filas y columnas pueden parecer ms o menos la misma hasta que reconstruir los eventos
para los cuales los datos son una representacin. Al observar, o al menos imaginar, los eventos
datagenerating, y especficamente el proceso de medicin cuya salida es los datos, se puede
entender la fuente (s) o la causa (s) del dominio (s) representado por los datos.
Por lo tanto, en la seccin anterior donde nos fijamos en los datos de empleados y ventas,
no es difcil ver que tena que haber dos procesos de medicin distintos en lugar de capturar la
informacin. Para capturar la informacin de ventas, algn dispositivo tiene que ser colocado
en cada caja registradora o punto de venta que registra cada operacin de venta y la cantidad y
el precio de cada artculo comprado y la cantidad de dlares para la operacin en su conjunto.
Ese dispositivo debe tener una lista interna de productos conocidos y sus precios asociados, un
reloj para registrar el tiempo de la transaccin, y una etiqueta de ubicacin que lo identifica
con una caja registradora en particular. Para capturar la informacin de los empleados, una
coleccin de dispositivos necesita estar en el lugar que reconoce cada empleado, que reconoce
diferentes tareas, y que puede grabar los momentos en los que un empleado cambia de tareas.
Aunque es probable que los empleados seran slo tiene que rellenar una hoja de tiempo para
recoger esta informacin, hay varias maneras de que esto podra llevarse a cabo utilizando
cmaras. Por ejemplo, cada empleado puede tener una pequea cmara en ella o su persona
que registra los movimientos reales de los que se utiliza el anlisis de patrones posterior para
determinar cuando el empleado estaba realizando qu tareas. Las cmaras pueden ser
montadas de modo que exploran los lugares asociados con diferentes tareas tales como
almacenamiento, echa un vistazo, y as sucesivamente, y donde se utiliza el anlisis posterior
de averiguar quin ha entrado en lo del espacio de trabajo en qu momento.
Hypercubes o espacios semnticos 153

Independientemente de si uno se basa en las propias grabaciones internas de los empleados


o en cmaras externas, los procesos de registro requeridos para medir el tiempo que cada
empleado pasa en cada tipo de tarea es distinto de los procesos de registro requeridos para
medir qu artculos fueron comprados por cunto dinero. Los dos procesos de grabacin no
son intercambiables. Los eventos que estn de seguimiento no son intercambiables y los
conjuntos de datos que son producidos por cada uno de los procesos de registro, tal como se
define por los tipos utilizados para representar cada conjunto de datos, no son intercambiables.
Por lo tanto, se podra decir que los datos de ventas y los datos de las tareas de los empleados
representan dos dominios diferentes. Cualquier representacin inicial de los datos podra ser
habla en trminos de dos hipercubos distintas o esquemas de dominio nico.

Ahora que se ha establecido que los datos de los empleados de ventas y pertenecen a
diferentes mbitos de la informacin y se representan como dos esquemas distintos, la
pregunta sigue siendo, podemos y, si es as, cmo podemos compararlos de manera
significativa? Consideremos ahora las dos siguientes esquemas:

(Almacenar. Hora. De productos.) ~ Ventas


(Almacenar. Hora. Empleado. (Store.this). De
tareas.) ~ Horas

Nota del Empleado subexpresin. (Store.this). Se dice que tomar todos los empleados de
cada tienda, ya que cada tienda en la dimensin tienda se desplaza. De lo contrario, el
producto vectorial de tiendas y empleados sera muy escasa ya que la mayora, si no todos los
empleados trabajan en una sola tienda.

Claramente, cualquier duda acerca de cunto de lo que el producto se vendi cuando se


hagan plenamente respondida por mirar slo en el cubo de ventas. Cualquier consulta sobre el
que los empleados pasaron la cantidad de tiempo haciendo lo que las tareas pueden ser
totalmente respondidas por mirar slo el cubo tareas de los empleados. Pero lo que si se quera
analizar si ciertos empleados o tipos de empleados eran mejores o peores a ayudar a vender
ciertos productos? Cualquier anlisis de este tipo necesitaran una combinacin de
informacin de cada uno de los cubos.
Como ya habrn adivinado, el mtodo bsico de la comparacin o anlisis de la
informacin entre los diferentes dominios comienza con la unin de los cubos a lo largo de
sus dimensiones comunes como describo un poco ms tarde. factores de complejidad
adicionales, tales como unirse a los cubos cuando la unen a las dimensiones no son
equivalentes (o conformaron, para usar un trmino Datawarehousing populares), unindose a
los cubos cuando todo lo que parece similar son las medidas, o unirse a los cubos cuando no
parece haber ninguna similares dimensiones, se abordan al final de este captulo.

Mira de nuevo a los dos cubos que hemos definido anteriormente: el cubo de datos de
ventas y el cubo tareas de los empleados. Los dos cubos comparten dos dimensiones: las
tiendas y el tiempo. Adems, el cubo de ventas tiene un producto, escenario, y mide
dimensin; ninguno de ellos es compartida por el cubo de los empleados. El cubo empleado
tiene un empleado y una dimensin variable de tarea que no comparte con el cubo de ventas.
En trminos prcticos, 9 hay tres maneras principales que los productos OLAP se unen
dimensiones: mediante la creacin de hypercubes individuales, mediante la creacin de unirse
a los cubos virtuales, y por referencia a datos entre los cubos. Cada mtodo supone las
dimensiones de combinacin son idnticos o tienen subconjuntos idnticos (tales como una
dimensin geografa tiene un nivel de estado que pueden unirse con una dimensin estado).
154 Captulo 6

Ya he mencionado el enfoque hipercubo solo al principio de este captulo y en el captulo


4. Baste decir que, dada la enorme cantidad de escasez que crea, no es un enfoque ideal para
trabajar con datos multidominio. El segundo enfoque, que en el momento de escribir estas
lneas es popular entre los productos, tales como productos OLAP de Microsoft, comienza con
cubos de dominio nico y luego se une a ellos para crear un hipercubo virtuales cuyas
dimensiones son la unin de todas las dimensiones y cuyas medidas, como se identifica a lo
largo de una dimensin de medidas en cada cubo, se concatenan en el cubo unirse virtual. El
tercer enfoque deja cada cubo separado, pero permite que el analista para hacer referencia a
los datos en cualquier cubo de cualquier cubo.

Imagnese que usted est tratando de analizar si existe alguna relacin entre la cantidad de
tiempo que los empleados estn gastando en varias tareas y la cantidad de productos vendidos.
Cmo hara usted para esto? Para comparar los valores de las medidas procedentes de dos
cubos separados, en primer lugar hay que definir un denominador comn o marco analtico.
Por analoga, si se quiere comparar con 2/3 3/4, es necesario definir las dos fracciones en
trminos de un denominador comn como doceavos, es decir, 2/35 8/12 y 3/4 59/12. Una vez
que ambas fracciones comparten el mismo denominador comn, sus numeradores pueden
compararse directamente; es decir, se puede comparar directamente el 9 de 9/12 con el 8 en
8/12. Debido a 9 es superior a 8, por lo que 3/4 es mayor que 2/3.
El denominador comn entre los dos cubos es la unin de sus dimensiones compartidas:
tienda y tiempo. Por el contrario, la unin de las dimensiones no compartidos en cada cubo
forman los numeradores. Esto es verdad para la comparacin de los valores individuales, serie
unidimensional, o cualquier volumen dimensional. Figura 6.10 muestra un esquema para este
modelo multidominio. hink de cada uno de los subcubos definidas por la unin de las
dimensiones no compartidos como una coleccin o conjunto de contenidos y cada interseccin
de la

dimensin global
alma
cena
r hora
T1
S1 T2
S2 T3
T4
S3 T5
S4 T6
T7
S5 T9
S6 T10
T11
S7
T12
Dimensiones nicas al Dimensiones nicas
producto para
cubo de tareas de
cubo de ventas los empleados
producto tarea
product las las
o guin variables empleado variables
P1
SN1 PV1
P2 E1
P3 TV1
P4 PV2
P5 SN2 E2
P6 PV3 TV2
P7 E3
P8 SN3
PV4
P9
Figura 6.10 Modelo de esquema.

TeamFly
Hypercubes o espacios semnticos 155

dimensiones globales
Hora Almacenar

Producto Empleado
dimensione dimensione
s s
Tare
Producto VariableScenario Empleado a

Hora
Pinchar. Vars. Pinchar. Vars.

Scen. Scen.

Emp. Emp.

Almace
Tarea Tarea
nar
Pinchar. Vars. Pinchar. Vars.

Scen. Scen.

Emp. Emp.

Tarea Tarea

Figura 6.11 Ver esquema.

Subcubo, tales como el almacenamiento de los jvenes como una variable de horas. Figura
6.11 muestra una vista de esquema y la Figura 6.12 muestra una vista muestra.
Por ejemplo, para comparar las ventas de todos los productos fabricados en la tienda de
Cambridge para el mes de marzo con la cantidad de horas que los hombres jvenes pasaron
por los pasillos de trabajo, se definen y calculan una relacin como la siguiente. Tenga en
cuenta las referencias a los cubos especficos en los corchetes en negrita.

[Cubo de ventas]: ( 'ventas', Time.month.march,


Product.all) [horas de los empleados del cubo] :(
'Horas', hombres Employees.young, de tareas.
Working_the_aisles)

Luego se mira a la clula para la tienda de Cambridge, en el mes de marzo por el valor. El
resultado es un solo punto de datos. Tenga en cuenta los trminos en negrita en la expresin.
Identifican el cubo de donde proviene cada una de las variables y muestran lo que la frmula
de comparacin se vera as en una herramienta que mantienen separados los datos de cada
cubo. Alternativamente, si hubiera creado un solo cubo unirse llamada, digamos, Ventas y
Empleados la misma frmula se habra visto de la siguiente manera:

[Ventas y Empleados cubo]:


( "sales", Time.month.march, Employee.all, Task.all, Product.all) 4
( "Horas", Employees.youngmen, Task.workingtheaisles,
Time.month.March, Product.all).
156 Captulo 6

Ene Feb
venta
s costes ventas costes
rosa jabn y agua reales 285.00 240.00 rosa jabn y agua reales 313.50 264.00
planes 280.00 230.00 planes 308.00 253.00
diferencia 1.02 1.04 diferencia 1.02 1.04
jabn de aceite de jabn de aceite de
oliva reales 270.00 260.00 oliva reales 297.00 286.00
planes 265.00 255.00 planes 291.50 280.50

diferencia 1.02 1.02 diferencia 1.02 1.02


locin hipoalergnica reales 350.00 300.00 locin hipoalergnica reales 385.00 330.00
Ridgewood planes 300.00 280.00 planes 330.00 308.00

diferencia 1.17 1.07 diferencia 1.17 1.07

caja caja pasill


media registradora pasillos media registradora os
masculino 675 942 375 masculino 743 1036 413
hembra 776 477 542 hembra 854 525 596
Almace
nar
ventas costes ventas costes
rosa jabn y
agua reales 240.00 230.00 rosa jabn y agua reales 264.00 253.00
planes 250.00 238.00 planes 275.00 261,80
diferencia 0.96 0.97 diferencia 0.96 0.97
jabn de jabn de aceite
aceite de oliva reales 250.00 245.00 de oliva reales 275.00 269.50
planes 250.00 240.00
planes 275.00 264.00
Newbury diferencia 1.00 1.02
diferencia 1.00 1.02
locin hipoalergnica reales 394.00 300.00 locin
hipoalergnica reales 433,40 330.00
planes 390.00 285.00
planes 429.00 313.50
diferencia 1.01 1.05
diferencia 1.01 1.05

caja pasill caja


media registradora os media registradora pasillos
masculino 577 583 692 masculino 635 641 761
hembra 575 562 522 hembra 633 618 574

Figura 6.12 vista de muestra.

Tenga en cuenta que en esta expresin, repet la fase de clasificacin Time.month.march. y


Product.all. Lo hice slo para fines expositivos. En la mayora de las herramientas, el contexto
se establece sobre una base variablebyvariable de izquierda a derecha. Por lo tanto, una vez
que se dijo para la variable de ventas que se aplica al mes de marzo de todos los tiempos, no
necesitara normalmente ese contexto que repetirse al analizar las variables de horas.
Para analizar la relacin entre los cambios en las ventas de productos y cambios en la hora
de los hombres jvenes que trabajan por los pasillos, y hacerlo dentro de un solo cubo unirse,
se podra definir y calcular una serie daylevel como la siguiente (tenga en cuenta la unin de
los cubos):

[Ventas y Empleados cubo]:


( "sales", Time.month., Employee.all, Task.all, Product.all) 4 (
"Horas", Employees.youngmen, Task.working_the_aisles, Time.month.,
Product.all).

Se podra comparar ms horas taskspecific de los hombres jvenes con las ventas de
productos electrnicos mediante la creacin del siguiente conjunto de consultas, la
superposicin de los tres conjuntos de resultados como tres grficos de lneas separadas, como
se muestra en la Figura 6.13.
[Ventas y Empleados cubo]:
lnea A
( "sales", Time.month., Employee.all, Task.all, Product.electronics),
Hypercubes o espacios semnticos 157

Cambridge tienda

todo prod. las ventas


en $ 's
UN

horas pasillo de los


hombres jvenes
segundo
pinchar. ventas / hombres jvenes
do hora pasillo

Meses

Figura 6.13 Comparacin de los datos de tres cubos diferentes.

La lnea B
( "Horas", Employees.youngmen, Task.workingtheaisles, Time.month.,
Product.all),

lnea C
( "Sales", Time.month., Employee.all, Task.all, Product.electronics) 4
( "Horas", Employees.youngmen, Task.working_the_aisles, Time.month.,
Product.all)

Lo que esta expresin est buscando es si existe alguna correlacin visible entre las ventas
de la compaa de productos electrnicos y el nmero de horas que los jvenes pasan por los
pasillos de trabajo. La teora implcita es que los chicos estn ms familiarizados con los
productos electrnicos que mujeres y su aparicin en los pasillos donde pueden proporcionar
soporte al cliente ayuda a las ventas de estos productos. Cuando la compaa de seguimiento
de horas de los empleados, es relativo a todos los productos; Por lo tanto, lo mejor que se
puede hacer aqu es observar una correlacin temporal y espacial entre la presencia de
individuos en el suelo y el aumento de las ventas de ciertos productos.

Claramente, los hombres jvenes son buenos trabajadores pasillo con los productos electrnicos.

No aplicable frente invariable


A veces se encontrar con las variables que parecen estar dimensionado de modo diferente,
pero que tras un examen ms se revelan a ser de la misma dimensionalidad. Es una prctica
comn en el mundo de OLAP para tratar una variable que no parece variar en una dimensin
como si no fuera aplicable a esa dimensin. Sin embargo, si una variable es constante a lo
largo de una dimensin en lugar de no aplicable a ella, hay operaciones de un analista puede
realizar en la antigua que no se pueden realizar en este ltimo lo tanto, es necesario,
158 Captulo 6

cuando se trata de integrar datos de mltiples cubos, para probar si una variable es constante a
lo largo o no aplicable a las dimensiones no compartidos del otro cubo (s). Por ejemplo,
considere los dos esquemas que siguen:

(Almacenar. Hora. De productos.) ~ Ventas

(Hora. Producto.) ~ Precio

Observe cmo el precio no est dimensionado segn la tienda. Esta es una representacin
comn para el precio. Ahora bien, si tomamos este esquema en el sentido de que el precio no
es aplicable a las tiendas, a continuacin, en la comparacin de precios y las ventas y
siguiendo los mtodos descritos anteriormente, que definira el denominador comn entre los
dos esquemas como el tiempo y producto. Tambin nos gustara ser capaces de comparar las
ventas de las tiendas con precios por hora y el producto. Sin embargo, a diferencia del ejemplo
multidominio, el precio no es aplicable a la tienda; ms bien el precio no vara segn la tienda.
El precio es aplicable, pero contingente constante a travs de las tiendas. Por lo tanto, el
verdadero esquema para precio incluye tienda como una dimensin de localizacin y permite
realizar comparaciones entre tiendas, as como productos y tiempo.

El uso de dominios mltiples esquemas


para integrar irregulares hojas de clculo
esquemas multidominio son especialmente tiles cuando se trata de combinar cualquier tipo
de hoja de clculo irregular o datos de recordbased a travs de mltiples departamentos.
Consideremos, por ejemplo, los datos de hoja de clculo que pertenecen a dos
departamentos, como ventas y finanzas, donde cada departamento mantiene sus propios datos.
La figura 6.14 muestra una vista multidominio de un modelo de informacin financiera y de
ventas integrada para una empresa de venta compuesta por dos tipos de tiendas: bienes de
consumo de bajo coste (Cinco 'n' moneda de diez centavos) y mobiliario (muebles Land).
Tienda y el mes componen el nivel de base de las dimensiones compartidas, con la agregacin
de las tiendas en las cadenas de tiendas y meses agregacin en cuartos. La informacin de los
informes financieros de ventas y coexiste dentro de cada clula storemonth. La informacin
financiera consiste en una cuadrcula bidimensional de indicadores financieros por planificada
/ actual / varianza. La informacin de ventas consiste en una rejilla tridimensional del tipo de
producto por la informacin de ventas / costos por planificada / actual / varianza.
Computacionalmente, las cifras de ventas y de las hojas de clculo de costes de ventas estn
listos para ser introducidos en el indicadores financieros de hoja de clculo en que se conduce
el clculo de los indicadores financieros. Visualmente, los dos hipercubos pueden integrarse
como se muestra en la Figura 6.13. Tenga en cuenta cmo los dos tipos de tiendas comparten
el mismo subcubo financiera, mientras que los miembros de sus subcubos productos son
diferentes.

Multidominio Esquemas de
Organizacin irregulares Records
Considere la irregularidad de la informacin operativa detallada. Figura 6.15 muestra una
vista multidominio de las transacciones individuales y registros de datos agregados para las
mismas tiendas discutidos en el ejemplo anterior. Una tienda de muebles puede vender 5
unidades de muebles en 5 transacciones un da y 60 unidades en 15 transacciones al da
siguiente. diferentes negocios
Hypercubes o espacios semnticos 159

las estructuras de planificacin y de contabilidad generalmente se prestan a la estructuracin


multidimensional.
Sin embargo, no todas las dimensiones se aplican a cada estructura.

la planificacin de hoja de
Q1 Q2 clculo tpica y vistas de
5 'n' Dime informes pueden tener
Planificad algunas dimensiones en
o Real Diferencia
Ingresos
comn y algo diferente. Un
DIENTES marco de localizacin global
Beneficio
bruto Financiar comn organiza los puntos
NPAT de vista de hoja de clculo,
... mientras que la hoja de
Planificad Diferenci clculo ve a s mismos
o Real a contienen slo el nmero de
Barras de caramelo
dimensiones y coordinar
Jabn Ventas
posiciones necesarias.
camisetas
... En este caso, las hojas de
costo $

$ Precio de venta clculo contienen slo


$ Profi
t
informacin de medicin,
#returned
sq. ft. pantalla pero organizados en
coordinar la moda para
una fcil navegacin.
Mueble Storelevel y la planificacin y
elaboracin de informes
Tierra corporatelevel se integran en
una sola estructura.

Ene Feb
Planifica
Buckley do Real Diferencia
Ingresos
DIENTES
Beneficio bruto
(5 'n' Dime) NPAT

...
Planificad Diferenci
o Real a
Barras de caramelo
Jabn
camisetas
...
costo $
$ Precio de venta
La mercanca 'real'
$ lucro
# devuelto valores son agregada
sq. ft. pantalla
de transaccin prima
Middletown Planificad
o Real
Diferenci
a
informacin por
Ingresos coordinar.
DIENTES
(Mueble Beneficio bruto
NPAT
Tierra) ...
Planificad Diferenci
o Real a
Sillas
sofs
Las alfombras
...
costo $
$ Precio de venta
$ lucro
# devuelto
sq. ft. pantalla

Figura 6.14 Multicube marco para la organizacin de las hojas de clculo irregulares.
160 Captulo 6

Una cadena fiveanddime y una cadena de tiendas de muebles tendrn algunos tipos de datos en comn, y otros diferentes para adaptarse a la

reglas de negocio (por ejemplo, sin cargo al cliente cuentas al fiveanddimes).

Ene
5 'n' Dime Ventas totales 8,500.00
# de ventas 750
Ventas YearToDate 8,500.00
recuento 30

muebles Tierra Ventas totales 7,250.00


# de ventas 10
Ventas YearToDate 7,250.00
recuento 12

Cuenta # Equilibrar Mensual


0277 895.00 37.30
0278 0.00 0.00
0279 247.30 24.50

tiendas de agregado por Tablas apropiadas para los informacin de


cadena negocios transacciones por tienda,
informacin de la cuenta
normas por tienda global para la cadena

01.03. 01.04.9
Buckley 96 6
trans # t imponible AMT trans # t imponible AMT
101 rulos y 2.50 201 Gafas de sol y 10.00
(5 'n' Dime) 101 champ y 3.25 201 cigarrillos y 2.00
pistola de
101 barettes y 1.50 202 juguete y 5.50
102 jabn y 1.00 202 tapas y 2.00
102 pasta dental y 3.50 202 yoy y 2.00
103 peridico norte 0.50 202 chocolatina 5 0.50
103 camiseta y 4.50

im
empl total pu total impu
est empl
trans # eado registro hora parcial o total trans # eado registro hora parcial esto total
0.6
101 Jane 1 10:04 7.25 0.37 7.62 201 Jane 1 10:04 12.00 0 12.60
marc 0.5
102 John 2 10:07 4.50 0.23 4.73 202 a 2 10:07 10.00 0 10.50
103 Jane 1 10:12 5.00 0.23 5.23

Ventas totales 22.00


Middletown Empleado
horas
trabajadas total SALes 16.75 Empl eado hor as tr abaj adas
# de ventas 2
Jane 180 # de ventas 3 Jane 160
Ventas YearToDate 38.75
marca 120
John 110 Ventas YearToDate 16.75 recuento 2

recuento 2

(Mueble
imponi
Tierra) trans # t ble AM
T trans # t imponible AMT
mesita de
1141 Sofa cama y 500.00 1189 noche y 85.00
sof de
dos
1141 plazas y 350.00 1189 mesa y 150.00
1142 y 1500.00 1190 mesa y 450.00
almohada
1142 corporal y 75.00 1190 sillas y 800.00
conjunto taburete para
1142 de planos y 125.00 1191 los pies y 65.00
1191 reclinable y 350.00

cond
empl condicion ACC Cuenta emplea icion Cuenta
trans # eado total es T # trans # do total es ACCT #
Janso 235.0
1141 n 895.00 cobrar 24 Y 0277 1189 Becker 0 carga MC norte
Becke Efect no 1250.0
1142 r 1785.00 ivo rte 1190 Janson 0 cobrar 12 Y 0277
415.0
1191 Becker 0 Efectivo norte
horas Ventas Emple horas
Empleado trabajadas totales 2550.00 ado trabajadas Ventas totales 1900.00
# de
Becker 180 ventas 2 Becker 180 # de ventas 3
Harris 60 Ventas YearToDate 2550.00 Harris 105 Ventas YearToDate 4450.00
Janson 110 recuento 3 Janson 110 recuento 3
...

Figura 6.15 Multicube marco para la organizacin de los registros irregulares.


Hypercubes o espacios semnticos 161

reglas y por lo tanto, los campos se aplican a las dos cadenas: Las tiendas de muebles
permiten cuentas de crdito para los clientes, mientras que los cinco 'n' monedas de diez
centavos son estrictamente cashandcarry. Se estn organizando varios tipos de registros. A
nivel storebymonth existe informacin sobre los empleados de nmina, informacin de ventas
lnea de pedido, e informacin general de ventas. A nivel chainbymonth, las pistas de la
cadena de muebles de saldos de cuentas. Todas las tiendas de seguimiento de datos de ventas
totales. El modelo multidominio proporciona un mtodo general para relacionar diferentes
conjuntos de complejos de medicin entre s.

Cubos de unirse con no conformes


Dimensiones
Hasta ahora, cada vez que nos hemos unido a los cubos, independientemente del mtodo, las
dimensiones a travs del cual los cubos estaban a unir eran idnticos. Qu pasa cuando las
dimensiones no son idnticos unirse? Cmo se compara la venta de productos a travs del
tiempo en que los productos ofrecidos no son los mismos? Cmo se compara la
productividad de los empleados a travs del tiempo cuando los empleados no son los mismos?
Cmo se compara el rendimiento potencial de la inversin a travs drsticamente diferentes
oportunidades de negocio? Independientemente de la dimensionalidad de los cubos de fuente
cuya informacin desea comparar, usted todava tiene que encontrar un denominador comn
como se describi anteriormente. La parte difcil es la creacin de esa comunidad.

Los casos ms sencillos y ms comunes son aquellos en los que algunos casos de alguna
dimensin, ms tpicamente del producto y de los empleados, son conocidos por cambiar con
el tiempo y la organizacin, ms probable es un grupo datawarehousing, ha respondido
mediante la creacin de un tiempo o dimensin spacestamped. La figura 6.16 representa un
fragmento tpico

Producto Evento Fecha

murcilagos comienzo 1/1/95

01.11.96
Guantes comienzo

01.11.97
Sombreros comienzo

murcilagos Detener 1/1/98

Zapatos comienzo 2/2/98


Figura 6.16 Un fragmento tpico de una dimensin del producto con marca de tiempo.
162 Captulo 6

de una dimensin del producto con marca de tiempo. La dimensin del producto ya est en
una estructura de tipo de forma:

(Producto.) ~ Existence_start_time, Still_existent

Es decir, para cada producto que se llev nunca, que el producto tiene una fecha asociada a
su entrada en la existencia. (Si esta estructura de tipo de producto eran completamente
normalizado, el contenido still_existent sera aplicada a una estructura de ubicacin que
consiste en producto y hora.) Adems, a partir de la hora actual de la estructura de tipo,
algunos de los productos todava se estn llevando a y algunos se han suspendido. Para
aquellos que han sido descontinuado cuyo valor de still_existent es no, una estructura de tipo
separado registrara cuando el producto se suspendi. (Si se pone el tiempo de parada en la
misma estructura que la hora de inicio, puede crear ambigedad semntica de estos productos
todava existentes cuyo tiempo parada sera en blanco, pero que significara no aplicable
frente a aquellos productos que podran haber sido interrumpidas, pero cuyo final estn
desaparecido.)
Una vez marcado con la fecha del perodo de vida de una instancia, usted todava tiene que
averiguar la base por la cual desea realizar comparaciones. A no ser que se limite a comparar
slo aquellos productos que hayan existido durante todo el perodo de tiempo, es necesario
seleccionar un denominador comn a travs de la cual se realizan las comparaciones. Aunque
puede ser que usted traduce el presente en alguna forma que se asemeja el pasado o en el
pasado en alguna forma que se asemeja a la actual, tambin se puede transformar tanto en
algn marco que es apropiado para su anlisis. Los temas relacionados con el mantenimiento
de dimensiones sellos de tiempo y las comparaciones inter-temporales basados en vistas
anteriores o actuales han sido bien explorado por Ralph Kimball.10

A pesar de que los casos especficos de las dimensiones del producto o de los empleados
varan con el tiempo, cuando las idas y venidas de los casos se realiza un seguimiento dentro
de una estructura de tipo individual y todos los conjuntos de datos que se comparan tienen la
misma estructura tipo multiversin, es posible pensar en la estructura de tipo como
conformada en el sentido de que la capacidad de comparar con el tiempo se ha preparado por
adelantado.
Qu pasa si no haba tal previsin? Qu pasa si lo que hay que comparar son dos lneas
de productos separadas de dos compaas diferentes que eran, quizs, recientemente adquirida
por una sola empresa? En estos casos, los conjuntos de datos iniciales pueden necesitar ser
coaccionado en un marco comn. Que la coaccin es probable que necesiten algn
pensamiento. Considere el caso de dos cubos de ventas donde ambos estn dimensionadas
segn el producto y el tiempo. En la superficie puede parecer inmediatamente comparables.
Sin embargo, una inspeccin ms cercana, se puede notar que, aunque ambos conjuntos de
datos tienen una dimensin de tiempo con el mismo calendario y los mismos ejercicios, las
dimensiones de tiempo en los dos cubos reflejan diferentes fiestas y un nmero diferente de
horas de funcionamiento por semana. Las dimensiones del producto son totalmente diferentes.

Antes de hacer nada, tiene que ser claro acerca de lo que ests tratando de hacer. Suponga
que los dos conjuntos de datos corresponden a las ventas de productos a partir de dos cadenas
regionales que operan en diferentes regiones, pero llevan mercancas similares. Digamos que
usted est tratando de comparar las ventas de productos a travs de las dos cadenas de modo
que usted puede decidir qu tipos de productos para crecer y para reducir o eliminar la base de
los resultados relativos a travs de las dos cadenas. Teniendo en cuenta este tipo de anlisis, es
probable que pueda ignorar las diferencias basadas en das y concentrarse en el tiempo a nivel
meses o ms (algo que no podra hacer si usted
Hypercubes o espacios semnticos 163

Grupos de producto Precio


Barato Medio Costoso

Sales_chain1
Hora Q1 (Sales_chain1, Product.pricegroup.all) 0.2 0.3 0.5
Variables
Sales_chain2
(Sales_chain2, Product.pricegroup.all) 0.6 0.3 0.1

Figura 6.17 Comparacin de las relaciones de Low a HighPriced los productos a travs
de dos cadenas de tiendas

fueron bsqueda de ofertas de los importes de ventas absolutas o picos de ventas en base a
horas o das especficos). Sin embargo, s es necesario encontrar un denominador comn para
los productos. La mejor manera de hacer esto es mediante la bsqueda de atributos comunes
en sus tablas de dimensiones del producto. Los atributos que se buscan deben reflejar su
anlisis previsto. As que si usted sospecha que una de las cadenas recin adquiridas tenan
una clientela ms natural de lujo, mientras que el otro era ms acertado con los cazadores de
gangas, que se quiere utilizar el atributo de precio de cada una de las dimensiones del
producto para crear un denominador comn en la forma de una dimensin basada en
agrupaciones de precios de productos.
Por lo tanto, debera terminar con un esquema integrado como se muestra a continuacin,
donde la variable cadena1 ventas representa los datos de una cadena y el contenido chain2
ventas representa los datos de la segunda cadena y donde la dimensin del producto ha sido
segmentado por los atributos:

(Time.Calendar_period. Product.Price_group.) ~ Sales_chain1,


Sales_chain2

En concreto, es posible que desee comparar la proporcin de ventas de cada grupo de


precios de productos como porcentaje de las ventas totales de la cadena para determinar si una
de las cadenas tenan un porcentaje significativamente mayor de sus ventas procedentes de
productos de baja o highpriced. La figura 6.17 ilustra lo que los resultados de un clculo de
este tipo podra ser similar a una cuarta parte. Las dos variables relevantes son la proporcin
de las ventas de cada grupo el precio del producto a todas las ventas de grupo de precios para
cada una de las dos cadenas, como se muestra aqu.

Sales_chain1 4 (Sales_chain1, Product.pricegroup.all)


Sales_chain2 4 (Sales_chain2, Product.pricegroup.all)

Resumen
En este captulo se vio por qu un cubo denominado hipercubo o representa un conjunto
contiguo de hechos o proposiciones, donde la contigidad se define en trminos de los tipos
utilizados como localizadores en el cubo. Todas las clulas de un cubo o un esquema bien
definido o modelo poblada puede ser verdadera o falsa. Usted aprendi los pasos que debe
tomar para asegurarse de que su
164 Captulo 6

esquemas estn bien definidos. Ha aprendido a distinguir entre diferentes tipos de datos no
vlidos y cmo procesar correctamente los datos no vlidos a fin de evitar la creacin de
derivaciones errneas. Tambin mostraron cmo identificar y tratar por separado los dominios
de forma natural distintos en sus datos o modelos, y ha aprendido a reunirlos cuando sea
necesario en un modelo multidominio.

TeamFly