Professional Documents
Culture Documents
Desde que se inici la era de la computadora, las organizaciones han usado los datos desde sus sistemas operacionales para atender sus necesidades de informacin. Algunas proporcionan acceso directo a la informacin contenida dentro de las aplicaciones operacionales. Otras, han extrado los datos desde sus bases de datos operacionales para combinarlos de varias formas no estructuradas, en su intento por atender a los usuarios en sus necesidades de informacin. Ambos mtodos han evolucionado a travs del tiempo y ahora las organizaciones manejan una data no limpia e inconsistente, sobre las cuales, en la mayora de las veces, se toman decisiones importantes. La gestin administrativa reconoce que una manera de elevar su eficiencia est en hacer el mejor uso de los recursos de informacin que ya existen dentro de la organizacin. Sin embargo, a pesar de que esto se viene intentando desde hace muchos aos, no se tiene todava un uso efectivo de los mismos. La razn principal es la manera en que han evolucionado las computadoras, basadas en las tecnologas de informacin y sistemas. La mayora de las organizaciones hacen lo posible por conseguir buena informacin, pero el logro de ese objetivo depende fundamentalmente de su arquitectura actual, tanto de hardware como de software. El data warehouse, es actualmente, el centro de atencin de las grandes instituciones, porque provee un ambiente para que las organizaciones hagan un mejor uso de la informacin que est siendo administrada por diversas aplicaciones operacionales. Un data warehouse es una coleccin de datos en la cual se encuentra integrada la informacin de la Institucin y que se usa como soporte para el proceso de toma de decisiones gerenciales. Aunque diversas organizaciones y personas individuales logran comprender el enfoque de un Warehouse, la experiencia ha demostrado que existen muchas dificultades potenciales. Reunir los elementos de datos apropiados desde diversas fuentes de aplicacin en un ambiente integral centralizado, simplifica el problema de acceso a la informacin
http://www.WillyDev.Net
y en consecuencia, acelera el proceso de anlisis, consultas y el menor tiempo de uso de la informacin. Las aplicaciones para soporte de decisiones basadas en un data warehousing, pueden hacer ms prctica y fcil la explotacin de datos para una mayor eficacia del negocio, que no se logra cuando se usan slo los datos que provienen de las aplicaciones operacionales (que ayudan en la operacin de la empresa en sus operaciones cotidianas), en los que la informacin se obtiene realizando procesos independientes y muchas veces complejos. Un data warehouse se crea al extraer datos desde una o ms bases de datos de aplicaciones operacionales. La data extrada es transformada para eliminar inconsistencias y resumir si es necesario y luego, cargadas en el data warehouse. El proceso de transformar, crear el detalle de tiempo variante, resumir y combinar los extractos de datos, ayudan a crear el ambiente para el acceso a la informacin Institucional. Este nuevo enfoque ayuda a las personas individuales, en todos los niveles de la empresa, a efectuar su toma de decisiones con ms responsabilidad. La innovacin de la Tecnologa de Informacin dentro de un ambiente data warehousing, puede permitir a cualquier organizacin hacer un uso ms ptimo de los datos, como un ingrediente clave para un proceso de toma de decisiones ms efectivo. Las organizaciones tienen que aprovechar sus recursos de informacin para crear la informacin de la operacin del negocio, pero deben considerarse las estrategias tecnolgicas necesarias para la implementacin de una arquitectura completa de data warehouse.
http://www.WillyDev.Net
El ingreso de datos en el data warehouse viene desde el ambiente operacional en casi todos los casos. El data warehouse es siempre un almacn de datos transformados y separados fsicamente de la aplicacin donde se encontraron los datos en el ambiente operacional.
2 Sistemas de Informacin
Los sistemas de informacin se han dividido de acuerdo al siguiente esquema:
http://www.WillyDev.Net
Sistemas Estratgicos, orientados a soportar la toma de decisiones, facilitan la labor de la direccin, proporcionndole un soporte bsico, en forma de mejor informacin, para la toma de decisiones. Se caracterizan porque son sistemas sin carga peridica de trabajo, es decir, su utilizacin no es predecible, al contrario de los casos anteriores, cuya utilizacin es peridica. Destacan entre estos sistemas: los Sistemas de Informacin Gerencial (MIS), Sistemas de Informacin Ejecutivos (EIS), Sistemas de Informacin Georeferencial (GIS), Sistemas de Simulacin de Negocios (BIS y que en la prctica son sistemas expertos o de Inteligencia Artificial - AI). Sistemas Tcticos, diseados para soportar las actividades de coordinacin de actividades y manejo de documentacin, definidos para facilitar consultas sobre informacin almacenada en el sistema, proporcionar informes y, en resumen, facilitar la gestin independiente de la informacin por parte de los niveles intermedios de la organizacin. Destacan entre ellos: los Sistemas Ofimticos (OA), Sistemas de Transmisin de Mensajera (Correo electrnico y Servidor de fax), coordinacin y control de tareas (Work Flow) y tratamiento de documentos (Imagen, Trmite y Bases de Datos Documentales). Sistemas Tcnico - Operativos, que cubren el ncleo de operaciones tradicionales de captura masiva de datos (Data Entry) y servicios bsicos de tratamiento de datos, con tareas predefinidas (contabilidad, facturacin, almacn, presupuesto, personal y otros sistemas administrativos). Estos sistemas estn evolucionando con la irrupcin de censores, autmatas, sistemas multimedia, bases de datos relacionales ms avanzadas y data warehousing. Sistemas Interinstitucionales, este ltimo nivel de sistemas de informacin recin est surgiendo, es consecuencia del desarrollo organizacional orientado a un mercado de carcter global, el cual obliga a pensar e implementar estructuras de comunicacin ms estrechas entre la organizacin y el mercado (Empresa Extendida, Organizacin Inteligente e Integracin Organizacional), todo esto a partir de la generalizacin de las redes informticas de alcance nacional y global
http://www.WillyDev.Net
(INTERNET), que se convierten en vehculo de comunicacin entre la organizacin y el mercado, no importa dnde est la organizacin (INTRANET), el mercado de la institucin (EXTRANET) y el mercado (Red Global). Sin embargo, la tecnologa data warehousing basa sus conceptos y diferencias entre dos tipos fundamentales de sistemas de informacin en todas las organizaciones: los sistemas tcnico - operacionales y los sistemas de soporte de decisiones. Este ltimo es la base de un data warehouse.
http://www.WillyDev.Net
nmero de reas diferentes y necesita cantidades grandes de datos operacionales relacionadas. Son estos sistemas sobre los que se basa la tecnologa data warehousing.
http://www.WillyDev.Net
Las aplicaciones estn relacionadas con el diseo de la base de datos y del proceso. En data warehousing se enfoca el modelamiento de datos y el diseo de la base de datos. El diseo del proceso (en su forma clsica) no es separado de este ambiente. Las diferencias entre la orientacin de procesos y funciones de las aplicaciones y la orientacin a temas, radican en el contenido de la data a escala detallada. En el data warehouse se excluye la informacin que no ser usada por el proceso de
http://www.WillyDev.Net
sistemas de soporte de decisiones, mientras que la informacin de las orientadas a las aplicaciones, contiene datos para satisfacer de inmediato los requerimientos funcionales y de proceso, que pueden ser usados o no por el analista de soporte de decisiones. Otra diferencia importante est en la interrelacin de la informacin. Los datos operacionales mantienen una relacin continua entre dos o ms tablas basadas en una regla comercial que est vigente. Las del data warehouse miden un espectro de tiempo y las relaciones encontradas en el data warehouse son muchas. Muchas de las reglas comerciales (y sus correspondientes relaciones de datos) se representan en el data warehouse, entre dos o ms tablas.
3.2 Integracin
El aspecto ms importante del ambiente data warehousing es que la informacin encontrada al interior est siempre integrada. La integracin de datos se muestra de muchas maneras: en convenciones de nombres consistentes, en la medida uniforme de variables, en la codificacin de estructuras consistentes, en atributos fsicos de los datos consistentes, fuentes mltiples y otros. El contraste de la integracin encontrada en el data warehouse con la carencia de integracin del ambiente de aplicaciones, se muestran en la Figura N 2, con diferencias bien marcadas. A travs de los aos, los diseadores de las diferentes aplicaciones han tomado sus propias decisiones sobre cmo se debera construir una aplicacin. Los estilos y diseos personalizados se muestran de muchas maneras. Se diferencian en la codificacin, en las estructuras claves, en sus caractersticas fsicas, en las convenciones de nombramiento y otros. La capacidad colectiva de muchos de los diseadores de aplicaciones, para crear aplicaciones inconsistentes, es fabulosa. La Figura N 2 mencionada, muestra algunas de las diferencias ms importantes en las formas en que se disean las aplicaciones. Codificacin. Los diseadores de aplicaciones codifican el campo GENERO en varias formas. Un diseador representa GENERO como una "M" y una "F", otros como un "1" y un "0", otros como una "X" y una "Y" e inclusive, como "masculino" y "femenino". No importa mucho cmo el GENERO llega al data warehouse. Probablemente "M" y "F" sean tan buenas como cualquier otra representacin. Lo importante es que sea de cualquier fuente de donde venga, el GENERO debe llegar al data warehouse en un estado integrado uniforme.
http://www.WillyDev.Net
Por lo tanto, cuando el GENERO se carga en el data warehouse desde una aplicacin, donde ha sido representado en formato "M" y "F", los datos deben convertirse al formato del data warehouse. Medida de atributos. Los diseadores de aplicaciones miden las unidades de medida de las tuberas en una variedad de formas. Un diseador almacena los datos de tuberas en centmetros, otros en pulgadas, otros en millones de pies cbicos por segundo y otros en yardas. Al dar medidas a los atributos, la transformacin traduce las diversas unidades de medida usadas en las diferentes bases de datos para transformarlas en una medida estndar comn. Cualquiera que sea la fuente, cuando la informacin de la tubera llegue al data warehouse necesitar ser medida de la misma manera. Convenciones de Nombramiento. El mismo elemento es frecuentemente referido por nombres diferentes en las diversas aplicaciones. El proceso de transformacin asegura que se use preferentemente el nombre de usuario. Fuentes Mltiples. El mismo elemento puede derivarse desde fuentes mltiples. En este caso, el proceso de transformacin debe asegurar que la fuente apropiada sea usada, documentada y movida al depsito. Tal como se muestra en la figura, los puntos de integracin afectan casi todos los aspectos de diseo - las caractersticas fsicas de los datos, la disyuntiva de tener ms de una de fuente de datos, el problema de estndares de denominacin inconsistentes, formatos de fecha inconsistentes y otros. Cualquiera que sea la forma del diseo, el resultado es el mismo - la informacin necesita ser almacenada en el data warehouse en un modelo globalmente aceptable y singular, aun cuando los sistemas operacionales subyacentes almacenen los datos de manera diferente. Cuando el analista de sistema de soporte de decisiones observe el data warehouse, su enfoque deber estar en el uso de los datos que se encuentre en el depsito, antes que preguntarse sobre la confiabilidad o consistencia de los datos.
http://www.WillyDev.Net
http://www.WillyDev.Net
10
El tiempo variante se muestra de varias maneras: 1. La ms simple es que la informacin representa los datos sobre un horizonte largo de tiempo - desde cinco a diez aos. El horizonte de tiempo representado para el ambiente operacional es mucho ms corto - desde valores actuales hasta sesenta a noventa das. Las aplicaciones que tienen un buen rendimiento y estn disponibles para el procesamiento de transacciones, deben llevar una cantidad mnima de datos si tienen cualquier grado de flexibilidad. Por ello, las aplicaciones operacionales tienen un corto horizonte de tiempo, debido al diseo de aplicaciones rgidas. 2. La segunda manera en la que se muestra el tiempo variante en el data warehouse est en la estructura clave. Cada estructura clave en el data warehouse contiene, implcita o explcitamente, un elemento de tiempo como da, semana, mes, etc. El elemento de tiempo est casi siempre al pie de la clave concatenada,
http://www.WillyDev.Net
11
encontrada en el data warehouse. En ocasiones, el elemento de tiempo existir implcitamente, como el caso en que un archivo completo se duplica al final del mes, o al cuarto. 3. La tercera manera en que aparece el tiempo variante es cuando la informacin del data warehouse, una vez registrada correctamente, no puede ser actualizada. La informacin del data warehouse es, para todos los propsitos prcticos, una serie larga de "snapshots" (vistas instantneas). Por supuesto, si los snapshots de los datos se han tomado incorrectamente, entonces pueden ser cambiados. Asumiendo que los snapshots se han tomado adecuadamente, ellos no son alterados una vez hechos. En algunos casos puede ser no tico, e incluso ilegal, alterar los snapshots en el data warehouse. Los datos operacionales, siendo requeridos a partir del momento de acceso, pueden actualizarse de acuerdo a la necesidad.
3.4 No Voltil
La informacin es til slo cuando es estable. Los datos operacionales cambian sobre una base momento a momento. La perspectiva ms grande, esencial para el anlisis y la toma de decisiones, requiere una base de datos estable. En la Figura N 4 se muestra que la actualizacin (insertar, borrar y modificar), se hace regularmente en el ambiente operacional sobre una base de registro por registro. Pero la manipulacin bsica de los datos que ocurre en el data warehouse es mucho ms simple. Hay dos nicos tipos de operaciones: la carga inicial de datos y el acceso a los mismos. No hay actualizacin de datos (en el sentido general de actualizacin) en el depsito, como una parte normal de procesamiento. Hay algunas consecuencias muy importantes de esta diferencia bsica, entre el procesamiento operacional y del data warehouse. En el nivel de diseo, la necesidad de ser precavido para actualizar las anomalas no es un factor en el data warehouse, ya que no se hace la actualizacin de datos. Esto significa que en el nivel fsico de diseo, se pueden tomar libertades para optimizar el acceso a los datos, particularmente al usar la normalizacin y desnormalizacin fsica. Otra consecuencia de la simplicidad de la operacin del data warehouse est en la tecnologa subyacente, utilizada para correr los datos en el depsito. Teniendo que soportar la actualizacin de registro por registro en modo on-line (como es frecuente en el caso del procesamiento operacional) requiere que la tecnologa tenga un fundamento muy complejo debajo de una fachada de simplicidad.
http://www.WillyDev.Net
12
La tecnologa permite realizar copias de seguridad y recuperacin, transacciones e integridad de los datos y la deteccin y solucin al estancamiento que es ms complejo. En el data warehouse no es necesario el procesamiento. La fuente de casi toda la informacin del data warehouse es el ambiente operacional. A simple vista, se puede pensar que hay redundancia masiva de datos entre los dos ambientes. Desde luego, la primera impresin de muchas personas se centra en la gran redundancia de datos, entre el ambiente operacional y el ambiente de data warehouse. Dicho razonamiento es superficial y demuestra una carencia de entendimiento con respecto a qu ocurre en el data warehouse. De hecho, hay una mnima redundancia de datos entre ambos ambientes. Se debe considerar lo siguiente: Los datos se filtran cuando pasan desde el ambiente operacional al de depsito. Existe mucha data que nunca sale del ambiente operacional. Slo los datos que realmente se necesitan ingresarn al ambiente de data warehouse. El horizonte de tiempo de los datos es muy diferente de un ambiente al otro. La informacin en el ambiente operacional es ms reciente con respecto a la del data warehouse. Desde la perspectiva de los horizontes de tiempo nicos, hay poca superposicin entre los ambientes operacional y de data warehouse. El data warehouse contiene un resumen de la informacin que no se encuentra en el ambiente operacional. Los datos experimentan una transformacin fundamental cuando pasa al data warehouse. La mayor parte de los datos se alteran significativamente al ser seleccionados y movidos al data warehouse. Dicho de otra manera, la mayora de los datos se alteran fsica y radicalmente cuando se mueven al depsito. No es la
http://www.WillyDev.Net
13
misma data que reside en el ambiente operacional desde el punto de vista de integracin. En vista de estos factores, la redundancia de datos entre los dos ambientes es una ocurrencia rara, que resulta en menos de 1%.
Detalle de datos actuales Detalle de datos antiguos Datos ligeramente resumidos Datos completamente resumidos Meta data
Detalle de datos actuales. En gran parte, el inters ms importante radica en el detalle de los datos actuales, debido a que:
Refleja las ocurrencias ms recientes, las cuales son de gran inters Es voluminoso, ya que se almacena al ms bajo nivel de granularidad. Casi siempre se almacena en disco, el cual es de fcil acceso, aunque su administracin sea costosa y compleja.
Detalle de datos antiguos. La data antigua es aquella que se almacena sobre alguna forma de almacenamiento masivo. No es frecuentemente su acceso y se almacena a un nivel de detalle, consistente con los datos detallados actuales. Mientras no sea prioritario el almacenamiento en un medio de almacenaje alterno, a causa del gran volumen de datos unido al acceso no frecuente de los mismos, es poco usual utilizar el disco como medio de almacenamiento. Datos ligeramente resumidos. La data ligeramente resumida es aquella que proviene desde un bajo nivel de detalle encontrado al nivel de detalle actual. Este nivel del data warehouse casi siempre se almacena en disco. Los puntos en los que se basa el diseador para construirlo son:
Que la unidad de tiempo se encuentre sobre la esquematizacin hecha. Qu contenidos (atributos) tendr la data ligeramente resumida.
Datos completamente resumidos. El siguiente nivel de datos encontrado en el data warehouse es el de los datos completamente resumidos. Estos datos son compactos y fcilmente accesibles.
http://www.WillyDev.Net
14
A veces se encuentra en el ambiente de data warehouse y en otros, fuera del lmite de la tecnologa que ampara al data warehouse. (De todos modos, los datos
http://www.WillyDev.Net
15
completamente resumidos son parte del data warehouse sin considerar donde se alojan los datos fsicamente.)
Metadata. El componente final del data warehouse es el de la metadata. De muchas maneras la metadata se sita en una dimensin diferente al de otros datos del data warehouse, debido a que su contenido no es tomado directamente desde el ambiente operacional.
La metadata juega un rol especial y muy importante en el data warehouse y es usada como:
Un directorio para ayudar al analista a ubicar los contenidos del data warehouse. Una gua para la trazabilidad de los datos, de cmo se transforma, del ambiente operacional al de data warehouse. Una gua de los algoritmos usados para la esquematizacin entre el detalle de datos actual, con los datos ligeramente resumidos y stos, con los datos completamente resumidos, etc.
La metadata juega un papel mucho ms importante en un ambiente data warehousing que en un operacional clsico. A fin de recordar los diferentes niveles de los datos encontrados en el data warehouse, considere el ejemplo mostrado en la Figura N 6. El detalle de ventas antiguas son las que se encuentran antes de 1992. Todos los detalles de ventas desde 1982 (o cuando el diseador inici la coleccin de los archivos) son almacenados en el nivel de detalle de datos ms antiguo. El detalle actual contiene informacin desde 1992 a 1993 (suponiendo que 1993 es el ao actual). En general, el detalle de ventas no se ubica en el nivel de detalle actual hasta que haya pasado, por lo menos, veinticuatro horas desde que la informacin de ventas llegue a estar disponible en el ambiente operacional.
http://www.WillyDev.Net
16
http://www.WillyDev.Net
17
En otras palabras, habra un retraso de tiempo de por lo menos veinticuatro horas, entre el tiempo en que en el ambiente operacional se haya hecho un nuevo ingreso de la venta y el momento cuando la informacin de la venta haya ingresado al data warehouse. El detalle de las ventas son resumidas semanalmente por lnea de subproducto y por regin, para producir un almacenamiento de datos ligeramente resumidos. El detalle de ventas semanal es adicionalmente resumido en forma mensual, segn una gama de lneas, para producir los datos completamente resumidos. La metadata contiene (al menos):
La estructura de los datos Los algoritmos usados para la esquematizacin La trazabilidad desde el ambiente operacional al data warehouse
La informacin adicional que no se esquematiza es almacenada en el data warehouse. En muchas ocasiones, all se har el anlisis y se producir un tipo u otro de resumen. El nico tipo de esquematizacin que se almacena permanentemente en el data warehouse, es el de los datos que son usados frecuentemente. En otras palabras, si un analista produce un resumen que tiene una probabilidad muy baja de ser usado nuevamente, entonces la esquematizacin no es almacenada en el data warehouse.
http://www.WillyDev.Net
18
Base de datos operacional / Nivel de base de datos externo Nivel de acceso a la informacin Nivel de acceso a los datos Nivel de directorio de datos (Metadata) Nivel de gestin de proceso Nivel de mensaje de la aplicacin Nivel de data warehouse Nivel de organizacin de datos
http://www.WillyDev.Net
19
Esta dificultad en acceder a los datos operacionales es amplificada por el hecho que muchos de estos sistemas tienen de 10 a 15 aos de antigedad. El tiempo de algunos de estos sistemas significa que la tecnologa de acceso a los datos disponible para obtener los datos operacionales, es as mismo antigua. Ciertamente, la meta del data warehousing es liberar la informacin que es almacenada en bases de datos operacionales y combinarla con la informacin desde otra fuente de datos, generalmente externa. Cada vez ms, las organizaciones grandes adquieren datos adicionales desde bases de datos externas. Esta informacin incluye tendencias demogrficas, economtricas, adquisitivas y competitivas (que pueden ser proporcionadas por Instituciones Oficiales - INEI). Internet o tambin llamada "information superhighway" (supercarretera de la informacin) provee el acceso a ms recursos de datos todos los das.
20
las herramientas de acceso a la informacin, acceder tambin a la data almacenada en sistemas de gestin de base de datos que tienen veinte aos de antigedad. El nivel de acceso a los datos no solamente conecta DBMSS diferentes y sistemas de archivos sobre el mismo hardware, sino tambin a los fabricantes y protocolos de red. Una de las claves de una estrategia data warehousing es proveer a los usuarios finales con "acceso a datos universales". El acceso a los datos universales significa que, tericamente por lo menos, los usuarios finales sin tener en cuenta la herramienta de acceso a la informacin o ubicacin, deberan ser capaces de acceder a cualquier o todos los datos en la empresa que es necesaria para ellos, para hacer su trabajo. El nivel de acceso a los datos entonces es responsable de la interfaces entre las herramientas de acceso a la informacin y las bases de datos operacionales. En algunos casos, esto es todo lo que un usuario final necesita. Sin embargo, en general, las organizaciones desarrollan un plan mucho ms sofisticado para el soporte del data warehousing.
http://www.WillyDev.Net
21
http://www.WillyDev.Net
22
http://www.WillyDev.Net
23
5.2.3 Metadata
Otro paso necesario es crear la metadata. La metadata (es decir, datos acerca de datos) describe los contenidos del data warehouse. La metadata consiste de definiciones de los elementos de datos en el depsito, sistema(s) del (os) elemento(s) fuente. Como la data, se integra y transforma antes de ser almacenada en informacin similar.
http://www.WillyDev.Net
24
http://www.WillyDev.Net
25
En la Figura N 9 se ilustra una forma de inconsistencia, en la cual el gnero se codifica de manera diferente en tres bases de datos diferentes. Los procesos de transformacin de datos se desarrollan para direccionar estas inconsistencias.
La transformacin de datos tambin se encarga de las inconsistencias en el contenido de datos. Una vez que se toma la decisin sobre que reglas de transformacin sern establecidas, deben crearse e incluirse las definiciones en las rutinas de transformacin. Se requiere una planificacin cuidadosa y detallada para transformar datos inconsistentes en conjuntos de datos conciliables y consistentes para cargarlos en el data warehouse.
6.2 Metadata
Otro aspecto de la arquitectura de data warehouse es crear soporte a la metadata. Metadata es la informacin sobre los datos que se alimenta, se transforma y existe en el data warehouse. Metadata es un concepto genrico, pero cada implementacin de la metadata usa tcnicas y mtodos especficos. Estos mtodos y tcnicas son dependientes de los requerimientos de cada organizacin, de las capacidades existentes y de los requerimientos de interfaces de usuario. Hasta ahora, no hay normas para la metadata, por lo que la metadata debe definirse desde el punto de vista del software data warehousing, seleccionado para una implementacin especfica.
http://www.WillyDev.Net
26
Las estructuras de datos que dan una visin de los datos al administrador de datos. Las definiciones del sistema de registro desde el cual se construye el data warehouse. Las especificaciones de transformaciones de datos que ocurren tal como la fuente de datos se replica al data warehouse.
El modelo de datos del data warehouse (es decir, los elementos de datos y sus relaciones). Un registro de cuando los nuevos elementos de datos se agregan al data warehouse y cuando los elementos de datos antiguos se eliminan o se resumen. Los niveles de sumarizacin, el mtodo de sumarizacin y las tablas de registros de su data warehouse. Algunas implementaciones de la metadata tambin incluyen definiciones de la(s) vista(s) presentada(s) a los usuarios del data warehouse. Tpicamente, se definen vistas mltiples para favorecer las preferencias variadas de diversos grupos de usuarios. En otras implementaciones, estas descripciones se almacenan en un Catlogo de Informacin. Los esquemas y subesquemas para bases de datos operacionales, forman una fuente ptima de entrada cuando se crea la metadata. Hacer uso de la documentacin existente, especialmente cuando est disponible en forma electrnica, puede acelerar el proceso de definicin de la metadata del ambiente data warehousing. La metadata sirve, en un sentido, como el corazn del ambiente data warehousing. Crear definiciones de metadata completa y efectiva puede ser un proceso que consuma tiempo, pero lo mejor de las definiciones y si usted usa herramientas de gestin de software integrado, son los esfuerzos que darn como resultado el mantenimiento del data warehouse.
7 Flujo de Datos
Existe un flujo de datos normal y predecible dentro del data warehouse. La Figura N 10 muestra ese flujo. Los datos ingresan al data warehouse desde el ambiente operacional. (Hay pocas excepciones a esta regla). Al ingresar al data warehouse, la informacin va al nivel de detalle actual, tal como se muestra. Se queda all y se usa hasta que ocurra uno de los tres eventos siguientes:
http://www.WillyDev.Net
27
Con el proceso de desactualizacin en un data warehouse se mueve el detalle de la data actual a data antigua, basado en el tiempo de los datos. El proceso de esquematizacin usa el detalle de los datos para calcular los datos en forma ligera y completamente resumidos. Hay pocas excepciones al flujo mostrado. Sin embargo, en general, para la mayora de datos encontrados en un data warehouse, el flujo de la informacin es como se ha explicado.
http://www.WillyDev.Net
28
Dependiendo del volumen de informacin, la frecuencia de acceso, el costo de los medios y el tipo de acceso, es probable que otros medios de almacenamiento sirvan a las necesidades del nivel de detalle ms antiguo en el data warehouse.
Requerimientos inmediata
respuesta
http://www.WillyDev.Net
29
Por ejemplo, un especialista en el cuidado de la salud podra necesitar acceder a los datos actuales e histricos para analizar las tendencias de costos, usando un conjunto de consultas predefinidas. Por el contrario, un representante de ventas podra necesitar acceder a los datos de cliente y producto para evaluar la eficacia de una campaa de marketing, creando consultas base o ad-hoc para encontrar nuevamente necesidades definidas.
http://www.WillyDev.Net
30
Por lo general, los diferentes niveles de datos dentro del data warehouse reciben diferentes usos. A ms alto nivel de esquematizacin, se tiene mayor uso de los datos. En la Figura N 12 se muestra que hay mayor uso de los datos completamente resumidos, a diferencia de la informacin antigua que apenas es usada. Hay una buena razn para mover una organizacin al paradigma sugerido en la figura, la utilizacin del recurso. La data ms resumida, permite capturar los datos en forma ms rpida y eficiente. Si en una tarea se encuentra que se hace mucho procesamiento a niveles de detalle del data warehouse, entonces se consumir muchos recursos de mquina. Es mejor hacer el procesamiento a niveles ms altos de esquematizacin como sea posible. Para muchas tareas, el analista de sistemas de soporte de decisiones usa la informacin detallada en un pre data warehouse. La seguridad de la informacin de detalle se consigue de muchas maneras, aun cuando estn disponibles otros niveles de esquematizacin. Una de las actividades del diseador de datos es el de desconectar al usuario del sistema de soporte de decisiones del uso constante de datos con un detalle ms bajo. El diseador de datos tiene dos predisposiciones: a. Instalar un sistema chargeback, donde el usuario final pague por los recursos consumidos b. Sealar el mejor tiempo de respuesta que puede obtenerse cuando se trabaja con la data a un nivel alto de esquematizacin, a diferencia de un pobre tiempo de respuesta que resulta de trabajar con los datos a un nivel bajo de detalle. Para ilustrar cmo un data warehouse puede ayudar a una organizacin a mejorar sus operaciones, se muestra un ejemplo de lo que es el desarrollo de actividades sin tener un data warehouse.
http://www.WillyDev.Net
31
http://www.WillyDev.Net
32
ao anterior, con una comparacin adicional de los 3 aos precedentes. Se debe explicar cada desviacin de la tendencia que cae fuera de un rango predefinido. Sin un data warehouse, el informe es preparado de la manera siguiente: La informacin financiera actual se obtiene desde una base de datos mediante un programa de extraccin de datos, el inventario actual de otro programa de extraccin de otra base de datos, la condicin actual de personal de un tercer programa de extraccin y la informacin histrica desde una copia de seguridad de cinta magntica o CD-ROM. Lo ms interesante es que se ha pedido otro informe que contine al primer informe (debido a que las preguntas se originaron a partir del anterior). El hecho es, que ninguno de los trabajos realizados hasta aqu (por ejemplo, diversos programas de extraccin) se pueden usar para los prximos o para cualquier reporte subsiguiente. Imagine el tiempo y el esfuerzo que se ha desperdiciado por un enfoque anticuado. (Ver Figura N 13). Las inconsistencias deben identificarse en cada conjunto de datos extrados y resolverse, por lo general, manualmente. Cuando se completa todo este procesamiento, el reporte puede ser formateado, impreso, revisado y transmitido. Nuevamente, el punto importante aqu es que todo el trabajo desempeado para hacer este informe no afecta a otros reportes que pueden solicitarse es decir, todos ellos son independientes y caros, desde el punto de vista de recursos y productividad. Al crear un data warehouse y combinar todos los datos requeridos, se obtienen los siguientes beneficios: Las inconsistencias de los datos se resuelven automticamente cuando los elementos de datos se cargan en el data warehouse, no manualmente, cada vez que se prepara un reporte. Los errores que ocurrieron durante el proceso complejo de la preparacin del informe, se minimizan porque el proceso es ahora mucho ms simple. Los elementos de datos son fcilmente accesibles para otros usos, no slo para un reporte particular. Se crea una sola fuente.
http://www.WillyDev.Net
33
10 Consideraciones Adicionales
Hay algunas consideraciones adicionales que deben tenerse en cuenta al construir y administrar el data warehouse. La primera consideracin es respecto al ndice. La informacin de los niveles de esquematizacin ms altos pueden ser libremente indexados, mientras que las de los niveles ms bajos de detalle, por ser tan voluminosa, pueden ser indexados moderadamente. Por lo mismo, los datos en los niveles ms altos de detalle pueden ser reestructurados fcilmente, mientras que el volumen de datos en los niveles ms inferiores es tan grande, que los datos no pueden ser fcilmente reestructurados. Por consiguiente, el modelo de datos y el diseo clsico fundamentan que el data warehouse se aplique casi exclusivamente al nivel actual de detalle. En otras
http://www.WillyDev.Net
34
palabras, las actividades de modelamiento de datos no se aplican a los niveles de esquematizacin, en casi todos los casos. Otra consideracin estructural es la particin de la informacin en el data warehouse. El nivel de detalle actual es casi siempre particionado. La particin puede hacerse de dos maneras: al nivel de DBMS y al nivel de la aplicacin. En la particin DBMS, se conoce las particiones y se administra por consiguiente. En el caso de la particin de las aplicaciones, slo los programadores de las mismas conocen las particiones y la responsabilidad de su administracin es asignada a ellos. Al interior de las particiones DBMS, mucho de los trabajos de infraestructura se hacen automticamente. Pero existe un elevado grado de rigidez asociada con la gestin automtica de las particiones. En el caso de las particiones de las aplicaciones del data warehouse, la mayor parte del trabajo recae sobre el programador, pero el resultado final es que la gestin de datos es ms flexible.
http://www.WillyDev.Net
35
Se muestra slo el detalle actual, no as los niveles de esquematizacin ni los archivos de detalle ms antiguos. Adems, se observa que hay tablas del mismo tipo divididas a travs del tiempo. Por ejemplo, para el histrico de la fabricacin de las piezas, hay muchas tablas separadas fsicamente, representando cada una un trimestre diferente. La
http://www.WillyDev.Net
36
estructura de los datos es consistente con la tabla de la elaboracin de las piezas, aunque fsicamente hay muchas tablas que lgicamente incluyen el histrico. Para los diferentes tipos de tablas hay diferentes unidades de tiempo que fsicamente dividen las unidades de informacin. El histrico de fabricacin est dividido por trimestres, el histrico de la orden de piezas est dividido por aos y el histrico de cliente es un archivo nico, no dividido por el tiempo. As tambin, las diferentes tablas son vinculadas por medio de un identificador comn, piezas u rdenes de piezas (la representacin de la interrelacin en el ambiente de depsito toma una forma muy diferente al de otros ambientes, tal como el ambiente operacional).
37
incrementara la exposicin de la compaa. Por lo tanto hay un nico tipo de datos en el data warehouse conocido como detalle de datos permanentes. El detalle de datos permanentes comparte muchas de las mismas consideraciones como otro data warehouse, excepto que:
El medio donde se almacena la data debe ser tan seguro como sea posible. Los datos deben permitir ser restaurados. Los datos necesitan un tratamiento especial en su indexacin, ya que de otra manera los datos pueden no ser accesibles aunque se haya almacenado con mucha seguridad.
http://www.WillyDev.Net
38
1. Organizacin
La planificacin es el proceso ms importante que determina la clase de tipo de estrategias data warehousing que una organizacin iniciar.
http://www.WillyDev.Net
39
Implementacin incremental
La implementacin incremental reduce riesgos y asegura que el tamao del proyecto permanezca manejable en cada fase.
Existe un nmero de estrategias mediante las cuales las organizaciones pueden conseguir sus data warehouses.
Primera
Establecer un ambiente "data warehouse virtual", el cual puede ser creado por:
Instalacin de un conjunto de facilidades para acceso a datos, directorio de datos y gestin de proceso. Entrenamiento de usuarios finales. Control de cmo se usan realmente las instalaciones del data warehouse. Basados en el uso actual, crear un data warehouse fsico para soportar los pedidos de alta frecuencia.
Segunda
Construir una copia de los datos operacionales desde un sistema operacional nico y posibilitar al data warehouse de una serie de herramientas de acceso a la informacin.
http://www.WillyDev.Net
40
Esta estrategia tiene la ventaja de ser simple y rpida. Desafortunadamente, si los datos existentes son de mala calidad y/o el acceso a los datos no ha sido previamente evaluado, entonces se puede crear una serie de problemas.
Tercera
Finalmente, la estrategia data warehousing ptima es seleccionar el nmero de usuarios basados en el valor de la empresa y hacer un anlisis de sus puntos, preguntas y necesidades de acceso a datos. De acuerdo a estas necesidades, se construyen los prototipos data warehousing y se prueban para que los usuarios finales puedan experimentar y modificar sus requerimientos. Una vez se tenga un consenso general sobre las necesidades, entonces se consiguen los datos provenientes de los sistemas operacionales existentes a travs de la empresa y/o desde fuentes externas de datos y se cargan al data warehouse. Si se requieren herramientas de acceso a la informacin, se puede tambin permitir a los usuarios finales tener acceso a los datos requeridos usando sus herramientas favoritas propias, o facilitar la creacin de sistemas de acceso a la informacin multidimensional de alta performance, usando el ncleo del data warehouse como base.
En conclusin
No se tiene un enfoque nico para construir un data warehouse que se adapte a las necesidades de las empresas, debido a que las necesidades de cada una de ellas son diferentes, al igual que su contexto. Adems, como la tecnologa data warehousing va evolucionando, se aprende cada vez ms y ms sobre el desarrollo de data warehouses, que resulta en que el nico enfoque prctico para al almacenamiento de datos es la evolucin de uno mismo.
http://www.WillyDev.Net
41
3. Finalmente, la estrategia de diseo ideal para un data warehousing es generalmente de afuera hacia adentro (outside-in) a diferencia de arriba hacia abajo (top-down). A pesar que el diseo del data warehouse es diferente al usado en los diseos tradicionales, no es menos importante. El hecho que los usuarios finales tengan dificultad en definir lo que ellos necesitan, no lo hace menos necesario. En la prctica, los diseadores de data warehouses tienen que usar muchos "trucos" para ayudar a sus usuarios a "visualizar" sus requerimientos. Por ello, son esenciales los prototipos de trabajo.
2 Desarrollo
2.1 Porque Construir Bloques de Data Warehouse?
Para ampliar un negocio, se necesita que la informacin sea comprensible. Para muchas compaas, esto significa un gran data warehouse que muestre, junto a los datos no filtrados y dispersos, nuevas formas creativas de presentacin. Las herramientas para capturar y explorar los datos al detalle evolucionan, as como nuestra capacidad para encontrar las formas de explotar los datos recolectados. En los ltimos 10 aos se han combinado dos factores para ayudar a la difusin de los data warehouses. Ellos son:
http://www.WillyDev.Net
42
1. Se ha reconocido los beneficios del procesamiento analtico en lnea (On Line Analytical Processing - OLAP), ms all de las reas tradicionales de marketing y finanzas. Las organizaciones saben que los conocimientos inmersos en las masas de datos que rutinariamente recogen sobre sus clientes, productos, operaciones y actividades comerciales, contribuyen a reducir los costos de operacin y aumentar las rentas, por no mencionar que es ms fcil la toma de decisiones estratgicas. 2. El crecimiento de la computacin cliente/servidor, ha creado servidores de hardware y software ms poderosos y sofisticados que nunca. Los servidores de hoy compiten con las mainframes de ayer y ofrecen arquitecturas de memoria tecnolgicamente superiores, procesadores de alta velocidad y capacidades de almacenamiento masivas. Al mismo tiempo, los Sistemas de Gestin de Base de Datos (Data Base Management Systems - DBMS(s)) modernos, proporcionan mayor soporte para las estructuras de datos complejas. De esta renovacin de hardware y software surgen los data warehouses multiterabyte que ahora se ve en ambientes de cliente/servidor.
La Figura N 15 muestra un esquema bidimensional para analizar las opciones bsicas. La dimensin horizontal indica el alcance del depsito y la vertical muestra la cantidad de datos redundantes que deben almacenarse y mantenerse.
http://www.WillyDev.Net
43
Data warehouses "virtual" o "Point to Point" Data warehouses "centrales" Data warehouses "distribuidos"
No se puede pensar en un nico enfoque. Cada opcin adapta un conjunto especfico de requerimientos y una buena estrategia de almacenamiento de datos, lo constituye la inclusin de las tres opciones. Data Warehouses "Virtual" o "Point to Point"
http://www.WillyDev.Net
44
Una estrategia de data warehouses virtual, significa que los usuarios finales pueden acceder a bases de datos operacionales directamente, usando cualquier herramienta que posibilite "la red de acceso de datos". Este enfoque provee flexibilidad as como tambin la cantidad mnima de datos redundantes que deben cargarse y mantenerse. Adems, se pueden colocar las cargas de consulta no planificadas ms grandes, sobre sistemas operacionales. Como se ver, el almacenamiento virtual es, frecuentemente, una estrategia inicial, en organizaciones donde hay una amplia (pero en su mayor parte indefinida) necesidad de conseguir la data operacional, desde una clase relativamente grande de usuarios finales y donde la frecuencia probable de pedidos es baja. Los depsitos virtuales de datos proveen un punto de partida para que las organizaciones determinen qu usuarios finales estn buscando realmente. Data Warehouses "Centrales" El concepto de data warehouses centrales es el concepto inicial que se tiene del data warehouse. Es una nica base de datos fsica, que contiene todos los datos para un rea funcional especfica, departamento, divisin o empresa. Los data warehouses centrales se seleccionan por lo general donde hay una necesidad comn de los datos informticos y un nmero grande de usuarios finales ya conectados a una red o computadora central. Pueden contener datos para cualquier perodo especfico de tiempo. Comnmente, contienen datos de sistemas operacionales mltiples. Los data warehouses centrales son reales. Los datos almacenados en el data warehouse son accesibles desde un lugar y deben cargarse y mantenerse sobre una base regular. Normalmente se construyen alrededor de RDBMS avanzados o, en alguna forma, de servidor de base de datos informtico multidimensional. Data Warehouses Distribuidos Los data warehouses distribuidos son aquellos en los cuales ciertos componentes del depsito se distribuyen a travs de un nmero de bases de datos fsicas diferentes. Cada vez ms, las organizaciones grandes estn tomando decisiones a niveles ms inferiores de la organizacin y a la vez, llevando los datos que se necesitan para la toma de decisiones a la red de rea local (Local Area Network - LAN) o computadora local que sirve al que toma decisiones. Los data warehouses distribuidos comnmente involucran la mayora de los datos redundantes y como consecuencia de ello, se tienen procesos de actualizacin y carga ms complejos.
http://www.WillyDev.Net
45
Ejecutivos y gerentes "Power users" o "Buzo de Informacin" (analistas financieros y de negocios, ingenieros, etc.) Usuarios de soporte (de oficina, administrativos, etc.).
Cada una de estas categoras diferentes de usuario tienen su propio conjunto de requerimientos para los datos, acceso, flexibilidad y facilidad de uso.
Arquitectura total del depsito Arquitecturas del servidor Sistemas de Gestin de Base de Datos
A continuacin se presentan algunas recomendaciones para tomar las correctas elecciones para su empresa.
http://www.WillyDev.Net
46
El desarrollo del data warehouse comienza con la estructura lgica y fsica de la base de datos del depsito ms los servicios requeridos para operar y mantenerlo. Esta eleccin conduce a la seleccin de otros dos tems fundamentales: el servidor de hardware y el DBMS. La plataforma fsica puede centralizarse en una sola ubicacin o distribuirse regional, nacional o internacionalmente. A continuacin se dan las siguientes alternativas de arquitectura: 1. Un plan para almacenar los datos de su compaa, que podra obtenerse desde fuentes mltiples internas y externas, es consolidar la base de datos en un data warehouse integrado. El enfoque consolidado proporciona eficiencia tanto en la potencia de procesamiento como en los costos de soporte. (Ver Figura N 16).
2. La arquitectura global distribuye informacin por funcin, con datos financieros sobre un servidor en un sitio, los datos de comercializacin en
http://www.WillyDev.Net
47
3. Una arquitectura por niveles almacena datos altamente resumidos sobre una estacin de trabajo del usuario, con resmenes ms detallados en un segundo servidor y la informacin ms detallada en un tercero. La estacin de trabajo del primer nivel maneja la mayora de los pedidos para los datos, con pocos pedidos que pasan sucesivamente a los niveles 2 y 3 para la resolucin. Las computadoras en el primer nivel pueden optimizarse para usuarios de carga pesada y volumen bajo de datos, mientras que los servidores de los otros niveles son ms adecuados para procesar los volmenes pesados de datos, pero cargas ms livianas de usuario. (Ver figura N 18).
http://www.WillyDev.Net
48
Arquitectura del servidor Al decidir sobre una estructura de depsito distribuida o centralizada, tambin se necesita considerar los servidores que retendrn y entregarn los datos. El tamao de su implementacin (y las necesidades de su empresa para escalabilidad, disponibilidad y gestin de sistemas) influir en la eleccin de la arquitectura del servidor. 1 Servidores de un solo procesador Los servidores de un slo procesador son los ms fciles de administrar, pero ofrecen limitada potencia de procesamiento y escalabilidad. Adems, un servidor slo presenta un nico punto de falla, limitando la disponibilidad garantizada del depsito. Se puede ampliar un solo servidor de redes mediante arquitecturas distribuidas que hacen uso de subproductos, tales como Ambientes de Computacin Distribuida (Distributed Computing Environment - DCE) o Arquitectura Broker de Objeto Comn
http://www.WillyDev.Net
49
(Common Objects Request Broker Architecture - CORBA), para distribuir el trfico a travs de servidores mltiples. Estas arquitecturas aumentan tambin la disponibilidad, debido a que las operaciones pueden cambiarse al servidor de copia de seguridad si un servidor falla, pero la gestin de sistemas es ms compleja. 2 Multiprocesamiento simtrico Las mquinas de multiprocesamiento simtrico (Symmetric MultiProcessing - SMP) aumentan mediante la adicin de procesadores que comparten la memoria interna de los servidores y los dispositivos de almacenamiento de disco. Se puede adquirir la mayora de SMP en configuraciones mnimas (es decir, con dos procesadores) y levantar cuando es necesario, justificando el crecimiento con las necesidades de procesamiento. La escalabilidad de una mquina SMP alcanza su lmite en el nmero mximo de procesadores soportados por los mecanismos de conexin (es decir, el backplane y bus compartido). 3 Procesamiento en paralelo masivo Una mquina de procesamiento en paralelo masivo (Massively Parallel Processing MPP), conecta un conjunto de procesadores por medio de un enlace de banda ancha y de alta velocidad. Cada nodo es un servidor, completo con su propio procesador (posiblemente SMP) y memoria interna. Para optimizar una arquitectura MPP, las aplicaciones deben ser "paralelizadas" es decir, diseadas para operar por separado, en partes paralelas. Esta arquitectura es ideal para la bsqueda de grandes bases de datos. Sin embargo, el DBMS que se selecciona debe ser uno que ofrezca una versin paralela. Y an entonces, se requiere un diseo y afinamiento esenciales para obtener una ptima distribucin de los datos y prevenir "hot spots" o "data skew" (donde una cantidad desproporcionada del procesamiento es cambiada a un nodo de procesamiento, debido a la particin de los datos bajo su control). 4 Acceso de memoria no uniforme La dificultad de mover aplicaciones y los DBMS a agrupaciones o ambientes realmente paralelos ha conducido a nuevas y recientes arquitecturas, tales como el acceso de memoria no uniforme (Non Uniform Memory Access - NUMA). NUMA crea una sola gran mquina SMP al conectar mltiples nodos SMP en un solo (aunque fsicamente distribuida) banco de memoria y un ejemplo nico de OS. NUMA facilita el enfoque SMP para obtener los beneficios de performance de las grandes mquinas MPP (con 32 o ms procesadores), mientras se mantiene las ventajas de gestin y simplicidad de un ambiente SMP estndar.
http://www.WillyDev.Net
50
Lo ms importante de todo, es que existen DBMS y aplicaciones que pueden moverse desde un solo procesador o plataforma SMP a NUMA, sin modificaciones.
51
comunes. Estos esquemas podran usar tablas mltiples e indicadores para simular una estructura multidimensional. Algunos productos DBMS, tales como ESSBASE y GENTIUM, implementan tcnicas de almacenamiento y operadores que soportan estructuras de datos multidimensionales. Mientras las bases de datos multidimensionales (MultiDimensional Databases MDDBs) ayudan directamente a manipular los objetos de datos multidimensionales (por ejemplo, la rotacin fcil de los datos para verlos entre dimensiones diferentes, o las operaciones de drill down que sucesivamente exponen los niveles de datos ms detallados), se debe identificar estas dimensiones cuando se construya la estructura de la base de datos. As, agregar una nueva dimensin o cambiar las vistas deseadas, puede ser engorroso y costoso. Algunos MDDBS requieren un recargue completo de la base de datos cuando ocurre una reestructuracin.
http://www.WillyDev.Net
52
Se requiere el paralelismo para el mejor desempeo en los servidores MPP grandes y SMP agrupados. No es an una opcin con MDDBS o DBMS relacional - objeto. En la tabla "Cmo comparar DBMS" se resume los pro y los contra de los diferentes tipos de DBMS para operaciones de data warehouse. La tabla "Matriz de Decisin del Data Warehouse" contiene algunos ejemplos de cmo afectan estos criterios de decisin en la eleccin de una arquitectura de servidor/ data warehouse.
Cmo comparar DBMSES? Super Caractersticas/Funci Relaciona Multidimension Relaciona n l al (Lgico) l Estructuras Normalizadas Tipos de abstractos Paralelismo Estructuras Multidimensionales Drill-Down Rotacin Operaciones dependientes datos de datos Multidimension al (Fsico) Objeto Relaciona l
Matriz de Decisin para el Data Warehouse Para estos ambientes Requerimientos Usuarios comerciales Alcance: departamental Elija Soporte de Arquitectura Sistemas Servidor DBMS
Local Pequea - mnimo - Consolidado - paquete ubicacin nica central Usos: anlisis promedio de datos Grande Analistas en una sola ubicacin; Usos: anlisis usuarios ms informtica informticos dispersos
Alcance: departamental
http://www.WillyDev.Net
53
Alcance: empresa
Central fuerte
Centralizado
Grupos SMP
Centralizado
MPP
http://www.WillyDev.Net
54
Un perfil de usuario debera identificar quines son los usuarios de su data warehouse, dnde se ubican y cuntos necesita soportar. La informacin sobre cmo cada grupo espera usar los data warehouses, ayudar a analizar los diversos estilos de uso. Conocer la ubicacin fsica de sus usuarios ayudar a determinar cmo y a qu rea necesita distribuir el data warehouse. Una arquitectura por niveles podra usar servidores en el lugar de las redes de rea local. O puede necesitar un enfoque centralizado para soportar a los trabajadores que se movilizan y que trabajan en el depsito desde sus laptops. El nmero total de usuarios y sus modelos de conexin determinan el tamao de sus servidores de depsito. Los tamaos de memoria y los canales de I/O deben soportar el nmero previsto de usuarios concurrentes bajo condiciones normales, as como tambin en las horas punta de su organizacin. Finalmente, se debe factorizar la sofisticacin del personal de soporte. Los recursos de los sistemas de informacin (Information System - IS) que estn disponibles dentro de su organizacin, pueden limitar la complejidad o sofisticacin de la arquitectura del servidor. Sin el personal especializado interno o consultores externos, es difcil de crear y mantener satisfactoriamente una arquitectura que requiere paralelismo en la plataforma del servidor (MPP o SMP agrupado, por ejemplo).
55
Desafortunadamente, los datos que se usan satisfactoriamente en las aplicaciones de lnea comercial operacionales pueden ser basura en lo que concierne a la aplicacin data warehousing.
Los datos "sucios" pueden presentarse al ingresar informacin en una entrada de datos (por ejemplo, "Sistemas S. A." en lugar de "Sistemas S. A.") o de otras causas. Cualquiera que sea, la data sucia daa la credibilidad de la implementacin del depsito completo. A continuacin, en la Figura N 23 se muestra un ejemplo de formato de ventas en el que se pueden presentar errores.
http://www.WillyDev.Net
56
Afortunadamente, las herramientas de limpieza de datos pueden ser de gran ayuda. En algunos casos, puede crearse un programa de limpieza efectivo. En el caso de bases de datos grandes, imprecisas e inconsistentes, el uso de las herramientas comerciales puede ser casi obligatorio. Decidir qu herramienta usar es importante y no solamente para la integridad de los datos. Si se equivoca, se podra malgastar semanas en recursos de programacin o cientos de miles de dlares en costos de herramientas. La limpieza de una data "sucia" es un proceso multifactico y complejo. Los pasos a seguir son los siguientes: 1. Analizar sus datos corporativos para descubrir inexactitudes, anomalas y otros problemas. 2. Transformar los datos para asegurar que sean precisos y coherentes. 3. Asegurar la integridad referencial, que es la capacidad del data warehouse, para identificar correctamente al instante cada objeto del negocio, tales como un producto, un cliente o un empleado. 4. Validar los datos que usa la aplicacin del data warehouse
http://www.WillyDev.Net
57