You are on page 1of 46

Data Warehousing

• • • •
Introducción Introducción al Concepto Data Warehousing Sistemas de Información Características de un Data Warehouse o Orientado a Temas o Integración o De Tiempo Variante o De Tiempo Variante Estructura del Data Warehouse Arquitectura de un Data Warehouse o Elementos constituyentes de una Arquitectura Data Warehouse  Base de datos operacional / Nivel de base de datos externo  Nivel de acceso a la información  Nivel de acceso a los datos  Nivel de Directorio de Datos (Metadata)  Nivel de Gestión de Procesos  Nivel de Mensaje de la Aplicación  Nivel Data Warehouse (Físico)  Nivel de Organización de Datos o Operaciones en un Data Warehouse  Sistemas Operacionales  Extracción, Transformación y Carga de los Datos  Metadata  Acceso de usuario final  Plataforma del data warehouse  Datos Externos o Evolución del Depósito Transformacion de Datos y Metadata o Transformación de Datos o Metadata Flujo de Datos Medios de Almacenamiento para Informacion Antigua Usos del Data Warehouse Consideraciones Adicionales Ejemplo de un Data Warehouse Excepciones en el Data Warehouse Organización de un proyecto o Factores en la Planificacion de un Data Warehouse o Estrategias para el Desarrollo de un Data Warehouse o Estrategias para el Diseño de un Data Warehouse o Estrategias para el Gestion de un Data Warehouse Desarrollo de un proyecto o ¿Porque Construir Bloques de Data Warehouse? o Consideraciones Previas al Desarrollo de un Data Warehouse  Alcance de un Data Warehouse  Redundancia de Datos  Tipo de Usuario Final o Elementos Claves para el Desarrollo de un Data Warehouse  Diseño de la Arquitectura  Sistemas de Gestión de Bases de Datos  Nuevas Dimensiones
Av. Morones Prieto # 2805 Col. Lomas de San Francisco Monterrey, Nuevo León. (81) 83990145 Aguascalientes Ags. Fracc. Casa Blanca Tel: (449) 9776369 www.tasisoft.com HOJA 1

• •

• • • • • • • •

Comisión Nacional Agraria No. 50 Primer Piso Col. Federal México D.F. (55) 26436451

o

Combinacion de la Arquitectura con el Sistema de Gestion de Bases de Datos Planes de Expansion Confiabilidad de los Datos

 

Introducción
Desde que se inició la era de la computadora, las organizaciones han usado los datos desde sus sistemas operacionales para atender sus necesidades de información. Algunas proporcionan acceso directo a la información contenida dentro de las aplicaciones operacionales. Otras, han extraído los datos desde sus bases de datos operacionales para combinarlos de varias formas no estructuradas, en su intento por atender a los usuarios en sus necesidades de información. Ambos métodos han evolucionado a través del tiempo y ahora las organizaciones manejan una data no limpia e inconsistente, sobre las cuales, en la mayoría de las veces, se toman decisiones importantes. La gestión administrativa reconoce que una manera de elevar su eficiencia está en hacer el mejor uso de los recursos de información que ya existen dentro de la organización. Sin embargo, a pesar de que esto se viene intentando desde hace muchos años, no se tiene todavía un uso efectivo de los mismos. La razón principal es la manera en que han evolucionado las computadoras, basadas en las tecnologías de información y sistemas. La mayoría de las organizaciones hacen lo posible por conseguir buena información, pero el logro de ese objetivo depende fundamentalmente de su arquitectura actual, tanto de hardware como de software. El data warehouse, es actualmente, el centro de atención de las grandes instituciones, porque provee un ambiente para que las organizaciones hagan un mejor uso de la información que está siendo administrada por diversas aplicaciones operacionales. Un data warehouse es una colección de datos en la cual se encuentra integrada la información de la Institución y que se usa como soporte para el proceso de toma de decisiones gerenciales. Aunque diversas organizaciones y personas individuales logran comprender el enfoque de un Warehouse, la experiencia ha demostrado que existen muchas dificultades potenciales. Reunir los elementos de datos apropiados desde diversas fuentes de aplicación en un ambiente integral centralizado, simplifica el problema de acceso a la información y en consecuencia, acelera el proceso de análisis, consultas y el menor tiempo de uso de la información. Las aplicaciones para soporte de decisiones basadas en un data warehousing, pueden hacer más práctica y fácil la explotación de datos para una mayor eficacia del negocio, que no se logra cuando se usan sólo los datos que provienen de las aplicaciones operacionales (que ayudan en la operación de la empresa en sus operaciones cotidianas), en los que la información se obtiene realizando procesos independientes y muchas veces complejos. Un data warehouse se crea al extraer datos desde una o más bases de datos de aplicaciones operacionales. La data extraída es transformada para eliminar inconsistencias y resumir si es necesario y luego, cargadas en el data warehouse. El proceso de transformar, crear el detalle de tiempo variante, resumir y combinar los extractos de datos, ayudan a crear el ambiente para el acceso a la información Institucional. Este nuevo enfoque ayuda a las personas individuales, en todos los niveles de la empresa, a efectuar su toma de decisiones con más responsabilidad. La innovación de la Tecnología de Información dentro de un ambiente data warehousing, puede permitir a cualquier organización hacer un uso más óptimo de los datos, como un ingrediente clave para un proceso de toma de decisiones más efectivo. Las organizaciones tienen que aprovechar sus recursos de información para crear la información de la operación del negocio, pero deben considerarse las estrategias tecnológicas necesarias para la implementación de una arquitectura completa de data warehouse.

Comisión Nacional Agraria No. 50 Primer Piso Col. Federal México D.F. (55) 26436451

Av. Morones Prieto # 2805 Col. Lomas de San Francisco Monterrey, Nuevo León. (81) 83990145

Aguascalientes Ags. Fracc. Casa Blanca Tel: (449) 9776369 www.tasisoft.com

HOJA 2

Introducción al Concepto Data Warehousing
Data warehousing es el centro de la arquitectura para los sistemas de información en la década de los '90. Soporta el procesamiento informático al proveer una plataforma sólida, a partir de los datos históricos para hacer el análisis. Facilita la integración de sistemas de aplicación no integrados. Organiza y almacena los datos que se necesitan para el procesamiento analítico, informático sobre una amplia perspectiva de tiempo. Un Data Warehouse o Depósito de Datos es una colección de datos orientado a temas, integrado, no volátil, de tiempo variante, que se usa para el soporte del proceso de toma de decisiones gerenciales. Se puede caracterizar un data warehouse haciendo un contraste de cómo los datos de un negocio almacenados en un data warehouse, difieren de los datos operacionales usados por las aplicaciones de producción.

Base de Datos Operacional Datos Operacionales Orientado a la aplicación Actual Detallada Cambia continuamente

Data Warehouse Datos del negocio para Información Orientado al sujeto Actual + histórico Detallada + más resumida Estable

El ingreso de datos en el data warehouse viene desde el ambiente operacional en casi todos los casos. El data warehouse es siempre un almacén de datos transformados y separados físicamente de la aplicación donde se encontraron los datos en el ambiente operacional.

Sistemas de Información

Sistemas de Información
Los sistemas de información se han dividido de acuerdo al siguiente esquema:

Comisión Nacional Agraria No. 50 Primer Piso Col. Federal México D.F. (55) 26436451

Av. Morones Prieto # 2805 Col. Lomas de San Francisco Monterrey, Nuevo León. (81) 83990145

Aguascalientes Ags. Fracc. Casa Blanca Tel: (449) 9776369 www.tasisoft.com

HOJA 3

Sistemas Estratégicos, orientados a soportar la toma de decisiones, facilitan la labor de la dirección, proporcionándole un soporte básico, en forma de mejor información, para la toma de decisiones. Se caracterizan porque son sistemas sin carga periódica de trabajo, es decir, su utilización no es predecible, al contrario de los casos anteriores, cuya utilización es periódica. Destacan entre estos sistemas: los Sistemas de Información Gerencial (MIS), Sistemas de Información Ejecutivos (EIS), Sistemas de Información Georeferencial (GIS), Sistemas de Simulación de Negocios (BIS y que en la práctica son sistemas expertos o de Inteligencia Artificial - AI).

Sistemas Tácticos, diseñados para soportar las actividades de coordinación de actividades y manejo de documentación, definidos para facilitar consultas sobre información almacenada en el sistema, proporcionar informes y, en resumen, facilitar la gestión independiente de la información por parte de los niveles intermedios de la organización. Destacan entre ellos: los Sistemas Ofimáticos (OA), Sistemas de Transmisión de Mensajería (Correo electrónico y Servidor de fax), coordinación y control de tareas (Work Flow) y tratamiento de documentos (Imagen, Trámite y Bases de Datos Documentales).

Sistemas Técnico - Operativos, que cubren el núcleo de operaciones tradicionales de captura masiva de datos (Data Entry) y servicios básicos de tratamiento de datos, con tareas predefinidas (contabilidad, facturación, almacén, presupuesto, personal y otros sistemas administrativos). Estos sistemas están evolucionando con la irrupción de censores, autómatas, sistemas multimedia, bases de datos relacionales más avanzadas y data warehousing. Sistemas Interinstitucionales, este último nivel de sistemas de información recién está surgiendo, es consecuencia del desarrollo organizacional orientado a un mercado de carácter global, el cual obliga a pensar e implementar estructuras de comunicación más estrechas entre la organización y el mercado (Empresa Extendida, Organización Inteligente e Integración Organizacional), todo esto a partir de la generalización de las redes informáticas de alcance nacional y global (INTERNET), que se convierten en vehículo de comunicación entre la organización y el mercado, no importa dónde esté la organización (INTRANET), el mercado de la institución (EXTRANET) y el mercado (Red Global).

Sin embargo, la tecnología data warehousing basa sus conceptos y diferencias entre dos tipos fundamentales de sistemas de información en todas las organizaciones: los sistemas técnico - operacionales y los sistemas de soporte de decisiones. Este último es la base de un data warehouse.

Características de un Data Warehouse o Orientado a Temas o Integración o De Tiempo Variante o De Tiempo Variante

Características de un Data Warehouse
Entre las principales se tiene:

• • • •

Orientado al tema Integrado De tiempo variante No volátil

Comisión Nacional Agraria No. 50 Primer Piso Col. Federal México D.F. (55) 26436451

Av. Morones Prieto # 2805 Col. Lomas de San Francisco Monterrey, Nuevo León. (81) 83990145

Aguascalientes Ags. Fracc. Casa Blanca Tel: (449) 9776369 www.tasisoft.com

HOJA 4

En el ambiente data warehousing se organiza alrededor de sujetos tales como cliente. Siendo así. Fracc. Nuevo León. (81) 83990145 Aguascalientes Ags. Por ejemplo. ahorros. éstos pueden ser clientes. La base de datos combina estos elementos en una estructura que acomoda las necesidades de la aplicación.tasisoft. Lomas de San Francisco Monterrey. tarjeta bancaria y depósitos para una institución financiera. El ambiente operacional se diseña alrededor de las aplicaciones y funciones tales como préstamos. una aplicación de ingreso de órdenes puede acceder a los datos sobre clientes. etc. Casa Blanca Tel: (449) 9776369 www. Morones Prieto # 2805 Col. producto y actividad. Para una universidad pueden ser estudiantes. 50 Primer Piso Col. vendedor. clases y profesores. En la Figura N° 1 se muestra el contraste entre los dos tipos de orientaciones. Las principales áreas de los temas influyen en la parte más importante de la estructura clave. Para un hospital pueden ser pacientes.F. productos y cuentas. los datos tomados están en contraste con los clásicos procesos orientados a las aplicaciones. personal médico. La alineación alrededor de las áreas de los temas afecta el diseño y la implementación de los datos encontrados en el data warehouse. para un fabricante.com HOJA 5 . medicamentos. Comisión Nacional Agraria No. Por ejemplo.Orientado a Temas Una primera característica del data warehouse es que la información se clasifica en base a los aspectos que son de interés para la empresa. (55) 26436451 Av. proveedores y vendedores. productos. Federal México D.

donde ha sido representado en formato "M" y "F". Fracc. en la medida uniforme de variables. Morones Prieto # 2805 Col. Federal México D. entre dos o más tablas. en atributos físicos de los datos consistentes. mientras que la información de las orientadas a las aplicaciones. Un diseñador almacena los datos de tuberías en centímetros.tasisoft. el GENERO debe llegar al data warehouse en un estado integrado uniforme. Los datos operacionales mantienen una relación continua entre dos o más tablas basadas en una regla comercial que está vigente. Lomas de San Francisco Monterrey. En data warehousing se enfoca el modelamiento de datos y el diseño de la base de datos. se muestran en la Figura N° 2. que pueden ser usados o no por el analista de soporte de decisiones.com . Las diferencias entre la orientación de procesos y funciones de las aplicaciones y la orientación a temas. otros en pulgadas. otros como un "1" y un "0". La capacidad colectiva de muchos de los diseñadores de aplicaciones. en las convenciones de nombramiento y otros. es fabulosa. Muchas de las reglas comerciales (y sus correspondientes relaciones de datos) se representan en el data warehouse. Se diferencian en la codificación. cuando el GENERO se carga en el data warehouse desde una aplicación. Al dar medidas a los atributos. (81) 83990145 Aguascalientes Ags. Otra diferencia importante está en la interrelación de la información. Lo importante es que sea de cualquier fuente de donde venga. A través de los años.Las aplicaciones están relacionadas con el diseño de la base de datos y del proceso. radican en el contenido de la data a escala detallada.F. La integración de datos se muestra de muchas maneras: en convenciones de nombres consistentes. Por lo tanto. El contraste de la integración encontrada en el data warehouse con la carencia de integración del ambiente de aplicaciones. Nuevo León. Casa Blanca Tel: (449) 9776369 www. Probablemente "M" y "F" sean tan buenas como cualquier otra representación. en la codificación de estructuras consistentes. muestra algunas de las diferencias más importantes en las formas en que se diseñan las aplicaciones. contiene datos para satisfacer de inmediato los requerimientos funcionales y de proceso. Los estilos y diseños personalizados se muestran de muchas maneras. como "masculino" y "femenino". para crear aplicaciones inconsistentes. Las del data warehouse miden un espectro de tiempo y las relaciones encontradas en el data warehouse son muchas. HOJA 6 Comisión Nacional Agraria No. fuentes múltiples y otros. otros como una "X" y una "Y" e inclusive. El diseño del proceso (en su forma clásica) no es separado de este ambiente. Medida de atributos Los diseñadores de aplicaciones miden las unidades de medida de las tuberías en una variedad de formas. No importa mucho cómo el GENERO llega al data warehouse. en sus características físicas. (55) 26436451 Av. los diseñadores de las diferentes aplicaciones han tomado sus propias decisiones sobre cómo se debería construir una aplicación. En el data warehouse se excluye la información que no será usada por el proceso de sistemas de soporte de decisiones. Codificación Los diseñadores de aplicaciones codifican el campo GENERO en varias formas. la transformación traduce las diversas unidades de medida usadas en las diferentes bases de datos para transformarlas en una medida estándar común. Integración El aspecto más importante del ambiente data warehousing es que la información encontrada al interior está siempre integrada. con diferencias bien marcadas. los datos deben convertirse al formato del data warehouse. otros en millones de pies cúbicos por segundo y otros en yardas. en las estructuras claves. 50 Primer Piso Col. La Figura N° 2 mencionada. Un diseñador representa GENERO como una "M" y una "F".

documentada y movida al depósito. En este caso.F. Fuentes Múltiples El mismo elemento puede derivarse desde fuentes múltiples. aun cuando los sistemas operacionales subyacentes almacenen los datos de manera diferente. Casa Blanca Tel: (449) 9776369 www. Cuando el analista de sistema de soporte de decisiones observe el data warehouse. la disyuntiva de tener más de una de fuente de datos. Lomas de San Francisco Monterrey. Nuevo León. Morones Prieto # 2805 Col. (81) 83990145 Aguascalientes Ags. 50 Primer Piso Col.tasisoft.la información necesita ser almacenada en el data warehouse en un modelo globalmente aceptable y singular. Cualquiera que sea la forma del diseño. El proceso de transformación asegura que se use preferentemente el nombre de usuario. Federal México D. Comisión Nacional Agraria No.com HOJA 7 . su enfoque deberá estar en el uso de los datos que se encuentre en el depósito. (55) 26436451 Av. antes que preguntarse sobre la confiabilidad o consistencia de los datos. cuando la información de la tubería llegue al data warehouse necesitará ser medida de la misma manera. Fracc. Convenciones de Nombramiento El mismo elemento es frecuentemente referido por nombres diferentes en las diversas aplicaciones.las características físicas de los datos. Tal como se muestra en la figura.Cualquiera que sea la fuente. los puntos de integración afectan casi todos los aspectos de diseño . el resultado es el mismo . el problema de estándares de denominación inconsistentes. formatos de fecha inconsistentes y otros. el proceso de transformación debe asegurar que la fuente apropiada sea usada.

Nuevo León. 50 Primer Piso Col.Comisión Nacional Agraria No. Federal México D. Morones Prieto # 2805 Col. (81) 83990145 Aguascalientes Ags.com HOJA 8 . Casa Blanca Tel: (449) 9776369 www.F. Lomas de San Francisco Monterrey. Fracc.tasisoft. (55) 26436451 Av.

Morones Prieto # 2805 Col. no "ahora mismo"). Fracc. La segunda manera en la que se muestra el tiempo variante en el data warehouse está en la estructura clave. debe incluir los datos históricos para usarse en la identificación y evaluación de tendencias.F. una vez registrada correctamente.tasisoft. alterar los snapshots en el data warehouse. En ocasiones. La información del data warehouse es. (55) 26436451 Av. (Ver Figura N° 3). 50 Primer Piso Col. Por ello. cuando usted accede a una unidad de información. implícita o explícitamente. semana. en el ambiente operacional. como el caso en que un archivo completo se duplica al final del mes. Las aplicaciones que tienen un buen rendimiento y están disponibles para el procesamiento de transacciones. para todos los propósitos prácticos. En algunos casos puede ser no ético. Casa Blanca Tel: (449) 9776369 www.desde cinco a diez años. 2. la información se requiere al momento de acceder. o al cuarto.com HOJA 9 . Cada estructura clave en el data warehouse contiene. El tiempo variante se muestra de varias maneras: 1. debido al diseño de aplicaciones rígidas. usted espera que los valores requeridos se obtengan a partir del momento de acceso. La tercera manera en que aparece el tiempo variante es cuando la información del data warehouse.desde valores actuales hasta sesenta a noventa días. Esta característica básica de los datos en un depósito. etc. los datos encontrados en el depósito se llaman de "tiempo variante". entonces pueden ser cambiados. El horizonte de tiempo representado para el ambiente operacional es mucho más corto . Como la información en el data warehouse es solicitada en cualquier momento (es decir. El elemento de tiempo está casi siempre al pie de la clave concatenada. ellos no son alterados una vez hechos. mes. el elemento de tiempo existirá implícitamente. si los snapshots de los datos se han tomado incorrectamente. es muy diferente de la información encontrada en el ambiente operacional. e incluso ilegal. Los datos Comisión Nacional Agraria No. (81) 83990145 Aguascalientes Ags. un elemento de tiempo como día. una serie larga de "snapshots" (vistas instantáneas). Asumiendo que los snapshots se han tomado adecuadamente. 3. deben llevar una cantidad mínima de datos si tienen cualquier grado de flexibilidad. Por supuesto. Nuevo León. encontrada en el data warehouse. Los datos históricos son de poco uso en el procesamiento operacional. En otras palabras. no puede ser actualizada. las aplicaciones operacionales tienen un corto horizonte de tiempo.De Tiempo Variante Toda la información del data warehouse es requerida en algún momento. En éstos. Federal México D. La información del depósito por el contraste. Lomas de San Francisco Monterrey. La más simple es que la información representa los datos sobre un horizonte largo de tiempo .

la necesidad de ser precavido para actualizar las anomalías no es un factor en el data warehouse. siendo requeridos a partir del momento de acceso. Fracc. No hay actualización de datos (en el sentido general de actualización) en el depósito.operacionales. particularmente al usar la normalización y desnormalización física. Desde luego. La perspectiva más grande. transacciones e integridad de los datos y la detección y solución al estancamiento que es más complejo. entre el ambiente operacional y el ambiente de data warehouse. La fuente de casi toda la información del data warehouse es el ambiente operacional. ya que no se hace la actualización de datos. A simple vista. como una parte normal de procesamiento. Los datos operacionales cambian sobre una base momento a momento. Morones Prieto # 2805 Col. la primera impresión de muchas personas se centra en la gran redundancia de datos. Hay dos únicos tipos de operaciones: la carga inicial de datos y el acceso a los mismos. De hecho. (81) 83990145 Aguascalientes Ags. En el data warehouse no es necesario el procesamiento. En el nivel de diseño. Otra consecuencia de la simplicidad de la operación del data warehouse está en la tecnología subyacente. Lomas de San Francisco Monterrey. Federal México D. Nuevo León. Casa Blanca Tel: (449) 9776369 www. La tecnología permite realizar copias de seguridad y recuperación. Esto significa que en el nivel físico de diseño. requiere una base de datos estable. entre el procesamiento operacional y del data warehouse. utilizada para correr los datos en el depósito. hay una mínima redundancia de datos entre ambos ambientes. (55) 26436451 Av. Dicho razonamiento es superficial y demuestra una carencia de entendimiento con respecto a qué ocurre en el data warehouse. se pueden tomar libertades para optimizar el acceso a los datos. se hace regularmente en el ambiente operacional sobre una base de registro por registro.com HOJA 10 . esencial para el análisis y la toma de decisiones. Comisión Nacional Agraria No. borrar y modificar). se puede pensar que hay redundancia masiva de datos entre los dos ambientes.tasisoft. Pero la manipulación básica de los datos que ocurre en el data warehouse es mucho más simple. pueden actualizarse de acuerdo a la necesidad. De Tiempo Variante La información es útil sólo cuando es estable. 50 Primer Piso Col. En la Figura N° 4 se muestra que la actualización (insertar.F. Teniendo que soportar la actualización de registro por registro en modo on-line (como es frecuente en el caso del procesamiento operacional) requiere que la tecnología tenga un fundamento muy complejo debajo de una fachada de simplicidad. Hay algunas consecuencias muy importantes de esta diferencia básica.

el cual es de fácil acceso. Este nivel del data warehouse casi siempre se almacena en disco. el interés más importante radica en el detalle de los datos actuales. Casa Blanca Tel: (449) 9776369 www. Los datos experimentan una transformación fundamental cuando pasa al data warehouse. El data warehouse contiene un resumen de la información que no se encuentra en el ambiente operacional. Sólo los datos que realmente se necesitan ingresarán al ambiente de data warehouse. a causa del gran volumen de datos unido al acceso no frecuente de los mismos. Detalle de datos antiguos La data antigua es aquella que se almacena sobre alguna forma de almacenamiento masivo. debido a que: • • • Refleja las ocurrencias más recientes. En vista de estos factores. Lomas de San Francisco Monterrey. aunque su administración sea costosa y compleja. (55) 26436451 Av. Morones Prieto # 2805 Col. ya que se almacena al más bajo nivel de granularidad. • Estructura del Data Warehouse Estructura del Data Warehouse Los data warehouses tienen una estructura distinta. la mayoría de los datos se alteran física y radicalmente cuando se mueven al depósito.tasisoft. La estructura de un data warehouse se muestra en la Figura N° 5. es poco usual utilizar el disco como medio de almacenamiento.Se debe considerar lo siguiente: • • • • Los datos se filtran cuando pasan desde el ambiente operacional al de depósito. Dicho de otra manera.F.com HOJA 11 . consistente con los datos detallados actuales. que resulta en menos de 1%. Comisión Nacional Agraria No. Detalle de datos actuales En gran parte. Casi siempre se almacena en disco. Desde la perspectiva de los horizontes de tiempo únicos. Mientras no sea prioritario el almacenamiento en un medio de almacenaje alterno. Los puntos en los que se basa el diseñador para construirlo son: • • Que la unidad de tiempo se encuentre sobre la esquematización hecha. (81) 83990145 Aguascalientes Ags. Federal México D. La mayor parte de los datos se alteran significativamente al ser seleccionados y movidos al data warehouse. la redundancia de datos entre los dos ambientes es una ocurrencia rara. No es la misma data que reside en el ambiente operacional desde el punto de vista de integración. El horizonte de tiempo de los datos es muy diferente de un ambiente al otro. Qué contenidos (atributos) tendrá la data ligeramente resumida. Nuevo León. hay poca superposición entre los ambientes operacional y de data warehouse. Hay niveles diferentes de esquematización y detalle que delimitan el data warehouse. Existe mucha data que nunca sale del ambiente operacional. La información en el ambiente operacional es más reciente con respecto a la del data warehouse. 50 Primer Piso Col. No es frecuentemente su acceso y se almacena a un nivel de detalle. Fracc. las cuales son de gran interés Es voluminoso. Datos ligeramente resumidos La data ligeramente resumida es aquella que proviene desde un bajo nivel de detalle encontrado al nivel de detalle actual.

Morones Prieto # 2805 Col. Casa Blanca Tel: (449) 9776369 www.tasisoft. Fracc.) HOJA 12 Comisión Nacional Agraria No. Lomas de San Francisco Monterrey.F. (81) 83990145 Aguascalientes Ags.A veces se encuentra en el ambiente de data warehouse y en otros.com . los datos completamente resumidos son parte del data warehouse sin considerar donde se alojan los datos físicamente. (55) 26436451 Av. 50 Primer Piso Col. Nuevo León. fuera del límite de la tecnología que ampara al data warehouse. Federal México D. (De todos modos.

etc.com HOJA 13 . con los datos ligeramente resumidos y éstos. • Una guía de los algoritmos usados para la esquematización entre el detalle de datos actual. Morones Prieto # 2805 Col. De muchas maneras la metadata se sitúa en una dimensión diferente al de otros datos del data warehouse. Todos los detalles de ventas desde 1982 (o cuando el diseñador inició la colección de los archivos) son almacenados en el nivel de detalle de datos más antiguo. debido a que su contenido no es tomado directamente desde el ambiente operacional. La metadata juega un rol especial y muy importante en el data warehouse y es usada como: • • Un directorio para ayudar al analista a ubicar los contenidos del data warehouse. considere el ejemplo mostrado en la Figura N° 6. del ambiente operacional al de data warehouse. con los datos completamente resumidos. de cómo se transforma. Fracc. Comisión Nacional Agraria No. La metadata juega un papel mucho más importante en un ambiente data warehousing que en un operacional clásico. Mientras no sea prioritario el almacenamiento en un medio de almacenaje alterno. consistente con los datos detallados actuales. (81) 83990145 Aguascalientes Ags.Metadata La data antigua es aquella que se almacena sobre alguna forma de almacenamiento masivo. Federal México D. Lomas de San Francisco Monterrey. El detalle de ventas antiguas son las que se encuentran antes de 1992. 50 Primer Piso Col. A fin de recordar los diferentes niveles de los datos encontrados en el data warehouse. Nuevo León. No es frecuentemente su acceso y se almacena a un nivel de detalle. a causa del gran volumen de datos unido al acceso no frecuente de los mismos. Casa Blanca Tel: (449) 9776369 www. (55) 26436451 Av.tasisoft. por lo menos. es poco usual utilizar el disco como medio de almacenamiento. Una guía para la trazabilidad de los datos.F. El detalle actual contiene información desde 1992 a 1993 (suponiendo que 1993 es el año actual). veinticuatro horas desde que la información de ventas llegue a estar disponible en el ambiente operacional. El componente final del data warehouse es el de la metadata. En general. el detalle de ventas no se ubica en el nivel de detalle actual hasta que haya pasado.

Casa Blanca Tel: (449) 9776369 www.com HOJA 14 . Fracc.Comisión Nacional Agraria No. 50 Primer Piso Col. Lomas de San Francisco Monterrey. Nuevo León. Morones Prieto # 2805 Col.F. (55) 26436451 Av.tasisoft. (81) 83990145 Aguascalientes Ags. Federal México D.

habría un retraso de tiempo de por lo menos veinticuatro horas. para producir un almacenamiento de datos ligeramente resumidos.tasisoft. allí se hará el análisis y se producirá un tipo u otro de resumen. Casa Blanca Tel: (449) 9776369 www. • Arquitectura de un Data Warehouse o Elementos constituyentes de una Arquitectura Data Warehouse  Base de datos operacional / Nivel de base de datos externo  Nivel de acceso a la información  Nivel de acceso a los datos  Nivel de Directorio de Datos (Metadata)  Nivel de Gestión de Procesos  Nivel de Mensaje de la Aplicación  Nivel Data Warehouse (Físico)  Nivel de Organización de Datos o Operaciones en un Data Warehouse  Sistemas Operacionales  Extracción. Nuevo León. Transformación y Carga de los Datos  Metadata  Acceso de usuario final  Plataforma del data warehouse  Datos Externos o Evolución del Depósito Arquitectura de un Data Warehouse Una de las razones por las que el desarrollo de un data warehouse crece rápidamente. 50 Primer Piso Col. Federal México D. El detalle de las ventas son resumidas semanalmente por línea de subproducto y por región. según una gama de líneas. es que realmente es una tecnología muy entendible. (55) 26436451 Av. (81) 83990145 Aguascalientes Ags. Morones Prieto # 2805 Col. Lomas de San Francisco Monterrey. si un analista produce un resumen que tiene una probabilidad muy baja de ser usado nuevamente. En muchas ocasiones. Comisión Nacional Agraria No.com HOJA 15 . La metadata contiene (al menos): • • • La estructura de los datos Los algoritmos usados para la esquematización La trazabilidad desde el ambiente operacional al data warehouse La información adicional que no se esquematiza es almacenada en el data warehouse. En otras palabras. es esencial tener una Arquitectura Data Warehouse. entonces la esquematización no es almacenada en el data warehouse.F. De hecho. entre el tiempo en que en el ambiente operacional se haya hecho un nuevo ingreso de la venta y el momento cuando la información de la venta haya ingresado al data warehouse. El único tipo de esquematización que se almacena permanentemente en el data warehouse. es el de los datos que son usados frecuentemente.En otras palabras. A fin de comprender cómo se relacionan todos los componentes involucrados en una estrategia data warehousing. para producir los datos completamente resumidos. data warehousing puede representar mejor la estructura amplia de una empresa para administrar los datos informacionales dentro de la organización. El detalle de ventas semanal es adicionalmente resumido en forma mensual. Fracc.

Nuevo León. las bases de datos diseñadas para soportar estos sistemas.com HOJA 16 . Ciertamente. Fracc. tienen dificultad al acceder a los datos para otra gestión o propósitos informáticos. Esta información incluye tendencias demográficas. Cada vez más. Casa Blanca Tel: (449) 9776369 www. Esta dificultad en acceder a los datos operacionales es amplificada por el hecho que muchos de estos sistemas tienen de 10 a 15 años de antigüedad. adquisitivas y competitivas (que pueden ser Comisión Nacional Agraria No. Para hacer eso. Federal México D.F. Lomas de San Francisco Monterrey. Sin embargo. econométricas. para un número relativamente pequeño de transacciones comerciales bien definidas.tasisoft. a causa del enfoque limitado de los sistemas operacionales. (81) 83990145 Aguascalientes Ags. procesamiento y presentación. La arquitectura se constituye de un número de partes interconectadas: • • • • • • • • Base de datos operacional / Nivel de base de datos externo Nivel de acceso a la información Nivel de acceso a los datos Nivel de directorio de datos (Metadata) Nivel de gestión de proceso Nivel de mensaje de la aplicación Nivel de data warehouse Nivel de organización de datos Base de datos operacional / Nivel de base de datos externo Los sistemas operacionales procesan datos para apoyar las necesidades operacionales críticas. comunicación. (55) 26436451 Av. 50 Primer Piso Col. es así mismo antigua. El tiempo de algunos de estos sistemas significa que la tecnología de acceso a los datos disponible para obtener los datos operacionales. generalmente externa.Elementos constituyentes de una Arquitectura Data Warehouse Una Arquitectura Data Warehouse (Data Warehouse Architecture . la meta del data warehousing es liberar la información que es almacenada en bases de datos operacionales y combinarla con la información desde otra fuente de datos. Morones Prieto # 2805 Col. se han creado las bases de datos operacionales históricas que proveen una estructura de procesamiento eficiente. las organizaciones grandes adquieren datos adicionales desde bases de datos externas. que existe para los usuarios finales que disponen de una computadora dentro de la empresa.DWA) es una forma de representar la estructura total de datos.

es necesario tener una variedad de metadata disponibles. Actualmente. Casa Blanca Tel: (449) 9776369 www. (81) 83990145 Aguascalientes Ags. hay problemas significativos al tratar de convertir los datos tal como han sido recolectados y que se encuentran contenidos en los sistemas operacionales en información fácil y transparente para las herramientas de los usuarios finales. Internet o también llamada "information superhighway" (supercarretera de la información) provee el acceso a más recursos de datos todos los días. SQL fue desarrollado por IBM como un lenguaje de consulta. Nivel de acceso a la información El nivel de acceso a la información de la arquitectura data warehouse. los Comisión Nacional Agraria No. Por ejemplo: EXCEL. representa las herramientas que el usuario final normalmente usa día a día. Nuevo León. esto es todo lo que un usuario final necesita. LOTUS 1-2-3. Originalmente. etc. pero en los últimos veinte años ha llegado a ser el estándar para el intercambio de datos. Federal México D. las organizaciones desarrollan un plan mucho más sofisticado para el soporte del data warehousing. Morones Prieto # 2805 Col. teóricamente por lo menos. En particular. relacionales o no.com HOJA 17 . El nivel de acceso a los datos no solamente conecta DBMSS diferentes y sistemas de archivos sobre el mismo hardware. deberían ser capaces de acceder a cualquier o todos los datos en la empresa que es necesaria para ellos. En la red mundial de hoy.proporcionadas por Instituciones Oficiales . Fracc. los usuarios finales sin tener en cuenta la herramienta de acceso a la información o ubicación. Idealmente. También lo son las sentencias DIMENSION en un programa FORTRAN o las sentencias a crear en SQL. es el nivel del que el usuario final se encarga directamente. Hace dos décadas que el nivel de acceso a la información se ha expandido enormemente. especialmente a los usuarios finales quienes se han volcado a los PCS monousuarios y los PCS en redes. FOCUS. el lenguaje de datos común que ha surgido es SQL. información sobre las vistas de datos de los usuarios finales e información sobre las bases de datos operacionales. Una de las claves para esto es encontrar un lenguaje de datos común que puede usarse a través de toda la empresa. gráficos y diagramas para el análisis y presentación. Lomas de San Francisco Monterrey. Sin embargo. El acceso a los datos universales significa que. para hacer su trabajo. Las descripciones de registro en un programa COBOL son metadata. Nivel de acceso a los datos El nivel de acceso a los datos de la arquitectura data warehouse está involucrado con el nivel de acceso a la información para conversar en el nivel operacional. El nivel de acceso a los datos entonces es responsable de la interfaces entre las herramientas de acceso a la información y las bases de datos operacionales. existen herramientas más y más sofisticadas para manipular. hojas de cálculo.INEI). (55) 26436451 Av. Nivel de Directorio de Datos (Metadata) A fin de proveer el acceso a los datos universales. SAS. ACCESS. en general. analizar y presentar los datos. sino también a los fabricantes y protocolos de red.tasisoft. Una de las claves de una estrategia data warehousing es proveer a los usuarios finales con "acceso a datos universales". Uno de los adelantos claves de los últimos años ha sido el desarrollo de una serie de "filtros" de acceso a datos.F. Este nivel también incluye el hardware y software involucrados en mostrar información en pantalla y emitir reportes de impresión. tales como EDA/SQL para acceder a casi todo los Sistemas de Gestión de Base de Datos (Data Base Management Systems DBMSs) y sistemas de archivos de datos. 50 Primer Piso Col. Estos filtros permiten a las herramientas de acceso a la información. sin embargo. A fin de tener un depósito totalmente funcional. acceder también a la data almacenada en sistemas de gestión de base de datos que tienen veinte años de antigüedad. es absolutamente necesario mantener alguna forma de directorio de datos o repositorio de la información metadata. La metadata es la información alrededor de los datos dentro de la empresa. En algunos casos.

resumir. Nivel de Gestión de Procesos El nivel de gestión de procesos tiene que ver con la programación de diversas tareas que deben realizarse para construir y mantener el data warehouse y la información del directorio de datos. Puede usarse por ejemplo. En un data warehouse físico. La organización de datos involucra con frecuencia una programación compleja. Operaciones en un Data Warehouse En la Figura N° 8 se muestra algunos de los tipos de operaciones que se efectúan dentro de un ambiente data warehousing. Nuevo León. El mensaje de aplicación se refiere también como "subproducto". combinar y cargar datos en el depósito y acceder a la información desde bases de datos operacionales y/o externas. muchas copias de datos operacionales y/o externos. en algunos casos. pero cada vez más. pero de hecho. Este nivel puede depender del alto nivel de control de trabajo para muchos procesos (procedimientos) que deben ocurrir para mantener el data warehouse actualizado. Federal México D. Cada vez más. Comisión Nacional Agraria No. (55) 26436451 Av.tasisoft. 50 Primer Piso Col. el data warehouse puede no involucrar almacenamiento de datos. Nivel Data Warehouse (Físico) En el data warehouse (núcleo) es donde ocurre la data actual. están creándose las herramientas data warehousing para ayudar en este proceso. pero por lo general se almacenan sobre mainframes. uno puede pensar del data warehouse simplemente como una vista lógica o virtual de datos. sin tener que conocer dónde residen los datos o la forma en que se han almacenados. Lomas de San Francisco Monterrey. Fracc. copias. recolectar transacciones o los mensajes y entregarlos a una ubicación segura en un tiempo seguro. Nivel de Organización de Datos El componente final de la arquitectura data warehouse es la organización de los datos. son almacenados realmente en una forma que es fácil de acceder y es altamente flexible. usada principalmente para usos estratégicos. pero puede involucrar sólo protocolos de red. Nivel de Mensaje de la Aplicación El nivel de mensaje de la aplicación tiene que ver con el transporte de información alrededor de la red de la empresa.com HOJA 18 . incluye todos los procesos necesarios como seleccionar. En muchos ejemplos. editar. Morones Prieto # 2805 Col.F. para aislar aplicaciones operacionales o estratégicas a partir del formato de datos exacto.usuarios finales deberían de acceder a los datos desde el data warehouse (o desde las bases de datos operacionales). Involucra también programas de análisis de calidad de datos y filtros que identifican modelos y estructura de datos dentro de la data operacional existente. Casa Blanca Tel: (449) 9776369 www. (81) 83990145 Aguascalientes Ags. los data warehouses son almacenados sobre plataformas cliente/servidor. En algunos casos. Se llama también gestión de copia o réplica.

Federal México D. (55) 26436451 Av. Todas estas inconsistencias deben resolverse antes que los elementos de datos sean almacenados en el data warehouse. Nuevo León. Morones Prieto # 2805 Col. se integra y transforma antes de ser almacenada en información similar. Transformación y Carga de los Datos Se requieren herramientas de gestión de datos para extraer datos desde bases de datos y/o archivos operacionales. La metadata consiste de definiciones de los elementos de datos en el depósito. Las bases de datos operacionales. (81) 83990145 Aguascalientes Ags. pueden definirse al usar nombres de elementos inconsistentes. Comisión Nacional Agraria No. luego es necesario manipular o transformar los datos antes de cargar los resultados en el data warehouse. Extracción. Como la data.Sistemas Operacionales Los datos administrados por los sistemas de aplicación operacionales son la fuente principal de datos para el data warehouse. INFORMIX. aproximadamente del 70% a 80% de las bases de datos de las empresas se organizan usando DBMSS no relacional. Tomar los datos desde varias bases de datos operacionales y transformarlos en datos requeridos para el depósito. Lomas de San Francisco Monterrey. Metadata Otro paso necesario es crear la metadata. Las bases de datos operacionales se organizan como archivos indexados (UFAS. Los mismos elementos de datos. 50 Primer Piso Col.tasisoft. La metadata (es decir. sistema(s) del (os) elemento(s) fuente. que tienen formatos inconsistentes y/o ser codificados de manera diferente. Fracc. bases de datos de redes/jerárquicas (I-D-S/II.com HOJA 19 .). frecuentemente difieren en el formato. etc. Casa Blanca Tel: (449) 9776369 www.F. si son usados por aplicaciones diferentes o administrados por diferentes software DBMS. IMS. VSAM). IDMS) o sistemas de base de datos relacionales (DB2. ORACLE. diseñadas para el soporte de varias aplicaciones de producción. datos acerca de datos) describe los contenidos del data warehouse. Según las encuestas. se refiere a la transformación o a la integración de datos.

Datos Externos Dependiendo de la aplicación. Por ejemplo. es que ellos presumen que el sistema (hardware y/o DBMS) escalará con los datos. porque SQL es un lenguaje universal y el estándar de hecho para el acceso a datos. No es recomendable emprender el desarrollo del data warehouse de la empresa como un proyecto cualquiera. herramientas data/visual mining.. El sistema de depósito ejecuta las consultas que se pasa a los datos por el software de acceso a los datos del usuario. lo han logrado luego de un desarrollo paso a paso.tasisoft. (81) 83990145 Aguascalientes Ags.Acceso de usuario final Los usuarios acceden al data warehouse por medio de herramientas de productividad basadas en GUI (Graphical User Interface .com HOJA 20 .F. pueden añadirse nuevos elementos sobre una base regular para que el contenido siga la evolución de los datos en la base de datos fuente. Los extractos de la data integrada/transformada se cargan en el data warehouse. por lo que es necesaria la integración de una serie de herramientas. procesamiento analítico en línea. 50 Primer Piso Col. Casa Blanca Tel: (449) 9776369 www. Pueden proveerse a los usuarios del data warehouse muchos de estos tipos de herramientas. Uno de los desafíos de mantener un data warehouse. etc. se recomienda que los requerimientos de una serie de fases se desarrollen e implementen en modelos consecutivos que permitan un proceso de implementación más gradual e iterativo. tanto en los contenidos como en el tiempo. el alcance del data warehouse puede extenderse por la capacidad de acceder a la data externa. Nuevo León. dependiendo de los tipos de usuarios y sus requerimientos particulares. pueden estar disponibles a los usuarios del data warehouse. Plataforma del data warehouse La plataforma para el data warehouse es casi siempre un servidor de base de datos relacional. Comisión Nacional Agraria No. Más bien. sin embargo. Lomas de San Francisco Monterrey. Estos pueden incluir software de consultas. Algunas maneras para identificar estos datos incluyen insertar fecha/tiempo en los registros de base de datos y entonces crear copias de registros actualizados y copiar información de los registros de transacción y/o base de datos diarias. las consultas típicamente se formulan como pedidos SQL. Uno de los más populares RDBMSs disponibles para data warehousing sobre la plataforma UNIX (SMP y MPP) generalmente es Teradata. Cuando se manipulan volúmenes muy grandes de datos puede requerirse una configuración en bloque de servidores UNIX con multiprocesador simétrico (SMP) o un servidor con procesador paralelo masivo (MPP) especializado. (55) 26436451 Av. generadores de reportes. Muchas de las organizaciones quieran o no escogen una plataforma por diversas razones: el Sistema X es nuestro sistema elegido o el Sistema Y está ya disponible sobre un sistema UNIX que nosotros ya tenemos. No existe ninguna organización que haya triunfado en el desarrollo del data warehouse de la empresa. Uno de los errores más grandes que las organizaciones cometen al seleccionar la plataforma. Sin embargo. Federal México D. en un sólo paso. Los datos en el data warehouse no son volátiles y es un repositorio de datos de sólo lectura (en general). La elección de la plataforma es crítica. Los pasos previos evolucionan conjuntamente con la materia que está siendo agregada.Interface gráfica de usuario). una sola herramienta no satisface todos los requerimientos. es idear métodos para identificar datos nuevos o modificados en las bases de datos operacionales. los datos accesibles por medio de servicios de computadora en línea (tales como CompuServe y America On Line) y/o vía Internet. Muchas. Aunque un usuario visualiza las consultas desde el punto de vista de un GUI. Morones Prieto # 2805 Col. Sin embargo. El depósito crecerá y hay que comprender los requerimientos después de 3 o 5 años. Evolución del Depósito Construir un data warehouse es una tarea grande. Fracc.

que pueden existir dentro de una base de datos única y que casi siempre existen cuando múltiples bases de datos contribuyen al data warehouse. Los procesos de transformación de datos se desarrollan para direccionar estas inconsistencias. la semana anterior es eliminada. en la cual el género se codifica de manera diferente en tres bases de datos diferentes. La transformación se encarga de las inconsistencias en los formatos de datos y la codificación. HOJA 21 Comisión Nacional Agraria No. (55) 26436451 Av. transformados y agregados al data warehouse en pasos periódicos programados. En la Figura N° 9 se ilustra una forma de inconsistencia. Por ejemplo. como se agregó la última semana. Se requiere una planificación cuidadosa y detallada para transformar datos inconsistentes en conjuntos de datos conciliables y consistentes para cargarlos en el data warehouse. La transformación de datos también se encarga de las inconsistencias en el contenido de datos. (81) 83990145 Aguascalientes Ags. • Transformacion de Datos y Metadata o Transformación de Datos o Metadata Transformacion de Datos y Metadata Transformación de Datos Uno de los desafíos de cualquier implementación de data warehouse.F. Federal México D. es el problema de transformar los datos. los datos antiguos son eliminados. deben crearse e incluirse las definiciones en las rutinas de transformación. Fracc. 50 Primer Piso Col.tasisoft. si los detalles de un sujeto particular se mantienen por 5 años. Morones Prieto # 2805 Col.com . Casa Blanca Tel: (449) 9776369 www. Nuevo León. Lomas de San Francisco Monterrey.Estos elementos de datos nuevos y/o modificados son extraídos. Como se añaden las nuevas ocurrencias de datos. integrados. Una vez que se toma la decisión sobre que reglas de transformación serán establecidas.

pero lo mejor de las definiciones y si usted usa herramientas de gestión de software integrado. son los esfuerzos que darán como resultado el mantenimiento del data warehouse. Estos métodos y técnicas son dependientes de los requerimientos de cada organización. Nuevo León. La Figura N° 10 muestra ese flujo.F. • Flujo de Datos Flujo de Datos Existe un flujo de datos normal y predecible dentro del data warehouse. La metadata sirve. Los datos ingresan al data warehouse desde el ambiente operacional. la información va al nivel de detalle actual. Típicamente. Metadata es un concepto genérico. Típicamente. Los esquemas y subesquemas para bases de datos operacionales. Un registro de cuando los nuevos elementos de datos se agregan al data warehouse y cuando los elementos de datos antiguos se eliminan o se resumen. estas descripciones se almacenan en un Catálogo de Información. En otras implementaciones. Al ingresar al data warehouse. Lomas de San Francisco Monterrey. forman una fuente óptima de entrada cuando se crea la metadata. tal como se muestra. Crear definiciones de metadata completa y efectiva puede ser un proceso que consuma tiempo. Los niveles de sumarización. Hasta ahora. seleccionado para una implementación específica. (Hay pocas excepciones a esta regla). Se queda allí y se usa hasta que ocurra uno de los tres eventos siguientes: • • • Sea eliminado Sea resumido Sea archivado Comisión Nacional Agraria No. en un sentido.Metadata Otro aspecto de la arquitectura de data warehouse es crear soporte a la metadata.com HOJA 22 . Metadata es la información sobre los datos que se alimenta. de las capacidades existentes y de los requerimientos de interfaces de usuario. el método de sumarización y las tablas de registros de su data warehouse. Casa Blanca Tel: (449) 9776369 www. pero cada implementación de la metadata usa técnicas y métodos específicos. los elementos de datos y sus relaciones). Federal México D. por lo que la metadata debe definirse desde el punto de vista del software data warehousing. puede acelerar el proceso de definición de la metadata del ambiente data warehousing. Las definiciones del sistema de registro desde el cual se construye el data warehouse. se definen vistas múltiples para favorecer las preferencias variadas de diversos grupos de usuarios. Fracc. Las especificaciones de transformaciones de datos que ocurren tal como la fuente de datos se replica al data warehouse. especialmente cuando está disponible en forma electrónica. se transforma y existe en el data warehouse. Algunas implementaciones de la metadata también incluyen definiciones de la(s) vista(s) presentada(s) a los usuarios del data warehouse. 50 Primer Piso Col.tasisoft. (55) 26436451 Av. (81) 83990145 Aguascalientes Ags. la metadata incluye los siguientes ítems: • • • Las estructuras de datos que dan una visión de los datos al administrador de datos. Hacer uso de la documentación existente. no hay normas para la metadata. Morones Prieto # 2805 Col. El modelo de datos del data warehouse (es decir. como el corazón del ambiente data warehousing.

Con el proceso de desactualización en un data warehouse se mueve el detalle de la data actual a data antigua. De hecho hay una amplia variedad de medios de almacenamiento que deben considerarse para almacenar datos más antiguos. (81) 83990145 Aguascalientes Ags. la frecuencia de acceso. para la mayoría de datos encontrados en un data warehouse.com HOJA 23 . El proceso de esquematización usa el detalle de los datos para calcular los datos en forma ligera y completamente resumidos. Hay pocas excepciones al flujo mostrado. es probable que otros medios de almacenamiento sirvan a las necesidades del nivel de detalle más antiguo en el data warehouse. Casa Blanca Tel: (449) 9776369 www. Federal México D.F. (55) 26436451 Av. el flujo de la información es como se ha explicado. En la figura se muestra algunos de esos medios. Lomas de San Francisco Monterrey. • Medios de Almacenamiento para Informacion Antigua Medios de Almacenamiento para Informacion Antigua El símbolo mostrado en la Figura N° 11 para medios de almacenamiento de información antigua es la cinta magnética. Comisión Nacional Agraria No. basado en el tiempo de los datos. que puede usarse para almacenar este tipo de información. Morones Prieto # 2805 Col. 50 Primer Piso Col. Dependiendo del volumen de información. Sin embargo. Nuevo León. el costo de los medios y el tipo de acceso. en general. Fracc.tasisoft.

Lomas de San Francisco Monterrey. Casa Blanca Tel: (449) 9776369 www. comúnmente efectúan tareas predefinidas que. Federal México D. frecuentemente desde fuentes múltiples y de formas no predecibles. Nuevo León. Los usuarios que accedan a los datos operacionales. Cantidades pequeñas de datos Cantidades grandes de datos detallados detallados Requerimientos de respuesta inmediata Requerimientos de respuesta no críticos Maneras diferentes de uso de datos Los usuarios de un data warehouse necesitan acceder a los datos complejos. Uso de Base de Datos Operacionales Uso de Data Warehouse Muchos usuarios concurrentes Pocos usuarios concurrentes Consultas complejas. usando un conjunto de consultas predefinidas.com HOJA 24 .F.tasisoft. 50 Primer Piso Col. un especialista en el cuidado de la salud podría necesitar acceder a los datos actuales e históricos para analizar las tendencias de costos. los usuarios que accedan al data warehouse. (81) 83990145 Aguascalientes Ags.• Usos del Data Warehouse Usos del Data Warehouse Los datos operacionales y los datos del data warehouse son accedidos por usuarios que usan los datos de maneras diferentes. (55) 26436451 Av. Por el contrario. creando consultas base o ad-hoc para encontrar nuevamente necesidades definidas. generalmente requieren acceso a una sola base de datos de una aplicación. Lo único que se conoce (si es modelada correctamente) es el conjunto inicial de datos que se han establecido en el depósito. Fracc. Por ejemplo. efectúan tareas que requieren acceso a un conjunto de datos desde fuentes múltiples y frecuentemente no son predecibles. Morones Prieto # 2805 Col. un representante de ventas podría necesitar acceder a los datos de cliente y producto para evaluar la eficacia de una campaña de marketing. Por el contrario. frecuentemente no Consultas predefinidas y actualizables anticipadas. Maneras diferentes de uso de datos Sólo pocos usuarios acceden a los datos concurrentemente Comisión Nacional Agraria No.

Señalar el mejor tiempo de respuesta que puede obtenerse cuando se trabaja con la data a un nivel alto de esquematización. Para muchas tareas. En efecto. de datos detallados. (81) 83990145 Aguascalientes Ags.F. por el contrario. Si en una tarea se encuentra que se hace mucho procesamiento a niveles de detalle del data warehouse. los data warehouses evolucionan para llegar a un tamaño más grande que sus orígenes operacionales (de 10 a 100 veces más grande). en un proceso llamado drilling down. En el data warehouse. A más alto nivel de esquematización.com HOJA 25 . La data más resumida. Morones Prieto # 2805 Col. Una de las actividades del diseñador de datos es el de desconectar al usuario del sistema de soporte de decisiones del uso constante de datos con un detalle más bajo. el analista de sistemas de soporte de decisiones usa la información detallada en un pre data warehouse. 50 Primer Piso Col. El data warehouse puede incluir niveles de resúmenes múltiples. Las consultas de los usuarios accedan a cantidades grandes de datos Debido a la necesidad de investigar tendencias y evaluar las relaciones entre muchas clases de datos. La seguridad de la información de detalle se consigue de muchas maneras. Debido a los requerimientos de datos históricos.tasisoft.Los usuarios generan un procesamiento no predecible complejo Los usuarios del data warehouse generan consultas complejas. único. tiene un requerimiento de respuesta no crítico porque el resultado frecuentemente se usa en un proceso de análisis y toma de decisiones. Casa Blanca Tel: (449) 9776369 www. Aunque los tiempos de respuesta no son críticos. para soportar este tipo de uso. Para ilustrar cómo un data warehouse puede ayudar a una organización a mejorar sus operaciones. Hay una buena razón para mover una organización al paradigma sugerido en la figura. Lomas de San Francisco Monterrey. derivado de un conjunto principal. Comisión Nacional Agraria No. A veces la respuesta a una consulta conduce a la formulación de otras preguntas más detalladas. Federal México D. la utilización del recurso. las consultas al data warehouse permiten acceder a volúmenes muy grandes tanto de data detallada como resumida. donde el usuario final pague por los recursos consumidos 2. a diferencia de un pobre tiempo de respuesta que resulta de trabajar con los datos a un nivel bajo de detalle. (55) 26436451 Av. los usuarios frecuentemente comienzan buscando en los datos resumidos y como identifican áreas de interés. aun cuando estén disponibles otros niveles de esquematización. entonces se consumirá muchos recursos de máquina. se muestra un ejemplo de lo que es el desarrollo de actividades sin tener un data warehouse. Instalar un sistema chargeback. En la Figura N° 12 se muestra que hay mayor uso de los datos completamente resumidos. permite capturar los datos en forma más rápida y eficiente. los diferentes niveles de datos dentro del data warehouse reciben diferentes usos. Es mejor hacer el procesamiento a niveles más altos de esquematización como sea posible. a diferencia de la información antigua que apenas es usada. comienzan a acceder al conjunto de datos detallado. Fracc. los usuarios esperan una respuesta dentro del mismo día en que es hecha la consulta. Nuevo León. Las consultas de los usuarios no tienen tiempos de respuesta críticos Las transacciones operacionales necesitan una respuesta inmediata porque un cliente puede estar esperando una respuesta. Los conjuntos de datos resumidos representan el "Qué" de una situación y los conjuntos de datos detallados permiten a los usuarios construir un cuadro sobre "Cómo" se ha derivado esa situación. Por lo general. se tiene mayor uso de los datos. El diseñador de datos tiene dos predisposiciones: 1.

tasisoft. Fracc. (55) 26436451 Av.Ejemplo: Preparación de un reporte complejo Considere un problema bastante típico en una compañía de fabricación grande en el que se pide una información (un reporte) que no está disponible. Se debe explicar cada desviación de la tendencia que cae fuera de un rango predefinido. (81) 83990145 Aguascalientes Ags.com HOJA 26 . Sin un data warehouse. con una comparación adicional de los 3 años precedentes. 50 Primer Piso Col. el inventario y la condición de personal. el informe es preparado de la manera siguiente: Comisión Nacional Agraria No. Federal México D. Morones Prieto # 2805 Col. El informe incluye las finanzas actuales. Nuevo León. Lomas de San Francisco Monterrey. acompañado de comparaciones del mes actual con el anterior y el mismo mes del año anterior.F. Casa Blanca Tel: (449) 9776369 www.

desde el punto de vista de recursos y productividad. se obtienen los siguientes beneficios: Las inconsistencias de los datos se resuelven automáticamente cuando los elementos de datos se cargan en el data warehouse. Lo más interesante es que se ha pedido otro informe que continúe al primer informe (debido a que las preguntas se originaron a partir del anterior). el punto importante aquí es que todo el trabajo desempeñado para hacer este informe no afecta a otros reportes que pueden solicitarse es decir. Comisión Nacional Agraria No. Nuevamente. Federal México D. El hecho es. Se crea una sola fuente. Los elementos de datos son fácilmente accesibles para otros usos. todos ellos son independientes y caros. manualmente. que ninguno de los trabajos realizados hasta aquí (por ejemplo. diversos programas de extracción) se pueden usar para los próximos o para cualquier reporte subsiguiente. Al crear un data warehouse y combinar todos los datos requeridos.La información financiera actual se obtiene desde una base de datos mediante un programa de extracción de datos. Nuevo León. Lomas de San Francisco Monterrey. (55) 26436451 Av. impreso. (Ver Figura N° 13). Morones Prieto # 2805 Col. 50 Primer Piso Col.F. no manualmente. Los errores que ocurrieron durante el proceso complejo de la preparación del informe. Casa Blanca Tel: (449) 9776369 www. (81) 83990145 Aguascalientes Ags. cada vez que se prepara un reporte. Fracc. el inventario actual de otro programa de extracción de otra base de datos. la condición actual de personal de un tercer programa de extracción y la información histórica desde una copia de seguridad de cinta magnética o CD-ROM. Cuando se completa todo este procesamiento. el reporte puede ser formateado. se minimizan porque el proceso es ahora mucho más simple.tasisoft. Imagine el tiempo y el esfuerzo que se ha desperdiciado por un enfoque anticuado.com HOJA 27 . por lo general. revisado y transmitido. Las inconsistencias deben identificarse en cada conjunto de datos extraídos y resolverse. no sólo para un reporte particular.

los datos en los niveles más altos de detalle pueden ser reestructurados fácilmente. Federal México D. Comisión Nacional Agraria No. mientras que el volumen de datos en los niveles más inferiores es tan grande. Fracc. Otra consideración estructural es la partición de la información en el data warehouse. (81) 83990145 Aguascalientes Ags. Lomas de San Francisco Monterrey.com HOJA 28 . Morones Prieto # 2805 Col. En otras palabras. Por lo mismo. que los datos no pueden ser fácilmente reestructurados. Casa Blanca Tel: (449) 9776369 www. pueden ser indexados moderadamente. El nivel de detalle actual es casi siempre particionado. por ser tan voluminosa. en casi todos los casos.F. Nuevo León. las actividades de modelamiento de datos no se aplican a los niveles de esquematización. el modelo de datos y el diseño clásico fundamentan que el data warehouse se aplique casi exclusivamente al nivel actual de detalle. (55) 26436451 Av. La información de los niveles de esquematización más altos pueden ser libremente indexados.tasisoft. Por consiguiente.Consideraciones Adicionales Hay algunas consideraciones adicionales que deben tenerse en cuenta al construir y administrar el data warehouse. 50 Primer Piso Col. La primera consideración es respecto al índice. mientras que las de los niveles más bajos de detalle.

Federal México D. Casa Blanca Tel: (449) 9776369 www. Se muestra sólo el detalle actual. mucho de los trabajos de infraestructura se hacen automáticamente.La partición puede hacerse de dos maneras: al nivel de DBMS y al nivel de la aplicación. se conoce las particiones y se administra por consiguiente. 50 Primer Piso Col. la mayor parte del trabajo recae sobre el programador. Lomas de San Francisco Monterrey. Al interior de las particiones DBMS. no así los niveles de esquematización ni los archivos de detalle más antiguos. Comisión Nacional Agraria No. pero el resultado final es que la gestión de datos es más flexible. En la partición DBMS. Fracc. (55) 26436451 Av.tasisoft. Ejemplo de un Data Warehouse En la Figura N° 14 se muestra un ejemplo hipotético de un data warehouse estructurado para un centro de producción industrial. Pero existe un elevado grado de rigidez asociada con la gestión automática de las particiones. En el caso de las particiones de las aplicaciones del data warehouse.com HOJA 29 . Nuevo León. (81) 83990145 Aguascalientes Ags. sólo los programadores de las mismas conocen las particiones y la responsabilidad de su administración es asignada a ellos. En el caso de la partición de las aplicaciones. Morones Prieto # 2805 Col.F.

hay pocas excepciones útiles que necesitan ser discutidas. etc. Los contadores trabajan para producir cantidades como rentas trimestrales. Un ejemplo clásico de data resumida pública es el archivamiento trimestral hecho por cada compañía pública.com HOJA 30 . La estructura de los datos es consistente con la tabla de la elaboración de las piezas. Otra excepción no considerada en este documento es la data externa. se incrementaría la exposición de la compañía. tal como el ambiente operacional). hay una necesidad de datos permanentes. en el caso de una demanda. 50 Primer Piso Col. ganancias trimestrales y otros. los datos se almacenan en el data warehouse. Otro excepcional tipo de datos a veces encontrados en un data warehouse es el detalle de los datos permanentes. esas cantidades referenciales producidas por ellos se usan ampliamente dentro de la corporación para marketing. Fracc. • Excepciones en el Data Warehouse Excepciones en el Data Warehouse Mientras que los componentes del data warehouse trabajan de acuerdo al modelo descrito para casi todos los datos. Así también. Una de ellas es la data resumida pública. gastos trimestrales. (55) 26436451 Av. para el histórico de la fabricación de las piezas. el histórico de la orden de piezas está dividido por años y el histórico de cliente es un archivo único. Una vez que se haya hecho el archivo. hay muchas tablas separadas físicamente. no dividido por el tiempo. aunque su cálculo se haya hecho fuera de él. El detalle de datos permanentes comparte muchas de las mismas consideraciones como otro data warehouse. una notificación.Además. La data resumida pública se almacena y administra en el data warehouse. representando cada una un trimestre diferente. La organización simplemente no puede dejar los detalles porque en futuros años. El histórico de fabricación está dividido por trimestres.. un edificio en disputa.F. Nuevo León. las diferentes tablas son vinculadas por medio de un identificador común. hay una necesidad de detalle de datos permanentes. que es la data que ha sido calculada fuera del data warehouse pero es usada a través de la corporación. Los datos necesitan un tratamiento especial en su indexación. aunque físicamente hay muchas tablas que lógicamente incluyen el histórico. El trabajo hecho por los contadores está fuera del data warehouse. etc. ventas. excepto que: • • • El medio donde se almacena la data debe ser tan seguro como sea posible. Sin embargo. tal como la construcción de las partes de aviones.tasisoft. ya que de otra manera los datos pueden no ser accesibles aunque se haya almacenado con mucha seguridad. Para los diferentes tipos de tablas hay diferentes unidades de tiempo que físicamente dividen las unidades de información. (81) 83990145 Aguascalientes Ags. que resulta de la necesidad de una corporación para almacenar la data a un nivel detallado permanentemente por razones éticas o legales. piezas u órdenes de piezas (la representación de la interrelación en el ambiente de depósito toma una forma muy diferente al de otros ambientes. Federal México D. Comisión Nacional Agraria No. Por lo tanto hay un único tipo de datos en el data warehouse conocido como detalle de datos permanentes. se observa que hay tablas del mismo tipo divididas a través del tiempo. Si una corporación expone a sus trabajadores a sustancias peligrosas hay una necesidad de detalle de datos permanente. Casa Blanca Tel: (449) 9776369 www. Morones Prieto # 2805 Col. Los datos deben permitir ser restaurados. Si una corporación produce un producto que involucra la seguridad pública. Si una corporación se compromete con contratos peligrosos. Lomas de San Francisco Monterrey. Por ejemplo.

pero hay muchos puntos que contribuyen a ese objetivo. Implementación incremental La implementación incremental reduce riesgos y asegura que el tamaño del proyecto permanezca manejable en cada fase. en el valor comercial real. se indican algunos puntos claves que deben considerarse en la planificación de un data warehouse: Establecer una asociación de usuarios. (81) 83990145 Aguascalientes Ags. Factores en la Planificacion de un Data Warehouse No existe una fórmula de garantía real para el éxito de la construcción de un data warehouse. Estos mismos criterios (alcance limitado. es hacer el prototipo a lo largo del proceso de implementación y aún más allá. Reportar activamente y publicar los casos exitosos La retroalimentación de los usuarios ofrece una excelente oportunidad para publicar los hechos exitosos dentro de una organización. 50 Primer Piso Col. gestión y grupos Es esencial involucrar tanto a los usuarios como a la gestión para asegurar que el data warehouse contenga información que satisfaga los requerimientos de la empresa.com HOJA 31 . Comisión Nacional Agraria No. Seleccionar una aplicación piloto con una alta probabilidad de éxito Una aplicación piloto de alcance limitado. Morones Prieto # 2805 Col. (55) 26436451 Av. Lomas de San Francisco Monterrey. nuevamente. la clave. establecerá el data warehouse como una tecnología clave para la empresa. así como agregar los nuevos datos y/o los modelos en forma permanente.tasisoft. reembolso medible y beneficios claros para la empresa) se aplican a cada fase de la implementación de un data warehouse. Nuevo León. A continuación. Fracc. La gestión puede ayudar a priorizar la fase de la implementación del data warehouse. La retroalimentación del usuario también ayuda a comprender cómo evoluciona la implementación del data warehouse a través del tiempo para reunir requerimientos de usuario nuevamente identificados. así como también la selección de herramientas del usuario.F. El trabajo continuo con los usuarios y la gestión es. Casa Blanca Tel: (449) 9776369 www. con un reembolso medible para los usuarios y la gestión. Los usuarios y la gestión justifican los costos del data warehouse sobre cómo será "su ambiente" y está basado primero en lo esperado y segundo. Construir prototipos rápida y frecuentemente La única manera para asegurar que el data warehouse reúna las necesidades de los usuarios. La publicidad interna sobre cómo el data warehouse ha ayudado a los usuarios a operar más efectivamente puede apoyar la construcción del data warehouse a lo largo de una empresa. Federal México D.• Organización de un proyecto o Factores en la Planificacion de un Data Warehouse o Estrategias para el Desarrollo de un Data Warehouse o Estrategias para el Diseño de un Data Warehouse o Estrategias para el Gestion de un Data Warehouse Organización de un proyecto La planificación es el proceso más importante que determina la clase de tipo de estrategias data warehousing que una organización iniciará.

Lomas de San Francisco Monterrey. Si se requieren herramientas de acceso a la información. • Basados en el uso actual. el cual puede ser creado por: • Instalación de un conjunto de facilidades para acceso a datos.com . Fracc. Esta estrategia tiene la ventaja de ser simple y rápida. Morones Prieto # 2805 Col. • Entrenamiento de usuarios finales. entonces se puede crear una serie de problemas. (55) 26436451 Av. la estrategia data warehousing óptima es seleccionar el número de usuarios basados en el valor de la empresa y hacer un análisis de sus puntos. HOJA 32 Comisión Nacional Agraria No. Federal México D. al igual que su contexto. se construyen los prototipos data warehousing y se prueban para que los usuarios finales puedan experimentar y modificar sus requerimientos.F. Casa Blanca Tel: (449) 9776369 www. 50 Primer Piso Col. En conclusión No se tiene un enfoque único para construir un data warehouse que se adapte a las necesidades de las empresas. o facilitar la creación de sistemas de acceso a la información multidimensional de alta performance. es crítico el desarrollo de una estrategia equilibrada que sea apropiada para sus necesidades y sus usuarios. preguntas y necesidades de acceso a datos. Las preguntas que deben tenerse en cuenta son: • • • ¿Quién es el auditorio? ¿Cuál es el alcance? ¿Qué tipo de data warehouse debería construirse? Existe un número de estrategias mediante las cuales las organizaciones pueden conseguir sus data warehouses. se puede también permitir a los usuarios finales tener acceso a los datos requeridos usando sus herramientas favoritas propias. crear un data warehouse físico para soportar los pedidos de alta frecuencia. Desafortunadamente. • Control de cómo se usan realmente las instalaciones del data warehouse. Segunda Construir una copia de los datos operacionales desde un sistema operacional único y posibilitar al data warehouse de una serie de herramientas de acceso a la información. entonces se consiguen los datos provenientes de los sistemas operacionales existentes a través de la empresa y/o desde fuentes externas de datos y se cargan al data warehouse. Primera Establecer un ambiente "data warehouse virtual". Tercera Finalmente. Nuevo León. (81) 83990145 Aguascalientes Ags.Estrategias para el Desarrollo de un Data Warehouse Antes de desarrollar un data warehouse. De acuerdo a estas necesidades. directorio de datos y gestión de proceso. usando el núcleo del data warehouse como base. Una vez se tenga un consenso general sobre las necesidades.tasisoft. si los datos existentes son de mala calidad y/o el acceso a los datos no ha sido previamente evaluado. debido a que las necesidades de cada una de ellas son diferentes.

3. (55) 26436451 . Se pueden considerar los siguientes puntos: 1. se crearán nuevas demandas sobre sus sistemas operacionales. 2. Nuevo León. Por ello. que son: o Demandas para mejorar datos o Demandas para una data consistente o Demandas para diferentes tipos de datos. La gestión debe comprender también que si se embarcan sobre un programa data warehousing. la gestión tiene que pensarse seriamente sobre cómo quieren sus depósitos para su eficaz desempeño y cómo conseguirán llegar a los usuarios finales. Lomas de San Francisco Monterrey. 50 Primer Piso Col. De hecho. Los usuarios de los data warehouses usualmente no conocen mucho sobre sus requerimientos y necesidades como los usuarios operacionales. 2.F. la experiencia ha demostrado que los data warehouses llegarán a ser rápidamente uno de los sistemas más usados en cualquier organización. Casa Blanca Tel: (449) 9776369 www. Finalmente. A pesar que el diseño del data warehouse es diferente al usado en los diseños tradicionales. Morones Prieto # 2805 Col. no lo hace menos necesario. El hecho que los usuarios finales tengan dificultad en definir lo que ellos necesitan. como la tecnología data warehousing va evolucionando.com HOJA 33 • Comisión Nacional Agraria No. que resulta en que el único enfoque práctico para al almacenamiento de datos es la evolución de uno mismo. Al respecto. no es menos importante. Desarrollo de un proyecto o ¿Porque Construir Bloques de Data Warehouse? o Consideraciones Previas al Desarrollo de un Data Warehouse  Alcance de un Data Warehouse  Redundancia de Datos  Tipo de Usuario Final o Elementos Claves para el Desarrollo de un Data Warehouse  Diseño de la Arquitectura  Sistemas de Gestión de Bases de Datos  Nuevas Dimensiones  Combinacion de la Arquitectura con el Sistema de Gestion de Bases de Datos  Planes de Expansion Av. 3. la estrategia de diseño ideal para un data warehousing es generalmente de afuera hacia adentro (outside-in) a diferencia de arriba hacia abajo (top-down). El diseño de un data warehouse. Fracc. Estrategias para el Gestion de un Data Warehouse Los data warehouses requieren una comercialización y gestión muy cuidadosa. se aprende cada vez más y más sobre el desarrollo de data warehouses. un data warehouse está bastante cerca a Reingeniería de los Procesos del Negocio (Business Process Reengineering). (81) 83990145 Aguascalientes Ags. La administración debe reconocer que el mantenimiento de la estructura del data warehouse es tan crítico como el mantenimiento de cualquier otra aplicación de misión crítica. Estrategias para el Diseño de un Data Warehouse El diseño de los data warehouses es muy diferente al diseño de los sistemas operacionales tradicionales. son esenciales los prototipos de trabajo. Debe considerarse lo siguiente: 1. etc. con frecuencia involucra lo que se piensa en términos más amplios y con conceptos del negocio más difíciles de definir que en el diseño de un sistema operacional.tasisoft. En la práctica. Federal México D. Como consecuencia. Un data warehouse es una inversión buena sólo si los usuarios finales realmente pueden conseguir información vital más rápida y más barata de lo que obtienen con la tecnología actual. los diseñadores de data warehouses tienen que usar muchos "trucos" para ayudar a sus usuarios a "visualizar" sus requerimientos.Además.

Ellos son: 1. Las herramientas para capturar y explorar los datos al detalle evolucionan. operaciones y actividades comerciales.o Confiabilidad de los Datos Desarrollo de un proyecto ¿Porque Construir Bloques de Data Warehouse? Para ampliar un negocio. Casa Blanca Tel: (449) 9776369 www. Fracc. productos. Para muchas compañías.DBMS(s)) modernos. los Sistemas de Gestión de Base de Datos (Data Base Management Systems .OLAP). ha creado servidores de hardware y software más poderosos y sofisticados que nunca. se necesita que la información sea comprensible. Federal México D. Comisión Nacional Agraria No. junto a los datos no filtrados y dispersos. Consideraciones Previas al Desarrollo de un Data Warehouse Hay muchas maneras para desarrollar data warehouses como tantas organizaciones existen. De esta renovación de hardware y software surgen los data warehouses multiterabyte que ahora se ve en ambientes de cliente/servidor. Se ha reconocido los beneficios del procesamiento analítico en línea (On Line Analytical Processing . (81) 83990145 Aguascalientes Ags. Al mismo tiempo. 2.com HOJA 34 . contribuyen a reducir los costos de operación y aumentar las rentas. (55) 26436451 Av. nuevas formas creativas de presentación. Los servidores de hoy compiten con las mainframes de ayer y ofrecen arquitecturas de memoria tecnológicamente superiores.F. hay un número de dimensiones diferentes que necesitan ser consideradas: • • • Alcance de un data warehouse Redundancia de datos Tipo de usuario final La Figura N° 15 muestra un esquema bidimensional para analizar las opciones básicas. Lomas de San Francisco Monterrey. Morones Prieto # 2805 Col. En los últimos 10 años se han combinado dos factores para ayudar a la difusión de los data warehouses.tasisoft. así como nuestra capacidad para encontrar las formas de explotar los datos recolectados. proporcionan mayor soporte para las estructuras de datos complejas. por no mencionar que es más fácil la toma de decisiones estratégicas. Las organizaciones saben que los conocimientos inmersos en las masas de datos que rutinariamente recogen sobre sus clientes. más allá de las áreas tradicionales de marketing y finanzas. El crecimiento de la computación cliente/servidor. Sin embargo. esto significa un gran data warehouse que muestre. procesadores de alta velocidad y capacidades de almacenamiento masivas. La dimensión horizontal indica el alcance del depósito y la vertical muestra la cantidad de datos redundantes que deben almacenarse y mantenerse. 50 Primer Piso Col. Nuevo León.

en la amplitud del alcance. Lomas de San Francisco Monterrey.com HOJA 35 . Redundancia de Datos Hay tres niveles esenciales de redundancia de datos que las empresas deberían considerar en sus opciones de data warehouse: • • • Data warehouses "virtual" o "Point to Point" Data warehouses "centrales" Data warehouses "distribuidos" No se puede pensar en un único enfoque.tasisoft. o puede ser tan limitado como un data warehouse personal para un solo gerente durante un año. se pueden colocar las cargas de consulta no planificadas más grandes. Comisión Nacional Agraria No. la mayoría de las organizaciones comienzan con data warehouses funcionales. En la práctica. sobre sistemas operacionales. (81) 83990145 Aguascalientes Ags. Federal México D. Data Warehouses "Virtual" o "Point to Point" Una estrategia de data warehouses virtual. departamentales o divisionales y luego los expanden como usuarios que proveen retroalimentación. el mayor valor del data warehouse es para la empresa y lo más caro y consumidor de tiempo es crear y mantenerlo. Cada opción adapta un conjunto específico de requerimientos y una buena estrategia de almacenamiento de datos. (55) 26436451 Av. Este enfoque provee flexibilidad así como también la cantidad mínima de datos redundantes que deben cargarse y mantenerse. Nuevo León. usando cualquier herramienta que posibilite "la red de acceso de datos". significa que los usuarios finales pueden acceder a bases de datos operacionales directamente. Como consecuencia de ello. Fracc.Alcance de un Data Warehouse El alcance de un data warehouse puede ser tan amplio como toda la información estratégica de la empresa desde su inicio. lo constituye la inclusión de las tres opciones.F. Además. Casa Blanca Tel: (449) 9776369 www. Morones Prieto # 2805 Col. 50 Primer Piso Col.

desde una clase relativamente grande de usuarios finales y donde la frecuencia probable de pedidos es baja. Cada una de estas categorías diferentes de usuario tienen su propio conjunto de requerimientos para los datos. de servidor de base de datos informático multidimensional. Un data warehouse está integrado por un servidor de hardware y los DBMS que conforman el depósito. departamento. mientras se decide cómo aprovechar los saltos casi constantes de la potencia del procesador. las organizaciones grandes están tomando decisiones a niveles más inferiores de la organización y a la vez. Cada vez más. división o empresa. Los depósitos virtuales de datos proveen un punto de partida para que las organizaciones determinen qué usuarios finales están buscando realmente.com HOJA 36 . el almacenamiento virtual es. se debe combinar la configuración de plataformas de los servidores. la complejidad y el alto costo de los DBMSes Comisión Nacional Agraria No. administrativos. en alguna forma.) Usuarios de soporte (de oficina. Federal México D. Fracc. (81) 83990145 Aguascalientes Ags.tasisoft. Nuevo León. es importante notar que también hay una gama cada vez más amplia de usuarios finales. frecuentemente. Normalmente se construyen alrededor de RDBMS avanzados o.Como se verá. Tipo de Usuario Final De la misma forma que hay una gran cantidad de maneras para organizar un data warehouse. Elementos Claves para el Desarrollo de un Data Warehouse Los data warehouses exitosos comienzan cuando se escogen e integran satisfactoriamente tres elementos claves. una estrategia inicial.). Lomas de San Francisco Monterrey. Los data warehouses centrales se seleccionan por lo general donde hay una necesidad común de los datos informáticos y un número grande de usuarios finales ya conectados a una red o computadora central. se puede considerar tres grandes categorías: • • • Ejecutivos y gerentes "Power users" o "Buzo de Información" (analistas financieros y de negocios. Es una única base de datos física. En general. contienen datos de sistemas operacionales múltiples. acceso. etc. se tienen procesos de actualización y carga más complejos. (55) 26436451 Av. ingenieros. que contiene todos los datos para un área funcional específica. en organizaciones donde hay una amplia (pero en su mayor parte indefinida) necesidad de conseguir la data operacional.LAN) o computadora local que sirve al que toma decisiones. Pueden contener datos para cualquier período específico de tiempo. flexibilidad y facilidad de uso. 50 Primer Piso Col. Del lado del software. Los data warehouses centrales son reales. etc. Data Warehouses "Centrales" El concepto de data warehouses centrales es el concepto inicial que se tiene del data warehouse. Comúnmente. Morones Prieto # 2805 Col. Data Warehouses Distribuidos Los data warehouses distribuidos son aquellos en los cuales ciertos componentes del depósito se distribuyen a través de un número de bases de datos físicas diferentes. Casa Blanca Tel: (449) 9776369 www. llevando los datos que se necesitan para la toma de decisiones a la red de área local (Local Area Network . Los data warehouses distribuidos comúnmente involucran la mayoría de los datos redundantes y como consecuencia de ello. Los datos almacenados en el data warehouse son accesibles desde un lugar y deben cargarse y mantenerse sobre una base regular. Del lado del hardware.F.

Para conseguir que la implementación del depósito tenga un inicio exitoso. Fracc. Esta elección conduce a la selección de otros dos ítems fundamentales: el servidor de hardware y el DBMS.com HOJA 37 . Si se escoge incorrectamente. Diseño de la Arquitectura Arquitectura del Depósito El desarrollo del data warehouse comienza con la estructura lógica y física de la base de datos del depósito más los servicios requeridos para operar y mantenerlo. 50 Primer Piso Col. se necesita enfocar hacia tres bloques claves de construcción: • • • Arquitectura total del depósito Arquitecturas del servidor Sistemas de Gestión de Base de Datos A continuación se presentan algunas recomendaciones para tomar las correctas elecciones para su empresa. (55) 26436451 Av. El enfoque consolidado proporciona eficiencia tanto en la potencia de procesamiento como en los costos de soporte. es consolidar la base de datos en un data warehouse integrado. La plataforma física puede centralizarse en una sola ubicación o distribuirse regional. Federal México D.F. desempeño. eficiencia y confiabilidad. Comisión Nacional Agraria No. Un plan para almacenar los datos de su compañía. Lomas de San Francisco Monterrey. A continuación se dan las siguientes alternativas de arquitectura: 1. con respecto a la integración.fuerzan a tomar decisiones drásticas y balances comparativos inevitables. Casa Blanca Tel: (449) 9776369 www. Nuevo León.tasisoft. nacional o internacionalmente. costoso para arreglar y difícil de justificar. requerimientos de soporte. que podría obtenerse desde fuentes múltiples internas y externas. el data warehouse se convierte en una gran empresa con problemas difíciles de trabajar en su entorno. (81) 83990145 Aguascalientes Ags. Morones Prieto # 2805 Col. (Ver Figura N° 16).

Morones Prieto # 2805 Col.com HOJA 38 . Federal México D. Casa Blanca Tel: (449) 9776369 www. 50 Primer Piso Col. (81) 83990145 Aguascalientes Ags.F.Comisión Nacional Agraria No. Fracc. Nuevo León. (55) 26436451 Av.tasisoft. Lomas de San Francisco Monterrey.

(81) 83990145 Aguascalientes Ags. Nuevo León. Lomas de San Francisco Monterrey. con resúmenes más detallados en un segundo servidor y la información más detallada en un tercero. los datos de comercialización en otro y los datos de fabricación en un tercer lugar. Una arquitectura por niveles almacena datos altamente resumidos sobre una estación de trabajo del usuario. 50 Primer Piso Col. mientras que los servidores de los otros niveles son más adecuados para procesar los volúmenes pesados de datos. con datos financieros sobre un servidor en un sitio.2. (Ver Figura N° 17) 3. con pocos pedidos que pasan sucesivamente a los niveles 2 y 3 para la resolución.F.tasisoft. Casa Blanca Tel: (449) 9776369 www. La estación de trabajo del primer nivel maneja la mayoría de los pedidos para los datos. Morones Prieto # 2805 Col. Las computadoras en el primer nivel pueden optimizarse para usuarios de carga pesada y volumen bajo de datos. (55) 26436451 Av. Fracc. (Ver figura N° 18).com HOJA 39 . pero cargas más livianas de usuario. Federal México D. La arquitectura global distribuye información por función. Comisión Nacional Agraria No.

limitando la disponibilidad garantizada del depósito.DCE) o Arquitectura Broker de Objeto Común (Common Objects Request Broker Architecture . Servidores de un solo procesador Los servidores de un sólo procesador son los más fáciles de administrar. 1. pero la gestión de sistemas es más compleja. Morones Prieto # 2805 Col. Nuevo León. Casa Blanca Tel: (449) 9776369 www. debido a que las operaciones pueden cambiarse al servidor de copia de seguridad si un servidor falla. (81) 83990145 Aguascalientes Ags.Arquitectura del servidor Al decidir sobre una estructura de depósito distribuida o centralizada. Fracc. El tamaño de su implementación (y las necesidades de su empresa para escalabilidad. Federal México D. también se necesita considerar los servidores que retendrán y entregarán los datos.CORBA). un servidor sólo presenta un único punto de falla. pero ofrecen limitada potencia de procesamiento y escalabilidad. Se puede ampliar un solo servidor de redes mediante arquitecturas distribuidas que hacen uso de subproductos. 50 Primer Piso Col. disponibilidad y gestión de sistemas) influirá en la elección de la arquitectura del servidor. Estas arquitecturas aumentan también la disponibilidad. Lomas de San Francisco Monterrey. Además. tales como Ambientes de Computación Distribuida (Distributed Computing Environment . Multiprocesamiento simétrico Av.com HOJA 40 Comisión Nacional Agraria No. para distribuir el tráfico a través de servidores múltiples.F. 2. (55) 26436451 .tasisoft.

NUMA). comercio y transacción de ventas). justificando el crecimiento con las necesidades de procesamiento. se requiere un diseño y afinamiento esenciales para obtener una óptima distribución de los datos y prevenir "hot spots" o "data skew" (donde una cantidad desproporcionada del procesamiento es cambiada a un nodo de procesamiento. Nuevo León. La performance de los RDBMS tradicionales es mejor para consultas basadas en claves ("Encuentre cuenta de cliente #2014") que para consultas basadas en el contenido ("Encuentre a todos los clientes con un ingreso sobre $ 10. las estructuras de datos son no redundantes y representan las entidades básicas y las relaciones descritas por los datos (por ejemplo productos.SMP) aumentan mediante la adición de procesadores que comparten la memoria interna de los servidores y los dispositivos de almacenamiento de disco. es que existen DBMS y aplicaciones que pueden moverse desde un solo procesador o plataforma SMP a NUMA. (55) 26436451 Av. requiere varias operaciones de unión para colocar los datos juntos. en partes paralelas. Mientras la gran parte de los sistemas operacionales fueron resultados de aplicaciones basadas en antiguas estructuras de datos. Se puede adquirir la mayoría de SMP en configuraciones mínimas (es decir.com HOJA 41 . Lomas de San Francisco Monterrey. Federal México D.tasisoft. La escalabilidad de una máquina SMP alcanza su límite en el número máximo de procesadores soportados por los mecanismos de conexión (es decir.RDBMS). 3. Sin embargo. Cada nodo es un servidor. fueron los primeros éxitos para el DBMS relacional (Relational Data Base Management Systems . En una base de datos normalizada. debido a la partición de los datos bajo su control). Para optimizar una arquitectura MPP. tales como el acceso de memoria no uniforme (Non Uniform Memory Access . con dos procesadores) y levantar cuando es necesario. 50 Primer Piso Col. Pero un procesamiento analítico en línea (OLAP) típico de consultas que involucra varias estructuras.F. 4.Las máquinas de multiprocesamiento simétrico (Symmetric MultiProcessing . diseñadas para operar por separado.000 que hayan comprado un automóvil en los últimos seis meses"). el DBMS que se selecciona debe ser uno que ofrezca una versión paralela. Lo más importante de todo. Morones Prieto # 2805 Col. Procesamiento en paralelo masivo Una máquina de procesamiento en paralelo masivo (Massively Parallel Processing . completo con su propio procesador (posiblemente SMP) y memoria interna. los depósitos y sistemas de soporte de decisiones aprovecharon el RDBMS por su flexibilidad y capacidad para efectuar consultas con un único objetivo concreto. Comisión Nacional Agraria No. mientras se mantiene las ventajas de gestión y simplicidad de un ambiente SMP estándar. Y aún entonces. las aplicaciones deben ser "paralelizadas" es decir. sin modificaciones. Casa Blanca Tel: (449) 9776369 www. Acceso de memoria no uniforme La dificultad de mover aplicaciones y los DBMS a agrupaciones o ambientes realmente paralelos ha conducido a nuevas y recientes arquitecturas. (81) 83990145 Aguascalientes Ags. Sistemas de Gestión de Bases de Datos Los data warehouses (conjuntamente con los sistemas de soporte de decisión [Decision Support Systems .MPP). NUMA facilita el enfoque SMP para obtener los beneficios de performance de las grandes máquinas MPP (con 32 o más procesadores). el backplane y bus compartido). Los RDBMS son muy flexibles cuando se usan con una estructura de datos normalizada. Esta arquitectura es ideal para la búsqueda de grandes bases de datos. Fracc. conecta un conjunto de procesadores por medio de un enlace de banda ancha y de alta velocidad. NUMA crea una sola gran máquina SMP al conectar múltiples nodos SMP en un solo (aunque físicamente distribuida) banco de memoria y un ejemplo único de OS.DSS] y las aplicaciones cliente/servidor).

implementan técnicas de almacenamiento y operadores que soportan estructuras de datos multidimensionales.BLOBs). la mayor parte de los sistemas de base de datos pueden acomodar estos tipos de datos.objeto (Ejemplo: ILLUSTRA de INFORMIX). Los DBMS relacional .Para el soporte de depósitos a gran escala y para mejorar el interés hacia las aplicaciones OLAP. Estas. (55) 26436451 Av. Nuevo León. también llamadas características super relacionales. uniones a través de procesadores múltiples y corre estas operaciones simultáneamente para mejorar la performance. Algunos RDBMS. puede ser engorroso y costoso. o buscados por el servidor. Se requiere el paralelismo para el mejor desempeño en los servidores MPP grandes y SMP agrupados. Por su enfoque en los valores de datos codificados. Nuevas Dimensiones Una limitación de un RDBMS y un MDDB. los objetos no pueden ser indexados. En la tabla "Cómo comparar DBMS" se resume los pro y los contra de los diferentes tipos de DBMS para operaciones de data warehouse. como el DB2 Paralelo.objeto. por mercado. de otro lado. Muchos RDBMS almacenan los datos complejos como objetos grandes binarios (Binary Large Objects . es que la encapsulación de los datos dentro de los tipos especiales de datos (una serie de precios de stock a través del tiempo en cada registro de una tabla de stock. INFORMIX XPS y el ORACLE Paralelo. Así. "Encontrar todas las existencias que han mostrado una disminución en el precio de Abril a Mayo 1996"). al pre juntar tablas usando índices o mediante el uso de listas de índice totalmente invertidos. tales como la máquina de base de datos Teradata. Por ejemplo. Casa Blanca Tel: (449) 9776369 www. documentos y clips de vídeo / audio. por ejemplo). incluyen el soporte para hardware de base de datos especializada.F. la rotación fácil de los datos para verlos entre dimensiones diferentes. busque un DBMS relacional . Federal México D.com . clasificados. Morones Prieto # 2805 Col. 50 Primer Piso Col. Estos esquemas podrían usar tablas múltiples e indicadores para simular una estructura multidimensional. Algunos productos DBMS. No es aún una opción con MDDBS o DBMS relacional . Estos sistemas de base de datos naturalmente acomodan no sólo tipos de datos especiales sino también los métodos de procesamiento que son únicos para cada uno de ellos. tales como aquellos usados por SYBASE IQ.objeto. los proveedores han añadido nuevas características al RDBMS tradicional. La selección del DBMS está también sujeta al servidor de hardware que se usa. o las operaciones de drill down que sucesivamente exponen los niveles de datos más detallados). Si usted necesita estos tipos de objetos en su data warehouse. agregar una nueva dimensión o cambiar las vistas deseadas. ofrecen versiones que soportan operaciones paralelas.tasisoft. Algunos MDDBS requieren un recargue completo de la base de datos cuando ocurre una reestructuración. se debe identificar estas dimensiones cuando se construya la estructura de la base de datos. HOJA 42 Comisión Nacional Agraria No. almacenan los datos complejos como objetos nativos y pueden soportar las grandes estructuras de datos encontradas en un ambiente orientado a objetos. En este formato. Muchas de las herramientas de acceso a los data warehouses explotan la naturaleza multidimensional del data warehouse. Los modelos super relacionales también soportan extensiones para almacenar formatos y operaciones relacionales (ofrecidas por proveedores como REDBRICK) y diagramas de indexación especializados.MDDBs) ayudan directamente a manipular los objetos de datos multidimensionales (por ejemplo. por promociones y niveles anunciados y por combinaciones de estos diferentes aspectos. por período de tiempo. sólo con extensiones basadas en cierta referencias. Lomas de San Francisco Monterrey.objeto. tales como indicadores de archivos que contienen los objetos. (81) 83990145 Aguascalientes Ags. Fracc. tales como ESSBASE y GENTIUM. es la carencia de soporte para tipos de datos no tradicionales como imágenes. Pero una desventaja del enfoque relacional . El software paralelo divide consultas. requiere de operadores especializados para que hagan búsquedas simples previamente (por ejemplo. Estas técnicas pueden mejorar el rendimiento para las recuperaciones basadas en el contenido. Mientras las bases de datos multidimensionales (MultiDimensional Databases . facilita consultas y análisis a lo largo de dimensiones diferentes que han llegado a ser comunes. los analistas de marketing necesitan buscar en los volúmenes de ventas por producto. La estructura de los datos en una base de datos relacional tradicional.

para central. SP MDDB para promedio resumen en local o SMP para local local Central fuerte Centralizado ObjetoGrupos de SMP relacionalsoporte Web MPP RDBMS con soporte paralelo Central fuerte Centralizado Comisión Nacional Agraria No.ubicación Usos: análisis de única datos Alcance: departamental Usos: análisis más informático Alcance: empresa Usos: análisis más informático Alcance: departamental Usos: investigación Grandes Analistas en una sola ubicación..La tabla "Matriz de Decisión del Data Warehouse" contiene algunos ejemplos de cómo afectan estos criterios de decisión en la elección de una arquitectura de servidor/ data warehouse. geográficamente disperso Pequeña . Casa Blanca Tel: (449) 9776369 www. Nuevo León. Características / Función Estructuras Normalizadas Tipos de datos abstractos Paralelismo Estructuras Multidimensionales Drill-Down Rotación Operaciones dependientes de datos ¿Cómo comparar DBMSES? Super Multidimensional Relacional Relacional (Lógico) Multidimensional (Físico) Objeto Relacional Matriz de Decisión para el Data Warehouse Para estos ambientes.central detalle en central . Fracc. Morones Prieto # 2805 Col. usuarios informáticos dispersos Grande.pocas ubicaciones Local mínimo Consolidado .. Lomas de San Francisco Monterrey. Requerimientos comerciales Elija. Federal México D. (55) 26436451 Av. 50 Primer Piso Col.F.. Usuarios Soporte de Sistemas Arquitectura Servidor DBMS Alcance: departamental Pequeña .central paquete promedio Procesador único MDDB o SMP RDBMS para Local mínimo Seccionado Grupos de SMP central . (81) 83990145 Aguascalientes Ags.com HOJA 43 ..tasisoft.

pueden entregar listas por niveles a sus proveedores o según su condición. Por regla general. antes que una estructura intrincada que requiere una reconstrucción después de cada cambio (por ejemplo. Lomas de San Francisco Monterrey. 50 Primer Piso Col. fácilmente cambiable (por ejemplo. pueden limitar la complejidad o sofisticación de la arquitectura del servidor.tasisoft.soporte. Fracc. Federal México D. Un perfil de usuario debería identificar quiénes son los usuarios de su data warehouse. más disponibles a más empleados. Casa Blanca Tel: (449) 9776369 www. Algunos son diseñados para soportar las necesidades de análisis específico para un solo departamento o área funcional de una organización. servidores WEB y conexiones Intranet/Internet.com HOJA 44 . El análisis complejo. Las otras implementaciones reúnen datos a través de toda la empresa para soportar una variedad de grupos de usuarios y funciones. Los mensajes de correo electrónico. Al enlazar su data warehouse a otros sistemas (tanto internos como externos a la organización). más accesibles y. a sus socios de negocio. Finalmente. Las búsquedas masivas de grandes data warehouses favorecen el paralelismo en el DBMS y el servidor.IS) que están disponibles dentro de su organización. Como los data warehouses continúan creciendo en sofisticación y uso. así como también en las horas punta de su organización. requiere más poder y flexibilidad de todos los componentes del servidor. La información sobre cómo cada grupo espera usar los data warehouses. se adaptan mejor a una arquitectura de datos simple. se puede compartir información con otras entidades comerciales con poco o sin desarrollo. ventas o marketing. Los grandes volúmenes de datos que se refrescan a intervalos frecuentes. Los recursos de los sistemas de información (Information System . una estructura relacional altamente normalizada). con sus requerimientos siempre cambiantes. El resultado será la obtención de mejores decisiones en el negocio. Los tamaños de memoria y los canales de I/O deben soportar el número previsto de usuarios concurrentes bajo condiciones normales. Las implementaciones de los data warehouses varían apreciablemente de acuerdo al área. Nuevo León. El valor de la data fresca requerida indica cuán importante es para el data warehouse renovar y cambiar los datos. se debe factorizar la sofisticación del personal de soporte. ayudará a analizar los diversos estilos de uso. favorecen una arquitectura físicamente centralizada para soportar una captura de datos eficiente y minimizar el tiempo de transporte de los datos.Combinacion de la Arquitectura con el Sistema de Gestion de Bases de Datos Para seleccionar la combinación correcta de la arquitectura del servidor y el DBMS. mientras que hay menos demandas sobre el DBMS y la potencia de procesamiento del servidor. O puede necesitar un enfoque centralizado para soportar a los trabajadores que se movilizan y que trabajan en el depósito desde sus laptops. los datos acumulados dentro de una empresa llegarán a ser más organizados. Sin el personal especializado interno o consultores externos. se requiere mayor potencia y funcionalidad del servidor y el DBMS. dónde se ubican y cuántos necesita soportar. su población de usuarios y las habilidades del personal de soporte. a mayor área del depósito. en general. Una arquitectura por niveles podría usar servidores en el lugar de las redes de área local. Conocer la ubicación física de sus usuarios ayudará a determinar cómo y a qué área necesita distribuir el data warehouse. más oportunidades y más claridad de trabajo. El número total de usuarios y sus modelos de conexión determinan el tamaño de sus servidores de depósito. Las consultas y vistas de reportes preestructuradas frecuentemente satisfacen a los usuarios informáticos. Los ambientes dinámicos. los empleados externos al depósito podrían descubrir también el valor de sus datos. Los modelos de uso de los data warehouses son también un factor. primero es necesario comprender los requerimientos comerciales de su compañía. Comisión Nacional Agraria No.F. tales como finanzas. más interconectados. Planes de Expansion Como su depósito evoluciona y los datos que contiene llegan a ser más accesible. es difícil de crear y mantener satisfactoriamente una arquitectura que requiere paralelismo en la plataforma del servidor (MPP o SMP agrupado. Morones Prieto # 2805 Col. por ejemplo). (55) 26436451 Av. (81) 83990145 Aguascalientes Ags. que es típico de los ambientes de decisión . una estructura multidimensional).

(81) 83990145 Aguascalientes Ags. Lomas de San Francisco Monterrey. los datos que se usan satisfactoriamente en las aplicaciones de línea comercial operacionales pueden ser basura en lo que concierne a la aplicación data warehousing.com HOJA 45 . Fracc. se obtendrá resultados incorrectos o falsos. Desafortunadamente. (55) 26436451 Av. Si se alimenta mala información.tasisoft. 50 Primer Piso Col. Casa Blanca Tel: (449) 9776369 www. No importa cómo esté diseñado un programa o cuán hábilmente se use.F. Morones Prieto # 2805 Col. Nuevo León. Federal México D. Comisión Nacional Agraria No. Las herramientas de limpieza especializadas y las formas de programar de los clientes proporcionan redes de seguridad.Confiabilidad de los Datos La data "sucia" es peligrosa.

Casa Blanca Tel: (449) 9776369 www. Federal México D. 3. puede crearse un programa de limpieza efectivo.com HOJA 46 . Los pasos a seguir son los siguientes: 1.tasisoft. Decidir qué herramienta usar es importante y no solamente para la integridad de los datos. imprecisas e inconsistentes. Validar los datos que usa la aplicación del data warehouse Introducción al Concepto Data Warehousing Comisión Nacional Agraria No. 5. Lomas de San Francisco Monterrey. que es la capacidad del data warehouse. A continuación. 2. Nuevo León. Si se equivoca.F. Fracc. 50 Primer Piso Col. anomalías y otros problemas. "Sistemas S. La limpieza de una data "sucia" es un proceso multifacético y complejo.") o de otras causas. En el caso de bases de datos grandes. 4. Cualquiera que sea. (81) 83990145 Aguascalientes Ags. (55) 26436451 Av. tales como un producto. Morones Prieto # 2805 Col.Los datos "sucios" pueden presentarse al ingresar información en una entrada de datos (por ejemplo. se podría malgastar semanas en recursos de programación o cientos de miles de dólares en costos de herramientas. Transformar los datos para asegurar que sean precisos y coherentes. para identificar correctamente al instante cada objeto del negocio. en la Figura N° 19 se muestra un ejemplo de formato de ventas en el que se pueden presentar errores. En algunos casos. las herramientas de limpieza de datos pueden ser de gran ayuda. Asegurar la integridad referencial. el uso de las herramientas comerciales puede ser casi obligatorio. la data sucia daña la credibilidad de la implementación del depósito completo." en lugar de "Sistemas S. A. A. Analizar sus datos corporativos para descubrir inexactitudes. un cliente o un empleado. Afortunadamente.