You are on page 1of 20

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

INTRODUCCIN A LOS ALMACENES DE DATOS. ARQUITECTURA DE UN SISTEMA DE ALMACN DE DATOS. CARGA Y MANTENIMIENTO DE UN ALMACN DE DATOS. DISEO Y ARMADO DE UN ALMACN DE DATOS.

INTRODUCCIN A LOS ALMACENES DE DATOS

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

INTRODUCCIN A LOS ALMACENES DE DATOS


EL OBJETIVO ES EL ANLISIS DE DATOS PARA EL SOPORTE EN LA TOMA DE DECISIONES. GENERALMENTE, LA INFORMACIN QUE SE QUIERE INVESTIGAR SOBRE UN CIERTO DOMINIO DE LA ORGANIZACIN: SE ENCUENTRA EN BASES DE DATOS Y OTRAS FUENTES MUY DIVERSAS. LAS FUENTES PUEDEN SER TANTO INTERNAS COMO EXTERNAS. MUCHAS DE ESTAS FUENTES SON LAS QUE SE UTILIZAN PARA EL TRABAJO DIARIO: BASES DE DATOS OPERACIONALES.

INTRODUCCIN A LOS ALMACENES DE DATOS


SOBRE ESTAS MISMAS BD DE TRABAJO YA SE PUEDE EXTRAER CONOCIMIENTO: VISIN TRADICIONAL. LA BD TRANSACCIONAL SE UTILIZA PARA VARIOS COMETIDOS: SE MANTIENE EL TRABAJO TRANSACCIONAL DIARIO DE LOS SISTEMAS DE INFORMACIN ORIGINALES: CONOCIDO COMO OLTP, ON-LINE TRANSACTIONAL PROCESSING. SE HACE ANLISIS DE LOS DATOS EN TIEMPO REAL SOBRE LA MISMA BD: CONOCIDO COMO OLAP, ON-LINE ANALYTICAL PROCESSING.

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

INTRODUCCIN A LOS ALMACENES DE DATOS


EL USO DE LA BD TRANSACCIONAL PARA VARIOS COMETIDOS PRESENTA ALGUNOS PROBLEMAS: PERTURBA EL TRABAJO TRANSACCIONAL DIARIO DE LOS SISTEMAS DE INFORMACIN ORIGINALES (KILLER QUERIES): SE DEBE HACER POR LA NOCHE O EN FINES DE SEMANA. LA BD EST DISEADA PARA EL TRABAJO TRANSACCIONAL, NO PARA EL ANLISIS DE LOS DATOS: GENERALMENTE NO PUEDE SER EN TIEMPO REAL (ERA AP (PROCESO ANALTICO) PERO NO OLAP (PROCESO ANALTICO EN LNEA)).

INTRODUCCIN A LOS ALMACENES DE DATOS


SE DESEA OPERAR EFICIENTEMENTE CON ESOS DATOS: LOS COSTES DE ALMACENAMIENTO MASIVO Y CONECTIVIDAD SE HAN REDUCIDO DRSTICAMENTE EN LOS LTIMOS AOS. PARECE RAZONABLE RECOGER LOS DATOS (INFORMACIN HISTRICA) EN UN SISTEMA SEPARADO Y ESPECFICO: NACE EL DATA-WAREHOUSING. DATA WAREHOUSES (DW): ALMACENES O BODEGAS DE DATOS.

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

INTRODUCCIN A LOS ALMACENES DE DATOS

INTRODUCCIN A LOS ALMACENES DE DATOS

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

INTRODUCCIN A LOS ALMACENES DE DATOS

INTRODUCCIN A LOS ALMACENES DE DATOS


UN AD (ALMACN DE DATOS) O DW EST ORIENTADO HACIA LA INFORMACIN RELEVANTE DE LA ORGANIZACIN: SE DISEA: PARA CONSULTAR RELATIVA A LAS ORGANIZACIN: EFICIENTEMENTE INFORMACIN ACTIVIDADES BSICAS DE LA

VENTAS, COMPRAS, PRODUCCIN, ETC. NO PARA SOPORTAR LOS PROCESOS QUE SE REALIZAN EN LA ORGANIZACIN: GESTIN DE PEDIDOS, FACTURACIN, ETC.

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

10

INTRODUCCIN A LOS ALMACENES DE DATOS

INTRODUCCIN A LOS ALMACENES DE DATOS


UN AD (DW) ES INTEGRADO: INTEGRA DATOS RECOGIDOS DE: DIFERENTES SISTEMAS ORGANIZACIN. Y/O FUENTES EXTERNAS. OPERACIONALES DE LA

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

11

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

12

INTRODUCCIN A LOS ALMACENES DE DATOS

INTRODUCCIN A LOS ALMACENES DE DATOS


UN AD ES VARIABLE EN EL TIEMPO: LOS DATOS SON RELATIVOS A UN PERIODO DE TIEMPO Y DEBEN SER INCREMENTADOS PERIDICAMENTE. LOS DATOS SON ALMACENADOS (SNAPSHOTS) CORRESPONDIENTES A TIEMPO. COMO FOTOS PERIODOS DE

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

13

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

14

INTRODUCCIN A LOS ALMACENES DE DATOS

INTRODUCCIN A LOS ALMACENES DE DATOS


UN AD ES NO VOLTIL: LOS DATOS ALMACENADOS NO SON ACTUALIZADOS, SLO SON INCREMENTADOS. EL PERIODO DE TIEMPO CUBIERTO POR UN AD VARA ENTRE 2 Y 10 AOS.

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

15

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

16

INTRODUCCIN A LOS ALMACENES DE DATOS

INTRODUCCIN A LOS ALMACENES DE DATOS


UN AD PROVEE VENTAJAS PARA LAS ORGANIZACIONES: RENTABILIDAD DE LAS INVERSIONES REALIZADAS PARA SU CREACIN. AUMENTO DE LA COMPETITIVIDAD EN EL MERCADO. AUMENTO DE LA PRODUCTIVIDAD DE LOS TCNICOS DE DIRECCIN.

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

17

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

18

INTRODUCCIN A LOS ALMACENES DE DATOS


UN AD GENERA PROBLEMAS PARA LAS ORGANIZACIONES: INFRAVALORACIN DEL ESFUERZO NECESARIO PARA SU DISEO Y CREACIN. INFRAVALORACIN DE LOS RECURSOS NECESARIOS PARA LA CAPTURA, CARGA Y ALMACENAMIENTO DE LOS DATOS. INCREMENTO CONTINUO DE LOS REQUISITOS DE LOS USUARIOS. PRIVACIDAD DE LOS DATOS.

INTRODUCCIN A LOS ALMACENES DE DATOS

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

19

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

20

ARQUITECTURA DE UN SISTEMA DE ALMACN DE DATOS

ARQUITECTURA DE UN SISTEMA DE ALMACN DE DATOS


LA ARQUITECTURA DE UN AD VIENE DETERMINADA POR SU SITUACIN CENTRAL COMO FUENTE DE INFORMACIN PARA LAS HERRAMIENTAS DE ANLISIS.

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

21

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

22

ARQUITECTURA DE UN SISTEMA DE ALMACN DE DATOS

ARQUITECTURA DE UN SISTEMA DE ALMACN DE DATOS


LOS COMPONENTES SON LOS SIGUIENTES: SISTEMA ETL (EXTRACTION, TRANSFORMATION, LOAD). REPOSITORIO PROPIO DE DATOS. INTERFACES Y GESTORES DE CONSULTA. SISTEMAS DE INTEGRIDAD Y SEGURIDAD.

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

23

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

24

ARQUITECTURA DE UN SISTEMA DE ALMACN DE DATOS


SISTEMA ETL (EXTRACTION, TRANSFORMATION, LOAD): REALIZA LAS FUNCIONES DE EXTRACCIN DE LAS FUENTES DE DATOS (TRANSACCIONALES O EXTERNAS), TRANSFORMACIN (LIMPIEZA, CONSOLIDACIN, ETC.) Y LA CARGA DEL AD, REALIZANDO: EXTRACCIN DE LOS DATOS. FILTRADO DE LOS DATOS: LIMPIEZA, CONSOLIDACIN, ETC. CARGA INICIAL DEL ALMACN: ORDENACIN, AGREGACIONES, ETC. REFRESCO DEL ALMACN: OPERACIN PERIDICA QUE PROPAGA LOS CAMBIOS DE LAS FUENTES EXTERNAS AL ALMACN DE DATOS.
ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS 25

ARQUITECTURA DE UN SISTEMA DE ALMACN DE DATOS


REPOSITORIO PROPIO DE DATOS: INFORMACIN RELEVANTE, METADATOS. INTERFACES Y GESTORES DE CONSULTA: PERMITEN ACCEDER A LOS DATOS Y SOBRE ELLOS SE CONECTAN HERRAMIENTAS MS SOFISTICADAS: OLAP, EIS, MINERA DE DATOS. SISTEMAS DE INTEGRIDAD Y SEGURIDAD: SE ENCARGAN DE UN MANTENIMIENTO GLOBAL, COPIAS DE SEGURIDAD, ETC.

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

26

ARQUITECTURA DE UN SISTEMA DE ALMACN DE DATOS


LA ORGANIZACIN (EXTERNA): LAS HERRAMIENTAS DE EXPLOTACIN DE LOS ALMACENES DE DATOS HAN ADOPTADO UN MODELO MULTIDIMENSIONAL DE DATOS: SE OFRECE AL USUARIO UNA VISIN MULTIDIMENSIONAL DE LOS DATOS QUE SON OBJETO DE ANLISIS.

ARQUITECTURA DE UN SISTEMA DE ALMACN DE DATOS


EJEMPLO: ORGANIZACIN: CADENA DE SUPERMERCADOS. ACTIVIDAD OBJETO DE ANLISIS: VENTAS DE PRODUCTOS. INFORMACIN REGISTRADA SOBRE UNA VENTA: DEL PRODUCTO TAURITN 33CL SE HAN VENDIDO EN EL ALMACN ALMACN NRO.1 EL DA 17/7/2003, 5 UNIDADES POR UN IMPORTE DE 103,19 EUROS. PARA HACER EL ANLISIS NO INTERESA LA VENTA INDIVIDUAL (TICKET) REALIZADA A UN CLIENTE SINO LAS VENTAS DIARIAS DE PRODUCTOS EN LOS DISTINTOS ALMACENES DE LA CADENA.

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

27

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

28

ARQUITECTURA DE UN SISTEMA DE ALMACN DE DATOS

ARQUITECTURA DE UN SISTEMA DE ALMACN DE DATOS

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

29

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

30

ARQUITECTURA DE UN SISTEMA DE ALMACN DE DATOS


MODELO MULTIDIMENSIONAL: EN UN ESQUEMA MULTIDIMENSIONAL SE REPRESENTA UNA ACTIVIDAD QUE ES OBJETO DE ANLISIS (HECHO) Y LAS DIMENSIONES QUE CARACTERIZAN LA ACTIVIDAD (DIMENSIONES). LA INFORMACIN RELEVANTE SOBRE EL HECHO (ACTIVIDAD) SE REPRESENTA POR UN CONJUNTO DE INDICADORES (MEDIDAS O ATRIBUTOS DE HECHO). LA INFORMACIN DESCRIPTIVA DE CADA DIMENSIN SE REPRESENTA POR UN CONJUNTO DE ATRIBUTOS (ATRIBUTOS DE DIMENSIN).

ARQUITECTURA DE UN SISTEMA DE ALMACN DE DATOS

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

31

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

32

ARQUITECTURA DE UN SISTEMA DE ALMACN DE DATOS


ENTRE LOS ATRIBUTOS DE UNA DIMENSIN SE DEFINEN JERARQUAS.

ARQUITECTURA DE UN SISTEMA DE ALMACN DE DATOS


ESTE ESQUEMA NOMBRES: MULTIDIMENSIONAL RECIBE VARIOS ESTRELLA: SI LA JERARQUA DE DIMENSIONES ES LINEAL.

ESTRELLA JERRQUICA O JERARQUA NO ES LINEAL.

COPO

DE

NIEVE:

SI

LA

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

33

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

34

ARQUITECTURA DE UN SISTEMA DE ALMACN DE DATOS


SE PUEDEN OBTENER HECHOS A DIFERENTES NIVELES DE AGREGACIN: OBTENCIN DE MEDIDAS SOBRE LOS HECHOS PARAMETRIZADAS POR ATRIBUTOS DE LAS DIMENSIONES Y RESTRINGIDAS POR CONDICIONES IMPUESTAS SOBRE LAS DIMENSIONES. UN NIVEL DE AGREGACIN PARA UN CONJUNTO DE DIMENSIONES SE DENOMINA CUBO. EJEMPLO DE HECHO: EL PRIMER TRIMESTRE DE 2004 LA EMPRESA VENDI EN VALENCIA POR UN IMPORTE DE 22.000 EUROS DEL PRODUCTO TAURITN 33 CL..
ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS 35

ARQUITECTURA DE UN SISTEMA DE ALMACN DE DATOS

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

36

ARQUITECTURA DE UN SISTEMA DE ALMACN DE DATOS


SE PUEDE RECOPILAR TODA LA INFORMACIN NECESARIA EN UN NICO ESQUEMA ESTRELLA O COPO DE NIEVE?: NO: NECESIDAD DE VARIOS ESQUEMAS. CADA UNO DE ESTOS ESQUEMAS SE DENOMINA DATAMART. EL SIGUIENTE ES UN EJEMPLO DE UN ALMACN FORMADO POR CUATRO DATAMARTS.

ARQUITECTURA DE UN SISTEMA DE ALMACN DE DATOS

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

37

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

38

ARQUITECTURA DE UN SISTEMA DE ALMACN DE DATOS


EL ALMACN DE DATOS PUEDE ESTAR FORMADO POR VARIOS DATAMARTS Y, OPCIONALMENTE, POR TABLAS ADICIONALES: EL DATAMART ES UN SUBCONJUNTO DE UN ALMACN DE DATOS, GENERALMENTE EN FORMA DE ESTRELLA O COPO DE NIEVE. LOS DATAMARTS SE DEFINEN PARA SATISFACER LAS NECESIDADES DE UN DEPARTAMENTO O SECCIN DE LA ORGANIZACIN. UN DATAMART CONTIENE MENOS INFORMACIN DETALLE Y MS INFORMACIN AGREGADA. DE

CARGA Y MANTENIMIENTO DE UN ALMACN DE DATOS

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

39

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

40

CARGA Y MANTENIMIENTO DE UN ALMACN DE DATOS


EL SISTEMA ENCARGADO DEL MANTENIMIENTO DEL ALMACN DE DATOS ES EL SISTEMA E.T.T. (EXTRACCIN TRANSFORMACIN -TRANSPORTE) O E.T.L. (EXTRACCIN TRANSFORMACIN LOAD (CARGA)): LA CONSTRUCCIN DEL SISTEMA E.T.T. ES RESPONSABILIDAD DEL EQUIPO DE DESARROLLO DEL ALMACN DE DATOS. EL SISTEMA E.T.T. ES CONSTRUIDO ESPECFICAMENTE PARA CADA ALMACN DE DATOS. APROXIMADAMENTE 50% DEL ESFUERZO. EN LA CONSTRUCCIN DEL E.T.T. SE PUEDEN UTILIZAR HERRAMIENTAS DEL MERCADO O PROGRAMAS DISEADOS ESPECFICAMENTE.

CARGA Y MANTENIMIENTO DE UN ALMACN DE DATOS


LAS FUNCIONES DEL SISTEMA E.T.T. SON: CARGA INICIAL (INITIAL LOAD). MANTENIMIENTO O REFRESCO PERIDICO: INMEDIATO, DIARIO, SEMANAL, MENSUAL,... (REFRESHMENT)..

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

41

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

42

CARGA Y MANTENIMIENTO DE UN ALMACN DE DATOS

CARGA Y MANTENIMIENTO DE UN ALMACN DE DATOS


EL ALMACENAMIENTO INTERMEDIO PERMITE: REALIZAR TRANSFORMACIONES SIN PARALIZAR LAS BD OPERACIONALES Y EL ALMACN DE DATOS. ALMACENAR METADATOS. FACILITAR LA INTEGRACIN DE FUENTES EXTERNAS.

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

43

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

44

CARGA Y MANTENIMIENTO DE UN ALMACN DE DATOS

CARGA Y MANTENIMIENTO DE UN ALMACN DE DATOS


LA CALIDAD DE LOS DATOS ES LA CLAVE DEL XITO DE UN ALMACN DE DATOS. ES NECESARIO DEFINIR UNA ESTRATEGIA DE CALIDAD: ACTUACIN SOBRE LOS SISTEMAS OPERACIONALES: MODIFICAR LAS REGLAS DE INTEGRIDAD, LOS DISPARADORES Y LAS APLICACIONES DE LOS SISTEMAS OPERACIONALES. DOCUMENTACIN DE LAS FUENTES DE DATOS. DEFINICIN DE UN PROCESO DE TRANSFORMACIN. NOMBRAMIENTO DE UN RESPONSABLE DE CALIDAD DEL SISTEMA (DATA QUALITY MANAGER).

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

45

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

46

CARGA Y MANTENIMIENTO DE UN ALMACN DE DATOS


EXTRACCIN: SIGNIFICA EL USO DE: PROGRAMAS DISEADOS PARA EXTRAER LOS DATOS DE LAS FUENTES. HERRAMIENTAS : DATA MIGRATION TOOLS , WRAPPERS, ETC.

CARGA Y MANTENIMIENTO DE UN ALMACN DE DATOS

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

47

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

48

CARGA Y MANTENIMIENTO DE UN ALMACN DE DATOS


EXTRACCIN: COMPRENDE LA OPERACIONAL: LECTURA DE DATOS DEL SISTEMA

CARGA Y MANTENIMIENTO DE UN ALMACN DE DATOS


LA EJECUCIN DE LA EXTRACCIN: SI LOS DATOS OPERACIONALES ESTN MANTENIDOS EN UN SGBDR: LA EXTRACCIN DE DATOS SE PUEDE REDUCIR A CONSULTAS EN SQL O RUTINAS PROGRAMADAS. SI LOS DATOS OPERACIONALES ESTN EN UN SISTEMA PROPIETARIO (NO SE CONOCE EL FORMATO DE LOS DATOS) O EN FUENTES EXTERNAS TEXTUALES, HIPERTEXTUALES U HOJAS DE CLCULO: LA EXTRACCIN PUEDE SER MUY DIFCIL Y PUEDE TENER QUE REALIZARSE A PARTIR DE INFORMES O VOLCADOS DE DATOS PROPORCIONADOS POR LOS PROPIETARIOS QUE DEBERN SER PROCESADOS POSTERIORMENTE.

DURANTE LA CARGA INICIAL. MANTENIMIENTO DEL AD.

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

49

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

50

CARGA Y MANTENIMIENTO DE UN ALMACN DE DATOS


EXTRACCIN: EN EL MANTENIMIENTO / REFRESCO DEL AD, ANTES DE REALIZAR LA EXTRACCIN ES PRECISO IDENTIFICAR LOS CAMBIOS.

CARGA Y MANTENIMIENTO DE UN ALMACN DE DATOS


LA IDENTIFICACIN DE CAMBIOS SIGNIFICA: IDENTIFICAR LOS DATOS OPERACIONALES (RELEVANTES) QUE HAN SUFRIDO UNA MODIFICACIN DESDE LA FECHA DEL LTIMO MANTENIMIENTO. MTODOS: CARGA TOTAL: CADA VEZ SE EMPIEZA DE CERO. COMPARACIN DE INSTANCIAS DE LA BASE DE DATOS OPERACIONAL. USO DE MARCAS DE TIEMPO (TIME STAMPING) EN LOS REGISTROS DEL SISTEMA OPERACIONAL. USO DE DISPARADORES OPERACIONAL. EN EL SISTEMA DE

USO DEL FICHERO DE LOG (GESTIN TRANSACCIONES) DEL SISTEMA OPERACIONAL. USO DE TCNICAS MIXTAS.
ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS 51 ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

52

CARGA Y MANTENIMIENTO DE UN ALMACN DE DATOS


TRANSFORMACIN: SIGNIFICA: TRANSFORMAR LOS DATOS FUENTES OPERACIONALES: EXTRADOS DE LAS

CARGA Y MANTENIMIENTO DE UN ALMACN DE DATOS

LIMPIEZA, ESTANDARIZACIN (CLEANSING). CALCULAR LOS DATOS DERIVADOS: APLICAR LAS (INTEGRATION). LEYES DE DERIVACIN

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

53

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

54

CARGA Y MANTENIMIENTO DE UN ALMACN DE DATOS


TRANSFORMACIN: EN LOS DATOS OPERACIONALES EXISTEN ANOMALAS DEBIDAS A: DESARROLLOS INDEPENDIENTES A LO TIEMPO, FUENTES HETEROGNEAS, ETC. SE DEBE ELIMINAR LAS ANOMALAS: LIMPIEZA DE DATOS: ELIMINAR DATOS, CORREGIR Y COMPLETAR DATOS, ELIMINAR DUPLICADOS, ETC. ESTANDARIZACIN: CODIFICACIN, FORMATOS, UNIDADES DE MEDIDA, ETC. LARGO DEL

CARGA Y MANTENIMIENTO DE UN ALMACN DE DATOS

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

55

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

56

CARGA Y MANTENIMIENTO DE UN ALMACN DE DATOS


TRANSFORMACIN: LAS CLAVES CON ESTRUCTURA SE DEBEN DESCOMPONER EN VALORES ATMICOS. EJ.: CDIGO DE PRODUCTO = 12M65431345: CDIGO DEL PAS: 12. ZONA DE VENTAS: M. NMERO DE PRODUCTO: 65431. CDIGO DE VENDEDOR: 345.

CARGA Y MANTENIMIENTO DE UN ALMACN DE DATOS


TRANSFORMACIN: SE DEBEN UNIFICAR CODIFICACIONES: PUEDEN EXISTIR CODIFICACIONES MLTIPLES QUE SE DEBEN UNIFICAR: EJ.: DIFERENTES (GNERO): CODIFICACIONES PARA SEXO

M, F: MASCULINO, FEMENINO. V, M: VARN, MUJER. 1, 0: HOMBRE, MUJER. A, B: MUJER, HOMBRE. DEBEN DETECTARSE LOS VALORES ERRNEOS.

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

57

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

58

CARGA Y MANTENIMIENTO DE UN ALMACN DE DATOS


TRANSFORMACIN: SE DEBEN UNIFICAR ESTNDARES: UNIDADES DE MEDIDA: EJ.: CM, INCHES: A CM. UNIDADES DE TIEMPO: EJ.: DD/MM/YY, MM/DD/YY: A DD-Mon-YY. MONEDA: EJ.: GBP, FF, EURO, USD: A USD. ETC.

CARGA Y MANTENIMIENTO DE UN ALMACN DE DATOS


TRANSFORMACIN: SE DEBEN ELIMINAR VALORES DUPLICADOS: SQL. RESTRICCIONES EN EL SGBDR. EJ.: CAMPOS DUPLICADOS EN DIFERENTES TABLAS.

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

59

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

60

CARGA Y MANTENIMIENTO DE UN ALMACN DE DATOS


TRANSFORMACIN: SE DEBE RECONSTRUIR LA INTEGRIDAD REFERENCIAL. Departamento 10 20 30 40 Emp 1099 1289 1234 6786 Nombre Smith Jones Doe Harris Departamento 10 20 50 60

CARGA Y MANTENIMIENTO DE UN ALMACN DE DATOS


TRANSFORMACIN: SE DEBE CREAR LAS CLAVES.

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

61

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

62

CARGA Y MANTENIMIENTO DE UN ALMACN DE DATOS


TRANSPORTE (CARGA): LA FASE DE TRANSPORTE CONSISTE EN: MOVER LOS DATOS DESDE LAS FUENTES OPERACIONALES O EL ALMACENAMIENTO INTERMEDIO HASTA EL ALMACN DE DATOS, Y. CARGAR LOS DATOS EN ESTRUCTURAS DE DATOS. LAS CORRESPONDIENTES

CARGA Y MANTENIMIENTO DE UN ALMACN DE DATOS


TRANSPORTE: CREACIN Y MANTENIMIENTO DE UN AD: CREAR EL AD (BASE DE DATOS). EN INTERVALOS DE TIEMPO FIJOS AADIR CAMBIOS AL AD: SE DEBEN DETERMINAR LAS VENTANAS DE CARGA MS CONVENIENTES PARA NO SATURAR LA BD OPERACIONAL. OCASIONALMENTE ARCHIVAR O ELIMINAR DATOS OBSOLETOS QUE YA NO INTERESAN PARA EL ANLISIS.

LA CARGA PUEDE CONSUMIR MUCHO TIEMPO. EN LA CARGA INICIAL DEL AD SE MUEVEN GRANDES VOLMENES DE DATOS. EN LOS MANTENIMIENTOS PERIDICOS DEL AD SE MUEVEN PEQUEOS VOLMENES DE DATOS. LA FRECUENCIA DEL MANTENIMIENTO PERIDICO EST DETERMINADA POR EL GRNULO DEL AD Y LOS REQUISITOS DE LOS USUARIOS.
ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS 63

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

64

CARGA Y MANTENIMIENTO DE UN ALMACN DE DATOS

CARGA Y MANTENIMIENTO DE UN ALMACN DE DATOS


PROCESOS POSTERIORES A LA CARGA: INDIZACIN: DURANTE LA CARGA: CARGA CON EL NDICE HABILITADO. PROCESO TUPLA A TUPLA (LENTO). DESPUS DE LA CARGA: CARGA CON EL NDICE DESHABILITADO. CREACIN DEL NDICE (TOTAL O PARCIAL) (RPIDO).

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

65

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

66

CARGA Y MANTENIMIENTO DE UN ALMACN DE DATOS

CARGA Y MANTENIMIENTO DE UN ALMACN DE DATOS


PROCESOS POSTERIORES A LA CARGA: OBTENCIN DE AGREGADOS: DURANTE LA EXTRACCIN. DESPUS DE LA CARGA (TRANSPORTE).

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

67

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

68

CARGA Y MANTENIMIENTO DE UN ALMACN DE DATOS

DISEO Y ARMADO DE UN ALMACN DE DATOS

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

69

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

70

DISEO Y ARMADO DE UN ALMACN DE DATOS


ETAPAS:

DISEO Y ARMADO DE UN ALMACN DE DATOS

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

71

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

72

DISEO Y ARMADO DE UN ALMACN DE DATOS

DISEO Y ARMADO DE UN ALMACN DE DATOS

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

73

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

74

DISEO Y ARMADO DE UN ALMACN DE DATOS

DISEO Y ARMADO DE UN ALMACN DE DATOS


DETALLES ACERCA DEL DISEO LGICO:

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

75

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

76

DISEO Y ARMADO DE UN ALMACN DE DATOS


MODELADO MULTIDIMENSIONAL: EN UN ESQUEMA MULTIDIMENSIONAL SE REPRESENTA UNA ACTIVIDAD QUE ES OBJETO DE ANLISIS (HECHO) Y LAS DIMENSIONES QUE CARACTERIZAN LA ACTIVIDAD (DIMENSIONES). LA INFORMACIN RELEVANTE SOBRE EL HECHO (ACTIVIDAD) SE REPRESENTA POR UN CONJUNTO DE INDICADORES (MEDIDAS O ATRIBUTOS DE HECHO). LA INFORMACIN DESCRIPTIVA DE CADA DIMENSIN SE REPRESENTA POR UN CONJUNTO DE ATRIBUTOS (ATRIBUTOS DE DIMENSIN).

DISEO Y ARMADO DE UN ALMACN DE DATOS


EL MODELADO MULTIDIMENSIONAL SE PUEDE APLICAR UTILIZANDO DISTINTOS MODELOS DE DATOS (CONCEPTUALES O LGICOS). LA REPRESENTACIN GRFICA DEL ESQUEMA MULTIDIMENSIONAL DEPENDER DEL MODELO DE DATOS UTILIZADO (RELACIONAL, ER, UML, OO, ETC.).

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

77

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

78

DISEO Y ARMADO DE UN ALMACN DE DATOS


EL DESARROLLO DE LA TECNOLOGA DE ALMACENES DE DATOS SE HA CARACTERIZADO POR: UN TEMPRANO DESARROLLO INDUSTRIAL PROVOCADO POR LAS DEMANDAS DE LOS USUARIOS. EL USO DE METODOLOGAS DE DISEO CENTRADAS PRINCIPALMENTE EN LOS NIVELES LGICO E INTERNO: LA ATENCIN SE HA CENTRADO EN MEJORAR LA EFICIENCIA EN LA EJECUCIN DE CONSULTAS. EJ. DE METODOLOGA DE DISEO BASADA EN EL MODELO RELACIONAL: MODELO MULTIDIMENSIONAL DE KIMBALL.

DISEO Y ARMADO DE UN ALMACN DE DATOS


LOS PASOS EN EL DISEO DEL ALMACN DE DATOS SON: PASO 1: ELEGIR UN PROCESO DE LA ORGANIZACIN PARA MODELAR. PASO 2: DECIDIR EL GRNULO (NIVEL DE DETALLE) DE REPRESENTACIN DEL PROCESO. PASO 3: IDENTIFICAR LAS DIMENSIONES QUE CARACTERIZAN EL PROCESO. PASO 4: DECIDIR LA INFORMACIN A ALMACENAR SOBRE EL PROCESO.

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

79

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

80

DISEO Y ARMADO DE UN ALMACN DE DATOS


PASO 1: ELEGIR UN PROCESO DE LA ORGANIZACIN PARA MODELAR: PROCESO: ACTIVIDAD DE LA ORGANIZACIN SOPORTADA POR UN OLTP DEL CUAL SE PUEDE EXTRAER INFORMACIN CON EL PROPSITO DE CONSTRUIR EL ALMACN DE DATOS: PEDIDOS (DE CLIENTES). COMPRAS (A SUMINISTRADORES). FACTURACIN. ENVOS. VENTAS. INVENTARIO. ETC.

DISEO Y ARMADO DE UN ALMACN DE DATOS


EJEMPLO: CADENA DE SUPERMERCADOS: CADENA DE SUPERMERCADOS CON 300 ALMACENES EN LA QUE SE EXPENDEN UNOS 30.000 PRODUCTOS DISTINTOS. ACTIVIDAD: VENTAS: LA ACTIVIDAD A MODELAR SON LAS VENTAS DE PRODUCTOS EN LOS SUPERMERCADOS (ALMACENES) DE LA CADENA.

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

81

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

82

DISEO Y ARMADO DE UN ALMACN DE DATOS


PASO 2: DECIDIR EL GRNULO (NIVEL DE DETALLE) DE REPRESENTACIN: GRNULO: ES EL NIVEL DE DETALLE AL QUE SE DESEA ALMACENAR INFORMACIN SOBRE LA ACTIVIDAD A MODELAR: EL GRNULO DEFINE EL NIVEL ATMICO DE DATOS EN EL ALMACN DE DATOS. EL GRNULO DETERMINA EL SIGNIFICADO DE LAS TUPLAS DE LA TABLA DE HECHOS. EL GRNULO DETERMINA LAS DIMENSIONES BSICAS DEL ESQUEMA: TRANSACCIN EN EL OLTP. INFORMACIN DIARIA. INFORMACIN SEMANAL. INFORMACIN MENSUAL.
ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

DISEO Y ARMADO DE UN ALMACN DE DATOS

ETC.

83

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

84

DISEO Y ARMADO DE UN ALMACN DE DATOS


EJEMPLO: CADENA DE SUPERMERCADOS. GRNULO: SE DESEA ALMACENAR INFORMACIN SOBRE LAS VENTAS DIARIAS DE CADA PRODUCTO EN CADA ALMACN DE LA CADENA. GRNULO: DEFINE EL SIGNIFICADO DE LAS TUPLAS DE LA TABLA DE HECHOS. DETERMINA LAS DIMENSIONES BSICAS DEL ESQUEMA.

DISEO Y ARMADO DE UN ALMACN DE DATOS

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

85

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

86

DISEO Y ARMADO DE UN ALMACN DE DATOS


GRNULO INFERIOR: NO SE ALMACENA INFORMACIN A NIVEL DE LNEA DE TICKET PORQUE NO SE PUEDE IDENTIFICAR SIEMPRE AL CLIENTE DE LA VENTA: SI SE PUDIERA, PERMITIRA HACER ANLISIS DEL COMPORTAMIENTO (HBITOS DE COMPRA) DEL CLIENTE.

DISEO Y ARMADO DE UN ALMACN DE DATOS


GRNULO SUPERIOR: NO SE ALMACENA INFORMACIN A NIVEL SEMANAL O MENSUAL PORQUE SE PERDERAN OPCIONES DE ANLISIS INTERESANTES: VENTAS EN DAS PREVIOS A VACACIONES, VENTAS EN FIN DE SEMANA, VENTAS EN FIN DE MES, ETC. EN UN DW SE ALMACENA INFORMACIN A UN NIVEL DE DETALLE (GRNULO) FINO: NO PORQUE SE VAYA A INTERROGAR EL ALMACN A ESE NIVEL. SINO PORQUE ELLO PERMITE CLASIFICAR Y ESTUDIAR (ANALIZAR) LA INFORMACIN DESDE MUCHOS PUNTOS DE VISTA.

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

87

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

88

DISEO Y ARMADO DE UN ALMACN DE DATOS

DISEO Y ARMADO DE UN ALMACN DE DATOS


PASO 3: IDENTIFICAR LAS DIMENSIONES QUE CARACTERIZAN EL PROCESO: DIMENSIONES : DIMENSIONES QUE CARACTERIZAN LA ACTIVIDAD AL NIVEL DE DETALLE (GRNULO) QUE SE HA ELEGIDO: TIEMPO (DIMENSIN TEMPORAL: CUNDO SE PRODUCE LA ACTIVIDAD?). PRODUCTO (DIMENSIN CUL ES EL OBJETO DE LA ACTIVIDAD?). ALMACN (DIMENSIN PRODUCE LA ACTIVIDAD?). GEOGRFICA: DNDE SE

CLIENTE (DIMENSIN QUIN ES EL DESTINATARIO DE LA ACTIVIDAD?).

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

89

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

90

DISEO Y ARMADO DE UN ALMACN DE DATOS


DE CADA DIMENSIN SE DEBE DECIDIR LOS ATRIBUTOS (PROPIEDADES) RELEVANTES PARA EL ANLISIS DE LA ACTIVIDAD. ENTRE LOS ATRIBUTOS DE UNA DIMENSIN EXISTEN JERARQUAS NATURALES QUE DEBEN SER IDENTIFICADAS: DA-MES-AO.

DISEO Y ARMADO DE UN ALMACN DE DATOS

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

91

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

92

DISEO Y ARMADO DE UN ALMACN DE DATOS


EJEMPLO: CADENA DE SUPERMERCADOS. NOTA: EN LAS APLICACIONES REALES EL NMERO DE DIMENSIONES SUELE VARIAR ENTRE 3 Y 15.

DISEO Y ARMADO DE UN ALMACN DE DATOS


DIMENSIN TIEMPO: DIMENSIN PRESENTE EN TODO AD PORQUE EL AD CONTIENE INFORMACIN HISTRICA SOBRE LA ORGANIZACIN. AUNQUE EL LENGUAJE SQL OFRECE FUNCIONES DE TIPO DATE, UNA DIMENSIN TIEMPO PERMITE REPRESENTAR OTROS ATRIBUTOS TEMPORALES NO CALCULABLES EN SQL. SE PUEDE CALCULAR DE ANTEMANO.

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

93

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

94

DISEO Y ARMADO DE UN ALMACN DE DATOS


ATRIBUTOS FRECUENTES: NRO. DE DA, NRO. DE SEMANA, NRO. DE AO: VALORES ABSOLUTOS DEL CALENDARIO JULIANO QUE PERMITEN HACER CIERTOS CLCULOS ARITMTICOS. DA DE LA SEMANA (LUNES, MARTES, MIRCOLES,...): PERMITE HACER ANLISIS SOBRE DAS DE LA SEMANA CONCRETOS (EJ. VENTAS EN SBADO, VENTAS EN LUNES,..).

DISEO Y ARMADO DE UN ALMACN DE DATOS


DIMENSIN TIEMPO: ATRIBUTOS FRECUENTES: DA DEL MES (1..31): PERMITE HACER COMPARACIONES SOBRE EL MISMO DA EN MESES DISTINTOS (VENTAS EL 1 DE MES). MARCA DE FIN DE MES, MARCA DE FIN DE SEMANA: PERMITE HACER COMPARACIONES SOBRE EL LTIMO DA DEL MES O DAS DE FIN DE SEMANA EN DISTINTOS MESES. TRIMESTRE DEL AO (1..4): PERMITE HACER ANLISIS SOBRE UN TRIMESTRE CONCRETO EN DISTINTOS AOS.

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

95

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

96

DISEO Y ARMADO DE UN ALMACN DE DATOS


MARCA DE DA FESTIVO (FERIADO): PERMITE HACER ANLISIS CONTIGUOS A UN DA FESTIVO. ESTACIN (PRIMAVERA, VERANO..). EVENTO ESPECIAL: PERMITE MARCAR DAS DE EVENTOS ESPECIALES (FINAL DE FUTBOL, ELECCIONES...). JERARQUA NATURAL: DA - MES - TRIMESTRE AO. SOBRE LOS DAS

DISEO Y ARMADO DE UN ALMACN DE DATOS


DIMENSIN PRODUCTO: LA DIMENSIN PRODUCTO SE DEFINE A PARTIR DEL FICHERO MAESTRO DE PRODUCTOS DEL SISTEMA OLTP. LAS ACTUALIZACIONES DEL FICHERO MAESTRO DE PRODUCTOS DEBEN REFLEJARSE EN LA DIMENSIN PRODUCTO (CMO?). LA DIMENSIN PRODUCTO DEBE CONTENER EL MAYOR NMERO POSIBLE DE ATRIBUTOS DESCRIPTIVOS QUE PERMITAN UN ANLISIS FLEXIBLE: UN NMERO FRECUENTE ES DE 50 ATRIBUTOS.

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

97

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

98

DISEO Y ARMADO DE UN ALMACN DE DATOS


ATRIBUTOS FRECUENTES: IDENTIFICADOR (CDIGO ESTNDAR), DESCRIPCIN, TAMAO DEL ENVASE, MARCA, CATEGORA, DEPARTAMENTO, TIPO DE ENVASE, PRODUCTO DIETTICO, PESO, UNIDADES DE PESO, UNIDADES POR ENVASE, FRMULA, ETC. JERARQUAS: PRODUCTO-CATEGORA-DEPARTAMENTO.

DISEO Y ARMADO DE UN ALMACN DE DATOS


DIMENSIN ESTABLECIMIENTO (STORE): LA DIMENSIN ALMACN REPRESENTA LA INFORMACIN GEOGRFICA BSICA. ESTA DIMENSIN SUELE SER CREADA EXPLCITAMENTE RECOPILANDO INFORMACIN EXTERNA QUE SLO TIENE SENTIDO EN EL AD Y QUE NO LA TIENE EN UN OLTP: NMERO DE HABITANTES DE LA CIUDAD DEL ESTABLECIMIENTO, CARACTERIZACIN DEL TIPO DE POBLACIN DEL DISTRITO, ETC.

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

99

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

100

DISEO Y ARMADO DE UN ALMACN DE DATOS


ATRIBUTOS FRECUENTES: IDENTIFICADOR (CDIGO INTERNO), NOMBRE, DIRECCIN, DISTRITO, REGIN, CIUDAD, PAS, DIRECTOR, TELFONO, FAX, TIPO DE ALMACN, SUPERFICIE, FECHA DE APERTURA, FECHA DE LA LTIMA REMODELACIN, SUPERFICIE PARA CONGELADOS, SUPERFICIE PARA PRODUCTOS FRESCOS, DATOS DE LA POBLACIN DEL DISTRITO, ZONA DE VENTAS, ETC. JERARQUAS: ESTABLECIMIENTO - DISTRITO - CIUDAD - REGIN - PAS (JERARQUA GEOGRFICA). ESTABLECIMIENTO - ZONA_VENTAS - REGIN_VENTAS (JERARQUA DE VENTAS).

DISEO Y ARMADO DE UN ALMACN DE DATOS

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

101

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

102

DISEO Y ARMADO DE UN ALMACN DE DATOS

DISEO Y ARMADO DE UN ALMACN DE DATOS


PASO 4: DECIDIR LA INFORMACIN A ALMACENAR SOBRE EL PROCESO: HECHOS: INFORMACIN (SOBRE LA ACTIVIDAD) QUE SE DESEA ALMACENAR EN CADA TUPLA DE LA TABLA DE HECHOS Y QUE SER EL OBJETO DEL ANLISIS: PRECIO. UNIDADES. IMPORTE. ETC. NOTA: ALGUNOS DATOS QUE EN EL OLTP COINCIDIRAN CON VALORES DE ATRIBUTOS DE DIMENSIONES, EN EL AD PUEDEN REPRESENTAR HECHOS: EJ.: EL PRECIO DE VENTA DE UN PRODUCTO.

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

103

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

104

DISEO Y ARMADO DE UN ALMACN DE DATOS


EJEMPLO: CADENA DE SUPERMERCADOS. GRNULO: SE DESEA ALMACENAR INFORMACIN SOBRE LAS VENTAS DIARIAS DE CADA PRODUCTO EN CADA ESTABLECIMIENTO DE LA CADENA. IMPORTE TOTAL DE LAS VENTAS DEL PRODUCTO EN EL DA. NMERO TOTAL DE UNIDADES VENDIDAS DEL PRODUCTO EN EL DA. NMERO TOTAL DE CLIENTES DISTINTOS QUE HAN COMPRADO EL PRODUCTO EN EL DA.

DISEO Y ARMADO DE UN ALMACN DE DATOS

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

105

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

106

DISEO Y ARMADO DE UN ALMACN DE DATOS


OTRAS ORIENTACIONES DE DISEO: USAR CLAVES SIN SIGNIFICADO. EVITAR NORMALIZAR. INCLUIR LA DIMENSIN TIEMPO. DIMENSIONES QUE CAMBIAN. DEFINICIN DE AGREGADOS.

DISEO Y ARMADO DE UN ALMACN DE DATOS


OTRAS ORIENTACIONES DE DISEO: USO DE CLAVES SIN SIGNIFICADO: EN UN ALMACN DE DATOS DEBE EVITARSE EL USO DE LAS CLAVES DEL SISTEMA OPERACIONAL. LAS CLAVES DE LAS DIMENSIONES GENERADAS ARTIFICIALMENTE: DEBEN SER

CLAVES DE TIPO ENTERO (4 BYTES) SON SUFICIENTE PARA DIMENSIONES DE CUALQUIER TAMAO (232 VALORES DISTINTOS). LA DIMENSIN TIEMPO DEBE TENER TAMBIN UNA CLAVE ARTIFICIAL.

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

107

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

108

DISEO Y ARMADO DE UN ALMACN DE DATOS


LOS INCONVENIENTES DEL USO DE LAS CLAVES DEL SISTEMA OPERACIONAL SON: EN EL OLTP SE PUEDE DECIDIR REUTILIZAR VALORES DE LA CLAVE NO UTILIZADOS ACTUALMENTE. EN EL OLTP SE PUEDE DECIDIR CODIFICACIN DE LAS CLAVES. CAMBIAR LA

DISEO Y ARMADO DE UN ALMACN DE DATOS


OTRAS ORIENTACIONES DE DISEO: EVITAR NORMALIZAR: SI SE DEFINE UNA TABLA DE DIMENSIN PARA CADA DIMENSIN IDENTIFICADA EN EL ANLISIS, ES FRECUENTE QUE ENTRE EL CONJUNTO DE ATRIBUTOS DE LA TABLA APAREZCAN DEPENDENCIAS FUNCIONALES QUE HACEN QUE LA TABLA NO EST EN 3 F.N. RAZONES PARA EVITAR NORMALIZAR: EL AHORRO DE ESPACIO NO ES SIGNIFICATIVO. SE MULTIPLICAN LOS JOIN DURANTE LAS CONSULTAS.

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

109

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

110

DISEO Y ARMADO DE UN ALMACN DE DATOS


OTRAS ORIENTACIONES DE DISEO: SIEMPRE INTRODUCIR LA DIMENSIN TIEMPO: EN UN ALMACN DE DATOS MUCHAS CONSULTAS SON RESTRINGIDAS Y PARAMETRIZADAS POR CRITERIOS RELATIVOS A PERIODOS DE TIEMPO: LTIMO MES, ESTE AO, ETC.

DISEO Y ARMADO DE UN ALMACN DE DATOS


OTRAS ORIENTACIONES DE DISEO: DIMENSIONES QUE CAMBIAN: SE CONSIDERA RELEVANTE EL CASO EN QUE, EN EL MUNDO REAL, PARA UN VALOR DE UNA DIMENSIN: CAMBIA EL VALOR DE UN ATRIBUTO QUE ES SIGNIFICATIVO PARA EL ANLISIS SIN CAMBIAR EL VALOR DE SU CLAVE. EJ.: EN UN AD EXISTE LA DIMENSIN CLIENTE: EN LA TABLA CORRESPONDIENTE UN REGISTRO REPRESENTA LA INFORMACIN SOBRE EL CLIENTE MARA GARCA CUYO ESTADO CIVIL CAMBIA EL 15-01-1994 DE SOLTERA A CASADA. EL ESTADO CIVIL DEL CLIENTE ES UTILIZADO CON FRECUENCIA EN EL ANLISIS DE LA INFORMACIN.

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

111

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

112

DISEO Y ARMADO DE UN ALMACN DE DATOS


EXISTEN TRES ESTRATEGIAS PARA EL TRATAMIENTO DE LOS CAMBIOS EN LAS DIMENSIONES: TIPO 1: REALIZAR LA MODIFICACIN. TIPO 2: CREAR UN NUEVO REGISTRO. TIPO 3: CREAR UN NUEVO ATRIBUTO.

DISEO Y ARMADO DE UN ALMACN DE DATOS


OTRAS ORIENTACIONES DE DISEO: DEFINICIN DE AGREGADOS: EN UN ALMACN DE DATOS ES USUAL CONSULTAR INFORMACIN AGREGADA. EL ALMACENAMIENTO DE DATOS AGREGADOS POR DISTINTOS CRITERIOS DE AGREGACIN EN LA TABLA DE HECHOS MEJORA LA EFICIENCIA DEL AD.

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

113

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

114

DISEO Y ARMADO DE UN ALMACN DE DATOS


LAS ESTRATEGIAS DE ALMACENAMIENTO DE DATOS AGREGADOS SON: ESTRATEGIA 1: DEFINIR NUEVAS TABLAS DE HECHOS (RESP. DIMENSIONES) PARA ALMACENAR LA INFORMACIN AGREGADA (RESP. LA DESCRIPCIN DE LOS NIVELES DE AGREGACIN). ESTRATEGIA 2: INSERTAR EN LA TABLA DE HECHOS (RESP. DIMENSIONES) TUPLAS QUE REPRESENTAN LA INFORMACIN AGREGADA (RESP. LOS NIVELES DE AGREGACIN).

DISEO Y ARMADO DE UN ALMACN DE DATOS


CONCLUSIONES: EL DISEO DE UN DW TIENE CARACTERSTICAS PROPIAS QUE LO HACEN DIFERENTE AL DISEO DE DATOS PARA UNA BASE DE DATOS OPERACIONAL. LA ETAPA DE EXTRACCIN DE DATOS Y SU POSTERIOR ACTUALIZACIN DEBEN SER CONSIDERADAS CUIDADOSAMENTE PARA PRESERVAR LA UTILIDAD REAL DEL DW.

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

115

ALMACENES DE DATOS PARA GESTIN DE DATOS MASIVOS

116

You might also like