UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA

UNIVERSIDAD SAN PEDRO
FACULTAD DE INGENIERÍA
ESCUELA PROFESIONAL DE INGENIERÍA INFORMÁTICA Y DE SISTEMAS

PROYECTO:

“SISTEMA PARA EVITAR EL DESABASTECIMIENTO DEL AREA DE FARMACIA APLICANDO MINERIA DE DATOS”
ALUMNOS:

 Campos Reyes Raúl  Cano Morales Augusto

CURSO:

INGENIERIA DEL SOFTWARE II

Chimbote 09 junio de 2009

Ing. Ricardo Mendoza Rivera

Practicas Pre-I

1

UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA

Ing. Ricardo Mendoza Rivera

Practicas Pre-I

2

UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA

DEDICATORIA
A nuestros queridos padres que con su esfuerzo y dedicación han logrado hacer posible el desarrollo de este proyecto.

Al orientador del presente curso, por habernos dado las pautas necesarias y básicas para poder guiarnos y así tener la satisfacción de conocer un poco mas sobre el tema.

A nuestros compañeros por la dedicación merecida del curso y así tener la satisfacción de haber sobrellevado una competencia limpia que ayudo a la mejora de nuestros conocimientos.

A nuestra Alma Mater por brindarnos sus aulas donde a diario adquirimos los conocimientos esenciales para nuestra carrera y así mismo la formación necesaria para el camino de la vida.

“Cogito Ergo Sum”

Ing. Ricardo Mendoza Rivera

Practicas Pre-I

3

Agradecemos a nuestros padres por apoyarnos en cada momento de nuestra vida frente a las decisiones que tomamos.UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA AGRADECIMIENTO Agradecemos a Dios por darnos la oportunidad de poder emprender un viaje a través de las valiosas aulas de la universidad privada san pedro donde día a día los docentes encargados nos llenan de conocimientos que posteriormente nos servirán como armas ante cualquier problemática que se nos presente en la vida. Ricardo Mendoza Rivera Practicas Pre-I 4 . Agradecemos también su comprensión y el esfuerzo que hacen por nosotros Ing.

.2 Dedicatoria……………………………………………………………………………………….1 Contra carátula………………………………………………………………………………….………………………………..……………23 Ing.5 Índice De Tablas………………………………………………..4 Índice General………………………………………………….UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA INDICE Carátula…………………………………………………………………………………………….…………17 INTEGRANTES…………………………………….…………. …………………. Ricardo Mendoza Rivera Practicas Pre-I 5 .21 Pictograma…………………………………….……………………………………………..18 LOGOTIPO DE LA ORGANIZACIÓN…………………………………….…………...……………………………….12 Introducción………………………………………………………………………………………14 CAPITULO I: GENERALIDADES……………………………………………………….……………………………………………………22 CAPITULO II: MARCO TEORICO…………………………………………………….20 Organigrama…………………………………….20 Misión…………………………………………………………………………………….……………………………………………….…………15 Descripción……………………………………………………………………………..18 Reseña Histórica…………………………………………………………………….………………..3 Agradecimiento………………………………………………..………………………………9 Resumen……………………………………………………………………………………………10 Abstract………………………………………………………………………..9 Índice De Figuras……………………………………………….………………………………...19 Visión………………………………………………………………………………………………….

.………. Data Mart y Olap 2..………..……….3.2.48 Ing.2.………..……………….……….2..24 2..……….…………………….……………….2.………. Ricardo Mendoza Rivera Practicas Pre-I 6 .……….3 Descripción de partes……….……….1 Contexto de Minería De Datos……….……….………….……….3 Pasaje……….3.31 2.1 Modelo De Referencia……….4 Concepto Sobre Minería De Datos……………………………………………. Metodología Crisp.………..1 Data Warehouse………………………………………………………….42 3.……….UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA 2..1 Antecedentes…………………………………………………………………………….44 3.1 Interrupción Jerárquica……….2 Objetivo……….………..……………….42 3.……….39 CAPITULO III: DESCRIPCION DE LA METODOLOGIA………………………………….……….………24 2.44 3.3.……….…………………..……………43 3.45 3. Transformación Y Carga……….……….DM……….……….……….……….1 Migración De Datos: Extracción.……….39 2.…………….43 3.………..………..2.……….2.3 Almacenamiento Olap………………………………………………………….……….………..4 Comprensión del negocio…………….……….2 Conceptos sobre Data Warehouse.1 Data Mining……………………………………………………………………………..1 Contenido……….……….1.……….2 Pasaje de contextos……….………………..………30 2.……….36 2.………….………..45 3.……….45 3.………..4..……….2 Data Mart…………………………………………………………………….…………………43 3....……….……….……….3 Conceptualización sobre transformación y carga de datos………………….2 Modelo Genéricos a Especializados……….………………….41 3.……….36 2.

54 3.2 Describir los datos……….…………………….……………………….56 3.3 Explorar los datos……….6.1 Selección de la técnica de modelado………………………56 3.57 Ing.2 Generación de la prueba de diseño………………………..……….……….……….1 Selección de datos……….49 3.……….……….56 3..2 Limpieza de datos……….……….………………………..5 Comprensión de datos……….55 3..6.……….6.……….……….UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA 3.5.……….……….……….5.……….……….……….. Ricardo Mendoza Rivera Practicas Pre-I 7 .54 3.2 Evaluación de la situación……….3 Construcción del modelo……….……….3 Construir datos……….3 Determinación de objetos de minería de datos………50 3.………..51 3.……….……….1 Recolección de datos iniciales.…………….……….……….8 Evaluación……….………………….……….……………………….……….……….5.……….……….54 3.…………….……….……….……….……….……….……….….6 Preparación de datos……….57 3.6.4.……………………….53 3...5 Formatear Datos…….……….……….52 3.7.7.52 3.1 Determinación del objetivo de negocio……………………49 3.……………………….7 Modelado……….4 Producir el plan del proyecto……….4.6.……….……………….………………………….……………………….7.4 Evaluación del modelo……….4 Verificar la calidad de datos…………………………………….7.4.51 3.…………………….……….……….4.……….………………….………………………..……………………55 3.52 3.……….………..54 3.52 3.5.4 Integrar Datos……….

1 Contexto……………………………………………………………………………….2 Evaluación de la situación………………………………………………………….………………59 3.2 Plan De Supervisión y mantenimiento………………59 3.……………70 Ing.1.4 Terminología………………………………………………………….……….60 3.2.69 4.…………….3.58 3.2.1 Objetivos de la minería de datos…………………………….……………70 4.3 Determinación de los objetivos de la minería de datos….1 Desarrollo Del Plan……….9 Desarrollo……….9.62 4.…………….……………….UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA 3...……….……………….9.……………70 4.……….8.4 Revisión del Producto……….8.1.58 3.……….……….62 4.3 Determinación de próximos pasos……………………58 3.……….2.8.5 Costos Y Beneficios………………………………………………. Ricardo Mendoza Rivera Practicas Pre-I 8 ..1.69 4.……….59 3.……………….2.……….3 Información del producto……….3 Riesgos y contingencias……………………………………………………….67 4.3 Criterios de éxito de negocio………………………………….2 Requerimientos..……….2 Proceso de revisión……….60 CAPITULO IV: APLICACIÓN DE LA METODOLOGIA……………………………61 4.2. presunciones y restricciones…………………….1 Determinar los objetivos del negocio………………………………………….1 Evaluación de los resultados………..68 4.9.2 Objetivos de negocio…………………………………………………………….66 4.1 Inventario de recursos…………………………………………………………68 4.……………70 4.9.………….……….……….……….

Dimensiones y Jerarquías......41 INDICE FIGURAS Figura 1.. .2 Fases del Modelo……….1. Esquema Estrella.. …………………………………………….3.3 Pictograma EGB………………………………………………………………… 22 Figura 2.72 4.………………………………………………………53 Figura 3.………………71 4. Desarrollo………………..…………………………………………………. …59 Figura 4.…………….. 21 Figura 1. Esquema Copo de Nieve…………………………………………………… 28 Figura 2.4. 38 Figura 3. Producir el plan proyecto……………………………………………….2.1 Plan Del Proyecto……………………………………………………………….Evaluación………………. .8 ..………………………………………………….3.9.……………………………………….. 34 Figura 2. 46 Figura 3.1.…………. 27 Figura 2.……………………………………………………... 4..……………………………………………………………………. 57 Figura 3.72 Ing. 43 Figura 3. Cubo Multidimensional…………………………………………………….6 Preparación de datos .………………………………………… 48 Figura 3..1 Plan del proyecto…………………………………………………………………72 4.2 Criterio de éxito de la minería de datos…………………. …… .51 Figura 3..5. …………………………………………………………….4. Modelado………………….Comprensión del negocio…. Comprensión de datos .…………………………………………………. Ejemplos de Transformación……………………………………………..2 Evaluación inicial de herramientas y técnicas……………………... .55 Figura 3..4.3 Fases Genéricas………… . 33 Figura 2.UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA 4..…………………………………………………..…………………………………………………. Niveles de interrupción .. . .7.73 INDICE TABLAS Tabla 3.5.1 Logotipo EGB.48 Figura 3..18 Figura 1....2 Organigrama EGB……………………………………………………………….……………………………………………………………………………………………. Ricardo Mendoza Rivera Practicas Pre-I 9 .. 4..1.

ya que estos pedidos se hacen en relación a ventas realizados en el mes anterior. Jefa de ventas. En dicho sistema intervienen: Jefa De Farmacia. La venta también se realiza por licitación. virus estacionarios. Secretaria De Farmacia pero en este caso solo la jefa de farmacia y la jefa de ventas serán quienes interactúen con el sistema Basados en nuestras investigaciones a fondo y entrevistas con los diferentes actores que intervienen en este Sistema establecemos las relaciones de dicha manera:  Las compras son solicitadas por la jefatura de ventas quien envía un documento hacia la jefatura de ventas para su aprobación.UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA RESUMEN El presente informe consta de a elaboración de sistema para evitar el desabastecimiento de la farmacia del Hospital Eleazar Guzmán Barron utilizando minería de datos. la idea es crear un software para simular agentes extraños como el clima. los pedidos son enviados al MINSA (ministerio de salud) quien junta los pedidos que llegan de todo el país y las compras totales se dan en licitación.  El documento se envía a la jefa de farmacia quien revisa el pedido para su aprobación. Este es el ciclo de compras. o Local: En caso de emergencia se realiza a algún agente vendedor que tenga el Hospital. Con este software seria posible evitar el desabastecimiento ya que estaríamos preparados para mayores ventas. envían su pedido a Huaraz quien junta el pedido. Ricardo Mendoza Rivera Practicas Pre-I 10 .  La secretaria acepta el documento recepcionando el cargo. Encargado del kárdex .  La compra se realiza de 3 maneras: o Nacional: Se realiza una vez al año en el mes de junio. o Regional: Realizada cuando por alguna razón necesitan medicamentos para reserva. Ing.

Ricardo Mendoza Rivera Practicas Pre-I 11 .UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA Habiendo detallado todo nuestro Sistema procedemos a elaborar nuestros procesos a seguir para así obtener un buen Sistema Informático que brindar al Hospital Regional Eleazar Guzmán Barron Ing.

o Local: In the event of emergency he/she is carried out to some agent salesperson that has the Hospital.UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA ABSTRACT The formless present consists of to system elaboration to avoid the desabastecimiento of the pharmacy of the Hospital Eleazar Guzmán Barron using mining of data. The sale is also carried out for bid. With this serious software possible to avoid the desabastecimiento since we would be prepared for further sales. the idea it is to create a software to simulate strange agents as the climate. In this system they intervene: Boss Of Pharmacy. Boss of sales. Ing. o Regional: Carried out when for some reason they need medications for reservation. Taken charge of the kardex. Ricardo Mendoza Rivera Practicas Pre-I 12 . they send their order to Huaraz who joins the order.    The secretary accepts the document recepcionando the position. the orders are correspondents to the MINSA (ministry of health) who it joins the orders that they arrive of the whole country and the total purchases are given in bid. This is the cycle of purchases. Secretary Of Pharmacy but in this alone case the pharmacy boss and the boss of sales will be who interactúen with the system Thoroughly based on our investigations and you interview with the different actors that intervene in this System we establish the relationships in a this way:  The purchases are requested by the headquarters of sales who sends a document toward the headquarters of sales for their approval. The purchase is carried out in 3 ways: o National: He/she is carried out once a year in the month of June. stationary virus. The document is sent the pharmacy boss who revises the order for its approval. since these orders are made in relation to sales carried out in the previous month.

Ricardo Mendoza Rivera Practicas Pre-I 13 .UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA Having detailed all our System we proceed to elaborate our processes to continue he/she stops this way to obtain a good Computer System that to offer to the Regional Hospital Eleazar Guzmán Barron Ing.

en esa montaña de datos existe información que no puede ser encontrada con los procedimientos habituales de trabajo. proponemos construir un sistema dinámico y de acceso restringido en donde se pueda elaborar los principales registros estableciendo así una base de datos que constantemente se va actualizar ante la entrada o salida de datos Ing. lo solemos hacer con la intención de analizarlos posteriormente. El propósito de este proyecto es lograr establecer los puntos más importantes y los actores principales que participan. o de nuestros clientes. La minería de datos nos ayuda a dar un paso más en ese análisis sacando a la luz relaciones ocultas entre los datos: información desconocida que pueda ayudarnos a gestionar mejor nuestro negocio o proceso. por lo que nuestras bases de datos (en el sentido más amplio del término) crecen hasta límites insospechados. cuando llega el momento. o de nuestros sistemas de venta. establecer medias y varianzas e intentar modelar de esta forma nuestra información. y lo que ahora es normal encontrar “de serie” en un ordenador personal. quedará anticuado dentro de unos meses.UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA INTRODUCCION Hoy en día. y está claro que se trata de una tendencia válida para los próximos años. Cuando decidimos iniciar ese proceso de almacenamiento de datos. Sin embargo. etc. Lo normal es utilizar algún paquete estadístico (una hoja de cálculo en el caso más simple) para localizar correlaciones entre variables. Ricardo Mendoza Rivera Practicas Pre-I 14 . el almacenamiento de la información es algo sencillo y barato. Nuestros sistemas informáticos cada vez tienen una capacidad mayor. el análisis que se realiza suele ser bastante superficial y guiado por los resultados que esperamos encontrar al analizarlos. Este incremento de los sistemas de almacenamiento tiene un efecto que es realmente interesante: es poco costoso guardar datos del funcionamiento de nuestros procesos. Sin embargo..

Ricardo Mendoza Rivera Practicas Pre-I 15 .UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA CAPITULO I GENERALIDADES Ing.

UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA SISTEMA PARA EVITAR EL DESABASTECIMIENTO DEL AREA DE FARMACIA APLICANDO MINERIA DE DATOS Ing. Ricardo Mendoza Rivera Practicas Pre-I 16 .

Ing. LA TAREA DEL SISTEMA ES CAPTAR LOS DATOS QUE CONTIENE ALMACENADOS EN SU BASE DE DATOS PARA GENERAR ALTERNATIVAS DE SOLUCION EN ESTE CASO ANTE EL DESABASTECIMIENTO. Ricardo Mendoza Rivera Practicas Pre-I 17 .UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA DESCRIPCION: EL SIGUIENTE PROYECTO PRESENTADO FUE ELABORADO CON LA INTENCION DE EVITAR QUE LA FARMACIA DEL HOSPITAL SE VEA DESABASTECIDA. EL ALGORITMO NOS SERVIRA COMO HERRAMIENTA PARA PERMITIRNOS LA TOMA DE DECISIÓNES PARA BENEFICIO DEL HOSPITAL YA QUE CON ESTO SE GENERARA MAS INGRESO SIENDO FARMACIA QUIEN MAYOR INGRESO LE PROPORCIONA AL DETERMINADO HOSPITAL. ADEMAS PERMITIRA QUE LOS PACIENTES SE SIENTAN MAS SATISFECHOS CADA VEZ QUE SE ATIENDAN EN EL HOSPITAL Y QUE TENGAN QUE COMPRAR MEDICAMENTOS EN LA FARMACIA DE ESTE.

1 Logotipo EGB Ing.1 INTEGRANTES DIRECCION EJECUTIVA FERNANDEZ NEYRA CARLOS ENRIQUE DESIGNADO Director Ejecutivo CUENTAS BARRENECHEA WASHINGTON 1.2 LOGOTIPO DE LA ORGANIZACIÓN Figura 1.UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA 1. Ricardo Mendoza Rivera Practicas Pre-I 18 .

se crea el primer Centro de adolescentes de la Región Ancash .3 RESEÑA HISTORICA Posterior al terremoto de 1970. se establece el ámbito de influencia para las provincias de Santa. e introducción del SIAF.UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA 1. El edificio comprende un bloque central de cinco pisos con los departamentos médicos. En 1975 en conformidad con Decreto Ley No 19967. asimismo hospital docente de Medicina Humana. Se inauguró el 10 de Octubre de 1981 por el Presidente Fernando Belaunde Terry. En el 2004 se replantea la clínica se elaboran proyectos de equipamiento del hospital cercano a dos millones de soles. Área de Mantenimiento y un edificio de para residencia. El 2001 se inaugura la Unidad de cuidados Intensivos Neonatales. En 1998 el Hospital Regional EGB es calificado como Hospital Docente de Capacitación Materno Infantil y por el Ministerio de Salud y ESAN. la Clínica Regional y la Informatización de los Sistemas Administrativos. fue controlada en 1995. durante el Fenómeno del Niño se realizo el primer estudio de investigación viral por el síndrome febril convulsivo en colaboración con OPS. en el primer piso se encuentra la Dirección y las Áreas Administrativas y dos bloques laterales Módulos de tres pisos para residencia. centro Quirúrgico y Centro Obstétrico. INS y OGE. En el 2000 se culmina la Informatización con Intranet e Internet en los servicios. año en que es calificado como Hospital Amigo de la Madre y del Niño por la UNICEF. el Ministerio de Salud en 1974 solicita a CRYRSA la adjudicación de un terreno para la construcción de un nuevo hospital al sur de Chimbote. En 1996 se inaugura el primer modulo de Atención Integral del Niño del país. Ricardo Mendoza Rivera Practicas Pre-I 19 . En 1999 se reapertura la Unidad de Cuidados Intensivos. El mismo año se inaugura la unidad de Shock Trauma. la construcción se hizo con financiamiento de la cooperación del Gobierno Alemán. Ing. para servir a una población estimada de quinientos mil habitantes. En el 2003 se instala la marcación de la tarjeta magnética y digital. en la se destruyo gran parte de Chimbote. Casma y Huarmey. En 1991 sirvió como Unidad de Tratamiento del Cólera en la septima pandemia teniendo como estigma a Chimbote “La capital del Colera”. control de Aedes en Casma. 2002 se reinaugura la Unidad de Shock Trauma por la colaboración del Gobierno Israeli.

competente y docente de categoría III-1. con personal calificado. recuperar del daño y rehabilitar las capacidades.UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA 1. para mejorar la calidad de vida de la persona. 1. con trabajadores capaces y mística de servicio para las personas desde la preconcepción hasta su muerte.4 VISION Al año 2011 ser un hospital modelo. eficiente y de calidad de atención integral de la salud con equidad. respeto a la diversidad cultural y equidad de genero. calidez. articulando esfuerzos con la sociedad organizada para promover la salud. prevenir los riesgos. Ricardo Mendoza Rivera Practicas Pre-I 20 .5 MISION Somos una institución que brindamos atención de salud integral. familia y comunidad. facilitando el acceso y la participación ciudadana para el autocuidado de la salud y el desarrollo de estilos de vida saludable que favorezcan el desarrollo integral y sostenible de la Ciudadanía mediante la planificación estratégica y tecnología de punta para la satisfacción del usuario. especializado y comprometido que brinda respuestas efectivas. con el enfoque de salud como derecho. líder en la región. Ing.

Ricardo Mendoza Rivera Practicas Pre-I 21 .6 ORGANIGRAMA Figura 1.2 Organigrama EGB Ing.UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA 1.

Ricardo Mendoza Rivera Practicas Pre-I 22 .UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA 1.3 Pictograma EGB Ing.7 PICTOGRAMA Figura 1.

UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA CAPÍTULO II MARCO TEÓRICO Ing. Ricardo Mendoza Rivera Practicas Pre-I 23 .

Un Data Warehouse es un repositorio central o colección de datos en la cual se encuentra integrada la información de la organización y que se usa como soporte para el proceso de toma de decisiones gerenciales.2. Asimismo. Las principales características que posee un Data Warehouse son: Ing.1 ANTECEDENTES. que han servido para la elaboración del presente trabajo y aparecen consignados en el marco conceptual. no se han encontrado investigaciones que hayan abordado estos temas aplicados a la problemática planteada. 2. diseñar y construir los llamados DataWarehouses para almacenar estos datos. y que si se hacen sobre los sistemas operacionales reducen mucho la performance de las transacciones que se están haciendo al mismo tiempo. en el Hospital Regional Eleazar Guzmán Barron. Sin embargo. Datamining y Toma de Decisiones en el ámbito del Consumo de Medicamentos y. DATAMART Y OLAP. Para cumplir estos objetivos se necesitan efectuar consultas que sumarizan los datos. se ha encontrado algunas conceptualizaciones sobre la investigación. cabe indicar que hasta el presente no se han desarrollado trabajos sobre Data Mart.2 CONCEPTOS SOBRE DATAWAREHOUSE. El concepto de Data Warehouse comenzó a surgir cuando las organizaciones tuvieron la necesidad de usar los datos que cargaban a través de sus sistemas operacionales para planeamiento y toma de decisiones. Como fruto de la búsqueda realizada por el autor. con relación a las variables del tema. Ricardo Mendoza Rivera Practicas Pre-I 24 . 2. específicamente.1 DATAWAREHOUSE.UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA 2. con lo cual consideramos que la presente investigación reúne las condiciones metodológicas suficientes para ser considerada inédita. Fue entonces que se decidió separar los datos usados para reportes y toma de decisiones de los sistemas operacionales y así.

Estos datos en lo posible deben precalcularse y almacenarse de antemano para que esta recuperación sea rápida y eficiente. como gestión de pedidos. y no para soportar los procesos que se realizan en ella. Esta integración se hace estableciendo una consistencia en las convenciones para nombrar los datos. Ing. facturación. y en las medidas uniformes de los datos. . La información almacenada representa fotografías correspondientes a ciertos períodos de tiempo. • Es no volátil: la información no se modifica después de que se inserta. es decir.Preparar el Data Warehouse para soportar la recuperación de una gran cantidad de filas de datos en forma rápida. etc.La mayoría de los analistas de negocios van a querer ver datos totalizados. De acuerdo a [PATRICIA ZVENGER]. solo se incrementa.UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA • Es orientado a la información relevante de la organización: En un Data Warehouse la información se clasifica en base a los aspectos de interés para la empresa. compras y producción. [PATRICIA ZVENGER] Arquitectura Data Warehouse Podemos dividirla en dos tipos: • Diseño Lógico. se diseña para consultar eficientemente información relativa a las actividades básicas de la organización. El periodo cubierto por un Data Warehouse varía de 2 a 10 años. • Es variable en el tiempo: los datos son relativos a un periodo de tiempo y deben ser incrementados periódicamente. Ricardo Mendoza Rivera Practicas Pre-I 25 . como ventas. en la definición de las claves. • Es integrado: integra datos recogidos de diferentes sistemas operacionales de la organización y/o fuentes externas. . existen algunos requerimientos que debe cubrir un diseño lógico para un Data Warehouse. Es importante además discutir el nivel de granularidad y de detalle esperado por los analistas cuando hacen operaciones de DRILLDOWN.

Región y Fecha. y cuáles los más urgentes. Las tablas de hechos representan un evento crítico y cuantificable en el negocio. [PATRICIA ZVENGER] Las dos técnicas de diseño más populares de almacenamiento lógico de un DataWarehouses son las siguientes: Esquema Estrella. es decir. otra para Ventas por Productos. . no solo por lo mencionado en la sección anterior. .El diseño debe estar conducido por el acceso y por el uso. productos o períodos de tiempo. En general las tablas de hechos tienen muchas filas y relativamente pocas columnas.Todos los datos que se incluyan ya deben existir en las fuentes de datos operacionales. que está conectada a varias Tablas de Dimensiones. y podría volverse demasiado complejo. Pueden existir varias tablas de hechos con información redundante. Esto significa que Ing. Las tablas de dimensión representan las diferentes perspectivas desde donde se ven y analizan los hechos de la tabla de hechos. Región y Fecha. como ventas o costos. Sucursal y Fecha. teniendo en cuenta qué tipo de reportes o resúmenes son los más frecuentes. Su clave está compuesta por las claves primarias de las tablas de dimensión relacionadas (las FOREIGN KEYS). tales como clientes. Este esquema está formado por un elemento central que consiste en una tabla llamada la Tabla de Hechos. Las tablas de hechos contienen los valores precalculados que surgen de totalizar valores operacionales atómicos según las distintas dimensiones. su clave primaria está formada por un solo atributo. o ser derivables a partir de ellos. y otra para Ventas por Cliente. A diferencia de las anteriores. porque podrían contener distintos niveles de agregación de los mismos datos. Por ejemplo podría existir una tabla de hechos para las Ventas por Sucursal. Ricardo Mendoza Rivera Practicas Pre-I 26 .Un diseño normalizado no es bueno. sino porque no resulta demasiado intuitivo para una persona de negocios.UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA . y su característica principal es que están denormalizadas.

y por su simplicidad en comparación con una base de datos normalizada. sucursales. las columnas que la definen se almacenan en la misma tabla dando lugar a valores redundantes. regiones. Es una variante del esquema estrella en el cual las tablas de dimensión están normalizadas. Siempre que sea posible. representantes de ventas. Ricardo Mendoza Rivera Practicas Pre-I 27 . [PATRICIA ZVENGER] Figura 2. periodos fiscales. es conveniente compartir las tablas de dimensión entre distintas tablas de hechos. En la siguiente figura vemos un ejemplo de esquema Estrella. Una de las dimensiones mas comunes es la que representa el tiempo. y el resto son las tablas de dimensiones. Otras dimensiones comunes son las de clientes. Esquema Copo de Nieve. y periodos contables. El esquema estrella es el más usado porque maneja bien la performance de consultas y reportes que incluyen años de datos históricos.UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA si la dimensión incluye una jerarquía. cuatrimestres. En general suelen tener muchas columnas pero pocas filas. es decir. lo cual es aceptable en este esquema. donde la tabla de hechos es la tabla Ventas. Ing.1. con atributos que describen periodos para años. pueden incluir claves que apuntan a otras tablas de dimensión. productos. Esquema Estrella.

y esta a su vez tiene una columna RegionId que apunta a la tabla de dimensión Región. donde la tabla de dimensión Sucursal se expande en las tablas Distrito y Región. el tamaño del buffer. Sin embargo. Todas estas cuestiones afectarán la performance del DataWarehouse.UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA Las ventajas de esta normalización son la reducción del tamaño y redundancia en las tablas de dimensión. el incremento en la cantidad de tablas hace que se necesiten más operaciones de unión para responder a las consultas. el tamaño del bloque. lo que empeora la performance. Ahora la tabla Sucursal contiene una columna clave DistritoId que apunta a la tabla Distrito. Ricardo Mendoza Rivera Practicas Pre-I 28 .2. Esquema Copo de Nieve • Diseño Físico. y si se usa o no una técnica de compactación de la base de datos. Algunos temas que impactan sobre el rendimiento del Datawarehouse son: Ing. y un aumento de flexibilidad en la definición de dimensiones. En la siguiente figura vemos un esquema similar al anterior. además del mantenimiento que requieren las tablas adicionales. Entre las decisiones de implementación que se deben tomar se incluyen el tamaño del espacio libre. [PATRICIA ZVENGER] Figura 2.

Las columnas que se elijan para indexar deben ser las que se usan más frecuentemente para recuperar las filas. [PATRICIA ZVENGER] .UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA . donde las tablas de hechos ocupan varios cientos de gigabytes. Ricardo Mendoza Rivera Practicas Pre-I 29 . y esta fragmentación puede resultar en un decaimiento de la performance. Es una técnica útil. [PATRICIA ZVENGER] . para el acceso secuencial de grandes cantidades de datos. y las que tienen una alta distribución de valores. permite guardar información mas frecuentemente accedidos.Indexado.Reorganizaciones. La mayoría de las DBMSs proveen varios algoritmos. Existen dos estrategias extremas de indexado: una es indexar todo.Particionamiento. Esta técnica mejora drásticamente el acceso secuencial. esté en varios datos físicos. Las cargas incrementales de las bases de datos irán fragmentando las tablas. El particionamiento es importante. pues permite realizar respaldos de porciones de una tabla. Ing. [PATRICIA ZVENGER] . archivo Invertido. Por otro lado. Se debería optar por el más óptimo para el producto DBMSs que se está usando. y es la técnica mas usada para procesamiento OLAP. entre ellos B-tree. El particionamiento permite que los datos de una tabla lógica. La mayoría de las DBMSs proveen rutinas de reorganización para reclamar el espacio fragmentado y mover registros. Se obtiene definiendo un índice de clustering para una tabla. no una baja como por ejemplo Código Postal. sin impactar en su accesibilidad. Cuando las filas de la tabla no permanezcan almacenadas en el orden correspondiente a su índice clustering. y la otra es no indexar nada. pero ninguna de las dos es conveniente. hay que determinar la estrategia de índice. situación conocida como fragmentación. en dispositivos más rápidos. Una vez que se determinan las columnas a indexar. Sparse y Binario. la performance bajará y habrá que reorganizar la tabla.Clustering. Generalmente cuando se hablan de base de datos enormes. Hash. el cual determina el orden secuencial físico en el que se almacenan las filas en los conjuntos de datos.

Estas tareas no son triviales en un Data Warehouse. además de que esta tarea puede llevar mucho tiempo porque hay que reejecutar los programas de extracción. Para mejorar la performance de una consulta es mejor dividirla en componentes que ejecuten concurrentemente.2. Sin embargo. Estas versiones se crean usando algún criterio particular. rebloquear las filas y recargarlas. [PATRICIA ZVENGER] 2. dividen la consulta por si solos. Los DBMSs proveen utilidades para hacer backups completos y también incrementales. Ing. En el ejemplo anterior los datos de los clientes que residen en Chile se deben almacenar en el datamart de la sucursal en ese país. Asia y África. Algunos DBMSs ofrecen ejecución paralela en forma transparente.[PATRICIA ZVENGER] . Por ejemplo.UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA Las actividades básicas involucradas en la reorganización de una base de datos implican copiar la base de datos vieja en otro dispositivo. es decir. transformación y carga. Muchas organizaciones tienen la errónea impresión de que los DataWarehouses siempre se pueden recrear a partir de las fuentes de datos originales.Ejecución de las consultas en paralelo.2 DATAMART. Ricardo Mendoza Rivera Practicas Pre-I 30 . es posible que estos programas y los datos mismos ya no estén disponibles. La existencia de los datamarts crea nuevas formas de pensar cuando se diseñan los repositorios corporativos de datos. pero todos los DBMSs permiten reorganizar particiones. Este problema se soluciona creando versiones más pequeñas del Data Warehouse. como por ejemplo el lugar geográfico. los datamarts.Backup y Recupero. [PATRICIA ZVENGER] . lo cual es otra buena razón para particionar las tablas. Vemos compañías que surgieron en Estados Unidos y se expandieron a Europa. Las corporaciones de hoy se esfuerzan por conducir sus negocios hacia una base internacional. un ejecutivo de ventas de una compañía con origen en Brasil que está situado en Chile puede necesitar acceso a la base de datos de la empresa para identificar los clientes potenciales que residen solo en Chile. La expansión del negocio crea la necesidad de acceder a datos corporativos que están ubicados en diferentes puntos geográficos.

áreas geográficas. permite a los analistas de negocios examinar sus indicadores clave o medidas. como periodos de tiempo. Mueven datos desde el DataWarehouses hacia varios datamarts con el fin de permitir un análisis más eficiente. como ventas por día. periodos de tiempo.2. Luego los datos de todos los datamarts se replican en un DataWarehouse corporativo central. La separación de los datos se determina según criterios como departamentos. desde distintas perspectivas. OLAP se define como el análisis multidimensional e interactivo de la información de negocios a escala empresarial. algunas organizaciones usan sus datamarts como el primer paso de almacenamiento de datos operacionales.UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA Algunas corporaciones reemplazan completamente el concepto de tener un DataWarehouse central. regiones. Otras compañías usan datamarts para complementar sus DataWarehouses. Ricardo Mendoza Rivera Practicas Pre-I 31 . 2. como ventas. Finalmente. por semana o por cuatrimestre. [PATRICIA ZVENGER] El análisis multidimensional. [PATRICIA ZVENGER]. [PATRICIA ZVENGER] Los usuarios de herramientas OLAP se mueven desde una perspectiva de negocio a otra. y ganancias. Es esta exploración interactiva lo que distingue a OLAP de las herramientas simples de consulta y reportes. costos. Estas perspectivas constituyen las dimensiones desde las que se explora la información. y además con la posibilidad de elegir entre diferentes niveles de detalle. Ing. productos. etc. El análisis multidimensional consiste en combinar distintas áreas de la organización. por ejemplo. y así ubicar ciertos tipos de información que revelen el comportamiento del negocio. por varios datamarts más pequeños que se alimenten directamente de los sistemas operacionales.3 Almacenamiento OLAP. pueden estar observando las ventas anuales por sucursal y pasar a ver las sucursales con más ganancias en los últimos tres meses.

UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA La escala empresarial. [PATRICIA ZVENGER] CUBOS MULTIDIMENSIONALES En una base de datos multidimensional. facilita y agiliza la consulta de información histórica ofreciendo la posibilidad de navegar y analizar los datos. • Un mecanismo de almacenamiento para guardar los datos que se van a analizar. • Un motor OLAP que procesa las consultas multidimensionales sobre los datos. Para proveer estas características. se refiere a que OLAP trabaja con fuentes de datos corporativos. Ricardo Mendoza Rivera Practicas Pre-I 32 . En un cubo la información se representa por medio de matrices multidimensionales o cuadros de múltiples entradas. sino que también es flexible en la definición de los reportes y aplicaciones que se construyen a partir de ella. La herramienta no solo permite flexibilidad en cuanto a la navegación por el modelo multidimensional de la información. toda herramienta OLAP tiene tres principales características: • Un modelo multidimensional de la información para el análisis interactivo. Este componente puede ser externo a la herramienta. el modelo de datos esta constituido por lo que se denomina un Cubo multidimensional o simplemente Cubo. Aquí vemos como ejemplo un cubo multidimensional que contiene información de ventas discriminadas por periodos de tiempo. que nos permite realizar distintas combinaciones de sus elementos para visualizar los resultados desde distintas perspectivas y variando los niveles de detalle. como un RDBMS o un Data Warehouse. Ing. productos y zonas geográficas de la empresa. Esta estructura es independiente del sistema transaccional de la organización. que contienen datos de toda la empresa.

Cuál. Las definiciones de las dimensiones se basan en políticas de la compañía o del mercado.3. Ricardo Mendoza Rivera Practicas Pre-I 33 . cantidad de unidades de producto vendidas. [PATRICIA ZVENGER] Ing. el consumo de combustible de un vehículo.UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA Figura 2. Para determinar las dimensiones requeridas para analizar los datos podemos hacer preguntas como: Cuándo. las ventas en dólares. son las Medidas. horas trabajadas. etc. Dónde. [PATRICIA ZVENGER] MEDIDAS O METRICAS Son características cualitativas o cuantitativas de los objetos que se desean analizar en las empresas. el promedio de piezas producidas. Cubo Multidimensional Los ejes del cubo son las Dimensiones. Quién. Qué. Por ejemplo. etc. Las medidas cuantitativas están dadas por valores o cifras porcentuales. e indican la manera en que la organización interpreta o clasifica su información para segmentar el análisis en sectores. cantidad de unidades en stock. y los valores que se presentan en la matriz. [PATRICIA ZVENGER] DIMENSIONES Son objetos del negocio con los cuales se puede analizar la tendencia y el comportamiento del mismo. facilitando la observación de los datos. el porcentaje de aceptación de un producto.

UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA

JERARQUIAS DE DIMENSIONES Y NIVELES Generalmente las dimensiones se estructuran en jerarquías, y en cada jerarquía existen uno o mas niveles, los llamados Niveles de Agregación o simplemente Niveles. Toda dimensión tiene por lo menos una jerarquía con un único nivel. En la figura vemos un ejemplo de una dimensión de vendedores, que consiste de una única jerarquía, y tres niveles de agregación para agruparlos por ciudades y por regiones.

Figura 2.4. Dimensiones y Jerarquías.
En el grafico anterior, los niveles de Zonas y Gerencia no están relacionados entre si, a pesar de que ambos están relacionados con las Áreas. [PATRICIA ZVENGER] 2.2.4 ESTRATEGIAS DE ALMACENAMIENTO. (ROLAP, MOLAP, HOLAP) Las bases de datos relacionales están optimizadas para obtener una performance óptima en consultas simples y frecuentes, pero no funcionan de manera ideal para las consultas multidimensionales y complejas de estas aplicaciones, ya que existen muchas de ellas que no se pueden expresar en una única consulta SQL, y seguramente se requerirán muchas operaciones de JOIN, lo cual reduce drásticamente el tiempo de respuesta de la consulta. Para cubrir estas deficiencias surgieron tres estrategias de almacenamiento:

Ing. Ricardo Mendoza Rivera

Practicas Pre-I

34

UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA

• Bases de datos multidimensionales especializadas, que proveen almacenamiento y recupero de datos optimizado para consultas OLAP. • DataWarehouses, construidos sobre una tecnología relacional, pero la optimización se dirige al soporte de decisiones en lugar de a las operaciones transaccionales. • Una tercera estrategia que consiste en la combinación de las dos anteriores. Las herramientas OLAP que usan almacenamiento multidimensional son llamadas MOLAP, mientras que a las que almacenan los datos en bases relacionales se les llama herramientas ROLAP. Las herramientas que combinan los dos enfoques se conocen como OLAP Híbrido u HOLAP. Cada alternativa tiene sus ventajas y desventajas. En lugar de discutir cual de las dos es mejor hay que definir un criterio para optar por una u otra, y evaluar el alcance de HOLAP, que en la práctica intenta combinar lo mejor de ambos mundos. Algunas de las ventajas más importantes de cada enfoque son: MOLAP • Buena performance en las consultas, ya que el almacenamiento esta optimizado para el análisis multidimensional. • La escalabilidad está limitada por la capacidad del Motor de Base de Datos y por el tiempo de carga de los datos. • En general el análisis está limitado a los datos totalizados o sumarizados. • El modelo multidimensional no es lo suficientemente flexible como para acomodarse a las necesidades constantemente cambiantes del negocio. • La estructura que guarda los datos está incluida en la herramienta. • Requiere una capa adicional de manejo de datos. • No incluye soporte de paralelismo, replicación ni recuperación de datos. • Puede requerir aprendizaje por ser una tecnología nueva en la organización. [PATRICIA ZVENGER]

Ing. Ricardo Mendoza Rivera

Practicas Pre-I

35

UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA

ROLAP • La performance de las consultas no es tan óptima como en MOLAP. • Es capaz de manejar conjuntos de datos muy grandes, por encima de un terabyte. • Además del análisis de información sumarizada, se pueden analizar datos detallados hasta el nivel de las transacciones. • Es capaz de analizar los datos desde cualquier perspectiva en cualquier momento. • La herramienta ROLAP requiere un DataWarehouse de donde extraer los datos para analizar. • Las cuestiones técnicas del manejo de los datos está a cargo del Motor de Base de Datos. • Incluye soporte para replicación, rollback y recuperación, y para acceso multiusuario. [PATRICIA ZVENGER] 2.3 CONCEPTUALIZACIONES SOBRE TRANSFORMACION Y CARGA DE DATOS. 2.3.1 MIGRACION DE DATOS: EXTRACCION, TRANSFORMACION Y CARGA La migración de los datos desde las fuentes operacionales al DataWarehouse requiere la necesidad de procesos para extraer, transformar y cargar los datos, actividad que se conoce como ETL. La mayoría de los datos de origen son los datos operacionales actuales, aunque parte de ellos pueden ser datos históricos archivados. Si los requerimientos de datos incluyen algunos años de historia es necesario desarrollar tres conjuntos de programas ETL: una Carga Inicial, una Carga Histórica, y una Carga Incremental. Carga Inicial La carga inicial se asemeja mucho al proceso de conversión entre sistemas que se da en las organizaciones cuando pasan, por ejemplo, de sus viejos sistemas operacionales a un producto ERP.

Ing. Ricardo Mendoza Rivera

Practicas Pre-I

36

Diseñar programas ETL para extracciones delta es más fácil cuando las fuentes consisten en bases de datos relacionales y contamos con una columna “timestamp” para determinar los deltas. se modifiquen los tipos de ciertos datos o los formatos de los registros. independientemente de los valores que hayan cambiado desde la última carga realizada. [PATRICIA ZVENGER] Expliquemos ahora. Existen dos formas de diseñar la carga incremental: • Extraer todos los registros: Se extraen todos los registros operacionales. A diferencia de los datos operacionales. semanal o diariamente. que se ejecutará mensual.UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA Carga Histórica Este proceso debe verse como una extensión de la carga inicial. Es común que con el transcurso del tiempo se eliminen elementos de datos que ya no sirven. pero la conversión aquí es un poco diferente porque los datos históricos son datos estáticos. lo que debe contemplar este proceso: Ing. los datos estáticos ya se archivaron en dispositivos de almacenamiento offline. hay que desarrollar otro proceso para la carga incremental. Carga Incremental Una vez que el DataWarehouse está cargado con datos iniciales e históricos. Ricardo Mendoza Rivera Practicas Pre-I 37 . lo que implica que los datos históricos no necesariamente se puedan sincronizar con los datos operacionales. En general esta opción no es viable debido al volumen de los datos. Por lo tanto los programas de conversión escritos para la carga inicial quizá no sean aplicables a la carga de datos históricos sin algunos cambios previos. se agreguen nuevos. • Extraer Deltas solamente: Solo se extraen registros nuevos o registros que contengan valores que cambiaron desde la última carga realizada. por eso la mayoría opta por la siguiente opción.

Ejemplos de Transformación C. así como detectar redundancias y datos y algún otro ruido. el segundo referente a unidades de medida. etc. B. y seria el que completaría el proceso ETL. Figura 2. estandarizar formatos de fecha. Este proceso es el más crítico.5. Transformar Datos. valores inconsistentes. Lógica embebida. y a la integridad referencial. Aquí se tendría que tenercuidado. es el más simple. hay que distinguir un dato que puede estar duplicado en distintas tablas. Que consiste en determinar técnicas. debido a que debe controlar algunos factores: Claves primarias inconsistentes. Cargar Datos. descritos en [PATRICIA ZVENGER] En la figura vemos algunos ejemplos de transformación de datos: El primero referente a sexo. datos con diferentes formatos. Ricardo Mendoza Rivera Practicas Pre-I 38 . Este paso. valores erróneos. Ing. para combinar en el uso de la data de origen. básicamente con los índices. Integración y Derivación. Además. sinónimos y homónimos. el tercero se refiere a estandarizar nombres. y por último. Extraer los Datos.UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA A.

4 CONCEPTOS SOBRE MINERIA DE DATOS. Ing. es una tecnología para ayudar a las compañías a descubrir información relevante en sus bases de información. Ricardo Mendoza Rivera Practicas Pre-I 39 . pero que sólo han sido implementadas recientemente como herramientas maduras y confiables.1 DATA MINING. Los análisis prospectivos automatizados ofrecidos por la automatización del Data Mining van más allá de los eventos pasados provistos por las herramientas usuales de sistemas de soporte de decisión. Data Mining. .UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA 2.Asociación: Es el descubrimiento de relaciones de asociación o correlación en un conjunto de datos. Las técnicas de Data Mining pueden ser implementadas rápidamente en plataformas ya existentes de software y hardware para acrecentar el valor de las fuentes de información existentes y pueden ser integradas con nuevos productos y sistemas.4. Muchas compañías ya colectan y refinan cantidades masivas de datos. . Estas herramientas exploran las bases de datos en busca de patrones ocultos. 2.Clasificación: Analiza un conjunto de datos de entrenamiento cuya clasificación de clase se conoce y construye un modelo de objetos para cada clase. encontrando información predecible que un experto no puede llegar a encontrar. Los algoritmos de Data Mining utilizan técnicas que han existido por lo menos desde hace 10 años.Descripción de clases: Provee una clasificación (caracterización) concisa y resumida de un conjunto de datos y los distingue (discriminación) unos de otros. la extracción de información oculta y predecible de grandes bases de datos. [MAGDALENA SERVENTE] otorga ciertas capacidades a la tecnología de Data Mining: . Puede representarse en árboles de decisión o reglas de clasificación. Las herramientas de Data Mining clasifican y predicen futuras tendencias y comportamientos.

Ing.Análisis de Series a través de Tiempo: Analiza un gran conjunto de datos obtenidos con el correr del tiempo para encontrar en él regularidades y características interesantes.Predicción: Esta función de la minería predice los valores posibles de datos faltantes o la distribución de valores de ciertos atributos en un conjunto de objetos. periódicos. especificadas por los usuarios o por expertos. . . La similitud puede medirse mediante funciones de distancia.UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA . donde un cluster es una colección de datos “similares”.Clustering: Identifica clusters en los datos. Ricardo Mendoza Rivera Practicas Pre-I 40 . modas y desviaciones. La Minería de Datos trata de encontrar clusters de buena calidad que sean escalables a grandes bases de datos y a datawarehouses multidimensionales. incluyendo la búsqueda de patrones secuenciales.

Ricardo Mendoza Rivera Practicas Pre-I 41 .UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA CAPITULO III: Descripción de la metodología Ing.

Estable significa que el modelo debería ser válido para acontecimientos normales y aún para desarrollos imprevistos como técnicas de modelado nuevo.1 Interrupción jerárquica La metodología de CRISP-DM está descrita en términos de un modelo de proceso jerárquico. El tercer nivel. consistente en un conjunto de tareas descritas en cuatro niveles de abstracción (de lo general a lo específico): fase. En la práctica.) En el nivel superior. en el segundo nivel podría haber una tarea genérica llamada limpieza de datos. el proceso de minería de datos es organizado en un número de fases. como la limpieza de valores numéricos contra la limpieza de valores categóricos. tarea especializada. Una instancia de proceso esta organizado según las tareas definidas en los niveles más altos. o si el tipo de problema es agrupamiento o el modelado predictivo. la instancia de proceso. El tercer nivel describe como esta tarea se diferencia en situaciones diferentes. Ing. pero representa lo que en realidad pasó en un contrato particular más bien que lo que pasa en general. Este segundo nivel lo llaman genérico porque esta destinado a ser bastante general para cubrir todas las situaciones posibles de minería de datos. muchas de las tareas pueden ser realizadas en una orden diferente. Completo significa que cubre tanto al proceso entero de minería de datos y todas las aplicaciones de minería de datos posibles. La descripción de fases y tareas como pasos discretos realizados en un orden específico representa una secuencia idealizada de eventos. el nivel de tarea especializado.UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA 3. La metodología CRISP-DM 3. Ricardo Mendoza Rivera Practicas Pre-I 42 . cada fase consiste de varias tareas genéricas de segundo nivel. Por ejemplo. es el lugar para describir como las acciones en las tareas genéricas deberían ser realizadas en ciertas situaciones específicas. y de los resultados de una minería de datos real contratada. (Ver la figura 1. El cuarto nivel. tarea genérica. Las tareas genéricas están destinadas a ser tan completas y estables como sea posible. es un registro de las acciones. e instancia de procesos. Nuestro modelo de proceso no intenta capturar todas estas posibles rutas del proceso de la minería de datos porque esto requeriría un modelo de proceso demasiado complejo. y esto a menudo será necesario volver a hacer tareas anteriores repetidamente y repetir ciertas acciones. decisiones.

Ricardo Mendoza Rivera Practicas Pre-I 43 . Ing.2. distinguimos entre cuatro dimensiones diferentes de contextos de minería de datos:  el dominio de aplicación es el área específica en la que el proyecto de minería de datos toma lugar  los tipos de problemas de minería de datos describen la(s) clase(s) específica(s) de objetivo(s) con el que el proyecto de minería de datos trata (ver también el Apéndice 2)  el aspecto técnico cubre cuestiones específicas en minería de datos que describe diferentes (técnicas) dificultades que por lo general ocurren durante la minería de datos  la herramienta y las especificaciones de dimensión técnica en la que las herramienta(s) de minería de datos y/o técnicas son aplicadas durante el proyecto de minería de datos La Tabla 1 de abajo resume estas dimensiones de contextos de minería de datos y muestra ejemplos específicos para cada dimensión. Actualmente. y representa como realizar un proyecto de minería de datos Este documento cubre tanto el modelo de referencia como la guía de usuario en el nivel genérico. la metodología de CRISP-DM se distingue entre el modelo de referencia y la guía de usuario.1.2 Pasaje de modelos genéricos a modelos especializados 3.1 Modelo de referencia y guía de usuario Horizontalmente.1: Cuatro niveles de interrupción de la metodología CRISP-DM 3.1 Contexto de la minería de datos El contexto de minería de datos traza un mapa entre lo genérico y el nivel especializado en CRISP-DM. 3. El modelo de referencia presenta una descripción rápida de fases. y describen que hacer en el proyecto de minería de datos. La guía de usuario da consejos más detallados e insinuaciones para cada fase y cada tarea dentro de una fase. las tareas.UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA Figura 3. y sus salidas.

1. Dimensión de contextos y ejemplos de minería de datos Un contexto específico de minería de datos es un valor concreto para una o más de estas dimensiones. e intentar pasar de tareas genéricas y sus descripciones al proyecto específico como requerido. Ricardo Mendoza Rivera Practicas Pre-I 44 . Lo más específico (los valores) para las dimensiones de contextos diferentes son fijadas (especificadas). Cualquiera de los tipos de trazados es apropiado según sus propios objetivos.2 Pasaje con contextos Distinguimos entre dos tipos diferentes de pasajes (plan) entre el nivel genérico y un especializado en el CRISP-DM. hablamos sobre un pasaje solo para (probablemente) un solo uso.2. depende de su contexto de minería de datos específicos y las necesidades de su organización. Pasaje para el presente: Si sólo aplicamos el modelo de proceso genérico para realizar un proyecto de minería simple. hablamos explícitamente de la sobre escritura de un modelo de proceso especializado en términos de CRISP-DM. un proyecto de minería de datos tratando con un problema de clasificación que se revuelve con la predicción constituye un contexto específico.2.3 Pasaje La estrategia básica para pasar un mapa del modelo de proceso genérico al nivel especializado es la misma para ambos tipos de pasaje:  Analizar su contexto específico  Quitar cualquier detalle no aplicable a su contexto  Agregar cualquier detalle específico a su contexto  Especializar (o instanciar) el contenido genérico según las características concretas de su contexto Ing. Pasaje para el futuro: Si sistemáticamente especializamos el modelo de proceso genérico según un contexto predefinido (o analizando sistemáticamente de modo similar y consolidando las experiencias de un único proyecto hacia un modelo de proceso especializado para el uso futuro en contextos comparables). Por ejemplo. 3.UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA Tabla 3. lo mas concreto es el contexto de minería de datos. 3.

sus fases. y salidas. que incluye un glosario de terminología importante y una caracterización de los tipos de problemas de minería de datos 3. tareas genéricas.  Si usted necesita el asesoramiento detallado en la realización de su proyecto de minería de datos. otra forma de un proyecto de minería de datos rápidamente o conseguir una introducción a la guía de usuario de CRISP-DM. y sugiere contornos para estos informes. Ricardo Mendoza Rivera Practicas Pre-I 45 . En remotas lecturas.1 Contenido El modelo de proceso de CRISP-DM (este documento) es organizado en cinco partes diferentes:  Parte I: es esta una introducción a la metodología de CRISP-DM.  Si usted está en la etapa de minería de datos cuando usted sobrescribe sus informes. ver Parte IV. comience con la Parte I. que proporciona algunas directrices generales para pasar un modelo de proceso genérico a modelos de proceso especializados  Parte II: describe el modelo de referencia de CRISP-DM. muévase hacia adelante y hacia atrás entre Partes III y IV como lo desee.3. y salidas  Parte III presenta la guía de usuario de CRISP-DM.  Finalmente. es lo más parte más importante de este documento.2 Objetivo Los usuarios y los lectores de este documento deberían ser conscientes de las instrucciones siguientes:  Si usted lee el modelo de proceso de CRISP-DM por primera vez.3.  Si usted necesita rápido el acceso a una descripción del modelo de proceso de CRISPDM. la guía de usuario de CRISP-DM. Use el apéndice para buscar varios términos si usted no es aún un experto en el campo. tareas genéricas. Nota: si usted no ha leído primero la introducción o el modelo de referencia.3 Descripción de partes 3. vuelva y lea estas primeras dos Partes.  Parte V es el apéndice. usted podría saltar la introducción y sólo verlo si lo necesita para una aclaración. el apéndice es útil como información adicional de fondo a la MINERÍA de datos y al CRISP-DM. el modelo de referencia de CRISP-DM. para entender la metodología de CRISP-DM. Si usted prefiere generar deliberadamente las descripciones durante el proyecto. referirse a la Parte II.UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA Renombrar el contenido genérico posible para proporcionar significados más explícitos en su contexto para la aclaración. y contiene el asesoramiento más detallado sobre como realizar proyectos de minería de datos  Parte IV: Se centra en los informes para ser producidos durante y después de un proyecto. la introducción. ver Parte IIII. que va más allá de la descripción pura de fases. y como los distintos conceptos se relacionan uno con el otro. todos sus conceptos. 3. Ello también muestra referencias cruzadas entre salidas y tareas.  Ing.

El resultado de cada fase determina que la fase.  El círculo externo en la Figura 2 simboliza la naturaleza cíclica de la minería de datos. Los procesos de minería subsecuentes se beneficiarán de las experiencias previas. La secuencia de las fases no es rígida. no es posible identificar todas las relaciones. brevemente perfilamos cada fase:  Figura 3. a menudo más . luego convirtiendo este conocimiento de los datos en la definición de un problema de minería de datos y en un plan preliminar diseñado para alcanzar los objetivos. o la tarea particular de una fase. tienen que ser realizados después.  El movimiento hacia adelante y hacia atrás entre fases diferentes es siempre requerido. 2: Fases del modelo de referencia CRISP-DM Comprensión del negocio Esta fase inicial se enfoca en la comprensión de los objetivos de proyecto y exigencias desde una perspectiva de negocio.el interés del usuario sobre los datos. y –lo más importante.UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA El modelo de referencia CRISP-DM  El modelo de proceso corriente para la minería de datos proporciona una descripción del ciclo de vida del proyecto de minería de datos. Este contiene las fases de un proyecto. Ing. Ricardo Mendoza Rivera Practicas Pre-I 46 . En el siguiente. mostrado en la Figura 3. el contexto.preguntas enfocadas en el negocio. En este nivel de descripción.2. sus tareas respectivas. Las informaciones ocultas (lecciones cultas) durante el proceso y la solución desplegada pueden provocar nuevas. Las flechas indican las más importantes y frecuentes dependencias entre fases. y las relaciones entre estas tareas. Las relaciones podrían existir entre cualquier tarea de minería de datos según los objetivos.  El ciclo de vida del proyecto de minería de datos consiste en seis fases. La minería de datos no se termina una vez que la solución es desplegada.

En muchos casos. Incluso si el objetivo del modelo es de aumentar el conocimiento de los datos. en tiempo real la personalización de página Web o la repetida obtención de bases de datos de mercadeo. descubrir los primeros conocimientos en los datos. registros. Modelado En esta fase. Por lo tanto. para comparar el modelo correctamente obtenido con los objetivos de negocio. es el cliente. el conocimiento ganado tendrá que ser organizado y presentado en el modo en el que el cliente pueda usarlo. Algunas técnicas tienen requerimientos específicos sobre la forma de datos.UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA       Comprensión de los datos La fase de entendimiento de datos comienza con la colección de datos inicial y continua con las actividades que le permiten familiarizar primero con los datos. así como la transformación y la limpieza de datos para las herramientas que modelan. varias técnicas de modelado son seleccionadas y aplicadas. Ello a menudo implica la aplicación de modelos "vivos" dentro de un proceso de toma de decisiones de una organización. incluso si el analista realizara el esfuerzo de despliegue. Evaluación En esta etapa en el proyecto. Dependiendo de los requerimientos. y sus parámetros son calibrados a valores óptimos. Desarrollo La creación del modelo no es generalmente el final del proyecto. no el analista de datos. quien lleva el paso de desarrollo. Un objetivo clave es determinar si hay alguna cuestión importante de negocio que no ha sido suficientemente considerada. y/o descubrir subconjuntos interesantes para formar hipótesis en cuanto a la información oculta. por ejemplo. Sin embargo. esto es importante para el cliente para entender de frente que acciones necesita para ser ejecutadas en orden para hacer uso de los modelos creados actualmente. Típicamente hay varias técnicas para el mismo tipo de problema de minería de datos. Las tareas de preparación de datos probablemente van a ser realizadas muchas veces y no en cualquier orden prescripto. identificar los problemas de calidad de datos. Ing. una decisión en el uso de los resultados de minería de datos debería ser obtenida. Ricardo Mendoza Rivera Practicas Pre-I 47 . volver a la fase de preparación de datos es a menudo necesario. usted ha construido un modelo (o modelos) que parece tener la alta calidad de una perspectiva de análisis de datos. Preparación de datos La fase de preparación de datos cubre todas las actividades necesarias para construir el conjunto de datos final [los datos que serán provistos en las herramientas de modelado] de los datos en brutos iniciales. En el final de esta fase. es importante evaluar a fondo ello y la revisión de los pasos ejecutados para crearlo. Las tareas incluyen la selección de tablas. la fase de desarrollo puede ser tan simple como la generación de un informe o tan compleja como la realización repetida de un proceso cruzado de minería de datos a través de la empresa. y atributos. Antes del proceder al despliegue final del modelo.

3 presenta un contexto de fases acompañadas por tareas genéricas y las salidas. 4. Comprensión del negocio Ing. Ricardo Mendoza Rivera Practicas Pre-I 48 .3 : Tareas genéricas (negritas) y salidas (cursivas) del modelo de referencia CRISP-DM 3. Enfocamos nuestra atención en descripciones de tarea y los resúmenes de salidas.UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA  La figura 3. En las secciones siguientes. Figura 3.4 Comprensión del negocio  Figura 3. describimos cada tarea genérica y sus salidas más detalladamente.

3. y restricciones Listar todos los requerimientos del proyecto. En este último caso. la reducción de clientes se revuelve a un cierto nivel o valor. Como parte de esta salida. recursos computacionales (plataformas de hardware).4. o esto podría ser general y subjetivo. esto puede influir en el resultado del proyecto. visita al negocio. Además de los objetivos del negocio primario. En la tarea anterior. su objetivo es para ponerse rápidamente al quid de la situación. usted quiere ampliarse sobre los detalles. asegúrese que le permitan usar los datos. así como las cuestiones legales. Internet) afecta si los clientes se quedan o se van? " o "¿Bajar los honorarios de ATM considerablemente reducirá el número de los clientes mas importante que se irán?” Criterios de éxito de negocio Describa los criterios para un resultado acertado o útil al proyecto desde el punto de vista del negocio. la comprensibilidad y calidad de los resultados. Los ejemplos de preguntas relacionadas de negocio son “¿Cómo el uso del canal primario (Por ejemplo. y software (herramientas de minería de datos. El objetivo del analista debe mostrar (destapar) factores importantes. lo que el cliente realmente quiere lograr. otros software relevantes). Por ejemplo.1 Determinación de objetivos de negocio Tarea Determinar los objetivos de negocio El primer objetivo del analista de datos para un contexto es entender. incluyendo el personal (expertos de negocio. allí hay típicamente otras preguntas de negocio relacionadas con lo que al cliente le gustaría administrar. u datos operacionales).2 Evaluación de la situación Tarea Evaluar la situación Esta tarea implica la investigación más detallada sobre todos los recursos.UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA 3. en el principio. presunciones. Ricardo Mendoza Rivera Practicas Pre-I 49 . presunciones. por ejemplo. expertos de datos. aproximaciones a la vida. y la seguridad. Salida Contexto Registre la información que conoce sobre la situación de negocio de la organización en el principio del proyecto. esto debería indicarse quien hace el juicio subjetivo. A menudo el cliente tiene muchos objetivos que compiten y restricciones que deben ser correctamente equilibrados. ATM. restricciones. Una consecuencia posible de la negligencia de este paso es gastar un gran esfuerzo produciendo respuestas correctas a preguntas incorrectas o erradas. el objetivo primario de negocio podría ser mantener a clientes corrientes por predicción cuando ellos son propensos a moverse a un competidor. incluyendo el programa de terminación. Salida Inventario de recursos Listar los recursos disponibles para el proyecto. Requerimientos. soportes técnicos. Aquí.4. almacenes de datos. Ing. desde una perspectiva de negocio. como “dar ideas útiles en las relaciones”. expertos en minería de datos). desde una perspectiva de negocio. y otros factores que deberían ser considerados en la determinación del objetivo de análisis de datos y el plan de proyecto. Objetivos de negocio Describa el objetivo primario del cliente. datos (extractos fijos. Esto podría ser bastante específico y capaz de ser medido objetivamente.

puede ser necesario describir estos en términos subjetivos. Terminología Compile un glosario de terminología relevante al proyecto. ilustrada con ejemplos relevantes al problema del negocio en cuestión. use medidas monetarias en una situación comercial. en este caso la persona o las personas que hacen el juicio subjetivo deberían ser identificadas. y el precio del artículo. sueldo. Por ejemplo. Ricardo Mendoza Rivera Practicas Pre-I 50 . el objetivo de negocio podría ser “Aumentar catálogos de ventas a clientes existentes.4. Listar los planes de contingencia correspondientes. Un objetivo de minería de datos declara objetivos de proyecto en términos técnicos.3 Determinación de los objetivos de la minería de datos Tarea Determinar los objetivos de la minería de datos Un objetivo de negocio declara objetivos en la terminología de negocio. información demográfica (edad. La comparación debería ser tan específica como posible. Estas pueden ser restricciones sobre la disponibilidad de recursos.” Un objetivo de minería de datos podrían ser “Predecir cuantas baratijas un cliente comprará. ciudad. Estas pueden ser presunciones sobre los datos que pueden ser verificados durante la minería de datos. La construcción de este glosario es una útil “evocación al conocimiento” y un ejercicio de educación. Ing. Como con un criterio de éxito de negocio. un cierto nivel de predicción precisa o un perfil de inclinación-a-comprar con un determinado grado de "elevación". Por ejemplo. Es en particular importante listar si esto afectará la validez de los resultados. que compare los gastos del proyecto con los beneficios potenciales al negocio si esto es exitoso. que forma la parte de la comprensión del negocio disponible al proyecto. 3.). Listar las restricciones sobre el proyecto. Riesgos y contingencias Listar los riesgos o los acontecimientos que podrían retrasar el proyecto o hacer que ello falle. obteniendo datos de sus compras de tres años pasados.UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA Listar las presunciones hechas por el proyecto. pero puede también incluir coacciones tecnológicas como el tamaño de conjunto de datos lo que es práctico para usar el modelado. (2) Un glosario de terminología de minería de datos. etc. que acción será tomada si estos riesgos o acontecimientos ocurren. Costos y beneficios Construya un análisis de costo-beneficio para el proyecto. Criterios de éxito de la minería de datos Definir los criterios de un resultado exitoso para el proyecto en términos técnicos -por ejemplo. pero también puede incluir presunciones no-comprobables sobre el negocio relacionado con el proyecto. Esto puede incluir dos componentes: (1) Un glosario de terminología relevante del negocio.” Salida Objetivos de la minería de datos Describir las salidas intencionadas del proyecto que permiten el logro de los objetivos de negocio.

entradas. son necesarios una revisión del progreso y logros y una actualización correspondiente del plan de proyecto es recomendado. Decida en este punto que estrategia de evaluación será usada en la fase de evaluación.4 Producir el plan del proyecto Tarea Producir el plan del proyecto Describir el plan intencionado para alcanzar los objetivos de minería de datos y así alcanzar los objetivos de negocio. 5: Comprensión de datos Ing. usted selecciona una herramienta de minería de datos que soporte varios métodos para las distintas etapas del proceso. El plan debería especificar los pasos para ser realizados durante el resto del proyecto. idealmente con acciones y recomendaciones si los riesgos se manifiestan. Marcar los resultados de estos análisis explícitamente en el plan de proyecto. Ricardo Mendoza Rivera Practicas Pre-I 51 . Salida Plan del Proyecto Listar las etapas a ser ejecutadas en el proyecto. juntos con su duración. Evaluación inicial de herramientas y técnicas En la final de la primera fase.UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA 3. y dependencias. 3. es también importante analizar dependencias entre la planificación de tiempo y los riesgos. Los puntos de revisión específicas para estas actualizaciones son parte del plan de proyecto. haga explícito las iteraciones en gran escala en el proceso de minería de datos -por ejemplo. por ejemplo. Aquí. recursos requeridos. Es importante evaluar herramientas y técnicas temprano en el proceso desde la selección de herramientas y técnicas y esto puede influir en el proyecto entero.4. las repeticiones del modelado y las fases de evaluación. una evaluación inicial de herramientas y técnicas debería ser realizada. El plan de proyecto es un documento dinámico en el sentido de que en el final de cada fase. incluyendo la selección inicial de herramientas y técnicas.5 Comprensión de datos Figura 3. Nota: el plan de proyecto contiene proyectos detallados para cada fase. Donde sea posible. salidas. Como parte del plan de proyecto.

incluya gráficos y plots para indicar las características de datos que sugieren más examen de subconjuntos de datos interesantes.2 Describir los datos Tarea Describir los datos Examine las propiedades "gruesas" o "superficiales" de los datos e informe adquiridos en los resultados. y que tan comunes son estos? Ing. Estos análisis directamente pueden dirigir los objetivos de minería de datos. Salida Informe de descripción de datos Describa los datos que han sido adquiridos.4 Verificar la calidad de los datos Tarea Verificar la calidad de los datos Examine la calidad de los datos. si es necesario para la comprensión de los datos. y técnicas de reporte. Esto ayudará con la réplica (observación) futura de este proyecto o con la ejecución de proyectos similares futuros. ¿como se representan estos. las propiedades de las subpoblaciones significativas. Si es apropiado. incluyendo primeras conclusiones o hipótesis iniciales y su impacto sobre el resto del proyecto.1 Recolección de datos iniciales Tarea Recolectar datos iniciales Adquiera en el proyecto los datos (o el acceso a los datos) listados en los recursos del proyecto. los identificadores de los campos.UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA 3. 3. ellos también pueden contribuir o refinar la descripción de datos e informes de calidad. visualización. Este esfuerzo posiblemente conduce a los pasos iniciales de preparación de datos. y cualquier otro rasgo superficial que ha sido descubierto. la cantidad de datos (por ejemplo. incluyendo el formato de los datos. los métodos usados para adquirirlos. Registre los problemas encontrados y algunas de las resoluciones alcanzadas.5.3 Explorar los datos Tarea Explorar los datos Esta tarea dirige interrogantes de minería de datos usando preguntas. la integración es una cuestión adicional. Por ejemplo.5.5. Estos incluyen la distribución de atributos claves (por ejemplo. juntos con sus posiciones. si usted usa un instrumento específico para la comprensión de los datos. esto perfectamente se entiende para abrir sus datos en esta herramienta. el atributo objetivo de una tarea de predicción) relacionados entre pares o pequeños números de atributos. y alimentar en la transformación y otros pasos de preparación de datos necesarios para análisis futuros. 3. y análisis estadísticos simples. Note: si usted adquiere datos de múltiples fuentes. 3.5. que tan comunes son estos? ¿Hay valores omitidos en los datos? Si es así. Ricardo Mendoza Rivera Practicas Pre-I 52 . o estos contienen errores y. Evalúe si los datos adquiridos satisfacen las exigencias relevantes. los resultados de simples agregaciones. si hay errores. Salida Informe de colección de datos inicial Liste el conjunto de dato(s) adquirido(s). y algunos de los problemas encontrados. dirigiendo preguntas como: ¿Los datos están completos? (¿Esto cubre todo los casos requeridos)? ¿Son correctos. donde ocurre esto. Salida Informe de exploración de datos Describa los resultados de esta tarea. aquí o mas tarde en las fases de preparación de datos más. Esta colección inicial incluye carga de datos. el número de registros y campos en cada tabla).

3.UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA Salida Informe de calidad de datos Liste los resultados de la verificación de calidad de datos. Ing.6 Preparación de datos Figura3. Las soluciones a los problemas de calidad de datos generalmente dependen tanto del conocimiento de los datos y como del negocio. Ricardo Mendoza Rivera Practicas Pre-I 53 . que será usada para modelar o para el trabajo principal de análisis del proyecto. liste las posibles soluciones. Descripción del conjunto de datos Describir el conjunto de dato (o conjuntos) que será usado para el modelado y el trabajo principal de análisis del proyecto.6: Preparación de datos Salida Conjunto de datos Este es el conjunto (o conjuntos) producido por la fase de preparación de datos. si existen problemas de calidad.

3. Ricardo Mendoza Rivera Practicas Pre-I 54 .6. otra tabla con datos resumidos de las ventas (por ejemplo. Salida Razonamiento para la inclusión/exclusión Listar los datos para ser incluidos/excluidos y los motivos para estas decisiones. Salida Combinación de datos La combinación de tablas se refiere a la unión simultánea de dos o más tablas que tienen información diferente sobre el mismo objeto.UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA 3. la inserción de datos por defectos adecuados.1 Selección de datos Tarea Selección de datos Decidir que datos serán usados para el análisis. Note que la selección de datos cubre la selección de atributos (columnas) así como la selección de registros (filas) en una tabla. o técnicas más ambiciosas tales como la estimación de datos faltantes mediante modelado. el tipo de comercio). o la transformación de valores para atributos existentes.4 Integrar datos Tarea Integrar datos Estos son los métodos por el cual la información es combinada de múltiples tablas o registros para crear nuevos registros o valores. Las transformaciones de los datos para una apropiada limpieza y el posible impacto en el análisis de resultados deberían ser considerados. Esto puede implicar la selección de los subconjuntos de datos limpios. Ejemplo: Crear registros para los clientes quienes no hicieron compras durante el año pasado. No había ninguna razón de tener tales registros en los datos brutos. y las restricciones técnicas como límites sobre el volumen de datos o los tipos de datos. 3. y el otro con información Ing.6. pero para el objetivo del modelado esto podría tener sentido para representar explícitamente el hecho que ciertos clientes no hayan hecho compra nada. la calidad. Ejemplo: una cadena de venta al público tiene una tabla con la información sobre las características generales de cada tienda (Por ejemplo.3 Construir datos Tarea Construir datos Esta tarea incluye la construcción de operaciones de preparación de datos tales como la producción de atributos derivados o el ingreso de nuevos registros. el cambio porcentual en ventas desde el año anterior). Registros generados Describa la creación de registros completamente nuevos. Salidas Atributos derivados Los atributos derivados son los atributos nuevos que son construidos de uno o más atributos existentes en el mismo registro. Ejemplo: área = longitud * anchura.2 Limpieza de datos Tarea Limpiar datos Elevar la calidad de los datos al nivel requerido por las técnicas de análisis seleccionadas. el beneficio. 3.6. el espacio. Los criterios incluyen la importancia a los objetivos de la minería de datos. Salida Informe de la limpieza de los datos Describa que decisiones y acciones fueron tomadas para dirigir los problemas de calidad de datos informados durante la tarea de Verificación de Calidad de Datos de los Datos de la fase de Comprensión de Datos.6.

Ejemplos: el quitar de comas de adentro de campos de texto en ficheros de datos delimitados por coma. Los datos combinados también cubren agregaciones.7 Modelado Figura 3. etc. La agregación se refiere a operaciones en la que nuevos valores son calculados de información resumida de múltiples registros y/o tablas. cuando se usa redes neuronales. tales como el primer campo que es un único identificador para cada registro o el último campo es el campo resultado que el modelo debe predecir. esto es generalmente mejor para los registros para ser presentados en un orden aleatorio. aunque algunas herramientas manejen esto automáticamente sin la intervención explicita del usuario.5 Formatear datos Tarea Formatear datos Formateando transformaciones se refiere a modificaciones principalmente sintácticas hechas a los datos que no cambian su significado. hay cambios puramente sintácticos hechos para satisfacer las exigencias de la herramienta de modelado específica. el porcentaje de artículos bajo promoción. con campos tales como el número de compras.UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA sobre los datos demográficos del área circundante. Quizás la herramienta de modelado requiere que los registros sean clasificados según el valor del atributo de resultado. convirtiendo una tabla de compra de clientes donde hay un registro para cada compra en una tabla nueva donde hay un registro para cada cliente.6. pero el algoritmo que modela necesita que ellos estén en un orden moderadamente arbitrario. pero podría ser requerido por la herramienta de modelado. Estas tablas pueden ser combinadas simultáneamente en una nueva tabla con un registro para cada tienda. Salida Datos reformateados Algunas herramientas tienen requerimientos sobre el orden de los atributos. Cada una de estas tablas contiene un registro para cada tienda. Ricardo Mendoza Rivera Practicas Pre-I 55 . combinando campos de las tablas fuentes. Podría ser importante cambiar el orden de los registros en el conjunto de datos. Por ejemplo. corta todos los valores a un máximo de 32 caracteres 3. Además. el porcentaje de ordenes cobrados a tarjeta de crédito. 7: Modelado Ing. los registros del conjunto de datos son ordenados al principio de algún modo. Comúnmente. Por ejemplo. 3. el promedio de la cantidad de compra.

7. 3. Presunciones del modelado Muchas técnicas de modelado hacen presunciones específicas sobre los datos -por ejemplo. Aunque usted haya podido seleccionar una herramienta durante la fase de Comprensión del negocio.7. datos de prueba.3 Construcción del modelo Tarea Construir el modelo Ejecutar la herramienta de modelado sobre el conjunto de datos preparados para crear uno o más modelos.7. Ing. tenemos que generar un procedimiento o el mecanismo para probar la calidad y validez del modelo. o la generación de red neuronales BackPropagación.1 Selección de la técnica de modelado Tarea Escoger la técnica de modelado Como primer paso en modelado. por ejemplo. se realizan esta tarea separadamente para cada técnica. y estimamos su calidad sobre el conjunto de prueba separado. Un componente primario del plan determina como dividir un conjunto de datos disponible en datos de entrenamiento. Registrar cualquiera de tales presunciones hechas. un árbol decisión construido con C4. también con el razonamiento para elegir los parámetros de ajustes.2 Generación de la prueba de diseño Tarea Generar la prueba de diseño Antes de que nosotros en realidad construyamos un modelo. etc. Descripciones del modelo Describir los modelos obtenidos. Ricardo Mendoza Rivera Practicas Pre-I 56 . el atributo de clase debe ser simbólico. Modelos Estos son los modelos reales producidos por la herramienta de modelado. seleccionar la técnica de modelado real que está por ser usado. construimos el modelo sobre el conjunto de series. 3.UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA 3. en tareas de minería de datos supervisados como la clasificación. y la evaluación de los modelos. Salida Técnicas de modelado Documente la técnica de modelado real que está por ser usado.5. Salidas Parámetro de ajustes Con cualquier herramienta de modelado. Por lo tanto. y conjunto de datos de validación. esto es común usar tasas de errores como medida de calidad para modelos de minería de datos. esta tarea se refiere a la técnica de modelado específico. Listar los parámetros y sus valores escogidos. que todos los atributos tengan distribuciones uniformes. la prueba. Salida Prueba de diseño Describir el plan intencionado para el entrenamiento. Si múltiples técnicas son aplicadas. no un informe. típicamente separamos el conjunto de datos en una serie y en un conjunto de prueba. Por ejemplo. Informar sobre la interpretación de los modelos y documentar cualquier dificultad encontrada con sus significados. hay a menudo un gran número de parámetros que pueden ser ajustados. no encontrar valores no permitidos.

él se pone en contacto con analistas de negocio y expertos en el dominio luego para hablar de los resultados de la minería de datos en el contexto de negocio. y el diseño de prueba deseado. Ricardo Mendoza Rivera Practicas Pre-I 57 . él también tiene en cuenta objetivos del negocio y criterios de éxito de negocio. el ingeniero de minería de datos aplica una sola técnica más de una vez. Parámetros de ajustes revisados Según la evaluación del modelo.7. El ingeniero de minería de datos intenta clasificar los modelos. Por favor note que esta tarea sólo se considera modelos. 3. Salida Evaluación de modelos Resumir los resultados de esta tarea.UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA 3. Repetir la construcción y evaluación del modelo hasta que crea que usted ha encontrado el/los mejor/es modelo/s. En los grandes proyectos de minería de datos. Él evalúa los modelos según los criterios de evaluación. Tanto como es posible. él también compara todos los resultados según los criterios de evaluación. y clasificar su calidad en relación con cada otro. Documentar todo como las revisiones y las evaluaciones.4 Evaluación del modelo Tarea Evaluar el modelo El ingeniero de minería de datos interpreta los modelos según su conocimiento de dominio. El ingeniero de minería de datos juzga el éxito de la aplicación del modelado y descubre técnicas mas técnicamente. listar las calidades de los modelos generados (por ejemplo. En esta tarea. o genera resultados de minería de datos con varias técnicas diferentes. 8: Evaluación Ing. los criterios de éxitos de minería de datos. en términos de exactitud). mientras que la fase de evaluación también toma en cuenta todos los otros resultados que fueron producidos en el curso del proyecto.8 Evaluación Figura 3. revise los parámetros de ajuste y témplelos para la siguiente corrida en la tarea de Construcción del Modelo.

3 Determinación de los próximos pasos Tarea Determinar los próximos pasos Según los resultados de la evaluación y la revisión de proceso. que puede influir en las decisiones. información.8. si el tiempo y las restricciones de presupuesto lo permiten.8. con los motivos a favor y en contra de cada opción. 3. Además. 3. pero también podría revelar desafíos adicionales. la evaluación también verifica otros resultados generados por la minería de datos.UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA 3. el equipo de proyecto decide como proceder. Modelos aprobados Después de la evaluación de modelos en lo que concierne a criterios de éxito de negocio.8. Salida Lista de posibles acciones Listar las acciones futuras potenciales. o insinuaciones para futuras direcciones. los modelos resultantes pasan a ser satisfactorios y a satisfacer las necesidades de negocio. Decisión Describir la decisión en cuanto a como proceder. los modelos generados que encuentran los criterios seleccionados son los modelos aprobados. junto con el razonamiento. tanto iniciar más iteraciones. Ing. o comenzar nuevos proyectos de minería de datos. Los resultados de la minería de datos implican modelos que necesariamente son relacionados con los objetivos originales de negocio y todas los otros descubrimientos que no son relacionados necesariamente con los objetivos originales de negocio. Otra opción de evaluación es probar el/los modelo/s sobre aplicaciones de prueba en la aplicación real.2 Proceso de revisión Tarea Revisar el proceso En este punto. El equipo decide si hay que terminar este proyecto y tomar medidas sobre el desarrollo si es apropiado. Esta tarea incluye los análisis de recursos restantes y del presupuesto. Ahora es apropiado hacer una revisión más cuidadosa de los compromisos de la minería de datos para determinar si hay cualquier factor importante o tarea que de algún modo ha sido pasada por alto. Salida Evaluación de los resultados de la minería de datos en lo que concierne a criterios de éxito de negocio Resumir los resultados de evaluación en términos de criterios de éxito de negocio. Este paso evalúa el grado al que el modelo responde (encuentra) los objetivos de negocio y procura determinar si hay alguna decisión de negocio por el que este modelo es deficiente. Ricardo Mendoza Rivera Practicas Pre-I 58 .1 Evaluación de los resultados Tarea Evaluar los resultados Los pasos de la evaluación anterior trata con factores como la exactitud y la generalidad del modelo. Esta revisión también cubre cuestiones de calidad -por ejemplo: ¿Construimos correctamente el modelo? ¿Usamos sólo los atributos que nos permitieron usar y que están disponibles para análisis futuros? Salida Revisión de proceso Resumir la revisión de proceso y destacar las actividades que han sido omitidas y/o aquellas que deberían ser repetidas. incluyendo una declaración final en cuanto si el proyecto ya encuentra los objetivos iniciales de negocio.

9: Desarrollo 3. La preparación cuidadosa de una estrategia de mantenimiento ayuda evitar largos periodos innecesarios de uso incorrecto de resultados de minería de datos. Este plan tiene en cuenta el tipo específico de desarrollo. 3. este procedimiento es documentado aquí para el desarrollo posterior.UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA 3.1 Desarrollo del plan Tarea Desarrollar el plan De acuerdo al desarrollo de los resultados de minería de datos en el negocio. Ricardo Mendoza Rivera Practicas Pre-I 59 . incluyendo los pasos necesarios y como realizarlos. esta tarea toma los resultados de la evaluación y determina una estrategia para el desarrollo.9.9. el proyecto necesita un plan detallado de proceso de supervisión. Salida Desarrollo del plan Resumir la estrategia de desarrollo. Para supervisar el desarrollo de los resultados de la minería de datos. Ing. Si un procedimiento general ha sido identificado para crear el/los modelo/s relevante/s.9 Desarrollo Figura 3.2 Plan de supervisión y mantenimiento Tarea Planear la supervisión y el mantenimiento La supervisión y el mantenimiento son cuestiones importantes si los resultados de minería de datos son parte del negocio cotidiano y de su ambiente.

el resumen y la organización de los resultados.9.9. 3. el líder del proyecto y su equipo sobrescribe un informe final. o las insinuaciones para seleccionar las mejores técnicas de minería de datos en situaciones similares podrían ser la parte de esta documentación.UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA Salida Supervisión y plan de mantenimiento Resumir la estrategia de supervisión y mantenimiento incluyendo los pasos necesarios y como realizarlos. Según el plan de desarrollo. Por ejemplo.3 Informe definitivo de producto Tarea Producir el informe final En el final del proyecto. En proyectos ideales. 3. accesos engañosos. lo que fue bien hecho y lo que necesita para ser mejorado. este informe puede ser sólo un resumen del proyecto y sus experiencias (si estas aún no han sido documentadas como una actividad en curso) o esto puede ser una presentación final y comprensiva de los resultados de minería de datos. Presentación final También a menudo habrá una reunión en la conclusión del proyecto en el que los resultados son presentados verbalmente al cliente. trampas. Ricardo Mendoza Rivera Practicas Pre-I 60 . Salidas Informe definitivo Esto es el informe escrito final del compromiso de la minería de datos.4 Revisión del proyecto Tarea Revisar el proyecto Evaluar lo que fue correcto y lo que se equivocó. Salida Documentación de la experiencia Resumir las experiencias importantes ganadas durante el proyecto. la documentación de la experiencia también cubre cualquier informe que ha sido escrito por miembros individuales del proyecto durante las fases del proyecto y sus tareas. Ing. Esto incluye todo el desarrollo anterior.

Ricardo Mendoza Rivera Practicas Pre-I 61 .UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA CAPITULO IV Aplicando Metodología Crisp-dm Ing.

En este caso el modulo que nos interesa es el de FARMACIA.1 COMPRENSION DEL NEGOCIO 4. MODULO DE DIAGNOSTICO POR IMAGENES MODULO DE NUTRICION Y DIETETICA MODULO SERVICIO SOCIAL MODULO DE FARMACIA MODULO DE CONSULTA EXTERNA Y HOSP.1.UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA 4.1.1. Los ingresos que genera el hospital en mención básicamente están dados de dos maneras: Ing.1 Contexto El Hospital Eleazar Guzmán Barron consta de 15 módulos: MODULO DE PSICOLOGIA MODULO DE MEDICINA FISICA Y REHABILITACION MODULO DE CIRUGIA MODULO DE PEDIATRIA MODULO DE GINECO-OBSTETRICIA MODULO DE ODONTOESTOMATOLOGIA MODULO DE ENFERMERIA MODULO DE EMERGENCIA Y CUIDADOS CRITICOS MODULO DE ANESTOSIOLOGIA Y CENTRO QUIRURGICO MODULO DE PATOLOGIA CLINICA Y ANATOMIA PATOLOG. Ricardo Mendoza Rivera Practicas Pre-I 62 .1 Determinar los objetivos del negocio 4.

En este caso nuestro proyecto esta basado en que existen ocasiones en las que nos encontramos con clientes quejándose por la falta de medicamentos en farmacia los cuales son importantes para ellos. LOGO Ing. Ricardo Mendoza Rivera Practicas Pre-I 63 .UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA   El pago por consulta. Ingresos por venta de medicinas en farmacia. esto en el caso del paciente y en el caso del hospital de la misma forma es importante porque genera mayores ingresos para el mismo.

Ricardo Mendoza Rivera Practicas Pre-I 64 .UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA ORGANIGRAMA Ing.

envían su pedido a Huaraz quien junta el pedido. El departamento de farmacia consta de 10 módulos la jefa de este departamento es la doctora Federinda Doris Álvarez De Osorio. Hoy los pedidos de farmacia se hacen únicamente de acuerdo a las salidas establecidas el mes anterior es decir si venden 200 ibuprofeno. Ricardo Mendoza Rivera Practicas Pre-I 65 . aunque saben que seria de mucha ayuda aun no esta implementado. además genera pérdidas económicas al hospital. además hay que tener en cuenta que existen 3 tipos de compra:  Compra Nacional: Se realiza una vez al año en el mes de junio. Como dato adicional tenemos que en la actualidad no esta implementada la minería de datos en ninguno de sus sistemas.  Compra Local: En caso de emergencia se realiza a algún agente vendedor que tenga el Hospital.  Compra Regional: Realizada cuando por alguna razón necesitan medicamentos para reserva.UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA El hospital esta dirigido por el doctor Carlos Enrique Fernández Neyra a su vez el área encargada de las compras para la jefatura de ventas es el departamento de Farmacia. los pedidos son enviados al MINSA (ministerio de salud) quien junta los pedidos que llegan de todo el país y las compras totales se dan en licitación. emergencia se lleva 30. Ing. El problema esta dado por el desabastecimiento de medicamentos en el área de farmacia lo cual genera malestar en los pacientes según una pequeña encuesta hecha a pacientes encontrados en los alrededores. el seguro otras 30 y por cuestiones sanitarias salen otras 18 entonces el pedido se hace solo por 280 unidades para el siguiente mes.. La venta también se realiza por licitación.

Vemos aquí la dependencia que tiene con el área de sistemas y la inflexibilidad con la que se puede obtener información. se supo que la información con la que cuentan es a modo de reportes estadísticos. basado en un Sistema de Información Gerencial.UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA En este caso al aplicar la minería de datos la unidad de negocios afectada seria la de Control de compras de medicamento. mas no con criterios analíticos para identificar conocimiento. Los Lineamientos de Política del Hospital "Eleazar Guzmán Barrón". los siguientes: a) Prevenir los riesgos y daños. Sensibilización y motivación del personal para la conformación de equipos de calidad.1. de tener que depender de procesos repetitivos para la obtención de la información. los siguientes: Ing. La indisponibilidad de información inmediata que tiene la responsable del área. El percibir al negocio en términos estadísticos. constantemente surgen necesidades para obtener información basándose en nuevos y diversos criterios. mediante el desarrollo de un Sistema de Atención Prehospitalaria. b) El aseguramiento de la calidad administrativa y asistencial mediante un proyecto de. c) Reducción de costos hospitalarios mediante el costeo y control.2 Objetivos de negocio Son Objetivos Estratégicos del Hospital “Eleazar Guzmán Barrón”. Para lo cual esperamos entregar un sistema operacional para ser entendido por cualquier usuario. Ricardo Mendoza Rivera Practicas Pre-I 66 . para lo que se recurre al área de sistemas y se solicita los cambios en la emisión del reporte. En entrevistas con los responsables del área de farmacia. donde se visualizan números que informan el estado del stock de los medicamentos. son algunas de las debilidades actualmente reconocidas 4. Adicionalmente a los reportes ya existentes.

f) Mejorar continuamente la calidad. a cargo de las Universidades e Instituciones educativas. Ricardo Mendoza Rivera Practicas Pre-I 67 . equidad. d) Apoyar la formación y especialización de los recursos humanos. según los convenios respectivos. así como generando una cultura organizacional con valores y actitudes hacia la satisfacción de las necesidades y expectativas del paciente y su entorno familiar. Hospitalización y Emergencia. productividad. Mejorar el grado de satisfacción de los clientes en este caso los pacientes. c) Lograr la prevención y disminución de los riesgos y daños a la salud. Démosle respuesta a las siguientes preguntas: Ing. eficiencia y eficacia de la atención a la salud. calidad y plena accesibilidad. asignando el campo clínico y el personal para la docencia e investigación. En este sentido ¿Cómo afecta al hospital el hecho de no contar con cierto medicamento en el momento adecuado? ¿De igual manera como afecta al paciente el tener que buscar otros lugares donde encontrar el medicamento existiendo y debiendo encontrarse en el mismo hospital? 4. e) Administrar los recursos humanos.3 Criterios de éxito de negocio El ingreso al hospital puede aumentar si se resuelve el problema de desabastecimiento de medicamentos. en Consulta Externa. en condiciones de oportunidad.1. materiales económicos y financieros para el logro de la misión y sus objetivos en cumplimiento a las normas vigentes. estableciendo las normas y los parámetros necesarios.UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA a) Lograr la recuperación de la salud y la rehabilitación de las capacidades de los pacientes. b) Defender la vida y proteger la salud de la persona desde su concepción hasta su muerte natural.

ordenes de compra. hacia una base de datos relacional contribuye a establecer objetivos importantes en la Toma De Decisiones? ¿De Que manera el modelar. construir y cargar una Base De Datos Relacional hacia Data Mining ayuda a establecer estrategias para la Toma De Decisiones? ¿Cómo es que la generación de pruebas de clasificación.UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA ¿Cómo es que el trasformar la información correspondiente a un periodo de trabajo del sistema actual almacenado en tablas planas. los datos son ingresados por medio del sistema hospitalario LOLIMSA. utilizando el algoritmo de Minería De Datos: Series De Tiempo para encontrar características que nos permitan implantar procedimientos en la toma de decisiones? 4. Nuestras fuentes en este caso son documentos que nos proporciono las doctora Federinda Doris Álvarez De Osorio.2. Todos los datos están almacenados en el servidor del hospital. kárdex de inventario.2 Evaluación de la situación 4. etc.1 Inventario de recursos El proyecto equipo de trabajo esta formado por los siguientes integrantes:   Raúl Jonathan Campos Reyes Augusto Cano Morales Los datos a tratar se encuentran en la base de datos del mencionado hospital. También hicimos pequeñas encuestas a los pacientes para saber si estaban satisfechos con la disponibilidad de los medicamentos en farmacia. Ing. los cuales se encuentran en SQL SERVER 2000. exactamente en el área de sistemas. Ricardo Mendoza Rivera Practicas Pre-I 68 . PECOSAS.

Los datos de compras y ventas están accesibles al ingresar al Server. El acceso a la base de datos es a través el servidor el cual tiene una validación por intermedio de un usuario y una contraseña. PEREZ LOPEZ EULOGIA MARIA. Ricardo Mendoza Rivera Practicas Pre-I 69 . 4.3 Riesgos y contingencias Actualmente se encuentran migrando los datos a otro software entonces un riesgo seria que este proceso nos genere lentitud en el avance.2. El sistema operativo de este es Windows Xp. la base de datos en SQL SERVER 2000. en todo caso ya tenemos un primer alcance de estos datos. 4.UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA La base de datos se encuentra en el servidor bajo el mando de la Ing.2 Requerimientos.2. o por medio des sistema LOLIMSA al generar los reportes. RESTRICCIONES El tiempo es una de nuestras restricciones ya que el proyecto a de ser terminado antes de la terminación de nuestro ciclo. PRESUNCIONES Necesitamos que los datos con los que vamos a trabajar sean de buena calidad para que los datos que explotemos también hereden la buena calidad y permitir tomar decisiones correctas. es decir antes del 31 de julio del 2009. Ing. es a ella a quien se le solicita los datos de ser necesarios. PEREZ LOPEZ EULOGIA MARIA. presunciones y restricciones REQUERIMIENTOS Por seguridad el uso de la base de datos es restringido así que necesitamos de la compañía de la jefa del área de estadística y informática la Ing.

4 Terminología Kárdex de productos: reporte generado para ver el inventario físico del almacén de ventas. Dicha información era previamente desconocida y podrá resultar útil para algún proceso. MINERIA DE DATOS: consiste en la extracción no trivial de información que reside de manera implícita en los datos.1 Objetivos de la minería de datos Evitar el desabastecimiento de medicamento en la farmacia del Hospital Eleazar Guzmán Barron. Ing. documento emitido para controlar la entrada y salida de productos entre almacén central y almacén de ventas. PECOSA: Pedido Control Salida.3.2. 4. ORDENES DE COMPRA: orden unidad de logística. enviada por parte de jefatura de farmacia a la 4. PEDIDO DE COMPRA: pedido generado por parte de jefatura de ventas y enviado a la jefatura de farmacia para su revisión. la minería de datos prepara.2. Ricardo Mendoza Rivera Practicas Pre-I 70 . el beneficio seria para el hospital ya que le generaría mayores ingresos y al paciente le causaría un menor grado de malestar porque tendrían la medicina al alcance el el momento adecuado.5 Costos Y Beneficios El costo del proyecto en este caso seria mínimo ya que se estaría implementando sobre un software ya existente. para este caso usaremos un algoritmo de series de tiempo.UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA 4. En otras palabras. sondea y explora los datos para sacar la información oculta en ellos.3 Determinación de los objetivos de la minería de datos 4.

facturación. Ing. como gestión de pedidos.UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA Disminuir el grado de malestar de los pacientes al atenderse en el Hospital Regional Eleazar Guzmán Barron. utilizando en algoritmo de Minería De Datos Series De Tiempo para encontrar características similares en la información permite identificar conocimiento en la Toma de Decisiones. 4. Es orientado a la información relevante de la organización: En Minería De Datos la información se clasifica en base a los aspectos de interés para la empresa.2 Criterio de éxito de la minería de datos El proyecto con minería de datos nos proporcionara un cierto grado de exactitud predictiva este grado se ajustara a la realidad si contamos con datos precisos y que se ajusten a la realidad del negocio. se diseña para consultar eficientemente información relativa a las actividades básicas de la organización. compras y producción. como ventas. Ricardo Mendoza Rivera Practicas Pre-I 71 . construir y cargar una base de Datos relacional a un Data Mining coadyuva a establecer estrategias para la toma de decisiones. etc. Es integrado: integra datos recogidos de diferentes sistemas operacionales de la organización y/o fuentes externas. Esta integración se hace estableciendo una consistencia en las convenciones para nombrar los datos. es decir.3. y no para soportar los procesos que se realizan en ella. Demostrar como el generar pruebas de clasificación. Demostrar que con la transformación de la información correspondiente a un periodo de trabajo del sistema actual almacenado en tablas planas hacia una base de datos relacional permite establecer objetivos a alcanzar en la toma de decisiones. Conocer como el modelar.

4. Ricardo Mendoza Rivera Practicas Pre-I 72 .1.1 Plan del proyecto Figura 4. Plan Proyecto Ing.UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA 4.4 Producir el plan proyecto 4.

El asistente está diseñado para guiarle en el proceso de creación de una estructura de minería de datos y un modelo inicial de minería de datos relacionado. En Business Intelligence Development Studio. para automatizar tareas como la creación de predicciones o la actualización de modelos y para crear soluciones de minería de datos de texto.UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA 4. Puede utilizar el asistente para definir estructuras y modelos que utilicen técnicas de minería de datos específicas para analizar datos.4. el Asistente para minería de datos facilita la creación de estructuras y de modelos de minería de datos basados en orígenes de datos OLAP y relacionales. Las siguientes secciones proporcionan más información sobre las herramientas de minería de datos de SQL Server. Asimismo. SQL Server Integration Services contiene herramientas útiles para limpiar datos. Ricardo Mendoza Rivera Practicas Pre-I 73 . SQL Server Management Studio proporciona herramientas que puede utilizar para administrar y explorar los modelos de minería de datos una vez creados. Puede utilizar el Diseñador de minería de datos para perfeccionar la definición de modelos de minería datos y explorar y trabajar con los resultados del modelo. incluye las tareas Ing. Usar las herramientas de minería de datos Microsoft SQL Server Analysis Services proporciona herramientas que puede utilizar para crear soluciones de minería de datos que le permitan resolver problemas empresariales concretos. Asistente para minería de datos El Asistente para minería de datos es el punto de partida en Business Intelligence Development Studio para crear soluciones de minería de datos.2 Evaluación inicial de herramientas y técnicas La información de todos los movimientos del hospital esta almacenada en el gestor SQL SERVER es por este motivo que elegimos.

Management Studio también contiene un editor de consultas que puede utilizar para diseñar y ejecutar consultas de Extensiones de minería de datos (DMX). examinar. como ver y procesar los modelos o crear predicciones a partir de ellos. Una tabla contendría los clientes probables y la otra los clientes que posiblemente no adquirirán ningún producto. SQL Server Management Studio Después de crear e implementar modelos de minería de datos en un servidor.UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA necesarias para seleccionar un algoritmo y un origen de datos y para definir una tabla de escenarios. comparar y crear predicciones de los modelos de minería de datos existentes. Ing. Por ejemplo. como procesar un modelo de minería de datos y crear consultas de predicción. A continuación podría utilizar el paquete para crear una predicción. puede utilizar SQL Server Management Studio para realizar tareas de administración y exploración. separando los clientes potenciales en dos tablas. si dispone de un modelo de minería de datos generado a partir de un conjunto de datos de posibles clientes. puede crear un paquete de Integration Services que actualice automáticamente el modelo cada vez que el conjunto de datos se actualice con nuevos clientes. Ricardo Mendoza Rivera Practicas Pre-I 74 . En el diseñador puede administrar las estructuras de minería de datos y crear nuevos modelos de minería de datos. Diseñador de minería de datos El Diseñador de minería de datos se abre después de utilizar el Asistente para minería de datos para crear una estructura de minería de datos y un modelo de minería de datos inicial. Transformaciones y tareas de minería de datos en Integration Services SQL Server Integration Services proporciona herramientas que puede utilizar para automatizar tareas comunes de minería de datos. así como implementar.

Sign up to vote on this title
UsefulNot useful