You are on page 1of 62

UNIVERSIDAD PERUANA UNIN

FACULTAD DE INGENIERA Y ARQUITECTURA


EP Ingeniera de Sistemas y Arquitectura

PROYECTO DE INVESTIGACION

Implementacin de una metodologa para sectorizar pacientes


en el consumo de Medicamentos con el algoritmo de k-means
utilizando Data Mart y Datamining en la Clnica Americana
Juliaca 2015.

Autor
Bach. Daniel E. Gatica Quispe

Asesor
Ing. David Mamani Pari

Juliaca, junio de 2016

INTRODUCCIN
La Tecnologa de la Informacin se ha convertido en la actualidad en una
herramienta clave en los ms importantes procesos dentro de las
organizaciones. La creciente competitividad del mercado y la globalizacin de
la industria nos hacen pensar que para las organizaciones ya no basta con slo
cumplir sus objetivos y metas individuales, sino que es necesario plantearse
nuevos retos. Puesto que cada vez es ms necesaria la innovacin y el
planeamiento estratgico que permita a las organizaciones trascender con su
producto o servicio, es que se requiere tomar medidas que permitan a cada
organizacin destacar en su mercado y tener mayor acogida.
Actualmente el mercado ya no slo busca un producto que satisfaga sus
necesidades, siempre busca algo ms. Los clientes ya no salen a buscar el
mercado, es el mercado el que debe buscar al cliente. Para poder llegar mejor
al cliente es necesario tomar decisiones que involucren a toda la organizacin,
pero estas decisiones deben estar sustentadas en una base segura y confiable.
Un componente indispensable en la toma de decisiones es el manejo eficaz
y eficiente de los datos y la informacin que forma parte del conocimiento de la
organizacin. En este contexto es donde aparecen conceptos como el de
Inteligencia de Negocios, Datamart que es una base de datos departamental,
especializada en el almacenamiento de los datos de un rea de negocio
especfica y que apoyados en tcnicas, herramientas, estrategias y
metodologas, buscan brindar a las organizaciones, en base a la informacin
que stas poseen, los parmetros e indicadores que se necesitan para el
proceso de la toma de decisiones (Reyes, 2007)
En el mercado existen numerosas herramientas que apoyan la
implementacin de soluciones de Inteligencia de Negocios, pero muy pocas
organizaciones las utilizan en nuestro pas debido a diversos factores como la
falta de conocimiento en el tema, el alto costo que implica implantar una
plataforma informtica de este tipo o porque las existentes presentan
limitaciones en sus funcionalidades que no les permite adaptarse al espectro
de requerimientos de las empresas. En otros casos, stas soluciones no estn
integradas o no ofrecen apoyo para todas las etapas de un proyecto de
Inteligencia de Negocios.
La Organizaciones dedicadas a la atencin de la Salud, asisten a un proceso
de creciente informatizacin. La mayor parte de las aplicaciones an se
vinculan con procesos netamente administrativo-contables, pero los datos
estrictamente mdicos y estrictamente el consumo de medicamentos aun no lo

2
est. La Bases de Datos transaccionales propias de la organizacin mdica en
estudio no escapa a los problemas que afectan a las organizaciones de los
otros sectores, y los analistas se enfrentan a muchos problemas en cuanto a la
Restriccin de los Datos. El control de medicamentos y especialmente, su
abastecimiento a tiempo, es uno de los problemas con ms repercusin en los
procesos de la Clnica Americana Juliaca.
El presente proyecto de investigacin enumera y describe cada uno de los
aspectos realizados dentro del trabajo de investigacin, que se llevar a cabo
en la sectorizacin del consumo de medicamentos en la Clnica Americana -
Juliaca, con el fin de implementar una metodologa de inteligencia de negocio
que permita el anlisis de informacin y a la vez apoye en la toma de
decisiones a las autoridades la Clnica.

RESUMEN
La Minera de Datos (Data Mining) es la bsqueda de patrones interesantes

y de regularidades importantes en grandes bases de datos. La minera de

datos inteligente utiliza mtodos de aprendizaje automtico para descubrir y

enumerar patrones presentes en los datos. Una forma para describir los

3
atributos de una entidad de una base de datos es utilizar algoritmos de

segmentacin o clasificacin. El presente trabajo, propone un mtodo para el

anlisis de datos, para evaluar la forma con la que se consumen los

medicamentos en la Clnica Americana Juliaca, poder identificar algunas

realidades o caractersticas no observables que produciran desabastecimiento

o insatisfaccin del paciente, y para que sirva como una herramienta en la toma

de decisin sobre el abastecimiento de medicamentos en la Clnica Americana.

En esta investigacin, se utilizan tcnicas para la Extraccin, Transformacin y

Carga de datos, y para la construccin de un Datamart, para finalmente un

algoritmo de minera de datos adecuado para el tipo de informacin que se

encuentra contenida

INDICE
INTRODUCCIN........................................................................................................2

4
RESUMEN...................................................................................................................4

CAPTULO I................................................................................................................7

Ttulo.............................................................................................................................7

1. Identificacin del problema................................................................................7

2. Planteamiento de le Investigacin......................................................................9

3. Objetivo General...............................................................................................10

4. Justificacin......................................................................................................11

CAPITULO II.............................................................................................................12

2. Marco Terico...................................................................................................12

2.1. Business Intelligence (BI).................................................................................12

2.2. Cules son los beneficios que aporta el BI?.....................................13

2.3. Datawarehousing..............................................................................................14

2.3.1. Modelo multidimensional......................................................................15

2.4. Data Mart.................................................................................................18

2.4.1. Diferencias entre DataMart y Datawarehouse.......................................19

2.5. Migrar los datos: ETL (Extract, Transform, Load)...................................21

2.5.1. Extraer los datos.....................................................................................22

2.5.2. Transformar los datos............................................................................23

2.6. Sistemas transaccionales...................................................................................24

2.6.2. Modelo Relacional........................................................................................25

2.6.3. Modelo multidimensional.............................................................................26

2.7. Cubos OLAP.....................................................................................................27


5
2.8. Datamining........................................................................................................29

2.9. Algoritmo K-Means..........................................................................................29

2.10. WEKA...........................................................................................................31

CAPITULO III............................................................................................................33

3. Marco Metodolgico.........................................................................................33

3.1. Levantamiento de bibliografa..........................................................................33

3.2. Sistema de Modelado........................................................................................33

4. Materiales y Mtodos........................................................................................35

4.1. Lugar de ejecucin y tipo de Investigacin......................................................35

5. Cronograma de actividades...............................................................................36

Captulo IV: Resultados y discusin...........................................................................37

4.1 Resultados obtenidos........................................................................................37

4.2 Validacin.........................................................................................................38

4.2.1. Infraestructura, costos y recursos humanos..............................................55

4.3 Discusin final..................................................................................................56

Captulo V: Conclusiones y Recomendaciones..........................................................57

Referencias.................................................................................................................61

6
CAPTULO I
Ttulo
Implementacin de una metodologa para sectorizar pacientes en el consumo de

Medicamentos con el algoritmo de k-means utilizando Data Mart y Datamining en la

Clnica Americana Juliaca 2015.

1. Identificacin del problema


La Tecnologa de la Informacin se ha convertido en la actualidad en una

herramienta clave en los ms importantes procesos dentro de las organizaciones. La

creciente competitividad del mercado y la globalizacin de la industria nos hacen pensar

que para las organizaciones ya no basta con slo cumplir sus objetivos y metas

individuales, sino que es necesario plantearse nuevos retos. Puesto que cada vez es ms

necesaria la innovacin y el planeamiento estratgico que permita a las organizaciones

trascender con su producto o servicio, es que se requiere tomar medidas que permitan a

cada organizacin destacar en su mercado y tener mayor acogida.

Actualmente el mercado ya no slo busca un producto que satisfaga sus necesidades,

siempre busca algo ms. Los clientes ya no salen a buscar el mercado, es el mercado el

que debe buscar al cliente. Para poder llegar mejor al cliente es necesario tomar

decisiones que involucren a toda la organizacin, pero estas decisiones deben estar

sustentadas en una base segura y confiable. (Cabero Aimenara, 2007)

Reyes (2007) explica que un componente indispensable en la toma de decisiones es

el manejo eficaz y eficiente de los datos y la informacin que forma parte del

conocimiento de la organizacin. En este contexto es donde aparecen conceptos como el

de Inteligencia de Negocios, Datamart que es una base de datos departamental,

especializada en el almacenamiento de los datos de un rea de negocio especfica y que

7
apoyados en tcnicas, herramientas, estrategias y metodologas, buscan brindar a las

organizaciones, en base a la informacin que stas poseen, los parmetros e indicadores

que se necesitan para el proceso de la toma de decisiones.

En el mercado existen numerosas herramientas que apoyan la implementacin de

soluciones de Inteligencia de Negocios, pero muy pocas organizaciones las utilizan en

nuestro pas debido a diversos factores como la falta de conocimiento en el tema, el alto

costo que implica implantar una plataforma informtica de este tipo o porque las

existentes presentan limitaciones en sus funcionalidades que no les permite adaptarse al

espectro de requerimientos de las empresas. En otros casos, estas soluciones no estn

integradas o no ofrecen apoyo para todas las etapas de un proyecto de Inteligencia de

Negocios. (Harjinder & et.al, 1996)

La Organizaciones dedicadas a la atencin de la Salud, asisten a un proceso de

creciente informatizacin. La mayor parte de las aplicaciones an se vinculan con

procesos netamente administrativo-contables, pero los datos estrictamente mdicos y

estrictamente el consumo de medicamentos aun no lo est. La Bases de Datos

transaccionales propias de la organizacin mdica en estudio no escapa a los

problemas que afectan a las organizaciones de los otros sectores, y los analistas se

enfrentan a muchos problemas en cuanto al encarcelamiento de Datos. El control de

medicamentos y especialmente, su abastecimiento a tiempo, es uno de los problemas

con ms repercusin en los procesos de la Clnica Americana Juliaca.

El presente proyecto de investigacin enumera y describe cada uno de los aspectos

realizados dentro del trabajo de investigacin, que se llevar a cabo en la sectorizacin

del consumo de medicamentos en la Clnica Americana - Juliaca, con el fin de disear y

desarrollar una metodologa de inteligencia de negocio que permita el anlisis de

informacin y a la vez apoye en la toma de decisiones a las autoridades la Clnica.

8
2. Planteamiento de le Investigacin
Como en Cualquier institucin de salud asisten a un proceso de creciente

informatizacin y el Control de medicamentos y especialmente su abastecimiento a

tiempo, es el problema con repercusin en los procesos de la Clnica.

Los usuarios que toman decisiones y planifican da a da, a mediano plazo o a largo

plazo, la calidad, disponibilidad y presentacin de la informacin juegan un papel

importante. Este tipo de usuarios necesitan disponer de informacin tanto consolidada

como detallada que le permita el anlisis de informacin en cuanto al control de los

medicamentos, y a la vez apoye en la toma de decisiones.

En resumen, no se tiene una clasificacin de los pacientes que acuden a la clnica

Amrica, de acuerdo a las caractersticas de sus consumos de medicamentos, que

ayudara a la toma de decisiones en el abastecimiento de medicamentos para la Clnica.

Para dar solucin al problema se plantea se toma una muestra de un periodo

determinado, desde la fuente de datos transaccional de un sistema desarrollado para el

control de medicamentos e histricos del cada paciente.

Las Tecnologas de Informacin nos ha propuesto para la toma de mejores decisiones

dentro de la Organizacin como el caso de Clnica Amrica y una de estas tecnologas

para esta toma de decisiones se usara Inteligencia de Negocios, Datamart que es una

base de datos departamental, especializada en el almacenamiento de los datos de un rea

de negocio especfica y que apoyados en tcnicas, herramientas, estrategias y

metodologas, buscan brindar a las organizaciones, en base a la informacin que stas

poseen, los parmetros e indicadores que se necesitan para el proceso de la toma de

decisiones.

9
3. Objetivo General
Implementar Data Mart utilizando las tecnologas data warehouse, Minera de Datos

y algoritmo K-Means para sectorizar el consumo de Medicamentos en la Clnica

Americana Juliaca.

a. Objetivos Especficos
Analizar la informacin del control de medicamentos en la Clnica

Americana para el desarrollo del sistema Data Mart.


Desarrollar el Data Mart , mediante la metodologa Datamarting

integrando las tecnologas data warehouse y OLAP con el Algoritmo K-

Means del consumo de medicamentos en la Clnica Americana-Juliaca.

10
4. Justificacin
En la Actualidad las organizaciones en salud asisten a un proceso de creciente

informatizacin. La mayor parte de las aplicaciones an se vinculan con procesos

netamente administrativos contables y menos hablando de los medicamentos, pero el

grado de informatizacin de datos estrictamente mdicos es cada vez mayor. El control

de medicamentos y especficamente, su abastecimiento y sectorizacin es uno de los

problemas con ms repercusin en los procesos de la Clnica Americana.

La atencin farmacoteraputica eficaz, oportuna y eficiente constituye un

componente de calidad de los servicios de atencin tanto a pacientes hospitalizados

como a los que acuden a la consulta ambulatoria dentro de la Clnica Amrica. Para que

esta atencin tenga las caractersticas mencionadas, los integrantes del equipo de salud

deben participar en forma responsable y contar con el compromiso de las autoridades

sanitarias y administrativas juntamente con la implantacin de data warehouse, Minera

de Datos y algoritmo K-Means para sectorizar el consumo de medicamentos.

11
CAPITULO II
2. Marco Terico
Esta primera parte se presenta el marco terico necesario para comprender el

concepto de la Inteligencia de Negocios sobre el cual est basado el presente trabajo de

investigacin. Se presentan las definiciones de conceptos bsicos para comprender el

tema en mencin y otros que se han considerado tiles por estar relacionados con el

tema de Inteligencia de Negocios.

A continuacin se presentan las definiciones que han sido consideradas necesarias

establecer previamente por su relacin con el tema, luego se define el concepto de

Inteligencia de Negocios, Sistemas transaccionales, Data Warehouse, Data Mart y

Cubos OLAP.

2.1. Business Intelligence (BI)


El primero que acu el trmino fue Howard Dresner que, cuando era consultor de

Gartner, populariz Business Intelligence o BI como un trmino paraguas para describir

un conjunto de conceptos y mtodos que mejoraran la toma de decisiones, utilizando

informacin sobre lo que haba sucedido (hechos). Mediante el uso de tecnologas y las

metodologas de Business Intelligence pretendemos convertir datos en informacin y a

partir de la informacin ser capaces de descubrir conocimiento.

BI es un proceso interactivo para explorar y analizar informacin estructurada sobre

un rea (normalmente almacenada en un datawarehouse), para descubrir tendencias o

patrones, a partir de los cuales derivar ideas y extraer conclusiones.

12
El proceso de Business Intelligence incluye la comunicacin de los descubrimientos

y efectuar los cambios. Las reas incluyen clientes, proveedores, productos, servicios y

competidores. (Cano, 2007)

2.2. Cules son los beneficios que aporta el BI?


Uno de los objetivos bsicos de los sistemas de informacin es que nos ayuden a la

toma de decisiones. Cuando un responsable tiene que tomar una decisin pide o busca

informacin, que le servir para reducir la incertidumbre. Sin embargo, aunque todos la

utilicen, no todos los responsables recogen la misma informacin: depende de muchos

factores, como pueden ser su experiencia, formacin, disponibilidad, etc. Del mismo

modo, los responsables pueden necesitar recoger ms o menos informacin

dependiendo que su mayor o menor aversin al riesgo.

Los beneficios que se pueden obtener a travs del uso de BI pueden ser de distintos

tipos (Direccion nacional de micro y pequea empresa., 2009):

Beneficios tangibles, por ejemplo: reduccin de costes, generacin de

ingresos, reduccin de tiempos para las distintas actividades del negocio.

Beneficios intangibles: el hecho de que tengamos disponible la informacin

para la toma de decisiones har que ms usuarios utilicen dicha informacin

para tomar decisiones y mejorar la nuestra posicin competitiva.

Beneficios estratgicos: Todos aquellos que nos facilitan la formulacin de la

estrategia, es decir, a qu clientes, mercados o con qu productos dirigirnos.

13
2.3. Datawarehousing

Un DataWarehouse es un repositorio central o coleccin de datos en la cual se


encuentra integrada la informacin de la organizacin y que se usa como soporte para el
proceso de toma de decisiones gerenciales.
El concepto de DataWarehouse comenz a surgir cuando las organizaciones
tuvieron la necesidad de usar los datos que cargaban a travs de sus sistemas
operacionales para planeamiento y toma de decisiones. Para cumplir estos objetivos se
necesitan efectuar consultas que sumarizan los datos, y que si se hacen sobre los
sistemas operacionales reducen mucho la performance de las transacciones que se estn
haciendo al mismo tiempo. Fue entonces que se decidi separar los datos usados para
reportes y toma de decisiones de los sistemas operacionales y disear y construir
DataWarehouses para almacenar estos datos. (Kimball, 2004)

Para mostrar de manera grfica los aspectos comunes a todos los datawarehouses
mencionados anteriormente, se propone la figura 1, que representa en s la arquitectura
general de un datawarehouse.

Figura 1 Arquitectura Datawarehouse

14
2.3.1. Modelo multidimensional

El modelo multidimensional, permite tener datos organizados en torno a hechos,

que tienen unos atributos, que pueden verse con mayor o menor detalle segn ciertas

dimensiones (Kimball, 2004). Los conceptos importantes que se manejan dentro del

modelo multidimensional son:

Hecho: corresponde a la actividad de la empresa que se desea representar,

por ejemplo, las ventas de un supermercado.

Medidas: son el conjunto de indicadores del hecho que se escogi para

representar. Generalmente responden a la pregunta Cunto? Retomando el

ejemplo anterior, las medidas para el hecho de las ventas podran ser: Cuntos

productos se vendieron?, Cunto fue el total de la venta en pesos? Cunto

costaron esos productos vendidos?

Dimensiones: son las que van a caracterizar al hecho y responden a las

preguntas Dnde? Cundo? Qu? Siguiendo con ejemplo, las dimensiones

para el hecho de las ventas podran ser: la fecha de la venta, la hora, o el lugar.

Granularidad o jerarquias: corresponde al nivel de detalle que ser

almacenado en las dimensiones. Por ejemplo: para la dimensin de tiempo

podemos tener: ao, semestre, trimestre, mes, semana, da, hora.

Una vez comprendidos estos conceptos, podemos definir los elementos de los

que se compone el modelo multidimensional para su implementacin: las tablas y los

esquemas . (Kimball, 2004)

15
Existen dos tipos de tablas, que se muestran grficamente en la figura 2:

Tabla hecho: en ella se almacenan las medidas y las claves de las tablas de

dimensin u otras medidas derivadas, conocidas como funciones de agregacin.

Tabla de dimensin: contiene los datos descriptivos de cada dimensin,

tambin conocidos como atributos de la dimensin.

Figura 2 Ejemplo de tablas hecho y dimensin

Los esquemas son colecciones de tablas y pueden ser de dos tipos:

Un esquema multidimensional puede instrumentarse usando un esquema

relacional en estrella (Star Schema) o usando un esquema copo de nieve (Show Flake

Schema) [30]. Un esquema en estrella est formado por una tabla por cada dimensin y

una tabla principal de hechos. En la tabla de hechos cada uno de los atributos es a una

llave extranjera hacia cada tabla de dimensin como se puede apreciar en la figura 3

16
Figura 3 Esquema en estrella
En un esquema copo de nieve las tablas de dimensiones estn normalizadas. Esto

evita redundancia en los datos. Este esquema representa mejor la semntica de las

dimensiones del ambiente de los negocios, ya que tiene un acceso ms directo a los

datos La figura 4 muestra el esquema copo de nieve de nuestro ejemplo.

Figura 4 Esquema copo de nieve.

17
2.4. Data Mart
Es un subconjunto de los datos de un datawarehouse, normalmente en la forma de

informacin resumida que soporta los requerimientos de un departamento o funcin de

negocio particular.

Un data mart puede ser considerado como un centro de distribucin, creado para

servir ms eficientemente a un segmento de usuarios. En algunos casos el data mart,

como centro de distribucin, es creado desde un datawarehouse, aunque es ms comn

su creacin directa sin enlace a un datawarehouse (Kimball, 2004).

La manera de desarrollar e implementar Data marts (bodegas de datos a nivel

departamental) en una empresa, est relacionada con los requerimientos especficos de

los distintos anlisis que se quiere realizar en cada departamento, as como la estructura

general que sta posea. Existen tres modelos de desarrollo generales, Top Down, Botton

Up y el modelo Paralelo adems se cuenta con los modelos de desarrollo alternativos.[7]

Unido al trabajo que se pretende alcanzar con la Data warehouse, debe mencionarse

que los Data marts son bodegas de datos con informacin de inters particular para un

determinado sector de la empresa y aun que su enfoque sea para una sola perspectiva

departamental, esto no lo exime de tener que seguir los lineamientos generales de

implementacin que posee la Data warehouse; stos son: (Reyes, 2007).

o Recoleccin y anlisis de requerimientos.

o Creacin del modelo de datos y su diseo fsico.

o Definicin de los orgenes de los datos.

o Seleccin de la tecnologa de base de datos y hardware a utilizar.

18
o Extraccin de los datos desde sistemas operacionales, su limpieza,

transformacin y carga a la Data warehouse, en este caso especfico al

Data mart.

o Seleccin de las formas de acceso, herramientas de anlisis, reporte y

presentacin.

o Desarrollo de los reportes y aplicaciones necesarias.

o Actualizacin del Data mart.

2.4.1. Diferencias entre DataMart y Datawarehouse

El datamart se centra solamente en los requerimientos de usuarios asociados con

un departamento o funcin de negocio.

Los datamarts normalmente no contienen datos operacionales detallados a

diferencia de datawarehouse.

Debido a que los datamarts contienen menos informacin comparados con los

datawarehouse, los datamarts son ms fcilmente entendibles y navegables.

La existencia de los datamarts crea nuevas formas de pensar cuando se disean los

repositorios corporativos de datos. Algunas corporaciones reemplazan completamente el

concepto de tener un DataWarehouse central, por varios datamarts ms pequeos que se

alimenten directamente de los sistemas operacionales.

19
Figura 5 Arquitectura 1 datamarts

Otras compaas usan datamarts para complementar sus DataWarehouses. Mueven

datos desde el DataWarehouse hacia varios datamarts con el fin de permitir un anlisis

ms eficiente. La separacin de los datos se determina segn criterios como

departamentos, reas geogrficas, periodos de tiempo, etc.

Figura 6 Arquitectura 2 datamarts

20
Finalmente, algunas organizaciones usan sus datamarts como el primer paso de

almacenamiento de datos operacionales. Luego los datos de todos los datamarts se

replican en un DataWarehouse corporativo central.

Figura 7 Arquitectura 3 datamarts

2.5. Migrar los datos: ETL (Extract, Transform, Load)

La migracin de los datos desde las fuentes operacionales al DataWarehouse requiere

la necesidad de procesos para extraer, transformar y cargar los datos, actividad que se

conoce como ETL.

21
Figura 8 Arquitectura ETL

2.5.1. Extraer los datos


Desde la perspectiva de las bases de datos operacionales, la mejor manera de extraer los

datos seria duplicar el contenido completo de los todos los archivos y bases de datos

operacionales y pasar este conjunto de datos duplicado al personal que se encarga de crear el

DataWarehouse. Sin embargo, los programas ETL tendran que manejar archivos gigantes

cuando en realidad solo se necesita un subconjunto de los datos de origen.

Desde la perspectiva del DataWarehouse la manera ms simple de hacer la extraccin de datos

seria ordenar, filtrar, limpiar y agregar todos los datos requeridos si es posible en un solo

paso y en las mismas fuentes. Sin embargo, en algunas organizaciones este proceso

podra impactar tanto que los sistemas operacionales tendran que suspenderse las actividades

por varias horas.

En la mayora de las organizaciones, se dispone con suerte de 3 o 4 horas para poder

procesar las bases de datos operacionales antes de que los sistemas se pongan en funcionamiento

para la actividad diaria. Esta es la principal razn por la que la migracin de los datos se divide

en tres procesos separados de extraccin, transformacin y carga.

La solucin a este conflicto es un compromiso entre la eficiencia del proceso ETL y el

tiempo de uso de las fuentes de datos. Es decir, los programas de extraccin de datos se tienen

22
que disear para maximizar la eficiencia del procesamiento ETL, pero adems deben liberar las

fuentes de datos lo antes posible, aunque este es un objetivo bastante difcil de lograr.

Una de las razones que dificultan la tarea de extraccin es la redundancia de datos en los

sistemas operacionales, redundancia que los programas de extraccin deben detectar. Por

ejemplo, el elemento de datos que almacena el nombre del cliente puede existir en varios

archivos y bases de datos de origen. Estas ocurrencias redundantes deben consolidarse, con

el procesamiento y bsqueda en las tablas que eso implica.

Adems, es necesario examinar las interdependencias operacionales entre los distintos archivos

y bases de datos de donde se va a extraer la informacin para determinar la secuencia de

ejecucin de los programas de extraccin.

2.5.2. Transformar los datos


La mayor parte del trabajo ETL ocurre durante la transformacin de los datos, porque

es donde se requieren la integracin y limpieza de datos. La extraccin y la carga solo

representan el 20 % del proceso.

La conciliacin de datos, al igual que la limpieza son actividades que tienden a estar

ausentes en el proceso ETL. La organizacin desaprovecha la oportunidad de poner

orden en el caos de los datos y continan desplazando los datos desde las fuentes al

DataWarehouse tal cual estn. Su nico objetivo es que la estructura receptora de los

datos no los rechace por razones tcnicas como claves duplicadas, o tipos y longitudes

que no coincidan.

Sin embargo, la gente de negocios espera calidad y consistencia en los datos, y esto

se logra aplicando todas las transformaciones necesarias y realizando los chequeos

correspondientes.

Dnde se guardan los datos que se estn migrando?

23
Las actividades de ordenar, mezclar, y transformar los datos requieren un espacio de

almacenamiento temporal para guardar los resultados intermedios. Estos archivos y

tablas temporales pueden llegar a ser ms grandes que el almacenamiento de origen. La

alternativa general es ir guardando estos datos directamente en tablas del

DataWarehouse.

2.6. Sistemas transaccionales


Los sistemas transaccionales u operacionales son sistemas que permiten a la empresa

manejar sus transacciones u operaciones cotidianas. Estos son los sistemas que operan

sobre el backbone" (columna vertebral) de cualquier empresa o institucin, entre las

que se tiene como ejemplo sistemas de ingreso de rdenes de trabajo, inventario,

fabricacin, planilla y contabilidad, entre otros.

Debido a su volumen e importancia en la organizacin, los sistemas operacionales

siempre han sido las primeras partes de la empresa a ser informatizados. A travs de los

aos, estos sistemas operacionales se han extendido, revisados, mejorados y mantenidos

al punto que hoy, ellos son completamente integrados en la organizacin.

Actualmente, la mayora de las organizaciones grandes de todo el mundo, no podran

operar sin sus sistemas operacionales y los datos que estos sistemas mantienen. Sin

embargo, estos sistemas, debido al volumen y frecuencia de actualizacin que tienen, no

permiten o dificultan la obtencin de los siguientes tipos de informacin:

Reportes Histricos, debido a que no almacenan informacin histrica o la

almacenan en estructuras de datos con diseos complejos en la mayor

parte de los casos.

Estudios histricos por indicador, debido a que en la mayor parte de los

casos la estructura de la informacin no lo permite o no fue diseada para

soportarlo.

24
Reportes estadsticos, debido a que la informacin cambia constantemente

y los resultados tambin podran variar con cada ejecucin del reporte. Un

diseo complicado dificulta en gran parte la obtencin de reportes

estadsticos debido a que la informacin se encuentra en varias fuentes de

datos.

Para mostrar de manera grfica los aspectos comunes a todos los data

warehouse mencionados anteriormente, ver en la Figura 2. la arquitectura

general de un data warehouse.

2.6.1. Tipos de modelado de datos de un Data Warehouse

Para modelar un Data Warehouse se puede hacer de dos maneras

atreves del modelo relacional y multidimensional. A continuacin se

explica a detalle los modelos.

2.6.2. Modelo Relacional


El modelo relacional se puede usar para implementar un data

warehouse aplicando, sobre el modelo de datos de la empresa, un proceso

de transformacin de datos de 8 pasos. (Inmon, 2005) Los 8 pasos a

seguir son los siguientes:

1. Seleccin de los datos de inters.

2. Aadir la dimensin de tiempo a las llaves.

3. Aadir datos derivados.

4. Determinar el nivel de granularidad.

5. Sumarizar los datos.

6. Mezclar entidades.

7. Crear arreglos.
25
8. Separar los datos.

2.6.3. Modelo multidimensional


El modelo multidimensional, permite tener datos organizados en

torno a hechos, que tienen unos atributos o medidas, que pueden verse

con mayor o menor detalle segn ciertas dimensiones (Imhoff, 2003.)Se

puede encontrar ms informacin al respecto en las siguiente referencias

(Gonzlez, 2007). Los conceptos importantes que se manejan dentro del

modelo multidimensional son:

Hecho: corresponde a la actividad de la empresa que se desea

representar, por ejemplo, las ventas de un supermercado.

Medidas: son el conjunto de indicadores del hecho que se escogi

para representar. Generalmente responden a la pregunta Cunto?

Retomando el ejemplo anterior, las medidas para el hecho de las

ventas podran ser: Cuntos productos se vendieron?, Cunto fue el

total de la venta en pesos? Cunto costaron esos productos

vendidos?

Dimensiones: son las que van a caracterizar al hecho y responden a

las preguntas Dnde? Cundo? Qu? Siguiendo con ejemplo, las

dimensiones para el hecho de las ventas podran ser: la fecha de la

venta, la hora, o el lugar.

Granularidad: corresponde al nivel de detalle que ser almacenado

en las dimensiones. Por ejemplo: para la dimensin de tiempo

podemos tener: ao, semestre, trimestre, mes, semana, da, hora. Una

vez comprendidos estos conceptos, podemos definir los elementos de

los que se compone el modelo multidimensional para su

26
implementacin: las tablas y los esquemas (Inmon, 2005). Existen

dos tipos de tablas las cuales son:

Tabla hecho: en ella se almacenan las medidas y las claves de las

tablas de dimensin u otras medidas derivadas, conocidas como

funciones de agregacin.

Tabla de dimensin: contiene los datos descriptivos de cada

dimensin, tambin conocidos como atributos de la dimensin.

2.7. Cubos OLAP


On Line Analytical Processing (OLAP) permite analizar grandes

cantidades de datos a travs del modelo multidimensional. Esta

representacin permite mostrar los datos al usuario final de una manera

ms sencilla y tiene la flexibilidad necesaria para cambiar las

perspectivas de visin de la informacin. OLAP permite realizar anlisis

histricos complejos con amplia manipulacin de los datos (Kimball,

2004) .

La ventaja de OLAP es que se pueden elaborar reportes dinmicos que

los usuarios pueden manipular y su vez obtener ms detalle sobre stos,

de acuerdo a sus necesidades especficas. Esto se debe principalmente a

la simplicidad de las estructuras dimensionales, de donde se extrae la

informacin resumida. (Kettle, 2009)

El anlisis de la informacin se realiza mediante cubos, que son

colecciones de dimensiones y medidas, alrededor un hecho particular,

sobre los cuales se aplican distintos operadores para dar los resultados a

las consultas que se ejecuten. En la figura 9 se puede observar que un

27
cubo se compone de ejes, representados por las dimensiones y celdas que

son las medidas que se quieren analizar.

Figura 9 Cubo de OLAP


Existen 2 tcnicas de almacenamiento/implementacin de cubos de OLAP,

como se muestra en la figura 3, que son:

ROLAP: fsicamente, el data warehouse se construye sobre una base de

datos relacional . Una ventaja de este tipo de esquema es que se pueden

utilizar los sistemas de administracin de bases de datos relacionales, y

sus herramientas asociadas, adems de que el costo necesario para la

implementacin es mucho menor.

MOLAP: fsicamente, el data warehouse se construye sobre estructuras

basadas en matrices multidimensionales . Las ventajas de este esquema

son la especializacin y la correspondencia entre el nivel lgico y el

nivel fsico. Por esto generalmente MOLAP es ms eficiente, debido a

que es una solucin ad-hoc.

28
Figura 10 Tcnicas de almacenamiento de cubos ROLAP y MOLAP
La diferencia entre ambas tcnicas radica en la implementacin fsica y no en

la manera en que las herramientas muestren los resultados de las consultas,

muchos autores lo manejan de esta manera.

2.8. Datamining.
Es la extraccin de informacin oculta y predecible de grandes bases

de datos, es una tecnologa para ayudar a las compaas a descubrir

informacin relevante en sus bases de informacin. Las herramientas de

Datamining clasifican y predicen futuras tendencias y comportamientos.

Los algoritmos de Clustering(o clasificacin) identifican clusters en

los datos, donde un cluster es una coleccin de datos similares. La

similitud puede medirse mediante funciones de distancia, especificadas

por los usuarios o por expertos. (Tapia, Ruiz, & Ruiz, 2007)

2.9. Algoritmo K-Means


Uno de los algoritmos mas utilizados para hacer clustering es el K-

medias (kmeans), que se caracteriza por su sencillez. (Pascual , Pla, &

Snchez, 1996)

29
a. En primer lugar se debe especificar por adelantado cuantos

clusters se van a crear, este es el parmetro k, para lo cual se

selecciona k elementos aleatoriamente que representaran el centro

o media de cada cluster.

b. A continuacin cada una de las instancias, ejemplos es asignada al

centro del cluster mas cercano de acuerdo con la distancia

Euclideana que le separa de el.

c. Para cada uno de los clusters as construidos se calcula en

centroide de todas sus instancias y estos centroides son tomados

como los nuevos centros de sus respectivos clusters.

d. Finalmente se repite el proceso completo con los nuevos centros

de los clusters.

e. Para iteracin continua hasta que se repita la asignacin de los

mismos ejemplos a los mismos clusters ya que los puntos

centrales de los cluster se han estabilizado y permanecern

invariables despus de cada interacion.

30
Tabla 1 Ejemplo de Algoritmo K-Means

2.10. WEKA
De las herramientas vistas en el captulo 3 para aplicar algoritmos de data mining a

los datos almacenados en el datawarehouse se escogi Weka por las siguientes razones

(Weka, 2009):

Posee el algoritmo Apriori.

Puede manejar grandes volmenes de datos.

Se puede integrar a otras aplicaciones o acceder a sus mtodos a travs de lneas de

comando.

31
Puede tomar los datos desde cualquier fuente con archivos de datos.

Algunos de los inconvenientes que present Weka durante su funcionamiento fueron

los siguientes:

Maneja todos los conjuntos de datos que est analizando en memoria, lo que hace

que sus requerimientos de memoria en ocasiones puedan ser muy grandes.

No puede conectarse con un manejador de bases de datos relacional para extraer los

datos a minar directamente desde l, se tienen que usar archivos intermedios.

Ya que justificamos la seleccin de Weka, para el anlisis de data mining podemos

proceder a aplicar los algoritmos a nuestros datos almacenados en el datawarehouse.

Para poder aplicar los mtodos en Weka, la informacin debe estar en un formato

llamado .arff (Attribute-Relation File Format) que contiene la informacin de los

atributos con sus posibles valores y las instancias de estos.

32
CAPITULO III
3. Marco Metodolgico.
Una de las principales caracterstica que define este estudio es su metodologa de

desarrollo. Este proyecto ser implementado con La suite Pentaho BI segn la

metodologa Datamarting el cual consta de cuatro fases.

3.1. Levantamiento de bibliografa


Se busca y recopila informacin de libros, tesis, artculos cientficos necesarios para

comprender los conceptos fundamentales para la construccin de un data warehouse, la

construccin de cubos para realizar anlisis multidimensional, as como para conocer

los trabajos similares, realizados hasta la fecha, respecto al tema. La informacin fue

organizada en trminos de anlisis, diseo, construccin e implementacin.

3.2. Sistema de Modelado


DatamartingInstitute (2006), creo la metodologa Datamarting con la

finalidad de construir el Datamart. Esta metodologa permite controlar todo el

ciclo de vida del desarrollo e implementacin de un proyecto de Inteligencia de

Negocios.

Para el desarrollo de este proyecto se usar la Metodologa Datamarting, el

cual contiene cuatro fases (ArsonGroup, 2009), as como se muestra en la Figura

11.

33
Figura 11 Etapas del Datamarting

A continuacin, se describe cada una de las etapas de esta metodologa:

Planificacin; en esta etapa se prepara el plan de actividades por etapas,


gestionando los recursos. (ArsonGroup, 2009). 34
Anlisis; se prepara el modelo multidimensional y las especificaciones de
carga de datos. (ArsonGroup, 2009).
Desarrollo; realizar los procesos de carga de datos de todo el modelo e
implementarlo en la herramienta OLAP. (ArsonGroup, 2009).
Implementacin; entrenar a los usuarios para institucionalizar el proyecto de
Inteligencia de Negocios. (ArsonGroup, 2009).
Implementacin

El sistema ser implementado con la suite Pentaho BI segn la metodologa

Datamarting el cual consta de cuatro fases. (Pentaho. Pentahi BI Suite, 2009)

La suite Pentaho de BI ha adoptado las siguientes herramientas:

Kettle

Mondrian

Weka

4. Materiales y Mtodos
4.1. Lugar de ejecucin y tipo de Investigacin
El presente estudio es de tipo Descriptivo se establece especficamente en la
Farmacia de la Clnica Americana de Juliaca (CAJ), ya que no cuenta con una
sectorizacin de paciente con relacin a los medicamentos que se consume.
Asimismo, se definen pasos a seguir para obtener resultados que apunten a
conseguir una mejor toma de decisin en el abastecimiento de medicamentos

5. Cronograma de actividades
Las actividades de ejecucin del proyecto de desarrollo de un Data Mart de LA

CLINICA AMERICANA JULIACA se efectuara acorde a la a la Tabla 2, la misma que

35
est estructurado y detallada de acuerdo a la metodologa Datamarting, vista a

continuacin.

Tabla 2 Cronograma de Actividades


Procesos
Tiempo (Meses)
de
Metodologa Actividades ABR MAY JUN JUL AGO SET OCT NOV
Incepcin Revisin Bibliogrfica X X
Estructuracin del perfil
Elaboracin del proyecto y asuntos X X
tcnicos del proyecto.
Construccin Aplicacin X X X

Anlisis de los Datos X X


Discusin de
X X
Transicin Resultados
Redaccin del Informe X X X X X

Sustentacin X

Fuente: Propia

36
Captulo IV: Resultados y discusin

4. Estado actual y perspectivas


El objetivo de este captulo es mostrar los resultados obtenidos con la realizacin de
la tesis de aplicacin, el estado actual del prototipo, su validacin y las mejoras que se
pueden hacer al mismo, as como las conclusiones que se obtuvieron de este trabajo de
Tesis y de los procesos de la inteligencia empresarial que aplicamos en la Clnica
Amrica-Juliaca

4.1 Resultados obtenidos


Este trabajo de investigacin propuso una metodologa que cumpla con el
objetivo final definido y en cada uno de los pasos de la metodologa con la cual se
trabaj, se trat de aplicar la mejor tcnica, ya que este proyecto no contempla la
creacin de ningn software para este fin, sino explica todos los mtodos usados que
cumplieron el objetivo
planteado.

As mismo el conjunto de actividades realizadas a lo largo de esta tesis permiti


desarrollar conocimiento terico-prctico para el rea computacional, del cual
obtuvimos los siguientes resultados, que corresponden a los objetivos especficos
propuestos en el captulo I:

Analizar la informacin del control de medicamentos en la Clnica Americana


para el desarrollo del sistema Data Mart.
Desarrollar el Data Mart , mediante la metodologa Datamarting integrando las
tecnologas data Warehouse y OLAP con el Algoritmo K-Means del consumo de
medicamentos en la Clnica Americana-Juliaca.

37
4.2 Validacin
La capa de anlisis, pas por una etapa de validacin, para corroborar que el
sistema estuviera entregando resultados viables y confiables. Esta etapa fue muy
importante, ya que los resultados entregados sern usados por el administrador de
la empresa como justificacin para las decisiones que sean tomadas.
Para los reportes de OLAP, se tuvo una entrevista con el encargado de la
Farmacia para verificar que los datos estuvieran correctos. Esta validacin
permiti comprobar que los resultados obtenidos de los reportes eran correctos.
De esta manera el usuario tiene la seguridad de tomar decisiones basadas en
resultados confiables, as mismo l puede realizar nuevos clculos con los
resultados obtenidos y de igual manera se estarn manejando resultados fiables.

En la tabla 3.1 mostramos los tiempos que tardan en ejecutarse cada una de las
etapas que conforman el proceso.

Tabla 3 Tiempo de Ejecucin

Actividad Tiempo Total tiempo


Consultas OLAP 3 seg. por
consulta

Como vemos el rango de tiempo de ejecucin en el que nos encontramos es


bastante satisfactorio, para el volumen de datos de la Clnica que puede llegar a ser
de 10,000 ventas por mes.

Seleccin de atributos para el Anlisis Del Algoritmo K-Means

A continuacin, definiremos los atributos a ser evaluados por el algoritmo:

SEXO:
Gnero de las personas que acuden de la Clnica
Sus posibles valores son:
M : Masculino
F: Femenino

38
ESTCIV:
Estado Civil de las personas que acuden a la Clnica Americana
Sus posibles valores son:
S: Soltero
C: Casado
V: Viudo
D: Divorciado

CODLOGISTICO:
Cdigo Logstico con el que se adquieren los
medicamentos. En la data considerada, se
encontr que se registraron 94 medicamentos. Sus
posibles valores son:

CAJ010250008 AMIKACINA 500 MG/2 ML


CAJ010250007 AMIKACINA 100 MG/2 ML
CAJ010250041 CEFTAZIDIMA 1 G
CAJ010250139 VANCOMICINA 500 MG P/INF IV
CAJ011100037 PIRIDOXINA 50 MG
CAJ011100050 TIAMINA 100 MG
CAJ010500020 SALBUTAMOL 100 MG P/INHAL AEROSOL
CAJ010250086 GENTAMICINA 80 MG
CAJ011050016 CLORURO DE SODIO 0.9 % X 1,000 ML
CAJ011050042 MANITOL 20 % X 500 ML P/INF.IV
CAJ011050074
SOLUCION PARA DIALISIS PERITONEAL (SISTEMA
DESCONEXION)
CAJ011050072 SOLUCION PARA DIALISIS PERITONEAL (SD) 1.5 % X 2 L
CAJ011050076 SOLUCION PARA DIALISIS PERITONEAL (SD) 4.25 % X 2
L
A020101394 OBTURADOR DE PLASTICO PARA PROLONGADOR
CAJ011050058 SOLUCION PARA DIALISIS PERITONEAL 1.5 % X 5
LITROS
A020100998

39
EQUIPO DE VENOCLISIS EMPAQUE INDIVIDUAL ESTERIL
DESCART
CAJ010850037 SELEGILINA 5 MG
CAJ011000001 ALPRAZOLAM 0.5 MG
CAJ010400046 ORCIPRENALINA 0.5 MG/ML
CAJ010250101 METRONIDAZOL 500 MG
CAJ010450021 LACTULOSA 3,33 G/5 ML JARABE X 100 ML O MAS
CAJ010850022 FENOBARBITAL 100 MG/ML X 2 ML
CAJ010250089 IMIPENEM + CILASTATIN 500 MG + 500 MG
CAJ010900011 DERIVADOS DE METILCELULOSA GOTAS OFTALMICAS
CAJ010050009 CODEINA FOSFATO 60 MG
CAJ010750018 INSULINA NPH HUMANA 100 U.I./ML
CAJ010250042 CEFTRIAXONA 1 G
CAJ010150008 METILPREDNISOLONA (SODIO SUCCINATO, ACETATO)
500 MG
CAJ010250080 FLUCONAZOL 100 MG P/INF.IV
CAJ010750016 INSULINA CRISTALINA HUMANA 100 U.I./ML
CAJ010250103 METRONIDAZOL 500 MG/100 ML
CAJ010250003 ACICLOVIR 250 MG P/INF.IV
CAJ010250095 KANAMICINA 1 G
CAJ010750031 OCTREOTIDE (ANALOGO DE SOMATOSTATINA) 0.2
MG/ML
CAJ011050014 CLORURO DE POTASIO 20 % X 10 ML
CAJ010400093 GELATINA ENLAZADA 4 % X 500 ML
CAJ011050024 DEXTROSA 10 % X 1,000 ML
CAJ010050045 TRAMADOL (CLORHIDRATO) 50 MG/ML
CAJ010350015 CICLOSPORINA 100 MG/ML X 50 ML SOLUCION O
MICROEMULSION
CAJ010700029 HEPARINA SODICA 5,000 U.I./ML
CAJ010500005 BECLOMETASONA 50 MG P/INHAL AEROSOL
CAJ011050010 ALBUMINA HUMANA 25 % X 50 ML
CAJ010250036 CEFEPIME 1 G
CAJ010400021 ENALAPRIL 10 MG
CAJ010800026 VACUNA CONTRA LA HEPATITIS B MONODOSIS

40
CAJ010400020 DOPAMINA 200 MG/5 ML P/INF.IV
CAJ010700044 CONCENTRADO DE FACTOR VIII 250 U.I.
CAJ010350017 CICLOSPORIN 50 MG (MICROEMULSION)
CAJ010700014
FACTOR DE CRECIMIENTO DE COLONIAS GRANULOCITICAS Y
MACR
CAJ011050061 SOLUCION PARA DIALISIS PERITONEAL 4.25 % X 5
LITROS
CAJ010200006 FLUMAZENIL 0.1 MG/ML X 5 ML
CAJ011050027 DEXTROSA 5 % X 1,000 ML
A990000006 AGUA DE BICARBONATADA
CAJ010250045 CIPROFLOXACINO 200 MG
CAJ010250024 BENCILPENICILINA PROCAINICA 1,000,000 U.I. (CON
DILUYEN
CAJ010350042 FOLINATO CALCICO 15 MG
CAJ010250009 AMINOPENICILINA/INHIBIDOR DE BETALACTAMASA
1,000/200-50
CAJ010250043 CEFUROXIMA 750 MG
CAJ010850006 BIPERIDENO 5 MG/ML
CAJ010700001 ACIDO FOLICO 0.5 MG
CAJ010650028 NISTATINA 25,000 U.I./G X 60 G CREMA VAGINAL
CAJ010550012 CLOTRIMAZOL 1 % CREMA
CAJ010650016 ESTROGENOS CREMA
CAJ010750041 CARBONATO DE CALCIO 500 MG O MAS DE ION CA
CAJ010650030 OXITOCINA 10 U.I./ML
CAJ010700008 ERITROPOYETINA HUMANA 2,000 U.I.
CAJ010350016 CICLOSPORINA 25 MG (MICROEMULSION)
CAJ010700002 ACIDO TRANEXAMICO 1 G
CAJ010250037 CEFOTAXIMA 0.5 G
CAJ010250084 GANCICLOVIR 500 MG
CAJ010400019 DOBUTAMINA 250 MG/20 ML P/INF.IV
CAJ010250021 ANFOTERICINA B 50 MG P/INF.IV
CAJ011050002 AGUA DESTILADA X 1,000 ML
CAJ010250047 CIPROFLOXACINO 500 MG (TABLETA RANURADA)

41
CAJ010400037 ISOSORBIDE DINITRATO 5 MG SUBLINGUAL
CAJ010400060 NITROGLICERINA 5 MG/ML
CAJ011050031 DEXTROSA 50 % X 1000 ML
CAJ010450034 SALES DE REHIDRATACION ORAL (FORMULA OMS)
27.9 G PARA D
CAJ010050035 PARACETAMOL 500 MG
CAJ010250159 ACICLOVIR 400 MG
CAJ010050018 IBUPROFENO 400 MG
CAJ010250061 DICLOXACILINA 500 MG
CAJ010050002 ALOPURINOL 100 MG
CAJ010400039 LOVASTATINA 20 MG
CAJ010850017 FENITOINA 100 MG
CAJ011000009 DIAZEPAM 10 MG
CAJ010750021 LEVOTIROXINA SODICA 0.1 MG
CAJ010350057 MERCAPTOPURINA 50 MG
CAJ010250133 SULFAMETOXAZOL + TRIMETROPRIMA 400 + 80 MG
CAJ010500017 IPRATROPIO BROMURO 20 MG P/INHAL AEROSOL
CAJ010250051 CLINDAMICINA 600 MG
CAJ010100014 LIDOCAINA 2 % X 20 ML
CAJ010250035 CEFAZOLINA 1 G
CAJ010500013 FENOTEROL 0.5 % X 20 ML P/INHAL

CONTROL CON RESETA MDICA:


Indica si el medicamento despachado, es controlado o no con receta
mdica. Esto quiere decir, que para su adscripcin, necesita pasar su
receta mdica. Generalmente corresponde a medicamentos para cuyo
diagnostico correspondiente son de gravedad. Sus posibles valores son:
S : SI
N: NO

DIAGNOS:
Corresponden a todos los diagnsticos catalogados en la Organizacin
Mundial de la Salud. Los valores se detallan en [OMS].

42
PRESENTA:
Nos muestra las presentaciones con las que pueden presentarse los
medicamentos. Sus posibles valores son:
o AMPOLLETA
o BALON
o CAPSULA
o CARTUCHO
o CENTIMETRO CUBICO
o EQUIPOS
o FRASCO
o GRAMO
o OVULOS
o POTE
o SOBRE
o SUPOSITORIO
o TABLETA
o TONELADA
o TUBO
o UNIDAD
SERVICIO:
Son los Servicios con los que cuenta el Clinica
Sus posibles valores son:
CPQ: CIRUGIA PLASTICA
MI1: MED.1
NEF: NEFROLOGIA
URO: UROLOGIA
NER: NEUROLOGIA DES. VAS. CEREBRO
NEC: NEUROCIRUGIA
OTO: OTORRINO LARINGOLOGIA
NEU: NEUMOLOGIA
CTC: CIR. DE TORAX
HEM: HEMATOLOGIA CLINICA
ONC: ONCOLOGIA
CG1: CIR.1
GAS: GASTROENTEROLOGIA
END: ENDOCRINOLOGIA
DER: DERMATOLOGIA
GIN: GINECOLOGIA GENERAL

43
PQG: PSIQ. GENERAL
REU: REUMATOLOGIA
CIM: CIR. DE MANOS Y MICROCIR. EXTREMIDADES
OBA: OBSTETRICIA ALTO RIESGO
TRA: TRAUMATOLOGIA ORTOPEDIA
CLP: CLIN. PEDIATRICA
MI2: MED.2
MI3: MED.3
MI5: MED.5
CG2: CIR.2
CG3: CIR.3
CG5: CIR.5
CIP: CIR. PEDIATRICA
CCC: CIR. CAB. CUELLO. MAXIMOFACIAL
EME: EMERGENCIA
GER: GERIATRIA
UCI: SERV. CUIDADOS INTERMEDIOS
UTI: SERV. CUIDADO INTENSIVOS
ANE: ANESTESIOLOGIA
CGV: CIR.5 (PARES)
UCP: UTI PEDIATRICA
NUI: INTERMEDIOS-NEUROCIRUGIA
NUC: UCI NEUROCIRUGIA
UQT: U. QUEMADOS INTERMEDIO
ODO: ODONTOLOGIA
OFT: OFTAMOLOGIA
CG4: CIR.4
PTH: TRANSPLANTE/CIR. DE HIGADO.
UCN: UNID. CUID. INTERM. DE NEUMOLOGIA
UOB: SALA DE CUIDADOS ESPEC.
PERINATALES
UIM: UNID. CUID. INTERM. DE MI2
UM1: UNID. CUID. INTERM. DE MI1
UNC: UNID. CUID. INTERM. DE NER

44
UM5: UNID. CUID. INTERM. DE MI5
URG: UROLOGIA GENERAL DAMAS
CPO: CLINICA PEDIATRICA ONCOLOGICA
SEGURO:
Son los Servicios con los que cuenta la Clnica Americana.
Sus posibles valores son:
HIJO
OBLIGATORIO__DEPEND.
CONYUGE
PENSIONISTA
VIUDEZ
SEGURO_PERSONAL
TERCERO
SERVIDORA_DEL_HOGAR
INVALIDEZ
SEGURO_FAMILIAR
FOPASEF
SEG.UNIVERSITARIO
SEG.INDEPENDIENTE
TRABAJADOR_IPSS
FACULT._CONTINUADOR
CONCUBINO
FACULT._INDEPENDTE
CONSTRUCCION_CIVIL
MAGISTERIO
HIJO_INCAPACITADO
AMA_DE_CASA
POR_REGULARIZAR
CHOFER_PROFESIONAL
Aplicacin del Algoritmo k-means
Tomando en cuenta que el algoritmo a utilizar es el K-means, vamos a explicar como
trabaja este algoritmo sobre nuestra data, para finalmente poder obtener nuestros
grupos (o sectores) de pacientes que es lo que finalmente se desea.

45
En el Capitulo II, se ve ms detalladamente la forma como trabaja el algoritmo sobre
los datos. Segn lo visto en (Ferrero, 2006), y tomando como referencia una de las
dimensiones de nuestra data, podemos correr el algoritmo de manera equivalente.

Utilizando una WEKA herramienta que contempla este algoritmo, podemos realizar
las siguientes visualizaciones:

1. La fuente de datos, producto de una consulta desde nuestro datamart:

Figura 12 Visualizacin de Data Cargada

Reemplazar Figura

En la parte izquierda, vemos los atributos seleccionados. En la parte derecha, vemos


los valores del atributo seleccionado. Y en la parte inferior, vemos una grfica con la
relacin entre el atributo seleccionado, y otros atributos (Distribucin de Frecuencia).

2. A continuacin, se trata debe hacer muchas pruebas de aplicacin del algoritmo a la


fuente de datos, con el objetivo de encontrar el mejor nmero de clusters para el
proyecto.
El punto en el que el algoritmo encuentra los clusters adecuados, es cuando las
caractersticas de cada cluster, no varan de iteracin en iteracin.
En este punto, usamos los siguientes parmetros:

46
NumClusters = 2 Speed=10
NumClusters = 3 Speed=10
NumClusters = 4 Speed=10
NumClusters = 5 Speed=10
NumClusters = 6 Speed=10
NumClusters = 7 Speed=10
NumClusters = 8 Speed=10

Con estos resultados, vemos que los clusters quedan como sigue:
- El nmero de instancias que el algoritmo ha
utilizado. Es el nmero de registros sobre el cual acta el algoritmo. En este caso son
3725 tems o registros.
- El nmero de atributos por los que se van a agrupar u obtener los clusters. En este caso
son 8:
Sexo, Estado Civil, Controlado, Cdigo Logstico, Diagnostico, Presentacin, Servicio
y Seguro.
- Vemos que el grupo que contiene mayor cantidad
de poblacin lo tiene el primer cluster (28%). Esto
quiere decir, que la mayor cantidad de pacientes
atendidos presenta las caractersticas del cluster
encontrado.
- Los clusters encontrados en la data seleccionada
utilizando el algoritmo K-Means:

47
Cluster 0: F C A010250042 N J15.9 AMPOLLETA MI3
OBLIGATORIO_DEPENDIENTE.
Sexo: FEMENINO
Estado Civil: CASADO
CodLog: A010250042 (CEFTRIAXONA 1 G)
Control: NO CONTROLADO
Diagnostico: J15.9 (NEUMONIA BACTERIANA, NO
ESPECIFICADA)
Tipo de Presentacin: AMPOLLETA
Servicio: MI3
Tipo de Seguro: OBLIGATORIO_DEPENDIENTE

Cluster 1: F S A010250042 N C95.9 AMPOLLETA MI3 HIJO


Sexo: FEMENINO
Estado Civil: SOLTERO
CodLog: A010250042 (CEFTRIAXONA 1 G)
Control: NO CONTROLADO
Diagnostico: C95.9 (LEUCEMIA, NO ESPECIFICADA)
Tipo de Presentacin: AMPOLLETA
Servicio: MI3
Tipo de Seguro: HIJO

Cluster 2: F S A011050072 N18.0 N FRASCO NEF CONYUGE


Sexo: FEMENINO
Estado Civil: SOLTERO
CodLog: A011050072 (SOLUCION PARA DIALISIS
PERITONEAL (SD) 1.5 % X 2 L)
Control: NO CONTROLADO
Diagnostico: N18.0 (INSUFICIENCIA RENAL TERMINAL)
Tipo de Presentacin: FRASCO
Servicio: NEFROLOGA
Tipo de Seguro: CONYUGE

48
Cluster 3:
M S A010250139 N K70.3 AMPOLLETA UTI
OBLIGATORIO__DEPENDIENTE

Sexo: MASCULINO
Estado Civil: SOLTERO
CodLog: A010250139 (VANCOMICINA 500 MG P/INF IV)
Control: NO CONTROLADO
Diagnostico: k70.3 (CIRROSIS HEPATICA ALCOHOLICA)
Tipo de Presentacin: AMPOLLETA
Servicio: UTI
Tipo de Seguro: OBLIGATORIO DEPENDIENTE.

Cluster 4 M S A010250042 E11.5 N AMPOLLETA URO HIJO


Sexo: MASCULINO
Estado Civil: SOLTERO
CodLog: A010250042 (CEFTRIAXONA 1 G)
Control: NO CONTROLADO
Diagnostico: E11.5 (DIABETES MELLITUS NO
INSULINODEPENDIENTE, CON COMPLICACIONES
CIRCULATORIAS PERIFERICAS)
Tipo de Presentacin: AMPOLLETA
Servicio: URO
Tipo de Seguro: HIJO

Cluster 5: M C A010250041 J96.9 N AMPOLLETA MI2 PENSIONISTA.


Sexo: MASCULINO
Estado Civil: CASADO
CodLog: A010250041 (CEFTAZIDIMA 1 G)
Control: NO CONTROLADO
Diagnostico: J96.9 (INSUFICIENCIA RESPIRATORIA, NO
ESPECIFICADA)
Tipo de Presentacin: AMPOLLETA

49
Servicio: MI2
Tipo de Seguro: PENSIONISTA

Cluster 6:
M C A010250080 N39.0 N AMPOLLETA UCI
PENSIONISTA

Sexo: MASCULINO
Estado Civil: CASADO
CodLog: A010250080 (FLUCONAZOL 100 MG P/INF.IV)
Control: NO CONTROLADO

Diagnostico: N39.0 (INFECCION DE VIAS URINARIAS, SITIO


NO ESPECIFICADO)
Tipo de Presentacin: AMPOLLETA
Servicio: UCI
Tipo de Seguro: PENSIONISTA

Cluster 7
F C A010250089 J96.0 N AMPOLLETA URO CONYUGUE.
Sexo: FEMENINO
Estado Civil: CASADO
CodLog: A010250089 (IMIPENEM + CILASTATIN 500 MG +
500 MG)
Control: NO CONTROLADO
Diagnostico: J96.0 (INSUFICIENCIA RESPIRATORIA AGUDA)
Tipo de Presentacin: AMPOLLETA
Servicio: URO
Tipo de Seguro: CONYUGUE

Esto quiere decir que dentro de toda nuestra informacin almacenada, tenemos varios
grupos o sectores cuyo centro (centroide) presenta las siguientes caractersticas:

50
i. Mujeres con seguro de Obligatorio Dependiente, casadas cuyo diagnstico es
Neumona bacteriana, no especificada, procedentes de Medicina Interna
usando como medicamento
ii. Los mdicos que los tratan, les recetan medicamentos no controlados,
mayoritariamente Ceftriaxona 1G. en presentacin de Ampolleta.
iii. Mujeres con seguro de Hijo, solteros cuyo diagnostico es Leucemia, no
especificada, procedentes de Medicina Interna 3. Los mdicos que los tratan,
les recetan medicamentos no controlados, mayoritariamente Ceftriaxona 1 G
en presentacin de ampolleta.
iv. Mujeres con seguro de Cnyuge, solteras cuyo diagnostico es Insuficiencia
Renal Terminal, procedentes de Nefrologa. Los mdicos que los tratan, les
recetan medicamentos no controlados, mayoritariamente Solucin para
dilisis peritoneal (SD) 1.5% x 2L en presentacin de frasco.
v. Varones con seguro de Obligatorio Dependiente, solteros cuyo diagnostico
es Cirrosis heptica alcohlica, procedentes de UTI. Los mdicos que los
tratan, les recetan medicamentos No Controlados, mayoritariamente
Vancomicina 500 mg. p/inf IV en presentacin de ampolleta.
vi. Varones con seguro de Hijo, solteros cuyo diagnostico es Diabetes mellitus
no insulinodependiente, con complicaciones circulatorias perifricas, No
Especificada, procedentes de Urologa. Los mdicos que los tratan, les
recetan medicamentos No Controlados, mayoritariamente Ceftriaxona 1G en
presentacin de ampolleta.
vii. Varones con seguro de Pensionista, casados cuyo diagnostico es Insuficiencia
Respiratoria, no especificada, procedentes de Medicina Interna
viii. Los mdicos que los tratan, les recetan medicamentos No Controlados,
mayoritariamente Ceftazidima 1 G en presentacin de ampolleta.
ix. Varones con seguro de Pensionista, casados cuyo diagnostico es Infeccin de
vas urinarias, sitio no especificado, procedentes de Unidades de Cuidados
Intermedios. Los mdicos que los tratan, les recetan medicamentos No
controlados, mayoritariamente Fluconazol 100 Mg. p/inf IV en presentacin
de ampolleta.
x. Mujeres con seguro Cnyugue, casadas cuyo diagnostico es Insuficiencia
respiratoria aguda, procedentes de Urologa. Los mdicos que los tratan, les
recetan medicamentos no controlados, mayoritariamente Imipenem +
Colastatin 500 Mg. + 500Mg. en presentacin de ampolleta.
xi. Se inici utilizando como variables a evaluar o a agrupar, datos como: Sexo,
Estado Civil, etc. pues lo que se desea, es confirmar los consumos de los

51
mismos, y la existencia de tipos o grupos de pacientes que consumen
medicamentos.
xii. A continuacin, presentamos algunos grficos correspondientes a los
resultados del algoritmo:

1. Resultado CLUSTERS vs. Atributo SEXO

52
2. Resultado CLUSTERS vs. Atributo ESTADOCIVIL

3. Resultado CLUSTERS vs. Atributo MEDICAMENTO

53
4. Resultado CLUSTERS vs. Atributo CONTROLADO

5. Resultado CLUSTERS vs. Atributo SERVICIO

54
Interpretacin de Graficos: Con estos grficos, podemos analizar algunas
caractersticas de los pacientes atendidos, en relacin a sus consumos de medicamentos.
7. La idea, es poder reconocer qu pacientes usan ciertos medicamentos y se encuentran
en estos Clusters, ya que es lo que, a sugerencia de los mdicos, les interesa analizar.
Los mdicos llevan un historial por grupos de pacientes. Este trabajo se focaliza en
obtener grupos de clusters, e identificar qu pacientes se encuentran en estos clusters,
para finalmente entregar los resultados a las reas mdicas para su respectivo anlisis.

4.2.1. Infraestructura, costos y recursos humanos


La infraestructura mnima necesaria para que el prototipo se desempee de manera
aceptable, se define a continuacin:

Cualquier sistema operativo


JVM versin 1.5 o superior
Procesador Intel Pentium IV a 3.2Ghz o superior
2GB en memoria RAM
100mb por cada 10,000 registros de espacio en disco (aproximadamente).

55
La infraestructura descrita anteriormente est considerada para efectuar nicamente
el proceso de inteligencia empresarial, si la Clnica Americana cuenta con una mquina
con stas caractersticas y puede compartirse para realizar las operaciones de anlisis,
entonces puede reutilizarse, de lo contrario ser preferible designar una mquina
especial para efectuar el procedimiento.

4.3 Discusin final


Con esta tesis se comprueba la factibilidad de la aplicacin del proceso de
inteligencia empresarial con la ayuda de la minera de datos, mediante la metodologa
propuesta, en la Clina Americana, lo que hasta ahora no se ha abordado con
profundidad, por cuestiones de infraestructura y recursos limitados para el proceso
como se explic en captulos anteriores.
Se comprob que si es factible la implementacin de las tcnicas de
datawarehousing, OLAP y que no se requieren de enormes volmenes de datos, con los
que generalmente cuentan las grandes empresas, como comnmente se piensa, para la
aplicacin de los algoritmos de K-means de datamining para que devuelvan resultados
ptimos y confiables.

56
Captulo V: Conclusiones y Recomendaciones
5.1. CONCLUSIONES
En el trascurso del desarrollo de la tesis se defini una metodologa de
sectorizacin usando el algoritmo k-means y las cuales hicieron el proceso de
implementacin ms ordenado y de acuerdo a los objetivos especficos se llegaron a las
siguientes conclusiones

Se logr analizar la informacin del control de medicamentos y a la vez se


dise un modelo multidimensional para el soporte de toma de decisiones,
basado en un esquema en estrella con las dimensiones de cliente,
medicamento, tipo_med entre otros, con sus respectivas jerarquas, hechos, y
atributos.

Se realiz el proceso de integracin de datos usando la herramienta de


software WEKA, con las trasformaciones necesarias para cargar los datos
que nos ayuden a realizar la sectorizacin.

Segn el Objetivo especifico 2 se desarrollo una data marth Aplicando


tcnicas de dataminig para luego utilizar usando especficamente el
algoritmo de K-MEANS, esto para el anlisis de sectorizacin.

Con esta tesis se comprueba la factibilidad de la aplicacin del proceso de


inteligencia empresarial con la ayuda de la minera de datos, mediante la
metodologa propuesta, en la Clina Americana, lo que hasta ahora no se ha
abordado con profundidad, por cuestiones de infraestructura y recursos
limitados para el proceso como se explic en captulos anteriores.

57
Los aportes principales de la tesis son:
Utilizacin de herramientas como Servicios de Minera de Datos. Con lo cual se ha
demostrado que se puede modelar sistemas de minera de datos, con algoritmos simples
en este caso K-means pero robustas para cualquier proyecto de
clusterizacin(sectorizacin).

El proyecto se convierte en el primer proyecto de la Regin, enfocado en el anlisis


del consumo de medicamentos utilizando el algoritmo de K-means.
Anterior a este proyecto, la Clnica no contaba con metodologas para analizar la
informacin de manera distinta a la operacional o transaccional. Con este proyecto, se
logra los siguiente:
Se puede Definir un modelo de trabajo para analizar cualquier rea de inters de
anlisis de datos.
Identificar al algoritmo K-means como el ideal para este tipo de proyectos donde
se pretende sectorizar o clasificar la informacin contenida.

Otras reas de estudio que tambin pueden resultar provechosas para la Clinica.

El proyecto a pesar de constituir una metodologa adecuada para encontrar algunas


debilidades en el abastecimiento de medicinas, tambin se encontr una oportunidad, si
se aplica la metodologa a un rea ms especfica como sera en el rea de diagnsticos,
debido a las siguientes razones:

Identificar los diagnsticos por los que los pacientes de nuestra zona acuden a la
Clnica americana y esto nos permitira conocer tambin, la realidad en la regin
en cuanto al tema de Salud personal.

Se Identific los diagnsticos ms comunes de la realidad que se tiene en la


Clnica, tambin nos permitira conocer la manera, como los medicamentos
sugeridos por el personal mdico, causan efecto a los pacientes. Si se llega a
determinar que el consumo de un determinado medicamento no causa cambios
en el seguimiento de un determinado diagnstico, se podra pensar, que los
criterios mdicos, no es suficiente para solucionar problemas comunes, o, en su

58
defecto, se podra evaluar la frmula de constitucin de ese medicamento, como
caso extremo.

Este proyecto pretende sirva como un modelo para futuros proyectos que tengan
relacin con la medicina, la psicologa, y en cualquier otro campo donde se puede
identificar tendencias de conductas o patrones de las mismas.

5.2. RECOMENDACIONES.

A continuacin, se describen las posibles ampliaciones del sistema que podrn


implementarse para brindar ms servicios de ayuda a la toma de decisiones, ya
sea incorporando nuevas herramientas o nuevas funcionalidades.
1. Complementar el trabajo, con Herramientas Especializadas de Inteligencia de
Negocios.
El datawarehouse y datamart estn diseados de manera de facilitar la
ampliacin y crecimiento del proyecto. Se pueden adoptar tambin herramientas
como:

Herramientas de Reporting: Construccin de consultas avanzadas,


distribucin y visualizacin de informacin orientadas al usuario final.
Adicionalmente, estas herramientas incorporan facilidades en la distribucin de
los reportes en la empresa.

Aplicacin de Algoritmos de Prediccin: La mejora en este tema, estara por el


lado de la prediccin. Existen algoritmos que facilitan la obtencin de patrones
de comportamiento, llegando al punto de predecir comportamientos de
determinado segmento de pacientes. Para este trabajo en particular, se aplicara a
predecir justamente, los medicamentos que
podran sufrir desabastecimiento para cualquier rea.

2. Ampliacin de reas y Departamentos.

59
La oportunidad en este punto, es bsicamente, extender el estudio hacia otras
reas como Laboratorio, las reas de diagnstico, etc. y poder complementar el
anlisis realizado en este trabajo.
A efectos de incorporar esta ampliacin ser necesario tener en cuenta la
integracin de todos los sistemas transaccionales, ya que determinada
informacin que disponen algunas reas y departamentos no est integrada con
los principales sistemas del Clnica Americana-Juliaca

60
Referencias
ArsonGroup. (29 de 07 de 2009). Expertos en Tecnologa de Negocios. Obtenido de

Expertos en Tecnologa de Negocios:

http://www.arsongroup.com/PDFs/BICase.pdf

Cano, J. (2007). Business Intelligence: Competir Con Informacin. . Banesto.: Press.

Direccion nacional de micro y pequea empresa. (20 de 07 de 2009). mypeperu.

Obtenido de mypeperu: http://www.mypeperu.gob.pe/

Ferrero, G. A. (2006). Deteccin de Patrones en Imgenes Mdicas. Buenos Aires:

Instituto Tecnolgico Buenos Aires .

Gonzlez, A. (2007). Inteligencia empresarial para la toma de decisiones en la PyME

enfocada en la administracin de la relacin con el cliente (CRM) utilizando

anlisis de la canasta de compra (MBA).

Harjinder, S., & et.al. (1996). La integracin de informacin para la mejor toma de

decisiones Data Warehousing. Lodon: Prentice Hall.

Imhoff, C. (2003.). Mastering Data Warehouse Design: Relational and Dimensional

Techniques, . USA: Wiley Publishing Inc.

Inmon, W. (2005). Building de DataWarehouse. USA: Wiley Publishing Inc.

Kettle, P. (20 de 06 de 2009). Pentaho Data Integration. Obtenido de Pentaho Data

Integration: http://kettle.pentaho.org/

Kimball, R. (2004). The Data Warehouse Toolkit series. Estados Unidos: Editorial

John Wiley & Sons.

Pascual , D., Pla, F., & Snchez, S. (1996). Algoritmos de agrupamiento . Cuba.

Pentaho. Pentahi BI Suite. (02 de 07 de 2009). Pentaho. Obtenido de Pentaho:

http://www.pentaho.com/products/discover_bi_suite.php

61
Reyes, M. (20 de 08 de 2007). Desarrollo de un Datamart de informacin Acadmica

de estudiantes de la escuela de Ciencias y sistemas de la facultad de ingenieria

de le USAC. Guatemala: Guatemala.

Tapia, I., Ruiz, M., & Ruiz, E. (2007). Una metodologa para sectorizar pacientes en el

consumo de medicamentos aplicando datamart y datamining en un hospital

industrial data. . Industrial data.

Weka. (7 de 7 de 2009). Data Mining Software in Java,. Obtenido de Data Mining

Software in Java,: http://www.cs.waikato.ac.nz/ml/weka/

62