Proyecto de Tesis Final

UNIVERSIDAD NACIONAL
SANTIAGO ANTNEZ DE MAYOLO

FACULTAD DE CIENCIAS
ESCUELA PROFESIONAL DE ESTADSTICA E INFORMTICA
Proyecto de tesis:
Aplicacin de Data Mining a los registros del rea de Emergencia del Hospital
Vctor Ramos Guardia Huaraz, periodo 2008-2013
Presentado por:
Bach. EMERSON DAMIN NORABUENA FIGUEROA

Asesor:
M.Sc. EDWIN JOHNY ASNATE SALAZAR
HUARAZ ANCASH
2014
TTULO DEL PROYECTO DE TESIS
Aplicacin de Data Mining a los Registros del rea de Emergencia del Hospital Vctor
Ramos Guardia Huaraz, periodo 2008-2013
1. EL PROBLEMA
1.1. Seleccin del problema
1.2. Justificacin de Estudio

En los ltimos tiempos las instituciones del sector privado y estatal en el Per se desarrollan y
adquieren mayor complejidad, por lo que la demanda de los consumidores y la competencia de
otras, han hecho que se necesite de una mayor explotacin de los datos y el anlisis de informacin
con el fin de priorizar los objetivos en la medicin, el control y anlisis de informacin de sus bases
de datos.
La aplicacin de minera de datos ha tenido grandes desarrollos en la ltima dcada, permitindoles
a los investigadores mostrar verdaderos xitos en reas como
diagnstico de enfermedades,
prevalencia de enfermedades, robtica, etc. (Wong 1991, Hill et al 1996, Wedding II y Cios 1996,
Faraway y Chatfield 1998).
La presente investigacin de estudio centra sus objetivos en la aplicacin de las tcnicas de minera
de datos con el fin de analizar los patrones y comportamientos de los registros del rea de
Emergencias del Hospital Vctor Ramos Guardia, periodo 2008-2013, para mejoras en la gestin
hospitalaria (reportes anuales, trimestrales, anuales de las atenciones generales de los pacientes de
las diferentes procedencias, diagnosticos, etc) de forma ptima para los procesos en toma de
decisiones por parte de los directivos en bien del Hospital y la poblacin.
Adems la identificacin de variables relevantes que influyen en la presencia y variables que

contribuyen al tratamiento de enfermedades, que permitan realizar futuros estudios mdicos,
sociales y tcnicos.
1.3. Objetivos de la investigacin

1.3.1. General
Analizar los patrones y comportamientos de los registros del rea de Emergencia del
Hospital Vctor Ramos Guardia Huaraz, periodo 2008-2013, mediante la aplicacin de
la minera de datos.
1.3.2. Especficos
- Aplicar Data Mining basados en la generalizacin de los registros del Servicio de
Emergencia del Hospital Vctor Ramos Guardia de la Ciudad de Huaraz, periodo 2010-2013.
- Aplicar Data Mining basados en el reconocimiento de patrones de los registros del Servicio
de Emergencia del Hospital Vctor Ramos Guardia de la Ciudad de Huaraz, periodo 20102013.
- Aplicar Data Mining basados en el agrupamiento de los registros del Servicio de
Emergencia del Hospital Vctor Ramos Guardia de la Ciudad de Huaraz, periodo 2010-2013.
- Aplicar Data Mining basados en la exploracin de asociacin de los registros del Servicio
de Emergencia del Hospital Vctor Ramos Guardia de la Ciudad de Huaraz, periodo 20102013.
2. BASES TEORICAS
2.1. Antecedentes del problema (Estudios)
CHEN, M.S HAN Y YU (USA, 1996) Data Mining: An Overview from Database Perspective.
IEEE Transactions on Knowledge and Data Engineering.En los ltimos aos han existido muchos
avances en las investigaciones y desarrollos relacionados con la minera de datos, como resultado,
se han desarrollado diversas tcnicas y sistemas relativos al data mining. Diferentes esquemas de
clasificacin pueden ser usados para categorizar mtodos y sistemas de minado de datos, como el
tipo de base de datos a estudiar (relacional, orientada a objetos, multimedia, etc.), el tipo de
conocimiento que se quiere extraer (reglas de asociacin, reglas de clasificacin, clustering, etc.),
as como las tcnicas que sern aplicadas en el proceso (basadas en patrones, teora estadstica,
teora matemtica, enfoques integradores, etc.).
HAN,J y KAMBER,M,(2000). Data Mining: Concepts and Techniques. San Francisco: Morgan
Kaufmann Publishers.Mediante el minado de reglas de asociacin se pueden encontrar
interesantes relaciones de asociacin o correlacin en los datos. Dada la gran cantidad de datos
que continuamente se recolectan y almacenan, muchas industrias se han interesado por encontrar
reglas de asociacin en sus bases de datos. El descubrimiento de interesantes relaciones de
asociacin en grandes cantidades de registros transaccionales, puede ayudar en diversos procesos
de toma de decisiones relacionados con el negocio, tales como el diseo de catlogos, la venta
cruzada, y el anlisis loss-leader.
Una regla de asociacin es un criterio que implica ciertas relaciones de asociacin entre distintos
objetos de una base de datos, tales como ocurren juntos o uno implica al otro.
Matemticamente se representa como una implicacin de la forma A B, en donde A y B

representan conjuntos de atributos con interseccin vaca
(A B =), de tal forma que la regla se presenta en un conjunto de transacciones D con una
confianza del %.
Un ejemplo de regla de asociacin sera: 40% de las transacciones que contienen nios tambin
contienen paales. En este caso el 40% es el nivel de confianza de la regla.
2.2. Planteamiento terico atingentes

2.2.1
BASES TERICAS DE DATA MINING
1) MINERIA DE DATOS
(CALDERON Neftaly, 2006).

La minera de datos es el proceso de detectar la informacin procesable de los conjuntos
grandes de datos. Utiliza el anlisis matemtico para deducir los patrones y tendencias que
existen en los datos. Normalmente, estos patrones no se pueden detectar mediante la
exploracin tradicional de los datos porque las relaciones son demasiado complejas o porque
hay demasiado datos.
Estos patrones y tendencias se pueden recopilar y definir como un modelo de minera de
datos. Los modelos de minera de datos se pueden aplicar en escenarios como los siguientes:
-
Pronstico: clculo de las ventas y prediccin de las cargas del servidor o del tiempo de
inactividad del servidor.
Riesgo y probabilidad: eleccin de los mejores clientes para la distribucin de correo

directo, determinacin del punto de equilibrio probable para los escenarios de riesgo, y
asignacin de probabilidades a diagnsticos y otros resultados.
Recomendaciones: determinacin de los productos que se pueden vender juntos y

generacin de recomendaciones.
Bsqueda de secuencias: anlisis de los artculos que los clientes han introducido en el
carrito de la compra y prediccin de posibles eventos.
Agrupacin: distribucin de clientes o eventos en grupos de elementos relacionados, y

anlisis y prediccin de afinidades.
La generacin de un modelo de minera de datos forma parte de un proceso mayor que

incluye desde la formulacin de preguntas acerca de los datos y la creacin de un modelo
para responderlas, hasta la implementacin del modelo en un entorno de trabajo. Este
proceso se puede definir mediante las seis etapas bsicas siguientes:
1. Definir el problema
2. Preparar los datos
3. Explorar los datos
4. Generar modelos
5. Explorar y validar los modelos
6. Implementar y actualizar los modelos
El siguiente diagrama describe las relaciones existentes entre cada paso del proceso y las
tecnologas Server que se pueden usar para completar cada paso.
Figura 1.Relaciones de del proceso y las tecnologas Server de Data Mining.
1. Definir el problema
La primera etapa del proceso de minera de datos, tal como se resalta en el siguiente
diagrama, consiste en definir claramente el problema y considerar formas de usar los datos
para proporcionar una respuesta para el mismo.
Figura 2. Etapa de Definir el problema en el proceso de Data Mining
Este paso incluye analizar los requisitos empresariales, definir el mbito del problema,
definir las mtricas por las que se evaluar el modelo y definir los objetivos concretos del
proyecto de minera de datos. Estas tareas se traducen en preguntas como las siguientes:
-
Qu est buscando? Qu tipos de relaciones intenta buscar?

-
Refleja el problema que est intentando resolver las directivas o procesos de la empresa?
Desea realizar predicciones a partir del modelo de minera de datos o solamente buscar
asociaciones y patrones interesantes?
Qu resultado o atributo desea predecir?

-
Qu tipo de datos tiene y qu tipo de informacin hay en cada columna? En caso de que
haya varias tablas, cmo se relacionan? Necesita limpiar, agregar o procesar los datos
antes de poder usarlos?
Cmo se distribuyen los datos? Los datos son estacionales? Los datos representan con
precisin los procesos de la empresa?
Para responder a estas preguntas, puede que deba dirigir un estudio de disponibilidad de
datos para investigar las necesidades de los usuarios de la empresa con respecto a los datos
disponibles. Si los datos no abarcan las necesidades de los usuarios, podra tener que volver a
definir el proyecto.
Tambin debe considerar las maneras en las que los resultados del modelo se pueden
incorporar en los indicadores de rendimiento clave (KPI) que se utilizan para medir el
progreso comercial.
2.
Preparar los datos

El segundo paso del proceso de minera de datos, como se indica en el siguiente diagrama,
consiste en consolidar y limpiar los datos identificados en el paso Definir el problema.
Figura 3. Etapa de Preparar los datos en el proceso de Data Mining
Los datos pueden estar dispersos en la empresa y almacenados en formatos distintos; tambin
pueden contener incoherencias como entradas que faltan o incorrectas. Por ejemplo, los datos
pueden mostrar que un cliente adquiri un producto incluso antes que se ofreciera en el
mercado o que el cliente compra regularmente en una tienda situada a 2.000 kilmetros de su
casa.
La limpieza de datos no solamente implica quitar los datos no vlidos o interpolar valores
que faltan, sino tambin buscar las correlaciones ocultas en los datos, identificar los orgenes
de datos que son ms precisos y determinar qu columnas son las ms adecuadas para el
anlisis. Por ejemplo, debera utilizar la fecha de envo o la fecha de pedido? Qu influye
ms en las ventas: la cantidad, el precio total o un precio con descuento? Los datos
incompletos, los datos incorrectos y las entradas que parecen independientes, pero que de
hecho estn estrechamente correlacionadas, pueden influir en los resultados del modelo de
maneras que no espera.
Por consiguiente, antes de empezar a generar los modelos de minera de datos, debera
identificar estos problemas y determinar cmo los corregir. En la minera de datos, por lo
general se trabaja con un conjunto de datos de gran tamao y no se puede examinar la
calidad de los datos de cada transaccin; por tanto, es posible que necesite usar herramientas
de generacin de perfiles de datos, y de limpieza y filtrado automtico de datos, como las
que se proporcionan en Integration Services, Microsoft SQL Server 2012 Master Data
Services o SQL Server Data Quality Services para explorar los datos y buscar incoherencias.
Es importante tener en cuenta que los datos que se usan para la minera de datos no necesitan
almacenarse en un cubo de procesamiento analtico en lnea (OLAP), ni siquiera en una base
de datos relacional, aunque puede usar ambos como orgenes de datos. Puede realizar
minera de datos mediante cualquier origen de datos definido como origen de datos de
Analysis Services. Por ejemplo, archivos de texto, libros de Excel o datos de otros
proveedores externos.
3. Explorar los Datos
El tercer paso del proceso de minera de datos, como se resalta en el siguiente diagrama,
consiste en explorar los datos preparados.
Figura 4. Etapa de Explorar los datos en el proceso de Data Mining
Debe conocer los datos para tomar las decisiones adecuadas al crear los modelos de minera
de datos. Entre las tcnicas de exploracin se incluyen calcular los valores mnimos y
mximos, calcular la media y las desviaciones estndar, y examinar la distribucin de los
datos. Por ejemplo, al revisar el mximo, el mnimo y los valores de la media se podra
determinar que los datos no son representativos de los clientes o procesos de negocio, y que
por consiguiente debe obtener ms datos equilibrados o revisar las suposiciones que son la
base de sus expectativas. Las desviaciones estndar y otros valores de distribucin pueden
proporcionar informacin til sobre la estabilidad y exactitud de los resultados. Una
desviacin estndar grande puede indicar que agregar ms datos podra ayudarle a mejorar el
modelo. Los datos que se desvan mucho de una distribucin estndar se podran sesgar o
podran representar una imagen precisa de un problema de la vida real, pero dificultar el
ajustar un modelo a los datos.
Al explorar los datos para conocer el problema empresarial, puede decidir si el conjunto de
datos contiene datos defectuosos y, a continuacin, puede inventar una estrategia para
corregir los problemas u obtener una descripcin ms profunda de los comportamientos que
son tpicos de su negocio.
Puede usar herramientas como Master Data Services para sondear los orgenes de datos
disponibles y determinar su disponibilidad para la minera de datos. Puede usar herramientas
como SQL Server Data Quality Services, o el generador de perfiles de datos de Integration
Services, para analizar la distribucin de los datos y solucionar problemas, como la

existencia de datos incorrectos o la falta de datos.
4. Generar Modelos
El cuarto paso del proceso de minera de datos, como se resalta en el siguiente diagrama,
consiste en generar el modelo o modelos de minera de datos.Usar los conocimientos
adquiridos en el paso Explorar los datos para definir y crear los modelos.
Figura 5. Etapa de Generar los Modelos en el proceso de Data Mining
Deber definir qu columnas de datos desea que se usen; para ello, crear una estructura de
minera de datos. La estructura de minera de datos se vincula al origen de datos, pero en
realidad no contiene ningn dato hasta que se procesa. Al procesar la estructura de minera
de datos, Analysis Services genera agregados y otra informacin estadstica que se puede
usar para el anlisis. Cualquier modelo de minera de datos que est basado en la estructura
puede utilizar esta informacin. Para obtener ms informacin acerca de cmo se relacionan
las estructuras de minera de datos con los modelos de minera de datos.
Contenedor que especifica las columnas que se usan para la entrada, el atributo que est
prediciendo y parmetros que indican al algoritmo cmo procesar los datos. El
procesamiento de un modelo a menudo se denomina entrenamiento. El entrenamiento hace
referencia al proceso de aplicar un algoritmo matemtico concreto a los datos de la estructura
para extraer patrones. Los patrones que encuentre en el proceso de entrenamiento dependern
de la seleccin de los datos de entrenamiento, el algoritmo que elija y cmo se haya
configurado el algoritmo.
5. Explorar y Validar los Modelos
El quinto paso del proceso de minera de datos, como se resalta en el siguiente diagrama,
consiste en explorar los modelos de minera de datos que ha generado y comprobar su
eficacia.
Figura 7.Etapa de Explorar y Validar los Modelos en el proceso de Data Mining
Antes de implementar un modelo en un entorno de produccin, es aconsejable probar si

funciona correctamente. Adems, al generar un modelo, normalmente se crean varios con
configuraciones diferentes y se prueban todos para ver cul ofrece los resultados mejores
para su problema y sus datos.
Analysis Services proporciona herramientas que ayudan a separar los datos en conjuntos de
datos de entrenamiento y pruebas, para que pueda evaluar con precisin el rendimiento de
todos los modelos en los mismos datos. El conjunto de datos de entrenamiento se utiliza para
generar el modelo y el conjunto de datos de prueba para comprobar la precisin del modelo
mediante la creacin de consultas de prediccin.
6. Implementar y Actualizar los Modelos

El ltimo paso del proceso de minera de datos, como se resalta en el siguiente diagrama,
consiste en implementar los modelos que funcionan mejor en un entorno de produccin.
Figura 8.Etapa de Implementar y actualizar los Modelos en el proceso de Data Mining
Una vez que los modelos de minera de datos se encuentran en el entorno de produccin,
puede llevar acabo diferentes tareas, dependiendo de sus necesidades. Las siguientes son
algunas de las tareas que puede realizar:
Use los modelos para crear predicciones que luego podr usar para tomar decisiones
comerciales.
Crear consultas de contenido para recuperar estadsticas, reglas o frmulas del modelo. Para
obtener ms informacin.
Incrustar la funcionalidad de minera de datos directamente en una aplicacin.
Utilizar Integration Services para crear un paquete en el que se utilice un modelo de

minera de datos para dividir de forma inteligente los datos entrantes en varias tablas.
Crear un informe que permita a los usuarios realizar consultas directamente en un modelo
de minera de datos existente.
Actualizar los modelos despus de la revisin y anlisis .
Actualizar dinmicamente los modelos, cuando entren ms datos en la organizacin, y

realizar modificaciones constantes para mejorar la efectividad de la solucin debera ser
parte de la estrategia de implementacin.
2.1)
Algoritmos de minera de datos
Un algoritmo de minera de datos es un conjunto de clculos y reglas heursticas que permite

crear un modelo de minera de datos a partir de los datos. Para crear un modelo, el algoritmo
analiza primero los datos proporcionados, en busca de tipos especficos de patrones o
tendencias. El algoritmo usa los resultados de este anlisis para definir los parmetros
ptimos para la creacin del modelo de minera de datos. A continuacin, estos parmetros
se aplican en todo el conjunto de datos para extraer patrones procesables y estadsticas
detalladas.
El modelo de minera de datos que crea un algoritmo a partir de los datos puede tomar
diversas formas, incluyendo:
-
Un conjunto de clsteres que describe cmo se relacionan los casos de un conjunto de

datos.
Un rbol de decisin que predice un resultado y que describe cmo afectan a este los
distintos criterios.
Un modelo matemtico que predice las ventas.
Un conjunto de reglas que describen cmo se agrupan los productos en una transaccin, y
las probabilidades de que dichos productos se adquieran juntos.
La eleccin del mejor algoritmo para una tarea analtica especfica puede ser un
desafo. Aunque puede usar diferentes algoritmos para realizar la misma tarea, cada uno de
ellos genera un resultado diferente, y algunos pueden generar ms de un tipo de
resultado. Por ejemplo, puede usar el algoritmo rboles de decisin de Microsoft no solo
para la prediccin, sino tambin como una forma de reducir el nmero de columnas de un
conjunto de datos, ya que el rbol de decisin puede identificar las columnas que no afectan
al modelo de minera de datos final.
2.2)
Elegir un algoritmo por tipo
Analysis Services incluye los siguientes tipos de algoritmos:

-
Algoritmos de clasificacin, que predicen una o ms variables discretas, basndose en otros

atributos del conjunto de datos.
Algoritmos de regresin, que predicen una o ms variables continuas, como las prdidas o
los beneficios, basndose en otros atributos del conjunto de datos.
Algoritmos de segmentacin, que dividen los datos en grupos, o clsteres, de elementos que
tienen propiedades similares.
Algoritmos de asociacin, que buscan correlaciones entre diferentes atributos de un

conjunto de datos. La aplicacin ms comn de esta clase de algoritmo es la creacin de
reglas de asociacin, que pueden usarse en un anlisis de la cesta de compra.
Algoritmos de anlisis de secuencias, que resumen secuencias o episodios frecuentes en los

datos, como un flujo de rutas web.
Sin embargo, no hay ninguna razn por la que deba limitarse a un algoritmo en sus
soluciones. Los analistas experimentados usarn a veces un algoritmo para determinar las
entradas ms eficaces (es decir, variables) y luego aplicarn un algoritmo diferente para
predecir un resultado concreto basado en esos datos. La minera de datos de SQL Server le
permite generar varios modelos en una nica estructura de minera de datos, por lo que en
una solucin de minera de datos puede usar un algoritmo de clsteres, un modelo de rboles
de decisin y un modelo de Bayes nave para obtener distintas vistas de los datos. Tambin
puede usar varios algoritmos dentro de una nica solucin para realizar tareas
independientes: por ejemplo, podra usar la regresin para obtener predicciones financieras, y
un algoritmo de red neuronal para realizar un anlisis de los factores que influyen en las
ventas.
2.3)
Estructura de Minera de datos(Analysis Services)
La estructura de minera de datos define los datos a partir de los cuales se generan los
modelos de minera de datos: especifica la vista de datos de origen, el nmero y el tipo de
columnas, y una particin opcional en conjuntos de entrenamiento y de pruebas. Una misma
estructura de minera de datos puede admitir varios modelos de minera de datos que
comparten el mismo dominio. En el diagrama siguiente, se muestra la relacin de la
estructura de minera de datos con el origen de datos y con los modelos de minera de datos
que la componen.
Figura 9.Estructura de Data Mining
La estructura de minera de datos del diagrama est basada en un origen de datos que
contiene varias tablas o vistas, combinadas en el campo CustomerID.
Una tabla contiene informacin sobre los clientes, como la regin geogrfica, la edad, los
ingresos y el sexo, mientras que la tabla anidada relacionada contiene varias filas de
informacin adicional sobre cada cliente, como los productos que ha adquirido.
En el diagrama, se muestra que se pueden generar varios modelos de minera de datos a
partir de una misma estructura de minera de datos, y que los modelos pueden usar columnas
de la estructura diferentes.
Modelo 1: usa CustomerID, Income, Age, Region y filtra los datos de Region.
Modelo 2: usa CustomerID, Income, Age, Region y filtra los datos de Age.
Modelo 3: usa CustomerID, Age, Gender y la tabla anidada, sin filtros.
Dado que los modelos usan columnas diferentes para la entrada, y dado que dos de los
modelos, adems, restringen sus datos mediante la aplicacin de un filtro, los modelos
pueden tener resultados muy diferentes aunque estn basados en los mismos datos. Observe
que la columna CustomerID es obligatoria en todos los modelos porque es la nica columna
disponible que se puede usar como clave de caso.
En esta seccin se explica la arquitectura bsica de las estructuras de minera de datos: cmo
se define una estructura de minera de datos, cmo se rellena con datos y cmo se usa para
crear modelos.
2.4)
Extraccin de Conocimiento en Bases de Datos
VENUGOPAL,(1995) Intelligent Support Systems for Organizational Learning.
Histricamente, a la nocin de encontrar patrones tiles en los datos se le ha dado una gran
variedad de nombres, como minera de datos, extraccin de conocimiento,
descubrimiento de informacin, recoleccin de informacin, arqueologa de datos, y
procesamiento de patrones en datos. El trmino minera de datos se ha usado con mayor
frecuencia en las comunidades de estadstica, anlisis de datos y sistemas de administracin
de la informacin. Dicho trmino tambin ha ganado popularidad en el campo de las bases
de datos. Sin embargo, en estricto sentido, la minera de datos y la extraccin de
conocimiento en bases de datos no son conceptos equivalentes.
Segn Fayyad, Piatetsky-Shapiro y Smyth (1996) la extraccin de conocimiento en bases de
datos (KDD) se refiere a todo el proceso de descubrir conocimiento til en datos, mientras
que la minera de datos (data mining) tiene que ver con la aplicacin de algoritmos
especficos para extraer patrones de los datos.
Figura 10.Pasos que componen al proceso de extraccin de conocimientos en bases de datos (KKD).
As, los pasos que componen al proceso KDD son cinco: seleccin del objetivo, preproceso
de datos, transformacin, minado de datos e interpretacin de los resultados.
La seleccin del objetivo tiene como finalidad estudiar el problema y decidir cul es la meta
del proyecto. Una vez definido el problema, se identifican las fuentes de datos internas o
externas y se selecciona el subconjunto de datos necesarios para la aplicacin de un
algoritmo de minera de datos.
El preproceso de datos consiste en estudiar los datos seleccionados para entender el
significado de los atributos y para detectar errores de integracin, por ejemplo, datos
repetidos con distinto nombre o datos que significan lo mismo en diferente formato.
Una vez que se tienen los datos preprocesados, se procede a la transformacin final de los
mismos, esto con el fin de que se ajusten al formato de entrada del algoritmo seleccionado.
El siguiente paso es el minado de datos propiamente dicho. Aqu se aplican los diferentes
algoritmos de anlisis a los datos ya transformados. La finalidad en esta etapa es encontrar
patrones tiles e interesantes en los datos.
Por ltimo, se procede a interpretar y evaluar los resultados obtenidos en la etapa de minado
de datos. Aqu, el usuario debe valorar los resultados conseguidos y, de ser necesario, aplicar
una y otra vez los algoritmos de Data Mining hasta encontrar informacin til y valiosa. Esto
ltimo hace que el proceso KDD sea un proceso iterativo y de bsqueda continua, en donde
el conocimiento y la intuicin del usuario juegan un papel fundamental en el proceso.
2.5)
Tcnicas de Minera de Datos
CHEN,M.S,HAN y Yu,(1996) Data Mining: An Overview from Database Perspective. IEEE

Transactions on Knowledge and Data Engineering.En los ltimos aos han existido muchos
avances en las investigaciones y desarrollos relacionados con la minera de datos, como
resultado, se han desarrollado diversas tcnicas y sistemas relativos al data mining.
Diferentes esquemas de clasificacin pueden ser usados para categorizar mtodos y sistemas
de minado de datos, como el tipo de base de datos a estudiar (relacional, orientada a objetos,
multimedia, etc.), el tipo de conocimiento que se quiere extraer (reglas de asociacin, reglas
de clasificacin, clustering, etc.), as como las tcnicas que sern aplicadas en el proceso
(basadas en patrones, teora estadstica, teora matemtica, enfoques integradores, etc.).
En la prctica, los mtodos de data mining ms utilizados caen dentro de la categora de tipo
de conocimiento a extraer. Las tcnicas de minado de datos pertenecientes a esta categora
buscan hacer prediccin y/o descripcin de un fenmeno determinado.
La prediccin implica utilizar algunas variables o campos de una base de datos para predecir
valores desconocidos o futuros de otras variables de inters, mientras que la descripcin est
enfocada a encontrar patrones humano-interpretables que describen los datos. Aunque las
fronteras entre la prediccin y la descripcin no sean muy marcadas (parte de los modelos
predictivos pueden ser descriptivos, al grado de que estos sean entendibles, y viceversa), la
distincin es til para entender la meta general de la extraccin de conocimiento. La
importancia relativa de la prediccin y la descripcin para aplicaciones particulares de
minando datos puede variar considerablemente. Las metas de la prediccin y la descripcin
se pueden lograr utilizando una variedad de mtodos particulares de data mining.
Y las tcnicas de minera de datos son:
-
Arboles de Decisin.
Regresin Lineal
Nave Bayes.
Anlisis Clster.
Regla de asociacin.
Secuencia de asociacin.
Series de tiempo.
Redes neuronales.
Regresin logstica.
2.6)
Reglas de asociacin
HAN,J y KAMBER,M,(2000). Data Mining: Concepts and Techniques. San Francisco:

Morgan Kaufmann Publishers.Mediante el minado de reglas de asociacin se pueden
encontrar interesantes relaciones de asociacin o correlacin en los datos. Dada la gran
cantidad de datos que continuamente se recolectan y almacenan, muchas industrias se han
interesado por encontrar reglas de asociacin en sus bases de datos. El descubrimiento de
interesantes relaciones de asociacin en grandes cantidades de registros transaccionales,
puede ayudar en diversos procesos de toma de decisiones relacionados con el negocio, tales
como el diseo de catlogos, la venta cruzada, y el anlisis loss-leader.
Una regla de asociacin es un criterio que implica ciertas relaciones de asociacin entre
distintos objetos de una base de datos, tales como ocurren juntos o uno implica al otro.
Matemticamente se representa como una implicacin de la forma A B, en donde A y B
representan conjuntos de atributos con interseccin vaca (A B =), de tal forma que la
regla se presenta en un conjunto de transacciones D con una confianza del %.
Un ejemplo de regla de asociacin sera: 40% de las transacciones que contienen nios
tambin contienen paales. En este caso el 40% es el nivel de confianza de la regla.
2.7)
Clasificacin y prediccin
La clasificacin y la prediccin son dos formas de anlisis de datos que pueden ser usadas
para extraer modelos que describen importantes clases de datos o predicen valores futuros.
En la clasificacin de datos se desarrolla una descripcin o modelo para cada una de las
clases presentes en la base de datos. Existen muchos mtodos de clasificacin tales como los
rboles de decisin, los mtodos estadsticos, las redes neuronales, y los conjuntos difusos,
entre otros.
La prediccin puede ser vista como la construccin y uso de modelos para evaluar las clases
de una muestra sin clasificaciones, o para evaluar el valor, o rango de valores, que un
atributo debera de tener para una muestra determinada.70 En el primer caso se dice que se
est haciendo una clasificacin de los datos, mientras que en el segundo, se dice que se est
haciendo una prediccin valores, en otras palabras, la clasificacin se refiere a poder predecir
valores discretos o nominales, mientras que la prediccin, propiamente dicha, se refiere al
pronstico de valores continuos.
2.8)
Clustering
El Clustering identifica grupos de datos para evaluar las diferencias y similitudes entre los
registros. La similitud puede medirse mediante funciones de distancia especificadas por los
usuarios o por expertos.
Figura 11.Clster: Identificacin de grupos

Cuando se utiliza la tcnica de clustering, se obtiene un diagrama en el cual se muestra como
los datos caen dentro de distintos grupos (clusters). En el caso ms simple, se asocia a cada
dato un clster, dibujando los datos o instancias en un diagrama de dos dimensiones (Fayyad,
U., Piatetsky-Shapiro, G. y Smyth, P. (1996). op. cit., p. 45.).
El Anlisis Clster, conocido como Anlisis de Conglomerados, es una tcnica estadstica
multivariante que busca agrupar elementos (o variables) tratando de lograr la mxima
homogeneidad en cada grupo y la mayor diferencia entre los grupos.
El Anlisis Clster tiene una importante tradicin de aplicacin en muchas reas de

investigacin. Sin embargo, junto con los beneficios del Anlisis Clster existen algunos
inconvenientes. El Anlisis Clster es una tcnica descriptiva, a terica y no inferencial.
El Anlisis Clster no tiene bases estadsticas sobre las que deducir inferencias estadsticas
para una poblacin a partir de una muestra, es un mtodo basado en criterios geomtricos y
se utiliza fundamentalmente como una tcnica exploratoria, descriptiva pero no explicativa.
Las soluciones no son nicas, en la medida en que la pertenencia al conglomerado para
cualquier nmero de soluciones depende de muchos elementos del procedimiento elegido.
Por otra parte, la solucin clster depende totalmente de las variables utilizadas, la adicin o
destruccin de variables relevantes puede tener un impacto substancial sobre la solucin
resultante.
Los algoritmos de formacin de conglomerados se agrupan en dos categoras:
Algoritmos de particin: Mtodo de dividir el conjunto de observaciones en k

conglomerados (clusters), en donde
Algoritmos jerrquicos:
lo define inicialmente el usuario.
Mtodo que entrega una jerarqua de divisiones del
conjunto de elementos en conglomerados.

- Mtodo Jerrquico Aglomerativo parte con una situacin en que cada observacin
forma un conglomerado y en sucesivos pasos se van uniendo, hasta que finalmente todas
las situaciones estn en un nico conglomerado.
- Mtodo Jerrquico Disociativo sigue el sentido inverso, parte de un gran
conglomerado y en pasos sucesivos se va dividiendo hasta que cada observacin queda en
un conglomerado distinto.
El anlisis de conglomerados nos va a permitir contestar a preguntas tales Como:

- Es posible identificar cules son las empresas en las que sera ms deseable invertir?
- Es posible identificar grupos de clientes a los que les pueda interesar un nuevo
producto que una empresa va a lanzar al mercado?
Se pueden clasificar las bodegas de La Ribera del Duero en funcin de las caractersticas
qumicas y pticas del vino que producen?

2.8.1) Anlisis Conglomerados (Clusters)
Es un procedimiento estadstico que parte de un conjunto de datos que contiene
informacin sobre una muestra de entidades e intenta reorganizarlas en grupos
relativamente homogneos a los que se llama conglomerados (clusters).
Etapas del Anlisis de Conglomerados (Clusters)
A)
Eleccin de las variables
B)
Eleccin de la medida de asociacin
C)
Eleccin de la tcnica Cluster
D)
Validacin de los resultados
A) Eleccin de las variables

Dependiendo del problema las variables pueden ser:
Anlisis Conglomerados por Variables o por Individuos
Si se pretende agrupar a los individuos en grupos se ha de realizar un anlisis clster
(conglomerados) de los individuos.

Si se pretende agrupar las variables ms parecidas se debe realizar un anlisis cluster de las
variables, para ello basta considerar la matriz de datos inicial X'
B) Eleccin de la medida de asociacin

Para poder unir variables o individuos es necesario tener algunas medidas numricas que
caractericen las relaciones entre las variables o los individuos.
Cada medida refleja asociacin en un sentido particular y es necesario elegir una medida apr
opiada para el problema concreto que se est tratando.
La medida de asociacin puede ser una distancia o una similaridad.
Distancia Mtrica
Una funcin d:UxU R se llama distancia mtrica s x,y,z U se verifica:
Similaridad
Una funcin s:UxU R se llama similaridad s x,y,z U se verifica:
Similaridad Mtrica
Una funcin s:UxU R se llama similaridad mtrica s x,y,z U se verifica:
NOTA: Dependiendo del Tipo del anlisis(por variables o por individuos), que se realiza
existen distintas medias de asociacin aunque, tcnicamente pueden utilizarse en ambos
casos.
Medidas de Asociacin para Variables
Coseno del ngulo de dos vectores (invarianza, salvo signo, frente a homotecias
Coeficiente de correlacin (invarianza frente a traslaciones y salvo signo frente a homotecia
s
Medidas para datos dicotmicos
Medida de Ochiai:
Medida
Medida de Russell y Rao:
Medida de Parejas simples:
Medida de Jaccard:
Medida de Dice:
Medida de RogersTanimoto:
Medidas de Asociacin para Individuos

Distancia Eucldea:
Distancia de Minkowski:
donde q 1
Distancia d1 o ciudad (City Block):
Distancia de Tchebychev o del mximo (q = ):
Distancia de Mahalanobis:
Distancia
x2 :
C) Eleccin de la tcnica Cluster

Mtodos Jerrquicos
Es de agrupar cluster para formar uno nuevo o separar alguno ya existente para dar origen a otros dos
de forma que se maximice una medida de similaridad o se minimice alguna distancia.
Clasificacin:
- Asociativos o Aglomerativos: Se parte de tantos grupos como individuos hay en el estudio y se
van agrupando hasta llegar a tener todos los casos en un mismo grupo.
- Disociativos:Se parte de un solo grupo que contiene todos los casos y a travs de sucesivas
divisiones se forman grupos cada vez ms pequeos.
Los mtodos jerrquicos permiten construir un rbol de clasificacin o dendograma.
Mtodos No Jerrquicos
Estn diseados para la clasificacin de individuos (no de variables) en K grupos. El
procedimiento es elegir una particin de los individuos en K grupos e intercambiar los
miembros de los clusters para tener una particin mejor.
Distancia entre Conglomerados

Las distancias entre los conglomerados son funciones de las distancias entre observaciones,
hay varias formas de definirlas:
-
Sean A y B dos conglomerados:
Algoritmos para el anlisis de Clster

Existen diversas formas de medir la distancia entre clusters que producen diferentes
agrupaciones y diferentes dendogramas. No existe un criterio para seleccionar cual de los
algoritmos es mejor. La decisin es normalmente subjetiva y depende del mtodo que mejor
refleje los propsitos de cada estudio particular.
En primero lugar, se comienza con una exposicin general de los mtodos para continuar con
expresiones particulares de los mismos:
Si dos objetos o grupos A y B se han agrupado, la distancia de grupos con otro objeto C
puede calcularse como una funcin de las distancias entre los tres objetos o grupos de la
siguiente forma:
donde i
constantes ponderacin.
En la tabla siguiente se muestran los pesos para algunos de los mtodos ms comunes.
donde
nC
nA
nB
denotan el nmero de objetos en cada uno de los grupos y

es un valor arbitrario 0 < < 1
Procedimiento para el Anlisis de Clster o Conglomerados
WITTEN,I y FRANK,E(2000). Data Mining: Practical machine learning tools and techniques
with java implementations. Algunos algoritmos de clustering permiten a una instancia
pertenecer a uno a ms clster, como resultado, el diagrama en dos dimensiones muestra cmo
se traslapan los subconjuntos de datos (como un Diagrama de Venn). Otros algoritmos asocian
instancias a clster de manera probabilstica, as para cada instancia, existe una probabilidad
asociada o un grado de pertenencia con el cual se asigna a un determinado cluster.
Algunos ejemplos de la aplicacin de las tcnicas de clustering, en el contexto de la extraccin

del conocimiento, incluyen la identificacin de subgrupos homogneos de clientes en bases de
datos de marketing, as como la identificacin de subcategoras de medidas del espectro
infrarrojo del cielo.
Para clasificar una instancia desconocida, se sigue el flujo del rbol hacia abajo, de acuerdo
a los valores que tengan los atributos para cada nodo, y cuando se llega a un nodo hoja, la
instancia se clasifica de acuerdo a la clase asignada por dicho nodo.
Existen diversos mtodos para la induccin de rboles de decisin (ID3, C4, C4.5, Bayesiano,
CART, etc.), cada uno de ellos ofrece diferentes capacidades, pero en general, dichos
algoritmos son apropiados para solucionar problemas de clasificacin. Estos problemas
presentan las siguientes caractersticas:
El objeto de estudio del problema est representado por un conjunto fijo de atributos.
La funcin objetivo del problema tiene valores discretos.
Los atributos son descritos mediante conceptos disyuntivos.
Puede haber errores en los datos de entrenamiento, tanto en la clasificacin como en los
valores de los atributos.
Los datos de entrenamiento, con los cuales se construye el modelo, pueden tener valores
desconocidos para algunos atributos.
Es importante sealar que los rboles de decisin presentan una gran ventaja respecto a otras
tcnicas de clasificacin. Esta ventaja consiste en poder representar al conocimiento obtenido
mediante el uso de reglas de decisin.
2.9)
La minera de datos y el Almacn de Datos
2.9.1) DATAWAREHOUSE
Frecuentemente los datos que sern minados se extraen del Datawarehouse de una empresa.
Existe un beneficio real si los datos son parte ya de un Datawarehouse esto es porque el
proceso de depuracin de datos para un Datawarehouse y para la minera de datos son
similares.
El DataWarehouse es el centro de la arquitectura para los sistemas de informacin en la

dcada de los '90. Soporta el procesamiento informtico al proveer una plataforma slida, a
partir de los datos histricos para hacer el anlisis. Facilita la integracin de sistemas de
aplicacin no integrados. Organiza y almacena los datos que se necesitan para el
procesamiento analtico, informtico sobre una amplia perspectiva de tiempo.
Un DataWarehouse es una coleccin de datos orientado a temas, integrado, no voltil, de
tiempo variante que es considerada la solucin integral y oportuna para desarrollar negocio y
se usa para el soporte del proceso de toma de decisiones gerenciales. DataWarehouse es una
herramienta con procesos para consolidar y administrar datos de variadas fuentes con el
propsito de responder preguntas de negocios y tomar decisiones.
El DataWarehouse no es un requerimiento indispensable para la minera de datos, la
configuracin de un DataWarehouse de mltiples datos, resuelve problemas de integridad de
datos y una consulta de los datos por medio de un query (consulta), puede ser una tarea
enorme que puede tomar mucho tiempo y a un costo elevado. Sin embargo para minar los
datos de una base de datos operacional o transaccional se puede cargar la informacin a una
base de datos de slo consulta, este proceso es muy parecido al de un Datamart (CALDERON
Neftali, 2006).
2.9.2) Caractersticas del DataWarehouse
Un DataWarehouse tiene muchas caractersticas entre las que podemos destacar las
siguientes:
Orientado al tema
Una primera caracterstica del DataWarehouse es que la informacin se clasifica en base a
los aspectos que son de inters para la empresa. Siendo as, los datos tomados estn en
contraste con los clsicos procesos orientados a las aplicaciones. El ambiente operacional se
disea alrededor de las aplicaciones y la base de datos combina estos elementos en una
estructura que acomoda las necesidades de la aplicacin. La alineacin alrededor de las reas
de los temas afecta el diseo y la implementacin de los datos encontrados en el
DataWarehouse.
Las principales reas de los temas influyen en la parte ms importante de la estructura clave.
Las aplicaciones estn relacionadas con el diseo de la base de datos y del proceso. En
DataWarehouse se enfoca el modelamiento de datos y el diseo de la base de datos. El diseo
del proceso no es separado de este ambiente.
Las diferencias entre la orientacin de procesos y funciones de las aplicaciones y la
orientacin a temas, radican en el contenido de la Data a nivel detallado. En el
DataWarehouse se excluye la informacin que no ser usada por el proceso de sistemas de
soporte de decisiones, mientras que la informacin de las orientadas a las aplicaciones,
contiene datos para satisfacer de inmediato los requerimientos funcionales y de proceso, que
pueden ser usados o no por el analista de soporte de decisiones.
Integrado
El aspecto ms importante del ambiente DataWarehouse es que la informacin encontrada al
interior est siempre integrada. La integracin de datos se muestra de muchas maneras: en
convenciones de nombres consistentes, en la medida uniforme de variables, en la
codificacin de estructuras consistentes, en atributos fsicos de los datos consistentes, fuentes
mltiples y otros.
A travs de los aos, los diseadores de las diferentes aplicaciones han tomado sus propias
decisiones sobre cmo se debera construir una aplicacin. Se diferencian en la codificacin,
en las estructuras claves, en sus caractersticas fsicas, en las convenciones de nombramiento
y otros. La capacidad colectiva de muchos de los diseadores de aplicaciones, para crear
aplicaciones inconsistentes, es fabulosa.
De tiempo variante
Toda la informacin del DataWarehouse es requerida en algn momento. Esta caracterstica
bsica de los datos en un depsito, es muy diferente de la informacin encontrada en el
ambiente operacional. En stos, la informacin se requiere al momento de acceder. En otras
palabras, en el ambiente operacional, cuando usted accede a una unidad de informacin,
usted espera que los valores requeridos se obtengan a partir del momento de acceso.
Como la informacin en el DataWarehouse es solicitada en cualquier momento los datos

encontrados en el depsito se llaman de "tiempo variante". Los datos histricos son de poco
uso en el procesamiento operacional. La informacin del depsito por el contraste, debe
incluir los datos histricos para usarse en la identificacin y evaluacin de tendencias.
No voltil
La informacin es til slo cuando es estable. Los datos operacionales cambian sobre una
base momento a momento. La perspectiva ms grande, esencial para el anlisis y la toma de
decisiones, requiere una base de datos estable.
En la siguiente Figura (Figura 10) se muestra que la actualizacin es decir el proceso de
insertar, borrar y modificar, se hace regularmente en el ambiente operacional sobre una base
de registro por registro. Pero la manipulacin bsica de los datos que ocurre en el
DataWarehouse es mucho ms simple. Hay dos nicos tipos de operaciones: la carga inicial
de datos y el acceso a los mismos. No hay actualizacin de datos en el depsito, como una
parte normal de procesamiento.
Figura 12.Diferencia entre un Sistema OLAP y un Sistema OLTP.
Escalable
Cuando la organizacin est lista para implementar una solucin de DataWarehouse, la

solucin necesita acomodarse al incremento dramtico de la demanda de los datos. Como las
instituciones crecen en otras reas, la solucin de DataWarehouse necesita localizar los
nuevos orgenes de datos y debe variar en su tamao de acuerdo a las necesidades.
2.2.2
Trminos Usados en Salud
1) Epidemiologa
La epidemiologa es, en la aceptacin ms comn, el estudio de las epidemias es decir, de
las enfermedades que afectan transitoriamente a muchas personas en un sitio determinado.
Su significado deriva del griego Epi (sobre) Demos (pueblo) Logos (ciencia).
Una definicin tcnica es la que propone que la epidemiologa es el estudio de la distribucin y
determinantes de enfermedades en poblaciones humanas.
La epidemiologa investiga la distribucin, frecuencia y determinantes de las condiciones de
salud en las poblaciones humanas as como las modalidades y el impacto de las respuestas
sociales necesarias para atender estas necesidades. La distribucin, frecuencia y determinantes
de la enfermedad. Las consecuencias biolgicas sociales de la enfermedad.
2) Morbilidad
La morbilidad se refiere a los efectos de una enfermedad en una poblacin en el sentido de
la proporcin de personas que la padecen en un sitio y tiempo determinado. En el sentido de la
epidemiologa se puede ampliar al estudio y cuantificacin de la presencia y efectos de una
enfermedad en una poblacin.
Tambin es una adaptacin mal empleada al espaol que proviene de la inglesa morbidity
generalmente usada as en Sudamrica para identificar una condicin mdica en la que se
estudia los padecimientos de una enfermedad y cuyo verdadero significado es patolgico. O
tambin para definir discapacidad, es el porcentaje de individuos que contrae una cierta
enfermedad en una poblacin.
3) Prevalencia
La prevalencia es frecuencia estadstica (absoluta relativa) con la que se presenta un
determinado fenmeno en una poblacin (entendido este trmino en su sentido estadstico). En
epidemiologa los fenmenos a los que suele aplicarse este concepto son enfermedades y la
poblacin es humana con la peculiaridad y las derivadas dadas por su aplicacin a conjunto de
seres humanos y enfermedades o fenmenos relacionados con la salud.
La prevalencia se define como el nmero de casos de una enfermedad o evento en una
poblacin en un momento dado. Existen dos tipos de prevalencia: prevalencia puntual y
prevalencia de periodo.
3.1) Prevalencia puntual o instantnea
Denominada tambin tasa de prevalencia, proporcin de prevalencia o casos prevalentes.
Se habla de prevalencia de punto, puntual o instantnea para referirse a dos cosas:
-
Al nmero o a la frecuencia absoluta de personas que presenta una cierta caracterstica
(normalmente un enfermedad) en el instante dado.

A la proporcin o a la frecuencia relativa de individuos de la poblacin que presenta dicha
caracterstica.
La prevalencia puntual se estima con la siguiente frmula:
Es la medida estimada en las llamadas encuestas de prevalencia o transversales.
3.2) Prevalencia de periodo

Algunos autores la denominan prevalencia peridica o prevalencia lpsica.
La prevalencia de periodo se refiere al nmero o la proporcin del total de poblacin que
habra presentado ese fenmeno o caracterstica en alguna seleccin se ha realizado en base a
las normas internacionales, que permite priorizar las enfermedades en base a los siguientes
criterios:
-
Magnitud: tiene alta incidencia o prevalencia.

Trascendencia: tienen importante letalidad y/o repercusin social y econmica.
Vulnerabilidad: pueden modificarse a travs de intervenciones de los servicios de
salud.
Costo: tienen costo para los servicios de salud y la sociedad en su conjunto.

- Vigilancia Internacional: estn sujetas a reglamentos sanitarios internacionales.
La notificacin debe realizarse en forma inmediata general, en dependencia del potencial
epidmico de las enfermedades y las condiciones de control que requieran.
Son responsable de la notificacin de todo el personal de salud de los establecimiento
pertenecientes a los subsectores: pblico, seguros sociales, iglesias, ONGS y privados en los
distintos niveles de atencin, de acuerdo a las funciones establecidas.
4) Enfermedades de notificacin inmediata
Las enfermedades y eventos de notificacin inmediata, constituyen enfermedades o daos
con alto potencial epidmico, que estn sujetas a vigilancia internacional o que requieren de
actividades de control epidemiolgico rpido. En este grupo de enfermedades o daos se pueden
resultar de riesgos epidmico, o que si bien tiene registros de casos, su aparicin no es
frecuente.
Todo caso sospechoso de estas enfermedades o daos debe ser notificado inmediatamente a los
niveles superiores establecidos en el sistema. Una cifra acumulada de estos casos se reporta en
forma semanal.
Adems de las enfermedades todo evento agudo o borde debe ser comunicado bajo el mismo
procedimiento, para contemplar posteriormente la informacin recolectada.
Entre las dispuestas por el ministerio se encuentran: sarampin, rubola, tos, ferina, diftera,
parlisis flcida aguda, fiebre amarilla, dengue hemorrgico, dengue clsico, fiebre hemorrgica
peruana, peste, meningoccica, clera, enfermedades por hanta virus, rabia humana.
5) Enfermedades de notificacin semanal
Son patolgicas de condicin incluidas en la categora anterior, lxico a que por su potencial
epidmico o carcter endmico, no requieren de una notificacin inmediata ya que no se
realizan actividades especiales de control epidemiolgico rpido, permitiendo obtener
informacin que contribuya a la adecuacin de los servicios en el enfrentamiento apropiado
durante fases epidmicas.
Entre ellas se encuentran Ttanos neonatal, hepatitis viral, parotiditis, lcera genital, flujo
uretral, VIH/SIDA, enfermedad diarreica aguda, IRA sin neumona, neumona malaria,
leishmaniosis, entre otras.
6) Fuentes de notificacin
No existe un sistema nacional de salud al subsector pblico, registros sociales y
organizaciones no gubernamentales, se constituyen en fuentes fundamentales de notificacin,
los mismos estn organizados en espacios geogrficos de acuerdo a capacidad resolutiva las
Redes de Servicios de Salud.
7) Clasificacin Internacional de Enfermedades 10(CIE 10)
7.1) Definicin
La clasificacin de enfermedades se le conoce como un sistema de categoras a las
cuales se les asignan morbosas de acuerdo con criterios establecidos.
7.2) Propsito
Permitir el registro sistemtico e anlisis, la interpretacin, comparacin de datos de
mortalidad y morbilidad recolectados en diferentes pases o reas y en diferentes pocas.
7.3) Utilidad
Convertir los trminos diagnsticos de datos problemticos de salud, de palabras a
cdigos alfanumricos que permiten su fcil almacenamiento y posterior recuperacin para
el anlisis de la informacin. En la prctica se ha convertido en una clasificacin
diagnstica estndar mencionada para todos los propsitos epidemiolgicos generales y
muchos otros de administracin de salud.
El CIE, no es adecuada para indagar entidades tcnicas individuales y es adecuada para
clasificar enfermedades y otros tipos de problemas de salud, consignados en distintos tipos
de registros vitales y de salud.
7.4) Estructura bsica de la CIE 10 Revisin
La CIE es un sistema de clasificacin de ejes variables cuyo esquema debe servir a todos
los propsitos prcticos y epidemiolgicos. Este patrn puede ser identificado en los
captulos de la CIE y hasta el momento es considerado como la estructura ms til que
cualquiera de las alternativas que se han probado.
La CIE fue publicada por la Organizacin Mundial de la Salud. Se utiliza a nivel
internacional para fines estadsticos relacionados con morbilidad y mortalidad, los sistemas
de reintegro y soportes de decisin automtica en medicina. Este sistema est diseado para
promover la comparacin internacional de la recoleccin, procesamiento, clasificacin y
presentacin de estas estadsticas. La CIE es la clasificacin central de la WHO Family of
International Classifications (WHO-FIC) (en espaol, laFamilia de Clasificaciones
Internacionales de la OMS).
La lista CIE-10 tiene su origen en la Lista de causas de muerte, cuya primera edicin
edit el Instituto Internacional de Estadstica en 1893. La OMS se hizo cargo de la misma
en 1948, en la sexta edicin, la primera en incluir tambin causas de morbilidad. A la fecha,
la lista en vigor es la dcima, y la OMS sigue trabajando en ella.
La CIE-10 se desarroll en 1992 y su propsito fue rastrear estadsticas de mortalidad. La
OMS publica actualizaciones menores anuales y actualizaciones mayores cada tres aos.
Posteriormente, algunos pases han creado sus propias extensiones del cdigo CIE-10. Por
ejemplo, Australia present su primera edicin, la CIE-10-AM en 1998; Canad public
su versin en el 2000, la CIE-10-CA. Alemania tambin tiene su propia extensin, la
CIE-10-GM.
En EE.UU se aadi el anexo con el sistema de clasificacin de procedimientos o ICD-10PCS.
8) Condicin
Cada condicin de salud puede ser asignada a una categora y recibir un cdigo de hasta seis
caracteres de longitud (en formato de X00.00). Cada una de tales categoras puede incluir un
grupo de enfermedades similares. Los siguientes cdigos se utilizan por la Clasificacin
Estadstica Internacional de Enfermedades y Problemas Relacionados con la Salud.
Cdigo de grupo de enfermedades segn Clasificacin Estadstica Internacional de

Enfermedades Relacionados con la Salud.
CDIGO
TTULO
A00-B99
Ciertas enfermedades infecciosas y parasitarias
C00-D48
Neoplasias
Enfermedades de la sangre y de los rganos hematopoyticos y otros
D50-D89
E00-E90
F00-F99
G00-G99
H00-H59
H60-H95
I00-I99
J00-J99
K00-K93
L00-L99
M00-M99
N00-N99
O00-O99
P00-P96
Q00-Q99
R00-R99
S00-T98
V01-Y98
Z00-Z99
U00-U99
trastornos que afectan el mecanismo de la inmunidad

Enfermedades endocrinas, nutricionales y metablicas
Trastornos mentales y del comportamiento
Enfermedades del sistema nervioso
Enfermedades del ojo y sus anexos
Enfermedades del odo y de la apfisis mastoides
Enfermedades del sistema circulatorio
Enfermedades del sistema respiratorio
Enfermedades del aparato digestivo
Enfermedades de la piel y el tejido subcutneo
Enfermedades del sistema osteomuscular y del tejido conectivo
Enfermedades del aparato genitourinario
Embarazo, parto y puerperio
Ciertas afecciones originadas en el periodo perinatal
Malformaciones congnitas, deformidades y anomalas
cromosmicas
Sntomas, signos y hallazgos anormales clnicos y de laboratorio, no
clasificados en otra parte
Traumatismos, envenenamientos y algunas otras consecuencias de
causa externa
Causas externas de morbilidad y de mortalidad
Factores que influyen en el estado de salud y contacto con los
servicios de salud
Cdigos para situaciones especiales
Fuente: Estructura bsica de la CIE 10
9) Diagnstico Mdico
El diagnstico o propedutica clnica es el procedimiento por el cual se identifica
una enfermedad, entidad nosolgica, sndrome, o cualquier condicin de salud-enfermedad (el
"estado de salud" tambin se diagnostica).
En trminos de la prctica mdica, el diagnstico es un juicio clnico sobre el estado psicofsico

de una persona; representa una manifestacin en respuesta a una demanda para determinar tal
estado.
Diagnosticar es dar nombre al sufrimiento del paciente; es asignar una "etiqueta".
9.1) Proceso diagnstico
El diagnstico clnico requiere tener en cuenta los dos aspectos de la lgica, es decir, el
anlisis y la sntesis, utilizando diversas herramientas como la anamnesis, la historia
clnica, exploracin fsica y exploraciones complementarias.
El diagnstico mdico establece a partir de sntomas, signos y los hallazgos de
exploraciones complementarias, qu enfermedad padece una persona. Generalmente una
enfermedad no est relacionada de una forma biunvoca con un sntoma, es decir, un
sntoma no es exclusivo de una enfermedad. Cada sntoma o hallazgo en una exploracin
presenta una probabilidad de aparicin en cada enfermedad.
El teorema de Bayes ayuda al diagnstico de una enfermedad a partir de los sntomas y
otros hallazgos que presenta el paciente si las enfermedades son mutuamente excluyentes,
se conoce sus prevalencias y la frecuencia de aparicin de cada sntoma en cada
enfermedad. Segn la prevalencia de cada enfermedad en cada poblacin, un mismo
conjunto de sntomas o sndrome puede producir un diagnstico diferente en cada
poblacin, es decir, cada sndrome puede estar producido por una enfermedad diferente en
cada poblacin.
9.2) Herramientas diagnsticas
- Sntomas: Son las experiencias subjetivas negativas fsicas que refiere el paciente,
recogidas por el mdico en la anamnesis durante la entrevista clnica, con un lenguaje
mdico, es decir comprensible para todos los mdicos. Por ejemplo, los pacientes a la
sensacin de falta de aire o percepcin incmoda y desagradable en la respiracin (disnea),
lo llaman ahogo, angustia, fatiga, cansancio fcil, etc.
- Signos: Son los hallazgos objetivos que detecta el mdico observando al paciente, por
ejemplo
la
taquipnea
ms
de
30
respiraciones
por
minuto.
La semitica
mdica o semiologa clnica es la parte de la medicina que trata de los signos de las
enfermedades desde el punto de vista del diagnstico y del pronstico.
- Exploracin fsica o Semiotcnica: Consiste en diversas maniobras que realiza el mdico
sobre el paciente, siendo las principales la inspeccin, palpacin, percusin, oler
y auscultacin, con las que se obtienen signos clnicos ms especficos.
Todos los sntomas referidos en la anamnesis y los signos objetivados en la exploracin
fsica son anotados en la historia clnica del paciente.
Generalmente, los signos y sntomas definen un sndrome que puede estar ocasionado por
varias enfermedades. El mdico debe formular una hiptesis sobre las enfermedades que
pueden estar ocasionando el sndrome y para comprobar la certeza de la hiptesis
solicita exploraciones complementarias.
9.3) Herramientas diagnsticas
Las exploraciones complementarias confirman o descartan una enfermedad en concreto,

antes de iniciar un tratamiento. A veces no ofrecen ningn tipo de informacin til, sobre
todo cuando se solicitan sin ningn tipo de criterio o no existe un diagnstico diferencial.
- Pruebas de laboratorio: Consiste en el anlisis, generalmente bioqumico de diferentes
lquidos corporales, siendo el ms comn la sangre.
- Tcnicas de diagnstico por imagen: Como la ecografa, la radiografa simple, la TAC,
la RMN, o la PET.
- Tcnicas endoscpicas:
Fibrobroncoscopia
Colonoscopia
Gastroscopia
Colposcopia
Toracoscopia
Laringoscopia
Biopsia.
9.4) Tipos de diagnstico
9.4.1) Diagnstico clnico o individual:

Es el total emitido a partir del contraste de todos los mencionados y de las
condiciones personales del enfermo. Todos estos factores determinan cualitativa y
cuantitativamente el cuadro clnico, de manera que ste puede ser diferente aun cuando
la entidad morbosa sea la misma. A esto se refiere la mxima no hay enfermedades,
sino enfermos.
9.4.2) Diagnstico de certeza:
Es el diagnostico confirmado a travs de la interpretacin y anlisis de mtodos
complementarios.
9.4.3) Diagnstico diferencial:
Conocimiento al que se arriba despus de la evaluacin crtica comparativa de sus
manifestaciones ms comunes con las de otras enfermedades.
9.4.4) Diagnstico etiolgico:
Determina las causas de la enfermedad; es esencial para el d. total de muchas
enfermedades y para el tratamiento.
9.4.5) Diagnstico genrico:
Determinar si el sujeto est o no enfermo. Pueden plantearse problemas de

enjuiciamiento, pues hay que contar con una posible simulacin y con las neurosis e
histerias, que constituyen verdaderas enfermedades.
9.4.6) Diagnstico heroico:
Cuando el diagnstico se convierte en una obsesin, en un absurdo, en una
especie de imposicin mental y profesional, es decir, es un diagnstico extremo en el
sentido de "por s mismo", e innecesario.
9.4.7) Diagnstico lesional, anatmico o topogrfico:
Es la localizacin e identificacin de las lesiones en los diferentes rganos y
tejidos.
9.4.8) Diagnstico nosolgico:
Es la determinacin especfica de la enfermedad.
9.4.9) Diagnstico patogentico:
Consigna los mecanismos que producen la enfermedad por la accin de las
causas y la reaccin orgnica.
9.4.10) Diagnstico presuntivo:
Es aquel que el profesional considera posible basndose en los datos obtenidos en la
anamnesis y el examen fsico.
9.4.11) Diagnstico sindrmico y funcional
Los sndromes son conjuntos de signos y sntomas con un desarrollo comn; p. ej.,
el sndrome ictrico (piel amarilla, orinas encendidas, heces decoloradas, etc.). Aunque
en algunas ocasiones no se puede avanzar ms, permite un d. patogentico parcial, pero
que posibilite un tratamiento funcional.
9.4.12) Diagnstico sintomtico:
Tiene por objeto identificar la enfermedad mediante los sntomas. Generalmente

un sntoma aislado no da una indicacin precisa de la enfermedad, puesto que puede ser
propio de muchas de ellas.
9.5) Problemas del Diagnstico
- Diagnstico tardo
- Diagnstico ausente
- Diagnstico genrico
- Diagnstico inexacto
- Diagnstico de moda
- Sobrediagnstico
- Etiquetamiento
- Cascada diagnstica
9.6) Caractersticas de una prueba diagnstica
Se considera que una prueba diagnstica es buena cuando ofrece resultados positivos en
enfermos y negativos en pacientes sanos, con el menor rango de error posible. Por lo tanto,
las condiciones que deben ser exigidas en un test diagnstico son principalmente tres:
- Validez: Es el grado en que un test mide lo que se supone que debe medir, es decir, la
frecuencia con la que los resultados obtenidos con este test pueden ser confirmados por
otros ms complejos y rigurosos. Los parmetros que miden la validez de una prueba
diagnstica son la sensibilidad y la especificidad.
- Reproductividad: Es la capacidad de un test de ofrecer los mismos resultados cuando se
repite su aplicacin en circunstancias similares. La reproductividad viene determinada por la
variabilidad biolgica del hecho observado, la introducida por el propio observador y la
derivada del propio test.
- Seguridad: Es la certeza de que un test predecir la presencia o ausencia de enfermedad

en un paciente. La seguridad viene determinada por el valor predictivo de un resultado
positivo o negativo, es decir, la probabilidad de que siendo un test positivo el paciente est
realmente enfermo.
9.7) Validez de una prueba diagnstica
El caso ms sencillo es el de una prueba dicotmica, la cual clasifica a cada paciente

como sano o enfermo, en funcin de que el resultado de la prueba sea positivo o negativo.
De este modo, un resultado positivo se corresponde normalmente con la presencia de la
enfermedad estudiada y un resultado negativo con la ausencia de la misma. En general se
suele trabajar con una poblacin heterognea de pacientes, de manera que los datos
obtenidos permiten clasificarlos en cuatro grupos, los cuales suelen representarse en una
tabla 2X2.En ella, se enfrenta el resultado de la prueba diagnstica (en filas) con el estado
real de los pacientes (en columnas) o, en su defecto, el resultado de la prueba de referencia o
gold standard que vayamos a utilizar. El resultado de la prueba puede ser positivo o
negativo, pero estos pueden ser correctos o incorrectos, dando lugar a cuatro tipos de
resultados: verdaderos positivos, verdaderos negativos, falsos positivos y falsos negativos.
Validez de una prueba diagnstica.
Resultado de la prueba
Enfermo
Sano
Positivo
Verdaderos positivos (VP)
Falsos positivos (FP)
Negativo
Falsos negativos (FN)
Verdaderos negativos (VN)
Fuente: http://es.wikipedia.org/wiki/Diagn%C3%B3stico_m%C3%A9dico#Tipos_de_diagn.C3.B3stico
9.8) Validez de una prueba diagnstica
Lo que determina la validez del test utilizado va a ser el clculo de los valores de
sensibilidad y especificidad.
- Sensibilidad: indica la probabilidad de que un paciente est realmente enfermo siendo el
resultado del test positivo. Por tanto, es la capacidad de un test para detectar realmente la
presencia de enfermedad. La sensibilidad puede estimarse como la proporcin de pacientes
enfermos que obtuvieron un resultado positivo en la prueba diagnstica, es decir, la
proporcin de verdaderos positivos, o de enfermos diagnosticados, respecto del total de
enfermos en la poblacin de estudio. Luego:
Sensibilidad = (VP)/(VP+FN)
Especificidad: es la probabilidad de que un paciente est realmente sano tras obtener un
resultado del test negativo. Es la capacidad de un test para detectar la ausencia de
enfermedad. As, la especificidad puede estimarse como la proporcin de pacientes sanos
que obtuvieron un resultado negativo en la prueba diagnstica, es decir, la proporcin de
verdaderos negativos, o de sanos reconocidos como tal, respecto del total de sanos en la
poblacin. De este modo:
Especificidad = (VN)/(VN+FP)
Lo ideal es trabajar con pruebas diagnsticas de alta sensibilidad y especificidad, superando
el 80% como mnimo en ambos casos. No obstante, esto no siempre es posible. En general,
una prueba muy sensible ser especialmente adecuada en aquellos casos en los que el no
diagnosticar la enfermedad puede resultar fatal para los enfermos, o en enfermedades en las
que un falso positivo no produzca serios trastornos psicolgicos o econmicos para el
paciente. En cambio, los test con una alta especificidad son necesarios en enfermedades
graves pero sin tratamiento disponible que las haga curables, cuando exista gran inters por
conocer la ausencia de enfermedad o cuando diagnosticar a un paciente de una enfermedad,
siendo falso positivo, pueda acarrear graves consecuencias, ya sean fsicas, psicolgicas o
econmicas.
9.9) Eficacia de una prueba diagnstica
Tanto la sensibilidad como la especificidad proporcionan informacin acerca de la

probabilidad de obtener un resultado concreto (positivo o negativo) en funcin de la
verdadera condicin del paciente con respecto a la enfermedad. Sin embargo, cuando a un
paciente se le realiza alguna prueba, el mdico carece de informacin a priori acerca de su
verdadero diagnstico, y ms bien la pregunta se plantea en sentido contrario: ante un
resultado positivo o negativo en el test, cul es la probabilidad de que el paciente est
realmente enfermo o sano?. Los parmetros que proporcionan esta informacin
(probabilidad post-test) al mdico son los denominados valores predictivos.
Los valores predictivos dependern de la prevalencia de la enfermedad en la poblacin en
estudio. Ser por lo tanto un valor no extrapolable a poblaciones diferentes. Existen dos
tipos de valor predictivo, que se detallan a continuacin:
- Valor predictivo positivo: indica la probabilidad de que el paciente padezca la
enfermedad tras obtener un resultado positivo en el test. Por tanto, el valor predictivo
positivo (VPP) puede estimarse como la proporcin de verdaderos positivos respecto del
total de resultados positivos obtenidos en el test, es decir, el nmero real de enfermos
respecto de todos los resultados que indican presencia de enfermedad. As:
VPP = (VP)/ (VP+FP)
- Valor predictivo negativo: es la probabilidad de que el paciente no padezca la
enfermedad tras obtener un resultado negativo en el test. De este modo, el valor predictivo
negativo (VPN) puede estimarse como la proporcin de verdaderos negativos respecto del
total de resultados negativos obtenidos en el test, es decir, el nmero real de pacientes sanos
respecto de todos los resultados que indican ausencia de enfermedad. Luego:
VPN = (VN)/ (VN+FN)
9.10) Eleccin de una prueba diagnstica
Para elegir correctamente entre dos o ms pruebas diagnsticas se puede recurrir a

parmetros estadsticos. Destaca el conocido como "Caracterstica Operativa del Receptor"
o curva ROC. La curva ROC es una representacin que compara la sensibilidad de la prueba
con el parmetro (1-Especificidad) suponiendo as una medida global e independiente de
cualquier punto de corte establecido. El parmetro indicador ms utilizado es el "rea bajo
la curva" (AUC). Se trata de un ndice cuyo valor est comprendido entre 0,5 y 1; siendo 1
el valor que determina un diagnstico perfecto, y 0,5 una prueba sin capacidad
discriminatoria diagnstica.
3. HIPTESIS
Con la aplicacin del Data Mining es posible la identificacin de patrones y comportamientos de los
registros del rea de Emergencias del Hospital Vctor Ramos Guardia- Huaraz, periodo 2008-2013.
3.1. Variables
Las variables de la presente investigacin son:
Variable
Variable independiente:
Minera de datos
Variable
dependiente:
Diagnstico
4. METODOLOGIA
Dimensiones
Tipo de variables
Hora de Atencin
Edad
Gnero
Procedencia
Tipo de paciente
Motivo ingreso
Servicio de atencin
Destino del paciente
Nominal
Numrica
Nominal
Nominal
Nominal
Nominal
Nominal
Nominal
Enfermedad
Cualitativa
4.1. Materiales y lugar de ejecucin

4.1.1. Lugar
rea de Emergencias del Hospital Vctor Ramos Guardia
4.1.2. Materiales
- Lapiceros
- Papel bond
4.1.3. Equipos
- Laptop
- Impresora
4.1.4. Otros
- Encuestadores
- Autores
4.2. Mtodos
4.2.1. Tcnicas de recoleccin de datos
Para la presente investigacin se recopilar informacin de los registros del rea de
Emergencias del Hospital Vctor Ramos Guardia- Huaraz, periodo 2008-2013.
4.2.2. Tipo de estudio
Segn su propsito o finalidad: Aplicada
Segn su alcance temporal: Longitudinal
Segn su carcter: cualitativa-cuantitativa
Segn su nivel de conocimientos que se adquieren o profundidad: correlacional
Segn el mtodo utilizado: Analtica, inductiva y deductiva.
4.2.3. Diseo de la investigacin

La presente investigacin es de diseo no experimental, de tipo descriptivo-correlacional.
4.2.3. Poblacin y muestra

4.2.3.1. Poblacin: Est constituida por el registro del rea de Emergencias del Hospital Vctor
Ramos Guardia-Huaraz, periodo 2008-2013.
4.2.3.2. Muestra: Se realizar un muestreo al 100%, de los registros del rea de Emergencias
del Hospital Vctor Ramos Guardia-Huaraz, periodo 2008-2013.
4.2.4. Instrumentos de recopilacin de datos
Para la presente investigacin se har uso de consultas con el motor de bases de datos del FoxPro 9.0
para la obtencin de los datos, luego se importarn los datos al SPSS 20.
4.2.5. Anlisis Estadstico e interpretacin de la informacin
Para el procesamiento y depuracin de la informacin se utilizar, 1ro el programa FoxPro 9.0,
2do el SPSS 20, 3ro el Eviews 7.1 y ltimo el Microsoft Excel 2010.
5. ADMINISTRACIN DE PLAN DE INVESTIGACIN

5.1 Cronograma
ACTIVIDADES
4.1.1. Revisin Bibliogrfica
*Bsqueda y adquisicin de bibliografa
4.1.2. Elaboracin del proyecto
* Antecedentes y formulacin del problema
* Elaboracin del instrumento
* Presentacin del proyecto
4.1.3.
Ejecucin del proyecto
* Recoleccin de la informacin
* Procesamiento de los datos
* Anlisis e interpretacin
* Discusin de los resultados
* Elaboracin del Informe Final
* Revisin general de los resultados
* Anillado del informa final
4.1.4. Sustentacin
* Presentacin y sustentacin de la tesis
5.2 Responsables
El responsable de la presente investigacin es:
Bach. Emerson Damin Norabuena Figueroa
5.3. Presupuesto
2014
F M A M J
X X X X
X X X
X X
X
X
X
X
X
X
X
X
X
RECURSOS
5.3.11.41. Recursos humanos:
- Autor
- Digitador
SUB TOTAL
5.3.11.30. Recursos materiales:
- De oficina
Papel A4 80g
Lapiceros
Cd
- Material de impresin
Copias
Impresiones
Anillado
SUB TOTAL
5.3.11.20. Servicios
Internet
Alquiler de Computador
SUB TOTAL
IMPREVISTOS
TOTAL
UNIDA
D
PRECIO
UNITARIO
S/.
PRECIO
TOTAL S/.
1
1
800.00
-
800.00
800.00
5000
10
6
0.05
1.00
2.00
250.00
10.00
12.00
1000
2000
10
0.10
0.10
5.00
100.00
200.00
50.00
622.00
500.00
250.00
750.00
300.00
2,472.00
6. REFERENCIAS BIBLIOGRFICAS
1. ZAMARRN SANZ CARLOS. Aplicacin de la Minera de datos al estudio de las

alteraciones respiratorias durante el sueo .Servicio de Neumologa. Hospital Clnico
Universitario.
2. http://scielo.isciii.es/pdf/ami/v21n8/original2.pdf?origin=publication_detail
3. CHEN,M.S,HAN y Yu.(1996) Data Mining: An Overview from Database Perspective.
IEEE Transactions on Knowledge and Data Engineering.
4. HAN,J y KAMBER,M,(2000). Data Mining: Concepts and Techniques. San Francisco:
Morgan Kaufmann Publishers.
5. VENUGOPAL,(1995) Intelligent Support Systems for Organizational Learning.
6. Fayyad, Piatetsky-Shapiro y Smyth (1996) la extraccin de conocimiento en bases de datos
(KDD).
7. M.V. Guzmn, H. Carrillo, E. Villaseor, E. Valencia, R. Calero,L. E. Morn y A. Acosta.

(2004). Tcnicas de Minera de datos: Aplicacin en Vacunas Tuberculosis. Instituto
Finlay. Centro de Investigacin-Desarrollo y Produccin de Vacunas y Sueros. Ave.
8. Thomsen E., Spofford G., Chase D., John Wiley & Son, Inc.Padrn, A., Prez, J., Fuentes,
R. & Garduo G. Diagnstico de anomalas en electrocardiogramas por medio de minera
de datos.
9. Sackett DL, Haynes RB, Guyatt GH, Tugwell P. Epidemiologa clnica. Ciencia bsica para
la medicina clnica. 2 ed. Madrid: Editorial mdica panamericana; 1994.
10. Cabello Lpez JB, Pozo Rodrguez F. Estudios de evaluacin de las pruebas diagnsticas en
cardiologa. Rev Esp Cardiol. 1997; 50:507-19.
11. CALDERON MENDEZ NEFTALY. Minera de datos Una herramienta para la toma de
decisiones. Guatemala 2006. 96 pginas. Facultad de Ingeniera de la Universidad de San
Carlos de Guatemala.
Pginas Electrnicas
http://proton.ucting.udg.mx/posgrado/cursos/idc/pdf/idc/55.pdf
http://es.wikipedia.org/wiki/Diagn%C3%B3stico_m%C3%A9dico#Tipos_de_diagn.C3.B3stico
http://www4.ujaen.es/~mramos/Cursos/CADIPI/REMEDI_15_Cluster.pdf
7. ANEXOS
Anexo 01. Formato del rea de Emergencias

Proyecto de Tesis Final

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Proyecto de Tesis Final

Uploaded by

Copyright:

Available Formats

UNIVERSIDAD NACIONAL

SANTIAGO ANTNEZ DE MAYOLO

Bach. EMERSON DAMIN NORABUENA FIGUEROA

M.Sc. EDWIN JOHNY ASNATE SALAZAR

TTULO DEL PROYECTO DE TESIS

1.2. Justificacin de Estudio

Adems la identificacin de variables relevantes que influyen en la presencia y variables que

1.3. Objetivos de la investigacin

Matemticamente se representa como una implicacin de la forma A B, en donde A y B

2.2. Planteamiento terico atingentes

BASES TERICAS DE DATA MINING

(CALDERON Neftaly, 2006).

Riesgo y probabilidad: eleccin de los mejores clientes para la distribucin de correo

Recomendaciones: determinacin de los productos que se pueden vender juntos y

Agrupacin: distribucin de clientes o eventos en grupos de elementos relacionados, y

La generacin de un modelo de minera de datos forma parte de un proceso mayor que

Figura 1.Relaciones de del proceso y las tecnologas Server de Data Mining.

Figura 2. Etapa de Definir el problema en el proceso de Data Mining

Qu est buscando? Qu tipos de relaciones intenta buscar?

Qu resultado o atributo desea predecir?

Preparar los datos

Figura 3. Etapa de Preparar los datos en el proceso de Data Mining

Figura 4. Etapa de Explorar los datos en el proceso de Data Mining

Services, para analizar la distribucin de los datos y solucionar problemas, como la

Figura 5. Etapa de Generar los Modelos en el proceso de Data Mining

Figura 7.Etapa de Explorar y Validar los Modelos en el proceso de Data Mining

Antes de implementar un modelo en un entorno de produccin, es aconsejable probar si

6. Implementar y Actualizar los Modelos

Figura 8.Etapa de Implementar y actualizar los Modelos en el proceso de Data Mining

Incrustar la funcionalidad de minera de datos directamente en una aplicacin.

Utilizar Integration Services para crear un paquete en el que se utilice un modelo de

Actualizar los modelos despus de la revisin y anlisis .

Actualizar dinmicamente los modelos, cuando entren ms datos en la organizacin, y

Algoritmos de minera de datos

Un algoritmo de minera de datos es un conjunto de clculos y reglas heursticas que permite

Un conjunto de clsteres que describe cmo se relacionan los casos de un conjunto de

Un modelo matemtico que predice las ventas.

Elegir un algoritmo por tipo

Analysis Services incluye los siguientes tipos de algoritmos:

Algoritmos de clasificacin, que predicen una o ms variables discretas, basndose en otros

Algoritmos de asociacin, que buscan correlaciones entre diferentes atributos de un

Algoritmos de anlisis de secuencias, que resumen secuencias o episodios frecuentes en los

Estructura de Minera de datos(Analysis Services)

Figura 9.Estructura de Data Mining

Extraccin de Conocimiento en Bases de Datos

VENUGOPAL,(1995) Intelligent Support Systems for Organizational Learning.

Tcnicas de Minera de Datos

CHEN,M.S,HAN y Yu,(1996) Data Mining: An Overview from Database Perspective. IEEE

HAN,J y KAMBER,M,(2000). Data Mining: Concepts and Techniques. San Francisco:

Figura 11.Clster: Identificacin de grupos

El Anlisis Clster tiene una importante tradicin de aplicacin en muchas reas de

Algoritmos de particin: Mtodo de dividir el conjunto de observaciones en k

lo define inicialmente el usuario.

Mtodo que entrega una jerarqua de divisiones del

conjunto de elementos en conglomerados.

El anlisis de conglomerados nos va a permitir contestar a preguntas tales Como:

qumicas y pticas del vino que producen?

Eleccin de las variables

Eleccin de la medida de asociacin

Eleccin de la tcnica Cluster

Validacin de los resultados

A) Eleccin de las variables

Anlisis Conglomerados por Variables o por Individuos