Professional Documents
Culture Documents
Proyecto de tesis:
Aplicacin de Data Mining a los registros del rea de Emergencia del Hospital
Vctor Ramos Guardia Huaraz, periodo 2008-2013
Presentado por:
HUARAZ ANCASH
2014
Aplicacin de Data Mining a los Registros del rea de Emergencia del Hospital Vctor
Ramos Guardia Huaraz, periodo 2008-2013
1. EL PROBLEMA
1.1. Seleccin del problema
diagnstico de enfermedades,
prevalencia de enfermedades, robtica, etc. (Wong 1991, Hill et al 1996, Wedding II y Cios 1996,
Faraway y Chatfield 1998).
La presente investigacin de estudio centra sus objetivos en la aplicacin de las tcnicas de minera
de datos con el fin de analizar los patrones y comportamientos de los registros del rea de
Emergencias del Hospital Vctor Ramos Guardia, periodo 2008-2013, para mejoras en la gestin
hospitalaria (reportes anuales, trimestrales, anuales de las atenciones generales de los pacientes de
las diferentes procedencias, diagnosticos, etc) de forma ptima para los procesos en toma de
decisiones por parte de los directivos en bien del Hospital y la poblacin.
2. BASES TEORICAS
2.1. Antecedentes del problema (Estudios)
CHEN, M.S HAN Y YU (USA, 1996) Data Mining: An Overview from Database Perspective.
IEEE Transactions on Knowledge and Data Engineering.En los ltimos aos han existido muchos
avances en las investigaciones y desarrollos relacionados con la minera de datos, como resultado,
se han desarrollado diversas tcnicas y sistemas relativos al data mining. Diferentes esquemas de
clasificacin pueden ser usados para categorizar mtodos y sistemas de minado de datos, como el
tipo de base de datos a estudiar (relacional, orientada a objetos, multimedia, etc.), el tipo de
conocimiento que se quiere extraer (reglas de asociacin, reglas de clasificacin, clustering, etc.),
as como las tcnicas que sern aplicadas en el proceso (basadas en patrones, teora estadstica,
teora matemtica, enfoques integradores, etc.).
HAN,J y KAMBER,M,(2000). Data Mining: Concepts and Techniques. San Francisco: Morgan
Kaufmann Publishers.Mediante el minado de reglas de asociacin se pueden encontrar
interesantes relaciones de asociacin o correlacin en los datos. Dada la gran cantidad de datos
que continuamente se recolectan y almacenan, muchas industrias se han interesado por encontrar
reglas de asociacin en sus bases de datos. El descubrimiento de interesantes relaciones de
asociacin en grandes cantidades de registros transaccionales, puede ayudar en diversos procesos
de toma de decisiones relacionados con el negocio, tales como el diseo de catlogos, la venta
cruzada, y el anlisis loss-leader.
Una regla de asociacin es un criterio que implica ciertas relaciones de asociacin entre distintos
objetos de una base de datos, tales como ocurren juntos o uno implica al otro.
1) MINERIA DE DATOS
Pronstico: clculo de las ventas y prediccin de las cargas del servidor o del tiempo de
inactividad del servidor.
Bsqueda de secuencias: anlisis de los artculos que los clientes han introducido en el
carrito de la compra y prediccin de posibles eventos.
1. Definir el problema
La primera etapa del proceso de minera de datos, tal como se resalta en el siguiente
diagrama, consiste en definir claramente el problema y considerar formas de usar los datos
para proporcionar una respuesta para el mismo.
Este paso incluye analizar los requisitos empresariales, definir el mbito del problema,
definir las mtricas por las que se evaluar el modelo y definir los objetivos concretos del
proyecto de minera de datos. Estas tareas se traducen en preguntas como las siguientes:
-
Refleja el problema que est intentando resolver las directivas o procesos de la empresa?
Desea realizar predicciones a partir del modelo de minera de datos o solamente buscar
asociaciones y patrones interesantes?
Qu tipo de datos tiene y qu tipo de informacin hay en cada columna? En caso de que
haya varias tablas, cmo se relacionan? Necesita limpiar, agregar o procesar los datos
antes de poder usarlos?
Cmo se distribuyen los datos? Los datos son estacionales? Los datos representan con
precisin los procesos de la empresa?
Para responder a estas preguntas, puede que deba dirigir un estudio de disponibilidad de
datos para investigar las necesidades de los usuarios de la empresa con respecto a los datos
disponibles. Si los datos no abarcan las necesidades de los usuarios, podra tener que volver a
definir el proyecto.
Tambin debe considerar las maneras en las que los resultados del modelo se pueden
incorporar en los indicadores de rendimiento clave (KPI) que se utilizan para medir el
progreso comercial.
2.
Los datos pueden estar dispersos en la empresa y almacenados en formatos distintos; tambin
pueden contener incoherencias como entradas que faltan o incorrectas. Por ejemplo, los datos
pueden mostrar que un cliente adquiri un producto incluso antes que se ofreciera en el
mercado o que el cliente compra regularmente en una tienda situada a 2.000 kilmetros de su
casa.
La limpieza de datos no solamente implica quitar los datos no vlidos o interpolar valores
que faltan, sino tambin buscar las correlaciones ocultas en los datos, identificar los orgenes
de datos que son ms precisos y determinar qu columnas son las ms adecuadas para el
anlisis. Por ejemplo, debera utilizar la fecha de envo o la fecha de pedido? Qu influye
ms en las ventas: la cantidad, el precio total o un precio con descuento? Los datos
incompletos, los datos incorrectos y las entradas que parecen independientes, pero que de
hecho estn estrechamente correlacionadas, pueden influir en los resultados del modelo de
maneras que no espera.
Por consiguiente, antes de empezar a generar los modelos de minera de datos, debera
identificar estos problemas y determinar cmo los corregir. En la minera de datos, por lo
general se trabaja con un conjunto de datos de gran tamao y no se puede examinar la
calidad de los datos de cada transaccin; por tanto, es posible que necesite usar herramientas
de generacin de perfiles de datos, y de limpieza y filtrado automtico de datos, como las
que se proporcionan en Integration Services, Microsoft SQL Server 2012 Master Data
Services o SQL Server Data Quality Services para explorar los datos y buscar incoherencias.
Es importante tener en cuenta que los datos que se usan para la minera de datos no necesitan
almacenarse en un cubo de procesamiento analtico en lnea (OLAP), ni siquiera en una base
de datos relacional, aunque puede usar ambos como orgenes de datos. Puede realizar
minera de datos mediante cualquier origen de datos definido como origen de datos de
Analysis Services. Por ejemplo, archivos de texto, libros de Excel o datos de otros
proveedores externos.
3. Explorar los Datos
El tercer paso del proceso de minera de datos, como se resalta en el siguiente diagrama,
consiste en explorar los datos preparados.
Debe conocer los datos para tomar las decisiones adecuadas al crear los modelos de minera
de datos. Entre las tcnicas de exploracin se incluyen calcular los valores mnimos y
mximos, calcular la media y las desviaciones estndar, y examinar la distribucin de los
datos. Por ejemplo, al revisar el mximo, el mnimo y los valores de la media se podra
determinar que los datos no son representativos de los clientes o procesos de negocio, y que
por consiguiente debe obtener ms datos equilibrados o revisar las suposiciones que son la
base de sus expectativas. Las desviaciones estndar y otros valores de distribucin pueden
proporcionar informacin til sobre la estabilidad y exactitud de los resultados. Una
desviacin estndar grande puede indicar que agregar ms datos podra ayudarle a mejorar el
modelo. Los datos que se desvan mucho de una distribucin estndar se podran sesgar o
podran representar una imagen precisa de un problema de la vida real, pero dificultar el
ajustar un modelo a los datos.
Al explorar los datos para conocer el problema empresarial, puede decidir si el conjunto de
datos contiene datos defectuosos y, a continuacin, puede inventar una estrategia para
corregir los problemas u obtener una descripcin ms profunda de los comportamientos que
son tpicos de su negocio.
Puede usar herramientas como Master Data Services para sondear los orgenes de datos
disponibles y determinar su disponibilidad para la minera de datos. Puede usar herramientas
como SQL Server Data Quality Services, o el generador de perfiles de datos de Integration
Deber definir qu columnas de datos desea que se usen; para ello, crear una estructura de
minera de datos. La estructura de minera de datos se vincula al origen de datos, pero en
realidad no contiene ningn dato hasta que se procesa. Al procesar la estructura de minera
de datos, Analysis Services genera agregados y otra informacin estadstica que se puede
usar para el anlisis. Cualquier modelo de minera de datos que est basado en la estructura
puede utilizar esta informacin. Para obtener ms informacin acerca de cmo se relacionan
las estructuras de minera de datos con los modelos de minera de datos.
Contenedor que especifica las columnas que se usan para la entrada, el atributo que est
prediciendo y parmetros que indican al algoritmo cmo procesar los datos. El
procesamiento de un modelo a menudo se denomina entrenamiento. El entrenamiento hace
referencia al proceso de aplicar un algoritmo matemtico concreto a los datos de la estructura
para extraer patrones. Los patrones que encuentre en el proceso de entrenamiento dependern
de la seleccin de los datos de entrenamiento, el algoritmo que elija y cmo se haya
configurado el algoritmo.
5. Explorar y Validar los Modelos
El quinto paso del proceso de minera de datos, como se resalta en el siguiente diagrama,
consiste en explorar los modelos de minera de datos que ha generado y comprobar su
eficacia.
Una vez que los modelos de minera de datos se encuentran en el entorno de produccin,
puede llevar acabo diferentes tareas, dependiendo de sus necesidades. Las siguientes son
algunas de las tareas que puede realizar:
Use los modelos para crear predicciones que luego podr usar para tomar decisiones
comerciales.
Crear consultas de contenido para recuperar estadsticas, reglas o frmulas del modelo. Para
obtener ms informacin.
Crear un informe que permita a los usuarios realizar consultas directamente en un modelo
de minera de datos existente.
2.1)
Un rbol de decisin que predice un resultado y que describe cmo afectan a este los
distintos criterios.
Un conjunto de reglas que describen cmo se agrupan los productos en una transaccin, y
las probabilidades de que dichos productos se adquieran juntos.
La eleccin del mejor algoritmo para una tarea analtica especfica puede ser un
desafo. Aunque puede usar diferentes algoritmos para realizar la misma tarea, cada uno de
ellos genera un resultado diferente, y algunos pueden generar ms de un tipo de
resultado. Por ejemplo, puede usar el algoritmo rboles de decisin de Microsoft no solo
para la prediccin, sino tambin como una forma de reducir el nmero de columnas de un
conjunto de datos, ya que el rbol de decisin puede identificar las columnas que no afectan
al modelo de minera de datos final.
2.2)
Algoritmos de regresin, que predicen una o ms variables continuas, como las prdidas o
los beneficios, basndose en otros atributos del conjunto de datos.
Algoritmos de segmentacin, que dividen los datos en grupos, o clsteres, de elementos que
tienen propiedades similares.
2.3)
La estructura de minera de datos define los datos a partir de los cuales se generan los
modelos de minera de datos: especifica la vista de datos de origen, el nmero y el tipo de
columnas, y una particin opcional en conjuntos de entrenamiento y de pruebas. Una misma
estructura de minera de datos puede admitir varios modelos de minera de datos que
comparten el mismo dominio. En el diagrama siguiente, se muestra la relacin de la
estructura de minera de datos con el origen de datos y con los modelos de minera de datos
que la componen.
La estructura de minera de datos del diagrama est basada en un origen de datos que
contiene varias tablas o vistas, combinadas en el campo CustomerID.
Una tabla contiene informacin sobre los clientes, como la regin geogrfica, la edad, los
ingresos y el sexo, mientras que la tabla anidada relacionada contiene varias filas de
informacin adicional sobre cada cliente, como los productos que ha adquirido.
En el diagrama, se muestra que se pueden generar varios modelos de minera de datos a
partir de una misma estructura de minera de datos, y que los modelos pueden usar columnas
de la estructura diferentes.
Modelo 1: usa CustomerID, Income, Age, Region y filtra los datos de Region.
Modelo 2: usa CustomerID, Income, Age, Region y filtra los datos de Age.
Modelo 3: usa CustomerID, Age, Gender y la tabla anidada, sin filtros.
Dado que los modelos usan columnas diferentes para la entrada, y dado que dos de los
modelos, adems, restringen sus datos mediante la aplicacin de un filtro, los modelos
pueden tener resultados muy diferentes aunque estn basados en los mismos datos. Observe
que la columna CustomerID es obligatoria en todos los modelos porque es la nica columna
disponible que se puede usar como clave de caso.
En esta seccin se explica la arquitectura bsica de las estructuras de minera de datos: cmo
se define una estructura de minera de datos, cmo se rellena con datos y cmo se usa para
crear modelos.
2.4)
Histricamente, a la nocin de encontrar patrones tiles en los datos se le ha dado una gran
variedad de nombres, como minera de datos, extraccin de conocimiento,
descubrimiento de informacin, recoleccin de informacin, arqueologa de datos, y
procesamiento de patrones en datos. El trmino minera de datos se ha usado con mayor
frecuencia en las comunidades de estadstica, anlisis de datos y sistemas de administracin
de la informacin. Dicho trmino tambin ha ganado popularidad en el campo de las bases
de datos. Sin embargo, en estricto sentido, la minera de datos y la extraccin de
conocimiento en bases de datos no son conceptos equivalentes.
Segn Fayyad, Piatetsky-Shapiro y Smyth (1996) la extraccin de conocimiento en bases de
datos (KDD) se refiere a todo el proceso de descubrir conocimiento til en datos, mientras
que la minera de datos (data mining) tiene que ver con la aplicacin de algoritmos
especficos para extraer patrones de los datos.
Figura 10.Pasos que componen al proceso de extraccin de conocimientos en bases de datos (KKD).
As, los pasos que componen al proceso KDD son cinco: seleccin del objetivo, preproceso
de datos, transformacin, minado de datos e interpretacin de los resultados.
La seleccin del objetivo tiene como finalidad estudiar el problema y decidir cul es la meta
del proyecto. Una vez definido el problema, se identifican las fuentes de datos internas o
externas y se selecciona el subconjunto de datos necesarios para la aplicacin de un
algoritmo de minera de datos.
El preproceso de datos consiste en estudiar los datos seleccionados para entender el
significado de los atributos y para detectar errores de integracin, por ejemplo, datos
repetidos con distinto nombre o datos que significan lo mismo en diferente formato.
Una vez que se tienen los datos preprocesados, se procede a la transformacin final de los
mismos, esto con el fin de que se ajusten al formato de entrada del algoritmo seleccionado.
El siguiente paso es el minado de datos propiamente dicho. Aqu se aplican los diferentes
algoritmos de anlisis a los datos ya transformados. La finalidad en esta etapa es encontrar
patrones tiles e interesantes en los datos.
Por ltimo, se procede a interpretar y evaluar los resultados obtenidos en la etapa de minado
de datos. Aqu, el usuario debe valorar los resultados conseguidos y, de ser necesario, aplicar
una y otra vez los algoritmos de Data Mining hasta encontrar informacin til y valiosa. Esto
ltimo hace que el proceso KDD sea un proceso iterativo y de bsqueda continua, en donde
el conocimiento y la intuicin del usuario juegan un papel fundamental en el proceso.
2.5)
Arboles de Decisin.
Regresin Lineal
Nave Bayes.
Anlisis Clster.
Regla de asociacin.
Secuencia de asociacin.
Series de tiempo.
Redes neuronales.
Regresin logstica.
2.6)
Reglas de asociacin
Clasificacin y prediccin
La clasificacin y la prediccin son dos formas de anlisis de datos que pueden ser usadas
para extraer modelos que describen importantes clases de datos o predicen valores futuros.
En la clasificacin de datos se desarrolla una descripcin o modelo para cada una de las
clases presentes en la base de datos. Existen muchos mtodos de clasificacin tales como los
rboles de decisin, los mtodos estadsticos, las redes neuronales, y los conjuntos difusos,
entre otros.
La prediccin puede ser vista como la construccin y uso de modelos para evaluar las clases
de una muestra sin clasificaciones, o para evaluar el valor, o rango de valores, que un
atributo debera de tener para una muestra determinada.70 En el primer caso se dice que se
est haciendo una clasificacin de los datos, mientras que en el segundo, se dice que se est
haciendo una prediccin valores, en otras palabras, la clasificacin se refiere a poder predecir
valores discretos o nominales, mientras que la prediccin, propiamente dicha, se refiere al
pronstico de valores continuos.
2.8)
Clustering
El Clustering identifica grupos de datos para evaluar las diferencias y similitudes entre los
registros. La similitud puede medirse mediante funciones de distancia especificadas por los
usuarios o por expertos.
Algoritmos jerrquicos:
A)
B)
C)
D)
Distancia Mtrica
Similaridad
Similaridad Mtrica
NOTA: Dependiendo del Tipo del anlisis(por variables o por individuos), que se realiza
existen distintas medias de asociacin aunque, tcnicamente pueden utilizarse en ambos
casos.
Medidas de Asociacin para Variables
Coseno del ngulo de dos vectores (invarianza, salvo signo, frente a homotecias
Coeficiente de correlacin (invarianza frente a traslaciones y salvo signo frente a homotecia
s
Medidas para datos dicotmicos
Medida de Ochiai:
Medida
Medida de Jaccard:
Medida de Dice:
Medida de RogersTanimoto:
Distancia de Minkowski:
donde q 1
Distancia de Mahalanobis:
Distancia
x2 :
Es de agrupar cluster para formar uno nuevo o separar alguno ya existente para dar origen a otros dos
de forma que se maximice una medida de similaridad o se minimice alguna distancia.
Clasificacin:
- Asociativos o Aglomerativos: Se parte de tantos grupos como individuos hay en el estudio y se
van agrupando hasta llegar a tener todos los casos en un mismo grupo.
- Disociativos:Se parte de un solo grupo que contiene todos los casos y a travs de sucesivas
divisiones se forman grupos cada vez ms pequeos.
Los mtodos jerrquicos permiten construir un rbol de clasificacin o dendograma.
Mtodos No Jerrquicos
Estn diseados para la clasificacin de individuos (no de variables) en K grupos. El
procedimiento es elegir una particin de los individuos en K grupos e intercambiar los
miembros de los clusters para tener una particin mejor.
Si dos objetos o grupos A y B se han agrupado, la distancia de grupos con otro objeto C
puede calcularse como una funcin de las distancias entre los tres objetos o grupos de la
siguiente forma:
donde i
constantes ponderacin.
En la tabla siguiente se muestran los pesos para algunos de los mtodos ms comunes.
donde
nC
nA
nB
WITTEN,I y FRANK,E(2000). Data Mining: Practical machine learning tools and techniques
with java implementations. Algunos algoritmos de clustering permiten a una instancia
pertenecer a uno a ms clster, como resultado, el diagrama en dos dimensiones muestra cmo
se traslapan los subconjuntos de datos (como un Diagrama de Venn). Otros algoritmos asocian
instancias a clster de manera probabilstica, as para cada instancia, existe una probabilidad
asociada o un grado de pertenencia con el cual se asigna a un determinado cluster.
El objeto de estudio del problema est representado por un conjunto fijo de atributos.
Puede haber errores en los datos de entrenamiento, tanto en la clasificacin como en los
valores de los atributos.
Los datos de entrenamiento, con los cuales se construye el modelo, pueden tener valores
desconocidos para algunos atributos.
Es importante sealar que los rboles de decisin presentan una gran ventaja respecto a otras
tcnicas de clasificacin. Esta ventaja consiste en poder representar al conocimiento obtenido
mediante el uso de reglas de decisin.
2.9)
2.9.1) DATAWAREHOUSE
Frecuentemente los datos que sern minados se extraen del Datawarehouse de una empresa.
Existe un beneficio real si los datos son parte ya de un Datawarehouse esto es porque el
proceso de depuracin de datos para un Datawarehouse y para la minera de datos son
similares.
Las principales reas de los temas influyen en la parte ms importante de la estructura clave.
Las aplicaciones estn relacionadas con el diseo de la base de datos y del proceso. En
DataWarehouse se enfoca el modelamiento de datos y el diseo de la base de datos. El diseo
del proceso no es separado de este ambiente.
Las diferencias entre la orientacin de procesos y funciones de las aplicaciones y la
orientacin a temas, radican en el contenido de la Data a nivel detallado. En el
DataWarehouse se excluye la informacin que no ser usada por el proceso de sistemas de
soporte de decisiones, mientras que la informacin de las orientadas a las aplicaciones,
contiene datos para satisfacer de inmediato los requerimientos funcionales y de proceso, que
pueden ser usados o no por el analista de soporte de decisiones.
Integrado
El aspecto ms importante del ambiente DataWarehouse es que la informacin encontrada al
interior est siempre integrada. La integracin de datos se muestra de muchas maneras: en
convenciones de nombres consistentes, en la medida uniforme de variables, en la
codificacin de estructuras consistentes, en atributos fsicos de los datos consistentes, fuentes
mltiples y otros.
A travs de los aos, los diseadores de las diferentes aplicaciones han tomado sus propias
decisiones sobre cmo se debera construir una aplicacin. Se diferencian en la codificacin,
en las estructuras claves, en sus caractersticas fsicas, en las convenciones de nombramiento
y otros. La capacidad colectiva de muchos de los diseadores de aplicaciones, para crear
aplicaciones inconsistentes, es fabulosa.
De tiempo variante
Toda la informacin del DataWarehouse es requerida en algn momento. Esta caracterstica
bsica de los datos en un depsito, es muy diferente de la informacin encontrada en el
ambiente operacional. En stos, la informacin se requiere al momento de acceder. En otras
palabras, en el ambiente operacional, cuando usted accede a una unidad de informacin,
usted espera que los valores requeridos se obtengan a partir del momento de acceso.
No voltil
La informacin es til slo cuando es estable. Los datos operacionales cambian sobre una
base momento a momento. La perspectiva ms grande, esencial para el anlisis y la toma de
decisiones, requiere una base de datos estable.
En la siguiente Figura (Figura 10) se muestra que la actualizacin es decir el proceso de
insertar, borrar y modificar, se hace regularmente en el ambiente operacional sobre una base
de registro por registro. Pero la manipulacin bsica de los datos que ocurre en el
DataWarehouse es mucho ms simple. Hay dos nicos tipos de operaciones: la carga inicial
de datos y el acceso a los mismos. No hay actualizacin de datos en el depsito, como una
parte normal de procesamiento.
Escalable
2.2.2
1) Epidemiologa
La epidemiologa es, en la aceptacin ms comn, el estudio de las epidemias es decir, de
las enfermedades que afectan transitoriamente a muchas personas en un sitio determinado.
Su significado deriva del griego Epi (sobre) Demos (pueblo) Logos (ciencia).
Una definicin tcnica es la que propone que la epidemiologa es el estudio de la distribucin y
determinantes de enfermedades en poblaciones humanas.
La epidemiologa investiga la distribucin, frecuencia y determinantes de las condiciones de
salud en las poblaciones humanas as como las modalidades y el impacto de las respuestas
sociales necesarias para atender estas necesidades. La distribucin, frecuencia y determinantes
de la enfermedad. Las consecuencias biolgicas sociales de la enfermedad.
2) Morbilidad
La morbilidad se refiere a los efectos de una enfermedad en una poblacin en el sentido de
la proporcin de personas que la padecen en un sitio y tiempo determinado. En el sentido de la
epidemiologa se puede ampliar al estudio y cuantificacin de la presencia y efectos de una
enfermedad en una poblacin.
Tambin es una adaptacin mal empleada al espaol que proviene de la inglesa morbidity
generalmente usada as en Sudamrica para identificar una condicin mdica en la que se
estudia los padecimientos de una enfermedad y cuyo verdadero significado es patolgico. O
tambin para definir discapacidad, es el porcentaje de individuos que contrae una cierta
enfermedad en una poblacin.
3) Prevalencia
La prevalencia es frecuencia estadstica (absoluta relativa) con la que se presenta un
determinado fenmeno en una poblacin (entendido este trmino en su sentido estadstico). En
epidemiologa los fenmenos a los que suele aplicarse este concepto son enfermedades y la
poblacin es humana con la peculiaridad y las derivadas dadas por su aplicacin a conjunto de
seres humanos y enfermedades o fenmenos relacionados con la salud.
La prevalencia se define como el nmero de casos de una enfermedad o evento en una
poblacin en un momento dado. Existen dos tipos de prevalencia: prevalencia puntual y
prevalencia de periodo.
3.1) Prevalencia puntual o instantnea
Denominada tambin tasa de prevalencia, proporcin de prevalencia o casos prevalentes.
Se habla de prevalencia de punto, puntual o instantnea para referirse a dos cosas:
-
Entre ellas se encuentran Ttanos neonatal, hepatitis viral, parotiditis, lcera genital, flujo
uretral, VIH/SIDA, enfermedad diarreica aguda, IRA sin neumona, neumona malaria,
leishmaniosis, entre otras.
6) Fuentes de notificacin
No existe un sistema nacional de salud al subsector pblico, registros sociales y
organizaciones no gubernamentales, se constituyen en fuentes fundamentales de notificacin,
los mismos estn organizados en espacios geogrficos de acuerdo a capacidad resolutiva las
Redes de Servicios de Salud.
7) Clasificacin Internacional de Enfermedades 10(CIE 10)
7.1) Definicin
La clasificacin de enfermedades se le conoce como un sistema de categoras a las
cuales se les asignan morbosas de acuerdo con criterios establecidos.
7.2) Propsito
Permitir el registro sistemtico e anlisis, la interpretacin, comparacin de datos de
mortalidad y morbilidad recolectados en diferentes pases o reas y en diferentes pocas.
7.3) Utilidad
Convertir los trminos diagnsticos de datos problemticos de salud, de palabras a
cdigos alfanumricos que permiten su fcil almacenamiento y posterior recuperacin para
el anlisis de la informacin. En la prctica se ha convertido en una clasificacin
diagnstica estndar mencionada para todos los propsitos epidemiolgicos generales y
muchos otros de administracin de salud.
El CIE, no es adecuada para indagar entidades tcnicas individuales y es adecuada para
clasificar enfermedades y otros tipos de problemas de salud, consignados en distintos tipos
de registros vitales y de salud.
7.4) Estructura bsica de la CIE 10 Revisin
La CIE es un sistema de clasificacin de ejes variables cuyo esquema debe servir a todos
los propsitos prcticos y epidemiolgicos. Este patrn puede ser identificado en los
captulos de la CIE y hasta el momento es considerado como la estructura ms til que
cualquiera de las alternativas que se han probado.
La CIE fue publicada por la Organizacin Mundial de la Salud. Se utiliza a nivel
internacional para fines estadsticos relacionados con morbilidad y mortalidad, los sistemas
de reintegro y soportes de decisin automtica en medicina. Este sistema est diseado para
promover la comparacin internacional de la recoleccin, procesamiento, clasificacin y
presentacin de estas estadsticas. La CIE es la clasificacin central de la WHO Family of
International Classifications (WHO-FIC) (en espaol, laFamilia de Clasificaciones
Internacionales de la OMS).
La lista CIE-10 tiene su origen en la Lista de causas de muerte, cuya primera edicin
edit el Instituto Internacional de Estadstica en 1893. La OMS se hizo cargo de la misma
en 1948, en la sexta edicin, la primera en incluir tambin causas de morbilidad. A la fecha,
la lista en vigor es la dcima, y la OMS sigue trabajando en ella.
La CIE-10 se desarroll en 1992 y su propsito fue rastrear estadsticas de mortalidad. La
OMS publica actualizaciones menores anuales y actualizaciones mayores cada tres aos.
Posteriormente, algunos pases han creado sus propias extensiones del cdigo CIE-10. Por
ejemplo, Australia present su primera edicin, la CIE-10-AM en 1998; Canad public
su versin en el 2000, la CIE-10-CA. Alemania tambin tiene su propia extensin, la
CIE-10-GM.
En EE.UU se aadi el anexo con el sistema de clasificacin de procedimientos o ICD-10PCS.
8) Condicin
Cada condicin de salud puede ser asignada a una categora y recibir un cdigo de hasta seis
caracteres de longitud (en formato de X00.00). Cada una de tales categoras puede incluir un
grupo de enfermedades similares. Los siguientes cdigos se utilizan por la Clasificacin
Estadstica Internacional de Enfermedades y Problemas Relacionados con la Salud.
TTULO
A00-B99
C00-D48
Neoplasias
Enfermedades de la sangre y de los rganos hematopoyticos y otros
D50-D89
E00-E90
F00-F99
G00-G99
H00-H59
H60-H95
I00-I99
J00-J99
K00-K93
L00-L99
M00-M99
N00-N99
O00-O99
P00-P96
Q00-Q99
R00-R99
S00-T98
V01-Y98
Z00-Z99
U00-U99
9) Diagnstico Mdico
El diagnstico o propedutica clnica es el procedimiento por el cual se identifica
una enfermedad, entidad nosolgica, sndrome, o cualquier condicin de salud-enfermedad (el
"estado de salud" tambin se diagnostica).
El diagnstico clnico requiere tener en cuenta los dos aspectos de la lgica, es decir, el
anlisis y la sntesis, utilizando diversas herramientas como la anamnesis, la historia
clnica, exploracin fsica y exploraciones complementarias.
El diagnstico mdico establece a partir de sntomas, signos y los hallazgos de
exploraciones complementarias, qu enfermedad padece una persona. Generalmente una
enfermedad no est relacionada de una forma biunvoca con un sntoma, es decir, un
sntoma no es exclusivo de una enfermedad. Cada sntoma o hallazgo en una exploracin
presenta una probabilidad de aparicin en cada enfermedad.
El teorema de Bayes ayuda al diagnstico de una enfermedad a partir de los sntomas y
otros hallazgos que presenta el paciente si las enfermedades son mutuamente excluyentes,
se conoce sus prevalencias y la frecuencia de aparicin de cada sntoma en cada
enfermedad. Segn la prevalencia de cada enfermedad en cada poblacin, un mismo
conjunto de sntomas o sndrome puede producir un diagnstico diferente en cada
poblacin, es decir, cada sndrome puede estar producido por una enfermedad diferente en
cada poblacin.
- Sntomas: Son las experiencias subjetivas negativas fsicas que refiere el paciente,
recogidas por el mdico en la anamnesis durante la entrevista clnica, con un lenguaje
mdico, es decir comprensible para todos los mdicos. Por ejemplo, los pacientes a la
sensacin de falta de aire o percepcin incmoda y desagradable en la respiracin (disnea),
lo llaman ahogo, angustia, fatiga, cansancio fcil, etc.
- Signos: Son los hallazgos objetivos que detecta el mdico observando al paciente, por
ejemplo
la
taquipnea
ms
de
30
respiraciones
por
minuto.
La semitica
mdica o semiologa clnica es la parte de la medicina que trata de los signos de las
enfermedades desde el punto de vista del diagnstico y del pronstico.
- Exploracin fsica o Semiotcnica: Consiste en diversas maniobras que realiza el mdico
sobre el paciente, siendo las principales la inspeccin, palpacin, percusin, oler
y auscultacin, con las que se obtienen signos clnicos ms especficos.
Todos los sntomas referidos en la anamnesis y los signos objetivados en la exploracin
fsica son anotados en la historia clnica del paciente.
Generalmente, los signos y sntomas definen un sndrome que puede estar ocasionado por
varias enfermedades. El mdico debe formular una hiptesis sobre las enfermedades que
pueden estar ocasionando el sndrome y para comprobar la certeza de la hiptesis
solicita exploraciones complementarias.
Fibrobroncoscopia
Colonoscopia
Gastroscopia
Colposcopia
Toracoscopia
Laringoscopia
Biopsia.
- Diagnstico tardo
- Diagnstico ausente
- Diagnstico genrico
- Diagnstico inexacto
- Diagnstico de moda
- Sobrediagnstico
- Etiquetamiento
- Cascada diagnstica
9.6) Caractersticas de una prueba diagnstica
Se considera que una prueba diagnstica es buena cuando ofrece resultados positivos en
enfermos y negativos en pacientes sanos, con el menor rango de error posible. Por lo tanto,
las condiciones que deben ser exigidas en un test diagnstico son principalmente tres:
- Validez: Es el grado en que un test mide lo que se supone que debe medir, es decir, la
frecuencia con la que los resultados obtenidos con este test pueden ser confirmados por
otros ms complejos y rigurosos. Los parmetros que miden la validez de una prueba
diagnstica son la sensibilidad y la especificidad.
- Reproductividad: Es la capacidad de un test de ofrecer los mismos resultados cuando se
repite su aplicacin en circunstancias similares. La reproductividad viene determinada por la
variabilidad biolgica del hecho observado, la introducida por el propio observador y la
derivada del propio test.
Enfermo
Sano
Positivo
Negativo
Fuente: http://es.wikipedia.org/wiki/Diagn%C3%B3stico_m%C3%A9dico#Tipos_de_diagn.C3.B3stico
Lo que determina la validez del test utilizado va a ser el clculo de los valores de
sensibilidad y especificidad.
- Sensibilidad: indica la probabilidad de que un paciente est realmente enfermo siendo el
resultado del test positivo. Por tanto, es la capacidad de un test para detectar realmente la
presencia de enfermedad. La sensibilidad puede estimarse como la proporcin de pacientes
enfermos que obtuvieron un resultado positivo en la prueba diagnstica, es decir, la
proporcin de verdaderos positivos, o de enfermos diagnosticados, respecto del total de
enfermos en la poblacin de estudio. Luego:
Sensibilidad = (VP)/(VP+FN)
Especificidad: es la probabilidad de que un paciente est realmente sano tras obtener un
resultado del test negativo. Es la capacidad de un test para detectar la ausencia de
enfermedad. As, la especificidad puede estimarse como la proporcin de pacientes sanos
que obtuvieron un resultado negativo en la prueba diagnstica, es decir, la proporcin de
verdaderos negativos, o de sanos reconocidos como tal, respecto del total de sanos en la
poblacin. De este modo:
Especificidad = (VN)/(VN+FP)
Lo ideal es trabajar con pruebas diagnsticas de alta sensibilidad y especificidad, superando
el 80% como mnimo en ambos casos. No obstante, esto no siempre es posible. En general,
una prueba muy sensible ser especialmente adecuada en aquellos casos en los que el no
diagnosticar la enfermedad puede resultar fatal para los enfermos, o en enfermedades en las
que un falso positivo no produzca serios trastornos psicolgicos o econmicos para el
paciente. En cambio, los test con una alta especificidad son necesarios en enfermedades
graves pero sin tratamiento disponible que las haga curables, cuando exista gran inters por
conocer la ausencia de enfermedad o cuando diagnosticar a un paciente de una enfermedad,
siendo falso positivo, pueda acarrear graves consecuencias, ya sean fsicas, psicolgicas o
econmicas.
o curva ROC. La curva ROC es una representacin que compara la sensibilidad de la prueba
con el parmetro (1-Especificidad) suponiendo as una medida global e independiente de
cualquier punto de corte establecido. El parmetro indicador ms utilizado es el "rea bajo
la curva" (AUC). Se trata de un ndice cuyo valor est comprendido entre 0,5 y 1; siendo 1
el valor que determina un diagnstico perfecto, y 0,5 una prueba sin capacidad
discriminatoria diagnstica.
3. HIPTESIS
Con la aplicacin del Data Mining es posible la identificacin de patrones y comportamientos de los
registros del rea de Emergencias del Hospital Vctor Ramos Guardia- Huaraz, periodo 2008-2013.
3.1. Variables
Las variables de la presente investigacin son:
Variable
Variable independiente:
Minera de datos
Variable
dependiente:
Diagnstico
4. METODOLOGIA
Dimensiones
Tipo de variables
Hora de Atencin
Edad
Gnero
Procedencia
Tipo de paciente
Motivo ingreso
Servicio de atencin
Destino del paciente
Nominal
Numrica
Nominal
Nominal
Nominal
Nominal
Nominal
Nominal
Enfermedad
Cualitativa
4.1.3. Equipos
- Laptop
- Impresora
4.1.4. Otros
- Encuestadores
- Autores
4.2. Mtodos
4.2.1. Tcnicas de recoleccin de datos
Para la presente investigacin se recopilar informacin de los registros del rea de
Emergencias del Hospital Vctor Ramos Guardia- Huaraz, periodo 2008-2013.
4.2.2. Tipo de estudio
4.2.3.2. Muestra: Se realizar un muestreo al 100%, de los registros del rea de Emergencias
del Hospital Vctor Ramos Guardia-Huaraz, periodo 2008-2013.
4.2.4. Instrumentos de recopilacin de datos
Para la presente investigacin se har uso de consultas con el motor de bases de datos del FoxPro 9.0
para la obtencin de los datos, luego se importarn los datos al SPSS 20.
4.2.5. Anlisis Estadstico e interpretacin de la informacin
Para el procesamiento y depuracin de la informacin se utilizar, 1ro el programa FoxPro 9.0,
2do el SPSS 20, 3ro el Eviews 7.1 y ltimo el Microsoft Excel 2010.
5.2 Responsables
El responsable de la presente investigacin es:
Bach. Emerson Damin Norabuena Figueroa
5.3. Presupuesto
2014
F M A M J
X X X X
X X X
X X
X
X
X
X
X
X
X
X
X
RECURSOS
5.3.11.41. Recursos humanos:
- Autor
- Digitador
SUB TOTAL
5.3.11.30. Recursos materiales:
- De oficina
Papel A4 80g
Lapiceros
Cd
- Material de impresin
Copias
Impresiones
Anillado
SUB TOTAL
5.3.11.20. Servicios
Internet
Alquiler de Computador
SUB TOTAL
IMPREVISTOS
TOTAL
UNIDA
D
PRECIO
UNITARIO
S/.
PRECIO
TOTAL S/.
1
1
800.00
-
800.00
800.00
5000
10
6
0.05
1.00
2.00
250.00
10.00
12.00
1000
2000
10
0.10
0.10
5.00
100.00
200.00
50.00
622.00
500.00
250.00
750.00
300.00
2,472.00
6. REFERENCIAS BIBLIOGRFICAS
Pginas Electrnicas
http://proton.ucting.udg.mx/posgrado/cursos/idc/pdf/idc/55.pdf
http://es.wikipedia.org/wiki/Diagn%C3%B3stico_m%C3%A9dico#Tipos_de_diagn.C3.B3stico
http://www4.ujaen.es/~mramos/Cursos/CADIPI/REMEDI_15_Cluster.pdf
7. ANEXOS
Anexo 01. Formato del rea de Emergencias