You are on page 1of 10

Traducido del inglés al español - www.onlinedoctranslator.

com

mputermethodsandprogr am sinbi om edicine 1 0 8 ( 2 0 1 2 ) 570–579

revista Página de inicio : www. internacional els ev ier salu d . com/ j o r na ls / cmpb

Diagnóstico de la enfermedad de la hepatitis utilizando un método híbrido


novedoso basado en una máquina de vectores de soporte y recocido simulado
(SVM-SA)

Javad Salimi Sartakhti ∗, Mohammad Hossein Zangooei, Kourosh Mozafari


SCS Lab, Departamento de Ingeniería Eléctrica e Informática, Universidad Tarbiat Modares, Terhran, Irán

información del artículo abstracto

Historial del artículo: En este estudio, el diagnóstico de la enfermedad de la hepatitis, que es una enfermedad muy común e importante, se
Recibido el 15 de mayo de 2011 realiza con un método de aprendizaje automático. Hemos propuesto un nuevo método de aprendizaje automático
Recibido en forma revisada el 15 que hibrida la máquina de vectores de soporte (SVM) y el recocido simulado (SA). El recocido simulado es un método
de julio de 2011 estocástico actualmente en uso generalizado para problemas de optimización difíciles. La máquina de vectores de
Aceptado el 20 de agosto de 2011 soporte explorada intensamente debido a sus varias ventajas únicas se ha verificado con éxito como método de
predicción en los últimos años. Tomamos el conjunto de datos utilizado en nuestro estudio de la base de datos de

Palabras clave: aprendizaje automático de UCI. La precisión de la clasificación se obtiene a través de una validación cruzada de 10

Diagnóstico de enfermedades de hepatitis veces. La precisión de clasificación obtenida de nuestro método es del 96,25% y es muy prometedor con respecto a

Enfoque de aprendizaje automático SVM los otros métodos de clasificación en la literatura para este problema.

SA © 2011 Elsevier Ireland Ltd. Todos los derechos reservados.

Ajuste de parámetros

El VHB, un virus de ADN que se transmite por vía percutánea, sexual y


1. Introducción perinatal, afecta a entre 350 y 400 millones de personas en todo el mundo.[4].

La hepatitis viral es uno de los problemas de salud más importantes del Puede causar enfermedad hepática crónica y pone a las personas en alto

mundo. Es una de las enfermedades infecciosas más comunes y causa riesgo de muerte por cirrosis hepática y cáncer de hígado.

aproximadamente 1,5 millones de muertes en todo el mundo cada año. La infección por el VHC a menudo es asintomática, pero una vez que se

[1]. La hepatitis viral es una inflamación y daño a los hepatocitos en establece, la infección crónica puede progresar a cicatrización del hígado

el hígado causado por al menos seis virus diferentes. Estos virus (fibrosis) y cicatrización avanzada (cirrosis), que generalmente es evidente

llamados A, B, C, D, E y G que también se llaman HAV, HBV, HCV, después de muchos años.[5,6].

HDV, HEV y HGV respectivamente[2]. El HDV se propaga a través del contacto con sangre infectada,
El VHA se transmite de persona a persona, principalmente por agujas sucias que tienen HDV y sexo sin protección (sin usar
vía fecal-oral.[3]. La incidencia de la hepatitis A está estrechamente condón) con una persona infectada con HDV. La hepatitis D causa
relacionada con el desarrollo socioeconómico y los estudios inflamación del hígado.[7,8].
seroepidemiológicos muestran que la prevalencia de anticuerpos La hepatitis E es causada por el virus HEV. La hepatitis E se
anti-VHA en la población general varía del 15 % a cerca del 100 % en contrae al beber agua infectada con el virus. Provoca inflamación
diferentes partes del mundo. del hígado, pero ningún daño a largo plazo.

∗Autor correspondiente. Tel.: +982182883125.


Correos electrónicos: salimi.sartakhti@gmail.com (JS Sartajti), mhzangooei@gmail.com (MH Zangooei), kurosh.mozafari@gmail.com (K. Mozafari).

0169-2607/$ – ver portada © 2011 Elsevier Ireland Ltd. Todos los derechos reservados. hacer:
10.1016/j.cmpb.2011.08.003
m étodos informáticos y progr am sinbi om edicine 1 0 8 ( 2 0 1 2 ) 570–579 571

El virus de la hepatitis G (HGV/GBV) es un nuevo tipo de virus de la varios métodos de minería de datos y aprendizaje automático se prueban en
hepatitis que fue identificado por primera vez por Simons y Linnen entre conjuntos de datos tomados del repositorio de aprendizaje automático de UCI
1995 y 1996. [9]. Se ha demostrado que el HGV es un virus de ADN de (http://archive.ics.uci.edu/ml/datasets/hepatitis).
cadena positiva monocatenario que tiene una distribución mundial y se En cuanto a otros problemas de diagnóstico clínico, se han usado sistemas
propaga por la circulación sanguínea.[6,10]. de clasificación para el problema de diagnóstico de la enfermedad de la
La mayoría de las veces, el diagnóstico de hepatitis se realiza mediante un hepatitis. A través de los sistemas de clasificación, las redes neuronales
análisis de sangre de rutina o durante una donación de sangre. Hasta ahora, multicapa (MLNN) se han utilizado con éxito para reemplazar los métodos
se han realizado muchos estudios en el diagnóstico de enfermedades de convencionales de reconocimiento de patrones para los sistemas de
hepatitis. El diagnóstico médico es una tarea bastante difícil y visual que en su diagnóstico de enfermedades.[18–21]. Algunas técnicas clásicas como naive
mayoría es realizada por médicos expertos. Un médico experto comúnmente Bayes,k-Vecino más cercano[22]y la red neuronal[23] se han aplicado en el
toma decisiones evaluando los resultados de las pruebas actuales de un problema de diagnóstico de la enfermedad de la hepatitis.
paciente o el médico experto compara al paciente con otros pacientes con la Entre estos, Karol Grudzin ski propuso K-NN ponderado (9-NN,
misma condición refiriéndose a las decisiones anteriores. Por lo tanto, es muy 18-NN). Rafal Adamczak aplicó máquina de estados finitos con
difícil para un médico diagnosticar una hepatitis[11]. Por esta razón, en los rotaciones (FSM), FSM sin rotaciones, RBF y algoritmos de
últimos tiempos se han considerado muchas técnicas de aprendizaje perceptrón multicapa (MLP) más retropropagación (BP). Esin
automático y minería de datos para diseñar sistemas de diagnóstico Dgantekin utilizó el híbrido de red adaptativa basado en un sistema
automático de hepatitis. de inferencia difusa. Stern y Dobnikar han utilizado análisis
El problema del diagnóstico automático se puede abordar discriminante lineal, Naive Bayes y Semi-NB, análisis discriminante
utilizando un algoritmo de aprendizaje automático único e híbrido cuadrático, 1-NN, ASR, análisis discriminante de Fisher, LVQ, CART
[12,13]. (árbol de decisión) y MLP con BP[24]. Ozyilmaz y Yildirim han
Las máquinas de vectores de soporte fueron introducidas por primera vez utilizado algoritmos MLP, RBF y GRNN[25].
por Vapnik y sus colegas. [14] y recientemente se han utilizado para algunos
problemas como la bioinformática y el reconocimiento de patrones. SVM SVM es otro de los algoritmos más conocidos en el diagnóstico de
proporciona un truco para ajustar una superficie de hiperplano a los datos de enfermedades. Debido a su alto poder predictivo, las SVM también se
entrenamiento mediante una función del kernel. Un problema crucial en SVM han utilizado ampliamente para diseñar sistemas de diagnóstico de
es cómo establecer los mejores parámetros del kernel porque influye en el enfermedades de hepatitis.[24–26], así como otros datos médicos[27].
rendimiento de los problemas. Los parámetros que deben optimizarse son los También la hibridación entre SVM y otros métodos puede considerarse
parámetros de penalización.Cy los parámetros de la función del kernel tales como un método novedoso. Entre esto, Stoean et al. máquinas de
como la gamma (-) para el kernel de la función de base radial. Por lo tanto, vectores de apoyo impulsadas por la evolución propuestas para
para dominar este desafío, los investigadores propusieron varios métodos determinar el grado de fibrosis hepática en la hepatitis C crónica[28].
híbridos. En este estudio, propusimos un nuevo método de diagnóstico de la
huang y wang[15]presentar un enfoque de algoritmo genético para enfermedad de la hepatitis utilizando la hibridación entre SVM y SA para
la optimización de parámetros. Probaron varios conjuntos de datos de lograr una mayor precisión. Los resultados obtenidos del método SVM-
medicamentos, como la hepatitis, utilizando SVM basado en GA. Ren y SA probaron esta afirmación.
Bai[dieciséis]presentan dos enfoques de optimización de parámetros
SVM, es decir, GA-SVM y PSO-SVM. Ambos adoptan una función objetivo,
utilizando GA (algoritmo genético) y PSO (optimización de enjambre de 3. Conjunto de datos de enfermedad de hepatitis

partículas) respectivamente. Huang[17]ha presentado un modelo


clasificador híbrido basado en ACO que optimiza simultáneamente los Este conjunto de datos de la enfermedad de la hepatitis requiere la
parámetros del núcleo SVM y el subconjunto de funciones. determinación de si los pacientes con hepatitis vivirán o morirán. El conjunto
En este estudio se propone un nuevo método de diagnóstico médico de datos de la enfermedad de la hepatitis se obtiene del repositorio de UCI de
basado en un enfoque híbrido para resolver el problema de diagnóstico bases de datos de aprendizaje automático[29]. El propósito del conjunto de
de la enfermedad de hepatitis. Este método hibrida el método de la datos es predecir la presencia o ausencia de la enfermedad de la hepatitis
máquina de vectores de soporte (SVM) y las técnicas de recocido mediante el uso de los resultados de varias pruebas médicas realizadas en un
simulado (SA). Para evaluar el rendimiento de nuestro método, lo paciente. El conjunto de datos de hepatitis contiene 155 muestras que
comparamos con otros métodos híbridos y simples. Los resultados pertenecen a dos clases diferentes, mueren con 32 (20,6%) casos y viven con
experimentales confirman que nuestro método tiene un rendimiento 123 (79,4%) casos. Hay 19 atributos, 13 binarios y 6 atributos con 6–8 valores
más alto que los otros métodos. discretos. El conjunto de datos de hepatitis tiene muchos valores faltantes,
El resto de este documento está organizado de la siguiente manera: En la como las características 18, 15 y 17 que tienen 67, 29 y 16 valores faltantes,
Sección 2, se revisan los trabajos relacionados con el diagnóstico de la respectivamente. Las descripciones de los atributos que se obtienen del
enfermedad de hepatitis. En la sección3, se explica el conjunto de datos del paciente se muestran entabla 1 (Repositorio de aprendizaje automático UCI).
estudio aplicado. Discutimos sobre nuestro método propuesto en detalle en la
Sección4 y los resultados obtenidos usando SVM basado en SA se muestran en Después de eliminar los valores faltantes, la clase de vida tiene 13
la Sección 5. Finalmente, en la Sección6, se presenta la discusión y conclusión. muestras y la clase de dado tiene 67 muestras.

4. Recocido simulado basado en SVM (SA)


2. Trabajo relacionado

Esta sección resume algunos métodos y técnicas para el problema de En esta sección, explicamos en detalle nuestra SVM-SA propuesta. Los
diagnóstico de la enfermedad de hepatitis. Para resolver este problema pasos de SVM-SA se presentan a continuación:
572 m étodos informáticos y progr am sinbi om edicine 1 0 8 ( 2 0 1 2 ) 570–579

Tabla 1 – Descripción de los atributos del conjunto de datos de enfermedades de hepatitis. Algoritmo 1 – Pasos del algoritmo SA.
Atributo Valores s←s0;pags←PAGS(s)

//Estado inicial, precisión.


Envejecer 10, 20, 30, 40, 50, 60, 70, 80
smejor←s;pagsmejor←pags
Sexo Hombre, mujer
//La "mejor" solución inicial
Esteroide No si
k←0;kmáximo ←Valor constante (p.ej ∞);
antivirales No si
Maximo puntaje←Un valor constante
Fatiga No si
//conteo de evaluación.
Malestar No si
mientras k< kmáximo y p < = Maximo puntaje {
Anorexia No si
hígado grande No si
//Mientras queda tiempo y no es lo suficientemente
Hígado Firme No si
bueno: snuevo ←Vecino(s)
Bazo palpable No si
//Elige a algún vecino.
Arañas No si
pagsnuevo ←PAGS(snuevo)
ascitis No si
//Calcule su precisión.
várices No si
Si Exp(pagsnuevo −pags) > Aleatorio() entonces
bilirrubina 0,39, 0,80, 1,20, 2,00, 3,00, 4,00
//¿Deberíamos pasar a él?
Fosfato alcalino 33, 80, 120, 160, 200, 250
s←snuevo;pags←pagsnuevo
sgot 13, 100, 200, 300, 400, 500
//Sí, cambia de estado.
Albúmina 2.1, 3.0, 3.8, 4.5, 5.0, 6.0
Si pagsnuevo > pagsmejorentonces
Protiempo 10, 20, 30, 40, 50, 60, 70, 80, 90
//¿Es este un nuevo mejor?
Histología No, si
smejor←s nuevo;pagsmejor←pagsnuevo
//Guarde 'nuevo vecino' en 'mejor
1. Preprocesamiento de datos
encontrado'. k←k+1
2. Escalando los datos //Una evaluación más hecha
3. SA (obtener mejor(C, -) mediante puntuación de validación cruzada) }
4. Construcción del modelo regreso smejor, pagsmejor

//Devuelve la mejor solución encontrada.

El resto de esta sección trata sobre cada uno de estos pasos en


detalle.
es una generalización de un método de Monte Carlo para examinar las

4.1. Preprocesamiento de datos ecuaciones de estado y estados congelados de sistemas de n cuerpos [31]. El
pseudocódigo implementa la heurística de recocido simulado de la siguiente

El conjunto de datos contiene 13 características nominales y 6 manera:

numéricas. Sin embargo, cada instancia de datos debe representarse parte de un estado s0 y continúa hasta un máximo de kmáximo pasos o
como un vector de números reales antes de presentarlo a SVM. Por lo hasta un estado con una precisión de pagsmáximo o más se encuentra. En
tanto, el algoritmo debería convertir los atributos categóricos en el proceso, los vecinos llamados deben generar vecinos elegidos al azar
elementos de datos numéricos. Por lo tanto, representamos cada valor de un estado dados; la llamada Random() debería devolver un valor
categórico por un número real. Por ejemplo, la clase de muerte se aleatorio en el rango [0, 1]. La llamadaPAGS() es la función de
representa con 1 y la clase de vida se indica con 0. probabilidad de aceptación.
Expliquemos la definición de puntaje de validación cruzada que hemos

4.2. Escalada utilizado en nuestra búsqueda jerárquica de SA de manera efectiva.


Consideramos el algoritmo de aprendizaje del clasificador SVMA- donde - es el

La principal ventaja de escalar es evitar que los atributos en rangos vector de los hiperparámetros de su kernel RBF. AplicamosA- en conjunto de

numéricos más grandes dominen a los de rangos numéricos más datos D, A- (D) y obtener una salida que es un clasificador. Dado un conjunto,

pequeños. Otra ventaja es evitar dificultades numéricas durante los nos gustaría evaluar el puntaje de validación cruzada del mejor clasificador

cálculos. Debido a que los valores del kernel generalmente dependen de alcanzableA-∗ (D) donde -*∈ es la mejor tarea para D. Para ello aplicamos lo

los productos internos de los vectores de características, por ejemplo, el siguientek-procedimiento de validación cruzada, Validación cruzada(k, A, D, ,

kernel lineal y el kernel polinomial, los valores de atributos grandes norte), que devuelve la puntuación de validación cruzada de kclasificadores

pueden causar problemas numéricos.[30]. El escalado se define que fueron construidos por el algoritmo, cada uno en un pliegue diferente y

mediante una transformación lineal de acuerdo con la ecuación.(1)donde optimizados mediante el uso de una determinada estrategia de búsqueda de

Xson los datos originales,Xnormalizadoson los datos normalizados,Xmáximo y hiperparámetros. El procedimiento consta de los siguientes pasos (CV en

Xminson los valores máximo y mínimo deX. En este paso, las 41 Figura 1):

características numéricas se construyen y normalizan al intervalo [límite


inferior, límite superior].
1.Permutación y división de datos. Permute aleatoriamente los datos del tren y luego
divídalos enksubconjuntos de igual tamaño que no se superponenDI, I=1, . . .,k.
X − Xmin(límite superior − límite inferior)
Xnormalizado= (1)
Xmáximo − Xmin
2.Entrenar clasificadores sobre pliegues. Un subconjunto (subconjunto de

4.3. Búsqueda de recocido simulado validación) se prueba usando el clasificador entrenado en el resto
k−1 subconjuntos. Para cadaI=1, . . .,kgenerar un clasificador CI=
SA es una técnica para encontrar una solución adecuada a un problema de AI- (DI\D). Por lo tanto, cada instancia del conjunto de entrenamiento completo es
optimización probando variaciones aleatorias de la solución actual. Eso predicho.
3

Fig. 1 – Diagrama de flujo de SVM-SA.

Calcule la puntuación de validación cruzada. Para cada combinación de (C, -) Además, esta técnica requiere mucho tiempo, pero logra una mayor
obtenemos una puntuación de validación cruzada según la ecuación. (2). precisión que otras técnicas.
En este artículo hemos utilizado un intervalo de (2−5, 215), (2−15, 25) por Cy -
parámetros respectivamente. Para todas las combinaciones posibles
# Registros verdaderos predichos
Puntaje de validación cruzada = (2) combinaciones de sus dosCy - puntaje de validación cruzada de intervalos
# Registros totales
ha sido computado. Para calcular el puntaje de validación cruzada,
el kSe ha aplicado la técnica de validación cruzada.
Ahora discutiremos sobre la búsqueda de SA propuesta en Figura 1muestra el diagrama de flujo de nuestro método. En el primer
detalle. Hay dos hiperparámetros para el kernel RBF:Cy -. El mejor paso, inicializamos los parámetros de SA y luego inicializamos los parámetros
valor de estos parámetros depende de la naturaleza del problema. de SVM (Cy -) al azar. Teniendo en cuenta estos valores, seleccionamos vecinos
Para ello existen diferentes métodos como el algoritmo genético, para ellos e intentamos sintonizar estos vecinos con la búsqueda de SA.
gradiente analítico, gradiente numérico y Monte Carlo. Otro método Hacemos una técnica de validación cruzada para obtener CVS y comparar
para encontrar el mejor par global de (C, -) es SA. diferentes (C, -). La salida de esta etapa es la entrada
574 m étodosinformáticosyprogramassinbi om edicina 1 0 8 ( 2 0 1 2 ) 570–579

para la próxima etapa que decide que esto (C, -) es aceptable y salir
Tabla 2 – Representación de la matriz de confusión.
o debe sintonizarlos y continuar.
Predicho Real
Si considera (C, -) no puede obtener la puntuación mínima requerida, a su
alrededor puede existir un par de (C, -) valores que proporcionan mejor CVS. Negativo Positivo
Por lo tanto, para lograr una mejor puntuación, utilizamos una búsqueda SA
Negativo Tennesse FN
más precisa e intentamos ajustar los parámetros. Para ajustar los parámetros Positivo FP TP
de las funciones del kernel, construimos una ventana virtual alrededor del
mejor local (C, -). La construcción de ventanas continúa hasta que la datos en la matriz. Tabla 2 muestra la matriz de confusión para un
puntuación de los parámetros es aceptable para nosotros. En otras palabras, clasificador de dos clases.
la puntuación de validación cruzada es mayor que un umbral predefinido. Al Verdadero positivo (TP): Si se determina que una entrada muere con un
aumentar el número de pasos para sintonizarCy -, el tiempo y la precisión nervio óptico diagnosticado por los médicos automáticos.
están aumentando. Finalmente, mejor global (C, -) dar a SVM-SA para construir Verdadero negativo (Tennesse): si una entrada se determina como en vivo, que
el modelo y probar el conjunto de datos. fue etiquetada como en vivo por los médicos automáticos.
Falso positivo (FP): si una entrada se determina como muerta, que

4.4. Modelo de construcción


fue etiquetada como viva por los médicos automáticos.
Falso negativo (FN): si una entrada se determina como viva con un

Como puedes ver en Figura 1, el diagrama de flujo de nuestro método,


nervio óptico diagnosticado por los médicos automáticos.

obtiene como resultado el mejor valor de (C, -), y luego construye sus
Las tasas de diagnóstico correctas de hepatitis son la
clasificadores. Después de obtener el mejor par de (C, -), construimos los
sensibilidad, la especificidad y se calculan de acuerdo con las Ecs.
clasificadores de aprendizaje para la estimación de probabilidad de
(4)–(6) [11,32].
acoplamiento por pares (PWC). El acoplamiento por pares es un método
TP
popular de clasificación de clases múltiples que combina todas las Sensibilidad = Recordarpositivo = (4)
TP + FN
comparaciones para cada par de clases. construcciones de motos acuáticasryo
=k(k−1)/2, 1≤I≤k, 1≤j≤Iclasificadores. La decisión de clasificación se toma TP
Sensibilidad = Recordarnegativo = (5)
agregando las salidas de los clasificadores. TP + FN
Los clasificadores binarios ryo están entrenados para estimar las
probabilidades de clase por pares∗=p(Y0 =i|Y0 =Io Y0 =j, 0). El
yo ∑|T evaluar(t)
estimados ryo de ∗están
yo
disponibles entrenando con el Iy jth clases yo=1 I
Exactitud(T) = , t ∈T,
I evaluar(t )
del conjunto de entrenamiento. Para calcular esta probabilidad |T|
hemos utilizado el método de Hsu et al.: {
1, si clasificar(t) ≡ t.c.
= (6)
0, de lo contrario
Dyo = {(xnorte, ynorte)|ynorte = yo o ynorte = j, 1 ≤ norte ≤ NORTE} (3)
dondeT es el conjunto de elementos de datos a clasificar (el conjunto de
Luego, usando todos ryo, el objetivo es estimar pags∗= (Y0 =yo)| 0, yo =
I
prueba), t∈T, t.c. es la clase del artículo t, y clasificar(t) devuelve la
1, . . . ,k Por lo tanto en la fase de prueba cada clasificador estima una clasificación de t utilizando SVM-SA.
probabilidad de pertenencia de los registros a sus clases (Ec. (3)). Otras dos métricas de evaluación de rendimiento conocidas son Tasa de
falsas alarmas y F-Medida que se computa de la siguiente manera:

5. Resultados experimentales FP
LEJOS = (7)
FN + PT
En esta sección, presentamos los métodos de evaluación del desempeño
2∗Precisión∗ I RecuerdoI
utilizados para evaluar el método propuesto. Para tener resultados de prueba F-medida = (8)
PrecisiónI+RecuerdoI
más confiables y valiosos,kLa validación cruzada se utiliza entre los
investigadores. Minimiza el sesgo asociado con el muestreo aleatorio de la 5.2. Resultados experimentales en SVM-SA
formación[20]. En este método, los datos completos se dividen aleatoriamente
paraksubconjuntos mutuamente excluyentes y de aproximadamente el mismo Usamos SA para mejorar los parámetros (Cy -) buscar eficiencia para
tamaño. El algoritmo de clasificación entrenado y probadokveces. En cada encontrar los puntos más óptimos para reducir la volatilidad. higos.
caso, uno de los pliegues se toma como datos de prueba y los pliegues 2 y 3ilustrarCy - forma de optimización por iteración de SA
restantes se agregan para formar datos de entrenamiento. Por lo tantok respectivamente.
Existen diferentes resultados de prueba para cada configuración de prueba de tambiénTabla 3muestra las 10 mejores combinaciones deCy -
entrenamiento. El promedio de estos resultados da la precisión de la prueba valores que han sido obtenidos de SVM-SA.
del algoritmo.[20]. Utilizamos este método como validación cruzada de 10 La precisión de la clasificación, la precisión, la recuperación, FAR y F-
veces en nuestras aplicaciones. Measure usando SVM y la extensión de SVM (SVM-SA) se muestran en
Tablas 4 y 5respectivamente. Como ha visto, SVM-SA mejora las métricas
5.1. Métricas de evaluación del desempeño de rendimiento dadas en comparación con SVM.
Además, la precisión de la clasificación SVM-SA para el conjunto de
Una matriz de confusión[25]contiene información sobre las clasificaciones datos de la enfermedad de la hepatitis se compara con otros métodos de
reales y previstas realizadas por un sistema de clasificación. El rendimiento de clasificación en esta literatura enTabla 6. De acuerdo aTabla 6, es obvio
un sistema de este tipo se evalúa comúnmente utilizando el que el resultado de SVM-SA es mejor que los demás también.
dicina 1 0 8 ( 2 0 1 2 ) 570–579 575

Tabla 4 – Métricas de desempeño para SVM en Hepatitis


conjunto de datos

Predicho Real

Positivo Negativo
Positivo 53 3
Negativo 15 10
Precisión 0.9464 0.4000
Recuerdo 0.7794 0.7692
LEJOS 0.0441 –
Medida F 0.8548 0.5263
Precisión de clasificación 0.7875
F SeleccionadoC 1024
Seleccionado - 0.0005

Tabla 5 – Métricas de desempeño para SVM-SA en Hepatitis


conjunto de datos

Predicho Real

Positivo Negativo
Positivo 66 2
Negativo 1 11
Precisión 0.9705 0.9166
Recuerdo 0.9850 0.8461
LEJOS 0.0298 –
Medida F 0.9776 0.8799

Fig. 3 – SeleccionadoCpor iteración de SA. Precisión de clasificación 0.9625


OptimizadoC 16.657
Optimizado - 0.31342

Tabla 3 – Las 10 mejores combinaciones deCy - valores


de SVM-SA.
Valores deC Valores de - La precisión obtenida precisión de la clasificación como puntaje de validación cruzada y se
parámetro parámetro tasas de clasificación (%) representa enFigura 4. También obtuvimos puntajes de validación cruzada

16.6 0.31342 96.2 basados en otras métricas para la clase de vida enhigos. 5–8.
30125.6 0.0001 95,9 Figura 9muestra la precisión de clasificación de SVM-SA por iteración.
256.32 0.0005 93.4 Como se ve en esta figura, aumentar el número de iteraciones condujo a una
8192.7 6E−05 93.1 reducción de la tolerancia de precisión, una tendencia a valores constantes y
16322.3 0.25 90.8
un aumento de la precisión de la clasificación.
4096.9 0.002 89.3
El simple uso de resultados de precisión puede ser engañoso[39]. Provost
128.4 0.125 88.7
70.5 0.0156 88.4 et al. sugerido durante la evaluación de problemas de clasificación binaria,
9845.5 0.000246 88.1 utilizando curvas de características del operador del receptor (ROC). Las curvas
12765.5 0.001953 87.5 ROC muestran cómo el número de ejemplos positivos clasificados
correctamente varía con el número de ejemplos negativos clasificados

Los mejores valores de (C, -) dependen de la naturaleza del incorrectamente. Sin embargo, las curvas ROC pueden mostrar

problema y de cómo calcular el cruce ce si hay


precisión, recuperación, FAR, F-Measur trata ROC
se puede considerar como cruz va

Fig. 4 – CVS para combinación de Cy -.


576 co

Fig. 7 – Varios valores de recuperación por todas las combinaciones de (C, -).

5.3. Estudio de simulación conjunto bien conocido tomado como referencia en muchos artículos para mostrar
la capacidad de los clasificadores propuestos. Este conjunto de datos consta de 194
En esta sección, presentamos los resultados de la aplicación de dos puntos de datos, cada uno con una dimensión de 2.Figura 11 se visualiza el conjunto
conjuntos de datos de referencia de SVM-SA, incluidos dos problemas de datos Espiral. Los datos del eslabón de la cadena[40] muestra la separación del
artificiales desafiantes ("2 espirales" y "eslabón de cadena"). El objetivo conjunto de datos en dos clases diferentes. Como se muestra en Figura 12, este
principal es ilustrar diferentes aspectos del algoritmo propuesto y conjunto de datos consta de dos anillos tridimensionales entrelazados, de los cuales
evaluar la capacidad de ajuste de parámetros con SA. uno se extiende en X–y dirección y la otra
Un conjunto de datos de dos espirales sa spa-
[41 en la delimitación de clases complejas puntos.

Fig. 8 – Varios valores de F-Measure por todas las combinaciones de (C, -).
poner 577

Fig. 9 – Variación de la precisión de clasificación

La Clase 0 y la Clase 1 tienen cada una 500 muestras. Ahora tratamos de


averiguar las habilidades de los diferentes métodos para agrupar este
problema de conjunto de datos espaciales y compararlos con nuestro método
propuesto.
Tablas 7 y 8mostrar medidas de rendimiento para SVM-SA y otros
clasificadores en los conjuntos de datos de eslabones en espiral y en cadena

Tabla 6 – Precisión de clasificación de SVM-SA y otros


métodos en la enfermedad de la hepatitis.

Algoritmos Clasificación Precisión de


referencia Figura 10 –

CSFNN 90,0 [25]


C4.5 83.6
nótese bien 87.8
BNND 90,0
BNNF 88.7

Ponderado 9NN (10×FC) 18NN, 92,9 [33]


soporte. manhattan (10×FC) 15NN, 90.2
soporte. manhattan (10×FC) 89.0

FSM sin rotaciones 88.4 [34]


RBF (diagnóstico de herramientas) (10×FC) MLP + 79.0
BP (diagnóstico de herramientas) (10×FC) 77.4

LDA, análisis discriminante lineal 86.4 [35]


(10×FC)
Naive Bayes y Semi-NB (10×FC) QDA, 86.3
discrimen cuadrático. anal. 85.8
(10×FC)
RAS (10×FC) 85.0
Análisis discriminante de Fisher 84.5
(10×FC)
NVI (10×FC) 83.2
CART (árbol de decisión) (10×FC) 82.7
MLP con BP (10×FC) ASI (10×FC) 82.1
82.0

MPL (5×FC) 74.3 [25] Fig. 11 – Conjunto de datos de dos espirales.


GRNN (5×FC) 80.0 [34]
FS-fuzzy-AIRS (50–50%) 81.8 [12]
FS-AIRS con resolución difusa. (10× 92.5 [11]
FC) FS-fuzzy-AIRS (10×FC) LDA-ANFIS 94.1 [13]
respectivamente. En la precisión de la medida de clasificación, SVM-SA tiene la
(10×FC) MLNN (MLP) + LM (10×FC) 94.1 [36]
[31] CENTRO 91.8 [32] mejor precisión para ambos conjuntos de datos en comparación con otros
92.4 [37] métodos. Al comparar las medidas de rendimiento de Simple SVM y SVM-SA
PCA-LSSVM 95.0 [38] (en ambos conjuntos de datos), se demuestra que ajustar los parámetros de
GA-SVM 89.6 [37] SVM mediante SA puede aumentar significativamente el rendimiento total.
SVM-SA (nuestro método) 96.2 Nuestro estudio
578 medicina 1 0 8 ( 2 0 1 2 ) 570–579

resultados muy prometedores en la clasificación de los posibles pacientes con


hepatitis. Esta declaración del sistema de diagnóstico SVM-SA para la hepatitis
es el mejor método propuesto existente visto a partir de los resultados
anteriores. Por lo tanto, el sistema SVM-SA utilizado puede ser de gran ayuda
para los médicos a la hora de tomar una decisión final sobre sus pacientes. Los
médicos pueden tomar decisiones muy precisas utilizando una herramienta
tan eficiente. Los resultados muestran que el método de aprendizaje SVM-SA
puede ayudar en el diagnóstico de enfermedades de hepatitis. En estudios
futuros sobre el diagnóstico de enfermedades de hepatitis, se utilizarán
diferentes métodos de extracción de características y otros métodos de
aprendizaje para aumentar la precisión de los sistemas.

referencias

[1] WM Lee, Infección por el virus de la hepatitis B, N. Engl. J.Med. 337


(1997) 1733.
[2] J. Cohen, El desafío científico de la hepatitis C, Science 285 (1999)
26.
Fig. 12 – Conjunto de datos de Chain Link. [3] JL Dienstag, Infección por el virus de la hepatitis B, N. Engl. J.Med. 359
(2008) 1486–1500.
[4] FA Cãruntu, L. Benea, Infección aguda por el virus de la hepatitis C: diagnóstico,
patogenia, tratamiento, J. Gastrointest. enfermedad del hígado 15 (2006) 249.
Tabla 7 – Resultados experimentales para SVM-SA y otros
métodos en el conjunto de datos de enlace de cadena.
[5] Hepatitis crónica en Merck Manual of Diagnosis and
Métodos Exactitud (%) Recuerdo Medida F Therapy Home Edition. Disponible de:
http://www.merckmanuals.com/home/index.html.
C4.5a 99.30 0.994 0.993
[6] JZ Xu, et al., Un estudio sobre la patogenicidad del virus de la hepatitis
bayesiana ingenuaa 97.40 0.972 0.974
G, World J. Gastroenterol. 7 (2001) 547–550.
SMOa 66.80 0.666 0.667
[7] S. Makino, et al., Molecular cloning and sequencing of a human
red RBFa 97.90 0.982 0.979
hepatitis delta() virus RNA, 1987.
k-medio [40] 50.00 N/A N/A
[8] JM Taylor, Replicación del virus delta de la hepatitis humana:
Único [40] 100 N/A N/A
desarrollos recientes, Trends Microbiol. 11 (2003) 185–190.
U * C [40] 100 N/A N/A
[9] J. Xiang, et al., Caracterización de partículas del virus de la hepatitis
pabellón [40] 50.00 N/A N/A
G (virus GB-C): evidencia de una nucleocápside y expresión de
MVS simplea 74.30 0.832 0.763
secuencias cadena arriba de la proteína E1, J. Virol. 72 (1998) 2738.
SVM-SA 100 1 1
a Resultados obtenidos con la herramienta Weka. [10] KJ Ryan, et al., Sherris Medical Microbiology: Introducción a las
enfermedades infecciosas, McGraw-Hill Medical, 2004.

Tabla 8 – Resultados experimentales para SVM-SA y otros [11] K. Polat, S. Günes, Diagnóstico de la enfermedad de la hepatitis mediante un
métodos en el conjunto de datos en espiral. nuevo sistema híbrido basado en la selección de características (FS) y un
sistema de reconocimiento inmunológico artificial con asignación de recursos
Métodos Exactitud (%) Recuerdo Medida F
difusa, Proceso de señal digital. 16 (2006) 889–901.
C4.5a 50.00 1 0.667 [12] K. Polat, S. Güneş, Un enfoque híbrido para los sistemas de soporte de
bayesiana ingenuaa 53.70 0.663 0.471 decisiones médicas: combinación de selección de características,
SMOa 53.70 0.663 0.589 preprocesamiento ponderado difuso y AIRS, Comput. Métodos Programas
red RBFa 41.80 0.425 0.422 Biomed. 88 (2007) 164–174.
k-medio [42] 43.50 N/A N/A [13] K. Polat, et al., Sistema de soporte de decisiones médicas basado en el sistema
enlace completo [42] 48.00 N/A N/A inmunológico de reconocimiento inmunológico artificial (AIRS),
KNN [43] 74.74 N/A N/A preprocesamiento ponderado difuso y selección de funciones, Expert Syst.
NCA [43] 81.33 N/A N/A Aplicativo 33 (2007) 484–490.
MVS simple [34] 50.92 N/A N/A [14] C. Cortés, V. Vapnik, Redes de vectores de soporte, Mach. Aprender. 20
SVM-SA 88.08 0.814 0.844 (1995) 273–297.
[15] CL Huang, CJ Wang, Una selección de características basada en GA y
a Resultados obtenidos con la herramienta Weka.
optimización de parámetros para máquinas de vectores de
soporte, Expert Syst. Aplicativo 31 (2006) 231–240.
[16] Y. Ren, G. Bai, Determinación de parámetros óptimos de SVM mediante el
6. Conclusión y discusión uso de GA/PSO, vol. 5, 2010.
[17] C.-L. Huang, sistema de clasificación híbrido basado en ACO con selección de
subconjuntos de características y parámetros del modelo
En este estudio, se propone el método SVM-SA para enfermedades de
optimización, Neurocomputing 73 (2009) 438–448.
hepatitis. Luego, se aplicaron técnicas de evaluación del desempeño para
[18] S.-H. Chiu, et al., utilizando la regresión del vector de soporte para
obtener resultados de clasificación. Estas técnicas son precisión, recuperación, modelar la correlación entre el tiempo de metástasis clínicas y el perfil
FAR y F-Measure. Como se muestra a partir de estos resultados, el sistema de de expresión génica para el cáncer de mama, Artif. Intel. Medicina.
diagnóstico SVM-SA para enfermedades de hepatitis obtiene 44 (2008) 221–231.
m étodos informáticos y progr am sinbi om edicine 1 0 8 ( 2 0 1 2 ) 570–579 579

[19] K. Kayaer, T. Yildirim, Diagnóstico médico sobre la diabetes de los [33] W. Dich, et al., métodos neuronales de distancia mínima, en: IEEE
indios Pima utilizando redes neuronales de regresión general (2003) World Congress on Computational Intelligence, The 1998 IEEE
181–184. International Joint Conference on Neural Networks
[20] D. Delen, et al., Predicción de la capacidad de supervivencia del cáncer de mama: una Proceedings, 1998, vol. 2, 1998, págs. 1299–1304.
comparación de tres métodos de extracción de datos, Artif. Intel. Medicina. 34 (2005) [34] W. Duch, et al., Optimización de reglas lógicas derivadas de
113–127. procedimientos neuronales, en: IJCNN'99, Conferencia conjunta
[21] F. Temurtas, Un estudio comparativo sobre el diagnóstico de enfermedades internacional sobre redes neuronales, vol. 1, 1999, págs. 669–674.
de la tiroides mediante redes neuronales, Expert Syst. Aplicativo 36 (2009) [35] B. Ster, A. Dobnikar, Redes neuronales en diagnóstico médico:
944–949. comparación con otros métodos, 1996.
[22] BS Blumberg, El virus de la hepatitis B, la vacuna y el control del cáncer [36] E. Dogantekin, et al., Sistema automático de diagnóstico de
primario de hígado, Proc. nacional Academia ciencia 94 (1997) 7121. hepatitis basado en análisis discriminante lineal y adaptativo
Red basada en Fuzzy Inference System, Expert Syst. Aplicativo
[23] MA Feitelson, lesión hepatocelular en las infecciones por virus de la 36 (2009) 11282–11286.
hepatitis B y C, Clin. Laboratorio. Medicina. 16 (1996) 307–324. [37] KC Tan, et al., Un algoritmo evolutivo híbrido para la selección de
[24] http://www.phys.uni.torun.pl/kmk/projects/. atributos en la minería de datos, Expert Syst. Aplicativo 36 (2009) 8616–
[25] L. Ozyilmaz, T. Yildirim, Redes neuronales artificiales para el 8630.
diagnóstico de la enfermedad de la hepatitis, en: Actas de la [38] D. Çalisir, E. Dogantekin, Un nuevo sistema inteligente de
Conferencia Internacional Conjunta sobre Redes Neuronales, 2003, diagnóstico de hepatitis: PCA-LSSVM, Expert Syst. Aplicativo 38
vol. 1, 2003, págs. 586–589. (2011) 10705–10708.
[26] Z. Jiang, et al., Selección de características basada en máquinas de vectores [39] FJ Provost, et al., The Case against Accuracy Estimation for
de soporte para la clasificación del grado de fibrosis hepática en la hepatitis Comparing Induction Algorithms, presentado en la
C crónica, J. Med. sist. 30 (2006) 389–394. Actas de la Decimoquinta Conferencia Internacional sobre
[27] W.-C. Yeh, et al., Clasificación del grado de fibrosis hepática con Aprendizaje Automático, 1998.
ultrasonido en modo B, Ultrasound Med. Biol. 29 (2003) 1229– [40] A. Ultsch, U*C: Self-organised Clustering with Emergent Feature
1235. Maps, presentado en Lernen, Wissensentdeckung und Adaptivität,
[28] R. Stoean, et al., Máquinas de vectores de apoyo impulsadas por la 2005.
evolución para determinar el grado de fibrosis hepática en la [41] A. Wieland, Conjunto de datos de espirales gemelas. Disponible de:http://
hepatitis C crónica, Artif. Intel. Medicina. 51 (2011) 53–65. wwwcgi.cs.cmu.edu/afs/cs.cmu.edu/project/airepository/ai/areas/
[29] N. Cheung, Técnicas de aprendizaje automático para análisis médico, neural/bench/cmu/0.html.
tesis de maestría, Universidad de Queensland, 2001. [42] B. Minaei-Bidgoli, et al., Conjuntos de particiones mediante
[30] FM Ham, I. Kostanic, Principios de neurocomputación para remuestreo de datos, ITCC 2004, Conferencia internacional sobre
ciencia e ingeniería, McGraw-Hill Higher Education, 2000. tecnología de la información: codificación y computación
Actas, vol. 2, 2004, págs. 188–192.
[31] CJ Lin, et al., Una guía práctica para la clasificación de [43] AF Atiya, A. Al-Ani, Un algoritmo de clasificación de patrones basado en
vectores de apoyo, Universidad Nacional de Taiwán, 2004. la probabilidad penalizada, Pattern Recogn. 42 (2009)
[32] MS Bascil, F. Temurtas, Un estudio sobre el diagnóstico de la enfermedad de 2684–2694.
la hepatitis utilizando una red neuronal multicapa con el algoritmo de
entrenamiento de Levenberg Marquardt, J. Med. sist. 35 (2011) 433–436.

You might also like