You are on page 1of 27

Universidad Técnica Federico Santa María

Departamento de Informática
Programa de Magíster en Tecnologías de la Información

Aplicando minería de datos para el diagnóstico de deterioro


neuropsicológico a individuos expuestos a pesticidas organofosforados

Carlos Mariano Manzano Munizaga

Universidad Católica del Norte


Larrondo 1281, Coquimbo, Chile
carlos.manzano.12@sansano.usm.cl

Resumen: La presente tesina tiene por objetivo desarrollar mediante minería de datos, un
modelo predictivo que permita diagnosticar el deterioro neuropsicológico de individuos en
situación de exposición prolongada a pesticidas organofosforados en la IV Región de
Coquimbo. Para la implementación de esta tesina se utilizó la metodología CRISP-DM y las
técnicas de clasificación supervisadas de árboles de decisión, redes neuronales artificiales y
métodos bayesianos a través de la herramienta de análisis de datos WEKA. Los resultados
obtenidos muestran que el desarrollo del modelo predictivo con el algoritmo Naive Bayes
presenta una mayor precisión del diagnóstico con un 84% en contraste con los resultados de los
algoritmos C4.5 y Perceptrón Multicapa.

Palabras Clave: Minería de datos, modelo predictivo, árboles de decisión, redes neuronales,
Naive Bayes.

1 Introducción

1.1 Definición del problema

El desarrollo económico de la IV Región de Coquimbo, y específicamente del Valle de Elqui y el Limarí, se


basa principalmente en la agricultura orientada a la producción de uva y otros frutales. Una actividad común
en este rubro es el control de plagas por medio de la aplicación constante de una gran variedad de pesticidas,
los cuales, durante gran parte del año, son expuestos de forma directa (ocupacional) e indirecta (ambiental) a
los trabajadores y pueblos cercanos a estos predios agrícolas. Si bien el uso masivo de estos pesticidas ha
traído grandes beneficios productivos, también ha provocado graves problemas de salud a través de la alta
tasa de intoxicaciones agudas e intoxicaciones por exposición prolongada en la región [1].

Las intoxicaciones agudas a pesticidas son fácilmente diagnosticables ya que se manifiestan con signos y
síntomas claros en los individuos, mientras que las intoxicaciones por exposición prolongada a pesticidas
suelen pasar inadvertidas y sus consecuencias sólo se manifiestan en el largo plazo con enfermedades
neurodegenerativas, oncológicas, teratogénicas (hijos con malformaciones congénitas) y neuropsicológicas
[1].

Uno de los grupos de pesticidas más utilizados en la agricultura orientada en la producción de uva y cítricos
son los organofosforados, los cuales corresponden a químicos sintéticos creados en laboratorio para controlar
diversas plagas de insectos. Su uso se ha expandido como consecuencia de la prohibición de los pesticidas
organoclorados en la agricultura.

Los pesticidas organofosforados son altamente tóxicos pero químicamente poco estables, por lo que su vida
en el organismo no sobrepasa una semana. Por esta razón son ampliamente utilizados en la agricultura, lo que
ha generado un control efectivo de las plagas peligrosas. Sin embargo, el desconocimiento en su aplicación

1
Universidad Técnica Federico Santa María
Departamento de Informática
Programa de Magíster en Tecnologías de la Información

por parte de la población y el escaso control que se realiza de su utilización, han provocado una serie de
problemas en la salud humana y contaminación ambiental por residuos que se han mantenido en el tiempo [2].

Es por ello, que existen algunos estudios que han demostrado asociación entre la exposición prolongada a
bajas dosis de pesticidas organofosforados y el deterioro de funciones neuropsicológicas, en personas que
están expuestas ocupacional o ambientalmente a la aplicación de estos químicos sintéticos. Las funciones
neuropsicológicas afectadas son: la velocidad de atención y búsqueda visual (problemas en la formación de
conceptos), motricidad fina (dificultades en la memoria de corto plazo), cognitivas visuales, velocidad
visomotora, baja flexibilidad conceptual y déficit atencional [3]. Por lo tanto el diagnóstico temprano de este
tipo de exposición es de especial relevancia para evitar las consecuencias antes descritas.

En base a lo anterior el proyecto FONDEF D09I1057 del Departamento de Ciencias Biomédicas


perteneciente a la Facultad de Medicina de la Universidad Católica del Norte, se encuentra trabajando en el
desarrollo de un biomarcador1 de alta sensibilidad, capaz de pesquisar y reflejar el estado de deterioro
neuropsicológico en el que se encuentran los individuos en situación a exposición prolongada a pesticidas
organofosforados en la IV Región de Coquimbo. Dicho biomarcador es la enzima acilpéptido hidrolasa
(ACPH), la cual se caracteriza por estar presente en el cerebro, permanecer más tiempo inhibida que otras
enzimas y tener más afinidad con algunas moléculas de organofosforados en el organismo [4].

El principal problema para concretar el desarrollo de este biomarcador, es la ausencia de un modelo predictivo
que permita diagnosticar con mayor precisión el deterioro neuropsicológico a individuos en situación de
exposición prolongada a pesticidas organofosforados, en base a la actividad del mismo biomarcador en
desarrollo.

Inicialmente la propuesta de solución para generar este modelo fue un método estadístico inferencial
denominado regresión logística, el cual predice el resultado de una variable categórica en función de variables
independientes o predictoras [5]. El modelo estaba compuesto por una variable dependiente que describe una
respuesta en forma dicotómica (0=No Deterioro Neuropsicológico y 1=Deterioro Neuropsicológico) y otras
variables independientes del tipo explicativas o predictivas (edad, sexo, localidad, consumo de alcohol,
consumo de drogas, nivel educacional, enzimas de exposición aguda ChE2, AChE3 y la ACPH) que fueron
definidas por los especialistas de proyecto, a través de los resultados de algunos análisis de correlación de
Pearson y Spearman.

El modelo de regresión logística obtuvo un bajo porcentaje de clasificación esperado sólo con un 60% de
precisión (ver tabla 1). Por otro lado, no se evidenció una relación entre el biomarcador ACPH y el deterioro
neuropsicológico asociado, debido a que la variable del biomarcador no aparece dentro de las variables más
significativas según los resultados obtenidos por el modelo.

Asimismo, como se presenta en la tabla 2 (ver columna con parámetro Sig4), se puede apreciar que el grado de
similitud o correlación entre las variables seleccionadas como el consumo de alcohol, consumo de drogas,
género y la enzima AChE, no fueron significativas para el modelo. No obstante, las variables edad, localidad y
la enzima ChE lograron ser significativas para el modelo (ver columna con parámetro Sig en tabla 3). Por lo
tanto, el objetivo inicial del proyecto no llegó a concretarse en su totalidad debido a los bajos resultados
expuestos por la técnica seleccionada para el modelo.

1
Sustancia utilizada como indicador de un estado biológico.
2La butirilcolinesterasa o pseudocolinesterasa (ChE) es una enzima humana de la familia de colinesterasas.
3
La acetilcolinesterasa o Colinesterasa (AChE) es una enzima humana de la familia de colinesterasas que se encuentra en los tejidos
nerviosos y los glóbulos rojos.
4
El parámetro sig o más conocido como “el valor estadístico de p”, indica el valor de asociación significativa entre una variable
independiente y dependiente. El valor representa una seguridad de asociación del 95% con p < 0,05 según definición científica.

2
Universidad Técnica Federico Santa María
Departamento de Informática
Programa de Magíster en Tecnologías de la Información

Tabla 1. Porcentaje general de precisión del modelo


Diagnostico observado Clasificación
Deterioro Porcentaje Correcto
,00 1,00
Paso 1 Deterioro ,00 154 3 98,1
1,00 103 6 5,5
Porcentaje General 60,2%

Tabla 2. Variables menos explicativas del modelo


Variables S.E. Wald df Sig. Exp(B)
a
Paso 1 Genero(1) ,258 1,234 1 ,267 ,751
Constant5 ,587 15,294 1 ,000 ,101
S.E. Wald df Sig. Exp(B)
a
Paso 1 Tabaco 1,244 2 ,537
Tabaco(1) ,405 ,918 1 ,338 ,678
Tabaco(2) ,493 ,431 1 ,512 ,723
Constant ,135 ,552 1 ,457 1,106
S.E. Wald df Sig. Exp(B)
a
Paso 1 Alcoholg ,011 ,077 1 ,781 1,003
Constant ,135 ,028 1 ,867 1,023
S.E. Wald df Sig. Exp(B)
a
Paso 1 Ache 389,869 1,036 1 ,309 ,000
Constant ,268 1,094 1 ,296 1,324

Tabla 3. Variables más explicativas del modelo


Variables S.E. Wald df Sig. Exp(B)
a
Paso 1 Edad ,018 15,693 1 ,000 1,074
Localidad ,222 51,655 1 ,000 4,914
Constant ,707 29,504 1 ,000 ,021
S.E. Wald df Sig. Exp(B)
a
Paso 1 Che 8920,398 6,306 1 ,012
Constant ,504 5,595 1 ,018 ,304

1.2 Propuesta de solución

La solución que propone esta tesina es la obtención de un modelo predictivo que permita diagnosticar el
deterioro neuropsicológico asociado a la exposición prolongada a pesticidas organofosforados. Las pruebas
(y/o experimentos) se realizarán con poblaciones ocupacional (y/o) ambientalmente expuestas a pesticidas,
junto a una población sin contacto a pesticidas (control externo) en tiempo de prefumigación. Los resultados
del proyecto se transferirán al Departamento de Ciencias Biomédicas, el cual implementará el análisis y en el
Laboratorio de Salud Ocupacional podrá transferir la metodología a los demás interesados (hospitales,
mutualidades, etc.). Los usuarios finales serán los hospitales, clínicas, mutualidades y laboratorios que
aplicarán el examen; los beneficiarios finales serán los trabajadores agrícolas expuestos a pesticidas en sus
lugares de trabajo.

1.3 Objetivo General

Se requiere desarrollar un modelo predictivo, mediante una técnica de minería de datos, que permita
diagnosticar el deterioro neuropsicológico a individuos en situación de exposición prolongada a pesticidas
organofosforados de la IV Región de Coquimbo, en base a los niveles de la actividad del biomarcador
acilpéptido hidrolasa (ACPH) y otras variables que contribuyan fácilmente al modelo.

5 La intersección (a menudo denominada variable Constant) es el valor medio esperado de Y cuando todo X = 0.

3
Universidad Técnica Federico Santa María
Departamento de Informática
Programa de Magíster en Tecnologías de la Información

1.4 Objetivos Específicos

• Revisar el estado del arte de las tareas y métodos de minería de datos que son utilizados en el área de
diagnósticos médicos y epidemiológicos.
• Determinar las variables o atributos más representativos para generar la dimensionalidad del modelo,
mediante el análisis, depuración y exploración de los datos biológicos y neuropsicológicos a través de
algoritmos de filtro y estrategia de evaluación ranking.
• Evaluar y seleccionar las técnicas de clasificación para implementar el modelo, mediante el estudio de las
alternativas existentes en el campo de las ciencias biomédicas.
• Construir el modelo predictivo que permita clasificar a los individuos con deterioro neuropsicológico en
base a los niveles del biomarcador ACPH.
• Validar el modelo seleccionado con los datos de individuos expuestos a pesticidas con deterioro
neuropsicológico del periodo 2011-2013.

1.5 Hipótesis

La hipótesis a considerar es la siguiente: “Es posible construir un modelo predictivo con un nivel de precisión
superior al 60% para diagnosticar deterioro neuropsicológico a individuos en situación de exposición
prolongada a pesticidas organofosforados de la IV Región de Coquimbo”.

El porcentaje de nivel de precisión corresponde al 60% obtenido por el modelo de regresión logística (ver
tabla 1). La validación de la hipótesis será contrastada con los resultados obtenidos de la presente
investigación con los entregados por el Departamento de Ciencias Biomédicas a través de su método
estadístico de regresión logística.

1.6 Metodología

Para la ejecución de este proyecto se utilizará la metodología Cross Industry Standard Process for Data
Mining (CRISP-DM) y se aplicarán diversas técnicas de minería de datos, tales como árboles de decisión,
redes neuronales artificiales y métodos bayesianos, enfocándose en datos que comprenden el periodo 2011-
2013 de la población de individuos sin contacto a pesticidas (control externo), expuestos ocupacional y
ambientalmente a pesticidas organofosforados en la IV Región de Coquimbo.

1.7 Organización del Informe

La presente tesina se estructura de la siguiente forma:

• En el segundo capítulo se describe el marco teórico para poner en contexto los conceptos y las
definiciones tratadas a lo largo de todo el desarrollo de la tesina, citando fuentes bibliográficas
adicionales que motiven a la indagación de determinado concepto.
• En el tercer capítulo se presenta el desarrollo de la solución de esta tesina, ejecutando las actividades del
modelo de gestión de proyectos y las técnicas de minería de datos seleccionadas. Además, se muestran
los beneficios y resultados obtenidos del contexto del caso de estudio.
• En el cuarto capítulo, se entregan las conclusiones correspondientes al trabajo de investigación y las
recomendaciones en base a las lecciones aprendidas, dejando abierta la posibilidad de introducir mejoras
al producto final en base a desarrollos futuros.

4
Universidad Técnica Federico Santa María
Departamento de Informática
Programa de Magíster en Tecnologías de la Información

2 Marco Teórico

2.1 Minería de Datos

La minería de datos ha atraído una gran atención en la sociedad y en la industria de la información, debido a
la disponibilidad de grandes cantidades de datos para ser convertidos en información y conocimiento útil. En
sí, la minería de datos se refiere a la extracción o minería de conocimiento de grandes cantidades de
información [5].

Muchas personas se refieren a la minería de datos como un sinónimo de otro término muy utilizado, el
descubrimiento de conocimiento a partir de los datos (KDD). No obstante, otros ven a la minería de datos
como el paso esencial dentro del mismo proceso de descubrimiento de conocimiento a partir de los datos [5].

Sin duda resulta interesante el utilizar técnicas de minerías de datos, debido a la posibilidad de aplicar
diferentes tareas y técnicas para determinar el modelo que mejor se ajuste al objetivo de un estudio en
particular [6].

2.2 Taxonomía de la Minería de Datos

Es útil distinguir entre dos principales tipos de minería de datos, la orientada a la verificación (el sistema
verifica la hipótesis del usuario) y la orientada al descubrimiento (el sistema encuentra nuevas reglas y
patrones de forma autónoma para el usuario). La figura 1 integra estos dos tipos de minería de datos en la
taxonomía de técnicas [7].

Figura 1. Taxonomía de técnicas de minería de datos [7]

Los métodos de verificación incluyen las técnicas estadísticas tradicionales (descriptiva e inferencial), las que
si bien no corresponden estrictamente a la definición de minería de datos, permiten obtener conclusiones a
partir de grandes muestras de datos. En la práctica, las herramientas estadísticas siguen siendo la opción por
defecto en la investigación basada en datos; típicamente se recurre a ellas en la fase inicial de los proyectos de
minería de datos [7].

La estadística descriptiva permite obtener una visión resumida del comportamiento de las observaciones, a
través de parámetros estadísticos como la media, desviación estándar y herramientas de visualización como
gráficos e histogramas [7].

5
Universidad Técnica Federico Santa María
Departamento de Informática
Programa de Magíster en Tecnologías de la Información

La estadística inferencial da lugar a modelos predictivos del comportamiento de nuevas observaciones, a


partir del comportamiento observado en la muestra, para lo cual se utilizan técnicas como prueba de bondad
de ajuste, prueba de la t de medios, análisis de la varianza y series de tiempo, entre otras. Estas técnicas se
orientan a la verificación de una hipótesis prevista, cuyo enunciado suele ser la principal dificultad del
investigador, por lo que se consideran menos asociados a la minería de datos que las soluciones orientadas al
descubrimiento [7].

La minería de datos orientada al descubrimiento considera dos tipos de modelos: descriptivos y predictivos.
Los modelos descriptivos, también conocidos como no supervisados, se utilizan para identificar estructura
intrínseca, relaciones o afinidad en los datos sin haberse asignado etiquetas o clases a los datos previamente.

Los modelos predictivos, o supervisados, sí dependen de la clasificación previa de datos y se enfocan en


detectar relaciones que condicionen la asignación de clases [7]. Algunas de las técnicas existentes para estos
modelos se describen a continuación.

Entre las técnicas para modelos descriptivos se incluyen:

• Segmentación (Clustering): la técnica de segmentación o clustering permite agrupar observaciones


según su grado de similaridad en un campo multidimensional de factores. En esta técnica no se define
una variable dependiente de las demás, sino que la caracterización responde por igual a todos los
atributos de las observaciones. Estos algoritmos se pueden clasificar entre jerárquicos y no jerárquicos,
donde los primeros generan una estructura tipo árbol y cada cluster se divide en dos o más subgrupos, lo
que permite al usuario obtener distintos niveles de segmentación según su necesidad. Otra clasificación
de los algoritmos de segmentación responde a si opera de forma aglomerativa o divisiva; el primer tipo
corresponde a aquéllos que asocian observaciones haciendo crecer los clusters, mientras que el segundo a
aquellos algoritmos que parten desde un gran segmento que progresivamente fraccionan. Se considera un
método de aprendizaje no supervisado, puesto que no requiere clasificar las observaciones en función de
un determinado dominio de problema [6].

• Asociación: esta técnica busca relaciones no explícitas entre los atributos analizados (atributos discretos).
La formulación más usada es “si la variable X toma el valor A entonces la variable Z toma el valor D”.
Generalmente, esta técnica es usada en el análisis de la canasta de compras que tienen por objetivo
determinar relaciones entre productos comprados por los clientes [6].

Entre las técnicas predictivas se puede mencionar:

• Árboles de decisión y aprendizaje de reglas: se trata de un modelo de clasificación con forma de árbol,
similar a un clustering jerarquizado, pero con la diferencia de que sí está orientado a clasificar en torno a
un parámetro particular, en relación con el dominio del problema. En cada rama del árbol la muestra es
segmentada en base a un parámetro de forma tal de minimizar la variabilidad de los segmentos
resultantes respecto de la variable objetivo [6]. Los algoritmos de árboles de decisión se diferencian,
entre otras cosas, por el método estadístico que utilizan al conformar cada rama. CART y CHAID son dos
de las técnicas más populares en la conformación de árboles de decisión, basándose el primero en
métricas de entropía como el coeficiente de Gini para seleccionar cada segmentación, mientras el
segundo utiliza validación por Chi-Cuadrado [6]. Una de las grandes ventajas de los árboles de decisión
es que generan modelos predictivos suficientemente simples y transparentes, permitiendo la
interpretación por parte del investigador y facilitando su integración a aplicaciones del negocio. Estas
características han potenciado el uso de los árboles de decisión en proyectos de minería de datos, puesto
que incluso si no se alcanzase una gran capacidad predictiva, todavía será posible obtener mayor
comprensión del fenómeno estudiado, a partir de la estructura de árbol con que se conforme el modelo
[6].

6
Universidad Técnica Federico Santa María
Departamento de Informática
Programa de Magíster en Tecnologías de la Información

• Redes Neuronales Artificiales: una red neuronal artificial emula una topología biológica de nodos
distribuida por capas, que a partir de grandes muestras de datos con múltiples parámetros aprende a
predecir el comportamiento de las observaciones respecto a un fenómeno particular. Ofrece una amplia
libertad de combinaciones en cuanto a diseño de la red, lo que con suficiente cuidado en la limpieza y
preparación de muestras y evitando el sobreajuste del modelo a una muestra particular, ha permitido
alcanzar notables resultados predictivos en los más diversos campos. Su nombre responde a la topología
de nodos que configuran la red, donde cada nodo juega un rol similar a una neurona programada para
traspasar un estímulo ante cierta configuración de parámetros. A diferencia de los árboles de decisión, las
redes neuronales artificiales generan modelos complejos de analizar y suelen ser tratadas como caja
negra, dificultando obtener información complementaria a la propia predicción; esto limita su utilidad a
aquellos campos donde se enfrenta un problema altamente predecible a partir de los datos disponibles,
especialmente si la cantidad de parámetros involucrados hace que obtener dicha predicción resulte muy
costoso [6].

• Métodos Bayesianos: los métodos bayesianos son relevantes al aprendizaje automático y la minería de
datos; son prácticos para realizar inferencias a partir de los datos e inducir modelos probabilísticos que
después serán usados para razonar (formular hipótesis) sobre nuevos valores observados. El clasificador
Naive Bayes es uno de los métodos bayesianos más empleados en la minería de datos y se basa en el
teorema de Bayes, asumiendo independencia entre las variables independientes o predictores. Es un
modelo fácil de construir y sin ningún hiperparámetro a estimar. A pesar de su simplicidad, en muchas
ocasiones muestra un rendimiento sorprendentemente bueno y es ampliamente usado ya que en algunos
problemas mejora los resultados de clasificación obtenidos con métodos más sofisticados [8]. Otro
método bayesiano empleado son las redes bayesianas, las cuales representan el conocimiento cualitativo
del modelo mediante un grafo dirigido acíclico. Este conocimiento se articula en la definición de
relaciones de independencia/dependencia entre las variables que componen el modelo. El hecho de una
representación gráfica para la especificación del modelo hace de las redes bayesianas una herramienta
realmente muy atractiva en su uso como representación del conocimiento, aspecto muy importante de la
minería de datos [8].

• Máquinas de soporte vectorial: en las máquinas de soporte vectorial (Support Vector Machine / SVM),
el proceso de clasificación se realiza mediante el hiperplano que maximiza el margen entre dos clases en
los datos de entrenamiento. El margen se define como la distancia perpendicular mínima entre dos puntos
de cada clase al hiperplano separador; este hiperplano se ajusta durante el proceso de aprendizaje con los
datos de entrenamiento o predictores. De entre estos predictores, se seleccionan los vectores que definen
el hiperplano, los cuales son llamados vectores de soporte. El hiperplano óptimo corresponde a aquel que
minimiza el error de entrenamiento y, al mismo tiempo, tiene el máximo margen de separación entre las
dos clases. Para generalizar los casos donde los límites de decisión no son linealmente separables, SVM
proyecta los datos de entrenamiento en otro espacio de dimensionalidad más alta; si la dimensionalidad
del nuevo espacio es suficientemente alta, los datos siempre serán linealmente separables. Para evitar
tener que realizar una proyección explícita en un espacio dimensional mayor se utiliza una función
kernel, la cual transforma implícitamente los datos a este espacio dimensional mayor para hacer posible
la separación lineal de las clases; puede ser de tipo polinomial, de base radial Gaussiana o perceptrón
sigmoideo, entre otros [9].

• Métodos de Vecindad: al igual que el clustering se basan en la distancia espacial de las observaciones,
pero a diferencia de éste, sí se enfoca en clasificar las observaciones en relación con un atributo particular
que responda al dominio del problema. Pueden ser utilizados además para predecir el comportamiento de
nuevas observaciones, en torno al atributo investigado. Un algoritmo clásico es KNN (K-Nearest
Neighbor), el que en su forma básica corresponde a asimilar cada observación con su vecino más
próximo, o a los K más cercanos que por votación definen la predicción. Una de las ventajas de los
métodos de vecindad es que junto con la predicción se obtienen indicadores de confianza de la misma,

7
Universidad Técnica Federico Santa María
Departamento de Informática
Programa de Magíster en Tecnologías de la Información

como lo es la distancia con el o los vecinos con los que se asimiló la clasificación, y la variabilidad de
clases entre los mismos vecinos cuando han sido más de uno [6].

2.3 Gestión de Proyectos de Minería de Datos

Los esfuerzos en el área de la minería de datos se han centrado en su gran mayoría en la investigación de
técnicas para la explotación de información y extracción de patrones (tales como árboles de decisión, análisis
de conglomerados y reglas de asociación). Sin embargo, se ha profundizado en menor medida el hecho de
cómo ejecutar este proceso hasta obtener el nuevo conocimiento, es decir, en las metodologías. Las
metodologías permiten llevar a cabo el proceso de minería de datos en forma sistemática y no trivial. Ayudan
a las organizaciones a entender el proceso de descubrimiento de conocimiento y proveen una guía para la
planificación y ejecución de los proyectos [10].

2.3.1 Proceso de Extracción de Conocimiento (KDD)

KDD es un proceso de extracción no trivial de información potencialmente útil a partir de un gran volumen de
datos, en el cual la información está implícita y no se conoce previamente. El proceso KDD se divide en cinco
fases y son [11]:

• Selección del objetivo: tiene como finalidad estudiar el problema y decidir cuál es la meta del proyecto.
Una vez definido el problema, se identifican las fuentes de datos internas o externas y se selecciona el
subconjunto de datos necesarios para la aplicación de un algoritmo de minería de datos.
• Preprocesamiento de datos: consiste en estudiar los datos seleccionados para entender el significado de
los atributos y para detectar errores de integración, por ejemplo, datos repetidos con distinto nombre o
datos que significan lo mismo en diferente formato.
• Transformación de datos: una vez que se tienen los datos preprocesados, se procede a la transformación
final de los mismos, esto con el fin de que se ajusten al formato de entrada del algoritmo seleccionado.
• Minería de datos: aquí se aplican los diferentes algoritmos de análisis a los datos ya transformados. La
finalidad en esta etapa es encontrar patrones útiles e interesantes en los datos.
• Interpretación y Evaluación de los resultados: aquí, el usuario debe valorar los resultados conseguidos
y, de ser necesario, aplicar una y otra vez los algoritmos de minería de datos hasta encontrar información
útil y valiosa. Esto último hace que el proceso KDD sea un proceso iterativo y de búsqueda continua, en
donde el conocimiento y la intuición del usuario juegan un papel fundamental en el proceso.

2.3.2 CRISP-DM (Cross Industry Standard Process for Data Mining)

CRISP–DM es la guía de referencia más ampliamente utilizada en el desarrollo de proyectos de minería de


datos. Consta de cuatro niveles, organizados de forma jerárquica en tareas que van desde el nivel más general
hasta los casos más específicos. La sucesión de fases no es necesariamente rígida; cada fase es estructurada en
varias tareas generales de segundo nivel, las cuales se proyectan a otras específicas, donde finalmente se
describen las acciones que deben ser desarrolladas para situaciones determinadas, aunque en ningún momento
se propone cómo realizarlas [12].

CRISP–DM estructura el ciclo de vida de un proyecto de minería de datos en seis fases, que interactúan entre
ellas de forma iterativa durante el desarrollo del proyecto, de acuerdo a lo indicado en figura 2 [12]:

• Comprensión del negocio: incluye la comprensión de los objetivos y requerimientos del proyecto desde
una perspectiva empresarial, con el fin de convertirlos en objetivos técnicos y en una planificación.

8
Universidad Técnica Federico Santa María
Departamento de Informática
Programa de Magíster en Tecnologías de la Información

• Comprensión de los datos: comprende la recolección inicial de datos, en orden a fijar un primer
contacto con el problema, identificando la calidad de los datos y construyendo las relaciones más
evidentes que permitan establecer las primeras hipótesis.

• Preparación de los datos: incluye las tareas generales de selección de datos a los que se va a aplicar la
técnica de modelado (variables y muestras), limpieza de los datos, generación de variables adicionales,
integración de diferentes orígenes de datos y cambios de formato. Esta fase se encuentra muy relacionada
con la fase de modelado, puesto que en función de la técnica de modelado que vaya a ser utilizada los
datos necesitan ser procesados en diferentes formas. Por lo tanto, las fases de preparación y modelado
interactúan de forma sistemática.

• Modelado: se seleccionan las técnicas de modelado más apropiadas para el proyecto de minería de datos
específico. Antes de proceder al modelado de los datos, se debe establecer un diseño del método de
evaluación de los modelos, que permita constituir el grado de bondad de los mismos. Una vez realizadas
estas tareas, se procede a la generación y evaluación del modelo.

• Evaluación: no desde el punto de vista de los datos, sino del cumplimiento de los criterios de éxito del
problema. Se debe revisar el proceso seguido, teniendo en cuenta los resultados generados, para poder
repetir algún paso en el que, a la vista del desarrollo posterior del proceso, se hayan podido cometer
errores. Si el modelo generado es válido en función de los criterios de éxito establecidos en la primera
fase, se procede a la explotación del modelo.

• Implantación: normalmente los proyectos de minería de datos no terminan en la implantación del


modelo, sino que se deben documentar y presentar los resultados de manera comprensible en orden a
lograr un incremento del conocimiento. Además, en la fase de implantación se debe asegurar el
mantenimiento de la aplicación y la posible difusión de los resultados.

Figura 2. Fases de la Metodología CRISP-DM [12]

2.4 Estado del Arte

Se presenta a continuación el estado del arte en la descripción y explicación de las tareas y técnicas de minería
de datos asociadas en el área de los diagnósticos médicos y epidemiológicos.

En [13], el autor ha estudiado la aplicabilidad de los árboles de decisión para encontrar un grupo de pacientes
con alta susceptibilidad de padecer cáncer de mama del tipo 1 (BRCA1) según la asociación con el consumo
de alcohol y tabaco. La muestra de datos estaba compuesta por 94 pacientes con la enfermedad ya adquirida

9
Universidad Técnica Federico Santa María
Departamento de Informática
Programa de Magíster en Tecnologías de la Información

(casos) y otras 164 personas en proceso de control (posibles casos). Los resultados muestran que la técnica de
árbol de decisión presenta un diagnóstico del 93,62% de precisión en el conjunto de datos de referencia.

En [14], se discute acerca de la predicción de enfermedades del corazón y se utilizan algoritmos de


aprendizaje automático como Naive Bayes y Vecinos Más Cercanos. La precisión de la clasificación del
primer algoritmo es mejor en comparación con Vecinos Más Cercanos. La enfermedad cardiaca se
diagnostica a los pacientes a través de la técnica de Bayes con un 74% de los casos y la estrategia de
validación para lograr estos resultados es la llamada validación cruzada.

En [15], se aplicaron los algoritmos C4.5, Naive Bayes y Perceptrón Multicapa sobre un conjunto de datos
formado por 16 atributos y 151.886 registros para investigar su eficacia en la predicción de la supervivencia
en pacientes con cáncer de mama. Los resultados muestran que la aplicación del algoritmo C4.5 ha logrado
una precisión mayor al 97,4% sobre las otras técnicas de clasificación.

En [16], los autores presentan un estudio de diferentes técnicas de minería de datos para la predicción de
enfermedades al corazón. El análisis fue realizado utilizando los algoritmos Naive Bayes, C4.5 y Perceptrón
Multicapa sobre un conjunto de datos formado por 15 atributos y 3000 registros. Los resultados mostraron
que Perceptrón Multicapa obtuvo una precisión perfecta, es decir 100% en relación a C4.5 con un 99,62% y
Naive bayes con un 90,74%. Por otra parte, en combinación con un algoritmo genético y mediante el uso de
sólo 6 atributos de la muestra original, el árbol de decisión ha demostrado una eficiencia mayor de 99,2% de
la clasificación frente a los otros dos algoritmos.

En [17], los autores trabajaron en la comparativa de clasificadores de máquina de aprendizaje versus


clasificadores estadísticos tradicionales para generar un modelo de predicción del diagnóstico del deterioro de
demencia. Los clasificadores no paramétricos derivados de métodos de minería de datos (Perceptrón
Multicapa, máquinas de soporte vectorial (SVM), CART, CHAID, árboles de clasificación y Random Forest,
entre otros) se compararon con los clasificadores estadísticos tradicionales (análisis discriminante lineal,
análisis cuadrático discriminante y regresión logística) en términos de precisión de clasificación global,
especificidad, sensibilidad y área bajo la curva ROC. Las máquinas de soporte vectorial presentaron la mayor
precisión general de clasificación (76%) y un área bajo la curva ROC del 0,90. Sin embargo, este método
mostró una alta especificidad de 1.0 pero con baja sensibilidad de 0,3. Random Forest ocupó el segundo lugar
en la precisión general con 73% con una alta área bajo la ROC de 0,73, especificidad de 0,73 y sensibilidad de
0,64. El análisis discriminante lineal mostró también una precisión del 66% de clasificación, curva de ROC de
0,72, especificidad 0,66 y sensibilidad 0,64. Los clasificadores restantes obtuvieron una precisión general de
clasificación por encima del valor medio (63%), pero su sensibilidad era alrededor o incluso más bajo que el
valor medio de 0,5. Por lo tanto, los autores concluyen que las máquinas de soporte vectorial son una técnica
eficiente para problemas de clasificación y de regresión en pruebas de diagnósticos médicos.

En [18], se aplicaron algoritmos de árboles de decisión (C4.5) y Random Forest a un conjunto de datos de
detección de enfermedades del corazón. El algoritmo Random Forest fue el mejor al momento de realizar la
clasificación, obteniendo una precisión del 63,33%, en comparación con los resultados del algoritmo C4.5 que
logró sólo un 50,67%.

En [19], los autores aplicaron técnicas de minería de datos como Naive Bayes y Árbol de decisión para
diagnosticar la enfermedad de diabetes mellitus. Los experimentos fueron realizados mediante validación
cruzada con diez carpetas utilizando la herramienta de análisis de datos WEKA. Los resultados entregados
evidenciaron que el algoritmo Naive Bayes presentó una mayor precisión del diagnóstico con un 76%, en
comparación con el 73% de precisión obtenido por el algoritmo C4.5 de Árbol de decisión.

En [20], los autores han comparado la eficacia de algunos algoritmos de clasificación como C4.5, Regresión
Logística, Id3 y Random Forest, entre otros, para el diagnóstico precoz de la enfermedad de Parkinson. Los
resultados obtenidos muestran que Random Forest y C4.5 presentan los porcentajes de mejor precisión con un

10
Universidad Técnica Federico Santa María
Departamento de Informática
Programa de Magíster en Tecnologías de la Información

100% para el primero y un 90% para C4.5. Además, presentan los mejores resultados de evaluación a través
de las métricas de matriz de confusión y la tasa de error de clasificación.

En [21], los autores estudian el caso de diagnóstico y evaluación del riesgo de cáncer en los genes utilizando
el clasificador Naive Bayes, el cual clasifica con una precisión del 95% en sus clases respectivas. Tiene una
tasa de error sólo del 5%.

3 Desarrollo

3.1 Selección de Metodología de Descubrimiento de Información

De acuerdo a la revisión de las metodologías estudiadas y en base al análisis de las características presentadas
por cada una de ellas, se utilizó la metodología CRISP-DM para efectos del desarrollo de este trabajo.
Algunas de las características por las cuales se decidió el uso de esta metodología son:

• Es actualmente la guía de referencia más utilizada en el desarrollo de proyectos de minería de datos [22],
[23].
• A diferencia de KDD y SEMMA, especifica con mayor detalle las tareas que componen cada fase, lo que
facilita la planificación y ejecución del proyecto de minería de datos.
• Permite comenzar con el análisis del negocio y del problema organizacional, lo cual posibilita el
documentar de manera adecuada la problemática definida.

Con CRISP-DM se definen las siguientes fases para el desarrollo de este proyecto: comprensión del problema,
comprensión de los datos, preparación de los datos, modelado, evaluación del modelo e implantación. Sobre
esta estructura se presenta a continuación el desarrollo del trabajo realizado.

3.2 Comprensión del Negocio

De acuerdo a lo expuesto en el punto 1.1 de este trabajo, el proyecto FONDEF D09I1057 del Departamento
de Ciencias Biomédicas perteneciente a la Facultad de Medicina de la Universidad Católica del Norte, se
encuentra trabajando en el desarrollo de un biomarcador bioquímico de alta sensibilidad capaz de pesquisar y
reflejar el estado de deterioro neuropsicológico en el que se encuentran los individuos en situación a
exposición prolongada a pesticidas organofosforados de la IV Región de Coquimbo. El principal problema
para concretar el desarrollo de este biomarcador, es la ausencia de un modelo predictivo que permita
diagnosticar con mayor precisión el deterioro neuropsicológico en individuos expuestos a pesticidas
organofosforados en base a la actividad del biomarcador en desarrollo. Por este motivo, se propone el
desarrollo mediante técnicas de minerías de datos de un modelo predictivo que permita diagnosticar el
deterioro neuropsicológico asociado a una exposición prolongada a organofosforados.

3.3 Comprensión de los Datos

Los datos a utilizar provienen originalmente de una planilla Excel con un total de 277 observaciones, las
cuales fueron obtenidas de la ejecución de dos procedimientos médicos aplicados a los individuos de
poblaciones ocupacional (y/o) ambientalmente expuestas a pesticidas organofosforados junto a una población
control externo (sin contacto a pesticidas) en tiempo de prefumigación. Los datos obtenidos por estos
procedimientos corresponden a las campañas 2011-2013 del proyecto y son los siguientes:

• Datos personales y biológicos recogidos de los procedimientos médicos de toma de sangre.


• Datos de puntajes de las pruebas cognitivas recogidas de los procedimientos médicos neuropsicológicos.

11
Universidad Técnica Federico Santa María
Departamento de Informática
Programa de Magíster en Tecnologías de la Información

Si bien la planilla Excel posee una gran cantidad de variables asociadas a los procedimientos médicos antes
mencionados, para efectos de los objetivos fijados en este trabajo sólo se hace uso de un conjunto de estas
variables de acuerdo a los siguientes criterios definidos por los especialistas del proyecto:

• Inicialmente se consideran las mismas variables que fueron utilizadas para la construcción del modelo de
regresión logística según los resultados de los métodos estadísticos de correlación (ver tabla 4).
• No se consideran las variables del tipo “puntaje de pruebas neuropsicológicas” ya que son parte de otro
proceso de búsqueda de conocimiento.
• La variable “Años de exposición a pesticidas” no fue considerada en el modelo, ya que según los estudios
estadísticos del proyecto no mostraba una correlación significativa con la “clase deterioro”.
• La variable “Consumo de droga” no fue considerada para el modelo, ya que no ha sido estudiada por los
especialistas y podría ser considerada un factor de confusión.

Las variables y observaciones seleccionadas fueron almacenadas en un archivo con extensión .CSV para ser
utilizadas posteriormente por la herramienta de análisis de datos. Debido a que estos registros ya incorporan
una variable definida como clase (ver variable “Deterioro” en tabla 4) no será necesario crear alguna variable
exclusiva para este caso.

En la tabla 4 se presentan las primeras 10 variables seleccionadas con sus valores actuales para el desarrollo
del modelo predictivo.

Tabla 4. Descripción de las primeras variables para el modelo predictivo


Variables Tipo de Dato Valor Fuente
Numérico

1 Género Entero 0=Masculino, 1=Femenino Datos


Personales
2 Edad Continuo Media=35,419, Máximo=50, Datos
Mínimo=18, D.Estándar=8,734 Personales
3 Nivel_educacional Continuo Media=11,236, Máximo=19, Datos
Mínimo=3 Personales
D.Estándar=2,993
4 Localidad Entero 0=Urbano Datos
1=Elqui, Personales
2=Limarí
5 Consumo_tabaco Entero 0=No, 1=Si Datos
Personales
6 Consumo_alcohol Entero 0=No, 1=Si Datos
Personales
7 Enzima_acph Continuo Media=2,911, Máximo=6,501, Datos
Mínimo=1,177 Biológico
D.Estándar=0,855
8 Enzima_ache Continuo Media=6,109, Máximo=22,207, Datos
ínimo=0,931. Biológico
D.Estándar=3,184
9 Enzima_che Continuo Media=5,488, Máximo=10,69, Datos
Mínimo=2,192 Biológicos
D.Estándar=1,439
10 Deterioro Entero 0=No, 1=Si Datos
Cognitivos

12
Universidad Técnica Federico Santa María
Departamento de Informática
Programa de Magíster en Tecnologías de la Información

3.4 Preparación de los Datos

3.4.1 Limpieza de los Datos

Con las primeras variables y observaciones ya seleccionadas se procedió a realizar una limpieza de los datos
para solucionar los siguientes tipos de problemas [8]: valores nulos y blancos, atípicos (outlier) e valores
inconsistentes. Si bien en la mayor parte de los datos no se observaron cifras relevantes de valores con
problemas de inconsistencia, tampoco se evidenciaron problemas de valores nulos. Sólo se encontraron
algunos datos con valores outlier y valores en blancos, los cuales fueron eliminados por petición de los
especialistas (ver tabla 5).

Tabla 5. Porcentajes de calidad y errores de los datos de la muestra


Variables Datos Datos Causa
Completos Erróneos
1 Genero 100% 0% --
2 Edad 100% 0% --
3 Nivel educacional 98% 2% datos en blanco
4 Localidad 98% 2% datos en blanco
5 Consumo_tabaco 98% 2% datos en blanco
6 Consumo_alcohol 98% 2% datos en blanco
7 Enzima_acph 98% 2% outlier
8 Enzima_ache 100% 0% --
9 Enzima_che 100% 0% --
10 Deterioro 100% 0% --

3.4.2 Transformación de los datos

Con estos datos ya corregidos, se procedió a realizar un proceso de transformación de variables numéricas
(enteras y continuas) a otras de tipo nominal en la muestra. El objetivo de aplicar este tipo de transformación
es ajustar de mejor forma los datos al modelo, normalizar su distribución y mejorar el proceso de clasificación
[8]. Una de las técnicas más utilizadas para este proceso de transformación es la discretización (también
conocida como binning), la cual convierte un valor numérico en un valor nominal ordenado [8].

El parámetro técnico utilizado para crear el tamaño de los intervalos de la discretización fue el enfoque no
supervisado, el cual usa la distribución de valores de un atributo continuo como única fuente de información.
Esto quiere decir que no ocupa información adicional como la de la clase. La técnica de división utilizada
para este enfoque fue el método equal-width que crea los intervalos de la misma amplitud de los datos en el
conjunto de la muestra [8].

Las variables elegidas para la discretización fueron seleccionadas por los especialistas del proyecto, para
identificar una serie de valores en zonas ordenadas y encontrar su asociación con el deterioro
neuropsicológico según los rangos de actividad enzimática.

El número de particiones definidas para crear los intervalos de amplitud en las variables seleccionadas fueron
las siguientes: cinco particiones para la variable “Edad”, tres particiones para la variable “Nivel_educacional”
y cinco particiones para las variables “Enzima_acph”, “Enzima_che” y “Enzima_ache”.

Por otra parte, las variables numéricas como el “Género”, “Consumo_tabaco”, “Consumo_alcohol”,
“Localidad” y la misma clase “Deterioro” fueron convertidas en variables nominales simples (categóricas)
para estandarizar la muestra.

13
Universidad Técnica Federico Santa María
Departamento de Informática
Programa de Magíster en Tecnologías de la Información

Por último, y según la definición de algunos autores, para discretizar y convertir valores numéricos a
nominales se deben considerar los siguientes criterios.

• Los algoritmos de clasificación supervisados, como es el caso del árbol de decisión C4.5, se basan en la
inducción de reglas por lo cual es necesario contar con atributos categóricos nominales [8].
• El algoritmo de clasificación Naive Bayes no es capaz de procesar algunas variables numéricas
directamente por lo tanto deben ser discretizadas [24].
• Cuando la tarea final es clasificación, los métodos de discretización son más sencillos ya que se basan en
las medidas de separabilidad y entropía [8].

En la tabla 6 se muestran los nuevos datos y los principales ajustes realizados.

Tabla 6. Descripción de las principales variables con ajustes


Variables Tipo Tipo Valor Variable
Original Nominal

1 Género Numérico Categórico Masculino/Femenino

2 Edad Numérico Discreto [18-24], [24-30], [30-37], [37-43], [43-50]

3 Nivel_Educacional Numérico Discreto [1-8], [8-13], [13-19]

4 Localidad Numérico Categórico Limarí, Elqui, Urbano

5 Consumo_tabaco Numérico Categórico Si/No

6 Consumo_alcohol Numérico Categórico Si/No

7 Enzima_acph Numérico Discreto [1,176961-2.24167], [2.24167-3.306379],


Continuo [3.306379-4.371089], [4.371089-5.435798],
[5.435798-6,500507]

8 Enzima_ache Numérico Discreto [0,931299-5.186381], [5.186381-9.441463],


Continuo [9.441463-13.696545], [13.696545-17.951627]
[17.951627-22.206709[

9 Enzima_che Numérico Discreto [2,191822-3.891478], [3.891478-


Continuo 5.591133][5.591133-7.290789], [7.290789-
8.990444][8.990444-10.6901]
10 Deterioro Numérico Categórico Si/No

3.4.3 Exploración de los Datos

Para complementar el análisis y preparación de los datos, se procederá a realizar un reconocimiento y análisis
exploratorio de algunas de las variables más representativas que tienen relación con la clase deterioro
neuropsicológico. A continuación se evidencian los siguientes resultados.

La tabla 7 muestra que la variable clase “Deterioro” presenta una cantidad mayor del 65,5% de las
observaciones de la clase “Sí” contra un porcentaje menor del 34,5% de observaciones de la clase “No”. Esto
quiere decir, que se evidencia una concentración mayor del 66% de los individuos con deterioro

14
Universidad Técnica Federico Santa María
Departamento de Informática
Programa de Magíster en Tecnologías de la Información

neuropsicológico frente a un 34% de los individuos sin deterioro neuropsicológico de la muestra (ver figura
3).

Tabla 7. Variable: clase “Deterioro“


Clase Deterioro
Neuropsicológico Cantidad Total
No 44%
Si 66%
100%

Figura 3. Porcentajes de la clase “Deterioro”.


La tabla 8 muestra que la variable “Género” presenta una distribución del 49,4% de las observaciones para el
género femenino y 50,6% de las observaciones para el género masculino. Respecto a su distribución con la
clase “Deterioro” se evidencia una concentración mayor del 36% del daño neuropsicológico del género
femenino frente a un 30% del género masculino (ver figura 4).

Tabla 8. Variable: “Género“


Individuos sin Individuos con
Gènero deterioro deterioro Total
Femenino 13% 36% 49%
Masculino 21% 30% 51%
100%

Figura 4. Porcentajes de deterioro


neuropsicológico en individuos por género.
La tabla 9 muestra que la variable “Consumo_tabaco” presenta un porcentaje total del 66% de observaciones
asociadas a individuos que no consumen tabaco frente a un total de un 34% de observaciones de individuos
que sí lo consumen. En la figura 5 se evidencia una distribución importante del 40% del deterioro
neuropsicológico en individuos que no consumen tabaco y un 25% de deterioro neuropsicológico en
individuos que sí lo consumen.

Tabla 9. Variable: “Consumo_tabaco“


Consumo Individuos Individuos con
Tabaco sin deterioro deterioro Total
No consume 26% 40% 66%
Sí consume 9% 25% 34%
100%

Figura 5. Porcentajes de deterioro


neuropsicológico en individuos por consumo
de tabaco.
La tabla 10 muestra que la variable “Nivel_educacional” presenta una mayor distribución de observaciones en
el rango de 8-13 años frente a los rangos 1-8 y 13-19 años para el proceso de clasificación. Respecto a su
distribución con la clase “Deterioro”, se evidencia una concentración importante del 22% del daño
neuropsicológico en individuos con rango de estudio entre 1-8 años (ver figura 6).

15
Universidad Técnica Federico Santa María
Departamento de Informática
Programa de Magíster en Tecnologías de la Información

Tabla 10. Variable: “Nivel_educacional“


Nivel Individuos sin Individuos con
educacional deterioro deterioro Total
[1-8] 2% 22% 24%
[8-13] 23% 30% 53%
[13-19] 10% 13% 23%
100%
Figura 6. Porcentajes de deterioro
neuropsicológico en individuos por nivel de
educación.
La tabla 11 muestra que la variable “Localidad” presenta una distribución menor del 23,2% de las
observaciones asociadas a la localidad del Limarí frente a la localidad de Elqui y el sector Urbano.
Respecto a su distribución con la clase “Deterioro” se puede apreciar que existe una concentración
importante de deterioro neuropsicológico en la localidad del Elqui en comparación a las localidades del
Limarí y el sector Urbano (ver figura 7).

Tabla 11. Variable: “Localidad“


Individuos Individuos
Localidad sin deterioro con deterioro Total
Elqui 7% 32% 39%
Limarí 1% 22% 23%
Urbano 26% 12% 38%
100% Figura 7. Porcentajes de deterioro
neuropsicológico en individuos por localidad.

La tabla 12 muestra que la variable edad se encuentra bien distribuida según la aplicación del proceso de
discretización mediante intervalos del mismo tamaño. Respecto a su relación con la clase “Deterioro” se
puede apreciar en la figura 8 existe una mayor tendencia al deterioro neuropsicológico con un 20% de los
individuos entre el rango 43-50 años. El menor daño se aprecia entre el rango de 18-24 años con un 6% de los
individuos.

Tabla 12. Variable: “Edad“


Individuos sin Individuos con
Edad deterioro deterioro Total
[18-24] 8% 6% 14%
[24-30] 8% 10% 18%
[30-37] 10% 18% 29%
[37-43] 4% 11% 15%
[43-50] 5% 20% 25% Figura 8. Porcentajes de deterioro
100% neuropsicológico en individuos por rango de edad.

En la tabla 13 los datos de la variable “enzima_acph” se encuentran distribuidos según la aplicación del
proceso de discretización por intervalos de misma amplitud de sus datos. Respecto a su relación con la clase
“Deterioro” se puede apreciar en la figura 9 que existe una mayor tendencia al deterioro neuropsicológico con
un 43% de los individuos entre el rango 2.24167-3.306379 de la actividad enzimática.

16
Universidad Técnica Federico Santa María
Departamento de Informática
Programa de Magíster en Tecnologías de la Información

Tabla 13. Variable:“Enzima_acph“


Sin Con
ACPH deterioro deterioro Total
[1,176961-2.24167] 5% 11% 16%
[2.24167-3.306379] 23% 43% 66%
[3.306379-4.371089] 5% 8% 13%
[4.371089-5.435798] 0% 2% 2%
[5.435798-6,500507] 1% 2% 3% Figura 9. Porcentajes de deterioro
100% neuropsicológico en individuos por rango de
actividad enzimática ACPH.
3.4.4 Selección y Evaluación de los Datos

La cantidad final de observaciones seleccionadas fueron de 267 con una dimensionalidad de 10 variables a
criterio de los especialistas del proyecto (ver tabla 4). Por lo tanto, y con la muestra ya definida, se procederá
a realizar una evaluación de dichas variables a través de una estrategia denominada Ranker, con el objetivo de
averiguar la relevancia de éstas respecto de la información relacionada con la clase. Si una variable no agrega
valor al análisis ya sea por no estar relacionada con otra o por no tener la calidad suficiente para representar
los algoritmos, será eliminada de la muestra. Los evaluadores de variables utilizados son [25]:

• ChiSquaredAttributeEval: calcula el valor estadístico Chi-Squared de cada atributo con respecto a la


clase y así obtiene el nivel de correlación entre la clase y cada atributo.
• GainRatioAttributeEval: evalúa cada atributo midiendo su razón de beneficio con respecto a la clase.
• InfoGainAttributeEval: evalúa los variables midiendo la ganancia de información de cada uno con
respecto a la clase.
• ReliefFAttributeEval: se basa en la técnica del vecino más cercano, por lo tanto, asigna un peso a cada
atributo. Este se va modificando en función de la habilidad para distinguir entre los valores de la variable
clase.

Para cada uno de los evaluadores descritos anteriormente, y conforme a lo disponible en la herramienta de
análisis de datos, se trabajó con el modo de selección de variables denominado validación cruzada con 10 y 5
carpetas (cross-validaton folds). Paralelamente, se utilizó el algoritmo randomize para distribuir de forma
aleatoria todas las instancias antes de la utilización de los algoritmos de selección de atributos y de
clasificación.

Si se analizan las 3 primeras posiciones de los rankings (ver tablas 14, 15, 16 y 17) se observa que
ChiSquared, InfoGain, GainRatio y ReliefF presentan los mismos resultados de relevancia en el
ordenamientos de las variables “Localidad”, “Nivel_educacional” y “Edad”. Sin embargo, las variaciones de
relevancia se presentan en todas las evaluaciones para las variables “Género”, “Consumo_tabaco”,
“Consumo_alcohol”, “Enzima_acph”, “Enzima_che” y “Enzima_ache”. Por lo tanto y según los valores
entregados por los indicadores average merit y average Rank, se procedió a descartar las variables
“Consumo_alcohol” y “Enzima_ache” por presentar el menor peso o estar más cercanas a cero del conjunto
de variables de la muestra final. Cabe mencionar que de las 10 variables que fueron seleccionadas
inicialmente por los especialistas, sólo quedaron 8 para la fase de modelado. Éstas son: “Localidad”,
“Nivel_educacional”, “Edad”, “Enzima_che”, “Género”, “Consumo_tabaco”, “Enzima_acph” y la clase
“Deterioro”.

17
Universidad Técnica Federico Santa María
Departamento de Informática
Programa de Magíster en Tecnologías de la Información

Tabla 14. Resultados del ranking de atributos con 10 y 5 carpetas para Chisquared
ChiSquared
Atributo Average rank Average merit
10-Carpetas 10-Carpetas 5-Carpetas 10-Carpetas 5-Carpetas
Localidad 1 +- 0 1 +- 0 83.337 74.35
Nivel_Educacional 2 +- 0 2 +- 0 24.713 22.211
Edad 3 +- 0 3 +- 0 17.685 15.963
Enzima_che 4.6 +- 0.8 4.4 +- 0.49 5.492 5.364
Género 5.2 +- 1.33 5.2 +- 1.47 5.555 4.953
Consumo_tabaco 6.3 +- 1.1 6.4 +- 1.02 3.681 3.398
Enzima_acph 6.9 +- 0.54 7 +- 0.63 3.474 3.316
Enzima_ache 7 +- 1.26 7 +- 0.89 2.966 3.375
Consumo_alcohol 9 +- 0 9 +- 0 0.674 0.675

Tabla 15. Resultados del ranking de atributos con 10 y 5 carpetas para GainRatio
GainRatio
Atributo Average rank Average merit
10-Carpetas 5-Carpetas 10-Carpetas 5-Carpetas
Localidad 1 +- 0 1 +- 0 0.172 0.173
Nivel_Educacional 2 +- 0 2 +- 0 0.061 0.061
Edad 3.2 +- 0.4 3.2 +- 0.4 0.024 0.024
Género 4.5 +- 1.36 4.8 +- 1.47 0.017 0.017
Consumo_tabaco 5.6 +- 1.28 5.2 +- 1.47 0.012 0.013
Enzima_che 5.7 +- 1.1 5.6 +- 0.49 0.011 0.012
Enzima_acph 6.2 +- 0.6 6.4 +- 0.8 0.011 0.011
Enzima_ache 7.9 +- 0.54 7.8 +- 0.4 0.006 0.008
Consumo_alcohol 8.9 +- 0.3 9 +- 0 0.002 0.002

Tabla 16. Resultados del ranking de atributos con 10 y 5 carpetas para InfoGain
InfoGain
Atributo Average rank Average merit
10-Carpetas 5-Carpetas 10-Carpetas 5-Carpetas
Localidad 1 +- 0 1 +- 0 0.266 0.268
Nivel_Educacional 2 +- 0 2 +- 0 0.089 0.09
Edad 3 +- 0 3 +- 0 0.054 0.054
Enzima_che 4.7 +- 0.9 4.4 +- 0.49 0.02 0.022
Enzima_acph 5.2 +- 0.4 5.6 +- 0.8 0.016 0.017
Género 5.6 +- 1.56 6 +- 1.7 0.017 0.017
Consumo_tabaco 7.1 +- 0.54 7 +- 0.63 0.011 0.012
Enzima_ache 7.4 +- 0.8 7 +- 0.89 0.009 0.012
Consumo_alcohol 9 +- 0 9 +- 0 0.002 0.002

18
Universidad Técnica Federico Santa María
Departamento de Informática
Programa de Magíster en Tecnologías de la Información

Tabla 17. Resultados del ranking de atributos con 10 y 5 carpetas para Relief
ReliefF
Atributo Average rank Average merit
10-Carpetas 5-Carpetas 10-Carpetas 5-Carpetas
Localidad 1 +- 0 1 +- 0 0.298 0.301
Nivel_Educacional 2 +- 0 2 +- 0 0.106 0.098
Edad 3 +- 0 3 +- 0 0.065 0.061
Género 5 +- 1 5.6 +- 1.02 0.024 0.02
Consumo_alcohol 5.2 +- 1.08 5.8 +- 1.94 0.023 0.021
Enzima_acph 5.6 +- 0.8 6 +- 1.41 0.02 0.022
Consumo_tabaco 7.3 +- 1.42 7 +- 1.41 0.008 0.01
Enzima_che 7.5 +- 1.28 7.2 +- 1.72 0.008 0.011
Enzima_ache 8.4 +- 1.02 7.4 +- 1.62 -0.003 0.005

3.5 Modelado

3.5.1 Selección de la Técnica de Modelado

En [13], [16], [19], [20] y [21] se reportan los mejores resultados a través de las técnicas de árboles de
decisión con un 99,62%, métodos bayesianos en un 95% y redes neuronales con un 100% en situaciones
médicas asociadas a otros dominios. Por estas razones, en la presente investigación se han utilizado las
técnicas antes mencionadas para el análisis de los datos.

Sobre la herramienta de implementación del modelo predictivo se utilizó el software WEKA 3.6 [26], el cual
permite trabajar con técnicas supervisadas de árboles de decisión como C4.5, métodos bayesianos como
Naive Bayes y redes neuronales como Perceptrón Multicapa. Las técnicas fueron aplicadas sobre la muestra
de los datos y guiadas a través de una planificación de experimentos (entrenamientos y pruebas con
algoritmos) los cuales obtuvieron los resultados que permitieron comparar el modelo que presentó mejor
respuesta frente a la estimación de la variable clase “Deterioro”. A continuación se detallan las técnicas
seleccionadas:

• C4.5: es un algoritmo de inducción que genera una estructura de reglas o árbol a partir de subconjuntos
de casos extraídos del conjunto total de datos de entrenamiento (método clásico de divide y vencerás).
C4.5 es un algoritmo que genera una estructura de reglas y evalúa su bondad usando criterios que miden
la precisión en la clasificación de los casos. Emplea dos criterios principales para dirigir el proceso: valor
de la información entregada por una rama del árbol (regla) con una rutina que se llama info y mejora
global que proporciona una rama del árbol usando una rutina que se llama gain (beneficio). Con estos dos
criterios se puede calcular una especie de valor de costo/beneficio en cada ciclo del proceso, que le sirve
para decidir si crear, como por ejemplo, dos nuevas reglas, o si es mejor agrupar los casos de una sola
[24].

• Naive Bayes: el clasificador Naive Bayes, se basa en el teorema de Bayes asumiendo independencia entre
las variables independientes o predictoras. Es un modelo fácil de construir y sin ningún hiperparámetro a
estimar. A pesar de su simplicidad, en muchas ocasiones muestra un rendimiento sorprendentemente
bueno y es ampliamente usado, ya que en algunos casos mejora los resultados de clasificación obtenidos
con métodos más sofisticados. El teorema de Bayes provee un método para calcular la probabilidad a
posteriori de la clase a la que pertenece el objeto a clasificar. El clasificador Naive Bayes asume que el
efecto del valor de un predictor en una clase es independiente de los valores de otro predictor. Esta
asunción se llama independencia condicional de la clase [27].

19
Universidad Técnica Federico Santa María
Departamento de Informática
Programa de Magíster en Tecnologías de la Información

• Perceptrón Multicapa: es el modelo de red neuronal artificial que está constituido por un conjunto de
neuronas que se comunican entre sí a través de un conjunto de conexiones ponderadas denominadas
pesos. La salida del sistema depende tanto de las entradas como de los pesos que se almacenan en cada
conexión. Cada neurona realiza un cálculo sencillo para generar su salida. La función que se aplica se
denomina función de activación, y generalmente es no lineal [8].

3.5.2 Elección de los Parámetros de Evaluación

La evaluación de los resultados obtenidos por los modelos se basó principalmente en dos parámetros
generales:

1. Precisión global de la clase (Summary): representa el porcentaje global de aciertos y errores cometidos
en la evaluación. Para este ítem se utilizaron las siguientes medidas de evaluación:
• Instancias Correctamente Clasificadas (Correctly Classified Instances): comúnmente sirve para
medir el desempeño del modelo en el conjunto de pruebas, además, permite identificar el porcentaje
de instancias correctamente clasificadas de acuerdo a la clase en análisis.
• Coeficiente Kappa (Kappa Statistic): corresponde a la proporción de concordancias observadas
sobre el total de observaciones, habiendo excluido las concordancias atribuibles al azar. El índice de
Kappa toma valores entre -1 y +1; mientras más cercano a +1, mayor es el grado de concordancia
inter-observador.
• Error Absoluto Medio (Mean Absolute Error): diferencia entre el valor de la medida y el valor
tomado como exacto. Puede ser positivo o negativo, según si la medida es superior al valor real o
inferior (la diferencia puede ser positiva o negativa).
• Error Relativo Absoluto (Relative Absolute Error): cuociente (división) entre el error absoluto y el
valor exacto. Al igual que el error absoluto puede ser positivo o negativo (según lo sea el error
absoluto) porque puede ser por exceso o por defecto; no tiene unidades.

2. Precisión detallada por clase (Detailed Accuracy By Class): permite conocer la exactitud del modelo a
través de diversas características para cada uno de los valores que puede tomar el atributo de clase, en
base a:
• TP Rate (true positive rate): o más conocido como sensibilidad, es la proporción de ejemplos que
fueron clasificados como de una clase, de entre todos los ejemplos que de verdad tienen dicha clase,
es decir qué cantidad de la clase ha sido capturada.
• FP Rate (false positive rate): o más conocida como especificidad, es la proporción de ejemplos que
fueron clasificados como de una clase, de entre todos los ejemplos que de verdad pertenecen a otra
clase, es decir qué cantidad de la clase no ha sido capturada.
• Precision: mide la probabilidad que si el modelo clasifica a un término en una categoría, dado que el
término realmente pertenezca a dicha categoría.
• Cobertura (Recall): mide la proporción de términos correctamente reconocidos respecto al total de
términos reales.

3. Matriz de confusión (Confusion Matrix): permite visualizar mediante una tabla de contingencia la
distribución de errores cometidos por un clasificador.

Cabe señalar que los parámetros mencionados anteriormente sólo pretenden entregar medidas objetivas que
sirvan para evaluar la confiabilidad de los modelos predictivos analizados.

3.5.3 Experimentos

En este proyecto se utilizó un total de 8 variables del tipo categórico y 267 observaciones para realizar los
entrenamientos y pruebas del modelo, los cuales corresponden a los individuos de poblaciones ocupacional

20
Universidad Técnica Federico Santa María
Departamento de Informática
Programa de Magíster en Tecnologías de la Información

(y/o) ambientalmente expuestas a pesticidas organofosforados, junto a una población sin contacto a pesticidas
(control externo) en tiempo de prefumigación.

En base a la experiencia práctica de [28], [29] y [30], las tareas de clasificación fueron realizadas con
validación cruzada múltiple (cross-validation) de 10 carpetas sobre las 267 observaciones antes mencionadas,
a fin de evitar resultados de modelos sobre-ajustados en el esquema de aprendizaje. La validación cruzada
consiste en: dado un número n se divide los datos en n partes y, por cada parte, se construye el clasificador
con las n−1 partes y se prueba con la restante; así por cada una de las n particiones [8]. Con estos
entrenamientos y pruebas se espera tener una buena solución que sirva de respuesta para la validación de la
hipótesis en cuestión. A continuación se presentan los resultados relativos a la precisión global y precisión
detallada del experimento realizado.

Como se muestra en la tabla 18, el algoritmo Naive Bayes presenta la mejor capacidad de precisión global o
confianza con un 84% de las observaciones correctamente clasificadas, seguido del algoritmo C4.5 con un
82%. El algoritmo Perceptrón Multicapa presenta el peor desempeño de precisión global con un 75% de las
observaciones correctamente clasificadas. Por otra parte, los resultados del indicador estadístico Coeficiente
de Kappa muestran que el algoritmo Naive Bayes presenta la puntuación más alta con un valor de 63%, lo
cual indica que se acerca a un acuerdo total entre los grupos de clasificación. Respecto a la tasa de error
absoluto medio, los algoritmos Naive Bayes y Perceptrón Multicapa presentaron el valor más bajo con un
puntaje de 26%, lo cual indica que tienen una menor imprecisión o incertidumbre respecto al algoritmo C4.5.
Sin embargo, es el algoritmo Perceptrón Multicapa quien presenta el valor más alto de error relativo absoluto
con un 46% (error que realmente se está cometiendo) frente al algoritmo Naive Bayes que presenta el error
relativo absoluto más bajo con un valor de 37%, seguido de C4.5 con un error de 38% de clasificación.

Tabla 18. Resultados de la precisión global con validación cruzada de 10 carpetas


Estadísticas C4.5 Naive Bayes Perceptrón Multicapa
Instancias correctamente Clasificadas (%) 82% 84% 75%
Instancias Incorrectamente Clasificadas (%) 18% 17% 25%
Coeficiente Kappa 60% 63% 46%
Error Absoluto Medio 27% 26% 26%
Error Relativo Absoluto 38% 37% 46%

En la tabla 19 se puede conocer la exactitud de la precisión detallada de los algoritmos de clasificación a


través de la medición de los indicadores estadísticos precision y recall. Un valor de precision de 100% para la
clase “Deterioro” significa que para cada elemento etiquetado como clase “Sí” pertenece realmente a esta
clase. Es así que el algoritmo Naive Bayes presenta el mejor resultado con un valor de 86% de precision,
seguido del algoritmo C4.5 con un valor de 84% de precision y luego el algoritmo Perceptrón Multicapa con
un valor de 79% de precision. Para el caso del indicador Recall (sensibilidad), el cual se refiere a la fracción
de ejemplos de la clase de todo el conjunto que se clasifican correctamente, los tres algoritmos obtuvieron el
mismo puntaje con un valor de sensibilidad del 90%.

Tabla 19. Resultados de la precisión detallada con validación cruzada de 10 carpetas


Algoritmo Precision Recall
Clase Clase Clase Clase
No Sí No Sí
C4.5 78% 84% 69% 90%
Naive Bayes 79% 86% 72% 90%
Perceptrón Multicapa 66% 79% 58% 90%

Respecto a la matriz de confusión (ver tabla 20) se puede evidenciar que el algoritmo con mejor resultado es
Naive Bayes, ya que presenta la mejor medida de clasificación con un total del 59% de los individuos que

21
Universidad Técnica Federico Santa María
Departamento de Informática
Programa de Magíster en Tecnologías de la Información

realmente tienen deterioro neuropsicológico y un total del 25% de los individuos que efectivamente no tienen
deterioro neuropsicológico. Por su parte C4.5 indica que el 59% de los individuos con deterioro
neuropsicológico realmente lo tienen y el 24% de los individuos efectivamente no lo tienen. Por último, el
Perceptrón Multicapa obtuvo el resultado más bajo ya que clasificó correctamente con un 55% de los
individuos que realmente sí tienen deterioro neuropsicológico y un 20% de los individuos que efectivamente
no tienen.

Tabla 20. Matriz de confusión de los algoritmos con validación cruzada de 10 carpetas
Algoritmo Clase No Sí
C4.5 No 24% 11%
Sí 7% 59%
Naive Bayes No 25% 10%
Sí 7% 59%
Perceptrón Multicapa No 20% 15%
Sí 10% 55%

Con la finalidad de obtener resultados más precisos de clasificación, se procedió a sensibilizar algunos de los
parámetros de configuración de los algoritmos C4.5 y Perceptrón Multicapa quienes obtuvieron menor
rendimiento y precisión. Para el caso de Naive Bayes no fue posible sensibilizar sus parámetros de
configuración debido a que la muestra de datos ya estaba normalizada con atributos categóricos. Estos
parámetros son el useKernelEstimator y useSupervisedDiscretizacion [19].

Un análisis de sensibilidad estima la tasa de cambio de la salida de un modelo, causada por los cambios
realizados en la entrada del mismo. Su finalidad es determinar qué parámetros de entrada son más importantes
o sensibles para obtener valores de salida más precisos [31].

Para el algoritmo C.45 se procedió a sensibilizar el siguiente conjunto de variables [32]:

• binarySplits: permite establecer si se utilizarán particiones binarias en atributos nominales.


• confidenceFactor: factor de confianza para el podado del árbol.
• minNumObj: número mínimo de instancias por hoja.
• numFolds: define el número de subconjuntos en que hay que dividir el conjunto de ejemplos para, el
último de ellos, emplearlo como conjunto de test si se activa la opción reducedErrorPruning.
• reducedErrorPruning: el conjunto de ejemplos es dividido en un subconjunto de entrenamiento y
otro de prueba, de los cuales el último servirá para estimar el error para la poda.
• seed: la semilla usada para aleatorizar los datos cuando se utiliza la poda reducida de errores.
• subtreeRaising: se permite realizar el podado con el proceso subtreeraising.
• unpruned: en caso de no activar la opción, se realiza la poda del árbol.
• useLaplace: si se activa esta opción, cuando se intenta predecir la probabilidad de que una instancia
pertenezca a una clase, se emplea el suavizado de Laplace.

Para Perceptrón Multicapa se procedió a sensibilizar el siguiente conjunto de variables [33]:

• learningRate: define cuán rápido es entrenada la red neuronal para su aprendizaje. La mayor
velocidad de aprendizaje es configurada con un valor de 0.01 y una menor velocidad con 0.2.
• momentum: es un impulso o multiplicador de la tasa de aprendizaje que apoya a conseguir más
rápido una red neuronal. El momentum es aplicado siempre y cuando la tasa de error disminuya
durante el proceso de entrenamiento.
• normalizeAtribute: es una opción que mejora el rendimiento de la red neuronal. Su configuración no
depende si la clase es numérica. Normaliza atributos nominales con valores entre -1 y 1.
• seed: semilla utilizada para inicializar los números aleatorios. Se utiliza para establecer los pesos
iniciales de las conexiones entre los nodos y barajar los datos de entrenamiento.
22
Universidad Técnica Federico Santa María
Departamento de Informática
Programa de Magíster en Tecnologías de la Información

• trainingTime: es el número de épocas (iteraciones) para entrenar a red. Si el conjunto de datos es


configurado con un valor distinto a cero, la red puede es construida más rápido.

A modo de ejemplo, en las tablas 21 y 22 se presentan las configuraciones y los resultados ajustados de la
precisión global y sensibilidad (recall) de los algoritmos C4.5 y Perceptron Multicapa usando validación
cruzada con 10 carpetas. Los ajustes realizados a los algoritmos C4.5 y Perceptron Multicapa no fueron
suficientes para mejorar el nivel de precisión global y sensibilidad, y alcanzar una mejor calidad predictiva de
sus modelos. Por lo tanto, para el proceso de evaluación se mantendrán los mismos resultados obtenidos
durante la etapa de experimentación con los valores configurados por defecto.

Tabla 21. Sensibilización del algoritmo C4.5 usando validación cruzada (10 carpetas)
Configuraciones
Variables Default 1 2 3
binarySplits False False False True
confidenceFactor 0.25 0.15 0.10 0.25
minNumObj 2 2 2 3
numFolds 3 2 2 3
reducedErrorPruning False True True False
seed 1 1 1 1
subtreeRaising True True True True
unpruned False False False False
useLaplace False True True False
Correctly Classified 82% 82% 83% 82%
Recall (Sensibilidad) 90% 90% 90% 90%

Tabla 22. Sensibilización del algoritmo Perceptron Multicapa usando validación cruzada (10 carpetas)
Configuraciones
Variables Default 1 2 3
learningRate 0.3 0.2 0.3 0.01
momentum 0.2 0.2 0.1 0.1
normalizeAtribute True True True True
seed 0 0 0 1
trainingTime 500 500 500 600
Correctly Classified 75% 77% 77% 82%
Recall (Sensibilidad) 90% 84% 84% 88%

3.6 Evaluación del Modelo

Las figuras 10, 11, 12 y 13 presentan gráficamente los resultados obtenidos por los algoritmos C4.5, Naive
Bayes y Perceptrón Multicapa, respecto a las métricas de observaciones correctamente clasificadas (precisión
global), Coeficiente de Kappa, sensibilidad (Recall) y error absoluto medio sobre la muestra de 8 variables y
267 observaciones. Por lo tanto, se puede concluir que el modelo predictivo con mejor resultado es Naive
Bayes con una precisión global del 83%, Coeficiente Kappa del 63%, error absoluto medio del 26% y una
sensibilidad del 90%. Lo sigue C4.5 con un 82% de precisión, Coeficiente Kappa del 60%, error absoluto

23
Universidad Técnica Federico Santa María
Departamento de Informática
Programa de Magíster en Tecnologías de la Información

medio del 27% y una sensibilidad del 90%. El algoritmo con peor resultado fue el Perceptrón Multicapa con
una precisión global del 75%, Coeficiente Kappa del 46%, error absoluto medio del 26% y una sensibilidad
del 90%.

Figura 10. Observaciones correctamente Figura 11. Coeficiente Kappa


clasificadas (Precisión Global).

Figura 12. Error absoluto medio. Figura 13. Sensibilidad (recall).

3.7 Implantación

La planificación y control de despliegue del modelo desarrollado fue informado a los investigadores del
Departamento de Ciencias Biomédicas a través de los siguientes pasos [34]:

• Se realizaron reuniones con el equipo de investigadores presentando el resumen de la tesina realizada y


difundiendo el conocimiento obtenido por la investigación.
• Se entregó y explicó un reporte detallado con los resultados obtenidos por el modelo Navie Bayes en
formato impreso y digital a los miembros del equipo de Ciencias Biomédicas.
• Se entregó una planificación paso a paso para el despliegue e integración del modelo en sus sistemas
mediante la instalación de la herramienta de análisis WEKA.
• En conjunto con los investigadores del Departamento de Ciencias Biomédicas se desarrolló una plan de
monitoreo y actualización del modelo predictivo entregado.

Según lo conversado con los investigadores del proyecto de Ciencias Biomédicas, se puede resumir que los
patrones de conocimiento obtenidos por la clasificación de Naive Bayes, C4.5 y Perceptrón Multicapa,
servirán de conocimiento base para la extensión del proyecto FONDEF y los futuros resultados enzimáticos
del diagnóstico de deterioro neuropsicológico. Además, para el futuro proyecto se planteó la necesidad de

24
Universidad Técnica Federico Santa María
Departamento de Informática
Programa de Magíster en Tecnologías de la Información

utilizar técnicas de análisis descriptivos de tipo clustering y reglas de asociación, para obtener resultados más
idóneos dentro de la investigación y predicción del deterioro neuropsicológico.

Finalmente, el resultado de esta tesina se traduce como el primer paso para establecer un sistema de análisis
de datos (descubrimiento de información) basado en el área de la minería de datos e inteligencia artificial
computacional (aprendizaje de máquinas) para los futuros proyectos de investigación del Departamento de
Ciencias Biomédicas.

4 Conclusiones

En esta tesina se ha podido comprobar la hipótesis “Es posible construir un modelo predictivo con un nivel de
precisión superior al 60% para diagnosticar deterioro neuropsicológico a individuos en situación de
exposición prolongada a pesticidas organofosforados de la IV región de Coquimbo”. Las métricas
seleccionadas que ayudaron a validar los resultados, es decir, la precisión global y la precisión detallada
(exactitud) de la clasificación, evidenciaron que el modelo predictivo Naive Bayes arrojó los mejores
resultados con un 84% de nivel de confianza y una sensibilidad del 90% para el diagnóstico.

Otro de los algoritmos que presentó un buen resultado fue C4.5, el cual logró construir un modelo predictivo
con un nivel de confianza del 82% y una sensibilidad del 90%, similar a los resultados entregados por el
modelo del algoritmo Naive Bayes. Lamentablemente, queda el cuestionamiento acerca si el algoritmo C4.5
pudo haber logrado un mejor resultado frente a Naive Bayes, con una cantidad mayor de observaciones en la
muestra y una mayor cantidad de pruebas de sensibilización.

Respecto al experimento realizado con el algoritmo Naive Bayes, éste ha demostrado tener bastantes ventajas
frente a los otros algoritmos estudiados, respecto a que construye un modelo basado en probabilidades, es
eficaz y es muy fácil de sensibilizar los parámetros de optimización del modelado (ej. discretización de
variables numéricas durante el proceso de clasificación). Lamentablemente, el algoritmo no pudo ser
sensibilizado debido a que los atributos numéricos de la muestra fueron procesados con una discretización
manual, durante la fase de transformación de los datos con la herramienta WEKA.

De lo anterior, en esta tesina se ha presentado un estudio experimental respecto a un proceso de


transformación de variables numéricas (enteras y continuas) a variables del tipo categórica mediante la
técnica de discretización. El objetivo de aplicar este tipo de transformación fue ajustar de mejor forma los
datos al modelo, normalizar su distribución, ser más entendibles para su análisis, disminuir los tiempos
requeridos de aprendizaje y mejorar la precisión del proceso de clasificación. Las pruebas realizadas
mostraron resultados alentadores para el algoritmo Naive Bayes, el cual mejoró significativamente la
precisión de la clasificación en contraste con los resultados del algoritmo de regresión logística. Asimismo, se
logró la identificación de rangos de actividad enzimática con el deterioro neuropsicológico para las variables
en estudio, como la ACPH y Che. Perceptrón Multicapa fue el algoritmo que presentó una pérdida
significativa de precisión debido a uno de los efectos más conocidos de la discretización: la reducción de
información en el aprendizaje. En la literatura se habla de un trade-off o sacrificio de alguna cualidad o
aspecto del proceso de clasificación, como por ejemplo, ganancia en la manejabilidad de los datos y pérdida
en la precisión.

Por otra parte y como trabajos futuros, se propone incorporar al modelo predictivo la variable “Años de
exposición a pesticidas” y la variable de confusión “Consumo de Alcohol” con el objetivo de lograr mejoras
de precisión global y detallada en el proceso de clasificación. Asimismo, sería interesante poder analizar estas
variables con los algoritmos de selección de atributos y ver su relación con la clase deterioro. Por último, se
propone profundizar el estudio de los efectos que produce la discretización ya que existe una amplia rama de
enfoques y métodos que pueden mejorar el proceso de clasificación

25
Universidad Técnica Federico Santa María
Departamento de Informática
Programa de Magíster en Tecnologías de la Información

Por otro lado, se deja abierta la posibilidad de investigar acerca de la aplicación de métodos
multiclasificadores como Bagging y Adaboots, ya que a diferencia de las otras técnicas de clasificación
tradicionales, éstas están logrando un amplio auge en el ámbito científico ya que resuelven los problemas de
sobreaprendizaje (overfitting) y tienen en cuenta todas las hipótesis válidas en mayor o menor grado con los
datos. Por último, se recomienda profundizar en las técnicas de minería de datos que están encaminadas a
tratar el problema de desbalanceo de los datos como SMOTE; desbalanceo de los datos consiste en la
predominancia de ciertos valores en los datos y la escasez o ausencia de otros datos los cuales dificultan o
impiden la extracción de información.

Finalmente, este proyecto de tesina representa el punto de partida para la aplicación de técnicas de minería de
datos en los proyectos de investigación y asistencia técnica del Departamento de Ciencias Biomédicas.
Además; los resultados del proyecto se transferirán al Laboratorio de Salud Ocupacional de la Universidad
Católica del Norte y a su vez podrá entregar la metodología a otros interesados del país. Los usuarios finales
serán los hospitales, clínicas, mutualidades y laboratorios que aplicarán el diagnóstico para detección de
deterioro neuropsicológico en personas en situación de exposición a organofosforados. Los beneficiarios
finales serán los trabajadores agrícolas expuestos a pesticidas en sus lugares de trabajo.

5 Referencias Bibliográficas

[1] Corral Zavala, S. A. (2010). “Efectos en el desarrollo cognitivo en personas expuestas a pesticidas en la
región de Coquimbo”. (Tesis Magister). Facultad de Educación. Universidad Diego Portales.
[2] Muñoz M.T., Iglesias V.P, Lucero B.A. (2011). “Exposición a organofosforados y desempeño cognitivo
en escolares rurales chilenos: un estudio exploratorio”. Rev. Fac. Nac. Salud Pública; 29(3): 256-263.
[3] Muñoz M.T. (2010). “Uso de plaguicidas y discapacidad intelectual en estudiantes de escuelas
municipales”, provincia de Talca, Chile. Rev. Fac. Nac. Salud Pública; 28(1): 29-3.
[4] Pancetti, F. (2010). “Desarrollo de un biomarcador eritrocítico de alta sensibilidad para el diagnóstico de
exposición prologada a pesticidas (Proyecto FONDEF D09I1057)”. Coquimbo: Universidad Católica del
Norte, Departamento de Ciencias Biomédicas.
[5] Hernández, J., Ramírez, M., Ferri, C. (2004). “Introducción a la minería de datos”. Pearson Educación
S.A. Madrid.
[6] Palma, C., Palma, W., Pérez, R. (2009). “Data Mining. El arte de anticipar”. RIL Editores. Chile.
[7] Rokach, L. (2008). “Data Mining with Decision Trees: Theory and Applications”. Mundo Científico.
[8] Han, J., Kamber, M. (2011) “Data Mining: Concepts and Techniques”, Third Edition. Morgan Kaufmann
Publisher Inc., San Francisco.
[9] Cristianini, N., Shawe-Taylor, J. (2000). “An introduction to support vector machines and other kernel-
based learning methods”. Cambridge University Press.
[10] Moine, J.M. Gordillo, S., Haedo, AS (2011). “Análisis comparativo de metodologías para la gestión de
proyectos de minería de datos”: XVIII Congreso Argentino de Ciencias de la Computación (pp. 931-938).
Buenos Aires: Universidad de Buenos Aires.
[11] Maimon, O., Rokach, L. (2004). “Data Mining and Knowledge Discovery Handbook”. Springer Science
& Business Media.
[12] Gallard, J. (2009). “Metodología para la Definición de Requisitos en Proyectos de Data Mining (ER-
DM)”. (Tesis Magister). Facultad de Informática. Universidad Politécnica de Madrid.
[13] Kharya, S. (2012). “Using data mining techniques for diagnosis and prognosis of cancer disease”. arXiv
preprint arXiv:1205.1923.
[14] Sudha, S. (2013). “Disease prediction in data mining technique–a survey.IJCAIT”, 2(1): 17-21.
[15] Bellaachia, A., & Guven, E. (2006). “Predicting breast cancer survivability using data mining
techniques”. Age, 58(13): 10-110.
[16] Bhatla, N., Jyoti, K. (2012). “An analysis of heart disease prediction using different data mining
Techniques”. In International Journal of Engineering Research and Technology (Vol. 1, No. 8 October).
ESRSA Publications.

26
Universidad Técnica Federico Santa María
Departamento de Informática
Programa de Magíster en Tecnologías de la Información

[17] Maroco, J., Silva, D., Rodrigues, A., Guerreiro, M., Santana, I., Mendonça, A. (2011). “Data mining
methods in the prediction of Dementia: A real-data comparison of the accuracy, sensitivity and specificity of
linear discriminant analysis, logistic regression, neural networks, support vector machines, classification trees
and random forests”. BMC research notes.
[18] Rajkumar, M., Reena, G. S. (2010). “Diagnosis of Heart Disease using Datamining Algorithm”. Global
journal of computer science and technology, 10(10).
[19] Diwani, S.A, Anael S. (2014). "Diabetes Forecasting Using Supervised Learning Techniques”.
International Journal, Vol. 3, Issue 5, No.11
[20] Ramani, R. G., Sivagami, G. (2011). “Parkinson disease classification using data mining algorithms”.
International journal of computer applications, 32(9): 17-22.
[21] Sivaraman, A., Lakshmi, M., Rajesh, S. A. (2013). “Diagnosis and Risk Assessment of Cancer On Genes
Dataset Using Data Mining Techniques”. International Journal Of Engineering And Computer Science,
Volume 2, Issue 8, August: 2430-2433.
[22] KDnuggets™ - Data Mining Community Top resources.
http://www.kdnuggets.com/polls/2007/data_mining_methodology.htm
[23] KDnuggets™ - Data Mining Community Poll current. http://vote.sparklit.com/poll.spark/203792
[24] Nettleton, D. (2005). “Técnicas para el análisis de datos”. Ediciones Díaz de Santos.
[25] Ramos, R.M., Palmero, M.R. M.R., Ávalos, R.G., Lorenzo, M. M. G. (2007). “Aplicación de métodos de
selección de atributos para determinar factores relevantes en la evaluación nutricional de los niños”. Gaceta
Médica Espirituana, 9(1), 1.
[26] Weka University of Waikato http://www.cs.waikato.ac.nz/ml/weka/
[27] Tufféry, S. (2011). “Data mining and statistics for decision making”. John Wiley & Sons.
[28] Wahbeh, A. H., Al-Radaideh, Q. A., Al-Kabi, M. N., & Al-Shawakfa, E. M. (2011). “A comparison
study between data mining tools over some classification methods. International Journal of Advanced
Computer Science and Applications”, Special Issue, 18-26.
[29] Kohavi, R. (1995). “A Study of Cross-Validation and Bootstrap for Accuracy Estimation and Model
Selection”. Computer Science Department - Stanford University.
[30] Hall, M., Holmes, G. (2000). “Benchmarking Attribute Selection Techniques for Data Mining”.
Department of Computer Science, University of Waikato.
[31] Yao, J. (2003) “Sensitivity Analysis for Data Mining”. Department of Computer Science – University of
Regina, Canada.
[32] Weka Classifier Trees http://weka.sourceforge.net/doc.dev/weka/classifiers/trees/J48.html.
[33] Weka Classifier Multilayer Perceptron
http://weka.sourceforge.net/doc.dev/weka/classifiers/functions/MultilayerPerceptron.html.
[34] IBM Bussiness Analytics (2012). Manual CRISP-DM de IBM SPSS Modeler (versión 15.0., Texto rev.).

27