UNIVERSIDAD AUTÓNOMA DEL ESTADO DE

MÉXICO

Minería de datos

"Tumor embrionario del sistema nervioso central"
Semestre 2014B

CARRERA:

Ingeniería de Software
Por:

Oscar Gonzales Orihuela

Revisado por:

MTRO. José Rafael Cruz Reyes

Santiago Tianguistenco, Octubre de 2014.

ependimoblastoma y tumor teratoide/rabdoide atípico (ATRT).2- MINERIA DE DATOS La minería de datos (DM. Es un software ha sido desarrollado en la universidad de Waikato (Nueva Zelanda) bajo licencia GPL lo cual ha impulsado que sea una de las suites más utilizadas . Data Mining) consiste en la extracción no trivial de información que reside de manera implícita en los datos. El MB es el tumor cerebral maligno más frecuente en la infancia. Ciclo de Vida de Proyectos de Minería de Datos 1. Cuando estos métodos son utilizados a información extraída de grandes cantidades de datos. Figura 1. 1. 1. En la edad adulta aparece también típicamente en las edades más jóvenes (el 80% se diagnostican entre los 21 y los 40 años de edad). pueden ayudar a los médicos a tomar decisiones que puedan salvar la vida del paciente. sondea y explora los datos para sacar la información oculta en ellos [1]. tumores neuroectodérmicos primitivos supratentoriales(SPNET).3- WEKA Weka es un conjunto de librerías Java para la extracción de conocimientos desde bases de datos.INTRODUCCIÓN En la última década. Determinando el nivel del tumor es como se sabrá si se salva o es adecuado para el tratamiento.1- Objetivo General Para la investigación de tumor embrionario del sistema nervioso central es encontrar que pacientes pueden salvarse del tumor con el adecuado tratamiento. sin embargo representa solo el 1% de los tumores primarios cerebrales en adultos. Los tumores embrionarios del sistema nervioso central son un grupo de neoplasias grado IV de la OMS que incluye al meduloblastoma (MB). o un tratamiento adecuado. En otras palabras.1. la Minería de Datos y el análisis estadístico han sido ampliamente utilizados en la industria del cuidado de la salud. meduloepitelioma. la minería de datos prepara. En ciertos casos cuando no se pueda tratar con el tratamiento se pueda recomendar o buscar una solución viable. Dicha información era previamente desconocida y podrá resultar útil para algún proceso.. El 70% de los MB ocurren en pacientes menores de 16 años.

En esta práctica intentaremos determinar que clasificadores son mejores ante casos números de ejemplos de entrenamiento reducidos. Weka soporta numeroso estándares para realizar minería de datos. al tener realizada esta acción se guardara con la extensión arf y cvc. Esta herramienta dispone de varios tipos de clasificadores.2-Descripción de atributos. concretamente preprocesado de datos. ANEXO B GonzálezO. clasificación. Los atributos están divididos en 2 clases en estas dos clases hay atributos de mayor peso con las cuales se trabajaran. Al descargar el contenido con el cual se trabajara está en un formato de txt el cual se tiene que pasar o cambiar a formato (arf o cvc) cualquiera de los dos esto se realiza mediante copiar los datos del documento txt y pasarlos a una celda de Excel en la cual tendremos que separar los datos en comas al realizar dicho cambio en la barra de herramientas está el apartado datos y en el modificaremos que en cada celda este cada dato. dicha página contiene barios repositorios [mldata. X86693_at M93426_at U48705_rna1_s_at U45955_att . y selección de características [2].1-Preparacion de datos El repositorio que se utilizó se descargó de una página web.14]. 2.. cuyo funcionamiento dependerá del número de ejemplos para entrenar.TRABAJO CON LOS DATOS 2. 2. Clase 0 son la clase en la cual el tratamiento saldrá exitoso en el paciente. NOTA: ANEXO A GonzálezO. regresión.en el área en los últimos años. M93119_at M30448_s_at S82240_at U44060_at D80004_at Clase 1 son los cuales el tratamiento fallara. MI BASE ARF GonzálezO. siendo tanto más fiables los modelos cuanto mayor número de ejemplos dispongamos. visualización. clustering.

.Ahora se puede mostrar que en los atributos ya mencionados que tiene mayor peso se puede ver que el tumor puede desaparecer o quedarse con el tratamiento. M93119_at Este a tributo muestra que el paciente tiene una posibilidad de tener tratamiento para su recuperación sin tener una enfermedad. M30448_s_at El paciente tiene posiblemente una enfermedad que no haya dado información alguna pero entra en el tratamiento para su recuperación.

U44060_at Pacientes que no sabe que tiene un tumor y mucho menos otra enfermedad pero con la enfermedad o sin ella puede ser tratado el paciente solucionando el tumor primero. D80004_at .S82240_at El tumor va perdiendo fuerza en el crecimiento en el sistema central el tratamiento para los que tienen hipertensión de bajo nivel pueden entrar en el tratamiento.

El tratamiento a los pacientes con los pacientes que tiene diabetes a temprana aparición entran en el grupo de los que pueden disminuir el tumor. M93426_at . X86693_at El tumor en el paciente que tiene diabetes avanzada por lo tanto es imposible que entre al tratamiento por lo largo y riguroso que es.

U48705_rna1_s_at El paciente no entra en el tratamiento por tener consecutivos paros cardiacos. U45955_att .El paciente puede estar en peligro de muerte.

14].3.3.Modelo utilizado NAIVE BAYES La técnica clasificador Naïve Bayes se basa en el denominado teorema Bayesiano y es adecuado en particular cuando la dimensionalidad de las entradas es alta. Modelos Naive Bayes también se conocen bajo una variedad de nombres de la literatura. Naive Bayes a menudo puede superar a los métodos de clasificación más sofisticados [Clasificación Naive Bayes. 2.Clasificadores de Bayes ingenuo son una familia de simples clasificadores probabilísticos basados en la aplicación de teorema de Bayes con fuertes (ingenuos) independencia supuestos entre las características.14].. A pesar de su simplicidad. 2.Implementación NAIVE BAYES M93119_at . incluyendo sencillo Bayes y la independencia de Bayes[Clasificación Naive Bayes.Paciente en el cual no entra en el tratamiento por que tiene alto el índice del tumor.

M30448_s_at Tiene una precisión 1441.Tiene una precisión 2412. S82240_at .

Tiene una precisión 441. D80004_at . U44060_at Tiene una precisión 20.

.Tiene una precisión 1941. Ahora realizare mi segunda vuelta en la cual utilizare el mismo algoritmo pero con una diferencia del porcentaje de 50% y una validación de 5. Una vez más pero ahora con 60% y de 8 de validación.

5% 62. instances precisión error Precisión por clase 1 Precisión por clase 0 60 36.5% 66% 61% 12 50% 105% 33% 55% .6666% 80% 47% 73% 24 37. Ahora mostrare una tabla donde acomodo mis resultados obtenidos y identifico la diferencia al haber cambiado valores y como se muestra una diferencia entre ellas. N.La última es de 12 de validación y 80%.

Con el uso de este algoritmo estos son los resultados Validación de 11 y un 70% . En cada ciclo se incrementa el tamaño de la “ventana” de proceso en un porcentaje determinado respecto al conjunto total. J48 Es un algoritmo de inducción que genera una estructura de reglas o árbol a partir de subconjuntos (ventanas) de casos extraídos del conjunto total de datos de “entrenamiento”.En la última de la instancia de 12 marca como error 105% pasando el límite que se tiene establecido del 60%. su forma de procesar los datos es parecido al de Id3. 2008]. con una rutina que se llama “info”. Calcula el valor de la información proporcionada por una regla candidata (o rama del árbol). Calcula la mejora global que proporciona una regla/rama usando una rutina que se llama gain (beneficio). en este caso no sé qué quiera decir ya que las demás si es notorio que entran en el rango. pero esta última es la que me causa controversia al no saber qué es lo que realiza o que puede hacer. Emplea dos criterios principales para dirigir el proceso de dados por: 1. En este sentido. para poder tratar pacientes que tienen un tumor y se puedan adecuar al tratamiento. El algoritmo realiza el proceso de los datos en sucesivos ciclos. 2. Cada ciclo de proceso emplea como punto de partida los resultados conseguidos por el ciclo anterior [Vizcaino. El algoritmo genera una estructura de reglas y evalúa su “bondad” usando criterios que miden la precisión en la clasificación de los casos. El objetivo es tener reglas a partir de la ventana que clasifiquen correctamente a un número cada vez mayor de casos en el conjunto total.

Validación de 8 y 80%. instances precisión error Precisión por Precisión por . Validación de 5 y 50% N.

814 4 95.37% 0.3353 . Generalmente para saber en qué clase nos encontramos utilizaremos la distancia euclídea1.70% 25 41.65% 13 43% 132% 0.33% 69% 0. ya que un valor muy pequeño nos haría el sistema muy sensible al ruido y un valor demasiado alto nos llevaría a una mala clasificación [wikipedia.66% Esta tabla me muestra que el error predomina.6818 2 92.46% 0. Al no ser experto en la materia de medicina no sabría por que el erro marca un alto índice de porcentaje y la precisión un índice muy bajo. K-NN En el método K-NN (K nearest neighbors Fix y Hodges.14]. El valor de k óptimo que deberemos fijar dependerá de nuestros datos. K error 1 105. Obteniendo estos resultados que se muestran en la tabla.clase 1 clase 0 6 33.66% 92% 0. 1951) es un método de clasificación supervisada. Este es un método de clasificación no paramétrico. ya que marca índices altos al 60% que es un margen de aceptación y este margen aumenta considerable mente alto. que estima el valor de la función de densidad de probabilidad o directamente la probabilidad a posteriori de que un elemento x pertenezca a una determinada clase Cj a partir de la información proporcionada por el conjunto de muestras.62% 0.0139 3 105. esta es mi primera ejecución. Voy a realizar mi primera ejecución con una validación de 2-11 y 60%.

2595 Ahora realizo una segunda ejecución pero con validación 1-10 y 40%.3885 7 88.2595 Aparentemente son casi idénticos arrojando los mismos resultados cambiando el porcentaje de 40% a 80% son los mismos resultados.0139 3 105.814 4 95.3885 7 88. Como se puede ver en tas dos imágenes casi son idénticas pero el porcentaje diferente.6818 2 92. .7463 9 95.3125 10 88. K error 1 105.2353 6 95.3353 5 88.2886 8 98.2886 8 98.2353 6 95.5 88.7463 9 95.3125 10 88.

Estos algoritmos extienden las características de los modelos lineales. Benigno Maligno 446 31 21 232 Clasificado como Benigno Maligno En esta tabla marca el grado que tiene mayor presidencia la clase maligno en la de benigno dando un resultado de mayor probabilidad de que todos los pacientes tengan un tumor u otra enfermedad no explicita. Y el benigno casi son pocos pacientes que pueden entrar a un tratamiento para su recuperación. 1995). ya que permiten distinguir entre clases que presentan límites de decisión no lineales. Para ello se transforman los datos originales transformándolos de forma no lineal en un nuevo espacio de mayor dimensión. 3. Puede hallarse una introducción más detallada a SVM en Burges (1998) [ ].SMO SMO implementa el algoritmo de optimización mínima secuencial para entrenar una máquina de soporte vectorial (SVM) (Vapnik. En este nuevo espacio se construye un modelo lineal que pueda representar un límite de decisión no lineal en el espacio original.-CONCLUCIONES .

25/10/2014.14] Weka información.14] Clasificación Naive Bayes.org/wiki/Knn [wikipedia. Demostrando que se deben aumentar el número de atributos como el sexo del paciente así como más casos para aumentar el 60% aun 80% para el aumento de predicción de quien entra en el tratamiento. Fundación Universitaria Konrad Lorenz.org/wiki/Data_mining [Vieira Braga] Vieira Braga Luis.nz/ [Algoritmo K-NN.pdf [mldata.a-star.04/11/2014.weka. 01/octubre/2014.14]KNN. Ltda.com.14]mldata.html . Introducción a la Minería de Datos.org/wiki/Knn [Clasificación Naive Bayes.mx/books? id=jIJEhHyESFsC&printsec=frontcover&dq=mineria+de+datos&hl=es419&sa=X&ei=ExI_VLmgGr48AGE_YDgBw&ved=0CB8Q6AEwAQ#v=onepage&q=mineria%20de%20datos&f=false [weka.14] Clasificación Naive Bayes.wikipedia.com/textbook/stnaiveb.http://books. http://es. 24/octubre/2014.org/wiki/Naive_Bayesian_classificatio n [Clasificación Naive Bayes. http://www.sg/datasets/krbd/NervousSystem/NervousSystem. http://en.wikipedia.http://mldata.co/images/stories/suma_digital_sistemas/2009_01/final _paula_andrea.9/10/2014.wikipedia. 2008] Vizcaino Garzon Paula Andrea.html [Vizcaino.edu.En la experimentación de encontrar la exactitud de que paciente es el que se puede tratar para dar un tratamiento que no da el 100% nos da un 60% que aunque sea poco es algo más claro quién entra en el tratamiento.net. http://es.14] Algoritmo K-NN.i2r.org/repository/data/viewslug/centralnervous-system/ Referencias del repositorio http://datam.statsoft. 14] Minería de datos.wikipedia.konradlorenz.01/octubre/2014.http://es. Rio de jainero. Bogotá 2008. ed. Para esto hubo barias vueltas en las cuales se tuvo que retirar atributos que arrojaban un 100% de precio en el cual eran en los que no entran como aceptación para la detención de quienes entran en el tratamiento.edu.25/10/2014. APLICACIÓN DE TÉCNICAS DE INDUCCIÓN DE ÁRBOLES DE DECISIÓN A PROBLEMAS DE CLASIFICACIÓN MEDIANTE EL USO DE WEKA.http://www. REFERENCIAS [Wikipedia. De los 4 modelos utilizados solo el “NAIVE BAYES” es el que muestra mejor resultados para el objetivo que es encontrar que pacientes pueden entrar en el tratamiento para su recuperación.google.org. 2009.Brasil. http://www.

org/mpr/CNS/ .http://www.broadinstitute.