WEKA: Programa Que Permite Una Mayor Compresnión y Acercamiento A La Minería de Datos

I Congreso Iberoamericano de Enseanza de la Ingeniera
CIEI-133
WEKA: Programa que Permite una mayor Comprensin y

Acercamiento a la Minera de Datos
1
Snchez, J.
Ingeniera de Sistemas, rea de Ingeniera. Universidad Nacional Abierta. Araure-Venezuela.

jculacio@gmail.com.
Resumen
El WebApps permit e a la Ingeniera Web el uso de diferentes medios (audio, video, multimedia entre
otros), con el cual los usuarios tienen la posibilidad de acelerar su aprendizaje. Adems, disminuye los
costos de reproduccin, publicacin y distribucin del mat erial impreso, otra ventaja es que el acceso
al contenido de este material, se hace en forma oportuna y confiable. La Minera de Datos (DM) es la
tercera fase del KDD (Knowledge Discovery in Databases), que es una rama de la Inteligencia
Artificial; la DM es tan amplia y novedosa que la Universidad Nacional Abierta (UNA) debera incluirla
en la asignatura Introduccin a la Inteligencia Artificial y Sistemas Expertos, o ser una nueva
asignatura de la carrera. WEKA, es uno de los programas que permit e comprender y acercarse a la
DM, fue desarrollado en la Universidad de Waikato, Nueva Zelanda, bajo licencia GNU e
implementado en Java.
Palabras clave: WebApps, KDD, Minera de Dat os, WEKA.
WEKA: program that allows to a greater understanding and

approach to the Mining of Data
Summary
WebApps allows Engineering Web to use a lot of different means (audio, video, multimedia, among
others ), with which users have the possibility of accelerating their learning. In addition, it diminishes the
costs of reproduction, publication and distribution of the printed mat erial, anot her adventage is the
access to content of this material is very opportune and reliable. Data Mining (DM) is the third phase of
the KDD (K nowledge Discovery in Databases), that is a branch of the Artificial Intelligence; the DM is
so ample and novel that the Universidad Nacional Abierta (UNA ) would have t o include it in the subjet
Introduction to the Artificial Intelligence and Expert Systems, or to be a new subjet of this degree
course. WEKA, is a software that allow to understand and t o approac h to DM, it was developed in the
University of Waikato, New Zealand, under license GNU and implemented in Java.
Index terms: WebA pps, KDD, Data Mining, WEKA.
Introduccin
La reflexin planteada por Nichols (1995)
permite
comprender
la
sobrecarga
de
informacin a la que somos sometido
actualmente: Una edicin semanal del New
York Times contiene m s informacin de lo que
la persona promedio podra encontrar en toda su
vida en la Inglat erra del siglo XV II. Se ha
producido ms informacin en los ltimos 30
aos que en los previos 5000 aos. Cerca de
1000 libros se publican internacionalmente cada
da, y el total del conocimiento impreso se dobla

cada ocho aos.
Gracias a los avances tecnolgicos y en
especial a la revolucin digital, ha posibilitado
que la captura de los dat os sea fcil, adems, el
almacenamiento de los mismos posee un costo
casi nulo. Con el desarrollo de s oft ware y
hardware, grandes cantidades de datos son
recogidas y almacenadas en base de datos. P or
tanto, el anlisis de estos datos a travs de las
herramientas tradicionales de gestin de datos o
con tcnicas estadsticas, no son adecuadas.

Por otra parte, con el advenimiento del
Internet, la informacin pres enta una ubicuidad
sin precedente y crece de una manera
acelerada, para verificar esto slo basta usar un
buscador como google e introducir la palabra
informacin, cuyo resultado son 368000000
sitios posibles, si se pudiera examinar cada u no
de los sitios ant eriores en slo un minut o el
resultado seran 6133333 horas, en otras
palabras tomara 255555 das, el tiempo
potencial total necesario: ms de 700 aos. Esto
es imposible, y por lo tanto, existe una clara
necesidad de disponer de tecnologas que
efecten procesos de bsquedas y an ms, de
tecnologas que ayuden a comprender su
contenido.
Debido al ya mencionado agigantado
avance en el hardware y la mayor comprensin
del software ha derivado la redefinicin y
actualizacin de conceptos fundamentales, ent re
ellos el de informacin, adems, de su
clasificacin llamada espectro de informacin,
el cual est formado por: datos, informacin,
conocimient o y sabidura.
Figura 1. Espectro de Informacin.

Un dato es un conjunto discreto de factores
objetivos de un hecho real. El concepto de dato
es definido por como un registro de
transacciones. Un dato no dice nada sobre el
porqu de las cosas, y por si mismo tiene poca o
ninguna relevancia o propsito. A pes ar de todo,
los
datos
son
importantes
para
las
organizaciones, ya que son la base para la
creacin de la informacin.
Los investigadores que han estudiado el
concepto de informacin, lo describen como un
mensaje. Como cualquier mensaje tiene un
emisor y un recept or. La informacin es capaz
de cambiar la forma en que el receptor percibe
algo, y de impactar sobre sus juicios de valor y
CIEI-133
comport amiento.
La
palabra
informar
originalmente significa dar forma a, y es
estrictamente el receptor quien decide si el
mensaje que ha recibido es realmente
informacin, es decir, si realmente le informa. Un
informe lleno de tablas inconexas, puede s er
considerado informacin por el que la escribe,
pero a su vez puede ser juzgado como ruido por
el que la recibe. A diferencia de los datos, la
informacin tiene significado (relevancia y
propsito). Los datos se convierten en
informacin cuando su creador les aade
significado.
Para Davenport y Prusak (1998) el
conocimient o es una mezcla de experiencias,
valores, informacin y saber hacer con la
incorporacin de nuevas experiencias e
informacin y til para la accin. El conocimiento
es originado y aplicado en la mente de los
expertos; lo que queda inmediatament e claro es
que el conocimiento no es simple, es una mezcla
de varios elementos. Es un flujo que tien e una
estructura formalizada, es intuitivo y difcil de
captar en palabras o de entender plenamente en
forma lgica. El conocimiento existe dentro de
las personas, como parte de la complejidad
humana y de nuestra impredecibilidad.
La sabidura que no es ms que el
procesamiento de conocimiento el cual a su vez
produce nuevo conocimiento, no puede ser
tratada o usada actualmente ya que no se
poseen
los
recursos
o
herramientas
computacionales para ello.
En la actualidad, la mayora de los
programas,
aplicaciones,
sistemas
de
informacin, es decir, el software existente se ha
construido para procesar datos o informacin.
Slo la Inteligencia A rtificial se ha dado a la
tarea del tratamiento y uso del conocimiento.
Pero son las organizaciones quienes hacen
un uso intensivo del software para el control y
mantenimiento de las mismas, adems, son
estas quienes invierten en el desarrollo e
investigacin de los sistemas.
No es de extraar que las organizaciones
den diferentes niveles de uso a sus datos. Ent re
estos: a) Nivel operacional: se utilizan sistemas
de informacin que monitorean las actividades y
transacciones
elementales. b)
Nivel
de
administracin: realiza las operaciones de
captura masiva de datos y servicios bsicos de
tratamiento de dat os, con tareas prede finidas. c)
Nivel de conocimiento: realiza las actividades de
anlisis, seguimiento, control y toma de
decisiones, realiza la consulta sobre informacin

almacenada. d) Nivel estratgico: realiza las
actividades de planificacin a largo plazo, tanto
del nivel de administracin como de los objetivos
que la empresa pos ee. Mira el futuro.
Ante todo lo ant erior, los datos existen y
adems se les dan diferentes niveles de uso,
pero estos son almacenados en las base de
datos, estas ltimas son una coleccin ordena da
de datos organizada de tal forma que puede
consultarse y actualizarse de manera eficiente.
Sobre el uso dado a los dat os en el tiempo
nace el OLTP (On-Line Transaction P rocessing,
Procesamiento de Transacciones en Lnea),
dedicadas a la capt ura y almace namiento de
transacciones; y el OLAP (On-Line Analytical
Processing, Procesamiento Analtico en Lnea)
permiten el anlisis y navegacin de los datos.
Conocido el nivel de uso en el tiempo de los
datos, es entendible porque a las bases de datos
se les puede extraer conocimiento de diversas
formas como: a) Conocimiento evidente:
fcilmente
recuperable
con
SQL.
b)
Conocimient o multidimensional: considera los
datos con cierta estructura y relevancia, se usa
el OLAP. c) Conocimient o oculto: informacin
evidente oculta a priori y pot encialmente til slo
se descubre con DM. d) Conocimiento profundo:
informacin almacenada en la base de datos,
pero que resulta imposible recuperar a menos
que se disponga de alguna clave que oriente la
bsqueda.
CIEI-133
El KDD es un conjunto de pasos int eractivos

e iterativos. Es interactivo porque el usuario es
quien decide, supervisa y controla cada una de
las fases del proceso, adems, es iterativo
debido a que se puede acceder desde y hacia
cualquier fase en todo moment o.
El KDD es un proceso complejo que incluy e
las
siguientes
fases: a) Integracin y
recopilacin,
b)
Seleccin,
limpiez a
y
transformacin, c) Minera de Datos, d)
E valuacin e int erpretacin y e) Difusin y uso.
Observar las fases clarifica la conexin
entre el KDD y la Minera de Dat os; el KDD es el
proceso global de descubrir conocimiento til
desde las bases de datos mient ras la Minera de
Datos se refiere a la obt encin de patrones o
modelos.
Figura 3. Fases del KDD.
Figura 2. Conocimiento en la Base de Datos.

Son Fayyad, Piat esky y Smyth (1996)
quienes definen el K DD (Knowledge Discovery in
Databases, Descubrimiento de Conocimiento en
Base de Datos) como el proces o no trivial de
identificar
patrones
vlidos,
novedosos,
potencialmente tiles y, en ltima instancia,
comprensible a partir de los dat os.
Figura 4. Esfuerzo requerido en Fases del KDD.

Siguiendo el mismo orden de las fases del
KDD, se requerir de es fuerzo: 15%, 60%, 20%
y 5% (que agrupa la fas e 4 y 5) respectivamente
de dedicacin para su culminacin, esto se
aprecia en la Figura 4.
La Minera de Datos es un rea de cuy o
objetivo es predecir resultados y/o descubrir
relaciones en los datos. La Minera de Datos
puede ser descriptiva (descubrir patrones que
describen los datos), o predictivos (para
pronosticar el comportamiento del modelo
basado en los datos disponibles). Por tanto,
permite entre muchas otras cosas: a) Explorar
grandes cantidades de datos (generalmente
relacionado al mercadeo o a los negocios), b)
Bsqueda de modelos consistentes y/o
relaciones sistemticas entre las variables y c)
Validar los resultados aplicando los modelos
descubiertos a los nuevos subconjunt os de
datos.
Las partes en las que se divide la Minera
de Datos son: a) Fuent e de datos, b) Preprocesamiento, c) Exploracin y Transformacin,
d) Reconocimiento de Pat rones y e) E valuacin
e Integracin.
Figura 5. Partes de la Minera de Datos.

Las tcnicas en las que se fundamenta la
Minera de Dat os son: a) Prediccin: permite la
obtencin de tendencias y comportamient os en
bases de datos (donde se utiliza: Regresin y
Clasificacin)
y
b)
Descubrimiento
de
conocimient o: permite filtrar los datos contenidos
en la bases de datos y con esto la identific acin
de
patrones
previamente
desconocidos
(bsicamente
comprende:
Deteccin
de
des viaciones, Clustering, Reglas de asociacin y
Visualizacin). Esto se observa en la figura 6.
CIEI-133
Figura 6. Tcnicas de la Minera de Datos.

La int egracin de las tcnicas de Minera de
Datos en las actividades diarias se ha c onvertido
en algo habitual, para ello slo bastara con leer
los siguientes mbitos de aplic acin que indican
Ferri, C., Hernndez, J. y Ramrez, M. (2004): a)
En la banca y finanz as, b) Anlisis de mercado,
distribucin
y
cualquier
otro
elemento
constituyente del comercio, c) Salud pblica y
privada as como los diferent es tipos de seguros,
d) Educacin, e) Procesos de manufactura,
servicios e industriales, f) Medicina, g) Biologa y
bioingeniera, h) Telecomunicaciones, i) Correo
electrnic o y agendas personales, j) Recursos
humanos, k) Web, l) Turismo, m) Trafico, n)
Hacienda, ) Policiales y de seguridad
ciudadana, o) Deportes, p) Polticas, entre
muchsimo otros.
Se nota la gran diversidad de aplicaciones
de uso para la Minera de Datos, de all que en
la actualidad existan diferentes suites y
herramientas especificas tanto bajo licencia de
software privativo (SPSS Clementine, Kepler,
Oracle Data Mining Suite, DBMiner, DB2
Intelligent Miner, SAS Enterprise Miner,
STA TIS TICA Data Miner, slo por nombrar
algunas) c omo de soft ware libre (WEKA, YALE,
TariyKDD,
JavaNNS);
que
permiten
el
preprocesado de los datos, varios modelo de
anlisis, facilidad para el diseo de las
soluciones y de experimentos debido al soporte
grafico amigable con que se pres entan los
resultados.
WEKA (Waik ato Environment for Knowledge
Analysis) fue des arrollada y es mantenida por un
grupo de investigadores de la Universidad de
Waikato (Nueva Zelanda).
Las cuat ro (4) opciones de interfaz de
trabajo con el programa son:
Explorer: es la opcin que permit e ejecutar
los algoritmos de anlisis y comparar result ados
sobre un nic o conjunto de datos.

Experimenter: es la opcin que permit e
definir experimentos complejos y almacenar
resultados.
Knowledge Flow: es la opcin que permit e
llevar a cabo las mismas operaciones que
Experimenter pero representado como un grafo
dirigido.
Simple Cli: es Command-Line Interfaz es
una ventana de comandos java para ejecutar las
clases WEKA.
Al ahondar sobre la interfaz de trabajo
Explorer se encuentran los siguientes seis (6)
subentornos de ejec ucin:
Preprocess: permite el uso de las
herramientas y filtros para cargar y manipular los
datos.
Classify: permite el acceso a las tcnicas de
clasificacin y regresin.
Cluster: permite integrar varios mtodos de
agrupamient o.
Associate: permite incluir las reglas de
asociacin.
Select Attributes: permite aplicar las
tcnicas de reduccin de atributos.
Visualize:
permite
visualizar
el
comport amiento de los dat os.
Adems, los datos se pueden import ar en
varios format os: ARFF, CVS, C.45, binarios, o
pueden provenir desde un URL o de una base
de dat os (usando JDB C).
Al importar el ejemplo iris.arff en la interfaz
de trabajo Explorer el subentorno de ejec ucin
Preprocess en la opcin Open File el programa
nos mostrara la siguiente ventana:
CIEI-133
El
WEKA
permite
hacer
diferent e
tratamiento con los dat os: a) Supervisados, que
consideran la informacin de la clase y b) No
supervisados: no consideran la informacin de la
clase.
Al seleccionar el atributo class resulta:
Figura 8. Seleccin atributo class de iris.arff.

Si sobre la opcin Filter se pulsa s obre el
boton choose y luego en el men uns upervised
y en el submen attribute la opcin Discretize y
luego sobre el botn Filter resultara la siguiente
ventana:
Figura 9. Men unsupervised de iris.arff.
Figura 7. Preprocess de iris.arff.
Discretize, permite t rans formar los atributos

continuos a atributos nominales, es decir, la
conversin de un tipo numrico a uno nominal
que represent a rangos. Ejemplo: Calificaciones
entre el rango 0 a 10 que adquieren el
significado de reprobado, muy deficiente,
deficiente, regular, excelent e.
Al pulsar sobre el botn Apply se mostrara:
CIEI-133
Figura 10. Resultado de aplicar Discretize.
Figura 11. Opciones del subentorno Classify.
Al revisar el segundo subent orno de

ejecucin el Clasify, present a cuatro (4)
opciones en el Test Options:
Use trainig set: la muestra es usada para
entrenar y probar al mismo tiempo. Los
resultados obtenidos no corresponden con la
realidad.
Supplied test set: los at ribut os de los datos
son escritos en un nuevo archivo de formato
ARFF sobre el cual se efectuar la clasific acin.
Cross-validation: permite dividir la muestra
en k partes, sobre estas se procede a entrenar el
clasificador con las k-1 partes y evaluar con la
parte k actual.
Percentage split: indic a el porcentaje de la
muestra que empleara para probar el
clasificador.
Adems, el WEKA ofrec e ocho opciones
para clasificar:
Bayes: mtodos basados en el aprendizaje
de Bayes.
Functions: mtodos matemticos.
Lazy: mtodos basados en el aprendizaje
del perezoso.
Meta: mtodos que resultan de la
combinacin de diferentes
mtodos
de
aprendizaje.
Mi: mtodos que aprenden mediante la
variacin de la densidad de los algoritmos.
Misc: mtodos que aprenden como si
leyeran los datos.
Trees: mtodos que aprenden mediant e
arboles de decisin.
Rules: mtodos que aprenden y esto s e
puede expresar como reglas.
Se pueden observar las ocho (8) opciones
en la figura 11.
El tercer subentorno de ejecucin el Cluster

presenta nueve (9) algoritmos para agrupar
datos.
CobWeb: utiliza el algoritmo CobWeb.
DBScan: utiliza el algoritmo DBScan.
EM: utiliza el algoritmo EM.
FarthestFirst:
utiliza
el
algoritmo
FarthestFirst.
FilteredCluster:
agrupa
los
datos
arbitrariamente y luego son pasados por un filtro
arbitrario.
Mak eDensityBas edClusterer: los datos son
envueltos en clases y devuelven su distribucin
y densidad.
OPTICS: utiliza el algoritmo OP TICS.
SimpleK Means: utiliza el algoritmo de k medias.
XMeans: utiliza el algoritmo de x-medias.
Esto se puede apreciar en la siguient e
figura:
Figura 12. Opciones del subentorno Cluster.

El cuarto subentorno de ejecucin el
Associate y ofrece cinco (5) algoritmos para
asociar datos:
Apriori: utiliza el algoritmo Apriori.
FilteredAssociator: utiliza el algoritmo que
asocia los datos arbitrariamente adems de
filtrarlos arbitrariamente tambin.
Generaliz edSequentialPatterns: utiliza el
algoritmo GSP.
PredictiveApriori: utiliza el algoritmo Apriori
para hacer reglas de as ociacin.
Tertius: utiliza el algoritmo de Tertius.
Figura 13. Opciones del subentorno Associate.
CIEI-133
La tercera interfaz de trabajo Knowledge

Flow consta de ocho (8) subentornos de
ejecucin:
DataSources: permite leer los datos en los
diferentes tipos de archivos: ARFF, C45, CVS,
LIBSVM, XRFF.
DataSk in: permite guardar los datos en los
diferentes tipos de archivos: ARFF, C45, CVS,
LIBSVM, XRFF.
Filters:
permite
efectuar
el
preprocesamiento de los datos, se dividen
supervisados y no supervisados.
Classifiers: permite efectuar la clasificacin
de los dat os, se dividen en: bayes, functions,
lazy, meta, mi, misc, trees y rules.
Clusterers: permite aplicar las tcnicas de
agrupamient o de datos.
Associations: permite aplicar las tcnicas de
asociacin de los datos.
Evaluation: permite evaluar o designar el
conjunto de datos para el ent renamiento.
Visualization: permite visualizar ya sea
como texto o grafico el resultado de los
algoritmos.
En la figura 15 s e pueden observar los ocho
(8) subentornos de ejecucin presentes en la
interfaz de trabajo.
La segunda interfaz de t rabajo E xperimenter

posee tres (3) subentornos de ejec ucin.
Setup: permit e la carga de los arc hivos as
como la creacin de los mismos.
Run: permite ejecutar el archivo con los
algoritmos indicados en Setup.
Analyse: permite configurar las pruebas
sobre los datos.
Figura 15. Opciones de Knowledge Flow.
Figura 14. Opciones de Experimenter.
La ltima interfaz de trabajo SimpleCLI est

compuesta por siete comandos posibles:
java <classname> <args>.
break.
kill.
cls.
history.
exit.
help <command>
CIEI-133
grafica amigable donde intuitivament e el usuario

puede usar cualquiera de los tres (3) interfaz de
trabajo: Explorer, E xperimenter y Knowledge
Flow, as c omo sus respectivos subentornos de
ejecucin, por tanto son de fcil uso y
comprensin; esta suite de Minera de Datos
permite la inclusin de contenidos que sin
software, quedaran slo como una lectura y, en
consecuencia, la adquisicin de un conocimiento
ms completo y tangible en forma ms didctica,
atractiva y sencilla.
Conclusiones
Figura 16. Opciones de SimpleCLI.
No es ms que un breve paseo de las
posibilidades que ofrece el WEKA, este hace
uso de las tcnicas de la Minera de Datos,
como valor agregado por estar implementado en
Java, no pres enta problemas de portabilidad (el
sistema operativo debe disponer de la mquina
virtual apropiada para su funcionamiento).
Resultados
Las asignaturas de las carreras de la UNA,
muy
especficamente
Introduccin
a
la
Inteligencia Artificial y Sistemas Expertos (347),
no escapan de la carencia y poca disponibilidad
de medios instruccionales orientados a potenciar
las destrezas adquiridas y en especial los
referidos al KDD del cual la Minera de Datos,
constituye una fase muy importante, y de este
modo responder a las exigencias del entorno
laboral actual.
Es tan trascendental el tema que la llamada
Inteligencia
de los
Negocios
(Business
Intelligence) que es el proces o de analizar los
bienes de todo tipo (especialmente los datos)
acumulados en la empresa y extraer de ellos
conocimient o apoyndose justamente en las
tcnicas que suministra la Minera de Datos.
Pentaho BI aprovec ha la arquitectura, soporte,
estndares, funcionalidad e innovacin del
software libre dispersas en diferentes reas y
entrelazndolas para obtener una plataforma de
BI cuyos componentes son: Reportes (P enta ho
Reporting Engine), servidor OLAP (Mondrian),
integracin de dat os (Kettle), Minera de Datos
(WEKA), y suite de BI.
En este s entido, WEKA por ser un sistema
multiplataforma con arquitectura basada en
componentes independientes, con una interfaz
El KDD est compuesto por cinco (5) fases

en las cuales curiosamente no es nec esaria la
misma dedicacin. La segunda fase: Seleccin,
limpieza y transformacin abarca el 60% del
tiempo total, esto es debido a su complejidad ya
que garantiza la mayor correccin, exactitud y
calidad de los datos, y elimina los datos
errneos (Outliers) o faltantes (missing values).
Si los datos no cumplen las condiciones que
garantizan su veracidad los patrones generados
por la tercera fase: Minera de Datos no son
confiables.
El WEKA es una coleccin de algoritmos
para resolver los problemas planteados por las
organizaciones a la Minera de Datos. Se
presenta bajo licencia GNU GP L (General Public
License) permitiendo que el software sea usado,
copiado y redistribuido libremente, adems el
cdigo fuente puede s er estudiado y modificado
sin restriccin alguna, este tipo de licencia posee
las siguient es ventajas: a) Reducir costos, b)
Flexibilidad
en
la
adaptacin
de
los
componentes, c) El emprender un proyecto a
bajos costos y permitiendo una alta escalabilidad
y d) El desarrollo y mant enimiento del programa,
as como, los repositorios provienen de
diferentes
fuentes.
En la pgina web
http://www.cs.waikato.ac.nz/~ml/weka/index.html
puede descargars e las diferent es versiones:
estable (ltima versin 3.6.0), libro (ltima
versin 3.4.14) y para desarrolladores (ltima
versin 3.7. 0) en los siguientes sistemas
operativos: Windows, Mac OS X y Linux, as
como la documentacin y los requisitos para la
instalacin. Tambin en la pgina web se
pueden descargar ms de una docena de base
de dat os de diversos repositorios, por otra parte
al
menos
cincuent a
proyectos
activos
(WekaWiki) de diversas reas de conocimiento.
Lo
anterior
garantiza
el
continuo
mejoramiento, actualizacin y evolucin del

WEKA, por otra parte, la Constitucin Nacional
de la Repblica Bolivariana de Venezuela en su
artculo 110 y el decreto 3.390, indica que la
Administracin Pblica Nacional emplear
prioritariamente las herramient as de cdigo
abierto.
Agradecimientos
Este trabajo ha sido realizado parcialment e
gracias al apoyo de la Universidad Nacional
Abierta.
Referencias bibliogrficas
Berthold, M. y Hand, D. (2003). Intelligent Data
Analysis: An Introduction. Berlin: Springer.
Davenport, T. y Prusak, L. (1998). Work ing
Knowledge: How organiz ations manage what
they k now. Boston: Hardvard B usiness Scholl
Press.
Fayyad, U., Piatesky-Shapiro, G. y Smyth, P.
(1996). From Data Mining for Knowlegde
Discovery: An Overview. Menlo Park:
CIEI-133
American Association for A rtificial Intelligence

(AAAI/MIT).
Ferri, C., Hernndez, J. y Ramrez, M. (2004).
Introduccin a la Minera de Datos. Madrid:
Pearson Prentice Hall.
Nichols, J. (1995). Using Future Trends to Inform
Planning/Marketing. Library Trends, 43(03),
349-366.
Prez, C. y Santn, D. (2006). Data Mining
Soluciones con Enterprise Miner. Mxico D.F:
Alfaomega Grupo Editor.
White, C. (1999). IB M Enterprise Analytics for
the Intelligent e-Business. Morgan Hill: IBM
Press.
Resea curricular
J. Snchez: Profesor de la Universidad
Nacional Abierta,
V enezuela. Ingeniero de
Sistemas. Asesor Acadmico. Principal rea de
inters: Inteligencia Artificial.

WEKA: Programa Que Permite Una Mayor Compresnión y Acercamiento A La Minería de Datos

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

WEKA: Programa Que Permite Una Mayor Compresnión y Acercamiento A La Minería de Datos

Uploaded by

Copyright:

Available Formats

I Congreso Iberoamericano de Enseanza de la Ingeniera

WEKA: Programa que Permite una mayor Comprensin y

Ingeniera de Sistemas, rea de Ingeniera. Universidad Nacional Abierta. Araure-Venezuela.

WEKA: program that allows to a greater understanding and

da, y el total del conocimiento impreso se dobla

I Congreso Iberoamericano de Enseanza de la Ingeniera

Figura 1. Espectro de Informacin.

I Congreso Iberoamericano de Enseanza de la Ingeniera

El KDD es un conjunto de pasos int eractivos

Figura 3. Fases del KDD.

Figura 2. Conocimiento en la Base de Datos.

I Congreso Iberoamericano de Enseanza de la Ingeniera

Figura 5. Partes de la Minera de Datos.

Figura 6. Tcnicas de la Minera de Datos.

I Congreso Iberoamericano de Enseanza de la Ingeniera

Figura 8. Seleccin atributo class de iris.arff.

Figura 9. Men unsupervised de iris.arff.

Figura 7. Preprocess de iris.arff.

Discretize, permite t rans formar los atributos

I Congreso Iberoamericano de Enseanza de la Ingeniera

Figura 10. Resultado de aplicar Discretize.

Figura 11. Opciones del subentorno Classify.

Al revisar el segundo subent orno de

El tercer subentorno de ejecucin el Cluster

Figura 12. Opciones del subentorno Cluster.

I Congreso Iberoamericano de Enseanza de la Ingeniera

Figura 13. Opciones del subentorno Associate.

La tercera interfaz de trabajo Knowledge

La segunda interfaz de t rabajo E xperimenter

Figura 15. Opciones de Knowledge Flow.

Figura 14. Opciones de Experimenter.

La ltima interfaz de trabajo SimpleCLI est

I Congreso Iberoamericano de Enseanza de la Ingeniera

grafica amigable donde intuitivament e el usuario

El KDD est compuesto por cinco (5) fases

I Congreso Iberoamericano de Enseanza de la Ingeniera

American Association for A rtificial Intelligence

You might also like