P. 1
Árboles de clasificación estadística

Árboles de clasificación estadística

|Views: 1,257|Likes:
Published by Alfonso
Trabajo de investigación sobre árboles de clasificación estadística sobre los programas Excel, SAS (Enterprise Miner + macro) y Weka.
Trabajo de investigación sobre árboles de clasificación estadística sobre los programas Excel, SAS (Enterprise Miner + macro) y Weka.

More info:

Categories:Types, Research
Published by: Alfonso on Nov 28, 2009
Copyright:Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as PDF, TXT or read online from Scribd
See more
See less

05/11/2013

pdf

text

original

ÁRBOLES DE CLASIFICACIÓN ESTADÍSTICA

Asignatura: Estadística Aplicada y Minería de Datos Profesora: María del Carmen Bravo Llatas Autor: Alfonso de la Fuente Ruiz Fecha: Septiembre de 2009 Revisión online: Noviembre de 2009

INTRODUCCIÓN
Este documento es una versión revisada para su publicación en Internet. Algunas partes se han eliminado por no ser pertinente su publicación, mientras que otras se han corregido levemente. A continuación se incluye la introducción original. Este trabajo constituye se presenta para optar a la superación parcial de la asignatura “Estadística Aplicada y Minería de Datos” (en adelante: “EAMD”) del Máster Oficial de Postgrado en Ingeniería Matemática de la Universidad Complutense de Madrid. Para su realización se han empleado entre otros, Microsoft Excel, el sistema Software de Análisis Estadístico SAS ® v. 9.0, y GNU Weka v3.6.x. Se incluye finalmente una bibliografía de referencias consultadas.

MIM-UCM

Página 2

CONJUNTO DE DATOS
El conjunto de datos de entrada es una muestra de 48842 datos censales relativos a ingresos anuales (capital-gain) y otras trece variables, principalmente en los Estados Unidos de América. Dado que el archivo original censo_20 estaba corrupto, se procedió a descargar una copia desde su ubicación original en [12, 13].

MIM-UCM

Página 3

MACRO EXCEL
Existen herramientas en Microsoft Excel que nos permiten construir árboles de clasificación con bastante potencia y capacidad de parametrización, que muestran gráficos arborescentes y de tarta y un completo análisis de resultados. A ello se une la facilidad para importar y exportar datos en diferentes formatos, junto con la flexibilidad de su módulo Solver y la comodidad del soporte idiomático. Para conjuntos menores de 10.000 datos, podría usarse la Herramienta Excel para Árboles de Clasificación, descargable de [27]. Puesto que el conjunto de datos Adult tiene más de 40.000 datos, esta opción se descartó como inviable. Se muestran los resultados para un conjunto de datos clásico.

MIM-UCM

Página 4

MACRO SAS
El software para realizar análisis CHAID está disponible en el módulo Enterprise Miner de SAS, y se utiliza para construir test automáticos de detección de interacciones basándose en la distribución Chi-cuadrado. Se adjunta una muestra de ejecución en el Anexo.

Sin embargo, al no tenerse acceso licenciado a dicho programa, se decidió utilizar una macroinstrucción previa, que data de 1970, antes de su comercialización. Se trata de la macro TREEDISC. Se recibió junto con las especificaciones una versión de dicha macro referida al 15 de Noviembre de 1994 [31], constituyendo la versión revisada por Michael Friendly [33].
/****************************************************************/ /* S A S S A M P L E L I B R A R Y */ /* */ /* NAME: TREEDISC */ /* TITLE: Decision tree to predict a categorical variable */ /* PRODUCT: IML */ /* SYSTEM: ALL */ /* KEYS: */ /* PROCS: IML */ /* DATA: */ /* */ /* SUPPORT: saswss UPDATE: 15Nov94 */ /* REF: */ /* MISC: Bug with LEAF= and NOMINAL= fixed 03Dec93 */ /* Added color options for DRAW=GR 07Mar94 */ /* Added POS= option for DRAW=GR 10May94 */ /* Added INTO_, TIE_, and POST_ to */ /* OUTTREE= data set 3Sep94 */ /* Added PFORMAT= option 17Oct94 */ /* Bug in CODE= with unformatted ordinal */ /* character variable fixed 15Nov94 */ /* */ /****************************************************************/

MIM-UCM

Página 5

/* Revised: 11 Aug 2005 10:24:15 M. Friendly - Fixed bug in pvalues module - Include XMACRO from filename macros */

Se localizó una versión posterior con una ligera mejora en cuanto a la comprobación de formatos de entrada en los argumentos [32]. Se usó ésta última.

/****************************************************************/ /* S A S S A M P L E L I B R A R Y */ /* */ /* NAME: TREEDISC */ /* TITLE: TREEDISC MACRO - BETA VERSION */ /* PRODUCT: IML */ /* SYSTEM: ALL */ /* KEYS: */ /* PROCS: IML */ /* DATA: */ /* */ /* SUPPORT: saswss UPDATE: 25Aug95 */ /* REF: */ /* MISC: Bug with LEAF= and NOMINAL= fixed 03Dec93 */ /* Added color options for DRAW=GR 07Mar94 */ /* Added POS= option for DRAW=GR 10May94 */ /* Added INTO_, TIE_, and POST_ to */ /* OUTTREE= data set 3Sep94 */ /* Added PFORMAT= option 17Oct94 */ /* Bug in CODE= with unformatted ordinal */ /* character variable fixed 15Nov94 */ /* Changed 2nd arg in PROBF call from */ /* 1e10 to 1e9 due to 6.11 limit 25Aug95 */ /* */ /****************************************************************/

También se debe utilizar XMACRO (v6.10) que incluye las subrutinas de utilidades para macros procedimentales:

/****************************************************************/ /* S A S S A M P L E L I B R A R Y */ /* */ /* NAME: xmacro */ /* TITLE: Utility routines for PROC-like macros */ /* PRODUCT: stat */ /* SYSTEM: all */ /* KEYS: macros */ /* PROCS: */ /* DATA: */ /* */ /* SUPPORT: saswss UPDATE: 01Dec00 */ /* REF: */ /* MISC: */ /* */ /****************************************************************/

Nota: En este apartado se empleó la versión recibida del conjunto de datos censo_20.sas7bdat, que difiere de Adult, la empleada con anterioridad.

MIM-UCM

Página 6

Dado que esta macro no lleva a cabo la fase de Validación tras haber hecho la poda del árbol en la fase de Construcción tal como hace SAS Enterprise Miner, se ha modificado el criterio de parada en la macro TREEDISC (renombrada MACROARBOLES) mediante la opción “ALPHA=” para que detenga la subdivisión en nuevos nodos descendientes cuando el p-valor asociado al estadístico 𝑗𝑖 2 (el único posible) sea mayor que 0.075. ALPHA= Numeric value in the range (0,1), adjusted significance level for using a predictor in the tree. If the significance level for the most significant (optimally merged) predictor exceeds this value, then the node is subdivided according to the predictor's merged categories. The default is 0.1.

Existen otros dos valores ALPHA que no se modificaron, para la fusión (Merge) y partición (Split): ALPHAM y ALPHAS.

MIM-UCM

Página 7

CÓDIGO FUENTE
/************************************************************************ UCM-MIM-EAMD ALFONSO DE LA FUENTE RUIZ 2009 http://www.linkedin.com/in/alfonsofr ************************************************************************/ /* Siempre incluir XMACRO.SAS antes de TREEDISC.SAS en sus ubicaciones adecuadas. También podría referenciarse XMACRO desde TREEDISC. Evidentemente, habrá que modificar todas las rutas de directorio. La Macro TREEDISC se ha modificado y renombrado como MACROARBOLES; */ **%inc 'C:\Documents and Settings\Alfonso\Escritorio\CBravo\ResultTreedisc\_Resultados\xmacro.sas'; **%inc 'C:/Documents and Settings/Alfonso/Escritorio/CBravo/ResultTreedisc/_Resultados/xmacro.sas'; **%inc 'C:\Documents and Settings\Alfonso\Escritorio\CBravo\ResultTreedisc\_Resultados\macroarboles.sas'; **%inc 'C:\Documents and Settings\Alfonso\Escritorio\CBravo\ResultTreedisc\_Resultados/macroarboles.sas'; %inc 'e:\stat\sample\xmacro.sas'; * La unidad e esta associada a \\microsim-nt\sas; %inc '!sasroot/xmacro.sas';

%inc '!sasroot/macroarboles.sas'; /* Leer datos de entrada */ DATA censo_20; INFILE 'C:\Documents and Settings\Alfonso\Escritorio\CBravo\ResultTreedisc\_Resultados\censo_20.sas7bdat'; /* Usar solamente 8 caracteres para los nombres de variable */ INPUT AGE WORKCLAS $ EDUCATIO $ EDUCAT_N /*1-16*/ MARITALS $ OCCUPATN $ RELATINS $ RACE $ SEX $ CAP_GAIN /*0-99999*/ CAP_LOSS /*0-99999*/ HOURSPWK /*1-99*/ /*NATIVE-COUNTRY WORKCLASS2 COUNTRY2.*/ ; /* eliminar la variable FNLWGT: SET CENSO; DROP fnlwgt; * DROP education-num; /**/ RUN; /* TREEDISC Macro %treedisc( data=..., depvar=..., nominal=..., ordinal=..., ordfloat=...,

MIM-UCM

Página 8

• – */

options=list noformat read,maxdepth=3, trace=medium, draw=gr, leaf=50, outtree=all); Need to specify type of each variable Nominal, Ordinal, with a floating value

/* Calcular un árbol para predecir la incidencia sobre el salario (CAPITAL-GAIN) en función del resto de variables explicativas, tratadas como predictores ordinales (continuos) y nominales: */ %macroarboles(data=CENSO, depvar=CAPITAL-GAIN, nominal=workclass: education: martial-status: occupation: race: sex: nativecountry: workclass2: country2:, ordinal=age: capital-loss: hours-per-week:, outtree=ARBOL, options=noformat, trace=long); /* También trace=2 */ /* Para imprimir en formato postcript desde Windows: */ /*goptions cback=white ctext=black device=WIN target=ps rotate=landscape ; */ /* Dibujar un árbol mayor en varias páginas: */ /*goptions cback=white ctext=black device=WIN target=ps rotate=portrait; %macroarboles(intree=ARBOL, draw=graphics, pos=120 120); */ /* Dibujar el árbol en una página: */ %macroarboles(intree=ARBOL, draw=graphics); *** Dibujar el diagrama de árbol en modo impresora lineal; %macroarboles(intree=ARBOL, draw=lp); *** Generar código del paso DATA para clasificar las observaciones; %macroarboles(intree=ARBOL, code=print); *** Guardar el código en un archivo; %macroarboles(intree=ARBOL, code='arbolcenso.code') *** Clasificar los datos; /*data out; set CENSO; %inc '!sasroot/CENSO.code'; */ RUN;

MIM-UCM

Página 9

WEKA
Para efectuar la construcción del árbol de clasificación con Weka, se comienza descargando la aplicación de código abierto (licencia GNU) de la página web de la Universidad de Waikato [22], junto con la máquina virtual Java, si es necesario por no estar previamente instalada. Hecho esto se ejecuta la interfaz gráfica principal y se arranca el módulo “Experimenter”. Se crea un módulo nuevo, se definen los parámetros de salida (CSV: Valores separados por coma) y se selecciona “Cross-Validation” (Validación cruzada) con la alternativa “Classification”. Para el ejemplo necesitaremos el conjunto de datos “Adults” en el formato AtributoRelación estándar de Weka (ARFF) [3, 4]. De él eliminaremos con el Weka Explorer la variable la variable “fnlwgt” tal como se indica. También se elimina “education-num” siguiendo la referencia [11]. Resulta lo siguiente:

MIM-UCM

Página 10

Una vez eliminadas las variables, se guardará el archivo con otro nombre. Desde el mismo Weka Explorer podemos ir realizando algunos análisis preliminares, eligiendo la pestaña “Classify” y desde allí Zero-R, Cross-Validation y la variable “Capital-gain”. Tras pulsar “Start” obtenemos la siguiente información de ejecución: === Run information === Scheme: Relation: R3,5 Instances: Attributes: weka.classifiers.rules.ZeroR adult-weka.filters.unsupervised.attribute.Remove48842 13 age workclass education marital-status occupation relationship race sex capital-gain capital-loss hours-per-week native-country class 10-fold cross-validation

Test mode:

=== Classifier model (full training set) === ZeroR predicts class value: 1079.0676262233324 Time taken to build model: 0.15 seconds === Cross-validation === === Summary === Correlation coefficient Mean absolute error Root mean squared error Relative absolute error Root relative squared error Total Number of Instances -0.0103 1981.5098 7452.036 100 % 100 % 48842

MIM-UCM

Página 11

Pulsando con el botón derecho sobre la línea generada en la lista de resultados, observamos un ejemplo de la variable “Education” contra “Capital-gain” aumentando un poco el desplazamiento Jitter para visualizarlo mejor:

O la variable “Education” contra “Class”, que se define como “ganar más de 50.000 al año” (50K):

MIM-UCM

Página 12

También podemos visualizar los datos en la pestaña “Visualize”, reduciendo un poco el tamaño de gráfico, incrementando el tamaño de punto y coloreando la variable “Capital-gain” (azul=bajo, naranja=alto):

Podemos abandonar el Weka Explorer por el momento y volver al estado en que dejamos el Weka Experimenter, donde cargaremos los datos a través de “Datasets/Add new…”. Aparecerá una nueva línea en el cuadro Datasets. Ahora debe elegirse el tipo de algoritmo en el cuadro que está a su derecha, etiquetado “Algorithms”. Vamos a elegir varios de los más comunes en la bibliografía:

User Clasifier: Interactively classify through visual means. You are Presented with a scatter graph of the data against two user selectable attributes, as well as a view of the decision tree. You can create binary splits by creating polygons around data plotted on the scatter graph, as well as by allowing another classifier to take over at points in the decision tree should you see fit.
For more information see: Malcolm Ware, Eibe Frank, Geoffrey Holmes, Mark Hall, Ian H. Witten (2001). Interactive machine learning: letting users build classifiers. Int. J. Hum.-Comput. Stud.. 55(3):281-292. OPTIONS debug -- If set to true, classifier may output additional info to the console.

MIM-UCM

Página 13

ZeroR: Class for building and using a 0-R classifier. Predicts the mean (for a numeric class) or the mode (for a nominal class).
OPTIONS debug -- If set to true, classifier may output additional info to the console.

J48: Class for generating a pruned or unpruned C4.5 decision tree. For more information, see Ross Quinlan (1993). C4.5: Programs for Machine Learning. Morgan Kaufmann Publishers, San Mateo, CA.
OPTIONS binarySplits -- Whether to use binary splits on nominal attributes when building the trees. confidenceFactor -- The confidence factor used for pruning (smaller values incur more pruning). debug -- If set to true, classifier may output additional info to the console. minNumObj -- The minimum number of instances per leaf. numFolds -- Determines the amount of data used for reduced-error pruning. One fold is used for pruning, the rest for growing the tree. reducedErrorPruning -- Whether reduced-error pruning is used instead of C.4.5 pruning. saveInstanceData -- Whether to save the training data for visualization. seed -- The seed used for randomizing the data when reduced-error pruning is used. subtreeRaising -- Whether to consider the subtree raising operation when pruning. unpruned -- Whether pruning is performed. useLaplace -- Whether counts at leaves are smoothed based on Laplace.

Naive Bayes: Class for a Naive Bayes classifier using estimator classes. Numeric estimator precision values are chosen based on analysis of the training data. For this reason, the classifier is not an UpdateableClassifier (which in typical usage are initialized with zero training instances) -- if you need the UpdateableClassifier functionality, use the NaiveBayesUpdateable classifier. The NaiveBayesUpdateable classifier will use a default precision of 0.1 for numeric attributes when buildClassifier is called with zero training instances.
For more information on Naive Bayes classifiers, see: George H. John, Pat Langley: Estimating Continuous Distributions in Bayesian Classifiers. In: Eleventh Conference on Uncertainty in Artificial Intelligence, San Mateo, 338-345, 1995. OPTIONS debug -- If set to true, classifier may output additional info to the console. displayModelInOldFormat -- Use old format for model output. The old format is better when there are many class values. The new format is better when there are fewer classes and many attributes. useKernelEstimator -- Use a kernel estimator for numeric attributes rather than a normal distribution. useSupervisedDiscretization -- Use supervised discretization to convert numeric attributes to nominal ones.

MIM-UCM

Página 14

Una vez elegido el número de iteraciones (por defecto en 10, estadísticamente significativo pero quizá algo lento para tantos datos ,teniendo en cuenta que el número de dobleces “Folds” para la validación cruzada también es 10) y con los cuatro algoritmos encolados (o de uno en uno), cambiamos a la pestaña “Run” y pulsamos “Start”. Téngase en cuenta la gran cantidad de memoria RAM que se utilizará para efectuar los cálculos. El resultado quedará almacenado en el archivo que le hayamos indicado en el campo “Results Destination” de la pestaña “Setup”. Sería muy largo y complicado explicar lo que hace cada uno de los algoritmos, de los que hay varias decenas en la versión 3.6 de Weka, y para qué caso son apropiados unos u otros. Por ejemplo, el método de Bayes Naif (o método de Bayes “simple”) *35 p. 311+ asume que todos los atributos son igualmente importantes y suele trabajar bastante bien, salvo que hubiera varias variables altamente correladas, en cuyo caso éstas podrían “ahogar” la nueva información de una variable importante. Por otra parte, el J48 utiliza el método de Quinlan “C4.5”, del que se dice que es tan bueno como CART (“Classification And Regression Trees” de Salford Systems, otro conocido paquete software para construcción de árboles estadísticos) en casi todo, pero es computacionalmente muy costoso. El algoritmo User Classifier permite que el usuario genere particiones binarias interactivamente dibujando polígonos en los gráficos de nube de puntos que se le van presentando. Para el ZeroR, que es uno de los más ligeros en términos de recursos de sistema, se muestran a continuación los resultados de la primera línea de datos del fichero de salida, según se visualiza en Excel:
'adult-weka.filters.unsupervised.attribute.RemoveR3,5',1,1,weka.classifiers.rules.ZeroR,'',48055541465867954,20090930.2159,43957,4885, 3716,1169,0,76.069601,23.930399,0,0,0.364068,0.426659,100,100,3878.108322,3878.10 8322,0,0.793881,0.793881,0,0,0,0,0,0,0,0,1,3716,1,1169,0,0,0,0.5,0.760696,0.760696,0.2 39304,0.239304,0.578658,0.760696,0.657306,0.5,0.05,0.091,0.050072,0.030043,1216,58 51889,655313,?

MIM-UCM

Página 15

Una vez generado el fichero de salida, pues cargarse éste en la pestaña “Analyse” a través del botón “File…”, para efectuar a continuación un test con “Perform test” cuyos resultados se muestran a continuación: Tester: weka.experiment.PairedCorrectedTTester Analysing: Percent_correct Datasets: 1 Resultsets: 1 Confidence: 0.05 (two tailed) Sorted by: Date: 1/10/09 0:25 Dataset (1) rules.Zero ---------------------------------------'adult-weka.filters.unsup(100) 76.07 | ---------------------------------------(v/ /*) | Key: (1) rules.ZeroR '' 48055541465867954 El visualizador arborescente admite mejoras, pero también se pueden visualizar los archivos así generados desde la Interfaz Gráfica Principal de Weka, menú Tools, opción ArffViewer.

MIM-UCM

Página 16

LICENCIA
La licencia de copia y distribución es libre y se agradece. En lo particular se rige bajo los principios específicos de Creative Commons: Sobre el apartado “Conjunto de Datos”: Sobre el resto de apartados:

Autor: Alfonso de la Fuente Ruiz http://www.linkedin.com/in/alfonsofr MIM-UCM Página 17

BIBLIOGRAFÍA
Esta bibliografía incluye una serie de libros, artículos y otras referencias que han sido consultadas para la realización del presente trabajo. *1+: Apuntes y guiones de prácticas de la asignatura “Estadística Aplicada y Minería de Datos“ del Máster Oficial de Postgrado en Ingeniería Matemática adaptado al Espacio Europeo de Educación Superior (EEES/EHEA), Universidad Complutense de Madrid, curso 2006-2007. [2]: “Adult Data Set for Data Mining and Visualization” submitted by Ronny Kohavi and Barry Becker. Center for Machine Learning and Intelligent Systems http://archive.ics.uci.edu/ml/datasets/Adult *3+: “Minería de datos con Weka. Ficheros ARFF” http://www.locualo.net/programacion/mineriadatos-weka-ficheros-arff/00000019.aspx *4+: “Adult.ARFF Data Set in Atribute-Relation file Format for Weka” at the DME tutorial for Week 5 from the School of Informatics of the University of Edimburgh (Jan 2003) http://www.inf.ed.ac.uk/teaching/courses/dme/ht ml/week5.html *5+: “Análisis de segmentación en el análisis de datos simbólicos.” María del Carmen Bravo Llatas. Tesis Doctoral dirigida por José Miguel GarcíaSantesmases Martín-Tesorero en la UCM (2001) http://eprints.ucm.es/4820/ [6]: “Telling the truth with statistics” Giulio D’Agostini’s Lectures for the CERN Academic Training. La Sapienza (21-25 February 2005) http://www.roma1.infn.it/~dagos/prob+stat.html [7]: “SAS forum (24 y 25 de octubre de 2007, IFEMA – Madrid)” Véanse artículos en el “Blog de Alfonso y Compañía” de los días 23, 25 y 26 de octubre de 2007: - Anuncio: http://alfonsoycia.blogspot.com/2007/10/sas-forum-enmadrid.html - En directo: http://alfonsoycia.blogspot.com/2007/10/desde-el-sasforum.html - Crónica del SAS forum: http://alfonsoycia.blogspot.com/2007/10/crnica-del-sasforum-2007.html MIM-UCM Página 18

[8+: “DBMiner Enterprise versión 0.8 tutorial” by Jiawei Han and Jian Pei, Simon Fraser University of Canada. http://www.cs.sfu.ca/CC/459/han/tutorial/tutorial.html *9+: “Efecto de un proceso de poda en algunos coeficientes de asociación derivados del estadístico 𝒋𝒊𝟐 ” de Cano, Munduate, Pérez. http://dmle.cindoc.csic.es/pdf/EXTRACTAMATHEMATICAE_1995_10_01_02.pdf *10+: “Criterio de selección de un árbol óptimo según coeficientes de asociación derivados de 𝒋𝒊𝟐 ” de Cano, Munduate, Pérez. http://www.idescat.cat/sort/questiio/questiiopdf/20.2.2.cano.pdf *11+: “Introduction to arules – A computational environment for mining association rules and frequent item sets” by Hahsler, Grün, Hornik and Buchta (24 March 2009) http://cran.rproject.org/web/packages/arules/vignettes/arules.pdf *12+: “Madata preview at Swivel preview” by garba (07 April 2009) http://www.swivel.com/data_sets/show/1017853 *13+: “Scaling up the accuracy of Naïve-Bayes Classifiers: A Decision-Tree Hybrid” by Ron Kohavi, Silicon Graphics Inc. (1996) http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.57.4952 (B/W scan) http://www.aaai.org/Library/KDD/1996/kdd96-033.php (color) *14+: “The past, present and future of statistical graphics. An ideographic and idiosyncratic view” by Michael Friendly, York University (2004) http://www.math.yorku.ca/SCS/Papers/views/views 1_4.pdf *15+: “Visualizing Categorical Data” by Michael Friendly. SAS Publlishing (2000) *16+: “Data Mining Using SAS® Enterprise Miner” by Randall Matignon. John Wiley & Sons Inc. (2007) [17+: “Wikipedia” Varios artículos. www.wikipedia.org [18+: “Introduction to Data Mining” presentations by Tan, Steinbach, Kumar. Chapter 5 et. Al. http://dis.unal.edu.co/~fgonza/courses/2008-II/mineria/index.html [19+: “Statistical Learning. Introduction to Weka” by Michel Galley (2-Nov-2006). SlideShare Presentation at: http://www.slideshare.net/dataminers.ir/introduction-to-weka [20+: “Weka Experimenter Tutorial” by David Scuse and Peter Reutemann, University of Waikato (26 January 2007) http://freefr.dl.sourceforge.net/project/weka/documentation/3.5.x/ExperimenterTutorial3.5.5.pdf MIM-UCM Página 19

[21+: “Taller (1) sobre Minería de Datos” de Carolina Sarmiento y Carlos Andrés Morales, Universidad Nacional de Colombia. http://camoralesma.googlepages.com/ [22+: “WEKA: Waikato Environment for Knowledge Analysis” by the University of Waikato. http://camoralesma.googlepages.com/tabd *23+: “Statistical learning. Introduction to Weka” http://www1.cs.columbia.edu/~kathy/cs4701/documents/ai_weka.ppt *24+: “Multivariate Analysis” presentation by the Department of Statistics of the University of Auckland. http://www.stat.auckland.ac.nz/~balemi/Multivariate%20Analysis.ppt *25+: “Data Mining in Market Research” presentation by the Department of Statistics of the University of Auckland. http://www.stat.auckland.ac.nz/~balemi/Data%20Mining%20in%20Market%20Research.ppt *26+: “Data Mining: Practical Machine Learning Tools and Techniques (Second Edition)” pp. 437 y ss. et al., by Ian H. Witten & Eibe Frank, University of Waikato. Morgan Kaufmann (2005) *27+ “Classification Tree in Excel” online downloadable tool by http://www.geocities.com/adotsaha/CTree/CtreeinExcel.html [28]: “SAS Institute Inc. 2008. SAS/STAT® 9.2 User’s Guide”. Cary, NC: SAS Institute Inc. *29+: “SAS/STAT® 9.2 User’s guide – Procedures and knowledge base” online: http://support.sas.com/documentation/onlinedoc/stat/index_proc.html *30+: “An overview and evaluation of decision tree methodology” by Moore, Jesse and Kittler at the ASA Quality and Productivity Conference (23-25 May 2001) http://www.amstatonline.org/sections/qp/qpr/QPRC2001/contributed/Moore.pdf *31+: “Versión de TREEDISC 15Nov94” revisada por Michael Friendly. http://www.psych.yorku.ca/friendly/lab/files/macros/treedisc.sas *32+: “Versión de TREEDISC 25Aug95” http://www.public.iastate.edu/~kkoehler/stat557/sas/treedisc.sas *33+: “Discusión sobre versiones de la macro TREEDISC” by Michael Friendly et al. http://groups.google.com/group/comp.softsys.sas/browse_thread/thread/6ee724e92d8f6660 *34+: “Statistics 557 Course: CHAID and the TREEDISC macro” by Kenneth J. Koehler at the Department of Statistics of the Iowa State University. http://www.public.iastate.edu/~kkoehler/stat557/slides557.html *35+: “Data Mining concepts and Techniques. Second Edition” chapter 6 by Jiawei Han and Micheline Kamber, University of Illinois at Urbana-Champaign. Morgan-Kaufmann (2006)

MIM-UCM

Página 20

You're Reading a Free Preview

Download
scribd
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->