Welcome to Scribd, the world's digital library. Read, publish, and share books and documents. See more
Download
Standard view
Full view
of .
Save to My Library
Look up keyword
Like this
0Activity
0 of .
Results for:
No results containing your search query
P. 1
Modelos de clasificación de Minería de datos

Modelos de clasificación de Minería de datos

Ratings: (0)|Views: 3 |Likes:

More info:

Published by: Francisco J. Perez Galarce on Sep 05, 2013
Copyright:Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as PDF, TXT or read online from Scribd
See more
See less

09/05/2013

pdf

text

original

 
 
UNIVERSIDAD DE TALCAFACULTAD DE INGENIERÍAMAGISTER EN GESTIÓN DE OPERACIONES
TALLER DE MINERÍA DE DATOS
TAREA 5MODELOS DE CLASIFICACIÓN
 AUTORES
W
 ALESKA
L
 AGOS
G
UZMÁN
 F
RANCISCO
P
ÉREZ
G
 ALARCE
 
PROFESORES
C
RISTIÁN
B
RAVO
 S
EBASTIAN
M
 ALDONADO
 
CURICÓ
 –
CHILEDICIEMBRE DE 2011
 
Índice
RESUMEN EJECUTIVO
El trabajo presentado a continuación está enfocado en la aplicación de metodologíasde clasificación, específicamente se trabaja con una base de datos perteneciente a unconcurso de la página web www.kaggle.com,la temática de clasificación está relacionada con la detección de compras malas de vehículos, esta es una aplicación bastanteinteresante pues si bien no está relacionada con un interés empresarial sirve a sustento parauna decisión muy frecuente como lo es la compra de un nuevo vehículo.Parte importante de este trabajo se relaciona con en el pre procesamiento de la basede datos, dicha etapa se caracteriza por la gran cantidad de decisiones que se deben tomar que van desde el análisis de datos atípicos, pasando por la elección del método imputaciónidóneo, el tipo de trasformación a utilizar, hasta el criterio para selección de atributos, todasestas decisiones pueden afectar de manera importante en el rendimiento de un modelo deminería de datos.La base de datos de entrenamiento cuenta con aproximadamente 72.983observaciones para 34 variables, considerando como función objetivo si la compra fue malao no. Como la mayor parte de las bases de datos reales, esta tenía problemas de diferenteíndole en tanto para trabajarla en primer lugar se busco información faltante, datosincongruentes, variables con problemas, etc. para aplicar ya sea imputación de datos osimple eliminación de casos o variables, según corresponda, en este proceso se eliminarontanto casos como variables.Luego se procedió al proceso de transformación de variables donde principalmentese utilizaron técnicas de discretización, agregación, generación de nuevos atributos, mapeo,etc, según las características del atributo como largo de las colas en caso de variablescontinuas, número de categorías para el caso de las variables categóricas, etc.Otro proceso importante dentro del pre procesamiento es la selección de atributos,en este trabajo se realizó en dos etapas, en primero lugar se realizó una selección por correlación (mayor a 0.95) antes de pre procesar todas las variables, en esta etapa tambiénse eliminaron aquellas variables que tenía grandes porcentajes de valores perdidos (más deun 50%), la segunda etapa consistió en analizar las variable ya transformadas y laseliminaciones se realizaron bajo los siguientes criterio: correlación, variabilidad ydependencia con la variable objetivo. La base de datos de testeo final que será donde seaplicarán los modelos tiene 13 variables y 70936 casos.Finalmente se aplicaron modelos de Arboles de decisión, Redes neuronales y SVM ,además se aplicaron dos técnicas que reunían información de distintos modelosindividuales, estas son un multiclasificador stacking y un promedio de
confidence
a SVM yred neuronal. Hasta la fecha de entrega del informe los mejores resultados fueron losobtenidos por el multiclasificador donde se alcanzo la ubicación 241 con un índice Gini de0.205 (29/12 a las 23:00), estos modelos fueron aplicados principalmente en el
software
 
statistical 
salvo el multiclasificador stacking que fue implementado en
Rapid Miner 
previomuestreo.
 
Índice
ÍNDICE
1
2
3
4

You're Reading a Free Preview

Download
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->