You are on page 1of 21

Minería de Textos

Selección de Características en
Documentos

El Curso Avanzado

Introducción

Preparación
de Datos

Modelos
Predictivos

Modelos de
Agrupamiento

Extracción de
Información

Recuperación
de
Información

Tabla de Contenido 1. SELECCIÓN DE CARACTERISTICAS .

Mapa Conceptual del Curso Tokenization Stopwords Stemming Sinónimos T8 T8 T7 T5 T7 T5 Naive Bayes T6 T4 T3 T3 T2 T1 T1 SVM Regresión Logística .

Selección de Características .

Reducción de Instancias (muestreo. 1. Reducción de Datos • Selecciona/extrae datos relevantes para la tarea de la minería de datos/extracción de información. Reducción de Atributos (selección de características) . agrupamiento) 2.

Selección de Instancias • Elegir ejemplos que sean relevantes para el modelo y lograr el máximo rendimiento: – Menos datos  los algoritmos aprender más rápido – Mayor exactitud  el clasificador generaliza mejor – Resultados simples  más fácil de entender 8000 puntos 2000 puntos 500 puntos .

población. Sin reposición de los elementos aleatorio Con reposición de los elementos Con reposición múltiple Muestreo probabilístico Asignación proporcional estratificado muestreo Asignación óptima Muestreo por cuotas Muestreo no Muestreo de bola de nieve probabilístico Muestreo subjetivo por decisión razonada . Población y Muestra Población Muestra Conjunto de todas las Subconjunto. sus propiedades sirven para inferir caracterís- No siempre se conoce ticas de la población. extraído de la instancias objeto de estudio.

• Extraiga una muestra balanceada de los datos. extraiga muestras aleatorias del 25%. • Grabe los datos balanceados en formato ARFF • Ingrese al Weka y levante los datos obtenidos. Ejercicio 1 • Para los datos proporcionados. 50% y 75%. .

Ejercicio 1 .

Ejercicio 1 .

– Menos datos  los algoritmos aprender más rápido – Mayor exactitud  el clasificador generaliza mejor. Selección de Características • Pretende elegir atributos relevantes para el modelo. lograr el máximo rendimiento con el mínimo esfuerzo. – Resultados simples  más fácil de entender .

• Use la opción de selección de características del weka para identificar los atributos de mayor significancia. Ejercicio 2 • Para los datos (balanceados) del ejercicio anterior. • Use la opción de ranking de pesos por cada características para identificar las características que mejor aportan en la clasificación. prepare el histograma de cada una de las características (use el weka). .

Ejercicio 2 .

Ejercicio 2 .

Ejercicio 3 • Haciendo uso de los pesos obtenidos en el proceso anterior. . efectúe el proceso de selección de características usando como criterio el peso de cada atributo.

calcule el rendimiento de un modelo de clasificación (use un árbol de decisión) • Evalúe para la data original. . Ejercicio 4 • Para el ejercicio anterior.

Ejercicio 4 .

. Construya un clasificador bayesiano con las características identificadas. Ejercicio 5 • Para el corpus proporcionado: 1. Aplique el proceso de selección de características por pesos. Identifique las palabras (raíces) de mayor significancia para el proceso de clasificación 2. 3.

kasperu.com www.com .soporto@kasperu.

PREGUNTAS .