1. Contestar: 
a. ¿Qué es la minería de datos y que otros nombres tiene? 
 
Es el proceso de descubrir patrones interesantes y conocimiento en grandes 
cantidades de datos.Las fuentes de datos pueden incluir bases de 
datos,almacenes de datos, la web , repositorios de información o datos que son 
transmitidos por streaming dinámicamente el sistema. A la minería de datos 
también se le conoce como : knowledge mining from data(minería de 
conocimiento a partir de datos) , knowledge extraction(extracción de 
conocimiento), data/pattern analysis(análisis de datos/patrones), data 
archaeology(arqueología de datos) y data dredging(dragado de datos). 
 
 
b. ¿Cuales son los pasos de un proceso de descubrimiento de conocimiento?De 
una explicación corta de cada paso 
i. Data cleaning(Limpieza de datos): para remover el ruido y datos 
inconsistentes. 
ii. Data integration(Integración de datos): se combinan datos de diferentes 
fuentes 
iii. Data selection(selección de datos): se escogen los datos relevantes a la 
investigación. 
iv. Data transformation(transformación de datos):donde los datos son 
consolidados en información apropiada para la minería de conocimiento a 
través de resúmenes. 
v. Data mining(minería de datos): un proceso esencial donde metodos 
inteligentes son aplicados para extraer patrones de datos. 
vi. Pattern evaluation(evaluación de patrones):para identificar los patrones 
más interesantes de conocimiento midiendolos con ‘interesometros’. 
vii. Knowledge presentation(presentacion del conocimiento): donde tecnicas 
de visualización y representación son usadas para exponer el 
conocimiento minado a los usuarios. 
 
 
 
c. ¿Cuales son los componentes típicos de un arquitectura típica de un sistema de 
minería de datos? De una explicación corta de cada uno 
i. Bases de datos:se almacena la información sin procesar 
ii. Almacenes de datos: se almacenan los datos después de un pre proceso 
de limpiado 
iii. Algoritmo de minería de datos: filtra los datos y  encuentra patrones 
iv. Interfaz gráfica donde se presentan el conocimiento 
 
 
2. ¿En qué tipo de datos se usa la minería de datos? Haga una explicación resumida de 
cada tipo 
 
La minería de datos se puede usar en cualquier tipo de dato siempre y cuando tenga 
sentido en la aplicación a una meta. Las formas más básicas de datos para la minería 
son: 
a. Datos de bases de datos:Un sistema de base de datos consiste en una 
colección de datos interrelacionados conocidos como base de datos y un set de 
programas de software para manejar y acceder a los datos. El software provee 
herramientas para definir la estructura de la base de datos  y para especificar y 
manejar un acceso concurrente compartido o distribuido y para asegurar la 
seguridad y consistencia de la información contenida en ella. 
 
b. Almacenes de datos: repositorio de información reunido de diferentes fuentes, 
almacenado bajo un esquema unificado y usualmente localizado en un solo sitio. 
Los almacenes de datos son construidos mediante el proceso de limpieza de 
datos, integración de datos, transformación de datos, carga de datos y 
actualización periódica de estos. 
 
c. Datos transaccionales : En general cada registro en una base de datos 
transaccional almacena una transacción de algún cliente como una compra, una 
reserva de vuelos o los clicks de un usuario en una página. Una transacción 
típicamente se constituye de un identificador de transacción y una lista de ítems 
que componen la transacción como los objetos que se adquirieron. 
d. Otros tipos de datos: Hay muchas clases de datos además de estas que pueden 
ser minadas, tales como datos relacionados con el tiempo o secuencias, flujos 
de datos, datos espaciales(mapas), datos de ingeniería y diseño, hipertexto y 
datos de multimedia, gráficos y datos de redes, y la web. 
 
 
3. ¿Que tipos de patrones se pueden explorar? Haga una explicación y de un ejemplo de 
cada tipo. 
a. Discriminación por clase/concepto:caracterización y discriminación 
Los datos pueden ser asociados con clases y conceptos puede ser útil para 
describir clases individuales y conceptos resumidamente y aun asi en terminos 
precisos.Estos conceptos y descripciones son llamados descripción por 
clase/concepto, estas descripciones se pueden hacer por dos formas. 
 
i. Caracterización de los datos: resumiendo los datos bajo la clase a 
observar llamada target class, en términos generales, es un resumen de 
las características generales de la clase, por ejemplo para estudiar las 
características de las ventas de productos de software que subieron sus 
ventas en un 10% el año pasado podemos ejecutar una búsqueda en la 
base de datos.El resultado de este patrón de búsqueda lo podemos 
representar en variadas formas como gráficas de barras, de curvas o pie, 
o cubos multidimensionales de datos. 
 
ii. Discriminación de datos: este método consiste en la comparación de las 
características de la target class con un conjunto de características 
generales de una clase opuesta. Las clases objetivo y de contraste 
pueden ser especificadas por el usuario y los datos se pueden obtener 
mediante búsquedas en la base de datos, por ejemplo, al usuario le 
podría interesar comparar las características de productos de software 
que subieron sus ventas un 10 % el año pasado, con los que bajaron en 
más de 30% sus ventas. Los métodos usados en la discriminación de 
datos son similares a los de la caracterización. 
 
b. Patrones frecuentes 
Son patrones que ocurren frecuentemente en los datos, hay muchos tipos de 
patrones que son frecuentes, incluyendo conjuntos de ítems, subsecuencias y 
subestructuras. Un conjunto de ítems frecuente corresponde a los objetos que 
frecuentemente aparecen juntos en la misma transacción como el pan y la 
leche.Por ejemplo: 
 
compra(x,”computador”)=>compra(x,”software”)[apoyo=1%,confianza=50%] 
 
Donde x es una variable que representa al cliente, una confianza del 50% 
significa que si un cliente compra un computador hay un 50% de posibilidad de 
que compre software y un 1% de apoyo significa que en un 1% de todas las 
transacciones bajo análisis  que el computador y el software fueron comprados 
juntos. 
 
c. Clasificación y predicción 
Clasificación es el proceso de encontrar un modelo que describa y diferencie 
clases/conceptos de datos para el propósito de usar el modelo para predecir las 
etiquetas de clases de datos que son desconocidas, el modelo derivado esta 
basado en el análisis de un conjunto de datos en entrenamiento(datos cuya 
etiqueta de clase es desconocida). 
El modelo derivado puede ser presentado en diferentes formas como 
clasificación por reglas de (IF­THEN),árboles de decisión,fórmulas matemáticas, 
o redes neuronales. Aunque la clasificación puede predecir etiquetas 
desordenadas y discretas, y en contraste la predicción produce valores de 
funciones continuas. Ejemplo, se quiere predecir de acuerdo con una campaña 
la respuesta de los clientes, también se quiere determinar cual es el factor que 
más pesa en la compra de artículos(precio,lugar de fabricación,marca) y 
clasificarlos en 3 clases(a,b,c). La representación de esto tiene muchas formas, 
aquí una de ellas. 
 
La clasificación posterior distingue cada clase de otras y identifica el precio como 
el factor más importante en la decisión de las compras. 
 
d. Análisis de cluster 
A diferencia del análisis de clasificación y predicción, que analiza clases ya 
etiquetadas de información, el clustering analiza datos sin consultar su etiqueta o 
con un etiqueta desconocida.El clustering genera 
estas etiquetas. 
 
Los objetos son agrupados basados en el principio de 
maximizar las características y similitud entre sí, pero 
que sean muy disímiles de otros objetos de otros 
clusters, cada cluster formado puede ser visto como 
un una clase de objeto de donde se pueden derivar 
reglas.Por ejemplo, podemos utilizar el análisis de 
cluster en una tienda de electrónica para identificar 
subpoblaciones homogéneas de compradores. Estos pueden representar grupos 
objetos para hacer marketing. 
 
 
e. Análisis de Outlier(valores atípicos) 
Una base de datos puede contener objetos que no cumplan con el 
comportamiento general o modelo de datos.Estos objetos son valores atípicos. 
La mayoría de de métodos de minería de datos descartan estos como ruido o 
excepciones.SIn embargo en algunas aplicaciones como detección de fraude, 
los eventos raros pueden ser más interesantes que los que pasan habitualmente. 
Por ejemplo, un análisis de outlier puede detectar uso fraudulento de tarjetas de 
crédito, registrando compras de muy alto valor en un periodo de tiempo corto a 
comparacion de las que generalmente se le cargan a la tarjeta de crédito. 
 
f. Análisis de Evolución 
Describe y modela las tendencias para objetos cuyo comportamiento cambia 
con el tiempo.Estos análisis pueden incluir todos los patrones anteriores, tienen 
un agregado particular de análisis de datos en el tiempo, emparejamiento de 
periodos y frecuencias y análisis de similaridad.Por ejemplo: 
Supongamos que tenemos una base de datos de bolsas de valores de los 
últimos años y queremos invertir en empresas de alta tecnología. Un análisis de 
minería de datos podría identificar la evolución regular de algunos mercados y de 
valores de empresas particulares. 
 
4. ¿Cuales son las cuestiones importantes en cuanto a la metodología de la minería de 
datos e interacción con el usuario? Haga una explicación resumida de cada cuestión. 
 
a. Minar diferentes tipos de datos en bases de datos 
 
Porque diferentes usuarios pueden estar interesados en diferentes tipos de 
bases de datos, la minería de datos debería cubrir un ancho espectro del análisis 
de datos y tareas del descubrimiento del conocimiento. Todas las técnicas de 
patrones usan la misma base de datos  en formas diferentes y requieren el 
desarrollo de diferentes herramientas de minado de datos. 
 
b. Minado interactivo en múltiples niveles de abstracción 
 
Porque es difícil saber de primera conocimiento puede estar escondido en una 
base de datos el proceso de minado de datos debe ser interactivo.Para bases de 
datos que contienen inmensas cantidades de datos, técnicas de muestreo 
sencillas pueden ser aplicadas primero para facilitar la exploración interactiva de 
datos. El minado interactivo le permite a los usuarios enfocarse en la búsqueda 
de patrones, proporcionando y refinando las peticiones de minado de datos 
basado en los resultados que retorna. 
 
c. Incorporación de conocimiento de fondo 
 
Información de fondo o datos que conciernen al tema que se quiere estudiar 
pueden ser usados para guiar el proceso de descubrimiento y permitir que el 
conocimiento estudiado sea expresado en términos precisos y diferentes niveles 
de abstracción. 
 
d. Lenguajes de consulta de minado de datos y minado de datos con propósito 
 
Los lenguajes relacionales de bases de datos como SQL permiten a los usuarios 
formular preguntas con propósito para la recuperación de datos, en un camino 
similar, lenguajes de minería de datos de alto nivel deben ser desarrollados  para 
permitir a los usuarios usar consultas ad hoc facilitando la especificación de los 
conjuntos relevantes de reglas y datos para el análisis, el dominio del 
conocimiento y los tipos de conocimientos a minar. 
 
e. Presentación y visualización de los resultados del minado de datos 
 
El conocimiento descubierto deberia ser expresado en lenguajes de alto nivel, 
representaciones visuales o otras formas de expresión para que el conocimiento 
pueda ser fácilmente entendido y directamente usable por humanos. Esto es 
especialmente crucial si la minería de datos apunta a ser interactiva. Esto 
requiere que los sistemas adapten formas expresivas de representación como 
tablas, árboles y gráficas.  
 
 
f. Manejar información ruidosa o incompleta 
 
Los datos almacenados en una base de datos pueden contener ruido, datos 
incompletos o excepciones. Cuando se mina por regularidades esto puede 
confundir el proceso causando que se sobreajuste el modelo resultante. Como 
resultado la precisión del modelo puede ser pobre. Métodos de limpieza  y 
métodos de análisis de datos que puedan manejar el ruido son necesarios. 
 
g. Evaluación de patrones­ el problema de cuán interesante. 
 
Un sistema de minería puede revelar miles de patrones, pero muchos de estos 
pueden ser de poco interés para el usuario, ya sea porque representan 
conocimiento común o falta de novedad. Muchos retos quedan respecto a el 
desarrollo de técnicas que asesoren y juzguen qué patrones son más 
interesantes entre los descubiertos, particularmente a valores subjetivos que 
estimen el valor de los patrones con respecto a su clase dada basado en 
creencias de el usuario o expectativa.