Professional Documents
Culture Documents
Ph.D. (c) MSc. Carlos Alberto Cobos Lozada ccobos@unicauca.edu.co http://www.unicauca.edu.co/~ccobos Grupo de I+D en Tecnologas de la Informacin (GTI) Departamento de Sistemas Facultad de Ingeniera Electrnica y Telecomunicaciones Universidad del Cauca
Definicin
Gartner Group (www.gartner.com): es el proceso de descubrir nuevas y significantes correlaciones, patrones y tendencias en grandes cantidades de datos almacenados en repositorios usando tecnologas de reconocimiento de patrones as como tcnicas estadsticas y matemticas MIT Technology Review (enero 2001) la selecciona como una de las 10 tecnologas emergentes que cambiarn al mundo, ejemplo: Boston Celtis (basketball) en Septiembre-Diciembre de 2003 busca experto en DM Witten & Frank (2000): es la extraccin de informacin implcita, previamente desconocida y potencialmente til desde los datos Fayyad (1997): es la aplicacin de algoritmos para extraer patrones de los datos, siendo esto una parte del descubrimiento de conocimiento
Definicin
Datos: smbolos Informacin: datos que son procesados para que sean tiles; proveen respuestas a preguntas del tipo quin, qu, dnde y cundo Conocimiento: aplicacin de datos e informacin a preguntas del tipo cmo o por qu Sabidura: la comprensin de los principios
Conexin Sabidura Entender los principios
Conocimiento
Informacin
http://www.systems-thinking.org/dikw/dikw.htm
Justificacin
John Naisbitt: estamos ahogndonos en informacin pero hambrientos de conocimiento
Explosin en recoleccin de datos: ventas en supermercados Las bodegas de datos como almacenamiento global y confiable El incremento en el acceso a los datos desde la web El incremento en la competencia en una economa global El desarrollo de herramientas comerciales y acadmicas de minera de datos: Clementine, Insightful Miner, WEKA, CART, PolyAnalyst, SAS El gran crecimiento en la capacidad de computo y almacenamiento
Justificacin
Confluyen varias disciplinas
Proceso de desarrollo
CRISP-DM (Cross Industry Standard Process for Data Mining)
Despliegue
Datos
Evaluacin
Modelamiento
SEMMA (Sample, Explore, Modify, Model, Assess): ms orientado a las caractersticas tcnicas del desarrollo del proyecto, propietario
Existen herramientas de minera de datos que podemos soltar sobre nuestros datos y nos resolvern nuestras problemas El proceso de minera de datos es autnomo requiriendo muy poca intervencin humana La inversin en procesos de minera de datos se paga por si misma y rpidamente
2.
3.
Las herramientas o paquetes de minera de datos son intuitivos y fciles de usar La minera de datos identifica las causas de nuestros problemas de negocios o de investigacin Con minera de datos se limpiaran y ordenaran automticamente nuestras bases de datos
5.
6.
Tcnicas estadsticas (ejemplo, regresin lineal simple, correlacin, regresin mltiple), redes neuronales
Determinar la proporcin de casos en donde una nueva droga genera efectos secundarios peligrosos
Aplicaciones
Mejorar la eficiencia del marketing
Identificar prospectos Escoger el canal de comunicacin para alcanzar los prospectos Crear mensajes apropiados para grupos de prospectos
Ejemplo: un mensaje en la pgina de deportes del peridico, otro distinto en la pgina de poltica Ejemplo: un mensaje destacando el precio para usuarios sensibles al precio y otro destacando la conveniencia del producto (compras y/o pedidos nocturnos, dominicales y festivos)
Aplicaciones
Retener clientes rentables Evitar clientes de alto riesgo (hipotecas, crditos) Prevenir fraudes Recuperar clientes Mejorar la satisfaccin de los clientes Disminuir costos Incrementar ventas Mejorar la rentabilidad de sus clientes
Aplicaciones
venta cruzada (cross-selling) e incremento de venta (up-selling o venta sugestiva/mejorada) Retener talento humano Definir lneas de capacitacin y retencin de talento humano Gestin de la cadena de suministro
Aplicaciones
Industrias donde aplica:
Banca Seguros Telecomunicaciones Venta al por menor (e-commerce) Venta al por mayor Turismo Educacin Salud
Proveedores
Gente
Deptos. Administrativos
Auditoria
Otros
Clientes
Aplicaciones
En industrias manufactureras (vehculos), encontrar cuales situaciones generan la mayor cantidad de reclamos/garantas En educacin, encontrar relaciones entre tipos de estudios y origen de los estudiantes en una universidad Predecir condiciones financieras especificas que llevan una empresa a la banca rota Organizar una campaa de turismo interno para el departamento
Aplicaciones
Clasificacin de datos estelares Diagnostico medico
Tnel carpiano Medicinas en tratamientos
Bio-Informtica
Aplicaciones en GTI
Bsqueda en Internet
BIM (2008): Ontologas, Resultado de los motores de bsqueda (Google, Yahoo, MSN), Perfil del usuario, Minera de textos
Aplicaciones en GTI
DSS para el repositorio de acceso pblico de objetos de aprendizaje (SPAR, 2009)
Bodegas, OLAP y Minera Web (de contenidos)
Aplicaciones en GTI
Bsqueda en Internet
Clustering en general (Harmony Search, k-means) (2009) Web Document Clustering
Global-Best Harmony Search y Fp-growth (2010) Algoritmos memticos con tcnicas de niching (2010)
Referencias
1. 2.
3. 4. 5.
6.
Discovering knowledge in Data: An Introduction to Data Mining. Daniel T. Larose. John Wiley & Sons, Inc. 2005. ISBN 0-471-66657-2 Larose, Daniel T. Data Mining Methods and Models. Daniel T. Larose. ISBN: 0-471-75647-4. E-Book. 385 pages. February 2006, Wiley-IEEE Press. Data Mining with SQL Server 2005. ZhaoHui Tang, Jamie Maclennan. Wiley Publishing, Indiana, 2005. Kantardzic, Mehmed. Data Mining: Concepts, Models, Methods, and Algorithms, John Wiley & Sons 2003 (343 pages). ISBN: 0471228524. Anlisis y Extraccin de Conocimiento en Sistemas de Informacin: Datawarehouse y Datamining. Departamento de Sistemas Informticos y Computacin. Universidad Politcnica de Valencia. http://www.dsic.upv.es/~jorallo/cursoDWDM. Wang, John (Editor). Data Mining: Opportunities and Challenges. Hershey, PA, USA: Idea Group Inc., 2003.