You are on page 1of 56

Inteligencia Artificial, Aprendizaje y Minería de Datos. Pág.

1
Junio 1998
Antonio J. Gómez Flechoso

INTELIGENCIA ARTIFICIAL,
APRENDIZAJE
Y

MINERÍA DE DATOS

Antonio José Gómez Flechoso
(http://www.gsi.dit.upm.es/~anto)

Madrid, Junio 1998

Inteligencia Artificial, Aprendizaje y Minería de Datos. Pág. 2
Junio 1998
Antonio J. Gómez Flechoso

ÍNDICE
Inteligencia Artificial: definición, evolución histórica (resolución problemas,
SBC, aprendizaje, ...)
Aprendizaje: definición, interés, tipos, métodos, ...
• Redes neuronales
• Algoritmos genéticos
• Aprendizaje simbólico: árboles de decisión, inducción de reglas

Descubrimiento en bases de datos (KDD) y minería de datos
• FZFOIL
• Ejemplo de aplicación

Resumen y conclusiones

Inteligencia Artificial, Aprendizaje y Minería de Datos. Pág. 3
Junio 1998
Antonio J. Gómez Flechoso

INTELIGENCIA ARTIFICIAL
Definición
¿Qué es IA?
♦ IA / aplicaciones:
Manera de hacer que las máquinas ejecuten tareas inteligentes

♦ IA / ciencia (investigación psicológica):
Estudio de la naturaleza de la inteligencia mediante el uso de modelos computacionales

♦ IA / negocio !!!
¿Qué es inteligencia?
calculadoras mecánicas → lenguajes simbólicos → sistemas expertos → aprendizaje
automático → ?

Inteligencia Artificial, Aprendizaje y Minería de Datos. Pág. 4
Junio 1998
Antonio J. Gómez Flechoso

INTELIGENCIA ARTIFICIAL
Perspectiva histórica
V a.C (griegos): sueño de mecanizar procesos del pensamiento
1950: ¿pueden pensar las máquinas? → Test de Turing
(1951: UNIVAC I, primer ordenador comercial, 159000 $)

1956: conferencia de Dartmouth, “nacimiento” de la IA
años 60:
• sistemas simbólicos en dominios de conocimiento concretos
• Solucionador General de Problemas (GPS) de Newell, Shaw y Simon (1959)
descripción dominio
problema concreto

GPS

solución

final años 70:
• importancia del conocimiento frente a mecanismos generales de inferencia
• Sistemas Basados en Conocimiento (SBC) y Sistemas Expertos (SE)
problema concreto

SE, SBC
(conocimiento
dominio)

solución
+
explicación
+
justificación

años 80 - actualidad:
• renacimiento de computación neuronal
• consolidación de técnicas anteriores
• importancia creciente de aprendizaje simbólico y conexionista
ingenieros conocimiento
HERRAMIENTAS
expertos

Aplicación:
- prototipo
- sistema
- sistema integrado

Gómez Flechoso INTELIGENCIA ARTIFICIAL Resolución de problemas Problema = = Espacio del problema (estados y operadores cambio estado) + Estado inicial (EI) + Estados finales (EF) Resolución de problemas = búsqueda soluciones • búsqueda en espacio del problema • búsqueda de conocimiento . Pág. 6 Junio 1998 Antonio J.Inteligencia Artificial. Aprendizaje y Minería de Datos.

7 Junio 1998 Antonio J.Inteligencia Artificial. Gómez Flechoso Resolución de problemas Mucho conocimiento del dominio Poco conocimiento del dominio Espacio problema Espacio problema EI EI EF EF búsqueda ciega búsqueda heurística . Pág. Aprendizaje y Minería de Datos.

eventualmente. Pág. Gómez Flechoso INTELIGENCIA ARTIFICIAL Búsqueda heurística HEURÍSTICO: ♦ Diccionario: Que sirve para inventar ♦ En IA: • Como adjetivo: por contraste a “algorítmico” en determinados teoremas Enfoque algorítmico: ir sacando todo lo posible hasta. Aprendizaje y Minería de Datos. Enfoque heurístico: “imaginar” una posible solución y tratar de demostrarla. • Como sustantivo: “truco” o regla empírica que ayuda a encontrar la solución de un problema. . 8 Junio 1998 Antonio J. obtener una solución (búsqueda exhaustiva o “a ciegas”).Inteligencia Artificial.

♦ Búsqueda con adversarios (búsqueda MINIMAX). algoritmo A*).Inteligencia Artificial. Pág. (“16-puzzle”: 16!) Tipos de búsqueda heurística: ♦ Exploración de alternativas (método del gradiente. primero el mejor. ♦ Análisis de medios-fines (definido en el GPS). 9 Junio 1998 Antonio J. Gómez Flechoso La búsqueda heurística permite abordar problemas NP-completos: • Ajedrez: árbol de búsqueda = 10120 nodos máquina a 3 nodos/ns ⇒ 1021 años para generar todo el árbol • Damas: 1040 nodos • Viajante de comercio: n! posibilidades (para n ciudades) • 8-puzzle: 9! = 362880. Aprendizaje y Minería de Datos. .

Pág. 10 Junio 1998 Antonio J. Aprendizaje y Minería de Datos. ejemplo (8-puzzle): fev1 = nº piezas situadas correctamente fev2 = distancia de Manhattan 2 3 1 8 4 7 6 5 1 7 2 3 1 8 4 8 6 5 7 2 3 4 6 5 fev1(Ei) = 6 fev1 = 7 fev1(Ef) = 8 fev2(Ei) = 2 fev2 = 1 fev2(Ef) = 0 . Gómez Flechoso Búsqueda heurística: exploración de alternativas (funcíón evaluación) f(estadoj) = nj f suele ser una medida de la distancia al objetivo.Inteligencia Artificial.

Aprendizaje y Minería de Datos.Inteligencia Artificial. g = 0 ⇒ búsqueda “primero-el-mejor”) . pero no considera camino recorrido) ♦ Algoritmo A*: consideración camino recorrido + primero-el-mejor f(n) = g(n) + h(n) g(n) = coste real del camino hasta nodo n h(n) = coste estimado del camino óptimo desde n hasta meta (h = 0 ⇒ búsqueda en extensión. Pág. etc) ♦ Búsqueda primero-el-mejor: gradiente + backtracking (permite superar mínimos locales. Gómez Flechoso Búsqueda heurística: exploración de alternativas (estrategias de búsqueda) ♦ Método del gradiente: maximizar/minimizar fev desde estado inicial (aplicable en 8-puzzle. 11 Junio 1998 Antonio J. búsqueda de mínimos locales. finales de ajedrez.

elegir rama en que todas las jugadas de MIN dan la victoria a MAX A = MAX B = MIN f(n) -1 +1 +1 0 +1 -1 . perder (-1) o empatar (0). Pág. ♦ Estrategia MINIMAX: • cada vez que juega MAX. Aprendizaje y Minería de Datos.Inteligencia Artificial. Gómez Flechoso Búsqueda heurística: búsqueda con adversarios ♦ Representación mediante árboles Y-O: • enlaces O: movimientos realizables en un momento • enlaces Y: movimientos del adversario • nodos hojas: ganar (+1). 12 Junio 1998 Antonio J.

• Distingue los medios u operadores y los fines o meta. Aprendizaje y Minería de Datos.b) operador no aplicable ⇒ submeta = “alcanzar estado para aplicar operador” .a) operador aplicable ⇒ aplicarlo e iterar en 3 (mientras haya diferencias) 3. Gómez Flechoso Búsqueda heurística: análisis de medios-fines • Estrategia más general.consultar tabla con operadores para reducir cada diferencia: 3. 13 Junio 1998 Antonio J. Pág. • Proceso: 1 .analizar continuamente diferencias entre estado inicial y meta 2 .ordenar diferencias de mayor a menor importancia 3 .Inteligencia Artificial. Definida inicialmente en el contexto del GPS (1957). basada en psicología cognitiva.

Aprendizaje y Minería de Datos. Ejemplos: • MYCIN (1974): diagnóstico y tratamiento de algunas enfermedades infecciosas • PROSPECTOR (1978): descubrimiento de yacimientos de minerales • XCON (1980): configuración de sistemas informáticos VAX y PDP. 14 Junio 1998 Antonio J. Gómez Flechoso INTELIGENCIA ARTIFICIAL Sistemas Basados en Conocimiento (SBC) Años 70: Surge paradigma de sistema experto (sistemas que emulen a expertos humanos. Pág.Inteligencia Artificial. en actividades muy concretas y restringidas) y paradigma del conocimiento (lo que caracteriza a un experto es su conocimiento del problema. . no su capacidad general de resolver problemas).

Gómez Flechoso Sistemas expertos Definición: “Un sistema experto es un programa inteligente. puede ser considerado como un modelo de la experiencia de los mejores operadores en dicho campo”. añadido a los procedimientos de inferencia utilizados. que usa procedimientos de conocimiento e inferencia para solucionar problemas que son suficientemente difíciles como para requerir experiencia humana en su solución. El conocimiento necesario para operar en tal nivel.Inteligencia Artificial. Aprendizaje y Minería de Datos. 15 Junio 1998 Antonio J. Pág. Módulo de aprendizaje Ingeniero de Conocimiento Base de Conocimiento Motor de Inferencia Base de Hechos Subsistema de explicación Interfaz datos externos Experto Interfaz usuario final Usuario .

la puerta de entrada del organismo es tracto gastrointestinal ENTONCES: hay bastante evidencia (0.7) de que la identidad del organismo sea Bacteriodes . la infección es bacteremia primaria y 2. 16 Junio 1998 Antonio J. Gómez Flechoso MYCIN (ejemplo de S. Pág. Aprendizaje y Minería de Datos.) Ejemplo de reglas: SI: 1.Inteligencia Artificial.E. la toma de material de cultivo es una toma estéril y 3.

. 17 Junio 1998 Antonio J. Aprendizaje y Minería de Datos.... Pág.Inteligencia Artificial. • M: ¿Qué organismo es el causante de la infección? • U: No sé • M: ¿Crece el organismo en medio aerobio? • U: Sí • M: ¿Cuál se supone que ha sido la puerta de entrada? • .. Gómez Flechoso MYCIN (ejemplo de S.) Fragmento de consulta: • M: ¿Nombre del paciente? • U: Pedro Alonso • M: ¿Edad? • .E.

regla 501 (0. si 5.75).98). La edad del paciente es superior a 10 días Por tanto. 18 Junio 1998 Antonio J.) Fragmento de diálogo: • M: ¿La meningitis se ha contraído en un hospital? • U: ¿Por qué? • M: Ello me ayudaría a determinar los organismos.3) • U: ¿Cómo 2? • M: Por las reglas: regla 500 (0.Inteligencia Artificial. ya que he concluido que: 1. En la historia del paciente no hubo neurocirugía 4. El paciente contrajo la infección en un hospital. regla 504 (0.97).51).Coli(0. regla 526(0. Pág. el tipo de infección es bacteriana 3. Gómez Flechoso MYCIN (ejemplo de S. entonces (regla 545) los organismos causantes podrían ser: E. . Estafilococo coagulante (0. la infección es meningitis 2. Aprendizaje y Minería de Datos.59).E.3) o Pseudomonas aeruginosa (0.

E.Inteligencia Artificial. Diálogo con experto humano: • Se precisa ingeniero de conocimiento • Proceso lento y laborioso • Dificultad de los expertos para explicar sus mecanismos inductivos/deductivos/abductivos Inducción automática: • El experto interactúa con procedimientos de inducción • El experto refina reglas y su propio conocimiento • Facilidad de los expertos para enseñar a través de ejemplos . 19 Junio 1998 Antonio J. Aprendizaje y Minería de Datos. Pág. Gómez Flechoso Adquisición de conocimiento en S.

Gómez Flechoso INTELIGENCIA ARTIFICIAL: APRENDIZAJE Perspectiva histórica Años 50: interés por aprendizaje de las máquinas (codificaciones numéricas y ajustes de parámetros) relacionado con reconocimiento de patrones. Aprendizaje y Minería de Datos. etc.E. Los S. permiten probar métodos existentes y provocan nuevas necesidades (“cuello de botella” de Feigenbaum y ampliación del alcance de los S. Pág.E. aprendizaje por descubrimiento. Años 60: aprendizaje de conceptos y adquisición de lenguajes Final años 70: formación de clasificaciones. razonamiento basado en casos. 20 Junio 1998 Antonio J. .Inteligencia Artificial.) Últimos años: inducción automática de conocimiento en Bases de Datos (minería de datos).

Inteligencia Artificial. Gómez Flechoso APRENDIZAJE Definición Definiciones conductistas Aprendizaje: capacidad de experimentar cambios adaptativos para mejorar rendimiento Sistema aprendiz rendimiento Crítico o maestro t Definiciones cognoscitivas o simbólicas Aprendizaje: construcción/modificación de conceptos o de representación conocimiento Sistema aprendiz Crítico o maestro Base Conocimiento Órganos ejecución . Pág. 21 Junio 1998 Antonio J. Aprendizaje y Minería de Datos.

Inteligencia Artificial. reconocimiento lenguaje natural.. Aprendizaje y Minería de Datos. . Dificultad del aprendizaje en ordenadores: • Falta de paradigmas constructivos (al menos para enfoques simbólicos) . Pág. Gómez Flechoso Interés del aprendizaje en ordenadores Científico: • no hay inteligencia sin aprendizaje • teorías del aprendizaje natural Ingenieril: • adquisición de conocimiento para SBC • inducción de conocimiento en grandes BD (data mining) • visión artificial. 22 Junio 1998 Antonio J.. enseñanza inteligente asistida por ordenador.

Gómez Flechoso Métodos de aprendizaje [Michalski.. Aprendizaje y Minería de Datos..Analogía 5.Implantación directa (“rote learning”): .Instrucción 3..Deducción 4. 23 Junio 1998 Antonio J..memorización 2.por observación y descubrimiento .programación .Inteligencia Artificial. 87] 1.Inducción: ..con ejemplos . Pág.

Pág.Inteligencia Artificial. Aprendizaje y Minería de Datos. 24 Junio 1998 Antonio J. Gómez Flechoso Sistemas con aprendizaje inductivo Sistemas conexionistas: redes neuronales Sistemas evolucionistas: algoritmos genéticos Sistemas simbólicos: aprendizaje de conceptos .

. 25 Junio 1998 Antonio J. se refuerza la conexión entre ellas . Gómez Flechoso Sistemas Conexionistas: Redes Neuronales Neurona formal (McCulloch y Pitts.. 49) • el cerebro aprende modificando las conexiones entre neuronas • las neuronas están conectadas por sinapsis que se pueden adaptar/modificar • cuando una neurona funciona bien se refuerza • cuando dos neuronas se activan a la vez. Aprendizaje y Minería de Datos.Inteligencia Artificial. i=1 s= 0 si Σai wi < θ 1 si Σai wi ≥ θ Wn Aprendizaje por “correlación” (Hebb. 43) a1 W1 n a2 an W2 ∑ . Pág.

Pág.. 26 Junio 1998 Antonio J. . perceptrón) sólo pueden aprender conceptos con separabilidad lineal (función OR. Gómez Flechoso Redes neuronales Algoritmo de aprendizaje para el perceptrón (Rossenblatt. Aprendizaje y Minería de Datos.Inteligencia Artificial. 69): • redes monocapa (ej.. pero NO SE SABE CÓMO ENTRENAR REDES MULTICAPA . • pero no puede aprender el XOR por ejemplo. 60) Condiciones de convergencia del perceptrón (Minsky y Papert. 58): entrenamiento incremental-proporcional Algoritmo de descenso de gradiente (LMS) y estructura ADALINE (Widrow y Hoff.). AND. • se puede añadir una segunda capa (capa AND) y una tercera (capa OR) para conseguirlo.

Inteligencia Artificial. 27 Junio 1998 Antonio J. Pág. Aprendizaje y Minería de Datos. Gómez Flechoso Redes neuronales: separabilidad ESTRUCTURA TIPO REGIÓN DE DECISIÓN PROBLEMA OR EXCLUSIVO REGIONES GENERALES PROBLEMA GENERAL monocapa Partición de espacio por hiperplano A B B B A A dos capas A B Regiones convexas (abiertas o cerradas) B B A A tres capas A B Arbitraria B B A A .

Gómez Flechoso Redes Neuronales: red de Hopfield (1982) O1 O2 O3 Feed back (flujo realimentado) w11 w21 w31 w12 w22 w32 x1 w13 w23 w33 x2 capacidad = 0..se mete una entrada (x1 x2 . On) Aplicaciones: memorias asociativas..se programan los pesos wij (no se entrena) . xn) y se deja que la red evolucione . memorias direccionables por contenido Ejemplo: reconocimiento de personas a partir de fotos distorsionadas ..15 * N x3 Funcionamiento: .Inteligencia Artificial..la red converge hacia un invariante (O1 O2 . 28 Junio 1998 Antonio J. Pág. Aprendizaje y Minería de Datos.

. en) y salidas deseadas (d1 d2 .. Gómez Flechoso Redes Neuronales: redes multicapa (PMC) ¡Universalidad! entradas capa entrada salidas capa oculta capa salida flujo de información (feed forward) Retropropagación (Backpropagation): basade en descenso de gradiente 1. Aprendizaje y Minería de Datos. sm) 4.. Adaptar pesos y umbrales y volver a paso 2 wij(t+1) = wij(t) + η δj x’i . Calcular salida (s1 s2 . Pág. Inicializar pesos y umbrales (valores aleatorios) 2.. 29 Junio 1998 Antonio J..Inteligencia Artificial. Presentar entradas (e1 e2 . dm) 3..

Aprendizaje y Minería de Datos.Inteligencia Artificial.1 (en vez de 0) nº capas: 3 (con tres se tiene universalidad) nº nodos en capa oculta: ensayo y error (datos entrenamiento. reescalado) codificación datos salida: que valores de salida no alcancen límites de función no lineal: -0. Pág.9 (en vez de 1).9 (en vez de -1). 30 Junio 1998 Antonio J. validación y test) si demasiadas neuronas ⇒ memorización si nº adecuado: ⇒ generalización correcta si pocas neuronas: ⇒ no converge mínimos locales: pueden evitarse con conjuntos aleatorios de pesos iniciales . 0. 0. Gómez Flechoso Redes Neuronales: aspectos prácticos preprocesado (ej.

mutaciones. herencia. Aprendizaje y Minería de Datos. ♦ Evolución = búsqueda en paralelo de individuos bien adaptados • Operadores genéticos (selección. reglas de producción . etc. entrecruzamiento y mutación) • Criterios para variar la fuerza de cada individuo Aplicaciones: • Optimización: maximización/minimización de funciones • Aprendizaje inductivo: clasificadores. Pág. ♦ Cada individuo tendrá un valor (fuerza). Gómez Flechoso Sistemas Evolucionistas: Algoritmos Genéticos Se basan en ideas sobre la evolución de las especies (selección natural. 31 Junio 1998 Antonio J.) aplicadas sobre una población artificial de individuos. para conseguir su adaptación al entorno.Inteligencia Artificial. para medir su adaptación al entorno. ♦ Tipo de individuos de la población depende del problema.

32 Junio 1998 Antonio J. A∧C∧M→D . Pág.. Aprendizaje y Minería de Datos.Inteligencia Artificial.. Gómez Flechoso Algoritmos genéticos Operadores: • Entrecruzamiento: A∧B∧C→D A∧B∧Y→Z X∧Y→Z X∧C→D • Inversión: A∧B∧C→D A∧C∧B→D • Mutación: A∧B∧C→D • .

descubrimiento cuantitativo (BACON.agrupamiento conceptual (CLUSTER) .Inteligencia Artificial.búsqueda de descripciones (AQ11.árboles de decisión (ID3) . borrosa. Aprendizaje y Minería de Datos. Pág. 33 Junio 1998 Antonio J.) Aprendizaje = aprendizaje de conceptos Concepto = clase de entidades con algún principio común (y con descripción simple) ♦ Adquisición de conceptos: . FOIL) ♦ Formación de conceptos (inducción a partir de la observación) . lógica (de proposiciones.. . ejemplos. INDUCE.descubrimiento cualitativo (AM. RX) . de primer orden.. EURISKO) . Gómez Flechoso Sistemas Simbólicos: aprendizaje de conceptos Representación del conocimiento fácil de entender: representaciones estructuradas.

. Gómez Flechoso Árboles de decisión: ID3 (Quinlan. 34 Junio 1998 Antonio J.Inteligencia Artificial. Aprendizaje y Minería de Datos. v(a2) .. cj} • generar árbol de decisión mínimo en el que los nodos son atributos y los arcos valores de atributos Ejemplo: ALTURA bajo alto alto bajo alto alto alto bajo PELO OJOS rubio verdes rubio oscuros castaño verde negro verde negro verde rubio verde negro oscuro rubio oscuro CLASE + + + - PELO negro − rubio castaño + OJOS verdes + oscuros − . 79) Problema: • dado E = {ei} con ei = {v(a1). Pág.

= 5 H = . 35 Junio 1998 Antonio J. Aprendizaje y Minería de Datos.5 1 Ejemplo: n+ = 3 n.954 bits .(p1 log2 p1 + p2 log2 p2) clase C2 con n2 ejemplos siendo: p1 = n1 / (n1 + n2 ) p2 = n2 / (n1 + n2 ) Entropía 1 p1 = n1 / (n1 + n2 ) 0 0. Pág.Inteligencia Artificial.( 3/8 log2 (3/8) + 5/8 log2 (5/8) ) = 0. Gómez Flechoso ID3: definición de entropía Entropía (H) = información necesaria para describir un conjunto Por ejemplo: clase C1 con n1 ejemplos Entropía = .

971 H = 0. Aprendizaje y Minería de Datos.971 .954 H = 0. Gómez Flechoso ID3: Ejemplo H = 0.918 G = 0.918 = 0.Inteligencia Artificial.5 bits OJOS verdes oscuros ..003 bits castaño rubio n+ = 2 n.= 2 n+ = 0 n. G = 0.= 3 H=0 H = 0..3/8 · 0.= 2 n+ = 1 n. Pág.954 .954 .5/8 · 0. 36 Junio 1998 Antonio J.4/8 ·1 = 0.347 bits Mejor atributo: PELO .954 PELO ALTURA alto negro bajo n+ = 2 n.= 0 H=0 H=1 G = 0.= 3 n+ = 1 n.

37 Junio 1998 Antonio J.. ... L2.. ..Inteligencia Artificial.. Aprendizaje y Minería de Datos...∧Ln)) .L1.L1... Vk) :... 90]) ♦ Búsqueda por especialización en grafos refinados ♦ Aplicable sobre BD relacionales ♦ Definición lógica de relación objetivo.∧Ln)} ♦ Consistencia: C consistente ⇔ (∀t ∈ T−) (¬ |=t(L1∧. t(Vn)> ∈ Q ♦ Conjunto cubierto por C = [L0 :. Ln Algunas definiciones preliminares ♦ Satisfacción de L = q(V1... Ln]: Tc(C) = {t | |=t(L1∧.∧Ln)) ♦ Completitud: C completa ⇔ (∀t ∈ T+) (|=t(L1∧... . Vn): |=t (L) ⇔ <t(V1)... . Gómez Flechoso Definiciones lógicas: FOIL FOIL: First Order Inductive Learner ([Quinlan.. formada por cláusulas de Horn p(V1. . Pág.

(0. .Y) = {(0..Y) :.3). . Gómez Flechoso FOIL: Ejemplo Ejemplo de los grafos orientados: 0 7 1 3 2 4 6 5 • A partir de: conectado(X.Y) alcanzable(X.1).. 38 Junio 1998 Antonio J. (1..conectado(X.conectado(X.Inteligencia Artificial.} alcanzable(X.(0.1). Aprendizaje y Minería de Datos.} • FOIL induce: alcanzable(X. alcanzable(Z.Z)..2). Y) = {(0.2).Y) :. Pág.Y) 8 .

Xk) :. Aprendizaje y Minería de Datos.. tales que definan intensionalmente T q(V1. ak> (definición extensional de “p”) Problema: Encontrar una o varias cláusulas de Horn: p(X1. Vr)... Gómez Flechoso FOIL: planteamiento Dados: ♦ Q = {qi(V1. Ln con Li de alguna de las formas: Xj = Vm.. t = <a1.. ..... Xk) ∈ Q (predicado “p” a definir intensionalmente) ♦ T = {T+.. .. ... ¬q(V1. Vr) . 39 Junio 1998 Antonio J. Pág. Vri)} (predicados definidos extensionalmente) ♦ p(X1. T -} = {t}. Xj ≠ Vm...L1..... ..Inteligencia Artificial...

. q1. Di = Di-1 ∨ C.p. Bucle externo: definición completa Bucle interno: cláusula consistente . Gómez Flechoso FOIL: algoritmo Definicion& FOIL (T+.Inteligencia Artificial. D0:= FALSE. return Di. repetir repetir Li = buscaAntecedente(). Pág. C:= p. TC0 = ∅.T-.. /* nueva cláusula */ TCi = TCi-1 ∪ TC(C) hasta completa(Di). hasta consistente(Ci).. p. return Ci.). q2. /*nuevo antec*/ Ti+1 = actualizarT(Ti. Aprendizaje y Minería de Datos. Clausula& construyeC(TR. . Li).T-. Ci =Ci-1 ∨ ¬Li.). Clausula C = construyeC(). 40 Junio 1998 Antonio J..

Info(Ti+1)) siendo: Info(Ti) = −log2(Ni+/(Ni+ + Ni-)) ♦ Para buscar literales: • Li debe tener al menos una variable existente (en la cláusula en construcción) • Restricción de argumentos de Li en definiciones recursivas • Uso de “literales determinados” • Poda alpha-beta para simplificar la búsqueda • Definiciones inconsistentes y/o incompletas (principio de Rissanen: LDI < LDE) .Inteligencia Artificial. Aprendizaje y Minería de Datos. Pág. Gómez Flechoso FOIL: heurísticos FOIL: Heurísticos ♦ Para evaluar literales: Ganancia(Li) = Ni++ ⋅ (Info(Ti) . 41 Junio 1998 Antonio J.

42 Junio 1998 Antonio J. Gómez Flechoso DESCUBRIMIENTO DE CONOCIMIENTO EN BD (KDD) Procesos de KDD Interpretación/ Evaluación Minería de datos Conocimiento Transformación Patrones Preprocesado Datos transformados Selección Datos preprocesados Datos objetivo Base de Datos . Aprendizaje y Minería de Datos.Inteligencia Artificial. Pág.

Gómez Flechoso DESCUBRIMIENTO DE CONOCIMIENTO EN BD (KDD) Factores para análisis automático de datos Incremento de la potencia de los ordenadores: • Potencia de cálculo • Capacidad de almacenamiento de datos Incremento del ritmo de adquisición de datos: • Abaratamiento de discos y sistemas de almacenamiento masivo • Automatización en adquisición de datos (¡información se duplica cada 20 meses!) Nuevos métodos de aprendizaje y representación del conocimiento . 43 Junio 1998 Antonio J. Pág.Inteligencia Artificial. Aprendizaje y Minería de Datos.

Pág. Aprendizaje y Minería de Datos.Inteligencia Artificial. 44 Junio 1998 Antonio J. Gómez Flechoso DESCUBRIMIENTO DE CONOCIMIENTO EN BD (KDD) Limitaciones del aprendizaje sobre BD Datos dinámicos → funcionamiento incremental Datos incompletos → capacidad de manejar datos incompletos Ruido e incertidumbre → robustez ante el ruido → manejo de incertidumbre Tamaño de las BD → eficiencia algorítmica → conocimiento previo .

Pág.Inteligencia Artificial. Gómez Flechoso FZFOIL (FUZZY FOIL) ♦ Mejoras en heurísticos de evaluación • Nuevos heurísticos de evaluación (función Interés) • Proyección de conjuntos de entrenamiento ♦ Introducción de conocimiento de base (relaciones intensionales) ♦ Extensión hacia la lógica borrosa: • Aplicable sobre BD relacionales borrosas • Induce conocimiento con incertidumbre . 45 Junio 1998 Antonio J. Aprendizaje y Minería de Datos.

46 Junio 1998 Antonio J. NB ≡ nº tuplas satisfacen condición A. Gómez Flechoso FZFOIL: EVALUACIÓN DE LITERALES Medida de interés (RI) (Piatetsky-Shapiro.89) Sea A → B una regla lógica Entonces N ≡ tamaño conjunto entrenamiento (nº tuplas) NA. Aprendizaje y Minería de Datos. NB ↓ ⇒ RI ↑ • NA∧B ↑ ⇒ RI ↑ RI 1 = N A ∧ B – ( N A ⋅ N B ) ⁄ N N A ∧ B – (N A ⋅ N B) ⁄ N RI 2 = ---------------------------------------------------------------------------------------------N A ⋅ N B ⋅ (1 – N A ⁄ N ) ⋅ (1 – N B ⁄ N ) . Pág. B NA∧Β ≡ nº tuplas satisfacen condición A∧B Requisitos de RI: • A y B independientes ⇒ RI = 0 • NA.Inteligencia Artificial.

Pág. Gómez Flechoso FZFOIL: EVALUACIÓN DE LITERALES (2) Interés* = Interés + conjuntos proyectados T1[i] = TC(Ci-1) ⊆ T1 Ni+ = Ti+ T1 Ni− = Ti− T1[i] T1[i+1] Ni[i+1]+ = Ti[i+1]+ Ni[i+1]− = Ti[i+1]− Ti+1 Ti Li . Aprendizaje y Minería de Datos.Inteligencia Artificial. 47 Junio 1998 Antonio J.

<c1>. . <d3>..b3>... c2>. jefe_de = <a1. <d2> barbudo = <a3>. <c5>.b1>. . <a2. <a2. <d2>. <c1. Aprendizaje y Minería de Datos. <b1. <d4> padre_de = <a1. <d1>. <c3>.b2>. <d2> c5 d4 . <a1.c1>. <b4>. <c2>.b2>.b2>. fumador = <b3>. <b1.b2>. <c4>. <a2.d1>.. <b1. <b3>. <c4>. Pág.c1>. Gómez Flechoso FZFOIL: ejemplo Relación “jefe_de” Relación “padre_de” a1 a2 a3 a4 a1 a2 a3 a4 b1 b2 b3 b4 b1 b2 b3 b4 c5 c1 d4 d1 c1 d1 c4 c3 c2 d2 d3 c4 c3 c2 d2 d3 Relaciones: enfermo = <b3>. <a3.Inteligencia Artificial. 48 Junio 1998 Antonio J.d1>.b1>. <a4. <c2.b1>. <b4>. <b4>.

jefe_de(B. ¬fumador(B) enfermo(A):.A).Inteligencia Artificial.A).A). padre_de(B.fumador(A) enfermo(A):.padre_de(B. enfermo(B) enfermo(A):. Aprendizaje y Minería de Datos. enfermo(B) (consistente y completa. pero compleja) ♦ Regla inducida modificando FOIL con función Interés*: enfermo(A):. Gómez Flechoso FZFOIL: resultados del ejemplo ♦ Regla inducida por FOIL: enfermo(A):.padre_de(B.A).A). enfermo(B).A) (consistente pero incompleta: no cubre 2 tuplas ⊕) ♦ Regla inducida modificando FOIL con función Interés: enfermo(A):. 49 Junio 1998 Antonio J.fumador(A) (consistente. barbudo(B). completa y sencilla) . enfermo(B).jefe_de(B. Pág. fumador(A) enfermo(A):.padre_de(B.

Pág.75] (isomorfa con conjuntos borrosos) ♦ Necesaria para inferencias imprecisas ♦ Método natural de representar el mundo real Sistemas expertos borrosos.Inteligencia Artificial. 50 Junio 1998 Antonio J. Aprendizaje y Minería de Datos.65] ♦ Lenguaje humano impreciso (incompatibilidad precisión / significación) Lógica borrosa [Zadeh. BD relacionales borrosas. Gómez Flechoso LÓGICA BORROSA Y MUNDO REAL Complejidad del mundo real = volumen + incertidumbre ⇒ Compromiso información / incertidumbre ♦ Conceptos humanos ≈ conjuntos borrosos [Zadeh. etc .

51 Junio 1998 Antonio J.584 bits} [1.c2 c5.c3 b3.A). Aprendizaje y Minería de Datos.88 c1 :0.B):- a3.00]-> [5.d2 a4.9 c2 :0.2 a2 :0.75 d2 :0. Gómez Flechoso FZFOIL: Ejemplo borroso *padre_de (persona.b4 c2. [C2] {3.67] enfermo (A) :MUY_fumador (A).b2 c1.c1 c4.d2 c3.b1 b4. b4 :0.b1 b3.951 bits} TC: [6.7 b4 :0.9 b4 : 0.d1 nieto_de(A.c2 b3 : 0.4 c1 :0.d4 c4.d1 c3.b2 a3. persona) a2.c4 b4.d4 a1.d1 c2.37] a3 :0.c5 c1.d3 c4.persona) enfermo (persona) *jefe_de (persona.c5 *I_nieto_de(persona.d2 c4.b3 b1.95 padre_de (B A).12] *barbudo (persona) [C1] {7.persona) a1. d1 :0.c3 a2.c4 a1.d3 c3.d4 c5.d1 a3.c3 ALGO_enfermo (B). Pág.c4 b3.c4 b4.75 [D1] {8.b3 a4.4 enfermo (A) :- a4 :0.54/1.d3 a4.b2 b4.58/7.d4 padre_de(C.b1 a2.8 c5 :0.00]-> [1.b4 c4.b3 c2.04/5.b2 a2.5 c4 :0.3 .C) d4 : 0.9 d3 :0.72 c3 :0.c1 b2.85 b2.b3 c2.9 c4 :0.b3 a3.95 *fumador (persona) b3 :0.Inteligencia Artificial.d3 b1.c3 b2.8 d4 :0.d2 b1.70/19.62/13. padre_de(B.c2 b3.04]. TR: [0.6 d2 :1 b2.88 d2 :0.953 bits} [6.

Av. con 14 atributos: • Ubicación de PIC (Alonso Martínez. “Domingo” • Origen/destino: “Aquí”. Callao. “Agosto”... “Estación metro” • Modo transporte: “Cualquiera”. “mín. “sólo metro” • Criterio de camino: “Óptimo”. transbordos”. “sólo bus”.. etc) • Mes: “Julio”. . “Calle”. “Cruce”. Atocha Renfe. “mín. “Octubre”. tiempo”. América.RESULTADOS: PROYECTO SEIC (1) SEIC (Servicio de Información Ciudadana) “PASO. . PC-183” Problema “Usos y Demandas”: Análisis inteligente de consultas de usuarios Datos de entrada: 40000 consultas. “Noviembre” • Día del mes: [1 . “Septiembre”... • etc. 31] • Día de semana: “Lunes”.

µ 1 0 Noche 2 4 Mañana 6 8 Tarde Noche 10 12 14 16 18 20 22 24 Hora_día Relaciones intensionales: bus_mintransbordos(X):rest_tte(X. duración_corta. fecha. rest_optim(X. Y=”solo_bus”. • 6 relaciones borrosas: cuando_mañana. Gómez Flechoso RESULTADOS: PROYECTO SEIC (2) Selección y preprocesado: muestreo y 10 atributos ordinarios (2 borrosos) Transformación de los datos: • 8 relaciones ordinarias: destino. rest_optim. duración_media cuando_noche. origen.Z). Z=”min_transbordos” . 53 Junio 1998 Antonio J. rest_tte. Pág. cuando_tarde. etc. Aprendizaje y Minería de Datos. duración_larga.Inteligencia Artificial.Y).

Pág.. 54 Junio 1998 Antonio J..00]→ [346. . ¬ =_const ( C Viernes ).Inteligencia Artificial.00]→ [232.00/1694.062 bits} [694.71] min_tiempo ( A ) :cuando_tarde ( A B C ).00/1232. [C1] {5.28/772. Aprendizaje y Minería de Datos.00] bus_mintransbordos ( A ) :sólo_bus ( A ).00/232. Gómez Flechoso RESULTADOS: PROYECTO SEIC (3) Algunas definiciones borrosas: [C1] {17.392 bits} [232.

Pág. 55 Junio 1998 Antonio J. Gómez Flechoso RESULTADOS: PROYECTO SEIC (4) ♦ A igualdad de longitud de las definiciones.Inteligencia Artificial. Aprendizaje y Minería de Datos. . en ocasiones. en ocasiones. ♦ El coste computacional asociado a la evaluación de relaciones borrosas no tiene por qué ser superior. ♦ Las definiciones borrosas son más fáciles de interpretar desde el punto de vista humano. ♦ Las definiciones borrosas generalizan mejor y. más consistentes que las definiciones ordinarias. las definiciones borrosas son más completas y. también son más precisas.

Aprendizaje y Minería de Datos. presentan nuevos retos para los sistemas de aprendizaje. y el mundo real en general. ♦ La lógica borrosa (y otras teorías sobre incertidumbre) ofrece mecanismos para modelar la complejidad del mundo real . especialmente sistemas simbólicos (programación lógica inductiva). Gómez Flechoso RESUMEN Y CONCLUSIONES ♦ KDD se perfila como la aplicación dominante de la IA en poco tiempo ♦ Dentro de KDD. 56 Junio 1998 Antonio J. ♦ Las bases de datos. Pág.Inteligencia Artificial. la minería de datos es una parte fundamental ♦ La minería de datos se basa en métodos de aprendizaje tradicionales.