You are on page 1of 37

Inteligencia Artificial

Unidad IV Aprendizaje Automático
José David Ortega Pacheco Instituto Politécnico Nacional Escuela Superior de Cómputo Departamento de Ingeniería en Sistemas Computacionales Academia de Ingeniería de Software Tel. 57 29 6000, Ext. 52032 david82d@hotmail.com

Orden de la presentación
4.1 Introducción al aprendizaje automático
4.1.1 Conceptos y fundamentos

4.2 Aprendizaje mediante árboles de decisión
4.2.1 Representación de árboles de decisión 4.2.2 Algoritmos de aprendizaje
4.2.2.1 ID3

4.2.2.2 C4.5

IPN, ESCOM, José David Ortega Pacheco, david82d@hotmail.com

2

Orden de la presentación
4.3 Aprendizaje mediante redes neuronales
4.3.1 Introducción a las redes neuronales 4.3.2 Perceptron, Redes Multicapa, BAM y Hopfield 4.3.3 Algoritmos de entrenamiento 4.3.4 Aplicaciones

4.4 Algoritmos genéticos
4.4.1 Introducción 4.4.2 Elementos, operadores y parámetros 4.4.3 Aplicaciones

IPN, ESCOM, José David Ortega Pacheco, david82d@hotmail.com

3

david82d@hotmail. José David Ortega Pacheco.5.5.Orden de la presentación 4.1 Aprendizaje bayesiano 4.5 Otros tipos de aprendizaje 4.2 Modelos ocultos de Markov IPN.com 4 . ESCOM.

1. ESCOM. medido mediante P.1 Conceptos y fundamentos Se tiene: • Conjunto de experiencia E • Conjunto de tareas T • Medida de desempeño P Si el desempeño en las tareas T. se puede decir que el un algoritmo aprende. José David Ortega Pacheco.1 Introducción al aprendizaje automático 4. mejora a partir del conjunto de experiencia E.com 5 .4. IPN. david82d@hotmail.

david82d@hotmail.4.1.1 Introducción al aprendizaje automático 4. Medida de evaluación y Experiencia.com 6 . IPN.1 Conceptos y fundamentos Algunos problemas en donde se necesita aprendizaje: • • • • Reconocimiento de palabras Manejar un automóvil Jugar ajedrez Clasificación de objetos Para cada problema necesitamos definir los elementos mencionados anteriormente: Tareas. José David Ortega Pacheco. ESCOM.

4.1.com 7 . ESCOM. José David Ortega Pacheco.1 Conceptos y fundamentos Algunos conceptos: • Instancia/patrón: Conjunto de atributos representados comúnmente mediante un vector • Clase/decisión: Conjunto de valores posibles para una tarea IPN.1 Introducción al aprendizaje automático 4. david82d@hotmail.

david82d@hotmail.2 Aprendizaje mediante árboles de decisión 4. IPN. Una instancia o patrón se clasifica recorriendo el árbol desde el nodo raíz.2.com 8 . evaluando el atributo que representa y bajando sobre el mismo dependiendo el valor que se tenga para dicho atributo.4. José David Ortega Pacheco.1 Representación de árboles de decisión En un árbol de decisión cada nodo representa un atributo a ser evaluado en el patrón o instancia a ser clasificada. ESCOM. y cada rama representa el valor de uno de los posibles valores que puede tomar dicho atributo. Lo mismo se repite para el nodo al que se llegue y se toma una decisión cuando se llega a una hoja del árbol.

ESCOM. José David Ortega Pacheco.com 9 . IPN.4. • La tarea de decisión tiene valores discretos (aunque es relativamente fácil extenderlos).2 Aprendizaje mediante árboles de decisión 4.2. • Los datos de entrenamiento pueden contener errores. • Se requiere una representación disjunta.1 Representación de árboles de decisión De manera general. los árboles de decisión son recomendados para problemas con las siguientes características: • Cada patrón o instancia es representado por un conjunto fijo de atributos y sus valores correspondientes. david82d@hotmail. • Los datos de entrenamiento pueden no tener valores en algún/os atributos.

david82d@hotmail.2. Se busca la raíz del árbol (Atributo más relevante) 2.com 10 . Ross Quinlan • Diseño Top-Down: 1. Una vez definida la raíz. IPN. José David Ortega Pacheco.2 Aprendizaje mediante árboles de decisión 4. 3.1 ID3 • Desarrollado en 1986 por J. se buscan los nodos de derivación a partir de cada posible valor del atributo que representa el nodo raíz. dicho procedimiento se repite tomando cada nodo derivado como un subnodo raíz.2.4.2. Todo lo anterior se obtiene mediante el análisis de los datos de entrenamiento. ESCOM.2 Algoritmos de aprendizaje 4.

Ganancia de información: Determina el grado de discriminación que un atributo puede proporcionar para la toma de decisiones. José David Ortega Pacheco. david82d@hotmail. Entropía: Índice de que tan homogéneo o heterogéneo es un conjunto de datos.2.2. IPN.1 ID3 El algoritmo se basa en la utilización de dos conceptos: 1.com 11 . 2. ESCOM.4.2.2 Algoritmos de aprendizaje 4.2 Aprendizaje mediante árboles de decisión 4.

2 Aprendizaje mediante árboles de decisión 4. 𝐶 es el número de decisiones y 𝑙𝑜𝑔2 es el logaritmo con base 2 debido a que la entropía es una medida de la longitud en bits estimada para codificar bits.2. ESCOM.2 Algoritmos de aprendizaje 4. david82d@hotmail.1 ID3 Entropía 𝐶 𝐸 𝑆 = 𝑖=1 −𝑝𝑖 𝑙𝑜𝑔2 𝑝𝑖 donde 𝑆 es el conjunto de datos a analizar. 𝑝𝑖 es la proporción de 𝑆 que pertenece a la clase 𝑖 . IPN.2.2.4.com 12 . José David Ortega Pacheco.

2 Aprendizaje mediante árboles de decisión 4.4. ESCOM.com 13 .2. entonces: 𝐸 𝑆 = −1 𝑙𝑜𝑔2 1 − 0 𝑙𝑜𝑔2 0 = 0 Cabe señalar que se define 0 𝑙𝑜𝑔2 0 = 0 IPN. José David Ortega Pacheco. david82d@hotmail. si se tienen las clases/decisiones Sí y No. y todos los elementos en 𝑆 pertenecen a Sí ( 𝑝𝑠í = 1 y 𝑝𝑁𝑜 = 0 ).2.1 ID3 Entropía El valor de entropía es 0 cuando todos los elementos en 𝑆 pertenecen a la misma clase/decisión.2.2 Algoritmos de aprendizaje 4. Por ejemplo.

2 Aprendizaje mediante árboles de decisión 4. entonces: 𝐸 𝑆 = −0.5 − 0.4.2. si se tienen las clases/decisiones Sí y No. José David Ortega Pacheco.5.5 𝑙𝑜𝑔2 0.com 14 .5 = 1 IPN.1 ID3 Entropía El valor de entropía es 1 cuando en 𝑆 se tiene la misma cantidad de elementos para cada clase/decisión: Por ejemplo.5 y 𝑝𝑁𝑜 = 0.2. ESCOM. y 𝑝𝑠í = 0. david82d@hotmail.2.5 𝑙𝑜𝑔2 0.2 Algoritmos de aprendizaje 4.

david82d@hotmail. el valor de entropía se encuentra en el rango de 0. Si se tienen dos posibles decisiones/clases (Sí/No) sobre un conjunto de 14 datos.1 ID3 Entropía Para casos diferentes a los anteriores. ESCOM.2. José David Ortega Pacheco. 5−] = − 𝑙𝑜𝑔2 − 𝑙𝑜𝑔2 = 0. y 9 son para Sí y 5 para No: 2 𝐸 𝑆[9(𝑆í).2 Algoritmos de aprendizaje 4.2. 5(𝑁𝑜)] = 𝑖=1 −𝑝𝑖 𝑙𝑜𝑔2 𝑝𝑖 9 9 5 5 𝐸 𝑆[9+.940 14 14 14 14 IPN.4.com 15 .2.2 Aprendizaje mediante árboles de decisión 4.1 .

2.0 0. ESCOM.2 Aprendizaje mediante árboles de decisión 4.0 Figura 1. José David Ortega Pacheco.5 𝑝𝑖 1. Gráfica de la entropía para clasificación booleana.2.com 16 .2.5 0.0 𝐸(𝑆) 0.2 Algoritmos de aprendizaje 4.1 ID3 Entropía 1. IPN. david82d@hotmail.4.

𝐸 𝑆 es el valor de la entropía para el conjunto de datos 𝑆 .2.2 Aprendizaje mediante árboles de decisión 4. ESCOM. 𝑆𝑣 es el subconjunto de 𝑆 para el que el atributo A tiene el valor 𝑣.2. david82d@hotmail. 𝐸 𝑆𝑣 es el valor de entropía para el conjunto de datos 𝑆𝑣 . 𝑉(𝐴) es el conjunto de todos los posibles valores para el atributo 𝐴. IPN.2 Algoritmos de aprendizaje 4.4.2. 𝑆𝑣 es la cantidad de elementos en el conjunto 𝑆𝑣 y 𝑆 es la cantidad de elementos en el conjunto 𝑆.1 ID3 Ganancia de información 𝐶 𝐺 𝑆.com 17 . 𝐴 = 𝐸 𝑆 − 𝑣∈𝑉(𝐴) 𝑆𝑣 𝐸(𝑆𝑣 ) 𝑆 donde. José David Ortega Pacheco.

2. el cual puede tener los valores W o K.2. ESCOM.1 ID3 Ganancia de información Supongamos que tenemos un conjunto 𝑆 que tiene 14 datos. IPN.com 18 .2 Aprendizaje mediante árboles de decisión 4. de los cuales 9 datos pertenecen a la decisión/clase de Sí y 5 datos a la decisión/clase No. Se desea obtener la ganancia de entropía para el atributo A. que 3 de los datos de Sí y 3 de los datos de No tienen en el atributo A el valor de K. Si se sabe que 6 de los datos de Sí y 2 de los datos de No tienen en el atributo A el valor de W. José David Ortega Pacheco. david82d@hotmail.4.2.940.2 Algoritmos de aprendizaje 4. y que el valor de 𝐸 𝑆 es de 0.

2(𝑁𝑜)] 𝑉 𝐴 = {𝑊.1 ID3 Ganancia de información 𝑆 = [9 𝑆í . david82d@hotmail. José David Ortega Pacheco.2.com 8 𝐸 𝑆𝑊 − 14 . 𝐾} 𝑆𝑊 = 8 𝐶 = 2 6 𝐸 𝑆𝐾 14 19 𝐺 𝑆.940 − 𝑆 IPN. 5(𝑁𝑜)] 𝑆𝐾 = [3(𝑆í).2. 3(𝑁𝑜)] 𝑐 𝑆 = 14 𝑆𝐾 = 6 𝑆𝑊 = [6(𝑆í).2.2 Aprendizaje mediante árboles de decisión 4.2 Algoritmos de aprendizaje 4.4. 𝐴 = 𝐸 𝑆 − 𝑣∈𝑉 𝐴 𝑆𝑣 𝐸 𝑆𝑣 = 0. ESCOM.

2.811 8 3 = 1. david82d@hotmail. ESCOM. 3(𝑁𝑜)] 6 𝐸 𝑆𝑊 = − 𝑙𝑜𝑔2 8 3 𝐸 𝑆𝐾 = − 𝑙𝑜𝑔2 6 8 14 6 2 − 𝑙𝑜𝑔2 8 8 3 3 − 𝑙𝑜𝑔2 6 6 2 = 0.2 Algoritmos de aprendizaje 4.com 20 .2. 2(𝑁𝑜)] 𝑆𝐾 = [3(𝑆í).048 IPN.4.2 Aprendizaje mediante árboles de decisión 4. José David Ortega Pacheco.2.940 − 6 0.0 = 0.0 6 𝐺 𝑆.811 − 14 1.1 ID3 Ganancia de información 𝑆𝑊 = [6(𝑆í). 𝐴 = 0.

david82d@hotmail.com 21 .5 IPN.2.2. José David Ortega Pacheco.4.2 Algoritmos de aprendizaje 4.2.2 C4.2 Aprendizaje mediante árboles de decisión 4. ESCOM.

Las neuronas de manera general realizan lo siguiente: • • • • • Recibir información de otras neuronas o de receptores.com 22 .4. ESCOM.1 Introducción a las redes neuronales Bases biológicas El elemento estructural y funcional más esencial del sistema de comunicación neuronal. José David Ortega Pacheco. La información se transmite a otras neuronas o a células efectoras. david82d@hotmail. IPN.3. Transmitir la activación en forma de impulsos mediante su axón. Integrar la información recibida en un código de activación neuronal.3 Aprendizaje mediante redes neuronales 4. es la neurona. La información se distribuye en las ramificaciones del axón.

ESCOM. david82d@hotmail.com 23 . José David Ortega Pacheco.3 Aprendizaje mediante redes neuronales 4.4.1 Introducción a las redes neuronales Bases biológicas IPN.3.

BAM y Hopfield IPN.2 Perceptron. José David Ortega Pacheco.3.4.3 Aprendizaje mediante redes neuronales 4. ESCOM. Redes Multicapa. david82d@hotmail.com 24 .

3 Aprendizaje mediante redes neuronales 4.com 25 .3. José David Ortega Pacheco.4. david82d@hotmail.3 Algoritmos de entrenamiento Los IPN. ESCOM.

José David Ortega Pacheco.3. david82d@hotmail. ESCOM.com 26 .3 Aprendizaje mediante redes neuronales 4.4 Aplicaciones Los IPN.4.

ESCOM.4.com 27 . david82d@hotmail. José David Ortega Pacheco.4 Algoritmos genéticos 4.1 Introducción L IPN.4.

com 28 .4.2 Elementos. José David Ortega Pacheco. david82d@hotmail. ESCOM.4. operadores y parámetros L IPN.4 Algoritmos genéticos 4.

4 Algoritmos genéticos 4.com 29 .4. ESCOM. david82d@hotmail.4.3 Aplicaciones L IPN. José David Ortega Pacheco.

5.com 𝑃(𝐷|ℎ)𝑃 ℎ 𝑃(𝐷) 30 .4.5 Otros tipos de aprendizaje 4. david82d@hotmail. ESCOM. • • • • P(h): Probabilidad de una hipótesis/decisión h (Prior Probability) P(D): Probabilidad de un dato D P(D|h): Probabilidad de un dato D dada la hipótesis h P(h|D): Probabilidad de una hipótesis h dado un dato D (Posterior Probability) Teorema de Bayes: 𝑃 ℎ 𝐷 = IPN.1 Aprendizaje Bayesiano Se basa en decir cual es la hipótesis (Decisión) más probable. José David Ortega Pacheco.

5.5 Otros tipos de aprendizaje 4.1 Aprendizaje Bayesiano Maximum A Posteriori (MAP) ℎ𝑀𝐴𝑃 = 𝑎𝑟𝑔𝑚𝑎𝑥ℎ∈𝐻 𝑃 ℎ 𝐷 ℎ𝑀𝐴𝑃 𝑃(𝐷|ℎ)𝑃 ℎ = 𝑎𝑟𝑔𝑚𝑎𝑥ℎ∈𝐻 𝑃(𝐷) ℎ𝑀𝐴𝑃 = 𝑎𝑟𝑔𝑚𝑎𝑥ℎ∈𝐻 𝑃 𝐷 ℎ 𝑃 ℎ 𝑃 𝐷 puede eliminarse debido a que su valor es independiente de h IPN. david82d@hotmail. ESCOM.com 31 .4. José David Ortega Pacheco.

5 Otros tipos de aprendizaje 4.1 Aprendizaje Bayesiano Maximum Likelihood (ML): Cada hipótesis en H tiene la misma probabilidad. david82d@hotmail. José David Ortega Pacheco.4.5. ESCOM.com 32 . por lo que se utiliza únicamente 𝑃 ℎ 𝐷 ℎ𝑀𝐿 = 𝑎𝑟𝑔𝑚𝑎𝑥ℎ∈𝐻 𝑃 𝐷 ℎ IPN.

… . ESCOM. 𝑎𝑛 ) IPN. … . José David Ortega Pacheco. 𝑎2 . 𝑎2 .4. 𝑎𝑛 ℎ𝑀𝐴𝑃 𝑃 𝑎1 . … . donde el valor h representa el valor de la decisión tomada en un conjunto finito H ℎ𝑀𝐴𝑃 = 𝑎𝑟𝑔𝑚𝑎𝑥ℎ𝑗 ∈𝐻 𝑃 ℎ𝑗 𝑎1 . 𝑎𝑛 ℎ𝑗 𝑃(ℎ𝑗 ) = 𝑎𝑟𝑔𝑚𝑎𝑥ℎ𝑗 ∈𝐻 𝑃(𝑎1 . 𝑎2 . 𝑎𝑛 .5 Otros tipos de aprendizaje 4. … .com 33 . 𝑎2 . david82d@hotmail.1 Aprendizaje Bayesiano Naive Bayes: Se aplica cuando las instancias de un problema están representadas mediante un vector de atributos 𝑎1 .5.

4. ESCOM.5. José David Ortega Pacheco. … .5 Otros tipos de aprendizaje 4.1 Aprendizaje Bayesiano Naive Bayes ℎ𝑀𝐴𝑃 = 𝑎𝑟𝑔𝑚𝑎𝑥ℎ𝑗 ∈𝐻 𝑃 𝑎1 . 𝑎𝑛 ℎ𝑗 𝑃 ℎ𝑗 ℎ𝑁𝑎𝑖𝑣𝑒𝐵𝑎𝑦𝑒𝑠 = 𝑎𝑟𝑔𝑚𝑎𝑥ℎ𝑗 ∈𝐻 𝑃(ℎ𝑗 ) 𝑖 𝑃 𝑎𝑖 ℎ𝑗 IPN. david82d@hotmail.com 34 . 𝑎2 .

5 Otros tipos de aprendizaje 4.1 Aprendizaje Bayesiano KNN IPN.5.4. david82d@hotmail.com 35 . ESCOM. José David Ortega Pacheco.

5.4. david82d@hotmail. 𝑝 = es el número de posibles valores del atributo analizado 1 . José David Ortega Pacheco.5 Otros tipos de aprendizaje 4. ESCOM.com 36 .1 Aprendizaje Bayesiano Estimador de probabilidad 𝑛𝑐 + 𝑚𝑝 𝑛 + 𝑚 m (diferente de cero) es el tamaño de muestra equivalente. 𝑘 donde k IPN.

david82d@hotmail.4.5.5 Otros tipos de aprendizaje 4. ESCOM.2 Modelos ocultos de Markov IPN. José David Ortega Pacheco.com 37 .