You are on page 1of 44

REDES BAYESIANAS

Representación del Conocimiento


Inteligencia Artificial

Galo Valverde L
Índice

2.2. Redes Bayesianas


2.3. Naive Bayes
Algoritmo de
Búsqueda
Genérico
(Poole & Mackworth,
2010)
Teorema de Bayes
 Aprendizaje bayesiano: buscar la hipótesis h (de entre todas las H
posibles) más probable si hemos observado una serie de datos D
(máximo a posteriori o MAP)

hMAP ≡ argmaxP(h∣D)

 Base: Teorema de Bayes


Redes Bayesianas
 Las redes bayesianas permiten la representación de las relaciones de
independencia entre variable aleatorias.
 Una red bayesiana es un grafo dirigido acíclico que tiene información
probabilística en sus nodos indicando cual es la influencia de los
padres sobre un nodo del grafo:
(P(Xi |padres(Xi )))
Ejemplo
 El significado intuitivo de un enlace
entre dos nodos X e Y es, por
ejemplo, que la variable X tiene
influencia sobre Y
 El conjunto de probabilidades
representadas en la red describe la
distribución de probabilidad conjunta
de todas las variables.

 Weather es independiente de las otras variables.


• Toothache y Catch son condicionalmente independientes, dado Cavity.
Reglas del producto y de Bayes
 Regla del producto:
P(X, Y) = P(X|Y) P(Y) = P(Y|X) P(X)
 Regla de Bayes:
P(Y|X) = P(X|Y) P(Y) / P(X)
 Esta regla y la propiedad de independencia son el fundamento del
razonamiento probabilístico y permiten relacionar las probabilidades de
unas evidencias con otras.

P(B | A) = P(B) P(A | B) / Si P(A | Bi ) P(Bi)

7
Semántica

La distribución conjunta completa se define como el producto de las


distribuciones condicionales locales:
P (X1, … ,Xn) = πi = 1 Pn (Xi | Parents(Xi))

Por ejemplo,
P(d ∧ A=equilibrada ∧ S=alta ∧ ¬f ∧ ¬i) = ?
= P(d) P(A=equilibrada) P(S=alta|d, A=equilibrada) P(¬f) P(¬i|S=alta, ¬f)
Árboles de decisión
 Un árbol de decisión es un mapa de los posibles
resultados de una serie de decisiones
relacionadas.
 Permite que un individuo o una organización
comparen posibles acciones entre sí según sus
costos, probabilidades y beneficios.
 Se pueden usar para dirigir un intercambio de
ideas informal o trazar un algoritmo que anticipe
matemáticamente la mejor opción.
• Un árbol de decisión, por lo general, comienza con un único nodo y luego se ramifica en resultados
posibles. Cada uno de esos resultados crea nodos adicionales, que se ramifican en otras posibilidades.
Esto le da una forma similar a la de un árbol.
• Hay tres tipos diferentes de nodos: nodos de probabilidad, nodos de decisión y nodos terminales. Un
nodo de probabilidad, representado con un círculo, muestra las probabilidades de ciertos resultados.
Un nodo de decisión, representado con un cuadrado, muestra una decisión que se tomará, y un nodo
terminal muestra el resultado definitivo de una ruta de decisión.
Ejercicio: Árbol de Decisión
 El grupo de diseño del producto de Flores Electric Supplies, Inc., ha determinado que
necesita diseñar una nueva serie de interruptores. Debe decidirse por una de las tres
estrategias de diseño. El pronóstico del mercado es para 200 unidades. Cuanto mejor y
más sofisticada sea la estrategia de diseño y mayor el tiempo invertido en ingeniería de
valor, menor será el costo variable.
 El jefe de ingeniería de diseño, Dr. W. L. Berry, decidió que los siguientes costos son una
buena estimación de los costos iniciales y variables relacionados con cada una de las tres
estrategias:
1. Baja tecnología: proceso con poca tecnología y bajo costo que consiste en contratar a nuevos
ingenieros con poca experiencia. Esta posibilidad tiene un costo de $45,000 y probabilidades de
costo variable de 0.3 para $0.55 cada uno, 0.4 para $0.50, y .3 para $0.45.
2. Subcontrato: enfoque de mediano costo que emplea un buen equipo de diseño externo. Esta
alternativa tendría un costo inicial de $65,000 y probabilidades de costo variable de 0.7 para $0.45
cada uno, 0.2 para $0.40, y 0.1 para $0.35.
3. Alta tecnología: enfoque de alta tecnología en el que se usa lo mejor del personal interno y la más
moderna tecnología de diseño asistido por computadora. Esta alternativa tiene un costo inicial de
$75,000 y probabilidades de costo variable de 0.9 para $.40 y 0.1 para $0.35.
 ¿Cuál es la mejor decisión con base en un criterio de valor monetario esperado (VME)?
(Nota: Queremos el VME más bajo puesto que se manejan costos en este problema).
Planteamiento
Resolución

200
Costos Costo Costo
Alternativa CV Total
Fijos Variable Total
1 Baja Tecnología $ 45,00 0,55 $ 110,00 $ 155,00
2 $ 45,00 0,50 $ 100,00 $ 145,00
3 $ 45,00 0,45 $ 90,00 $ 135,00
4 Subcontrato $ 65,00 0,45 $ 90,00 $ 155,00
5 $ 65,00 0,40 $ 80,00 $ 145,00
6 $ 65,00 0,35 $ 70,00 $ 135,00
7 Alta Tecnología $ 75,00 0,40 $ 80,00 $ 155,00
8 $ 75,00 0,35 $ 70,00 $ 145,00
Ejercicio Grupo
 Un gerente está tratando de decidir si debe comprar una máquina o dos. Si compra
sólo una y la demanda resulta ser excesiva, podría adquirir después la segunda
máquina. Sin embargo, perdería algunas ventas porque el tiempo que implica la
fabricación de este tipo de máquinas es de seis meses. Además, el costo por máquina
sería más bajo si comprara las dos al mismo tiempo. La probabilidad de que la
demanda sea baja se ha estimado en 0.30. El valor presente neto, después de
impuestos, de los beneficios derivados de comprar las dos máquinas a la vez es de
$90,000 si la demanda es baja, y de $170,000 si la demanda es alta.
 Si se decide comprar una máquina y la demanda resulta ser baja, el valor presente
neto sería de $120,000. Si la demanda es alta, el gerente tendrá tres opciones. La de
no hacer nada tiene un valor presente neto de $120,000; la opción de subcontratar,
$140,000; y la de comprar la segunda máquina, $130,000.
1. Dibuje un árbol de decisiones para este problema.
2. ¿Cuántas máquinas debe comprar la compañía inicialmente? ¿Cuál es el beneficio esperado de
esta alternativa?
Regla de Bayes
 De la definición de probabilidad condicional
se puede deducir:
B1 B3 B4
P(B | A) = P(B) P(A | B) / P(A), dado P(A) > 0
 Esto permite “invertir” las probabilidades,
por ejemplo obtener la P de una enfermedad B2 A
B5
dado un síntoma, con conocimiento de la P
de los síntomas dado que alguien tiene cierta
enfermedad
 Dada una partición, B, de S, la probabilidad
de un evento A se puede obtener como:
P(A) = Si P(A | Bi ) P(Bi)
Eventos independientes
 Dos eventos son independientes
si la ocurrencia de uno no altera
la probabilidad de ocurrencia A B
del otro:
P(A | B) = P(A) ó
D E
P(B | A) = P(B) C
 Lo que es equivalente a: Pa(A) = 
P(A  B) = P(A) P(B) Pa(B) = 
F G Pa(C) = A
 Independientes  mutuamente Pa(D) = A, B
exclusivos Pa(E) = B
Pa(F) = C, D
Pa(G) = D
Variables Aleatorias
 A cada evento A se le asigna un valor numérico X(A) = k, de forma
que a cada valor le corresponde una probabilidad P(X = k)
 X es una variable aleatoria
 Ejemplos:
X = Número de águilas en N lanzamientos
Y = Número del dado al lanzarlo
Z = Valor de lectura de un sensor
Tipos de Variables Aleatorias
 Variables discretas: p(X):  Discretas: el número de valores de X
p(X)  0 (rango) es finito o contablemente finito
S p(X) = 1
 Variables continuas: f(x):  Continua: puede asumir todos los
posibles valores en cierto intervalo a – b ,
f(x)  0 ejemplos:
 f(x) = 1  X = temperatura ambiente
 Y = tiempo en el que falle cierto dispositivo
 Z = distancia del robot a la pared
Estadísticas
 Moda: valor de mayor probabilidad
 Mediana: valor medio (divide el área en 2)
 Promedio: valor “esperado”:
Motor D Motor I
E(X) = Sx X p(X)
 Varianza: dispersión
s 2(X) = Sx (X – E(X))2 p(X) posición
 Desviación estándar
s(X) = s 2
odometro sensor
Formulación
 Muchos problemas se pueden formular como un conjunto de variables
sobre las que tenemos cierta información y queremos obtener otra, por
ejemplo:
 Diagnóstico médico o industrial
 Percepción (visión, voz, sensores)
 Clasificación (bancos, empleadores, ...)
 Modelado de estudiantes, usuarios, etc.
 Desde el punto de vista de probabilidad se puede ver como:
 Un conjunto de variables aleatorias: X1, X2, X3, ...
 Cada variable es generalmente una partición del espacio
 Cada variable tiene una distribución de probabilidad (conocida o desconocida)
Variables y Particiones

 A = {A1, A2, A3}


 B = {B1, B2, B3, B4, B5}

B1 B3 B4

B2
B5
A1 A2 A3
Cadena de Razonamiento
 Permite analizar cómo de sensibles son los nodos a
los cambios en la evidencia
 Sobre la red completa:
 Explicación automática
 Expandiendo los nodos
 Sobre una variable V seleccionada por el usuario:
 Se muestran los resultados de
 P(vk|e)/P(vk) para cada estado vk de V
 Muestran cómo se propaga la evidencia a través de
la red y el efecto que esta tiene sobre los nodos de
los caminos desde la evidencia hasta una variable
determinada.
 Los nodos de estos caminos se relacionan
dependiendo de la influencia de la evidencia.
Ejemplo:
Se hizo una encuesta a un grupo grande de personas donde se les
preguntaba el genero y si ellos practicaban algún deporte o hacían
ejercicio en general, los resultados de la encuesta fueron los siguientes:
el 40% por ciento de los encuestados eran hombres (A) y el 60% eran
mujeres (B), de los cuales el 80% de los hombres (D) y el 50% de las
mujeres hacían ejercicios (D).
 ¿Cuál es la probabilidad de que al seleccionar
a una persona al azar esta sea hombre y a la
vez haga ejercicio? p(HnE) = A*D =32%
 Bayes: ¿Cuál es la probabilidad que si se
selecciona a alguien que haga ejercicios, esta
sea hombre? p(D|A) = 51,61%
Ejercicio
 En una fábrica de latas se producen latas de dos tamaños, de 25 ml y de 40
ml, si se sabe que hacen la misma cantidad de ambas latas y que un 1% de
las latas de 25ml y un 4% de las latas de 40ml salen defectuosas
 ¿Cuál es la probabilidad que al seleccionar una lata de las defectuosas al
azar, esta sea de 40ml?
Ejercicio
 En las elecciones de un país hay 2 candidatos a la presidencia, el candidato
A y el candidato B, y en los resultados de las selecciones de este país se
sabe que un 75% de la población es de clase media o baja y un 25% es de
clase alta, si por el candidato A votó un 90% de la clase alta y un 5% de la
clase media y baja, y se elige una persona al azar de los que votaron por el
candidato A
 ¿Cuál es la probabilidad que este sea de la clase media o baja?
Ejm. Probabilidades condicionales
 Supongamos que nos hicimos un estudio y
nos ha dado positivo para una rara
enfermedad que solo el 0.3 % de la población
tiene.
 La tasa de efectividad de este estudio es del
99 %, es decir, que solo da falsos positivos en
el 1 % de los casos.
 ¿Cuán probable es que realmente tengamos
la enfermedad?
¿Qué es Naïve Bayes?
 El clasificador Naive Bayes es un algoritmo de
clasificación simple y efectivo que ayuda en el
desarrollo de modelos de aprendizaje automático
rápido que pueden hacer predicciones precisas.
 Es un clasificador probabilístico, lo que significa que
hace predicciones basadas en la probabilidad de un
objeto.

El algoritmo Nave Bayes se usa comúnmente


para la filtración de correo no deseado, el
análisis de opiniones y la clasificación de
artículos.
Naive Bayes Clasificador

https://colab.research.google.com/drive/1WoF4zrzpg1ivMK3cUgfjCq9XGqpqnzA6#
scrollTo=wWWfdsbsUj3c
Probabilidad Condicional
 Una medida de la posibilidad de que ocurra un
evento si ya ha ocurrido otro evento se
llama probabilidad condicional (por suposición,
presunción, afirmación o evidencia).
 Probabilidad posterior (P(A|B)): es la
probabilidad de la hipótesis A sobre el evento
observado B.
 Probabilidad de verosimilitud P(B|A): significa
Verosimilitud, que es la probabilidad de la
evidencia siempre que la probabilidad de una
hipótesis sea verdadera.
 Probabilidad Previa (P(A)): es la probabilidad Lo que nos dice qué tan probable es A si ocurre B, escrito
P(A|B), también conocido como probabilidad posterior.
de una hipótesis antes de ver la evidencia.
Probabilidad Marginal P(B): significa Cuando sabemos con qué frecuencia ocurre B cuando
Probabilidad de Probabilidad Marginal de ocurre A, escrito P(B|A), y qué probabilidad hay de que A
esté solo, escrito P(A), y qué tan probable es que B esté solo,
Evidencia. escrito P(B), sabemos puede escribir P(B|A) (B).
Teorema de Bayes aplicado a estimación
de un sólo parámetro
In [1]: # Ejemplo
a_priori = 0.003
likelihood = 0.99
evidencia = 0.01 La probabilidad de estar realmente enfermo
es de sólo 30 % y no de 99 %, ya que
podemos ser uno de los falsos positivos del
a_posteriori = likelihood * a_priori / evidencia estudio y la enfermedad es realmente muy
rara.

a_posteriori Como este ejemplo demuestra, la inclusión


del a priori es sumamente importante para
Out[1]: 0.297 la inferencia bayesiana

https://colab.research.google.com/drive/1e1NPSAokpmRKepnvlRngW_Heoprx-ZYE#scrollTo=KQ_TKWjr3Ciu&line=7&uniqifier=1
Ejemplo -Naive Rojo
 Consideremos el caso de dos compañeros que trabajan en la misma oficina: Alicia
y Bruno. Sabemos que:
 Alicia viene a la oficina 3 días a la semana.
 Bruno viene a la oficina 1 día a la semana.
 Estamos en la oficina y vemos pasar delante de nosotros a alguien muy rápido,
tan rápido que no sabemos si es Alicia o Bruno.
 Dada la información que tenemos hasta ahora y asumiendo que solo trabajan 4
días a la semana, las probabilidades de que la persona vista sea Alicia o Bruno,
son:
 P(Alicia) = 3/4 = 0.75
 P(Bruno) = 1/4 = 0.25
 Cuando vimos a la persona pasar, vimos que él o ella llevaba una chaqueta roja.
También sabemos lo siguiente:
 Alicia viste de rojo 2 veces a la semana.
 Bruno viste de rojo 3 veces a la semana.
 Así que, para cada semana de trabajo, que
tiene cinco días, podemos inferir lo
siguiente:
 La probabilidad de que Alicia vista de rojo es →
P(Rojo|Alicia) = 2/5 = 0.4
 La probabilidad de que Bruno vista de rojo →
P(Rojo|Bruno) = 3/5 = 0.6
Topología de Red
 La estructura o topología de la
red debe captar las relaciones
cualitativas entre las variables.
 En particular, dos nodos deben
conectarse directamente si uno
afecta o causa al otro, con la
arista indicando la dirección del
efecto.
Algoritmo Naive Bayes Supervisado

1. Convertir el conjunto de datos en una tabla de frecuencias.


2. Crear una tabla de probabilidad calculando las correspondientes a
que ocurran los diversos eventos.
3. La ecuación Naive Bayes se usa para calcular la probabilidad
posterior de cada clase.
4. La clase con la probabilidad posterior más alta es el resultado de la
predicción.
Ejercicio: Diagnostico enfermedad
Tipos de modelo Naive Bayes
Hay tres tipos de modelos Naive Bayes, que se detallan a continuación:
 Gaussiano : el modelo gaussiano asume que los rasgos se
distribuyen regularmente. El modelo implica que los valores
continuos se extraen de una distribución gaussiana si los
predictores toman valores continuos en lugar de valores discretos.
 Multinomial : cuando los datos tienen una distribución
Multinomial, se utiliza el clasificador Multinomial Nave Bayes.
 Se utiliza principalmente para abordar problemas de clasificación
de documentos, como determinar a qué categoría pertenece un
documento, como Deportes, Política o Educación.
 Bernoulli : el clasificador de Bernoulli es idéntico al clasificador
Multinomial, con la excepción de que las variables predictoras son
variables booleanas independientes.
 Determinar si una palabra determinada aparece en un
documento, por ejemplo. Para trabajos que involucran
clasificación de documentos, este paradigma es bien conocido.
https://colab.research.google.com/drive/1xmPIngryR6e185Wv4_5CHdRYZg4o6H_7#scrollTo=RatzYuJg09_v
https://colab.research.google.com/drive/1WoF4zrzpg1ivMK3cUgfjCq9XGqpqnzA6
Ejemplo Hierba Mojada
 Supongamos que hay dos
eventos los cuales pueden
causar que la hierba esté
húmeda: que el rociador esté
activado o que esté lloviendo.
 También supongamos que la
lluvia tiene un efecto directo
sobre el uso del rociador
(usualmente cuando llueve el
rociador se encuentra apagado).
 La situación puede ser
modelada con la siguiente red
bayesiana.
Ejemplo Hierba Mojada
 Probabilidad de que la hierba este
mojada por la lluvia?
 Probabilidad de que la hierba este
mojada por el rociador?

https://colab.research.google.com/drive/1MIE-
DDm0uagwoW8o02jG4O3MSSPLGlLO#scrollTo=DwvonC
gyFZ8O
Ejemplo: Diagnóstico médico
 En el ejemplo de diagnóstico médico,
podríamos preguntarnos qué factores
afectan la probabilidad de tener cáncer.
 Si la respuesta es "Contaminación y
Fumar", entonces deberíamos agregar
aristas desde "Contaminación" y desde
"Fumador" hacia el nodo "Cáncer".
 Del mismo modo, tener cáncer afectará la
respiración del paciente y las posibilidades
de tener un resultado positivo de rayos X.
Por lo tanto, también podemos agregar
aristas de "Cáncer" a "Disnea" y "RayosX".
Ejemplo: Diagnóstico médico
 Una vez que tenemos definida la
estructura de la red bayesiana, el
siguiente paso es cuantificar las
relaciones entre los nodos
interconectados; esto se hace
especificando una probabilidad
condicional para cada nodo.
 Primero, para cada nodo necesitamos
mirar todas las posibles
combinaciones de valores de los
nodos padres.
Taller Deporte P(D)
Alimentación P(A)

sí 0.1 Deporte Alimentación equilibrada 0.4

no equilibrada 0.6
no 0.9

Alim. Deporte P P Presión Fumador P(F)


(S=alta) (S=normal) sanguínea
eq. sí 0.01 0.99 Fumador sí 0.4
no eq. sí 0.2 0.8
no 0.6
eq. no 0.25 0.75
no eq. no 0.7 0.3
Pr. Fum. P(I=sí) P(I=no)
Sang.
alta sí 0.8 0.2
P(Infarto = sí ∧ Presión = alta ∧ Fumador = sí ∧ Deporte = si ∧ Infarto
Alimentación = equil.) norm. sí 0.6 0.4

=P(Infarto = sí | Presión = alta, Fumador = sí) P(Presión = alta alta no 0.7 0.3
| Deporte = sí, Alimentación = equil.) P(Fumador = sí )
norm. no 0.3 0.7
P(Deporte = sí) P(Alimentación = equil.)
= 0,8 × 0,01 × 0,4 × 0,1 × 0,4
= 0,000128
Referencias Bibliográficas
 Russell, S. y Norvig, P. Inteligencia artificial: Un enfoque moderno (segunda
edición) (Prentice Hall, 2004). • Cap. 3: “Solución de problemas mediante
búsqueda”
 Luger, G.F. Artificial Intelligence (Structures and Strategies for Complex
Problem Solving (4 edition) (Addison–Wesley, 2002) • Cap. 3: “Structure and
strategies for state space search”
 “Inteligencia Artificial: Resolución de problemas, algoritmos de búsqueda”,
Javier Béjar
 http://www.bubok.es/libros/2050/inteligencia-artificial-resolucion-de-
problemas-algoritmos-de-busqueda
 “Inteligencia en Redes de Telecomunicaciones”, Villena, Crespo, 2012
 https://medium.com/datos-y-ciencia/algoritmos-naive-bayes-fudamentos-e-
implementaci%C3%B3n-
4bcb24b307f#:~:text=La%20ecuaci%C3%B3n%20Naive%20Bayes%20se,el%20
resultado%20de%20la%20predicci%C3%B3n.

You might also like