You are on page 1of 71

Tema 4 Redes bayesianas

Introduccin
Tambin llamadas:
Redes de creencia
Redes
probabilsticas
Redes causales
Mapas de
conocimiento
Introduccin
Estructura de datos para representacin de
conocimiento incierto
Representa la dependencia entre
variables, y especifica en forma concisa la
distribucin de probabilidad conjunta
Representacin grfica
Introduccin
Generalmente es fcil para un experto del
dominio especificar qu relaciones de
dependencia condicional se dan
Determinar la topologa de la red
Especificar las probabilidades condicionales
de los nodos con dependencia directas
Calcular cualquier otro valor de probabilidad
Introduccin
Cada nodo de la red representa una
variable aleatoria
Un arco del nodo X al nodo Y, significa
que la variable X tiene una influencia
sobre Y
Cada nodo X tiene una tabla de
probabilidad condicional que cuantifica el
efecto que los padres de X tienen sobre X.
Es un grafo dirigido acclico (GDA)
Introduccin
N Nacimientos
N habitantes
N Iglesias
N Cigueas
Relacin entre causalidad y correlacin ?
Ej.: un estudio demostr que hay una fuerte correlacin entre el
nmero de cigeas de una localidad y el nmero de nacimientos
Introduccin
Relacin entre causalidad y
correlacin ?
Causalidad Correlacin
Introduccin
Sexo
Edad
Color Ojos
Estatura
Independencia
El sentido de la flecha indica Influencia causal
Dependencia causal (tb correlacin)
Introduccin
Ingresos
Estatura
Dependencia causal entre un nodo padre y 2 hijos
Edad
Edad Estatura N Calzado
Dependencia causal de 3 nodos en cadena
Independencia condicional
Introduccin
Sexo
Edad
Estatura
Dependencia condicional
Dependencia causal entre 2 padres y 1 nodo hijo
Semntica
Dos puntos de vista sobre una RB:
Como representacin de la distribucin de
probabilidad conjunta (DPC)
til para entender cmo construir redes
Como representacin de un conjunto de
aseveraciones de independencia
condicional
til para disear procedimientos de inferencia
Ambos puntos de vista son equivalentes
Probabilidad condicional
X Y
P(X) P(Y |X)
P(y|x) + P(y|x) = 1
P( y|x) + P(y| x) = 1
X P(y|X) P(y|X)
V
F
0.7
0.01
0.3
0.99
P(y) = P(y|x)P(x) + P(y|x)P(x)
P(y) = P(y|x)P(x) + P(y|x)P(x)
Grafo conexos y polirboles
Grafo conexo: entre cualquier par de nodos hay
al menos un camino (una ruta no dirigida)
A veces se distingue entre camino abierto y cerrado,
que corresponde a ciclos y bucles)
Grafo simplemente conexo o polirbol: entre
cualquier par de nodos hay un nico camino
Grafo mltiplemente conexo: contiene bucles o
ciclos
rbol: polirbol en el que cada nodo tiene un
solo padre, menos el nodo raz que no tiene
Bucles y ciclos
A
D
C
B
A
D
C
B
A
D
C
B
Bucle Bucle
Ciclo
Definiciones formales
Separacin direccional: Dado un GDA conexo
(V,E) y una distribucin de probabilidad sobre
sus variables, P, hay separacin direccional si:
Dado XV, el conjunto de sus padres, pa(X), separa
condicionalmente a X de cualquier otro conjunto de
nodos Y que no tenga descendientes de X, de(X):
P(X|padres(X),Y) = P(X|padres(X))
XV, YV- {X U pa(X) U de(X)}
Definiciones formales
Red Bayesiana: (V,E,P) GDA ms distribucin
de probabilidad sobre V, que cumple la
propiedad de separacin condicional
Ejemplo:
A
B
C
P(a1,b1,c1)=0.084 P(a1,b1,c2)=0.036
P(a1,b2,c1)=0.126 P(a1,b2,c2)=0.054
P(a2,b1,c1)=0.084 P(a2,b1,c2)=0.336
P(a2,b2,c1)=0.056 P(a2,b2,c2)=0.224
Ejemplo
Temblor
Juan Llama
Robo
Alarma
Maria Llama
R T P(A|R,T)
V
V
F
F
V
F
V
F
0.95
0.95
0.29
.001
P(T)=0.001
P(R)=0.002
A P(J)
V
F
0.90
0.05
A P(M)
V
F
0.70
0.001
Probabilidades conjuntas
Una RB proporciona una descripcin completa del
dominio
Cualquier elemento de P(X
1
,..X
n
) de la DPC se
puede calcular a partir de la red
) ) x ( Padres | x ( P ) ,..,x P(x
n .. 1 i
i i n 1
=
=
Construccin
P(x
1
,...,x
n
) = P(x
n
|x
n-1
,...,x
1
)P(x
n-1
,...,x
1
)
P(x
1
,...,x
n
) = P(x
n
|x
n-1
,...,x
1
)P(x
n-1
|x
n-2
,...,x
1
)P(x
2
|x
1
)P(x
1
)
P(X
i
| X
i-1
,...,X
1
) = P(Xi | Padres(Xi)),
si Padres(X
i
) { x
i-1
,...,x
1
}
Para satisfacer esa condicin Etiquetar los nodos de
forma consistente con el orden parcial implcito en la RB.

=

=
n i
i i n
,..,x x x P ) ,..,x P(x
.. 1
1 1 1
) | (
Probabilidades conjuntas
Ejemplo: Probabilidad de que la Alarma suene, no
haya Robo ni Terremoto, y Juan y Maria llamen
P(A,R, T,J,M) ?
P(A| R, T)P( R) P(T) P(J|A)P(M|A) =
0.90 x 0.70 x 0.001 x 0.999 x 0.998=0.00062
P(R|J, M,T) ?
) ) x ( Padres | x ( P ) ,..,x P(x
n .. 1 i
i i n 1
=
=
Propiedades de independencia
condicional
Una RB es representacin correcta del dominio
si cada nodo es cond. independiente respecto
de antepasados de sus padres
Escoger a los padres de manera que se
satisfaga la condicin anterior
En el ejemplo, no hay relacin directa entre el
hecho de que Maria o Juan llamen y el que se
produzca un terremoto o un robo, relacin
mediada por el hecho de que suene la alarma
P(M | J,A,T,R) = P(M | A)
P(J | J,A,T,R) = P(J | A)
Compactacin
Una RB es ms compacta que la distribucin de
probabilidad conjunta correspondiente
permite manejar muchas evidencias sin el
problema del crecimiento exponencial
Sistema localmente estructurado (sparse system).
crecimiento lineal (en vez de exponencial)
Si las variables de una RB reciben influencias directas
de un promedio de k variables, y hay un total de N
variables booleanas, entonces la RB queda
especificada por N2
k
probabilidades
Metodologa de Construccin
1. Escoger conjunto de variables
2. Definir un orden parcial para el conjunto de variables;
primero los nodos causales y luego los nodos efecto
3. Mientras queden variables
a) Escoger siguiente variable X
i
y aadir nodo a la RB
b) Asigne Padres(X
i
) a un conjunto mnimo de nodos presente en
la red, de manera que sea satisfecha la propiedad de
independencia condicional
c) Elaborar la tabla de probabilidad condicional de X
i
Este mtodo garantiza la obtencin de redes acclicas
Evita la redundancia en la definicin de probabilidades
Evita que se violen los axiomas de probabilidad
Elegir bien el orden !
Temblor
Juan Llama
Robo
Alarma
Maria Llama
INCORRECTO
Elegir bien la topologa !
alarma
Juan Llama
Robo
Temblor
Maria Llama
MALA
ORDENACIN
Tipos de Inferencia
Usando el ejemplo de la alarma
Modelo diagnstico: efectos (sntomas)
causas (diagnstico)
P(R|J), P(R|J,M)
Modelo causal: Causas efectos
P(J|R), P(M,R)
Inferencias intercausales: entre las causas de
un efecto comn
P(R|A,T)
Inferencias mixtas: combinacin de las
anteriores
P(A|J,T), P(R|J,T)
Tipos de inferencia
Adems de estimar la probabilidad de
cierto eventos (la variable de consulta), las
RB permiten:
Estimar que variables de evidencia hay que
observar para obtener informacin til
Hacer anlisis de sensibilidad: determinar que
variables tienen ms peso en las
probabilidades de la variables consultadas
Explicar al usuario los resultados de una
inferencia probabilista
Evidencia total vs parcial
Evidencia dura (hard). Conocimiento
determinista: P(A)=1 P(A)=0. Al asignar
evidencia dura al nodo se le llama
instanciacin
Evidencia parcial (soft). Conocimiento
probabilstico (distinto a 0 y a 1). Incluye a
las probabilidades a priori y a las
actualizadas tras instanciarse alguna
variable
Nodos lineales
Sin ninguna informacin adicional L y R son
dependientes
Evidencia 1: T
R y L son independientes dado T
La evidencia puede ser transmitida a travs de un nodo
lineal a menos que est instanciado
En un nodo lineal T los nodos vecinos son
condicionalmente independientes respecto a T, es decir,
son dependientes si T no est instanciado y viceversa.
Lluvia Trfico Retraso
Nodos divergentes
Sin ninguna informacin adicional J y M son
dependientes
Evidencia 1: H
J y M son independientes dado H
La evidencia puede ser transmitida a travs de un nodo
divergente a menos que est instanciado
En un nodo divergente H sus hijos son condicionalmente
independientes respecto a H, es decir, son dependientes
si H no est instanciado y viceversa.
Juan choca
Maria choca
Hielo
Nodos convergentes
Sin ninguna informacin adicional L y A son
independientes
Evidencia 1: H
L y A son dependientes dado H
La evidencia puede ser transmitida a travs de un nodo
convergente si no est instanciado.
En un nodo convergente H no instanciado, sus padres
son independientes, pero son condicionalmente
dependientes dado H
Lluvia
Aspersor
Humedad
Explaining away
C es un nodo convergente para L y A
L es divergente para T y C
Tejado hmedo
Lluvia
Aspersor
Csped hmedo
Explaining away
C es un nodo convergente para L y A
L es divergente para T y C
Evidencia 1: C
L y A son dependientes dado C
Evidencia 2: T
Explaining away: Aceptamos L y descartamos A
Tejado hmedo
Lluvia
Aspersor
Csped hmedo
Resumen de las propiedades de
independencia condicional
1. Independencia a priori de los nodos que
no tienen ningn antepasado comn
2. Independencia condicional de los nodos
hermanos con respecto a su padre
3. Independencia condicional entre un nodo
y los antepasados de sus padres
4. Dependencias condicionales por
descendientes comunes instanciados
Independencia condicional
Hemos visto como una RB expresa la
independencia entre un nodo y sus
antepasados .
Es posible saber si un conjunto de nodos
X es independiente de otro conjunto Y con
base en el conjunto de los nodos de
evidencia E?
Ejemplo
Batera
Radio
Combustible
Encendido
Arranque
Movimiento
D-Separacin
Un conjunto de nodos E d-separa dos conjuntos
de nodos X y Y si cualquier trayectoria no-
dirigida de un nodo en X a un nodo en Y es
bloqueada en funcin de E
Si la ruta no-dirigida (independiente de la
direccin de las flechas) de un nodo X a un
nodo Y est d-separada por E, entonces X y Y
son condicionalmente independientes dada E
D-Separacin
Una ruta es bloqueada en funcin de un
conjunto de nodos E si existe un nodo Z en la
ruta que cumple una de las condiciones
siguientes:
1. Z est en E, y Z tiene un arco saliente y otro
entrante en esa ruta (nodo lineal)
2. Z est en E y Z tiene ambas arcos salientes en esa
ruta (nodo divergente)
3. Ni Z ni sus descendientes est en E, y los dos arcos
de la ruta son entrantes (nodo convergente)
X
E Y
D-Separacin
Z
1
Z
2
Z
3
Separabilidad
Si A y B son d-separadas, entonces
cambios en la probabilidad de A no tienen
efecto en la probabilidad de B
Si A y B son d-separadas dada la
evidencia e, entonces A y B son
condicionalmente independientes dado e:
P(A | B, e) = P(A | e)
Si A y B no son d-separadas, entonces
son d-conectadas
Ejemplo
F est d-separada del resto de las variables
no-instanciadas A, E y G
A
C
F
D
G
B
e
e
E
e A, E, G, F?
Ejemplo
A y L estn d-separadas
A
B
C
D
H
E
I
F
J
K
M
L
G
e
A y L?
Ejemplo
A y L estn d-conectadas
A
B
C
D
H
E
I
F
J
K
M
L
G
e
e
A y L?
Sbana de Markov
Sbana (manto) de Markov de X: padres de X,
hijos de X y cnyuges de X (comparten hijos)
Si se instancian todas, X queda d-separada
del resto de la red
P
1
P
2
C
1
H
1
X
H
2
C
2
Inferencia en RB
Inferencia o propagacin de
probabilidades: efectos de la evidencia
propagados por la red para saber
probabilidades a posteriori
Propagacin: dar valores a ciertas
variables (evidencia), y obtener la
probabilidad posterior de las dems
variables
Inferencia en RB
Mtodo ms general:
Mtodo no eficiente (N-p completo)
RB almacena de forma eficiente la TPC
Inferencia eficiente?
Slo en casos particulares: rboles y
extensiones
) E , Z ( P
) E , Z , X ( P
) E ( P
) E , X ( P
) E | X ( P
} E { X }, X { Z
} X E { X }, X { Z
i
i
i
j j
i j j

=
=
= =
Redes conectadas en forma sencilla:
rboles Polirboles
Redes multiconectadas:
Tipos de Estructuras
Cada nodo corresponde a una variable discreta, B{B
1
, B
2
,, B
n
) con su
respectiva matriz de probabilidad condicional, P(B|A)=P(B
j
| A
i
):
A
D
C
F
G
B
E
H
I
Propagacin en polirboles
Dada cierta evidencia E (instanciacin de ciertas variables) la probabilidad
posterior de cualquier variable B, por el teorema de Bayes:
P( Bi | E)=P( Bi ) P(E | Bi) / P( E )
B
Propagacin en polirboles
A
D
C
F
G
B
E
H
I
E = {I,F,E}
Propagacin en polirboles
Ya que la estructura de la red
es un rbol, el Nodo B la separa
en dos subrboles, por lo que
podemos dividir la evidencia en
dos grupos:
1) E-: Datos en el rbol que
cuya raz es B.
2) E+: Datos en el resto del
rbol
A
D
C
F
G
B
E
H
I
E+
E-
Propagacin en polirboles
Entonces:
P( Bi | E ) = P ( Bi ) P ( E-,E+ | Bi ) / P(E)
Pero dado que ambos son independientes y aplicando nuevamente Bayes:
P( B
i
| E ) = P ( B
i
| E
+
) P(E
-
| B
i
) = (B
i
) (B
i
)
Donde es una constante de normalizacin
Propagacin en polirboles
Al instanciarse ciertos nodos, stos envan
mensajes a sus padres e hijos, y se
propagan hasta a llegar a la raz u hojas, o
hasta encontrar un nodo instanciado
As que la propagacin se hace en un solo
paso en un tiempo proporcional al dimetro
de la red
Propagacin en polirboles
Propagacin

E
(B)
A
D
C
F
G
B
E
H
I

(H)
A
D
C
F
G
B
E
H
I
Propagacin
Nodos hoja no conocidos:
(B
i
) = [1,1, ]
Nodos asignados (conocidos):
(B
i
) = [0,0, ..1, 0, , 0] (1 para valor asignado)
(B
i
) = [0,0, ..1, 0, , 0] (1 para valor asignado)
Nodo raz:
(A) = P(A), (probabilidad marginal inicial)
Condiciones iniciales
Si B es un hijo de A, B tiene k valores posibles y A tiene m
valores posibles, entonces j=1,2,m, el -mensaje de B a
A viene dado por:
Ecuacin 1
Clculo de -mensajes
A B
Si B es hijo de A y A tiene m valores posibles, entonces
para j=1,2,...,m, el -mensaje de A a B viene dado por:
donde s(A) denota al conjunto de hijos de A.
A B
Ecuacin 2
Clculo de -mensajes
Si B tiene k valores posibles y s(B) es el conjunto de los
nodos C hijos de B, entonces para i=1,2,...,k, el -valor de B
viene dado por
B C
Ecuacin 3
Clculo de -valores
Si A es padre de B, B tiene k valores posibles y A tiene m
valores posibles, entonces para i=1,2,...,k, el -valor de B
viene dado por:
A B
Ecuacin 4
Clculo de -valores
Si B es una variable con k posibles valores, entonces para i
= 1,2,...,k la probabilidad a posteriori basada en las
variables instanciadas se calcula como:
A B
Ecuacin 5
Clculo de probabilidad a
posteriori
A. Inicializar todos los -mensajes y -valores a 1.
B. Si la raz A tiene m posibles valores, entonces para j =
1,...,m, sea:
C. Para todos los hijos B de la raz A, hacer
Enviar un nuevo -mensaje a B usando la ecuacin 2.
(En ese momento comenzar un flujo de propagacin
debido al procedimiento de actualizacin C)
Algoritmo. Fase 1- Inicializacin
Cuando una variable se instancia o una variable recibe un
o -mensaje, se usa uno de los siguientes procedimientos
de actualizacin: (A, B C)
Procedimiento A
Algoritmo. Fase 2- Actualizacin
Procedimiento B
Procedimiento C
Algoritmo. Fase 2- Actualizacin
Esposa infiel :
A esposa infiel
B esposa cena con otro hombre
C esposa es vista cenando con otro hombre
D en el domicilio se reciben llamadas telefnicas sospechosas
a
1
afirmacin del hecho, a
2
, negacin.
Ejemplo
1. Calculamos las probabilidades iniciales (a priori) de cada variable
Ejemplo (II)
Ejemplo (III)
Ejemplo (IV)
2. Supongamos ahora que nos informan de que la esposa ha
cenado con otro, es decir, conocemos ahora con certeza
que B = b1.
Esta informacin se ir transmitiendo por la red, haciendo
que las probabilidades a priori de los nodos, P(X) cambien
a las probabilidades a posteriori, P*(X) = P(X/B = b1). En
este caso, al ser la evidencia aportada a favor de la
hiptesis que queremos probar, lo lgico ser que todas
estas probabilidades aumenten. En el momento que una
variable se actualiza, comienza un flujo de propagacin por
la red, que en este caso es el siguiente:
B informa a su padre mediante un -mensaje.
B informa a su hijo mediante un -mensaje.
A su vez, A va a informar a su hijo, D, mediante un -
mensaje.
Ejemplo (V)
3. Supongamos ahora que tenemos la informacin de que no se
han recibido llamadas telefnicas extraas en el domicilio, es
decir, que sabemos que D ha tomado el valor d2.
Nuevamente se iniciar el algoritmo que propagar esta
informacin por la red:
D enviar un -mensaje a su padre, A,
A enviar un -mensaje a su hijo, B.
Pero ahora, al estar B inicializada, el algoritmo se parar ah,
puesto que P(B) = (1, 0), y no podemos permitir que nada
cambie ya estos valores. As, en la ejecucin del algoritmo, las
variables que ya han sido inicializadas son extremos muertos,
donde la propagacin se para (en el caso de la propagacin en
rboles).
Ejemplo (VI)
Extensiones de las RB
Evidencia parcial: Nodos virtuales
Polirboles
Clculo compuesto con todos los mensajes
Grafos multiplemente conexos
Algoritmos de clustering, eliminacin de variables
Mtodos MonteCarlo
Variables continuas
Razonamiento abductivo
Aprendizaje y sensibilidad
Razonamiento en el tiempo: Redes Bayesianas
Dinmicas

You might also like