This is page iii

Printer: Opaque this
Enrique Castillo,
Jos´e Manuel Guti´errez, y
Ali S. Hadi
Sistemas Expertos y
Modelos de Redes Probabil´ısticas
Con m´as de 150 ejemplos y 250 figuras
This is page iv
Printer: Opaque this
Enrique Castillo Jos´e Manuel Guti´errez
Universidad de Cantabria Universidad de Cantabria
39005 Santander, Espa˜ na 39005 Santander, Espa˜ na
E-mail: castie@ccaix3.unican.es E-mail: gutierjm@ccaix3.unican.es
Ali S. Hadi
Universidad de Cornell
358 Ives Hall
Ithaca, NY 14853-3901, USA
E-mail: ali-hadi@cornell.edu
This is page v
Printer: Opaque this
A todo el pueblo de la desaparecida Yugoslavia con la esperanza de que
vivan juntos en paz y sean amigos, como lo son los autores de este libro, a
pesar de sus diferencias en religiones, lenguas y nacionalidades.
This is page vi
Printer: Opaque this
This is page vii
Printer: Opaque this
Prefacio
En las dos ´ ultimas d´ecadas se ha producido un notable desarrollo en el ´ area
de la inteligencia artificial y, en particular, en la de los sistemas expertos.
Debido a su car´ acter multidisciplinar, muchos de los resultados obtenidos
en esta disciplina han sido publicados en diversas revistas de numerosos
campos: ciencias de la computaci´on, ingenier´ıa, matem´aticas, estad´ıstica,
etc. Este libro trata de reunir, organizar y presentar estos resultados de
forma clara y progresiva. Se ha tratado de mantener la informaci´ on ac-
tualizada al m´ aximo, de tal forma que incluso algunos de los conceptos
presentados en el libro no han sido publicados previamente (por ejemplo,
algunos resultados de los Cap´ıtulos 7, 11 y 12).
Este libro est´ a destinado a estudiantes e investigadores de ´ areas te´oricas y
aplicadas de disciplinas tales como ciencias de la computaci´on, ingenier´ıa,
medicina, matem´aticas, econom´ıa y ciencias sociales. Dado este car´acter
multidisciplinar, se han intentado mantener al m´ınimo los conocimientos
previos necesarios para leer este libro. As´ı, s´olo se requieren algunas no-
ciones b´asicas de estad´ıstica y probabilidad y estar familiarizado con los
conceptos elementales del ´algebra lineal (ver, por ejemplo, Hadi (1996)).
En algunas ocasiones los conceptos se ilustran utilizando algunos progra-
mas de Mathematica. Para un completo entendimiento de estos programas,
se requiere cierto conocimiento del programa Mathematica (ver Castillo y
otros (1993)).
Este libro puede ser utilizado como libro de consulta, o como libro
de texto en cursos de postgrado o en ´ ultimos cursos de carrera. El li-
bro contiene numerosos ejemplos ilustrativos y ejercicios al final de cada
cap´ıtulo. Tambi´en se han desarrollado varios programas que implementan
los algoritmos y metodolog´ıas presentadas. Estos programas, junto con los
manuales de usuario correspondientes, pueden obtenerse de la direcci´ on
World Wide Web (WWW) http://ccaix3.unican.es/˜AIGroup. Creemos
que pueden ayudar a los lectores a entender los conceptos presentados y a
aplicar esta metodolog´ıa a sus respectivos ´ambitos profesionales y de estu-
dio. Por ejemplo, estos programas han sido utilizados para resolver algunos
de los ejemplos y ejercicios del libro, as´ı como para analizar varios ejemplos
pr´ acticos reales (Cap´ıtulo 12). Finalmente, al final del libro se incluye una
extensa bibliograf´ıa para consultas adicionales.
Aunque en el libro se presentan tanto la teor´ıa como las aplicaciones
pr´ acticas de esta disciplina, se ha puesto un inter´es especial en las aplica-
ciones pr´ acticas. Por eso, muchos de los teoremas presentados se incluyen
sin demostraci´on, refiri´endose a la bibliograf´ıa para aquellos lectores intere-
sados. As´ı mismo, se introducen numerosos ejemplos para ilustrar cada uno
de los conceptos presentados.
viii
Este libro est´ a organizado de la forma siguiente. El Cap´ıtulo 1 presenta
una introducci´ on al ´ area de la inteligencia artificial y los sistemas expertos
que, entre otras cosas, analiza algunos ejemplos ilustrativos, describe los
componentes de un sistema experto, as´ı como las etapas necesarias para su
desarrollo, y analiza la relaci´ on de los sistemas expertos con otras ´areas de
la inteligencia artificial. Los Cap´ıtulos 2 y 3 describen los dos tipos prin-
cipales de sistemas expertos: los sistemas expertos basados en reglas y los
basados en probabilidad. Aunque estos dos tipos de sistemas se introducen
de forma separada, en el Cap´ıtulo 3 se muestra que los sistemas expertos
basados en reglas se pueden considerar como un tipo particular de sistemas
expertos probabil´ısticos. Tambi´en se muestra que dos de las componentes
m´as complejas e importantes de un sistema experto son el “subsistema de
control de coherencia” y el “motor de inferencia” y estos son, quiz´ as, los
dos componentes m´as d´ebiles de los sistemas expertos desarrollados hasta
la fecha. En los Cap´ıtulos 5−10 se muestra la forma de implementar estos
componentes de forma eficiente.
A partir del Cap´ıtulo 5 se requieren algunos conceptos de la teor´ıa de
grafos, ya que ´estos ser´an la base para construir las redes probabil´ısticas.
Los conceptos necesarios en este libro, que son un prerequisito b´ asico para
entender los cap´ıtulos siguientes, se presentan en el Cap´ıtulo 4. Los Cap´ıtulos
5−7 analizan el problema de la construcci´ on de modelos probabil´ısticos,
desde varias perspectivas. En particular, los conceptos de dependencia e
independencia condicional, necesarios para definir la estructura de las re-
des probabil´ısticas, se introducen y analizan con detalle en el Cap´ıtulo 5. El
Cap´ıtulo 6 presenta los dos modelos m´as importantes de redes probabil´ısti-
cas, las redes de Markov y las redes Bayesianas, que se definen a partir de
una estructura gr´ afica no dirigida y dirigida, respectivamente. El Cap´ıtulo
7 presenta algunas extensiones de los modelos gr´aficos para definir modelos
probabil´ısticos m´as generales a partir de multigrafos, conjuntos de rela-
ciones de independencia condicional, modelos multifactorizados y modelos
definidos condicionalmente.
Los Cap´ıtulos 8 y 9 presentan los m´etodos de propagaci´ on exacta y
aproximada m´ as importantes, respectivamente. El Cap´ıtulo 10 analiza la
propagaci´ on simb´ olica que es uno de los avances m´as recientes de la propa-
gaci´on en redes probabil´ısticas. El Cap´ıtulo 11 est´ a dedicado al problema
del aprendizaje; en concreto, al problema del aprendizaje de redes Bayesia-
nas a partir de un conjunto de datos (una base de datos, etc.). Finalmente,
el Cap´ıtulo 12 ilustra la aplicaci´ on de todos los conceptos presentados en
el libro mediante su aplicaci´ on a ejemplos reales.
Muchos de nuestros colegas y estudiantes han leido versiones anteriores
de este libro y nos han proporcionado muchas sugerencias que han ayu-
dado a mejorar notablemente distintas partes del mismo. En particular,
agradecemos la inestimable ayuda de (en orden alfab´etico): Noha Adly,
Remco Bouckaert, Federico Ceballos, Jong Wang Chow, Javier D´ıez, Dan
ix
Geiger, Joseph Halpern, Judea Pearl, Julius Reiner, Jos´e Mar´ıa Sarabia,
Milan Studen´ y, y Jana Zv´ arov´ a.
Enrique Castillo
Jose Manuel Guti´errez
Ali S. Hadi
This is page x
Printer: Opaque this
This is page xi
Printer: Opaque this
Tabla de Contenidos
1 Introducci´on 1
1.1 Introducci´ on . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 ¿Qu´e es un Sistema Experto? . . . . . . . . . . . . . . . . . 2
1.3 Ejemplos Ilustrativos . . . . . . . . . . . . . . . . . . . . . . 4
1.4 ¿Por Qu´e los Sistemas Expertos? . . . . . . . . . . . . . . . 7
1.5 Tipos de Sistemas Expertos . . . . . . . . . . . . . . . . . . 8
1.6 Componentes de un Sistema Experto . . . . . . . . . . . . . 9
1.7 Desarrollo de un Sistema Experto . . . . . . . . . . . . . . . 15
1.8 Otras
´
Areas de la IA . . . . . . . . . . . . . . . . . . . . . . 16
1.9 Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2 Sistemas Basados en Reglas 23
2.1 Introducci´ on . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.2 La Base de Conocimiento . . . . . . . . . . . . . . . . . . . 24
2.3 El Motor de Inferencia . . . . . . . . . . . . . . . . . . . . . 30
2.4 Control de la Coherencia . . . . . . . . . . . . . . . . . . . . 51
2.5 Explicando Conclusiones . . . . . . . . . . . . . . . . . . . . 59
2.6 Ejemplo de Aplicaci´ on . . . . . . . . . . . . . . . . . . . . . 59
2.7 Introduciendo Incertidumbre . . . . . . . . . . . . . . . . . 64
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
3 Sistemas Expertos Basados en Probabilidad 69
3.1 Introducci´ on . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
3.2 Algunos Conceptos B´asicos de la Teor´ıa de la Probabilidad 71
3.3 Reglas Generalizadas . . . . . . . . . . . . . . . . . . . . . . 85
3.4 Introduciendo los Sistemas Expertos Basados en Probabilidad 87
3.5 La Base de Conocimiento . . . . . . . . . . . . . . . . . . . 92
3.6 El Motor de Inferencia . . . . . . . . . . . . . . . . . . . . . 104
3.7 Control de la Coherencia . . . . . . . . . . . . . . . . . . . . 106
3.8 Comparando los dos Tipos de Sistemas Expertos . . . . . . 108
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
xii Tabla de Contenidos
4 Algunos Conceptos sobre Grafos 115
4.1 Introducci´ on . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
4.2 Conceptos B´asicos y Definiciones . . . . . . . . . . . . . . . 116
4.3 Caracter´ısticas de los Grafos no Dirigidos . . . . . . . . . . 120
4.4 Caracter´ısticas de los Grafos Dirigidos . . . . . . . . . . . . 124
4.5 Grafos Triangulados . . . . . . . . . . . . . . . . . . . . . . 131
4.6 Grafos de Aglomerados . . . . . . . . . . . . . . . . . . . . . 142
4.7 Representaci´on de Grafos . . . . . . . . . . . . . . . . . . . 148
4.8 Algunos Algoritmos para Grafos . . . . . . . . . . . . . . . 162
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175
5 Construcci´ on de Modelos Probabil´ısticos 179
5.1 Introducci´ on . . . . . . . . . . . . . . . . . . . . . . . . . . . 179
5.2 Criterios de Separaci´ on Gr´ afica . . . . . . . . . . . . . . . . 181
5.3 Algunas Propiedades de la Independencia Condicional . . . 188
5.4 Modelos de Dependencia . . . . . . . . . . . . . . . . . . . . 197
5.5 Factorizaciones de una Funci´ on de Probabilidad . . . . . . . 199
5.6 Construcci´ on de un Modelo Probabil´ıstico . . . . . . . . . . 206
Ap´endice al Cap´ıtulo 5 . . . . . . . . . . . . . . . . . . . . . 211
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213
6 Modelos Definidos Gr´aficamente 217
6.1 Introducci´ on . . . . . . . . . . . . . . . . . . . . . . . . . . . 217
6.2 Algunas Definiciones y Problemas . . . . . . . . . . . . . . . 219
6.3 Modelos de Dependencia Gr´ aficos no Dirigidos . . . . . . . 225
6.4 Modelos de Dependencia en Gr´ aficos Dirigidos . . . . . . . 243
6.5 Modelos Gr´ aficos Equivalentes . . . . . . . . . . . . . . . . 262
6.6 Expresividad de los Modelos Gr´ aficos . . . . . . . . . . . . . 269
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 272
7 Extensiones de los Modelos Gr´aficos 277
7.1 Introducci´ on . . . . . . . . . . . . . . . . . . . . . . . . . . . 277
7.2 Modelos Definidos por Multigrafos . . . . . . . . . . . . . . 279
7.3 Modelos Definidos por Listas de Independencias . . . . . . . 286
7.4 Modelos probabil´ısticos Multifactorizados . . . . . . . . . . 290
7.5 Modelos Multinomiales Multifactorizados . . . . . . . . . . 291
7.6 Modelos Normales Multifactorizados . . . . . . . . . . . . . 304
7.7 Modelos probabil´ısticos definidos Condicionalmente . . . . . 311
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 326
8 Propagaci´on Exacta en Redes Probabil´ısticas 331
8.1 Introducci´ on . . . . . . . . . . . . . . . . . . . . . . . . . . . 331
8.2 Propagaci´ on de Evidencia . . . . . . . . . . . . . . . . . . . 332
8.3 Propagaci´ on en Poli´ arboles . . . . . . . . . . . . . . . . . . 336
8.4 Propagaci´ on en Redes M´ ultiplemente Conexas . . . . . . . . 356
Tabla de Contenidos xiii
8.5 M´etodo de Condicionamiento . . . . . . . . . . . . . . . . . 358
8.6 M´etodos de Agrupamiento . . . . . . . . . . . . . . . . . . . 367
8.7 Propagaci´ on en
´
Arboles de Conglomerados . . . . . . . . . 383
8.8 Propagaci´ on Orientada a un Objetivo . . . . . . . . . . . . 395
8.9 Propagaci´ on Exacta en Redes Bayesianas Gausianas . . . . 400
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 405
9 M´etodos de Propagaci´ on Aproximada 411
9.1 Introducci´ on . . . . . . . . . . . . . . . . . . . . . . . . . . . 411
9.2 Base Intuitiva de los M´etodos de Simulaci´ on . . . . . . . . . 412
9.3 Metodolog´ıa General para los M´etodos de Simulaci´ on . . . . 418
9.4 El M´etodo de Aceptaci´on-Rechazo . . . . . . . . . . . . . . 425
9.5 M´etodo del Muestreo Uniforme . . . . . . . . . . . . . . . . 429
9.6 El M´etodo de la Funci´ on de Verosimilitud Pesante . . . . . 430
9.7 El Muestreo Hacia Adelante y Hacia Atr´ as . . . . . . . . . . 432
9.8 M´etodo de Muestreo de Markov . . . . . . . . . . . . . . . . 435
9.9 M´etodo del Muestreo Sistem´atico . . . . . . . . . . . . . . . 438
9.10 M´etodo de B´ usqueda de la M´ axima Probabilidad . . . . . . 450
9.11 An´ alisis de Complejidad . . . . . . . . . . . . . . . . . . . . 460
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 460
10 Propagaci´on Simb´olica de Evidencia 463
10.1 Introducci´ on . . . . . . . . . . . . . . . . . . . . . . . . . . . 463
10.2 Notaci´ on y Conceptos Preliminares . . . . . . . . . . . . . . 465
10.3 Generaci´ on Autom´ atica de C´odigo Simb´ olico . . . . . . . . 467
10.4 Estructura Algebraica de las Probabilidades . . . . . . . . . 474
10.5 Propagaci´ on Simb´ olica Mediante M´etodos Num´ericos . . . . 475
10.6 Propagaci´ on Simb´ olica Orientada a un Objetivo . . . . . . . 485
10.7 Tratamiento Simb´ olico de la Evidencia Aleatoria . . . . . . 491
10.8 An´ alisis de Sensibilidad . . . . . . . . . . . . . . . . . . . . 493
10.9 Propagaci´ on Simb´ olica en Redes Bayesianas Normales . . . 496
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 500
11 Aprendizaje en Redes Bayesianas 503
11.1 Introducci´ on . . . . . . . . . . . . . . . . . . . . . . . . . . . 503
11.2 Midiendo la Calidad de una Red Bayesiana . . . . . . . . . 506
11.3 Medidas de Calidad Bayesianas . . . . . . . . . . . . . . . . 509
11.4 Medidas Bayesianas para Redes Multinomiales . . . . . . . 513
11.5 Medidas Bayesianas para Redes Multinormales . . . . . . . 522
11.6 Medidas de M´ınimo Requerimiento Descriptivo . . . . . . . 529
11.7 Medidas de Informaci´ on . . . . . . . . . . . . . . . . . . . . 532
11.8 An´ alisis Posterior de las Medidas de Calidad . . . . . . . . 533
11.9 Algoritmos de B´ usqueda de Redes Bayesianas . . . . . . . . 534
11.10El Caso de Datos Incompletos . . . . . . . . . . . . . . . . . 536
Ap´endice al Cap´ıtulo 11: Estad´ıstica Bayesiana . . . . . . . 538
xiv Tabla de Contenidos
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 548
12 Ejemplos de Aplicaci´on 551
12.1 Introducci´ on . . . . . . . . . . . . . . . . . . . . . . . . . . . 551
12.2 El Sistema del Tanque de Presi´ on . . . . . . . . . . . . . . . 552
12.3 Sistema de Distribuci´ on de Energ´ıa . . . . . . . . . . . . . . 565
12.4 Da˜ no en Vigas de Hormig´ on Armado . . . . . . . . . . . . . 572
12.5 Da˜ no en Vigas de Hormig´ on Armado: El Modelo Normal . . 585
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 590
Notaci´on 595
Referencias 603
´
Indice 619
This is page 1
Printer: Opaque this
Cap´ıtulo 1
Introducci´ on
1.1 Introducci´ on
No hace mucho tiempo, se cre´ıa que algunos problemas como la demostra-
ci´on de teoremas, el reconocimiento de la voz y el de patrones, ciertos juegos
(como el ajedrez o las damas), y sistemas altamente complejos de tipo de-
terminista o estoc´astico, deb´ıan ser resueltos por personas, dado que su
formulaci´ on y resoluci´ on requieren ciertas habilidades que s´ olo se encuen-
tran en los seres humanos (por ejemplo, la habilidad de pensar, observar,
memorizar, aprender, ver, oler, etc.). Sin embargo, el trabajo realizado en
las tres ´ ultimas d´ecadas por investigadores procedentes de varios campos,
muestra que muchos de estos problemas pueden ser formulados y resueltos
por m´ aquinas.
El amplio campo que se conoce como inteligencia artificial (IA) trata
de estos problemas, que en un principio parec´ıan imposibles, intratables y
dif´ıciles de formular utilizando ordenadores. A. Barr y E. A. Feigenbaum,
dos de los pioneros de la investigaci´ on en IA, definen ´esta como sigue: (v´ease
Barr y Feigenbaum (1981), p´ agina 4):
La Inteligencia Artificial es la parte de la Ciencia que se ocupa
del dise˜ no de sistemas de computaci´ on inteligentes, es decir,
sistemas que exhiben las caracter´ısticas que asociamos a la in-
teligencia en el comportamiento humano que se refiere a la
2 1. Introducci´ on
comprensi´ on del lenguaje, el aprendizaje, el razonamiento, la
resoluci´ on de problemas, etc.
Hoy en d´ıa, el campo de la IA engloba varias sub´ areas tales como los
sistemas expertos, la demostraci´on autom´ atica de teoremas, el juego au-
tom´atico, el reconocimiento de la voz y de patrones, el procesamiento del
lenguaje natural, la visi´ on artificial, la rob´ otica, las redes neuronales, etc.
Este libro est´ a dedicado a los sistemas expertos. Aunque los sistemas ex-
pertos constituyen una de las ´ areas de investigaci´on en el campo de la
IA, la mayor parte de las restantes ´areas, si no todas, disponen de una
componente de sistemas expertos formando parte de ellas.
Este cap´ıtulo presenta una introducci´ on a los sistemas expertos. Se co-
mienza con algunas definiciones de sistemas expertos en la Secci´on 1.2. La
Secci´on 1.3 da algunos ejemplos que sirven para motivar los sistemas exper-
tos en varios campos de aplicaci´on. Estos ejemplos muestran la importancia
y la amplia aplicabilidad de los sistemas expertos en la pr´ actica. Algunas
de las razones para utilizar los sistemas expertos se indican en la Secci´on
1.4. Los principales tipos de sistemas expertos se presentan en la Secci´on
1.5. La Secci´on 1.6 discute y analiza la estructura de los sistemas exper-
tos y sus principales componentes. Las diferentes etapas necesarias para el
dise˜ no, desarrollo e implementaci´ on de los sistemas expertos se analizan en
la Secci´on 1.7. Finalmente, la Secci´ on 1.8 se dedica a mencionar algunas de
las restantes ´areas de investigaci´on de la IA y suministran al lector intere-
sado algunas de las referencias m´as importantes, revistas, y direcciones de
acceso (WWW).
1.2 ¿Qu´e es un Sistema Experto?
En la literatura existente se pueden encontrar muchas definiciones de sis-
tema experto. Por ejemplo, Stevens (1984), p´ agina 40, da la definici´ on
siguiente:
Los sistemas expertos son m´ aquinas que piensan y razonan como
un experto lo har´ıa en una cierta especialidad o campo. Por
ejemplo, un sistema experto en diagn´ ostico m´edico requerir´ıa
como datos los s´ıntomas del paciente, los resultados de an´ alisis
cl´ınicos y otros hechos relevantes, y, utilizando ´estos, buscar´ıa
en una base de datos la informaci´ on necesaria para poder iden-
tificar la correspondiente enfermedad. [. . .] Un Sistema Experto
de verdad, no s´olo realiza las funciones tradicionales de mane-
jar grandes cantidades de datos, sino que tambi´en manipula esos
datos de forma tal que el resultado sea inteligible y tenga sig-
nificado para responder a preguntas incluso no completamente
especificadas.
0 100 200 300
Negocios
Industria
Medicina
Ingeniería
Militar
Espacio
Ciencias Aplicadas
400
Transporte
Educación
Otros
1.2 ¿Qu´e es un Sistema Experto? 3
Aunque la anterior es todav´ıa una definici´ on razonable de un sistema ex-
perto, han surgido desde entonces otras definiciones, debido al r´ apido desa-
rrollo de la tecnolog´ıa (ver, por ejemplo, Castillo y
´
Alvarez (1991) y Durkin
(1994)). El sentido de estas definiciones puede resumirse como sigue:
Definici´on 1.1 Sistema Experto. Un sistema experto puede definirse
como un sistema inform´ atico (hardware y software) que simula a los exper-
tos humanos en un ´area de especializaci´ on dada.
Como tal, un sistema experto deber´ıa ser capaz de procesar y memorizar
informaci´ on, aprender y razonar en situaciones deterministas e inciertas,
comunicar con los hombres y/u otros sistemas expertos, tomar decisiones
apropiadas, y explicar por qu´e se han tomado tales decisiones. Se puede
pensar tambi´en en un sistema experto como un consultor que puede sumi-
nistrar ayuda a (o en algunos casos sustituir completamente) los expertos
humanos con un grado razonable de fiabilidad.
Durante la ´ ultima d´ecada se han desarrollado muy r´ apidamente nu-
merosas aplicaciones de sistemas expertos a muchos campos (ver, por ejem-
plo, Quinlan (1987, 1989)). Durkin (1994) examina unos 2,500 sistemas
expertos y los clasifica por criterios, tales como ´areas de aplicaci´on, tareas
realizadas, etc. Tal como puede verse en la Figura 1.1, la econom´ıa, la indus-
tria y la medicina contin´ uan siendo los campos dominantes entre aquellos
en los que se utilizan los sistemas expertos. La secci´on siguiente muestra
algunos ejemplos que motivan la aplicaci´ on de los sistemas expertos en
algunos de estos campos.
FIGURA 1.1. Campos de aplicaci´on de los sistemas expertos. Adaptado de
Durkin (1994) y Castillo, Guti´errez, y Hadi (1995a).
4 1. Introducci´ on
1.3 Ejemplos Ilustrativos
Los sistemas expertos tienen muchas aplicaciones. En esta seecci´on se dan
unos pocos ejemplos ilustrativos del tipo de problemas que pueden resol-
verse mediante sistemas expertos. Otros ejemplos pr´acticos se dan a lo largo
del libro.
Ejemplo 1.1 Transacciones bancarias. No hace mucho, para hacer una
transacci´on bancaria, tal como depositar o sacar dinero de una cuenta, uno
ten´ıa que visitar el banco en horas de oficina. Hoy en d´ıa, esas y otras
muchas transacciones pueden realizarse en cualquier momento del d´ıa o
de la noche usando los cajeros autom´ aticos que son ejemplos sencillos de
sistemas expertos. De hecho, se pueden realizar estas transacciones desde
casa comunic´andose con el sistema experto mediante la l´ınea telef´ onica.
Ejemplo 1.2 Control de tr´afico. El control de tr´ afico es una de las
aplicaciones m´as importantes de los sistemas expertos. No hace mucho
tiempo, el flujo de tr´ afico en las calles de una ciudad se controlaba mediante
guardias de tr´ afico que controlaban el mismo en las intersecciones. Hoy se
utilizan sistemas expertos que operan autom´ aticamente los sem´aforos y
regulan el flujo del tr´ afico en las calles de una ciudad y en los ferrocarriles.
En la Secci´ on 2.6 y en los ejercicios del Cap´ıtulo 2 se dan ejemplos de estos
sistemas.
Ejemplo 1.3 Problemas de planificaci´on. Los sistemas expertos pueden
utilizarse tambi´en para resolver problemas complicados de planificaci´ on de
forma que se optimicen ciertos objetivos como, por ejemplo, la organizaci´ on
y asignaci´ on de aulas para la realizaci´ on de ex´ amenes finales en una gran
universidad, de forma tal que se logren los objetivos siguientes:
• Eliminar las coincidencias de asignaci´ on simult´ anea de aulas: S´ olo se
puede relizar un examen en cada aula al mismo tiempo.
• Asientos suficientes: Un aula asignada para un examen debe tener al
menos dos asientos por estudiante.
• Minimizar los conflictos temporales: Minimizar el n´ umero de alumnos
que tienen ex´ amenes coincidentes.
• Eliminar la sobrecarga de trabajo: Ning´ un alumno debe tener m´ as de
dos ex´amenes en un periodo de 24 horas.
• Minimizar el n´ umero de ex´amenes realizados durante las tardes.
Otros ejemplos de problemas de planificaci´ on que pueden ser resueltos
mediante sistemas expertos son la planificaci´on de doctores y enfermeras
en un gran hospital, la planificaci´ on en una gran factor´ıa, y la planificaci´ on
de autobuses para las horas de congesti´ on o de d´ıas festivos.
1.3 Ejemplos Ilustrativos 5
Ejemplo 1.4 Diagn´ostico m´edico. Una de las aplicaciones m´as impor-
tantes de los sistemas expertos tiene lugar en el campo m´edico, donde ´estos
pueden ser utilizados para contestar a las siguientes preguntas:
1. ¿C´omo se puede recoger, organizar, almacenar, poner al d´ıa y recu-
perar la informaci´ on m´edica (por ejemplo, registros de pacientes) de
una forma eficiente y r´ apida? Por ejemplo, sup´ ongase que un doctor
en un centro m´edico est´a interesado en conocer informaci´ on sobre una
cierta enfermedad (E) y tres s´ıntomas asociados (S
1
, S
2
, y S
3
). Se
puede utilizar un sistema experto para buscar en la base de datos,
extraer y organizar la informaci´ on deseada. Esta informaci´ on puede
resumirse en tablas tales como la dada en la Tabla 1.1 o en gr´ aficos
como el de la Figura 1.2.
2. ¿C´omo se puede aprender de la experiencia? Es decir, c´omo se actua-
liza el conocimiento de los doctores en medicina cuando el n´ umero de
pacientes que ´estos tratan aumenta?
3. Supuesto que un paciente presenta un conjunto de s´ıntomas, ¿c´omo se
decide qu´e enfermedad es la que m´as probablemente tiene el paciente?
4. ¿Cu´ ales son las relaciones entre un conjunto (normalmente no ob-
servable) de enfermedades y un conjunto (observable) de s´ıntomas?
En otras palabras, ¿qu´e modelos pueden utilizarse para describir las
relaciones entre los s´ıntomas y las enfermedades?
5. Dado que el conjunto de s´ıntomas conocidos no es suficiente para diag-
nosticar la enfermedad con cierto grado de certeza, ¿qu´e informaci´ on
adicional debe ser obtenida (por ejemplo, ¿qu´e s´ıntomas adicionales
deben ser identificados? o ¿qu´e pruebas m´edicas deben realizarse?).
6. ¿Cu´ al es el valor de cada una de ´estas piezas de informaci´on? En
otras palabras, ¿cu´ al es la contribuci´ on de cada uno de los s´ıntomas
adicionales o pruebas a la toma de decisi´ on?
Ejemplo 1.5 Agentes secretos. Alberto, Luisa, Carmen, y Tom´ as son
agentes secretos, cada uno est´a en uno de los cuatro pa´ıses: Egipto, Francia,
Jap´ on y Espa˜ na. No se sabe d´onde est´a cada uno de ellos. Por tanto, se ha
pedido informaci´ on y se han recibido los cuatro telegramas siguientes:
• Desde Francia: Luisa est´a en Espa˜ na.
• Desde Espa˜ na: Alberto est´ a en Francia.
• Desde Egipto: Carmen est´a en Egipto.
• Desde Jap´on: Carmen est´a en Francia.
No se sabe qui´en es el que ha mandado cada uno de los mensajes, pero se
sabe que Tom´as miente (¿un agente doble?) y que los dem´ as agentes dicen
la verdad.
S
1
14
6
6
6
6
7
4
8
2 2
9
5
10
15
E = 1
E = 0
S
2
S
3
6 1. Introducci´ on
FIGURA 1.2. Una representaci´on gr´ afica de la distribuci´on de frcuencias de una
enfermedad (D) y tres s´ıntomas binarios (S
1
, S
2
, y S
3
) en una base de datos
m´edica.
E S
1
S
2
S
3
Frecuencia
1 1 1 1 7
1 1 1 0 4
1 1 0 1 6
1 1 0 0 14
1 0 1 1 6
1 0 1 0 8
1 0 0 1 0
1 0 0 0 15
0 1 1 1 2
0 1 1 0 0
0 1 0 1 6
0 1 0 0 5
0 0 1 1 6
0 0 1 0 2
0 0 0 1 9
0 0 0 0 10
TABLA 1.1. Una representaci´on tabular de la distribuci´on de frecuencias de una
enfermedad (D) y tres s´ıntomas binarios (S
1
, S
2
, y S
3
) en una base de datos
m´edica (1 representa la presencia y 0 representa la ausencia de la enfermedad o
el s´ıntoma indicado).
1.4 ¿Por Qu´e los Sistemas Expertos? 7
La cuesti´on que se desea responder es: ¿Qu´e agente est´a en cada pa´ıs?
Aunque se trata de un problema de l´ ogica, que contiene afirmaciones muy
simples, su soluci´on no es f´ acil de obtener a simple vista. En la Secci´ on 2.4.2
se muestra la forma de resolver autom´aticamente este problema utilizando
un conjunto de reglas.
1.4 ¿Por Qu´e los Sistemas Expertos?
El desarrollo o la adquisici´ on de un sistema experto es generalmente caro,
pero el mantenimiento y el coste marginal de su uso repetido es relativa-
mente bajo. Por otra parte, la ganancia en t´erminos monetarios, tiempo,
y precisi´ on resultantes del uso de los sistemas expertos son muy altas,
y la amortizaci´ on es muy r´ apida. Sin embargo, antes de desarrollar o
adquirir un sistema experto debe realizarse un an´ alisis de factibilidad y
de coste-beneficio. Hay varias razones para utilizar sistemas expertos. Las
m´as importantes son:
1. Con la ayuda de un sistema experto, personal con poca experiencia
puede resolver problemas que requieren un conocimiento de experto.
Esto es tambi´en importante en casos en los que hay pocos expertos
humanos. Adem´ as, el n´ umero de personas con acceso al conocimiento
aumenta con el uso de sistemas expertos.
2. El conocimiento de varios expertos humanos puede combinarse, lo
que da lugar a sistemas expertos m´as fiables, ya que se obtiene un
sistema experto que combina la sabidur´ıa colectiva de varios expertos
humanos en lugar de la de uno solo.
3. Los sistemas expertos pueden responder a preguntas y resolver pro-
blemas mucho m´as r´apidamente que un experto humano. Por ello, los
sistemas son muy valiosos en casos en los que el tiempo de respuesta
es cr´ıtico.
4. En algunos casos, la complejidad del problema impide al experto
humano resolverlo. En otros casos la soluci´ on de los expertos humanos
no es fiable. Debido a la capacidad de los ordenadores de procesar
un elevad´ısimo n´ umero de operaciones complejas de forma r´apida y
aproximada, los sistemas expertos suministran respuestas r´apidas y
fiables en situaciones en las que los expertos humanos no pueden.
5. Los sistemas expertos pueden ser utilizados para realizar operacio-
nes mon´otonas, aburridas e inconfortables para los humanos. En ver-
dad, los sistemas expertos pueden ser la ´ unica soluci´ on viable en una
situaci´ on en la que la tarea a realizar desborda al ser humano (por
ejemplo, un avi´ on o una c´ apsula espacial dirigida por un sistema
experto).
8 1. Introducci´ on
6. Se pueden obtener enormes ahorros mediante el uso de sistemas ex-
pertos.
El uso de los sistemas expertos se recomienda especialmente en las situa-
ciones siguientes:
• Cuando el conocimiento es dif´ıcil de adquirir o se basa en reglas que
s´olo pueden ser aprendidas de la experiencia.
• Cuando la mejora continua del conocimiento es esencial y/o cuando
el problema est´a sujeto a reglas o c´odigos cambiantes.
• Cuando los expertos humanos son caros o dif´ıciles de encontrar.
• Cuando el conocimiento de los usuarios sobre el tema es limitado.
1.5 Tipos de Sistemas Expertos
Los problemas con los que pueden tratar los sistemas expertos pueden clasi-
ficarse en dos tipos: problemas esencialmente deterministas y problemas
esencialmente estoc´asticos. Por ejemplo, aunque el ejemplo 1.1 (transac-
ciones bancariass) y el Ejemplo 1.2 (control de tr´ afico) pueden contener
algunos elementos de incertidumbre, son esencialmente problemas deter-
ministas. Por otra parte, en el campo m´edico (ver Ejemplo 1.4) las rela-
ciones entre s´ıntomas y enfermedades se conocen s´olo con un cierto grado
de certeza (la presencia de un conjunto de s´ıntomas no siempre implica la
presencia de una enfermedad). Estos tipos de problemas pueden tambi´en
incluir algunos elementos deterministas, pero se trata fundamentalmente
de problemas estoc´asticos.
Consecuentemente, los sistemas expertos pueden clasificarse en dos tipos
principales seg´ un la naturaleza de problemas para los que est´ an dise˜ nados:
deterministas y estoc´asticos.
Los problemas de tipo determinista pueden ser formulados usando un
conjunto de reglas que relacionen varios objetos bien definidos. Los sistemas
expertos que tratan problemas deterministas son conocidos como sistemas
basados en reglas, porque sacan sus conclusiones bas´andose en un conjunto
de reglas utilizando un mecanismo de razonamiento l´ ogico. El Cap´ıtulo 2
se dedica a los sistemas expertos basados en reglas.
En situaciones inciertas, es necesario introducir algunos medios para
tratar la incertidumbre. Por ejemplo, algunos sistemas expertos usan la
misma estructura de los sistemas basados en reglas, pero introducen una
medida asociada a la incertidumbre de las reglas y a la de sus premisas. En
este caso se pueden utilizar algunas f´ormulas de propagaci´ on para calcular
la incertidumbre asociada a las conclusiones. Durante las ´ ultimas d´ecadas
han sido propuestas algunas medidas de incertidumbre. Algunos ejemplos
1.6 Componentes de un Sistema Experto 9
de estas medidas son los factores de certeza, usados en las conchas para
generar sistemas expertos tales como el sistema experto MYCIN (v´ease
Buchanan y Shortliffe (1984)); la l´ ogica difusa (v´ease, por ejemplo, Zadeh
(1983) y Buckley, Siler, y Tucker (1986)); y la teor´ıa de la evidencia de
Dempster y Shafer (v´ease Shafer (1976)).
Otra medida intuitiva de incertidumbre es la probabilidad, en la que la
distribuci´ on conjunta de un conjunto de variables se usa para describir
las relaciones de dependencia entre ellas, y se sacan conclusiones usando
f´ ormulas muy conocidas de la teor´ıa de la probabilidad. Este es el caso del
sistema experto PROSPECTOR (v´ease Duda, Gaschnig, y Hart (1980)),
que utiliza el teorema de Bayes para la exploraci´ on de mineral.
Los sistemas expertos que utilizan la probabilidad como medida de incer-
tidumbre se conocen como sistemas expertos probabil´ısticos y la estrategia
de razonamiento que usan se conoce como razonamiento probabil´ıstico, o
inferencia probabil´ıstica.. Este libro est´ a dedicado a los sistemas expertos de
tipo probabil´ıstico. Otros libros que sirven para introducirse de forma ge-
neral en otras medidas de incertidumbre son Buchanan y Shortliffe (1984),
Waterman (1985), Pearl (1988), Jackson (1990), Neapolitan (1990), Castillo
y
´
Alvarez (1991), Durkin (1994) y Jensen (1996).
En los comienzos de los sistemas expertos de tipo probabil´ıstico surgieron
varios obst´ aculos, debido a las dificultades encontradas para definir la dis-
tribuci´ on de probabilidad conjunta de las variables. Ello ha ralentizado
su desarrollo. Con la introducci´ on de los modelos de redes probabil´ısticas,
estos obst´aculos se han superado y los sistemas expertos probabil´ısticos
han vuelto de forma espectacular durante las dos ´ ultimas d´ecadas. Estos
modelos, que incluyen las redes de Markov y las Bayesianas, se basan en
una representaci´ on gr´ afica de las relaciones entre las variables. Esta repre-
sentaci´on conduce no s´ olo a formas m´as eficientes de definir la distribuci´ on
conjunta de probabilidad sino tambi´en a una propagaci´ on de incertidumbre
muy eficiente, que permite sacar conclusiones. Ejemplos de tales conchas
para el desarrollo de sistemas expertos son el sistema HUGIN (v´ease An-
dersen y otros (1989)) y X-pert Nets,
1
que ha sido desarrollado por los
autores de este libro.
1.6 Componentes de un Sistema Experto
Las definiciones de sistemas expertos dadas en la Secci´on 1.2 se entienden
mejor cuando se examinan las principales componentes de los sistemas ex-
pertos. Estas componentes se muestran esquem´aticamente en la Figura 1.3
y se explican seguidamente.
1
´
Esta y otras conchas para sistemas expertos pueden obtenerse de la direcci´on
WWW http://ccaix3.unican.es/˜AIGroup.
Subsistema
Control
Coherencia
Base de Datos
Subsistema
Adquisición
Información
Usuarios
Especialistas
Expertos Humanos
Subsistema
Interfase
Usuario
Subsistema
Adquisición
Conocimiento
Subsistema
Explicación
Subsistema
Ejecución-Acción
Memoria
Trabajo
Motor
Inferencia
Base
Conocimiento
Subsistema
Aprendizaje
Ingenieros
Conocimiento
10 1. Introducci´ on
FIGURA 1.3. Componentes t´ıpicos de un sistema experto. Las flechas representan
el flujo de la informaci´on.
1.6.1 La Componente Humana
Un sistema experto es generalmente el resultado de la colaboraci´on de uno
o varios expertos humanos especialistas en el tema de estudio y los inge-
nieros del conocimiento, con los usuarios en mente. Los expertos humanos
suministran el conocimiento b´ asico en el tema de inter´es, y los ingenieros
del conocimiento trasladan este conocimiento a un lenguaje, que el sis-
tema experto pueda entender. La colaboraci´ on de los expertos humanos,
los ingenieros del conocimiento y los usuarios es, quiz´ as, el elemento m´as
1.6 Componentes de un Sistema Experto 11
importante en el desarrollo de un sistema experto. Esta etapa requiere una
enorme dedicaci´on y un gran esfuerzo debido a los diferentes lenguajes que
hablan las distintas partes y a las diferentes experiencias que tienen.
1.6.2 La Base de Conocimiento
Los especialistas son responsables de suministrar a los ingenieros del cono-
cimiento una base de conocimiento ordenada y estructurada, y un conjunto
de relaciones bien definidas y explicadas. Esta forma estructurada de pensar
requiere que los expertos humanos repiensen, reorganicen, y reestructuren
la base de conocimiento y, como resultado, el especialista se convierte en
un mejor conocedor de su propio campo de especialidad.
Hay que diferenciar entre datos y conocimiento. El conocimiento se re-
fiere a afirmaciones de validez general tales como reglas, distribuciones de
probabilidad, etc. Los datos se refieren a la informaci´ on relacionada con una
aplicaci´ on particular. Por ejemplo, en diagn´ ostico m´edico, los s´ıntomas, las
enfermedades y las relaciones entre ellos, forman parte del conocimiento,
mientras los s´ıntomas particulares de un paciente dado forman parte de los
datos. Mientras el conocimiento es permanente, los datos son ef´ımeros, es
decir, no forman parte de la componente permanente de un sistema y son
destru´ıdos despu´es de usarlos. El conocimiento se almacena en la base de
conocimiento y los datos se almacenan en la memoria de trabajo. Todos los
procedimientos de los diferentes sistemas y subsistemas que son de car´acter
transitorio se almacenan tambi´en en la memoria de trabajo.
1.6.3 Subsistema de Adquisici´ on de Conocimiento
El subsistema de adquisici´ on de conocimiento controla el flujo del nuevo
conocimiento que fluye del experto humano a la base de datos. El sistema
determina qu´e nuevo conocimiento se necesita, o si el conocimiento recibido
es en realidad nuevo, es decir, si debe incluirse en la base de datos y, en
caso necesario, incorpora estos conocimientos a la misma.
1.6.4 Control de la Coherencia
El subsistema de control de la coherencia ha aparecido en los sistemas ex-
pertos muy recientemente. Sin embargo, es una componente esencial de
un sistema experto. Este susbsistema controla la consistencia de la base
de datos y evita que unidades de conocimiento inconsistentes entren en la
misma. En situaciones complejas incluso un experto humano puede formu-
lar afirmaciones inconsistentes. Por ello, sin un subsistema de control de la
coherencia, unidades de conocimiento contradictorio pueden formar parte
de la base de conocimiento, dando lugar a un comportamiento insatisfacto-
rio del sistema. Es tambi´en bastante com´ un, especialmente en sistemas con
12 1. Introducci´ on
mecanismos de propagaci´on de incertidumbre, que se llegue a conclusiones
absurdas o en conflicto como, por ejemplo, situaciones en las que el sis-
tema genera probabilidades mayores que la unidad o negativas. Por ello, el
subsistema de control de la coherencia comprueba e informa a los expertos
de las inconsistencias. Por otra parte, cuando se solicita informaci´ on de los
expertos humanos, ´este subsistema informa sobre las restricciones que ´esta
debe cumplir para ser coherente con la existente en la base de conocimiento.
De esta forma, ayuda a los expertos humanos a dar informaci´ on fiable.
1.6.5 El Motor de Inferencia
El motor de inferencia es el coraz´on de todo sistema experto. El cometido
principal de esta componente es el de sacar conclusiones aplicando el cono-
cimiento a los datos. Por ejemplo, en diagn´ ostico m´edico, los s´ıntomas de un
paciente (datos) son analizados a la luz de los s´ıntomas y las enfermedades
y de sus relaciones (conocimiento).
Las conclusiones del motor de inferencia pueden estar basadas en conoci-
miento determinista o conocimiento probabil´ıstico. Como puede esperarse,
el tratamiento de situaciones de incertidumbre (probabil´ısticas) puede ser
considerablemente m´as dif´ıcil que el tratamiento de situaciones ciertas (de-
terministas). En muchos casos, algunos hechos (datos) no se conocen con
absoluta certeza. Por ejemplo, pi´ensese en un paciente que no est´a seguro
de sus s´ıntomas. Puede darse el caso de tener que trabajar con conoci-
miento de tipo no determinista, es decir, de casos en los que se dispone
s´olo de informaci´ on aleatoria o difusa. El motor de inferencia es tambi´en
responsable de la propagaci´ on de este conocimiento incierto. De hecho, en
los sistemas expertos basados en probabilidad, la propagaci´ on de incerti-
dumbre es la tarea principal del motor de inferencia, que permite sacar
conclusiones bajo incertidumbre. Esta tarea es tan compleja que da lu-
gar a que ´esta sea probablemente la componente m´as d´ebil de casi todos
los sistemas expertos existentes. Por esta raz´on, la mayor parte de este
libro se dedica al an´ alisis y resoluci´on del problema de la propagaci´ on de
incertidumbre.
1.6.6 El Subsistema de Adquisici´on de Conocimiento
Si el conocimiento inicial es muy limitado y no se pueden sacar conclusiones,
el motor de inferencia utiliza el subsistema de adquisici´ on de conocimiento
para obtener el conocimiento necesario y continuar con el proceso de infe-
rencia hasta que se hayan sacado conclusiones. En algunos casos, el usuario
puede suministrar la informaci´ on requerida para ´este y otros objetivos. De
ello resulta la necesidad de una interfase de usuario y de una comprobaci´ on
de la consistencia de la informaci´ on suministrada por el usuario antes de
introducirla en la memoria de trabajo.
1.6 Componentes de un Sistema Experto 13
1.6.7 Interfase de Usuario
La interfase de usuario es el enlace entre el sistema experto y el usuario.
Por ello, para que un sistema experto sea una herramienta efectiva, debe
incorporar mecanismos eficientes para mostrar y obtener informaci´ on de
forma f´ acil y agradable. Un ejemplo de la informaci´ on que tiene que ser
mostrada tras el trabajo del motor de inferencia, es el de las conclusiones,
las razones que expliquen tales conclusiones y una explicaci´ on de las ac-
ciones iniciadas por el sistema experto. Por otra parte, cuando el motor de
inferencia no puede concluir debido, por ejemplo, a la ausencia de infor-
maci´on, la interfase de usuario es un veh´ıculo para obtener la informaci´ on
necesaria del usuario. Consecuentemente, una implementaci´on inadecuada
de la interfase de usuario que no facilite este proceso minar´ıa notablemente
la calidad de un sistema experto. Otra raz´ on de la importancia de la in-
terfase de usuario es que los usuarios eval´ uan com´ unmente los sistemas
expertos y otros sistemas por la calidad de dicha interfase m´ as que por la
del sistema experto mismo, aunque no se deber´ıa juzgar la calidad de un
libro por su portada. Los lectores que est´en interesados en el dise˜ no de una
interfase de usuario pueden consultar los libros de Shneiderman (1987) y
Brown y Cunningham (1989).
1.6.8 El Subsistema de Ejecuci´on de
´
Ordenes
El subsistema de ejecuci´ on de ´ordenes es la componente que permite al
sistema experto iniciar acciones. Estas acciones se basan en las conclusiones
sacadas por el motor de inferencia. Como ejemplos, un sistema experto
dise˜ nado para analizar el tr´ afico ferroviario puede decidir retrasar o parar
ciertos trenes para optimizar el tr´ afico global, o un sistema para controlar
una central nuclear puede abrir o cerrar ciertas v´ alvulas, mover barras,
etc., para evitar un accidente. La explicaci´ on de las razones por las que se
inician estas acciones pueden darse al usuario mediante el subsistema de
explicaci´ on.
1.6.9 El Subsistema de Explicaci´on
El usuario puede pedir una explicaci´ on de las conclusiones sacadas o de las
acciones iniciadas por el sistema experto. Por ello, es necesario un subsis-
tema que explique el proceso seguido por el motor de inferencia o por el
subsistema de ejecuci´on. Por ejemplo, si un cajero autom´ atico decide re-
chazar la palabra clave (una acci´ on), la m´ aquina puede mostrar un mensaje
(una explicaci´ on) como la siguiente:
¡Lo siento!, su palabra clave es todav´ıa incorrecta tras tres in-
tentos.
Retenemos su tarjeta de cr´edito, para garantizar su seguridad.
Por favor, p´ ongase en contacto con su banco en horas de oficina.
14 1. Introducci´ on
En muchos dominios de aplicaciones, es necesaria la explicaci´on de las con-
clusiones debido a los riesgos asociados con las acciones a ejecutar. Por
ejemplo, en el campo del diagn´ ostico m´edico, los doctores son responsa-
ble ´ ultimos de los diagn´ osticos, independientemente de las herramientas
t´ecnicas utilizadas para sacar conclusiones. En estas situaciones, sin un
subsistema de explicaci´on, los doctores pueden no ser capaces de explicar
a sus pacientes las razones de su diagn´ostico.
1.6.10 El Subsistema de Aprendizaje
Una de las principales caracter´ısticas de un sistema experto es su capacidad
para aprender. Diferenciaremos entre aprendizaje estructural y aprendizaje
param´etrico. Por aprendizaje estructural nos referimos a algunos aspectos
relacionados con la estructura del conocimiento (reglas, distribuciones de
probabilidad, etc.). Por ello, el descubrimiento de nuevos s´ıntomas rele-
vantes para una enfermedad o la inclusi´ on de una nueva regla en la base
de conocimiento son ejemplos de aprendizaje estructural. Por aprendizaje
param´etrico nos referimos a estimar los par´ametros necesarios para cons-
truir la base de conocimiento. Por ello, la estimaci´ on de frecuencias o proba-
bilidades asociadas a s´ıntomas o enfermedades es un ejemplo de aprendizaje
param´etrico.
Otra caracter´ıstica de los sistemas expertos es su habilidad para obtener
experiencia a partir de los datos disponibles. Estos datos pueden ser obte-
nidos por expertos y no expertos y pueden utilizarse por el subsistema de
adquisici´ on de conocimiento y por el subsistema de aprendizaje.
De las componentes antes mencionadas puede verse que los sistemas
expertos pueden realizar varias tareas. Estas tareas incluyen, pero no se
limitan a, las siguientes:
• Adquisici´ on de conocimiento y la verificaci´ on de su coherencia; por
lo que el sistema experto puede ayudar a los expertos humanos a dar
conocimiento coherente.
• Almacenar (memorizar) conocimiento.
• Preguntar cu´ ando se requiere nuevo conocimiento.
• Aprender de la base de conocimiento y de los datos disponibles.
• Realizar inferencia y razonamiento en situaciones deterministas y de
incertidumbre.
• Explicar conclusiones o acciones tomadas.
• Comunicar con los expertos y no expertos humanos y con otros sis-
temas expertos.
Planteamiento del Problema
Encontrar Expertos Humanos
Diseñar Sistema Experto
Elegir Herramienta Desarrollo
Construir Prototipo
Probar Prototipo
Refinamiento y Generalización
Mantenimiento y Puesta al día
1.7 Desarrollo de un Sistema Experto 15
1.7 Desarrollo de un Sistema Experto
Weiss y Kulikowski (1984) sugieren las etapas siguientes para el dise˜ no e im-
plementaci´on de un sistema experto (ver tambi´en Hayes-Roth, Waterman,
y Lenat (1983), Luger y Stubblefield (1989), y la Figura 1.4):
FIGURA 1.4. Etapas en el dasarrollo de un sistema experto.
1. Planteamiento del problema. La primera etapa en cualquier pro-
yecto es normalmente la definici´on del problema a resolver. Puesto
que el objetivo principal de un sistema experto es responder a pre-
guntas y resolver problemas, esta etapa es quiz´as la m´as importante
en el desarrollo de un sistema experto. Si el sistema est´a mal definido,
se espera que el sistema suministre respuestas err´oneas.
2. Encontrar expertos humanos que puedan resolver el pro-
blema. En algunos casos, sin embargo, las bases de datos pueden
jugar el papel del experto humano.
16 1. Introducci´ on
3. Dise˜ no de un sistema experto. Esta etapa incluye el dise˜ no de
estructuras para almacenar el conocimiento, el motor de inferencia,
el subsistema de explicaci´on, la interfase de usuario, etc.
4. Elecci´on de la herramienta de desarrollo, concha, o lenguaje
de programaci´ on. Debe decidirse si realizar un sistema experto a
medida, o utilizar una concha, una herramienta, o un lenguaje de
programaci´ on. Si existiera una concha satisfaciendo todos los reque-
rimientos del dise˜ no, ´esta deber´ıa ser la elecci´on, no s´ olo por razones
de tipo financiero sino tambi´en por razones de fiabilidad. Las conchas
y herramientas comerciales est´an sujetas a controles de calidad, a los
que otros programas no lo est´ an.
5. Desarrollo y prueba de un prototipo. Si el prototipo no pasa
las pruebas requeridas, las etapas anteriores (con las modificaciones
apropiadas) deben ser repetidas hasta que se obtenga un prototipo
satisfactorio.
6. Refinamiento y generalizaci´on. En esta etapa se corrigen los fallos
y se incluyen nuevas posibilidades no incorporadas en el dise˜ no inicial.
7. Mantenimiento y puesta al d´ıa. En esta etapa el usuario plantea
problemas o defectos del prototipo, corrige errores, actualiza el pro-
ducto con nuevos avances, etc.
Todas estas etapas influyen en la calidad del sistema experto resultante, que
siempre debe ser evaluado en funci´ on de las aportaciones de los usuarios.
Para el lector interesado en estos temas recomendamos la lectura de los
trabajos de O’Keefe, Balci y Smith (1987), Chandrasekaran (1988) y Preece
(1990).
1.8 Otras
´
Areas de la IA
En esta secci´on se da una breve descripci´ on panor´ amica del ´ambito y do-
minio de algunas ´ areas de la IA distintas de la de los sistemas expertos.
Puesto que este libro est´a dedicado exclusivamente a sistemas expertos, se
dan algunas referencias para que el lector interesado pueda acceder a otras
´areas de la IA. Debe tenerse en mente que ´esta no es una lista exhaustiva
de todas las ´areas de la IA y que la IA es un campo que se desarrolla
muy r´ apidamente, y emergen continuamente nuevas ramas para tratar las
nuevas situaciones de esta ciencia que no para de crecer.
Hay varios libros que dan una visi´ on general de la mayor´ıa de los temas
inclu´ıdos en la IA. El multivolumen Handbook of Artificial Intelligence edi-
tado por Barr y Feigenbaum (1981, 1982) (vol´ umenes 1 y 2) y por Cohen y
Feigenbaum (1982) (volumen 3), y la Encyclopedia of Artificial Intelligence,
1.8 Otras
´
Areas de la IA 17
editado por Shapiro (1987) contienen discusiones detalladas de varios de
los temas de la IA. Hay otros muchos libros que cubren las ´ areas de IA. Por
mencionar unos pocos, citamos a: Charniak y McDermott (1985), Rich y
Knight (1991), Winston (1992), Ginsberg (1993), Russell y Norvig (1995).
Como consecuencia de la intensa investigaci´on realizada en el ´ area de la
IA, hay tambi´en un n´ umero creciente de revistas que publican art´ıculos en
los distintos campos de la IA y temas relacionados con ella. Algunas de
estas revistas son: Applied Artificial Intelligence, Applied Intelligence, Ar-
tificial Intelligence, Artificial Intelligence Magazine, International Journal
of Intelligent Systems.
Por otra parte, revistas tales como Artificial Intelligence in Medicine,
Biocybernetics and Biomedical Engineering, Cybernetics and Systems, Fuzzy
Sets and Systems, IEEE Expert, IEEE Transactions on Systems, Man and
Cybernetics, International Journal for Artificial Intelligence in Engineer-
ing, International Journal of Approximate Reasoning, International Jour-
nal of Computer Vision, International Journal of Expert Systems, Machine
Learning, Networks, Neural Networks, y Pattern Recognition Letters se
especializan en un tema o en un cierto dominio de aplicaciones.
2
1.8.1 Representaci´ on del Conocimiento
Hay muchas fuentes de informaci´ on o conocimiento relacionadas con la IA.
El campo de la representaci´ on del conocimiento se refiere a los mecanis-
mos para representar y manipular esta informaci´ on. Los esquemas de re-
presentaci´on resultantes deber´ıan permitir una b´ usqueda o una operaci´ on
eficiente de los mecanismos de inferencia. Por ejemplo, en algunos casos la
informaci´ on puede ser representada mediante objetos (o variables) y por
reglas l´ogicas (que expresan relaciones entre los objetos). Por ello, esta
representaci´on puede manipularse usando an´ alisis l´ ogico.
´
Este es el me-
canismo de representaci´on del conocimiento utilizado, por ejemplo, en los
sistemas expertos basados en reglas (Cap´ıtulo 2). Para tener una visi´ on
general de las diferentes metodolog´ıas de representaci´on del conocimiento
v´ease, por ejemplo, Bachman, Levesque, y Reiter (1991), Bench-Capon
(1990), y los Proceedings of the International Conference on Principles of
Knowledge Representation and Reasoning (KR-89, 91, 92, y 94) publicados
por Morgan y Kaufmann Publishers.
2
Una lista que contiene la mayor´ıa de revistas en el campo de la IA se
puede obtener en la direcci´on WWW “http://ai.iit.nrc.ca/ai journals.html”;
v´ease tambi´en “http://www.bus.orst.edu/faculty/brownc/aies/journals.htm.”
18 1. Introducci´ on
1.8.2 Planificaci´on
Cuando se trata con problemas complejos, es importante dividir las tareas
en partes m´as peque˜ nas que sean m´as f´aciles de manejar. Los m´etodos de
planificaci´ on analizan diferentes estrategias para descomponer un problema
dado, resolver cada una de sus partes, y llegar a una soluci´ on final. La
interacci´ on entre las partes depender´ a del grado de descomponibilidad del
problema. Por otra parte, el comienzo de la computaci´ on paralela, capaz
de realizar varias tareas simult´ aneamente, da lugar a nuevos problemas
que requieren estrategias especiales de planificaci´on. En esta situaci´ on, el
objetivo consiste en dividir las tareas de forma adecuada para resolver
muchas partes simult´aneamente. El trabajo editado por Allen, Hendler, y
Tate (1990), da una descripci´ on general de este campo. Por otra parte, la
colecci´on de art´ıculos editada por Bond y Gasser (1988) est´ a dedicada al
razonamiento paralelo, tambi´en conocido como razonamiento distribuido.
1.8.3 Demostraci´ on Autom´ atica de Teoremas
La capacidad de hacer deducciones l´ ogicas fue considerada durante mucho
tiempo como una posibilidad reservada a la mente humana. La investigaci´ on
desarrollada en los a˜ nos 1960 en el ´area de la demostraci´on autom´ atica de
teoremas ha mostrado que esta tarea puede ser realizada por m´aquinas
programables. Tales m´aquinas son capaces no s´olo de modificar el conoci-
miento existente, sino tambi´en de obtener conclusiones nuevas. En primer
lugar, los demostradores de teoremas han sido utilizados en varios campos
de las matem´aticas, tales como la L´ogica, la Geometr´ıa, etc. El campo de
la Matem´atica constituye un ´ area natural para esta metodolog´ıa por la
existencia de mecanismos de deducci´on y de una extensa base de conoci-
miento. Sin embargo, los demostradores de teoremas, pueden ser adaptados
para resolver problemas de otras ´ areas de conocimiento con estas dos mis-
mas caracter´ısticas. Una introducci´ on general a este tema se da en Wos y
otros (1984) y Bundy (1983), que contiene el c´ odigo en Prolog de un de-
mostrador de teoremas muy simple. Referencias m´as recientes son las de
Newborn (1994), Almulla (1995) y las inclu´ıdas en ellos.
1.8.4 Los Juegos Automatizados
Los juegos automatizados constituyen un ejemplo de una de las m´ as an-
tiguas y fascinantes ´ areas de la IA (v´ease, por ejemplo, Newell, Shaw, y
Simon (1963)). Los juegos por computador (tales como el ajedrez, backgam-
mon, y los de cartas) han visto un desarrollo masivo en los ´ ultimos a˜ nos.
Por ejemplo, los programas de juegos de ajedrez son capaces de compe-
tir e incluso vencer a bien conocidos maestros. El juego autom´ atico re-
quiere un estudio te´ orico profundo y tiene varias aplicaciones en otras ´ areas
tales como m´etodos de b´ usqueda, optimizaci´ on, etc. Una buena discusi´ on
1.8 Otras
´
Areas de la IA 19
de este campo, que incluye adem´as referencias hist´oricas de inter´es, puede
encontrarse en Levy (1988).
1.8.5 Reconocimiento de patrones
El reconocimiento de patrones trata de diferentes t´ecnicas de clasificaci´on
para identificar los subgrupos, o conglomerados, con caracter´ısticas co-
munes en cada grupo. El grado de asociaci´ on de cualquiera de los ob-
jetos con cada uno de los grupos suministra un modo de sacar conclu-
siones. Por ello, los algoritmos desarrollados en este ´area son herramientas
´ utiles para tratar con varios problemas de muchos campos tales como re-
conocimiento de im´agenes, reconocimiento de se˜ nales, diagnosis de fallos
de equipos, control de procesos, etc. Para una introducci´ on general a este
campo v´ease Sing-Tze (1984) y Niemann (1990) y Patrick y Fattu (1984)
para una discusi´ on de tipo estad´ıstico.
1.8.6 Reconocimiento de la Voz
La voz es, con mucho, el medio de comunicaci´on m´ as usado por el hombre.
El reconocimiento de voz trata del problema de procesar el lenguaje hablado
y capturar los diferentes elementos sem´anticos que forman la conversaci´ on.
Los problemas asociados con las diferentes pronunciaciones y tonos de voz
son los principales obt´ aculos que esta disciplina tiene que afrontar. Una in-
troducci´ on general al problema del reconocimiento de voz se da en Rabiner
y Juang (1993).
1.8.7 Procesamiento de Lenguaje Natural
Un objetivo del procesamiento del lenguaje natural consiste en extraer
tanta informaci´ on como sea posible de un texto escrito. Con el uso cre-
ciente de los ordenadores en el tratamiento de la informaci´ on, el lenguaje
escrito est´a jugando un papel muy importante como medio de comuni-
caci´on. Puesto que el reconocimiento de la voz es inherentemente un pro-
blema m´as dif´ıcil, resulta necesario disponer de un procesado eficiente del
lenguaje escrito. El problema inverso del procesamiento del lenguaje es el
de la generaci´ on de lenguaje, es decir, dotar a los computadores de capaci-
dades para generar sentencias de lenguaje natural en vez de mensajes de
tipo telegr´ afico. La combinaci´ on de estas dos tareas permitir´ıa, por ejem-
plo, la posibilidad de traducir textos escritos en diferentes idiomas, lo que
se conoce como traducci´ on asistida por ordenador. Una referencia cl´ asica
a este campo es Schank y Abelson (1977). Tambi´en se pueden encontrar
descripciones interesantes de procesamiento del lenguaje natural en Allen
(1995) y McKeown (1985).
20 1. Introducci´ on
1.8.8 Visi´ on Artificial
Uno de los objetivos de la visi´ on artificial es la posibilidad de usar or-
denadores para localizar y reconocer autom´ aticamente objetos en tres di-
mensiones. Muchas otras ´areas de la IA tales como la representaci´on del
conocimiento, el reconocimiento de patrones, y las redes neuronales jue-
gan un papel esencial en la visi´ on artificial. Los muy significativos avances
t´ecnicos producidos durante la ´ ultima d´ecada has sido aplicados a varios
sistemas comerciales utilizados en fabricaci´on, inspecci´ on, tareas de gu´ıa,
etc. Para una introducci´ on general a este ´area, v´ease Fischler y Firschein
(1987) y Shapiro y Rosenfeld (1992).
1.8.9 Rob´otica
La rob´ otica es una de las ´areas de la IA m´as populares. Los robots combinan
elementos mec´anicos, sensores, y ordenadores que les permiten tratar con
objetos reales y realizar muchas tareas de forma precisa, r´apida y c´ omoda.
Por ello, se puede pensar en los robots como ordenadores que interaccio-
nan con el mundo real. Una revisi´ on general de la rob´ otica se presenta en
McKerrow (1991), mientras Jones y Flynn (1993) tratan el tema de las
aplicaciones pr´ acticas.
1.8.10 Redes Neuronales
Las redes neuronales se crearon con el objetivo de reproducir de forma
b´ asica las funciones elementales del cerebro humano. Las arquitecturas en
red con un gran n´ umero de conexiones entre varias capas de procesadores
fueron introducidas para reproducir la estructura del cerebro humano. La
informaci´ on contenida en una red neuronal se codifica en la estructura de la
red y en los pesos de las conexiones. Por tanto, en una situaci´ on particular,
los pesos de las conexiones tienen que modificarse para reproducir la salida
deseada. Esta tarea de aprendizaje se consigue mediante una t´ecnica de
aprender por analog´ıa, es decir, el modelo se entrena para reproducir las
salidas de un conjunto de se˜ nales de entrenamiento con el objetivo de codi-
ficar de esta forma la estructura del fen´ omeno. La aparici´ on de ordenadores
r´ apidos en los que pudieran simularse redes grandes y complejas, y el des-
cubrimiento de potentes algoritmos de aprendizaje han sido las causas que
han posibilitado el desarrollo r´ apido de este ´area de conocimiento. Para una
introducci´ on ver, por ejemplo, Freeman y Skapura (1991) y Lisboa (1992).
1.9 Conclusiones 21
1.9 Conclusiones
A partir de la breve descripci´ on de las variadas ´ areas de la IA mostradas en
este cap´ıtulo, se puede ver que ´estas est´an interrelacionadas. Por ejemplo,
la rob´ otica utiliza otras ´ areas de la IA tales como la visi´on autom´ atica y
el reconocimiento de patrones o de la voz. El ´ area de la IA, como un todo,
es altamente interdisciplinar. Por ejemplo, los sistemas expertos requieren
varios conceptos de la ciencia del computador, la l´ ogica matem´atica, la
teor´ıa de grafos, la teor´ıa de la probabilidad y la estad´ıstica. Por ello, el
trabajo en este campo requiere la colaboraci´ on de muchos investigadores
en diferentes ´ areas de especializaci´on.
This is page 22
Printer: Opaque this
This is page 23
Printer: Opaque this
Cap´ıtulo 2
Sistemas Basados en Reglas
2.1 Introducci´ on
En nuestra vida diaria encontramos muchas situaciones complejas gober-
nadas por reglas deterministas: sistemas de control de tr´afico, sistemas de
seguridad, transacciones bancarias, etc. Los sistemas basados en reglas son
una herramienta eficiente para tratar estos problemas. Las reglas determi-
nistas constituyen la m´ as sencilla de las metodolog´ıas utilizadas en sistemas
expertos. La base de conocimiento contiene el conjunto de reglas que de-
finen el problema, y el motor de inferencia saca las conclusiones aplicando
la l´ ogica cl´asica a estas reglas. Una introducci´on general a los sistemas ex-
pertos basados en reglas, puede encontrarse , por ejemplo, en Buchanan
y Shortliffe (1984), Castillo y
´
Alvarez (1991), Durkin (1994), Hayes-Roth
(1985), Waterman (1985), y tambi´en en el trabajo editado por Garc´ıa y
Chien (1991). El libro de Pedersen (1989) muestra un enfoque pr´ actico e
incluye varios algoritmos.
Este cap´ıtulo presenta los conceptos b´ asicos que forman parte de los
sistemas expertos basados en reglas. No se pretende realizar una descripci´on
detallada de estos sistemas, para la que hay libros mucho m´ as completos
que ´este, sino s´olo introducir al lector, de forma simple e intuitiva, en esta
metodolog´ıa. La intenci´ on de este cap´ıtulo es mostrar c´omo los sistemas
probabil´ısticos pueden considerarse como una generalizaci´on de los sistemas
basados en reglas. La Secci´on 2.2 describe la base de conocimiento de los
sistemas expertos basados en reglas y da una definici´on y ejemplos de reglas,
que constituyen el coraz´ on de la base de conocimiento. Seguidamente, se
24 2. Sistemas Basados en Reglas
Objeto Conjunto de valores posibles
Nota ¦0, 1, . . ., 10¦
Calificaci´ on ¦sobresaliente, notable, aprobado, suspenso¦
Puesto ¦0, 1, . . ., 100¦
Admitir ¦s´ı, pendiente, no¦
Notificar ¦s´ı, no¦
TABLA 2.1. Un ejemplo de objetos con sus posibles valores.
discute c´omo opera el motor de inferencia (Secci´ on 2.3), c´ omo trabaja el
subsistema de control de la coherencia (Secci´on 2.4), y c´ omo se explican las
conclusiones sacadas por el motor de inferencia (Secci´on 2.5). La Secci´ on
2.6, muestra un ejemplo de aplicaci´ on. Finalmente, la Secci´ on 2.7 muestra
algunas de las limitaciones de los sistemas expertos basados en reglas.
2.2 La Base de Conocimiento
En los sistemas basados en reglas intervienen dos elementos importantes:
la base de conocimiento y los datos. Los datos est´an formados por la evi-
dencia o los hechos conocidos en una situaci´ on particular. Este elemento es
din´ amico, es decir, puede cambiar de una aplicaci´ on a otra. Por esta raz´ on,
no es de naturaleza permanente y se almacena en la memoria de trabajo.
En situaciones deterministas, las relaciones entre un conjunto de objetos
pueden ser representadas mediante un conjunto de reglas. El conocimiento
se almacena en la base de conocimiento y consiste en un conjunto de objetos
y un conjunto de reglas que gobiernan las relaciones entre esos objetos.
La informaci´ on almacenada en la base de conocimiento es de naturaleza
permanente y est´atica, es decir, no cambia de una aplicaci´ on a otra, a
menos que se incorporen al sistema experto elementos de aprendizaje.
Para dar una idea intuitiva de lo que es una regla, sup´ ongase que se tiene
un conjunto de objetos y, por simplicidad, que cada objeto puede tener uno
y s´olo uno de un conjunto de posibles valores. Ejemplos de objetos con sus
posibles valores se dan en la Tabla 2.1.
Seguidamente se dan unos pocos ejemplos de reglas:
Regla 1: Si nota > 9, entonces calificaci´on = sobresaliente.
Regla 2: Si puesto < 20 o nota > 7, entonces Admitir = s´ı y Notificar =
s´ı.
Cada una de las reglas anteriores relaciona dos o m´ as objetos y est´a
formada por las partes siguientes:
• La premisa de la regla, que es la expresi´ on l´ ogica entre las palabras
clave si y entonces. La premisa puede contener una o m´ as afirmaciones
2.2 La Base de Conocimiento 25
objeto-valor conectadas con operadores l´ ogicos y, o, o no. Por ejemplo,
la premisa de la Regla 1 consta de una ´ unica afirmaci´ on objeto-valor,
mientras que las premisas de la Regla 2 constan de dos afirmaciones
objeto-valor conectadas por un operador l´ ogico.
• La conclusi´ on de la regla, que es la expresi´on l´ ogica tras la palabra
clave entonces.
Los ejemplos anteriores facilitan la definici´ on siguiente de regla.
Definici´on 2.1 Regla. Una regla es una afirmaci´ on l´ ogica que relaciona
dos o m´as objetos e incluye dos partes, la premisa y la conclusi´ on. Cada una
de estas partes consiste en una expresi´ on l´ ogica con una o m´as afirmaciones
objeto-valor conectadas mediante los operadores l´ ogicos y, o, o no.
Una regla se escribe normalmente como “Si premisa, entonces conclusi´ on”.
En general, ambas, la premisa y la conclusi´ on de una regla, pueden contener
afirmaciones m´ ultiples objeto-valor. Una expresi´ on l´ ogica que contiene s´olo
una afirmaci´ on objeto-valor se denomina expresi´ on l´ ogica simple; en caso
contrario, la expresi´ on se dice expresi´ on l´ ogica compuesta. Por ejemplo,
las expresiones l´ogicas en ambas, premisa y conclusi´on de la Regla 1, son
simples, mientras que las expresiones l´ogicas de las premisas y la conclusi´on
de la Regla 2 es compuesta. Correspondientemente, una regla que contiene
solamente expresiones l´ogicas simples se denomina una regla simple; en otro
caso, se llama regla compuesta. Por ejemplo, la Regla 1 es simple, mientras
que la Reglas 2 es compuesta.
Ejemplo 2.1 Cajero Autom´atico. Como ejemplo de problema deter-
minista que puede ser formulado usando un conjunto de reglas, consid´erese
una situaci´ on en la que un usuario (por ejemplo, un cliente) desea sacar
dinero de su cuenta corriente mediante un cajero autom´ atico (CA). En
cuanto el usuario introduce la tarjeta en el CA, la m´ aquina la lee y la ve-
rifica. Si la tarjeta no es verificada con ´exito (por ejemplo, porque no es
legible), el CA devuelve la tarjeta al usuario con el mensaje de error corres-
pondiente. En otro caso, el CA pide al usuario su n´ umero de identificaci´ on
personal (NIP). Si el n´ umero fuese incorrecto, se dan tres oportunidades de
corregirlo. Si el NIP es correcto, el CA pregunta al usuario cu´ anto dinero
desea sacar. Para que el pago se autorice, la cantidad solicitada no debe
exceder de una cierta cantidad l´ımite diaria, adem´ as de haber suficiente
dinero en su cuenta.
En este caso se tienen siete objetos, y cada objeto puede tomar uno y s´olo
un valor de entre sus posibles valores. La Tabla 2.2 muestra estos objetos
y sus posibles valores.
La Figura 2.1 muestra siete reglas que gobiernan la estrategia que el CA
debe seguir cuando un usuario intenta sacar dinero de su cuenta. En la
Regla 1, por ejemplo, la premisa consiste en seis afirmaciones objeto-valor
conectadas mediante el operador l´ ogico y, lo que indica que la premisa
26 2. Sistemas Basados en Reglas
Objeto Conjunto de posibles valores
Tarjeta ¦verificada, no verificada¦
Fecha ¦expirada, no expirada¦
NIP ¦correcto, incorrecto¦
Intentos ¦excedidos, no excedidos¦
Balance ¦suficiente, insuficiente¦
L´ımite ¦excedido, no excedido¦
Pago ¦autorizado, no autorizado¦
TABLA 2.2. Objetos y posibles valores para el ejemplo del cajero autom´atico.
es cierta si las seis afirmaciones lo son. Por ello, la Regla 1 relaciona el
objeto Pago (en la conclusi´ on) con los dem´as objetos. Seg´ un la Regla 1,
la acci´on que debe iniciar el CA es dar el dinero al usuario si la tarjeta se
ha verificado correctamente, la fecha no ha expirado, el NIP es correcto, el
n´ umero de intentos para dar el NIP correcto no se ha excedido y la cantidad
solicitada no excede ni la cantidad disponible ni el l´ımite m´aximo diario.
Las expresiones l´ogicas en cada una de las restantes reglas de la Figura 2.1
constan de una sola afirmaci´ on. N´ otese que la Regla 1 indica cu´ando debe
permitirse el pago, y las restantes cu´ando debe rechazarse.
Ejemplo 2.2 Gente famosa. Sup´ ongase que se dispone de una base
de datos consistente en N individuos. Para cada individuo, la base de
datos contiene cuatro atributos: nombre, sexo, nacionalidad y profesi´ on.
Sup´ ongase que la base de datos muestra s´olo si una persona es ameri-
cana, pol´ıtica y/o si es mujer. Cada uno estos atributos es binario (toma
s´olo dos valores posibles). En este caso, la base de datos puede contener,
como mucho, 2
3
= 8 conjuntos disjuntos. Estos conjuntos se muestran en
la Figura 2.2. La figura muestra tambi´en el nombre de una persona en
cada subconjunto. La Tabla 2.3 da un ejemplo de una base de datos que
contiene N = 8 personas famosas. En este caso se tienen cuatro objetos:
Nombre, Americano, Pol´ıtico, y Mujer. El primer objeto puede tomar
uno de N posibles valores (los nombres de cada persona) y cada uno de los
tres ´ ultimos objetos pueden tomar el valor s´ı o el valor no.
A partir de la Tabla 2.3 se pueden construir reglas para identificar a cada
persona, resultando un total de ocho reglas. Por ejemplo, la regla siguiente
corresponde al presidente Clinton:
• Regla 1: Si Nombre = Clinton, entonces Americano = s´ı y Pol´ıtico =
s´ı y Mujer = no.
Las restantes siete reglas pueden construirse de forma an´aloga.
Regla 1
Si
Tarjeta = verificada y
Fecha = no expirada y
NIP= correcto y
Intentos = no excedidos y
Balance = suficiente y
Límite = no excedido
Entonces
Pago = autorizado
Regla 4
Si
NIP = incorrecto
Entonces
Pago = no autorizado
Regla 5
Si
Intentos = excedidos
Entonces
Pago = no autorizado
Regla 2
Si
Tarjeta = no verificada
Entonces
Pago = no autorizado
Regla 3
Si
Fecha = expirada
Entonces
Pago = no autorizado
Regla 6
Si
Balance = insuficiente
Entonces
Pago = no autorizado
Regla 7
Si
Límite = excedido
Entonces
Pago = no autorizado
2.2 La Base de Conocimiento 27
FIGURA 2.1. Ejemplos de reglas para sacar dinero de un cajero autom´atico.
Nombre Americano Pol´ıtico Mujer
Barbara Jordan s´ı s´ı s´ı
Bill Clinton s´ı s´ı no
Barbara Walters s´ı no s´ı
Mohammed Ali s´ı no no
Margaret Thatcher no s´ı s´ı
Anwar El-Sadat no s´ı no
Marie Curie no no s´ı
Pablo Picasso no no no
TABLA 2.3. Una base de datos mostrando cuatro objetos y sus valores
correspondientes para el ejemplo de las personas famosas.
Políticos
Americanos
Mujeres
Barbara
Jordan
Bill
Clinton
Barbara
Walters
Mohammed
Ali
Anwar
El-Sadat
Margaret
Thatcher
Marie
Curie
Pablo
Picasso
28 2. Sistemas Basados en Reglas
FIGURA 2.2. Un ejemplo de una base de datos con tres atributos binarios que
dividen la poblaci´on en ocho conjuntos disjuntos.
Los Ejemplos 2.1 y 2.2 se utilizar´ an posteriormente en este cap´ıtulo para
ilustrar varios conceptos relacionados con los sistemas expertos basados en
reglas.
Algunos sistemas imponen ciertas restricciones a las reglas. Por ejemplo:
• No permitir en la premisa el operador l´ ogico o, y
• Limitar las conclusiones a expresiones l´ogicas simples.
Hay buenas razones para imponer estas restricciones. En primer lugar, las
reglas que satisfacen estas restricciones son f´aciles de tratar a la hora de
escribir un programa de ordenador. En segundo lugar, las dos restricciones
anteriores no dan lugar a una p´erdida de generalidad, puesto que reglas
mucho m´as generales pueden ser reemplazadas por conjuntos de reglas de
esta forma. A esto se le llama sustituci´ on de reglas. Por tanto, el conjunto de
reglas especificado inicialmente por el experto humano puede requerir una
sustituci´ on posterior por un conjunto de reglas equivalente para satisfacer
estas restricciones.
La Tabla 2.4 da ejemplos de sustituci´ on de reglas. N´ otese que cada regla
de la primera columna puede ser sustitu´ıda por el correspondiente conjunto
de reglas de la segunda columna y que todas las reglas de ´esta satisfacen
las condiciones anteriores. Por ejemplo, la primera regla compuesta de la
Tabla 2.4:
• Regla 1: Si A o B, entonces C,
puede ser reemplazada por las dos reglas simples:
2.2 La Base de Conocimiento 29
Regla Reglas Equivalentes
Si A o B, entonces C Si A, entonces C
Si B, entonces C
Si A o B, entonces C Si
¯
A y
¯
B, entonces C
Si A y B, entonces C Si
¯
A, entonces C
Si
¯
B, entonces C
Si (A o B) y C, entonces D Si A y C, entonces D
Si B y C, entonces D
Si (A o B) y C, entonces D Si
¯
A y
¯
B y C, entonces D
Si A y B y C, entonces D Si
¯
A y C, entonces D
Si
¯
B y C, entonces D
Si A, entonces B y C Si A, entonces B
Si A, entonces C
Si A, entonces B o C Si A y
¯
B, entonces C
Si A y
¯
C, entonces B
Si A, entonces B y C Si A y B, entonces
¯
C
Si A y C, entonces
¯
B
Si A, entonces B o C Si A, entonces
¯
B
Si A, entonces
¯
C
TABLA 2.4. Ejemplos de sustituci´on de reglas: Las reglas en la primera columna
son equivalentes a las reglas de la segunda columna. N´otese que en los seis
primeros ejemplos las sustituciones se aplican a la premisa y en los cuatro ´ ultimos,
a la conclusi´on.
• Regla 1a: Si A, entonces C.
• Regla 1b: Si B, entonces C.
Como ejemplo adicional, la Tabla 2.5 muestra que
• Regla 2: Si A o B, entonces C,
puede ser reemplazada por la regla
• Regla 2: Si
¯
A y
¯
B, entonces C,
donde
¯
A significa no A. La Tabla 2.5 se llama tabla de verdad.
30 2. Sistemas Basados en Reglas
A B
¯
A
¯
B A o B
¯
A y
¯
B
C C F F F F
C F F C F F
F C C F F F
F F C C C C
TABLA 2.5. Una tabla de verdad mostrando que las expresiones l´ogicas A o B
y
¯
A y
¯
B son equivalentes. Los s´ımbolos C y F se utilizan para cierto y falso,
respectivamente.
2.3 El Motor de Inferencia
Tal como se ha mencionado en la secci´on anterior, hay dos tipos de ele-
mentos: los datos (hechos o evidencia) y el conocimiento (el conjunto de
reglas almacenado en la base de conocimiento). El motor de inferencia
usa ambos para obtener nuevas conclusiones o hechos. Por ejemplo, si la
premisa de una regla es cierta, entonces la conclusi´on de la regla debe ser
tambi´en cierta. Los datos iniciales se incrementan incorporando las nuevas
conclusiones. Por ello, tanto los hechos iniciales o datos de partida como
las conclusiones derivadas de ellos forman parte de los hechos o datos de
que se dispone en un instante dado.
Las conclusiones pueden clasificarse en dos tipos: simples y compuestas.
Las conclusiones simples son las que resultan de una regla simple. Las con-
clusiones compuestas son las que resultan de m´as de una regla. Para obtener
conclusiones, los expertos utilizan diferentes tipos de reglas y estrategias de
inferencia y control (v´ease, por ejemplo, Castillo y
´
Alvarez (1991), Durkin
(1994), Shapiro (1987), Waterman (1985)). En el resto de esta secci´ on se
discuten las reglas de inferencia
• Modus Ponens,
• Modus Tollens,
• Resoluci´on,
y las estrategias de inferencia
• Encadenamiento de reglas,
• Encadenamiento de reglas orientado a un objetivo,
• Compilaci´ on de reglas,
que son utilizadas por el motor de inferencia para obtener conclusiones
simples y compuestas. Las dos primeras reglas de inferencia se usan para
obtener conclusiones simples y el resto de reglas y estrategias para obtener
conclusiones compuestas.
B es cierto
Si
A es cierto
Entonces
B es cierto
A es cierto
Regla:
Hecho:
Modus Ponens
2.3 El Motor de Inferencia 31
N´otese, sin embargo, que ninguna de las estrategias anteriores, si se im-
plementan solas, conduce a todas las conclusiones posibles. Por ello, deben
implementarse varias reglas y estrategias en el sistema experto para que
el motor de inferencia sea capaz de obtener tantas conclusiones como sea
posible.
2.3.1 Modus Ponens y Modus Tollens
El Modus Ponens es quiz´as la regla de inferencia m´ as com´ unmente utilizada.
Se utiliza para obtener conclusiones simples. En ella, se examina la premisa
de la regla, y si es cierta, la conclusi´on pasa a formar parte del conocimiento.
Como ilustraci´ on, sup´ ongase que se tiene la regla, “Si A es cierto, entonces
B es cierto” y que se sabe adem´as que “A es cierto.” Entonces, tal como
muestra la Figura 2.3, la regla Modus Ponens concluye que “B es cierto.”
Esta regla de inferencia, que parece trivial, debido a su familiaridad, es la
base de un gran n´ umero de sistemas expertos.
FIGURA 2.3. Una ilustraci´on de la regla de inferencia Modus Ponens.
La regla de inferencia Modus Tollens se utiliza tambi´en para obtener
conclusiones simples. En este caso se examina la conclusi´on y si es falsa, se
concluye que la premisa tambi´en es falsa. Por ejemplo, sup´ ongase de nuevo
que se tiene la regla, “Si A es cierto, entonces B es cierto” pero se sabe
que “B es falso.” Entonces, utilizando la regla Modus Ponens no se puede
obtener ninguna conclusi´ on, pero, tal como se muestra en la Figura 2.4, la
regla Modus Tollens concluye que “A es falso.” Aunque muy simple y con
muchas aplicaciones ´ utiles, la regla Modus Tollens es menos utilizada que
la Modus Ponens.
Por ello, la regla Modus Ponens se mueve hacia adelante, es decir, de
la premisa a la conclusi´ on de una regla, mientras que la regla Modus Tol-
lens se mueve hacia atr´as, es decir, de la conclusi´on a la premisa. Las dos
reglas de inferencia no deben ser vistas como alternativas sino como com-
plementarias. La regla Modus Ponens necesita informaci´ on de los objetos
A es falso
Si
A es cierto
Entonces
B es cierto
B es falso
Regla:
Hecho:
Modus Tollens
32 2. Sistemas Basados en Reglas
FIGURA 2.4. Una ilustraci´on de la regla Modus Tollens.
de la premisa para concluir, mientras que la regla Modus Tollens necesita
informaci´ on sobre los objetos de la conclusi´ on. De hecho, para un motor de
inferencia que solamente utiliza Modus Ponens, la incorporaci´ on de la regla
de inferencia Modus Tollens puede ser considerada como una expansi´ on de
la base de conocimiento mediante la adici´on de reglas, tal como ilustra el
ejemplo que sigue.
Ejemplo 2.3 La regla Modus Tollens equivale a una expansi´on
de la base de conocimiento. Sup´ ongase que la base de conocimiento
consiste s´olo en la Regla 1, que se muestra en la Figura 2.5. Se puede
utilizar la regla de inferencia Modus Tollens para “invertir” la Regla 1 y
obtener alguna conclusi´ on cuando se tiene informaci´ on sobre los objetos de
su conclusi´on. Entonces, aplicar la regla Modus Tollens a la regla “Si A,
entonces B” es equivalente a aplicar la regla Modus Ponens a la regla “Si
¯
B, entonces
¯
A.” En este caso de Regla 1, utilizando la equivalencia
A = C y B = C ⇔A = F o B = F,
se obtiene la Regla 1b, que se muestra en la Figura 2.6. Por ello, utilizar
ambas, las reglas Modus Ponens y Modus Tollens cuando la base de co-
nocimiento contiene s´olo la Regla 1, es equivalente a usar la regla Modus
Ponens cuando la base de conocimiento contiene ambas, la Regla 1 y la
Regla 1b.
Por otra parte, el rendimiento del motor de inferencia depende del con-
junto de reglas en su base de conocimiento. Hay situaciones en las que el
motor de inferencia puede concluir utilizando un conjunto de reglas, pero
no puede, utilizando otro (aunque ´estos sean l´ogicamente equivalentes). A
continuaci´ on se da un ejemplo ilustrativo.
Ejemplo 2.4 Inferencia con dos conjuntos equivalentes de reglas.
Sup´ ongase de nuevo que se tienen dos motores de inferencia: El motor E
1
,
cuya base de conocimiento contiene las siete reglas de la Figura 2.1, y el
Regla 1
Si
Tarjeta = verificada y
Fecha = no expirada y
NIP = correcto y
Intentos = no excedidos y
Balance = suficiente y
Límite = no excedido
Entonces
Pago = autorizado
Regla 1b
Si
Pago = no autorizado
Entonces
Tarjeta = no verificada o
Fecha = expirada o
NIP = incorrecto o
Intentos = excedidos o
Balance = insuficiente o
Límite = excedido
2.3 El Motor de Inferencia 33
FIGURA 2.5. Regla 1 tomada de la Figura 2.1.
FIGURA 2.6. La Regla 1b puede obtenerse de la Regla 1 utilizando la regla de
inferencia Modus Tollens.
motor E
2
, cuya base de conocimiento contiene las siete reglas de la Figura
2.7. N´ otese que los dos conjuntos de reglas son l´ogicamente equivalentes.
Sup´ ongase adem´as que se sabe que el valor de NIP es incorrecto. Si ambos
E
1
y E
2
utilizan s´ olo la regla de inferencia Modus Ponens, entonces E
1
ser´a capaz de concluir que Pago = no autorizado (por la Regla 4), pero E
2
no concluir´ a. Por ello, algunas de las conclusiones l´ ogicamente derivables
pueden no ser obtenidas usando s´ olo la regla de inferencia Modus Ponens.
Por otra parte, si ambos motores usan la regla Modus Tollens, entonces
ambos concluir´ an.
2.3.2 El Mecanismo de Resoluci´on
Las reglas de inferencia Modus Ponens y Modus Tollens pueden ser uti-
lizadas para obtener conclusiones simples. Por otra parte, las conclusiones
compuestas, que se basan en dos o m´as reglas, se obtienen usando el lla-
Regla 1
Si
Tarjeta = verificada y
Fecha = no expirada y
NIP= correcto y
Intentos = no excedidos y
Balance = suficiente y
Límite = no excedido
Entonces
Pago = autorizado
Regla 4b Regla 5b
Regla 2b Regla 3b
Regla 6b Regla 7b
Si
Pago =autorizado
Entonces
NIP = correcto
Si
Pago =autorizado
Entonces
Intentos = no excedidos
Si
Pago = autorizado
Entonces
Tarjeta = verificada
Si
Pago = autorizado
Entonces
Fecha = no expirada
Si
Pago =autorizado
Entonces
Balance = suficiente
Si
Pago =autorizado
Entonces
Límite = no excedido
34 2. Sistemas Basados en Reglas
FIGURA 2.7. Un conjunto de reglas l´ogicamente equivalentes al conjunto de
reglas de la Figura 2.1).
mado mecanismo de resoluci´ on. Esta regla de inferencia consiste en las
etapas siguientes:
1. Las Reglas son sustituidas por expresiones l´ogicas equivalentes.
2. Estas expresiones l´ogicas se combinan en otra expresi´on l´ ogica.
3. Esta ´ ultima expresi´ on se utiliza para obtener la conclusi´ on.
Estas etapas involucran conceptos tales como la combinaci´on y simplifi-
caci´on de expresiones l´ ogicas, que se ilustran de un modo intuitivo en los
ejemplos que siguen. Para un tratamiento detallado de esta regla de infe-
rencia el lector puede consultar alguno de los libros espec´ıficos citados en
la introducci´ on de este cap´ıtulo.
A es falso
o
C es cierto
A es falso
o
B es cierto
B es falso
o
C es cierto
Si B = cierto
Entonces C = cierto
Si A = cierto
Entonces B = cierto
2.3 El Motor de Inferencia 35
A B
¯
A Si A, entonces B
¯
A o B
C C F C C
C F F F F
F C C C C
F F C C C
TABLA 2.6. Una tabla de verdad mostrando que la regla “Si A es cierto, entonces
B es cierto” es equivalente a la expresi´on l´ogica “A es falso o B es cierto.”
Ejemplo 2.5 Mecanismo de resoluci´on 1. Sup´ ongase que se tienen las
dos reglas:
• Regla 1: Si A es cierto, entonces B es cierto.
• Regla 2: Si B es cierto, entonces C es cierto.
La primera etapa en el mecanismo de resoluci´on consiste en sustituir cada
una de las dos reglas por expresiones l´ ogicas equivalentes. Esto se hace
como sigue (v´ease la Figura 2.8):
• La Regla 1 es equivalente a la expresi´on l´ ogica: “A es falso o B es
cierto.” Una prueba de esta equivalencia se muestra an la tabla de
verdad que se muestra en la Tabla 2.6.
• Similarmente, la Regla 2 es equivalente a la expresi´ on l´ ogica: “B es
falso o C es cierto.”
FIGURA 2.8. Un ejemplo ilustrando la regla de inferencia correspondiente al
mecanismo de resoluci´on.
La segunda etapa consiste en combinar las dos expresiones anteriores
en una, tal como sigue: Las expresiones l´ogicas “A es falso o B es cierto”
y “B es falso o C es cierto” implican la expresi´on “A es falso o C es
36 2. Sistemas Basados en Reglas
A B C
¯
A o B
¯
B o C (
¯
A o B)
¯
A o C
y (
¯
B o C)
C C C C C C C
C C F C F F F
C F C F C F C
C F F F C F F
F C C C C C C
F C F C F F C
F F C C C C C
F F F C C C C
TABLA 2.7. Una tabla de verdad que muestra que las expresiones l´ogicas “A es
falso o B es cierto” y “B es falso o C es cierto” implican la expresi´on l´ogica “A
es falso o C es cierto.”
cierto.” Una prueba de esta equivalencia se muestra en la Tabla 2.7. Esta
´ ultima expresi´ on se utiliza seguidamente en la tercera etapa para obtener
la conclusi´ on. Las etapas anteriores se ilustran en la Figura 2.8.
Ejemplo 2.6 Mecanismo de resoluci´on 2. Consid´erese de nuevo el
ejemplo del CA con el objeto a˜ nadido Explicar, que puede tomar los valores
¦s´ı, no¦, indicando si se necesita explicar las acciones del CA. Apliquemos
ahora el mecanismo de resoluci´on a la evidencia NIP = incorrecto y a las
reglas siguientes:
• Si NIP = incorrecto entonces Pago = no autorizado.
• Si Pago = no autorizado entonces Explicar = s´ı.
Tal como se ilustra en la Figura 2.9, la regla de inferencia correspondiente
al mecanismo de resoluci´on conduce a la conclusi´ on Explicar = s´ı. En
efecto, siguiendo los pasos indicados, se tiene
1. Las dos reglas se sustituyen por las expresiones equivalentes:
• NIP = correcto o Pago = no autorizado
• Pago = autorizado o Explicar = s´ı
2. Las dos expresiones anteriores se combinan de la forma indicada para
dar la expresi´ on NIP = correcto o Explicar = s´ı, y
3. Esta ´ ultima expresi´ on se combina con la evidencia NIP = incorrecto,
y se obtiene la conclusi´on compuesta, Explicar = s´ı.
Es importante se˜ nalar que la regla de inferencia correspondiente al meca-
nismo de resoluci´on no siempre conduce a conclusiones, pues, de hecho,
NIP = correcto
o
Explicar = sí
Si
NIP = incorrecto
Entonces
Pago = no autorizado
NIP = correcto
o
Pago = no autorizado
Si
Pago = no autorizado
Entonces
Explicar = sí
Pago = autorizado
o
Explicar = sí
2.3 El Motor de Inferencia 37
FIGURA 2.9. La regla de inferencia del mecanismo de resoluci´on aplicada al
ejemplo del CA.
puede no conocerse la verdad o falsedad de ciertas expresiones. Si esto
ocurre, el sistema experto, o m´as precisamente, su motor de inferencia,
debe decidir entre:
• Abandonar la regla, dada la imposibilidad de obtener conclusiones, o
• Preguntar al usuario, mediante el subsistema de demanda de infor-
maci´on, sobre la verdad o falsedad de una o varias expresiones para
poder continuar el proceso de inferencia hasta que se obtenga una
conclusi´on.
2.3.3 Encadenamiento de Reglas
Una de las estrategias de inferencia m´as utilizadas para obtener conclu-
siones compuestas es el llamado encadenamiento de reglas. Esta estrategia
puede utilizarse cuando las premisas de ciertas reglas coinciden con las
conclusiones de otras. Cuando se encadenan las reglas, los hechos pueden
utilizarse para dar lugar a nuevos hechos. Esto se repite sucesivamente hasta
que no pueden obtenerse m´ as conclusiones. El tiempo que consume este pro-
ceso hasta su terminaci´on depende, por una parte, de los hechos conocidos,
y, por otra, de las reglas que se activan. La estrategia de encadenamiento
de reglas se da en el algoritmo siguiente:
Algoritmo 2.1 Encadenamiento de reglas.
• Datos: Una base de conocimiento (objetos y reglas) y algunos hechos
iniciales.
• Resultado: El conjunto de hechos derivados l´ ogicamente de ellos.
1. Asignar a los objetos sus valores conocidos tales como los dan los
hechos conocidos o la evidencia
38 2. Sistemas Basados en Reglas
2. Ejecutar cada regla de la base de conocimiento y concluir nuevos
hechos si es posible.
3. Repetir la Etapa 2 hasta que no puedan ser obtenidos nuevos hechos.
Este algoritmo puede ser implementado de muchas formas. Una de ellas co-
mienza con las reglas cuyas premisas tienen valores conocidos. Estas reglas
deben concluir y sus conclusiones dan lugar a nuevos hechos. Estos nuevos
hechos se a˜ naden al conjunto de hechos conocidos, y el proceso contin´ ua
hasta que no pueden obtenerse nuevos hechos. Este proceso se ilustra, a
continuaci´ on, con dos ejemplos.
Ejemplo 2.7 Encadenamiento de Reglas 1. La Figura 2.10 mues-
tra un ejemplo de seis reglas que relacionan 13 objetos, del A al M. Las
relaciones entre estos objetos implicadas por las seis reglas pueden repre-
sentarse gr´aficamente, tal como se muestra en la Figura 2.11, donde cada
objeto se representa por un nodo. Las aristas representan la conexi´ on entre
los objetos de la premisa de la regla y el objeto de su conclusi´ on. N´ otese
que las premisas de algunas reglas coinciden con las conclusiones de otras
reglas. Por ejemplo, las conclusiones de las Reglas 1 y 2 (objetos C y G)
son las premisas de la Regla 4.
Sup´ ongase que se sabe que los objetos A, B, D, E, F, H e I son ciertos
y los restantes objetos son de valor desconocido. La Figura 2.12 distingue
entre objetos con valor conocido (los hechos) y objetos con valores descono-
cidos. En este caso, el algoritmo de encadenamiento de reglas procede como
sigue:
• La Regla 1 concluye que C = cierto.
• La Regla 2 concluye que G = cierto.
• La Regla 3 concluye que J = cierto.
• La Regla 4 concluye que K = cierto.
• La Regla 5 concluye que L = cierto.
• La Regla 6 concluye que M = cierto.
Puesto que no pueden obtenerse m´ as conclusiones, el proceso se detiene.
Este proceso se ilustra en la Figura 2.12, donde los n´ umeros en el interior
de los nodos indican el orden en el que se concluyen los hechos.
Ejemplo 2.8 Encadenamiento de reglas 2. Consid´erense de nuevo las
seis reglas de la Figura 2.10 y sup´ ongase ahora que se dan los hechos
H = cierto, I = cierto, K = cierto y M = falso. Esto se ilustra en la
Figura 2.13, donde los objetos con valores conocidos (los hechos) aparecen
Si H e I
Entonces J
Regla 3
Si D, E y F
Entonces G
Regla 2
Si A y B
Entonces C
Regla 1
Si K y L
Entonces M
Regla 6
Si G y J
Entonces L
Regla 5
Si C y G
Entonces K
Regla 4
A
B
C
D
E
F
G
K
M
H
I
J
L
Regla 5
Regla 6
Regla 4
Regla 1
Regla 3
Regla 2
2.3 El Motor de Inferencia 39
FIGURA 2.10. Un ejemplo de un conjunto de seis reglas relacionando 13 objetos.
FIGURA 2.11. Una representaci´on gr´ afica de las relaciones entre las seis reglas
de la Figura 2.10.
sombreados y la variable objetivo se muestra rodeada por una circunfe-
rencia. Sup´ ongase, en primer lugar, que el motor de inferencia usa las dos
reglas de inferencia Modus Ponens y Modus Tollens. Entonces, aplicando
el Algoritmo 2.1, se obtiene
1. La Regla 3 concluye que J = cierto (Modus Ponens).
2. La Regla 6 concluye (Modus Tollens) que K = falso o L = falso,
pero, puesto que K = cierto, deber´ a ser L = falso.
A
B
C
D
E
F
G
K
M
H
I
J
L
Regla 1
Regla 2
Regla 3
Regla 4
Regla 5
Regla 6
1
4
2
3
5
6
40 2. Sistemas Basados en Reglas
FIGURA 2.12. Un ejemplo que ilustra la estrategia de encadenamiento de reglas.
Los nodos con valores conocidos aparecen sombreados y los n´ umeros en su interior
indican el orden en el que se concluyen los hechos.
3. La Regla 5 concluye (Modus Tollens) que G = falso o J = falso,
pero, puesto que J = cierto, deber´ a ser G = falso.
En consecuencia, se obtiene la conclusi´on G = falso. Sin embargo, si el
motor de inferencia s´ olo utiliza la regla de inferencia Modus Ponens, el
algoritmo se detendr´ a en la Etapa 1, y no se concluir´ a nada para el objeto
G. Este es otro ejemplo que ilustra la utilidad de la regla de inferencia
Modus Tollens.
N´otese que la estrategia de encadenamiento de reglas diferencia claramente
entre la memoria de trabajo y la base de conocimiento. La memoria de tra-
bajo contiene datos que surgen durante el periodo de consulta. Las premisas
de las reglas se comparan con los contenidos de la memoria de trabajo y
cuando se obtienen nuevas conclusiones son pasadas tambi´en a la memoria
de trabajo.
2.3.4 Encadenamiento de Reglas Orientado a un Objetivo
El algoritmo de encadenamiento de reglas orientado a un objetivo requiere
del usuario seleccionar, en primer lugar, una variable o nodo objetivo; en-
tonces el algoritmo navega a trav´es de las reglas en b´ usqueda de una con-
clusi´on para el nodo objetivo. Si no se obtiene ninguna conclusi´ on con la
A
B
C
D
E
F
G
K
M
H
I
J
L
Regla 1
Regla 2
Regla 3
Regla 4
Regla 5
Regla 6
3
1
2
Objetivo
2.3 El Motor de Inferencia 41
FIGURA 2.13. Otro ejemplo que ilustra el algoritmo de encadenamiento de reglas.
Los nodos con valores conocidos aparecen sombreados, la variable objetivo se
muestra rodeada por una circunferencia, y los n´ umeros del interior de los nodos
indican el orden en el que se concluyen los hechos.
informaci´ on existente, entonces el algoritmo fuerza a preguntar al usuario
en busca de nueva informaci´ on sobre los elementos que son relevantes para
obtener informaci´ on sobre el objetivo.
Algunos autores llaman a los algoritmos de encadenamiento y de enca-
denamiento orientado a un objetivo encadenamiento hacia adelante y en-
cadenamiento hacia atr´as, respectivamente. Pero esta terminolog´ıa puede
ser confusa, puesto que ambos algoritmos pueden, en realidad, utilizar las
dos reglas de inferencia Modus Ponens (hacia adelante) y Modus Tollens
(hacia atr´ as).
El algoritmo de encadenamiento de reglas orientado a un objetivo se
describe a continuaci´ on.
Algoritmo 2.2 Encadenamiento de reglas orientado a un objetivo.
• Datos: Una base de conocimiento (objetos y reglas), algunos hechos
iniciales, y un nodo o variable objetivo.
• Resultado: El valor del nodo o variable objetivo.
1. Asigna a los objetos sus valores conocidos tales como est´an dados en
los hechos de partida, si es que existe alguno. Marcar todos los objetos
42 2. Sistemas Basados en Reglas
cuyo valor ha sido asignado. Si el nodo objetivo est´ a marcado, ir a la
Etapa 7; en otro caso:
(a) Designar como objetivo inicial el objetivo en curso.
(b) Marcar el objetivo en curso.
(c) Sea ObjetivosPrevios = φ, donde φ es el conjunto vac´ıo.
(d) Designar todas las reglas como activas (ejecutables).
(e) Ir a la Etapa 2.
2. Encontrar una regla activa que incluya el objetivo en curso y ninguno
de los objetos en ObjetivosPrevios. Si se encuentra una regla, ir a la
Etapa 3; en otro caso, ir a la Etapa 5.
3. Ejecutar la regla referente al objetivo en curso. Si concluye, asignar
el valor concluido al objetivo en curso, e ir a la Etapa 6; en otro caso,
ir a la Etapa 4.
4. Si todos los objetos de la regla est´ an marcados, declarar la regla como
inactiva e ir a la Etapa 2; en otro caso:
(a) A˜ nadir el objetivo en curso a ObjetivosPrevios.
(b) Designar uno de los objetos no marcados en la regla como el
objetivo en curso.
(c) Marcar el objetivo en curso.
(d) Ir a la Etapa 2.
5. Si el objetivo en curso es el mismo que el objetivo inicial, ir a la Etapa
7; en otro caso, preguntar al usuario por el valor del objetivo en curso.
Si no se da un valor, ir a la Etapa 6; en otro caso asignar al objeto el
valor dado e ir a la Etapa 6.
6. Si el objetivo en curso es el mismo que el objetivo inicial, ir a la Etapa
7; en otro caso, designar el objetivo previo como objetivo en curso,
eliminarlo de ObjetivosPrevios, e ir a la Etapa 2.
7. Devolver el valor del objetivo en curso si es conocido.
A continuaci´ on se ilustra el encadenamiento de reglas orientado a un obje-
tivo mediante algunos ejemplos.
Ejemplo 2.9 Encadenamiento de reglas orientado a un objetivo.
Consid´erense las seis reglas de las Figuras 2.10 y 2.11. Sup´ongase que se
selecciona el nodo M como nodo objetivo y que se sabe que los objetos
D, E, F y L son ciertos. Estos nodos est´an sombreados en la Figura 2.14.
Las etapas del algoritmo de encadenamiento de reglas orientado a un ob-
jetivo se ilustran en la Figura 2.14, donde el n´ umero en el interior de un
nodo indica el orden en el que se visita cada nodo. Estas etapas son:
A
B
C
D
E
F
G
K
M
H
I
J
L
Regla 1
Regla 2
Regla 3
Regla 4
Regla 5
Regla 6
3
2
6 1
4
5
Objetivo
2.3 El Motor de Inferencia 43
FIGURA 2.14. Un ejemplo que ilustra el algoritmo de encadenamiento de reglas
orientado a un objetivo. Los nodos cuyo valor es conocido se han sombreado, el
nodo objetivo se ha rodeado por una circunferencia, y el n´ umero en el interior de
un nodo indica el orden en el que se visita cada nodo.
• Etapa 1: Se asigna el valor cierto a los objetos D, E, F y L y se
marcan. Puesto que el nodo objetivo M no est´a marcado, entonces
– Se designa el objeto M como objeto en curso.
– Se marca el objeto M. Por tanto, se tiene ObjetosMarcados
= ¦D, E, F, L, M¦.
– ObjetivosPrevios = φ.
– Las seis reglas est´an activas. Por tanto, se tiene ReglasActivas
= ¦1, 2, 3, 4, 5, 6¦.
– Se va a la Etapa 2.
• Etapa 2. Se busca una regla que incluya el objetivo en curso M. Se
encuentra la Regla 6, por lo que se va a la Etapa 3.
• Etapa 3. La Regla 6 no puede concluir puesto que el valor del objeto
K es desconcoido. As´ı que se va a la Etapa 4.
• Etapa 4. El objeto K no est´a marcado. Entonces
– ObjetivosPrevios = ¦M¦.
44 2. Sistemas Basados en Reglas
– Se elige el objeto K como objetivo en curso.
– El objeto K est´a marcado. Por tanto se tiene, ObjetosMarcados
= ¦D, E, F, L, M, K¦.
– Se va a la Etapa 2.
• Etapa 2. Se busca una regla que incluya el objetivo en curso K pero
no el anterior M. Se encuentra la Regla 4, y se contin´ ua con la Etapa
3.
• Etapa 3. La Regla 4 no puede concluir puesto que se desconocen los
valores de los objetos C y G. Por ello, se contin´ ua con la Etapa 4.
• Etapa 4. Los objetos C y G no est´an marcados. Entonces
– ObjetivosPrevios = ¦M, K¦.
– Se elige uno de los objetos no marcados C o G como el nuevo
objetivo en curso. Sup´ ongase que se elige C.
– Se marca el objeto C.
Por tanto, se tiene ObjetosMarcados = ¦D, E, F, L, M, K, C¦.
– Se contin´ ua con la Etapa 2.
• Etapa 2. Se busca una regla activa que incluya el objetivo en curso
C pero no los objetos previos ¦M, K¦. Se encuentra la Regla 1, as´ı
que se va a la Etapa 3.
• Etapa 3. La Regla 1 no puede concluir puesto que se desconocen los
valores de los objetos A y B. Por tanto se contin´ ua con la Etapa 4.
• Etapa 4. Los objetos A y B no est´an marcados. Entonces
– ObjetivosPrevios = ¦M, K, C¦.
– Se elige uno de los objetos no marcados A y B como nuevo
objetivo en curso. Sup´ ongase que se elige A.
– Se marca el objeto A.
Por ello, ObjetosMarcados = ¦D, E, F, L, M, K, C, A¦.
– Se contin´ ua con la Etapa 2.
• Etapa 2. Se busca una regla activa que incluya el objetivo en curso
A pero no los objetivos previos ¦M, K, C¦. No se encuentra ninguna
regla que satisfaga estas condiciones, as´ı que se pasa a la Etapa 5.
• Etapa 5. Puesto que el objetivo en curso A es diferente del inicial M,
se pregunta al usuario por el valor del objeto A. Sup´ ongase que A
toma el valor cierto, entonces se hace A = cierto y se sigue con la
Etapa 6.
2.3 El Motor de Inferencia 45
• Etapa 6. El objetivo en curso A no coincide con el previo M. Por
tanto, el objeto C se designa como objetivo en curso y se elimina de
la lista ObjetivosPrevios. Por ello, ObjetivosPrevios = ¦M, K¦ y
se contin´ ua con la Etapa 2.
• Etapa 2. Se busca una regla activa que incluya el objetivo C pero no
los anteriores ¦M, K¦. Se encuentra la Regla 1, por lo que se va a la
Etapa 3.
• Etapa 3. La Regla 1 no puede concluir porque el valor del objeto B
es desconocido. As´ı que se va a la Etapa 4.
• Etapa 4. El objeto B no est´a marcado. Entonces
– ObjetivosPrevios = ¦M, K, C¦.
– Se elige como objetivo en curso el ´ unico objeto no marcado, B.
– Se marca el objeto B.
Por ello, ObjetosMarcados = ¦D, E, F, L, M, K, C, A, B¦.
– Se va a la Etapa 2.
• Etapa 2. Se busca una regla activa que incluya el objetivo B pero
no los objetivos previos ¦M, K, C¦. Como no se encuentra ninguna
regla, se va a la Etapa 5.
• Etapa 5. Puesto que el objetivo en curso B no coincide con el inicial
M, se pregunta al usuario el valor del objetivo en curso B. Sup´ ongase
que se da un valor cierto a B, entonces se hace B = cierto y se va a
la Etapa 6.
• Etapa 6. Como el objetivo en curso B no coincide con el inicial M,
se designa el objetivo previo C como objetivo en curso y se elimina
de ObjetivosPrevios. Por ello, ObjetivosPrevios = ¦M, K¦ y se va
a la Etapa 2.
• Etapa 2. Se busca una regla activa que incluya el objetivo en curso
C pero no los anteriores ¦M, K¦. Se encuentra la Regla 1, por lo que
se va a la Etapa 3.
• Etapa 3. Puesto que A = cierto y B = cierto, entonces C = cierto
por la Regla 1. Ahora se va a la Etapa 6.
• Etapa 6. El objetivo en curso C no coincide con el inicial M. Entonces,
se designa el objetivo previo K como objetivo en curso y se elimina
de ObjetivosPrevios. Por ello, ObjetivosPrevios = ¦M¦ y se va a
la Etapa 2.
• Etapa 2. Se busca una regla activa que incluya el objetivo en curso
K pero no los anteriores ¦M¦. Se encuentra la Regla 4, por lo que se
va a la Etapa 3.
46 2. Sistemas Basados en Reglas
• Etapa 3. La Regla 4 no puede concluir puesto que el valor del objeto
G es desconocido. Por tanto, se va a la Etapa 4.
• Etapa 4. El objeto G no est´a marcado. Entonces
– ObjetivosPrevios = ¦M, K¦.
– El ´ unico objeto no marcado G se elige como objetivo en curso.
– Se marca el objeto G.
Por ello, ObjetosMarcados = ¦D, E, F, L, M, K, C, A, B, G¦.
– Se va a la Etapa 2.
• Etapa 2. Se busca una regla activa que incluya el objetivo en curso
G pero no los anteriores ¦M, K¦. Se encuentra la Regla 2, por lo que
se va a la Etapa 3.
• Etapa 3. Puesto que D = cierto, E = cierto y F = cierto, entonces
G = cierto por la Regla 2. Ahora se va a la Etapa 6.
• Etapa 6. El objetivo en curso G no coincide con el inicial M. Entonces,
se designa el objetivo previo K como objetivo en curso y se elimina
de ObjetivosPrevios. Por ello, ObjetivosPrevios = ¦M¦ y se va a
la Etapa 2.
• Etapa 2. Se busca una regla activa que incluya el objetivo en curso
K pero no los anteriores ¦M¦. Se encuentra la Regla 4, por lo que se
va a la Etapa 3.
• Etapa 3. Puesto que C = cierto y G = cierto, entonces K = cierto
por la Regla 4. Seguidamente se va a la Etapa 6.
• Etapa 6. El objetivo en curso K no coincide con el inicial M. En-
tonces, se designa el objetivo previo M como objetivo en curso y se
elimina de ObjetivosPrevios. Por ello, ObjetivosPrevios = φ y se
va a la Etapa 2.
• Etapa 2. Se busca una regla activa que incluya el objetivo en curso
M. Se encuentra la Regla 6, por lo que se va a la Etapa 3.
• Etapa 3. Puesto que K = cierto y L = cierto, entonces M = cierto
por la Regla 6. Ahora se va a la Etapa 6.
• Etapa 6. El objetivo en curso M coincide con el inicial. En conse-
cuencia, se va a la Etapa 7.
• Etapa 7. El algoritmo devuelve el valor M = cierto.
2.3 El Motor de Inferencia 47
N´otese que a pesar de que los objetos H, I y J tienen valores desconocidos,
el algoritmo orientado a un objetivo ha sido capaz de concluir el valor del
objetivo M. La raz´ on de este resultado est´a en que el conocimiento del
objeto L convierte al conocimiento de los objetos H, I y J es irrelevante
para el conocimiento del objeto M.
Las estrategias de encadenamiento de reglas se utilizan en problemas en
los que algunos hechos (por ejemplo, s´ıntomas) se dan por conocidos y se
buscan algunas conclusiones (por ejemplo, enfermedades). Por el contrario,
las estrategias de encadenamiento de reglas orientadas a un objetivo se
utilizan en problemas en los que se dan algunos objetivos (enfermedades)
y se buscan los hechos (s´ıntomas) para que ´estas sean posibles.
Ejemplo 2.10 Encadenamiento de reglas orientado a un objetivo
sin Modus Tollens. Consid´erense las seis reglas de las Figuras 2.10 y
2.11. Sup´ ongase que se selecciona el nodo J como objetivo y que se dan los
siguientes hechos: G = cierto y L = falso. Esto se ilustra en la Figura 2.15,
donde los objetos con valores conocidos (los hechos) aparecen sombreados
y el objetivo rodeado por una circunferencia. Sup´ ongase, en primer lugar,
que el motor de inferencia utiliza s´ olo la regla de inferencia Modus Ponens.
En este caso, las etapas del Algoritmo 2.2 son como sigue:
• Etapa 1: Se marcan los objetos G y L y se les asignan los valores
G = cierto y L = falso. Puesto que el objetivo J no est´a marcado,
entonces
– Se designa el objeto J como objetivo en curso.
– Se marca el objeto J. Por ello, ObjetosMarcados = ¦G, L, J¦.
– ObjetivosPrevios = φ.
– Todas las reglas est´an activas. Por tanto, se tiene ReglasActivas
= ¦1, 2, 3, 4, 5, 6¦.
– Se va a la Etapa 2.
• Etapa 2. Se busca una regla activa que incluya el objetivo en curso
J. Puesto que s´ olo se utiliza la regla de inferencia Modus Ponens, se
encuentra la Regla 3 (es la ´ unica regla en la que el objetivo en curso
J forma parte de su conclusi´ on). Por tanto, se va a la Etapa 3.
• Etapa 3. La Regla 3 no puede concluir puesto que los valores de los
objetos H e I son desconocidos. Por tanto, se va a la Etapa 4.
• Etapa 4. Los objetos H y I no est´an marcados. Entonces
– ObjetivosPrevios = ¦J¦.
– Se elige uno de los objetos no marcados H o I como objetivo en
curso. Sup´ ongase que se elige H.
A
B
C
D
E
F
G
K
M
H
I
J
L
Regla 1
Regla 2
Regla 3
Regla 4
Regla 5
Regla 6
1
Objetivo
2
3
48 2. Sistemas Basados en Reglas
FIGURA 2.15. Un ejemplo que ilustra el encadenamiento de reglas orientado a
un objetivo sin Modus Tollens. Los objetos con valores conocidos (los hechos)
aparecen sombreados, el objetivo se muestra rodeado por una circunferencia, y
el n´ umero en el interior de cada nodo indica el orden en el que se visita.
– El objeto H est´a marcado. Por tanto, se tiene ObjetosMarcados
= ¦G, L, J, H¦.
– Se va a la Etapa 2.
• Etapa 2. Se busca una regla activa que incluya el objetivo en curso
H pero no el previo J. No se encuentra tal regla, por lo que se va a
la Etapa 5.
• Etapa 5. Puesto que el objetivo en curso H es diferente del objetivo
inicial J, se pregunta al usuario el valor del objetivo en curso H.
Sup´ ongase que no se da un valor para dicho objeto, entonces se va a
la Etapa 6.
• Etapa 6. El objetivo en curso H no coincide con el objetivo inicial
J. Entonces, se designa el objetivo previo J como objetivo en curso
y se elimina de ObjetivosPrevios. Por ello, ObjetivosPrevios = φ y
se va a la Etapa 2.
• Etapa 2. Se busca una regla activa que incluya el objetivo en curso
J. Se encuentra la Regla 3 y se va a la Etapa 3.
2.3 El Motor de Inferencia 49
• Etapa 3. La Regla 3 no puede concluir puesto que se desconocen los
valores de los objetos H e I. Por tanto, se va a la Etapa 4.
• Etapa 4. El objeto I no est´a marcado. Entonces
– ObjetivosPrevios = ¦J¦.
– Se elige el ´ unico objeto no marcado I como el objetivo en curso.
– Se marca el objeto I. Por ello, ObjetosMarcados = ¦G, L, J, H, I¦.
– Se va a la Etapa 2.
• Etapa 2. Se busca una regla activa que incluya el objetivo en curso I
pero no el previo J. Como no se encuentra tal regla, se va a la Etapa
5.
• Etapa 5. Puesto que el objetivo en curso I es diferente del objetivo
inicial J, se pregunta al usuario el valor del objetivo en curso I.
Sup´ ongase que no se da un valor para el objeto I, entonces, se va a
la Etapa 6.
• Etapa 6. El objetivo en curso I no es el mismo que el inicial J. Por
tanto, se designa el objetivo previo J como objetivo en curso y se eli-
mina de la lista ObjetivosPrevios. Por ello, se hace ObjetivosPrevios
= φ y se vuelve a la Etapa 2.
• Etapa 2. Se busca una regla activa que incluya el objetivo en curso
J. Se encuentra la Regla 3, por lo que se va a la Etapa 3.
• Etapa 3. La Regla 3 no puede concluir puesto que no se conocen los
valores de los objetos H e I. Se va a la Etapa 4.
• Etapa 4. Todos los objetos de la Regla 3 est´an marcados, por lo que
la Regla 3 se declara inactiva. Por ello, se hace ReglasActivas =
¦1, 2, 4, 5, 6¦. Se contin´ ua en la Etapa 2.
• Etapa 2. Se busca una regla activa que incluya el objetivo en curso
J. Puesto que la Regla 3 se ha declarado inactiva y no se utiliza la
regla de inferencia Modus Tollens, no se encuentra ninguna regla y
se va a la Etapa 5.
• Etapa 5. Puesto que el objetivo en curso J coincide con el inicial, se
va a la Etapa 7.
• Etapa 7. El motor de inferencia no puede concluir un valor para el
objetivo J.
Ejemplo 2.11 Encadenamiento de reglas orientado a un objetivo
con Modus Tollens. En el ejemplo 2.10, el motor de inferencia utiliza
s´olo la regla de inferencia Modus Ponens. Consid´erense las mismas hip´otesis
50 2. Sistemas Basados en Reglas
del Ejemplo 2.10 excepto que ahora el motor de inferencia utiliza ambas
reglas de inferencia, la Modus Ponens y la Modus Tollens. Las etapas del
Algoritmo 2.2 en este caso son como sigue:
• Etapa 1: Se marcan los objetos G y L y se les asignan los valores
G = cierto y L = falso. Puesto que el objetivo J no est´a marcado,
entonces
– Se designa el objeto J como objetivo en curso.
– Se marca el objeto J. Por ello, se hace ObjetosMarcados =
¦G, L, J¦.
– ObjetivosPrevios = φ.
– Las seis reglas son activas. Por ello, se hace ReglasActivas =
¦1, 2, 3, 4, 5, 6¦.
– Se va a la Etapa 2.
• Etapa 2. Se busca una regla activa que incluya el objetivo en curso
J. Puesto que se utilizan ambas reglas de inferencia, las Reglas 3 y
5 incluyen el objeto J. Sup´ ongase que se elige la Regla 5. Se va a la
Etapa 3. (Si se elige la Regla 3, el algoritmo tardar´ a m´as tiempo en
terminar.)
• Etapa 3. Puesto que se usa la regla de inferencia Modus Tollens, la
Regla 5 concluye que J = falso (puesto que G = cierto y L = falso).
Por tanto, se va a la Etapa 6.
• Etapa 6. El objetivo en curso J coincide con el inicial, por lo que se
va a la Etapa 7.
• Etapa 7. Se devuelve J = falso.
2.3.5 Compilaci´on de reglas
Otra forma de tratar con reglas encadenadas consiste en comenzar con un
conjunto de datos (informaci´ on) y tratar de alcanzar algunos objetivos.
Esto se conoce con el nombre de compilaci´ on de reglas. Cuando ambos,
datos y objetivos, se han determinado previamente, las reglas pueden ser
compiladas, es decir, pueden escribirse los objetivos en funci´ on de los datos
para obtener las llamadas ecuaciones objetivo. La compilaci´ on de reglas se
explica mejor con un ejemplo.
Ejemplo 2.12 Compilaci´on de reglas. Consid´erese el conjunto de seis
reglas de la Figura 2.11 y sup´ ongase que son conocidos los valores de los
objetos A, B, D, E, F, H, e I y que los restantes objetos, C, G, J, K, L y M,
son objetivos. Denotemos por ∧ el operador l´ ogico y; entonces, utilizando
las seis reglas, pueden obtenerse las siguientes ecuaciones objetivo:
2.4 Control de la Coherencia 51
• La Regla 1 implica C = A∧ B.
• La Regla 2 implica G = D ∧ E ∧ F.
• La Regla 3 implica J = H ∧ I.
• La Regla 4 implica K = C ∧ G = (A∧ B) ∧ (D ∧ E ∧ F).
• La Regla 5 implica L = G∧ J = (D ∧ E ∧ F) ∧ (H ∧ I).
• La Regla 6 implica M = K ∧ L = A∧ B ∧ D ∧ E ∧ F ∧ H ∧ I.
Las tres primeras ecuaciones son equivalentes a las tres primeras reglas.
Las tres ecuaciones objetivo son, respectivamente, equivalentes a las reglas
siguientes:
• Regla 4a: Si A y B y D y E y F, entonces K.
• Regla 5a: Si D y E y F y H e I, entonces L.
• Regla 6a: Si A y B y D y E y F y H e I, entonces M.
Por ello, si, por ejemplo, cada uno de los objetos ¦A, B, D, E, F, H, I¦ toma
el valor cierto, entonces se obtiene de forma inmediata, a partir de las Reglas
4a, 5a y 6a, que los objetos ¦K, L, M¦ deben ser ciertos.
2.4 Control de la Coherencia
En situaciones complejas, incluso verdaderos expertos pueden dar infor-
maci´on inconsistente (por ejemplo, reglas inconsistentes y/o combinaciones
de hechos no factibles). Por ello, es muy importante controlar la coherencia
del conocimiento tanto durante la construcci´ on de la base de conocimiento
como durante los procesos de adquisici´ on de datos y razonamiento. Si la
base de conocimiento contiene informaci´on inconsistente (por ejemplo, re-
glas y/o hechos), es muy probable que el sistema experto se comporte de
forma poco satisfactoria y obtenga conclusiones absurdas.
El objetivo del control de la coherencia consiste en
1. Ayudar al usuario a no dar hechos inconsistentes, por ejemplo, d´ andole
al usuario las restricciones que debe satisfacer la informaci´ on deman-
dada.
2. Evitar que entre en la base de conocimiento cualquier tipo de cono-
cimiento inconsistente o contradictorio.
El control de la coherencia debe hacerse controlando la coherencia de las
reglas y la de los hechos.
52 2. Sistemas Basados en Reglas
Objetos Conclusiones Conclusiones
A B Regla 1 Regla 2 contradictorias
C C B = C B = F S´ı
C F B = C B = F S´ı
F C − − No
F F − − No
TABLA 2.8. Una tabla de verdad que muestra que las Reglas 1 y 2 son coherentes.
2.4.1 Coherencia de Reglas
Definici´on 2.2 Reglas coherentes. Un conjunto de reglas se denomina
coherente si existe, al menos, un conjunto de valores de todos los objetos
que producen conclusiones no contradictorias.
En consecuencia, un conjunto coherente de reglas no tiene por qu´e producir
conclusiones no contradictorias para todos los posibles conjuntos de valores
de los objetos. Es decir, es suficiente que exista un conjunto de valores que
conduzcan a conclusiones no contradictorias.
Ejemplo 2.13 Conjunto de reglas incoherentes. Consid´erense las
cuatro reglas siguientes, que relacionan dos objetos A y B binarios ¦C, F¦:
• Regla 1: Si A = C, entonces B = C.
• Regla 2: Si A = C, entonces B = F.
• Regla 3: Si A = F, entonces B = C.
• Regla 4: Si A = F, entonces B = F.
Entonces, pueden obtenerse las siguientes conclusiones:
1. Las Reglas 1−2 son coherentes puesto que, tal como se muestra en la
Tabla 2.8, para A = F, no producen conclusiones.
2. Las Reglas 1−3 son coherentes puesto que para A = F y B = C,
producen una conclusi´ on (B = C) (v´ease la Tabla 2.9).
3. Las Reglas 1−4 son incoheremtes porque producen conclusiones con-
tradictorias para todos los posibles valores de A y B, tal como se ve
en la Tabla 2.10.
N´otese que un conjunto de reglas puede ser coherente, aunque algunos
conjuntos de valores puedan producir conclusiones inconsistentes. Estos
conjuntos de valores se llaman valores no factibles. Por ejemplo, las Reglas
1−2 son coherentes, aunque producen conclusiones inconsistentes en todos
los casos en que A = C. En consecuencia, el subsistema de control de
2.4 Control de la Coherencia 53
Objetos Conclusiones Conclusiones
A B Regla 1 Regla 2 Regla 3 contradictorias
C C B = C B = F − S´ı
C F B = C B = F − S´ı
F C − − B = C No
F F − − B = C S´ı
TABLA 2.9. Una tabla de verdad que muestra que las Reglas 1−3 son coherentes.
Objetos Conclusiones Conclusiones
A B Regla 1 Regla 2 Regla 3 Regla 4 contradictorias
C C B = C B = F − − S´ı
C F B = C B = F − − S´ı
F C − − B = C B = F S´ı
F F − − B = C B = F S´ı
TABLA 2.10. Una tabla de verdad que muestra que las Reglas 1−4 son
incoherentes.
coherencia eliminar´ a autom´ aticamente el valor C de la lista de posibles
valores del objeto A, permitiendo de esta forma al usuario seleccionar s´ olo
valores factibles de los objetos.
Definici´on 2.3 Valores no factibles. Se dice que un valor a para el
objeto A no es factible si las conclusiones obtenidas al hacer A = a con-
tradicen cualquier combinaci´ on de valores del resto de los objetos.
Por ello, cualquier valor no factible debe ser eliminado de la lista de valores
posibles de su correspondiente objeto para eliminar la posibilidad de que
el motor de inferencia pueda obtener conclusiones inconsistentes.
Ejemplo 2.14 Valores no factibles. Consid´erese el conjunto de las cua-
tro reglas del Ejemplo 2.13. En este caso, el motor de inferencia concluir´ a
lo siguiente:
1. Las dos primeras reglas implican que A = C, puesto que A = C
siempre conduce a conclusiones inconsistentes. Por tanto, el valor
A = C deber´ a ser eliminado autom´ aticamente de la lista de valores
factibles de A. Dado que A es binario, entonces resulta A = F (el
´ unico valor posible).
2. Las tres primeras reglas implican que A = F y B = C. Por tanto,
el valor B = F deber´ a ser eliminado autom´ aticamente de la lista de
valores factibles de B.
54 2. Sistemas Basados en Reglas
3. Las primeras cuatro reglas implican que A = C, A = F, B = C
y B = F. Por tanto, los valores ¦C, F¦ son eliminados de las listas
de valores de A y B, con lo que las listas de valores factibles de
todos los objetos est´an vac´ıas, lo que implica que las cuatro reglas
son incoherentes.
N´otese que es suficiente realizar la comprobaci´on de la coherencia de las
reglas s´olo una vez, tras ser introducida cada regla, y que todos los valores
no factibles pueden ser eliminados de sus correspondientes listas, nada m´ as
ser detectados.
El conjunto de reglas que forman el conocimiento debe ser coherente; en
otro caso, el sistema podr´a obtener conclusiones err´ oneas. Por ello, antes de
a˜ nadir una regla a la base de conocimiento, hay que comprobar la consisten-
cia de esta regla con el resto de ellas, inclu´ıdas en la base de conocimiento.
Si la regla fuese consistente con el resto de reglas, se a˜ nadir´ıa a la base de
conocimiento; en caso contrario, se devolver´ıa al experto humano para su
correcci´on.
Ejemplo 2.15 Coherencia de reglas. Sup´ ongase que se tienen los cuatro
objetos: A ∈ ¦0, 1¦, B ∈ ¦0, 1¦, C ∈ ¦0, 1, 2¦ y D ∈ ¦0, 1¦. Consid´erense las
cuatro reglas:
• Regla 1: Si A = 0 y B = 0, entonces C = 0.
• Regla 2: Si A = 0 y D = 0, entonces C = 1.
• Regla 3: Si A = 0 y B = 0, entonces C = 1.
• Regla 4: Si A = 0, entonces B = 0.
• Regla 5: Si B = 0, entonces A = 1.
Sup´ ongase ahora que se desea a˜ nadir las tres ´ ultimas reglas a una base de
conocimiento que contiene las dos primeras reglas. Entonces, las Reglas 1
y 3 son inconsistentes, puesto que tienen la misma premisa pero diferentes
conclusiones. Por tanto, la Regla 3 debe ser rechazada y el experto humano
informado de la raz´ on del rechazo. El experto humano corregir´ a la regla en
cuesti´on y/o las reglas existentes si fueran incorrectas. La Regla 4 entrar´a
en la base de conocimiento, puesto que es consistente con las Reglas 1 y
2. La Regla 5 es inconsistente con la Regla 4. Por ello, la consistencia de
ambas reglas debe ser comprobada antes de pasar a formar parte de la base
de conocimiento.
2.4.2 Coherencia de hechos
Los datos o evidencias suministrados por los usuarios deben ser tambi´en
consistentes en s´ı y con el conjunto de reglas de la base de datos. Por ello, el
sistema no debe aceptar hechos que contradigan el conjunto de reglas y/o
2.4 Control de la Coherencia 55
el conjunto de hechos existente en cada instante del proceso. Por ejemplo,
con una base de conocimiento que contenga las dos primeras reglas del
Ejemplo 2.15, el sistema no debe aceptar el conjunto de hechos A = 0,
B = 0 y C = 1 puesto que contradicen la Regla 1.
El sistema debe tambi´en comprobar si existe o no, una soluci´ on factible
e informar al usuario en consecuencia. Si en el ejemplo anterior se trata de
dar la informaci´ on A = 0, B = 0 y D = 0, el sistema debe detectar que no
existe ning´ un valor de C que sea consistente con la base de conocimiento.
N´otese que antes de conocer los valores de los objetos, existe una soluci´on
factible. Por ejemplo, A = 0, B = 0, C = 0 y D = 1 (estos hechos no
contradicen la base de conocimiento). Por ello, la inconsistencia surge de
que los hechos y las reglas sean inconsistentes.
La coherencia de los hechos puede lograrse mediante las estrategias si-
guientes:
1. Eliminar todos los valores no factibles (los que contradicen el conjunto
de reglas y/o hechos) de los objetos una vez detectados. Cuando se
pregunte al usuario por informaci´ on sobre los valores de un conjunto
de objetos, el sistema experto deber´ıa aceptar s´olo los valores de
cada objeto que sean consistentes con las reglas y con el conocimiento
previo. Consid´erese, por ejemplo, la base de conocimiento del Ejemplo
2.15 y sup´ ongase que al sistema experto se le ha dado la informaci´on
A = 0 y C = 1; entonces el sistema debe saber que B = 0. Por ello,
este valor debe ser eliminado de la lista de posibles valores del objeto
B.
2. El motor de inferencia debe comprobar que los hechos conocidos no
contradicen el conjunto de reglas. En la situaci´ on anterior, por ejem-
plo, el sistema no debe aceptar el conjunto de hechos A = 1, B = 1
y C = 2. Si el sistema no elimina los valores no factibles, entonces
el usuario podr´ a dar evidencias contradictorias tales como Pago =
autorizado y NIP = incorrecto en el Ejemplo 2.1 del CA . Por ello,
tan pronto como se de la primera evidencia, Pago = autorizado, el
sistema debe seleccionar s´olo los valores del NIP que no conduzcan
a conclusiones contradictorias.
3. Suministrar al usuario una lista de objetos a los que no se ha asignado
valores previamente.
4. Para cada uno de los objetos, mostrar y aceptar s´ olo sus valores
factibles.
5. Actualizar continuamente la base de conocimiento, es decir, tan pronto
como se d´e un hecho o se obtenga una conclusi´ on, y eliminar los va-
lores no factibles. El motor de inferencia obtiene todas las conclu-
siones posibles examinando, y posiblemente concluyendo, las reglas
tan pronto como una simple unidad de informaci´ on llega al sistema.
56 2. Sistemas Basados en Reglas
N´otese que dar varias unidades de informaci´ on simult´ aneamente puede
conducir a inconsistencias en la base de datos. Por ejemplo, dado
A = 0, no se puede dar la informaci´ on combinada B = 0 y C = 1.
En este caso, el orden de la informaci´ on afecta a los posibles valores
futuros de los objetos que conducen a compatibilidad, es decir, tras
dar A = 0 se puede dar B = 0 ´ o C = 1, pero estas dos opciones
imponen restricciones diferentes a los posibles futuros valores de los
restantes objetos.
La actualizaci´on continua de la base de conocimiento es muy im-
portante puesto que no actualizar implica la posibilidad de que evi-
dencias contradictorias puedan convivir en la base de conocimiento.
Por ello, el conocimiento debe ser actualizado inmediatamente tras
la incorporaci´ on de cada hecho.
Por ello, tanto la eliminaci´ on autom´ atica de valores no factibles como la
actualizaci´on continua del conocimiento aseguran la coherencia de la base
de conocimiento. El ejemplo siguiente ilustra la aplicaci´ on de esta t´ecnica
al problema de los agentes secretos presentado en el Cap´ıtulo 1.
Ejemplo 2.16 Los Agentes Secretos. En este ejemplo se retoma el
problema de los agentes secretos introducido en el Ejemplo 1.5, en el que
cada uno de los cuatro agentes secretos, Alberto, Luisa, Carmen y Tom´as,
est´a en uno de los cuatro paises: Egipto, Francia, Jap´ on y Espa˜ na. Se han
recibido los siguientes telegramas de los agentes:
• De Francia: Luisa est´ a en Espa˜ na.
• De Espa˜ na: Alberto est´ a en Francia.
• De Egipto: Carmen est´ a en Egipto.
• De Jap´ on: Carmen est´a en Francia.
El problema radica en que no se sabe qui´en ha enviado cada uno de los
mensajes, pero es conocido que Tom´as miente (¿es un agente doble?) y que
los dem´as agentes dicen la verdad. El misterio que trata de escudri˜ narse es
el de responder a la pregunta ¿qui´en est´a en cada pa´ıs?
Seguidamente se dise˜ na un sistema experto para resolver este problema.
Se tienen cuatro objetos: Alberto, Luisa, Carmen y Tom´ as. Cada objeto
puede tomar uno de cuatro valores: Egipto, Francia, Jap´ on o Espa˜ na.
Puesto que Tom´as es el ´ unico que miente, se considera que un telegrama
suyo es siempre falso. Esto da lugar a dos reglas por cada mensaje:
1. El mensaje de Francia (Luisa est´ a en Espa˜ na) da lugar a:
• Regla 1: Si Tom´ as est´a en Francia, entonces Luisa no est´a en
Espa˜ na.
2.4 Control de la Coherencia 57
• Regla 2: Si Tom´ as no est´a en Francia, entonces Luisa est´a en
Espa˜ na.
2. El mensaje de Espa˜ na (Alberto est´ a en Francia) da lugar a:
• Regla 3: Si Tom´as est´a en Espa˜ na, entonces Alberto no est´ a en
Francia.
• Regla 4: Si Tom´as no est´a en Espa˜ na, entonces Alberto est´a en
Francia.
3. El mensaje de Egipto (Carmen est´ a en Egipto) da lugar a:
• Regla 5: Si Tom´ as est´a en Egipto, entonces Carmen no est´a en
Egipto.
• Regla 6: Si Tom´ as no est´a en Egipto, entonces Carmen est´a en
Egipto.
4. El mensaje de Jap´ on (Carmen est´a en Francia) da lugar a:
• Regla 7: Si Tom´as est´a en Jap´ on, entonces Carmen no est´a en
Francia.
• Regla 8: Si Tom´as no est´a en Jap´ on, entonces Carmen est´a en
Francia.
Utilizando s´ olo estas ocho reglas, se intentar´a ahora averiguar el valor
que toma el objeto Tom´as:
1. Tom´as est´a posiblemente en Egipto. Si Tom´ as est´a en Egipto, se
obtienen las conclusiones siguientes:
• Luisa est´a en Espa˜ na, por la Regla 2.
• Alberto est´ a en Francia, por la Regla 4.
• Carmen no est´a en Egipto, por la Regla 5.
• Carmen est´a en Francia, por la Regla 8.
Se ve que con esta hip´ otesis se llega a la conclusi´on de que tanto Al-
berto como Carmen est´an en Francia, lo que contradice la informaci´ on
de que s´olo un agente puede estar en cada pa´ıs (pero el conjunto de
las ocho reglas anteriores no contiene esta informaci´on). Por tanto,
se concluye que Egipto es un valor imposible para el objeto Tom´ as,
es decir, Tom´as no puede estar en Egipto.
2. Tom´as est´a posiblemente en Jap´ on. Si Tom´ as est´a Jap´ on, se obtienen
las conclusiones siguientes:
• Luisa est´a en Espa˜ na, por la Regla 2.
• Alberto est´ a en Francia, por la Regla 4.
58 2. Sistemas Basados en Reglas
• Carmen est´a en Egipto, por la Regla 6.
En este caso no hay una contradicci´ on, lo que significa que Jap´ on es
un valor posible para el objeto Tom´ as.
Con las ocho reglas anteriores, el motor de inferencia no puede concluir
en qu´e pa´ıs est´a cada uno de los agentes, puesto que las reglas no contienen
la informaci´ on “s´olo un agente puede estar en cada pa´ıs.” Seguidamente se
considera esta situaci´on y se obtiene un conjunto de reglas adicionales que
tienen en cuenta esta informaci´ on.
Puesto que cada pa´ıs puede estar ocupado por exactamente un agente,
sup´ ongase que un agente est´a en un pa´ıs dado. Entonces, se necesitan tres
reglas para garantizar que ninguno de los restantes agentes est´ a en ese
mismo pa´ıs. Dado que se tienen cuatro agentes, resultan un total de 12
reglas (3 reglas 4 agentes). Sin embargo, si se utiliza la regla de inferencia
Modus Tollens, s´ olo son necesarias seis reglas, pues las restantes resultan
redundantes. Por ejemplo, para Egipto se tienen las reglas:
• Regla 9: Si Alberto est´ a en Egipto, entonces Luisa no est´ a en Egipto.
• Regla 10: Si Alberto est´ a en Egipto, entonces Carmen no est´a en
Egipto.
• Regla 11: Si Alberto est´ a en Egipto, entonces Tom´ as no est´a en
Egipto.
• Regla 12: Si Luisa est´a en Egipto, entonces Carmen no est´a en Egipto.
• Regla 13: Si Luisa est´a en Egipto, entonces Tom´ as no est´a en Egipto.
• Regla 14: Si Carmen est´a en Egipto, entonces Tom´ as no est´a en
Egipto.
N´otese que existen un conjunto de seis reglas equivalentes a las anteriores.
Por ejemplo, la regla:
• Regla 14a: Si Tom´ as est´a en Egipto, entonces Carmen no est´a en
Egipto,
es equivalente a (Modus Tollens) la Regla 14. Por tanto, se necesitan s´olo
seis reglas por pa´ıs.
Los conjuntos de seis reglas para cada uno de los restantes pa´ıses se gene-
ran de forma similar. Por tanto, se tienen un total de 24 reglas adicionales
que representan el hecho de que exactamente un agente puede estar en cada
pa´ıs.
2.6 Ejemplo de Aplicaci´on 59
2.5 Explicando Conclusiones
Tal como se ha indicado en el Cap´ıtulo 1, las conclusiones no bastan para
satisfacer al usuario de un sistema experto. Normalmente, los usuarios es-
peran que el sistema les d´e alg´ un tipo de explicaci´ on que indique el por qu´e
de las conclusiones. Durante el proceso realizado por el motor de inferencia,
las reglas activas (las que han conclu´ıdo) forman la base del mecanismo de
explicaci´on, que es regulado por el subsistema de explicaci´ on.
En los sistemas expertos basados en reglas, es f´acil dar explicaciones
de las conclusiones obtenidas. El motor de inferencia obtiene conclusiones
bas´andose en un conjunto de reglas y, por tanto, conoce de qu´e regla procede
cada conclusi´ on. Por ello, el sistema puede dar al usuario la lista de hechos
concluidos junto con las reglas que se han utilizado para obtenerlos.
Ejemplo 2.17 Explicando conclusiones. Consid´erense las seis reglas
de las Figuras 2.10 y 2.11. Como en el Ejemplo 2.7, sup´ ongase que se
sabe que los objetos A, B, D, E, F, H, y I son ciertos y que los restantes
objetos toman valores desconocidos. Entonces, aplicando el Algoritmo 2.1
y examinando las reglas que han sido ejecutadas, el sistema experto puede
suministrar la explicaci´ on siguiente a las conclusiones obtenidas:
1. Hechos dados:
A = cierto, B = cierto, D = cierto, E = cierto,
F = cierto, H = cierto, I = cierto.
2. Conclusiones y explicaciones:
• C = cierto, basada en la Regla 1.
• G = cierto, basada en la Regla 2.
• J = cierto, basada en la Regla 3.
• K = cierto, basada en la Regla 4.
• L = cierto, basada en la Regla 5.
• M = cierto, basada en la Regla 6.
2.6 Ejemplo de Aplicaci´ on
Los sistemas de control de tr´afico actuales son necesariamente complejos.
En esta secci´on se muestra un ejemplo para ilustrar c´ omo puede dise˜ narse
un sistema experto basado en reglas para resolver un problema de control
de tr´ afico muy simple. La Figura 2.16 muestra un trazado de ferrocarril en
el que varios trenes pueden circular en las dos direcciones. Hay cinco v´ıas,
S
1
, . . . , S
5
, y 14 se˜ nales de tr´ afico, ocho en la parte superior del diagrama,
S
1
S
2
S
4
S
5
S
3
U
1
L
1
U
2
L
2
U
3
L
3
U
7
U
8
U
4
L
4
U
5
L
5
U
6
L
6
60 2. Sistemas Basados en Reglas
FIGURA 2.16. Trazado de ferrocarril con cinco v´ıas.
Objeto Valor
U
1
a U
8
¦verde, rojo¦
L
1
a L
6
¦verde, rojo¦
S
1
a S
5
¦libre, ocupada¦
TABLA 2.11. Objetos y sus correspondientes valores para el ejemplo del control
de tr´ afico ferroviario.
U
1
, . . . , U
8
, y seis en la parte inferior, L
1
, . . . , L
6
. Todos los objetos y sus
posibles valores se muestran en la Tabla 2.11.
El objetivo de este sistema es dise˜ nar un conjunto de reglas que eviten
la colisi´ on de los trenes. Estas reglas pueden obtenerse como sigue:
1. Si la se˜ nal de tr´ afico U
1
est´a verde, entonces puede permitirse la
salida de un tren que est´e en la v´ıa S
1
y no debe permitirse la salida
de los trenes de la v´ıa S
2
, por lo que L
1
tiene que estar en rojo.
Lo mismo es cierto para las v´ıas S
4
y S
5
. Esto da las dos primeras
reglas de la Tabla 2.12. N´ otese que si el motor de inferencia utiliza
la regla de inferencia Modus Tollens, estas reglas garantizan tambi´en
que cuando las se˜ nales de la parte baja de las v´ıas est´en en verde,
las se˜ nales de sus correspondientes partes superiores est´en en rojo. Es
decir, las dos primeras reglas de la Tabla 2.12 implican las dos reglas
siguientes:
• Regla 1a: Si L
1
= verde, entonces U
1
= rojo.
• Regla 2a: Si L
6
= verde, entonces U
6
= rojo.
2. Si la v´ıa S
1
est´a ocupada, entonces la se˜ nal U
2
debe estar en rojo
para evitar que un tren entre en la v´ıa ocupada. Similarmente, para
las dem´as v´ıas. Esto da lugar a las seis reglas adicionales (Reglas 3−8)
en la Tabla 2.12.
2.6 Ejemplo de Aplicaci´on 61
3. Si ambas se˜ nales U
3
y L
3
est´an en rojo, entonces ning´ un tren puede
salir de la v´ıa S
1
. La misma condici´on vale para las se˜ nales U
5
y L
5
.
Por ello, se tiene la regla
• Regla 9: Si (U
3
= rojo y L
3
= rojo) o (U
5
= rojo o L
5
= rojo),
entonces U
1
= rojo.
Las cinco reglas asociadas a las otras cinco v´ıas pueden ser obtenidas
de forma an´ aloga. Todas las reglas se muestran en la Tabla 2.12 como
las Reglas 9−14.
4. Para evitar la colisi´ on de los trenes procedentes de las v´ıas S
1
−S
2
y
S
4
−S
5
, son necesarias las reglas siguientes:
• Regla 15: Si U
3
= verde, entonces U
4
= rojo
• Regla 16: Si L
3
= verde, entonces L
4
= rojo.
5. Para evitar que las se˜ nales de la parte alta y sus correspondientes
se˜ nales de la parte baja est´en simult´ aneamente en verde, es necesario
incluir las Reglas 17−20 de la Tabla 2.12.
6. Finalmente, para evitar la colisi´ on de un tren de la v´ıa S
3
con un
tren de las otras cuatro v´ıas, se imponen las dos ´ ultimas reglas de la
Tabla 2.12.
Para mantener la coherencia de los hechos, es necesario actualizar au-
tom´aticamente el conocimiento tan pronto como se conozca un nuevo hecho
o conclusi´ on.
Seguidamente se considera un ejemplo para ilustrar el comportamiento
de un sistema experto cuya base de conocimiento consta de los objetos de
la Tabla 2.11 y el conjunto de reglas de la Tabla 2.12.
Ejemplo 2.18 Control de tr´afico ferroviario. En este ejemplo se usar´a
la concha X-pert Reglas. En primer lugar, se necesita escribir un fichero que
contenga una descripci´ on de la base de conocimiento anterior. Este fichero
es le´ıdo por la concha X-pert Reglas. Puesto que X-pert Reglas no permite
el uso del operador o en la premisa de las reglas, es necesario reemplazar
las Reglas 9−12 por el conjunto siguiente de reglas equivalente (ver las
equivalencias de la Tabla 2.4):
• Regla 9a: Si (U
3
= rojo y L
3
= rojo), entonces U
1
= rojo.
• Regla 9b: Si (U
5
= rojo y L
5
= rojo), entonces U
1
= rojo.
• Regla 10a: Si (U
3
= rojo y L
3
= rojo), entonces L
1
= rojo.
• Regla 10b: Si (U
5
= rojo y L
5
= rojo), entonces L
1
= rojo.
• Regla 11a: Si (U
2
= rojo y L
2
= rojo), entonces U
6
= rojo.
62 2. Sistemas Basados en Reglas
Regla Premisa Conclusi´ on
Regla 1 U
1
= verde L
1
= rojo
Regla 2 U
6
= verde L
6
= rojo
Regla 3 S
1
= ocupada U
2
= rojo
Regla 4 S
2
= ocupada L
2
= rojo
Regla 5 S
3
= ocupada U
3
= rojo
Regla 6 S
3
= ocupada U
4
= rojo
Regla 7 S
4
= ocupada U
5
= rojo
Regla 8 S
5
= ocupada L
5
= rojo
Regla 9 (U
3
= rojo y L
3
= rojo) o
(U
5
= rojo y L
5
= rojo) U
1
= rojo
Regla 10 (U
3
= rojo y L
3
= rojo) o
(U
5
= rojo y L
5
= rojo) L
1
= rojo
Regla 11 (U
2
= rojo y L
2
= rojo) o
(U
4
= rojo y L
4
= rojo) U
6
= rojo
Regla 12 (U
2
= rojo y L
2
= rojo) o
(U
4
= rojo y L
4
= rojo) L
6
= rojo
Regla 13 U
2
= rojo y L
2
= rojo U
7
= rojo
Regla 14 U
5
= rojo y L
5
= rojo U
8
= rojo
Regla 15 U
3
= verde U
4
= rojo
Regla 16 L
3
= verde L
4
= rojo
Regla 17 U
2
= verde L
2
= rojo
Regla 18 U
3
= verde L
3
= rojo
Regla 19 U
4
= verde L
4
= rojo
Regla 20 U
5
= verde L
5
= rojo
Regla 21 U
1
= verde o L
1
= verde U
7
= rojo
Regla 22 U
6
= verde o L
6
= verde U
8
= rojo
TABLA 2.12. Reglas para el ejemplo del control de tr´afico ferroviario.
• Regla 11b: Si (U
4
= rojo y L
4
= rojo), entonces U
6
= rojo.
• Regla 12a: Si (U
2
= rojo y L
2
= rojo), entonces L
6
= rojo.
• Regla 12b: Si (U
4
= rojo y L
4
= rojo), entonces L
6
= rojo.
Por ello, se crea el fichero de texto “TrafficControl.txt,” que contiene todos
los objetos y las 26 reglas.
1
Sup´ ongase que inicialmente se tienen trenes
1
El fichero “TrafficControl.txt” con la base de conocimiento y la concha para
construir sistemas expertos X-pert Reglas puede obtenerse de la direcci´on de
World Wide Web http://ccaix3.unican.es/˜AIGroup.
S
1
S
2
S
4
S
5
S
3
rojo rojo rojo
rojo
ocupado ocupado
ocupado
2.6 Ejemplo de Aplicaci´on 63
esperando en las v´ıas S
1
, S
2
y S
3
tal como se indica en la Figura 2.17. Lo
que sigue muestra una sesi´on interactiva utilizando X-pert Reglas y tras leer
el fichero de texto “TrafficControl.txt”. En primer lugar se especifican los
hechos: S
1
= ocupada, S
3
= ocupada y S
5
= ocupada. Entonces se obtienen
los siguientes hechos (dados) y las conclusiones (hechos concluidos):
1. Hechos:
• S
1
= ocupada.
• S
3
= ocupada.
• S
5
= ocupada.
2. Conclusiones:
• U
2
= rojo (basada en la Regla 3).
• U
3
= rojo (basada en la Regla 5).
• U
4
= rojo (basada en la Regla 6).
• L
5
= rojo (basada en la Regla 8).
Por ello, se ponen en rojo cuatro se˜ nales para evitar la colisi´ on de los trenes
que esperan en las v´ıas. El resto de los objetos toman valores desconocidos.
La Figura 2.17 muestra esta informaci´ on en forma gr´ afica.
FIGURA 2.17. Nuevas conclusiones resultantes de los hechos S
1
= S
3
= S
5
=
ocupada.
Sup´ ongase ahora que se desea permitir al tren en la v´ıa S
1
salir en di-
recci´on Este. Para ello, se hace U
1
= verde. Entonces se tienen los siguientes
hechos y conclusiones:
1. Hechos:
• S
1
= ocupada.
• S
3
= ocupada.
• S
5
= ocupada.
• U
1
= verde.
S
1
S
2
S
4
S
5
S
3
rojo rojo rojo
rojo
ocupado ocupado
ocupado
verde
rojo
verde
verde
rojo
rojo
rojo
libre
rojo
64 2. Sistemas Basados en Reglas
2. Conclusiones:
• U
2
= rojo (basada en la Regla 3).
• U
3
= rojo (basada en la Regla 5).
• U
4
= rojo (basada en la Regla 6).
• L
5
= rojo (basada en la Regla 8).
• L
1
= rojo (basada en la Regla 1).
• U
7
= rojo (basada en la Regla 21).
• L
3
= verde (basada en la Regla 9a).
• U
5
= verde (basada en la Regla 9b).
• L
4
= rojo (basada en la Regla 16).
• S
4
= ocupada (basada en la Regla 7).
• S
4
= free (es el ´ unico valor posible).
• U
6
= rojo (basada en la Regla 11b).
• L
6
=rojo (basada en la Regla 12b).
La Figura 2.18 muestra las conclusiones resultantes. N´ otese que el tren
que est´a en la v´ıa S
1
puede ahora partir y dirigirse a la v´ıa S
4
. Este camino
se muestra en la Figura 2.18.
FIGURA 2.18. Nuevas conclusiones resultantes de los hechos S
1
= S
3
= S
5
=
ocupada and U
1
= verde.
2.7 Introduciendo Incertidumbre
Los sistemas basados en reglas descritos en este cap´ıtulo pueden aplicarse
s´olo a situaciones deterministas. Sin embargo, hay muchos casos pr´ acticos
que implican incertidumbre. Por ejemplo, en el Ejemplo 1.4 del diagn´ ostico
2.7 Introduciendo Incertidumbre 65
m´edico, la presencia de algunos s´ıntomas no siempre implica la existencia
de una enfermedad dada, incluso aunque haya una fuerte evidencia sobre
la existencia de esa enfermedad. Por ello, es ´ util extender la l´ ogica cl´asica
para incorporar incertidumbre. Esto ha sido realizado mediante la intro-
ducci´ on de varias medidas para tratar la incertidumbre. Castillo y
´
Alvarez
(1990, 1991) describen la aplicaci´ on de estas medidas para mejorar los
sistemas expertos basados en reglas. Por otra parte, Johnson y Keravnou
(1988) describen algunos prototipos de sistemas expertos basados en l´ ogicas
inciertas. El Cap´ıtulo 3 describe en detalle los sistemas expertos basados
en probabilidad, que incorporan la incertidumbre.
Ejercicios
2.1 En el Ejemplo 2.3, se usan dos objetos binarios A y B y se da un
ejemplo en el que la regla de inferencia Modus Tollens expande la
base de conocimiento. Utilizando objetos no binarios, dar un ejemplo
similar. Por ejemplo, cuando A y B puedan tomar los valores ¦0, 1, 2¦.
2.2 Mostrar que los dos conjuntos de reglas de las Figuras 2.1 y 2.7 son
l´ ogicamente equivalentes.
2.3 En alg´ un momento del Ejemplo 2.11, se ha buscado una regla activa
que incluyera el objeto en curso J. Se encontraron las Reglas 3 y 5, y
se eligi´o la Regla 5. Completar las etapas del algoritmo si se hubiera
elegido la Regla 3 en vez de la Regla 5.
2.4 Consid´erese una intersecci´on de dos calles de doble sentido, tal como
se indica en la Figura 2.19, en la que se muestran los giros permitidos.
Sean T
1
−T
3
, R
1
−R
3
, B
1
−B
3
y L
1
−L
3
los sem´aforos asociados a di-
chos carriles. Definir un conjunto de reglas que regulen la intersecci´ on
de forma que no pueda producirse ninguna colisi´ on.
2.5 Consid´erese la l´ınea ferroviaria con seis v´ıas dada en la Figura 2.20.
Completar el conjunto de reglas dado en la Secci´ on 2.6 para incorpo-
rar la nueva v´ıa S
6
.
2.6 Consid´erese la l´ınea ferroviaria de la Figura 2.21 con cuatro v´ıas
¦S
1
, . . . , S
4
¦. Dise˜ nar un sistema de control de tr´ afico ferroviario para
controlar las se˜ nales. Obtener un conjunto de reglas que garanticen
la imposibilidad de colisiones de trenes.
2.7 Sup´ ongase que se tienen las seis reglas del Ejemplo 2.7. Siguiendo
el proceso dado en los Ejemplos 2.9 y 2.10, aplicar un algoritmo de
encadenamiento orientado a un objetivo para concluir un valor para
los objetivos dados en las Figuras 2.22(a) y 2.22(b). Los objetos que
T
2
T
3
T
1
B
2
B
3
B
1
R
2
R
3
R
1
L
2
L
3
L
1
S
1
S
2
S
4
S
5
S
3
S
6
66 2. Sistemas Basados en Reglas
FIGURA 2.19. Intersecci´on mostrando los giros permitidos.
FIGURA 2.20. Una l´ınea ferroviaria con seis v´ıas.
se indican en gris son objetos con valores asignados. Los correspon-
dientes valores se muestran pr´oximos a los objetos. ¿Cu´ales ser´ıan las
conclusiones con un motor de inferencia que s´ olo incluya la regla de
inferencia Modus Ponens?
2.8 Dise˜ nar un sistema experto basado en reglas que sirva para jugar al
“Tres en Raya”. Por turno, dos jugadores ponen una de sus piezas
en un tablero de 9 cuadrados (3 3) (v´ease la Figura 2.23). Gana el
jugador que consiga poner sus 3 piezas en columna (Figura 2.23(a)),
en fila (Figura 2.23(b)), o en diagonal (Figura 2.23(c)). Consid´erense
las estrategias siguientes:
• Estrategia defensiva: Definir las reglas para evitar que el con-
trario gane.
S
1
S
2
S
3
S
4
A
B
C
D
E
F
G
K
M
H
J
L
Regla 1
Regla 2
Regla 3
Regla 4
Regla 5
Regla 6
Objetivo
(a)
Cierto
Cierto
Cierto
Cierto
Cierto
I
A
B
C
D
E
F
G
K
M
H
J
L
Regla 1
Regla 2
Regla 3
Regla 4
Regla 5
Regla 6
Objetivo
(b)
Falso Cierto
I
Falso
Cierto
Cierto
2.7 Introduciendo Incertidumbre 67
FIGURA 2.21. Una l´ınea ferroviaria con cuatro v´ıas.
FIGURA 2.22. Hechos iniciales y objetivos para un algoritmo de encadenamiento
de reglas orientado a un objetivo.
• Estrategia atacante: A˜ nadir el conjunto de reglas que definan la
estrategia para ganar.
2.9 Dise˜ nar un sistema experto basado en reglas para clasificar animales o
plantas bas´ andose en un conjunto m´ınimo de caracter´ısticas. S´ıganse
las etapas siguientes:
• Decidir el conjunto de animales o plantas a clasificar.
• Elegir las caracter´ısticas diferenciales.
(a) (b) (c)
68 2. Sistemas Basados en Reglas
FIGURA 2.23. Tableros del juego del “Tres en Raya”: Tres ejemplos en los que
el jugador “X” es el ganador.
• Definir las reglas necesarias para identificar cada animal o planta.
• Eliminar las caracter´ısticas innecesarias.
• Escribir las reglas en el sistema.
• Comprobar exhaustivamente el sistema experto.
• Redise˜ nar el sistema a la vista de lo anterior.
2.10 En el ejemplo de los agentes secretos del Ejemplo 2.16, ¿qu´e conclu-
siones pueden sacarse utilizando s´olo las ocho primeras reglas cuando
(a) se da Francia como valor posible del objeto Tom´ as y (b) se da
Espa˜ na como valor posible para el mismo objeto?.
This is page 69
Printer: Opaque this
Cap´ıtulo 3
Sistemas Expertos Basados en
Probabilidad
3.1 Introducci´ on
Los sistemas expertos basados en reglas descritos en el cap´ıtulo anterior,
no tienen en cuenta ning´ un tipo de incertidumbre, puesto que los objetos
y las reglas son tratados por ellas de forma determinista. Sin embargo, en
la mayor parte de las aplicaciones, la incertidumbre es lo com´ un y no la
excepci´on. Por ejemplo, una pregunta t´ıpica en diagn´ ostico m´edico es: dado
que el paciente presenta un conjunto de s´ıntomas, ¿cu´al de las enfermedades
posibles es la que tiene el paciente? Esta situaci´on implica un cierto grado
de incertidumbre puesto que:
• Los hechos o datos pueden no ser conocidos con exactitud. Por ejem-
plo, un paciente puede no estar seguro de haber tenido fiebre la noche
pasada. Por ello, hay un cierto grado de incertidumbre en la infor-
maci´on asociada a cada paciente (subjetividad, imprecisi´ on, ausencia
de informaci´ on, errores, datos ausentes, etc.).
• El conocimiento no es determinista. Por ejemplo, las relaciones entre
las enfermedades y los s´ıntomas no son deterministas, puesto que
un mismo conjunto de s´ıntomas puede estar asociado a diferentes
enfermedades. De hecho, no es extra˜ no encontrar dos pacientes con
los mismos s´ıntomas pero diferentes enfermedades.
Por ello, es clara la necesidad de contar con sistemas expertos que traten
situaciones de incertidumbre. Este cap´ıtulo describe un tipo de sistema
70 3. Sistemas Expertos Basados en Probabilidad
experto que trata este tipo de situaciones de forma efectiva.
´
Estos son los
sistemas expertos basados en probabilidad.
En los primeros sistemas expertos, se eligi´o la probabilidad como medida
para tratar la incertidumbre (v´ease Cheeseman (1985) o Castillo y
´
Alvarez
(1991)). Pero, desgraciadamente, muy pronto se encontraron algunos pro-
blemas, debidos al uso incorrecto de algunas hip´ otesis de independencia,
utilizadas para reducir la complejidad de los c´ alculos. Como resultado, en
las primeras etapas de los sistemas expertos, la probabilidad fue consi-
derada como una medida de incertidumbre poco pr´ actica. La mayor´ıa de
las cr´ıticas a los m´etodos probabil´ısticos se basaban en el alt´ısimo n´ umero
de par´ ametros necesarios, la imposibilidad de una asignaci´ on o estimaci´on
precisa de los mismos, o las hip´otesis poco realistas de independencia.
Consecuentemente, en la literatura de la ´epoca, surgieron medidas alter-
nativas a la probabilidad, como los factores de certeza, las credibilidades,
las plausibilidades, las necesidades o las posibilidades, para tratar la incer-
tidumbre (v´ease, por ejemplo, Shafer (1976), Zadeh (1983), Buchanan y
Shortliffe (1984), Yager y otros (1987), y Almond (1995)).
Sin embargo, con la aparici´ on de las redes probabil´ısticas (principalmente
las redes Bayesianas y Markovianas, que se presentan en el cap´ıtulo 6),
la probabilidad ha resurgido de forma espectacular, y es, hoy en d´ıa, la
m´as intuitiva y la m´ as aceptada de las medidas de incertidumbre. Lindley
(1987), por ejemplo, dice:
“La ´ unica descripci´ on satisfactoria de la incertidumbre es la
probabilidad. Esto quiere decir que toda afirmaci´ on incierta debe
estar en forma de una probabilidad, que varias incertidumbres
deben ser combinadas usando las reglas de la probabilidad, y
que el c´ alculo de probabilidades es adecuado para manejar situa-
ciones que implican incertidumbre. En particular, las descrip-
ciones alternativas de la incertidumbre son innecesarias.”
Este cap´ıtulo introduce los sistemas expertos de tipo probabil´ıstico, que se
basan en la probabilidad como una medida de incertidumbre. Se describen
en detalle sus principales componentes (por ejemplo, la base de conoci-
miento, el motor de inferencia, el sistema de control de coherencia, etc.) y
se comparan con los sistemas expertos basados en reglas. En la Secci´on 3.2
se da una introducci´ on breve a los conceptos de la teor´ıa de la probabili-
dad, que se necesitan para entender el material de ´este y otros cap´ıtulos.
La Secci´on 3.3 define y discute las reglas generalizadas como un intento de
extender los sistemas expertos basados en reglas para tratar situaciones de
incertidumbre. Manteniendo el mismo tratamiento de los sistemas basados
en reglas, se examina la estructura de la base del conocimiento, el motor de
inferencia, y el sistema de control de la coherencia de los sistemas expertos
basados en probabilidad. En particular, la Secci´ on 3.4 ilustra este tipo de
sistemas expertos mediante un ejemplo. La Secci´on 3.5 describe la base de
conocimiento y presenta varios modelos para describir las relaciones entre
3.2 Algunos Conceptos B´asicos de la Teor´ıa de la Probabilidad 71
un conjunto de variables de inter´es. En la Secci´on 3.6, se discute el motor
de inferencia. El problema del control de la coherencia se presenta en la
Secci´on 3.7. Finalmente, en la Secci´ on 3.8 se termina con una comparaci´ on
de los sistemas basados en reglas y los sistemas basados en probabilidad.
3.2 Algunos Conceptos B´asicos de la Teor´ıa de la
Probabilidad
En esta secci´on se introduce el siguiente material b´ asico que ser´a utilizado
posteriormente:
• Medida de probabilidad.
• Distribuciones de probabilidad.
• Dependencia e independencia.
• Teorema de Bayes.
• Tipos de errores.
Los lectores que est´en familiarizados con estos conceptos pueden omitir
esta secci´on e ir directamente a la Secci´on 3.3. Por otra parte, el mate-
rial presentado en esta secci´on es un m´ınimo necesario. Para repasar m´ as
conceptos y resultados, el lector interesado puede consultar cualquiera de
los libros cl´ asicos de teor´ıa de la probabilidad y estad´ıstica, por ejemplo,
DeGroot (1987), Durrett (1991), Hogg (1993), y Billingsley (1995).
3.2.1 Medida de Probabilidad
Para medir la incertidumbre se parte de un marco de discernimiento dado
S, en el que se incluyen todos los posibles resultados de un cierto experi-
mento como conjunto exhaustivo y m´ utuamente exclusivo. El conjunto S
se conoce como espacio muestral. Una vez definido este conjunto, el ob-
jetivo consiste en asignar a todo subconjunto de S un n´ umero real que
mida el grado de incertidumbre sobre su realizaci´ on. Para obtener medi-
das con significado f´ısico claro y pr´ actico, se imponen ciertas condiciones o
propiedades intuitivas adicionales que definen una clase de medidas que se
conocen como medidas de probabilidad.
Definici´on 3.1 Medida de Probabilidad. Una funci´ on p que proyecta
los subconjuntos A ⊆ S en el intervalo [0, 1] se llama medida de probabilidad
si satisface los siguientes axiomas:
• Axioma 1 (Normalizaci´on): p(S) = 1.
72 3. Sistemas Expertos Basados en Probabilidad
• Axioma 2 (Aditividad): Para cualquier sucesi´ on infinita, A
1
, A
2
, . . .,
de subconjuntos disjuntos de S, se cumple la igualdad
p


¸
i=1
A
i

=

¸
i=1
p (A
i
). (3.1)
El Axioma 1 establece que, independientemente de nuestro grado de certeza,
ocurrir´ a un elemento del conjunto universal S (es decir, el conjunto S es
exhaustivo). El Axioma 2 es una f´ ormula de agregaci´ on que se usa para cal-
cular la probabilidad de la uni´ on de subconjuntos disjuntos. Establece que
la incertidumbre de un cierto subconjunto es la suma de las incertidumbres
de sus partes (disjuntas). N´ otese que esta propiedad tambi´en se cumple
para sucesiones finitas.
De los axiomas anteriores pueden deducirse propiedades muy interesantes
de la probabilidad. Por ejemplo:
• Propiedad 1 (Normalizaci´on): p(φ) = 0.
• Propiedad 2 (Monotonicidad): Si A ⊆ B ⊆ S, entonces p(A) ≤
p(B).
• Propiedad 3 (Continuidad-Consistencia): Para toda sucesi´ on
creciente A
1
⊆ A
2
⊆ . . . o decreciente A
1
⊇ A
2
⊇ . . . de subconjuntos
de S se tiene
lim
i→∞
p(A
i
) = p( lim
i→∞
A
i
).
• Propiedad 4 (Inclusi´on-Exclusi´on): Dado cualquier par de sub-
conjuntos A y B de S, se cumple siempre la siguiente igualdad:
p(A∪ B) = p(A) +p(B) −p(A∩ B). (3.2)
La Propiedad 1 establece que la evidencia asociada a una ausencia com-
pleta de informaci´ on es cero. La Propiedad 2 muestra que la evidencia de la
pertenencia de un elemento a un conjunto debe ser al menos la evidencia de
cualquiera de sus subconjuntos. En otras palabras, la evidencia de que un
elemento pertenezca a un conjunto dado A no debe decrecer con la adici´on
de elementos a A.
La Propiedad 3 puede ser considerada como una propiedad de consisten-
cia o continuidad. Si se eligen dos sucesiones de conjuntos que convergen
al mismo subconjunto de S, se debe obtener la misma evidencia o incerti-
dumbre. La Propiedad 4 establece que las probabilidades de los conjuntos
A, B, A ∩ B, y A ∪ B no son independientes, sino que est´ an relacionadas
por (3.2).
Un ejemplo cl´ asico que ilustra estos axiomas es el del lanzamiento de
un dado no trucado. Aqu´ı el espacio muestral es S = ¦1, 2, 3, 4, 5, 6¦, es
decir, el conjunto de los posibles resultados del lanzamiento. Sea p(A) la
probabilidad de que ocurra el suceso A. Entonces, por ejemplo, se tiene
p(S) = 1, p(¦1¦) = 1/6, p(¦3¦) = 1/6, y p(¦1, 3¦) = p(¦1¦) +p(¦3¦) = 1/3.
3.2 Algunos Conceptos B´asicos de la Teor´ıa de la Probabilidad 73
3.2.2 Distribuciones de Probabilidad
Sea ¦X
1
, . . . , X
n
¦ un conjunto de variables aleatorias discretas y ¦x
1
, . . . , x
n
¦
el conjunto de sus posibles realizaciones. N´otese que las variables aleato-
rias se denotan con may´ usculas y que sus realizaciones se denotan con
min´ usculas. Por ejemplo, si X
i
es una variable binaria, entonces x
i
puede
ser 1 ´o 0. Los resultados que siguen son tambi´en v´ alidos si las variables
son continuas, pero en este caso los s´ımbolos de suma deben sustituirse por
integrales.
Sea p(x
1
, . . . , x
n
) la funci´ on de probabilidad conjunta
1
de las variables de
X, es decir,
p(x
1
, . . . , x
n
) = p(X
1
= x
1
, . . . , X
n
= x
n
). (3.3)
Entonces, la funci´ on de probabilidad marginal de la i-´esima variable se
obtiene mediante la f´ ormula
p(x
i
) = p(X
i
= x
i
) =
¸
x
1
,...,x
i−1
,x
i+1
,...,x
n
p(x
1
, . . . , x
n
). (3.4)
El conocimiento de la ocurrencia de un suceso puede modificar las proba-
bilidades de otros sucesos. Por ejemplo, la probabilidad de que un paciente
tenga una enfermedad dada puede cambiar tras el conocimiento de los re-
sultados de un an´ alisis de sangre. Por ello, cada vez que se dispone de nueva
informaci´ on, las probabilidades de los sucesos pueden, y suelen, cambiar.
Esto conduce al concepto de probabilidad condicional.
Definici´on 3.2 Probabilidad condicional. Sean X e Y dos conjuntos
disjuntos de variables tales que p(y) > 0. Entonces, la probabilidad condi-
cional (funci´ on de probabilidad condicionada) de X dado Y = y viene dada
por
p(X = x[Y = y) = p(x[y) =
p(x, y)
p(y)
. (3.5)
La ecuaci´on (3.5) implica que la funci´ on de probabilidad conjunta de X e
Y puede escribirse como
p(x, y) = p(y)p(x[y). (3.6)
Se obtiene un caso particular de (3.5) cuando X es una ´ unica variable e
Y es un subconjunto de variables. En este caso, (3.5) se convierte en
p(x
i
[x
1
, . . . , x
k
) =
p(x
i
, x
1
, . . . , x
k
)
p(x
1
, . . . , x
k
)
1
Cuando las variables son discretas, p(x
1
, . . . , x
n
) se llama funci´on de proba-
bilidad, y cuando las variables son continuas, se llama funci´ on de densidad. Por
simplicidad, nos referiremos a ambas como funci´on de probabilidad conjunta de
las variables.
74 3. Sistemas Expertos Basados en Probabilidad
=
p(x
i
, x
1
, . . . , x
k
)
¸
x
i
p(x
i
, x
1
, . . . , x
k
)
, (3.7)
que es la funci´ on de probabilidad de la i-´esima variable, X
i
, dado el sub-
conjunto de variables ¦X
1
, . . . , X
k
¦. La suma del denominador de (3.7) se
extiende a todos los valores posibles de X
i
. N´ otese que ambas, las f´ormulas
de la probabilidad marginal en (3.4) y de la probabilidad condicional en
(3.5) siguen siendo v´ alidas si la variable X
i
se reemplaza por un subcon-
junto de variables siempre que los conjuntos de variables sean disjuntos.
N´otese tambi´en que si el conjunto ¦X
1
, . . . , X
k
¦ en (3.5) se sustituye por el
conjunto vac´ıo φ, entonces (3.5) se convierte en p(x
i
). Por ello, puede pen-
sarse de la probabilidad marginal como un caso particular de probabilidad
condicional.
3.2.3 Dependencia e Independencia
Definici´on 3.3 Independencia de dos variables. Sean X e Y dos
subconjuntos disjuntos del conjunto de variables aleatorias ¦X
1
, . . . , X
n
¦.
Entonces se dice que X es independiente de Y si y solamente si
p(x[y) = p(x), (3.8)
para todos los valores posibles x e y de X e Y ; en otro caso, X se dice
dependiente de Y .
N´otese que si x e y son valores posibles de X e Y , entonces p(x) > 0 y
p(y) > 0. Por ello, la condici´ on p(y) > 0 es natural en el sentido de que no
puede observarse Y = y si no se satisface la condici´on.
La ecuaci´on (3.8) significa que si X es independiente de Y , entonces
nuestro conocimiento de Y no afecta nuestro conocimiento sobre X, es
decir, Y no tiene informaci´ on sobre X. Tambi´en, si X es independiente de
Y , pueden combinarse (3.6) y (3.8) para obtener p(x, y)/p(y) = p(x), que
implica
p(x, y) = p(x)p(y). (3.9)
La ecuaci´on (3.9) indica que si X es independiente de Y , entonces la funci´ on
de probabilidad conjunta de X e Y es igual al producto de sus marginales.
En realidad, (3.9) es una definici´ on de independencia equivalente a la (3.8).
Una propiedad importante de la relaci´ on de independencia es su simetr´ıa,
es decir, si X es independiente de Y , entonces Y es independiente de X.
Esto ocurre porque
p(y[x) =
p(x, y)
p(x)
=
p(x)p(y)
p(x)
= p(y). (3.10)
3.2 Algunos Conceptos B´asicos de la Teor´ıa de la Probabilidad 75
Por la propiedad de simetr´ıa se dice que X e Y son independientes o
m´ utuamente independientes. La implicaci´ on pr´ actica de la simetr´ıa es que
si el conocimiento de Y es relevante (irrelevante) para X, entonces el
conocimiento de X es relevante (irrelevante) para Y .
Los conceptos de dependencia e independencia de dos variables aleatorias
pueden ser extendidos al caso de m´as de dos variables aleatorias como sigue:
Definici´on 3.4 Independencia de un conjunto de variables. Las
variables aleatorias ¦X
1
, . . . , X
m
¦ se dice que son independientes si y s´ olo
si
p(x
1
, . . . , x
m
) =
m
¸
i=1
p(x
i
), (3.11)
para todos los valores posibles x
1
, . . . , x
m
de X
1
, . . . , X
m
. En otro caso, se
dice que son dependientes.
En otras palabras, ¦X
1
, . . . , X
m
¦ se dicen independientes si y s´olo si su
funci´ on de probabilidad conjunta es igual al producto de sus funciones de
probabilidad marginal. N´ otese que (3.11) es una generalizaci´on de (3.9).
N´otese tambi´en que si X
1
, . . . , X
m
son condicionalmente independientes
dado otro subconjunto Y
1
, . . . , Y
n
, entonces
p(x
1
, . . . , x
m
[y
1
, . . . , y
n
) =
m
¸
i=1
p(x
i
[y
1
, . . . , y
n
). (3.12)
Una implicaci´ on importante de la independencia es que no es rentable
obtener informaci´ on sobre variables independientes, pues es irrelevante. Es
decir, independencia significa irrelevancia.
Ejemplo 3.1 Cuatro variables. Consid´erense las siguientes caracter´ıs-
ticas (variables y sus posibles valores) de las personas de una poblaci´ on
dada:
• Sexo = ¦hombre, mujer¦
• Fumador = ¦s´ı (f), no (
¯
f)¦
• Estado Civil = ¦casado (c), no casado (¯ c)¦
• Embarazo = ¦s´ı (e), no (¯ e)¦
La funci´ on de probabilidad conjunta de estas cuatro variables se da en la
Tabla 3.1. Por ello, por ejemplo, el 50% de las personas de una poblaci´ on
son mujeres, y el
0.01 + 0.04 + 0.01 + 0.10
(0.01 + 0.04 + 0.01 + 0.10) + (0.00 + 0.02 + 0.00 + 0.07)
= 64%
de los fumadores son mujeres.
76 3. Sistemas Expertos Basados en Probabilidad
hombre mujer
f
¯
f f
¯
f
c e 0.00 0.00 0.01 0.05
¯ e 0.02 0.18 0.04 0.10
¯ c e 0.00 0.00 0.01 0.01
¯ e 0.07 0.23 0.10 0.18
TABLA 3.1. La funci´on de probabilidad conjunta de las cuatro variables:
Sexo (hombre, mujer), Fumador (f,
¯
f), Estado Civil (c, ¯ c) y Embarazo (e, ¯ e).
Sea A una persona elegida al azar de la poblaci´ on. Sin conocer si la
persona es fumadora, la probabilidad de que se trate de una mujer es
p(A = mujer) = 0.50. Pero si se sabe que la persona es fumadora, esta
probabilidad cambia de 0.50 a p(A = mujer[A = f) = 0.64. Por tanto, se
tiene p(A = mujer[A = f) = p(A = mujer); por lo que las variables Sexo
y Fumador son dependientes.
Sup´ ongase ahora que se sabe que la persona est´a embarazada. Entonces
resulta
p(A = mujer[A = e) = 1 = p(A = mujer) = 0.50;
por lo que, las variables Sexo y Embarazo son dependientes. Por ello, las
dos variables Fumador y Embarazo contienen informaci´ on relevante sobre
la variable Sexo. Sin embargo, el suceso “la persona est´a embarazada”
contiene mucha m´as informaci´ on sobre Sexo que el suceso “la persona es
fumadora.” Esto puede medirse por el cociente
p(A = mujer[A = e)
p(A = mujer[A = f)
=
1
0.64
> 1.
Por otra parte, la variable Estado Civil no contiene informaci´ on rele-
vante sobre la variable Sexo y viceversa. Esto puede verse en la Tabla 3.1,
en la que las probabilidades conjuntas coinciden con el producto de las
marginales para todos los valores posibles de las dos variables. Por ello, las
variables Sexo y Estado Civil son independientes.
Ejemplo 3.2 Distribuciones de probabilidad. Consid´erese la funci´on
de probabilidad conjunta de las tres variables binarias X, Y y Z dadas en
la Tabla 3.2. Entonces se tiene:
• Las funciones de probabilidad marginal de X, Y y Z se muestran en
la Tabla 3.3. Por ejemplo, la funci´ on de probabilidad marginal de X
se calcula mediante
p(X = 0) =
1
¸
y=0
1
¸
z=0
p(0, y, z) = 0.12 + 0.18 + 0.04 + 0.16 = 0.5,
3.2 Algunos Conceptos B´asicos de la Teor´ıa de la Probabilidad 77
x y z p(x, y, z)
0 0 0 0.12
0 0 1 0.18
0 1 0 0.04
0 1 1 0.16
1 0 0 0.09
1 0 1 0.21
1 1 0 0.02
1 1 1 0.18
TABLA 3.2. Funci´on de probabilidad conjunta de tres variables binarias.
p(X = 1) =
1
¸
y=0
1
¸
z=0
p(1, y, z) = 0.09 + 0.21 + 0.02 + 0.18 = 0.5.
• Las funciones de probabilidad conjunta de las parejas se dan en la
Tabla 3.4. Por ejemplo, la funci´ on de probabilidad conjunta de X e
Y es
p(X = 0, Y = 0) =
1
¸
z=0
p(0, 0, z) = 0.12 + 0.18 = 0.3,
p(X = 0, Y = 1) =
1
¸
z=0
p(0, 1, z) = 0.04 + 0.16 = 0.2,
p(X = 1, Y = 0) =
1
¸
z=0
p(1, 0, z) = 0.09 + 0.21 = 0.3,
p(X = 1, Y = 1) =
1
¸
z=0
p(1, 1, z) = 0.18 + 0.02 = 0.2.
• Las funciones de probabilidad condicional de una variable dada la otra
se muestran en la Tabla 3.5. Por ejemplo, la probabilidad condicional
de X dada Y es
p(X = 0[Y = 0) =
p(X = 0, Y = 0)
p(Y = 0)
=
0.3
0.6
= 0.5,
p(X = 0[Y = 1) =
p(X = 0, Y = 1)
p(Y = 1)
=
0.2
0.4
= 0.5,
p(X = 1[Y = 0) =
p(X = 1, Y = 0)
p(Y = 0)
=
0.3
0.6
= 0.5,
78 3. Sistemas Expertos Basados en Probabilidad
x p(x)
0 0.5
1 0.5
y p(y)
0 0.6
1 0.4
z p(z)
0 0.27
1 0.73
TABLA 3.3. Funciones de probabilidad marginal.
x y p(x, y)
0 0 0.3
0 1 0.2
1 0 0.3
1 1 0.2
x z p(x, z)
0 0 0.16
0 1 0.34
1 0 0.11
1 1 0.39
y z p(y, z)
0 0 0.21
0 1 0.39
1 0 0.06
1 1 0.34
TABLA 3.4. Funciones de probabilidad conjunta por pares.
y x p(x[y)
0 0 0.5
0 1 0.5
1 0 0.5
1 1 0.5
z x p(x[z)
0 0 16/27
0 1 11/27
1 0 34/73
1 1 39/73
z y p(y[z)
0 0 21/27
0 1 6/27
1 0 39/73
1 1 34/73
TABLA 3.5. Funciones de probabilidad condicional de una variable dada la otra.
p(X = 1[Y = 1) =
p(X = 1, Y = 1)
p(Y = 1)
=
0.2
0.4
= 0.5.
De los resultados anteriores se ve que p(x, y) = p(x)p(y) para todos los
valores posibles de x e y, por tanto, X e Y son independientes. N´ otese
que esta independencia puede comprobarse tambi´en con la definici´ on al-
ternativa de independencia p(x[y) = p(x). Sin embargo, se hace notar que
p(x, z) = p(x)p(z) para algunos valores (en este caso todos) de x y z. Por
tanto, X y Z son dependientes. Similarmente, se puede demostrar que Y
y Z son dependientes.
Los conceptos de dependencia e independencia se refieren a dos subconjun-
tos de variables. Seguidamente, se generaliza el concepto de independencia
cuando hay implicados m´ as de dos conjuntos.
Definici´on 3.5 Dependencia e independencia condicional. Sean
X, Y y Z tres conjuntos disjuntos de variables, entonces X se dice condi-
cionalmente independiente de Y dado Z, si y s´ olo si
p(x[z, y) = p(x[z), (3.13)
3.2 Algunos Conceptos B´asicos de la Teor´ıa de la Probabilidad 79
para todos los valores posibles de x, y y z de X, Y y Z; En otro caso X e
Y se dicen condicionalmente dependientes dado Z.
Cuando X e Y son condicionalmente independientes dado Z, se escribe
I(X, Y [Z). La relaci´ on I(X, Y [Z) se denomina relaci´ on de independencia
condicional. Similarmente, cuando X e Y son condicionalmente dependien-
tes dado Z, se escribe D(X, Y [Z), que se conoce como una relaci´ on de de-
pendencia condicional. A veces escribimos I(X, Y [Z)
p
o D(X, Y [Z)
p
para
indicar que la relaci´ on se deriva, o es implicada, por el modelo probabil´ıstico
asociado a la probabilidad p (la funci´ on de probabilidad conjunta).
La definici´ on de independencia condicional lleva en s´ı la idea de que una
vez que es conocida Z, el conocimiento de Y no altera la probabilidad de
X. En otras palabras, si Z ya es conocida, el conocimiento de Y no a˜ nade
informaci´ on alguna sobre X.
Una definici´ on alternativa, pero equivalente, de independencia condi-
cional es
p(x, y[z) = p(x[z)p(y[z). (3.14)
La equivalencia de (3.13) y (3.14) puede demostrarse de forma similar a la
de (3.8) y (3.9).
N´otese que la independencia (incondicional) puede ser tratada como un
caso particular de la independencia condicional. Por ejemplo, se puede es-
cribir I(X, Y [φ), para indicar que X e Y son incondicionalmente inde-
pendientes, donde φ es el conjunto vac´ıo. N´ otese, sin embargo, que X e
Y pueden ser independientes incondicionalmente pero condicionalmente
dependientes dado Z, es decir, la relaci´on de independencia condicional
I(X, Y [φ) y la de dependencia condicional D(X, Y [Z) pueden satisfacerse
simult´ aneamente.
Ejemplo 3.3 Dependencia e independencia condicional. Consid´erese
la funci´ on de probabilidad conjunta de las tres variables binarias X, Y y Z
de la Tabla 3.2. En el Ejemplo 3.2 se determina si cualesquiera dos variables
son independientes (incondicionalmente). Se tienen las siguientes relaciones
de independencia condicional:
I(X, Y [φ), D(X, Z[φ) y D(Y, Z[φ).
Por ejemplo, para determinar si X e Y son independientes, se necesita
comprobar si p(x, y) = p(x)p(y) para todos los valores posibles de x e y.
Tambi´en se puede determinar si cualesquiera dos variables son condi-
cionalmente independientes dada una tercera variable. Por ejemplo, para
comprobar si X e Y son condicionalmente independientes dado Z, es nece-
sario comprobar si p(x[y, z) = p(x, y, z)/p(y, z) = p(x[z) para todos los
80 3. Sistemas Expertos Basados en Probabilidad
y z x p(x[y, z)
0 0 0 12/21 ≈ 0.571
0 0 1 9/21 ≈ 0.429
0 1 0 18/39 ≈ 0.462
0 1 1 21/39 ≈ 0.538
1 0 0 4/6 ≈ 0.667
1 0 1 2/6 ≈ 0.333
1 1 0 16/34 ≈ 0.471
1 1 1 18/34 ≈ 0.529
z x p(x[z)
0 0 16/27 ≈ 0.593
0 1 11/27 ≈ 0.407
1 0 34/73 ≈ 0.466
1 1 39/73 ≈ 0.534
TABLA 3.6. Funciones de probabilidad obtenidas de la funci´on de probabilidad
conjunta de la Tabla 3.2.
valores posibles de x, y y z. Para ello, se calculan las probabilidades
p(x[y, z) =
p(x, y, z)
p(y, z)
,
p(x[z) =
p(x, z)
p(z)
,
cuyos valores se muestran en la Tabla 3.6. En esta tabla puede verse que
p(x[y, z) = p(x[z) y, por tanto, D(X, Y [Z). Por ello, la funci´ on de probabili-
dad conjunta de la Tabla 3.2 implica que X e Y son incondicionalmente in-
dependientes, I(X, Y [φ), aunque son condicionalmente dependientes dado
Z, D(X, Y [Z).
3.2.4 Teorema de Bayes
Una conocida f´ ormula de la teor´ıa de la probabilidad puede obtenerse como
sigue. Utilizando (3.3) y (3.5), se obtiene
p(x
i
[x
1
, . . . , x
k
) =
p(x
i
, x
1
, . . . , x
k
)
¸
x
i
p(x
i
, x
1
, . . . , x
k
)
=
p(x
i
)p(x
1
, . . . , x
k
[x
i
)
¸
x
i
p(x
i
)p(x
1
, . . . , x
k
[x
i
)
. (3.15)
La ecuaci´on (3.15) se conoce como Teorema de Bayes.
Para ilustrar el uso del teorema de Bayes, sup´ ongase que un paciente
puede estar sano (no tiene enfermedad alguna) o tiene una de m−1 enfer-
medades posibles ¦E
1
, . . . , E
m−1
¦. Por simplicidad de notaci´ on, sea E una
variable aleatoria que puede tomar uno de m posibles valores, ¦e
1
, . . . , e
m
¦,
3.2 Algunos Conceptos B´asicos de la Teor´ıa de la Probabilidad 81
donde E = e
i
significa que el paciente tiene la enfermedad E
i
, y E = e
m
significa que el paciente no tiene ninguna enfermedad. Sup´ ongase tambi´en
que se tienen n s´ıntomas ¦S
1
, . . . , S
n
¦. Ahora, dado que el paciente tiene un
conjunto de s´ıntomas ¦s
1
, . . . , s
k
¦, se desea calcular la probabilidad de que
el paciente tenga la enfermedad E
i
, es decir, E = e
i
. Entonces, aplicando
el teorema de Bayes, se obtiene
p(e
i
[s
1
, . . . , s
k
) =
p(e
i
)p(s
1
, . . . , s
k
[e
i
)
¸
e
i
p(e
i
)p(s
1
, . . . , s
k
[e
i
)
. (3.16)
Conviene hacer los siguientes comentarios sobre la f´ormula (3.16):
• La probabilidad p(e
i
) se llama probabilidad marginal, prior, “a pri-
ori” o inicial de la enfermedad E = e
i
puesto que puede ser obtenida
antes de conocer los s´ıntomas.
• La probabilidad p(e
i
[s
1
, . . . , s
k
) es la probabilidad posterior, “a pos-
teriori” o condicional de la enfermedad E = e
i
, puesto que se calcula
despu´es de conocer los s´ıntomas S
1
= s
1
, . . . , S
k
= s
k
.
• La probabilidad p(s
1
, . . . , s
k
[e
i
) se conoce por el nombre de verosimi-
litud de que un paciente con la enfermedad E = e
i
tenga los s´ıntomas
S
1
= s
1
, . . . , S
k
= s
k
.
Por ello, se puede utilizar el teorema de Bayes para actualizar la pro-
babilidad “a posteriori” usando ambas, la probabilidad “a priori” y la
verosimilitud, tal como se muestra en el ejemplo que sigue:
Ejemplo 3.4 Adenocarcinoma g´astrico. Un centro m´edico tiene una
base de datos consistente en las historias cl´ınicas de N = 1, 000 pacientes.
Estas historias cl´ınicas se resumen gr´aficamente en la Figura 3.1. Hay 700
pacientes (la regi´on sombreada) que tienen la enfermedad adenocarcinoma
g´astrico (G), y 300 que no la tienen (se considera estar sano como otro valor
posible de la enfermedad). Tres s´ıntomas, dolor (D), p´ erdida de peso (P) y
v´ omitos (V ), se considera que est´an ligados a esta enfermedad. Por tanto,
cuando un paciente nuevo llega al centro m´edico, hay una probabilidad
700/1, 000 = 70% de que el paciente tenga adenocarcinoma g´astrico. Esta es
la probabilidad inicial, o “a priori”, puesto que se calcula con la informaci´ on
inicial, es decir, antes de conocer informaci´ on alguna sobre el paciente.
Por simplicidad de notaci´ on, se utiliza g para indicar que la enfermedad
est´a presente y ¯ g para indicar que la enfermedad est´ a ausente. Notaciones
similares se utilizan para los s´ıntomas. Por tanto, pueden hacerse las afir-
maciones siguientes:
• probabilidad “a priori”: 440 de 1,000 pacientes vomitan. Por ello,
p(v) = card(v)/N = 440/1, 000 = 0.44, donde card(v) denota el
n´ umero de pacientes de la base de datos que vomitan. Esto significa
que el 44% de los pacientes vomitan.
25
25
5
4
220
10
10
95
31
50
113
76
9
220
12 95
Adenocarcinoma gástrico
Dolor Pérdida
peso
Vómitos
82 3. Sistemas Expertos Basados en Probabilidad
FIGURA 3.1. Pacientes de un centro m´edico clasificados por una enfermedad
(adenocarcinoma g´ astrico) y tres s´ıntomas (dolor, v´omitos y p´erdida de peso).
• Verosimilitud: El 50% de los pacientes que tienen la enfermedad vo-
mitan, puesto que p(v[g) = card(v, g)/card(g) = 350/700 = 0.5,
mientras que s´olo 30% de los pacientes que no tienen la enfermedad
vomitan, puesto que p(v[¯ g) = card(v, ¯ g)/card(¯ g) = 90/300 = 0.3.
• Verosimilitud: El 45% de los pacientes que tienen la enfermedad vo-
mitan y pierden peso, p(v, p[g) = card(v, p, g)/card(g) = 315/700 =
0.45, mientras que s´olo el 12% de los que no tienen la enfermedad
vomitan y pierden peso, p(v, p[¯ g) = card(v, p, ¯ g)/card(¯ g) = 35/300 ≈
0.12.
Puesto que la probabilidad inicial de que el paciente tenga adenocarci-
noma g´ astrico, p(g) = 0.7, no es suficientemente alta para hacer un di-
agn´ ostico (n´ otese que tomar una decisi´on ahora implica una probabilidad
0.3 de equivocarse), el doctor decide examinar al paciente para obtener m´ as
informaci´ on. Sup´ ongase que los resultados del examen muestran que el pa-
ciente tiene los s´ıntomas v´ omitos (V = v) y p´erdida de peso (P = p). Ahora,
dada la evidencia (el paciente tiene esos s´ıntomas), ¿cu´ al es la probabilidad
de que el paciente tenga la enfermedad? Esta probabilidad “a posteriori”
puede ser obtenida de la probabilidad “a priori” y de las verosimilitudes,
aplicando el teorema de Bayes en dos etapas, como sigue:
• Tras observar que V = v la probabilidad “a posteriori” es
p(g[v) =
p(g)p(v[g)
p(g)p(v[g) +p(¯ g)p(v[¯ g)
=
0.7 0.5
(0.7 0.5) + (0.3 0.3)
= 0.795.
3.2 Algunos Conceptos B´asicos de la Teor´ıa de la Probabilidad 83
• Tras observar que V = v y P = p la probabilidad “a posteriori” es
p(g[v, p) =
p(g)p(v, p[g)
p(g)p(v, p[g) +p(¯ g)p(v, p[¯ g)
=
0.7 0.45
(0.7 0.45) + (0.3 0.12)
= 0.9. (3.17)
N´otese que cuando se aplica el teorema de Bayes sucesivamente, la pro-
babilidad “a posteriori” calculada en una etapa dada es la misma que la
probabilidad “a priori” en la etapa siguiente. Por ejemplo, la probabilidad
“a posteriori”, que se ha calculado en la primera etapa anterior, puede ser
usada como probabilidad “a priori” en la segunda etapa, es decir,
p(g[v, p) =
p(g[v)p(p[g, v)
p(g[v)p(p[g, v) +p(¯ g[v)p(p[¯ g, v)
=
0.795 0.9
(0.795 0.9) + (0.205 0.389)
= 0.9,
que da la misma respuesta que en (3.17). N´ otese tambi´en que la proba-
bilidad cambia tras observar las evidencias. La probabilidad de tener la
enfermedad era inicialmente 0.7, despu´es aument´o a 0.795, y luego a 0.9
tras observar la evidencia acumulada V = v y P = p, respectivamente. Al
final de la ´ ultima etapa, el paciente tiene una probabilidad 0.9 de tener la
enfermedad. Esta probabilidad puede ser suficientemente alta (comparada
con la probabilidad “a priori” 0.7) para que el doctor diagnostique que
el paciente tiene la enfermedad. Sin embargo, ser´ıa conveniente observar
nuevas evidencias antes de hacer este diagn´ostico.
3.2.5 Tipos de Errores
Los s´ıntomas son observables, pero las enfermedades no lo son. Pero, puesto
que las enfermedades y los s´ıntomas est´an relacionados, los m´edicos uti-
lizan los s´ıntomas para hacer el diagn´ ostico de las enfermedades. Una di-
ficultad que surge con este tratamiento del problema es que las relaciones
entre s´ıntomas y enfermedades no son perfectas. Por ejemplo, los mismos
s´ıntomas pueden ser causados por diferentes enfermedades. Estudiando es-
tas relaciones entre s´ıntomas y enfermedades, los m´edicos pueden aumentar
su conocimiento y experiencia, y, por tanto, pueden llegar a ser capaces de
diagnosticar enfermedades con un mayor grado de certeza.
Sin embargo, deber´ıa ser reconocido que cuando se toman decisiones
en ambiente de incertidumbre, estas decisiones pueden ser incorrectas. En
situaciones de incertidumbre pueden cometerse dos tipos de errores:
• Una decisi´on positiva falsa, tambi´en conocida como error de tipo I, y
84 3. Sistemas Expertos Basados en Probabilidad
Decisi´on Estado de la naturaleza
m´edica S´ı No
S´ı Decisi´on correcta Decisi´on incorrecta (Tipo I)
No Decisi´on incorrecta (Tipo II) Decisi´on correcta
TABLA 3.7. El doctor est´a sometido a la posibilidad de cometer uno de los dos
errores dependiendo del verdadero estado de la naturaleza.
• Una decisi´on negativa falsa, tambi´en conocida como error de tipo II.
En un caso de diagn´ ostico m´edico, por ejemplo, los posibles errores son:
• Error de Tipo I: Un paciente no tiene la enfermedad pero el doctor
concluye que la tiene.
• Error de Tipo II: Un paciente tiene la enfermedad pero el doctor
concluye que no la tiene.
Estos tipos de errores se ilustran en la Tabla 3.7. En la realidad (el ver-
dadero estado de la naturaleza), un paciente puede tener o no tener la
enfermedad. El doctor tiene que tomar la decisi´ on de si el paciente tiene
o no, la enfermedad. Esta decisi´ on es correcta si coincide con el verdadero
estado de la naturaleza; en otro caso, la decisi´on es incorrecta. Por ello,
cuando se diagnostica, el doctor est´ a sometido a la posibilidad de cometer
uno de los dos errores anteriores dependiendo del verdadero estado de la
naturaleza.
Sin embargo, en algunas situaciones las consecuencias de un error pueden
ser mucho m´as graves que las consecuencias del otro. Por ejemplo, si la en-
fermedad sospechada es c´ancer, se puede arg¨ uir que el error de Tipo II es
m´as serio que el error de Tipo I. Es cierto que si el paciente no tiene la
enfermedad pero el doctor concluye que la tiene, el paciente sufrir´ a psi-
col´ogicamente y posiblemente f´ısicamente (debido al efecto del tratamiento
o la operaci´ on quir´ urgica). Por otra parte, si el paciente realmente tiene la
enfermedad y el doctor concluye que no la tiene, este error puede conducir
a la muerte del paciente.
Idealmente, al doctor le gustar´ıa mantener las probabilidades de cometer
esos errores reducidas a un m´ınimo, pero los riesgos relativos asociados a
los dos tipos de errores deben tomarse en consideraci´on cuando se hace
un diagn´ ostico. Como ilustraci´on, sup´ ongase que un nuevo paciente con
una enfermedad desconocida viene al centro m´edico. Tras el examen por
un doctor, se determina que el paciente tiene k s´ıntomas, s
1
, s
2
, . . . , s
k
.
La pregunta que ambos, doctor y paciente, quieren responder consiste en
saber, dados esos s´ıntomas, ¿cu´al de las enfermedades es m´as probable
que tenga el paciente?. La respuesta a esta pregunta puede obtenerse sin
m´as que calcular las probabilidades “a posteriori” de E = e para cada
3.3 Reglas Generalizadas 85
una de las enfermedades e = e
i
dados los s´ıntomas s
1
, s
2
, . . . , s
k
, es decir,
p(e
i
[s
1
, s
2
, . . . , s
k
). Estas probabilidades pueden calcularse usando (3.16).
Por ello, dado que el paciente tiene los s´ıntomas s
1
, s
2
, . . . , s
k
, el doctor
puede concluir que la enfermedad m´ as probable del paciente es la que ma-
ximice la probabilidad, es decir, max
i
¦p(e
i
[s
1
, s
2
, . . . , s
k
)¦. Si el valor de
max
i
¦p(e
i
[s
1
, s
2
, . . . , s
k
)¦ est´a cercano a la unidad, el doctor puede de-
cidir que el paciente tiene la enfermedad correspondiente. En otro caso, es
necesario un examen adicional o la identificaci´ on de nuevos s´ıntomas.
La ecuaci´on (3.16) puede utilizarse para calcular la nueva probabili-
dad condicional para cada enfermedad dados todos los s´ıntomas acumu-
lados (informaci´ on), tal como se ha hecho en el Ejemplo 3.4. Este pro-
ceso debe repetirse, a˜ nadiendo m´ as evidencia, hasta que la probabilidad
max
i
¦p(e
i
[s
1
, s
2
, . . . , s
k
)¦ sea cercana a la unidad. Cuando esto ocurra, el
m´edico podr´ a tomar una decisi´ on y terminar el proceso de diagnosis. El
criterio de decidir lo que se entiende por cercana a la unidad le corresponde
al doctor, dependiendo de los riesgos asociados a decisiones err´oneas.
Por tanto, es necesario medir las consecuencias de nuestras decisiones.
Una forma de hacer ´esto es utilizando las llamadas funciones de utilidad.
Una funci´ on de utilidad asigna un valor a toda posible decisi´ on. Sea X
la variable aleatoria cuya funci´ on de probabilidad es p(x) y sea u(x) el
valor asignado por la funci´ on de utilidad a la decisi´ on x. Entonces el valor
esperado de esta utilidad es
E[u] =
¸
x
u(x)p(x).
Se pueden asignar diferentes funciones de utilidad u
i
(x); i = 1, . . . , q a
decisiones diferentes y decidir en favor de la decisi´ on que maximiza la
utilidad.
3.3 Reglas Generalizadas
La medida de probabilidad descrita en la Secci´ on 3.2.1 puede utilizarse
para medir la incertidumbre y para extender los sistemas basados en reglas
a situaciones de incertidumbre. Una forma de introducir la incertidumbre
en los sistemas basados en reglas consiste en utilizar reglas generalizadas.
Por ejemplo, dada la regla determinista
• Regla 1: Si A es cierta, entonces B es cierta,
se puede introducir incertidumbre asociando una probabilidad a esta afir-
maci´on
• Regla 2: Si A es cierta, entonces la probabilidad de que B sea cierta
es p(b) = θ,
A B
(c) p(B | A) = 0
A B
(a) p(B | A) = 1
A
B
(b) 0 < p(B | A) < 1
86 3. Sistemas Expertos Basados en Probabilidad
donde 0 ≤ θ ≤ 1 es una medida de la incertidumbre de B. Claramente,
La Regla 1 es un caso especial de la Regla 2 puesto que se obtiene de la
Regla 2 haciendo θ = 1 (certeza). Pero cuando 0 < θ < 1 (incertidumbre),
La Regla 1 ya no es apropiada. Por tanto, se puede pensar en la Regla 2
como una regla generalizada. Por ello, el valor de θ determina el nivel de
implicaci´ on como sigue (v´ease la Figura 3.2):
• Implicaci´ on fuerte (θ = 1): En la l´ ogica cl´asica, la que se ha utilizado
hasta aqu´ı en los sistemas expertos basados en reglas (Modus Ponens
y Modus Tollens), si la premisa de una regla es cierta, su conclusi´ on
debe ser tambi´en cierta. Por ello, dada la regla
Si A es cierta, entonces B es cierta,
se puede decir que A implica B con probabilidad 1. Esto se ilustra en
la Figura 3.2(a).
• Implicaci´ on d´ebil (0 < θ < 1): La regla anterior puede ser vista en
un sentido generalizado cuando A implica B s´olo en algunas oca-
siones. En este caso, se dice que A implica B con probabilidad p(B =
cierto[A = cierto), como se muestra en la Figura 3.2(b).
• No implicaci´ on (θ = 0): El caso en que A no implica B puede consi-
derarse como que A implica B con probabilidad 0. Esto se ilustra en
la Figura 3.2(c).
FIGURA 3.2. Ejemplos de implicaciones inciertas: A implica B con probabilidad
1 (a), A implica B con probabilidad θ, donde 0 < θ < 1 (b), y A implica B con
probabilidad 0 (c).
El uso de reglas generalizadas requiere utilizar medidas de incertidumbre
para ambos, objetos y reglas, junto con f´ ormulas de agregaci´on para com-
binar la incertidumbre de los objetos en las premisas con la de las reglas
para obtener la incertidumbre de los objetos en las conclusiones. N´ otese
que ahora toda afirmaci´ on (hecho) debe estar acompa˜ nado por una medida
de incertidumbre y que cuando se combinan varios hechos inciertos, deben
darse las conclusiones con sus correspondientes medidas de incertidumbre.
Uno de los primeros sistemas expertos que utiliz´o la probabilidad como
medida de incertidumbre fu´e el PROSPECTOR, un sistema experto para
3.4 Introduciendo los Sistemas Expertos Basados en Probabilidad 87
exploraci´ on de mineral (Duda, Hart y Nilsson (1976), Duda, Gaschnig y
Hart (1980)). Adem´ as de las reglas que forman la base de conocimiento, se
asocian probabilidades “a priori” a los objetos del modelo, y probabilidades
condicionales a las reglas. Por ello, cuando se observa nueva evidencia, debe
utilizarse alg´ un m´etodo de propagaci´ on de probabilidades para actualizar
´estas.
Por ello, se puede tratar la incertidumbre utilizando las reglas genera-
lizadas o esquemas similares. Sin embargo, estos modelos tambi´en tienen
problemas. Cuando se combinan hechos inciertos, deben darse las conclu-
siones con sus correspondientes medidas de incertidumbre. Para propagar
las incertidumbres de la evidencia observada, son necesarias hip´ otesis de in-
dependencia condicional que pueden no estar justificadas (v´ease Neapolitan
(1990), Cap´ıtulo 4). Este es el caso, por ejemplo, de los m´etodos de la raz´on
de verosimilitud (Duda, Hart y Nilsson (1976)) desarrollados para propa-
gar probabilidades en el sistema experto PROSPECTOR, o los m´etodos de
los factores de certeza utilizados en el sistema MYCIN (v´ease Buchanan y
Shortliffe (1984)).
Una forma alternativa de utilizar la medida de probabilidad consiste en
describir las relaciones entre los objetos (variables) mediante una funci´ on de
probabilidad conjunta. A los sistemas expertos que utilizan las funciones de
probabilidad conjunta de las variables como base para hacer la inferencia, se
les conoce como sistemas expertos de tipo probabil´ıstico. En el resto de este
cap´ıtulo, se introducen los sistemas expertos probabil´ısticos, se describe sus
componentes, y se comparan con los sistemas expertos basados en reglas.
3.4 Introduciendo los Sistemas Expertos Basados
en Probabilidad
El n´ ucleo de los sistemas expertos basados en reglas es el conjunto de reglas
que describen las relaciones entre los objetos (variables). En los sistemas
expertos probabil´ısticos las relaciones entre las variables se describen me-
diante su funci´ on de probabilidad conjunta. Por ello, la funci´ on de probabi-
lidad conjunta forma parte de lo que se llama conocimiento. Para facilitar
la discusi´ on se utiliza un ejemplo de diagn´ ostico m´edico (s´ıntomas y enfer-
medades), pero los conceptos descritos se aplican a otros muchos campos
de aplicaci´ on. De hecho, el diagn´ ostico m´edico es una de las ´areas en la
que los sistemas expertos han encontrado mayor n´ umero de aplicaciones
(v´ease la Secci´on 1.2), y como se ver´a en la secci´on siguiente, algunos mo-
delos de sistemas expertos probabil´ısticos fueron desarrollados para resolver
problemas con la estructura “s´ıntomas-enfermedad”.
Ejemplo 3.5 Diagn´ostico m´edico. Sup´ ongase que se dispone de una
base de datos con informaci´ on sobre N pacientes y que un paciente puede
tener una y s´ olo una de m enfermedades, e
1
, . . . , e
m
, tal como muestra la
Gripe
E
1
Neumonía
E
5
Artritis
E
2
Tuberculosis
E
3
Adenoma
E
4
Pérdida peso
S
1
Vómitos
S
2
Dolor
S
3
88 3. Sistemas Expertos Basados en Probabilidad
Figura 3.3 para m = 5 enfermedades. Sup´ ongase tambi´en que un paciente
puede tener ninguno, uno, o m´ as de n s´ıntomas S
1
, . . . , S
n
, como indica la
Figura 3.4 para n = 3 s´ıntomas. Por simplicidad, sup´ ongase que la variable
aleatoria enfermedad, E, toma como valores las enfermedades e
1
, . . . , e
m
.
Sup´ ongase tambi´en que los s´ıntomas son variables binarias, de forma que
cada una toma el valor 1, si est´ a presente, o el valor 0, si est´a ausente.
N´otese que cualquier variable aleatoria en el conjunto ¦E, S
1
, . . . , S
n
¦ define
una partici´ on del conjunto universal de pacientes en una clase disjunta
y exhaustiva de conjuntos. Entonces, combinando las enfermedades y los
s´ıntomas, cada paciente puede clasificarse en una y s´olo una regi´ on tal como
se muestra en la Figura 3.5, que proviene de superponer las Figuras 3.3 y
3.4. Por ejemplo, el c´ırculo negro de la Figura 3.5 representa un paciente
que tiene la enfermedad e
4
y los tres s´ıntomas: S
1
, S
2
y S
3
.
FIGURA 3.3. Una representaci´on gr´ afica de una poblaci´on de pacientes clasifica-
dos por cinco enfermedades m´ utuamente exclusivas e
1
−e
5
.
FIGURA 3.4. Una representaci´on gr´ afica de una poblaci´on de pacientes clasifica-
dos por tres s´ıntomas S
1
−S
3
.
Pérdida peso
S
1
Vómitos
S
2
Dolor
S
3
Gripe
E
1
Neumonía
E
5
Artritis
E
2
Tuberculosis
E
3
Adenoma
E
4
3.4 Introduciendo los Sistemas Expertos Basados en Probabilidad 89
FIGURA 3.5. Una representaci´on gr´ afica de una poblaci´on de pacientes clasi-
ficados por cinco enfermedades m´ utuamente exclusivas e
1
−e
5
y tres s´ıntomas
S
1
−S
3
.
En este ejemplo, los objetos o variables son la enfermedad E y los
s´ıntomas S
1
, . . . , S
n
. La funci´ on de probabilidad conjunta de las variables
(E, S
1
, . . . , S
n
) est´a dada por las frecuencias, es decir, el n´ umero de pa-
cientes que hay en cada una de las regiones del diagrama de la Figura 3.5.
Continuando con la notaci´ on introducida en la Secci´ on 3.2.2, una variable se
representa mediante una letra may´ uscula, mientras que la letra min´ uscula
correspondiente representa uno de sus valores posibles (realizaciones). En
este ejemplo, la enfermedad D se supone que toma m valores posibles y los
s´ıntomas se suponen binarios. En otras palabras, los posibles valores de E
son e
1
, . . . , e
m
, y los valores posibles de la variable S
j
son 1 (presente) ´o 0
(ausente).
Las probabilidades asociadas a la enfermedad E pueden ser estimadas
mediante
p(E = e) ≈ card(E = e)/N, (3.18)
donde N es el n´ umero total de pacientes de la base de datos y card(E = e)
es el n´ umero de pacientes con E = e. Por ejemplo,
• Enfermedad e
1
presente: p(E = e
1
) ≈ card(E = e
1
)/N,
• Enfermedad e
1
ausente: p(E = e
1
) ≈ card(E = e
1
)/N.
Un problema que surge con frecuencia en diagn´ ostico m´edico es que s´olo
se observan un subconjunto de s´ıntomas, y bas´ andose en los s´ıntomas ob-
servados, se desea diagnosticar con un grado de certeza razonable la enfer-
medad que dan lugar a los s´ıntomas. En otras palabras, se necesita abor-
dar la cuesti´ on siguiente: Dado que un paciente presenta un subconjunto
de k s´ıntomas S
1
= s
1
, . . . , S
k
= s
k
, ¿cu´al es la enfermedad que tiene el
90 3. Sistemas Expertos Basados en Probabilidad
Enfermedad e p(e[s
1
, . . . , s
k
)
e
1
0.2
e
2
0.1
e
3
0.8 ← m´as probable
e
4
0.4
e
5
0.0 ← menos probable
e
6
0.7
.
.
.
.
.
.
TABLA 3.8. Probabilidades condicionales de todas las enfermedades e
i
, dado el
conjunto de s´ıntomas S
1
= s
1
, . . . , S
k
= s
k
.
paciente con mayor probabilidad? Por ello, el problema consiste en cal-
cular la probabilidad de que el paciente tenga la enfermedad e
i
, dado el
conjunto de valores s
1
, . . . , s
k
de los s´ıntomas S
1
, . . . , S
k
. En otras pala-
bras, para i = 1, . . . , m, se desean calcular las probabilidades condicionales
p(E = e
i
[S
1
= s
1
, . . . , S
k
= s
k
). Se puede pensar en ´este como un problema
de clasificaci´on generalizado: Un paciente puede ser clasificado en uno o m´ as
grupos (enfermedades). Por ejemplo, se pueden obtener las probabilities que
se muestran en la Tabla 3.8.
Los sistemas expertos probabil´ısticos pueden utilizarse para resolver ´estos
y otros problemas. Por ejemplo:
1. Los sistemas expertos pueden memorizar informaci´on. Uno puede al-
macenar y recuperar informaci´ on de la base de datos. Un ejemplo
de tal base de datos se da en la Tabla 3.9, donde se supone que
las enfermedades y los s´ıntomas son variables categ´oricas (binarias o
multinomiales). Por ejemplo, la Tabla 3.10 puede representar la infor-
maci´on de una base de datos con diez pacientes para el problema de
diagn´ ostico con cinco enfermedades binarias y tres s´ıntomas, tambi´en
binarios, introducidos en el Ejemplo 3.5.
2. Los sistemas expertos pueden contar o calcular las frecuencias ab-
solutas y relativas de cualquier subconjunto de variables a partir
de la base de datos. Estas frecuencias pueden utilizarse para calcu-
lar las probabilidades condicionales p(e
i
[s
1
, . . . , s
k
) aplicando la bien
conocida f´ ormula para la probabilidad condicional
2
p(e
i
[s
1
, . . . , s
k
) =
p(e
i
, s
1
, . . . , s
k
)
p(s
1
, . . . , s
k
)
. (3.19)
2
Por simplicidad notacional se escribe p(E = e
i
|S
1
= s
1
, . . . , S
k
= s
k
) en la
forma p(e
i
|s
1
, . . . , s
k
).
3.4 Introduciendo los Sistemas Expertos Basados en Probabilidad 91
Enfermedad S´ıntomas
Paciente e s
1
. . . s
n
1 e
m
1 . . . 1
2 e
1
0 . . . 0
3 e
3
1 . . . 0
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
N e
m
1 . . . 1
TABLA 3.9. Un ejemplo de una base de datos con N pacientes y sus correspon-
dientes enfermedades y s´ıntomas.
Enfermedad S´ıntomas
Paciente E S
1
S
2
S
3
1 e
5
1 1 1
2 e
2
1 0 1
3 e
3
1 1 0
4 e
5
0 0 1
5 e
3
0 1 0
6 e
1
1 1 0
7 e
1
1 1 1
8 e
3
1 0 0
9 e
1
1 1 1
10 e
5
1 0 1
TABLA 3.10. Un ejemplo de una base de datos con 10 pacientes para el problema
del diagn´ostico m´edico del Ejemplo 3.5.
Esta probabilidad puede ser estimada mediante
card(e
i
, s
1
, . . . , s
k
)
card(s
1
, . . . , s
k
)
, (3.20)
donde card(e
i
, s
1
, . . . , s
k
) es la frecuencia de aparici´ on en la base de
datos de los pacientes que tienen los valores indicados de las variables.
Por ejemplo, dada la base de datos con diez pacientes de la Tabla 3.10,
se pueden calcular las frecuencias asociadas a cualquier combinaci´ on
de valores de s´ıntomas y enfermedades sin m´as que contar el n´ umero
de casos de la base de datos que coinciden con la evidencia. Por ejem-
plo, card(E = e
1
[S
1
= 1, S
2
= 1) = 2 puesto que hay dos pacientes
(los pacientes 1 y 3) que no presentan la enfermedad e
1
pero muestran
los s´ıntomas S
1
y S
2
. Similarmente, card(E = e
1
[S
1
= 1, S
2
= 1) = 3,
card(S
1
= 1, S
2
= 1) = 5, etc. Entonces, ´esta puede calcularse usando
(3.3), las probabilidades condicionales asociadas a una enfermedad
92 3. Sistemas Expertos Basados en Probabilidad
dada y un conjunto de s´ıntomas. Por ejemplo:
p(E = e
1
[S
1
= 1, S
2
= 1) ≈
card(E = e
1
[S
1
= 1, S
2
= 1)
card(S
1
= 1, S
2
= 1)
=
2
5
= 0.4,
p(E = e
1
[S
1
= 1, S
2
= 1) ≈
card(E = e
1
[S
1
= 1, S
2
= 1)
card(S
1
= 1, S
2
= 1)
=
3
5
= 0.6.
3. Los sistemas expertos pueden aprender de la experiencia. Tan pronto
como un nuevo paciente es examinado y diagnosticado, se a˜ nade la
nueva informaci´ on a la base de datos y se cambian las frecuencias
como corresponda. Por ejemplo, si un nuevo paciente que presenta
los s´ıntomas S
1
= 1, S
2
= 1 y S
3
= 0 se sabe que tiene la enfermedad
e
1
, se puede actualizar la base de datos con esta nueva informaci´ on
sin m´as que incluir un caso m´ as en la base de datos de la Tabla 3.10.
4. Los sistemas expertos pueden tomar (o ayudar a los expertos humanos
a tomar) decisiones tales como:
• ¿se tiene suficiente informaci´on como para diagnosticar la enfer-
medad?
• ¿se necesitan nuevas pruebas cl´ınicas? y si la respuesta es posi-
tiva, ¿qu´e prueba o pruebas suministran la m´ axima informaci´ on
sobre la enfermedad que se sospecha tiene el paciente?
En las tres secciones siguientes se describen las tres componentes princi-
pales de los sistemas expertos probabil´ısticos.
3.5 La Base de Conocimiento
Tal como se ha visto en el Cap´ıtulo 2, la base de conocimiento de un sistema
experto basado en reglas consta del conjunto de objetos (variables) y del
conjunto de reglas. La base de conocimiento de un sistema experto proba-
bil´ıstico consiste en un conjunto de variables, ¦X
1
, . . . , X
n
¦, y una funci´ on
de probabilidad conjunta definida sobre ellas, p(x
1
, . . . , x
n
). Por ello, para
construir la base de conocimiento de un sistema experto probabil´ıstico, se
necesita definir la funci´ on de probabilidad conjunta de las variables.
El modelo m´ as general posible se basa en especificar directamente la
funci´ on de probabilidad conjunta; es decir, asignar un valor num´erico (par´ a-
metro) a cada una de las posibles combinaciones de valores de las variables.
Desgraciadamente, la especificaci´on directa de la funci´ on de probabilidad
conjunta implica un gran n´ umero de par´ ametros. Por ejemplo, con n va-
riables binarias, la funci´ on de probabilidad conjunta m´ as general tiene 2
n
par´ ametros (las probabilidades p(x
1
, . . . , x
n
) para toda posible realizaci´ on
¦x
1
, . . . , x
n
¦ de las variables), un n´ umero tan grande que no hay ordenador
3.5 La Base de Conocimiento 93
en el mundo capaz de almacenarlo incluso para un valor de n tan peque˜ no
como 50. Esta fue una de las primeras cr´ıticas al uso de la probabilidad
en los sistemas expertos. Sin embargo, en la mayor parte de las situaciones
pr´ acticas, muchos subconjuntos de variables pueden ser independientes o
condicionalmente independientes. En tales casos, se pueden obtener sim-
plificaciones del modelo m´as general teniendo en cuenta la estructura de
independencia de las variables. Esto suele dar lugar a una reducci´ on impor-
tante del n´ umero de par´ ametros. En esta secci´on se discuten los siguientes
ejemplos de tales simplificaciones:
1. El Modelo de S´ıntomas Dependientes (MSD).
2. El Modelo de S´ıntomas Independientes (MSI).
3. El Modelo de S´ıntomas Relevantes Independientes (MSRI).
4. El Modelo de S´ıntomas Relevantes Dependientes (MSRD).
Sin embargo, estos cuatro modelos son modelos ad hoc que se aplican
principalmente en el campo m´edico (v´ease Castillo y
´
Alvarez (1991)). Mo-
delos probabil´ısticos m´as generales y potentes (por ejemplo, modelos de re-
des de Markov, modelos de redes Bayesianas, y modelos especificados condi-
cionalmente) se presentan en los Cap´ıtulos 6 y 7. Estos modelos pueden
utilizarse en el campo m´edico y tambi´en en otros campos.
Para introducir los modelos anteriores se considera el problema del di-
agn´ ostico m´edico introducido en la Secci´ on 3.2.4, en la que se ten´ıan n
s´ıntomas S
1
, . . . , S
n
, y una variable aleatoria E, que pod´ıa tomar uno de m
valores posibles e
1
, . . . , e
m
. En este problema se desea diagnosticar la pre-
sencia de una enfermedad dado un conjunto de s´ıntomas s
1
, . . . , s
k
. Para
ello se tiene la funci´ on de probabilidad conjunta de la enfermedad y los
s´ıntomas p(e, s
1
, . . . , s
n
).
Como se ha indicado con anterioridad, la forma m´ as general de esta
funci´ on de probabilidad conjunta depende de un n´ umero muy grande de
par´ ametros. Para reducir el n´ umero de par´ ametros, se pueden imponer
algunas hip´ otesis (restricciones) entre ellos. Los modelos presentados en las
subsecciones siguientes son ejemplos de tales restricciones. En todos ellos,
se supone que las enfermedades son independientes de los s´ıntomas.
3.5.1 El Modelo de S´ıntomas Dependientes
En este modelo, se supone que los s´ıntomas son dependientes pero que
las enfermedades son independientes entre s´ı, dados los s´ıntomas. El MSD
se ilustra en la Figura 3.6, donde todo s´ıntoma se conecta con los dem´as
s´ıntomas y con todo valor posible de E (indicando dependencia).
Entonces la funci´ on de probabilidad conjunta para el MSD puede es-
cribirse como
p(e
i
, s
1
, . . . , s
n
) = p(s
1
, . . . , s
n
)p(e
i
[s
1
, . . . , s
n
). (3.21)
e
1
e
2 e
m
S
1
S
2
S
3
S
4
S
n-1
S
n
94 3. Sistemas Expertos Basados en Probabilidad
FIGURA 3.6. Una ilustraci´on gr´ afica del modelo de s´ıntomas dependientes.
N´otese que esta ecuaci´on se obtiene utilizando (3.6) con X = ¦E¦ e Y =
¦S
1
, . . . , S
n
¦. Ahora, p(e
i
[s
1
, . . . , s
n
) puede expresarse como
p(e
i
[s
1
, . . . , s
n
) =
p(e
i
, s
1
, . . . , s
n
)
p(s
1
, . . . , s
n
)
(3.22)
=
p(e
i
)p(s
1
, . . . , s
n
[e
i
)
p(s
1
, . . . , s
n
)
(3.23)
∝ p(e
i
)p(s
1
, . . . , s
n
[e
i
). (3.24)
La primera de las ecuaciones anteriores se deduce de (3.3), y la segunda se
obtiene aplicando (3.6). La proporcionalidad se sigue de que p(s
1
, . . . , s
n
)
es una constante de normalizaci´ on.
N´otese que (3.24) s´olo incluye probabilidades “a priori” y verosimilitudes
(probabilidades condicionales de los s´ıntomas para cada una de las enfer-
medades) cuyos valores pueden estimarse a partir de la informaci´ on objetiva
dada por las frecuencias de enfermedades y s´ıntomas en la poblaci´ on. La
ecuaci´on (3.24) muestra que los par´ ametros necesarios para la base de datos
del MSD son:
• Las probabilidades marginales p(e
i
), para todos los valores posibles
de E.
• Las verosimilitudes p(s
1
, . . . , s
n
[e
i
), para todas las combinaciones posi-
bles de s´ıntomas y enfermedades.
Por ejemplo, para m enfermedades y n s´ıntomas binarios, la funci´ on de
probabilidad marginal de E, p(e
i
), depende de m− 1 par´ ametros (puesto
que los m par´ ametros deben sumar uno). Por ello, se necesita especificar
m − 1 par´ ametros para la funci´ on de probabilidad marginal de E. Con
respecto a las verosimilitudes p(s
1
, . . . , s
n
[e
i
), se necesita especificar (2
n
−1)
par´ ametros
3
para cada valor posible de E, un total de m(2
n
−1) par´ ametros.
3
N´ otese que para n s´ıntomas binarios hay 2
n
par´ ametros (un par´ametro para
cada combinaci´on posible de s´ıntomas). Sin embargo, estos par´ametros deben
3.5 La Base de Conocimiento 95
e p(e)
¯ g 0.3
g 0.7
p(d, v, p[e)
d v p E = g E = ¯ g
0 0 0 0.014 0.377
0 0 1 0.136 0.253
0 1 0 0.014 0.167
0 1 1 0.136 0.103
1 0 0 0.036 0.040
1 0 1 0.314 0.030
1 1 0 0.036 0.017
1 1 1 0.314 0.013
TABLA 3.11. Funciones de probabilidad requeridas para la especificaci´on del
MSD.
Por ello, el MSD requiere un total de m − 1 + m(2
n
− 1) = m2
n
− 1
par´ ametros.
Ejemplo 3.6 El Modelo se s´ıntomas dependientes. Para ilustrar el
MSD consid´erense los datos del Ejemplo 3.4, que se dan en la Figura 3.1.
En este caso, la ´ unica enfermedad de inter´es es el adenocarcinoma g´astrico.
Por ello, la variable E toma dos posibles valores, g (cuando un paciente
tiene adenocarcinoma g´ astrico) y ¯ g (cuando un paciente no tiene adeno-
carcinoma g´astrico). Hay tres s´ıntomas binarios, D, V y P. Es conveniente
a veces utilizar los n´ umeros 1 y 0 para indicar la presencia y la ausen-
cia del s´ıntoma, respectivamente. Para definir el MSD, se necesita conocer
la funci´ on de probabilidad marginal p(e
i
) y las funciones de probabilidad
condicional de los s´ıntomas dada la enfermedad, p(d, v, p[e
i
). Estas fun-
ciones de probabilidad se extraen de la Figura 3.1 y est´ an tabuladas en la
Tabla 3.11.
Utilizando (3.24) y la funci´ on de probabilidad de la Tabla 3.11, se puede
calcular la probabilidad de la enfermedad dada cualquier combinaci´ on de
s´ıntomas. Estas probabilidades est´ an dadas en la Tabla 3.12. Por ejemplo,
la funci´ on de probabilidad condicionada de la enfermedad dado que est´en
presentes los tres s´ıntomas se calcula como sigue:
p(¯ g[d, v, p) ∝ p(¯ g)p(d, v, p[¯ g) = 0.3 0.013 = 0.0039,
p(g[d, v, p) ∝ p(g)p(d, v, p[g) = 0.7 0.314 = 0.2198.
Dividiendo ahora por la constante de normalizaci´ on 0.2198 + 0.0039 =
0.2237, se obtiene
p(¯ g[d, v, p) = 0.0039/0.2237 = 0.02,
p(g[d, v, p) = 0.2198/0.2237 = 0.98,
sumar uno; en consecuencia, se tienen s´olo 2
n
− 1 par´ ametros libres para cada
valor posible de E.
96 3. Sistemas Expertos Basados en Probabilidad
d v p E = g E = ¯ g
0 0 0 0.08 0.92
0 0 1 0.56 0.44
0 1 0 0.17 0.83
0 1 1 0.75 0.25
1 0 0 0.68 0.32
1 0 1 0.96 0.04
1 1 0 0.83 0.17
1 1 1 0.98 0.02
TABLA 3.12. La funci´on de probabilidad condicionada p(e|d, v, p) con e = ¯ g y
e = g, para el modelo MSD.
que se dan en la ´ ultima fila de la Tabla 3.12.
El principal problema del MSD es que requiere un n´ umero muy alto de
par´ ametros. Claramente, especificar las frecuencias para todas esas com-
binaciones es muy dif´ıcil y se hace imposible al crecer los n´ umeros de
las enfermedades y los s´ıntomas. Por ejemplo, con 100 enfermedades y
200 s´ıntomas (que no es una situaci´ on irreal), el n´ umero de frecuencias
(par´ ametros) necesarios es mayor que 10
62
, tan grande que no hay ning´ un
ordenador capaz de almacenarla.
La discusi´ on anterior supone s´ıntomas binarios (s´ıntomas con s´olo dos
posibles opciones, tales como fiebre, no fiebre; dolor, no dolor; etc.). Las
dificultades se incrementan notablemente en el MSD en casos en los que se
tengan s´ıntomas con m´ ultiples (m´ as de dos) opciones o niveles, tales como
fiebre alta, fiebre media, fiebre baja y no fiebre.
3.5.2 El Modelo de S´ıntomas Independientes
Debido a la imposibilidad de trabajar con el modelo anterior en muchos
casos pr´acticos, resulta necesario proceder a la simplificaci´on del modelo.
Una simplificaci´ on posible consiste en suponer que, para una enfermedad
dada, los s´ıntomas son condicionalmente independientes entre s´ı. El modelo
resultante se denomina modelo de s´ıntomas independientes (MSI). El MSI
se ilustra en la Figura 3.7, donde los s´ıntomas no est´an ligados, para indicar
la independencia.
Puesto que los s´ıntomas se suponen condicionalmente independientes
dada la enfermedad, se tiene
p(s
1
, . . . , s
n
[e
i
) =
n
¸
j=1
p(s
j
[e
i
). (3.25)
e
1
e
2 e
m
S
1
S
2
S
3
S
4
S
n-1
S
n
3.5 La Base de Conocimiento 97
FIGURA 3.7. Una ilustraci´on gr´ afica del modelo de s´ıntomas independientes.
Por ello, se puede escribir la funci´ on de probabilidad conjunta de la enfer-
medad E dados los s´ıntomas s
1
, . . . , s
n
como
p(e
i
[s
1
, . . . , s
n
) =
p(e
i
)p(s
1
, . . . , s
n
[e
i
)
p(s
1
, . . . , s
n
)
=
p(e
i
)
n
¸
j=1
p(s
j
[e
i
)
p(s
1
, . . . , s
n
)
(3.26)
∝ p(e
i
)
n
¸
j=1
p(s
j
[e
i
). (3.27)
Sustituyendo (3.26) en (3.21), se obtiene el MSI.
La ecuaci´on (3.26) muestra c´ omo la hip´ otesis de independencia modifica
las probabilidades de todas las enfermedades cuando se conocen nuevos
s´ıntomas. Por ello, la probabilidad inicial de la enfermedad e
i
es p(e
i
),
pero tras conocer los s´ıntomas s
j
, para j = 1, . . . , k, resulta proporcional a
p(s
j
[e
i
). N´ otese que cada nuevo s´ıntoma conduce a un nuevo factor. N´ otese
tambi´en que p(s
1
, . . . , s
n
), en el denominador de (3.26), es una constante
de normalizaci´ on que no es necesario calcular directamente.
A partir de (3.27), puede verse que los par´ ametros necesarios para la
base de conocimiento del MSI son
• las probabilidades marginales p(e
i
), para todos los valores posibles de
la enfermedad E.
• Las probabilidades condicionales p(s
j
[e
i
), para todos los valores posi-
bles del s´ıntoma S
j
y la enfermedad E.
Por ello, con las hip´ otesis de independencia de los s´ıntomas, el n´ umero de
par´ ametros se reduce considerablemente. Con m enfermedades posibles y
n s´ıntomas binarios, el n´ umero total de par´ ametros es m(n + 1) − 1. Por
ejemplo, con m = 100 enfermedades y n = 200 s´ıntomas, se tienen 20,099
par´ ametros en el MSI en vez de m´as de 10
62
par´ ametros para el MSD.
Ejemplo 3.7 El Modelo de s´ıntomas independientes. Para ilustrar
el MSI, se utilizan los historiales cl´ınicos de dos centros m´edicos, cada uno
98 3. Sistemas Expertos Basados en Probabilidad
Centro M´edico 1
g ¯ g
d
¯
d d
¯
d Total
v p 220 95 4 31 350
¯ p 25 10 5 50 90
¯ v p 220 95 9 76 400
¯ p 25 10 12 113 160
Total 490 210 30 270 1000
Centro M´edico 2
g ¯ g
d
¯
d d
¯
d Total
v p 140 210 0 0 350
¯ p 0 0 30 60 90
¯ v p 280 0 0 120 400
¯ p 70 0 0 90 160
Total 490 210 30 270 1000
TABLA 3.13. N´ umeros de pacientes clasificados por una enfermedad G y tres
s´ıntomas, D, V y P en dos centros m´edicos.
e p(e)
¯ g 0.3
g 0.7
e d p(d[e)
¯ g 0 0.9
¯ g 1 0.1
g 0 0.3
g 1 0.7
e v p(v[e)
¯ g 0 0.7
¯ g 1 0.3
g 0 0.5
g 1 0.5
e p p(p[e)
¯ g 0 0.6
¯ g 1 0.4
g 0 0.1
g 1 0.9
TABLA 3.14. Probabilidades requeridas para la especificaci´on del MSI.
de ellos consta de N = 1000 pacientes; dos valores de la enfermedad (g y ¯ g);
y tres s´ıntomas, D, V y P. Los datos se resumen en la Tabla 3.13. N´otese
que los datos del Centro M´edico 1 son los mismos que los de la Figura 3.1,
pero dados ahora en forma tabular, en vez de forma gr´ afica.
Para especificar el MSI, se necesita la probabilidad marginal, p(e
i
), de la
enfermedad y las probabilidades condicionales de cada s´ıntoma dada cada
enfermedad, p(d[e
i
), p(v[e
i
) y p(p[e
i
). Estas probabilidades se extraen de la
Tabla 3.13 y se dan en la Tabla 3.14. N´ otese que s´olo 7 par´ ametros son
libres. Un aspecto interesante de los dos conjuntos de datos es que aunque
son muy diferentes, conducen a id´enticas probabilidades, como se muestra
en la Tabla 3.14.
En la Tabla 3.15 se da la probabilidad condicional de E dadas varias
combinaciones de los s´ıntomas para los dos centros m´edicos. N´otese que
3.5 La Base de Conocimiento 99
Centro M´edico 1 Centro M´edico 2
d v p Valor Real MSI Valor Real MSI
0 0 0 0.08 0.08 0.00 0.08
0 0 1 0.56 0.56 0.00 0.56
0 1 0 0.17 0.18 0.00 0.18
0 1 1 0.75 0.74 1.00 0.74
1 0 0 0.68 0.66 1.00 0.66
1 0 1 0.96 0.96 1.00 0.96
1 1 0 0.83 0.82 0.00 0.82
1 1 1 0.98 0.98 1.00 0.98
TABLA 3.15. La probabilidad condicional p(g|d, v, p) para los datos de la Tabla
3.13. Los valores verdaderos se calculan utilizando la definici´on de probabilidad
condicional en (3.3). Los valores correspondientes al MSI se calculan aplicando
la f´ormula del MSI dada en (3.27). N´otese que p(¯ g|d, v, p) = 1 −p(g|d, v, p).
p(¯ g[d, v, p) = 1 − p(g[d, v, p). Los valores exactos se calculan directamente
de la Tabla 3.13 utilizando la definici´ on de probabilidad condicional dada
en (3.3). Los valores de las columnas etiquetadas MSI se calculan aplicando
la f´ ormula para el MSI en (3.27). Por ejemplo, para el Centro M´edico 1, el
valor de p(g[d, v, p) se calcula mediante
p(g[d, v, p) =
p(g, d, v, p)
p(d, v, p)
=
220
220 + 4
= 0.98.
El valor de p(g[d, v, p) seg´ un el MSI se calcula usando (3.27) como sigue:
p(g[d, v, p) ∝ p(g)p(d[g)p(v[g)p(p[g) = 0.7 0.7 0.5 0.9 = 0.2205,
p(¯ g[d, v, p) ∝ p(¯ g)p(d[¯ g)p(v[¯ g)p(p[¯ g) = 0.3 0.1 0.3 0.4 = 0.0036.
Dividiendo 0.2205 por la constante de normalizaci´ on 0.2205 + 0.0036 =
0.2241, se obtiene p(g[d, v, p) = 0.2205/0.2241 = 0.98 y p(¯ g[d, v, p) =
0.0036/0.2241 = 0.02.
Una comparaci´ on entre las probabilidades verdaderas y las correspon-
dientes al MSI de la Tabla 3.15 muestra que los dos conjuntos de probabili-
dades son parecidos para el Centro M´edico 1, pero discrepan notablemente
para el Centro M´edico 2. Por ejemplo, para el Centro M´edico 2 el valor real
de p(g[d, v, ¯ p) es 0, mientras que el correspondiente al MSI es 0.82. Esto es
una prueba de que el MSI falla al tratar de describir la probabilidad de los
datos del Centro M´edico 2. N´otese que se tienen dos conjuntos de datos
con las mismas probabilidades “a priori” y las mismas verosimilitudes; sin
embargo, el MSI es apropiado para reproducir uno de ellos y no, para el
otro. De este ejemplo puede concluirse que las probabilidades “a priori”
y las verosimilitudes no son suficientes para especificar un modelo proba-
bil´ıstico.
e
1
e
2 e
m
S
1
S
2
S
3
S
4
S
n-1
S
n
100 3. Sistemas Expertos Basados en Probabilidad
El Ejemplo 3.7 ilustra el hecho de que el correcto comportamiento de un
sistema experto probabil´ıstico se basa en la especificaci´on correcta de la
funci´ on de probabilidad conjunta. Por tanto, debe ponerse especial cuidado
en la selecci´on del modelo probabil´ıstico a utilizar en un caso dado.
Aunque la hip´ otesis de independencia da lugar a una gran reducci´ on del
n´ umero de par´ ametros, el n´ umero de par´ ametros en el MSI es todav´ıa muy
alto para ser pr´ actico. Por tanto, se necesita simplificar el modelo a´ un m´ as.
3.5.3 Modelo de S´ıntomas Relevantes Independientes
Se puede conseguir una reduci´ on a´ un mayor del n´ umero de par´ ametros
suponiendo que cada enfermedad tiene un n´ umero reducido de s´ıntomas
relevantes. En consecuencia, para cada valor e
i
de la enfermedad E se selec-
cionan algunos s´ıntomas relevantes S
1
, . . . , S
r
(relativamente pocos frente
al total de s´ıntomas) y los restantes s´ıntomas se suponen independientes
para ese valor de E. El MSRI se ilustra en la Figura 3.8. N´ otese que para
e
1
, el conjunto de s´ıntomas relevantes es ¦S
1
, S
2
¦; para e
2
, el conjunto de
s´ıntomas relevantes es ¦S
2
, S
3
, S
4
¦; y as´ı sucesivamente.
FIGURA 3.8. Una ilustraci´on gr´ afica del modelo de s´ıntomas relevantes indepen-
dientes.
Por simplicidad de notaci´ on, sup´ ongase que S
1
, . . . , S
r
i
son relevantes
para la enfermedad e
i
y que los restantes s´ıntomas S
r
i
+1
, . . . , S
n
son irrele-
vantes. Seg´ un el MSRI, p(s
j
[e
i
) se supone id´entica para todos los s´ıntomas
que son irrelevantes para la enfermedad e
i
. Entonces la funci´ on de proba-
bilidad conjunta de la enfermedad e
i
dados los s´ıntomas s
1
, . . . , s
n
puede
escribirse como sigue
p(e
i
[s
1
, . . . , s
n
) =
p(e
i
)p(s
1
, . . . , s
n
[e
i
)
p(s
1
, . . . , s
n
)
=
p(e
i
)
r
i
¸
j=1
p(s
j
[e
i
)
n
¸
j=r
i
+1
p(s
j
[e
i
)
p(s
1
, . . . , s
n
)
=
p(e
i
)
r
i
¸
j=1
p(s
j
[e
i
)
n
¸
j=r
i
+1
p
j
p(s
1
, . . . , s
n
)
(3.28)
3.5 La Base de Conocimiento 101
∝ p(e
i
)
r
i
¸
j=1
p(s
j
[e
i
)
n
¸
j=r
i
+1
p
j
, (3.29)
donde p
j
= p(s
j
[e
i
), que es la misma para todas las enfermedades para la
que S
j
es irrelevante. Sustituyendo (3.28) en (3.21), se obtiene el MSRI.
De (3.29), se deduce que es necesario almacenar las probabilidades si-
guientes en la base de conocimiento del MSRI:
• Las probabilidades marginales p(e
i
), para todos los valores posibles
de la enfermedad E.
• Las probabilidades condicionales p(s
j
[e
i
), para cada valor posible de
E y cada uno de sus correspondientes s´ıntomas relevantes.
• Las probabilidades p
j
, para cada valor posible de E que tiene al menos
un s´ıntoma irrelevante. (Esto implica que p
j
= p(s
j
[e
i
) es id´entica
para todos los s´ıntomas irrelevantes para e
i
.)
La ecuaci´on (3.28) implica que en la base de conocimiento se necesita
almacenar las probabilidades de todos los s´ıntomas relevantes para cada
enfermedad, y la misma probabilidad para todos los s´ıntomas irrelevantes
para cada valor de E. Por ello, si se tienen m posibles enfermedades y n
s´ıntomas binarios, el n´ umero de par´ ametros en el MSRI es
m−1 +n −a +
m
¸
i=1
r
i
, (3.30)
donde r
i
es el n´ umero de s´ıntomas relevantes para la enfermedad e
i
y a
es el n´ umero de s´ıntomas que son relevantes para todas las enfermedades.
El n´ umero de par´ ametros se reduce significativamente cuando r
i
es mucho
menor que n. Por ejemplo, con 100 enfermedades y 200 s´ıntomas, si r
i
= 10
para todas las enfermedades,
4
el n´ umero de par´ ametros en el MSRI se
reduce de 20,099 para el MSI a 1,299 para el MSRI.
N´otese que se puede obtener el MSRI a partir del MSI, sin m´ as que im-
poner algunas restricciones adicionales en los par´ ametros del MSI, puesto
que en el MSRI las probabilidades p(s
j
[e
i
) deben ser las mismas para
todos los s´ıntomas irrelevantes para las enfermedades e
i
. El n´ umero de
restricciones es
a −n +
n
¸
j=1
n
j
,
donde n
j
es el n´ umero de enfermedades para las que S
j
es irrelevante.
Por ello, el n´ umero de par´ ametros en el MSRI coincide con el n´ umero de
4
N´ otese que r
i
= 10 para todas las enfermedades implica que a = 0, es decir,
toda enfermedad tiene al menos un s´ıntoma irrelevante.
e
1
e
2 e
m
S
1
S
2
S
3
S
4
S
n-1
S
n
102 3. Sistemas Expertos Basados en Probabilidad
par´ ametros en el MSI, (m(n + 1) − 1), menos el n´ umero de restricciones.
En total, se tiene
m(n + 1) −1 +n −a −
n
¸
j=1
n
j
, (3.31)
que es la misma f´ormula obtenida en (3.30).
3.5.4 El Modelo de S´ıntomas Relevantes Dependientes
Aunque el MSRI reduce el n´ umero de par´ ametros considerablemente, des-
graciadamente, es poco realista, ya que los s´ıntomas asociados a ciertas
enfermedades suelen producirse en grupos o s´ındromes. Por ello, puede ser
poco razonable suponer que los s´ıntomas relevantes son independientes. El
modelo de s´ıntomas relevantes dependientes (MSRD) evita este inconve-
niente. El MSRD es el mismo que el MSRI pero sin obligar a los s´ıntomas
relevantes a ser independientes, dada la correspondiente enfermedad. De
esta forma, se supone que s´olo los s´ıntomas irrelevantes son independientes
pero los s´ıntomas relevantes pueden ser dependientes. Por ello, se puede
pensar en el MSRD como una soluci´ on de compromiso entre el MSD y el
MSRI. El MSRD se ilustra en la Figura 3.9, donde los s´ıntomas relevantes
para cada enfermedad est´ an conectados, indicando la dependencia.
FIGURA 3.9. Una ilustraci´on gr´ afica del modelo de s´ıntomas relevantes depen-
dientes.
Sup´ ongase que S
1
, . . . , S
r
i
son relevantes para la enfermedad e
i
y que los
restantes s´ıntomas S
r
i
+1
, . . . , S
n
son irrelevantes. Entonces seg´ un el MSRD,
la funci´ on de probabilidad conjunta de e
i
dados los s´ıntomas s
1
, . . . , s
n
puede escribirse como
p(e
i
[s
1
, . . . , s
n
) =
p(e
i
)p(s
1
, . . . , s
r
i
[e
i
)
n
¸
j=r
i
+1
p(s
j
[e
i
)
p(s
1
, . . . , s
n
)
=
p(e
i
)p(s
1
, . . . , s
r
i
[e
i
)
n
¸
j=r
i
+1
p
j
p(s
1
, . . . , s
n
)
(3.32)
3.5 La Base de Conocimiento 103
N´ umero de par´ ametros
Modelo F´ ormula Valor
MSD m2
n
−1 > 10
62
MSI m(n + 1) −1 20,099
MSRI m(r + 1) +n −1 1,299
MSRD m2
r
+n −1 102,599
TABLA 3.16. N´ umeros de par´ametros necesarios para especificar cuatro modelos
en el caso de m = 100 enfermedades binarias, n = 200 s´ıntomas binarios, y r = 10
s´ıntomas relevantes por enfermedad.
∝ p(e
i
)p(s
1
, . . . , s
r
i
[e
i
)
n
¸
j=r
i
+1
p
j
, (3.33)
donde p
j
= p(s
j
[e
i
), que es la misma para todas las enfermedades para las
que S
j
es irrelevante. Sustituyendo (3.32) en (3.21), se obtiene el MSRD.
Para este modelo, es necesario almacenar las siguientes probabilidades en
la base de datos:
• Las probabilidades marginales p(e
i
), para todos las posibles valores
de la enfermedad E.
• Las probabilidades condicionales p(s
1
, . . . , s
r
i
[e
i
), para todos los posi-
bles valores de la enfermedad E y sus s´ıntomas relevantes S
1
, . . . , S
r
i
.
• Las probabilidades p
j
, para cada valor posible de E que tenga al
menos un s´ıntoma irrelevante. (Como en el MSRI, esto implica que
p
j
= p(s
j
[e
i
) coincide para todos los s´ıntomas irrelevantes para e
i
.)
En consecuencia, para m enfermedades binarias y n s´ıntomas binarios, el
n´ umero total de par´ ametros en el MSRD es
m−1 +n −a +
m
¸
i=1
(2
r
i
−1) = n −1 −a +
m
¸
i=1
2
r
i
. (3.34)
N´otese que cuando r
i
= r para todos los valores e
i
, entonces (3.34) resulta
m2
r
+n −1. N´ otese tambi´en que si todos los s´ıntomas son relevantes para
todas las enfermedades (a = n y r
i
= n para todo e
i
), el MSRD se con-
vierte en el MSD. La Tabla 3.16 muestra una comparaci´ on de los n´ umeros
de par´ ametros necesarios para especificar los modelos discutidos en esta
secci´on en el caso de m = 100 enfermedades binarias, n = 200 s´ıntomas
binarios, y r = 10 s´ıntomas relevantes por enfermedad.
En el MSRD el n´ umero de par´ ametros es muy reducido comparado con
el MSD, y eso a pesar de que es un modelo realista, puesto que considera
las dependencias entre los s´ıntomas m´as importantes (relevantes) para cada
104 3. Sistemas Expertos Basados en Probabilidad
enfermedad. Sin embargo, debido a la hip´ otesis de dependencia, el n´ umero
de par´ ametros del MSRD es mayor que el n´ umero de par´ ametros en los
MSI y MSRI.
Se puede conseguir una reducci´ on adicional sin m´ as que dividir el con-
junto de s´ıntomas relevantes en subconjuntos (bloques) que se suponen
m´ utuamente independientes, pero los s´ıntomas en cada bloque se conside-
ran dependientes.
3.5.5 Conclusiones
En esta secci´on se han discutido cuatro modelos ad hoc para describir
las relaciones existentes entre un conjunto de variables. El conjunto de
par´ ametros necesario para definir la base de conocimiento depende del mo-
delo elegido. Cada uno de estos modelos tiene sus propias ventajas e incon-
venientes. Sin embargo, estos cuatro modelos s´olo se aplican en situaciones
particulares. En los Cap´ıtulos 6 y 7, se introducen modelos probabil´ısticos
m´as generales, tales como los modelos de redes de Markov, los modelos
de redes Bayesianas, los modelos especificados por listas de relaciones de
independencia, y los modelos especificados condicionalmente.
Sin embargo, sea cual sea el modelo elegido, la base de conocimiento debe
contener el conjunto de variables de inter´es y el m´ınimo de par´ ametros
(probabilidades o frecuencias) necesarios para especificar la funci´ on de
probabilidad conjunta de las variables.
3.6 El Motor de Inferencia
Hay dos tipos de conocimiento en los sistemas expertos probabil´ısticos:
1. El conocimiento, que est´a formado por el conjunto de variables y
el conjunto de probabilidades asociadas necesarias para construir
su funci´ on de probabilidad conjunta. Este tipo de conocimiento se
almacena en la base de conocimiento.
2. Los datos, que consisten en un conjunto de valores de algunas varia-
bles (por ejemplo, s´ıntomas) conocidas por el usuario. A esta infor-
maci´on se la conoce con el nombre de evidencia y se almacena en la
memoria de trabajo.
El motor de inferencia utiliza ambos, el conocimiento y los datos para
responder a ciertas cuestiones hechas por el usuario. Ejemplos de tales
preguntas son:
• Cuesti´ on 1: Antes de que sea examinado por un doctor, ¿cu´ al es la
enfermedad m´ as probable para el paciente? Aqu´ı, no hay evidencia
disponible. El paciente todav´ıa no ha sido examinado y el conjunto de
3.6 El Motor de Inferencia 105
s´ıntomas que presenta el paciente es vac´ıo (queda por determinar). El
problema consiste en calcular la probabilidad marginal (inicial) de E,
p(E = e
i
), i = 1, . . . , m.
• Cuesti´ on 2: Dado que el paciente presenta un subconjunto de s´ın-
tomas S
1
= s
1
, . . . , S
k
= s
k
, ¿qu´e enfermedad tiene el paciente con
mayor probabilidad? El conjunto evidencial en este caso consiste en
el conjunto de valores s
1
, . . . , s
k
. El problema consiste en calcular la
funci´ on de probabilidad conjunta para cada enfermedad e
i
dada la
evidencia s
1
, . . . , s
k
:
p(E = e
i
[s
1
, . . . , s
k
), i = 1, . . . , m.
La probabilidad marginal de E, p(E = e
i
), se conoce tambi´en como
probabilidad “a priori” puesto que se calcula antes de conocer la eviden-
cia. La probabilidad condicional de e
i
dada una realizaci´ on del conjunto
de s´ıntomas p(e
i
[s
1
, . . . , s
k
) se conoce como la probabilidad “a posteriori”
puesto que se calcula tras conocer la evidencia. N´otese que la probabilidad
marginal (“a priori”) puede interpretarse como un caso especial de proba-
bilidad “a posteriori”, en la que el conjunto de s´ıntomas observado es el
conjunto vac´ıo, φ.
Una de las tareas del motor de inferencia en los sistemas expertos proba-
bil´ısticos consiste en calcular las probabilidades condicionales de diferentes
enfermedades cuando se conocen nuevos s´ıntomas o datos. El motor de
inferencia es responsable de actualizar las probabilidades condicionales:
p(e
i
[s
1
, . . . , s
k
) =
p(e
i
, s
1
, . . . , s
k
)
p(s
1
, . . . , s
k
)
; i = 1, . . . , m, (3.35)
para todos los posibles valores de los s´ıntomas, y de decidir cu´ ales tienen
probabilidades condicionales altas. Normalmente se selecciona un n´ umero
reducido y se muestran al usuario (por ejemplo, a m´edicos y pacientes)
para observarlas y obtener las conclusiones pertinentes.
En (3.35), el papel del t´ermino p(s
1
, . . . , s
k
) consiste en actuar como una
constante de normalizaci´ on. Por tanto, una decisi´ on basada en el m´ aximo
de p(e
i
[s
1
, . . . , s
k
) coincide con la basada en el m´ aximo de p(e
i
, s
1
, . . . , s
k
).
Por ello, los cocientes
R
i
=
p(e
i
, s
1
, . . . , s
k
)
max
i
p(e
i
, s
1
, . . . , s
k
)
; i = 1, . . . , m, (3.36)
suministran informaci´ on sobre la importancia relativa de las diferentes
enfermedades.
N´otese que el teorema de Bayes se utiliza para calcular con facilidad las
probabilidades “a posteriori” cuando se tienen unas pocas enfermedades y
s´ıntomas. Pero cuando el n´ umero de variables (enfermedades y/o s´ıntomas)
es alto, que es lo que sucede normalmente en la pr´actica, se necesitan
106 3. Sistemas Expertos Basados en Probabilidad
m´etodos y modelos m´as eficientes para calcular ambas, las probabilida-
des “a priori” y las probabilidades “a posteriori”. Estos m´etodos, que se
conocen como m´etodos de propagaci´ on de evidencia o incertidumbre, se
presentan en los Cap´ıtulos 8, 9 y 10.
3.7 Control de la Coherencia
Uno de los problemas m´ as serios de los sistemas expertos es la presencia de
incoherencias en su base de conocimiento y/o en su memoria de trabajo.
Hay varias razones para ello. Por ejemplo,
1. Los expertos humanos pueden suministrar conocimiento incoherente.
2. El usuario puede suministrar datos incoherentes.
3. El motor de inferencia no actualiza los hechos (v´ease la Secci´on 2.4.2).
4. No hay un subsistema para controlar la coherencia que evite que
llegue conocimiento inconsistente a la base de conocimiento y/o la
memoria de trabajo.
Seguidamente se dan algunos ejemplos para ilustrar la importancia del
mantenimiento de un conocimiento coherente en los sistemas expertos.
Ejemplo 3.8 Restricciones para dos variables. Sup´ ongase que se tie-
nen s´olo dos variables binarias, E y S. Tal como se ha indicado en la
secci´on anterior, las probabilidades necesarias para la base de conocimiento
de cualquiera de los m´etodos anteriores son p(e), p(s), p(s[e). Por ello, el
sistema experto comienza preguntando al usuario por los valores de p(d) y
p(s). Estos valores deben satisfacer las restricciones triviales 0 ≤ p(e) ≤ 1 y
0 ≤ p(s) ≤ 1. Una vez que se han definido p(e) y p(s), el sistema pregunta
al usuario los valores de p(s[e). El sistema deber´ıa informar al usuario so-
bre las restricciones que deben satisfacer estos valores. Por ejemplo, dando
sus respectivas cotas inferior y superior. En algunos casos, algunos valores
son redundantes y el sistema experto deber´ıa asignar autom´ aticamente los
valores apropiados sin preguntar al usuario. Por ejemplo,
p(s[E = 0) +p(s[E = 1) = p(s), para todo s.
Por ello, se tiene
p(s[E = 1) = p(s) −p(s[E = 0). (3.37)
Por tanto, tan pronto como se conoce p(s), el sistema experto no necesita
preguntar al usuario los valores de p(s[e), puesto que s´ olo dos de ellos son
necesarios: p(S = 0[E = 0) y p(S = 1[E = 0). Por otra parte, estas dos
3.7 Control de la Coherencia 107
probabilidades deben sumar uno. Por tanto, s´ olo una de estas probabilida-
des es suficiente para definir los par´ ametros correspondientes de la base de
datos.
Adem´as de las relaciones entre las diferentes probabilidades que intervienen
en la definici´ on de la funci´ on de probabilidad conjunta, hay tambi´en otras
condiciones que deben satisfacer las probabilidades para ser consistentes.
Por tanto, el subsistema de control de la coherencia debe ser capaz de
informar al usuario de las restricciones a que deben someterse las nuevas
unidades de informaci´ on. El ejemplo que sigue ilustra esta idea.
Ejemplo 3.9 Restricciones para dos conjuntos. Sup´ ongase que se
tienen s´olo dos conjuntos A y B. Las probabilidades que intervienen en la
definici´ on de la base de conocimiento de un sistema experto probabil´ıstico
son p(A), p(B), p(A∪B) y p(A∩B). Estas probabilidades deben satisfacer
las restricciones siguientes:
0 ≤ p(A) ≤ 1,
0 ≤ p(A) ≤ 1,
max¦ 0, p(A) +p(B) −1 ¦ ≤ p(A∩ B) ≤ min¦ p(A), p(B) ¦,
max¦ p(A), p(B) ¦ ≤ p(A∪ B) ≤ min¦ 1, p(A) +p(B) ¦
(3.38)
La restricci´on p(A) +p(B) −1 ≤ p(A∩ B) se obtiene como sigue:
p(A∩ B) = p(A∩ B) = p(A∪ B) = 1 −p(A∪ B)
≥ 1 −(1 −p(A) + 1 −p(B)) = p(A) +p(B) −1.
Por ello, el sistema experto comienza preguntando al usuario los valores
de p(A) y p(B). Estos valores deben satisfacer las dos primeras restricciones
en (3.38). Una vez que p(A) y p(B) ya han sido especificadas y compro-
badas, el subsistema de adquisici´ on de conocimiento pregunta los valores
de p(A∩B) o de p(A∪B); el sistema debe informar al usuario de las cotas
inferior y superior de estas probabilidades dadas en las dos ´ ultimas restric-
ciones de (3.38). En otro caso, podr´ıan darse valores fuera de los intervalos
de coherencia. En tal caso se violar´ıan los axiomas de la probabilidad y el
sistema podr´ıa generar conclusiones err´ oneas. Sup´ ongase que p(A ∩ B) ha
sido dada y comprobada; entonces se asignar´ a autom´ aticamente a p(A∪B)
el valor
p(A∪ B) = p(A) +p(B) −p(A∩ B), (3.39)
de acuerdo con (3.2).
El lector puede imaginar la complejidad del conjunto de restricciones que
resultan a medida que aumenta el n´ umero de subconjuntos. Por tanto, el
riesgo de que el usuario viole las restricciones aumenta con el n´ umero de
variables. En estas situaciones es importante disponer de un sistema capaz
de controlar la coherencia del conocimiento (Smith (1961)).
108 3. Sistemas Expertos Basados en Probabilidad
En algunos modelos probabil´ısticos (por ejemplo, en los de redes Ba-
yesianas presentados en el Cap´ıtulo 6), el control de la coherencia no es
un problema, puesto que los modelos son coherentes por construcci´ on. Sin
embargo, en otros modelos probabil´ısticos debe controlarse la coherencia.
En algunos modelos probabil´ısticos el control de la coherencia es una
necesidad, no un lujo. El subsistema de control de coherencia impide que
el conocimiento incoherente entre en la base de conocimiento y/o la memo-
ria de trabajo. Un m´etodo para comprobar la consistencia de un modelo
probabil´ıstico se describe en el Cap´ıtulo 7.
3.8 Comparando los dos Tipos de Sistemas
Expertos
Se concluye este cap´ıtulo con una breve comparaci´ on de los sistemas exper-
tos basados en reglas con los sistema expertos basados en probabilidad. Se
discuten sus analog´ıas y diferencias, y sus ventajas y desventajas. La Tabla
3.17 muestra un resumen de algunas componentes de cada tipo de sistema
experto y de la estructura (l´ ogica o probabil´ıstica) en la que se basa.
1. Base de Conocimiento:
El conocimiento de un sistema experto basado en reglas consiste en los
objetos y el conjunto de reglas. El conocimiento de un sistema experto
basado en probabilidad consiste en el espacio de probabilidad, que
incluye las variables, sus posibles valores, y su funci´ on de probabilidad
conjunta. Por otra parte, los datos de ambos sistemas consisten en la
evidencia asociada a los casos a analizar.
La base de conocimiento en los sistemas expertos basados en reglas es
f´ acil de implementar, puesto que s´ olo es necesario utilizar elementos
simples, tales como objetos, conjuntos de valores, premisas, conclu-
siones y reglas. Sin embargo, el conocimiento que puede ser almace-
nado es limitado cuando se compara con el de los sistemas expertos
basados en probabilidad. Un inconveniente de los sistemas expertos
probabil´ısticos es el alto n´ umero de par´ ametros que manejan, lo que
hace que sea dif´ıcil su especificaci´on y definici´ on.
2. Motor de Inferencia:
En los sistemas expertos basados en reglas las conclusiones se ob-
tienen de los hechos aplicando las diferentes estrategias de inferencia,
tales como Modus Ponens, Modus Tollens y encadenamiento de re-
glas. Por ello, el motor de inferencia es r´ apido y f´ acil de implementar.
En los sistemas expertos basados en probabilidad, el motor de in-
ferencia es m´as complicado que en el caso de los sistemas expertos
3.8 Comparando los dos Tipos de Sistemas Expertos 109
basados en reglas. El motor de inferencia de un sistema experto pro-
babil´ıstico se basa en la evaluaci´on de las probabilidades condicionales
utilizando uno o varios m´etodos propuestos por los diferentes tipos
de sistemas expertos probabil´ıstico. (v´eanse los Cap´ıtulos 8 y 9). El
grado de dificultad depende del modelo seleccionado y var´ıa desde
baja, para los modelos de independencia, a alta, para los modelos de
dependencia generales.
3. Subsistema de Explicaci´on:
La explicaci´ on es f´acil en el caso de los sistemas expertos basados en
reglas, ya que se sabe qu´e reglas han sido utilizadas para concluir en
cada momento. El motor de inferencia sabe qu´e reglas se han utilizado
en el encadenamiento y han contribu´ıdo a obtener conclusiones y qu´e
reglas se han utilizado sin ´exito.
En el caso de los sistemas expertos basados en probabilidad, la in-
formaci´ on sobre qu´e variables influyen en otras est´ a codificada en la
funci´ on de probabilidad conjunta. Por ello, la explicaci´ on se basa en
los valores relativos de las probabilidades condicionales que miden
los grados de dependencia. Una comparaci´ on de las probabilidades
condicionales para diferentes conjuntos de evidencia permite analizar
sus efectos en las conclusiones.
4. Subsistema de Aprendizaje:
En los sistemas expertos basados en reglas, el aprendizaje consiste en
incorporar nuevos objetos, nuevos conjuntos de valores factibles para
los objetos, nuevas reglas o modificaciones de los objetos existentes,
de los conjuntos de valores posibles, o de las reglas. En los sistemas
expertos probabil´ısticos, el aprendizaje consiste en incorporar o mo-
dificar la estructura del espacio de probabilidad: variables, conjunto
de posibles valores, o los par´ ametros (valores de las probabilidades).
Ejercicios
3.1 Utilizar la funci´ on de probabilidad conjunta de la Tabla 3.2 para
calcular las funciones de probabilidad condicional siguientes, para
todos los valores de x, y y z:
(a) p(x[y, z).
(b) p(y[x, z).
(c) p(z[x, y).
3.2 Construir una funci´ on de probabilidad conjunta de tres variables X,
Y y Z de la que pueda concluirse que X e Y son independientes, X y Z
110 3. Sistemas Expertos Basados en Probabilidad
Basados en Reglas Probabil´ısticos
Base de Objetos, reglas Variables, FPC
Conocimiento Hechos Hechos
Motor de Estrategias de inferencia probabilidad condicional
Inferencia Encadenamiento de reglas m´etodos de evaluaci´on
Subsistema de Basado en reglas activas Basado en probabilidad
Explicaci´ on condicional
Aprendizaje Cambio en Cambio en
objetos y reglas modelo probabil´ıstico
TABLA 3.17. Una comparaci´on entre los sistemas expertos basados en reglas y
los basados en probabilidad.
son dependientes, e Y y Z son dependientes. Seguidamente, util´ıcese
dicha funci´ on de probabilidad conjunta para calcular las funciones de
probabilidad siguientes, para todos los valores de x, y, y z:
(a) p(y[x).
(b) p(x[y).
(c) p(x[y, z).
3.3 Consid´erese la funci´on de probabilidad conjunta de la Tabla 3.2.
(a) Generar todas las posibles relaciones de independencia condi-
cional que incluyan a las variables X, Y y Z: ¦I(X, Y [φ), . . .¦.
(b) Comprobar cu´ ales de estas relaciones est´an implicadas por la
funci´ on de probabilidad conjunta de la Tabla 3.2.
3.4 En el Ejemplo 3.4 se aplic´ o el teorema de Bayes para mostrar que
tras observar las evidencias V = v y P = p, la probabilidad “a pos-
teriori” del adenocarcinoma g´ astrico es 0.9. Completar el problema
de diagn´ ostico calculando las probabilidades “a posteriori” con la in-
formaci´ on adicional D = d. Con esta informaci´ on adicional, ¿cu´ al es
la probabilidad de que el diagn´ ostico sea incorrecto? ¿c´omo cambia
esta probabilidad cuando D =
¯
d?
3.5 Utilizar los datos del Ejemplo 3.4 para calcular las probabilidades “a
posteriori” del adenocarcinoma g´ astrico
(a) Utilizando el Teorema de Bayes.
(b) Usando la definici´ on de probabilidad condicional y la Figura 3.1.
Consid´erense los casos dados por los siguientes conjuntos evidenciales:
3.8 Comparando los dos Tipos de Sistemas Expertos 111
Enfermedad S´ıntomasRelevantes
E
1
S
1
, S
2
, S
5
E
2
S
2
, S
3
, S
5
E
3
S
3
, S
4
, S
5
TABLA 3.18. Enfermedades y sus correspondientes s´ıntomas relevantes.
(a) V = ¯ v y P = p.
(b) V = v y P = ¯ p.
(c) V = ¯ v y P = ¯ p.
(d) V = ¯ v, P = ¯ p y D =
¯
d.
3.6 Mostrar que las dos f´ ormulas en (3.30) y (3.31) para el n´ umero de
par´ ametros en el MSRI son iguales.
3.7 Dada una poblaci´ on de pacientes clasificados por cinco enfermedades
E
1
, . . . , E
5
m´ utuamente exclusivas y tres s´ıntomas binarios S
1
, S
2
y S
3
, hacer hip´ otesis apropiadas para cada uno de los cuatro mo-
delos de sistemas expertos probabil´ısticos dados en la Secci´on 3.5.
Seguidamente, determinar los n´ umeros de par´ ametros necesarios en
cada modelo.
3.8 Dada una poblaci´ on de pacientes clasificados por tres enfermedades
E
1
, E
2
y E
3
m´ utuamente exclusivas y cinco s´ıntomas binarios S
1
, . . . ,
S
5
. Indicar qu´e par´ ametros son necesarios para especificar cada uno
de los modelos siguientes:
(a) El MSI.
(b) El MSRI, dados los s´ıntomas relevantes para cada una de las
tres enfermedades que se muestran en la Tabla 3.18.
(c) El MSRD, dados los s´ıntomas relevantes para cada una de las
tres enfermedades que se muestran en la Tabla 3.18.
3.9 Consid´erese el problema del diagn´ ostico m´edico descrito en el Ejemplo
3.5 y sup´ ongase que se desea construir un sistema experto probabil´ıs-
tico con el MSI para el problema de diagnosis. Escribir un programa
de ordenador que haga lo siguiente:
(a) Leer las probabilidades “a priori” p(e
i
), i = 1, . . . , m, de un
fichero de texto.
(b) Leer las verosimilitudes p(s
j
[e
i
), i = 1, . . . , d; j = 1, . . . , n, de
un fichero de texto.
112 3. Sistemas Expertos Basados en Probabilidad
Experto Humano
Orden Datos 1 2 3 4 5
1 p(a) 0.8 0.8 0.5 0.5 0.6
2 p(b) 0.7 0.7 0.6 0.6 0.5
3 p(c) 0.5 0.5 0.6 0.7 0.4
4 p(a, b) 0.6 0.2 0.3 0.4 0.3
5 p(a, c) 0.4 0.2 0.3 0.2 0.2
6 p(b, c) 0.2 0.3 0.4 0.4 0.2
7 p(a, b, c) 0.1 0.2 0.2 0.2 0.1
TABLA 3.19. Cinco conjuntos de probabilidades suministradas por cinco expertos
humanos diferentes.
(c) Actualizar las probabilidades de las enfermedades tras conocer
ciertos s´ıntomas, usando la funci´ on de probabilidad conjunta del
modelo resultante (3.26) y el teorema de Bayes (3.16).
3.10 Se ha preguntado a cinco expertos humanos diferentes el valor de las
siguientes probabilidades en el orden indicado:
p(a), p(b), p(c), p(a, b), p(a, c), p(b, c), y p(a, b, c).
Los datos se dan en la Tabla 3.19. Usando los resultados de la Secci´ on
3.7, determinar si la informaci´ on dada por los expertos es coherente.
3.11 En el Ejemplo 3.9, se han dado las restricciones necesarias para con-
trolar la coherencia en los casos en que se tienen dos conjuntos A y
B. Ahora, consid´erense tres conjuntos A, B y C y sea
L
1
= max¦ 0, p(A) +p(B) −1 ¦,
U
1
= min¦ p(A), p(B) ¦,
L
2
= max¦ 0, p(A) +p(C) −1 ¦,
U
2
= min¦ p(A), p(C) ¦,
L
3
= max¦ 0, p(A∩ B) +p(A∩ C) −p(A), p(B) +p(C) −1,
p(A) +p(B) +p(C) −1 −p(A∩ B) −p(A∩ C) ¦,
U
3
= min¦ p(C), p(B), p(C) −p(A∩ C) +p(A∩ B),
p(B) −p(A∩ B) +p(A∩ C) ¦,
L
4
= max¦ 0, p(A∩ B) +p(A∩ C) −p(A), p(A∩ B) +p(B ∩ C),
−p(B), p(A∩ C) +p(B ∩ C) −p(C) ¦,
U
4
= min¦ p(A∩ B), p(A∩ C), p(B ∩ C),
p(A) +p(B) +p(C) −p(A∩ B) −p(A∩ C) −p(B ∩ C) −1 ¦.
3.8 Comparando los dos Tipos de Sistemas Expertos 113
Mostrar que en este caso se necesitan las siguientes restricciones para
obtener probabilidades coherentes:
(a) 0 ≤ p(A) ≤ 1, (b) 0 ≤ p(B) ≤ 1,
(c) 0 ≤ p(C) ≤ 1, (d) L
1
≤ p(A∩ B) ≤ U
1
,
(e) L
2
≤ p(A∩ C) ≤ U
2
, (f) L
3
≤ p(B ∩ C) ≤ U
3
,
(g) L
4
≤ p(A∩ B ∩ C) ≤ U
4
.
3.12 Sup´ ongase que se quieren clasificar cuatro objetos: cometa, p´ajaro,
avi´ on, y hombre, bas´ andose en las siguientes caracter´ısticas (varia-
bles) binarias: Vuela (si el objeto vuela), Motor (si el objeto tiene), y
Sangre (si el objeto tiene sangre). Tambi´en pueden identificarse otros
objetos mediante estas variables.
(a) Dise˜ nar un sistema experto probabil´ıstico para resolver este pro-
blema de clasificaci´on.
(b) ¿Cu´ al de los sistemas expertos es el m´as eficiente en este caso?
3.13 Dise˜ nar un sistema experto probabil´ıstico para ayudar a los alumnos
a elegir la carrera universitaria. Proceder como sigue:
(a) Seleccionar un conjunto de m = 10 carreras ¦X
1
, . . . , X
10
¦.
(b) Seleccionar un conjunto de n = 5 indicadores apropiados (ha-
bilidades o capacidades) ¦Y
1
, . . . Y
5
¦ que puedan ser utilizadas
para seleccionar la carrera.
(c) Estimar las probabilidades “a priori” p(x
i
), i = 1, . . . , 10 por la
proporci´ on de estudiantes en cada una de las carreras.
(d) Especificar las verosimilitudes p(y
j
[x
i
) para cada carrera X
i
y
cada indicador Y
j
eligiendo valores razonables. N´ otese que las
probabilidades “a priori” y las verosimilitudes constituyen el
conocimiento.
(e) Util´ıcese el teorema de Bayes y las f´ormulas de este cap´ıtulo para
dise˜ nar el motor de inferencia.
3.14 Dise˜ nar un sistema experto basado en reglas para ayudar a los alum-
nos a elegir la carrera universitaria. Proceder como sigue:
(a) Seleccionar un conjunto de m = 10 carreras ¦X
1
, . . . , X
10
¦.
(b) Seleccionar un conjunto de n = 5 indicadores apropiados (ha-
bilidades o capacidades) ¦Y
1
, . . . Y
5
¦ que puedan ser utilizadas
para seleccionar la carrera.
(c) Elegir un conjunto razonable de reglas que relacionen las capaci-
dades/habilidades y las carreras.
(d) Utilizar las estrategias de inferencia y, en particular, el encade-
namiento de reglas para dise˜ nar el motor de inferencia.
114 3. Sistemas Expertos Basados en Probabilidad
Comparar este sistema experto con el del ejercicio anterior. ¿Cu´al de
ellos es el m´as eficiente en este caso?
This is page 115
Printer: Opaque this
Cap´ıtulo 4
Algunos Conceptos sobre Grafos
4.1 Introducci´ on
En este cap´ıtulo se presentan algunos conceptos sobre la teor´ıa de grafos
que son necesarios en el resto del libro. Como ya se ha podido observar
en los cap´ıtulos anteriores, los grafos son herramientas muy ´ utiles para
definir sistemas expertos y otros modelos utilizados en el ´area de la in-
teligencia artificial. Muchos de los resultados te´ oricos de la teor´ıa de grafos
pueden ser utilizados para analizar diversos aspectos de estos campos. Los
lectores familiarizados con los conceptos elementales de la teor´ıa de grafos
pueden saltar directamente a la Secci´ on 5. Por otra parte, aquellos lec-
tores que deseen profundizar en los conceptos introducidos, u obtener las
demostraciones de algunos de los resultados aqu´ı presentados, pueden con-
sultar libros espec´ıficos de este tema como, por ejemplo, Harary (1969),
Berge (1973), Bondy y Murty (1976), Golumbic (1980), Liu (1985), Ross y
Wright (1988), y Biggs (1989).
Este cap´ıtulo est´ a estructurado de la siguiente forma. En la Secci´ on 4.2 se
introducen algunos conceptos b´ asicos y definiciones. Las Secciones 4.3 y 4.4
presentan los dos tipos b´ asicos de grafos utilizados en este libro, los grafos
no dirigidos y dirigidos, respectivamente, as´ı como sus caracter´ısticas prin-
cipales. Un tipo especial de grafos con m´ ultiples aplicaciones, los grafos
triangulados, se analiza en la Secci´on 4.5. Por otra parte, la Secci´ on 4.6
introduce el concepto de grafos de aglomerados (grafos de conglomerados,
grafos de uni´ on, y grafos de familias), que se construyen agrupando con-
juntos de nodos con ciertas caracter´ısticas comunes en un grafo dado. En
F
C
D
B
A
G
E
116 4. Algunos Conceptos sobre Grafos
la Secci´on 4.7 se presentan, desde un punto de vista te´ orico y algor´ıtmico,
distintas formas de representaci´ on de un grafo (representaci´ on simb´ olica,
gr´ afica, y num´erica). Finalmente, en la Secci´ on 4.8 se introducen diversos
algoritmos para el an´ alisis de la estructura topol´ ogica de un grafo.
4.2 Conceptos B´asicos y Definiciones
Sup´ ongase un conjunto de objetos X = ¦X
1
, X
2
, . . . , X
n
¦ que pueden rela-
cionarse entre s´ı. El conjunto X puede ser representado gr´ aficamente por
una colecci´on de nodos o v´ertices, asociando un nodo a cada elemento de X.
Estos nodos pueden conectarse por aristas, indicando las relaciones exis-
tentes entre los mismos. Una arista entre los nodos X
i
y X
j
se denotar´a
mediante L
i j
. As´ı mismo, el conjunto de todas las aristas se denotar´ a por
L = ¦L
ij
[ X
i
y X
j
est´an conectados¦. Por tanto, un grafo puede definirse
de forma intuitiva mediante el conjunto de nodos, X, y las relaciones en-
tre los mismos, L. En el siguiente ejemplo se ilustra esta idea intuitiva. A
continuaci´ on se introduce una definici´ on formal.
Ejemplo 4.1 Grafos. La Figura 4.1 es un ejemplo de un grafo compuesto
de seis nodos X = ¦A, B, . . . , G¦ y de un conjunto de seis aristas,
L = ¦L
AB
, L
AC
, L
BD
, L
C E
, L
DF
, L
DG
¦.
Los nodos est´an representados por c´ırculos y las aristas por l´ıneas que unen
los nodos correspondientes.
FIGURA 4.1. Ejemplo de un grafo o red.
Definici´on 4.1 Grafo o Red. Un grafo es un par de conjuntos G =
(X, L), donde X = ¦X
1
, X
2
, . . . , X
n
¦ es un conjunto finito de elementos
(a)
H
(b)
D
E
A
B
A
D F
E
B
C C
F
G
4.2 Conceptos B´asicos y Definiciones 117
(nodos), y L es un conjunto de aristas, es decir, un subconjunto de pares or-
denados de elementos distintos de X. Los t´erminos grafo y red se emplear´ an
como sin´ onimos en este libro.
El concepto de grafo puede definirse de forma m´ as general. Por ejemplo,
puede permitirse que dos nodos est´en conectados por m´as de una arista,
o incluso que un nodo est´e conectado consigo mismo. Sin embargo, en el
campo de los sistemas expertos, los grafos se utilizan para representar un
conjunto de variables proposicionales (nodos), y unas relaciones de depen-
dencia entre ellas (aristas). Por tanto, no es necesario que dos nodos est´en
unidos por m´ as de una arista, o que una arista una un nodo consigo mismo.
Las aristas de un grafo pueden ser dirigidas o no dirigidas, dependiendo
de si se considera o no, el orden de los nodos. En la pr´ actica, esta distinci´on
depender´ a de la importancia del orden en que se relacionen los objetos.
Definici´on 4.2 Arista dirigida. Dado un grafo G = (X, L), si L
i j
∈ L
y L
j i
/ ∈ L, la arista L
i j
entre los nodos X
i
y X
j
se denomina dirigida y
se denota mediante X
i
→X
j
.
Definici´on 4.3 Arista no dirigida. Dado un grafo G = (X, L), si L
i j

L y L
j i
∈ L, la arista L
i j
se denomina no dirigida y se denota mediante
X
i
−X
j
o X
j
−X
i
.
Definici´on 4.4 Grafo dirigido y no dirigido. Un grafo en el cual todas
las aristas son dirigidas se denomina grafo dirigido, y un grafo en el que
todas sus aristas son no dirigidas se denomina no dirigido.
Por tanto, en un grafo dirigido es importante el orden del par de nodos que
definen cada arista, mientras que en un grafo no dirigido, el orden carece
de importancia.
FIGURA 4.2. Ejemplos de un grafo dirigido (a), y uno no dirigido (b).
Ejemplo 4.2 Grafos dirigidos y no dirigidos. En las Figuras 4.2(a) y
4.2(b) se muestran ejemplos de un grafo dirigido y de un grafo no dirigido,
118 4. Algunos Conceptos sobre Grafos
respectivamente. El grafo de la Figura 4.2(a) est´ a definido por:
X = ¦A, B, C, D, E, F¦,
L = ¦A →D, B →C, D →B, F →D, D →E, E →F¦,
mientras que para el grafo de la Figura 4.2(b) se tiene
X = ¦A, B, C, D, E, F, G, H¦,
L = ¦A−B, B −C, C −D, D −E, E −A, E −F, F −G, G−D, D −H¦.
Definici´on 4.5 Conjunto adyacente. Dado un grafo G = (X, L) y un
nodo X
i
, el conjunto adyacente del nodo X
i
es el conjunto de nodos que son
directamente alcanzables desde X
i
, es decir, Ady(X
i
) = ¦X
j
∈ X[ L
i j

L¦.
Esta definici´ on proporciona una descripci´ on alternativa de un grafo me-
diante un conjunto de nodos, X, y los conjuntos adyacentes de cada uno
de los nodos en X; es decir, el grafo (X, L) puede ser representado de
forma equivalente mediante (X, Ady), donde X = ¦X
1
, . . . , X
n
¦ es el con-
junto de nodos y Ady = ¦Ady(X
1
), . . . , Ady(X
n
)¦ es la lista de conjuntos
adyacentes. Como se ver´a m´as adelante, en la Secci´on 4.8, esta forma de
representaci´on de un grafo es muy conveniente desde un punto de vista
computacional.
Ejemplo 4.3 Conjuntos adyacentes. El grafo dirigido dado en la
Figura 4.2(a) tiene asociados los siguientes conjuntos de nodos adyacentes:
Ady(A) = ¦D¦, Ady(B) = ¦C¦, Ady(C) = φ,
Ady(D) = ¦B, E¦, Ady(E) = ¦F¦, Ady(F) = ¦D¦.
Por otra parte, los conjuntos adyacentes del grafo no dirigido de la Figura
4.2(b) son:
Ady(A) = ¦B, E¦, Ady(B) = ¦A, C¦,
Ady(C) = ¦B, D¦, Ady(D) = ¦C, E, G, H¦,
Ady(E) = ¦A, D, F¦, Ady(F) = ¦E, G¦,
Ady(G) = ¦D, F¦, Ady(H) = ¦D¦.
Por tanto, los grafos mostrados en la Figura 4.2 pueden ser definidos de
forma equivalente por (X, L) o por (X, Ady).
El conjunto adyacente de un nodo X
i
contiene los nodos que son directa-
mente alcanzables desde X
i
. Por tanto, comenzando en un nodo dado y
pasando de forma sucesiva a uno de sus nodos adyacentes, se puede formar
un camino a trav´es del grafo. Como se ver´a m´as adelante, el concepto de
camino entre dos nodos juega un papel central en la teor´ıa de grafos.
4.2 Conceptos B´asicos y Definiciones 119
Definici´on 4.6 Camino entre dos nodos. Un camino del nodo X
i
al
nodo X
j
es un sucesi´ on de nodos (X
i
1
, . . . , X
i
r
), comenzando en X
i
1
= X
i
y finalizando en X
i
r
= X
j
, de forma que existe una arista del nodo X
i
k
al
nodo X
i
k+1
, k = 1, . . . , r −1, es decir,
X
i
k+1
∈ Ady(X
i
k
), k = 1, . . . , r −1.
La longitud del camino, (r − 1), se define como el n´ umero de aristas que
contiene.
En el caso de grafos no dirigidos, un camino (X
i
1
, . . . , X
i
r
) puede repre-
sentarse mediante X
i
1
−. . . −X
i
r
, indicando el car´ acter no dirigido de las
aristas. De modo similar, otra forma de representar un camino en un grafo
dirigido es mediante X
i
1
→. . . →X
i
r
.
Ejemplo 4.4 Caminos. Consid´erese el grafo dirigido dado en la Figura
4.2(a). Existe un ´ unico camino de longitud 2 de D a F en este grafo,
D → E → F. Por otra parte, existe un camino de A a B de longitud
2, A → D → B, y otro de longitud 5, A → D → E → F → D → B.
Obs´ervese que, por el contrario, no existe ning´ un camino de B a A. Por
otra parte, existe al menos un camino entre cada par de nodos del grafo no
dirigido de la Figura 4.2(b). Por ejemplo, algunos de los caminos entre A
a H son
A−E −D −H, de longitud 3,
A−B −C −D −H, de longitud 4, y
A−E −F −G−D −H, de longitud 5.
N´otese que en un grafo dirigido han de tenerse en cuenta las direcciones
de las aristas para formar un camino. Por ejemplo, en el grafo dirigido de
la Figura 4.2(a) existe un camino de A a C (A → D → B → C), pero no
existe ning´ un camino que una los nodos en sentido inverso.
Definici´on 4.7 Camino cerrado. Un camino (X
i
1
, . . . , X
i
r
) se dice que
es cerrado si el nodo inicial coincide con el final, es decir, X
i
1
= X
i
r
.
Ejemplo 4.5 Caminos cerrados. El camino D → G → F → D en
el grafo dirigido de la Figura 4.3(a) es un camino cerrado. El grafo no
dirigido dado en la Figura 4.3(b) contiene varios caminos cerrados como,
por ejemplo, el camino A−B −C −D −E −A.
Si un camino contiene un nodo m´ as de una vez, entonces el camino contiene
un subcamino cerrado. Por ejemplo, en el grafo de la Figura 4.3(b), el
camino C − D − E − F − G − D − H contiene dos veces el nodo D. Por
tanto, este camino ha de contener un subcamino cerrado: D−E−F−G−D.
Eliminando este camino cerrado, se puede hallar un camino m´ as corto entre
los nodos extremos, C −D −H.
(a)
H
(b)
D
E
A
B
A
D F
G
B
C C
F
G
A
B C
D E
120 4. Algunos Conceptos sobre Grafos
FIGURA 4.3. Ejemplos de caminos cerrados en un grafo dirigido (a) y en un
grafo no dirigido (b).
4.3 Caracter´ısticas de los Grafos no Dirigidos
En esta secci´on se presentan algunas caracter´ısticas propias de los grafos
no dirigidos. Un estudio similar para el caso de los grafos dirigidos se
presentar´ a en la Secci´on 4.4.
4.3.1 Definiciones y Conceptos B´asicos
Definici´on 4.8 Grafo completo. Un grafo no dirigido se denomina com-
pleto si contiene una arista entre cada par de nodos.
Por tanto, existe un ´ unico grafo completo de n nodos. Este grafo se denota
por K
n
. Por ejemplo, la Figura 4.4 muestra una representaci´ on gr´ afica de
K
5
.
FIGURA 4.4. Grafo completo de cinco nodos.
Definici´on 4.9 Conjunto completo. Un subconjunto de nodos S de un
grafo G se denomina completo si existe una arista en G para cada par de
nodos en S.
H
D
E
A
B
C
F
G
H
D
E
A
B
C
F
G
(a) (b)
4.3 Caracter´ısticas de los Grafos no Dirigidos 121
Una consecuencia inmediata de esta definici´on es que cualquier par de no-
dos adyacentes en un grafo forma un conjunto completo. Por ejemplo, el
grafo de la Figura 4.3(b) no contiene conjuntos completos con m´ as de dos
nodos. Por el contrario, el grafo mostrado en la Figura 4.5(a) contiene dos
subconjuntos completos de tres nodos: ¦D, E, G¦ y ¦E, F, G¦.
Los conjuntos completos maximales de un grafo desempe˜ nan un paper
fundamental en la caracterizaci´ on de su estructura topol´ ogica.
Definici´on 4.10 Conglomerado. Un conjunto completo de nodos C se
denomina un conglomerado si no es subconjunto propio de otro conjunto
completo, es decir, si es maximal.
Ejemplo 4.6 Conglomerados. El grafo mostrado en la Figura 4.5(a)
contiene los siguientes conglomerados: C
1
= ¦A, B¦, C
2
= ¦B, C¦, C
3
=
¦C, D¦, C
4
= ¦D, H¦, C
5
= ¦D, E, G¦, C
6
= ¦E, F, G¦ y C
7
= ¦A, E¦. Sin
embargo, si se a˜ nade alguna arista al grafo, alguno de estos conglomerados
ya no ser´ a un conjunto maximal y el conjunto de conglomerados del nuevo
grafo ser´ a distinto. Por ejemplo, en el grafo de la Figura 4.5(b), obtenido
a˜ nadiendo tres aristas al grafo de la Figura 4.5(a), los conjuntos C
1
, C
2
,
C
3
y C
7
ya no son completos. El nuevo grafo contiene solamente cinco
conglomerados: C
1
= ¦A, B, D, E¦, C
2
= ¦B, C, D¦, C
3
= ¦D, H¦, C
4
=
¦D, E, G¦, y C
5
= ¦E, F, G¦.
FIGURA 4.5. Ejemplo de los conglomerados asociados a dos grafos distintos.
Definici´on 4.11 Bucle. Un bucle es un camino cerrado en un grafo no
dirigido.
Ejemplo 4.7 Bucle. Consid´erese el grafo no dirigido mostrado en la
Figura 4.5(b). El camino cerrado A −B −C −D −E −A es un bucle de
longitud 5. Obs´ervese que si en un bucle se reemplaza un camino entre dos
nodos por un camino alternativo, se obtiene un nuevo bucle. Por ejemplo, si
se reemplaza la arista D−E por el camino D−G−F−E en el bucle anterior,
se obtiene un nuevo bucle de longitud 7: A−B−C−D−G−F −E−A.
H
D
E
A
B
C
F
G
122 4. Algunos Conceptos sobre Grafos
Definici´on 4.12 Vecinos de un nodo. El conjunto de nodos adyacentes
a un nodo X
i
en un grafo no dirigido se denomina conjunto de vecinos de
X
i
, V ec(X
i
) = ¦X
j
[ X
j
∈ Ady(X
i
)¦.
N´otese que en el caso de grafos no dirigidos, el conjunto de nodos adyacentes
a un nodo dado coincide con el conjunto de vecinos de dicho nodo. Por
ejemplo, los nodos sombreados, ¦A, D, F¦, en la Figura 4.6 son los vecinos
del nodo E.
FIGURA 4.6. Conjunto de vecinos del nodo E.
Definici´on 4.13 Frontera de un conjunto de nodos. La uni´ on de los
conjuntos de vecinos de los nodos de un conjunto dado, S, excluyendo los
nodos de S, se denomina la frontera de S y se denota por Frn(S).
Frn(S) =

¸
X
i
∈S
V ec(X
i
)

` S,
donde X ` S es el conjunto de nodos de X excluyendo los de S.
Por ejemplo, los nodos sombreados en la Figura 4.7, ¦A, C, F, G, H¦, son
la frontera del conjunto ¦D, E¦.
En el caso de que S contenga un ´ unico nodo, la frontera se reduce al
conjunto de vecinos.
4.3.2 Tipos de Grafos no Dirigidos
En muchas situaciones pr´ acticas es importante conocer si existe un camino
entre un par de nodos dados. Por ejemplo, en el campo de los sistemas
expertos, los grafos se utilizan para representar relaciones de dependencia
entre las variables que componen el sistema. En estos casos, es muy ´ util
conocer el n´ umero de posibles caminos entre dos nodos, a efectos de enten-
der la estructura de dependencia contenida en el grafo. Desde este punto
de vista, una clasificaci´ on ´ util de los grafos debe tener en cuenta el n´ umero
de caminos distintos existentes entre cada par de nodos.
H
D
E
A
B
C
F
G
(b)
A
B
C D
E
F
(a)
A
B
C D
E
F
4.3 Caracter´ısticas de los Grafos no Dirigidos 123
FIGURA 4.7. Frontera del conjunto {D, E}.
Definici´on 4.14 Grafos conexos no dirigidos. Un grafo no dirigido
se denomina conexo si existe al menos un camino entre cada par de nodos.
En caso contrario, el grafo se denomina inconexo.
Por ejemplo, el grafo de la Figura 4.7 es un grafo conexo. Sin embargo, el
grafo representado en la Figura 4.8 es inconexo pues, por ejemplo, no existe
ning´ un camino entre los nodos A y F. Obs´ervese que el grafo mostrado en la
Figura 4.8(a) parece conexo a primera vista, pues las aristas se cruzan ocul-
tando este hecho. Esta caracter´ıstica se refleja de forma m´as directa en la
representaci´on gr´ afica de la Figura 4.8(b). El problema de la representaci´ on
gr´ afica de un grafo se analiza en detalle en la Secci´ on 4.7.
FIGURA 4.8. Dos representaciones distintas del mismo grafo inconexo.
Un grafo inconexo puede dividirse en un conjunto de grafos conexos lla-
mados componentes conexas. Por ejemplo, el grafo inconexo anterior con-
tiene las componentes conexas ¦A, C, E¦ y ¦B, D, F¦. Este hecho hace que,
en la pr´ actica, se suponga que los grafos son conexos pues, en caso con-
trario, podr´ıa argumentarse sobre cada una de las componentes conexas
del grafo de forma an´ aloga. En la Secci´ on 4.8 se desarrollar´ a un algoritmo
124 4. Algunos Conceptos sobre Grafos
para determinar si un grafo es conexo, y calcular sus componentes conexas,
caso de no serlo.
La complejidad topol´ ogica de un grafo aumenta con el n´ umero de caminos
distintos entre dos nodos. Por tanto, adem´ as de considerar la existencia de
un camino entre dos nodos, se ha de considerar tambi´en el n´ umero de
caminos posibles.
Definici´on 4.15
´
Arbol. Un grafo conexo no dirigido se denomina un
´arbol si existe un ´ unico camino entre cada par de nodos.
De la definici´ on anterior se deduce que un ´ arbol es un grafo conexo, pero
si se elimina una cualquiera de sus aristas, el grafo se vuelve inconexo. De
forma similar, se puede deducir que un ´ arbol no contiene bucles, pero si se
a˜ nade una arista cualquiera al grafo se forma un bucle.
La Figura 4.9(a) muestra un ejemplo de un ´ arbol. Obs´ervese que la e-
liminaci´ on de una cualquiera de sus aristas divide al grafo en dos partes
inconexas. Por otra parte, si se a˜ nade al grafo una arista cualquiera, como
se indica en la Figura 4.9(b), se crear´ a un bucle en el grafo y ´este ya no
ser´a un ´ arbol.
Definici´on 4.16 Grafo m´ ultiplemente conexo. Un grafo conexo se
denomina m´ ultiplemente conexo si contiene al menos un par de nodos que
est´en unidos por m´ as de un camino o, equivalentemente, si contiene al
menos un bucle.
N´otese que si un grafo contiene dos caminos distintos entre un par de
nodos, ´estos pueden combinarse para formar un bucle. Por tanto, las dos
definiciones anteriores son efectivamente equivalentes. Por ejemplo, el grafo
de la Figura 4.9(b) es m´ ultiplemente conexo, pues existen los caminos D−
E −G−J y D−F −H −J que unen los nodos D y J. Estos dos caminos
forman el bucle D −E −G−J −H −F −D.
Los distintos tipos de grafos no dirigidos introducidos en esta secci´ on se
muestran de forma esquem´atica en la Figura 4.10.
4.4 Caracter´ısticas de los Grafos Dirigidos
En esta secci´on se describen las principales caracter´ısticas de los grafos
dirigidos.
4.4.1 Definiciones y Conceptos B´asicos
Definici´on 4.17 Padre e hijo. Cuando existe una arista dirigida, X
i

X
j
, del nodo X
i
al nodo X
j
, entonces se dice que el nodo X
i
es un padre
del nodo X
j
, y que el nodo X
j
es un hijo de X
i
.
(b) (a)
A B
C D
E F
G H
I J
A B
C D
E F
G H
I J
Grafos no
Dirigidos
Conexos Inconexos
Árboles
Múltiplemente
Conexos
A B
C D
E F
A B
C D
E F A B
C D
E F
4.4 Caracter´ısticas de los Grafos Dirigidos 125
FIGURA 4.9. Ejemplo de un ´arbol (a) y de un grafo m´ ultiplemente conexo (b).
FIGURA 4.10. Tipos de grafos no dirigidos.
El conjunto de los padres de un nodo X
i
se denota mediante Π
X
i
o sim-
plemente Π
i
. Por ejemplo, los nodos C y D son los padres del nodo E en
el grafo de la Figura 4.11. En un grafo dirigido, el conjunto de hijos de un
nodo coincide con el conjunto de nodos adyacentes.
A B
C D
E F
G H
I J
A B
C D
E F
G H
I J
126 4. Algunos Conceptos sobre Grafos
FIGURA 4.11. Padres e hijos del nodo E.
Definici´on 4.18 Familia de un nodo. El conjunto formado por un nodo
y sus padres se denomina la familia del nodo.
Por ejemplo, las distintas zonas sombreadas en el grafo de la Figura 4.12
muestran las distintas familias asociadas a este grafo. En este ejemplo se
pueden observar familias con uno, dos y tres nodos. Las familias de un grafo
jugar´ an un papel muy importante en los cap´ıtulos posteriores, pues la es-
tructura de dependencias codificada en un grafo dirigido podr´ a trasladarse
a una funci´ on de probabilidad definiendo distribuciones de probabilidad
locales sobre cada familia del grafo.
FIGURA 4.12. Familias asociadas a los nodos de un grafo.
A B
C D
E F
G H
I J
Ascendientes
Descendientes
4.4 Caracter´ısticas de los Grafos Dirigidos 127
Definici´on 4.19 Ascendientes de un nodo. Un nodo X
j
se denomina
ascendiente del nodo X
i
si existe un camino de X
j
a X
i
.
Definici´on 4.20 Conjunto ancestral. Un conjunto de nodos S se de-
nomina un conjunto ancestral si contiene los ascendientes de todos sus
nodos.
Definici´on 4.21 Descendientes de un nodo. Un nodo X
j
se denomina
descendiente del nodo X
i
si existe un camino de X
i
a X
j
.
La Figura 4.13 muestra los conjuntos de ascendientes y descendientes del
nodo E.
FIGURA 4.13. Ascendientes y descendientes del nodo E.
Hasta ahora se han analizado distintos atributos de los nodos de un grafo
referidos a su relaci´ on de dependencia con el resto de los nodos (padres,
hijos, familia, etc.). En ocasiones esta estructura de dependencia, u otras
propiedades topol´ ogicas del grafo, pueden plasmarse de forma global en
una ordenaci´ on de los nodos X = ¦X
1
, . . . , X
n
¦.
Definici´on 4.22 Ordenaci´on. Dado un conjunto X = ¦X
1
, . . . , X
n
¦ de
nodos, una ordenaci´on, α, es una biyecci´ on que asigna un n´ umero del
conjunto ¦1, . . . , n¦ a cada nodo:
α : ¦1, . . . , n¦ −→¦X
1
, . . . , X
n
¦.
Por tanto, α(i) denota el i-´esimo nodo de la numeraci´ on. Una numeraci´ on
puede representarse mediante la sucesi´ on ordenada de nodos (α(1), . . . , α(n)).
A B
C D
E F
G H
I J
1 2
3 4
5 6
7
9
8
10
(a)
A B
C D
E F
G H
I J
1 2
3 5
6 7
8
9
4
10
(b)
128 4. Algunos Conceptos sobre Grafos
Una numeraci´ on de los nodos que muestra la estructura de ascendientes-
descendientes de forma global es la numeraci´ on ancestral.
Definici´on 4.23 Numeraci´on ancestral. Una numeraci´ on de los nodos
de un grafo dirigido se denomina ancestral si el n´ umero correspondiente a
cada nodo es menor que los correspondientes a sus hijos.
Por ejemplo, las dos numeraciones mostradas en las Figuras 4.14 son dos
numeraciones ancestrales distintas del mismo grafo. Por tanto, este tipo
de numeraci´ on no es necesariamente ´ unica. Por otra parte, existen grafos
dirigidos que no admiten ninguna numeraci´ on ancestral. Este problema se
analiza en detalle, desde un punto de vista te´ orico y algor´ıtmico, en la
Secci´on 4.7.1.
FIGURA 4.14. Dos numeraciones ancestrales del mismo grafo.
Un grafo dirigido puede convertirse de forma sencilla a un grafo no
dirigido, sin m´ as que eliminar la direccionalidad de sus aristas.
1
Definici´on 4.24 Grafo no dirigido asociado a un grafo dirigido.
Dado un grafo dirigido, el grafo no dirigido obtenido al reemplazar cada
arista dirigida del grafo por la correspondiente arista no dirigida se deno-
mina el grafo no dirigido asociado.
1
Obs´ervese que el problema inverso es m´as complejo pues existen dos alter-
nativas para orientar una arista X
i
− X
j
: X
i
→ X
j
o X
j
→ X
i
. Por tanto, se
pueden definir varios grafos dirigidos asociados a un mismo grafo no dirigido (una
discusi´on m´as detallada de este problema se presenta en Ross y Wright (1988)).
(c) (a)
A B
C D
E F
G H
I J
(b)
A B
C D
E F
G H
I J
A B
C D
E F
G H
I J
4.4 Caracter´ısticas de los Grafos Dirigidos 129
Por ejemplo, el grafo de la Figura 4.15(b) es el grafo no dirigido asociado
al grafo dirigido de la Figura 4.15(a).
FIGURA 4.15. Ejemplo de un grafo dirigido (a), el grafo no dirigido asociado (b),
y el grafo moralizado (c).
Definici´on 4.25 Grafo moral. El grafo no dirigido asociado al grafo di-
rigido que se obtiene al a˜ nadir una arista entre cada par de nodos con alg´ un
hijo com´ un en un grafo no dirigido, se denomina el grafo moral asociado a
dicho grafo.
Por ejemplo, el la Figura 4.15(c) muestra el grafo moral correspondiente al
grafo de la Figura 4.15(a). Cada par de nodos (A, B), (C, D) y (G, H) tienen
un hijo com´ un en este grafo. Por tanto, el grafo moral asociado se forma
a˜ nadiendo las tres aristas indicadas con l´ınea discontinua y eliminando la
direccionalidad de todas las aristas.
Los caminos cerrados reciben dos nombres distintos en un grafo diridido,
seg´ un se tenga en cuenta o no la direccionalidad de las aristas. Cuando un
camino cerrado est´a definido en el grafo dirigido original se denomina un
ciclo; en cambio, cuando se define sobre el grafo no dirigido asociado, se
denomina bucle (ver Secci´ on 4.3).
Definici´on 4.26 Ciclo. Un ciclo es un camino cerrado en un grafo
dirigido.
Ejemplo 4.8 Bucles y ciclos. La Figura 4.16(a) muestra un grafo di-
rigido que contiene un s´ olo ciclo: D →G →F →D. Sin embargo, el grafo
no dirigido asociado contiene dos bucles: D−G−F −D y A−B−D−A.
(a)
A
D F
G
B
C
(b)
A
D F
G
B
C
130 4. Algunos Conceptos sobre Grafos
FIGURA 4.16. Bucles y ciclos de un grafo dirigido.
4.4.2 Tipos de Grafos Dirigidos
Definici´on 4.27 Grafos dirigidos conexos. Un grafo dirigido se deno-
mina conexo si el grafo no dirigido asociado es conexo; en caso contrario
se denomina inconexo.
Definici´on 4.28
´
Arboles y grafos m´ ultiplemente conexos. Un grafo
dirigido conexo se denomina ´ arbol si el grafo no dirigido asociado es un
´arbol; en caso contrario se denomina m´ ultiplemente conexo.
Definici´on 4.29 Grafos c´ıclicos y ac´ıclicos. Un grafo dirigido se deno-
mina c´ıclico si contiene al menos un ciclo; en caso contrario se denomina
grafo dirigido ac´ıclico.
Los grafos dirigidos ac´ıclicos jugar´ an un papel muy importante en cap´ıtulos
posteriores, pues ser´an la base para construir los modelos probabil´ısticos
conocidos como Redes Bayesianas.
Dentro de los grafos dirigidos, los ´ arboles suelen clasificarse en dos tipos,
dependiendo del n´ umero de aristas que convergen en un mismo nodo.
Definici´on 4.30 Grafos simples y poli´arboles. Un ´arbol dirigido se
denomina un ´arbol simple si cada nodo tiene como m´ aximo un padre; en
caso contrario se denomina un poli´ arbol.
La Figura 4.17 muestra un ejemplo de un ´ arbol simple y un ejemplo de
un poli´ arbol. La Figura 4.18 muestra un grafo c´ıclico y uno m´ ultiplemente
conexo. La Figura 4.19 muestra de modo esquem´ atico estos tipos de grafos
dirigidos.
(b)
A B
C D
E F
G H
I J
A
D
E F
G
I J
(a)
(b)
A B
C D
E F
G H
I J
A B
C D
E F
G H
I J
(a)
4.5 Grafos Triangulados 131
FIGURA 4.17. Ejemplos de grafos dirigidos: ´arbol simple (a) y poli´arbol (b).
FIGURA 4.18. Ejemplos de grafos dirigidos: grafo c´ıclico (a) y m´ ultiplemente
conexo (b).
4.5 Grafos Triangulados
Los grafos triangulados son un tipo especial de grafos no dirigidos que
tienen muchas aplicaciones pr´ acticas interesantes en varios campos. Por
ejemplo, en el Cap´ıtulo 6 se ver´ a que este tipo de grafos constituyen la es-
Árboles
Múltiplemente
Conexos
Grafos
Dirigidos
Conexos Inconexos
Cíclicos
Acíclicos
A B
C D
E F
Poliárboles
Árboles
Simples
A B
C D
E F
A B
C D
E F
A
C D
E F
A B
C D
E F
132 4. Algunos Conceptos sobre Grafos
FIGURA 4.19. Tipos de grafos dirigidos.
tructura gr´ afica del tipo de modelos probabil´ısticos conocidos como modelos
descomponibles (Lauritzen, Speed y Vijayan (1984)). Los grafos triangula-
dos tambi´en reciben el nombre de circuitos r´ıgidos (Dirac (1961)) y grafos
cordales (Gavril (1972, 1974)).
Esta secci´on introduce los grafos triangulados, as´ı como una serie de
algoritmos para comprobar si un grafo es triangulado y c´ omo triangularlo
en caso de que no lo sea.
Definici´on 4.31 Cuerda de un bucle. Una cuerda es una arista que
une dos nodos de un bucle y que no pertenece al bucle.
Por ejemplo, en el grafo de la Figura 4.20, la arista E − G es una cuerda
del bucle E −F −G−D −E. Obs´ervese que la cuerda divide el bucle en
dos bucles menores: E − F − G− E y E − G− D − E. Por otra parte, el
bucle A−B −C −D −E −A no contiene ninguna cuerda.
Dada su estructura, los bucles de longitud 3 son los ´ unicos que no pueden
poseer cuerdas. Por ello, estos son los menores elementos en los que puede
descomponerse un bucle mediante la incorporaci´ on de cuerdas en el grafo.
Los bucles de longitud 3 se denominan tri´ angulos.
H
D
E
A
B
C
F
G
H
D
E
A
B
C
F
G
(b)
A
B C
D E F
H I G
(a)
4.5 Grafos Triangulados 133
FIGURA 4.20. Ejemplo de un bucle con una cuerda.
Definici´on 4.32 Grafo triangulado. Un grafo no dirigido se denomina
triangulado, o cordal, si cada bucle de longitud mayor o igual que cuatro
contiene al menos una cuerda.
Ejemplo 4.9 Grafo triangulado. La Figura 4.21(a) muestra un grafo
triangulado. El grafo contiene dos bucles de longitud cuatro, A−B−E−C−
A y B−C−E−D−B, y un bucle de longitud cinco, A−B−D−E−C−A,
y cada uno de ellos tiene al menos una cuerda.
Por otra parte, el grafo de la Figura 4.21(b) no es triangulado, pues
contiene al bucle A−B−C−D−E−A, que no posee ninguna cuerda.
FIGURA 4.21. Ejemplo de grafo triangulado (a) y no triangulado (b).
Si un grafo no es triangulado, es posible convertirlo en triangulado a˜ nadiendo
cuerdas que dividan los bucles. Este proceso se denomina rellenado o tri-
angulaci´ on. Es importante destacar que triangular un grafo no consiste en
dividirlo en tri´ angulos. Por ejemplo, el grafo de la Figura 4.21(a) es trian-
gulado y, por tanto, no necesita la adici´ on de aristas extra, como aquellas
que se indican mediante l´ıneas de puntos en la Figura 4.22.
A
B C
D E F
H I G
(a) (b)
H
D
E
A
B
C
F
G
H
D
E
A
B
C
F
G
134 4. Algunos Conceptos sobre Grafos
FIGURA 4.22. Triangular no significa dividir en tri´angulos.
Puesto que un bucle puede romperse de varias formas distintas con
una cuerda, existen varias formas distintas de triangular un grafo. Por
ejemplo, los dos grafos mostrados en la Figura 4.23 corresponden a dos
triangulaciones distintas asociadas con el grafo de la Figura 4.21(b).
FIGURA 4.23. Dos triangulaciones distintas del mismo grafo. Las l´ıneas de puntos
representan las cuerdas a˜ nadidas.
Con objeto de preservar lo m´ aximo posible la topolog´ıa original del grafo
en el proceso de triangulaci´ on, es importante a˜ nadir el m´ınimo n´ umero
de aristas posible. En este sentido, una triangulaci´ on se dice minimal si
contiene un n´ umero m´ınimo de cuerdas por debajo del cual no es posible
triangular el grafo original. N´ otese que la triangulaci´ on de la Figura 4.23(a)
es minimal. En cambio la triangulaci´ on mostrada en la Figura 4.23(b) no
es minimal, pues puede eliminarse la arista A − D o la B − E y el grafo
resultante sigue siendo triangulado. El problema de calcular una triangu-
laci´on minimal es NP-complejo
2
(Yannakakis (1981)). Dada la complejidad
2
Una introducci´ on a la complejidad de algoritmos y problemas NP-complejos
puede consultarse en Garey y Johnson (1979).
A
1
B
2
C
3
D
5
E
4
F
9
H
7
I
8
G
6
A
7
B
5
C
6
D
3
E
4
F
8
H
2
I
9
G
1
(a) (b)
4.5 Grafos Triangulados 135
de este problema, han sido desarrollados varios algoritmos de ejecuci´ on en
tiempo lineal para triangular un grafo (Rose, Tarjan y Leuker (1976), Tar-
jan y Yannakakis (1984)); sin embargo, ninguno de ellos garantiza que la
triangulaci´ on resultante sea minimal. A continuaci´ on se introduce un algo-
ritmo simple llamado algoritmo de b´ usqueda de m´ axima cardinalidad (ver
Tarjan y Yannakakis (1984)). Antes son necesarias algunas definiciones.
Definici´on 4.33 Numeraci´on perfecta. Una numeraci´ on de los nodos
de un grafo, α, se denomina perfecta si el subconjunto de nodos
Frn(α(i)) ∩ ¦α(1), . . . , α(i −1)¦
es completo para i = 2, . . . , n.
Ejemplo 4.10 Numeraci´on perfecta. La Figura 4.24(a) muestra una
numeraci´ on de los nodos del grafo: α(1) = A, α(2) = B, α(3) = C, α(4) =
E, etc. A continuaci´ on se comprueba que se verifican las condiciones de
numeraci´ on perfecta:
• Para i = 2, Frn(α(2)) ∩ ¦α(1)¦ = Frn(B) ∩ ¦A¦ = ¦A, C, D, E¦ ∩
¦A¦ = ¦A¦, que es trivialmente un conjunto completo.
• Para i = 3, Frn(α(3)) ∩ ¦α(1), α(2)¦ = ¦A, B, E, F¦ ∩ ¦A, B¦ =
¦A, B¦ es completo, pues la arista A−B est´a contenida en el grafo.
• Para i = 4, Frn(α(4))∩¦α(1), α(2), α(3)¦ = ¦B, C, D, I¦∩¦A, B, C¦ =
¦B, C¦ tambi´en es completo.
De forma an´ aloga se puede comprobar que la condici´ on tambi´en se cumple
para i = 5, . . . , 9. Por tanto, α es una numeraci´ on perfecta.
FIGURA 4.24. Dos numeraciones perfectas de los nodos.
136 4. Algunos Conceptos sobre Grafos
N´otese que la numeraci´on perfecta no es necesariamente ´ unica. Por ejemplo,
la Figura 4.24(b) muestra otra numeraci´ on perfecta para el mismo grafo.
Por otra parte, tambi´en existen grafos que no admiten ninguna numeraci´ on
perfecta. Por ejemplo, el grafo de la Figura 4.21(b) no admite numeraci´ on
perfecta; la presencia de bucles sin cuerdas hace imposible la numeraci´on
perfecta de los nodos.
Tarjan y Yannakakis (1984) desarrollaron un algoritmo, r´ apido y concep-
tualmente sencillo, para comprobar si un grafo no dirigido es triangulado.
Este algoritmo, que se conoce como algoritmo de b´ usqueda de cardinalidad
m´ axima, (en ingl´es, maximum cardinality search), se basa en la b´ usqueda
de una numeraci´ on perfecta de los nodos del grafo. Este algoritmo est´ a
basado en el siguiente teorema que relaciona los conceptos de numeraci´on
perfecta y grafo triangulado (ver Fulkerson y Gross (1965), y Golumbic
(1980)).
Teorema 4.1 Triangulaci´on y numeraci´on perfecta. Un grafo no
dirigido admite una numeraci´ on perfecta si y s´ olo si es triangulado.
El algoritmo de m´ axima cardinalidad genera una numeraci´ on de los nodos
del grafo que ser´ a perfecta s´olo en caso de que el grafo est´e triangulado.
Algoritmo 4.1 B´ usqueda de m´axima cardinalidad.
• Datos: Un grafo no dirigido G = (X, L) y un nodo inicial X
i
.
• Resultado: Una numeraci´ on α de los nodos de X.
1. Iniciaci´ on: Asignar el primer n´ umero al nodo inicial, es decir, α(1) =
X
i
.
2. Repetir la etapa siguiente con i = 2, . . . , n.
3. Iteraci´ on i: En la i-´esima etapa de iteraci´on, se asigna el n´ umero i
a un nodo que no haya sido numerado previamente y que tenga el
m´aximo n´ umero de vecinos numerados. Los empates se resuelven de
forma arbitraria.
La Figura 4.25 muestra el pseudoc´ odigo para el algoritmo de m´ axima cardi-
nalidad. El siguiente teorema permite reconocer si un grafo es triangulado
utilizando el algoritmo de m´ axima cardinalidad (ver Tarjan (1983) y Tarjan
y Yannakakis (1984)).
Teorema 4.2 Numeraci´on de m´axima cardinalidad. Cualquier nu-
meraci´ on de los nodos de un grafo triangulado obtenida aplicando el algo-
ritmo de m´ axima cardinalidad es una numeraci´ on perfecta.
Por tanto, cuando la numeraci´ on generada por el Algoritmo 4.1 no sea per-
fecta, significar´ a que el grafo no ser´ a triangulado. De esta forma, se puede
4.5 Grafos Triangulados 137
B´ usqueda de M´axima Cardinalidad
Datos: Un grafo G = (X, L) y un nodo inicial X
i
Resultado: Una numeraci´ on α de los nodos en X
Etapa Inicial:
α(1) ←X
i
Numerados ←¦X
i
¦
Etapa Iterativa:
for i = 2 to n
X
k
← elige un nodo X
k
en X ` Numerados
con m´aximo [V ec(X
k
) ∩ Numerados[
α(i) ←X
k
a˜ nade X
k
a Numerados
FIGURA 4.25. Pseudoc´odigo para el algoritmo de m´axima cardinalidad.
modificar f´ acilmente el Algoritmo 4.1 para comprobar si un grafo es trian-
gulado. Cuando el grafo no sea triangulado, entonces el propio algoritmo
a˜ nade las aristas necesarias para triangularlo. Los lectores interesados en
los aspectos computacionales de este algoritmo pueden consultar las refe-
rencias Tarjan y Yannakakis (1984) o Neapolitan (1990). Una eficiente im-
plementaci´on de este algoritmo se ejecutar´a en tiempo lineal en el tama˜ no
de la red, es decir o(n+l), donde n es el n´ umero de nodos y l es el n´ umero
de aristas del grafo. Con el fin de ilustrar el funcionamiento del algoritmo,
pero sin cuidar la eficiencia de su implementaci´ on, se introduce el siguiente
algoritmo:
Algoritmo 4.2 Triangulaci´on de m´axima cardinalidad.
• Datos: Un grafo no dirigido G = (X, L) y un nodo inicial X
i
.
• Resultado: Un conjunto de nuevas aristas L

, tal que, G

= (X, L∪
L

) sea triangulado.
Etapa de Iniciaci´ on:
1. Inicialmente la nueva lista de aristas es vac´ıa, L

= φ.
2. Sea i = 1 y as´ıgnese el primer n´ umero de la numeraci´ on al nodo inicial
X
i
, es decir, α(1) = X
i
.
Etapa de Iteraci´on:
3. Se asigna el n´ umero i a un nodo X
k
no numerado con m´ aximo n´ umero
de vecinos numerados, α(i) = X
k
.
H
D
E
A
B
C
F
G
138 4. Algunos Conceptos sobre Grafos
4. Si V ec(X
k
) ∩¦α(1), . . . , α(i −1)¦ no es un conjunto completo, a˜ nadir
a L

las aristas necesarias para completar el conjunto y volver a la
Etapa 2; en caso contrario, ir a la Etapa 5.
5. Si i = n, el algoritmo finaliza; en caso contrario, asginar i = i + 1 e
ir a la Etapa 3.
Utilizando el Teorema 4.2 puede demostrarse que cuando un grafo es tri-
angulado, el conjunto de nuevas aristas L

necesarias para triangularlo
obtenidas con el Algoritmo 4.2 es vac´ıo; en caso contrario, el conjunto L

contiene las aristas necesarias para triangular el grafo.
Ejemplo 4.11 Triangulaci´on de m´axima cardinalidad. El grafo de la
Figura 4.26 no es un grafo triangulado. El Algoritmo 4.2 permite construir
una triangulaci´ on del grafo. Por ejemplo, eligiendo el nodo C como el nodo
inicial para el algoritmo se tiene:
FIGURA 4.26. Grafo no dirigido y no triangulado.
• Etapa 1: L

= φ.
• Etapa 2: Sean i = 1 y α(1) = C.
• Etapa 3: Los nodos B y D son los ´ unicos que tienen un vecino nume-
rado. Deshaciendo el empate de forma arbitraria, se elige el nodo D
y se numera con el n´ umero 2, es decir, α(2) = D.
• Etapa 4: N´ otese que, en este caso, los vecinos previamente numera-
dos forman un conjunto completo. Por tanto, no es necesario a˜ nadir
ninguna arista a L

y el algoritmo contin´ ua.
• Etapa 5: Puesto que i = n, se incrementa en una unidad el contador
i y se va a la Etapa 3.
• Etapas 3 − 5: Siguiendo un proceso similar, los nodos B y E se
numeran como 3 y 4, respectivamente.
H
D
E
A
B
C
F
G
(b) (a)
1
2
3
4
H
D
E
A
B
C
F
G
(c)
H
D
E
A
B
C
F
G
1
2
3
(d)
H
D
E
A
B
C
F
G
4.5 Grafos Triangulados 139
• Etapas 3 − 4: Los nodos con n´ umero m´aximo de vecinos numerados
son A y G. El empate se deshace eligiendo A. Sin embargo, como
puede verse en la Figura 4.27(a), el conjunto de vecinos numerados
de A, ¦B, E¦, no es un conjunto completo. Por tanto, ha de a˜ nadirse
la arista B−E (ver Figura 4.27(b)) a L

y comenzar de nuevo con la
Etapa 2. N´ otese que, ahora, L

= ¦B −E¦.
FIGURA 4.27. Numeraci´on perfecta de los nodos utilizando el algoritmo de
m´axima cardinalidad.
• Etapas 2 − 5: Los nodos C, D y B se numeran 1, 2 y 3, respectiva-
mente.
• Etapas 3−4: El nodo E posee el m´aximo n´ umero de vecinos numera-
dos, ¦B, D¦, pero este conjunto no es completo (ver Figura 4.27(c)).
Por tanto, se a˜ nade la arista B −D a L

y se comienza de nuevo con
la Etapa 2. Ahora, L

= ¦B −E, B −D¦ (ver Figura 4.27(d)).
• Etapas 2 − 5: Los nodos C, D, B, E, A, G, F y H se numeran sucesi-
vamente de 1 a 8. El grafo resultante G

= (X, L ∪ L

) es un grafo
triangulado y la numeraci´ on final mostrada en la Figura 4.28 es una
numeraci´ on perfecta.
1
2
3
4
5
6
H
D
E
A
B
C
F
G
7
8
(a) (b)
8
2
7
4
6
3
H
D
E
A
B
C
F
G
5
1
6
3
7
2
1
4
H
D
E
A
B
C
F
G
5
8
140 4. Algunos Conceptos sobre Grafos
FIGURA 4.28. Numeraci´on perfecta de los nodos utilizando el algoritmo de
m´axima cardinalidad.
N´otese que, dependiendo de la elecci´on del nodo inicial y de c´ omo se desha-
cen los empates, es posible obtener varias triangulaciones del mismo grafo.
Por ejemplo, el algoritmo de m´ axima cardinalidad puede producir las dos
numeraciones perfectas mostradas en la Figura 4.29.
FIGURA 4.29. Dos numeraciones perfectas distintas del grafo de la Figura 4.26.
Una propiedad interesante de los grafos triangulados, que resulta espe-
cialmente ´ util cuando se trabaja con las denominadas redes de Markov
(Cap´ıtulos 6 y 8), se conoce como la propiedad de intersecci´ on din´amica
(en ingl´es, running intersection property).
Definici´on 4.34 Propiedad de intersecci´on din´amica. Una nume-
raci´ on de los conglomerados de un grafo no dirigido (C
1
, . . . , C
m
) se dice
que satisface la propiedad de intersecci´ on din´amica, si el conjunto C
i

(C
1
∪ . . . ∪ C
i−1
) est´a contenido en, al menos, uno de los conglomerados
¦C
1
, . . . , C
i−1
¦, para todo i = 1, . . . , m.
Esta propiedad establece que los conglomerados de un grafo pueden ser
ordenados de tal forma que el conjunto de los nodos comunes a un con-
4.5 Grafos Triangulados 141
glomerado dado y a todos los conglomerados anteriores est´e contenido en
alguno de los conglomerados anteriores. Una sucesi´ on de conglomerados
que satisface la propiedad de intersecci´ on din´ amica se denomina una ca-
dena de conglomerados. Se puede dar el caso de grafos no dirigidos que no
poseen ninguna cadena de conglomerados y de grafos que poseen m´ as de
una. El siguiente teorema caracteriza los grafos que poseen, al menos, una
cadena de conglomerados.
Teorema 4.3 Cadena de conglomerados. Una grafo no dirigido tiene
asociada una cadena de conglomerados si y s´ olo si es triangulado.
A continuaci´ on se introduce un algoritmo para construir una cadena de con-
glomerados a partir de un grafo no dirigido. Este algoritmo est´ a basado en
el algoritmo de m´ axima cardinalidad y supone que el grafo es triangulado.
En caso contrario, el grafo puede ser previamente triangulado utilizando el
Algoritmo 4.2.
Algoritmo 4.3 Generaci´on de una cadena de conglomerados.
• Datos: Un grafo triangulado no dirigido G = (X, L).
• Resultado: Una cadena de conglomerados (C
1
, . . . , C
m
) asociada a
G.
1. Iniciaci´ on: Elegir cualquier nodo como nodo inicial y utilizar el Al-
goritmo 4.1 para obtener una numeraci´ on perfecta de los nodos,
X
1
, . . . , X
n
.
2. Determinar los conglomerados del grafo, C.
3. Asignar a cada conglomerado el m´ aximo de los n´ umeros (correspon-
dientes a la numeraci´ on perfecta) de sus nodos.
4. Ordenar los conglomerados, (C
1
, . . . , C
m
), en orden ascendente de
acuerdo a los n´ umeros asignados (deshacer empates de forma arbi-
traria).
Ejemplo 4.12 Generaci´on de una cadena de conglomerados. En
este ejemplo se aplica el Algoritmo 4.3 para generar una cadena de con-
glomerados asociada al grafo triangulado dado en la Figura 4.30(a). En
primer lugar se utiliza el Algoritmo 4.1 para obtener una numeraci´ on
perfecta de los nodos. La Figura 4.30(b) muestra los n´ umeros obteni-
dos tomando el nodo A como nodo inicial. Los conglomerados del grafo
son: C
1
= ¦A, B, C¦, C
2
= ¦B, C, E¦, C
3
= ¦B, D, E¦, C
4
= ¦C, F¦,
C
5
= ¦D, G¦, C
6
= ¦D, H¦ y C
7
= ¦E, I¦. A continuaci´ on, se asigna a
cada conglomerado el mayor de los n´ umeros que contenga. Por ejemplo,
para el caso del conglomerado C
1
, el mayor n´ umero perfecto asociado a los
nodos A, B y C es tres, que corresponde al nodo C. Por tanto, se asigna el
(b)
A
B C
D E F
H I G
(a)
A
B C
D E F
H I G
1
2 3
4 5 6
7 8 9
C
7
C
6
C
5
C
4
C
3
C
2
C
1
142 4. Algunos Conceptos sobre Grafos
n´ umero 3 al conglomerado C
1
. El n´ umero correspondiente al conglomerado
C
2
es 4 (que corresponde al nodo E), y as´ı sucesivamente. Obs´ervese que
los conglomerados ya se encuentran ordenados de forma ascendente en la
ordenaci´ on natural. El conglomerado C
1
es el que tiene el n´ umero perfecto
m´as bajo, despu´es el C
2
, y as´ı sucesivamente. Por tanto, (C
1
, . . . , C
7
) es
una cadena de conglomerados para el grafo de la Figura 4.30(a).
FIGURA 4.30. Un grafo triangulado (a) y una numeraci´on perfecta de sus nodos
necesaria para construir una cadena de conglomerados (b).
4.6 Grafos de Aglomerados
Los grafos de aglomerados se forman agrupando nodos con ciertas carac-
ter´ısticas comunes de un grafo dado. Este proceso permite obtener nuevos
grafos con estructuras topol´ ogicas m´as simples que retienen ciertas pro-
piedades del grafo original. En los Cap´ıtulos 6 y 8 se analizar´ an varias
aplicaciones de los grafos de aglomerados.
Definici´on 4.35 Aglomerado. Un conjunto de nodos de un grafo se
denomina un aglomerado.
Definici´on 4.36 Grafo de aglomerados de un grafo dado. Supong-
amos un grafo G = (X, L) y un conjunto de aglomerados de X, C =
¦C
1
, . . . , C
m
¦, tal que X = C
1
∪ . . . ∪ C
m
. El grafo G

= (C, L

) se de-
nomina un grafo de aglomerados de G si las aristas contenidas en L

s´ olo
unen aglomerados que contengan alg´ un nodo com´ un, es decir, (C
i
, C
j
) ∈
L

⇒ C
i
∩ C
j
= φ.
Un an´ alisis detallado de las propiedades de los grafos de aglomerados se
presenta en los libros Beeri y otros (1983) y Jensen (1988) (y las referencias
incluidas en ellos).
D, G
B, D, E
A, B, C B, C, E
C, F
D, H E, I
4.6 Grafos de Aglomerados 143
Los aglomerados de un grafo no son en general conjuntos arbitrarios,
pues se desea preservar al m´aximo posible la estructura topol´ ogica del
grafo original. En este cap´ıtulo se considerar´ an tipos especiales de grafos
de aglomerados que satisfagan ciertas propiedades deseables.
Definici´on 4.37 Grafo de conglomerados. Un grafo de aglomerados se
denomina un grafo de conglomerados asociado a un grafo no dirigido G si
sus aglomerados son los conglomerados de G.
Por ejemplo, el grafo de aglomerados mostrado en la Figura 4.31 es un
grafo de conglomerados asociado al grafo de la Figura 4.30(a).
FIGURA 4.31. Grafo de conglomerados asociado al grafo de la Figura 4.30(a).
Definici´on 4.38 Grafo de uni´on. Un grafo de conglomerados asociado
a un grafo no dirigido se denomina un grafo de uni´ on si contiene todos las
aristas posibles que unan conglomerados con alg´ un nodo com´ un.
N´otese que el grafo de uni´ on asociado a un grafo dado es ´ unico. Por ejemplo,
el grafo de conglomerados de la Figura 4.31 es el grafo de uni´ on asociado
al grafo de la Figura 4.30(a).
Los grafos de uni´ on tienen la propiedad de que los conglomerados con
nodos comunes forman un conjunto completo. Por esta raz´ on, los grafos
de uni´ on suelen contener numerosas aristas. Por tanto, ser´ıa interesante
obtener alg´ un grafo de estructura m´ as simple (por ejemplo, un ´ arbol) que
retuviese la propiedad de conectar los conglomerados que tengan elementos
comunes.
Definici´on 4.39
´
Arbol de uni´on. Un grafo de conglomerados se deno-
mina un ´ arbol de uni´ on si es un ´ arbol y todo nodo que pertenezca a dos
conglomerados tambi´en pertenezca a todos los conglomerados contenidos
en el camino que los une.
N´otese que en un ´arbol de uni´ on existe un ´ unico camino entre cada par de
conglomerados con un nodo com´ un.
(a)
D, G
B, D, E
A, B, C B, C, E
C, F
D, H E, I
D, G
B, D, E
A, B, C B, C, E
C, F
D, H E, I
(b)
144 4. Algunos Conceptos sobre Grafos
Ejemplo 4.13
´
Arbol de uni´on. El ´ arbol de conglomerados de la Figura
4.32(b) es un ´ arbol de uni´ on que se ha obtenido eliminando cuatro aris-
tas del grafo de uni´ on dado en la Figura 4.32(a). Se puede comprobar
f´ acilmente que todos los conglomerados contenidos en el camino que une
dos conglomerados contiene tambi´en los nodos comunes a ´estos. Por ejem-
plo, los conglomerados ¦D, H¦ y ¦B, D, E¦ tienen un nodo com´ un, D, que
tambi´en pertenece al resto de los conglomerados en el camino que los une,
¦D, H¦ − ¦D, G¦ − ¦B, D, E¦.
En el Cap´ıtulo 8 se analizar´ an diversos m´etodos de propagaci´ on de in-
certidumbre que utilizan un ´ arbol de uni´ on para simplificar los c´ alculos
necesarios para actualizar las probabilidades.
FIGURA 4.32. Un grafo de uni´on (a) y un ´ arbol de uni´on asociado a ´el (b).
El teorema siguiente indica cu´ ando es posible convertir un grafo de uni´ on
en un ´ arbol de uni´ on eliminando algunas de sus aristas (ver Jensen (1988)).
Teorema 4.4
´
Arbol de uni´on. Un grafo no dirigido posee un ´ arbol de
uni´ on si y s´ olo si es triangulado.
Ejemplo 4.14 Grafo sin ´arbol de uni´on. La Figura 4.33(a) muestra
un grafo no triangulado y el grafo de uni´ on asociado cuyos conglomerados
son C
1
= ¦A, B¦, C
2
= ¦B, D¦, C
3
= ¦C, D¦ y C
4
= ¦A, C¦. Obs´ervese que
en esta situaci´on es imposible construir un ´ arbol de uni´ on a partir de este
grafo, pues se trata de un grafo no triangulado. Por ejemplo, si se eliminase
del grafo la arista C
1
− C
4
, el ´ arbol resultante no ser´ıa un ´ arbol de uni´ on
pues, por ejemplo, el nodo A est´a contenido en C
1
y C
4
pero no, en los dos
conglomerados restantes del camino C
1
−C
2
−C
3
−C
4
.
En la Secci´ on 4.5 se introdujo la propiedad de intersecci´ on din´ amica para
conglomerados. Esta propiedad permite ordenar los conglomerados de un
grafo triangulado obteniendo una cadena de conglomerados. El algoritmo
(a)
A
B C
D
(b)
B, D A, C
A, B
C, D
C
1
C
2
C
3
C
4
4.6 Grafos de Aglomerados 145
FIGURA 4.33. Grafo no triangulado (a) y grafo de uni´on asociado (b).
siguiente permite construir un ´ arbol de uni´ on asociado a un grafo triangu-
lado. La idea b´ asica consiste en organizar una cadena de conglomerados en
una estructura de ´ arbol.
Algoritmo 4.4 Generando un ´arbol de uni´on.
• Datos: Un grafo triangulado no dirigido G = (X, L).
• Resultado: Un ´ arbol de uni´ on G

= (C, L

) asociado a G.
1. Iniciaci´ on: Utilizar el Algoritmo 4.3 para obtener una cadena de
conglomerados del grafo G, (C
1
, . . . , C
m
).
2. Para cada conglomerado C
i
∈ C, escoger un conglomerado C
k
en
¦C
1
, . . . , C
i−1
¦ con el m´aximo n´ umero de nodos comunes y a˜ nadir la
arista C
i
−C
k
a L

(inicialmente vac´ıa). Los empates se deshacen de
forma arbitraria.
Ejemplo 4.15 Generaci´on de un ´arbol de uni´on. A continuaci´ on se
aplica el Algoritmo 4.4 para generar un ´ arbol de uni´ on asociado al grafo
triangulado dado en la Figura 4.30(a). En el Ejemplo 4.12, se obtuvo la ca-
dena de conglomerados C
1
= ¦A, B, C¦, C
2
= ¦B, C, E¦, C
3
= ¦B, D, E¦,
C
4
= ¦C, F¦, C
5
= ¦D, G¦, C
6
= ¦D, H¦ y C
7
= ¦E, I¦. Para generar un
´arbol de uni´ on se procede a a˜ nadir las aristas necesarias a un conjunto L

,
inicialmente vac´ıo, de la siguiente forma:
• Los conglomerados C
2
y C
3
tienen el m´aximo n´ umero de nodos en
com´ un con el conglomerado C
7
. Deshaciendo el empate arbitraria-
mente, se elige el conglomerado C
3
y se a˜ nade la arista C
7
− C
3
a
L

.
• C
3
y C
5
tienen el m´aximo n´ umero de nodos coincidentes con C
6
. Se
elige arbitrariamente uno de ellos, por ejemplo C
5
y se a˜ nade la arista
C
6
−C
5
a L

.
D, G
B, D, E
A, B, C B, C, E
C, F
D, H E, I
C
7
C
1
C
2
C
5
C
4
C
3
C
6
146 4. Algunos Conceptos sobre Grafos
• De entre los conglomerados de ¦C
1
, C
2
, C
3
, C
4
¦, el conglomerado C
3
es el que tiene m´as elementos en com´ un con C
5
. Por tanto, se a˜ nade
la arista C
5
−C
3
a L

.
• Procediendo de forma similar, se a˜ naden las aristas C
4
−C
2
, C
3
−C
2
y C
2
−C
1
.
El ´ arbol de uni´ on resultante se muestra en la Figura 4.34. Dado que muchos
empates se deciden de forma arbitraria, el algoritmo podr´ıa generar varios
´arboles de uni´ on distintos para un mismo grafo no dirigido.
FIGURA 4.34. Un ´arbol de uni´on asociado al grafo de la Figura 4.30(a).
Hasta ahora se ha tratado el problema de la construcci´ on de grafos de
aglomerados asociados a grafos no dirigidos. Sin embargo, este concepto
tambi´en puede ser aplicado a los grafos dirigidos trabajando indirectamente
con el grafo no dirigido asociado. Como ya se ver´ a en el Cap´ıtulo 8, las fa-
milias de nodos en un grafo dirigido juegan un papel importante en los
mecanismos de propagaci´on de evidencia. Existe tambi´en un tipo de redes
probabil´ısticas que se definen mediante funciones locales de probabilidad
definidas en las familias de los nodos (ver Secci´ on 6.4.2). Por tanto, esta-
mos interesados en el desarrollo de grafos de aglomerados tales que todas
las familias del grafo dirigido original est´en contenidas en, al menos, un
aglomerado. Se tiene la siguiente definici´ on.
Definici´on 4.40
´
Arbol de familias. Un ´arbol de familias de un grafo
dirigido D, es un ´ arbol de uni´ on de alg´ un grafo no dirigido G asociado
a D, en el cual la familia de cada nodo est´ a contenida en al menos un
conglomerado.
El proceso de moralizaci´on de un grafo dirigido garantiza que la familia
de cualquier nodo estar´ a contenida en al menos un conglomerado del grafo
no dirigido resultante. Por tanto, aplicando el Algoritmo 4.4 a cualquier
versi´on triangulada del grafo moral se obtendr´ a un ´ arbol de familias del
grafo dirigido original.
A B
C D
E F
G H
I J
A B
C D
E F
G H
I J
(a) (b)
4.6 Grafos de Aglomerados 147
Algoritmo 4.5 Generando un ´arbol de familias.
• Datos: Un grafo dirigido D = (X, L).
• Resultado: Un ´ arbol de familias G

= (C, L

) asociado a D.
1. Moralizar el grafo dirigido.
2. Triangular el grafo no dirigido resultante utilizando el Algoritmo 4.2.
3. Aplicar Algoritmo 4.4 para calcular un ´ arbol de uni´ on del grafo re-
sultante.
Ejemplo 4.16 Generando un ´arbol de familias. Consid´erese el grafo
dirigido dado en la Figura 4.35(a), en la que las familias de los nodos se
indican con sombras de distinta intensidad: ¦A¦, ¦B¦, ¦C¦, ¦A, B, D¦,
¦C, D, E¦, ¦D, F¦, ¦E, G¦, ¦F, H¦, ¦G, I¦ y ¦G, H, J¦. Aplicando el Algo-
ritmo 4.5 se obtiene un ´ arbol de familias asociado a este grafo:
FIGURA 4.35. Un grafo dirigido (con las familias indicadas con distintos
sombreados) (a) y el grafo moral correspondiente (b).
• Para construir el grafo moral correspondiente al grafo dirigido de la
Figura 4.35(a), es necesario a˜ nadir las tres aristas mostradas en la
Figura 4.35(b) con l´ınea discontinua.
C
7
C
6
C
5
C
4
C
3
C
2
C
1
A B
C D
E F
G H
I J
1 2
3 4
5 6
7 8
9 10
(a)
I, G
F, G, H
C
7
C
1
C
2
C
3
C
4
C
5
C
6
(b)
A, B, D
C, D, E
D, E, F
E, F, G
G, H, J
148 4. Algunos Conceptos sobre Grafos
FIGURA 4.36. Numeraci´on perfecta, ordenaci´on de conglomerados para una
triangulaci´on del grafo, y ´arbol de uni´on asociado al grafo resultante (b).
• El grafo moral puede triangularse utilizando el Algoritmo 4.2. El
grafo triangulado resultante, que contiene dos aristas adicionales, se
muestra en la Figura 4.36(a).
• Finalmente, el ´ arbol de familias asociado puede obtenerse aplicando a
este grafo el Algoritmo 4.4 de la misma forma que en el Ejemplo 4.15.
El ´ arbol de familia resultante se muestra en la Figura 4.36(b). Puede
comprobarse f´ acilmente que todas las familias del grafo dirigido de
la Figura 4.35(a) est´ an contenidas en al menos un conglomerado del
´arbol de familias.
4.7 Representaci´on de Grafos
Un grafo puede ser representado de varias formas equivalentes que pongan
de manifiesto en mayor o menor medida determinadas caracter´ısticas. Las
formas de representaci´on m´as comunes son:
• Simb´ olicamente, como un par (X, L), donde X es un conjunto de va-
riables y L es un conjunto de aristas entre pares de variables. Como
ya se ha comentado anteriormente, una representaci´ on simb´ olica equi-
valente a la anterior viene dada por (X, Ady), donde Ady es la clase
de los conjuntos de adyacencia de los nodos.
4.7 Representaci´on de Grafos 149
• Gr´ aficamente, por medio de un diagrama formado por un conjunto
de nodos (uno para cada variable) y un conjunto de l´ıneas o flechas
(una para cada arista del conjunto L).
• Num´ericamente, utilizando ciertos tipos de matrices.
Cada una de estas representaciones presenta ventajas e inconvenientes. Por
ejemplo, la representaci´on simb´ olica es conceptualmente simple (cada grafo
puede ser representado por un par de conjuntos), pero no proporciona in-
formaci´ on directa sobre la topolog´ıa del grafo. La representaci´ on gr´ afica
permite observar globalmente las distintas relaciones que existen entre las
variables, pero tiene la desventaja de volverse extremadamente compleja
cuando el n´ umero de aristas entre los nodos es muy elevado. Por ´ ultimo, la
representaci´on num´erica permite obtener caracter´ısticas de los grafos por
simples manipulaciones algebraicas, pero tiene la desventaja de ser muy
abstracta.
En esta secci´on se presentan dos m´etodos de representaci´on gr´ afica de
grafos y se analizan sus ventajas e inconvenientes (Secci´on 4.7.1). Tambi´en
se muestra la forma de representar la estructura de adyacencia de un grafo
por medio de ciertos tipos de matrices que caracterizan algunas propiedades
topol´ ogicas del grafo (Secci´on 4.7.2).
4.7.1 Representaci´ on Gr´ afica de un Grafo
Un grafo est´ a formado por un conjunto de nodos y un conjunto de aristas.
Esta secci´on se dedica al problema de representar gr´ aficamente los nodos
y aristas del grafo, por ejemplo en un hoja de papel o en la pantalla de
un ordenador. El principal obst´ aculo con el que nos encontramos al in-
tentar abordar este problema es que un grafo puede ser representado de
muchas formas distintas. Sin embargo, algunas de estas representaciones
son mejores que otras en t´erminos de sencillez, capacidad para mostrar las
principales caracter´ısticas del grafo, etc. Estas representaciones permiten
analizar visualmente ciertas propiedades topol´ ogicas del grafo de forma sen-
cilla. Por ejemplo, el tipo de grafos que pueden ser dibujados en el plano
sin que sus aristas se crucen se conocen como grafos planos y tiene nu-
merosas aplicaciones interesantes. Los libros de Preparata y Shamos (1985)
y Tamassia y Tollis (1995) ofrecen una descripci´ on de los problemas aso-
ciados con la representaci´on de grafos. En este libro se considerar´ a que una
representaci´on gr´ afica es buena si cumple los siguientes requisitos:
1. Puede ser construida de forma sencilla y r´ apida utilizando alg´ un
algoritmo.
2. Las caracter´ısticas topol´ogicas del grafo podr´ an ser analizadas me-
diante la representaci´ on gr´ afica. Por ejemplo, la Figura 4.37 muestra
dos representaciones distintas del mismo grafo; sin embargo, es m´as
A
B C D
E F
H I
K
G
J
C
J
I
H
G F
E
D
K
B
A
(a) (b)
150 4. Algunos Conceptos sobre Grafos
f´ acil comprobar que el grafo es m´ ultiplemente conexo a partir de la
representaci´on dada en la Figura 4.37(b) que a partir de la dada
en la Figura 4.37(a). Otro ejemplo se tiene en las dos representa-
ciones gr´aficas mostradas en la Figura 4.8, que corresponden a un
grafo inconexo. Esta propiedad topol´ ogica se puede comprobar m´as
f´ acilmente en el diagrama de la Figura 4.8(b) que en el de la Figura
4.8(a).
3. La representaci´on ser´a simple, teniendo un n´ umero m´ınimo de cortes
de aristas.
En esta secci´on se presentan dos formas sistem´aticas de representaci´on
gr´ afica:
1. La representaci´on circular y
2. La representaci´on multinivel.
Representaci´on Circular de un Grafo
Una de las formas m´as sencillas de representar gr´aficamente un grafo es
dibujar los nodos sobre una circunferencia a distancias iguales. Por ejem-
plo, la Figura 4.37(a) muestra la representaci´ on circular de un grafo. Esta
representaci´on tiene una propiedad importante: garantiza que no puede
haber m´ as de dos nodos alineados. Por tanto, si las aristas del grafo se
representan mediante l´ıneas rectas, esta representaci´on garantiza que no
habr´ a aristas ocultas entre los nodos. As´ı, la representaci´ on circular es la
representaci´on ´ optima para grafos con un gran n´ umero de aristas.
FIGURA 4.37. Dos representaciones gr´aficas del mismo grafo: circular (a) y
multinivel (b).
La representaci´on circular presenta las siguientes ventajas:
• Es f´ acil de construir.
4.7 Representaci´on de Grafos 151
• Todas las aristas son transparentes en el diagrama.
• Es la m´as conveniente para grafos completos o casi completos.
La principal desventaja de esta representaci´ on es que pueden existir nu-
merosos cortes entre las aristas, complicando el diagrama. Por ejemplo, a
pesar de que los dos diagramas de la Figura 4.37 representan el mismo
grafo, en el diagrama (b) no existe ning´ un corte entre las aristas.
Representaci´on Multinivel de un Grafo
La idea b´ asica de la representaci´on multinivel es organizar los nodos en
distintos niveles, o capas, de tal forma que no existan aristas entre nodos
del mismo nivel y que todo nodo en un nivel est´e conectado con alg´ un
nodo del nivel previo. As´ı se podr´ a lograr una representaci´ on clara del
grafo situando los nodos en niveles horizontales (como en la Figura 4.38)
o verticales (como en la Figura 4.39). Para desarrollar esta idea en detalle,
son necesarias algunas definiciones previas.
Definici´on 4.41 Subconjunto totalmente inconexo. Dado un grafo
(X, L), un subconjunto de nodos S ⊂ X se denomina totalmente inconexo
si no existe ninguna arista entre los nodos de S, es decir, si (X
i
, X
j
) ∈
L ⇒ X
i
∈ S o X
j
∈ S.
Definici´on 4.42 Representaci´ on multinivel. Una representaci´on mul-
tinivel de un grafo no dirigido (X, L) es una partici´ on
X =
m
¸
k=1
S
k
, (4.1)
donde los niveles S
i
, i = 1, . . . , m, son subconjuntos disjuntos y totalmente
inconexos de X tales que
si X
i
∈ S
k
⇒∃ X
j
∈ S
k−1
con X
i
∈ Ady(X
j
).
Es decir, no existen aristas entre nodos del mismo nivel y los nodos de un
nivel son adyacentes a, al menos, un nodo del nivel anterior.
N´otese que los nodos que forman el primer nivel s´ olo tienen que satisfacer
la propiedad de ser un subconjunto totalmente inconexo. As´ı, la elecci´on
del primer nivel es bastante arbitraria y, por tanto, un grafo puede tener
varias representaciones multinivel. Los nodos del primer nivel se denominan
nodos ra´ız. Por ejemplo, los grafos de las Figuras 4.38(a) y (b) muestran
dos representaciones multinivel del mismo grafo. Los niveles asociados a la
representaci´on de la Figura 4.38(a) son
¦¦A¦, ¦B, C¦, ¦D, E, F¦, ¦G, H, I¦¦ ,
(a)
A
B C
D E
G H
F
I
(b)
A
B C
D
E
G
H
F
I
Nivel 1
Nivel 2
Nivel 3
Nivel 4
I F C
H
D
G
B
E
A
152 4. Algunos Conceptos sobre Grafos
FIGURA 4.38. Dos representaciones multinivel del mismo grafo. Las l´ıneas
horizontales sombreadas indican los niveles.
y los niveles asociados con la Figura 4.38(b) son
¦¦E¦, ¦B, H, C¦, ¦D, A, F¦, ¦G, I¦¦ .
Obs´ervese que estas dos representaciones contienen un ´ unico nodo ra´ız.
La Figura 4.39 muestra una representaci´ on diferente con dos nodos ra´ız
¦D, H¦.
FIGURA 4.39. Representaci´on multinivel vertical del grafo de la Figura 4.38.
Algunas ventajas de la representaci´ on multinivel son
• Es muy conveniente para ´ arboles, o grafos con pocas aristas.
• Muestra la estructura ancestral del grafo a trav´es de los distintos
niveles de la representaci´on.
Siempre es posible obtener una representaci´ on multinivel de un grafo no
dirigido eligiendo como conjunto de nodos ra´ız cualquier subconjunto to-
talmente inconexo de nodos del grafo. El segundo nivel de la representaci´ on
est´a formado por algunos de los nodos adyacentes a este conjunto de nodos,
y as´ı sucesivamente. Por ejemplo, en las representaciones mostradas en las
Figuras 4.38 los ´ unicos nodos ra´ız son los nodos A y E, respectivamente.
4.7 Representaci´on de Grafos 153
Sin embargo, en la Figura 4.39 el conjunto de nodos ra´ız es ¦D, H¦. Esta
es la idea b´asica del siguiente algoritmo.
Algoritmo 4.6 Representaci´on multinivel.
• Datos: Un grafo (X, Ady) de n nodos y un conjunto de nodos ra´ız
R.
• Resultado: Una representaci´on multinivel S del grafo.
1. Iniciaci´ on: Asignados = R. Nivel(1) = R. Nivel(k) = φ para k =
2, . . . , n. Tomar j = 1.
2. Si Nivel(j) = φ, devolver S = ¦Nivel(1), . . . , Nivel(j − 1)¦, que es
una representaci´ on multinivel del grafo y terminar; en caso contrario,
hacer NivelActual = Nivel(j) e ir a la Etapa 3.
3. Seleccionar X
k
∈ NivelActual:
(a) A˜ nadir los elementos de Ady(X
k
) ` Asignados a Nivel(j +1) y
a Asignados.
(b) A˜ nadir los elementos de Ady(X
k
) ∩ Nivel(j) a Nivel(j + 1) y
eliminar estos elementos de Nivel(j) y de NivelActual e ir a la
Etapa 4.
4. Eliminar X
k
de NivelActual. Si NivelActual = φ, tomar j = j +1 e
ir a la Etapa 2; en caso contrario, ir a la Etapa 3.
La Etapa 3(a) en el algoritmo anterior a˜ nade al nivel actual todos los
vecinos no asignados de los nodos del nivel previo, mientras que la Etapa
3(b) elimina nodos vecinos del mismo nivel.
N´otese que si el conjunto de nodos ra´ız R no fuese totalmente inconexo,
el algoritmo eliminar´ıa de forma autom´ atica algunos de los nodos de este
nivel hasta obtener un subconjunto totalmente inconexo.
Ejemplo 4.17 Representaci´on multinivel. En este ejemplo se aplica
el Algoritmo 4.6 para obtener una representaci´ on multinivel del grafo dado
en la Figura 4.39. Este grafo tiene asociados los conjuntos de adyacencia:
Ady(A) = ¦B, C¦, Ady(B) = ¦A, D, E¦, Ady(C) = ¦A, E, F¦,
Ady(D) = ¦B, G¦, Ady(E) = ¦B, C, H¦, Ady(F) = ¦C, I¦,
Ady(G) = ¦D¦, Ady(H) = ¦E¦, Ady(I) = ¦F¦.
Consid´erese el conjunto de nodos ra´ız ¦D, H¦. La Tabla 4.1 muestra el pro-
ceso que resulta de aplicar el Algoritmo 4.6. Las filas de la tabla muestran
el estado de las variables correspondientes al final de cada etapa. Como
resultado del algoritmo se obtiene la representaci´ on multinivel:
Nivel(1)=¦D,H¦, Nivel(2)=¦B,G¦,
Nivel(3) =¦A,E¦, Nivel(4)=¦C¦,
Nivel(5) =¦F¦, Nivel(6)=¦I¦.
154 4. Algunos Conceptos sobre Grafos
Una representaci´on gr´ afica de esta partici´ on se muestra en la Figura 4.39.
Aplicando el Algoritmo 4.6 al grafo de la Figura 4.38 con los nodos ra´ız
A y E se obtienen las representaciones multinivel mostradas en las Figuras
4.38(a) y 4.38(b), respectivamente.
En el caso de grafos dirigidos puede considerarse el grafo no dirigido aso-
ciado para construir una representaci´ on multinivel. Sin embargo, este pro-
ceso no tendr´ıa en cuenta la direccionalidad de las aristas. A continuaci´ on
se muestra que, en el caso de grafos dirigidos ac´ıclicos, se puede dar un
car´acter dirigido a la representaci´ on multinivel en el sentido de que todas
las aristas est´an orientadas en la misma direcci´ on.
Definici´on 4.43 Representaci´on multinivel dirigida. Una represen-
taci´ on multinivel de un grafo dirigido (X, L) es una partici´ on
X =
m
¸
k=1
S
k
, (4.2)
donde los niveles S
i
, i = 1, . . . , m, son subconjuntos disjuntos totalmente
inconexos de X tales que
X
i
∈ S
k
y (X
i
, X
j
) ∈ L ⇒ X
j
∈ S
r
con r > k,
es decir, todos los padres de un nodo dado han de estar en niveles anteriores
al nivel del nodo.
Por ejemplo, la Figura 4.40 muestra dos representaciones multinivel distin-
tas del grafo de la Figura 4.37. Los niveles (subconjuntos S
k
, k = 1, . . . , 5)
se distinguen en la figura mediante sombras. Los niveles de las Figuras
4.40(a) y (b) son
¦¦A¦, ¦B, C, D¦, ¦E, F, G¦, ¦H, I, J¦, ¦K¦¦
y
¦¦A, B¦, ¦C, D¦, ¦E, F¦, ¦H, I, G¦, ¦K, J¦¦ ,
respectivamente. Es f´acil comprobar que ambas particiones cumplen (4.2).
Una ventaja de las representaciones multinivel dirigidas es que los dia-
gramas resultantes son f´aciles de interpretar, ya que todas las aristas est´an
orientadas en la misma direcci´on. La Figura 4.40, muestra un diagrama
multinivel en el que todas las aristas est´ an orientadas en la direcci´ on arriba-
abajo.
A diferencia de los grafos no dirigidos, no todos los grafos dirigidos ad-
miten una representaci´ on multinivel. El siguiente teorema caracteriza la
clase de grafos dirigidos que admiten una representaci´ on multinivel dirigida.
Teorema 4.5 Representaci´on multinivel dirigida. Un grafo dirigido
(X, L) admite una representaci´ on multinivel dirigida si y s´ olo si (X, L) es
un grafo dirigido ac´ıclico.
4.7 Representaci´on de Grafos 155
Etapa X
k
j Nivel(j) Nivel(j + 1) NivelActual
1 − 1 ¦D, H¦ φ φ
2 − 1 ¦D, H¦ φ ¦D, H¦
3(a) D 1 ¦D, H¦ ¦B, G¦ ¦D, H¦
3(b) D 1 ¦D, H¦ ¦B, G¦ ¦D, H¦
4 D 1 ¦D, H¦ ¦B, G¦ ¦H¦
3(a) H 1 ¦D, H¦ ¦B, G, E¦ ¦H¦
3(b) H 1 ¦D, H¦ ¦B, G, E¦ ¦H¦
4 H 2 ¦B, G, E¦ φ φ
2 H 2 ¦B, G, E¦ φ ¦B, G, E¦
3(a) B 2 ¦B, G, E¦ ¦A¦ ¦B, G, E¦
3(b) B 2 ¦B, G¦ ¦A, E¦ ¦B, G¦
4 B 2 ¦B, G¦ ¦A, E¦ ¦G¦
3(a) G 2 ¦B, G¦ ¦A, E¦ ¦G¦
3(b) G 2 ¦B, G¦ ¦A, E¦ ¦G¦
4 G 3 ¦A, E¦ φ φ
2 G 3 ¦A, E¦ φ ¦A, E¦
3(a) A 3 ¦A, E¦ ¦C¦ ¦A, E¦
3(b) A 3 ¦A, E¦ ¦C¦ ¦A, E¦
4 A 3 ¦A, E¦ ¦C¦ ¦E¦
3(a) E 3 ¦A, E¦ ¦C¦ ¦E¦
3(b) E 3 ¦A, E¦ ¦C¦ ¦E¦
4 E 4 ¦C¦ φ φ
2 E 4 ¦C¦ φ ¦C¦
3(a) C 4 ¦C¦ ¦F¦ ¦C¦
3(b) C 4 ¦C¦ ¦F¦ ¦C¦
4 C 5 ¦F¦ φ φ
2 C 5 ¦F¦ φ ¦F¦
3(a) F 5 ¦F¦ ¦I¦ ¦F¦
3(b) F 5 ¦F¦ ¦I¦ ¦F¦
4 F 6 ¦I¦ φ φ
2 F 6 ¦I¦ φ ¦I¦
3(a) I 6 ¦I¦ φ ¦I¦
3(b) I 6 ¦I¦ φ ¦I¦
4 I 7 ¦I¦ φ φ
TABLA 4.1. Etapas de la construcci´on de una representaci´on multinivel uti-
lizando el Algoritmo 4.6.
A
B C D
E F
H I
K
G
J
A
B C D
E F
H I
K
G
J
(a) (b)
156 4. Algunos Conceptos sobre Grafos
FIGURA 4.40. Dos representaciones multinivel de un grafo dirigido.
Utilizando el conjunto de nodos sin padres ¦X
i
[ Π
X
i
= φ¦ de un grafo
dirigido ac´ıclico como conjunto de nodos ra´ız R, el Algoritmo 4.6 calcular´ a
una representaci´ on multinivel del grafo, como la dada en (4.2).
El siguiente teorema muestra una relaci´ on interesante entre representa-
ciones multinivel dirigidas y numeraciones ancestrales.
Teorema 4.6 Numeraci´on ancestral. Si ¦S
1
, . . . , S
m
¦ es una repre-
sentaci´on multinivel de un grafo dirigido ac´ıclico (X, L), entonces cualquier
numeraci´ on de los nodos α que satisfaga α(X
i
) > α(X
j
) para X
i
∈ S
k
y
X
j
∈ S
r
con k > r es una numeraci´ on ancestral de los nodos.
Por tanto, el Algoritmo 4.6 permite obtener una numeraci´ on ancestral para
un grafo dirigido ac´ıclico. Adem´as, este tipo de grafos es el ´ unico que posee
este tipo de numeraci´on. La comprobaci´ on de este teorema se deja como
ejercicio para el lector.
En el resto de esta secci´on se desarrolla un algoritmo para dividir cualquier
grafo dirigido ac´ıclico de la forma mostrada en (4.2). Para ello, se necesitan
las siguientes definiciones.
Definici´on 4.44 Profundidad ascendente. La profundidad ascendente
de un nodo X
i
en un grafo dirigido ac´ıclico, PA(X
i
), es la longitud m´ axima
de los caminos del grafo que terminan en el nodo X
i
.
Definici´on 4.45 Profundidad descendente. La profundidad descen-
dente de un nodo X
i
en un grafo dirigido ac´ıclico, PD(X
i
), es la longitud
m´ axima de los caminos del grafo que comienzan en el nodo X
i
.
Para calcular la profundidad ascendente de un nodo basta con conocer
la profundidad ascendente de sus padres. An´ alogamente, la profundidad
descendente de un nodo est´ a determinada por la profundidad descendente
de sus hijos. La profundidad descendente crece siguiendo el sentido de o-
4.7 Representaci´on de Grafos 157
rientaci´ on de las aristas, mientras que la profundidad ascendente crece en
el sentido contrario.
Los conceptos de profundidad descendente y ascendente satisfacen las
siguientes propiedades:
• 0 ≤ PA(X
i
) ≤ n − 1 y 0 ≤ PD(X
i
) ≤ n − 1, donde n es el n´ umero
de nodos.
• Si X
i
no tiene padres, entonces PA(X
i
) = 0.
• Si X
i
no tiene hijos, entonces PD(X
i
) = 0.
Un grafo puede ser dividido en niveles calculando la profundidad de todos
los nodos del grafo (cada nivel estar´ a formado por los nodos con la misma
profundidad).
Definici´on 4.46 Niveles de profundidad de un grafo. Dado un grafo
dirigido, el k-´esimo nivel de profundidad ascendente, NA
k
, es el subcon-
junto de nodos ¦X
i
∈ X[ PA(X
i
) = k¦. De forma similar, el k-´esimo nivel
de profundidad descendente, ND
k
, es el subconjunto ¦X
i
∈ X[ PD(X
i
) =
k¦.
El n´ umero de niveles no vac´ıos de un grafo puede ser calculado en funci´ on
de la longitud m´ axima de sus caminos. Sea m la longitud del camino m´ as
largo del grafo, entonces N
k
= φ, ∀k > m y N
k
= φ, ∀k ≤ m. As´ı, se tiene
un n´ umero finito de niveles que definen una partici´ on del grafo como la
indicada en la Definici´ on 4.43. Este resultado es confirmado por el teorema
siguiente.
Teorema 4.7 Niveles de profundidad y representaci´on multinivel
dirigida. Para cualquier grafo dirigido ac´ıclico, los conjuntos ¦ND
k
:
k = 0, . . . , m¦ y ¦NA
k
: k = 0, . . . , m¦ son dos representaciones multinivel
dirigidas que cumplen (4.2).
Por ejemplo, la Figura 4.41 muestra los niveles de profundidad ascendente
y descendente asociados al grafo dirigido de la Figura 4.40.
A continuaci´ on se introduce un algoritmo para calcular los niveles de pro-
fundidad de un grafo dirigido. Dado el car´ acter iterativo del algoritmo, ´este
tambi´en permite comprobar si un grafo es ac´ıclico. El algoritmo se ilustra
para el caso de la profundidad ascendente. Basta una peque˜ na modificaci´ on
del algoritmo para obtener profundidades descendentes. Esta modificaci´ on
se deja como ejercicio al lector.
Algoritmo 4.7 Profundidad ascendente para grafos dirigidos.
• Datos: Un grafo (X, Ady) de n nodos.
• Resultado: Los niveles de profundidad ascendente ¦NA
0
, . . . , NA
k
¦
del grafo.
A B
C D
E F
H I
K
G
J
NA
0
NA
1
NA
2
NA
3
NA
4
A
B C D
E F
H I
K
G
J
ND
4
ND
3
ND
2
ND
1
ND
0
(a) (b)
158 4. Algunos Conceptos sobre Grafos
FIGURA 4.41. Niveles de profundidad ascendente (a) y descendente (b) de un
grafo dirigido.
1. Iniciaci´ on: Definir PA(X
i
) = 0 para todos los nodos X
i
que no
posean padres. Si todos los nodos del grafo tienen alg´ un padre, el al-
goritmo finaliza pues el grafo contiene alg´ un ciclo. En caso contrario,
tomar profundidad = 1 y continuar con la Etapa 2.
2. Si profundidad ≤ n, ir a la Etapa 3; en caso contrario, el algoritmo
finaliza (el grafo contiene ciclos).
3. Seleccionar un nodo X
i
con PA(X
i
) = profundidad − 1. Asignar
a todos los nodos X
j
adyacentes a X
i
la profundidad PA(X
j
) =
profundidad. Repetir este proceso con todos los nodos en el nivel
profundidad −1, e ir a la Etapa 4.
4. Si ning´ un nodo tiene profundidad profundidad, entonces el algoritmo
finaliza y las profundidades de todos los nodos han sido calculadas.
En caso contrario, incrementar profundidad en una unidad y volver
a la Etapa 2.
La Figura 4.42 muestra el pseudoc´ odigo para el algoritmo de profundidad
ascendente. Si el algoritmo no finaliza antes de la Etapa n, o finaliza en la
Etapa inicial, entonces el grafo contiene alg´ un ciclo. En caso contrario, el
grafo es ac´ıclico, y el algoritmo obtiene las profundidades de los nodos. En
este caso, el grafo contiene tantos niveles como etapas realizadas.
4.7.2 Representaci´ on Num´erica de Grafos
Un grafo tambi´en puede ser representado num´ericamente utilizando deter-
minados tipos de matrices. La siguiente representaci´on permite calcular de
forma sencilla diversas caracter´ısticas topol´ogicas de un grafo.
4.7 Representaci´on de Grafos 159
Algoritmo de Niveles de Profundidad Ascendente
Datos: Un grafo dirigido (X, Ady) de n nodos.
Resultado: Los niveles de profundidad ascendente asociados.
Etapa Inicial:
para k = 1 hasta n hacer
si nodo X
k
no tiene padres entonces PA(X
k
) ←0
si PA(X
k
) = 0, k = 1, . . . , n
Terminar. El grafo contiene alg´ un ciclo.
Etapa de Iteraci´on i-´esima:
si i > n entonces
Terminar. El grafo contiene alg´ un ciclo.
en otro caso
para todo X
k
tal que PA(X
k
) = i −1 hacer
PA(X
r
) ←i, para todo X
r
∈ Ady(X
k
)
si PA(X
k
) = i, k = 1, . . . , n
Terminar. Todas las profundiades calculadas.
en otro caso
ir a la etapa iterativa i + 1-´esima
FIGURA 4.42. Pseudoc´odigo del algoritmo de profundidad ascendente para grafos
dirigidos.
Definici´on 4.47 Matriz de adyacencia. Sea G = (X, L) un grafo de
n nodos y sea A = (a
ij
) una matriz n n, donde
a
ij
=

1, si L
i j
∈ L,
0, en caso contrario.
La matriz A se denomina matriz de adyacencia del grafo G.
Mediante sencillas manipulaciones algebr´ aicas de la matriz de adyacencia
se pueden obtener algunas caracter´ısticas del grafo como, por ejemplo, el
n´ umero de caminos distintos que unen dos nodos, comprobar si el grafo es
conexo, etc.
La Figura 4.43, muestra el proceso de construcci´ on de la matriz de adya-
cencia de un grafo dado. Cuando a
ij
= 0, entonces no existe ninguna arista
del nodo X
i
al nodo X
j
. En cambio, a
ij
= 1 indica que el nodo X
i
est´a
conectado al nodo X
j
, o que los nodos son adyacentes, de ah´ı el nombre de
esta matriz.
La matriz A contiene toda la informaci´ on topol´ ogica del grafo asociado;
por tanto, esta matriz caracteriza al grafo. Notar que:
0 1 0 1
1 0 1 1
0 1 0 0
1 1 0 0
A =
X
1
X
2
X
3
X
4
X
1
X
2
X
3
X
4
X
1
X
2
X
3
X
4
160 4. Algunos Conceptos sobre Grafos
FIGURA 4.43. Proceso de construcci´on de la matriz de adyacencia de un grafo.
• La matriz de adyacencia de un grafo no dirigido es sim´etrica.
• Dado que L
i i
∈ L para todos los valores de i, los elementos diagonales
de A son nulos.
• La matriz de adyacencia de un grafo no dirigido completo debe con-
tener un uno en todos los elementos no diagonales.
La matriz de adyacencia permite comprobar si existe alg´ un camino entre
cada para de nodos. Tambi´en puede calcularse la longitud de todos los
caminos que unan cada par de nodos. El teorema siguiente muestra c´ omo
se puede utilizar la matriz de adyacencia para esta tarea.
Teorema 4.8 Potencias de la matriz de adyacencia. Sea A
r
la r-
´esima potencia de la matriz de adyacencia asociada con el grafo G = (X, L).
Entonces, el ij-´esimo elemento de A
r
da el n´ umero de caminos de longitud
r del nodo X
i
al nodo X
j
.
Demostraci´on: La demostraci´on de este teorema puede ser f´acilmente
obtenida, por inducci´ on, de la forma siguiente: El teorema se cumple para
r = 1, ya que a
ij
= 1 si existe un camino de longitud 1 (una arista) entre
los nodos i y j, y a
ij
= 0 en caso contrario.
Suponiendo que el resultado es cierto para A
r
, para A
r+1
se tiene que
A
r+1
= A
r
A ⇔a
r+1
ij
=
n
¸
k=1
a
r
ik
a
kj
,
es decir, si hay a
r
ik
caminos de longitud r del nodo X
i
al nodo X
k
y existe
una arista del nodo X
k
al nodo X
j
(a
kj
= 1), entonces se tienen a
r
ik
caminos
de longitud (r + 1).
El Teorema 4.8 implica
• El elemento ij-´esimo de A
r
es cero si y s´olo si no existe ning´ un camino
de longitud r de X
i
a X
j
.
• Calculando las potencias sucesivas de la matriz de adyacencia de un
grafo dado A, A
2
, A
3
, . . ., se pueden calcular directamente el n´ umero
de caminos de longitud 1, 2, 3, . . . que unen cada par de nodos.
4.7 Representaci´on de Grafos 161
Estas propiedades se ilustran en el ejemplo siguiente.
Ejemplo 4.18 Potencias de la matriz de adyacencia. Las primeras
tres potencias de la matriz de adyacencia del grafo de la Figura 4.43 son
A =

¸
¸
¸
0 1 0 1
1 0 1 1
0 1 0 0
1 1 0 0
¸

, A
2
=

¸
¸
¸
2 1 1 1
1 3 0 1
1 0 1 1
1 1 1 2
¸

, A
3
=

¸
¸
¸
2 4 1 3
4 2 3 4
1 3 0 1
3 4 1 2
¸

,
de las cuales puede deducirse que, por ejemplo, s´ olo existe un camino de
longitud 3 del nodo X
1
al nodo X
3
(a
3
13
= 1). La Figura 4.43 muestra este
camino, X
1
−X
4
−X
2
−X
3
.
La matriz de adyacencia tambi´en puede ser utilizada para comprobar si
un grafo es conexo o inconexo. Para ello, se introduce la siguiente matriz
asociada a un grafo.
Definici´on 4.48 Matriz de alcanzabilidad. La matriz de alcanzabili-
dad, T = (t
ij
), de un grafo G se define como
t
ij
=

1, si existe algun camino del nodo X
i
al nodo X
j
0, en caso contrario.
La matriz de alcanzabilidad est´ a claramente relacionada con las potencias
de la matriz de adyacencia. El siguiente resultado da una cota del n´ umero
m´aximo de potencias de esta matriz que es necesario conocer para poder
calcular la matriz de alcanzabilidad.
Teorema 4.9 Acotaci´on a la longitud de un camino. Dado un grafo
con n nodos, si existe un camino del nodo X
i
al nodo X
j
, entonces tambi´en
existe un camino de longitud menor que n de X
i
a X
j
.
La demostraci´on del teorema anterior se deja como ejercicio al lector. Por
tanto, la matriz de alcanzabilidad puede ser obtenida a partir de un n´ umero
finito de potencias de la matriz de adyacencia, A, A
2
, A
3
, . . . , A
n−1
. El
n´ umero de potencias necesario es n −1. De hecho, se tiene
t
ij
=

0, si a
k
ij
= 0, ∀k < n
1, en caso contrario.
(4.3)
En un grafo conexo, todos los elementos de la matriz de alcanzabilidad han
de ser distintos de cero. Por tanto, la propiedad de conexi´ on de un grafo se
puede analizar a trav´es de su matriz de alcanzabilidad. Adem´ as, en caso de
que el grafo no sea conexo, la estructura de esta matriz permite identificar
las componentes conexas del grafo.
Ejemplo 4.19 Matriz de alcanzabilidad. Dado el grafo de la Figura
4.44, es posible calcular su matriz de alcanzabilidad obteniendo las primeras
A
D
C F
B
E
162 4. Algunos Conceptos sobre Grafos
n = 5 potencias de su matriz de adyacencia. La matriz de adyacencia de
este grafo es
A =

¸
¸
¸
¸
¸
¸
¸
0 1 1 0 0 0
1 0 1 0 0 0
1 1 0 0 0 0
0 0 0 0 1 1
0 0 0 1 0 1
0 0 0 1 1 0
¸

.
Calculando las cinco primeras potencias, se obtiene la matriz de alcanza-
bilidad asociada utilizando (4.3):
T =

¸
¸
¸
¸
¸
¸
¸
1 1 1 0 0 0
1 1 1 0 0 0
1 1 1 0 0 0
0 0 0 1 1 1
0 0 0 1 1 1
0 0 0 1 1 1
¸

.
A partir de la estructura de T, pueden distinguirse dos componentes conexas:
¦X
1
, X
2
, X
3
¦ y ¦X
4
, X
5
, X
6
¦. Esta conclusi´ on podr´ıa ser dif´ıcil de obtener
por medio de una reprentaci´ on gr´ afica. Por tanto, en grafos complejos, las
matrices de adyacencia y alcanzabilidad son herramientas ´ utiles para in-
vestigar la estructura topol´ ogica del grafo.
FIGURA 4.44. Ejemplo de un grafo inconexo.
4.8 Algunos Algoritmos para Grafos
En las secciones anteriores se han introducido varias propiedades y concep-
tos para analizar las caracter´ısticas de los grafos. En esta secci´on se intro-
ducen algunos algoritmos ´ utiles para comprobar si un grafo posee alguna de
esas propiedades. M´ as concretamente, dado un grafo, estamos interesados
en
4.8 Algunos Algoritmos para Grafos 163
1. Obtener un camino entre dos nodos.
2. Comprobar si el grafo es conexo y hallar sus componentes conexas.
3. Identificar si el grafo contiene bucles o ciclos.
No es nuestra intenci´ on mostrar los algoritmos ´ optimos para resolver cada
uno de estos problemas, sino mostrar, con la ayuda de ejemplos ilustrativos,
las ideas b´ asicas que subyacen a estos m´etodos. Los lectores interesados en
el dise˜ no de algoritmos eficientes pueden consultar los libros de Cormen,
Leiserson y Rivest (1990) y Golumbic (1980). Una descripci´ on m´ as de-
tallada de algoritmos para grafos puede encontrarse en Gibbons (1985),
McHugh (1990) y Skiena (1990).
4.8.1 M´etodos de B´ usqueda
Muchos algoritmos para grafos necesitan un mecanismo de b´ usqueda para
explorar los nodos y aristas de un grafo. Por ejemplo, entre otras cosas, los
algoritmos de b´ usqueda pueden ser utilizados para obtener un camino entre
dos nodos, o para buscar un bucle o ciclo en un grafo. Estos m´etodos son
la base para la construcci´ on de los algoritmos introducidos en esta secci´on.
La exploraci´ on de un grafo comienza en un nodo inicial y consiste en
la definici´ on de un criterio para moverse hacia adelante y hacia atr´ as a
trav´es de las aristas del grafo, pasando de un nodo a un nodo vecino en
cada etapa. Por tanto, la diferencia entre los distintos m´etodos de b´ usqueda
radica en el criterio elegido para moverse de un nodo a otro. Por ejemplo,
la Figura 4.45 muestra una b´ usqueda exhaustiva de un grafo comenzando
en el nodo A. Obs´ervese que, siguiendo la secuencia indicada en esta figura,
y pasando de un nodo a un nodo vecino en cada etapa, se pueden visitar
todos los nodos del grafo en un orden predeterminado: A, B, D, G, H,
C, E, I, F, J y K. Obs´ervese tambi´en que cualquier arista del grafo es
recorrida como m´aximo dos veces: una en la direcci´on de avance (l´ıneas
continuas) para alcanzar nuevos nodos y una en la direcci´ on de retroceso
(l´ıneas discontinuas) volviendo hacia atr´ as, a alg´ un nodo ya visitado.
En la literatura han sido propuestas numerosas t´ecnicas de b´ usqueda
heur´ısticas (ver, por ejemplo, Rich y Knight (1991)). En esta secci´ on se
analizan dos de las t´ecnicas m´as utilizadas para explorar un grafo:
• M´etodo de b´ usqueda en profundidad: En cada etapa del m´etodo
de b´ usqueda en profundidad se visita alguno de los vecinos no visita-
dos del nodo actual (ver Figura 4.46(a), donde los n´ umeros indican
el orden en que se visitan los nodos). En caso de que el nodo actual
no tenga ning´ un vecino no visitado, el algoritmo vuelve atr´ as al nodo
visitado anteriormente y el proceso de b´ usqueda continua hasta que
todos los nodos han sido visitados.
A
B C
D E F
H I G K J
1
2
3
4
9 8
7
10
11 12
13 14
15
16
6
5
17
A
1
B
2
C
6
D
3
E
7
F
9
H
5
I
8
G
4
K J
(a)
10
A
1
B
3
C
4
D
6
E
8
F
9
H
2
I
5
G
7
K J
(b)
10
164 4. Algunos Conceptos sobre Grafos
FIGURA 4.45. Ejemplo de un proceso de b´ usqueda.
• M´etodo de b´ usqueda en anchura: El m´etodo de b´ usqueda en
anchura visita los nodos del grafo capa a capa, comenzando en un
nodo inicial y visitando, en la primera etapa todos los vecinos del nodo
inicial. Despu´es, se selecciona alguno de estos vecinos como nuevo
nodo y se repite el proceso (ver Figura 4.46(b), donde los n´ umeros
indican el orden en que se visitan los nodos).
FIGURA 4.46. Ilustraci´on del m´etodo de b´ usqueda en profundidad (a) y de
b´ usqueda en anchura (b). Los n´ umeros indican el orden en que se visitan los
nodos
En las secciones siguientes se desarrollan varios algoritmos basados en
estos m´etodos.
4.8 Algunos Algoritmos para Grafos 165
4.8.2 Algoritmos de B´ usqueda de Caminos
Dado un grafo G = (X, L), se trata de encontrar un camino del nodo X
i
al
nodo X
j
, en caso de que exista. En esta secci´on se introducen dos algoritmos
de b´ usqueda de caminos basados en las dos estrategias anteriores. Para
este prop´ osito es m´as conveniente y eficiente utilizar la representaci´ on de
un grafo por medio de los conjuntos de adyacencia (ver Definici´ on 4.5).
El grafo no digido de la Figura 4.47(a) puede ser representado por (X, L),
donde X es el conjunto de nodos ¦A, B, C, D, E, F, G¦ y L es el conjunto de
aristas ¦L
1
, . . . , L
8
¦. Sin embargo, desde un punto de vista computacional,
la representaci´on del grafo por medio de sus conjuntos de adyacencia es
m´as adecuada:
Ady(A) = ¦B, C, D¦, Ady(B) = ¦A, E¦, Ady(C) = ¦A, F¦,
Ady(D) = ¦A, F¦, Ady(E) = ¦B, G¦, Ady(F) = ¦C, D, G¦,
Ady(G) = ¦E, F¦.
(4.4)
Por tanto, G = (X, L) puede ser representado tambi´en mediante G =
(X, Ady), donde Ady son los conjuntos de adyacencia dados en (4.4). Esta
representaci´on es m´as eficiente para los m´etodos de b´ usqueda pues evita
tener que comprobar todas las aristas del grafo para elegir el siguiente nodo
del proceso.
El grafo dirigido de la Figura 4.47(b) tiene los conjuntos siguientes de
adyacencia:
Ady(A) = ¦B, C, D¦, Ady(B) = ¦E¦, Ady(C) = ¦F¦,
Ady(D) = ¦F¦, Ady(E) = ¦G¦, Ady(F) = ¦G¦,
Ady(G) = φ.
(4.5)
Otra propiedad importante de los conjuntos de adyacencia es que propor-
cionan una representaci´ on independiente del car´ acter dirigido o no dirigido
del grafo. Por ejemplo, si nos diesen el grafo dirigido de la Figura 4.47(b)
y se quisiese realizar alguna operaci´ on de car´ acter no dirigido (obtener bu-
cles, caminos no dirigidos, etc.), bastar´ıa con considerar los conjuntos de
adyacencia correspondientes al grafo no dirigido asociado (4.4).
Bas´andose en las dos t´ecnicas de b´ usqueda descritas anteriormente, es
posible definir de forma sencilla los siguientes algoritmos de b´ usqueda de
caminos: b´ usqueda de caminos en profundidad y b´ usqueda de caminos en
anchura.
Algoritmo 4.8 B´ usqueda de caminos en profundidad
• Datos: Un grafo arbitrario (X, Ady) y dos nodos X
i
y X
j
.
• Resultado: Un camino Camino = ¦X
i
1
, . . . , X
i
r
¦ del nodo X
i
= X
i
1
al nodo X
j
= X
i
r
. Si no existe tal camino, entonces Camino = φ.
1. Iniciaci´ on: Tomar X
k
= X
i
, Camino = ¦X
i
¦ y V isitados = ¦X
i
¦.
A G
B
C
D
E
F
L
1
L
2
L
3
L
4
L
5
L
6
L
7
L
8
A G
B
C
D
E
F
L
1
L
2
L
3
L
4
L
5
L
6
L
7
L
8
(a) (b)
166 4. Algunos Conceptos sobre Grafos
FIGURA 4.47. Ejemplo de un grafo no dirigido (a) y dirigido (b).
2. Iteraci´ on: Si todos los nodos de Ady(X
k
) han sido ya visitados, o si
Ady(X
k
) = φ, ir a la Etapa 4; en caso contrario, ir a la Etapa 3.
3. Etapa de avance: Elegir un nodo X
r
∈ Ady(X
k
), tal que X
r

V isitados, y a˜ nadir X
r
a Camino y a V isitados. Si X
r
= X
j
, en-
tonces el algorimo finaliza con resultado Camino; en caso contrario,
tomar X
k
= X
r
e ir a la Etapa 2.
4. Etapa de retroceso: Si X
k
= X
i
, el algoritmo finaliza pues no hay
ning´ un camino de X
i
a X
j
; en caso contrario, eliminar X
k
de Camino,
asignar a X
k
el ´ ultimo nodo de Camino, e ir a la Etapa 2.
La Figura 4.48 muestra el pseudoc´ odigo para este algoritmo. En cada etapa
del algoritmo se actualizan las listas:
• Camino, que contiene un camino de X
i
al ´ ultimo nodo visitado.
• Visitados, que contiene los nodos que ya han sido visitados.
Ejemplo 4.20 B´ usqueda de caminos en profundidad. Dado el grafo
no dirigido de la Figura 4.49(a), se desea obtener un camino entre los nodos
A y F. En la Tabla 4.2 se recoge el resultado de aplicar el Algoritmo 4.8
a este grafo. Esta tabla muestra los valores del nodo actual X
k
, sus nodos
adyacentes a´ un no visitados Ady(X
k
) ` V isitados, y las listas Camino y
Visitados al final de la etapa indicada. Obs´ervese que en este caso no se
realiza ninguna etapa de retroceso para obtener el camino A−B−E−G−F
(ver Figura 4.49(a)).
Por otra parte, si se considera el grafo dirigido de la Figura 4.49(b), el
algoritmo de b´ usqueda de caminos en profundidad realiza diversas etapas
de avance y retroceso hasta encontrar el camino A →C →F. La Tabla 4.3
recoge las etapas de este ejemplo. En este caso, el proceso de b´ usqueda llega
en alg´ un momento al nodo G, pero Ady(G) = φ. Por tanto, el algoritmo
vuelve al nodo anterior para poder continuar el proceso de b´ usqueda (ver
Figura 4.49(b)).
A G
B
C
D
E
F
A G
B
C
D
E
F
(a) (b)
1
2
3
4
1
2
3
4
5
6
7
8
4.8 Algunos Algoritmos para Grafos 167
Algoritmo de B´ usqueda de Caminos en Profundidad
Datos: Un grafo (X, Ady) y dos nodos X
i
y X
j
.
Resultado: Un camino de X
i
a X
j
, o φ si no existe ning´ un camino.
Etapa Inicial:
X
k
←X
i
Camino ←¦X
i
¦
V isitados ←¦X
i
¦
Etapa de Iteraci´on:
si existe X
r
∈ Ady(X
k
) ` V isitados, entonces
a˜ nadir X
r
a V isitados y a Camino
si X
r
= X
j
, entonces
Terminar. Se ha hallado un camino.
en otro caso
Tomar X
k
←X
r
repetir la etapa de iteraci´ on.
en otro caso
si X
k
= X
i
, entonces
Terminar. No existe camino entre los nodos.
en otro caso
eliminar X
k
de Camino
X
k
← ´ ultimo nodo en Camino
repetir la etapa de iteraci´ on.
FIGURA 4.48. Pseudoc´odigo para el algoritmo de b´ usqueda de caminos en
profundidad.
FIGURA 4.49. Etapas del algoritmo de b´ usqueda de caminos en profundidad
para hallar un camino entre los nodos A y F en un grafo no dirigido (a) y en un
grafo dirigido (b).
168 4. Algunos Conceptos sobre Grafos
Etapas X
k
Ady(X
k
) ` V isitados Visitados Camino
1 A ¦B, C, D¦ ¦A¦ ¦A¦
2, 3 B ¦E¦ ¦A, B¦ ¦A, B¦
2, 3 E ¦G¦ ¦A, B, E¦ ¦A, B, E¦
2, 3 G ¦F¦ ¦A, B, E, G¦ ¦A, B, E, G¦
2, 3 F ¦C, D, G¦ ¦A, B, E, G, F¦ ¦A, B, E, G, F¦
TABLA 4.2. Etapas del algoritmo de b´ usqueda de caminos en profundidad para
hallar un camino entre los nodos A y F en el grafo de la Figura 4.47(a).
Etapas X
k
Ady(X
k
) ` V isitados Visitados Camino
1 A ¦B, C, D¦ ¦A¦ ¦A¦
2, 3 B ¦E¦ ¦A, B¦ ¦A, B¦
2, 3 E ¦G¦ ¦A, B, E¦ ¦A, B, E¦
2, 3 G φ ¦A, B, E, G¦ ¦A, B, E, G¦
2, 4 E φ ¦A, B, E, G¦ ¦A, B, E¦
2, 4 B φ ¦A, B, E, G¦ ¦A, B¦
2, 4 A ¦C, D¦ ¦A, B, E, G¦ ¦A¦
2, 3 C ¦F¦ ¦A, B, E, G, C¦ ¦A, C¦
2, 3 F φ ¦A, B, E, G, C, F¦ ¦A, C, F¦
TABLA 4.3. Etapas del algoritmo de b´ usqueda de caminos en profundidad para
hallar un camino entre los nodos A y F en el grafo de la Figura 4.47(b).
Dada la forma en que est´ a implementado el Algoritmo 4.8, siempre se
obtienen caminos simples, es decir, caminos que no contienen dos veces el
mismo nodo (no contienen bucles ni ciclos). Sin embargo, como se ver´ a en la
Secci´on 4.8.4, el algoritmo anterior puede modificarse f´ acilmente para hallar
bucles y ciclos. Por otra parte, el camino encontrado por este algoritmo no
es, generalmente, el camino m´as corto entre los nodos.
A continuaci´ on se considera la estrategia de b´ usqueda en anchura descri-
biendo un algoritmo para comprobar si existe un camino entre un par de
nodos dados. La obtenci´ on del camino concreto se deja como ejercicio al
lector.
Algoritmo 4.9 B´ usqueda de caminos en anchura.
• Datos: Un grafo arbitrario (X, Ady) y dos nodos X
i
y X
j
.
• Resultado: Existencia o no de un camino entre X
i
y X
j
.
1. Iniciaci´ on: Definir V isitados = φ y Cola = ¦X
i
¦.
2. Iteraci´ on: Seleccionar el primer nodo, X
k
, en la lista Cola, eliminarlo
de esta lista y a˜ nadirlo a V isitados.
4.8 Algunos Algoritmos para Grafos 169
Algoritmo de B´ usqueda de Caminos en Anchura
Datos: Un grafo (X, Ady) y dos nodos X
i
y X
j
.
Resultado: Existencia de un camino de X
i
a X
j
.
Etapa Inicial:
Cola ←¦X
i
¦
V isitados ←φ
Etapa de Iteraci´on:
X
k
← primer nodo en Cola
Eliminar X
k
de Cola
A˜ nadir X
k
a V isitados
si X
k
= X
j
, entonces
Terminar (existe un camino de X
i
a X
j
).
en otro caso
S ←Ady(X
k
) ` V isitados
si S = φ entonces
A˜ nadir S al comienzo de Cola
Repetir la etapa de iteraci´ on.
en otro caso
si Cola = φ, entonces
Terminar (no existe ning´ un camino de X
i
a X
j
).
en otro caso
Repetir la etapa de iteraci´ on.
FIGURA 4.50. Pseudoc´odigo del algoritmo de b´ usqueda de caminos en anchura.
3. Si X
k
= X
j
, entonces existe un camino entre X
i
y X
j
y el algoritmo
finaliza. En caso contrario, si todos los vecinos de X
k
han sido visi-
tados previamente, ir a la Etapa 4; en caso contrario, ir a la Etapa
5.
4. Si Cola = φ, entonces no existe ning´ un camino entre X
i
y X
j
y el
algoritmo finaliza. En caso contrario, ir a la Etapa 2.
5. A˜ nadir a la lista Cola todos los nodos no visitados de Ady(X
k
) e ir
a la Etapa 2.
La Figura 4.50 muestra el pseudoc´ odigo del algoritmo de b´ usqueda de
caminos en anchura. En cada etapa del algoritmo, se actualizan las si-
guientes listas:
• Visitados, que contiene los nodos que ya han sido visitados.
170 4. Algunos Conceptos sobre Grafos
Etapas Nodo X
k
V isitados Cola
1 − φ ¦A¦
2 A ¦A¦ ¦¦
3,5 A ¦A¦ ¦B, C, D¦
2 B ¦A, B¦ ¦C, D¦
3,5 B ¦A, B¦ ¦C, D, E¦
2 C ¦A, B, C¦ ¦D, E¦
3,5 C ¦A, B, C¦ ¦D, E, F¦
2 D ¦A, B, C, D¦ ¦E, F¦
3,4 D ¦A, B, C, D¦ ¦E, F¦
2 E ¦A, B, C, D, E¦ ¦F¦
3,5 E ¦A, B, C, D, E¦ ¦F, G¦
2 F ¦A, B, C, D, E, F¦ ¦G¦
TABLA 4.4. Etapas del algoritmo de b´ usqueda de caminos en anchura para
comprobar si existe un camino entre los nodos A y F.
• Cola, que contiene los nodos en cola pendientes de visitar.
Si durante el proceso de ejecuci´ on de este algoritmo se alcanza el nodo
X
j
, entonces se habr´a hallado un camino. En caso contrario, despu´es de la
b´ usqueda exhaustiva de un camino, el algoritmo concluye que tal camino
no existe.
Ejemplo 4.21 B´ usqueda de caminos en anchura. En este ejemplo se
utiliza el algoritmo de b´ usqueda en anchura para comprobar si existe alg´ un
camino entre los nodos A y F en los grafos no dirigido y dirigido de la
Figura 4.51. En este caso, el algoritmo sigue las mismas etapas en ambos
grafos. La Tabla 4.4 muestra los valores de las variables que intervienen en
cada etapa de este proceso. El algoritmo finaliza en la Etapa 3, concluyendo
que existe un camino entre los nodos.
La complejidad de los algoritmos anteriores es lineal en el n´ umero de aristas
y nodos del grafo. La eficiencia de cada uno de estos algoritmos depender´ a
de la topolog´ıa particular que se tenga en cada caso. En general, el algoritmo
de b´ usqueda en profundidad es m´ as eficiente que el de b´ usqueda en anchura
cuando los caminos que unen los nodos inicial y final son largos (ver Figura
4.52); en cambio, la situaci´ on es la contraria si los nodos est´an unidos por
caminos cortos.
4.8.3 Comprobando la Conexi´ on de un Grafo
Los m´etodos de b´ usqueda descritos anteriormente tambi´en pueden uti-
lizarse para comprobar si un grafo es conexo. La idea es realizar una
b´ usqueda exhaustiva de los nodos del grafo, obteniendo el conjunto S de
A G
B
C
D
E
F
A G
B
C
D
E
F
(a) (b)
1
3
4
2
5
1
3
4
2
5
A G
B
C
D
E
F
(a)
A G
B
C
D
E
F
(b)
1
2
3
1
2
2
1
1
2
3
4.8 Algunos Algoritmos para Grafos 171
FIGURA 4.51. Etapas del algoritmo de b´ usqueda de caminos en anchura para
comprobar si existe un camino entre los nodos A y F.
FIGURA 4.52. B´ usqueda de un camino entre los nodos A y G con el algoritmo
de b´ usqueda en profundidad (a) y en anchura (b).
nodos que son alcanzables desde un nodo inicial. Si el grafo es conexo, en-
tonces el conjunto S contendr´ a todos los nodos del grafo; en caso contrario,
el subconjunto de nodos S s´olo contendr´ a la componente conexa del grafo
que contiene al nodo inicial.
Los Algoritmos 4.8 y 4.9 pueden ser utilizados para realizar una b´ usqueda
exhaustiva considerando el mismo nodo inical y final, es decir, el con-
junto V isitados resultante de la ejecuci´on de estos algoritmos contendr´ a la
componente conexa correspondiente a X
i
.
Algoritmo 4.10 B´ usqueda de componentes conexas.
• Datos: Un grafo (X, Ady).
• Resultado: El conjunto de componentes conexas C de (X, Ady).
1. Iniciaci´ on: Definir V isitados = φ, C = φ.
2. Si X` V isitados = φ, finalizar y devolver C; en caso contrario, elegir
un nodo de X
i
∈ X ` V isitados e ir a la Etapa 3.
172 4. Algunos Conceptos sobre Grafos
3. Utilizar el Algoritmo 4.8 ´ o 4.9 para realizar una b´ usqueda exhaustiva
del grafo (X, Ady) comenzando en el nodo X
i
y obtener el conjunto
S de nodos visitados.
4. A˜ nadir S a C. A˜ nadir a V isitados todos los nodos en S. Ir a la Etapa
2.
Si el conjunto C contiene una s´ ola componente conexa, entonces el grafo
es conexo; en caso contrario, el grafo es inconexo y C contiene todas las
componentes conexas del grafo.
Ejemplo 4.22 B´ usqueda de Componentes Conexas. En la Secci´ on
4.3.2 se ha visto que el grafo no dirigido dado en la Figura 4.53(a) es
inconexo. Utilizando el Algoritmo 4.10 se pueden calcular sus componentes
conexas.
• Inicialmente se considera V isitados = φ y C = φ.
• X ` V isitados = X = ¦A, B, C, D, E, F¦. Se elige el primero de
estos nodos como nodo inicial X
k
= A para la primera b´ usqueda
exhaustiva.
• Se utiliza el Algoritmo 4.8 con X
i
= X
j
= A, obteni´endose el conjunto
de nodos visitados S = C
1
= ¦A, C, E¦.
• Por tanto, se tiene C = ¦C
1
¦ y V isitados = ¦A, C, E¦.
• X ` V isitados = ¦B, D, F¦. Se toma X
k
= B.
• Utilizando de nuevo el Algoritmo 4.8 con X
i
= X
j
= B, se obtiene el
conjunto de nodos visitados C
2
= ¦B, D, F¦.
• Ahora se tiene V isitados = ¦A, C, E, B, D, F¦, C = ¦C
1
, C
2
¦.
• Dado que X ` V isitados = φ, el algoritmo finaliza obteniendo C.
Entre las componentes conexas est´an los subconjuntos C
1
= ¦A, C, E¦ y
C
2
= ¦B, D, F¦. Por tanto, el grafo de la Figura 4.53(a) es inconexo y
contiene las dos componentes conexas, C
1
y C
2
, tal y como se muestra en
la Figura 4.53(b).
4.8.4 B´ usqueda de Bucles y Ciclos
Como ya se mencion´o al final del Ejemplo 4.20, los algoritmos de b´ usqueda
de caminos pueden modificarse f´ acilmente para hallar bucles o ciclos en
un grafo. En esta secci´ on se muestan las modificaciones necesarias para
adaptar el algoritmo de b´ usqueda en profundidad para esta tarea. Dado
que el objetivo de este algoritmo es hallar un camino cerrado (un bucle o
(b)
A
B
C D
E
F
(a)
A
B
C D
E
F
C
2
C
1
4.8 Algunos Algoritmos para Grafos 173
FIGURA 4.53. Grafo no dirigido inconexo (a) y sus componentes conexas (b).
un ciclo), se puede utilizar el Algoritmo 4.8 comprobando en cada etapa si
hay alg´ un nodo contenido en el camino que tambi´en est´e contenido en la
lista de nodos adyacentes del nodo actual. Los caminos cerrados resultantes
ser´an bucles (si el grafo es no dirigido) o ciclos (si el grafo es dirigido). El
algoritmo selecciona un nodo inicial arbitrario y busca de forma exhaustiva
un camino cerrado en el grafo.
Algoritmo 4.11 B´ usqueda de caminos cerrados en profundidad.
• Datos: Un grafo (X, Ady).
• Resultado: Un camino cerrado, Camino. Si el grafo no contiene
ning´ un camino cerrado, entonces Camino = φ.
1. Iniciaci´ on: Definir Camino = φ y V isitados = φ.
2. Si existe alg´ un nodo X
i
∈ X ` V isitados, ir a la Etapa 3; en caso
contrario, el algoritmo finaliza (no existe ning´ un camino cerrado en
el grafo).
3. A˜ nadir X
i
a V isitados y tomar Camino = ¦X
i
¦, tomar X
k
= X
i
y
Previo = X
i
.
4. Iteraci´ on: Si existe alg´ un nodo X
r
∈ Ady(X
k
) ∩ Camino, con X
r
=
Previo, entonces a˜ nadir X
r
a Camino y finalizar (se ha encontrado
un camino cerrado); en caso contrario, ir a la Etapa 5.
5. Si todos los nodos de Ady(X
k
) han sido ya visitados, o Ady(X
k
) = φ,
ir a la Etapa 7; en caso contrario, ir a la Etapa 6.
6. Etapa de Avance: Elegir alg´ un nodo X
r
∈ Ady(X
k
), tal que X
r

V isitados. Definir Previo = X
k
, a˜ nadir X
r
a Camino y V isitados,
tomar X
k
= X
r
, e ir a la Etapa 4.
7. Etapa de Retroceso: Eliminar X
k
de Camino. Si X
k
= X
i
, ir a la
Etapa 2; en caso contrario, asignar a X
k
el ´ ultimo nodo en Camino,
e ir a la Etapa 5.
(b)
A
D F
G
B
C
(a)
A
D F
G
B
C
1
2 3
6
7
1
2 3
4
4
5 5
8
174 4. Algunos Conceptos sobre Grafos
El algoritmo anterior considera un nodo arbitrario del grafo, X
i
, como nodo
incial. Si no se encuentra ning´ un camino cerrado (el algoritmo vuelve al
nodo original), entonces se comprueba si todos los nodos han sido visitados
concluy´endose, en ese caso, que no existe ning´ un camino cerrado en el
grafo; en caso contrario, el algoritmo elige alguno de los nodos no visitados
como nodo inicial y repite el proceso. La forma en que este algoritmo est´a
concebido hace que no s´olo sea v´alido para grafos dirigidos y no dirigidos,
sino tambi´en para grafos conexos e inconexos. El siguiente ejemplo ilustra
la aplicaci´ on de este algoritmo.
Ejemplo 4.23 B´ usqueda de Bucles y Ciclos. Consid´erese el grafo no
dirigido dado en la Figura 4.54(a) que contiene dos bucles, A−B−D−A y
D−G−F −D. Sup´ ongase que se aplica el Algoritmo 4.11 comenzando en
el nodo A. La Tabla 4.5 muestra las etapas seguidas por el algoritmo. Esta
tabla muestra, en cada etapa del algoritmo, el nodo X
k
, el nodo Previo
asociado, el Camino actual, el conjunto Ady(X
k
) ∩ Camino, que se uti-
liza para indicar si existe alg´ un camino cerrado, y el conjunto V isitados
que contiene los nodos que han sido visitados. Las etapas seguidas por el
algoritmo se ilustran en la Figura 4.54(a).
Estas etapas se resumen de la siguiente forma, donde se utiliza el orden
alfab´etico para seleccionar los nodos: Inicialmente se viaja de A a B y de
B a C. Al alcanzar el nodo C ya no es posible avanzar, luego se vuelve
un paso atr´ as, al nodo B y se viaja al ´ unico vecino a´ un no visitado, D. El
conjunto Ady(D) ∩ Camino contiene al nodo A, que no es el nodo Previo
a D. Por tanto, se ha encontrado el bucle A − B − D − A. Si se ignorase
el nodo A se podr´ıa continuar viajando, buscando un bucle distinto. De
esta forma se pueden obtener todos los bucles contenidos en el grafo. Por
ejemplo, si en la Etapa 5 se eligiese el nodo G o F en lugar del nodo A, se
obtendr´ıa un bucle distinto: D −G−F −D.
FIGURA 4.54. Etapas del algoritmo de b´ usqueda de caminos cerrados en
profundidad para un grafo no dirigido (a) y un grafo dirigido (b).
4.8 Algunos Algoritmos para Grafos 175
Etapa X
k
Previo Camino V isitados
1 − − φ φ
2, 3 A A ¦A¦ ¦A¦
4, 5, 6 B A ¦A, B¦ ¦A, B¦
4, 5, 6 C B ¦A, B, C¦ ¦A, B, C¦
4, 5, 7 B B ¦A, B¦ ¦A, B, C¦
5, 6 D B ¦A, B, D¦ ¦A, B, C, D¦
4 A − ¦A, B, D, A¦ ¦A, B, C, D¦
TABLA 4.5. Etapas del Algoritmo 4.11 para buscar bucles en el grafo no dirigido
de la Figura 4.54(a).
Etapa X
k
Previo Camino V isitados
1 − − φ φ
2, 3 A A ¦A¦ ¦A¦
4, 5, 6 B A ¦A, B¦ ¦A, B¦
4, 5, 6 C B ¦A, B, C¦ ¦A, B, C¦
4, 5, 7 B B ¦A, B¦ ¦A, B, C¦
5, 7 A B ¦A¦ ¦A, B, C¦
5, 6 D A ¦A, D¦ ¦A, B, C, D¦
4, 5, 6 G D ¦A, D, G¦ ¦A, B, C, D, G¦
4, 5, 6 F G ¦A, D, G, F¦ ¦A, B, C, D, G, F¦
4 F G ¦A, D, G, F, D¦ ¦A, B, C, D, G, F¦
TABLA 4.6. Etapas del Algoritmo 4.11 para hallar alg´ un ciclo en el grafo de la
Figura 4.54(b).
Consid´erese ahora el grafo dirigido c´ıclico de la Figura 4.54(b). Procedien-
do de la misma forma que en el caso anterior, y comenzando en el nodo A,
el algoritmo realiza las etapas indicadas en la Tabla 4.6 y la Figura 4.54(b).
En este caso, el algoritmo termina hallando el ciclo D → G → F → D.
Obs´ervese que el grafo de la Figura 4.54(a) es el grafo no dirigido asociado
a este grafo dirigido. Por tanto, sin m´ as que cambiar los conjuntos de
adyacencia se pueden obtener los ciclos de un grafo dirigido, o los bucles
del grafo no dirigido asociado.
Ejercicios
4.1 Dado un grafo conexo G = (X, L) y una cualquiera de sus aristas
L
i j
∈ L, demostrar que las siguientes afirmaciones son equivalentes:
A G
E
C
B
D
F
176 4. Algunos Conceptos sobre Grafos
(a) El grafo (X, L ` ¦L
i j
¦) es conexo.
(b) La arista L
i j
est´a contenida en alg´ un bucle del grafo.
4.2 Dado un grafo no dirigido G, demostrar que las siguientes afirma-
ciones son equivalentes:
(a) Existe un ´ unico camino entre cada par de nodos en G.
(b) G es conexo, pero al eliminar una cualquiera de sus aristas se
vuelve inconexo.
(c) G no tiene bucles, pero al a˜ nadir una arista cualquiera se forma
un bucle.
Por tanto, estas condiciones proporcionan tres definiciones alternati-
vas de ´arbol.
4.3 Demostrar que cualquier grafo que contenga un n´ umero igual o mayor
de aristas que de nodos contiene al menos un bucle.
4.4 Consid´erese el grafo de la Figura 4.55:
(a) Encontrar los conjuntos de nodos ascendentes y descendentes
del nodo C.
(b) ¿Cu´ al es la frontera del conjunto ¦B, C¦ en el grafo no dirigido
asociado?
(c) Repetir los c´alculos anteriores en el grafo que resulta de invertir
las aristas A →C y C →E en el grafo de la Figura 4.55.
(d) ¿Qu´e puede decirse sobre los conjuntos de nodos ascendentes
y descendentes asociados a un nodo contenido en el ciclo A →
B →E →C →A?
FIGURA 4.55. Ejemplo de un grafo dirigido.
4.5 Demostrar que un grafo que contiene un bucle de longitud 4 o mayor
sin ninguna cuerda no posee una numeraci´ on perfecta. Es decir, pro-
bar que las numeraciones perfectas son exclusivas de grafos triangu-
lados.
F
A H
G C E
B D
H
D
E
A
B
C
F
G
4.8 Algunos Algoritmos para Grafos 177
4.6 Completar el Ejemplo 4.10, comprobando que las dos numeraciones
mostradas en la Figura 4.24 son numeraciones perfectas del grafo
dado.
4.7 Triangular el grafo de la Figura 4.55 utilizando el algoritmo de tri-
angulaci´ on por m´ axima cardinalidad (Algoritmo 4.2). ¿Cuantas tri-
angulaciones distintas posee el grafo?. ¿Cu´ al de ellas es la mejor?
Construir un ´ arbol de familias del grafo dirigido original y un ´ arbol
de uni´ on del grafo triangulado resultante.
4.8 Repetir el ejercicio anterior considerando el grafo de la Figura 4.56.
FIGURA 4.56. Un grafo dirigido.
4.9 Triangular el grafo de la Figura 4.57 utilizando el algoritmo de tri-
angulaci´ on por m´ axima cardinalidad eligiendo el nodo F como nodo
inicial. Seguir las mismas etapas que en el Ejemplo 4.11.
FIGURA 4.57. Un grafo no dirigido y no triangulado.
4.10 Probar que los grafos dirigidos ac´ıclicos son el ´ unico tipo de grafos
dirigidos que poseen una numeraci´ on ancestral.
178 4. Algunos Conceptos sobre Grafos
4.11 Dado un grafo con la siguiente matriz de adyacencia:
A =

¸
¸
¸
¸
¸
¸
¸
0 0 1 1 0 1
0 0 1 0 1 1
0 0 0 1 1 0
0 0 0 0 0 1
0 0 0 0 0 1
0 0 0 0 0 0
¸

.
• ¿Se trata de un grafo dirigido o no dirigido?
• Dibujar el grafo.
• ¿Es conexo?
• ¿Cuantos caminos de longitud 3 existen entre cada par de nodos
distintos?
4.12 Probar el Teorema 4.9.
4.13 ¿Qu´e se puede decir acerca de un grafo cuya matriz de alcanzabilidad
tiene ceros en todos los elementos de la diagonal?
4.14 Calcular el n´ umero de caminos de longitud m que unen dos nodos en
un grafo completo de n nodos, K
n
(ver Definici´ on 4.8).
4.15 Modificar el algoritmo de b´ usqueda de caminos en anchura (Algo-
ritmo 4.9) para hallar un camino entre dos nodos.
4.16 Aplicar el algoritmo de b´ usqueda de caminos en profundidad (Algo-
ritmo 4.8) para encontrar un camino del nodo A a G en el grafo de la
Figura 4.55. Proceder eligiendo los nodos en orden alfab´etico. ¿Qu´e
pasar´ıa si se eliminase del grafo la arista E →G?
4.17 Utilizar el algoritmo de b´ usqueda de caminos en profundidad (Algo-
ritmo 4.11) para encontrar bucles en el grafo de la Figura 4.55. Cons-
truir la tabla de nodos Visitados y la lista Camino en cada etapa del
algoritmo. ¿Qu´e pasar´ıa si se eliminase del grafo la arista A →B?
4.18 Escribir y ejecutar un programa para cada uno de los siguientes
algoritmos:
• B´ usqueda de m´ axima cardinalidad (Algoritmo 4.1).
• Triangulaci´ on por m´ axima cardinalidad (Algoritmo 4.2).

´
Arbol de uni´ on por m´ axima cardinalidad (Algoritmo 4.4).
• Representaci´on multinivel (Algoritmo 4.6).
• B´ usqueda de caminos en profundidad (Algoritmo 4.8).
• B´ usqueda de caminos en anchura (Algoritmo 4.9).
• B´ usqueda de componentes conexas de un grafo (Algoritmo 4.10).
• B´ usqueda de bucles en profundidad (Algoritmo 4.11).
This is page 179
Printer: Opaque this
Cap´ıtulo 5
Construcci´ on de Modelos
Probabil´ısticos
5.1 Introducci´ on
En el Cap´ıtulo 3 se ha visto que la base de conocimiento de un sistema
experto probabil´ıstico esta formada por un conjunto de variables y un mo-
delo probabil´ıstico (una funci´ on de probabilidad conjunta) que describa las
relaciones entre ellas. Por tanto, el funcionamiento del sistema experto de-
pende de la correcta definici´ on de la funci´ on de probabilidad conjunta que
define el modelo probabil´ıstico. Con el fin de que el proceso de definici´ on
del modelo sea lo m´as preciso posible, es conveniente seguir los siguientes
pasos:
1. Planteamiento del problema. Como ya se mencion´o en el Cap´ıtulo
1, el primer paso en el desarrollo de un sistema experto es la definici´ on
del problema a resolver. Por ejemplo, el problema del diagn´ ostico
m´edico es un ejemplo cl´asico en el campo de los sistemas expertos:
Dado que un paciente presenta una serie de s´ıntomas, ¿cu´al es la enfer-
medad m´as probable en esa situaci´ on?. La definici´ on del problema es
un paso crucial en el desarrollo del modelo, pues un mal planteamiento
inicial tendr´ a consecuencias fatales para el modelo desarrollado.
2. Selecci´on de variables. Una vez que el problema ha sido definido,
el siguiente paso consiste en seleccionar un conjunto de variables que
sean relevantes para su definici´ on (esta tarea debe ser realizada por
expertos en el problema a analizar). Por ejemplo, las variables rele-
vantes para el problema de diagn´ ostico m´edico son las enfermedades
180 5. Construcci´on de Modelos Probabil´ısticos
y sus correspondientes s´ıntomas. Las variables relevantes para la
definici´ on de un modelo han de ser cuidadosamente seleccionadas a
fin de eliminar posibles redundancias. Por ejemplo, en un problema
de diagn´ ostico m´edico habr´ an de elegirse aquellos s´ıntomas que mejor
discriminen el conjunto de enfermedades dado.
3. Adquisici´on de informaci´on relevante. Una vez que se ha reali-
zado el planteamiento inicial del problema, el siguiente paso consiste
en la adquisici´ on y an´ alisis de toda la informaci´ on (datos) que sea
relevante para la definici´ on del modelo. La informaci´ on puede ser
cuantitativa o cualitativa, obtenida de un experto, o de una base
de datos. Esta informaci´ on deber´ a ser cuidadosamente analizada uti-
lizando t´ecnicas de dise˜ no experimental apropiadas. Es importante
contar en esta etapa con la ayuda de especialistas en Estad´ıstica,
pues el uso de m´etodos estad´ısticos permite mejorar la calidad de
los datos y confirmar la validez de los m´etodos empleados para la
obtenci´ on de las conclusiones.
4. Construcci´ on del modelo probabil´ıstico. Una vez que se conoce
un conjunto de variables relevantes para el problema a analizar, y que
se ha adquirido suficiente informaci´ on para su definici´ on, el siguiente
paso consiste en la definici´on de una funci´ on de probabilidad conjunta
que describa las relaciones entre las variables.
´
Este es, quiz´as, el paso
m´as cr´ıtico y dif´ıcil en el desarrollo de un sistema experto:
(a) Es cr´ıtico porque la bondad de los resultados del sistema experto
depender´ a de la precisi´ on con que se haya definido la funci´ on de
probabilidad conjunta, es decir, la calidad de los resultados no
podr´ a superar a la calidad del modelo. Por tanto, una incorrecta
definici´ on del modelo probabil´ıstico redundar´ a en un sistema
experto que dar´ a conclusiones err´oneas y/o contradictorias.
(b) La estructura de la funci´ on de probabilidad conjunta (es decir, la
estructura de dependencia e independencia entre las variables)
no suele ser conocida en la pr´ actica. Por tanto, habr´ a de ser
inferida del conjunto de datos obtenidos previamente. Por tanto,
la calidad del modelo tampoco podr´ a superar la calidad de los
datos relevantes disponibles.
(c) La estructura del modelo probabil´ıstico puede depender de un
n´ umero muy elevado de par´ ametros que complican su definici´ on
(ver Secci´on 3.5). Cuanto mayor sea el n´ umero de par´ ametros
m´as complicada ser´a la asignaci´ on de valores num´ericos concre-
tos en el proceso de definici´on del modelo. En cualquier caso, esta
asignaci´ on habr´ a de ser realizada por un experto, o estimada a
partir de la informaci´ on disponible.
5.2 Criterios de Separaci´on Gr´afica 181
Los dos pr´ oximos cap´ıtulos est´an dedicados a la construcci´ on de modelos
probabil´ısticos (funciones de probabilidad conjunta) que definen la base de
conocimiento de este tipo de sistemas expertos. Para ello, existen distintas
metodolog´ıas
• Modelos definidos gr´ aficamente.
• Modelos definidos por un conjunto de relaciones de independencia
condicional.
Estas dos metodolog´ıas se analizan en los Cap´ıtulos 6 y 7, respecti-
vamente. En este cap´ıtulo se introducen los conceptos necesarios. En la
Secci´on 5.2 se describen algunos criterios de separaci´ on gr´ afica que per-
miten obtener las relaciones de independencia condicional asociadas a un
grafo. Se recuerda al lector que una relaci´ on de independencia condicional,
o simplemente una independencia, denotada por I(X, Y [Z), significa que
“X e Y son condicionalmente independientes dado Z”, donde X, Y y Z
son subconjuntos disjuntos de un conjunto de variables ¦X
1
, . . . , X
n
¦ (ver
Secci´on 3.2.3). Cuando la relaci´ on de independencia es obtenida mediante
un criterio de separaci´ on gr´ afico se emplea, de forma equivalente, la termi-
nolog´ıa “X e Y est´an separados por Z”. En la Secci´ on 5.3 se introducen
varias propiedades de la independencia condicional. Dada una lista inicial
de relaciones de independencia, estas propiedades permiten obtener inde-
pendencias adicionales que estar´an contenidas en el modelo probabil´ıstico.
La Secci´on 5.5 analiza distintas formas de factorizar una funci´ on de proba-
bilidad conjunta mediante un producto de funciones de probabilidad con-
dicionada. Finalmente, en la Secci´ on 5.6 se describen los pasos necesarios
para la construcci´ on de un modelo probabil´ıstico.
5.2 Criterios de Separaci´ on Gr´ afica
Los grafos son herramientas muy potentes para describir de forma intuitiva
las relaciones de dependencia e independencia existentes en un conjunto de
variables ¦X
1
, . . . , X
n
¦. Por tanto, una forma de definir un modelo proba-
bil´ıstico es partir de un grafo que describa las relaciones existentes entre
las variables (este grafo puede venir dado, por ejemplo, por un experto en
el tema). Este planteamiento motiva el siguiente problema:
• Problema 5.1. ¿Pueden representarse las estructuras de dependen-
cia e independencia definidas por un grafo (dirigido o no dirigido)
de forma equivalente por un conjunto de relaciones de independen-
cia condicional? En caso afirmativo, ¿c´ omo se puede obtener este
conjunto?
La respuesta al problema anterior es afirmativa, y una forma de obtener
este conjunto de independencias es utilizar un criterio de separaci´ on gr´ afica
182 5. Construcci´on de Modelos Probabil´ısticos
para comprobar cu´ ales, de entre todas las posibles relaciones de indepen-
dencia condiconal, son satisfechas por el grafo. Los criterios de separaci´ on
gr´ afica son las reglas para entender c´ omo pueden codificarse dependencias
e independencias en un grafo. Estos criterios dependen del tipo de grafo
(dirigido o no dirigido) que se est´e considerando.
5.2.1 Separaci´ on en Grafos no Dirigidos
En muchas situaciones pr´ acticas, las relaciones existentes entre un con-
junto de variables ¦X
1
, . . . , X
n
¦ pueden ser representadas por un grafo no
dirigido G. Como ya se mencion´o en el Cap´ıtulo 4, cada variable puede ser
representada por un nodo del grafo. Si dos variables son dependendientes,
esta relaci´on puede representarse por un camino que conecte estos nodos.
Por otra parte, si dos variables son independientes, entonces no deber´ a
existir ning´ un camino que una estos nodos. De esta forma, el concepto de
dependencia entre variables puede relacionarse con el concepto de conexi´ on
entre nodos.
De forma similar, si la dependencia entre las variables X e Y es indirecta,
a trav´es de una tercera variable Z (es decir, si X e Y son condicionalmente
dependientes dada Z), el nodo Z se representar´a de forma que no intersecte
todos los caminos entre X y Y , es decir, Z no es un conjunto de corte (en
ingl´es, cutset) de X e Y . Esta correspondencia entre dependencia condi-
cional y separaci´ on en grafos no dirigidos constituye la base de la teor´ıa de
los campos de Markov (Isham (1981), Lauritzen (1982), Wermuth y Lau-
ritzen (1983)), y ha sido caracterizada axiom´ aticamente de formas diversas
(Pearl y Paz (1987)).
Para representar relaciones de independencia condicional por medio de
grafos no dirigidos se necesita definir de forma precisa un criterio de se-
paraci´ on apropiado, bas´ andose en las ideas anteriormente expuestas. Este
criterio se conoce como criterio de U-separaci´ on. A continuaci´ on se da una
definici´ on de este criterio y un algoritmo que permite su aplicaci´ on.
Definici´on 5.1 U-separaci´on. Sean X, Y y Z tres conjunto disjuntos
de nodos de un grafo no dirigido G. Se dice que Z separa X e Y si y s´ olo
si cada camino entre nodos de X y nodos de Y contiene alg´ un nodo de Z.
Cuando Z separe X e Y en G, y se denotar´ a I(X, Y [Z)
G
para indicar que
esta relaci´ on de independencia se deriva de un grafo G; en caso contrario,
se denotar´a por D(X, Y [Z)
G
, para indicar que X e Y son condicionalmente
dependientes dada Z, en el grafo G.
Se dice que X es gr´ aficamente independiente de Y dada Z si Z separa
X e Y . Por tanto, el criterio de U-separaci´on permite obtener la lista de
relaciones de independencia asociadas a un grafo no dirigido. Este criterio
da la soluci´ on al Problema 5.1 para grafos no dirigidos. El caso de grafos
dirigidos se analizar´ a en la Secci´on 5.2.2.
5.2 Criterios de Separaci´on Gr´afica 183
Ejemplo 5.1 U-separaci´on. La Figura 5.1 ilustra cuatro casos distintos
del concepto de U-separaci´on En todos los casos, los tres conjuntos de
inter´es est´an contenidos en cajas para su diferenciaci´ on: la caja asociada con
el primer conjunto no est´ a sombreada, la segunda tiene un sombreado claro,
y la tercera (la asociada con el conjunto separador) muestra un sombreado
oscuro.
• En la Figura 5.1(a), las variables A e I son condicionalmente inde-
pendientes dada E, pues cada camino entre A e I contiene al nodo
E. Por tanto, I(A, I[E)
G
.
• En la Figura 5.1(b), los nodos A e I son condicionalmente dependien-
tes dada B. En este caso, existe un camino, (A−C −E −I), que no
contiene al nodo B.
• En la Figura 5.1(c), los subconjuntos ¦A, C¦ y ¦D, H¦ son condi-
cionalmente independientes dado el conjunto ¦B, E¦, pues cada ca-
mino entre los dos conjuntos contiene, o bien a B, o bien a E. Por
tanto, se tiene
I(¦A, C¦, ¦D, H¦[¦B, E¦)
G
.
• Finalmente, en la Figura 5.1(d), los subconjuntos ¦A, C¦ y ¦D, H¦
son condicionalmente dependientes dado ¦E, I¦, pues el camino (A−
B −D¦ no contiene ninguna de las variables E e I. Por tanto,
D(¦A, C¦, ¦D, H¦[¦E, I¦)
G
.
Siguiendo un proceso an´ alogo, se puede comprobar si el grafo satisface
cualquier otra relaci´ on de independencia.
5.2.2 Separaci´ on en Grafos Dirigidos
Para comprobar si un grafo dirigido verifica una relaci´ on de independencia
dada, es necesario introducir otro criterio de separaci´ on, conocido como
criterio de D-separaci´ on. Con el fin de dar una idea intuitiva de este con-
cepto, consid´erese el siguiente ejemplo en el que intervienen seis variables
relacionadas de la forma que se muestra en la Figura 5.2:
• L: Situaci´ on laboral.
• G: Ganancias por inversiones.
• E: Situaci´ on econ´omica.
• S: Salud.
• D: Donaciones.
A
B C
D E F
H I G
(a) I(A, I | E)
A
B C
D E F
H I G
(b) D(A, I | B)
A
B C
D E F
I G
(c) I({A, C}, {D, H} | {B, E})
H
A
B C
D E F
I G
(d) D({A, C}, {D, H} | {E, I})
H
184 5. Construcci´on de Modelos Probabil´ısticos
FIGURA 5.1. Ejemplo de ilustraci´on del concepto de U-separaci´on.
• F: Felicidad.
El grafo de la Figura 5.2 muestra que la situaci´ on laboral y las ganancias,
fruto de inversiones, son causas directas de la situaci´ on econ´omica de una
persona. Por otra parte, la situaci´ on econ´omica y la salud influyen en la
felicidad. Finalmente, la situaci´ on econ´omica determina las donaciones que
realizada la persona. Dada esta situaci´ on, ser´ıa l´ ogico pensar, por ejemplo,
que la salud y la situaci´ on econ´omica fuesen incondicionalmente indepen-
dientes, pero condicionalmente dependientes una vez se tiene informaci´ on
sobre el estado de felicidad de la persona (un incremento de nuestra con-
fianza en una variable disminuir´ıa nuestra confianza en la otra). Para de-
tectar las independencias definidas por este grafo, se necesita introducir
un criterio de separaci´ on apropiado para grafos dirigidos, el concepto de
D-separaci´on; ver Pearl (1988) y Geiger, Verma y Pearl (1990a).
Definici´on 5.2 Nodo de aristas convergentes en un camino. Dado
un grafo dirigido y un camino no dirigido (. . . −U −A−V −. . .), el nodo
S
Situación laboral
Situación
económica
Salud
Felicidad Donaciones
Ganancias por
inversiones
D F
L G
E
5.2 Criterios de Separaci´on Gr´afica 185
FIGURA 5.2. Un grafo dirigido ilustrando el concepto de D-separaci´on.
A se denomina un nodo de aristas convergentes en este camino si las dos
aristas del camino convergen a este nodo en el grafo dirigido, es decir, si
el grafo dirigido contiene las aristas U →A y V →A).
Ejemplo 5.2 Nodo de aristas convergentes. El nodo F es el ´ unico
nodo de aristas convergentes en el camino no dirigido L − E − F − S del
grafo de la Figura 5.2. Obs´ervese que aunque el nodo E posee dos aristas
convergentes, no es un nodo de aristas convergentes en el camino, pues la
arista G → E no est´a contenida en el camino. Sin embargo, el nodo E es
un nodo de aristas convergentes en el camino no dirigido L −E −G.
Definici´on 5.3 D-Separaci´on. Sean X, Y y Z tres subconjuntos dis-
juntos de nodos en un grafo dirigido ac´ıclico D; entonces se dice que Z
D-separa X e Y si y s´ olo si a lo largo de todo camino no dirigido entre
cualquier nodo de X y cualquier nodo de Y existe un nodo intermedio A
tal que, o bien
1. A es un nodo de aristas convergentes en el camino y ni A ni sus
descendientes est´an en Z, o bien
2. A no es un nodo de aristas convergentes en el camino y A est´a en Z.
Cuando Z D-separa X e Y en D, se escribe I(X, Y [Z)
D
para indicar
que la relaci´ on de independencia viene dada por el grafo D; en caso con-
trario, se escribe D(X, Y [Z)
D
para indicar que X e Y son condicionalmente
dependientes dado Z en el grafo D.
Por tanto, si se puede encontrar un nodo en alg´ un camino no dirigido que
no cumpla las dos condiciones anteriores, entonces D(X, Y [Z)
D
; en caso
contrario, I(X, Y [Z)
D
. Estas condiciones reflejan la idea de que las causas
(padres) de cualquier mecanismo causal resultan dependientes una vez que
se dispone de informaci´ on del efecto que producen (un hijo). Por ejemplo, en
el grafo dirigido de la Figura 5.2, la situaci´ on laboral y las ganancias fruto
186 5. Construcci´on de Modelos Probabil´ısticos
de inversiones son incondicionalmente independientes, es decir, I(L, G[φ)
D
.
Sin embargo, si se dispone de alguna informaci´ on de la situaci´ on econ´omica,
entonces L y G se vuelven dependientes, D(L, G[E)
D
, porque existe una
relaci´on entre la creencia que se tiene en las dos causas.
Ejemplo 5.3 D-separaci´on. Consid´erese el grafo dirigido mostrado en
la Figura 5.2. A partir de este grafo, se pueden derivar las relaciones de
independencia siguientes:
• Caso (a). Independencia incondicional, I(L, G[φ)
D
: Los nodos L y G
son incondicionalmente independientes pues est´ an D-separados por
φ. Tal y como puede observarse en la Figura 5.3(a), el ´ unico camino
no dirigido, L − E − G, entre los nodos L y G contiene al nodo de
aristas convergentes E, y ni ´el ni ninguno de sus descendientes est´ an
contenidos en φ.
• Caso (b). Dependencia condicional, D(L, S[F)
D
: Los nodos L y S son
condicionalmente dependientes dado F. En la Figura 5.3(b) puede
verse que el ´ unico camino no dirigido entre L y S, L − E − F −
S, contiene a los nodos E y F, y ninguno de estos nodos cumple
las condiciones de la D-separaci´on. Por tanto, L y S no est´an D-
separados por F.
• Caso (c). Independencia condicional, I(D, F[¦L, E¦)
D
: Los nodos D
y F son condicionalmente independientes dado ¦L, E¦, pues el ´ unico
camino no dirigido D−E−F entre los nodos D y F contiene un s´ olo
nodo intermedio, E, que no es un nodo de aristas convergentes, pero
est´a contenido en ¦L, E¦ (ver Figura 5.3(c)).
• Caso (d). Dependencia condicional, D(D, ¦S, F¦[L)
D
: El nodo D y
el conjunto de nodos ¦S, F¦ son condicionalmente dependientes dado
L (ver Figura 5.3(d)). Obs´ervese que el camino no dirigido D −E −
F entre D y F contiene al nodo E, que no es un nodo de aristas
convergentes en este camino, pero no est´a contenido en ¦L¦.
El concepto de D-separaci´on permite representar estructuras de dependen-
cia e independencia en grafos dirigidos y, de esta forma, proporciona una
soluci´on al Problema 5.1. A continuaci´ on se introduce una definici´ on alter-
nativa de D-separaci´on que es m´as f´ acil de aplicar en la pr´ actica que la
Definici´ on 5.3.
Definici´on 5.4 D-Separaci´on. Sean X, Y y Z tres subconjuntos disjun-
tos en un grafo dirigido ac´ıclico D, entonces se dice que Z D-separa a X
e Y si y s´ olo si Z separa X e Y en el grafo moral del menor subconjunto
ancestral
1
que contenga a los nodos de X, Y y Z.
1
Recu´erdese que un conjunto ancestral es un conjunto de nodos que contiene
los ascendientes de todos sus nodos (Definici´on 4.20).
L G
E S
D F
(c) I(D, F | {L, E}) (d) D(D, {S, F} | L)
L G
E S
D F
L G
E
D F
(b) D(L, S | F)
S
L G
E S
D F
(a) I(L, G | Ø)
5.2 Criterios de Separaci´on Gr´afica 187
FIGURA 5.3. Ejemplos de ilustraci´on del criterio de D-separaci´on utilizando la
Definici´on 5.3.
Esta definici´ on alternativa fu´e propuesta por Lauritzen y otros (1990) que
mostraron la equivalencia de la Definici´ on 5.3 y la Definici´ on 5.4, que ellos
denominaron originalmente como A-separaci´ on.
La idea de moralizar el grafo, utilizada en esta definici´ on, refleja la
primera de las dos condiciones de la Definici´ on 5.3. Si existiese un nodo
de aristas convergentes A en un camino entre los nodos X e Y , tal que A
o alguno de sus descendientes estuviese en Z, entonces A tambi´en estar´ıa
contenido en el menor conjunto ancestral que contuviera a X, Y y Z. Por
tanto, puesto que A es un nodo de aristas convergentes, incluso en el caso
de que A estuviera en Z, el proceso de moralizaci´on garantizar´ıa la existen-
cia de un camino no dirigido entre X e Y no interceptado por Z en el grafo
moralizado correspondiente. Esta definici´ on alternativa sugiere el siguiente
algoritmo para la D-separaci´on:
Algoritmo 5.1 D-Separaci´on.
• Datos: Un grafo dirigido ac´ıclico, D, y tres subconjuntos disjuntos
de nodos X, Y y Z.
• Resultado: Comprobaci´ on de la relaci´ on de independencia I(X, Y [Z)
en D.
188 5. Construcci´on de Modelos Probabil´ısticos
1. Obtener el menor subgrafo que contenga a X, Y , Z y sus subconjuntos
de ascendientes.
2. Moralizar el grafo obtenido.
3. Utilizar el criterio de U-separaci´on para comprobar si Z separa a X
de Y .
Ejemplo 5.4 D-separaci´on. Consid´erese de nuevo el grafo dirigido de la
Figura 5.2 y sup´ ongase que se quieren comprobar, utilizando el Algoritmo
5.1, las mismas relaciones de independencia analizadas en el Ejemplo 5.3.
La Figura 5.4 representa los cuatro casos, indicando con l´ınea discontinua
aquellas aristas que son eliminadas al construir el subgrafo ancestral.
• Caso (a). Independencia incondicional, I(L, G[φ)
D
: No existe ning´ un
camino que conecte los nodos L y G en el grafo moral del menor
subgrafo ancestral que contenga a L, G y φ (ver Figura 5.4(a)). Por
tanto, I(L, G[φ)
D
.
• Caso (b). Dependencia condicional, D(L, S[F)
D
: La Figura 5.4(b)
muestra que existe un camino, L − E − S, que no contiene ning´ un
nodo en ¦F¦ y que conecta los nodos L y S en el grafo moral del menor
subgrafo ancestral que contiene a L, S y F. Por tanto, D(L, S[F)
D
.
• Caso (c). Independencia condicional, I(D, F[¦L, E¦)
D
: Existen dos
caminos entre D y F, D−E −F y D−E −S −F, en el grafo moral
del menor subgrafo ancestral que contiene a D, L, E y F (ver Figura
5.4(c)). Ambos caminos contienen al nodo E, que est´a contenido en
el conjunto ¦L, E¦. Por tanto, I(D, F[¦L, E¦)
D
.
• Caso (d). Dependencia condicional, D(D, ¦S, F¦[L)
D
: La Figura 5.4
(d), muestra el camino D−E−F que conecta D y ¦S, F¦ en el grafo
moral del menor subgrafo ancestral de ¦D, S, F, L¦. Sin embargo, este
camino no contiene al nodo L. Por tanto, D(D, ¦S, F¦[L)
D
.
5.3 Algunas Propiedades de la Independencia
Condicional
Hasta ahora se han introducido tres modelos distintos para definir rela-
ciones de independencia condicional: modelos probabil´ısticos, modelos gr´a-
ficos no dirigidos, y modelos gr´ aficos dirigidos. En esta secci´on se analizan
algunas propiedades de la independencia condicional que cumplen algunos
de estos modelos. Estas propiedades permiten obtener nuevas relaciones de
independencia a partir de un conjunto inicial de relaciones de independen-
cia, dado por uno de estos modelos. Por ejemplo, dada la funci´ on de proba-
bilidad conjunta p(x
1
, . . . , x
n
) de un conjunto de variables ¦X
1
, . . . , X
n
¦,
L G
E S
D F
(c) I(D, F | {L, E}) (d) D(D, {S, F} | L)
L G
E S
D F
L G
E
D F
(b) D(L, S | F)
S
L G
E S
D F
(a) I(L, G | Ø)
5.3 Algunas Propiedades de la Independencia Condicional 189
FIGURA 5.4. Ejemplos de ilustraci´on del criterio de D-separaci´on utilizando la
Definici´on 5.4.
se puede obtener el conjunto completo de relaciones de independencia
asociado a este modelo probabil´ıstico comprobando cu´ ales de todas las
posibles independencias en ¦X
1
, . . . , X
n
¦ son verificadas por la funci´ on
p(x
1
, . . . , x
n
). Sin embargo, en la pr´ actica, esta funci´on es a menudo des-
conocida y, por tanto, s´ olo se dispone de un conjunto de relaciones de in-
dependencia que describen las relaciones entre las variables. Este conjunto
se denomina lista inicial de independencias.
Definici´on 5.5 Lista inicial. Una lista inicial de independencias L es
un conjunto de relaciones de independencia de la forma I(X, Y [Z), donde
X, Y y Z son tres subconjuntos disjuntos de ¦X
1
, . . . , X
n
¦, lo cual significa
que X e Y son condicionalmente independientes dado Z.
Una vez que se dispone de una lista inicial de independencias, es necesario
conocer si esta lista implica otras independencias que no est´en contenidas
en el modelo inicial, pero que tengan que ser satisfechas para que el modelo
cumpla una serie de propiedades de independencia condicional conocidas.
Esto motiva el siguiente problema:
190 5. Construcci´on de Modelos Probabil´ısticos
• Problema 5.2: Dada una lista inicial de independencias L, ¿c´omo
pueden obtenerse nuevas independencias a partir de L utilizando
ciertas propiedades de independencia condicional?
En esta secci´on se introduce un algoritmo para obtener las independencias
derivadas de una lista inicial. Tambi´en se ver´a que para que una lista de
independencias sea compatible con los axiomas de la probabilidad, es nece-
sario que cumpla una serie de propiedades conocidas que permitir´ an obtener
nuevas independencias del modelo. Estas independencias adicionales se de-
nominan independencias derivadas y, en caso de que existan, habr´ an de
ser confirmadas por los expertos para que el modelo sea consistente con
la realidad. El conjunto completo de independencias (iniciales y derivadas)
describe las relaciones existentes entre las variables. Los modelos de de-
pendencia resultantes son conocidos como modelos definidos por una lista
inicial, y se describen en el Cap´ıtulo 7.
A continuaci´ on se introducen algunas propiedades de la independencia
condicional. Cada uno de los modelos anteriormente descritos (probabil´ıs-
tico, gr´ afico no dirigido y gr´ afico dirigido) verifica algunas de estas propie-
dades, lo que permitir´ a caracterizarlos parcial o totalmente. Con el fin de
ilustrar estas propiedades de forma gr´ afica, se han utilizado los modelos
gr´ aficos no dirigidos mostrados en las Figuras 5.5 y 5.6. En estas figu-
ras cada uno de los tres subconjuntos que intervienen en cada relaci´ on de
independencia (por ejemplo, I(X, Y [Z)) est´a contenido en un rect´ angulo.
Para distinguir entre los tres subconjuntos, el rect´ angulo correspondiente al
primero de ellos no est´a sombreado, el correspondiente al segundo muestra
una sombra clara, y el correspondiente al tercero (separador), una sombra
oscura.
Primeramente se introducen cuatro propiedades que, como se muestra
en el ap´endice de este cap´ıtulo, son satisfechas por cualquier modelo pro-
babil´ıstico. Un an´ alisis m´as amplio de estas propiedades puede obtenerse,
por ejemplo, en Lauritzen (1974) y Dawid (1979, 1980). En el Cap´ıtulo 6
(Teoremas 6.1 y 6.8), se describen las propiedades que son satisfechas por
los modelos gr´aficos no dirigidos y dirigidos, respectivamente.
1. Simetr´ıa: Si X es condicionalmente independiente de Y dada Z,
entonces Y es condicionalmente independiente de X dada Z, es decir,
I(X, Y [Z) ⇔I(Y, X[Z). (5.1)
La Figura 5.5(a) ilustra esta propiedad.
2. Descomposici´on: Si X es condicionalmente independiente de Y ∪W
dada Z, entonces X es condicionalmente independiente de Y dada Z,
y X es condicionalmente independiente de W dada Z, es decir,
I(X, Y ∪ W[Z) ⇒I(X, Y [Z) y I(X, W[Z), (5.2)
Z
X
Y W
Z
X
Y W
(c) Unión débil
Z
X
Y W
&
Z
X
Y
Z
X
Y
(a) Simetría (b) Descomposición
Z
X
Y W
Z
X
Y W
Z
X
Y W
&
Z
X
Y W
Z
X
Y W
Z
X
Y W
&
(d) Contracción
(e) Intersección
Z
X
Y W
Z
X
Y W
Z
X
Y W
&
5.3 Algunas Propiedades de la Independencia Condicional 191
FIGURA 5.5. Ilustraci´on gr´ afica de algunas propiedades de independencia condi-
cional: (a) Simetr´ıa, (b) Descomposici´on, (c) Uni´ on d´ebil, (d) Contracci´on, e (e)
Intersecci´on. El conjunto separador se indica con un rect´angulo con sombra os-
cura, y los otros dos subconjuntos con rect´angulos sin sombra, y con sombra
clara, respectivamente.
192 5. Construcci´on de Modelos Probabil´ısticos
Obs´ervese que Y y W no tienen por qu´e ser necesariamente disjuntos.
Esta propiedad se ilustra en la Figura 5.5(b). La implicaci´ on rec´ıproca
de (5.2) se conoce como propiedad de composici´ on. Sin embargo, esta
propiedad no se cumple en todos los modelos probabil´ısticos, como
indica el ejemplo siguiente.
Ejemplo 5.5 Violaci´on de la propiedad de composici´on. Con-
sid´erese el conjunto de variables binarias ¦X, Y, Z, W¦. En la Tabla
5.1 se muestran dos funciones de probabilidad distintas para este con-
junto de variables. Estas funciones han sido obtenidas fijando valores
num´ericos para algunos de los par´ ametros (los indicados con dos cifras
decimales en la Tabla 5.1) y calculando los valores restantes para que
la funci´ on de probabilidad p
1
viole la propiedad de composici´ on, y
para que la funci´ on p
2
cumpla esta propiedad.
Es f´ acil comprobar que p
1
(x, y, z, w) cumple las relaciones de in-
dependencia I(X, Y [Z) y I(X, W[Z) pero, en cambio, no cumple
I(X, Y ∪ W[Z), lo que prueba que no satisface la propiedad de com-
posici´on. Puede comprobarse que no existe ninguna combinaci´ on de
valores de las variables (x, y, z, w) que cumpla la igualdad
p(x[y, w, z) = p(x[z).
Por el contrario, la funci´ on de probabilidad conjunta p
2
(x, y, z, w) ve-
rifica I(X, Y [Z), I(X, W[Z) y I(X, Y ∪W[Z). Por tanto, esta funci´ on
de probabilidad cumple la propiedad de composici´ on mientras que
p
1
(x, y, z, w) no la cumple.
3. Uni´on D´ebil:
I(X, Y ∪ W[Z) ⇒I(X, W[Z ∪ Y ) y I(X, Y [Z ∪ W). (5.3)
La Figura 5.5(c) ilustra gr´ aficamente esta propiedad, que refleja el
hecho de que el conocimiento de informaci´ on irrelevante Y no puede
hacer que otra informaci´ on irrelevante W se convierta en relevante.
4. Contracci´on: Si W es irrelevante para X despu´es de conocer alguna
informaci´ on irrelevante Y , entonces W debe haber sido irrelevante
antes de conocer Y , es decir,
I(X, W[Z ∪ Y ) y I(X, Y [Z) ⇒I(X, Y ∪ W[Z). (5.4)
La Figura 5.5(d) ilustra gr´ aficamente esta propiedad.
Las propiedades de uni´ on d´ebil y contracci´ on caracterizan el hecho
de que la informaci´ on irrelevante no debe alterar la relevancia de
5.3 Algunas Propiedades de la Independencia Condicional 193
x y z w p
1
(x, y, z, w) p
2
(x, y, z, w)
0 0 0 0 0.012105300 0.0037500
0 0 0 1 0.005263160 0.0050000
0 0 1 0 0.000971795 0.1312200
0 0 1 1 0.024838000 0.1574640
0 1 0 0 0.01 0.0087500
0 1 0 1 0.02 0.01
0 1 1 0 0.03 0.2361960
0 1 1 1 0.04 0.02
1 0 0 0 0.05 0.03
1 0 0 1 0.06 0.04
1 0 1 0 0.07 0.05
1 0 1 1 0.08 0.06
1 1 0 0 0.09 0.07
1 1 0 1 0.10 0.08
1 1 1 0 0.11 0.09
1 1 1 1 0.296822000 0.0076208
TABLA 5.1. Ejemplos de dos funciones de probabilidad conjunta. p
2
(x, y, z, w)
verifica la propiedad de composici´on; sin embargo p
1
(x, y, z, w) no la verifica.
otra informaci´ on en el modelo. En otras palabras, la informaci´ on re-
levante permanece relevante y la informaci´ on irrelevante permanece
irrelavante.
Cualquier modelo probabil´ıstico cumple las cuatro propiedades ante-
riores; sin embargo, como se muestra en el ap´endice de este cap´ıtulo,
la propiedad siguiente s´ olo se cumple si la funci´ on de probabilidad es
no extrema.
5. Intersecci´on:
I(X, W[Z ∪ Y ) y I(X, Y [Z ∪ W) ⇒I(X, Y ∪ W[Z).
Esta propiedad se ilustra gr´ aficamente en la Figura 5.5(e) y establece
que, a menos que Y afecte a X cuando W es conocida, o que W afecte
a X cuando Y es conocida, entonces ni W ni Y , ni su combinaci´ on,
pueden afectar a X.
Las cuatro propiedades siguientes no son satisfechas, en general, por
los modelos probabil´ısticos pero, como se ver´a en el Cap´ıtulo 7, per-
mitir´ an caracterizar los modelos gr´aficos de dependencia.
6. Uni´on Fuerte: Si X es condicionalmente independiente de Y dado
Z, entonces X tambi´en es condicionalmente independiente de Y dado
(d) Cordalidad
o
&
o
B
A
C
D
B
A
C
D B
A
C
D
B
A
C
D B
A
C
D
B
A
C
D
(c) Transitividad débil
&
Z
X
Y
Z
X
Y
Z
X
Y
Z
X
Y
o
A A A A
Z
X
Y
Z
X
Y
Z
X
Y
o
(b) Transitividad fuerte (a) Unión fuerte
Z
X
Y W
Z
X
Y W
A A A
194 5. Construcci´on de Modelos Probabil´ısticos
FIGURA 5.6. Ilustraci´on gr´ afica de algunas propiedades de independencia condi-
cional: (a) Uni´on fuerte, (b) Transitividad fuerte, (c) Transitividad d´ebil, y (d)
Cordalidad. El conjunto separador se indica con un rect´angulo con sombra os-
cura, y los otros dos subconjuntos con rect´angulos sin sombra, y con sombra
clara, respectivamente.
(a)
Z
X
Y
W Z
X
Y
W
(b)
5.3 Algunas Propiedades de la Independencia Condicional 195
Z ∪ W, es decir,
I(X, Y [Z) ⇒I(X, Y [Z ∪ W). (5.5)
Esta propiedad se ilustra gr´ aficamente por medio del grafo no dirigido
de la Figura 5.6(a). El ejemplo siguiente muestra que, por el contrario,
los modelos gr´aficos dirigidos cumplen esta propiedad.
Ejemplo 5.6 Violaci´on de la propiedad de uni´on fuerte. Con-
sid´erese el grafo dirigido ac´ıclico dado en la Figura 5.7(a). Utilizando
el criterio de D-separaci´on se puede concluir que el grafo cumple la
relaci´on de independencia I(X, Y [Z) (pues existe un ´ unico camino
entre X e Y en el grafo moral del menor subgrafo ancestral que con-
tiene a X, Y y Z, y este camino contiene al nodo Z). Sin embargo, si
se a˜ nade el nodo W al conjunto separador, entonces los nodos X e Y
resultan dependientes (ver Figura 5.7(b)). Este hecho es debido a que
existe un camino entre X e Y que no contiene al nodo Z en el grafo
moral del menor subgrafo ancestral que contiene a ¦X, Y, W, Z¦. Por
tanto, se tiene la relaci´on D(X, Y [¦Z, W¦), que muestra que los mo-
delos gr´ aficos dirigidos no verifican la propiedad de uni´ on fuerte.
FIGURA 5.7. Ilustraci´on gr´ afica de que los grafos dirigidos no verifican la
propiedad de uni´on fuerte.
7. Transitividad Fuerte: Si X es condicionalmente independiente de
A dado Z, y A es condicionalmente dependiente de Y dado Z, en-
tonces X es condicionalmente dependiente de Y dado Z, es decir,
D(X, A[Z) y D(A, Y [Z) ⇒D(X, Y [Z),
o, de forma equivalente,
I(X, Y [Z) ⇒I(X, A[Z) o I(A, Y [Z), (5.6)
donde A es una ´ unica variable.
196 5. Construcci´on de Modelos Probabil´ısticos
La propiedad de transitividad fuerte afirma que dos variables han de
ser dependientes si existe otra variable A que dependa de ambas (ver
Figura 5.6(b)).
8. Transitividad D´ebil: Si X y A son condicionalmente dependientes
dado Z, e Y y A son condicionalmente dependientes dado Z, entonces
X e Y son condicionalmente dependientes dado Z, o X e Y son
condicionalmente dependientes dado Z ∪ A, es decir,
D(X, A[Z) y D(A, Y [Z) ⇒D(X, Y [Z) o D(X, Y [Z ∪ A),
o, de forma equivalente,
I(X, Y [Z) y I(X, Y [Z ∪ A) ⇒I(X, A[Z) o I(A, Y [Z), (5.7)
donde Aes una ´ unica variable. La Figura 5.6(c) ilustra esta propiedad.
9. Cordalidad: Si A y C son condicionalmente dependientes dado B,
y A y C son condicionalmente dependientes dado D, entonces A y
C son condicionalmente dependientes dado B ∪ D, o B y D son
condicionalmente dependientes dado A∪ C, es decir,
D(A, C[B) y D(A, C[D) ⇒D(A, C[B ∪ D) o D(B, D[A∪ C),
o, de forma equivalente,
I(A, C[B ∪ D) y I(B, D[A∪ C) ⇒I(A, C[B) o I(A, C[D), (5.8)
donde A, B, C y D son conjuntos de una ´ unica variable. Esta propiedad
se ilustra en la Figura 5.6(d).
Antes de concluir esta secci´on, se muestran las siguientes implicaciones
entre las propiedades descritas:
1. Uni´ on fuerte (UF) implica uni´ on d´ebil:
I(X, Y ∪ W[Z)
UF
⇒I(X, Y ∪ W[Z ∪ W) ⇒I(X, Y [Z ∪ W).
2. Transitividad fuerte implica transitividad d´ebil.
3. Uni´ on fuerte e intersecci´on (IN) implican contracci´ on:
I(X, Y [Z)
UF
⇒ I(X, Y [Z ∪ W)
I(X, W[Z ∪ Y )
¸
IN
⇒I(X, Y ∪ W[Z).
4. Uni´ on fuerte e intersecci´on tambi´en implican composici´on:
I(X, Y [Z)
UF
⇒ I(X, Y [Z ∪ W)
I(X, W[Z)
UF
⇒ I(X, W[Z ∪ Y )
¸
IN
⇒I(X, Y ∪ W[Z).
5.4 Modelos de Dependencia 197
Las propiedades anteriores se utilizar´ an en la secci´on siguiente para con-
cluir independencias adicionales a partir de algunas listas de independen-
cias particulares, que verifican ciertas propiedades y permitir´ an caracterizar
las estructuras de dependencia e independencia contenidas en los modelos
probabil´ısticos y gr´aficos.
5.4 Modelos de Dependencia
Ahora que ya han sido introducidas algunas propiedades de la independen-
cia condicional es posible analizar el Problema 5.2:
• Pregunta 5.2: Dada una lista inicial de relaciones de independen-
cia L, ¿c´omo pueden obtenerse nuevas independencias a partir de L
utilizando ciertas propiedades de independencia condicional?
Obs´ervese que, hasta ahora, no se ha requerido que las listas de rela-
ciones de independencia cumpliesen ninguna condici´ on (s´ olo que los sub-
conjuntos que componen cada relaci´ on sean disjuntos). Cuando se impone
alguna condici´ on a estos modelos como, por ejemplo, que cumplan un
cierto conjunto de propiedades de independencia condicional, se obtienen
algunos tipos especiales de listas de independencias, algunos de los cuales
se describen a continuaci´ on.
Definici´on 5.6 Grafoide. Un grafoide es un conjunto de relaciones de
independencia que es cerrado con respecto a las propiedades de simetr´ıa,
descomposici´ on, uni´ on d´ebil, contracci´ on e intersecci´ on.
Definici´on 5.7 Semigrafoide. Un semigrafoide es un conjunto de rela-
ciones de independencia que es cerrado con respecto a las propiedades de
simetr´ıa, descomposici´ on, uni´ on d´ebil y contracci´ on.
Por tanto, un grafoide debe satisfacer las cinco primeras propiedades, mien-
tras que un semigrafoide debe satisfacer s´olo las cuatro primeras (ver Pearl
y Paz (1987) y Geiger (1990)).
Dada una lista inicial de independencias, un grafo, o una funci´ on de
probabilidad conjunta, siempre es posible determinar qu´e relaciones de in-
dependencia se cumplen en el modelo y, por tanto, determinar su estructura
cualitativa. Por tanto, estos tipos de modelos definen clases particulares de
los denominados modelos de dependencia.
Definici´on 5.8 Modelo de Dependencia. Cualquier modelo M de un
conjunto de variables ¦X
1
, . . . , X
n
¦ mediante el cual se pueda determinar
si la relaci´ on I(X, Y [Z) es o no cierta, para todas las posibles ternas de
subconjuntos X, Y y Z, se denomina modelo de dependencia.
198 5. Construcci´on de Modelos Probabil´ısticos
Definici´on 5.9 Modelo de dependencia probabil´ıstico. Un modelo
de dependencia M se denomina probabil´ıstico si contiene todas las rela-
ciones de independencia dadas por una funci´ on de probabilidad conjunta
p(x
1
, . . . , x
n
).
Definici´on 5.10 Modelo de dependencia probabil´ıstico no ex-
tremo. Un modelo de dependencia probabil´ıstico no extremo es un mo-
delo de dependencia probabil´ıstico obtenido de una funci´ on de probabilidad
no extrema, o positiva; es decir, p(x
1
, . . . , x
n
) toma valores en el intervalo
abierto (0, 1).
Dado que todas las funciones de probabilidad satisfacen las cuatro primeras
propiedades de independencia condicional, todos los modelos de dependen-
cia probabil´ısticos son semigrafoides. Por otra parte, dado que s´ olo las fun-
ciones de probabilidad no extremas satisfacen la propiedad de intersecci´ on,
s´olo los modelos de dependencia probabil´ısticos no extremos son grafoides.
Definici´on 5.11 Modelo de dependencia compatible con una pro-
babilidad. Un modelo de dependencia M se dice compatible con una fun-
ci´ on de probabilidad p(x
1
, . . . , x
n
) si todas las relaciones de independencia
derivadas M son tambi´en satisfechas por p(x
1
, . . . , x
n
).
Obs´ervese que un modelo de dependencia compatible con una probabilidad
es aquel que puede obtenerse de una funci´ on de probabilidad conjunta
p(x
1
, . . . , x
n
), pero sin necesidad de ser completo, es decir, no tienen por
qu´e contener todas las relaciones de independencia que pueden obtenerse
de p(x
1
, . . . , x
n
).
Dado que toda funci´ on de probabilidad cumple las cuatro primeras pro-
piedades de la independencia condicional, si un modelo de dependencia
M es compatible con una funci´ on de probabilidad p(x
1
, . . . , x
n
), entonces
el menor semigrafoide generado por M tambi´en debe ser compatible con
p(x
1
, . . . , x
n
). Por tanto, un problema interesante desde el punto de vista
pr´ actico es calcular el menor semigrafoide generado por un modelo de
dependencia M. El siguiente algoritmo puede ser utilizado con este fin:
Algoritmo 5.2 Generando un grafoide m´ınimo.
• Datos: Un modelo de dependencia inicial M.
• Resultado: El m´ınimo grafoide que contiene a M.
1. Generar nuevas relaciones de independencia aplicando las propieda-
des de simetr´ıa, descomposici´on, uni´ on d´ebil, contracci´ on e inter-
secci´on a las relaciones del modelo M. El conjunto resultante es el
grafoide buscado.
El algoritmo anterior tambi´en puede ser utilizado para generar un semi-
grafoide; para ello basta con no utilizar la propiedad de intersecci´ on. El
ejemplo siguiente ilustra este algoritmo.
5.5 Factorizaciones de una Funci´on de Probabilidad 199
Ejemplo 5.7 Generando grafoides. Sup´ ongase que se tiene un con-
junto de cuatro variables ¦X
1
, X
2
, X
3
, X
4
¦ y que se da la siguiente lista de
relaciones de independencia:
M = ¦I(X
1
, X
2
[X
3
), I(X
1
, X
4
[X
2
), I(X
1
, X
4
[¦X
2
, X
3
¦)¦. (5.9)
La Tabla 5.2 muestra las relaciones de independencia iniciales, y las rela-
ciones derivadas necesarias para completar el modelo hasta convertirlo en
un semigrafoide y un grafoide, respectivamente. Las nuevas relaciones de in-
dependencia son generadas utilizando un programa de ordenador llamado
X-pert Maps,
2
que implementa el Algoritmo 5.2. La Tabla 5.2 tambi´en
muestra las relaciones de independencia que se utilizan para obtener las
nuevas independencias.
Por tanto, las cinco primeras propiedades pueden ser utilizadas para au-
mentar un modelo de dependencia M compatible con una funci´ on de pro-
babilidad p(x
1
, . . . , x
n
). Tanto el modelo inicial como el completado son
compatibles con p(x
1
, . . . , x
n
). Esto motiva el siguiente problema:
• Pregunta 5.3. ¿Constituyen las cuatro propiedades descritas ante-
riormente una caracterizaci´ on completa de los modelos probabil´ısticos?
Pearl y Paz (1987) (ver Pearl, (1988) p. 88) conjeturaron que las primeras
cuatro propiedades (simetr´ıa, descomposici´on, uni´ on d´ebil, y contracci´ on)
eran completas. Sin embargo, esta conjetura fue refutada por Studen´ y
(1989) encontrando, primeramente, un propiedad que no puede derivarse
de las cuatro anteriores y mostrando, despu´es, que no existe ning´ un con-
junto completo de propiedades que caractericen los modelos probabil´ısticos
(Studen´ y (1992)).
Como se ver´a en los cap´ıtulos siguientes, la estructura cualitativa de
un modelo probabil´ıstico puede ser representada mediante un modelo de
dependencia que permitir´ a obtener una factorizaci´ on de la funci´ on de pro-
babilidad. En la secci´ on siguiente se introducen algunos conceptos sobre
factorizaciones de una funci´ on de probabilidad.
5.5 Factorizaciones de una Funci´ on de
Probabilidad
Cualquier funci´ on de probabilidad de un conjunto de variables aleato-
rias puede ser definida por medio de funciones de probabilidad condicio-
nada m´ as sencillas formando una factorizaci´ on. En esta secci´on se analizan
distintas formas de factorizar una funci´ on de probabilidad.
2
El programa X-Pert Maps puede obtenerse en la direcci´on WWW
http://ccaix3.unican.es/˜AIGroup.
200 5. Construcci´on de Modelos Probabil´ısticos
Lista inicial
M = ¦I(X
1
, X
2
[X
3
), I(X
1
, X
4
[X
2
), I(X
1
, X
4
[X
2
X
3

RIC adicionales para Semigrafoide
Propiedad RIC Derivadas Derivada de
Simetr´ıa I(X
2
, X
1
[X
3
) I(X
1
, X
2
[X
3
)
Simetr´ıa I(X
4
, X
1
[X
2
) I(X
1
, X
4
[X
2
)
Simetr´ıa I(X
4
, X
1
[X
2
X
3
) I(X
1
, X
4
[X
2
X
3
)
Contracci´ on I(X
1
, X
2
X
4
[X
3
) I(X
1
, X
2
[X
3
) y I(X
1
, X
4
[X
2
X
3
)
Simetr´ıa I(X
2
X
4
, X
1
[X
3
) I(X
1
, X
2
X
4
[X
3
)
Uni´ on D´ebil I(X
1
, X
2
[X
3
X
4
) I(X
1
, X
2
X
4
[X
3
)
Simetr´ıa I(X
2
, X
1
[X
3
X
4
) I(X
1
, X
2
[X
3
X
4
)
Descomposici´on I(X
1
, X
4
[X
3
) I(X
1
, X
2
X
4
[X
3
)
Simetr´ıa I(X
4
, X
1
[X
3
) I(X
1
, X
4
[X
3
)
RIC adicionales para Grafoide
Propiedad RIC Derivadas Derivada de
Intersecci´on I(X
1
, X
2
X
4
[φ) I(X
1
, X
2
[X
3
X
4
) y I(X
1
, X
4
[X
2
)
Simetr´ıa I(X
2
X
4
, X
1
[φ) I(X
1
, X
2
X
4
[φ)
Descomposici´on I(X
1
, X
2
[φ) I(X
1
, X
2
X
4
[φ)
Simetr´ıa I(X
2
, X
1
[φ) I(X
1
, X
2
[φ)
Uni´ on D´ebil I(X
1
, X
2
[X
4
) I(X
1
, X
2
X
4
[φ)
Simetr´ıa I(X
2
, X
1
[X
4
) I(X
1
, X
2
[X
4
)
Descomposici´on I(X
1
, X
4
[φ) I(X
1
, X
2
X
4
[φ)
Simetr´ıa I(X
4
, X
1
[φ) I(X
1
, X
4
[φ)
TABLA 5.2. M´ınimos semigrafoide y grafoide generados por la lista inicial M de
relaciones de independencia condicional (RIC) en (5.9), obtenidos utilizando el
Algoritmo 5.2.
Definici´on 5.12 Factorizaci´on mediante funciones potenciales. Sean
C
1
, . . . , C
m
subconjuntos de un conjunto de variables X = ¦X
1
, . . . , X
n
¦. Si
la funci´ on de probabilidad conjunta de X puede ser escrita como producto
de m funciones no negativas Ψ
i
(i = 1, . . . , m), es decir,
p(x
1
, . . . , x
n
) =
m
¸
i=1
Ψ
i
(c
i
), (5.10)
donde c
i
es una realizaci´ on de C
i
, entonces se dice que (5.10) es una fac-
torizaci´ on de la funci´ on de probabilidad. Las funciones Ψ
i
se denominan
factores potenciales de la funci´ on de probabilidad.
En el Cap´ıtulo 6 se ver´ an ejemplos importantes de este tipo de factorizaci´on.
Obs´ervese que los conjuntos C
1
, . . . , C
m
no son necesariamente disjuntos
5.5 Factorizaciones de una Funci´on de Probabilidad 201
y que las funciones Ψ
i
no son necesariamente funciones de probabilidad.
Cuando se exige que las funciones Ψ
i
sean funciones de probabilidad, se
obtienen factorizaciones particulares, algunas de las cuales se comentan a
continuaci´ on.
Sea ¦Y
1
, . . . , Y
m
¦ una partici´ on (subconjuntos disjuntos dos a dos cuya
uni´ on es el conjunto total) del conjunto ¦X
1
, . . . , X
n
¦. Un tipo importante
de factorizaciones se obtiene aplicando la f´ ormula siguiente, conocida como
regla de la cadena.
Definici´on 5.13 Regla de la cadena. Cualquier funci´ on de probabilidad
de un conjunto de variables ¦X
1
, . . . , X
n
¦ puede ser expresada como el
producto de m funciones de probabilidad condicionada de la forma
p(x
1
, . . . , x
n
) =
m
¸
i=1
p(y
i
[b
i
), (5.11)
o, de modo equivalente,
p(x
1
, . . . , x
n
) =
m
¸
i=1
p(y
i
[a
i
), (5.12)
donde B
i
= ¦Y
1
, . . . , Y
i−1
¦ es el conjunto de variables anteriores a Y
i
y
A
i
= ¦Y
i+1
, . . ., Y
n
¦ es el conjunto de variables posteriores a Y
i
. Obs´ervese
que a
i
y b
i
son realizaciones de A
i
y B
i
, respectivamente.
Cuando los conjuntos Y
i
est´an formados por una ´ unica variable, en-
tonces se tiene m = n y el conjunto ¦Y
1
, . . . , Y
n
¦ es simplemente una
permutaci´ on de ¦X
1
, . . . , X
n
¦. En este caso, (5.11) y (5.12) se denominan
reglas can´ onicas de la cadena y se tiene
p(x
1
, . . . , x
n
) =
n
¸
i=1
p(y
i
[b
i
) (5.13)
y
p(x
1
, . . . , x
n
) =
n
¸
i=1
p(y
i
[a
i
), (5.14)
respectivamente.
Ejemplo 5.8 Regla de la cadena. Consid´erese el conjunto de variables
¦X
1
, . . . , X
4
¦ y la partici´ on Y
1
= ¦X
1
¦, Y
2
= ¦X
2
¦, Y
3
= ¦X
3
¦, Y
4
=
¦X
4
¦. Entonces (5.13) y (5.14) proporcionan la siguientes factorizaciones
equivalentes de la funci´ on de probabilidad:
p(x
1
, . . . , x
4
) = p(x
1
)p(x
2
[x
1
)p(x
3
[x
1
, x
2
)p(x
4
[x
1
, x
2
, x
3
) (5.15)
y
p(x
1
, . . . , x
4
) = p(x
1
[x
2
, x
3
, x
4
)p(x
2
[x
3
, x
4
)p(x
3
[x
4
)p(x
4
). (5.16)
202 5. Construcci´on de Modelos Probabil´ısticos
Por tanto, la funci´ on de probabilidad puede expresarse como el producto de
cuatro funciones de probabilidad condicionada. N´ otese que existen varias
formas de aplicar la regla de la cadena a una misma funci´ on de probabili-
dad (considerando distintas particiones), lo que origina distintas factoriza-
ciones. Por ejemplo, a continuaci´ on se muestran dos factorizaciones equi-
valentes obtenidas aplicando la regla de la cadena a distintas particiones
de ¦X
1
, . . . , X
4
¦:
• La partici´ on Y
1
= ¦X
1
¦, Y
2
= ¦X
2
, X
3
¦, y Y
3
= ¦X
4
¦ da lugar a
p(x
1
, . . . , x
4
) = p(x
1
)p(x
2
, x
3
[x
1
)p(x
4
[x
1
, x
2
, x
3
).
• La partici´ on Y
1
= ¦X
1
, X
4
¦ y Y
2
= ¦X
2
, X
3
¦ produce la factorizaci´ on
p(x
1
, . . . , x
4
) = p(x
1
, x
4
)p(x
2
, x
3
[x
1
, x
4
).
En la Secci´ on 3.5 se ha visto que el n´ umero de par´ ametros que definen un
modelo probabil´ıstico puede ser reducido imponiendo ciertas restricciones.
Por ejemplo, los distintos modelos presentados en la Secci´ on 3.5 fueron ob-
tenidos suponiendo ciertas relaciones de independencia condicional para el
modelo. Con el fin de ilustrar la forma en la que la inclusi´ on de una relaci´ on
de independencia en un modelo probabil´ıstico da lugar a una reducci´ on de
par´ ametros en el modelo, es conveniente escribir la funci´on de probabili-
dad conjunta como producto de funciones de probabilidad condicionada
utilizando, por ejemplo, la regla de la cadena. Este hecho se ilustra en el
siguiente ejemplo.
Ejemplo 5.9 Restricciones dadas por independencias. Consid´erese
el conjunto de variables dado en el Ejemplo 5.8 y sup´ ongase que un experto
propone las dos siguientes relaciones de independencia:
I(X
3
, X
1
[X
2
) y I(X
4
, ¦X
1
, X
3
¦[X
2
). (5.17)
A fin de incluir estas relaciones en el modelo probabil´ıstico, interesa calcular
las restricciones que deben cumplir los par´ ametros del modelo para satis-
facer estas condiciones de independencia. La primera de estas relaciones
implica
p(x
3
[x
1
, x
2
) = p(x
3
[x
2
), (5.18)
mientras que la segunda implica
p(x
4
[x
1
, x
2
, x
3
) = p(x
4
[x
2
). (5.19)
Obs´ervese que la forma general del modelo probabil´ıstico no es una forma
conveniente para calcular las restricciones entre los par´ ametros, dadas por
(5.18) y (5.19). Sin embargo, si se sustituyen estas dos igualdades en la
5.5 Factorizaciones de una Funci´on de Probabilidad 203
factorizaci´ on del modelo probabil´ıstico (5.15), se obtiene la siguiente es-
tructura
p(x
1
, . . . , x
4
) = p(x
1
)p(x
2
[x
1
)p(x
3
[x
2
)p(x
4
[x
2
). (5.20)
Suponiendo que las variables son binarias, la funci´ on de probabilidad en
(5.15) depende de 2
4
−1 = 15 par´ ametros libres.
3
Por otra parte, la funci´ on
de probabilidad en (5.20) depende de siete par´ ametros (p(x
1
) depende de
un par´ ametro, y cada una de las restantes funciones de probabilidad con-
dicionada depende de dos par´ ametros). Por tanto, las dos relaciones de
independencia dadas en (5.17) dan lugar a una reducci´ on de 8 par´ ametros
en el modelo probabil´ıstico.
Definici´on 5.14 Funci´on de probabilidad condicionada can´onica.
Sea U
i
⊂ X = ¦X
1
, . . . , X
n
¦. Una funci´ on de probabilidad condicionada
p(x
i
[u
i
) se dice can´ onica si X
i
est´a formada por una ´ unica variable que no
est´a contenida en U
i
.
El siguiente teorema, probado por Gelman y Speed (1993), garantiza que
cada conjunto de funciones de probabilidad condicionada, dado en forma
no can´ onica, tiene asociado un conjunto can´ onico equivalente.
Teorema 5.1 Existencia de formas can´onicas. Consid´erese el con-
junto de variables X = ¦X
1
, . . . , X
n
¦ y sup´ onganse las funciones de pro-
babilidad marginales y condicionadas P = ¦p(u
1
[v
1
), . . . , p(u
m
[v
m
)¦, donde
U
i
y V
i
son subconjuntos disjuntos de X, tal que U
i
= φ y V
i
puede ser vac´ıo
(para el caso de funciones marginales). Entonces, a partir de P puede obte-
nerse un conjunto equivalente en el que los nuevos conjuntos U
i
contienen
una ´ unica variable de X.
Demostraci´on: Aplicando la regla de la cadena a p(u
i
[v
i
) pueden ob-
tenerse tantas nuevas funciones condicionadas can´ onicas como variables
contenga el conjunto U
i
, es decir, el conjunto
¦p(x
j
[c
ij
, v
i
) ∀X
j
∈ U
i
¦, (5.21)
donde C
ij
= ¦X
r
[ X
r
⊂ U
i
, r < j¦.
El algoritmo siguiente convierte un conjunto dado de funciones condi-
cionadas P en una representaci´ on can´ onica equivalente.
Algoritmo 5.3 Forma can´onica.
• Datos: Un conjunto P = ¦p(u
i
[v
i
), i = 1, . . . , m¦ de m funciones de
probabilidad condicionada, donde U
i
y V
i
son subconjuntos disjuntos
de X.
3
Realmente existen 16 par´ametros, pero la suma de todos ha de ser 1. Por
tanto, existen ´ unicamente 15 par´ametros libres.
204 5. Construcci´on de Modelos Probabil´ısticos
• Resultado: Un conjunto equivalente P

en forma can´ onica.
1. Iniciaci´ on: Considerar P

= φ e i = 1.
2. Asignar j = 1, S
i
= U
i
∪ V
i
y L = card(U
i
).
3. Eliminar de S
i
una de las variables contenidas en U
i
, por ejemplo X

,
y a˜ nadir p(x

[s
i
) a P

.
4. Si j < L, incrementar el ´ındice j en una unidad e ir a la Etapa 3; en
caso contrario, ir a la Etapa 5.
5. Si i < m, incrementar el ´ındice i en una unidad e ir a la Etapa 2; en
caso contrario, devolver P

como resultado.
Ejemplo 5.10 Sup´ ongase el conjunto de variables X = ¦A, B, C, D¦ y
el conjunto de funciones de probabilidad P = ¦p(a, b[c), p(a, c, d[b)¦. Uti-
lizando la notaci´ on del Algoritmo 5.3, los conjuntos U
i
y V
i
son
U
1
= ¦A, B¦, V
1
= ¦C¦,
U
2
= ¦A, C, D¦, V
2
= ¦B¦.
Para convertir las dos funciones de probabilidad condicionada de P en sus
formas can´ onicas correspondientes, se utiliza el Algoritmo 5.3 obteni´endose
p(a, b[c) = p(a[b, c)p(b[c),
p(a, c, d[b) = p(a[c, d, b)p(c[d, b)p(d[b).
(5.22)
Por tanto, se obtiene la representaci´ on can´ onica
P

= ¦p(a[b, c)p(b[c); p(a[c, d, b)p(c[d, b)p(d[b)¦. (5.23)
La Figura 5.8 muestra un programa de Mathematica para convertir el con-
junto dado P en forma can´ onica. Dada una lista de pares ¦U, V ¦, el pro-
grama devuelve la lista can´ onica asociada. Por ejemplo, dadas las funciones
de probabilidad en (5.22) los siguientes comandos de Mathematica permiten
obtener la forma can´ onica correspondiente mostrada en (5.23):
In:=Canonical[List[¦¦A,B¦,¦C¦¦,¦¦A,C,D¦,¦B¦¦]]
Out:=List[¦¦A¦,¦B,C¦¦,¦¦B¦,¦C¦¦,¦¦A¦,¦C,D,B¦¦,
¦¦C¦,¦D,B¦¦,¦¦D¦,¦B¦¦]
Definici´on 5.15 Probabilidad condicionada can´onica est´andar.
Sea ¦Y
1
, . . . , Y
n
¦ una permutaci´ on del conjunto X = ¦X
1
, . . . , X
n
¦. Una
funci´ on de probabilidad condicionada p(y
i
[s
i
) se dice que es una funci´ on de
probabilidad condicionada en forma can´ onica est´andar si Y
i
est´a formado
por una ´ unica variable y S
i
contiene todas las variables anteriores a Y
i
, o
todas las variables posteriores a Y
i
, es decir, o bien S
i
= ¦Y
1
, ..., Y
i−1
¦, o
bien, S
i
= ¦Y
i+1
, ..., Y
n
¦.
5.5 Factorizaciones de una Funci´on de Probabilidad 205
Canonical[P List]:= Module[¦U,V,S,l,PCan¦,
PCan=¦¦;
Do[U=P[[i,1]]; (* Primer elemento del par i-´esimo *)
V=P[[i,2]];
S=Join[U,V];
l=Length[U];
Do[S=Drop[S,1]; (* Elimina el ´ultimo elemento *)
AppendTo[PCan,¦¦U[[j]]¦,S¦]
,¦j,1,l¦]
,¦i,1,Length[P]¦];
Return[PCan]
]
FIGURA 5.8. Programa de Mathematica para convertir un conjunto dado P de
funciones de probabilidad condicionada a forma can´onica.
Por ejemplo, dada la permutaci´ on Y = ¦Y
1
, Y
2
, Y
3
, Y
4
¦, las funciones de
probabilidad p(y
1
) y p(y
3
[y
1
, y
2
) son probabilidades condicionadas en forma
can´ onica est´andar; sin embargo, p(y
2
[y
1
, y
3
) y p(y
1
[y
3
, y
4
) son can´ onicas
pero no est´an en forma est´ andar.
Definici´on 5.16 Representaci´ on can´ onica est´andar de una pro-
babilidad. Sea ¦Y
1
, . . . , Y
n
¦ una permutaci´ on del conjunto de variables
X = ¦X
1
, . . . , X
n
¦. Entonces la funci´ on de probabilidad p(x) puede ex-
presarse como el producto de n funciones de probabilidad condicionada en
forma can´ onica est´andar de la forma siguiente
p(x) =
n
¸
i=1
p(y
i
[b
i
), (5.24)
donde B
i
= ¦Y
1
, . . . , Y
i−1
¦ o, de forma equivalente,
p(x) =
n
¸
i=1
p(y
i
[a
i
), (5.25)
donde A
i
= ¦Y
i+1
, . . . , Y
n
¦. Las ecuaciones (5.24) y (5.25) se denomi-
nan representaciones can´onicas est´andar de la probabilidad. Los t´erminos
p(y
i
[b
i
) y p(y
i
[a
i
) se denominan componentes can´onicas est´andar.
Por ejemplo, (5.24) y (5.25) corresponden a dos representaciones can´ onicas
est´andar de p(x
1
, . . . , x
4
). Las formas can´onicas est´andar no son ´ unicas,
al igual que las formas can´ onicas, pues pueden obtenerse distintas repre-
sentaciones aplicando la regla de la cadena a distintas permutaciones de
X.
206 5. Construcci´on de Modelos Probabil´ısticos
Las consecuencias pr´acticas de la existencia de una representaci´on can´ o-
nica para cualquier conjunto P de funciones de probabilidad condicionada
son
1. Cualquier conjunto no can´ onico de funciones de probabilidad condi-
cionada P puede ser expresado en forma can´ onica de forma equiva-
lente.
2. Cualquier funci´ on de probabilidad puede ser factorizada, utilizando
la regla de la cadena, como un producto de funciones de probabilidad
condicionada en forma can´ onica est´andar.
3. S´ olo es necesario considerar funciones de probabilidad condicionada
de una ´ unica variable para definir la funci´ on de probabilidad de un
conjunto de variables.
Las principales ventajas de este tipo de representaciones son las si-
guientes:
• La definici´ on de un modelo probabil´ıstico se simplifica enorme-
mente al tratar con funciones de probabilidad condicionada de
una ´ unica variable (dado un conjunto de variables). Este pro-
ceso es m´as sencillo que la especificaci´on directa de una funci´ on
de probabilidad pues, generalmente, las funciones de probabili-
dad condicionada dependen de muchas menos variables que la
funci´ on de probabilidad conjunta.
• La programaci´ on de algoritmos tambi´en se simplifica ya que
s´olo es necesario considerar un ´ unico modelo gen´erico para las
funciones de probabilidad condicionada.
4. Las formas can´onicas est´andar permiten identificar f´ acilmente aque-
llos conjuntos de funciones de probabilidad condicionada que son con-
sistentes con alg´ un modelo probabil´ıstico. Tambi´en permiten determi-
nar cu´ ando es ´ unico el modelo probabil´ıstico definido (ver el Cap´ıtulo
7).
5.6 Construcci´ on de un Modelo Probabil´ıstico
El problema de construir una funci´ on de probabilidad para un conjunto de
variables puede simplificarse notablemente considerando una factorizaci´ on
de la probabilidad como producto de funciones de probabilidad condicio-
nada m´ as sencillas. El grado de simplificaci´ on depender´ a de la estructura de
independencia (incondicional o condicional) existente entre las variables del
modelo. Por tanto, para encontrar una factorizaci´ on apropiada del modelo
probabil´ıstico, primero se necesita conocer su estructura de independencia.
Esta estructura de independencia (modelo de dependencia) caracteriza la
5.6 Construcci´on de un Modelo Probabil´ıstico 207
estructura cualitativa de las relaciones entre las variables. Por ejemplo, se
necesita definir qu´e variables son independientes y/o condicionalmente in-
dependientes de otras y cu´ ales no. La estructura de independencia y, por
tanto, la factorizaci´ on asociada al modelo probabil´ıstico, puede ser obtenida
de varias formas:
1. Modelos definidos gr´aficamente: Como se ha visto en las sec-
ciones anteriores, las relaciones existentes entre las variables de un
conjunto pueden ser descritas mediante un grafo. Posteriormente,
utilizando un criterio de separaci´ on apropiado, se puede obtener el
conjunto de relaciones de independencia asociado. Estos modelos de
dependencia se conocen como modelos definidos gr´ aficamente, y tie-
nen como ejemplos m´as importantes a las redes de Markov, y las redes
Bayesianas, que se analizan en detalle en los Cap´ıtulos 6 y 7. Las ta-
reas de comprobar la validez de un grafo, entender sus implicaciones,
y modificarlo de forma apropiada han de ser realizadas partiendo
de la comprensi´ on de las relaciones de dependencia e independencia
existentes en el conjunto de variables.
2. Modelos definidos por listas de independencias: Los grafos son
herramientas muy ´ utiles para definir la estructura de independencia
de un modelo probabil´ıstico. El problema de los modelos gr´ aficos es
que no todas las funciones de probabilidad pueden ser representadas
mediante estos modelos (ver Secci´on 6.2). Una descripci´ on alternativa
a los modelos gr´aficos consiste en utilizar directamente un conjunto
M de relaciones de independencia que describan las relaciones en-
tre las variables. Este conjunto puede ser definido por un experto
a partir de sus opiniones sobre las relaciones entre las variables del
modelo. Cada una de las independencias del conjunto indica qu´e va-
riables contienen informaci´ on relevante sobre otras y cu´ ando el cono-
cimiento de algunas variables hace que otras sean irrelevantes para
un conjunto de variables dado. Este conjunto inicial de independen-
cias puede ser completado incluyendo aquellas otras que cumplan una
serie de propiedades de independencia condicional. El conjunto resul-
tante puede ser finalmente utilizado para obtener una factorizaci´ on
de la funci´ on de probabilidad del modelo. Los modelos resultantes
se conocen como modelos definidos por listas de relaciones de in-
dependencia. El Cap´ıtulo 7 presenta un an´ alisis detallado de estos
modelos.
3. Modelos definidos condicionalmente: Como alternativa a los mo-
delos gr´ aficos y los modelos dados por listas de relaciones de indepen-
dencia, la estructura cualitativa de un modelo probabil´ıstico puede
venir dada por un conjunto de funciones de probabilidad marginales
y condicionadas
P = ¦p
1
(u
1
[v
1
), . . . , p
m
(u
m
[v
m
)¦.
208 5. Construcci´on de Modelos Probabil´ısticos
Sin embargo, las funciones de este conjunto no pueden definirse li-
bremente, sino que han de satisfacer ciertas relaciones para ser com-
patibles y definir un ´ unico modelo probabil´ıstico. En el Cap´ıtulo 7
se analiza detalladamente la forma de comprobar la compatibilidad,
la unicidad, y de obtener la funci´ on de probabilidad asociada a un
conjunto de probabilidades marginales y condicionadas.
Una ventaja de utilizar modelos gr´ aficos, o modelos definidos por listas de
independencias, para construir un modelo probabil´ıstico es que ´estos mode-
los definen una factorizaci´ on de la funci´ on de probabilidad como producto
de funciones de probabilidad condicionada que determinan la estructura
cualitativa del modelo probabil´ıstico. Normalmente, estas funciones condi-
cionadas contienen un n´ umero menor de variables que la funci´ on de pro-
babilidad conjunta y, por tanto, el proceso de definici´ on del modelo proba-
bil´ıstico es m´as sencillo. Esta t´ecnica de romper (“de dividir y conquistar”)
la funci´ on de probabilidad como producto de funciones condicionadas m´ as
sencillas se analiza en los Cap´ıtulos 6 y 7.
Una vez que se conoce la estructura cualitativa del modelo probabil´ıstico
(la factorizaci´ on de la funci´ on de probabilidad), la estructura cuantita-
tiva de un modelo particular se define mediante la asignaci´ on de valores
num´ericos a los par´ametros asociados a las funciones de probabilidad con-
dicionada que intervienen en la factorizaci´ on del modelo. Estos valores han
de ser definidos por alg´ un experto, o estimados a partir de un conjunto de
datos.
Por tanto, si la estructura cualitativa del modelo es desconocida, que
es el caso habitual en la pr´ actica, entonces tanto la estructura cualitativa,
como la cuantitativa (los par´ ametros) han de ser estimadas a partir del
conjunto de datos disponible (una base de datos, etc.). Este problema, que
se conoce como aprendizaje, se trata en detalle en el Cap´ıtulo 11.
Como resumen de todo lo anterior, la construcci´ on de un modelo proba-
bil´ıstico puede ser realizada en dos etapas:
1. Factorizar la funci´ on de probabilidad mediante un producto de fun-
ciones de probabilidad condicionada. Esta factorizaci´ on puede obte-
nerse de tres formas distintas:
(a) Utilizando grafos (ver Cap´ıtulo 6).
(b) Utilizando listas de relaciones de independencia (ver Cap´ıtulo
7).
(c) A partir de un conjunto de funciones de probabilidad condicio-
nada (Cap´ıtulo 7).
2. Estimar los par´ ametros de cada una de las funciones de probabilidad
condicionada resultantes.
Este proceso se ilustra de modo esquem´atico en la Figura 5.9. En este
diagrama, una l´ınea continua de un rect´ angulo A a un rect´ angulo B significa
Modelos
especificados
gráficamente
Modelos
especificados
por listas
Estructura
cualitativa
(Factorización)
Modelo
Probabilístico
Estructura
cuantitativa
(Estimación de
parámetros)
Distribuciones
de probabilidad
condicionada
5.6 Construcci´on de un Modelo Probabil´ıstico 209
que cada miembro de A es tambi´en un miembro de B, mientras que una
l´ınea discontinua significa que algunos, pero no necesariamente todos, los
miembros de A son miembros de B. El camino m´ as simple para definir
un modelo probabil´ıstico es comenzar con un grafo que se supone describe
la estructura de dependencia e independencia de las variables. A conti-
nuaci´ on, el grafo puede utilizarse para construir una factorizaci´ on de la
funci´ on de probabilidad de las variables. De forma alternativa, tambi´en
puede comenzarse con una lista de relaciones de independencia y, a partir
de ella, obtener una factorizaci´ on de la funci´ on de probabilidad. La factori-
zaci´on obtenida determina los par´ ametros necesarios para definir el modelo
probabil´ıstico. Una vez que estos par´ametros han sido definidos, o estimados
a partir de un conjunto de datos, la funci´ on de probabilidad que define el
modelo probabil´ıstico vendr´ a dada como el producto de las funciones de
probabilidad condicionada resultantes.
FIGURA 5.9. Diagrama mostrando las formas alternativas de definir un modelo
probabil´ıstico.
Por otra parte, si se conoce la funci´ on de probabilidad que define un mo-
delo probabil´ıstico (que no es el caso habitual en la pr´ actica), se puede
seguir el camino inverso y obtener varias factorizaciones distintas (uti-
lizando la regla de la cadena definida en la Secci´ on 5.5). Tambi´en se puede
obtener la lista de independencias correspondiente al modelo comprobando
cu´ ales de todas las posibles relaciones de independencia de las variables
son verificadas por la funci´ on de probabilidad. A partir del conjunto de
independencias obtenido, tambi´en puede construirse una factorizaci´ on de
la familia param´etrica que contiene a la funci´ on de probabilidad dada.
Este proceso de construcci´on de modelos probabil´ısticos plantea los si-
guientes problemas.
• Problema 5.4: ¿Puede representarse cualquier lista de relaciones de
independencia mediante un grafo de forma que las independencias
que se deriven del grafo coincidan con las de la lista dada?
210 5. Construcci´on de Modelos Probabil´ısticos
Aunque un grafo puede ser representado de forma equivalente por una lista
de relaciones de independencia, el rec´ıproco no siempre es cierto. Por esta
raz´on, la Figura 5.9 muestra una arista continua que va del rect´ angulo que
representa a los modelos definidos gr´ aficamente al rect´angulo que repre-
senta a los modelos definidos por listas de relaciones de independencia, y
una arista discontinua en la direcci´ on opuesta. El Cap´ıtulo 6 analiza en
mayor detalle este hecho, tanto en el caso de grafos dirigidos, como en el
caso de grafos no dirigidos.
• Problema 5.5: ¿C´omo puede obtenerse la funci´ on de probabilidad
que contiene las independencias asociadas a un grafo dirigido o no
dirigido?
• Problema 5.6: ¿C´omo puede obtenerse la funci´ on de probabili-
dad que contiene las independencias de una lista de relaciones de
independencia?
Estos dos problemas se analizan en los Cap´ıtulos 6 y 7.
Desgraciadamente, los grafos no siempre pueden reproducir las indepen-
dencias condicionales contenidas en una lista arbitraria de relaciones de
independencia, o en un modelo probabil´ıstico. Por tanto, es importante ca-
racterizar las clases de modelos probabil´ısticos que pueden representarse
mediante grafos. Esto plantea los siguientes problemas:
• Problema 5.7: ¿Cu´al es la clase de modelos probabil´ısticos que
pueden representarse por medio de grafos?
• Problema 5.8: ¿Qu´e listas de relaciones de independencia pueden
ser representadas por medio de grafos?
• Problema 5.9: ¿Cu´al es el conjunto de funciones de probabilidad
condicionadas necesario para definir un modelo probabil´ıstico y cu´ales
son los par´ ametros necesarios para cuantificarlo?
Estos problemas se analizan en detalle en los Cap´ıtulos 6 y 7. En es-
tos cap´ıtulos se ver´a que, aunque todo grafo define una estructura cua-
litativa de un modelo probabil´ıstico (a trav´es de una factorizaci´on), no
todas las estructuras cualitativas pueden ser representadas por medio de
grafos. Por tanto, la Figura 5.9 muestra una arista s´ olida que va de los
modelos definidos gr´ aficamente a los modelos factorizados, y una arista
discontinua en la direcci´ on opuesta. De forma similar, se ver´ a que todo
modelo probabil´ıstico define una lista de relaciones de independencia, pero
no cualquier lista de independencias define un modelo probabil´ıstico. Este
hecho se ilustra en la Figura 5.9 con las correspondientes aristas continua
y discontinua.
De la discusi´on anterior, y de la Figura 5.9, puede concluirse que existen
tres formas fundamentales de construir un modelo probabil´ıstico:
5.6 Construcci´on de un Modelo Probabil´ıstico 211
• Grafo → Modelos factorizados → Estimaci´on de par´ ametros → Mo-
delo probabil´ıstico.
• Listas de relaciones de independencia → Modelos factorizados →
Estimaci´on de par´ ametros → Modelo probabil´ıstico.
• Conjunto de funciones condicionadas → Modelos factorizados → Es-
timaci´on de par´ ametros → Modelo probabil´ıstico.
En los Cap´ıtulos 6 y 7 se ver´a que la forma m´ as sencilla es comenzar con un
grafo, pero que la forma m´ as general es a partir de una lista de relaciones
de independencia.
Ap´endice al Cap´ıtulo 5
En este ap´endice se demuestran algunas de las propiedades de independen-
cia condicional que cumplen las funciones de probabilidad. Se demuestra
que cualquier funci´ on de probabilidad verifica las cuatro primeras propie-
dades, pero que s´ olo las probabilidades no extremas verifican la ´ ultima.
5.7.1 Demostraci´ on de la Propiedad de Simetr´ıa
Dado que la funci´ on de probabilidad p(x, y, z) cumple I(X, Y [Z), se tiene
p(x[y, z) = p(x[z) ⇔p(x, y[z) = p(x[z)p(y[z). (5.26)
Veamos ahora que tambi´en se cumple I(Y, X[Z). Suponiendo que p(x, z) >
0, se tiene
p(y[x, z) =
p(x, y[z)
p(x[z)
=
p(x[z)p(y[z)
p(x[z)
= p(y[z) ⇒I(Y, X[Z),
donde la segunda igualdad se ha obtenido a partir de (5.26).
5.7.2 Demostraci´ on de la Propiedad de Descomposici´on.
Dado que la funci´ on de probabilidad p(x, y, z) cumple I(X, Y ∪ W[Z), se
tiene
p(x[z, y, w) = p(x[z). (5.27)
Veamos primero que tambi´en se cumple I(X, Y [Z). Se tiene
p(x[z, y) =
¸
v
p(x, v[z, y)
=
¸
v
p(x[z, y, v)p(v[z, y),
212 5. Construcci´on de Modelos Probabil´ısticos
donde V = W ` Y es el conjunto W excluyendo los elementos de Y .
Aplicando (5.27) se tiene
p(x[z, y) =
¸
v
p(x[z)p(v[z, y)
= p(x[z)
¸
v
p(v[z, y)
= p(x[z).
La ´ ultima igualdad se obtiene de
¸
v
p(v[z, y) = 1,
es decir, la suma de las probabilidades para todos los valores posibles de
una variable ha de ser uno. Por tanto, p(x[z, y) = p(x[z), y as´ı, I(X, Y [Z).
Se puede demostrar, de forma similar, que la relaci´ on de independencia
I(X, W[Z) tambi´en se cumple.
5.7.3 Demostraci´ on de la Propiedad de Uni´ on D´ebil
Dado que la funci´ on de probabilidad p(x, y, z) cumple I(X, Y ∪ W[Z), se
tiene
p(x[z, y, w) = p(x[z). (5.28)
Primero se muestra que esta relaci´on de independencia implica I(X, W[Z∪
Y ). Si se aplica la propiedad de descomposici´ on a I(X, Y ∪ W[Z), se tiene
I(X, Y [Z), es decir,
p(x[z, y) = p(x[z). (5.29)
Aplicando (5.28) y (5.29) resulta
p(x[z, y, w) = p(x[z) = p(x[z, y),
lo cual implica I(X, W[Z∪Y ). De forma similar puede obtenerse I(X, Y [Z∪
W).
5.7.4 Demostraci´ on de la Propiedad de Contracci´ on
Dado que la funci´ on de probabilidad p(x, y, z) cumple I(X, W[Z ∪ Y ) en
(5.4), se tiene que
p(x[z, y, w) = p(x[z, y). (5.30)
De forma similar, si se satisface I(X, Y [Z), entonces
p(x[z, y) = p(x[z). (5.31)
A partir de (5.30) y (5.31) resulta
p(x[z, y, w) = p(x[z, y) = p(x[z).
Por tanto, tambi´en se cumple I(X, Y ∪ W[Z).
E
B A
C D
F G
H
5.6 Construcci´on de un Modelo Probabil´ıstico 213
5.7.5 Demostraci´ on de la Propiedad de Intersecci´ on
Dado que la funci´ on de probabilidad no extrema p(x, y, z) cumple I(X, W[Z∪
Y ), se tiene
p(x[z, y, w) = p(x[z, y). (5.32)
De forma similar, si se cumple I(X, Y [Z ∪ W), entonces
p(x[z, y, w) = p(x[z, w). (5.33)
Las ecuaciones (5.32) y (5.33) implican
p(x[z, y, w) = p(x[z, y) = p(x[z, w),
que, dado que la probabilidad es no extrema, implica p(x[z, y, w) = p(x[z).
Por tanto, tambi´en se verifica I(X, Y ∪ W[Z).
Ejercicios
5.1 Consid´erese el grafo no dirigido de la Figura 5.10. Comprobar c´ uales
de las siguientes relaciones de independencia son ciertas utilizando el
criterio de U-separaci´on:
(a) I(F, H[φ).
(b) I(F, H[D).
(c) I(A, G[¦D, E¦).
(d) I(C, ¦B, G¦[D).
(e) I(¦A, B¦, ¦F, G¦[¦C, D¦).
(f) I(¦C, F¦, ¦G, E¦[¦A, D¦).
FIGURA 5.10. Grafo no dirigido.
A
C D
F G H
E
B
214 5. Construcci´on de Modelos Probabil´ısticos
5.2 Consid´erese el grafo dirigido de la Figura 5.11. Comprobar c´ uales de
las siguientes relaciones de independencia son ciertas utilizando el
criterio de D-separaci´on dado en la Definici´ on 5.3:
(a) I(E, G[φ).
(b) I(C, D[φ).
(c) I(C, D[G).
(d) I(B, C[A).
(e) I(¦C, D¦, E[φ).
(f) I(F, ¦E, H¦[A).
(g) I(¦A, C¦, ¦H, E¦[D).
FIGURA 5.11. Grafo dirigido.
5.3 Repetir el ejercicio anterior utilizando el criterio de D-separaci´on
dado en la Definici´ on 5.4.
5.4 Consid´erese el conjunto de cuatro variables ¦X, Y, Z, W¦, relacionadas
mediante
I(X, Y [φ) y I(X, Z[¦Y, W¦).
Encontrar el conjunto m´ınimo de relaciones de independencia gene-
rado por las dos relaciones de independencia anteriores y que adem´ as
cumpla:
(a) La propiedad de simetr´ıa.
(b) Las propiedades de simetr´ıa y descomposici´on.
(c) Las propiedades de semigrafoide.
(d) Las propiedades de grafoide.
5.5 Repetir el ejercicio anterior considerando las siguientes relaciones de
independencia:
I(X, W[¦Y, Z¦) y I(Y, Z[¦X, W¦).
5.6 Construcci´on de un Modelo Probabil´ıstico 215
x y z w p
1
(x, y, z, w) p
2
(x, y, z, w)
0 0 0 0 p
5
p
8
/p
13
(−p
13
p
4
+p
12
p
5
+p
4
p
8
+p
5
p
8
)/a
0 0 0 1 p
5
p
9
/p
13
(p
13
p
4
−p
12
p
5
+p
4
p
9
+p
5
p
9
)/a
0 0 1 0 p
10
p
7
/p
15
(p
10
p
6
−p
15
p
6
+p
10
p
7
+p
14
p
7
)/b
0 0 1 1 p
11
p
7
/p
15
(p
11
p
6
+p
15
p
6
+p
11
p
7
−p
14
p
7
)/b
0 1 0 0 p
12
p
5
/p
13
p
4
0 1 0 1 p
5
p
5
0 1 1 0 p
14
p
7
/p
15
p
6
0 1 1 1 p
7
p
7
1 0 0 0 p
8
p
8
1 0 0 1 p
9
p
9
1 0 1 0 p
10
p
10
1 0 1 1 p
11
p
11
1 1 0 0 p
12
p
12
1 1 0 1 p
13
p
13
1 1 1 0 p
14
p
14
1 1 1 1 p
15
p
15
TABLA 5.3. Dos familias param´etricas de funciones de probabilidad, donde a =
p
12
+p
13
y b = p
14
+p
15
.
5.6 Obtener el conjunto de todas las posibles relaciones de independencia
condicional para un conjunto de tres variables.
5.7 Encontrar el conjunto de relaciones de independencia correspondiente
a la funci´ on de probabilidad
p(x, y, z) = 0.3
x+y
0.7
2−x−y

x +y
2

z

1 −
x +y
2

1−z
,
donde x, y, z ∈ ¦0, 1¦.
5.8 Dado el conjunto de cuatro variables ¦X, Y, Z, W¦ y la familia pa-
ram´etrica de funciones de probabilidad p
1
(x, y, z, w) descrita en la
Tabla 5.3,
(a) Probar que esta familia satisface la relaci´ on de independencia
I(X, Y ∪ W[Z).
(b) ¿Es ´esta la familia de funciones de probabilidad m´ as general que
cumple esta propiedad?
5.9 Dado el conjunto de cuatro variables ¦X, Y, Z, W¦ y la familia pa-
ram´etrica de funciones de probabilidad p
2
(x, y, z, w) descrita en la
Tabla 5.3,
216 5. Construcci´on de Modelos Probabil´ısticos
(a) Probar que esta familia satisface I(X, Y [Z) y I(X, W[Z).
(b) ¿Es ´esta la familia de funciones de probabilidad m´ as general que
cumple estas propiedades?
(c) ¿Es suficiente suponer que p
6
= p
14
p
7
/p
15
y p
4
= p
12
p
5
/p
13
para
que la familia anterior satisfaga I(X, Y ∪ W[Z)?
5.10 Expresar en forma factorizada la funci´ on de probabilidad del Ejemplo
5.8 considerando las siguientes particiones del conjunto de variables:
(a) Y
1
= ¦X
1
, X
3
¦, Y
2
= ¦X
2
, X
4
¦.
(b) Y
1
= ¦X
4
¦, Y
2
= ¦X
2
¦, Y
3
= ¦X
1
, X
3
¦.
(c) Y
1
= ¦X
2
¦, Y
2
= ¦X
1
, X
3
, X
4
¦.
5.11 Consid´erese el conjunto de cuatro variables dado en el Ejemplo 5.9
y sup´ ongase que X
1
es una variable ternaria y que las otras tres
variables son binarias.
(a) ¿Cu´ al es el n´ umero m´aximo de par´ ametros libres de la funci´ on
de probabilidad?
(b) ¿Cu´ antos par´ ametros libres definen las funciones de probabilidad
que cumplen las relaciones de independencia en (5.17)?
5.12 Repetir el ejercicio anterior suponiendo que las tres variables son
ahora ternarias.
5.13 Consid´erese de nuevo el conjunto de cuatro variables dado en el Ejem-
plo 5.9. Escribir la forma factorizada asociada a cada uno de los si-
guientes casos y calcular el n´ umero de par´ ametros libres en cada uno
de los modelos resultantes
(a) La funci´ on de probabilidad que cumple I(X
1
, X
4
[¦X
2
, X
3
¦).
(b) La funci´ on de probabilidad que satisface las condiciones de in-
dependencia I(X
2
, X
3
[X
1
), I(X
3
, X
4
[X
1
), y I(X
2
, X
4
[X
1
).
5.14 Encontrar la lista de relaciones de independencia asociada a la funci´ on
de probabilidad dada en la Tabla 3.2.
5.15 Sup´ ongase que una funci´ on de probabilidad de cuatro variables ¦X, Y,
Z, W¦ puede ser factorizada como
p(x, y, z, w) = p(x)p(y[x)p(z[x)p(w[y, z).
Comprobar cu´ ales de las siguientes relaciones de independencia se
cumplen:
(a) I(X, W[Y ).
(b) I(X, W[Z).
(c) I(X, W[Y, Z).
(d) I(Y, Z[X, W).
This is page 217
Printer: Opaque this
Cap´ıtulo 6
Modelos Definidos Gr´ aficamente
6.1 Introducci´ on
En el Cap´ıtulo 3 se ha visto que el funcionamiento de un sistema experto
probabil´ıstico depende de la correcta definici´ on del correspondiente mo-
delo, que est´a caracterizado por la funci´ on de probabilidad conjunta de
las variables. Tambi´en se ha visto que la estuctura general de una funci´ on
de probabilidad conjunta involucra un excesivo n´ umero de par´ ametros. Por
esta raz´on, en la Secci´ on 3.5 se presentaron algunos modelos probabil´ısticos
simplificados, que eran obtenidos imponiendo ciertas hip´ otesis de indepen-
dencia globales sobre las variables. Sin embargo, estos modelos son restric-
tivos y solamente aplicables a problemas del tipo “enfermedades-s´ıntomas”.
En este cap´ıtulo se desarrolla la forma de obtener modelos probabil´ısticos
m´as generales por medio de grafos. La idea b´ asica consiste en utilizar grafos
(no dirigidos o dirigidos) para construir un modelo de dependencia que re-
presente la estructura cualitativa del modelo probabil´ıstico. De esta forma,
los modelos resultantes son generales, pues se crean a partir de un modelo
de dependencia “arbitrario”, y no de uno impuesto inicialmente.
Antes de comenzar, es necesaria cierta notaci´on y aclarar la terminolog´ıa.
El t´ermino modelo probabil´ıstico se refiere a la estructura cualitativa y
cuantitativa dada por una funci´ on de probabilidad. Por tanto, los t´erminos
modelo probabil´ıstico y funci´ on de probabilidad se utilizar´ an de forma sin´ o-
nima. Los t´erminos modelo de dependencia y modelo de independencia se
refieren exclusivamente a la estrucutura cualitativa de las relaciones exis-
tentes en el conjunto de variables. Estos modelos permiten comprobar qu´e
218 6. Modelos Definidos Gr´aficamente
conjuntos de variables son incondicionalmente o condicionalmente depen-
dientes o independientes. Cada modelo probabil´ıstico tiene asociado un
modelo de dependencia M, que puede ser obtenido generando todas las
relaciones de independencia condicional posibles para un conjunto de va-
riables dado, y comprobando cu´ ales de ellas se satisfacen para la funci´on
de probabilidad. Por ejemplo, si X, Y y Z son tres subconjuntos disjun-
tos y p(x[y, z) = p(x[z), para cada combinaci´ on de valores de x, y y z,
entonces se verifica la relaci´on de independencia I(X, Y [Z) y se puede con-
cluir que X e Y son condicionalmente independientes dado Z. Por otra
parte, si p(x[y, z) = p(x[z) para algunos valores x, y, z, entonces X e Y son
condicionalmente dependientes dado Z. Por tanto, una funci´ on de proba-
bilidad contiene una descripci´ on completa (cuantitativa y cualitativa) de
las relaciones entre las variables, mientras que el modelo de dependencia
M asociado s´olo contiene una descripci´ on cualitativa. Por tanto, el t´ermino
modelo de dependencia probabil´ıstico se refiere ´ unicamente a un modelo de
dependencia asociado a una funci´ on de probabilidad.
Por otra parte, un modelo de dependencia puede ser definido de forma al-
ternativa mediante un grafo (dirigido o no dirigido), una lista de relaciones
de independencia, o un conjunto de funciones de probabilidad condicio-
nada. Estas tres alternativas determinan tres metodolog´ıas diferentes para
construir un modelo de dependencia:
• Modelos definidos gr´ aficamente.
• Modelos definidos por listas de independencias.
• Modelos definidos condicionalmente.
Estas tres metodolog´ıas son m´as generales que los modelos presentados en
la Secci´on 3.5 y pueden ser aplicadas, no s´ olo a problemas de diagn´ ostico
m´edico (problemas tipo “s´ıntoma-enfermedad”), sino tambi´en a proble-
mas m´as generales. Estas metodolog´ıas requieren ciertos conceptos previos
(criterios de separaci´on gr´ afica, propiedades de independencia condicional,
etc.), ya tratados en las Secciones 5.2 y 5.3. Este cap´ıtulo est´ a dedicado a
los modelos definidos gr´ aficamente o, de forma m´as precisa, a los modelos
definidos a partir de un ´ unico grafo. El problema de los modelos descritos
por un conjunto de grafos se analizar´ a en el Cap´ıtulo 7.
En el Cap´ıtulo 4 se ha visto que un conjunto de variables X
1
, . . . , X
n
y
sus relaciones pueden ser representados mediante un grafo, asociando cada
variable a un nodo y cada relaci´ on entre variables a una arista entre los
nodos correspondientes. Por tanto, los t´erminos nodo y variable se utilizan
de forma sin´ onima. En algunas ocasiones, el orden de las variables (es decir,
la direcci´ on de las aristas) es importante en el grafo (grafos dirigidos) y en
otras no (grafo no dirigido). Las representaciones gr´ aficas tienen la ventaja
de mostrar expl´ıcitamente las relaciones entre las variables y conservar estas
relaciones de forma cualitiativa (es decir, para cualquier valor num´erico de
6.2 Algunas Definiciones y Problemas 219
los par´ ametros). Los modelos gr´aficos son tambi´en m´as intuitivos y f´ aciles
de entender.
En el Cap´ıtulo 5 se analizaron dos criterios gr´ aficos de separaci´on dis-
tintos para obtener las relaciones de independencia definidas por los grafos
dirigidos y los no dirigidos. Seg´ un esta distinci´ on, los modelos definidos
gr´ aficamente pueden ser clasificados en dos grupos, dependiendo del tipo
de grafo que se utilice:
• Modelos de dependencia definidos por grafos no dirigidos, analizados
en la Secci´on 6.3.
• Modelos de dependencia definidos por grafos dirigidos, analizados en
la Secci´on 6.4.
Aunque existe un tercer tipo de modelos gr´ aficos que pueden ser represen-
tados por grafos mixtos (grafos que contienen aristas dirigidas y no dirigi-
das), este cap´ıtulo est´ a dedicado a los modelos definidos por grafos dirigidos
y no dirigidos. El lector interesado en el an´ alisis de modelos definidos por
grafos mixtos puede consultar Lauritzen y Wermuth (1989) y Frydenberg
(1990).
Se ha utilizado el t´ermino dependencia en las definiciones anteriores para
enfatizar que un grafo s´ olo puede definir la estructura cualititativa del mo-
delo. Una vez que se conoce esta estructura cualitativa, puede construirse
una factorizaci´ on de la funci´ on de probabilidad e identificarse el conjunto de
par´ ametros que definen el modelo. Los valores num´ericos de los par´ametros
pueden ser dados por un experto, o estimados a partir de un conjunto de
datos disponibles (ver Secci´ on 5.6). El conjunto de funciones de probabi-
lidad condicionada junto con los valores de los par´ ametros asignados se
conoce como la estructura completa del modelo.
En este cap´ıtulo se analiza tambi´en la capacidad de los grafos dirigidos y
no dirigidos para captar ciertos tipos de estructuras de dependencia propias
de los modelos probabil´ısticos, o de los modelos de dependencia en general.
En la Secci´ on 6.2 se introducen algunas definiciones y problemas a analizar.
Las Secciones 6.3 y 6.4 analizan los modelos de dependencia definidos por
grafos no dirigidos y dirigidos, respectivamente. La Secci´ on 6.5 define y ca-
racteriza las clases de modelos gr´aficos equivalentes. La Secci´on 6.6 analiza
la capacidad de los grafos dirigidos y no dirigidos para representar modelos
de dependencia.
6.2 Algunas Definiciones y Problemas
El objetivo de este cap´ıtulo es representar un modelo de dependencia pro-
babil´ıstico mediante un grafo. Por tanto, es importante conocer si los grafos
permiten representar cualquier tipo de modelo de dependencia.
220 6. Modelos Definidos Gr´aficamente
Definici´on 6.1 Mapa perfecto. Un grafo G se dice que es un mapa
perfecto de un modelo de dependencia M si cada relaci´ on de independencia
obtenida de G tambi´en puede ser obtenida de M y viceversa, es decir,
I(X, Y [Z)
M
⇔I(X, Y [Z)
G
⇔Z separa X de Y.
Dependiendo del car´acter dirigido o no dirigido del grafo G, los mapas
perfectos se denominan mapas perfectos dirigidos o no dirigidos, respecti-
vamente.
Dado que es necesario tratar con dos tipos de grafos distintos, es necesario
reformular el problema anterior de la forma siguiente:
• Problema 6.1: ¿Puede representarse mediante un mapa perfecto
dirigido o no dirigido cualquier modelo de dependencia?
Desafortunadamente, no todo modelo de dependencia tiene asociado un
mapa perfecto. Los dos ejemplos siguientes muestran dos modelos de de-
pendencia que no poseen un mapa perfecto. En las Secciones 6.3 y 6.4
pueden encontrarse m´ as ejemplos.
Ejemplo 6.1 Modelo sin mapa perfecto no dirigido. Consid´erese el
conjunto de tres variables ¦X, Y, Z¦ que est´an relacionadas por el siguiente
modelo de dependencia
M = ¦I(X, Y [φ), I(Y, X[φ)¦, (6.1)
que s´olo contiene una relaci´ on de independencia y su relaci´ on sim´etrica.
Sup´ ongase que se quiere representar este modelo por medio de un grafo no
dirigido. En general, para un conjunto de n nodos podr´ıan construirse los
2
n(n−1)/2
grafos no dirigidos distintos (ver Whittaker (1990)). La Figura
6.1 muestra los ocho grafos para el caso de tres variables. Estos grafos
est´an ordenados en filas que contienen grafos con el mismo n´ umero de
aristas. As´ı, la figura (a) corresponde al grafo totalmente inconexo (un
grafo sin ninguna arista), cada uno de los tres grafos en (b)−(d) contiene
una ´ unica arista, cada uno de los grafos en (e)−(g) contiene dos aristas, y
el ´ ultimo grafo es el grafo completo (un grafo con una arista entre cada par
de nodos). La segunda columna de la Tabla 6.1 muestra algunas relaciones
de independencia implicadas por cada uno de los grafos, y que no est´ an
contenidas en M. El lector puede comprobar f´ acilmente estas relaciones
utilizando el criterio de U-separaci´on descrito en la Secci´on 5.2. La ´ ultima
columna de la tabla muestra cuando las relaciones de independencia de
M est´an contenidas en el grafo G. Como puede verse en la Tabla 6.1, en
cada grafo G se puede encontrar una relaci´ on de independencia que no est´ a
contenida en M y/o viceversa. Por tanto, ninguno de los grafos de la Figura
6.1 es un mapa perfecto de M en (6.1). Puesto que este conjunto de grafos
es exhaustivo, el modelo de dependencia M no posee ning´ un mapa perfecto
no dirigido.
X
Y Z
X
Y Z
(a)
X
Y Z
(c)
X
Y Z
(f)
X
Y Z
(h)
(b)
X
Y Z
(d)
X
Y Z
(e)
X
Y Z
(g)
6.2 Algunas Definiciones y Problemas 221
FIGURA 6.1. Ocho posibles grafos no dirigidos con tres variables.
El modelo de dependencia M del Ejemplo 6.1 tiene un mapa perfecto di-
rigido, a pesar de que no posee ning´ un mapa perfecto no dirigido. Se deja
como ejercicio para el lector demostrar que el grafo dirigido mostrado en
la Figura 6.2 es un mapa perfecto dirigido de M. En este caso, los grafos
dirigidos son m´ as potentes que los no dirigidos. Sin embargo, no todo mo-
delo de dependencia posee un mapa perfecto dirigido. El ejemplo siguiente
muestra uno de estos modelos.
Ejemplo 6.2 Modelo sin mapa perfecto dirigido. Consid´erese el con-
junto de tres variables ¦X, Y, Z¦ y el modelo de dependencia
M = ¦I(X, Y [Z), I(Y, Z[X), I(Y, X[Z), I(Z, Y [X)¦. (6.2)
Z
X Y
222 6. Modelos Definidos Gr´aficamente
Independencia en G Independencia en M
Grafo G pero no en M pero no en G
(a) I(X, Z[φ) φ
(b) I(X, Z[φ) I(X, Y [φ)
(c) I(Y, Z[φ) φ
(d) I(X, Z[φ) φ
(e) I(Y, Z[X) I(X, Y [φ)
(f) I(X, Z[Y ) I(X, Y [φ)
(g) I(X, Y [Z) I(X, Y [φ)
(h) φ I(X, Y [φ)
TABLA 6.1. Algunas relaciones de independencia contenidas en G en la Figura
6.1 pero no en el modelo de dependencia M en (6.1).
FIGURA 6.2. Mapa perfecto dirigido del modelo de dependencia M en (6.1).
No existe ning´ un grafo dirigido ac´ıclico D que sea mapa perfecto del modelo
de dependencia M.
En los casos en los que no existe un mapa perfecto, es necesario asegurarse
de que el modelo gr´ afico que se utilice no posea ninguna independencia
que no est´e contenida en el modelo, y que el n´ umero de independencias del
modelo que no sean reproducidas por el grafo sea m´ınimo. Esto motiva las
siguientes definiciones.
Definici´on 6.2 Mapa de independencia. Un grafo G se dice que es
un mapa de independencia (I-mapa) de un modelo de dependencia M si
I(X, Y [Z)
G
⇒I(X, Y [Z)
M
,
es decir, si todas las relaciones de dependencia derivadas de G son verifi-
cadas por M.
Obs´ervese que un I-mapa G de un modelo de dependencia M incluye algu-
nas de las independencias de M, pero no necesariamente todas. Entonces,
se tiene
I(X, Y [Z)
G
⇒ I(X, Y [Z)
M
,
6.2 Algunas Definiciones y Problemas 223
lo cual implica
D(X, Y [Z)
M
⇒ D(X, Y [Z)
G
.
Por tanto, todas las dependencias de M est´an representadas en G. Por
ejemplo, solamente el grafo completo de la Figura 6.1(h) es un I-mapa del
modelo de dependencia dado en (6.1). Cada uno de los grafos restantes
implica algunas independencias que no son propias de M (ver Tabla 6.1).
En general, un grafo completo es siempre un I-mapa trivial de cualquier
modelo de dependencia.
Definici´on 6.3 Mapa de dependencia. Un grafo G se dice que es un
mapa de dependencia (D-mapa) de un modelo de dependencia M si
D(X, Y [Z)
G
⇒D(X, Y [Z)
M
,
es decir, todas las relaciones de dependencia derivadas de G son verificadas
por M.
Si G es un D-mapa de M, se tiene
D(X, Y [Z)
G
⇒ D(X, Y [Z)
M
,
lo cual implica
I(X, Y [Z)
M
⇒ I(X, Y [Z)
G
,
es decir, todas la independencias de M est´an representadas en G.
Obs´ervese que un D-mapa de un modelo de dependencia M s´olo incluye
algunas de las dependencias de M. Por ejemplo, el grafo totalmente in-
conexo de la Figura 6.1(a) es un D-mapa trivial, aunque in´ util, del modelo
de dependencia dado en (6.1). Los grafos de las Figuras 6.1(c) y (d) son
tambi´en D-mapas del modelo de dependencia.
Por tanto, cada modelo de dependencia tiene asociados un I-mapa y un
D-mapa triviales. Por ejemplo, cualquier grafo totalmente inconexo es un
D-mapa trivial y cualquier grafo completo es un I-mapa trivial de cualquier
modelo de dependencia. De esta forma, para que un grafo sea un mapa
perfecto de un modelo, ha de ser simult´ aneamente un I-mapa y un D-mapa
de ese modelo.
Definici´on 6.4 I-mapa minimal. Se dice que un grafo G es un I-mapa
minimal de un modelo de dependencia M si es un I-mapa de M, pero pierde
esta propiedad cuando se elimina una cualquiera de sus aristas.
A pesar de que los modelos de dependencia y las representaciones gr´aficas
tienen numerosas aplicaciones m´as all´a de la probabilidad, el inter´es princi-
pal de este libro es la construcci´on de modelos probabil´ısticos y, por tanto,
estamos interesados en conocer la relaci´on existente entre las representacio-
nes gr´aficas y las funciones de probabilidad, es decir, la relaci´ on existente
entre las nociones formales de dependencia probabil´ıstica y la estructura
224 6. Modelos Definidos Gr´aficamente
topol´ ogica de un grafo. Una raz´ on importante para representar la estruc-
tura de dependencia de un modelo mediante un grafo es que comprobar la
conexi´on de un conjunto de variables en un grafo (utilizando alguno de los
criterios gr´ aficos de separaci´on introducidos en el Cap´ıtulo 5) es m´as f´acil
que comprobar la independencia condicional de un conjunto de variables
utilizando las f´ ormulas de la Probabilidad dadas en la Secci´ on 3.2. Un D-
mapa garantiza que todos los nodos que est´en conectados en el grafo ser´an
por tanto dependientes; sin embargo, el grafo puede ocasionalmente repre-
sentar desconectados algunos conjuntos de variables dependientes. Por el
contrario, un I-mapa garantiza que los nodos separados en el grafo siempre
corresponden a variables independientes, pero no garantiza que todos los
nodos conectados sean dependientes. Como ya se mencion´o anteriormente,
los grafos totalmente inconexos son D-mapas triviales, mientras que los
grafos completos son I-mapas triviales.
El problema de definir un modelo gr´ afico asociado a un modelo de de-
pendencia dado no es un problema trivial. Cuando se trata con alg´ un mo-
delo donde la noci´ on de vecindad o conexi´ on es expl´ıcita (por ejemplo,
relaciones familiares, circuitos electr´onicos, redes de comunicaci´on, etc.)
se suelen tener pocos problemas para definir un grafo que represente las
caracter´ısticas principales del modelo. Sin embargo, cuando se trata con
relaciones conceptuales como asociaci´on o relevancia, es a menudo dif´ıcil
distinguir entre vecinos directos e indirectos. En estos casos, la tarea de
construir una representaci´ on gr´ afica se vuelve m´as dif´ıcil. Un ejemplo claro
de este problema es la noci´on de independencia condicional en probabili-
dad. Dada una funci´ on de probabilidad de tres variables X, Y y Z, es f´acil
comprobar si X e Y son independientes dada Z; sin embargo, la funci´ on
de probabilidad no proporciona ninguna informaci´ on sobre cu´ al de estas
variables es la causa y cu´al es el efecto.
En el Cap´ıtulo 4 se han introducido algunos conceptos elementales so-
bre la teor´ıa de grafos y se ha visto que los nodos de un grafo represen-
tan variables y las aristas representan dependencias locales entre variables
conceptualmente relacionadas. Por tanto, las aristas de un grafo permiten
representar relaciones cualitativas y la topolog´ıa del grafo muestra estas
relaciones de forma expl´ıcita y las conserva tras la asignaci´on num´erica de
los par´ ametros. En este cap´ıtulo se analiza la forma de representar algunos
modelos probabil´ısticos por medio de grafos dirigidos y no dirigidos.
Dado que no todo modelo probabil´ıstico puede ser representado por un
mapa perfecto, se presentan los siguientes problemas:
• Problema 6.2: ¿Cu´ales son los modelos de dependencia y, en par-
ticular, los modelos de dependencia probabil´ısticos que pueden ser
representados por un mapa perfecto?
• Problema 6.3: ¿Cu´ales son los modelos de dependencia probabil´ıs-
ticos que poseen un ´ unico I-mapa minimal?
6.3 Modelos de Dependencia Gr´aficos no Dirigidos 225
• Problema 6.4: Si un modelo probabil´ıstico posee un ´ unico I-mapa
minimal ¿c´omo se puede obtener este I-mapa?
• Problema 6.5: Dado un grafo G, ¿existe alg´ un modelo probabil´ıs-
tico P tal que G sea un I-mapa minimal de P?. En caso afirmativo,
¿c´omo se puede construir?
En la Secci´ on 6.3 se analizar´ an estos problemas para el caso de grafos no
dirigidos y en la Secci´ on 6.4, para el caso de grafos dirigidos. Obs´ervese que
el Problema 5.7, “¿cu´ al es la clase de modelos probabil´ısticos que puede ser
representada por grafos?” se ha dividido ahora en dos partes: Problemas
6.2 y 6.3.
6.3 Modelos de Dependencia Gr´ aficos no Dirigidos
En esta secci´on se analiza la forma de definir modelos de dependencia uti-
lizando grafos no dirigidos. Nuestro objetivo es encontrar un grafo que re-
produzca tantas independencias asociadas a un modelo probabil´ıstico como
sea posible. Se comienza con el problema de representrar estos modelos por
medio de mapas perfectos e I-mapas y, a continuaci´ on, se introduce un clase
importante de modelos probabil´ısticos definidos por grafos no dirigidos.
Estos modelos se conocen por redes de Markov.
6.3.1 De Modelos a Grafos no Dirigidos
En esta secci´on se analiza el problema de representar modelos probabil´ıs-
ticos utilizando grafos no dirigidos, es decir, se desea encontrar el grafo
correspondiente a un modelo de dependencia probabil´ıstico. Como ya se ha
visto en el Ejemplo 6.1, no todos lo modelos probabil´ısticos de dependen-
cia pueden ser representados por mapas perfectos no dirigidos. Pearl y Paz
(1987) probaron el siguiente teorema que caracteriza los modelos de depen-
dencia que pueden ser representados mediante mapas perfectos no dirigidos.
El teorema se refiere no s´olo a modelos de dependencia probabil´ısticos, sino
a modelos de dependencia en general.
Teorema 6.1 Modelos con mapa perfecto no dirigido. Una condici´on
necesaria y suficiente para que un modelo de dependencia M tenga un mapa
perfecto no dirigido es que satisfaga las siguientes propiedades:
• Simetr´ıa:
I(X, Y [Z)
M
⇔I(Y, X[Z)
M
.
• Descomposici´on:
I(X, Y ∪ W[Z)
M
⇒I(X, Y [Z)
M
y I(X, W[Z)
M
.
226 6. Modelos Definidos Gr´aficamente
• Intersecci´on:
I(X, W[Z ∪ Y )
M
y I(X, Y [Z ∪ W)
M
⇒I(X, Y ∪ W[Z)
M
.
• Uni´on fuerte:
I(X, Y [Z)
M
⇒I(X, Y [Z ∪ W)
M
.
• Transitividad fuerte:
I(X, Y [Z)
M
⇒I(X, A[Z)
M
o I(Y, A[Z)
M
,
donde A es un conjunto formado por un ´ unico nodo que no est´e
contenido en ¦X, Y, Z¦.
Por tanto, la respuesta al Problema 6.2 para el caso de grafos no dirigidos es
que solamente los modelos de dependencia que satisfagan estas propiedades
tienen un mapa perfecto no dirigido, en el sentido de que las dependencias
e independencias correspondientes al modelo y al mapa perfecto son las
mismas. El caso de grafos dirigidos es analizado en la Secci´on 6.4.1.
Obs´ervese que, en general, los grafoides y los semigrafoides no tienen ma-
pas perfectos no dirigidos, pues los semigrafoides solamente han de cumplir
las propiedades de simetr´ıa y descomposici´on y los grafoides s´ olo han de
verificar las propiedades de simetr´ıa, descomposici´on, e intersecci´on. Por
ejemplo, el modelo de dependencia del Ejemplo 6.1 es un grafoide, pero
no tiene asociado un mapa perfecto, pues viola las propiedades de uni´ on y
transitividad fuerte.
Los modelos probabil´ısticos de dependencia tambi´en pueden violar las
dos ´ ultimas propiedades y, por tanto, no todo modelo probabil´ıstico puede
representarse mediante un mapa perfecto no dirigido. Los siguientes ejem-
plos ilustran este hecho.
Ejemplo 6.3 Violaci´on de la uni´on fuerte y la transitividad fuerte.
La propiedad de uni´ on fuerte afirma que si X e Y son independientes dado
Z, entonces tambi´en son independientes dado un conjunto mayor Z ∪ W:
I(X, Y [Z) ⇒I(X, Y [Z ∪ W).
Por ejemplo, considerando Z = φ, esta propiedad implica: I(X, Y [φ) ⇒
I(X, Y [W), que afirma que si X e Y son incondicionalmente independien-
tes, entonces tambi´en deben ser condicionalmente independientes dado otro
subconjunto de variables cualquiera W. Esta afirmaci´ on no es siempre cierta
para modelos probabil´ısticos. Por ejemplo para la familia de funciones de
probabilidad dada por la factorizaci´ on
p(x, y, z) = p(x)p(y)p(z[x, y),
6.3 Modelos de Dependencia Gr´aficos no Dirigidos 227
se tiene I(X, Y [φ), pero I(X, Y [Z) no es cierto, en general. Por tanto,
p(x, y, z) viola la propiedad de uni´ on fuerte y, por esta raz´ on, no puede ser
representada por un mapa perfecto no dirigido, tal y como se ha visto en
el Ejemplo 6.1. Adem´ as, esta familia de funciones de probabilidad tambi´en
viola la propiedad de transitividad fuerte. Seg´ un esta propiedad, y con-
siderando Z = φ, se tiene
I(X, Y [φ) ⇒I(X, A[φ) o I(Y, A[φ),
donde A es un conjunto formado por un ´ unico nodo distinto de ¦X, Y ¦. En
este caso A = Z. Sin embargo, aunque se cumple I(X, Y [φ), la familia de
probabilidades anterior no satisface ni I(X, Z[φ) ni I(X, Z[φ). Se deja como
ejercicio para el lector hallar una combinaci´ on de valores num´ericos para
los par´ ametros asociados a las funciones de probabilidad condicionada de
la familia que permitan obtener una funci´ on de probabilidad p(x, y, z) que
viole ambas propiedades. Obs´ervese que estos par´ametros no pueden ser
elegidos arbitrariamente pues alguna elecci´ on espec´ıfica de los par´ ametros
puede hacer que las variables X y Z, o Y y Z sean independientes y, por
tanto, las propiedades anteriores no ser´ıan violadas.
El ejemplo siguiente ilustra la violaci´ on de las propiedades de uni´ on fuerte
y transitividad fuerte utilizando una funci´ on de probabilidad de tipo con-
tinuo. Este ejemplo requiere la propiedad siguiente de la funci´ on de dis-
tribuci´ on normal multivariada (ver Anderson (1984), Johnson y Wichern
(1988), o Rencher (1995)).
Teorema 6.2 Distribuci´on normal multivariada. Sean X e Y dos
conjuntos de variables aleatorias con funci´ on de distribuci´ on normal mul-
tivariada cuyo vector de medias y matriz de covarianzas son
µ =

µ
X
µ
Y

y Σ =

Σ
XX
Σ
XY
Σ
Y X
Σ
Y Y

,
donde µ
X
y Σ
XX
son el vector de medias y la matriz de covarianzas de X,
µ
Y
y Σ
Y Y
son el vector de medias y la matriz de covarianzas de Y , y Σ
XY
es la matriz de covarianzas de X e Y . Entonces, la funci´ on de probabilidad
condicionada de X dada Y = y es una funci´ on normal multivariada con
vector de medias µ
X|Y =y
y matriz de covarianzas
µ
X|Y =y
= µ
X
+ Σ
XY
Σ
−1
Y Y
(y −µ
y
), (6.3)
Σ
X|Y =y
= Σ
XX
−Σ
XY
Σ
−1
Y Y
Σ
Y X
. (6.4)
Obs´ervese que la media condicionada µ
X|Y =y
depende del valor y, pero no
as´ı la varianza condicionada Σ
X|Y =y
.
Ejemplo 6.4 Violaci´on de la uni´on fuerte y la transitividad fuerte.
Sup´ ongase que las variables (X
1
, X
2
, X
3
) est´an distribuidas de forma nor-
228 6. Modelos Definidos Gr´aficamente
mal con
µ =

¸
µ
1
µ
2
µ
3
¸

y Σ =

¸
1 0 1/4
0 1 1/2
1/4 1/2 1
¸

. (6.5)
La propiedad de uni´ on fuerte implica que si los conjuntos de variables
X e Y son incondicionalmente independientes, entonces, tambi´en han de
ser condicionalmente independientes dado otro subconjunto W. Es decir
I(X, Y [φ) ⇒ I(X, Y [W). En este ejemplo, las ´ unicas variables incondi-
cionalmente independientes son X
1
y X
2
, ya que Σ
X
1
X
2
= Σ
X
2
X
1
= 0.
Por tanto, se tiene I(X
1
, X
2
[φ). Sin embargo, X
1
y X
2
no son condicional-
mente independientes dada X
3
, es decir, no se verifica I(X
1
, X
2
[X
3
). Para
comprobar esta ´ ultima afirmaci´ on, se utiliza (6.4) para calcular
Σ
X
1
|X
3
= Σ
X
1
X
1
−Σ
X
1
X
3
Σ
−1
X
3
X
3
Σ
X
3
X
1
= 1 −
1
4
1
1
4
=
15
16
, (6.6)
Σ
X
1
|X
2
,X
3
= Σ
X
1
X
1
−Σ
X
1
(X
2
X
3
)
Σ
−1
(X
2
X
3
)(X
2
X
3
)
Σ
(X
2
X
3
)X
1
= 1 −

0
1
4

1
1
2
1
2
1

−1

0
1
4

=
11
12
. (6.7)
De (6.6) y (6.7) se obtiene que las funciones de distribuci´ on normales de las
variables (X
1
[X
3
) y (X
1
[X
2
, X
3
) son distintas; por tanto, la distribuci´ on
normal cuya matriz de covarianzas est´a dada en (6.5) viola la propiedad de
uni´ on fuerte y, por tanto, no puede ser representada por un mapa perfecto
no dirigido.
De forma similar, para demostrar la violaci´ on de la propiedad de transi-
tividad fuerte, se considera Z = φ, obteni´endose
I(X, Y [φ) ⇒I(X, A[φ) o I(Y, A[φ),
donde A es un conjunto de una ´ unica variable que no est´ a contenida en
¦X, Y ¦. Esta propiedad no se verifica en el modelo probabil´ıstico normal
dado en (6.5). Para comprobar esta afirmaci´ on, se toma X = X
1
, Y = X
2
,
y A = X
3
. Se conoce que X
1
y X
2
son incondicionalmente independientes,
pero cada una de ellas depende de X
3
. Las ecuaciones (6.6) y (6.5) muestran
que X
1
y X
3
no son independientes, pues Σ
X
1
|X
3
= Σ
X
1
X
1
. Por otra parte,
utilizando (6.4), se tiene
Σ
X
2
|X
3
= Σ
X
2
X
2
−Σ
X
2
X
3
Σ
−1
X
3
X
3
Σ
X
3
X
2
= 1 −
1
2
1
2
=
3
4
= Σ
X
2
X
2
,
que muestra que X
2
no es independiente de X
3
. Por tanto, el modelo pro-
babil´ıstico normal multivariado dado en (6.5) no satisface la propiedad de
transitividad fuerte.
6.3 Modelos de Dependencia Gr´aficos no Dirigidos 229
En los casos en los que es imposible construir un mapa perfecto, se trata
de contruir un I-mapa del modelo dado. A partir de la Definici´ on 6.2, se
sigue que todo modelo probabil´ıstico posee un I-mapa pero, para que ´este
represente el mayor n´ umero posible de independencias de M, ha de ser un
I-mapa minimal. Sin embargo, obs´ervese que un modelo de dependencia
probabil´ıstico puede no tener un ´ unico I-mapa minimal. El siguiente teo-
rema, debido a Pearl y Paz (1987) (ver tambi´en Verma y Pearl (1990)),
muestra las condiciones que ha de satisfacer un modelo de dependencia
para tener asociado un ´ unico I-mapa no dirigido minimal. Este teorema
muestra tambi´en la forma de construirlo.
Teorema 6.3 I-mapa no dirigido minimal. Todo modelo de depen-
dencia Mde un conjunto de variables X = ¦X
1
, . . . , X
n
¦ que satisfaga las
propiedades de simetr´ıa, descomposici´ on, e intersecci´ on tiene un ´ unico I-
mapa no dirigido minimal que se obtiene eliminando del grafo completo toda
arista (X
i
, X
j
) que satisfaga I(X
i
, X
j
[X`¦X
i
, X
j
¦)
M
, donde X`¦X
i
, X
j
¦
denota el conjunto de variables en X excluyendo aquellas en X
i
y X
j
.
Obs´ervese que los modelos probabil´ısticos no extremos satisfacen las tres
propiedades exigidas en el teorema. Por tanto, cada funci´ on de probabili-
dad no extrema tiene asociado un ´ unico I-mapa no dirigido minimal. El
Teorema 6.3 muestra la soluci´on del Problema 6.3 para grafos no dirigi-
dos: “¿cu´ales son los modelos de dependencia probabil´ısticos que poseen
un ´ unico I-mapa minimal?” El caso de grafos dirigidos se analizar´ a en la
Secci´on 6.4.1.
Obs´ervese que los grafoides satisfacen las propiedades de simetr´ıa, des-
composici´on, e intersecci´on. Por tanto, una caracter´ıstica importante de los
grafoides es que poseen I-mapas no dirigidos minimales ´ unicos, y permiten,
por tanto, su construcci´ on a trav´es de independencias locales. Conectando
cada variable X
i
en X con cualquier otro subconjunto de variables que
haga que X
i
sea condicionalmente independiente del resto de las varibles,
se obtendr´ a un grafo que ser´ a un I-mapa del grafoide. Esta construcci´ on
local no est´a garantizada para el caso de semigrafoides.
Ejemplo 6.5 I-mapa minimal no dirigido (I). consid´erese el conjunto
de cuatro variables ¦X
1
, X
2
, X
3
, X
4
¦ que est´an relacionadas por el modelo
de dependencia:
M = ¦I(X
1
, X
2
[X
3
), I(X
1
, X
4
[X
2
), I(X
1
, X
4
[¦X
2
, X
3
¦),
I(X
2
, X
1
[X
3
), I(X
4
, X
1
[X
2
), I(X
4
, X
1
[¦X
2
, X
3
¦)¦,
(6.8)
al igual que en el Ejemplo 5.7. Este modelo de dependencia cumple las
tres propiedades requeridas en el Teorema 6.3. Por tanto, puede obtenerse
el I-mapa no dirigido minimal asociado sin m´ as que comprobar qu´e inde-
pendencias de la forma I(X
i
, X
j
[X ` ¦X
i
, X
j
¦)
M
se cumplen en M. Todas
las posibles relaciones de independencia de esta forma para un conjunto de
230 6. Modelos Definidos Gr´aficamente
cuatro variables son
I(X
1
, X
2
[¦X
3
, X
4
¦), I(X
1
, X
3
[¦X
2
, X
4
¦), I(X
1
, X
4
[¦X
2
, X
3
¦),
I(X
2
, X
3
[¦X
1
, X
4
¦), I(X
2
, X
4
[¦X
1
, X
3
¦), I(X
3
, X
4
[¦X
1
, X
2
¦).
La ´ unica relaci´ on de independencia de esta lista que se cumple en M es
I(X
1
, X
4
[¦X
2
, X
3
¦). Por tanto, para obtener el I-mapa no dirigido minimal
de M ´ unicamente ha de eliminarse la arista (X
1
−X
4
) del grafo completo
de la Figura 6.3(a). El grafo resultante se muestra en la Figura 6.3(b).
Consid´erese ahora el nuevo modelo de dependencia M

creado a˜ nadiendo
la relaci´ on de independencia I(X
1
, X
2
[¦X
3
, X
4
¦) al modelo M dado en
(6.8), es decir,
M

= M ∪ ¦I(X
1
, X
2
[¦X
3
, X
4
¦)¦. (6.9)
Si se aplica a M

el procedimiento anterior para construir un grafo no di-
rigido (ver Teorema 6.3) se obtendr´ a el grafo dado en la Figura 6.3(c).
Sin embargo, este grafo no es un I-mapa de M

. Por ejemplo, la indepen-
dencia I(X
1
, X
4
[X
3
)
G
se cumple en el grafo, pero no est´a contenida en
M

. La raz´ on de esta discordancia es que M

no cumple las condiciones
del Teorema 6.3. Por ejemplo, si se aplica la propiedad de intersecci´ on a
I(X
1
, X
2
[¦X
3
, X
4
¦) e I(X
1
, X
4
[¦X
2
, X
3
¦) se obtiene I(X
1
, ¦X
2
, X
4
¦[X
3
);
si despu´es se aplica la propiedad de descomposici´on a I(X
1
, ¦X
2
, X
4
¦[X
3
)
se tienen I(X
1
, X
2
[X
3
) y I(X
1
, X
4
[X
3
), que no est´ an contenidas en M

. De
forma similar, si se aplica la propiedad de intersecci´ on a I(X
1
, X
4
[X
2
) y
I(X
1
, X
2
[¦X
3
, X
4
¦) se obtiene I(X
1
, ¦X
2
, X
4
¦[φ) y aplicando la propiedad
de descomposici´on se tienen I(X
1
, X
2
[φ) y I(X
1
, X
4
[φ). Por tanto, el mo-
delo de dependencia
M ∪ C, (6.10)
tiene el grafo dado en la Figura 6.3(c) como ´ unico I-mapa minimal, donde
C es el conjunto que contiene las siguientes relaciones de independencia y
sus relaciones sim´etricas:
I(X
1
, X
2
[¦X
3
, X
4
¦), I(X
1
, ¦X
2
, X
4
¦[X
3
), I(X
1
, X
4
[X
3
),
I(X
1
, ¦X
2
, X
4
¦[φ) I(X
1
, X
2
[φ), I(X
1
, X
4
[φ).
A partir del Teorema 6.3 se deduce que toda funci´ on de probabilidad no
extrema tiene asociado un ´ unico I-mapa no dirigido minimal obtenido eli-
minando del grafo completo toda arista L
ij
entre nodos X
i
y X
j
tales que
I(X
i
, X
j
[X ` ¦X
i
, X
j
¦)
P
. Obs´ervese tambi´en que I(X
i
, X
j
[X ` ¦X
i
, X
j
¦)
P
es equivalente a
p(x
i
[x ` ¦x
i
, x
j
¦) = p(x
i
[x ` x
i
), (6.11)
que implica
p(x ` x
j
)
p(x ` ¦x
i
, x
j
¦)
=
p(x)
p(x ` x
i
)
. (6.12)
X
1
(a)
X
2
X
3
X
4
X
1
(b)
X
2
X
3
X
4
X
1
(c)
X
2
X
3
X
4
6.3 Modelos de Dependencia Gr´aficos no Dirigidos 231
FIGURA 6.3. Grafo completo de cuatro nodos (a), I-mapa no dirigido minimal
para el modelo de dependencia M dado por (6.8) (b), e I-mapa no dirigido
minimal para el modelo en (6.10) (c).
Esto sugiere el siguiente algoritmo para resolver el Problema 6.4 en el caso
de grafos no dirigidos: “Si un modelo probabil´ıstico posee un ´ unico I-mapa
minimal, ¿c´omo se puede obtener este I-mapa?”. En la Secci´ on 6.4.1 se
analiza el caso de grafos dirigidos.
Algoritmo 6.1 I-Mapa minimal no dirigido.
• Datos: Un conjunto de variables X = ¦X
1
, . . . , X
n
¦ y una funci´ on
de probabilidad no extrema p(x).
• Resultados: El I-mapa minimal no dirigido correspondiente a p(x).
1. Consid´erese un grafo completo de n nodos, en el cual existe una arista
entre cada par de nodos.
2. Para cada par de nodos (X
i
, X
j
) calcular
p(x ` x
i
) =
¸
x
i
p(x),
p(x ` x
j
) =
¸
x
j
p(x),
p(x ` ¦x
i
, x
j
¦) =
¸
x
j
p(x ` x
i
).
Entonces, si
p(x)p(x ` ¦x
i
, x
j
¦) = p(x ` x
i
)p(x ` x
j
),
eliminar la arista L
ij
entre los nodos X
i
y X
j
.
El ejemplo siguiente ilustra este algoritmo.
232 6. Modelos Definidos Gr´aficamente
Ejemplo 6.6 I-mapa minimal no dirigido (II). Consid´erese el con-
junto de variables binarias X = ¦X
1
, . . . , X
7
¦ y una funci´ on de probabilidad
definida mediante la factorizaci´ on
p(x) = p(x
1
)p(x
2
[x
1
)p(x
3
[x
1
)p(x
4
[x
2
, x
3
)p(x
5
[x
3
)p(x
6
[x
4
)p(x
7
[x
4
), (6.13)
que depende de 15 par´ ametros θ
1
, . . . , θ
15
. Se desea construir el I-mapa mi-
nimal no dirigido asociado a p(x). La Figura 6.4 muestra un programa de
ordenador que implementa el Algoritmo 6.1 para este caso. Este programa
est´a escrito en Mathematica (ver Wolfram (1991)) pero puede ser implemen-
tado de forma similar en cualquier otro programa de c´ alculo simb´ olico. El
programa comienza definiendo la funci´ on de probabilidad en (6.13). Con
este fin se introducen las funciones PA[i], PB[i, j], etc., que se definen
simb´olicamente utilizando los par´ ametros p1, . . . , p15. A continuaci´ on, se
define la funci´ on de probabilidad conjunta como el producto de estas fun-
ciones. Las funciones P1[i] y P2[i, j] son funciones auxiliares definidas para
obtener funciones de probabilidad marginales de una variable X
i
, o de dos
variables X
i
y X
j
, respectivamente. La ´ ultima parte del programa com-
prueba si se satisface la condici´on (6.12) para todas las posibles combina-
ciones de nodos X
i
y X
j
. Despu´es de la ejecuci´on del programa, se deduce
que las aristas siguientes pueden ser eliminadas del grafo:
L
14
, L
15
, L
16
, L
17
, L
23
, L
25
, L
26
,
L
27
, L
36
, L
37
, L
45
, L
56
, L
57
, L
67
.
Por tanto, comenzando con el grafo completo, en el que cada par de nodos
est´a unido por una arista, se obtiene el grafo de la Figura 6.5, que es el
I-mapa minimal no dirigido correspondiente al modelo probabil´ıstico dado
en (6.13).
Ejemplo 6.7 I-mapa minimal no dirigido (III). Sup´ ongase ahora que
una funci´ on de probabilidad de cinco variables viene dada por la factoriza-
ci´on
p(x) = ψ
1
(x
1
, x
2
, x
3

2
(x
1
, x
3
, x
4

3
(x
1
, x
4
, x
5
), (6.14)
donde ψ
1
, ψ
2
, y ψ
3
son funciones positivas (factores potenciales) indeter-
minadas. La Figura 6.6 muestra un programa de Mathematica para hallar
el I-mapa minimal no dirigido correspondiente. La Figura 6.7 muestra el
I-mapa obtenido tras la ejecuci´ on del programa. Puede comprobarse que
el I-mapa minimal no dirigido asociado a la funci´ on de probabilidad p(x)
en (6.14) se obtiene eliminando las aristas L
24
, L
25
y L
35
del grafo com-
pleto.
6.3.2 De Grafos no Dirigidos a Modelos probabil´ısticos
En las secciones anteriores se ha supuesto que se conoce el modelo proba-
bil´ıstico p(x), o el correspondiente modelo de dependencia M. Por tanto,
6.3 Modelos de Dependencia Gr´aficos no Dirigidos 233
T=¦p1,1-p1¦; n=1;
Do[PA[i1]=T[[n]];n++,¦i1,0,1¦];
T=¦p2,p3,1-p2,1-p3¦; n=1;
Do[PB[i1,i2]=T[[n]];n++,¦i1,0,1¦,¦i2,0,1¦];
T=¦p4,p5,1-p4,1-p5¦; n=1;
Do[PC[i1,i2]=T[[n]];n++,¦i1,0,1¦,¦i2,0,1¦];
T=¦p6,p7,p8,p9,1-p6,1-p7,1-p8,1-p9¦; n=1;
Do[PD[i1,i2,i3]=T[[n]];n++,¦i1,0,1¦,¦i2,0,1¦,¦i3,0,1¦];
T=¦p10,p11,1-p10,1-p11¦; n=1;
Do[PE[i1,i2]=T[[n]];n++,¦i1,0,1¦,¦i2,0,1¦];
T=¦p12,p13,1-p12,1-p13¦; n=1;
Do[PF[i1,i2]=T[[n]];n++,¦i1,0,1¦,¦i2,0,1¦];
T=¦p14,p15,1-p14,1-p15¦; n=1;
Do[PG[i1,i2]=T[[n]];n++,¦i1,0,1¦,¦i2,0,1¦];
P[x1 ,x2 ,x3 ,x4 ,x5 ,x6 ,x7 ]=PA[x1]*PB[x2,x1]*PC[x3,x1]*
PD[x4,x2,x3]*PE[x5,x3]*PF[x6,x4]*PG[x7,x4];
P1=Sum[P[x[1],x[2],x[3],x[4],x[5],x[6],x[7]],
¦x[#1],0,1¦]&;
P2=Sum[P[x[1],x[2],x[3],x[4],x[5],x[6],x[7]],
¦x[#1],0,1¦,¦x[#2],0,1¦]& ;
Do[
Do[
a=Simplify[P[x[1],x[2],x[3],x[4],x[5],x[6],x[7]]*
P2[i,j]-P1[i]*P1[j]];
If[a==0,Print["Eliminar arista ",i,"--",j]],
¦j,i+1,7¦],
¦i,1,7¦]
FIGURA 6.4. Programa de Mathematica para encontrar el I-mapa minimal no
dirigido correspondiente a la funci´on de probabilidad dada en (6.13).
siempre es posible obtener un I-mapa no dirigido que contenga tantas in-
dependencias de M como sea posible. Sin embargo, en la pr´ actica no se
suele conocer la funci´ on de probabilidad p(x) ni el modelo M. Por tanto,
la forma real de construir un modelo probabil´ıstico consiste en los pasos
siguientes:
1. Construir un grafo no dirigido G que defina la estructura de depen-
dencia de un conjunto de variables X.
2. Encontrar una funci´ on de probabilidad p(x) para la cual G sea un
I-mapa.
La construcci´on del grafo no dirigido es una tarea que ha de ser realizada
por un experto en el tema de estudio, o inferida de un conjunto de datos
X
1
X
2
X
3
X
4
X
6
X
5
X
7
X
1
X
2
X
3
X
4
X
5
234 6. Modelos Definidos Gr´aficamente
FIGURA 6.5. I-mapa minimal no dirigido asociado a la funci´on de probabilidad
dada en (6.13).
P[x1 ,x2 ,x3 ,x4 ,x5 ]=f1[x1,x2,x3]*f2[x1,x3,x4]*
f3[x1,x4,x5]
P1=Sum[P[x[1],x[2],x[3],x[4],x[5]],¦x[#1],0,1¦]&;
P2=Sum[P[x[1],x[2],x[3],x[4],x[5]],
¦x[#1],0,1¦,¦x[#2],0,1¦]&;
Do[
Do[
a=Simplify[P[x[1],x[2],x[3],x[4],x[5]]*
P2[i,j]-P1[i]*P1[j]];
If[a==0,Print["Eliminar arista ",i,"--",j]],
¦j,i+1,5¦],
¦i,1,5¦]
FIGURA 6.6. Programa de Mathematica para encontrar el I-mapa minimal no
dirigido correspondiente a la funci´on de probabilidad dada en (6.14).
FIGURA 6.7. I-mapa minimal no dirigido asociado a la funci´on de probabilidad
dada en (6.14).
6.3 Modelos de Dependencia Gr´aficos no Dirigidos 235
mediante alguna t´ecnica de aprendizaje. El resto de la secci´on se dedica
a construir una funci´ on de probabilidad que tenga a un grafo dado como
I-mapa. Primero se necesitan algunas definiciones.
Definici´on 6.5 Probabilidad factorizada por un grafo no dirigido.
Una funci´ on de probabilidad p(x) se dice que est´ a factorizada por un grafo
no dirigido G si puede escribirse de la forma
p(x) =
m
¸
i=1
ψ
i
(c
i
), (6.15)
donde ψ
i
(c
i
), i = 1, . . . , m, son funciones no negativas; C
i
, i = 1, . . . , m,
son los conglomerados de G; y c
i
es una realizaci´ on de C
i
. Las funciones
ψ
i
se llaman factores potenciales de la funci´ on de probabilidad, y el par
(¦C
1
, . . . , C
m
¦, ¦ψ
1
, . . . , ψ
m
¦) se denomina representaci´ on potencial.
Esta definici´ on ilustra la idea de obtener el modelo probabil´ıstico asociado
a un grafo por medio de una factorizaci´ on dada por la topolog´ıa del grafo.
La factorizaci´ on resultante contendr´ a las independencias locales contenidas
en el grafo.
Los teoremas siguientes relacionan los conceptos de I-mapa y factoriza-
ci´on dada por un grafo no dirigido (ver Lauritzen y otros (1990)).
Teorema 6.4 Implicaciones de las factorizaciones. Dada una funci´ on
de probabilidad arbitraria p(x) y un grafo no dirigido G, si p(x) se puede
factorizar seg´ un G, entonces G es un I-mapa de p(x).
Por tanto, cualquier independencia obtenida del grafo ser´ a tambi´en una
independencia del modelo probabil´ıstico p(x). El teorema anterior implica
varias propiedades locales como, por ejemplo, la propiedad local de Markov,
que dan informaci´ on sobre la estructura de independencia local de un mo-
delo probabil´ıstico. Por ejemplo la propiedad local de Markov afirma que
para cualquier nodo X
i
∈ X se tiene
I(X
i
, X ` (¦X
i
¦ ∪ Frn(X
i
))[Frn(X
i
))
G
,
y, por tanto,
p(x
i
[x ` x
i
) = p(x
i
[Frn(X
i
)),
donde Frn(X
i
) representa la frontera de X
i
en el grafo G (ver Definici´ on
4.13).
Teorema 6.5 Factorizaci´on de probabilidades no extremas. Dada
una funci´ on de probabilidad no extrema p(x) y un grafo G, las dos condi-
ciones siguientes son equivalentes:
• p(x) factoriza seg´ un G.
• G es un I-mapa de p(x).
236 6. Modelos Definidos Gr´aficamente
Dado que toda funci´ on de probabilidad no extrema p(x) posee un ´ unico
I-mapa minimal no dirigido, siempre se puede factorizar p(x) seg´ un su
I-mapa minimal.
Teorema 6.6 Factorizaci´on seg´ un un I-mapa minimal. Toda funci´ on
de probabilidad no extrema factoriza seg´ un su I-mapa minimal no dirigido
asociado.
Dado un grafo no dirigido G, el siguiente algoritmo sugiere un procedi-
miento para construir una funci´ on de probabilidad factorizada a partir de
este grafo (ver, por ejemplo, Isham (1981) o Lauritzen (1982)).
Algoritmo 6.2 Modelo probabil´ıstico de un grafo no dirigido.
• Datos: Un grafo no dirigido G.
• Resultados: Una funci´ on de probabilidad p(x) que tiene a G como
I-mapa.
1. Identificar todos los conglomerados ¦C
1
, . . . , C
m
¦ del grafo.
2. Asignar a cada conglomerado C
i
una funci´ on no negativa ψ
i
(c
i
) (el
factor potencial).
3. Construir el producto de todos los factores potenciales.
4. Normalizar la funci´ on obtenida:
p(x
1
, . . . , x
n
) =
m
¸
i=1
ψ
i
(c
i
)
¸
x
1
,...,x
n
m
¸
i=1
ψ
i
(c
i
)
. (6.16)
Los resultados anteriores garantizan que el grafo no dirigido G ser´a un
I-mapa del modelo probabil´ıstico resultante. Sin embargo, las funciones
potenciales que definen el modelo probabil´ıstico no tienen un sentido f´ısico
claro y la asignaci´ on de valores num´ericos para definir un modelo concreto
no es una tarea sencilla. A continuaci´ on se muestra que los grafos trian-
gulados permiten obtener una factorizaci´ on de la funci´ on de probabilidad
como producto de funciones de probabilidad condicionada. Los modelos
resultantes se conocen como modelos descomponibles.
Definici´on 6.6 Modelo probabil´ıstico descomponible. Un modelo
probabil´ıstico se dice descomponible si tiene un I-mapa minimal que es
triangulado (o cordal).
6.3 Modelos de Dependencia Gr´aficos no Dirigidos 237
La propiedad de intersecci´ on din´ amica (ver Definici´ on 4.34) permite obtener
una factorizaci´ on de la funci´ on de probabilidad a partir de un grafo tri-
angulado. Sean ¦C
1
, . . . , C
m
¦ los conglomerados ordenados de forma que
cumplan la propiedad de intersecci´ on din´ amica.
1
Sean
S
i
= C
i
∩ (C
1
∪ . . . ∪ C
i−1
), i = 2, . . . , m (6.17)
los conjuntos separadores. Dado que S
i
⊂ C
i
, se definen los conjuntos
residuales como
R
i
= C
i
` S
i
. (6.18)
En esta situaci´ on, la propiedad de intersecci´ on din´ amica garantiza que los
conjuntos separadores S
i
separan los conjuntos residuales R
i
de los conjun-
tos (C
1
∪. . . ∪C
i−1
) ` S
i
en el grafo no dirigido. Dado que el conjunto resi-
dual R
i
contiene todos los elementos de C
i
que no est´an en C
1
∪. . . ∪C
i−1
,
tambi´en se tiene I(R
i
, R
1
∪. . . ∪R
i−1
[S
i
). Este hecho permite factorizar la
funci´ on de probabilidad aplicando la regla de la cadena a la partici´ on dada
por los conjuntos residuales (ver Pearl (1988) y Lauritzen y Spiegelhalter
(1988)):
p(x
1
, . . . , x
n
) =
m
¸
i=1
p(r
i
[r
1
, . . . , r
i−1
)
=
m
¸
i=1
p(r
i
[s
i
), (6.19)
donde m es el n´ umero de conglomerados. Obs´ervese que (6.19) muestra una
factorizaci´ on de la funci´ on de probabilidad mediante funciones de proba-
bilidad condicionada. Por tanto, el anterior es un procedimiento pr´ actico
para obtener la funci´ on de probabilidad asociada a un grafo no dirigido
triangulado. Esto sugiere los siguientes teorema y algoritmo.
Teorema 6.7 Modelos descomponibles. Si p(x) es descomponible seg´ un
G, entonces puede escribirse como el producto de las funciones de proba-
bilidad condicionada de los residuos de los conglomerados de G, dados los
correspondientes conjuntos separadores.
Algoritmo 6.3 Factorizaci´on de un modelo descomponible.
• Datos: Un grafo no dirigido triangulado G.
• Resultados: Una factorizaci´ on de la funci´ on de probabilidad p(x)
para la cual G es un I-mapa.
1. Identificar todos los conglomerados del grafo.
1
Los conglomerados pueden ser ordenados utilizando el Algoritmo 4.3.
238 6. Modelos Definidos Gr´aficamente
2. Utilizar el Algoritmo 4.3 para ordenar los conglomerados ¦C
1
, . . . , C
m
¦
de forma que satisfagan la propiedad de intersecci´ on din´ amica.
3. Calcular los conjuntos separadores S
i
= C
i
∩ (C
1
∪ . . . ∪ C
i−1
) y los
residuos R
i
= C
i
` S
i
.
4. Obtener p(x) como
p(x) =
m
¸
i=1
p(r
i
[s
i
).
La ecuaci´on (6.19) indica que, en el caso de modelos descomponibles, las
funciones potenciales en (6.16) pueden ser definidas como ψ
i
(c
i
) = p(r
i
[s
i
),
i = 1, . . . , m. Obs´ervese que ´este es uno de los ejemplos de factorizaci´on
a los que nos refer´ıamos en la Secci´on 5.5. Una ventaja de los modelos
descomponibles es que los factores potenciales resultantes son f´acilmente
interpretables, ya que las funciones potenciales pueden interpretarse como
funciones de probabilidad condicionada. Otra ventaja importante es que
la estructura local dada por la factorizaci´ on permite calcular probabilida-
des marginales y condicionadas de modo eficiente (ver Cap´ıtulo 8). Este
resultado da una soluci´ on al problema siguiente para el caso de grafos no
dirigidos
• Problema 6.5: Dado un grafo G, ¿existe alg´ un modelo probabil´ıs-
tico P tal que G sea un I-mapa minimal de P?. En caso afirmativo,
¿C´omo se puede construir?
La Secci´on 6.4.2 analiza el caso de los grafos dirigidos.
Ejemplo 6.8 Factorizaci´on mediante un grafo triangulado. Dado
el grafo no dirigido triangulado de la Figura 6.8(a), puede aplicarse el Al-
goritmo 6.3 para obtener una factorizaci´ on de la funci´ on de probabilidad
descomponible asociada. La Figura 6.8(a) muestra los conglomerados de
este grafo, que pueden ser ordenados para que cumplan la propiedad de
intersecci´on din´ amica de la forma siguiente: C
1
= ¦X
1
, X
2
, X
3
¦, C
2
=
¦X
2
, X
3
, X
4
¦, C
3
= ¦X
3
, X
5
¦, C
4
= ¦X
4
, X
6
¦, C
5
= ¦X
4
, X
7
¦. Para pro-
bar ´esto, basta ver que C
1
∩ C
2
= ¦X
2
, X
3
¦ ⊂ C
1
, C
3
∩ (C
1
∪ C
2
) = ¦X
3
¦,
que est´a contenido en C
1
y en C
2
, y as´ı sucesivamente. Los ´arboles de uni´ on
proporcionan una interpretacion gr´ afica de esta propiedad. Por ejemplo, el
Algoritmo 4.4 utiliza la propiedad de intersecci´ on din´ amica para construir
un ´ arbol de uni´ on asociado a un grafo triangulado uniendo cada conglo-
merado con otro conglomerado cualquiera que contenga su conjunto sepa-
rador. Por ejemplo, el grafo de la Figura 6.8(b) muestra uno de los posibles
´arboles de uni´ on correspondientes al grafo no dirigido de la Figura 6.8(a).
La Figura 6.9 muestra los conjuntos separadores S
2
, S
3
, S
4
, y S
5
para cada
uno de los conglomerados del ´ arbol de uni´ on de la Figura 6.8(b).
X
2
, X
3
, X
4
X
3
, X
5
X
4
, X
6
X
4
, X
7
(b)
C
1
C
2
C
3
C
4
C
5
X
1
, X
2
, X
3
X
1
X
2
X
3
X
4
X
6
X
5
X
7
(a)
C
1
C
2
C
3
C
4
C
5
X
2
, X
3
, X
4
X
3
, X
5
X
4
, X
6
X
4
, X
7
X
1
, X
2
, X
3
X
2
, X
3
X
4
X
3
X
4
C
1
C
2
C
3
C
4
C
5
S
2
S
5
S
4
S
3
6.3 Modelos de Dependencia Gr´aficos no Dirigidos 239
Utilizando los separadores S
i
y los residuos R
i
, se puede obtener una
factorizaci´ on de p(x) de forma sencilla. La Tabla 6.2 muestra los conjuntos
S
i
y R
i
asociados al conglomerado C
i
. A partir de esta tabla se tiene
p(x) =
5
¸
i=1
p(r
i
[s
i
)
= p(x
1
, x
2
, x
3
)p(x
4
[x
2
, x
3
)p(x
5
[x
3
)p(x
6
[x
4
)p(x
7
[x
4
), (6.20)
que es la funci´ on de probabilidad p(x) que tiene al grafo no dirigido de la
Figura 6.8(a) como I-mapa minimal.
FIGURA 6.8. Un grafo triangulado y los conglomerados asociados (a), y uno de
sus ´arboles de uni´on (b).
FIGURA 6.9. Conjuntos separadores correspondientes a los conglomerados de la
Figura 6.8(a).
240 6. Modelos Definidos Gr´aficamente
i Conglomerado C
i
Separador S
i
Residuo R
i
1 X
1
, X
2
, X
3
φ X
1
, X
2
, X
3
2 X
2
, X
3
, X
4
X
2
, X
3
X
4
3 X
3
, X
5
X
3
X
5
4 X
4
, X
6
X
4
X
6
5 X
4
, X
7
X
4
X
7
TABLA 6.2. Separadores y residuos correspondientes a los conglomerados de la
Figura 6.9.
Obs´ervese que si un I-mapa minimal G de un modelo probabil´ıstico p(x) no
es triangulado, entonces es posible factorizar p(x) de la forma (6.19) seg´ un
alguna de las triangulaciones del I-mapa. En este caso, se perder´a alguna
relaci´on de independencia del modelo en el proceso de triangulaci´ on. Por
tanto, para obtener una funci´ on de probabilidad descomponible a partir
de un grafo G, primero se necesita triangular el grafo, en caso de que no
sea triangulado. En esta situaci´ on, alguna de las relaciones de independen-
cia contenidas en el grafo no triangulado original no estar´ an contenidas
en el modelo probabil´ıstico resultante, a no ser que se creen asignando va-
lores num´ericos apropiados a las funciones de probabilidad condicionada
resultantes.
Ejemplo 6.9 Factorizaci´on mediante un grafo triangulado. Sup´ on-
gase que el grafo de la Figura 6.7 describe las relaciones existentes en un
conjunto de cinco variables X = ¦X
1
, . . . , X
5
¦. Este grafo es triangulado y
contiene tres conglomerados:
C
1
= ¦X
1
, X
2
, X
3
¦, C
2
= ¦X
1
, X
3
, X
4
¦, C
3
= ¦X
1
, X
4
, X
5
¦. (6.21)
La ordenaci´ on de los conglomerados (C
1
, C
2
, C
3
) cumple la propiedad de
intersecci´on din´ amica. Los separadores de estos conglomerados son S
1
= φ,
S
2
= ¦X
1
, X
3
¦ y S
3
= ¦X
1
, X
4
¦. Por tanto, el modelo probabil´ıstico que
tiene a este grafo por I-mapa minimal no dirigido puede expresarse como
p(x) = p(x
1
, x
2
, x
3
)p(x
4
[x
1
, x
3
)p(x
5
[x
1
, x
4
). (6.22)
Dado que el grafo es triangulado, la funci´ on de probabilidad correspon-
diente es descomponible. Obs´ervese que (6.22) tiene la misma estructura
que la funci´ on de probabilidad dada en (6.14), que fue utilizada para
construir este grafo. Se tiene:
ψ
1
(x
1
, x
2
, x
3
) = p(x
1
, x
2
, x
3
),
ψ
2
(x
1
, x
3
, x
4
) = p(x
4
[x
1
, x
3
),
ψ
3
(x
1
, x
4
, x
5
) = p(x
5
[x
1
, x
4
).
Por tanto, en este caso ha sido posible recuperar la funci´ on de probabilidad
a partir de su I-mapa no dirigido.
6.3 Modelos de Dependencia Gr´aficos no Dirigidos 241
i Conglomerado C
i
Separador S
i
Residuo R
i
1 X
1
, X
2
, X
3
φ X
1
, X
2
, X
3
2 X
1
, X
3
, X
4
X
1
, X
3
X
4
3 X
1
, X
4
, X
5
X
1
, X
4
X
5
TABLA 6.3. Separadores y residuos correspondientes a los conglomerados de la
Figura (6.21).
Dado que los grafos de los Ejemplos 6.8 y 6.9 son triangulados, tienen aso-
ciados modelos probabil´ısticos descomponibles. El siguiente ejemplo mues-
tra una factorizaci´ on a partir de un grafo no triangulado.
Ejemplo 6.10 Modelo probabil´ıstico de un grafo no triangulado.
Consid´erese el grafo no triangulado de la Figura 6.5. Una de las posibles
triangulaciones se muestra en la Figura 6.8(a). En el Ejemplo 6.8 se mostr´ o
que la funci´ on de probabilidad descomponible seg´ un este grafo pod´ıa ser
factorizada como
p(x
1
, . . . , x
7
) = p(x
1
, x
2
, x
3
)p(x
4
[x
2
, x
3
)p(x
5
[x
3
)p(x
6
[x
4
)p(x
7
[x
4
). (6.23)
Obs´ervese que la funci´ on de probabilidad dada en (6.23) est´ a factorizada
seg´ un el grafo de la Figura 6.8(a). Por tanto, el grafo original de la Figura
6.5 no es un I-mapa de la funci´ on de probabilidad dada en (6.23), a no ser
que se impongan algunas restricciones sobre los par´ ametros para asegurar
que las independencias del grafo perdidas en el proceso de triangulaci´ on
se sigan cumpliendo en la funci´ on de probabilidad. Comparando la facto-
rizaci´on p(x
1
, x
2
, x
3
) = p(x
1
)p(x
2
[x
1
)p(x
3
[x
1
, x
2
) en (6.23) con la dada en
(6.13) se puede ver que el modelo contiene relaciones de dependencia que
no est´an contenidas en el modelo original. Por tanto, la restricci´ on que ha
de imponerse a (6.23) para que tenga al grafo triangulado de la Figura 6.5
como I-mapa minimal es: p(x
3
[x
1
, x
2
) = p(x
3
[x
1
).
6.3.3 Redes de Markov
En las secciones anteriores se ha analizado la relaci´on existente entre grafos
no dirigidos y modelos de dependencia. En esta secci´ on se presenta una clase
importante de modelos de dependencia associados a I-mapas no dirigidos.
Esta clase se conoce como redes de Markov.
Definici´on 6.7 Red de Markov. Una red de Markov es un par (G, Ψ)
donde G es un grafo no dirigido y Ψ = ¦ψ
1
(c
1
), . . . , ψ
m
(c
m
)¦ es un conjunto
de funciones potenciales definidas en los conglomerados C
1
, . . . , C
m
de G
(ver Definici´ on 6.5) que definen una funci´ on de probabilidad p(x) por medio
242 6. Modelos Definidos Gr´aficamente
de
p(x) =
n
¸
i=1
ψ
i
(c
i
). (6.24)
Si el grafo no dirigido G es triangulado, entonces p(x) tambi´en puede
ser factorizada, utilizando las funciones de probabilidad condicionada P =
¦p(r
1
[s
1
), . . . , p(r
m
[s
m
)¦, de la forma siguiente
p(x
1
, . . . , x
n
) =
m
¸
i=1
p(r
i
[s
i
), (6.25)
donde R
i
y S
i
son los residuos y separadores de los conglomerados definidos
en (6.17) y (6.18). En este caso, la red de Markov viene dada por (G, P).
El grafo G es un I-mapa no dirigido de p(x).
Por tanto, una red de Markov puede ser utilizada para definir la estruc-
tura cualitativa de un modelo probabil´ıstico mediante la factorizaci´on de la
funci´ on de probabilidad correspondiente a trav´es de funciones potenciales
o funciones de probabilidad condicionada. La estructura cuantitativa del
modelo corresponder´ a a los valores num´ericos concretos asignados a las
funciones que aparezcan en la factorizaci´ on.
Ejemplo 6.11 Red de Markov. En este ejemplo se construye una red
de Markov utilizando el grafo no dirigido triangulado G dado en la Figura
6.10(a). La Figura 6.10(b) muestra los conglomerados de este grafo:
C
1
= ¦A, B, C¦, C
2
= ¦B, C, E¦,
C
3
= ¦B, D¦, C
4
= ¦C, F¦.
(6.26)
Aplicando (6.24), se obtiene la siguiente factorizaci´ on asociada al grafo:
p(a, b, c, d, e, f) = ψ
1
(c
1

2
(c
2

3
(c
3

4
(c
4
)
= ψ
1
(a, b, c)ψ
2
(b, c, e)ψ
3
(b, d)ψ
4
(c, f). (6.27)
Por tanto, la red de Markov est´ a definida por el grafo G y el conjunto de
funciones potenciales Ψ = ¦ψ
1
(a, b, c), ψ
2
(b, c, e), ψ
3
(b, d), ψ
4
(c, f)¦.
Por otra parte, como el grafo dado en la Figura 6.10(a) es triangulado,
puede obtenerse una factorizaci´ on alternativa de la funci´ on de probabilidad
por medio de las funciones de probabilidad condicionada dadas en (6.25).
Para obtener esta factorizaci´ on es necesario ordenar los conglomerados de
forma que cumplan la propiedad de intersecci´ on din´ amica. Puede compro-
barse f´ acilmente que la ordenaci´ on (C
1
, C
2
, C
3
, C
4
) en (6.26) cumple esta
propiedad. La Tabla 6.4 muestra los separadores y residuos correspondien-
tes a esta ordenaci´on de los conglomerados (ver Figura 6.11). A partir de
esta tabla y de la ecuaci´on (6.25), se tiene:
p(a, b, c, d, e, f) =
4
¸
i=1
p(r
i
[s
i
)
A
B C
D E F
C
1
C
2
C
3
C
4
(a) (b)
A
B C
D E F
1
2
5
3
6 4
6.4 Modelos de Dependencia en Gr´aficos Dirigidos 243
i Conglomerado C
i
Separador S
i
Residuo R
i
1 A, B, C φ A, B, C
2 B, C, E B, C E
3 B, D B D
4 C, F C F
TABLA 6.4. Separadores y residuos correspondientes a los conglomerados del
grafo de la Figura 6.10(a).
= p(a, b, c)p(e[b, c)p(d[b)p(f[c). (6.28)
Por tanto, otra forma de obtener una red de Markov asociada al grafo
de la Figura 6.10(a) es por medio de las funciones de probabilidad P =
¦p(a, b, c), p(e[b, c), p(d[b), p(f[c)¦. La Tabla 6.5 muestra una asignaci´ on de
valores num´ericos para estas funciones de probabilidad. Obs´ervese que, en
este caso, cada una de las funciones potenciales en (6.27) puede ser definida
por medio de la correspondiente funci´ on de probabilidad condicionada en
(6.28). Por tanto, (G, Ψ) y (G, P) son dos representaciones equivalentes de
la misma red de Markov.
FIGURA 6.10. Grafo no dirigido triangulado (a) y sus conglomerados (b).
6.4 Modelos de Dependencia en Gr´ aficos Dirigidos
La principal deficiencia de los grafos no dirigidos es su incapacidad para
representar relaciones de independencia no transitivas; en estos modelos,
dos variables independientes estar´ an conectadas en el grafo siempre que
exista alguna otra variable que dependa de ambas. Por tanto, numerosos
modelos de dependencia ´ utiles desde un punto de vista pr´ actico no pueden
C, F B, D
B, C
B C
A, B, C
B, C, E
244 6. Modelos Definidos Gr´aficamente
FIGURA 6.11.
´
Arbol de uni´on con conjuntos separadores.
a b c p(a, b, c)
0 0 0 0.024
0 0 1 0.096
0 1 0 0.036
0 1 1 0.144
1 0 0 0.035
1 0 1 0.035
1 1 0 0.315
1 1 1 0.315
e b c p(e[b, c)
0 0 0 0.4
0 0 1 0.6
0 1 0 0.5
0 1 1 0.5
1 0 0 0.7
1 0 1 0.3
1 1 0 0.2
1 1 1 0.8
f c p(f[c)
0 0 0.1
0 1 0.9
1 0 0.4
1 1 0.6
b d p(d[b)
0 0 0.3
0 1 0.7
1 0 0.2
1 1 0.8
TABLA 6.5. Ejemplo de asignaci´on num´erica (estructura cualitativa) de las fun-
ciones de probabilidad condicionada que factorizan la funci´on de probabilidad en
(6.28).
ser representados por grafos no dirigidos. En el Ejemplo 6.1 se mostr´ o un
modelo de dependencia muy simple, M = ¦I(X, Y [φ)¦, que no puede ser
representado por un grafo no dirigido, ya que no cumple la propiedad de
transitividad: se tiene I(X, Y [φ), pero D(X, Z[φ) y D(Y, Z[φ). Los modelos
basados en grafos dirigidos permiten solventar esta deficiencia utilizando
la direccionalidad de las aristas del grafo, que permiten distinguir depen-
dencias en varios contextos. Por ejemplo, el grafo dirigido mostrado en la
Figura 6.2 cumple I(X, Y [φ), D(X, Z[φ), y D(Y, Z[φ). Por tanto, el grafo
es una representaci´on perfecta del modelo no transitivo anterior.
F
S A
Salud Amor
D
Dinero
Felicidad
6.4 Modelos de Dependencia en Gr´aficos Dirigidos 245
Otro ejemplo de este fen´omeno lo constituye el grafo mostrado en la
Figura 6.12, donde la felicidad est´a determinada por la salud, el dinero y el
amor. La disposici´ on convergente de las aristas en el grafo significa que la
salud, el dinero y el amor son varibles incondicionalmente independientes,
pero podr´ıan resultar dependientes si se dispone de informaci´ on sobre la
felicidad.
FIGURA 6.12. Modelo de dependencia no transitivo.
Una vez que se ha comprobado que los grafos no dirigidos no proporcio-
nan una metodolog´ıa general para representar modelos de dependencia, en
esta secci´on se analizan las representaciones gr´aficas por medio de grafos
dirigidos ac´ıclicos. El tratamiento de grafos dirigidos sigue unas pautas
an´ alogas al tratamiento realizado en la Secci´ on 6.3 para grafos no dirigi-
dos. Se comienza analizando el problema de la representaci´ on de un modelo
probabil´ıstico por medio de un grafo dirigido. A continuaci´ on se presenta
un tipo muy importante de modelos probabil´ısticos conocidos por redes
Bayesianas, que se construyen a partir de grafos dirigidos ac´ıclicos.
6.4.1 De Modelos a Grafos Dirigidos
En esta secci´on se analiza el problema de la representaci´ on de un modelo de
dependencia por medio de un grafo dirigido. En primer lugar es conveniente
recordar que el criterio gr´ afico de D-separaci´on s´olo es v´alido para la clase
de grafos dirigidos ac´ıclicos. Por tanto, los modelos gr´ aficos dirigidos habr´ an
de definirse siempre sobre uno de estos grafos. Por tanto, cuando se hable
de un grafo dirigido en este contexto, se estar´ a suponiendo impl´ıcitamente
que es un grafo dirigido ac´ıclico. Para el caso de grafos no dirigidos, el
Teorema 6.1 da una caracterizaci´on completa del tipo de modelo que puede
representarse de forma perfecta. El teorema siguiente da una condici´ on
necesaria para que un modelo de dependencia tenga una representaci´ on
perfecta por medio de un grafo dirigido (ver, por ejemplo, Pearl (1988)).
Teorema 6.8 Condici´on necesaria para la existencia de un mapa
perfecto dirigido. Una condici´on necesaria para que un modelo de de-
246 6. Modelos Definidos Gr´aficamente
pendencia M posea un mapa perfecto dirigido es que cumpla las siguientes
propiedades:
• Simetr´ıa:
I(X, Y [Z)
M
⇔I(Y, X[Z)
M
.
• Composici´on-Descomposici´on:
I(X, Y ∪ W[Z)
M
⇔I(X, Y [Z)
M
y I(X, W[Z)
M
.
• Intersecci´on:
I(X, W[Z ∪ Y )
M
y I(X, Y [Z ∪ W)
M
⇒I(X, Y ∪ W[Z)
M
.
• Uni´on d´ebil:
I(X, Y ∪ Z[W)
M
⇒I(X, Y [W ∪ Z)
M
.
• Transitividad d´ebil:
I(X, Y [Z)
M
y I(X, Y [Z ∪ A)
M
⇒I(X, A[Z)
M
o I(Y, A[Z)
M
,
donde A es una variable que no est´ a contenida en ¦X, Y, Z¦.
• Contracci´ on:
I(X, Y [Z ∪ W)
M
y I(X, W[Z)
M
⇒I(X, Y ∪ W[Z)
M
.
• Cordalidad:
I(A, B[C ∪ D)
M
y I(C, D[A∪ B)
M
⇒I(A, B[C)
M
o I(A, B[D)
M
,
donde A, B, C y D son conjuntos de una ´ unica variable.
El Ejemplo 6.2 muestra un modelo de dependencia M que no posee ning´ un
mapa perfecto dirigido. Puede verse que, por ejemplo, el modelo no cumple
la propiedad de intersecci´ on y, por tanto, no satisface las condiciones nece-
sarias para tener un mapa perfecto dirigido.
Como ya se ha mencionado anteriormente, el Teorema 6.8 s´olo propor-
ciona una condici´ on necesaria para que un modelo de dependencia tenga
un mapa perfecto dirigido, pero esta condici´ on no constituye una caracteri-
zaci´on completa, pues existen modelos de dependencia que satisfacen esta
condici´ on y, sin embargo, no poseen un mapa perfecto dirigido. El ejemplo
siguiente, sugerido por Milam Studen´ y, muestra uno de estos modelos.
Ejemplo 6.12 Modelo de dependencia sin mapa perfecto que cum-
ple el Teorema 6.8. El modelo de dependencia definido como
M = ¦I(X, Y [Z), I(Y, X[Z), I(X, Y [W), I(Y, X[W)¦ (6.29)
cumple las siete propiedades del Teorema 6.8, pero no posee ning´ un mapa
perfecto dirigido.
6.4 Modelos de Dependencia en Gr´aficos Dirigidos 247
Desafortunadamente, los modelos probabil´ısticos pueden violar las propie-
dades de transitividad d´ebil, composici´on (ver Ejemplo 5.5), y cordalidad.
Por tanto, no todo modelo probabil´ıstico puede ser representado por un
mapa perfecto dirigido. Sin embargo, como se mostrar´ a en la Secci´on 6.6,
la violaci´ on de la propiedad de cordalidad no es un problema grave pues
puede solucionarse a˜ nadiendo nodos auxiliares al grafo.
El Teorema 6.8 proporciona una respuesta particular al Problema 6.2
para el caso de grafos dirigidos: “¿Cu´ ales son los modelos de dependencia
y, en particular, los modelos probabil´ısticos de dependencia que pueden ser
representados por un mapa perfecto?”. El problema de si los mapas perfec-
tos dirigidos admiten una caracterizaci´ on completa mediante un conjunto
finito de propiedades es un problema a´ un no resuelto (ver Geiger (1987)).
En aquellos casos en los que no es posible construir un mapa perfecto di-
rigido, la siguiente alternativa consiste en construir un I-mapa. Recordemos
que un grafo dirigido D se dice que es un I-mapa de un modelo de depen-
dencia M si I(X, Y [Z)
D
⇒ I(X, Y [Z)
M
, es decir, todas las relaciones de
independencia derivadas de D son ciertas en M. Un I-mapa de un modelo
de dependencia se dice minimal si todas las independencias que contiene
son independencias reales del modelo al que representa, pero al eliminar
una cualquiera de sus aristas se incluye alguna independencia externa al
modelo.
El teorema siguiente, que es equivalente al Teorema 6.3 para grafos no
dirigidos, muestra una caracterizaci´ on (condiciones necesarias y suficientes)
para que un modelo de dependencia M tenga un I-mapa minimal dirigido
(ver Verma y Pearl (1990) y Lauritzen y otros (1990)).
Teorema 6.9 I-mapa minimal dirigido de un modelo de depen-
dencia. Todo modelo de dependencia M de un conjunto de variables
X = ¦X
1
, . . . , X
n
¦ que sea un semigrafoide, es decir, que cumpla las pro-
piedades de simetr´ıa, descomposici´ on, uni´ on d´ebil y contracci´ on tiene un
I-mapa minimal dirigido. Este I-mapa puede construirse considerando una
ordenaci´ on arbitraria de las variables (Y
1
, . . . , Y
n
) y designando como con-
junto de padres de cada nodo Y
i
cualquier conjunto minimal de ascendientes
(nodos previos en la ordenaci´ on) Π
i
que cumplan
I(Y
i
, B
i
` Π
i

i
)
M
, (6.30)
donde Π
i
⊆ B
i
= ¦Y
1
, . . . , Y
i−1
¦.
Ejemplo 6.13 I-mapa minimal dirigido de un modelo de depen-
dencia. Sup´ ongase que se tiene el modelo de dependencia
M = ¦I(A, C[B), I(C, A[B)¦
definido en el conjunto de variables binarias ¦A, B, C¦. Este modelo satis-
face las cuatro propiedades necesarias para ser un semigrafoide (ver Teo-
rema 6.9). Por tanto, se podr´ a construir un I-mapa minimal de este modelo
(a) (A, B, C)
A C
B
A
C
B
A
C
B
A
C
B
A C
B
(b) (A, C, B) (d) (C, A, B) (e) (C, B, A) (c) (B, A, C)
(B, C, A)
248 6. Modelos Definidos Gr´aficamente
considerando cualquier ordenaci´ on de las variables y calculando los con-
juntos de padres Π
i
que cumplen (6.30). La Figura 6.13 muestra todos los
I-mapas minimales posibles asociados a las distintas ordenaciones de los
nodos. Por ejemplo, dada la ordenaci´ on (A, B, C), se obtienen los siguientes
conjuntos de padres:
• Para el nodo A, Π
A
= φ, ya que no tiene ning´ un ascendiente.
• Para el nodo B, Π
B
= ¦A¦, ya que su ´ unico ascendiente es A, y
I(B, A[φ) no se cumple en M.
• Para el nodo C, Π
C
= ¦B¦, puesto que M cumple I(C, A[B).
El I-mapa minimal resultante se muestra en la Figura 6.13(a). Obs´ervese
que dos ordenaciones distintas de las variables pueden dar lugar al mismo
grafo. Por ejemplo, el grafo de la Figura 6.13(c) es un I-mapa minimal
asociado a las ordenaciones (B, A, C) y (B, C, A).
Los grafos mostrados en las Figuras 6.13(a), (c) y (e) son mapas perfectos
dirigidos de M, mientras que los grafos mostrados en las Figuras 6.13(b) y
(d) son solamente I-mapas minimales de M.
FIGURA 6.13. I-mapas minimales dirigidos asociados al modelo de dependencia
M definido en el Ejemplo 6.13.
Cualquier funci´ on de probabilidad cumple las cuatro propiedades exigi-
das en el Teorema 6.9 (cualquier modelo de dependencia probabil´ıstico
es un semigrafoide). El teorema siguiente muestra un procedimiento para
encontrar un I-mapa minimal para una funci´ on de probabilidad dada.
Teorema 6.10 I-mapa minimal dirigido para un modelo proba-
bil´ıstico. Dada una permutaci´ on (una ordenaci´on) Y = ¦Y
1
, . . . ,Y
n
¦ de
un conjunto de variables X = ¦X
1
, . . . , X
n
¦ y una funcion de probabilidad
6.4 Modelos de Dependencia en Gr´aficos Dirigidos 249
p(x) de X, el grafo dirigido ac´ıclico creado asignando como padres de cada
nodo Y
i
cualquier conjunto minimal de ascendientes Π
i
que cumpla
p(y
i
[b
i
) = p(y
i

i
), (6.31)
para todos los valores π
i
de las variables Π
i
⊆ B
i
= ¦Y
1
, . . . , Y
i−1
¦, es un
I-mapa minimal dirigido de p(x).
En general, los subconjuntos minimales de ascendientes de la definici´ on
anterior no son ´ unicos. Por tanto, una misma permutaci´ on de las variables
puede dar lugar a varios I-mapas minimales distintos. El teorema siguiente
muestra las condiciones necesarias para la unicidad de estos conjuntos y,
por tanto, la unicidad del I-mapa minimal.
Teorema 6.11 I-mapa minimal de una funci´on de probabilidad no
extrema. Si la funci´ on de probabilidad p(x) es no extrema, entonces los
conjuntos de padres ¦Π
1
, . . . , Π
n
¦ que cumplen (6.31) son ´ unicos y, por
tanto, el I-mapa minimal asociado tambi´en es ´ unico.
As´ı, los Teoremas 6.10 y 6.11 proporcionan la respuesta al Problema 6.3
para el caso de grafos dirigidos: “¿Cu´ ales son los modelos de dependencia
probabil´ısticos que poseen un ´ unico I-mapa minimal?”. Estos teoremas
tambi´en sugieren el siguiente algoritmo para construir el I-mapa asociado
a una funci´ on de probabilidad. Este algoritmo proporciona una soluci´ on al
Problema 6.4: “Si un modelo probabil´ıstico posee un ´ unico I-mapa minimal,
¿C´omo se puede obtener este I-mapa?”.
Algoritmo 6.4 I-Mapa minimal de una funci´on de probabilidad.
• Datos: Un conjunto de variables X y una funci´ on de probabilidad
p(x).
• Resultados: Un I-mapa minimal D correspondiente a la funci´ on de
probabilidad p(x).
1. Ordenar las variables de X de forma arbitraria (X
1
, . . . , X
n
).
2. Para cada variable X
i
, obtener un conjunto minimal de ascendientes
Π
i
que haga que X
i
sea independendiente de ¦X
1
, . . . , X
i−1
¦ ` Π
i
.
3. Construir el grafo dirigido D que resulta de incluir una arista dirigida
de cada variable de Π
i
a la variable X
i
.
El grafo dirigido ac´ıclico resultante es un I-mapa minimal dirigido de p(x)
en el sentido que no puede eliminarse ninguna arista del grafo sin destruir
su car´acter de I-mapa. El ejemplo siguiente ilustra este algoritmo.
250 6. Modelos Definidos Gr´aficamente
Ejemplo 6.14 I-mapa minimal de una distribuci´on normal. Con-
sid´erese una distribuci´ on normal multivariada de un conjunto de variables
(X
1
, X
2
, X
3
, X
4
) definida por el vector de medias y la matriz de covarianzas
siguientes
µ =

¸
¸
¸
µ
1
µ
2
µ
3
µ
4
¸

y Σ =

¸
¸
¸
1 1/2 1/8 1/4
1/2 1 1/4 1/2
1/8 1/4 1 0
1/4 1/2 0 1
¸

.
De la matriz de covarianzas, puede deducirse que el ´ unico par de variables
independientes es (X
3
, X
4
) (σ
34
= σ
43
= 0). A continuaci´ on se aplica el
Algoritmo 6.4 para obtener los I-mapas minimales correspondientes a dos
ordenaciones distintas de las variables:
(X
1
, X
2
, X
3
, X
4
) y (X
4
, X
3
, X
2
, X
1
).
El proceso indicado en la Etapa 2 del algoritmo necesita conocer si se
cumplen ciertas relaciones de independencia. Con este fin, se utiliza el Teo-
rema 6.2 para calcular las funciones de probabilidad condicionada nece-
sarias. La Tabla 6.6 muestra las medias y varianzas de las variables nor-
males X
i

i
que aparecen en el proceso de construcci´on del I-mapa. La
Figura 6.14 muestra un programa en Mathematica que calcula las medias
y varianzas de las funciones de probabilidad condicionada asociadas a una
distribuci´ on normal (ver Teorema 6.2).
Suponiendo que la media es cero, la Tabla 6.6 muestra las probabilidades
condicionadas necesarias para el proceso de construcci´on del I-mapa. Por
ejemplo, la media y la varianza condicionadas de (X
4
[X
1
, X
2
, X
3
), que es
la primera variable en la tabla, pueden obtenerse de la forma siguiente
In:=M=¦0,0,0,0¦;
V=¦¦1,1/2,1/8,1/4¦,¦1/2,1,1/4,1/2¦,
¦1/8,1/4,1,0¦,¦1/4,1/2,0,1¦¦;
CondMedVar[4,¦3,2,1¦,M,V]
Out:=Media = 2 (4 x2 - x3)/15
Varianza = 11/15
Para el orden de las variables (X
1
, X
2
, X
3
, X
4
), se tiene que
p(x
2
[x
1
) = p(x
2
), p(x
3
[x
2
) = p(x
3
), p(x
4
[x
3
, x
2
, x
1
) = p(x
4
[x
3
, x
2
).
Esta informaci´ on se muestra en las dos primeras columnas de la Tabla 6.7.
De forma similar, dado el orden (X
4
, X
3
, X
2
, X
1
), se tiene
p(x
3
[x
4
) = p(x
3
),
p(x
2
[x
3
, x
4
) = p(x
2
[x
3
) o p(x
2
[x
3
, x
4
) = p(x
2
[x
4
),
p(x
1
[x
2
, x
3
, x
4
) = p(x
1
[x
2
),
6.4 Modelos de Dependencia en Gr´aficos Dirigidos 251
CondMedVar[i ,CondVar ,M ,V ]:=
Module[¦
Listvar=¦x1,x2,x3,x4,x5,x6,x7,x8,x9,x10¦,
dim=Length[M],n=Length[CondVar]¦,
w11=Array[v11,1];
w21=Array[v21,¦n,1¦];
w12=Array[v12,¦1,n¦];
w22=Array[v22,¦n,n¦];
wchi=Array[chi,n];
wz=Array[variab,n];
v11[1]=V[[i]][[i]];
weta=¦M[[i]]¦;
Do[
v21[k1,1]=V[[i]][[CondVar[[k1]]]];
chi[k1]=M[[CondVar[[k1]]]];
variab[k1]=Listvar[[CondVar[[k1]]]],
¦k1,1,n¦];
Do[
v22[k1,k2]=V[[CondVar[[k1]]]][[CondVar[[k2]]]],
¦k1,1,n¦,¦k2,1,n¦];
w12=Transpose[w21];
waux=w12.Inverse[w22];
Mean=Simplify[weta+waux.(wz-wchi)];
wVar=Simplify[w11-waux.w21];
Print["Media = ",Mean];
Print["Varianza = ",wVar]
]
FIGURA 6.14. Programa en Mathematica para obtener la media y la varianza de
una funci´on de probabilidad condicionada asociada a la distribuci´on normal del
Ejemplo 6.14.
que se muestra en las dos ´ ultimas columnas de la Tabla 6.7. Los I-mapas
resultantes se muestran en la Figura 6.15.
6.4.2 De Grafos Dirigidos a Modelos probabil´ısticos
En esta secci´on se analiza la forma de construir una funci´ on de probabilidad
a partir de un grafo dirigido. Cuando son conocidos el modelo probabil´ıs-
tico o el modelo de dependencia asociado M, siempre es posible obtener
un I-mapa dirigido que reproduzca tantas independencias de M como sea
posible. Sin embargo, en la pr´ actica no se suele conocer la funci´on de pro-
(b)
X
2
X
4
X
3
X
1
X
1
X
2
X
4
X
3
(a)
252 6. Modelos Definidos Gr´aficamente
X
i
π
i
Media de X
i

i
Varianza de X
i

i
X
4
¦x
3
, x
2
, x
1
¦ 2(4x
2
−x
3
)/15 11/15
X
4
¦x
2
, x
1
¦ x
2
/2 3/4
X
4
¦x
3
, x
1
¦ 2(8x
1
−x
3
)/63 59/63
X
4
¦x
3
, x
2
¦ 2(4x
2
−x
3
)/15 11/15
X
4
¦x
1
¦ x
1
/4 15/16
X
4
¦x
2
¦ x
2
/2 3/4
X
4
¦x
3
¦ 0 1
X
3
¦x
2
, x
1
¦ x
2
/4 15/16
X
3
¦x
1
¦ x
1
/8 63/64
X
3
¦x
2
¦ x
2
/4 15/16
X
2
¦x
1
¦ x
1
/2 3/4
X
1
¦x
2
, x
3
, x
4
¦ x
2
/2 3/4
X
1
¦x
3
, x
4
¦ x
3
/8 +x
4
/4 59/64
X
1
¦x
2
, x
4
¦ x
2
/2 3/4
X
1
¦x
2
, x
3
¦ x
2
/2 3/4
X
1
¦x
4
¦ x
4
/4 15/16
X
1
¦x
3
¦ x
3
/8 63/64
X
1
¦x
2
¦ x
2
/2 3/4
X
2
¦x
3
, x
4
¦ x
3
/4 +x
4
/2 11/16
X
2
¦x
4
¦ x
4
/2 3/4
X
2
¦x
3
¦ x
3
/4 15/16
X
3
¦x
4
¦ 0 1
TABLA 6.6. Medias y varianzas condicionadas de las variables normales (X
i

i
)
del Ejemplo 6.14.
FIGURA 6.15. I-mapas minimales asociados a las ordenaciones de las variables
(X
1
, X
2
, X
3
, X
4
) y (X
4
, X
3
, X
2
, X
1
).
6.4 Modelos de Dependencia en Gr´aficos Dirigidos 253
Ordenaci´ on (X
1
, X
2
, X
3
, X
4
) Ordenaci´ on (X
4
, X
3
, X
2
, X
1
)
X
i
Π
i
X
i
Π
i
X
1
φ X
4
φ
X
2
¦X
1
¦ X
3
φ
X
3
¦X
2
¦ X
2
¦X
3
, X
4
¦
X
4
¦X
3
, X
2
¦ X
1
¦X
2
¦
TABLA 6.7. Conjuntos minimales de ascendientes que hacen que X
i
sea inde-
pendiente del resto de ascendientes para las dos ordenaciones indicadas de las
variables.
babilidad p(x) ni el modelo M. Por tanto, la forma real de construir un
modelo probabil´ıstico consiste en las siguientes etapas:
1. Construir un grafo dirigido D que describa la estructura de depen-
dencia entre las variables de X.
2. Encontrar una funci´ on de probabilidad p(x) para la cual D sea un
I-mapa.
La construcci´on del grafo no dirigido es una tarea que ha de realizala un ex-
perto, o inferida de un conjunto de datos mediante alguna t´ecnica de apren-
dizaje. En esta secci´on se analiza el segundo problema, es decir, obtener el
modelo probabil´ıstico asociado a un grafo.
Definici´on 6.8 Factorizaci´on recursiva seg´ un un grafo dirigido
ac´ıclico. Una funci´ on de probabilidad se dice que admite una factorizaci´ on
recursiva seg´ un un grafo dirigido ac´ıclico D, si la funci´ on de probabilidad
se puede expresar como
p(x
1
, . . . , x
n
) =
n
¸
i=1
p(x
i

i
), (6.32)
donde p(x
i

i
) es la funci´ on de probabilidad de X
i
condicionada a sus
padres Π
i
.
Teorema 6.12 Factorizaci´on recursiva. Sea D un grafo dirigido ac´ıclico
y p(x) un modelo probabil´ıstico de X. Entonces las siguientes condiciones
son equivalentes:
1. p(x) admite una factorizaci´ on recursiva seg´ un D.
2. D es un I-mapa de p(x).
Por tanto, dado un grafo dirigido D, puede construirse una funci´ on de pro-
babilidad que sea el producto de las funciones de probabiilidad condicio-
nada dadas en (6.32). En esta situaci´ on, el Teorema 6.12 permite concluir
que D es un I-mapa del modelo probabil´ıstico P resultante (ver Pearl,
(1988)). Este proceso se ilustra en el ejemplo siguiente.
254 6. Modelos Definidos Gr´aficamente
Ejemplo 6.15 Factorizaci´on seg´ un un grafo dirigido. Consid´erense
los dos grafos dirigidos mostrados en la Figura 6.15. Aplicando la definici´ on
anterior, se pueden construir dos factorizaciones recursivas de la funci´ on de
probabilidad asociada a estos grafos. A partir del grafo de la Figura 6.15(a),
se tiene
p(x
1
, x
2
, x
3
, x
4
) = p(x
1

1
)p(x
2

2
)p(x
3

3
)p(x
4

4
)
= p(x
1
)p(x
2
[x
1
)p(x
3
[x
2
)p(x
4
[x
2
, x
3
),
mientras que el grafo de la Figura 6.15(b) sugiere la factorizaci´ on:
p(x
1
, x
2
, x
3
, x
4
) = p(x
1

1
)p(x
2

2
)p(x
3

3
)p(x
4

4
)
= p(x
1
)p(x
2
[x
1
, x
3
, x
4
)p(x
3
)p(x
4
).
6.4.3 Modelos Causales
A pesar de que no todo modelo probabil´ıstico puede ser representado me-
diante un mapa perfecto dirigido, la clase de modelos probabil´ısticos que
poseen un mapa perfecto dirigido no es demasiado restrictiva. En esta
secci´on se dan las condiciones necesarias para caracterizar estos modelos.
Antes son necesarias unas definiciones previas.
Definici´on 6.9 Lista causal de relaciones de independencia. Sea
Y = ¦Y
1
, . . . , Y
n
¦ una permutaci´ on de X = ¦X
1
, . . . , X
n
¦. Una lista causal
de relaciones de independencia es un conjunto que contiene n relaciones de
independencia de la forma
I(Y
i
, B
i
` Π
i

i
), (6.33)
una para cada variable, donde B
i
= ¦Y
1
, . . . , Y
i−1
¦ es el conjunto de as-
cendientes del nodo Y
i
, y Π
i
es un subconjunto de B
i
que hace que Y
i
sea
condicionalmente independiente del resto de sus ascendiente, B
i
` Π
i
.
Cuando las variables est´ an ordenadas de forma que una causa siempre
precede a su efecto (es decir, los padres preceden a los hijos), entonces
el conjunto minimal de ascendientes de una variable X
i
que la separa del
resto de sus ascendientes se denomina conjunto de causas directas de X
i
.
Este hecho aporta una interpretaci´ on a la denominaci´ on de lista causal
utilizada para estos modelos. Se puede obtener una representaci´ on gr´ afica
de una lista causal construyendo un grafo dirigido cuyas aristas unan cada
causa directa X
j
con el efecto correspondiente X
i
, X
j
→X
i
. El modelo de
dependencia asociado al grafo resultante puede obtenerse completando la
lista causal inicial utilizando las propiedades de semigrafoide.
6.4 Modelos de Dependencia en Gr´aficos Dirigidos 255
Definici´on 6.10 Modelo causal.
2
Un modelo causal es un modelo de
dependencia probabil´ıstico generado por una lista causal.
Dado que lo modelos causales est´an asociados a un modelo probabil´ıstico,
estos modelos cumplen las propiedades de semigrafoide. Por tanto, todo
modelo causal tiene asociado un I-mapa minimal que viene dado por un
grafo dirigido en el que los conjuntos de padres Π
i
est´an definidos por
la condici´ on I(Y
i
, B
i
` Π
i

i
), donde B
i
es el conjunto de ascendientes del
nodo X
i
dado el orden de las variables impuesto por la lista causal. La lista
causal permite construir una factorizaci´ on de la funci´ on de probabilidad
considerando el conjunto de funciones de probabilidad condicionada:
p(y
i
[b
i
) = p(y
i

i
), i = 1, . . . , n. (6.34)
Cada una de estas probabilidades condicionadas est´ a definida por una de
las independencias que forman la lista causal. Obs´ervese que todas estas
funciones son componentes can´onicas est´andar (ver Secci´ on 5.5). Por tanto,
cada relaci´on de independencia de una lista causal da lugar a una compo-
nente can´ onica est´andar del modelo probabil´ıstico. As´ı, las listas causales
permiten definir modelos probabil´ısticos de un modo muy sencillo a trav´es
de la relaci´ on anterior entre la representaci´ on gr´ afica y las componentes
can´onicas est´andar de la funci´ on de probabilidad. Estas representaciones
gr´ aficas, y los modelos probabil´ısticos asociados se conocen como redes
Bayesianas.
Ejemplo 6.16 Generaci´on de listas causales. Consid´erese la lista cau-
sal que describe las relaciones de dependencia de un conjunto de cuatro
variables de la forma indicada en la Tabla 6.8. Esta lista causal puede ser
representada por el grafo dirigido ac´ıclico dado en la Figura 6.16. Tanto la
lista causal de la Tabla 6.8 como el grafo dirigido de la Figura 6.16 sugieren
la siguiente factorizaci´ on can´ onica del modelo probabil´ıstico:
p(x) = p(x
1
)p(x
2
[x
1
)p(x
3
[x
1
, x
2
)p(x
4
[x
1
, x
2
, x
3
)
= p(x
1
)p(x
2
)p(x
3
[x
1
, x
2
)p(x
4
[x
1
, x
3
).
(6.35)
La segunda igualdad en (6.35) es consecuencia de la primera, aplicando
I(X
2
, X
1
[φ) ⇔p(x
2
[x
1
) = p(x
2
)
y
I(X
4
, X
2
[X
1
, X
3
) ⇔p(x
4
[x
1
, x
2
, x
3
) = p(x
4
[x
1
, x
3
).
Por tanto, para definir la funci´ on de probabilidad de las cuatro variables,
s´olo es necesario definir las cuatro funciones de probabilidad obtenidas, que
2
Algunos autores utilizan el t´ermino modelo causal para referirse a los modelos
de dependencia M que tienen un mapa perfecto dirigido.
X
1
X
2
X
3
X
4
256 6. Modelos Definidos Gr´aficamente
Nodo B
i
Π
i
I(X
i
, B
i
` Π
i

i
)
X
1
φ φ I(X
1
, φ[φ)
X
2
X
1
φ I(X
2
, X
1
[φ)
X
3
X
1
, X
2
X
1
, X
2
I(X
3
, φ[X
1
, X
2
)
X
4
X
1
, X
2
, X
3
X
1
, X
3
I(X
4
, X
2
[X
1
, X
3
)
TABLA 6.8. Ejemplo de una lista causal.
dependen de un conjunto menor de variables:
p(x
1
), p(x
2
),
p(x
3
[x
1
, x
2
), p(x
4
[x
1
, x
3
).
FIGURA 6.16. Grafo dirigido ac´ıclico asociado a la lista causal definida en la
Tabla 6.8.
Los siguientes teoremas ilustran las propiedades m´as importantes de las
listas causales (ver Verma y Pearl (1990) y Geiger y Pearl (1990)).
Teorema 6.13 Clausura de una lista causal. Sea D un grafo dirigido
ac´ıclico definido por una lista causal M. Entonces el conjunto de relaciones
de independencia verificados por el grafo coincide con la clausura de M
bajo las propiedades de simetr´ıa, descomposici´ on, uni´ on d´ebil y contracci´ on
(propiedades de semigrafoide).
Teorema 6.14 Completitud de las listas causales. Sea D un grafo
dirigido ac´ıclico definido por una lista causal M. Entonces cada relaci´on
de independencia contenida en el m´ınimo semigrafoide generado por M
tambi´en se cumple en D (utilizando el criterio de D-separaci´ on).
El Teorema 6.13 garantiza que todas las relaciones de independencia con-
tenidas en el grafo dirigido se pueden obtener de M utilizando las propie-
dades de semigrafoide. Por otra parte, el Teorema 6.14 garantiza que el
grafo dirigido contiene todas las independencias que pueden ser obtenidas
de M utilizando las propiedades de semigrafoide. Por tanto, las propieda-
des de simetr´ıa, descomposici´on, uni´ on d´ebil y contracci´ on constituyen un
6.4 Modelos de Dependencia en Gr´aficos Dirigidos 257
conjunto completo capaz de obtener cualquier consecuencia v´ alida de una
lista causal. Por tanto, el grafo dirigido obtenido de una lista causal es un
mapa perfecto del semigrafoide generado por la lista causal.
Los grafos dirigidos son, por tanto, herramientas convenientes e intuiti-
vas para representar relaciones de independencia condicional. Los nodos
del grafo representan a las variables del problema a analizar y su topolog´ıa
est´a determinada por una lista causal que contiene una sola relaci´ on de
independencia para cada variable. La lista causal asigna un conjunto de
padres a cada variable X
i
de forma que X
i
sea condicionalmente indepen-
diente de todos sus ascendientes, dado su conjunto de padres (en alg´ un
orden establecido para las variables). Esta lista causal determina de forma
recursiva la relaci´ on de cada variable con sus ascendientes. Los modelos de
dependencia generados por una lista causal se denominan modelos causales.
6.4.4 Redes Bayesianas
En las secciones anteriores se ha analizado la relaci´on existente entre los
grafos dirigidos y los modelos de dependencia. En esta secci´ on se pre-
senta un tipo importante de modelos de dependencia associados a I-mapas
dirigidos. Esta clase se conoce como redes Bayesianas.
Definici´on 6.11 Red Bayesiana. Una red Bayesiana es un par (D, P),
donde D es un grafo dirigido ac´ıclico, P = ¦p(x
1

1
), . . . , p(x
n

n
)¦ es
un conjunto de n funciones de probabilidad condicionada, una para cada
variable, y Π
i
es el conjunto de padres del nodo X
i
en D. El conjunto P
define una funci´ on de probabilidad asociada mediante la factorizaci´ on
p(x) =
n
¸
i=1
p(x
i

i
). (6.36)
El grafo dirigido ac´ıclico D es un I-mapa minimal de p(x).
El Teorema 6.12 muestra que cualquier relaci´ on de independencia que se
obtenga del grafo utilizando el criterio de D-separaci´on tambi´en estar´a
contenida en el modelo probabil´ıstico correspondiente.
Obs´ervese que en el caso de redes Bayesianas, la factorizaci´on de la
funci´ on de probabilidad se obtiene de forma sencilla a partir del grafo di-
rigido considerando un conjunto de funciones de probabilidad condicionada
que involucran a cada nodo con sus padres. Por otra parte, la factorizaci´ on
de una funci´ on de probabilidad asociada a una red de Markov requiere va-
rios pasos previos como: construir los conglomerados del grafo, ordenar este
conjunto de modo que satisfaga la propiedad de intersecci´ on din´ amica, en-
contrar los separadores y residuos, etc. Por tanto, las redes Bayesianas ofre-
cen una forma m´ as sencilla e intuitiva de construir modelos probabil´ısticos
que las redes de Markov.
258 6. Modelos Definidos Gr´aficamente
Existen diversos tipos de redes Bayesianas dependiendo del tipo de va-
riables que contenga el grafo (discretas, continuas, o ambas) y del tipo de
distribuci´ on que se considere para cada variable. Dos tipos importantes
de redes Bayesianas son las redes multinomiales y las redes normales o
Gausianas. Estos tipos se describen a continuaci´ on
Redes Bayesianas Multinomiales
En una red Bayesiana multinomial se supone que todas las variables son
discretas, es decir, que cada variable puede tomar ´ unicamente un conjunto
finito de valores. En este tipo de redes tambi´en se supone que la funci´ on
de probabilidad condicionada asociada a cada variable es una funci´ on de
probabilidad de tipo multinomial. Este tipo de funciones de probabilidad
pueden ser definidas, ya sea de forma param´etrica o num´erica, por medio
de tablas que asignan valores num´ericos a las diferentes combinaciones de
las variables involucradas. A continuaci´ on se muestra un ejemplo de una
red Bayesiana multinomial.
Ejemplo 6.17 Red Bayesiana multinomial. Consid´erese el grafo di-
rigido mostrado en la Figura 6.17 y sup´ ongase que todas las variables
del conjunto ¦A, B, C, D, E, F, G¦ son binarias, es decir, solamente pueden
tomar dos valores posibles (por ejemplo, 0 ´ o 1). Este grafo dirigido define
una red Bayesiana por medio de las funciones de probabilidad condicionada
(6.36) que definen la siguiente factorizaci´ on de la funci´ on de probabilidad
p(a, b, c, d, e, f, g) = p(a)p(b)p(c[a)p(d[a, b)p(e)p(f[d)p(g[d, e). (6.37)
En este caso, las funciones de probabildad condicionada son tablas de pro-
babilidades para las diferentes combinaciones de valores de las variables.
La Tabla 6.9 muestra un ejemplo de los valores num´ericos necesarios para
definir el conjunto de funciones de probabilidad condicionada dadas en
(6.37). Por tanto, el grafo dirigido ac´ıclico de la Figura 6.17 junto con el
conjunto de probabilidades condicionadas dado en la Tabla 6.9 definen una
red Bayesiana multinomial.
Redes Bayesianas Gausianas
En una red Bayesiana normal o Gausiana, se supone que las variables
del conjunto X est´an distribuidas por medio de una distribuci´ on normal
N(µ, Σ) dada por la funci´ on de densidad
f(x) = (2π)
−n/2
[Σ[
−1/2
exp
¸
−1/2(x −µ)
T
Σ
−1
(x −µ)
¸
, (6.38)
donde µ es el vector n-dimensional de medias, Σ es la matriz n n de
covarianzas, [Σ[ es el determinante de Σ, y µ
T
denota la traspuesta de µ.
C D E
F G
A B
6.4 Modelos de Dependencia en Gr´aficos Dirigidos 259
FIGURA 6.17. Grafo dirigido utilizado para construir la red Bayesiana del
Ejemplo 6.17.
a p(a)
0 0.3
1 0.7
b p(b)
0 0.6
1 0.4
e p(e)
0 0.1
1 0.9
c a p(c[a)
0 0 0.25
0 1 0.50
1 0 0.75
1 1 0.50
f d p(f[d)
0 0 0.80
0 1 0.30
1 0 0.20
1 1 0.70
d a b p(d[a, b)
0 0 0 0.40
0 0 1 0.45
0 1 0 0.60
0 1 1 0.30
1 0 0 0.60
1 0 1 0.55
1 1 0 0.40
1 1 1 0.70
g d e p(g[d, e)
0 0 0 0.90
0 0 1 0.70
0 1 0 0.25
0 1 1 0.15
1 0 0 0.10
1 0 1 0.30
1 1 0 0.75
1 1 1 0.85
TABLA 6.9. Funciones de probabilidad condicionada correspondientes al grafo
dirigido de la Figura 6.17.
La funci´ on de densidad de las variables en una red Bayesiana Gausiana
est´a definida por (6.36) mediante el producto de un conjunto de funciones
de probabilidad condicionada dadas por
f(x
i

i
) ∼ N

¸
µ
i
+
i−1
¸
j=1
β
ij
(x
j
−µ
j
), v
i
¸

, (6.39)
260 6. Modelos Definidos Gr´aficamente
donde β
ij
es el coeficiente de regresi´on de X
j
en la regresi´on de X
i
sobre
los padres, Π
i
, de X
i
y
v
i
= Σ
i
−Σ

i
Σ
−1
Π
i
Σ
T

i
es la varianza condicionada de X
i
, dado Π
i
= π
i
, donde Σ
i
es la varianza
incondicional de X
i
, Σ

i
son las covarianzas entre X
i
y las variables de Π
i
,
y Σ
Π
i
es la matriz de covarianzas de Π
i
. Obs´ervese que β
ij
mide el grado
de relaci´on existente entre las variables X
i
y X
j
. Si β
ij
= 0, entonces X
j
no ser´a un padre de X
i
.
Mientras que la media condicionada µ
x
i

i
depende de los valores de
los padres π
i
, la varianza condicionada no depende de esos valores. Por
tanto, el conjunto de funciones de probabilidad condicionada que define una
red Bayesiana normal est´a determinado por los par´ ametros ¦µ
1
, . . . , µ
n
¦,
¦v
1
, . . . , v
n
¦, y ¦β
ij
[ j < i¦, tal y como se muestra en (6.39).
Una funci´ on de probabilidad normal puede definirse de forma alterna-
tiva mediante su vector de medias µ y su matriz de precisi´on W = Σ
−1
.
Shachter y Kenley (1989) describen la transformaci´ on general para pasar
de ¦v
1
, . . . , v
n
¦ y ¦β
ij
: j < i¦ a W. Esta transformaci´ on viene dada por la
siguiente f´ ormula recursiva, en la cual W(i) representa la matriz superior
izquierda i i de W y β
i
representa el vector columna ¦β
ij
: j < i¦:
W(i + 1) =

¸
¸
¸
W(i) +
β
i+1
β
T
i+1
v
i+1
−β
i+1
v
i+1
−β
T
i+1
v
i+1
1
v
i+1
¸

, (6.40)
donde W(1) = 1/v
1
.
Por tanto, se tienen dos representaciones alternativas de la funci´ on de
probabilidad de una red Bayesiana normal. El ejemplo siguiente ilustra la
forma de construir una red Bayesiana normal.
Ejemplo 6.18 Red Bayesiana normal. Consid´erese el grafo dirigido
ac´ıclico mostrado en la Figura 6.18 y sup´ ongase que las cuatro varia-
bles del conjunto ¦A, B, C, D¦, est´an distribuidas de forma normal, es
decir, f(a, b, c, d) ∼ N(µ, Σ). El conjunto de funciones de probabilidad
condicionada dado en la factorizaci´ on (6.36) define la red Bayesiana normal
f(a, b, c, d) = f(a)f(b)f(c[a)f(d[a, b), (6.41)
donde
f(a) ∼ N (µ
A
, v
A
) ,
f(b) ∼ N (µ
B
, v
B
) , (6.42)
f(c) ∼ N (µ
C

CA
(a −µ
A
), v
C
) ,
f(d) ∼ N (µ
D

DA
(a −µ
A
) +β
DB
(b −µ
B
), v
D
) .
C D
A B
6.4 Modelos de Dependencia en Gr´aficos Dirigidos 261
FIGURA 6.18. Grafo dirigido utilizado para construir la red Bayesiana del
Ejemplo 6.18.
Este conjunto de funciones de probabilidad condicionada constituye una
de las dos descripciones equivalentes de la red Bayesiana. Los par´ametros
asociados a esta representaci´on son ¦µ
A
, µ
B
, µ
C
, µ
D
¦, ¦v
A
, v
B
, v
C
, v
D
¦, y
¦β
CA
, β
DA
, β
DB
¦.
Una representaci´ on alternativa puede obtenerse utilizando la f´ ormula re-
cursiva (6.40). En este caso, despu´es de cuatro iteraciones se obtiene la
matriz
W =

¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
1
v
A
+
β
2
CA
v
C
+
β
2
DA
v
D
β
DA
β
DB
v
D

β
CA
v
C

β
DA
v
D
β
DA
β
DB
v
D
1
v
B
+
β
2
DB
v
D
0 −
β
DB
v
D

β
CA
v
C
0
1
v
C
0

β
DA
v
D

β
DB
v
D
0
1
v
D
¸

.
La matriz de covarianzas de la funci´ on de probabilidad se obtiene invir-
tiendo la matriz anterior:
Σ =

¸
¸
v
A
0 β
CA
v
A
β
DA
v
A
0 v
B
0 β
DB
v
B
β
CA
v
A
0 β
2
CA
v
A
+v
C
β
CA
β
DA
v
A
β
DA
v
A
β
DB
v
B
β
CA
β
DA
v
A
β
2
DA
v
A

2
DB
v
B
+v
D
¸

.
Obs´ervese que, hasta ahora, todos los par´ ametros han sido escritos en
forma simb´ olica. Por tanto, la estructura cualitativa de la red Bayesiana
se definir´ a asignando valores num´ericos a estos par´ametros. Por ejemplo,
considerando nulo el valor de las medias, uno el de las varianzas, β
CA
= 1,
β
DA
= 0.2 y β
DB
= 0.8, se tiene la siguiente matriz de covarianzas
Σ =

¸
¸
1.0 0.0 1.0 0.20
0.0 1.0 0.0 0.80
1.0 0.0 2.0 0.20
0.2 0.8 0.2 1.68
¸

. (6.43)
Esta matriz y el vector de medias definen una red Bayesiana normal aso-
ciada al grafo dirigido de la Figura 6.18.
262 6. Modelos Definidos Gr´aficamente
6.5 Modelos Gr´ aficos Equivalentes
Los modelos gr´aficos basados en grafos no dirigidos no son redundantes en el
sentido de que grafos distintos siempre determinan modelos de dependencia
distintos. Sin embargo, en el caso de grafos dirigidos, un mismo modelo de
dependencia puede tener asociados varios grafos distintos. En esta secci´ on
se caracterizan las clases de grafos dirigidos que determinan un mismo
modelo de dependencia. Para ello se introduce la siguiente definici´ on de
modelos gr´ aficos equivalentes (Verma y Pearl (1991)).
Definici´on 6.12 Modelos gr´aficos equivalentes. Dos modelos gr´ aficos
se dicen equivalentes si los grafos correspondientes determinan el mismo
modelo de dependencia, es decir, si tienen asociado el mismo conjunto de
relaciones de independencia.
Dos redes de Markov (grafos no dirigidos) son equivalentes si y s´ olo si tienen
asociado el mismo grafo. Sin embargo, en el caso de redes Bayesianas es
posible cambiar la direcci´ on de alguna de las aristas que componen el grafo
dirigido dejando inalterado el modelo de dependencia asociado. Seg´ un ´esto,
dos redes Bayesianas construidas a partir de grafos diferentes pueden ser
equivalentes. Por tanto, un problema interesante consiste en caracterizar
las clases de redes Bayesianas que tienen asociado el mismo modelo de
dependencia:
• Problema 6.6: ¿C´omo puede comprobarse si dos redes Bayesianas
son equivalentes?
Para analizar este problema es necesario introducir algunas definiciones.
Definici´on 6.13 V-estructura. Una terna de nodos (X, Z, Y ) en una red
Bayesiana se dice que es una v-estructura si las aristas desde los nodos X e
Y convergen al nodo Z y, adem´ as, no existe ninguna arista entre los nodos
X e Y . El nodo Z en una v-estructura se suele denominar como un nodo
de aristas convergentes no acopladas en el camino no dirigido X −Z −Y .
Las v-estructuras representan las relaciones de independencia no transitivas
de una red Bayesiana. Dada una v-estructura (X, Z, Y ), se tiene que X e Y
son incondicionalmente independientes, pero son condicionalmente depen-
dientes dada Z. Por ejemplo, los nodos (X, Z, Y ) en el grafo dirigido de la
Figura 6.2 representan una v-estructura que permite representar mediante
un grafo dirigido el modelo de dependencia no transitivo del Ejemplo 6.1.
En otro ejemplo, el grafo dirigido de la Figura 6.12 tiene tres v-estructuras
distintas: (S, F, D), (D, F, A) y (S, F, A).
El teorema siguiente proporciona una soluci´ on al Problema 6.6 (Verma
y Pearl (1991)).
6.5 Modelos Gr´aficos Equivalentes 263
Teorema 6.15 Redes Bayesianas equivalentes. Dos redes Bayesianas
se dicen equivalentes si tienen asociadas: (a) los mismos grafos no dirigidos
y (b) las mismas v-estructuras.
Los ejemplos siguientes ilustran este teorema.
Ejemplo 6.19 Redes Bayesianas equivalentes. Consid´erense los seis
grafos dirigidos de la Figura 6.19. Los grafos (a)−(c) tienen asociado el
mismo modelo de dependencia, ya que tienen asociado el mismo grafo no
dirigido y no tienen v-estructuras. Los grafos (a)−(d) tienen asociado el
mismo grafo no dirigido, pero el grafo (d) posee la v-estructura (X, Z, Y ).
Por tanto, el grafo (d) no es equivalente a ninguno de los grafos (a)−(c).
Los grafos (e) y (f) son equivalentes ya que tienen asociado el mismo grafo
no dirigido y no poseen v-estructuras. Obs´ervese que la terna (X, Z, Y ) no
es una v-estructura en el grafo (e), pues los nodos X e Y est´an conectados
por una arista.
Por tanto, los seis grafos de la Figura 6.19 definen solamente tres clases
de dependencia distintas: ¦(a), (b), (c)¦, ¦(d)¦ y ¦(e), (f)¦, donde las letras
indican los grafos correspondientes a cada clase en la Figura 6.19.
Ejemplo 6.20 Todos los grafos completos son equivantes. Como
ya se hab´ıa visto anteriormente, un grafo completo contiene una arista
entre cada par de nodos. Dado que todos los grafos dirigidos completos con
n nodos tienen asociado el mismo grafo no dirigido (el grafo no dirigido
completo de n nodos) y que no existe ninguna v-estructura en un grafo
dirigido completo, se tiene que todos los grafos dirigidos completos de n
nodos son equivalentes. Para ilustrar este resultado, obs´ervese que existen
2
n
grafos no dirigidos completos con n nodos. Por ejemplo, la Figura 6.20
muestra los 2
3
= 8 grafos completos distintos con n = 3 nodos. Dado que
s´olo estamos considerando grafos dirigidos ac´ıclicos, los dos ´ ultimos grafos
de esta figura son excluidos, pues ambos contienen un ciclo. El n´ umero de
grafos dirigidos ac´ıclicos distintos con n nodos es n!, un grafo para cada
orden de las variables. Por tanto, para n = 3 se tienen 3! = 6 grafos dirigidos
ac´ıclicos distintos. Los primeros seis grafos de la Figura 6.20 corresponden
a las siguientes ordenaciones de las variables.
(X, Y, Z), (Y, X, Z),
(Z, Y, X), (Z, X, Y ),
(X, Z, Y ), (Y, Z, X).
A los grafos (a)−(f) les corresponde el mismo modelo de dependencia, ya
que tienen asociado el mismo grafo no dirigido y no contienen v-estructuras.
El modelo de dependencia correspondiente a esta clase es el modelo vac´ıo,
es decir, el que no contiene ninguna relaci´ on de independencia entre las
variables (modelo general de dependencia).
Z
X Y
(c)
Z
X Y
(d)
Z
X Y
(e)
Z
X Y
(f)
Z
X Y
(a)
Z
X Y
(b)
264 6. Modelos Definidos Gr´aficamente
FIGURA 6.19. Grafos dirigidos distintos con tres nodos.
Una consecuencia importante de este concepto de equivalencia es que en
una red Bayesiana se puede cambiar la direcci´ on de algunas aristas sin
alterar la estructura cualitativa del modelo. Este hecho motiva la siguiente
definici´ on de aristas reversibles e irreversibles.
Definici´on 6.14 Aristas reversibles e irreversibles. Sea D = (X, L)
un grafo dirigido ac´ıclico. Se dice que una arista L
i j
= (X
i
→ X
j
) ∈ L
es irreversible si L
i j
∈ L

para cualquier grafo dirigido ac´ıclico D

=
(X, L

) que sea equivalente a D. Cualquier arista que no sea irreversible se
denomina reversible.
Si las aristas de una red Bayesiana tienen alguna interpretaci´ on causal, el
hecho de cambiar la orientaci´ on de alguna de las aristas influir´ a necesaria-
mente en las relaciones causa-efecto entre las variables (aunque no altere
el modelo de dependencia asociado).
Los siguientes algoritmos, debidos a Chickering (1995b), introducen pri-
meramente una ordenaci´ on de las aristas del grafo dirigido para, seguida-
mente, clasificar cada arista como irreversible o como reversible.
Z
X Y
(a)
Z
X Y
(b)
Z
X Y
(f)
Z
X Y
(d)
Z
X Y
(e)
Z
X Y
(g)
Z
X Y
(h)
Z
X Y
(c)
6.5 Modelos Gr´aficos Equivalentes 265
FIGURA 6.20. Conjunto de todos los grafos completos dirigidos de tres nodos.
Los grafos (a)−(f) son grafos dirigidos ac´ıclicos. Los grafos (g) y (h) son c´ıclicos.
Algoritmo 6.5 Ordenaci´on de las aristas de un grafo dirigido.
• Datos: Un grafo dirigido ac´ıclico D = (X, L).
• Resultados: Una ordenaci´ on de las aristas en L.
1. Calcular una ordenaci´ on ancestral de los nodos de D (Algoritmo 4.6).
2. Asignar i ←1.
3. Mientras exista alguna arista no ordenada en L:
266 6. Modelos Definidos Gr´aficamente
(a) Obtener el primer nodo en la ordenaci´ on Y que tenga una arista
no ordenada convergente.
(b) Obtener el ´ ultimo nodo en la ordenaci´ on X para el cual la arista
L
X Y
no est´e ordenada.
(c) Etiquetar la arista L
X Y
con el n´ umero i que le corresponda en
la ordenaci´ on.
(d) i ←i + 1.
Algoritmo 6.6 B´ usqueda de las aristas irreversibles de un grafo
dirigido.
• Datos: Un grafo dirigido ac´ıclico D = (X, L).
• Resultados: Clasificaci´on de las ariastas de L como irreversibles o
reversibles.
1. Ordenar las aristas de L utilizando el Algoritmo 6.5.
2. Etiquetar cada arista de L como desconocida.
3. Mientras exista alguna arista en L etiquetada como desconocida:
(a) Calcular la primera arista en la ordenaci´ on L
X Y
que est´e eti-
quetada como desconocida.
(b) Para cada arista L
W X
etiquetada irreversible, si W no es un
padre de Y , entonces etiquetar la arista L
X Y
y toda arista
convergente a Y como irreversible e ir a la Etapa 3; en caso
contrario, etiquetar la arista L
W Y
como irreversible.
(c) Si existe una arista L
Z Y
tal que Z = X y Z no es un padre de X,
entonces etiquetar la arista L
X Y
y todas las aristas desconocidas
convergentes a Y como irreversibles; en caso contrario, etiquetar
la arista L
X Y
y todas las aristas desconocidas convergentes a Y
como reversibles.
Ejemplo 6.21 Aristas reversibles e irreversibles. En la Figura 6.21
se muestra un ejemplo de aplicaci´on de los algoritmos anteriores.
Primeramente se ilustra el uso del Algoritmo 6.5.
• Etapa 1: Se realiza una ordenaci´ on ancestral de los nodos, tal y como
se muestra en la Figura 6.21.
• Etapa 2: Se toma i = 1.
• Etapa 3:
– (a): El primer nodo de la ordenaci´ on que tiene una arista no
ordenada convergente es Y = C.
6.5 Modelos Gr´aficos Equivalentes 267
– (b): El ´ ultimo nodo de la ordenaci´ on para el que la arista L
XC
no est´a ordenada es X = A.
– (c): Se etiqueta la arista L
AC
con el n´ umero 1.
– (d): Se considera i = 2.
– (a): El primer nodo de la ordenaci´ on que tiene una arista no
ordenada convergente es Y = D.
– (b): El ´ ultimo nodo de la ordenaci´ on para el que la arista L
XD
no est´a ordenada es X = B.
– (c): Se etiqueta la arista L
BD
con el n´ umero 2.
– (d): Se considera i = 3 y se procede de forma an´ aloga hasta
numerar todas las aristas.
La Tabla 6.10 muestra detalladamente todas los pasos de la Etapa 3 en
el algoritmo anterior.
A continuaci´ on, se ilustra la aplicaci´ on del Algoritmo 6.6.
• Etapa 1: La primera etapa consiste en la ordenaci´ on de las aristas
realizada anteriormente.
• Etapa 2: Se etiqueta cada arista como desconocida.
• Etapa 3:
– (a): La primera arista de la ordenaci´ on etiquetada como desco-
nocida es L
AC
.
– (b): No existe ninguna arista L
WA
etiquetada irreversible.
– (c): No existe ninguna arista L
ZC
tal que Z = A, por tanto, se
etiqueta L
AC
como reversible.
– (a): La primera arista de la ordenaci´ on etiquetada como desco-
nocida es L
BD
.
– (b): No existe ninguna arista L
WB
etiquetada irreversible.
– (c): La arista L
AD
verifica A = B y A no es un padre de B, por
tanto, se etiquetan las aristas L
BD
y L
AD
como irreversibles.
– (a): La primera arista de la ordenaci´ on etiquetada como desco-
nocida es L
DF
.
– (b): Las aristas L
AD
y L
BD
de la forma L
WD
, est´an etiquetadas
como irreversibles. Dado que A y B no son padres de F, se
etiqueta la arista L
DF
como irreversible. No existen m´as aristas
convergentes a F.
– (a): L
EG
es la primera arista de la ordenaci´ on etiquetada como
desconocida.
– (b): No existe ninguna arista L
WE
etiquetada como irreversible.
C D E
F G
A B
1 2
3 4 5
6 7
1 (r) 2 (i)
3 (i)
4 (i) 5 (i)
6 (i)
268 6. Modelos Definidos Gr´aficamente
(a) (b) (c) (d)
Y X L
XY
i
C A Orden(L
AC
) = 1 2
D B Orden(L
BD
) = 2 3
D A Orden(L
AD
) = 3 4
F D Orden(L
DF
) = 4 5
G E Orden(L
EG
) = 5 6
G D Orden(L
DG
) = 6 7
TABLA 6.10. Detalles de la Etapa 3 del Algoritmo 6.5 para el grafo dirigido del
Ejemplo 6.21.
(a) (b) (c)
L
XY
A →C − L
AC
←Reversible
B →D − L
AD
←Irreversible
L
BD
←Irreversible
D →F L
DF
←Irreversible −
E →G L
EG
←Irreversible
L
DG
←Irreversible
TABLA 6.11. Detalles de la Etapa 3 del Algoritmo 6.5 para el grafo dirigido del
Ejemplo 6.21.
– (c): Existe una arista L
DG
tal que D = E y D no es un padre
de E, por tanto, las aristas L
EG
y L
DG
se etiquetan como
irreversibles.
La Tabla 6.11 muestra detalladamente los pasos a seguir en la Etapa 3 del
Algoritmo 6.6.
FIGURA 6.21. Grafo dirigido ac´ıclico con las aristas clasificadas como reversibles
(r) o irreversibles (i).
6.6 Expresividad de los Modelos Gr´aficos 269
El concepto de equivalencia anterior se refiere exclusivamente a la estruc-
tura cualitativa de la red Bayesiana, es decir, al modelo de dependencia.
La siguiente definici´ on introduce el concepto de equivalencia cuantitativa.
Definici´on 6.15 Redes Bayesianas probabil´ısticamente equivalen-
tes. Dos redes Bayesianas (D
1
, P
1
) y (D
2
, P
2
) se dicen probabil´ısticamente
equivalentes si definen el mismo modelo probabil´ıstico (cualitativo y cuan-
titativo), es decir, si D
1
y D
2
son equivalentes y P
1
= P
2
.
Obs´ervese que dos redes Bayesianas probabil´ısticamente equivalentes han
de tener estructuras gr´ aficas equivalentes, pero el rec´ıproco no tiene por
qu´e ser cierto.
Utilizando el concepto de equivalencia probabil´ıstica se puede dividir el
conjunto de todas las redes Bayesianas de n variables en clases de equiva-
lencia. Esta posibilidad ser´ a particularmente ´ util en el Cap´ıtulo 11 dedicado
al aprendizaje de redes Bayesianas.
6.6 Expresividad de los Modelos Gr´ aficos
En las secciones previas se ha analizado en detalle la forma de construir mo-
delos probabil´ısticos utilizando grafos dirigidos y no dirigidos. Se ha visto
que no todo modelo probabil´ıstico puede ser representado por un mapa
perfecto dirigido o no dirigido. Para los casos en los que no es posible ha-
llar un mapa perfecto, se introdujo el concepto de I-mapa. Esto motiv´ o la
aparici´ on de dos importantes clases de modelos que pod´ıan ser represen-
tados por I-mapas minimales, las redes de Markov (grafos no dirigidos) y
las redes Bayesianas (grafos dirigidos). El siguiente problema se refiere a la
capacidad de representaci´ on de estos dos tipos de modelos:
• Problema 6.7: ¿Todo modelo de dependencia que puede represen-
tarse por un tipo de grafos puede ser representado tambi´en por el
otro tipo?
La respuesta a la pregunta anterior es que, generalmente, no. Por ejemplo,
en el Ejemplo 6.1 se mostraba un caso de un modelo de dependencia que
puede ser representado por un mapa perfecto dirigido, pero que no posee
ning´ un mapa perfecto no dirigido. El siguiente ejemplo muestra el caso de
un modelo que puede ser representado por un mapa perfecto no dirigido,
pero que no tiene ning´ un mapa perfecto dirigido.
Ejemplo 6.22 Modelos obtenidos de grafos no cordales. El grafo
no dirigido mostrado en la Figura 6.22(a) define el modelo de dependen-
cia M = ¦I(X, Y [¦W, Z¦), I(W, Z[¦X, Y ¦)¦. Por tanto, el grafo no dirigido
es un mapa perfecto del modelo M. Sin embargo, no es posible encontrar
ning´ un mapa perfecto dirigido que reproduzca este par de relaciones de
I(X, Y| {W, Z})
I(W, Z | {X, Y})
X
W
Y
Z
(b)
I(X, Y| {W, Z})
I(W, Z | {X, Y})
X
W
Y
Z
(c)
I(X, Y| {W, Z})
I(W, Z | {X, Y})
X
W
Y
Z
(a)
270 6. Modelos Definidos Gr´aficamente
independencia. Obs´ervese que todo grafo dirigido que pueda construirse a
partir de este grafo contendr´ a al menos un nodo con aristas convergentes.
En consecuencia, contendr´ a una v-estructura que inducir´ a algunas depen-
dencias adicionales en el modelo asociado al grafo dirigido. Por ejemplo,
dado el grafo dirigido de la Figura 6.22(b), donde las l´ıneas discontinuas
indican las aristas necesarias para moralizar el grafo (ver Definici´ on 5.4),
se puede obtener la primera relaci´ on de independencia, pero no la segunda.
En este caso, el grafo contiene la v-estructura (W, Y, Z), que hace que W
y Z sean condicionalmente dependientes dada Y . De forma similar, a par-
tir del grafo de la Figura 6.22(c), se puede obtener la segunda relaci´ on de
independencia, pero no la primera.
FIGURA 6.22. Modelo de dependencia no dirigido y dos grafos dirigidos que
representan parcialmente el modelo.
En general, ninguno de los dos tipos de grafos tiene un poder de repre-
sentaci´on mayor que el otro (ver Ur y Paz (1994)). Sin embargo, como se
analizar´ a brevemente a continuaci´ on, la inclusi´ on de nodos auxiliares hace
que cualquier modelo representable por medio de grafos no dirigidos pueda
ser tambi´en representado mediante grafos dirigidos.
Las propiedades que caracterizan los mapas perfectos no dirigidos y di-
rigidos han sido presentadas en los Teoremas 6.1 y 6.8, respectivamente.
Estas propiedades est´an relacionadas de la forma siguiente. La uni´ on fuerte
implica la uni´ on d´ebil; la transitividad fuerte implica la transitividad d´ebil;
y la uni´ on fuerte y la intersecci´ on implican la composici´ on y la contracci´on
(ver Secci´on 5.3). Por tanto, cada modelo de dependencia gr´ afico no dirigido
satisface las seis primeras propiedades del Teorema 6.8. Sin embargo, un
modelo gr´ afico no dirigido no satisface, en general, la propiedad de corda-
lidad (no tiene por qu´e ser triangulado). En este caso, el modelo no podr´ a
ser representado por un grafo dirigido. Entonces, para que un modelo de
dependencia pueda ser representado tanto por un grafo no dirigido, como
por un grafo dirigido, es necesario que sea un modelo cordal, o descomponi-
ble. Adem´ as, si el grafo es cordal (triangulado), todas las dependencias que
X
W
Y
Z
(b)
X
W
Y
Z
(a)
6.6 Expresividad de los Modelos Gr´aficos 271
puedan ser representadas por el grafo no dirigido, tambi´en tienen que poder
ser representadas por un grafo dirigido, como se muestra en los teoremas
siguientes (ver Pearl y Verma (1987) y Pearl (1988)).
Teorema 6.16 Intersecci´on de modelos gr´aficos dirigidos y no
dirigidos. La intersecci´ on de los modelos de dependecia basados en grafos
no dirigidos y los basados en grafos dirigidos est´ a contenida en la clase
de modelos de depencia representables por grafos cordales, o triangulados
(modelos descomponibles).
Ejemplo 6.23 Modelos descomponibles. La Figura 6.23(a) muestra
un grafo no dirigido cordal. El modelo de dependencia correspondiente
contiene una sentencia de independencia condicional, I(X, Y [¦W, Z¦). Por
tanto, la red de Markov asociada puede ser factorizada como
p(x, y, z, w) = ψ
1
(x, w, z)ψ
2
(y, w, z)
= p(x, w, z)p(y[w, z). (6.44)
Por otra parte, el grafo dirigido ac´ıclico mostrado en la Figura 6.23(b)
define la siguiente factorizaci´ on de una red Bayesiana:
p(x, y, z, w) = p(x)p(w[x)p(z[x, w)p(y[w, z)
= p(x, w, z)p(y[w, z). (6.45)
Por tanto, los grafos (no dirigido y dirigido) de las Figuras 6.23(a) y (b),
respectivamente, definen el mismo modelo probabil´ıstico, como puede de-
ducirse de (6.44) y (6.45).
FIGURA 6.23. Grafo no dirigido cordal (a) y un grafo dirigido ac´ıclico asociado
(b).
Cuando un modelo de dependencia est´ a basado en un grafo no dirigido
que no es cordal, puede obtenerse un grafo dirigido ac´ıclico equivalente
con la ayuda de algunos nodos auxiliares (ver Pearl (1988)). Por tanto,
cualquier modelo de dependencia representable por un grafo no dirigido
tambi´en puede ser representado por un grafo dirigido.
I(X, Y| {W, Z})
I(W, Z | {X, Y})
X
W
Y
Z
A
272 6. Modelos Definidos Gr´aficamente
Teorema 6.17 Nodos auxiliares. Cada modelo de dependencia asociado
a un grafo no dirigido se puede expresar de forma equivalente por un grafo
dirigido ac´ıclico mediante la inclusi´ on de algunos nodos auxiliares.
Ejemplo 6.24 Nodos auxiliares. Consid´erese el grafo no dirigido no
cordal dado en la Figura 6.22(a). El Ejemplo 6.22 muestra que no existe
ning´ un grafo dirigido ac´ıclido que pueda generar el mismo modelo de de-
pendencia. Sin embargo, si se a˜ nade el nodo auxiliar A (ver Figura 6.24) se
puede obtener un grafo dirigido ac´ıclico que contiene las mismas relaciones
de independencia que el grafo no dirigido original. Por tanto, mediante la
asignaci´ on de valores a nodos auxiliares se puede obtener el mismo modelo
probabil´ıstico representado por el grafo no dirigido.
FIGURA 6.24. Ilustraci´on de c´ omo los grafos dirigidos puden completarse con
nodos auxiliares para representar los mismos modelos de dependencia que pueden
ser representados por grafos no dirigidos.
De la discusi´on anterior puede concluirse que las redes Bayesianas propor-
cionan un metodolog´ıa intuitiva, sencilla y general para definir modelos
probabil´ısticos para sistemas expertos.
Ejercicios
6.1 Comprobar que el modelo de dependencia M sobre ¦X, Y, Z¦ dado en
el Ejemplo 6.2 no posee ning´ un mapa perfecto dirigido. Consid´erense
las siguientes etapas:
• Construir las 18 relaciones de independencia condicional distin-
tas con tres variables.
• Construir todos los grafos dirigidos ac´ıclicos con tres variables
siguiendo los pasos del Ejemplo 6.1 para el caso de grafos no
dirigidos.
X
5
X
3
X
2
X
1
X
4
6.6 Expresividad de los Modelos Gr´aficos 273
• Mostrar que cualquiera de los grafos obtenidos contiene alguna
relaci´on de independencia que no se verifica en M o viceversa.
Utilizando todos los posibles grafos dirigidos ac´ıclicos de tres varia-
bles, obtener todos los modelos de dependencia con tres variables que
poseen un mapa perfecto dirigido.
6.2 Consid´erese el conjunto de cuatro variables ¦X
1
, X
2
, X
3
, X
4
¦ y el
siguiente grafoide:
¦I(X
3
, X
1
[φ), I(X
2
, X
3
[X
1
), I(X
2
, X
3
[φ), I(X
2
, X
3
[X
1
X
4
),
I(X
2
, X
4
[X
1
), I(X
2
, X
4
[X
1
X
3
), I(X
3
, X
2
[X
1
), I(X
3
, X
2
[X
1
X
4
),
I(X
4
, X
2
[X
1
), I(X
4
, X
2
[X
1
X
3
), I(X
3
, X
1
X
2
[φ), I(X
3
, X
1
[X
2
),
I(X
3
, X
2
[φ), I(X
1
X
2
, X
3
[φ), I(X
1
, X
3
[X
2
), I(X
3
X
4
, X
2
[X
1
)¦.
Obtener el I-mapa minimal no dirigido utilizando el Teorema 6.3.
6.3 Probar que la funci´ on de probabilidad dada en el Ejemplo 6.4 no
cumple la propiedad de uni´ on fuerte.
6.4 Escribir un programa de ordenador similar al de la Figura 6.4 que
calcule un I-mapa minimal no dirigido para la funci´ on de probabilidad
p(x) = p(x
1
)p(x
2
[x
1
)p(x
3
[x
2
, x
1
)p(x
4
[x
1
)p(x
5
[x
3
, x
4
). (6.46)
6.5 Consid´erese la funci´on de probabilidad en (6.46) y el grafo dado en
la Figura 6.25:
(a) Obtener los conglomerados del grafo.
(b) Factorizar la funci´ on de probabilidad conjunta de las variables.
(c) ¿Es el grafo un I-mapa minimal no dirigido de (6.46)?
(d) ¿Es descomponible el modelo probabil´ıstico definido por (6.46)?
FIGURA 6.25. Grafo no dirigido con cinco nodos.
6.6 Construir la factorizaci´ on de la funci´ on de probabilidad sugerida por
cada uno de los grafos no dirigidos mostrados en la Figura 6.1.
W
Y X
Z
274 6. Modelos Definidos Gr´aficamente
6.7 Construir la factorizaci´ on de la funci´ on de probabilidad sugerida por
cada uno de los grafos no dirigidos mostrados en la Figura 6.3.
6.8 Comprobar que el grafo dirigido mostrado en la Figura 6.2 es un
mapa perfecto de M en el Ejemplo 6.1.
6.9 ¿Es el grafo de la Figura 6.26 un mapa perfecto de la funci´ on de
probabilidad
p(x, y, z, u) = p
1
(x)p
2
(y)p
3
(z[x, y)p
4
(w[y, z)?
Consid´erense los casos siguientes:
(a) p
1
(x) es Binomial(1, 0.3) y p
2
(y) es Binomial(1, 0.7).
(b) p
3
(z[x, y) es Binomial(1, (x + y)/2) y p
4
(w[z, y) es Binomial(1,
(y +z)/2).
FIGURA 6.26. Grafo dirigido con cuatro nodos.
6.10 Dado el conjunto de variables (X
1
, X
2
, X
3
, X
4
, X
5
) normalmente dis-
tribuidas con vector de medias y matriz de covarianzas
µ =

¸
¸
¸
µ
1
µ
2
µ
3
µ
4
¸

y Σ =

¸
¸
¸
¸
¸
1 0.3 0 0.4 0
0.3 1 0 0.2 0
0 0 1 0 0.1
0.4 0.2 0 1 0
0 0 0.1 0 1
¸

,
utilizar el Teorema 6.10 para encontrar el grafo dirigido ac´ıclico aso-
ciado a
(a) la ordenaci´ on (X
1
, X
2
, X
3
, X
4
, X
5
).
(b) la ordenaci´ on (X
5
, X
4
, X
1
, X
3
, X
2
).
6.11 Consid´erese el conjunto de variables (X
1
, X
2
, X
3
, X
4
) normalmente
distribuidas con vector de medias y matriz de covarianzas
µ =

¸
¸
¸
µ
1
µ
2
µ
3
µ
4
¸

y Σ =

¸
¸
¸
1 1/2 1/8 1/4
1/2 1 1/4 1/2
1/8 1/4 1 1/4
1/4 1/2 1/4 1
¸

.
(b)
X
2
X
4
X
3
X
1
X
1
X
2
X
4
X
3
(a)
X Z W Y
6.6 Expresividad de los Modelos Gr´aficos 275
Utilizar el Algoritmo 6.4 para obtener un I-mapa utilizando dos orde-
naciones distintas, (X
1
, X
2
, X
3
, X
4
) y (X
4
, X
3
, X
2
, X
1
). Comprobar
si los grafos de la Figura 6.27 son correctos.
Nota: En la Tabla 6.12 se muestran las medias y varianzas condi-
cionadas de las variables X
i

i
que aparecen en el proceso de cons-
trucci´ on del I-mapa.
FIGURA 6.27. Grafos asociados con dos ordenaciones distintas de los nodos:
(X
1
, X
2
, X
3
, X
4
) (a) y (X
4
, X
3
, X
2
, X
1
) (b).
6.12 Considerando la situaci´ on dada en el Ejemplo 6.12, demostrar:
(a) El modelo M cumple las siete propiedades requeridas por el
Teorema 6.8.
(b) Las relaciones de independencia de M se pueden obtener del
grafo D mostrado en la Figura 6.28 utilizando el criterio de
D-separaci´on.
(c) D cumple I(¦X, Z¦, Y [W) y I(X, ¦W, Y ¦[Z), pero M no. Por
tanto D no es un mapa perfecto de M.
FIGURA 6.28. Grafo dirigido que incluye todas las relaciones de independencia
en (6.29), pero que posee algunas independencias no contenidas en M.
6.13 Construir la factorizaci´ on de la funci´ on de probabilidad sugerida por
cada uno de los grafos dirigidos mostrados en la Figura 6.13.
6.14 Dado el conjunto de variables ¦X, Y, Z, W¦ y el modelo de dependen-
cia
M = ¦I(Y, X[φ), I(Z, Y [X), I(W, X[¦Y, Z¦)¦,
276 6. Modelos Definidos Gr´aficamente
X
i
π
i
Media de X
i

i
Varianza de X
i

i
.
X
1
¦x
2
¦ x
2
/2 3/4
X
1
¦x
3
¦ x
3
/8 63/64
X
1
¦x
4
¦ x
4
/4 15/16
X
1
¦x
2
, x
3
¦ x
2
/2 3/4
X
1
¦x
2
, x
4
¦ x
2
/2 3/4
X
1
¦x
3
, x
4
¦ (2x
3
+ 7x
4
)/30 14/15
X
1
¦x
2
, x
3
, x
4
¦ x
2
/2 3/4
X
2
¦x
3
¦ x
3
/4 15/16
X
2
¦x
4
¦ x
4
/2 3/4
X
2
¦x
3
, x
4
¦ (2x
3
+ 7x
4
)/15 11/15
X
3
¦x
4
¦ x
4
/4 15/16
X
4
¦x
3
¦ x
3
/4 15/16
X
4
¦x
2
¦ x
2
/2 3/4
X
4
¦x
1
¦ x
1
/4 15/16
X
4
¦x
3
, x
2
¦ (7x
2
+ 2x
3
)/15 11/15
X
4
¦x
3
, x
1
¦ 2(x
1
+x
3
)/9 3/4
X
4
¦x
2
, x
1
¦ x
2
/2 3/4
X
4
¦x
3
, x
2
, x
1
¦ (7x
2
+ 2x
3
)/15 11/15
X
3
¦x
2
¦ x
2
/4 15/16
X
3
¦x
1
¦ x
1
/8 63/64
X
3
¦x
2
, x
1
¦ x
2
/2 3/4
X
2
¦x
1
¦ x
1
/2 3/4
TABLA 6.12. Medias y varianzas condicionadas de las variables normales X
i

i
en el ejercicio anterior.
elegir una ordenaci´ on de las variables y obtener la lista causal gene-
rada por M.
6.15 Dado el conjunto de variables ¦X
1
, X
2
, X
3
, X
4
, X
5
¦ y la lista causal
I(I(X
2
, X
1
[φ), I(X
3
, X
1
[X
2
),
I(X
4
, X
1
[¦X
2
, X
3
¦), I(X
5
, X
2
[¦X
1
, X
3
, X
4
¦),
(a) Calcular el conjunto m´ınimo de relaciones de independencia adi-
cionales para que sea un semigrafoide.
(b) ¿Es un grafoide el conjunto obtenido?
6.16 Generar las factorizaciones asociadas a los grafos dirigido y no dirigido
de la Figura 6.23 y comprobar que son las mismas que las utilizadas
en el Ejemplo 6.23.
This is page 277
Printer: Opaque this
Cap´ıtulo 7
Extensiones de los Modelos
Gr´ aficos
7.1 Introducci´ on
En el Cap´ıtulo 6 se han introducido los modelos gr´ aficos de dependencia,
definidos por medio de grafos dirigidos y no dirigidos, y se ha visto c´ omo
estos modelos permiten definir de forma sencilla la estructura cualitativa de
un modelo probabil´ıstico. La principal deficiencia de estos modelos es que
no todo modelo probal´ıstico se puede definir de forma perfecta mediante un
grafo. Por tanto, los modelos gr´ aficos han de entenderse, en general, como
mapas de independencia (I-mapas) de los modelos que se desean represen-
tar. Esto significa que todas las relaciones de independencia condicional
verificadas por el grafo ser´ an independencias reales del modelo, aunque al-
gunas de las independencias del modelo podr´ an escapar a la representaci´on
gr´ afica. El siguiente ejemplo ilustra esta deficiencia de los modelos gr´ aficos
mediante un sencillo ejemplo.
Ejemplo 7.1 Modelo de dependencia sin mapa perfecto dirigido.
Consid´erese el conjunto de variables ¦X, Y, Z¦ que est´an relacionadas por
las siguientes relaciones de independencia:
M = ¦I(X, Y [Z), I(Y, X[Z), I(Y, Z[X), I(Z, Y [X)¦. (7.1)
El modelo M est´a formado por dos relaciones de independencia y sus rela-
ciones sim´etricas. Aunque este modelo es muy simple, no existe ning´ un
grafo dirigido que sea un mapa perfecto de M. Por ejemplo, utilizando
el criterio de D-separaci´on (ver Secci´on 5.2.2), se puede ver que el grafo
X
Y Z
(b)
X
Y Z
(a)
I(Y, X | Z)
I(Z, Y | X)
I(X, Y | Z)
I(Y, Z | X)
I(X, Y | Z)
I(Y, Z | X)
I(Y, X | Z)
I(Z, Y | X)
278 7. Extensiones de los Modelos Gr´aficos
dirigido ac´ıclico mostrado en la Figura 7.1(a) implica solamente las dos
primeras relaciones de independencia, mientras que el grafo de la Figura
7.1(b) verifica s´ olo las dos ´ ultimas. Por tanto, ninguno de los grafos es una
representaci´on perfecta del modelo y, por tanto, s´ olo se puede pensar en
ellos como I-mapas del modelo de dependencia M. Por tanto, es imposible
definir un modelo probabil´ıstico que tenga la estructura de dependencia
dada en M utilizando un ´ unico grafo.
FIGURA 7.1. Ejemplo ilustrando el hecho de que el modelo de dependencia dado
en (7.1) no puede ser representado por un ´ unico grafo.
En este cap´ıtulo se introducen algunos m´etodos para extender la capacidad
de representaci´on de los modelos gr´aficos y abarcar una clase mayor de
modelos de dependencia. Estos modelos incluyen:
1. Modelos definidos por un conjunto de grafos (multigrafos).
2. Modelos definidos por una lista de relaciones de independencia.
3. Modelos definidos por una combinaci´ on de grafos y relaciones de
independencia.
4. Modelos definidos por un conjunto de funciones de probabilidad con-
dicionada.
A pesar de que estos modelos ofrecen cuatro alternativas distintas para
construir modelos de dependencia m´ as generales, existen ciertas similitudes
entre ellos. Por ejemplo, utilizando un criterio de separaci´ on gr´ afica ade-
cuado (ver Secci´ on 5.2), se puede obtener la lista de relaciones de indepen-
dencia que se derivan de un grafo dado. Por tanto, un modelo gr´ afico se
puede convertir en un conjunto equivalente de relaciones de independen-
cia, es decir, los modelos anteriores 1 y 3 se pueden reducir al modelo 2.
Por otra parte, se ver´ a que tanto los modelos definidos por multigrafos,
como los definidos por listas de relaciones de independencia, definen una
serie de factorizaciones de la funci´ on de probabilidad por medio de un con-
junto de funciones de probabilidad condicionada. Por tanto, los modelos
7.2 Modelos Definidos por Multigrafos 279
1−3 se pueden reducir al modelo 4, que proporciona las nociones b´ asicas
para entender el resto de los modelos que generalizan las representaciones
gr´ aficas.
En este cap´ıtulo se analizan estos modelos y sus relaciones. En las Sec-
ciones 7.2 y 7.3 se trata el problema de los modelos definidos por multigrafos
y por listas de relaciones de independencia, respectivamente. La Secci´on 7.4
introduce los modelos multifactorizados. En las Secciones 7.5 y 7.6 se mues-
tran dos ejemplos concretos de estos modelos (uno discreto y otro continuo).
Los modelos definidos por un conjunto de funciones de probabilidad condi-
cionada se introducen en la Secci´ on 7.7. Finalmente, las Secciones 7.7.1 y
7.7.2 discuten los problemas de existencia y unicidad que aparecen en estos
modelos.
7.2 Modelos Definidos por Multigrafos
7.2.1 Definici´on y Ejemplo
Dado que un ´ unico grafo no permite representar cualquier modelo de depen-
dencia, los modelos gr´ aficos se pueden generalizar considerando un conjunto
de grafos, en lugar de un ´ unico grafo. Los modelos restultantes se denomi-
nan modelos definidos por multigrafos. Por ejemplo, Geiger (1987) analiz´ o
el problema de representar un modelo de dependencia mediante un con-
junto de grafos dirigidos ac´ıclicos. De forma similar, Paz (1987) y Shachter
(1990b) analizaron las propiedades de las representaciones basadas en un
conjunto de grafos no dirigidos. Aunque estos modelos permiten definir una
clase m´as amplia de modelos de dependencia que los modelos basados en un
´ unico grafo, Verma (1987) demostr´ o que puede ser necesario un n´ umero ex-
ponencial de grafos para representar un modelo de dependencia arbitrario
de forma perfecta. Por tanto, desde un punto de vista pr´ actico, los modelos
basados en multigrafos s´ olo pueden ser utilizados para extender la capaci-
dad de representaci´ on de los modelos gr´aficos simples. Por tanto, incluso
utilizando un conjunto de grafos, alguna independencia del modelo puede
escapar a la representaci´on gr´ afica. En consecuencia, los multigrafos ser´ an,
en general, I-mapas mejorados del modelo de dependencia dado. Obs´ervese
que el t´ermino multigrafo denota el conjunto (la uni´ on) de las relaciones
de independencia implicadas por un conjunto de grafos. Por tanto, los mo-
delos definidos por multigrafos son, en efecto, equivalentes a los modelos
definidos por una lista de relaciones de independencia. Estos modelos se
analizar´ an en detalle en la Secci´ on 7.3.
Esta idea sencilla de combinar varios grafos ofrece una extensi´ on impor-
tante de los modelos gr´aficos basados en un ´ unico grafo.
Definici´on 7.1 Modelos definidos por multigrafos. Consid´erese el
conjunto de variables X = ¦X
1
, . . . , X
n
¦. Un modelo definido por un multi-
280 7. Extensiones de los Modelos Gr´aficos
grafo en X es un conjunto de redes Bayesianas y de Markov compatibles
¦(G

, P

), = 1, . . . , m¦, (7.2)
definidias sobre cada uno de los grafos G

del multigrafo que definen una
serie de factorizaciones P

del correspondiente modelo probabil´ıstico. La
compatibilidad requiere que la funci´ on de probabilidad conjunta definida
por todas las redes en (7.2) sea id´entica, es decir,
p(x) =
n
¸
i=1
p

(x

i
[s

i
), = 1, . . . , m. (7.3)
El conjunto de redes Bayesianas y de Markov en (7.2) define la estructura
de dependencia del modelo (dada por el multigrafo ¦G
1
, . . . , G
m
¦) y el
modelo probabil´ıstico resultante (dado por los conjuntos de factorizacio-
nes). El modelo probabil´ıstico resultante tiene asociada una estructura de
dependencia m´ as general que los modelos simples definidos por cada uno
de los grafos.
Ejemplo 7.2 Modelo de multired Bayesiana. Sean D
1
y D
2
los grafos
dirigidos ac´ıclicos dados en las Figuras 7.1(a) y (b), respectivamente. Cada
uno de estos grafos es un I-mapa dirigido del modelo de dependencia M
dado en (7.1). El multigrafo ¦D
1
, D
2
¦ implica el conjunto de independen-
cias siguiente:
M = ¦I(X, Y [Z), I(Y, X[Z), I(Y, Z[X), I(Z, Y [X)¦, (7.4)
que es el mismo modelo M dado en (7.1). Obs´ervese que D
1
implica las dos
primeras independencias y D
2
implica las dos segundas. Estos dos grafos,
y las correspondientes factorizaciones, definen una multired Bayesiana. En
este caso se tiene m = 2, y (7.2) resulta
¦(D
1
, P
1
), (D
2
, P
2
)¦,
donde
P
1
= ¦p
1
(x[z), p
1
(y[z), p
1
(z)¦,
P
2
= ¦p
2
(x), p
2
(y[x), p
2
(z[x)¦.
Para que el modelo sea compatible, tal y como se muestra en (7.3), las dos
funciones de probabilidad P
1
y P
2
deben ser id´enticas, es decir,
p(x, y, z) = p
1
(x[z)p
1
(y[z)p
1
(z) = p
2
(x)p
2
(y[x)p
2
(z[x), (7.5)
El problema de la consistencia, es decir, hallar las condiciones para que se
cumpla (7.3), se analiza en una secci´on posterior utilizando el concepto de
modelo multifactorizado.
7.2 Modelos Definidos por Multigrafos 281
A continuaci´ on se analizan los siguientes problemas relacionados con los
modelos definidos por multigrafos:
• Problema 7.1: ¿C´omo se interpretan gr´ aficamente las independen-
cias del modelo?
• Problema 7.2: ¿Se puede reducir el n´ umero de grafos que componen
el multigrafo sin alterar el modelo de dependencia que define?
• Problema 7.3: ¿C´omo se puede obtener el modelo probabil´ıstico
asociado al modelo de dependencia?
Estos problemas son tratados en las secciones siguientes.
7.2.2 Interpretaci´ on de Independencias en un Multigrafo
El primer problema relacionado con los modelos definidos por multigrafos
es la interpretaci´ on gr´ afica de sus independencias. Las redes Bayesianas y
de Markov son I-mapas de un cierto modelo de dependencia asociado al
modelo probabil´ıstico correspondiente. Entonces, todas las independencias
condicionales contenidas en el grafo tambi´en son independencias del modelo
correspondiente. Por tanto, ser´ a cierta en un multigrafo una relaci´ on de
independencia cualquiera si es cierta en alguno de los grafos que componen
el multigrafo; en caso contrario ser´ a falsa. Por tanto, el criterio gr´ afico
de separaci´on para multigrafos consiste en la aplicaci´ on del criterio de U-
separaci´on en los grafos no dirigidos que compongan el multigrafo y el
criterio de D-separaci´on en los dirigidos.
7.2.3 Reducci´on del Conjunto de Grafos
El segundo problema de estos modelos es el de la redundancia en un multi-
grafo. En algunos casos, todas las independencias implicadas por un grafo
del modelo pueden ser obtenidas a partir de los dem´ as grafos. Por ejem-
plo, Shachter (1990b) introdujo algunas transformaciones gr´ aficas que per-
miten simplificar la estructura de los grafos eliminando independencias re-
dundantes. En algunos casos, el conjunto de grafos puede ser reducido a
un conjunto menor que es una representaci´ on m´ as simple y eficiente del
modelo.
Definici´on 7.2 Grafos redundantes. Dados dos grafos G
1
y G
2
, se dice
que G
1
es redundante dado G
2
si el conjunto de relaciones de independencia
contenidas en G
1
est´a contenido en G
2
.
Como puede verse en el teorema siguiente, el problema de la redundancia
en grafos no dirigidos es f´ acil de resolver.
X
2
X
3
X
4
X
1
X
5
(a) (b)
X
2
X
3
X
4
X
1
X
5
282 7. Extensiones de los Modelos Gr´aficos
Teorema 7.1 Redundancia en multigrafos no dirigidos. Dados dos
grafos no dirigidos G
1
= (X, L
1
) y G
2
= (X, L
2
) con el mismo conjunto de
variables X, entonces G
1
es redundante dado G
2
si L
1
⊂ L
2
.
Ejemplo 7.3 Redundancia en multigrafos no dirigidos. Sean G
1
y G
2
los grafos no dirigidos mostrados en las Figuras 7.2(a) y (b), res-
pectivamente. Se puede comprobar f´ acilmente que el grafo G
1
es redun-
dante dado G
2
ya que L
1
= ¦L
1 2
, L
1 3
, L
3 4
, L
3 5
¦ es un subconjunto de
L
2
= ¦L
1 2
, L
1 3
, L
3 4
, L
3 5
, L
2 4
¦. Por tanto, el multigrafo formado por los
dos grafos define el mismo modelo de dependencia que el modelo gr´ afico
formado por G
1
.
FIGURA 7.2. Dos grafos no dirigidos donde (b) es redundante dado (a).
El problema de la redundancia en grafos dirigidos no es trivial. El ejemplo
siguiente ilustra este hecho.
Ejemplo 7.4 Reduciendo un conjunto de grafos dirigidos. Con-
sid´erese el multigrafo formado por los tres grafos dirigidos D
1
, D
2
y D
3
dados en las Figuras 7.3(a)−(c), respectivamente. En este caso, todas las
independencias que implica el grafo D
2
pueden ser obtenidas de D
1
. Este
hecho puede comprobarse de la forma siguiente. Si se incluye la arista L
24
en D
1
, entonces cualquier independencia derivada del nuevo grafo tambi´en
podr´ a ser derivada del grafo original (la inclusi´ on de aristas no incluye
nuevas independencias). Por otra parte, se puede invertir la direcci´ on de
las aristas L
13
y L
35
simult´ aneamente sin modificar el modelo de depen-
dencia asociado al grafo. Por tanto, si en D
1
se a˜ nade la arista L
24
y se
invierte la direcci´ on de L
13
y L
35
, se obtiene el grafo D
2
. As´ı, todas las
independencias del grafo D
2
est´an contenidas en D
1
y, por tanto, D
2
es re-
dundante dado D
1
, es decir, el modelo definido por el multigrafo ¦D
1
, D
2
¦
es equivalente al modelo definido ´ unicamente por D
1
.
Por otra parte, D
1
y D
3
no son redundantes entre s´ı, pues D
1
contiene
la independencia I(X
2
, X
4
[X
1
), que no es verificada por D
3
, y D
3
implica
I(X
1
, X
2
[X
3
), que no puede obtenerse de D
1
.
(c)
X
2
X
3
X
4
X
1
X
5
(a) (b)
X
2
X
3
X
4
X
1
X
5
X
2
X
3
X
4
X
1
X
5
7.2 Modelos Definidos por Multigrafos 283
FIGURA 7.3. Tres grafos dirigidos ac´ıclicos que definen un multigrafo.
El teorema siguiente muestra las condiciones para que dos grafos dirigidos
sean redundantes.
Teorema 7.2 Redundancia en multigrafos dirigidos. Sean D
1
y D
2
dos grafos dirigidos ac´ıclicos sobre el mismo conjunto de variables X, y
sean G
1
y G
2
los grafos no dirigidos asociados respectivos. Entonces, D
2
es
redundante dado D
1
si (a) G
2
est´a contenido en G
1
, (b) cada v-estructura
de D
1
est´a tambi´en contenida en D
2
, y (c) cada v-estructura (X
i
, X
j
, X
k
)
de D
2
est´a tambi´en contenida en D
1
siempre que G
1
contenga el camino
X
i
−X
j
−X
k
.
El ejemplo siguiente ilustra este teorema.
Ejemplo 7.5 Redundancia en multigrafos dirigidos. En el Ejem-
plo 7.4 se vio mediante una serie de transformaciones topol´ ogicas de los
grafos que D
2
es redundante dado D
1
. Esta conclusi´ on puede obtenerse
directamente aplicando el Teorema 7.2. En la Figura 7.3 puede verse que
cada arista del grafo G
1
(el grafo no dirigido asociado a D
1
) tambi´en est´a
contenida en G
2
(el grafo no dirigido asociado a D
2
). Por tanto, G
2
es re-
dundante dado G
1
, por lo que se cumple la primera condici´ on del Teorema
7.2. Dado que D
1
no tiene v-estructuras, la segunda condici´ on tambi´en se
cumple. Finalmente, D
2
contiene la v-estructura (X
2
, X
4
, X
3
), pero G
1
no
contiene el camino X
2
−X
4
−X
3
. Por tanto, D
2
es redundante dado D
1
.
284 7. Extensiones de los Modelos Gr´aficos
7.2.4 Compatibilidad de Multigrafos.
El Problema 7.3 se refiere a la existencia de una funci´ on de probabilidad
p(x) que cumpla (7.3). Dado que cada grafo proporciona una factorizaci´ on
distinta de p(x), el problema de compatibilidad se reduce a encontrar el
modelo probabil´ıstico dado por un conjunto de factorizaciones.
Ejemplo 7.6 Compatibilidad de multigrafos. Consid´erese de nuevo el
problema introducido en el Ejemplo 7.1 con los dos grafos D
1
y D
2
dados
en las Figuras 7.1(a) y (b), respectivamente. La red Bayesiana asociada a
D
1
implica la factorizaci´ on:
p(x, y, z) = p
1
(z)p
1
(x[z)p
1
(y[z), (7.6)
mientras que la correspondinete a D
2
implica
p(x, y, z) = p
2
(x)p
2
(y[x)p
2
(z[x), (7.7)
donde los super´ındices denotan las distintas factorizaciones. Las redes Baye-
sianas ¦(D
1
, P
1
), (D
2
, P
2
)¦ definen una multired Bayesiana. Obs´ervese que
al combinar las independencias contenidas en ambos grafos en un mismo
modelo probabil´ıstico, ´estas pueden implicar en el modelo alguna otra in-
dependencia adicional inducida por las propiedades de la independencia
condicional (ver Cap´ıtulo 5). Por tanto, un multigrafo no ser´ a, en gene-
ral, un mapa perfecto del modelo probabil´ıstico resultante. Por ejemplo, el
multigrafo definido por D
1
y D
2
define el modelo probabil´ıstico
M = ¦I(X, Y [Z), I(Y, X[Z), I(Y, Z[X), I(Z, Y [X)¦. (7.8)
Sin embargo, aplicando la propiedad de intersecci´ on (que satisfacen los mo-
delos probabil´ısticos no extremos), se obtiene la independencia adicional
I(Y, ¦X, Z¦[φ) que, aplicando la propiedad de descomposici´ on, permite
obtener a su vez I(X, Y [φ) e I(Y, Z[φ). Por tanto, la familia de funciones
de probabilidad compatibles con el multigrafo formado por los dos grafos
dados en la Figura 7.1, contiene las independencias siguientes:
M
1
= ¦I(X, Y [Z), I(Y, Z[X), I(Y, ¦X, Z¦[φ), I(X, Y [φ), I(Y, Z[φ)¦, (7.9)
as´ı como las correspondientes independencias sim´etricas. Comparando M
en (7.8) y M
1
en (7.9), puede verse que el multigrafo original es solamente
un I-mapa del modelo probabil´ıstico.
Las nuevas independencias de M
1
nos permiten reescribir las factoriza-
ciones en (7.6) y (7.7) como
p(x, y, z) = p
1
(z)p
1
(x[z)p
1
(y[z) = p
1
(z)p
1
(x[z)p
1
(y) (7.10)
y
p(x, y, z) = p
2
(x)p
2
(y[x)p
2
(z[x) = p
2
(x)p
2
(y)p
2
(z[x), (7.11)
X
Y Z
(a)
X
Y Z
(b)
7.2 Modelos Definidos por Multigrafos 285
que son dos factorizaciones equivalentes de la misma familia de funciones
de probabilidad. Estas factorizaciones est´ an asociadas a los grafos dados
en la Figura 7.4, que son dos mapas perfectos equivalentes del modelo
de dependencia M
1
en (7.9), pero no son mapas perfectos del multigrafo
original en (7.8). Por tanto, el modelo probabil´ıstico compatible con ambas
factorizaciones est´a determinado por (7.10) ´ o (7.11). Obs´ervese que los dos
grafos de la Figura 7.4 han sido obtenidos eliminando las aristas Z → Y
y X → Y de los grafos de la Figura 7.1. Por tanto, existe un grafo que
contiene todas las independencias del multigrafo y que permite obtener
directamente una factorizaci´ on del modelo probabil´ıstico compatible con
ambos modelos.
En este caso el problema de compatibilidad ha sido f´ acil de resolver.
Sin embargo, en general, este problema es complicado y requiere t´ecnicas
generales para su tratamiento. En una secci´ on posterior se analizar´ a este
problema en el marco de los modelos multifactorizados.
FIGURA 7.4. Dos mapas perfectos del modelo de dependencia en (7.9).
Ejemplo 7.7 Compatibilidad de multigrafos. Consid´erese el multi-
grafo dado por los grafos D
1
y D
2
mostrados en las Figuras 7.5(a) y (b),
respectivamente. La red Bayesiana definida por D
1
implica:
p(x
1
, x
2
, x
3
, x
4
) = p
1
(x
1
)p
1
(x
2
[x
1
)p
1
(x
3
[x
1
)p
1
(x
4
[x
2
, x
3
), (7.12)
mientras que la definida por D
2
implica
p(x
1
, x
2
, x
3
, x
4
) = p
2
(x
1
)p
2
(x
2
[x
1
)p
2
(x
4
[x
2
)p
2
(x
3
[x
1
, x
4
). (7.13)
Obs´ervese que las funciones de probabilidad condicionada en (7.12) y (7.13)
est´an definidas siguiendo las numeraciones ancestrales de las variables im-
plicadas por los grafos correspondientes de la Figura 7.5. A diferencia de lo
ocurrido en el ejemplo 7.6, el problema de la compatiblidad de la multired
Bayesiana ¦(D
1
, P
1
), (D
2
, P
2
)¦ no es un problema trivial y ser´ a resuelto
m´as adelante utilizando las t´ecnicas de los modelos multifactorizados.
Los modelos definidos por multigrafos son un tipo especial de la clase de
modelos m´as general conocida como modelos multifactorizados que son
analizados en la Secci´on 7.4.
X
2
X
3
X
4
X
1
X
2
X
3
X
4
X
1
(a) (b)
286 7. Extensiones de los Modelos Gr´aficos
FIGURA 7.5. Dos grafos dirigidos ac´ıclicos que definen un multigrafo.
7.3 Modelos Definidos por Listas de
Independencias
Como ya se ha mencionado en el Cap´ıtulo 5, las listas de independencias
constituyen una alternativa a los modelos gr´ aficos para la construcci´ on de
modelos probabil´ısticos. Esta lista puede venir dada directamente por un
experto en el tema a analizar, y representa las relaciones existentes entre
las variables del modelo. En esta secci´on se analiza la relaci´on entre una
relaci´on de independencia en un modelo probabil´ıstico y una factoriza-
ci´on de la funci´ on de probabilidad correspondiente. Esta relaci´ on puede
resumirse del modo siguiente:
• Siempre se puede encontrar una factorizaci´ on que contiene una relaci´ on
de independencia dada.
• Una factorizaci´ on puede implicar una o m´ as relaciones de indepen-
dencia.
Ejemplo 7.8 De una relaci´on de independencia a una factoriza-
ci´on. Consid´erese el conjunto de variables ¦X
1
, X
2
, X
3
, X
4
¦ y sup´ ongase
que cumplen la relaci´ on de independencia I(X
1
, X
2
[X
3
). La funci´ on de
probabilidad correspondiente puede escribirse como
p(x
1
, x
2
, x
3
, x
4
) = p(x
2
, x
3
)p(x
1
[x
2
, x
3
)p(x
4
[x
1
, x
2
, x
3
)
= p(x
2
, x
3
)p(x
1
[x
3
)p(x
4
[x
1
, x
2
, x
3
). (7.14)
Donde la primera igualdad se ha obtenido considerando la partici´ on de las
variables ¦¦X
2
, X
3
¦, X
1
, X
4
¦ y aplicando la regla de la cadena a la funci´ on
de probabilidad p(x), y la segunda igualdad se ha obtenido utilizando
la relaci´ on de independencia I(X
1
, X
2
[X
3
), que implica p(x
1
[x
2
, x
3
) =
p(x
1
[x
3
). Por tanto, cualquier funci´ on de probabilidad que factorice seg´ un
(7.14) contiene, al menos, la relaci´ on de independencia I(X
1
, X
2
[X
3
). Ob-
s´ervese que la funci´ on de probabilidad podr´ıa contener tambi´en otras rela-
ciones de independencia derivadas de los axiomas de la probabilidad (por
7.3 Modelos Definidos por Listas de Independencias 287
ejemplo, la relaci´ on de independencia sim´etrica I(X
2
, X
1
[X
3
)). Por tanto,
la lista de independencias formada por una ´ unica relaci´ on de independencia
es un I-mapa del modelo probabil´ıstico resultante.
Existen listas de independencia que contienen varias relaciones de inde-
pendencia y que pueden definir una ´ unica factorizaci´ on de forma colec-
tiva. Un ejemplo de ello lo constituyen las listas causales. Dado el con-
junto de variables X = ¦X
1
, . . . , X
n
¦, una lista causal definida sobre X
es un conjunto de relaciones de independencia de la forma ¦I(Y
1
, B
1
`
S
1
[S
1
), . . . , I(Y
n
, B
n
` S
n
[S
n
)¦, donde (Y
1
, . . . , Y
n
) es una permutaci´ on de
¦X
1
, . . . , X
n
¦ y S
i
⊂ B
i
= ¦Y
1
, . . . , Y
i−1
¦. Esta lista define la siguiente
factorizaci´ on de la funci´ on de probabilidad
p(y
1
, . . . , y
n
) =
n
¸
i=1
p(y
i
[s
i
), (7.15)
que incluye todas las relaciones de independencia de la lista causal.
Ejemplo 7.9 De una factorizaci´on a una lista de relaciones de
independencia. Consid´erese el conjunto de variables ¦X
1
, X
2
, X
3
, X
4
¦.
Aplicando la regla de la cadena, cualquier funci´ on de probabilidad de las
variables puede expresarse como
p(x
1
, x
2
, x
3
, x
4
) = p(x
1
)p(x
2
[x
1
)p(x
3
[x
1
, x
2
)p(x
4
[x
1
, x
2
, x
3
). (7.16)
Esta factorizaci´ on no implica ninguna relaci´ on de independencia pues es
una factorizaci´ on can´ onica est´andar (ver Secci´ on 5.5) y, por tanto, no
contiene ninguna independencia entre las variables.
Por otra parte, consid´erese la factorizaci´on
p(x
1
, x
2
, x
3
, x
4
) = p(x
1
)p(x
2
[x
1
)p(x
3
[x
1
)p(x
4
[x
2
, x
3
). (7.17)
Las factorizaciones (7.16) y (7.17) defienen la misma ordenaci´ on ancestral
de las variables (X
1
, X
2
, X
3
, X
4
). Por tanto, se pueden obtener las rela-
ciones de independencia correspondientes a este segundo modelo compa-
rando las funciones de probabilidad condicionada con aquellas contenidas
en la factorizaci´ on general (7.16). Las dos primeras funciones de proba-
bilidad condicionada, p(x
1
) y p(x
2
[x
1
), no implican ninguna relaci´ on de
independencia pues se hayan contenidas en las dos factorizaciones. Para la
tercera funci´ on se tiene p(x
3
[x
1
, x
2
) = p(x
3
[x
1
), que implica la relaci´ on de
independencia I(X
2
, X
3
[X
1
). Finalmente, p(x
4
[x
1
, x
2
, x
3
) = p(x
4
[x
2
, x
3
),
que implica I(X
1
, X
4
[X
2
, X
3
). Por tanto, la factorizaci´ on (7.17) implica la
lista de relaciones de independencia:
M
1
= ¦I(X
2
, X
3
[X
1
), I(X
1
, X
4
[X
2
, X
3
)¦. (7.18)
Obs´ervese que a partir de esta lista pueden obtenerse otras relaciones de
independencia aplicando las propiedades de la independencia condicional
(utilizando, por ejemplo, las propiedades de semigrafoide).
288 7. Extensiones de los Modelos Gr´aficos
Como ejemplo final, sup´ ongase que un modelo probabil´ıstico est´a definido
por medio de la factorizaci´ on
p(x
1
, x
2
, x
3
, x
4
) = p(x
1
)p(x
2
[x
1
)p(x
4
[x
2
)p(x
3
[x
1
, x
4
), (7.19)
que implica la ordenaci´ on ancestral de las variables (X
1
, X
2
, X
4
, X
3
). Con-
siderando esta ordenaci´ on y aplicando la regla de la cadena, se tiene
p(x
1
, x
2
, x
3
, x
4
) = p(x
1
)p(x
2
[x
1
)p(x
4
[x
1
, x
2
)p(x
3
[x
1
, x
2
, x
4
). (7.20)
Comparando (7.19) y (7.20) se obtienen las relaciones de independencia
siguientes:
p(x
1
) = p(x
1
) ⇔ sin relaciones de independencia,
p(x
2
[x
1
) = p(x
2
[x
1
) ⇔ sin relaciones de independencia,
p(x
4
[x
1
, x
2
) = p(x
4
[x
2
) ⇔ I(X
1
, X
4
[X
2
),
p(x
3
[x
1
, x
2
, x
4
) = p(x
3
[x
1
, x
4
) ⇔ I(X
2
, X
3
[¦X
1
, X
4
¦).
Por tanto, la factorizaci´ on (7.19) implica la lista siguiente de relaciones de
independencia:
M
2
= ¦I(X
1
, X
4
[X
2
), I(X
2
, X
3
[¦X
1
, X
4
¦)¦. (7.21)
Obs´ervese que esta lista puede completarse utilizando las propiedades de
la independencia condicional.
Dado un conjunto de variables ¦X
1
, . . . , X
n
¦, una factorizaci´ on obtenida
aplicando la regla de la cadena can´ onica a una permutaci´ on (Y
1
, . . . , Y
n
)
de las variables ¦X
1
, . . . , X
n
¦ (ver Definition 5.13)
p(y
1
, . . . , y
n
) =
n
¸
i=1
p(y
i
[s
i
), (7.22)
donde S
i
⊂ B
i
=¦Y
1
, . . . ,Y
i−1
¦, define la lista causal:
¦I(Y
1
, B
1
` S
1
[S
1
), . . . , I(Y
n
, B
n
` S
n
[S
n
)¦. (7.23)
Los ejemplos anteriores muestran que toda relaci´on de independencia im-
plica una factorizaci´ on de la funci´ on de probabilidad. Por tanto, dada una
lista de relaciones de independencia, se puede obtener un conjunto equiva-
lente de factorizaciones. En ocasiones este conjunto puede ser reducido a
una ´ unica factorizaci´ on equivalente. Los siguientes ejemplos ilustran este
hecho.
Ejemplo 7.10 Conjunto reducible de factorizaciones. La lista de
relaciones de independencia
M
1
= ¦I(X
2
, X
3
[X
1
), I(X
1
, X
4
[¦X
2
, X
3
¦)¦ (7.24)
7.3 Modelos Definidos por Listas de Independencias 289
es equivalente al conjunto de factorizaciones
p(x
1
, x
2
, x
3
, x
4
) = p
1
(x
1
, x
2
)p
1
(x
3
[x
1
)p
1
(x
4
[x
1
, x
2
, x
3
)
y
p(x
1
, x
2
, x
3
, x
4
) = p
2
(x
1
, x
2
, x
3
)p
2
(x
4
[x
2
, x
3
),
una factorizaci´ on para cada una de las relaciones de independencia de M
1
,
donde los super´ındices representan el n´ umero de la relaci´ on de independen-
cia asociada a cada factorizaci´on. Sin embargo, este conjunto es equivalente
a una ´ unica factorizaci´ on
p(x
1
, x
2
, x
3
, x
4
) = p(x
1
, x
2
)p(x
3
[x
1
)p(x
4
[x
2
, x
3
), (7.25)
ya que
p(x
1
, x
2
, x
3
, x
4
) = p(x
1
, x
2
)p(x
3
[x
1
, x
2
)p(x
4
[x
1
, x
2
, x
3
)
= p(x
1
, x
2
)p(x
3
[x
1
)p(x
4
[x
2
, x
3
).
La primera de las igualdades se ha obtenido aplicando la regla de la cadena,
y la segunda se ha obtenido aplicando las dos relaciones de independencia
en M
1
.
Ejemplo 7.11 Conjunto irreducible de factorizaciones. Consid´e-
rense las listas de relaciones de independencia M
1
y M
2
, donde M
1
est´a
definida en (7.24) y
M
2
= ¦I(X
1
, X
4
[X
2
), I(X
2
, X
3
[¦X
1
, X
4
¦)¦. (7.26)
En el Ejemplo 7.10 se ha visto que M
1
da lugar a la factorizaci´ on (7.25).
De forma similar, M
2
implica la factorizaci´ on
p(x
1
, x
2
, x
3
, x
4
) = p(x
1
)p(x
2
[x
1
)p(x
4
[x
2
)p(x
3
[x
1
, x
4
). (7.27)
Obs´ervese que las factorizaciones (7.25) y (7.27) coinciden con las factoriza-
ciones (7.12) y (7.13) obtenidas a partir de los grafos D
1
y D
2
mostrados en
las Figuras 7.5(a) y (b), respectivamente. Esta coincidencia ilustra el hecho
de que un modelo de dependencia puede ser descrito de forma indistinta
por un grafo o por una lista de relaciones de independencia.
Sup´ ongase que se desea construir un modelo que contenga las indepen-
dencias de M
1
y M
2
, o equivalentemente, que contenga las factorizacio-
nes (7.25) y (7.27). Estas factorizaciones no pueden ser reducidas a una
´ unica factorizaci´ on, a menos que se consideren ciertas restricciones para los
par´ ametros que las componen. Por tanto, se tiene de nuevo un problema
de compatibilidad que requiere hallar una funci´ on de probabilidad p(x)
definida por un conjunto de factorizaciones.
290 7. Extensiones de los Modelos Gr´aficos
Cuando una lista de relaciones de independencia es equivalente a una ´ unica
factorizaci´ on, los par´ ametros asociados a las funciones de probabilidad con-
dicionada que definen la factorizaci´ on pueden ser definidos de forma inde-
pendiente, es decir, sin restricciones. Este es el caso, por ejemplo, de una
lista causal, que siempre implica una ´ unica factorizaci´ on de la funci´ on de
probabilidad. Sin embargo, cuando las factorizaciones no se pueden reducir
a una ´ unica factorizaci´ on sin imponer restricciones sobre los par´ ametros,
entonces es necesario resolver el mismo problema de compatibilidad que
surge en la definici´ on del modelo probabil´ıstico asociado a un multigrafo.
Es decir, es necesario hallar las restricciones que tienen que satisfacer los
par´ ametros de una factorizaci´ on para que la funci´ on de probabilidad re-
sultante pueda ser factorizada en la forma indicada por las factorizaciones
que componen el modelo. La secci´on siguiente analiza el problema de la
compatibilidad.
7.4 Modelos probabil´ısticos Multifactorizados
En las dos ´ ultimas secciones hemos visto que la definici´on de una funci´ on de
probabilidad mediante multigrafos y listas de relaciones de independencia
se reduce a hallar la funci´ on de probabilidad compatible con un conjunto
dado de factorizaciones. Por tanto, estos dos modelos son casos especiales
de un tipo de modelos m´ as generales conocido como modelos probabil´ısticos
multifactorizados.
Definici´on 7.3 Modelos probabil´ısticos multifactorizados. Un mo-
delo probabil´ıstico multifactorizado sobre un conjunto de variables X =
¦X
1
, . . . , X
n
¦, es un conjunto de factorizaciones compatibles obtenidas apli-
cando la regla de la cadena
P = ¦P

, = 1, . . . , m¦, (7.28)
donde P

= ¦p

(y

1
[s

1
), . . . , p

(y

n
[s

n
)¦ con S

i
⊂ B

i
= ¦Y

1
, . . . , Y

i−1
¦, y
(Y

1
, . . . , Y

n
) es una permutaci´ on de (X
1
, . . . , X
n
). Este conjunto define
una funci´ on de probabilidad p(x) compatible con todas las factorizaciones,
es decir,
p(x) =
n
¸
i=1
p

(y

i
[s

i
), = 1, . . . , m. (7.29)
Por ejemplo, las factorizaciones (7.12) y (7.13) definen un modelo probabi-
l´ıstico multifactorizado. Esta definici´ on plantea el siguiente problema:
• Problema 7.4: ¿Cu´ales son las condiciones que tienen que cumplir
los conjuntos de funciones de probabilidad condicionada P

para
definir la misma funci´ on de probabilidad?
7.5 Modelos Multinomiales Multifactorizados 291
Este problema se conoce por problema de consistencia o problema de
compatibilidad. La Secci´on 7.5 analiza este problema para el caso de varia-
bles multinomiales (discretas), mientras que la Secci´on 7.6 analiza el caso
de variables normales (continuas).
7.5 Modelos Multinomiales Multifactorizados
Antes de analizar el Problema 7.4 para el caso de variables discretas, es
necesario analizar la estructura algebraica que define una factorizaci´ on de
una funci´ on de probabilidad.
7.5.1 Estructura Param´etrica de una Funci´ on de Probabilidad
Consid´erese el conjunto de variables discretas ¦X
1
, . . . , X
n
¦, donde la varia-
ble X
i
puede tomar los valores ¦0, . . . , r
i
¦. Dado que las funciones de proba-
bilidad condicionada p

(y

i
[s

i
), que definen las factorizaciones de la funci´ on
de probabilidad, pueden ser consideradas como familias param´etricas, una
representaci´on apropiada de los par´ ametros del modelo probabil´ıstico aso-
ciado a la factorizaci´ on -´esima viene dada por
θ

ijs
= p(Y

i
= j[S

i
= s), j ∈ ¦0, . . . , r

i
¦, (7.30)
donde s es una realizaci´on de S

i
. Por tanto, el primer sub´ındice de θ

ijs
se refiere al n´ umero del nodo, el segundo sub´ındice se refiere al estado del
nodo y los sub´ındices restantes se refieren a la realizaci´on de S

i
. Dado
que los par´ ametros est´an asociados a probabilidades, han de satisfacer las
igualdades
r

i
¸
j=0
θ

ijs
= 1, = 1, . . . , m,
para cada i y s. Por tanto, uno de los par´ ametros puede escribirse como
uno menos la suma de los restantes. Por ejemplo, θ

ir
i
s
es
θ

ir
i
s
= 1 −
r

i
−1
¸
j=0
θ

ijs
, = 1, . . . , m. (7.31)
El conjunto de par´ ametros θ

ijs
se denota por Θ

.
Ejemplo 7.12 Estructura param´etrica de una funci´on de probabi-
lidad. Consid´erese el modelo probabil´ıstico multifactorizado definido por
las factorizaciones (7.12) y (7.13) asociadas a los grafos dirigidos ac´ıclicos
mostrados en la Figura 7.5 (ver Ejemplo 7.7). Obs´ervese que estas factori-
zaciones coinciden con las dadas en (7.25) y (7.27), obtenidas a partir de las
292 7. Extensiones de los Modelos Gr´aficos
Variable Θ
1
Θ
2
X
1
θ
1
10
= p
1
(¯ x
1
) θ
2
10
= p
2
(¯ x
1
)
X
2
θ
1
200
= p
1
(¯ x
2
[¯ x
1
) θ
2
200
= p
2
(¯ x
2
[¯ x
1
)
θ
1
201
= p
1
(¯ x
2
[x
1
) θ
2
201
= p
2
(¯ x
2
[x
1
)
X
3
θ
1
300
= p
1
(¯ x
3
[¯ x
1
) θ
2
3000
= p
2
(¯ x
3
[¯ x
1
, ¯ x
4
)
θ
1
301
= p
1
(¯ x
3
[x
1
) θ
2
3001
= p
2
(¯ x
3
[¯ x
1
, x
4
)
θ
2
3010
= p
2
(¯ x
3
[x
1
, ¯ x
4
)
θ
2
3011
= p
2
(¯ x
3
[x
1
, x
4
)
X
4
θ
1
4000
= p
1
(¯ x
4
[¯ x
2
, ¯ x
3
) θ
2
400
= p
2
(¯ x
4
[¯ x
2
)
θ
1
4001
= p
1
(¯ x
4
[¯ x
2
, x
3
) θ
2
401
= p
2
(¯ x
4
[x
2
)
θ
1
4010
= p
1
(¯ x
4
[x
2
, ¯ x
3
)
θ
1
4011
= p
1
(¯ x
4
[x
2
, x
3
)
TABLA 7.1. Conjuntos de par´ametros, Θ
1
y Θ
2
, asociados a las dos factorizacio-
nes (7.12) y (7.13), respectivamente.
listas de relaciones de independencia M
1
y M
2
en los Ejemplos 7.10 y 7.11.
Se pueden utilizar dos conjuntos distintos de par´ ametros para representar
el modelo probabil´ıstico asociado a estas factorizaciones. Por ejemplo, si
todas las variables son binarias, entonces cada una de estas factorizacio-
nes tiene nueve par´ ametros libres, como muestra la Tabla 7.1, donde ¯ x
i
y x
i
denotan X
i
= 0 y X
i
= 1, respectivamente. Estos dos conjuntos de
par´ ametros libres son
Θ
1
= ¦θ
1
10
, θ
1
200
, θ
1
201
, θ
1
300
, θ
1
301
, θ
1
4000
, θ
1
4001
, θ
1
4010
, θ
1
4011
¦,
Θ
2
= ¦θ
2
10
, θ
2
200
, θ
2
201
, θ
2
3000
, θ
2
3001
, θ
2
3010
, θ
2
3011
, θ
2
400
, θ
2
401
¦.
Cada factorizaci´ on contiene 18 par´ ametros, pero 9 de ellos est´an rela-
cionados con los otros 9 (mostrados en la Tabla 7.1), mediante la relaci´ on
θ

i0s

i1s
= 1, para = 1, 2 e i = 1, . . . , 4.
La estructura algebraica de las probabilidades marginales y condicionadas
como funciones de los par´ ametros proporciona una informaci´ on muy valiosa
en muchas situaciones (ver Castillo, Guti´errez y Hadi (1995c, 1996c)). Se
comienza analizando la estructura de las probabilidades marginales aso-
ciadas al modelo probabil´ıstico; a continuaci´ on se analiza el caso de las
probabilidades condicionadas. Para simplificar la notaci´ on se considerar´a
7.5 Modelos Multinomiales Multifactorizados 293
la estructura param´etrica de un modelo probabil´ıstico gen´erico definido por
la factorizaci´ on
p(x
1
, . . . , x
n
) =
n
¸
i=1
p(x
i
[s
i
). (7.32)
Teorema 7.3 La probabilidad de cualquier realizaci´ on de las variables
¦x
1
, . . . , x
n
¦ es un monomio en los par´ ametros que definen el modelo pro-
babil´ıstico de grado menor o igual que el n´ umero de variables. Sin embargo,
es un polinomio de primer grado en cada uno de los par´ ametros.
Demostraci´on: Aplicando (7.32) se tiene que la probabilidad de una
realizaci´on (x
1
, . . . , x
n
), es
p(x
1
, . . . , x
n
) =
n
¸
i=1
p(x
i
[s
i
) =
n
¸
i=1
θ
ix
i
s
i
.
Obs´ervese que todos los par´ametros que intervienen en el producto anterior
est´an asociados a variables distintas. Por tanto p(x
1
, . . . , x
n
) es un monomio
de grado menor o igual que el n´ umero de variables. Obs´ervese tambi´en que
p(x
1
, . . . , x
n
) puede resultar un polinomio si s´ olo se considera el conjunto
de par´ ametros libres (ver (7.31)). Para ello s´ olo se necesita reemplazar los
par´ ametros θ
ir
i
s
i
por
θ
ir
i
s
i
= 1 −
r
i
−1
¸
j=0
θ
ijs
i
.
Esta substituci´ on crea tantos monomios nuevos como cardinalidad tenga
la variable X
i
, pero cada uno de los monomios resultantes sigue siendo de
primer grado en cada uno de los par´ ametros.
El corolario siguiente determina la estructura algebraica de las probabili-
dades marginales asociadas a un modelo probabil´ıstico.
Corolario 7.1 La probabilidad marginal de cualquier conjunto de nodos
Y ⊂ X es un polinomio en los par´ ametros que definen el modelo probabi-
l´ıstico de grado menor o igual que el n´ umero de variables. Sin embargo, es
un polinomio de primer grado en cada uno de los par´ ametros.
Demostraci´on: Con objeto de simplificar la notaci´ on, sup´ ongase que
Y = ¦X
1
, . . . , X
r
¦. Entonces p(y) es la suma de las probabilidades de un
conjunto de realizaciones:
p(y) = p(x
1
, . . . , x
r
)
=
¸
x
r+1
,...,x
n
p(x
1
, . . . , x
r
, x
r+1
, . . . , x
n
)
=
¸
x
r+1
,...,x
n
n
¸
i=1
θ
ix
i
s
i
.
294 7. Extensiones de los Modelos Gr´aficos
Por tanto, las probabilidades marginales de cualquier conjunto de nodos
son tambi´en polinomios de grado uno en cada uno de los par´ ametros.
Ejemplo 7.13 Estructura de las probabilidades marginales. Dada
la factorizaci´ on (7.12) con el conjunto asociado de par´ ametros Θ
1
mostrado
en la Tabla 7.1, se puede calcular la probabilidad marginal de un conjunto
de nodos utilizando la definici´ on de probabilidad marginal dada en (3.4).
Por ejemplo, las probabilidades marginales del nodo X
2
son
p(X
2
= 0) =
¸
x
1
,x
3
,x
4
p(x
1
, 0, x
3
, x
4
)
= θ
1
10
θ
1
200

1
201
−θ
1
10
θ
1
201
.
y
p(X
2
= 1) =
¸
x
1
,x
3
,x
4
p(x
1
, 1, x
3
, x
4
)
= 1 −θ
1
10
θ
1
200
−θ
1
201

1
10
θ
1
201
.
Estas expresiones son polinomios de grado dos (que es menor que el n´ umero
de variables) en los par´ ametros mostrados en la Tabla 7.1.
Corolario 7.2 La funci´ on de probabilidad condicionada de un conjunto
de nodos Y , dada la evidencia E = e, es una funci´ on racional de los
par´ ametros. Adem´ as, el polinomio del denominador depende s´ olo de la
evidencia.
Demostraci´on: Se tiene
p(y[e) =
p(y, e)
p(e)
. (7.33)
Aplicando el Corolario 7.1, el numerador y el denominador de la funci´ on
racional son polinomios de primer grado en cada uno de los par´ ametros, ya
que son probabilidades marginales de un conjunto de variables.
Obs´ervese que en la ecuaci´on (7.33) el polinomio del denominador es el
mismo para cuaquier funci´ on de probabilidad p(y[e), dada la evidencia
E = e. Por tanto, en la pr´ actica, ser´a conveniente calcular y almace-
nar ´ unicamente el polinomio del numerador, y obtener el denominador
normalizando las probabilidades obtenidas.
Ejemplo 7.14 Estructura de las probabilidades condicionadas. Con-
sid´erese de nuevo la factorizaci´on (7.12). La probabilidad condicionada de
7.5 Modelos Multinomiales Multifactorizados 295
X
2
dada la evidencia X
3
= 0 se puede obtener como
p(X
2
= 0[X
3
= 0) =
¸
x
1
,x
4
p(x
1
, 0, 0, x
4
)
¸
x
1
,x
2
,x
4
p(x
1
, x
2
, 0, x
4
)
(7.34)
=
θ
10
θ
200
θ
300

201
θ
301
−θ
10
θ
201
θ
301
θ
10
θ
300

301
−θ
10
θ
301
,
y
p(X
2
= 1[X
3
= 0) =
¸
x
1
,x
4
p(x
1
, 1, 0, x
4
)
¸
x
1
,x
2
,x
4
p(x
1
, x
2
, 0, x
4
)
=
θ
10
θ
300
−θ
10
θ
200
θ
300

301
−θ
10
θ
301
−θ
201
θ
301

10
θ
201
θ
301
θ
10
θ
300

301
−θ
10
θ
301
,
que son funciones racionales en los par´ ametros. Obs´ervese que las expre-
siones anteriores han sido obtenidas aplicando directamente las f´ ormulas
de la probabilidad correspondientes (el m´etodo de fuerza bruta). En el
Cap´ıtulo 10 se presentar´ an algunos m´etodos m´as eficientes para calcular es-
tas funciones de probabilidad en forma simb´ olica (propagaci´ on simb´ olica).
7.5.2 El Problema de la Compatibilidad
El an´ alisis de la estructura param´etrica de las probabilidades, introducido
en la secci´on anterior, permite resolver el problema de la compatibilidad
de los modelos multifactorizados, es decir, permite obtener la familia de
funciones de probabilidad compatible con el conjunto de factorizaciones
dado en (7.29). Obs´ervese que siempre existe una soluci´on trivial para este
problema, ya que el modelo de independencia total cumple todas las rela-
ciones de independencia posibles. Sin embargo, se est´ a interesado en obtener
una funci´ on de probabilidad que cumpla las relaciones de independencia
necesarias, pero que incluya el m´ınimo n´ umero posible de independencias
adicionales.
La idea del m´etodo propuesto por Castillo, Guti´errez y Hadi (1996b) es
la de elegir una de las factorizaciones, por ejemplo P
1
, y designarla como la
factorizaci´ on de referencia de la funci´ on de probabilidad. Los par´ ametros
asociados, Θ
1
, tambi´en se denominan par´ ametros de referencia. Una vez
que la factorizaci´ on de referencia ha sido fijada, el problema de la compati-
bilidad puede ser resuelto calculando las restricciones sobre los par´ ametros
de referencia para que la funci´ on de probabilidad pueda ser factorizada
seg´ un el resto de factorizaciones. Por tanto, se imponen secuencialmente a
296 7. Extensiones de los Modelos Gr´aficos
la factorizaci´ on de referencia las restricciones siguientes, dadas por el resto
de las factorizaciones. Para cada P

, con = 2, . . . , m, se tiene
p
1
(y

i
[s

i
) = p
1
(y

i
[b

i
), i = 1, . . . , n, (7.35)
donde B
i
= ¦Y

1
, . . . , Y

i−1
¦ y S

i
⊂ B

i
. Obs´ervese que las ecuaciones dadas
en (7.35) determinan las restricciones necesarias para que se cumplan las
relaciones de independencia I(Y

i
, B

i
` S

i
[S

i
), i = 1, . . . , n, es decir, las
independencias contenidas en la lista causal asociada a la factorizaci´ on P

.
Las igualdades en (7.35) determinan el sistema de ecuaciones que per-
mite resolver el problema de la compatibilidad. Cada una de las funciones
de probabilidad condicionada en (7.35) es un cociente de polinomios (ver
Corolario 7.2). Por tanto, el sistema (7.35) es un sistema polinomial de
ecuaciones que puede ser resuelto de forma simult´anea o secuencial, es decir
hallando directamente el conjunto de soluciones del sistema, o resolviendo
ecuaci´on por ecuaci´ on utilizando las soluciones parciales anteriores para
resolver cada nueva ecuaci´on. Este m´etodo iterativo permite comprobar en
cada una de las etapas si es necesario resolver la ecuaci´on correspondiente,
o si ´esta es redundante, dado que la relaci´ on de independencia asociada
est´a contenida en el modelo definido por las relaciones de independencia
asociadas a las ecuaciones de las etapas anteriores.
Este m´etodo se describe en el algoritmo siguiente.
Algoritmo 7.1 Compatibilidad de modelos multifactorizados.
• Datos: Un modelo multifactorizado ¦¦p

(y

1
[s

1
), . . . , p

(y

n
[s

n
)¦, =
1, . . . , m¦, donde los par´ ametros de la primera factorizaci´on, Θ
1
, se
consideran los par´ ametros de referencia.
• Resultados: El conjunto de restricciones que tienen que cumplir
los par´ ametros de referencia Θ
1
para que P
1
defina la funci´ on de
probabilidad del modelo multifactorizado.
1. Considerar ←2 y Ecuaciones = φ.
2. Para i ←1, . . . , n hacer:
Para cada valor j de Y

i
y cada realizaci´on s de S

i
:
• Generar todas las realizaciones posibles de B

i
`S

i
: ¦z
1
, . . . , z
k
¦.
• A˜ nadir las ecuaciones θ

ijs
= p(y

i
[z
1
∪ s) = . . . = p(y

i
[z
k
∪ s) a
la lista Ecuaciones.
3. Si = m ir a la Etapa 4. En caso contrario, asignar ← + 1 e ir a
la Etapa 2.
4. Calcular simb´ olicamente las funciones de probabilidad condicionada
que aparecen en Ecuaciones, utilizando los par´ ametros de referencia
7.5 Modelos Multinomiales Multifactorizados 297
Θ
1
. Resolver el sistema de ecuaciones polinomiales resultante encon-
trando un sistema de ecuaciones simplificado que sea l´ogicamente
equivalente al anterior y que proporcione las restricciones entre los
par´ ametros de referencia.
5. Devolver las ecuaciones resultantes.
Obs´ervese que en la Etapa 2 se a˜ naden card(S

i
) ecuaciones al sistema y
que cada una de estas ecuaciones contiene un total de [B

i
` S

i
[ t´erminos.
Cada una de las ecuaciones contiene un ´ unico par´ ametro que no es de
referencia y varios que s´ı lo son y que est´ an asociados con p
1
(y

i
[z
1
∪ s).
Entonces, el sistema de ecuaciones resultante determina las restricciones de
los par´ ametros de referencia y su relaci´on con el resto de los par´ ametros.
El sistema de ecuaciones que se obtiene como resultado del algoritmo
anterior puede ser resuelto directamete (obteniendo un sistema reducido
l´ ogicamente equivalente) utilizando un programa de c´ alculo simb´ olico como
Mathematica (Wolfram (1991), Castillo y otros (1993)) o Maple (ver Char
y otros (1991) y Abell y Braselton (1994)).
El Algoritmo 7.1 proporciona una soluci´ on para el problema de compa-
tibilidad que surge en los modelos definidos por multigrafos (Secci´ on 7.2)
y los modelos definidos por listas de relaciones de independencia (Secci´ on
7.3). Los ejemplos siguientes ilustran la aplicaci´ on de este algoritmo.
Ejemplo 7.15 Resolviendo un problema de compatibilidad. La
funci´ on de probabilidad de la multired Bayesiana definida por las dos re-
des Bayesianas dadas en la Figura 7.5 puede ser factorizada como (7.12) y
(7.13):
p(x
1
, x
2
, x
3
, x
4
) = p
1
(x
1
)p
1
(x
2
[x
1
)p
1
(x
3
[x
1
)p
1
(x
4
[x
2
, x
3
), (7.36)
p(x
1
, x
2
, x
3
, x
4
) = p
2
(x
1
)p
2
(x
2
[x
1
)p
2
(x
4
[x
2
)p
2
(x
3
[x
1
, x
4
). (7.37)
Los par´ ametros asociados a ambas factorizaciones se muestran en la Tabla
7.1. Para que el modelo sea consistente, las funciones de probabilidad en
(7.36) y (7.37) deben coincidir. Por tanto un problema importante asociado
a estos modelos es el de obtener las condiciones para que (7.36) y (7.37)
definan las mismas funciones de probabilidad. En otras palabras, calcular
las restricciones para los conjuntos de par´ ametros Θ
1
y Θ
2
, dados en la
Tabla 7.1, para que las dos factorizaciones definan el mismo modelo pro-
babil´ıstico.
Para resolver este problema, se selecciona una de las redes Bayesianas
de la Figura 7.1 como la red de referencia, y se calculan las condiciones
para que la otra red defina la misma funci´ on de probabilidad. Para ello, se
aplica el Algoritmo 7.1 para resolver este problema de compatibilidad. En
este caso m = 2. Sup´ ongase que se selecciona (7.36) como la factorizaci´on de
298 7. Extensiones de los Modelos Gr´aficos
referencia. Obs´ervese que las ordenaciones ancestrales
1
implicadas por las
factorizaciones son (X
1
, X
2
, X
3
, X
4
) y (X
1
, X
2
, X
4
, X
3
), respectivamente.
Entonces, el Algoritmo 7.1 procede mediante las siguientes etapas:
Etapa 1: Asignar = 2 y Ecuaciones = φ. La ordenaci´ on ancestral de la
segunda factorizaci´ on implica la permutaci´ on:
(Y
1
, Y
2
, Y
3
, Y
4
) = (X
1
, X
2
, X
4
, X
3
).
Etapa 2: Para i = 1, se tiene Y
1
= X
1
y se considera la funci´ on de proba-
bilidad p
2
(x
1
). En este caso se tiene B
2
1
= S
2
1
= φ. Por tanto, no se genera
ninguna ecuaci´ on. Para i = 2, se considera Y
2
= X
2
y p
2
(x
2
[x
1
). Ahora se
tiene B
2
2
= S
2
2
= ¦X
1
¦ que, de nuevo, no implica ninguna ecuaci´ on.
Para i = 3, se considera Y
3
= X
4
y p
2
(x
4
[x
2
). Se tiene B
2
3
= ¦X
1
, X
2
¦,
pero S
2
3
= ¦X
2
¦. Por tanto, para cada realizaci´ on x
1
de X
1
, se tiene
θ
2
40x
1
= p(X
4
= 0[x
1
, X
2
= 0) = p(X
4
= 0[x
1
, X
2
= 1), x
1
= 0, 1,
que implica
θ
2
400
= p(X
4
= 0[0, 0) = p(X
4
= 0[0, 1),
θ
2
401
= p(X
4
= 0[1, 0) = p(X
4
= 0[1, 1).
(7.38)
Estas ecuaciones son a˜ nadidas a la lista Ecuaciones.
Para i = 4, se considera Y
4
= X
3
y p
2
(x
3
[x
1
, x
4
). En este caso, se tiene
B
2
4
= ¦X
1
, X
2
, X
4
¦ y S
2
4
= ¦X
1
, X
4
¦. Por tanto, para cada realizaci´ on x
2
de X
2
se tiene
θ
2
3000
= p(X
3
= 0[X
1
= 0, x
2
, X
4
= 0),
θ
2
3001
= p(X
3
= 0[X
1
= 0, x
2
, X
4
= 1),
θ
2
3010
= p(X
3
= 0[X
1
= 1, x
2
, X
4
= 0),
θ
2
3011
= p(X
3
= 0[X
1
= 1, x
2
, X
4
= 1).
Estas relaciones implican las ecuaciones:
θ
2
3000
= p(X
3
= 0[0, 0, 0) = p(X
3
= 0[0, 1, 0),
θ
2
3001
= p(X
3
= 0[0, 0, 1) = p(X
3
= 0[0, 1, 1),
θ
2
3010
= p(X
3
= 0[1, 0, 0) = p(X
3
= 0[1, 1, 0),
θ
2
3011
= p(X
3
= 0[1, 0, 1) = p(X
3
= 0[1, 1, 1),
(7.39)
1
El Algoritmo 4.6 proporciona un procedimiento autom´atico para generar una
ordenaci´on ancestral de un grafo dirigido ac´ıclico.
7.5 Modelos Multinomiales Multifactorizados 299
que se a˜ naden a la lista Ecuaciones. Dado que i = 4 = n, la Etapa 2
finaliza.
Etapa 3: Dado que = 2 = m, se pasa a la Etapa 4.
Etapa 4: Despu´es de calcular simb´olicamente las funciones de probabilidad
condicionada en (7.38) y (7.39) se obtiene el sistema de ecuaciones siguiente:
θ
2
400
= θ
1
300
θ
1
4000

1
4001
−θ
1
300
θ
1
4001
= θ
1
301
θ
1
4000

1
4001
(1 −θ
1
301
),
θ
2
401
= θ
1
300
θ
1
4010

1
4011
(1 −θ
1
300
)
= θ
1
301
θ
1
4010

1
4011
(1 −θ
1
301
),
θ
2
3000
=
θ
1
300
θ
1
4000
θ
1
300
θ
1
4000

1
4001
(1−θ
1
300
)
=
θ
1
300
θ
1
4010
θ
1
300
θ
1
4010

1
4011
(1−θ
1
300
)
,
θ
2
3001
=
θ
1
300
(1−θ
1
4000
)
1−θ
1
300
θ
1
4000

1
4001

1
300
−1)
=
θ
1
300
(1−θ
1
4010
)
1−θ
1
300
θ
1
4010

1
4011

1
300
−1)
,
θ
2
3010
=
θ
1
301
θ
1
4000
θ
1
301
θ
1
4000

1
4001
(1−θ
1
301
)
=
θ
1
301
θ
1
4010
θ
1
301
θ
1
4010

1
4011
(1−θ
1
301
)
,
θ
2
3011
=
θ
1
301
(1−θ
1
4000
)
1−θ
1
301
θ
1
4000

1
4001

1
301
−1)
=
θ
1
301
(1−θ
1
4010
)
1−θ
1
301
θ
1
4010
+(θ
1
301
−1)
.
(7.40)
Obs´ervese que las dos primeras ecuaciones se han obtenido de (7.38) y
las cuatro ´ ultimas de (7.39). Al resolver este sistema de ecuaciones en los
par´ ametros Θ
1
, se obtienen las siguientes soluciones:
Soluci´ on 1 : ¦θ
1
300
= 0, θ
1
301
= 0¦,
Soluci´ on 2 : ¦θ
1
300
= 1, θ
1
301
= 1¦,
Soluci´ on 3 : ¦θ
1
4000
= θ
1
4001
, θ
1
4010
= θ
1
4011
¦.
(7.41)
Por tanto, la familia de funciones de probabilidad que cumple las rela-
ciones de independencia condicional implicadas por los dos grafos de la
Figura 7.5 est´ a determinada por los par´ ametros de la Tabla 7.1 (facto-
rizaci´on (7.12)) con uno de los tres conjuntos de restricciones dados en
(7.41). Obs´ervese, que las dos primeras soluciones implican funciones de
probabilidad extremas.
La Figura 7.6(a) muestra un ejemplo num´erico de una funci´ on de pro-
babilidad, definida mediante la factorizaci´ on (7.36), que satisface las res-
tricciones dadas en (7.41). Por tanto, esta funci´ on de probabilidad con-
tiene todas la relaciones de independencia implicadas por los dos grafos
de la Figura 7.5. Una vez que se han hallado los par´ ametros de referencia,
tambi´en se puede obtener el resto de los par´ametros utilizando las rela-
ciones entre ellos dadas en (7.40). Los valores num´ericos de los par´ametros
(a)
X
2
X
3
X
4
X
1
x
2
0 0.4
1 0.3
p(X
4
=0 | x
2
)
x
1
0 0.2
1 0.3
p(X
2
=0 | x
1
)
p(X
1
=0)
0.5
x
4
0 0.1
1 0.1
p(X
3
=0 | x
1
, x
4
) x
1
0
0
0 0.4
1 0.4
1
1
(b)
X
2
X
3
X
4
X
1
x
1
0 0.1
1 0.4
p(X
3
=0 | x
1
)
x
1
0 0.2
1 0.3
p(X
2
=0 | x
1
)
p(X
1
=0)
0.5
x
3
0 0.4
1 0.4
p(X
4
=0 | x
2
, x
3
) x
2
0
0
0 0.3
1 0.3
1
1
(a)
300 7. Extensiones de los Modelos Gr´aficos
de Θ
2
que definen el mismo modelo probabil´ıstico que los par´ ametros de
referencia dados en la Figura 7.6(a) se muestran en la Figura 7.6(b). Por
tanto, ambas redes Bayesianas definen la misma funci´ on de probabilidad
que incluye las independencias contenidas en ambos grafos.
FIGURA 7.6. Dos factorizaciones distintas de la misma funci´on de probabilidad,
que contiene todas las independencias dadas por las dos redes Bayesianas del
Ejemplo 7.7.
En el ejemplo anterior, se ha elegido la factorizaci´ on (7.36) como fac-
torizaci´ on de referencia y se obtuvieron las restricciones para los par´ a-
metros asociados de forma que la funci´ on de probabilidad (7.37) coin-
cida con (7.36). De forma similar, se puede aplicar el algoritmo utilizando
(7.37) como factorizaci´on de referencia y hallar las restricciones sobre los
par´ ametros para que la funci´ on de probabilidad (7.36) coincida con (7.37).
El lector puede comprobar que, en este caso, se obtienen las siguientes
7.5 Modelos Multinomiales Multifactorizados 301
restricciones:
Soluci´ on 1 : ¦θ
2
3010
= θ
2
3011
, θ
2
3000
= θ
2
3001
¦,
Soluci´ on 2 : ¦θ
2
400
= θ
2
401
, θ
2
3010
= θ
2
3000
, θ
2
3011
= θ
2
3001
¦.
(7.42)
La soluci´ on del problema de compatibilidad viene dada por las ecuaciones
(7.41) y (7.42), que proporcionan las restricciones sobre los par´ ametros Θ
1
y Θ
2
, respectivamente.
En algunos casos, las factorizaciones que componen un modelo multifac-
torizado pueden tener varias relaciones de independencia comunes. En esos
casos, el Algoritmo 7.1 puede ser mejorado considerando una s´ ola vez cada
independencia, es decir, reduciendo el conjunto de ecuaciones. Esta idea se
ilustra en el ejemplo siguiente.
Ejemplo 7.16 Mejorando el m´etodo de compatibilidad. Consid´erese
el modelo multifactorizado asociado a las dos redes Bayesianas (D
1
, P
1
) y
(D
2
, P
2
) dadas en las Figuras 7.7(a) y (b), respectivamente. Entonces, la
funci´ on de probabilidad de X = ¦X
1
, . . . , X
7
¦ puede ser factorizada como
p(x) = p
1
(x
1
)p
1
(x
2
[x
1
)p
1
(x
3
[x
1
)p
1
(x
4
[x
2
, x
3
)p
1
(x
5
[x
3
)p
1
(x
6
[x
4
)p
1
(x
7
[x
4
),
(7.43)
y
p(x) = p
2
(x
2
)p
2
(x
1
[x
2
)p
2
(x
3
)p
2
(x
4
[x
2
, x
3
)p
2
(x
7
[x
4
)p
2
(x
5
[x
7
)p
2
(x
6
[x
4
).
(7.44)
Obs´ervese que las funciones de probabilidad condicionada en (7.43) y (7.44)
est´an determinadas por las ordenaciones ancestrales de las variables impli-
cadas por los grafos de la Figura 7.7. La Tabla 7.2 muestra los par´ ametros
asociados a estas factorizaciones. Ahora se desea calcular la funci´on de
probabilidad que satisface ambas factorizaciones.
Se selecciona (7.43) como la factorizaci´on de referencia. La factorizaci´ on
(7.44) implica las siguientes relaciones entre los par´ ametros:
p
2
(x
2
) = p(x
2
) = p
1
(x
2
),
p
2
(x
1
[x
2
) = p(x
1
[x
2
) = p
1
(x
1
[x
2
),
p
2
(x
3
) = p(x
3
[x
1
, x
2
) = p
1
(x
3
[x
1
),
p
2
(x
4
[x
2
, x
3
) = p(x
4
[x
1
, x
2
, x
3
) = p
1
(x
4
[x
2
, x
3
),
p
2
(x
7
[x
4
) = p(x
7
[x
1
, x
2
, x
3
, x
4
) = p
1
(x
7
[x
4
),
p
2
(x
5
[x
7
) = p(x
5
[x
1
, x
2
, x
3
, x
4
, x
7
) = p
1
(x
5
[x
3
),
p
2
(x
6
[x
4
) = p(x
6
[x
1
, x
2
, x
3
, x
4
, x
7
, x
5
) = p
1
(x
6
[x
4
).
Por tanto, se tiene el sistema de ecuaciones
θ
2
20
= θ
1
10

1
200
−θ
1
201
) +θ
1
201
,
X
2
X
3
X
6
X
4
X
7
X
1
X
5
(a)
X
2
X
3
X
6
X
4
X
7
X
1
X
5
(b)
302 7. Extensiones de los Modelos Gr´aficos
θ
2
100
=
θ
1
10
θ
1
200
θ
1
10
θ
1
200

1
201
−θ
1
10
θ
1
201
, θ
2
101
=
θ
1
10
(1 −θ
1
200
)
1 −θ
1
10
θ
1
200
−θ
1
201

1
10
θ
1
201
,
θ
2
30
= θ
1
300
= θ
1
301
,
θ
2
4000
= θ
1
4000
, θ
2
4001
= θ
1
4001
, θ
2
4010
= θ
1
4010
, θ
2
4011
= θ
1
4011
, (7.45)
θ
2
700
= θ
1
700
, θ
2
701
= θ
1
701
.
θ
2
500
= θ
1
500
= θ
1
501
, θ
2
501
= θ
1
500
= θ
1
501
,
θ
2
600
= θ
1
600
, θ
2
601
= θ
1
601
.
Si se eliminan los par´ ametros de Θ
2
de las ecuaciones anteriores se obtiene
la soluci´ on:
θ
1
300
= θ
1
301
y θ
1
500
= θ
1
501
. (7.46)
Por tanto, la familia de funciones de probabilidad que cumplen las rela-
ciones de independencia implicadas por los dos grafos de la Figura 7.7 est´ a
caracterizada por los par´ ametros de la Tabla 7.2 (Θ
1
) con las restricciones
(7.46).
FIGURA 7.7. Dos grafos dirigidos ac´ıclicos que definen una multired Bayesiana.
Por otra parte, si se eliminan los par´ ametros de Θ
1
de este sistema, se
obtiene
θ
2
500
= θ
2
501
. (7.47)
Por tanto, la familia de funciones de probabilidad que cumplen las rela-
ciones de independencia implicadas por los dos grafos de la Figura 7.7
7.5 Modelos Multinomiales Multifactorizados 303
Variable Θ
1
Θ
2
X
1
θ
1
10
= p
1
(¯ x
1
) θ
2
100
= p
2
(¯ x
1
[¯ x
2
)
θ
2
101
= p
2
(¯ x
1
[x
2
)
X
2
θ
1
200
= p
1
(¯ x
2
[¯ x
1
) θ
2
20
= p
2
(¯ x
2
)
θ
1
201
= p
1
(¯ x
2
[x
1
)
X
3
θ
1
300
= p
1
(¯ x
3
[¯ x
1
) θ
2
30
= p
2
(¯ x
3
)
θ
1
301
= p
1
(¯ x
3
[x
1
)
X
4
θ
1
4000
= p
1
(¯ x
4
[¯ x
2
¯ x
3
) θ
2
4000
= p
2
(¯ x
4
[¯ x
2
¯ x
3
)
θ
1
4001
= p
1
(¯ x
4
[¯ x
2
x
3
) θ
2
4001
= p
2
(¯ x
4
[¯ x
2
x
3
)
θ
1
4010
= p
1
(¯ x
4
[x
2
¯ x
3
) θ
2
4010
= p
2
(¯ x
4
[x
2
¯ x
3
)
θ
1
4011
= p
1
(¯ x
4
[x
2
x
3
) θ
2
4011
= p
2
(¯ x
4
[x
2
x
3
)
X
5
θ
1
500
= p
1
(¯ x
5
[¯ x
3
) θ
2
500
= p
2
(¯ x
5
[¯ x
7
)
θ
1
501
= p
1
(¯ x
5
[x
3
) θ
2
501
= p
2
(¯ x
5
[x
7
)
X
6
θ
1
600
= p
1
(¯ x
6
[¯ x
4
) θ
2
600
= p
2
(¯ x
6
[¯ x
4
)
θ
1
601
= p
1
(¯ x
6
[x
4
) θ
2
601
= p
2
(¯ x
6
[x
4
)
X
7
θ
1
700
= p
1
(¯ x
7
[¯ x
4
) θ
2
700
= p
2
(¯ x
7
[¯ x
4
)
θ
1
701
= p
1
(¯ x
7
[x
4
) θ
2
601
= p
2
(¯ x
6
[x
4
)
TABLA 7.2. Conjuntos de par´ametros Θ
1
y Θ
2
asociados a las dos factorizaciones
en (7.43) y (7.44), respectivamente.
tambi´en est´a caracterizada a trav´es de los par´ametros de la Tabla 7.2 (Θ
2
)
con las restricciones (7.47).
El m´etodo anterior puede ser mejorado sustancialmente considerando
s´olo las ecuaciones correspondientes a relaciones de independencia que no
puedan ser obtenidas utilizando la informaci´ on previa. En este caso, se
puede comprobar si las relaciones de independencia asociadas a la facto-
rizaci´on (7.44) son satisfechas por la funci´ on de probabilidad definida por
la factorizaci´ on (7.43), es decir, se puede comprobar si las relaciones de
independencia se cumplen en el grafo de la Figura 7.7(a).
La factorizaci´ on (7.44) implica la ordenaci´ on ancestral de los nodos
¦X
2
, X
1
, X
3
, X
4
, X
7
, X
5
, X
6
¦
304 7. Extensiones de los Modelos Gr´aficos
y las relaciones de independencia siguientes:
I(X
2
, φ[φ),
I(X
1
, φ[X
2
),
I(X
3
, ¦X
1
, X
2
¦[φ),
I(X
4
, X
1
[¦X
2
, X
3
¦),
I(X
7
, ¦X
1
, X
2
, X
3
¦[X
4
),
I(X
5
, ¦X
1
, X
2
, X
3
, X
4
¦[X
7
),
I(X
6
, ¦X
1
, X
2
, X
3
, X
5
, X
7
¦[X
4
).
Las ´ unicas relaciones de independencia que no se pueden obtener del grafo
de la Figura 7.7(a) son I(X
3
, ¦X
1
, X
2
¦[φ) y I(X
5
, ¦X
1
, X
2
, X
3
, X
4
¦[X
7
).
Por tanto, se tiene el sistema de ecuaciones:
θ
2
30
= θ
1
300
= θ
1
301
, θ
2
500
= θ
1
500
= θ
1
501
, y θ
2
501
= θ
1
500
= θ
1
501
,
que es bastante m´as sencillo que el sistema (7.45). Obs´ervese que, ahora,
las soluciones dadas en (7.46) y (7.47) se pueden obtener trivialmente del
sistema reducido.
La mejora introducida en el ejemplo anterior puede ser f´ acilmente incorpo-
rada en el Algoritmo 7.1.
7.6 Modelos Normales Multifactorizados
En esta Secci´on se analiza el caso de los modelos probabil´ısticos normales
definidos por un conjunto de factorizaciones distintas. En este caso la
funci´ on de probabilidad conjunta sobre X = ¦X
1
, . . . , X
n
¦ es una dis-
tribuci´ on normal definida por N(µ, Σ), donde µ es el vector de medias
y Σ es la matriz de covarianzas. Por tanto, el conjunto de par´ ametros
que definen estos modelos consiste en n medias ¦µ
i
; i = 1, . . . , n¦ y las
n(n + 1)/2 varianzas y covarianzas ¦σ
ij
; i, j = 1, . . . , n¦. La matriz de co-
varianzas Σ es independiente del vector de medias µ, que es un conjunto
de par´ ametros de localizaci´on. Por tanto, para el prop´ osito de determi-
nar relaciones de independencia, los ´ unicos par´ ametros relevantes ser´an las
varianzas y covarianzas del modelo.
El problema de compatibilidad asociado al conjunto de factorizaciones
de un modelo normal multifactorizado se reduce al problema de encontrar
la matriz de covarianzas de la variable aleatoria multidimensional que sea
compatible con las factorizaciones dadas, o con las relaciones de indepen-
dencia implicadas por ellas. De manera similar al caso de los modelos multi-
nomiales multifactorizados analizados en la Secci´ on 7.5, se pueden designar
como par´ ametros de referencia a los par´ametros asociados a la matriz de
7.6 Modelos Normales Multifactorizados 305
covarianzas de la primera factorizaci´ on. Tambi´en se puede comenzar, de
forma alternativa, con la matriz de covarianzas de una funci´ on de proba-
bilidad general (completamente parametrizada) y calcular las restricciones
de ´estos par´ametros para que esta funci´ on cumpla todas las independencias
implicadas por todas las factorizaciones del modelo P

, = 1, . . . , m (ver
Definici´ on 7.3), es decir, se ha de tener
I(X

i
, B

i
` S

i
[S

i
) ⇔p(x

i
[b

i
) = p(x

i
[s

i
); i = 1, . . . , n, (7.48)
donde p(.) denota la funci´ on de densidad normal completa y x

i
, b

i
, y s

i
son realizaciones de X

i
, B

i
, y S

i
, respectivamente. Obs´ervese que esta
notaci´ on supone, sin p´erdida de generalidad, que (X

1
, . . . , X

n
) est´an dadas
siguiendo una ordenaci´ on ancestral para cada .
El sistema de ecuaciones (7.48) proporciona una serie de restricciones
sobre los par´ ametros que definen el modelo probabil´ıstico que es compatible
con todas las factorizaciones dadas. El teorema siguiente proporciona un
m´etodo sencillo para calcular estas restricciones.
Teorema 7.4 Independencia condicional en modelos normales. Sea
X = ¦X
1
, . . . , X
n
¦ un conjunto de variables aleatorias y ¦V, Y, Z¦ una
partici´ on de X. Sup´ ongase que las variables siguen una distribuci´ on normal
N

¸

µ
V
µ
Y
µ
Z
¸
¸
;

Σ
V V
Σ
V Y
Σ
V Z
Σ
Y V
Σ
Y Y
Σ
Y Z
Σ
ZV
Σ
ZY
Σ
ZZ
¸
¸
¸

, (7.49)
donde se ha utilizado la descomposici´ on en bloques asociada a la partici´ on
(V, Y, Z) y se ha supuesto que la matriz de covarianzas correspondiente a
(V, Y ) es no singular. Entonces, una condici´ on necesaria y suficiente para
que se cumpla la relaci´ on de independencia condicional I(V, Y [Z), es decir,
para que se cumpla p(v[y, z) = p(v[z) es que Σ
V Y
= Σ
V Z
Σ
−1
ZZ
Σ
ZY
.
Una demostraci´on de este teorema as´ı como resultados relacionados adi-
cionales se pueden encontrar en Whittaker (1990), Johnson y Wichern
(1988), y Rencher (1995).
Corolario 7.3 Independencia Condicional a trav´es de la Matriz
de Precisi´on. Sea X una variable aleatoria distribuida de forma normal
y sea ¦V, Y, Z¦ una partici´ on de X como la indicada en el Teorema 7.4.
Sea W = Σ
−1
la matriz de precisi´ on del modelo, es decir, la inversa de
la matriz de covarianzas Σ. Entonces, se cumple I(V, Y [Z) si y s´ olo si el
bloque W
V Y
de la matriz W es la matriz nula.
El teorema siguiente muestra que, para variables aleatorias normales, los
t´erminos dependencia y correlaci´ on son equivalentes, as´ı como los t´erminos
dependencia condicional y correlaci´ on parcial.
306 7. Extensiones de los Modelos Gr´aficos
Teorema 7.5 Independencia condicional y correlaci´on parcial. Sea
(V, Y, Z) una variable aleatoria distribuida de forma normal. Entonces V
e Y no est´an correlacionados dado Z si y s´ olo si I(V, Y [Z).
A continuaci´ on se introducen algunos ejemplos ilustrativos de aplicaci´ on.
Ejemplo 7.17 Modelo normal dado por una lista de relaciones de
independencia. Consid´erese un vector de variables aleatorias normales
X = ¦X
1
, X
2
, X
3
¦ con la matriz de covarianzas no singular
Σ =

¸
σ
11
σ
12
σ
13
σ
12
σ
22
σ
23
σ
13
σ
23
σ
33
¸

. (7.50)
A continuaci´ on se calculan las restricciones que han de imponerse a los
par´ ametros a fin de que la funci´ on de probabilidad conjunta resultante satis-
faga las relaciones de independencia del modelo Dada la lista de relaciones
de independencia
M = ¦I(X
1
, X
2
[X
3
), I(X
1
, X
3
[X
2
), I(X
2
, X
3
[X
1
)¦, (7.51)
Para ello se comienza con el modelo probabil´ıstico general de cuatro va-
riables dado por Σ en (7.50), y se calculan las restricciones impuestas
por la primera relaci´ on de independencia en M I(X
1
, X
2
[X
3
). Denotando
(V, Y, Z) = (X
1
, X
2
, X
3
), el Teorema 7.4 da la restricci´on
σ
12
=
σ
13
σ
32
σ
33
. (7.52)
Obs´ervese que dado que Σ se ha supuesto no singular, entonces σ
ii
> 0,
para i = 1, 2, 3. Por tanto, la matriz de covarianzas que cumple la primera
relaci´on de independencia I(X
1
, X
2
[X
3
) tendr´ a la estructura
Σ =

¸
¸
¸
σ
11
σ
13
σ
23
σ
33
σ
13
σ
13
σ
23
σ
33
σ
22
σ
23
σ
13
σ
23
σ
33
¸

.
De manera similar, las dos restantes relaciones de independencia en M
implican las restricciones:
σ
13
=
σ
12
σ
23
σ
22
, (7.53)
σ
23
=
σ
21
σ
13
σ
11
. (7.54)
Obs´ervese que, dada la simetr´ıa de Σ, se tiene σ
ij
= σ
ji
. Por tanto, se
tienen seis par´ ametros distintos sujetos a las tres restricciones dadas en
7.6 Modelos Normales Multifactorizados 307
(7.52), (7.53) y (7.54). Si se calculan los par´ ametros asociados a covarian-
zas en funci´ on de aquellos asociados a varianzas se obtienen las siguientes
soluciones para la matriz Σ:

¸
σ
11
0 0
0 σ
22
0
0 0 σ
33
¸

,

¸
σ
11
−δ
12
−δ
13
−δ
12
σ
22
δ
23
−δ
13
δ
23
σ
33
¸

,

¸
σ
11
δ
12
δ
13
δ
12
σ
22
δ
23
δ
13
δ
23
σ
33
¸

,

¸
σ
11
−δ
12
δ
13
−δ
12
σ
22
−δ
23
δ
13
−δ
23
σ
33
¸

, (7.55)

¸
σ
11
δ
12
−δ
13
δ
12
σ
22
−δ
23
−δ
13
−δ
23
σ
33
¸

,
donde δ
ij
=

σ
ii
σ
jj
.
Por otra parte, si se despejan las varianzas en funci´ on de las covarianzas,
se tienen las siguientes soluciones:

¸
σ
11
0 0
0 σ
22
0
0 0 σ
33
¸

,

¸
¸
¸
¸
σ
12
σ
13
σ
23
σ
12
σ
13
σ
12
σ
12
σ
23
σ
13
σ
23
σ
13
σ
23
σ
13
σ
23
σ
12
¸

. (7.56)
Adem´as, habr´ a que imponer las restricciones obvias para que estas ma-
trices sean definidas no negativas.
Obs´ervese que las primeras soluciones en (7.55) y (7.56) coinciden, y que
cada una de las cuatro soluciones restantes en (7.55) cumple la segunda
soluci´on en (7.56). Adem´ as, si se sustituyen dos cualesquiera de las tres
ecuaciones (7.52), (7.53) y (7.54) en la tercera ecuaci´on, se obtiene
σ
11
σ
22
σ
33
= σ
12
σ
13
σ
23
, (7.57)
supuesto que las covarianzas son distintas de cero. Por tanto, los elementos
en la matriz de covarianzas son tales que el producto de las varianzas
coincide con el producto de las covarianzas. Como puede verse en (7.55) y
(7.56) esta propiedad se satisface en las distintas soluciones del problema.
Por tanto, se concluye que el modelo probabil´ıstico normal definido por la
lista de relaciones de independencia M en (7.51) puede ser definido por una
cualquiera de estas matrices de covarianza.
En el Ejemplo 7.17, se han calculado las restricciones que han de imponerse
a un modelo normal para que contenga las independencias dadas en una
lista de relaciones de independencia. En el ejemplo siguiente, se obtienen
las restricciones que es necesario imponer a los par´ametros del modelo para
que ´este sea compatible con un conjunto de factorizaciones dado.
308 7. Extensiones de los Modelos Gr´aficos
Ejemplo 7.18 Modelo normal multifactorizado. Consid´erese un con-
junto de cuatro variables normales ¦X
1
, X
2
, X
3
, X
4
¦ cuya funci´ on de pro-
babilidad conjunta satisface las dos factorizaciones siguientes:
p(x
1
, x
2
, x
3
, x
4
) = p(x
1
)p(x
2
[x
1
)p(x
3
[x
1
)p(x
4
[x
2
, x
3
), (7.58)
p(x
1
, x
2
, x
3
, x
4
) = p(x
1
)p(x
2
[x
1
)p(x
4
[x
2
)p(x
3
[x
1
, x
4
). (7.59)
Obs´ervese que estas dos factorizaciones son las dadas en (7.17) y (7.19).
En el Ejemplo 7.9 se ha visto que estas factorizaciones tienen asociadas las
dos listas de relaciones de independencia
M
1
= ¦I(X
2
, X
3
[X
1
), I(X
1
, X
4
[X
2
, X
3
)¦y
M
2
= ¦I(X
1
, X
4
[X
2
), I(X
2
, X
3
[X
1
, X
4
)¦,
(7.60)
dadas en (7.24) y (7.26), respectivamente. Combinando M
1
y M
2
, se obtiene
M = ¦I(X
2
, X
3
[X
1
), I(X
1
, X
4
[X
2
, X
3
), I(X
1
, X
4
[X
2
), I(X
2
, X
3
[X
1
, X
4
)¦.
Por tanto, el modelo multifactorizado definido por (7.58) y (7.59) puede ser
obtenido a partir de la lista M. Para obtener este modelo puede seguirse
el mismo procedimiento empleado en el Ejemplo 7.17. De esta forma se
podr´ an obtener las restricciones que impone M en la matriz de covarianzas
Σ.
Aplicando el Teorema 7.4, se obtienen las siguientes restricciones, corres-
pondientes a las cuatro relaciones de independencia dadas en M:
σ
23
=
σ
21
σ
13
σ
11
,
σ
14
=

σ
12
σ
13

σ
22
σ
23
σ
32
σ
33

−1

σ
24
σ
34

,
σ
14
=
σ
12
σ
24
σ
22
,
σ
23
=

σ
21
σ
24

σ
11
σ
14
σ
41
σ
44

−1

σ
13
σ
43

.
(7.61)
Resolviendo este sistema de ecuaciones, utilizando, por ejemplo, un pro-
grama de c´alculo simb´ olico como Mathematica, se obtiene la siguiente
matriz de covarianzas:

¸
¸
¸
¸
¸
¸
¸
¸
σ
11
σ
12
σ
13
σ
11
σ
34
σ
13
σ
12
σ
22
σ
12
σ
13
σ
11
σ
11
σ
22
σ
34
σ
12
σ
13
σ
13
σ
12
σ
13
σ
11
σ
33
σ
34
σ
11
σ
34
σ
13
σ
11
σ
22
σ
34
σ
12
σ
13
σ
34
σ
44
¸

. (7.62)
7.6 Modelos Normales Multifactorizados 309
a la que hay que a˜ nadir las condiciones para que sea definida no negativa.
Por tanto, el modelo probabil´ıstico normal compatible con las dos fac-
torizaciones dadas en (7.58) y (7.59) est´ a caracterizado por la matriz de
covarianzas en (7.62).
En los Ejemplos 7.17 y 7.18, se ilustra la forma de obtener un modelo pro-
babil´ıstico normal por medio de una lista de relaciones de independencia o
de un conjunto de factorizaciones, respectivamente. En el ejemplo siguiente
se ilustra c´omo construir un modelo normal a partir de un multigrafo.
Ejemplo 7.19 Modelo normal definido por un multigrafo. Con-
sid´erese el modelo multifactorizado introducido en el Ejemplo 7.16 a trav´es
de las dos redes Bayesianas (D
1
, P
1
) y (D
2
, P
2
) de las Figuras 7.7(a) y (b),
respectivamente. Sup´ ongase que las variables est´an distribuidas de forma
normal. En este ejemplo se calcula la matriz de covarianzas del modelo
probabil´ıstico normal definido por las dos redes Bayesianas. Aplicando el
criterio de D-separaci´on a D
1
y D
2
(ver Definici´ on 5.4), se pueden obtener
las siguientes relaciones de independencia condicional:
M
1
=

I(X
7
, ¦X
1
, X
2
, X
3
¦[X
4
), I(X
4
, X
1
[¦X
2
, X
3
¦),
I(X
3
, X
2
[X
1
), I(X
5
, ¦X
1
, X
2
, X
3
, X
4
, X
7
¦[X
3
)
I(X
6
, ¦X
1
, X
2
, X
3
, X
5
, X
7
¦[X
4
)

, (7.63)
M
2
=

I(X
3
, ¦X
1
, X
2
¦[φ), I(X
7
, ¦X
1
, X
2
, X
3
¦[X
4
),
I(X
4
, X
1
[¦X
2
, X
3
¦), I(X
5
, ¦X
1
, X
2
, X
3
, X
4
¦[X
7
)
I(X
6
, ¦X
1
, X
2
, X
3
, X
5
, X
7
¦[X
4
)

, (7.64)
Obs´ervese que tambi´en es posible obtener M
1
y M
2
a partir de las factori-
zaciones dadas en (7.43) y (7.44), respectivamente.
En primer lugar, se calcula la matriz de covarianzas del modelo proba-
bil´ıstico normal definido por la segunda red Bayesiana D
2
:
• La relaci´on de independencia I(X
3
, ¦X
1
, X
2
¦[φ) implica:

σ
31
σ
32

=

0
0

, (7.65)
• I(X
1
, X
4
[¦X
2
, X
3
¦) implica:
σ
14
=

σ
42
σ
43

σ
22
σ
23
σ
32
σ
33

−1

σ
24
σ
34

, (7.66)
• I(X
7
, ¦X
1
, X
2
, X
3
¦[X
4
) implica:

¸
σ
17
σ
27
σ
37
¸

=
σ
47
σ
44

¸
σ
14
σ
24
σ
34
¸

, (7.67)
310 7. Extensiones de los Modelos Gr´aficos
• I(X
5
, ¦X
1
, X
2
, X
3
, X
4
¦[X
7
) implica:

¸
¸
¸
σ
51
σ
52
σ
53
σ
54
¸

=
σ
57
σ
77

¸
¸
¸
σ
71
σ
72
σ
73
σ
74
¸

, (7.68)
• I(X
6
, ¦X
1
, X
2
, X
3
, X
5
, X
7
¦[X
4
) implica:

¸
¸
¸
¸
¸
σ
61
σ
62
σ
63
σ
65
σ
67
¸

=
σ
64
σ
44

¸
¸
¸
¸
¸
σ
14
σ
24
σ
34
σ
54
σ
74
¸

. (7.69)
Resolviendo el sistema de ecuaciones (7.65)−(7.69), y considerando la simetr´ıa
de la matriz de covarianza, σ
ij
= σ
ji
, se tiene

¸
¸
¸
¸
¸
¸
¸
¸
σ
11
σ
12
0 α σ
15
δ β
σ
12
σ
22
0
σ
25
σ
44
σ
45
σ
25
σ
25
σ
46
σ
45
σ
25
σ
47
σ
45
0 0 σ
33
σ
35
σ
44
σ
45
σ
35
σ
35
σ
46
σ
45
σ
35
σ
47
σ
45
α
σ
25
σ
44
σ
45
σ
35
σ
44
σ
45
σ
44
σ
45
σ
46
σ
47
σ
15
σ
25
σ
35
σ
45
σ
55
σ
45
σ
46
σ
44
σ
57
δ
σ
25
σ
46
σ
45
σ
35
σ
46
σ
45
σ
46
σ
45
σ
46
σ
44
σ
66
σ
46
σ
47
σ
44
β
σ
25
σ
47
σ
45
σ
35
σ
47
σ
45
σ
47
σ
57
σ
46
σ
47
σ
44
σ
47
σ
57
σ
45
¸

, (7.70)
donde
α =
σ
12
σ
25
σ
44
σ
22
σ
45
, β =
σ
12
σ
25
σ
47
σ
22
σ
45
, δ =
σ
12
σ
25
σ
46
σ
22
σ
45
.
Adem´as, habr´ a que imponer las restricciones para que estas matrices
sean definidas no negativas.
Por tanto, la matriz de covarianzas del modelo probabil´ıstico normal que
tiene al grafo dirigido ac´ıclico de la Figura 7.7(b) como I-mapa debe de
cumplir (7.70).
A continuaci´ on se calcula la matriz de covarianzas que caracteriza al
modelo probabil´ıstico definido por los grafos dirigidos de la Figura 7.7. La
uni´ on de los modelos M
1
y M
2
solamente origina una nueva relaci´ on de
independencia I(X
5
, ¦X
1
, X
2
, X
4
, X
7
¦[X
3
). Esta independencia implica las
siguientes restricciones:

¸
¸
¸
σ
51
σ
52
σ
54
σ
57
¸

=
σ
53
σ
33

¸
¸
¸
σ
31
σ
32
σ
34
σ
37
¸

. (7.71)
7.7 Modelos probabil´ısticos definidos Condicionalmente 311
Resolviendo el sistema resultante, se tiene

¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
σ
11
σ
12
0 0 0 0 0
σ
12
σ
22
0 0 0 0 0
0 0 σ
33
ρ σ
35


σ
33
σ
46

σ
44


σ
33
σ
47

σ
44
0 0 ρ σ
44

σ
35

σ
44

σ
33
σ
46
σ
47
0 0 σ
35
τ σ
55

σ
35
σ
46

σ
33
σ
44

σ
35
σ
47

σ
33
σ
44
0 0 −

σ
33
σ
46

σ
44
σ
46

σ
35
σ
46

σ
33
σ
44
σ
66
σ
46
σ
47
σ
44
0 0 −

σ
33
σ
47

σ
44
σ
47

σ
35
σ
47

σ
33
σ
44
σ
46
σ
47
σ
44
σ
47
2
σ
44
¸

,
donde
τ = −
σ
35

σ
44

σ
33
, ρ = −

σ
33
σ
44
.
Adem´as, hay que imponer las restricciones para que estas matrices sean
definidas no negativas.
Por tanto, la matriz de covarianzas de la multired Bayesiana formado
por los dos grafos dados en la Figura 7.7 ha de tener la estructura anterior.
7.7 Modelos probabil´ısticos definidos
Condicionalmente
En las secciones anteriores se han analizado los modelos multifactoriza-
dos, que permiten resolver el problema de compatibilidad de los modelos
basados en multigrafos y los modelos basados en una lista de relaciones de
independencia. En esta secci´on se trata el problema de la definici´ on de un
modelo probabil´ıstico mediante un conjunto de funciones de probabilidad
condicionada. Los modelos definidos de esta forma se denominan modelos
probabil´ısticos definidos condicionalmente.
Definici´on 7.4 Modelos definidos condicionalmente. Consid´erese un
conjunto de variables X = ¦X
1
, . . . , X
n
¦. Un modelo probabil´ıstico definido
condicionalmente consiste en un conjunto de probabilidades marginales y
condicionadas de la forma
P = ¦p(u
i
[v
i
); i = 1, . . . , m¦, (7.72)
que define una ´ unica funci´ on de probabilidad de X, donde U
i
y V
i
son
subconjuntos disjuntos de X y U
i
= φ.
Por tanto, los modelos probabil´ısticos asociados a redes de Markov descom-
ponibles y redes Bayesianas (analizados en el Cap´ıtulo 6) y cualquier otro
312 7. Extensiones de los Modelos Gr´aficos
modelo probabil´ıstico definido por una factorizaci´ on son casos especiales de
este tipo de modelos. En las secciones anteriores tambi´en se ha visto que
las listas de relaciones de independencia y los grafos determinan ciertas
factorizaciones de las funciones de probabilidad correspondientes mediante
un producto de funciones de probabilidad condicionada. Por tanto, los mo-
delos probabil´ısticos definidos condicionalmente son una generalizaci´ on de
los modelos multifactorizados, y pueden ser utilizados como el marco para
analizar los problemas que subyacen a todos los modelos anteriores.
El problema principal de los modelos multifactorizados era la compatibi-
lidad de las distintas factorizaciones que definen el modelo. En esta secci´ on
se analiza el problema de la compatibilidad y otros problemas relaciona-
dos asociados a los modelos definidos condicionalmente. En particular, se
discutir´ an los siguientes problemas:
• Problema 7.5. Unicidad:
¿Define una ´ unica funci´ on de probabilidad un modelo definido condi-
cionalmente? En otras palabras, ¿implica el conjunto de funciones de
probabilidad condicionada suficientes restricciones para definir a lo
m´as una funci´ on de probabilidad?
• Problema 7.6. Consistencia o Compatibilidad:
¿Es compatible con alguna funci´ on de probabilidad de las variables
un modelo definido condicionalmente?
• Problema 7.7. Parsimonia:
Si la respuesta al Problema 7.5 es afirmativa, ¿puede eliminarse al-
guna de las funciones de probabilidad condicionada del modelo sin
p´erdida de informaci´ on?
• Problema 7.8. Reducci´on:
Si la respuesta al Problema 7.6 es afirmativa, ¿puede reducirse al
m´ınimo este conjunto (por ejemplo, eliminando alguna de las variables
condicionantes)?
Los problemas anteriores sugieren que la construcci´ on de modelos pro-
babil´ısticos generales debe ser realizada cuidadosamente para eliminar in-
consistencias, minimizar las redundancias del modelo e incrementar la po-
sibilidad de obtener resultados precisos. Estos problemas se analizan en
esta secci´on, que tambi´en discute las formas de definir modelos definidos
condicionalmente. En particular se ver´ a que:
1. Cualquier funci´ on de probabilidad con buenas propiedades (para ase-
gurar la existencia de funciones de probabilidad condicionada) puede
ser representada por un modelo definido condicionalmente.
2. Dado un conjunto de funciones de probabilidad condicionada que de-
fina una funci´ on de probabilidad conjunta, siempre es posible obtener
7.7 Modelos probabil´ısticos definidos Condicionalmente 313
un conjunto equivalente que de lugar a una factorizaci´ on de la funci´ on
de probabilidad en la forma dada por la regla de la cadena.
3. Los modelos definidos por redes Bayesianas son siempre consistentes.
Dado que cualquier conjunto de funciones de probabilidad condicionada
puede ser escrito en forma can´onica (ver Secci´on 5.5), se supondr´ a, sin
p´erdida de generalidad, que las funciones que integran un modelo definido
condicionalmente est´an dadas en forma can´ onica. Cada una de estas fun-
ciones puede estar definida num´ericamente o como una familia param´etrica.
El problema es que puede no existir ninguna funci´ on de probabilidad que
sea compatible con todas estas funciones condicionadas o, por el contrario,
pueden existir una o varias funciones compatibles. Por tanto, ha de ser
verificada la unicidad (Secci´ on 7.7.1) y compatibilidad (Secci´ on 7.7.2) del
modelo resultante.
7.7.1 Comprobando la Unicidad
En primer lugar se analiza el problema de la unicidad (Problema 7.5), es
decir, determinar si el conjunto de funciones condicionadas proporciona su-
ficientes restricciones para definir a lo m´ aximo un ´ unico modelo probabil´ıs-
tico. El teorema siguiente, que es una modificaci´ on del teorema introducido
por Gelman y Speed (1993) da una condici´ on suficiente para este problema.
Teorema 7.6 Unicidad. Sea Y = ¦Y
1
, . . . , Y
n
¦ una permutaci´ on de
X = ¦X
1
, . . . , X
n
¦, B
i
= ¦Y
1
, . . . , Y
i−1
¦ y A
i
= ¦Y
i+1
, . . . , Y
n
¦. Todo con-
junto de funciones de probabilidad condicionada can´ onicas que contiene una
sucesi´ on de funciones de probabilidad de la forma
p(y
i
[s
i
, a
i
), i = 1, . . . , n, (7.73)
o equivalentemente
p(y
i
[b
i
, u
i
), i = 1, . . . , n, (7.74)
define como mucho una funci´ on de probabilidad sobre X, donde S
i
⊆ B
i
y
U
i
⊆ A
i
. Si todos los conjuntos S
i
= φ o U
i
= φ, i = 1, . . . , n, entonces la
funci´ on de probabilidad conjunta existe y es ´ unica.
Ejemplo 7.20 Unicidad pero posible inconsistencia. Consid´erese el
conjunto de variables X = ¦X
1
, X
2
, X
3
, X
4
¦ y el conjunto de funciones de
probabilidad condicionada
¦p(x
4
[x
1
, x
2
, x
3
), p(x
3
[x
1
, x
2
, x
4
), p(x
2
[x
1
), p(x
1
[x
4
)¦, (7.75)
314 7. Extensiones de los Modelos Gr´aficos
que est´a asociado a la permutaci´ on (Y
1
, Y
2
, Y
3
, Y
4
) = (X
4
, X
3
, X
2
, X
1
). En
este caso, se tiene
S
1
= φ, A
1
= ¦X
3
, X
2
, X
1
¦,
S
2
= ¦X
4
¦, A
2
= ¦X
2
, X
1
¦,
S
3
= φ, A
3
= ¦X
1
¦,
S
4
= ¦X
4
¦, A
4
= φ.
Por tanto, el conjunto de funciones dado en (7.75) cumple las condiciones
del Teorema 7.6. As´ı, este conjunto es, o bien incompatible, o bien compa-
tible con una ´ unica funci´ on de probabilidad.
Dado que S
2
= φ y S
4
= φ, ha de comprobarse la consistencia de las fun-
ciones p(x
3
[x
1
, x
2
, x
4
) y p(x
1
[x
4
). En otras palabras, s´ olo algunas funciones
particulares de la forma p(x
3
[x
1
, x
2
, x
4
) y p(x
1
[x
4
) definen una funci´ on de
probabilidad consistente con las restantes funciones del modelo.
El Teorema 7.6 tiene importantes implicaciones pr´ acticas en la definici´ on
de modelos probabil´ısticos pues:
1. Existe un conjunto m´ınimo de funciones de probabilidad condicio-
nada necesarias para definir un ´ unico modelo probabil´ıstico. Esto
ocurre cuando el conjunto viene dado en forma can´ onica est´andar.
Por tanto, el n´ umero de aristas del grafo dirigido ac´ıclico asociado
puede reducirse al m´ınimo, pero la eliminaci´ on de alguna de las aris-
tas en este modelo m´ınimo destruye la unicidad en la definici´ on del
modelo.
2. Para obtener una funci´ on de probabilidad por medio de un modelo
definido condicionalmente se han de seguir las siguientes etapas:
• Etapa 1. Ordenar el conjunto de variables.
• Etapa 2. Definir un conjunto de funciones de probabilidad con-
dicionada que contenga funciones de la forma (7.73) ´ o (7.74).
• Etapa 3. Comprobar que las funciones dadas son consistentes.
Este problema se analiza a continuaci´ on.
7.7.2 Comprobando la Consistencia
Dado que se est´a analizando el problema de definir un modelo probabil´ıstico
´ unico y consistente por medio de un conjunto de funciones de probabilidad
condicionada, se supondr´ a que este conjunto satisface las condicones de
unicidad dadas en el teorema anterior. El paso siguiente es comprobar si este
conjunto es compatible o si, por el contrario, existe alguna incompatibilidad
entre las funciones que lo componen. El teorema siguiente (Arnold, Castillo,
y Sarabia (1992, 1996)) proporciona un m´etodo iterativo para comprobar
la consistencia de este conjunto de funciones.
7.7 Modelos probabil´ısticos definidos Condicionalmente 315
Teorema 7.7 Consistencia. Sea Y = ¦Y
1
, . . . , Y
n
¦ una permutaci´ on
de un conjunto de variables X = ¦X
1
, . . . , X
n
¦. Dado un conjunto de
funciones de probabildad condicionada can´ onicas de la forma
¦p(y
1
[s
1
, a
1
), . . . , p(y
n
[s
n
, a
n
)¦, (7.76)
o
¦p(y
1
[b
1
, u
1
), . . . , p(y
n
[b
n
, u
n
)¦, (7.77)
donde U
i
⊆ A
i
= ¦Y
i+1
, . . . , Y
n
¦ y S
i
⊆ B
i
= ¦Y
1
, . . . , Y
i−1
¦ para todo
i = 1, . . . , n, entonces una condici´on necesaria y suficiente para que el
conjunto (7.76) sea compatible con una funci´ on de probabilidad de X es
que, o bien S
i
= φ, o bien
R
i
= p(y
i
[a
i
) =
p(y
i
[s
i
, a
i
)/p(s
i
[y
i
, a
i
)
¸
y
i
p(y
i
[s
i
, a
i
)/p(s
i
[y
i
, a
i
)
(7.78)
es independiente de S
i
, para i = 1, . . . , n. De forma equivalente, una con-
dici´ on necesaria y suficiente para que el conjunto (7.77) sea compatible con
una funci´ on de probabilidad de X es que, o bien U
i
= φ, o bien
T
i
= p(y
i
[b
i
) =
p(y
i
[b
i
, u
i
)/p(u
i
[y
i
, b
i
)
¸
y
i
[p(y
i
[b
i
, u
i
)/p(u
i
[y
i
, b
i
)]
(7.79)
es independente de U
i
, para i = 1, . . . , n. Obs´ervese que la suma de los
denominadores (7.78) y (7.79) ha de ser reemplazada por una integral, en
el caso de que las variables sean continuas.
Corolario 7.4 El conjunto de funciones de probabilidad condicionada en
(7.76) es compatible con una ´ unica funci´ on de probabilidad de Y si cada
funci´ on p(y
i
[s
i
, a
i
), i = 1, . . . , n, es de la forma
p(y
i
[s
i
, a
i
) =
p(y
i
[a
i
)
¸
b
i
\s
i
i−1
¸
j=1
p(y
j
[a
j
)
¸
b
i
∪{y
i
}\s
i
i
¸
j=1
p(y
j
[a
j
)
, (7.80)
donde p(y
k
[a
k
), k = 1, . . . , i − 1, est´ a dado por (7.78), y p(y
i
[a
i
) es una
funci´ on de probabildad arbitraria.
Un corolario similar al anterior podr´ıa escribirse en t´erminos de (7.77).
Obs´ervese que una vez que se ha definido el conjunto ¦p(y
k
[s
k
, a
k
); k =
1, . . . , i −1¦, la funci´ on p(y
i
[s
i
, a
i
) est´a determinada por p(y
i
[a
i
), es decir,
en esta etapa del proceso de construcci´on del modelo se es completamente
libre para elegir la funci´ on p(y
i
[a
i
) pero no p(y
i
[s
i
, a
i
). Obs´ervese tambi´en
que reemplazando la funci´ on p(y
i
[s
i
, a
i
) por la funci´ on p(y
i
[a
i
) obtenida de
316 7. Extensiones de los Modelos Gr´aficos
(7.78), el modelo resultante define la misma funci´ on de probabilidad. Esto
implica que una vez que se ha definido una ordenaci´ on (Y
1
, . . . , Y
n
) para las
variables, siempre es posible reemplazar una funci´ on de la forma p(y
i
[s
i
, a
i
)
por otra de la forma p(y
i
[a
i
) sin modificar el modelo probabil´ıstico asociado.
Se puede obtener p(y
i
[a
i
) reescribiendo (7.80) en la forma
p(y
i
[a
i
) =
p(y
i
[s
i
, a
i
)
¸
b
i
∪{y
i
}\s
i
i
¸
j=1
p(y
j
[a
j
)
¸
b
i
\s
i
i−1
¸
j=1
p(y
j
[a
j
)
, (7.81)
y dado que la funci´ on p(y
1
[a
1
) ha de estar contenida en el conjunto de fun-
ciones de probabilidad condicionada, se puede calcular p(y
i
[a
i
) a partir de
cada p(y
i
[s
i
, a
i
) y las componentes can´onicas est´andar previas p(y
j
[a
j
), j =
1, . . . , i −1. Por tanto, se concluye que (7.81) permite calcular el conjunto
de funciones en forma can´ onica est´andar equivalente a un conjunto de
funciones de probabilidad condicionada dado.
Los Teoremas 7.6 y 7.7 implican los corolarios siguientes:
Corolario 7.5 El conjunto de funciones de probabilidad condicionada
¦p(x
i
[b
i
); i = 1, . . . , n¦ y ¦p(x
i
[a
i
); i = 1, . . . , n¦, (7.82)
donde b
i
= ¦y
1
, . . . , y
i−1
¦ y a
i
= ¦y
i+1
, . . . , y
n
¦, es consistente y no puede
reducirse sin destruir la unicidad del modelo.
El Teorema 7.7 muestra que las factorizaciones asociadas a redes Bayesianas
son consistentes, pues cumplen la primera condici´ on del teorema, es decir,
S
i
= φ, i = 1, . . . , n.
El Teorema 7.7 sugiere el siguiente algoritmo iterativo para comprobar
la consistencia de un conjunto de funciones de probabilidad condicionada
dado. El algoritmo procede analizando una de las funciones en cada etapa y
construyendo una forma can´ onica con S
i
= φ, i = 1, . . . , n. El diagrama de
flujo mostrado en la Figura 7.8 muestra una versi´ on del algoritmo adaptada
para las funciones de la forma (7.76). Sin embargo, una sencilla modificaci´ on
de este algoritmo permite adaptarlo a la estructura de (7.77).
Algoritmo 7.2 Comprobando la compatibilidad.
• Datos: Un conjunto P de funciones de probabilidad condicionada en
forma can´ onica que cumplen las condiciones de unidad.
• Resultados: Cierto o falso, dependiendo de si las funciones en P son
consistentes.
1. En cualquier caso, ha de definirse la primera funci´ on p(y
1
[a
1
). En caso
contrario, el conjunto dado no cumple las condiciones de unidad. Por
tanto, en la etapa inicial se comienza con p(y
1
[a
1
).
i = 1
S
i
= Ø

No

i = n

No
Seleccionar la
función
p(y
i
| s
i
, a
i
)
Calcular
R
i
= p(y
i
| a
i
)
R
i
independiente de
S
i
No
Reemplazar
p(y
i
| s
i
, a
i
) por
p(y
i
| a
i
)
i = i + 1
Las funciones
son compatibles
Funciones
incompatibles
Fin
7.7 Modelos probabil´ısticos definidos Condicionalmente 317
FIGURA 7.8. Diagrama de flujo para comprobar la consistencia de un conjunto de
funciones de probabilidad condicionada que cumplen las condiciones de unidad.
2. En la etapa i-´esima se define p(y
i
[a
i
) o p(y
i
[s
i
, a
i
), donde el con-
junto S
i
⊂ B
i
. Si S
i
= φ ir a la Etapa 5; en caso contrario, calcular
p(s
i
[y
i
, a
i
) marginalizando p(b
i
[y
i
, a
i
) sobre todas las variables de B
i
distintas de aquellas en S
i
, es decir, utilizando
p(s
i
[y
i
, a
i
) =
¸
b
i
\s
i
p(b
i
[y
i
, a
i
). (7.83)
3. Calcular la componente can´ onica est´andar R
i
= p(y
i
[a
i
) basada en
la informaci´ on previa utilizando (7.78).
4. Si R
i
es independiente de las variables del conjunto S
i
, entonces ir a la
Etapa 5; en caso contrario, la funci´ on p(y
i
[s
i
, a
i
) dada es incompatible
con las funciones anteriores.
5. Calcular p(b
i
, y
i
[a
i
) = p(b
i
[y
i
, a
i
)p(y
i
[a
i
).
6. Repetir las Etapas 2 a la 5 hasta que todas las funciones hayan sido
analizadas.
318 7. Extensiones de los Modelos Gr´aficos
Por tanto, dado el conjunto de funciones de probabilidad condicionada P
se puede determinar si este conjunto es consistente utilizando el Algoritmo
7.2 ´ o el Teorema 7.7. Esto proporciona una soluci´ on para el Problema 7.6.
Ejemplo 7.21 Conjunto consistente. Se supone que el siguiente con-
junto de funciones de probabilidad condicionada es dado por un experto
para definir un modelo probabil´ıstico de las variables, X = ¦X
1
, X
2
, X
3
, X
4
¦:
P
1
= ¦p(x
4
[x
3
, x
2
, x
1
), p(x
3
[x
2
, x
1
), p(x
2
[x
1
), p(x
1
)¦. (7.84)
Las funciones que componen el conjunto P
1
permiten factorizar la funci´ on
de probabilidad utilizando la regla de la cadena de la forma
p(x
1
, . . . , x
n
) = p(x
4
[x
3
, x
2
, x
1
)p(x
3
[x
2
, x
1
)p(x
2
[x
1
)p(x
1
).
Por tanto, este conjunto es consistente. La Tabla 7.3 muestra los par´ ametros
que definen la funci´ on de probabilidad asociada, donde ¯ x
i
y x
i
denotan
X
i
= 0 y X
i
= 1, respectivamente. Estos par´ametros pueden definirse de
forma arbitraria considerando valores en el intervalo [0, 1].
Eligiendo la permutaci´ on (Y
1
, Y
2
, Y
3
, Y
4
¦ = ¦X
4
, X
3
, X
2
, X
1
¦, se puede
verificar f´ acilmente que P
1
cumple las condiciones de unicidad. Por tanto,
puede utilizarse el Algoritmo 7.2 para comprobar su compatiblidad:
• Para i = 1, el primer conjunto p(x
4
[x
3
, x
2
, x
1
) es siempre compatible
pues A
1
= X
3
, X
2
, X
1
y S
1
= φ.
• Para i = 2, la segunda funci´ on p(x
3
[x
2
, x
1
) es compatible pues A
2
=
¦X
2
, X
1
¦ y S
2
= φ. En este caso se tiene B
2
= ¦Y
1
¦ = ¦X
4
¦. Por
tanto
p(b
2
, y
2
[a
2
) = p(x
4
, x
3
[x
2
, x
1
) = p(x
4
[x
3
, x
2
, x
1
)p(x
3
[x
2
, x
1
).
• Para i = 3, la funci´ on p(x
2
[x
1
) es compatible pues A
3
= ¦X
1
¦ y
S
3
= φ. En este caso se tiene B
3
= ¦Y
1
, Y
2
¦ = ¦X
4
, X
3
¦. Por tanto
p(b
3
, y
3
[a
3
) = p(x
4
, x
3
, x
2
[x
1
) = p(x
4
, x
3
[x
2
, x
1
)p(x
2
[x
1
).
• Para i = 4, la siguiente funci´ on, p(x
1
), tambi´en es compatible pues
S
4
= A
4
= φ. En este caso se tiene B
4
= ¦Y
1
, Y
2
, Y
3
¦ = ¦X
4
, X
3
, X
2
¦.
Por tanto
p(b
4
, y
4
[a
4
) = p(x
4
, x
3
, x
2
, x
1
) = p(x
4
, x
3
, x
2
[x
1
)p(x
1
).
En consecuencia, el conjunto P
1
es consistente.
7.7 Modelos probabil´ısticos definidos Condicionalmente 319
Variable Par´ ametros libres
X
1
θ
10
= p(¯ x
1
)
X
2
θ
200
= p(¯ x
2
[¯ x
1
)
θ
201
= p(¯ x
2
[x
1
)
X
3
θ
3000
= p(¯ x
3
[¯ x
1
, ¯ x
2
)
θ
3001
= p(¯ x
3
[¯ x
1
, x
2
)
θ
3010
= p(¯ x
3
[x
1
, ¯ x
2
)
θ
3011
= p(¯ x
3
[x
1
, x
2
)
X
4
θ
40000
= p(¯ x
4
[¯ x
1
, ¯ x
2
, ¯ x
3
)
θ
40001
= p(¯ x
4
[¯ x
1
, ¯ x
2
, x
3
)
θ
40010
= p(¯ x
4
[¯ x
1
, x
2
, ¯ x
3
)
θ
40011
= p(¯ x
4
[¯ x
1
, x
2
, x
3
)
θ
40100
= p(¯ x
4
[x
1
, ¯ x
2
, ¯ x
3
)
θ
40101
= p(¯ x
4
[x
1
, ¯ x
2
, x
3
)
θ
40110
= p(¯ x
4
[x
1
, x
2
, ¯ x
3
)
θ
40111
= p(¯ x
4
[x
1
, x
2
, x
3
)
TABLA 7.3. Conjunto de par´ametros correspondientes a las funciones de
probabilidad condicionada del Ejemplo 7.21.
Ejemplo 7.22 Conjunto inconsistente. Consid´erese el siguiente con-
junto de funciones de probabilidad condicionada definidas en el conjunto
de cuatro variables X = ¦X
1
, X
2
, X
3
, X
4
¦:
P
2
= ¦p(x
4
[x
3
, x
2
, x
1
), p(x
3
[x
4
, x
2
, x
1
), p(x
2
[x
1
), p(x
1
)¦.
De la misma forma que en el ejemplo anterior, se aplica el Algoritmo 7.2
para comprobar la consistencia de este conjunto:
• La primera funci´ on, p(x
4
[x
3
, x
2
, x
1
), puede darse sin ninguna restric-
ci´on.
• En cambio, ha de comprobarse la consistencia de la segunda condici´ on,
p(x
3
[x
4
, x
2
, x
1
), pues S
2
= ¦X
4
¦ = φ. La ecuaci´on (7.80) determina la
estructura de esta funci´ on para ser consistente con la primera funci´ on
dada. Se tiene
p(x
3
[x
4
, x
2
, x
1
) =
p(x
3
[x
2
, x
1
)
¸
x
3
p(x
3
[x
2
, x
1
)p(x
4
[x
3
, x
2
, x
1
)
, (7.85)
320 7. Extensiones de los Modelos Gr´aficos
Utilizando los par´ ametros dados en la Tabla 7.3, (7.85) resulta
p( ¯ x
3
[ ¯ x
4
, ¯ x
2
, ¯ x
1
) =
θ
3000
θ
3000
θ
40000

40001
−θ
3000
θ
40001
,
p( ¯ x
3
[x
4
, ¯ x
2
, x
1
) =
θ
3010
1 −θ
3010
θ
40100
−θ
40101

3010
θ
40101
,
p( ¯ x
3
[ ¯ x
4
, x
2
, ¯ x
1
) =
θ
3001
θ
3001
θ
40010

40011
−θ
3001
θ
40011
,
p( ¯ x
3
[x
4
, x
2
, x
1
) =
θ
3011
1 −θ
3011
θ
40110
−θ
40111

3011
θ
40111
,
p( ¯ x
3
[x
4
, ¯ x
2
, ¯ x
1
) =
θ
3000
1 −θ
3000
θ
40000
−θ
40001

3000
θ
40001
,
p( ¯ x
3
[ ¯ x
4
, ¯ x
2
, x
1
) =
θ
3010
θ
3010
θ
40100

40101
−θ
3010
θ
40101
,
p( ¯ x
3
[x
4
, x
2
, ¯ x
1
) =
θ
3001
1 −θ
3001
θ
40010
−θ
40011

3001
θ
40011
,
p( ¯ x
3
[ ¯ x
4
, x
2
, x
1
) =
θ
3011
θ
3011
θ
40110

40111
−θ
3011
θ
40111
.
(7.86)
• La tercera y la cuarta de las funciones de probabilidad, p(x
2
[x
1
) y
p(x
1
), son consistentes, pues S
3
= S
4
= φ.
Por tanto, cualquier combinaci´ on de valores de los par´ ametros de las fun-
ciones en P
2
que no cumpla las condiciones en (7.86) define un modelo no
consistente.
Ejemplo 7.23 Conjunto inconsistente. Consid´erese el siguiente con-
junto de funciones de probabilidad condicionada sobre el conjunto X:
P
3
= ¦p(x
4
[x
2
, x
1
, x
3
, x
5
), p(x
2
[x
1
, x
3
, x
5
), p(x
1
[x
4
, x
3
, x
5
), p(x
3
[x
2
, x
5
), p(x
5
)¦.
Eligiendo la permutaci´ on ¦Y
1
, Y
2
, Y
3
, Y
4
, Y
5
¦ = ¦X
4
, X
2
, X
1
, X
3
, X
5
¦, el
conjunto P
3
cumple las condiciones de unicidad. Aplicando el Algoritmo
7.2 a este conjunto se tiene:
• Para i = 1, la primera funci´ on, p(x
4
[x
2
, x
1
, x
3
, x
5
), es siempre com-
patible pues A
1
= ¦X
2
, X
1
, X
3
, X
5
¦ y S
1
= φ.
• Para i = 2, la funci´ on, p(x
2
[x
1
, x
3
, x
5
), tambi´en es compatible, dado
que A
2
= ¦X
1
, X
3
, X
5
¦ y S
2
= φ. Se tiene B
2
= ¦Y
1
¦ = ¦X
4
¦; por
tanto
p(b
2
, y
2
[a
2
) = p(x
4
, x
2
[x
1
, x
3
, x
5
) = p(x
4
[x
2
, x
1
, x
3
, x
5
)p(x
2
[x
1
, x
3
, x
5
).
7.7 Modelos probabil´ısticos definidos Condicionalmente 321
• Para i = 3, ha de comprobarse la consistencia de la tercera funci´ on,
p(x
1
[x
4
, x
3
, x
5
), dado que A
3
= ¦X
3
, X
5
¦ y S
3
= ¦X
4
¦ = φ. En
este caso se tiene B
3
= ¦Y
1
, Y
2
¦ = ¦X
4
, X
2
¦, y se necesita calcular
p(s
3
[y
3
, a
3
) = p(x
4
[x
1
, x
3
, x
5
) utilizando (7.83). Se obtiene
p(x
4
[x
1
, x
3
, x
5
) =
¸
x
2
p(x
4
, x
2
[x
1
, x
3
, x
5
).
Tambi´en se necesita calcular R
3
utilizando (7.78):
R
3
= p(y
3
[a
3
) = p(x
1
[x
3
, x
5
) =
p(x
1
[x
4
, x
3
, x
5
)/p(x
4
[x
1
, x
3
, x
5
)
¸
x
1
(p(x
1
[x
4
, x
3
, x
5
)/p(x
4
[x
1
, x
3
, x
5
))
.
Entonces, si R
3
no depende de X
4
, la funci´ on p(x
1
[x
4
, x
3
, x
5
) es com-
patible con las funciones de probabilidad condicionada anteriores. En
caso contrario, el conjunto es incompatible. Para ilustrar el resto del
proceso, sup´ ongase que este conjunto es compatible. En ese caso, la
funci´ on p(x
1
[x
4
, x
3
, x
5
) se reemplaza por R
3
y se calcula
p(b
3
, y
3
[a
3
) = p(x
4
, x
2
, x
1
[x
3
, x
5
) = p(x
4
, x
2
[x
1
, x
3
, x
5
)p(x
1
[x
3
, x
5
).
• Para i = 4, ha de comprobarse la consistencia del cuarto conjunto,
p(x
3
[x
2
, x
5
), dado que se tiene A
4
= ¦X
5
¦ y S
4
= ¦X
2
¦ = φ. En este
caso, resulta B
4
= ¦Y
1
, Y
2
, Y
3
¦ = ¦X
4
, X
2
, X
1
¦, y se necesita calcular
p(s
4
[y
4
, a
4
) = p(x
2
[x
3
, x
5
) utilizando (7.83). Se obtiene
p(x
2
[x
3
, x
5
) =
¸
x
1
,x
4
p(x
4
, x
2
, x
1
[x
3
, x
5
).
Igualmente, utilizando (7.78) el valor siguiente de R
4
es
R
4
= p(y
4
[a
4
) = p(x
3
[x
5
) =
p(x
3
[x
2
, x
5
)/p(x
2
[x
3
, x
5
)
¸
x
3
(p(x
3
[x
2
, x
5
)/p(x
2
[x
3
, x
5
)
.
Si R
4
no depende de la variable X
2
, la funci´ on p(x
3
[x
2
, x
5
) es com-
patible con las funciones anteriores. En caso contrario, el conjunto de
funciones es incompatible. Al igual que en el caso anterior, sup´ ongase
que esta funci´ on es compatible. Entonces, la funci´ on p(x
3
[x
2
, x
5
) se
reemplaza por R
4
. Tambi´en se calcula
p(b
4
, y
4
[a
4
) = p(x
4
, x
2
, x
1
, x
3
[x
5
) = p(x
4
, x
2
, x
1
[x
3
, x
5
)p(x
3
[x
5
).
• Finalmente, para i = 5, la ´ ultima funci´ on, p(x
5
), es compatible pues
A
5
= φ y S
5
= φ.
Por tanto, si R
3
depende de X
4
o R
4
depende de X
2
, entonces P
3
es in-
consistente; en caso contrario el modelo es consistente.
322 7. Extensiones de los Modelos Gr´aficos
En los ejemplos anteriores se pueden constatar las siguientes aplicaciones
pr´ acticas del Teorema 7.7:
1. Cualquier funci´ on de probabilidad con buenas propiedades (para ase-
gurar la existencia de funciones de probabilidad condicionada) puede
ser representada por un modelo definido condicionalmente.
2. Si se incrementan las componentes can´onicas est´andar con infor-
maci´on adicional, entonces ser´ a necesario comprobar la compatibi-
lidad del conjunto resultante.
3. Si el conjunto de funciones de probabilidad condicionada est´ a dado en
forma est´andar, entonces estas funciones pueden definirse de forma ar-
bitraria, es decir, no est´ an restringidas por ninguna condici´ on distinta
de los axiomas propios de la probabilidad.
4. Cualquier funci´ on de probabilidad condicionada de la forma p(x
i
[s
i
, a
i
),
con S
i
= φ, puede ser reemplazada por una funci´ on en forma can´ onica
est´andar p(x
i
[a
i
) sin modificar la funci´ on de probabilidad de las
variables. La funci´ on en forma can´ onica est´andar puede obtenerse
utilizando (7.78).
5. Los Teoremas 7.6 y 7.7 y los Algoritmos 7.1 y 7.3 (definidos en la
secci´on siguiente) proporcionan una forma de construir un I-mapa
del modelo definido condicionalmente.
Los Teoremas 7.6 y 7.7 proporcionan una soluci´ on para los Problemas
7.5 y 7.6. Por tanto, cuando se define un modelo probabil´ıstico mediante
un conjunto de funciones de probabilidad condicionada es preferible definir
solamente el conjunto m´ınimo de funciones necesarias para la unicidad del
modelo. Cualquier otra informaci´ on ser´a redundante y podr´ a dar lugar a in-
consistencias en el modelo. Por tanto, se tiene una soluci´on al Problema 7.7.
Adem´as, dado un conjunto consistente de funciones de probabilidad condi-
cionada P que define un ´ unico modelo probabil´ıstico, se puede reemplazar
este conjunto por otro equivalente P

dado en forma can´ onica est´andar.
Por tanto, se tiene una soluci´ on al Problema 7.8.
7.7.3 Definici´on de un Modelo Definido Condicionalmente
El Teorema 7.7 supone que el conjunto de funciones de probabilidad con-
dicionada dado cumple las hip´ otesis de unicidad. Por ello, la unicidad del
conjunto habr´ a de comprobarse antes que la compatibilidad. De esta forma,
inicialmente se convierte el conjunto a forma can´ onica, despu´es se com-
prueba su unicidad utilizando el Teorema 7.6 y, finalmente, se comprueba
su consistencia utilizando el Teorema 7.7.
Cuando S
i
= φ o U
i
= φ para todo i, la consistencia est´a garantizada y
se dice que la forma can´onica es un forma can´ onica est´andar y los t´erminos
7.7 Modelos probabil´ısticos definidos Condicionalmente 323
p(y
i
[a
i
), o p(y
i
[b
i
), se denominan componentes can´onicas est´andar. En caso
contrario, ha de comprobarse la compatibilidad del conjunto.
El algoritmo siguiente permite determinar si un conjunto P cumple las
condiciones de unicidad y permite obtener los subconjuntos cuya compati-
bilidad ha de comprobarse.
Algoritmo 7.3 Definici´on de un modelo definido condicionalmente.
• Datos: Un conjunto X de n variables y un conjunto can´ onico de
funciones de probabilidad condicionada P = ¦p(x
i
[s
i
); i = 1, . . . , m¦.
• Resultados: La lista Q
1
de subconjuntos de P que cumplen la con-
dici´ on de unicidad y el conjunto C
1
de subconjuntos de P cuya
compatibilidad ha de comprobarse.
El algoritmo consiste en un procedimiento, Compatible, que inicia el con-
junto Soluciones = φ, ejecuta el procedimiento recursivo CompatibleAux
(con X, P, y las listas vac´ıas C
2
y Q
2
como argumentos), e imprime las
Soluciones:
1. Definir i ←1, y m ← n´ umero de funciones en P.
2. Definir P
1
←P, V ←X, C
1
←C
2
y Q
1
←Q
2
.
3. Si p(x
i
[s
i
) ∈ P
1
es tal que V ∪ S
i
⊃ V , hacer lo siguiente:
• Eliminar la funci´ on p(x
i
[s
i
) de P
1
y a˜ nadirla a Q
1
.
• Si V ∪ S
i
= V a˜ nadir p(x
i
[s
i
) a C
1
.
• Eliminar de P
1
cualquier funci´ on p(x
r
[s
r
) ∈ P
1
tal que X
r
= X
i
y a˜ nadirla a C
1
.
• Si P = φ ejecutar el Algoritmo 7.3 de forma recursiva, con ar-
gumentos V ` X
i
y P
1
, y a˜ nadir a C la lista C
1
resultante y a
Q la lista Q
1
resultante; en caso contrario, a˜ nadir su resultado
a Soluciones.
• Ir a la Etapa 4.
En caso contrario, ir a la Etapa 4.
4. Si i < m, considerar i = i +1 y repetir la Etapa 3; en caso contrario,
devolver C
1
y Q
1
.
El Algoritmo 7.3 considera un conjunto de funciones de la forma (7.73).
Sin embargo, puede ser f´ acilmente modificado para tratar funciones de la
forma (7.74).
La Figura 7.9 muestra un programa recursivo de Mathematica que im-
plementa el Algoritmo 7.3. La funci´ on Compatible[X, P] tiene dos argu-
mentos, X y P, donde X es la lista de variables y P es la lista de funciones
324 7. Extensiones de los Modelos Gr´aficos
de probabilidad condicionada. Por ejemplo, para ejecutar el programa con
X = ¦A, B, C¦ y
P = ¦p(a), p(b[a), p(c[a, b)¦ (7.87)
se necesita ejecutar las siguientes sentencias de Mathematica:
X=¦A,B,C¦;
P=List[¦¦A¦,¦¦¦,¦¦B¦,¦A¦¦,¦¦C¦,¦A,B¦¦];
Compatible[X,P];
La primera de las sentencias define la lista de variables, la segunda de-
fine la lista P, y la tercera llama a la funci´ on Compatible[X, P], con los
argumentos X y P.
La funci´ on Compatible[X, P] genera dos listas como resultado, Q y C. La
lista Q contiene todos los conjuntos posibles de funciones de P que definen
una ´ unica funci´ on de probabilidad conjunta. El n´ umero de subconjuntos de
C es igual al de Q. Para cada conjunto en Q, el conjunto correspondiente en
C es el formado por las funciones cuya consistencia ha de ser comprobada
para que el modelo sea consistente.
Cuando el conjunto P defina una ´ unica funci´ on de probabilidad, el con-
junto Q contendr´ a un ´ unico subconjunto, que coincide con P, y el conjunto
C ser´a vac´ıo. Cuando el conjunto P sea consistente pero no defina un
´ unico modelo probabil´ıstico, tanto Q como C ser´an conjuntos vac´ıos. Este
programa se ilustra con los siguientes ejemplos.
Ejemplo 7.24 Conjunto verificando unicidad y compatibilidad.
Consid´erese el conjunto de variables ¦A, B, C¦, y el conjunto de funciones
de probabilidad condicionada (7.87). Es sencillo ver que el conjunto P
cumple las hip´ otesis del Corolario 7.5 y, por tanto, define una ´ unica funci´ on
de probabilidad que est´ a dada por
p(a, b, c) = p(a)p(b[a)p(c[a, b). (7.88)
Este resultado puede obtenerse utilizando el programa de la Figura 7.9.
Para ejecutar el programa primero han de definirse los conjuntos X y P y,
a continuaci´ on, ejecutar la funci´ on Compatible[X, P]. Esta funci´ on produce
como resultado las listas: Q = P y C = φ.
Ejemplo 7.25 Unicidad pero posible inconsistencia. Consid´erese el
conjunto de variables ¦A, B, C¦, y el de funciones de probabilidad condi-
cionada
P = ¦p(a[b, c), p(b[c), p(b[c, a), p(c[a, b)¦. (7.89)
El programa de Mathematica mostrado en la Figura 7.9 permite obtener los
subconjuntos que definen una ´ unica funci´ on de probabilidad conjunta de
las tres variables. Para ello, es necesario ejecutar las siguientes sentencias:
X=¦A,B,C¦;
7.7 Modelos probabil´ısticos definidos Condicionalmente 325
Remov[CM ,j ]:=Join[Take[CM,j-1],
Take[CM,¦j+1,Length[CM]¦]]
Compatible[X ,P ]:=Module[¦¦,
Soluciones=¦¦;CompatibleAux[X,P,¦¦,¦¦];
Soluciones
]
CompatibleAux[X ,P ,C2 ,Q2 ]:=
Module[¦Xi,V,i,Q1,C1¦,
Do[
P1=P;V=X;C1=C2;Q1=Q2;
Uni=Union[P1[[i,1]],P1[[i,2]]];
If[Uni==Union[V,Uni],AppendTo[Q1,P1[[i]]];
Xi=P1[[i,1]];If[Uni !=V, AppendTo[C1,P1[[i]]]];
P1=Remov[P1,i];
Do[
If[Xi==P1[[k,1]],
AppendTo[C1,P1[[k]]];P1=Remov[P1,k],
True
],
¦k,Length[P1],1,-1¦];
If[P1!=¦¦,
Res=CompatibleAux[Complement[V,Xi],P1,C1,Q1];
C1=Union[C1,Res[[1]]];Q1=Union[Q1,Res[[2]]],
AppendTo[Soluciones,¦Q1,C1¦]
]
],
¦i,1,Length[P]¦];
Return[¦C1,Q1¦]]
FIGURA 7.9. Programa de Mathematica para comprobar si un conjunto P cumple
las condiciones de unicidad y compatibilidad.
P=List[¦¦A¦,¦B,C¦¦,¦¦B¦,¦C¦¦,¦¦B¦,¦C,A¦¦,¦¦C¦,¦A,B¦¦];
Compatible[X,P];
La Tabla 7.4 muestra el resultado del programa. En este caso se han
obtenido nueve listas distintas en Q (conjuntos de funciones que definen
una ´ unica funci´ on de probabilidad) y C (conjuntos de funciones cuya con-
sistencia ha de ser comprobada). Por ejemplo, ha de comprobarse la consis-
tencia de las funciones p(b[c, a) y p(c[a, b) del primer conjunto de la lista C
con las correspondientes funciones del primer conjunto de Q. Si estas fun-
ciones son consistentes, entonces el conjunto ¦p(a[b, c), (b[c), (c[a, b)¦ define
326 7. Extensiones de los Modelos Gr´aficos
Conjunto Lista Q Lista C
1 p(a[b, c), p(b[c), p(c[a, b) p(b[c, a), p(c[a, b)
2 p(a[b, c), p(b[c, a), p(c[a, b) p(b[c, a), p(b[c), p(c[a, b)
3 p(a[b, c), p(c[a, b), p(b[c) p(c[a, b), p(b[c), p(b[c, a)
4 p(a[b, c), p(c[a, b), p(b[c, a) p(c[a, b), p(b[c, a), p(b[c)
5 p(b[c, a), p(a[b, c), p(c[a, b) p(b[c), p(a[b, c), p(c[a, b)
6 p(b[c, a), p(c[a, b), p(a[b, c) p(b[c), p(c[a, b), p(a[b, c)
7 p(c[a, b), p(a[b, c), p(b[c) p(a[b, c), p(b[c), p(b[c, a)
8 p(c[a, b), p(a[b, c), p(b[c, a) p(a[b, c), p(b[c, a), p(b[c)
9 p(c[a, b), p(b[c, a), p(a[b, c) p(b[c, a), p(b[c), p(a[b, c)
TABLA 7.4. Resultados del programa de Mathematica de la Figura 7.9 aplicado
al conjunto P en (7.89). La segunda columna muestra los conjuntos de funciones
posibles que cumplen las hip´otesis de unicidad. La tercera muestra los conjuntos
cuya compatibilidad ha de comprobarse.
un ´ unico modelo probabil´ıstico que puede expresarse como
p(a, b, c) = p(a[b, c)p(b[c)p(c),
donde p(c) ha de ser calculado a partir de (7.81).
Ejercicios
7.1 Utilizar el Algoritmo 6.6 para demostrar que las aristas L
13
y L
35
en
la Figura 7.3(a) son reversibles.
7.2 Hallar la condici´ on para que se cumpla (7.5).
7.3 Verificar que al utilizar (7.37) como factorizaci´ on de referencia, el
Algoritmo 7.1 obtiene las soluciones dadas en (7.42).
7.4 Utilizar el criterio de D-separaci´on de la Definici´ on 5.4 para verificar:
(a) Que cada relaci´ on de independencia en (7.63) es implicada por
el grafo dirigido ac´ıclico de la Figura 7.7(a).
(b) Que cada relaci´ on de independencia en (7.64) es implicada por
el grafo dirigido ac´ıclico de la Figura 7.7(b).
7.5 (a) Comprobar que la factorizaci´ on de la funci´ on de probabilidad
en (7.43) implica la lista de relaciones de independencia dada en
(7.63).
7.7 Modelos probabil´ısticos definidos Condicionalmente 327
(b) Comprobar que la factorizaci´ on de la funci´ on de probabilidad
en (7.44) implica la lista de relaciones de independencia dada en
(7.64).
7.6 Consid´erese el conjunto de variables ¦X
1
, X
2
, X
3
, X
4
¦ distribuidas de
forma normal cuya funci´ on de probabilidad satisface las relaciones de
independencia
I(X
2
, X
3
[X
1
) y I(X
1
, X
4
[X
2
, X
3
).
Comprobar que la estructura de la matriz de covarianzas asociada
est´a dada por

¸
¸
¸
¸
¸
σ
11
σ
12
σ
13
α
σ
12
σ
22
σ
12
σ
13
σ
11
σ
24
σ
13
σ
12
σ
13
σ
11
σ
33
σ
34
α σ
24
σ
34
σ
44
¸

,
donde
α =
σ
11

12
σ
24

11
σ
33
−σ
2
13
) +σ
13
σ
34

11
σ
22
−σ
2
12
))
σ
2
11
σ
22
σ
33
−σ
2
12
σ
2
13
.
7.7 Suponer que las variables ¦X
1
, . . . , X
7
¦ est´an distribuidas de forma
normal y su funci´ on de probabilidad satisface las independencias
I(X
3
, ¦X
1
, X
2
¦[φ), I(X
1
, X
4
[¦X
2
, X
3
¦), y I(X
7
, ¦X
1
, X
2
, X
3
¦[X
4
).
Comprobar que la estructura de la matriz de covarianzas asociada
est´a dada por

¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
σ
11
σ
12
0
σ
12
σ
24
σ
22
σ
15
σ
16
σ
12
σ
24
σ
47
σ
22
σ
44
σ
12
σ
22
0 σ
24
σ
25
σ
26
σ
24
σ
47
σ
44
0 0 σ
33
σ
34
σ
35
σ
36
σ
34
σ
47
σ
44
σ
12
σ
24
σ
22
σ
24
σ
34
σ
44
σ
45
σ
46
σ
47
σ
15
σ
25
σ
35
σ
45
σ
55
σ
56
σ
57
σ
16
σ
26
σ
36
σ
46
σ
56
σ
66
σ
67
σ
12
σ
24
σ
47
σ
22
σ
44
σ
24
σ
47
σ
44
σ
34
σ
47
σ
44
σ
47
σ
57
σ
67
σ
77
¸

.
7.8 Consid´erese el conjunto de variables X = ¦X
1
, X
2
, X
3
, X
4
, X
5
¦ y las
relaciones de independencia siguientes:
• p(x
1
, x
2
, x
3
[x
4
, x
5
), p(x
4
, x
5
[x
1
, x
2
, x
3
) y
• p(x
1
, x
3
[x
2
), p(x
2
, x
4
, x
5
[x
1
).
A B
C D
E F
G H
I J
A B
C D
E F
G H
I J
328 7. Extensiones de los Modelos Gr´aficos
Utilizando los m´etodos descritos en este cap´ıtulo
(a) Reescribir el conjunto anterior en forma can´ onica.
(b) ¿Satisface cada conjunto las condiciones de unicidad?
(c) ¿Satisface cada conjunto las condiciones de compatibilidad?
(d) Encontrar un conjunto sencillo de funciones de probabilidad
condicionada en forma can´ onica que cumpla las condiciones de
unicidad y compatibilidad y construir la red Bayesiana asociada.
7.9 Dado el conjunto X = ¦X
1
, X
2
, X
3
, X
4
¦, encontrar las condiciones
para que el siguiente conjunto de funciones de probabilidad condicio-
nada sea compatible:
p(x
1
[x
2
), p(x
2
[x
3
),
p(x
3
[x
2
, x
1
) = p(x
3
[x
2
), p(x
4
[x
3
, x
2
, x
1
) = p(x
4
[x
3
).
7.10 ¿Cuales son las condiciones para que las variables aleatorias discretas
X
1
y X
2
sean compatibles?
7.11 Encontrar la familia m´ as general de variables aleatorias normales
X = ¦X
1
, X
2
, X
3
, X
4
¦ que cumpla las siguientes relaciones de in-
dependencia:
¦I(x
1
, x
2
[¦x
3
, x
4
¦), I(x
3
, x
1
[x
2
), I(x
4
, x
2
[x
3
)¦.
7.12 Encontrar la familia m´ as general de modelos definidos por el multi-
grafo de la Figura 7.10.
FIGURA 7.10. Ejemplo de multigrafo.
7.13 Dada la funci´ on de probabilidad p(a, b, c, d) = p(a)p(b[a)p(c[a)p(d[b),
encontrar
7.7 Modelos probabil´ısticos definidos Condicionalmente 329
(a) La funci´ on compatible m´ as general de la forma p(c[a, b).
(b) La funci´ on compatible m´ as general de la forma p(c[a, b) cuando
se reemplaza p(d[b) por p(d[a, b, c) en la factorizaci´ on anterior.
7.14 Sup´ ongase el conjunto de funciones de probabilidad condicionada
dado en forma can´ onica (7.74). Modificar el Algoritmo 7.3 para tratar
este caso.
7.15 Utilizar el programa de la Figura 7.9 para comprobar si el conjunto
de funciones de probabilidad condicionada (7.75) cumple las hip´ otesis
de unicidad.
7.16 Utilizando el Algoritmo 7.2, encontrar las restricciones para que el
conjunto (7.75) cumpla la consistencia y, por tanto, defina un ´ unico
modelo probabil´ıstico.
7.17 Escribir un corolario similar al Corolario 7.4 para el conjunto de
funciones de probabilidad (7.77).
7.18 Dibujar un diagrama de flujo similar al mostrado en la Figura 7.8 para
el caso en el que el conjunto de funciones tenga la estructura dada
en (7.77). Escribir el algoritmo correspondiente, similar al Algoritmo
7.2.
7.19 Dos expertos dan de forma independiente los siguientes conjuntos de
funciones de probabilidad condicionada para definir un modelo proba-
bil´ıstico para un conjunto de tres variables binarias X = ¦X
1
, X
2
, X
3
¦:
¦p(x
1
), p(x
2
[x
1
, x
3
), p(x
3
[x
1
, x
2
)¦.
El primer experto da los valores mostrados en la Tabla 7.5, mientras
que el segundo da los valores correspondientes de la Tabla 7.6. Deter-
minar cu´ al de los dos conjuntos define un ´ unico modelo probabil´ıstico.
This is page 330
Printer: Opaque this
x
1
p(x
1
)
0 0.3
1 0.7
x
1
x
3
x
2
p(x
2
[x
1
, x
3
)
0 0 0 0.40
0 0 1 0.60
0 1 0 0.40
0 1 1 0.60
1 0 0 0.20
1 0 1 0.80
1 1 0 0.20
1 1 1 0.80
x
1
x
2
x
3
p(x
3
[x
1
, x
2
)
0 0 0 0.90
0 0 1 0.10
0 1 0 0.70
0 1 1 0.30
1 0 0 0.50
1 0 1 0.50
1 1 0 0.60
1 1 1 0.40
TABLA 7.5. Valores num´ericos asociados al primer conjunto de funciones
condicionadas.
x
1
p(x
1
)
0 0.3
1 0.7
x
1
x
3
x
2
p(x
2
[x
1
, x
3
)
0 0 0 0.30
0 0 1 0.70
0 1 0 0.40
0 1 1 0.60
1 0 0 0.10
1 0 1 0.90
1 1 0 0.50
1 1 1 0.50
x
1
x
2
x
3
p(x
3
[x
1
, x
2
)
0 0 0 0.90
0 0 1 0.10
0 1 0 0.70
0 1 1 0.30
1 0 0 0.50
1 0 1 0.50
1 1 0 0.60
1 1 1 0.40
TABLA 7.6. Valores num´ericos asociados al segundo conjunto de funciones
condicionadas.
This is page 331
Printer: Opaque this
Cap´ıtulo 8
Propagaci´ on Exacta en Redes
Probabil´ısticas
8.1 Introducci´ on
En los cap´ıtulos anteriores se han analizado diversas formas de definir una
base de conocimiento coherente para un sistema experto probabil´ıstico.
´
Esta est´a formada por la funci´ on de probabilidad conjunta de las varia-
bles que componen el modelo. Una vez definida, una de las tareas m´ as
importantes de un sistema experto consiste en obtener conclusiones a me-
dida que se va conociendo nueva informaci´ on, o evidencia. Por ejemplo,
en el ´area m´edica, la principal tarea de los sistemas expertos consiste en
obtener un diagn´ ostico para un determinado paciente que presenta cier-
tos s´ıntomas (evidencia). El mecanismo para obtener conclusiones a partir
de la evidencia se conoce como propagaci´ on de evidencia
1
o, simplemente,
propagaci´ on. Esta tarea consiste en actualizar las probabilidades de las
variables en funci´ on de la evidencia. En el caso del diagn´ ostico m´edico, se
trata de conocer las probabilidades de cada una de las enfermedades, dados
los s´ıntomas observados en el paciente.
Existen tres tipos distintos de algoritmos de propagaci´ on: exactos, aproxi-
mados y simb´olicos. Un algoritmo de propagaci´ on se denomina exacto si
calcula las probabilidades de los nodos sin otro error que el resultante del
redondeo producido por las limitaciones de c´ alculo del ordenador. En este
1
Algunos autores se refieren a la propagaci´on de evidencia utilizando otra
terminolog´ıa como propagaci´ on de incertidumbre, inferencia probabil´ıstica, etc.
332 8. Propagaci´on Exacta en Redes Probabil´ısticas
cap´ıtulo se analizan detalladamente algunos de los m´etodos de propagaci´ on
exacta m´as importantes.
Los algoritmos de propagaci´ on aproximada utilizan distintas t´ecnicas de
simulaci´on para obtener valores aproximados de las probabilidades. Estos
algoritmos se utilizan en aquellos casos en los que los algoritmos exactos no
son aplicables, o son computacionalmente costosos y se analizan en detalle
en el Cap´ıtulo 9. Finalmente, un algoritmo de propagaci´ on simb´ olica puede
operar no s´ olo con par´ ametros num´ericos, sino tambi´en con par´ ametros
simb´olicos, obteniendo las probabilidades en forma simb´ olica, es decir, en
funci´ on de los par´ ametros. El Cap´ıtulo 10 analiza este problema e introduce
algunos m´etodos de propagaci´ on simb´ olica.
Algunos de los m´etodos exactos que se describen en este cap´ıtulo son apli-
cables tanto a redes de Markov como a redes Bayesianas. Sin embargo, otros
m´etodos son solamente v´alidos para redes Bayesianas, ya que aprovechan
la representaci´on de la funci´ on de probabilidad propia de estos modelos. De
la misma forma, algunos de estos m´etodos de propagaci´ on son propios de
modelos discretos, mientras que otros pueden ser aplicados a modelos dis-
cretos y continuos. La Secci´on 8.2 introduce el problema de la propagaci´ on
de evidencia y analiza algunos de sus aspectos computacionales asociados.
En la Secci´ on 8.3 se presenta un algoritmo eficiente de propagaci´ on para
un tipo simple de modelos probabil´ısticos: las redes Bayesianas con estruc-
tura de poli´ arbol. Este algoritmo ilustra las ideas b´ asicas que se aplican
posteriormente en otros algoritmos de propagaci´ on. Las Secciones 8.4−8.7
presentan otros m´etodos de propagaci´ on para redes m´ as complejas (redes
m´ ultiplemente conexas). La Secci´on 8.5 presenta el m´etodo de propagaci´ on
por condicionamiento, en la Secci´on 8.6 se analiza el m´etodo de propagaci´ on
por agrupamiento, y en la Secci´on 8.7 se presenta el m´etodo de propagaci´ on
en ´arboles de conglomerados. En la Secci´ on 8.8 se analiza el problema de
la propagaci´ on orientada a un objetivo. Finalmente, la Secci´ on 8.9 ana-
liza el caso de modelos continuos, mostrando un algoritmo para propagar
evidencia en redes Bayesianas Gausianas.
8.2 Propagaci´ on de Evidencia
La propagaci´ on de evidencia es una de las tareas m´as importantes de un
sistema experto, pues permite obtener conclusiones cuando se dispone de
nueva informaci´ on (s´ıntomas, etc.). Sup´ ongase un conjunto de variables
discretas X = ¦X
1
, . . . , X
n
¦ y una funci´ on de probabilidad p(x), en X.
Cuando no se dispone de ninguna informaci´ on, es decir, cuando no exis-
te evidencia, el proceso de propagaci´ on consiste en calcular las probabi-
lidades marginales p(X
i
= x
i
), tambi´en denotadas por p(x
i
), para cada
X
i
∈ X. Estas probabilidades proporcionan informaci´ on “a priori” sobre
los distintos valores que pueden tomar las variables.
8.2 Propagaci´on de Evidencia 333
Cuando se dispone de cierta evidencia, es decir, cuando se conoce un
conjunto de variables E ⊂ X que tienen asociadas los valores X
i
= e
i
, para
X
i
∈ E, el proceso de propagaci´ on debe tener en cuenta estos valores para
calcular las nuevas probabilidades de los nodos.
Definici´on 8.1 Evidencia. Un subconjunto de variables E ⊂ X cuyos va-
lores son conocidos, E = e, en una situaci´ on dada, se conoce como conjunto
de evidencia, o simplemente evidencia.
En esta situaci´ on, la propagaci´ on de evidencia consiste en calcular las fun-
ciones de probabilidad condicionada p(x
i
[e) para cada variable X
i
∈ E,
dada la evidencia E = e. Estas funciones de probabilidad condicionada
miden el efecto producido por la evidencia en cada variable. Cuando no
se dispone de evidencia (E = φ), las funciones condicionadas p(x
i
[e) son
simplemente las funciones de probabilidad marginal p(x
i
).
Un forma de calcular las probabilidades p(x
i
[e) consiste en utilizar la
f´ ormula (3.5), que implica
p(x
i
[e) =
p(x
i
, e)
p(e)
∝ p(x
i
, e), (8.1)
donde 1/p(e) es una constante de proporcionalidad. Por tanto, se puede
obtener p(x
i
[e), calculando y normalizando las probabilidades marginales
p(x
i
, e). De esta forma se tiene
p(x
i
, e) =
¸
x\{x
i
,e}
p
e
(x
1
, . . . , x
n
), (8.2)
donde p
e
(x
1
, . . . , x
n
) es la funci´ on de probabilidad obtenida sustituyendo
en p(x
1
, . . . , x
n
) las variables con evidencia, E, por sus valores e. Por tanto,
para calcular p(x
i
, e), ha de sumarse p
e
(x
1
, . . . , x
n
) para todas las posibles
combinaciones de valores de las variables que no est´en contenidas en E,
excepto la variable X
i
. Cuando no se dispone de evidencia, la ecuaci´ on
(8.2) se reduce a
p(x
i
) =
¸
x\x
i
p(x
1
, . . . , x
n
). (8.3)
Debido al elevado n´ umero de combinaciones de valores que involucra
(8.3), este m´etodo de “fuerza bruta” resulta altamente ineficiente, incluso
en redes con un n´ umero reducido de variables. Por ejemplo, en el caso de
variables binarias, la ecuaci´ on (8.3) requiere la suma de 2
n−1
probabilidades
distintas. En la Figura 8.1 se muestra el tiempo de computaci´ on necesario
para calcular p(x
i
) en un ordenador personal. Esta figura muestra que
el tiempo de computaci´on crece de forma exponencial con el n´ umero de
variables del modelo, n. Puede observarse que este m´etodo es ineficiente
incluso para modelos con s´ olo unas decenas de variables.
10 12 14 16 18 20
0
5
10
15
20
n
t
i
e
m
p
o
334 8. Propagaci´on Exacta en Redes Probabil´ısticas
FIGURA 8.1. Tiempo de computaci´on (minutos) necesario para calcular p(x
i
)
utilizando (8.3) para modelos probabil´ısticos de n variables.
El problema de las ecuaciones (8.2) y (8.3) es que no tienen en cuenta la
estructura de independencia contenida en la funci´ on de probabilidad p(x).
El n´ umero de c´alculos necesarios en el proceso de propagaci´on puede ser
reducido de forma importante, teniendo en cuenta las distintas relaciones
de independencia entre las variables de la funci´ on de probabilidad p(x). En
el ejemplo siguiente se ilustra este hecho.
Ejemplo 8.1 Utilizando la estructura de independencia. Consid´erese
el modelo probabil´ıstico formado por el conjunto de variables X = ¦A, . . . , G¦
y una funci´ on de probabilidad p(x) que puede ser factorizada seg´ un el grafo
dirigido ac´ıclico mostrado en la Figura 8.2 (ver Secci´ on 6.4.4)
p(x) =
n
¸
i=1
p(x
i

i
) = p(a)p(b)p(c[a)p(d[a, b)p(e)p(f[d)p(g[d, e), (8.4)
donde π
i
es una realizaci´on de Π
i
, el conjunto de los padres del nodo X
i
.
Sup´ ongase que desean calcularse las probabilidades marginales de los nodos,
es decir, las probabilidades iniciales cuando no se conoce ninguna evidencia.
En ese caso, el m´etodo m´as sencillo para obtener p(x
i
) es marginalizar la
funci´ on de probabilidad utilizando (8.3). Por ejemplo, las probabilidades
iniciales de la variable D se pueden obtener mediante
p(d) =
¸
x\d
p(x) =
¸
a,b,c,e,f,g
p(a, b, c, d, e, f, g). (8.5)
Considerando el caso m´as simple, es decir, suponiendo que todas las va-
riables son binarias, el sumatorio anterior contendr´ıa 2
6
= 64 t´erminos
distintos.
Una forma m´ as eficiente de calcular esas probabilidades es utilizar la es-
tructura de independencia contenida en la funci´ on de probabilidad conjunta
p(x). Esta estructura se pone de manifiesto en la factorizaci´ on (8.4), que
C D E
F G
A B
8.2 Propagaci´on de Evidencia 335
FIGURA 8.2. Un grafo dirigido ac´ıclico.
permite simplificar tanto el proceso de definici´ on del modelo probabil´ıstico,
como el proceso de propagaci´on de evidencia. El n´ umero de operaciones en
(8.5) puede ser reducido agrupando los t´erminos dentro del sumatorio de
la forma siguiente:
p(d) =
¸
a,b,c,e,f,g
p(a)p(b)p(c[a)p(d[a, b)p(e)p(f[d)p(g[d, e)
=

¸
¸
a,b,c
p(a)p(b)p(c[a)p(d[a, b)
¸

¸
¸
e,f,g
p(e)p(g[d, e)p(f[d)
¸

,(8.6)
donde cada uno de los dos sumatorios puede ser calculado de forma in-
dependiente. Por tanto, el problema original de marginalizar una funci´ on
de probabilidad de seis variables se reduce a marginalizar dos funciones
que dependen s´ olo de tres variables. Dado que el tiempo de computaci´ on
necesario para calcular cada sumatorio es exponencial en el n´ umero de va-
riables, la complejidad de los c´ alculos se simplifica enormemente. En este
ejemplo, se ha reducido el n´ umero de t´erminos de cada sumatorio (de 64 a
2
3
+ 2
3
= 16) y el n´ umero de factores de cada uno de los t´erminos (de 7
a 4 y de 7 a 3, respectivamente). Puede obtenerse una reducci´ on adicional
utilizando de nuevo la estructura dada por la factorizaci´ on para reordenar
los t´erminos dentro de los sumatorios de (8.6) de la forma siguiente:
¸
a
¸
p(a)
¸
c
¸
p(c[a)
¸
b
p(b)p(d[a, b)
¸¸
¸
e

p(e)
¸
f
¸
p(f[d)
¸
g
p(g[d, e)
¸
¸
¸
,
reduciendo el n´ umero de t´erminos que aparecen dentro de cada sumatorio.
El ejemplo anterior ilustra las simplificaciones que pueden obtenerse uti-
lizando la estructura de independencia contenida en el modelo probabil´ıstico.
En este cap´ıtulo se describen varios algoritmos de propagaci´ on que tienen
en cuenta dicha estructura. En la Secci´ on 8.3 se describe un algoritmo muy
C D E
F G
A B
D
336 8. Propagaci´on Exacta en Redes Probabil´ısticas
eficiente para redes con estructura de poli´ arbol. A continuaci´ on, se presen-
tan otros m´etodos m´as generales para tratar el problema de propagaci´ on
en redes probabil´ısticas con estructura arbitraria.
8.3 Propagaci´ on en Poli´ arboles
El poli´ arbol es uno de los modelos gr´ aficos m´as simples para construir
redes Bayesianas. En esta secci´on se presenta un algoritmo de propagaci´ on
para este tipo de modelos probabil´ısticos (ver Kim y Pearl (1983) y Pearl
(1986b)). La caracter´ıstica principal de este algoritmo es que su complejidad
es lineal en el tama˜ no de la red (es decir en el n´ umero de nodos y aristas
que la componen), a diferencia del m´etodo de fuerza bruta que requiere
un n´ umero exponencial de operaciones para realizar la propagaci´ on (ver
Figura 8.1).
Como ya se ha visto en el Cap´ıtulo 4, en un poli´ arbol dos nodos cua-
lesquiera est´an unidos por un ´ unico camino, lo cual implica que cada nodo
divide al poli´ arbol en dos poli´ arboles inconexos: uno que contiene a sus
padres y a los nodos a los que est´a conectado a pasando por sus padres, y
otro que incluye sus hijos y a los nodos a los que est´ a conectado pasando
por sus hijos. Por ejemplo, el nodo D divide al poli´ arbol de la Figura 8.2 en
dos poli´ arboles inconexos, el primero de los cuales, ¦A, B, C¦, incluye a sus
padres y a los nodos que son accesibles desde D a trav´es de sus padres, y el
segundo, ¦E, F, G¦, que incluye a sus hijos y a los nodos que son accesibles
desde D a trav´es de sus hijos. Este hecho se muestra en la Figura 8.3, en
la cual tambi´en puede comprobarse que el nodo D separa a estos dos con-
juntos, es decir, que se verifica gr´ aficamente la relaci´on de independencia
I(¦A, B, C¦, ¦E, F, G¦[D).
FIGURA 8.3. El nodo D divide al poli´arbol en dos poli´arboles inconexos.
El proceso de propagaci´ on puede realizarse en este tipo de grafos de
un modo eficiente combinando la informaci´ on procedente de los distintos
subgrafos mediante el env´ıo de mensajes (c´alculos locales) de un subgrafo
a otro.
8.3 Propagaci´on en Poli´arboles 337
Sup´ ongase que se conoce una cierta evidencia E = e y que se quieren
calcular las probabilidades p(x
i
[e) para todos los valores x
i
de un nodo
cualquiera X
i
que no est´e contenido en E. Para facilitar el c´ alculo de estas
probabilidades, el conjunto de evidencia E se puede descomponer en dos
subconjuntos disjuntos, cada uno de los cuales est´ a contenido en uno de los
poli´ arboles separados por el nodo X
i
en el poli´ arbol original. Por tanto, E
se puede descomponer como:
• E
+
i
, que es el subconjunto de E accesible desde X
i
a trav´es de sus
padres.
• E

i
, que es el subconjunto de E accesible desde X
i
a trav´es de sus
hijos.
Por tanto, se tiene E = E
+
i
∪ E

i
. En algunos casos se utilizar´ a E
+
X
i
en
lugar de E
+
i
. Aplicando (8.1) se tiene
p(x
i
[e) = p(x
i
[e

i
, e
+
i
) =
1
p(e

i
, e
+
i
)
p(e

i
, e
+
i
[x
i
)p(x
i
).
Dado que X
i
separa E

i
de E
+
i
en el poli´ arbol, es decir, dado que se cumple
la relaci´ on de independencia I(E

i
, E
+
i
[X
i
), entonces se tiene
p(x
i
[e) =
1
p(e

i
, e
+
i
)
p(e

i
[x
i
) p(e
+
i
[x
i
)p(x
i
)
=
1
p(e

i
, e
+
i
)
p(e

i
[x
i
) p(x
i
, e
+
i
)
= k p(e

i
[x
i
) p(x
i
, e
+
i
)
= k λ
i
(x
i
) ρ
i
(x
i
),
donde k = 1/p(e

i
, e
+
i
) es una constante de normalizaci´ on,
λ
i
(x
i
) = p(e

i
[x
i
), (8.7)
que tiene en cuenta la evidencia procedente de los hijos de X
i
, y
ρ
i
(x
i
) = p(x
i
, e
+
i
), (8.8)
que tiene en cuenta la evidencia procedente de los padres de X
i
. Por tanto,
la funci´ on de probabilidad condicionada sin normalizar viene dada por
β
i
(x
i
) = λ
i
(x
i

i
(x
i
). (8.9)
Entonces
p(x
i
[e) = k β
i
(x
i
) ∝ β
i
(x
i
). (8.10)
X
U
1
U
p
Y
1
Y
c
i
338 8. Propagaci´on Exacta en Redes Probabil´ısticas
Para calcular las funciones λ
i
(x
i
), ρ
i
(x
i
) y β
i
(x
i
), se considera la si-
tuaci´ on siguiente, en la que un nodo arbitrario X
i
tiene p padres y c hi-
jos. Para simplificar la notaci´ on, los padres se representan mediante U =
¦U
1
, . . . , U
p
¦ y los hijos mediante Y = ¦Y
1
, . . . , Y
c
¦, tal como se ilustra en
la Figura 8.4.
FIGURA 8.4. Los padres e hijos de un nodo arbitrario X
i
.
Teniendo en cuenta la estructura del poli´ arbol, el conjunto de evidencia
E
+
i
puede ser descompuesto en p subconjuntos disjuntos, uno para cada
padre de X
i
:
E
+
i
= ¦E
+
U
1
X
i
, . . . , E
+
U
p
X
i
¦, (8.11)
donde la evidencia E
+
U
j
X
i
es el subconjunto de E
+
i
contenido en el subgrafo
asociado al nodo U
j
cuando se elimina la arista U
j
→X
i
. De forma similar,
la evidencia E

i
tambi´en puede ser dividida en c subconjuntos disjuntos,
uno asociado a cada hijo de X
i
:
E

i
= ¦E

X
i
Y
1
, . . . , E

X
i
Y
c
¦, (8.12)
donde E

X
i
Y
j
es el subconjunto de E

i
contenido en el subgrafo asociado
al nodo Y
j
cuando se elimina la arista X
i
→Y
j
. La Figura 8.5 muestra los
distintos subconjuntos de evidencia asociados al nodo X
i
.
Sea u = ¦u
1
, . . . , u
p
¦ una realizaci´ on de los padres del nodo X
i
. Entonces,
la funci´ on ρ
i
(x
i
) puede ser calculada de la forma siguiente:
ρ
i
(x
i
) = p(x
i
, e
+
i
) =
¸
u
p(x
i
, u ∪ e
+
i
)
=
¸
u
p(x
i
[u ∪ e
+
i
)p(u ∪ e
+
i
)
=
¸
u
p(x
i
[u ∪ e
+
i
)p(u ∪ e
+
U
1
X
i
∪ . . . ∪ e
+
U
p
X
i
).
X
U
1
U
p
Y
1
Y
c
i
E
U
1
X
i
+
E
U
p
X
i
+
E
X
i
Y
1
-
E
X
i
Y
c
-
E
X
i
+
E
X
i
-
8.3 Propagaci´on en Poli´arboles 339
FIGURA 8.5. Divisi´on del conjunto E en subconjuntos asociados a los padres e
hijos de un nodo arbitrario X
i
.
Dado que ¦U
j
, E
+
U
j
X
i
¦ es incondicionalmente independiente de ¦U
k
, E
+
U
k
X
i
¦
para j = k, se tiene
ρ
i
(x
i
) =
¸
u
p(x
i
[u ∪ e
+
i
)
p
¸
j=1
p(u
j
∪ e
+
U
j
X
i
)
=
¸
u
p(x
i
[u ∪ e
+
i
)
p
¸
j=1
ρ
U
j
X
i
(u
j
), (8.13)
donde
ρ
U
j
X
i
(u
j
) = p(u
j
∪ e
+
U
j
X
i
) (8.14)
es el mensaje ρ que el nodo U
j
env´ıa a su hijo X
i
. Este mensaje s´olo
depende de la informaci´ on contenida en el subgrafo asociado al nodo U
j
cuando se elimina la arista U
j
→ X
i
. Obs´ervese que si U
j
es una variable
con evidencia, u
j
= e
j
, entonces el mensaje correspondiente, ρ
U
j
X
i
(u
j
), es
la funci´ on trivial
ρ
U
j
X
i
(u
j
) =

1, si u
j
= e
j
,
0, si u
j
= e
j
.
(8.15)
La funci´ on λ
i
(x
i
) puede ser calculada de forma an´ aloga:
λ
i
(x
i
) = p(e

i
[x
i
) = p(e

X
i
Y
1
, . . . , e

X
i
Y
s
[x
i
).
X
U
1
U
p
Y
1 Y
c
i
ρ

U
1
X
i
ρ

X
i
Y
1
λ
X
i
U
1
λ
Y
1
X
i
λ
Y
c
X
i
λ
X
i
Up
ρ

X
i
Y
c
ρ

UpX
i
340 8. Propagaci´on Exacta en Redes Probabil´ısticas
Dado que X
i
D-separa E

X
i
Y
j
de E

X
i
Y
k
para j = k, entonces se tiene
2
λ
i
(x
i
) =
c
¸
j=1
λ
Y
j
X
i
(x
i
), (8.16)
donde
λ
Y
j
X
i
(x
i
) = p(e

X
i
Y
j
[x
i
) (8.17)
es el mensaje λ que el nodo Y
j
env´ıa a su padre X
i
.
A partir de (8.13) puede verse que un nodo X
i
puede calcular su funci´ on
ρ, ρ
i
(x
i
), una vez que haya recibido los mensajes ρ de todos sus padres.
De forma similar, a partir de (8.16) puede observarse que la funci´ on λ
i
(x
i
)
puede ser calculada una vez que X
i
haya recibido los mensajes λ de todos
sus hijos. La Figura 8.6 muestra los distintos mensajes asociados a un nodo
arbitrario X
i
.
FIGURA 8.6. Mensajes ρ y λ enviados y recibidos por un nodo X
i
.
Substituyendo (8.13) y (8.16) en (8.10), se tiene
p(x
i
[e) ∝ β
i
(x
i
) =

¸
¸
u
p(x
i
[u ∪ e
+
i
)
p
¸
j=1
ρ
U
j
X
i
(u
j
)
¸

¸
c
¸
j=1
λ
Y
j
X
i
(x
i
)
¸

.
A continuaci´ on se calculan los distintos mensajes que aparecen en la
f´ ormula anterior. Considerando de nuevo un nodo arbitrario X
i
y uno
2
Recu´erdese que se dice que un nodo Z D-separa a X de Y , si y s´olo si Z
separa X e Y en el grafo moral del menor subconjunto ancestral que contenga a
X, Y y Z ( Definici´on 5.4). Recu´erdese tambi´en que un conjunto se dice ancestral
si contiene a los ascendientes de todos sus nodos (ver Definici´on 4.20).
8.3 Propagaci´on en Poli´arboles 341
cualquiera de sus hijos, Y
j
, y utilizando la igualdad
E
+
X
i
Y
j
= E
+
i
¸
k=j
E

X
i
Y
k
,
se tiene
ρ
X
i
Y
j
(x
i
) = p(x
i
∪ e
+
X
i
Y
j
)
= p(x
i
∪ e
+
i
¸
k=j
e

X
i
Y
k
)
= p(e
+
i
[x
i
¸
k=j
e

X
i
Y
k
)p(x
i
¸
k=j
e

X
i
Y
k
)
= p(e
+
i
[x
i
)p(
¸
k=j
e

X
i
Y
k
[x
i
)p(x
i
)
∝ p(x
i
[e
+
i
)
¸
k=j
p(e

X
i
Y
k
[x
i
)
∝ ρ
i
(x
i
)
¸
k=j
λ
Y
k
X
i
(x
i
). (8.18)
Obs´ervese que si X
i
es un nodo con evidencia, entonces (8.18) tambi´en es
v´ alido si se considera la funci´ on ρ siguiente para este nodo: ρ
i
(x
i
) = 1 si
x
i
= e
i
, y ρ
i
(x
i
) = 0 si x
i
= e
i
. En este caso, el valor de ρ
X
i
Y
j
(x
i
) obtenido
a partir de (8.18) es el mismo que se obtiene de (8.15). Este hecho hace
m´as sencilla la implementaci´on de este m´etodo de propagaci´ on.
Por otra parte, para calcular el mensaje λ
Y
j
X
i
(x
i
), se considera el con-
junto de todos los padres de Y
j
distintos de X
i
, V = ¦V
1
, . . . , V
q
¦. Por
tanto, el nodo Y
j
tiene q + 1 padres, como se muestra en la Figura 8.7.
Entonces,
e

X
i
Y
j
= e

Y
j
∪ e
+
V Y
j
,
donde e
+
V Y
j
representa la evidencia obtenida a trav´es de todos los padres
de Y
j
, excepto de X
i
. Por tanto, se tiene
λ
Y
j
X
i
(x
i
) = p(e

X
i
Y
j
[x
i
) =
¸
y
j
,v
p(y
j
, v, e

X
i
Y
j
[x
i
)
=
¸
y
j
,v
p(y
j
, v, e

Y
j
, e
+
V Y
j
[x
i
)
=
¸
y
j
,v
p(e

Y
j
[y
j
, v, e
+
V Y
j
, x
i
)p(y
j
[v, e
+
V Y
j
, x
i
)p(v, e
+
V Y
j
[x
i
)
=
¸
y
j
p(e

Y
j
[y
j
)
¸
v
p(y
j
[v, x
i
)p(v, e
+
V Y
j
), (8.19)
donde la ´ ultima igualdad se ha obtenido considerando las relaciones de
independencia existentes entre los distintos conjuntos de evidencia. Por
X
U
1
U
p
Y
1
Y
c
i
Y
j
V
1
Vq
342 8. Propagaci´on Exacta en Redes Probabil´ısticas
tanto, (8.19) puede escribirse como
λ
Y
j
X
i
(x
i
) =
¸
y
j
λ
Y
j
(y
j
)
¸
v
1
,...,v
q
p(y
j

Y
i
)
q
¸
k=1
ρ
V
k
Y
j
(v
k
). (8.20)
FIGURA 8.7. Conjunto de padres de un hijo, Y
j
, del nodo X
i
.
A partir de las ecuaciones (8.13), (8.16), (8.18) y (8.20) se puede concluir
lo siguiente:
• La ecuaci´on (8.13) muestra que la funci´ on ρ
i
(x
i
) puede ser calculada
tan pronto como el nodo X
i
haya recibido los mensajes ρ de todos
sus padres.
• La ecuaci´on (8.16) muestra que la funci´ on λ
i
(x
i
) puede ser calculada
tan pronto como el nodo X
i
haya recibido los mensajes λ de todos
sus hijos.
• La ecuaci´on (8.18) muestra que el nodo X
i
puede enviar el mensaje
ρ
X
i
Y
j
(x
i
) a su hijo Y
j
tan pronto como haya calculado su funci´ on
ρ
i
(x
i
) y haya recibido los mensajes λ del resto de sus hijos.
• La ecuaci´on (8.20) muestra que el nodo X
i
puede enviar el mensaje
λ
X
i
U
j
(u
j
) a su padre U
j
tan pronto como haya calculado su funci´ on
λ
i
(x
i
) y haya recibido los mensajes ρ del resto de sus padres.
La discusi´ on anterior sugiere el algoritmo iterativo siguiente para calcular
p(x
i
[e) para todos los nodos X
i
∈ E.
8.3 Propagaci´on en Poli´arboles 343
Algoritmo 8.1 Propagaci´on en Poli´arboles.
• Datos: Una red Bayesiana (D, P) definida sobre un conjunto de
variables X a partir de un poli´ arbol D y un conjunto de nodos
evidenciales E que toman los valores E = e.
• Resultados: Las funciones de probabilidad condicionada p(x
i
[e) para
cada nodo X
i
∈ E.
Etapa de Iniciaci´ on:
1. Asignar a todos los nodos evidenciales, X
i
∈ E, las funciones
• ρ
i
(x
i
) = 1 si x
i
= e
i
, o ρ
i
(x
i
) = 0 si x
i
= e
i
.
• λ
i
(x
i
) = 1 si x
i
= e
i
, o λ
i
(x
i
) = 0 si x
i
= e
i
.
(El efecto de esta asignaci´on es reducir los valores posibles de los
nodos evidenciales X
i
, eliminando todos aquellos valores que la con-
tradicen.)
2. Asignar a todos los nodos X
i
∈ E que no tengan padres la funci´ on
ρ
i
(x
i
) = p(x
i
).
3. Asignar a todos los nodos X
i
∈ E que no tengan hijos la funci´ on
λ
i
(x
i
) = 1, para todo x
i
.
Etapa Iterativa:
4. Para cada nodo X
i
∈ E:
(a) Si X
i
ha recibido los mensajes ρ de todos sus padres, calcular
ρ
i
(x
i
) utilizando (8.13).
(b) Si X
i
ha recibido los mensajes λ de todos sus hijos, calcular
λ
i
(x
i
) utilizando (8.16).
(c) Si ya se ha calculado ρ
i
(x
i
), entonces, para cada hijo Y
j
de X
i
tal
que X
i
haya recibido los mensajes λ del resto de sus hijos, cal-
cular y enviar el mensaje ρ
X
i
Y
j
(x
i
) utilizando (8.18). Por tanto,
si X
i
ha recibido los mensajes λ de todos sus hijos, entonces,
puede ya enviar todos los mensajes ρ correspondientes.
(d) Si ya se ha calculado λ
i
(x
i
), entonces, para cada padre U
j
de
X
i
tal que X
i
haya recibido los mensajes ρ del resto de sus
padres, calcular y enviar el mensaje λ
X
i
U
j
(u
i
) utilizando (8.20).
An´ alogamente al caso anterior, si X
i
ha recibido los mensajes ρ
de todos sus padres, entonces, ya puede enviar todos los men-
sajes λ correspondientes.
5. Repetir el Paso 4 tantas veces como sea necesario hasta que se cal-
culen las funciones ρ y λ de todos los nodos X
i
∈ E, es decir, hasta
que no se produzca ning´ un nuevo mensaje en una iteraci´ on completa.
344 8. Propagaci´on Exacta en Redes Probabil´ısticas
6. Para cada nodo X
i
∈ E, calcular β
i
(x
i
) utilizando (8.9). Estas son
las probabilidades no normalizadas correspondientes a p(x
i
[e).
7. Para cada nodo X
i
∈ E, calcular p(x
i
[e) normalizando la funci´ on
β
i
(x
i
), es decir, p(x
i
[e) = β
i
(x
i
)/k, donde k =
¸
x
i
β
i
(x
i
).
Obs´ervese que durante el proceso de propagaci´ on, las funciones ρ y λ de
cada nodo se calculan en distintas etapas de la iteraci´ on. Por tanto, si s´ olo se
est´a interesado en una variable objetivo X
i
, el algoritmo puede detenerse
una vez que se conozcan las funciones ρ
i
(x
i
) y λ
i
(x
i
). En la Secci´ on 8.8
se muestra c´omo puede simplificarse el proceso de propagaci´on en esta
situaci´ on.
La estructura de env´ıo de mensajes utilizada en el Algoritmo 8.1 hace
posible su implementaci´on distribuida (paralela), en la que distintos proce-
sadores realizan diferentes tareas simult´aneas cuya combinaci´on permite
resolver el problema. Sup´ ongase que se asocia a cada nodo de la red su pro-
pio procesador. El procesador de un nodo arbitrario, X
i
, necesita conocer
la siguiente informaci´ on para calcular p(x
i
[e):
• Dos listas: una formada por los padres de X
i
y otra por los hijos.
Esta informaci´ on es independiente de la evidencia E.
• La funci´ on de probabilidad condicionada p(x
i

X
i
), que tambi´en es
independiente de la evidencia E. Si X
i
no tiene padres, entonces
p(x
i

X
i
) = p(x
i
), que es la funci´ on de probabilidad marginal de X
i
.
• La funci´ on ρ
i
(x
i
), que se calcula por el procesador correspondiente al
nodo X
i
utilizando (8.13).
• La funci´ on λ
i
(x
i
), que se calcula por el procesador asociado al nodo
X
i
utilizando (8.16).
• El mensaje ρ
U
j
X
i
(u
j
), recibido de cada uno de los padres, U
j
, del
nodo X
i
. Este mensaje se calcula por el procesador asociado al nodo
U
j
, utilizando (8.18).
• El mensaje λ
Y
j
X
i
(x
i
), recibido de cada uno de los hijos, Y
j
del nodo
X
i
. Este mensaje se calcula por el procesador asociado al nodo Y
j
,
utilizando (8.20).
Una vez que el procesador del nodo X
i
ha recibido la informaci´ on an-
terior, puede calcular las probabilidades no normalizadas β
i
(x
i
) utilizando
(8.9). Finalmente, normalizando estos valores se obtiene la funci´ on de pro-
babilidad condicionada p(x
i
[e).
Por otra parte, cada procesador tiene que calcular los siguientes mensajes
para enviar a sus vecinos:
λ
X
i
U
1
(u
1
) λ
X
i
Up
(up)
λ
X
i
U
k
(u
k
) Ecuación para
ρ
U
1
X
i
(u
1
)
ρ
UpX
i
(up)
λ
i
(x
i
) Ecuación para
p(x
i
|e)
p(x
i
|e) Ecuación para
Ecuación para
ρ
U
k
X
i
(u
k
)
p(x
i
|u)
ρ
X
i
Y
1
(x
i
)
ρ
X
i
Y
c
(x
i
) λ
Y
1
X
i
(x
i
) λ
Y
c
X
i
(x
i
)
ρ
i
(x
i
) Ecuación para
8.3 Propagaci´on en Poli´arboles 345
• El mensaje ρ
X
i
Y
j
(x
i
), que es enviado a cada hijo Y
j
del nodo X
i
. Este
mensaje se calcula por el procesador asociado al nodo X
i
, utilizando
(8.18).
• El mensaje λ
X
i
U
j
(u
j
), que es enviado a cada padre U
j
del nodo
X
i
. Este mensaje se calcula por el procesador asociado al nodo X
i
,
utilizando (8.20).
La Figura 8.8 muestra los c´ alculos realizados por el procesador de un
nodo arbitrario, X
i
, as´ı como los mensajes recibidos y enviados desde el
nodo. Esta figura ilustra las operaciones b´ asicas necesarias para una imple-
mentaci´on paralela de este algoritmo (este problema se trata en detalle en
D´ıez y Mira (1994)).
FIGURA 8.8. C´alculos realizados por el procesador de un nodo arbitrario X
i
y
mensajes que son recibidos y enviados a padres e hijos.
La complejidad del Algoritmo 8.1 es lineal en el n´ umero de nodos y
aristas (el tama˜ no de la red). Por tanto, cuando una red Bayesiana tiene
estructura de poli´ arbol, el proceso de propagaci´ on puede ser llevado a cabo
de forma eficiente mediante este algoritmo. Como se ver´a m´as adelante, el
problema de la propagaci´ on en redes Bayesianas con estructura arbitraria
346 8. Propagaci´on Exacta en Redes Probabil´ısticas
es un problema NP-complejo
3
(ver Cooper (1990)). Esto significa que no
existe ning´ un algoritmo que resuelva el problema en tiempo lineal para
redes Bayesianas con cualquier topolog´ıa. Las Secciones 8.5−8.7 presentan
varios algoritmos de propagaci´ on exacta para este tipo de redes.
Peot y Shachter (1991) y Delcher y otros (1995) presentan algunas mo-
dificaciones del algoritmo de propagaci´ on en poli´ arboles que mejoran su
eficiencia.
Ejemplo 8.2 Propagaci´on en poli´arboles (I). Consid´erese la red Ba-
yesiana introducida en el Ejemplo 8.1 cuyo grafo dirigido ac´ıclico se muestra
en la Figura 8.2. La funci´ on de probabilidad de la red Bayesiana puede ser
factorizada seg´ un este grafo como
p(a, b, c, d, e, f, g) = p(a)p(b)p(c[a)p(d[a, b)p(e)p(f[d)p(g[d, e).
Para simplificar los c´ alculos se supondr´ a que las variables son binarias. Las
funciones de probabilidad condicionada que definen el modelo se muestran
en la Tabla 8.1.
En primer lugar, se considera el caso de no disponer de evidencia. Por
tanto, el algoritmo de propagaci´ on en poli´ arboles permitir´ a obtener las
funciones de probabilidad iniciales p(x
i
), de todos los nodos del grafo. A
continuaci´ on se considera la evidencia D = 0 y se utiliza el mismo algoritmo
para actualizar las probabilidades, es decir, para obtener las funciones de
probabilidad condicionada p(x
i
[D = 0) para todos los nodos X
i
= D.
Para ilustrar las distintas etapas del algoritmo, se describen todos los
pasos realizados, siguiendo el orden alfab´etico de los nodos en cada paso de
iteraci´on. En el caso de no disponer de evidencia, el Algoritmo 8.1 consta
de los siguientes pasos:
Etapa de Iniciaci´on:
• En este caso no se aplica el primer paso de la etapa de iniciaci´on,
pues no se tiene evidencia.
• Las funciones ρ de los nodos sin padres, A, B y E, se definen como
ρ
A
(a) = p(a), ρ
B
(b) = p(b), ρ
E
(e) = p(e).
Por tanto, a partir de los valores mostrados en la Tabla 8.1, se tiene
ρ
A
(0) = 0.3, ρ
B
(0) = 0.6, ρ
E
(0) = 0.1,
ρ
A
(1) = 0.7, ρ
B
(1) = 0.4, ρ
E
(1) = 0.9.
3
Para una introducci´on a la complejidad de algoritmos y a los problemas
NP-complejo el lector puede consultar el libro de Garey y Johnson (1979).
8.3 Propagaci´on en Poli´arboles 347
a p(a)
0 0.3
1 0.7
b p(b)
0 0.6
1 0.4
e p(e)
0 0.1
1 0.9
a c p(c[a)
0 0 0.25
0 1 0.75
1 0 0.50
1 1 0.50
d f p(f[d)
0 0 0.80
0 1 0.20
1 0 0.30
1 1 0.70
a b d p(d[a, b)
0 0 0 0.40
0 0 1 0.60
0 1 0 0.45
0 1 1 0.55
1 0 0 0.60
1 0 1 0.40
1 1 0 0.30
1 1 1 0.70
d e g p(g[d, e)
0 0 0 0.90
0 0 1 0.10
0 1 0 0.70
0 1 1 0.30
1 0 0 0.25
1 0 1 0.75
1 1 0 0.15
1 1 1 0.85
TABLA 8.1. Funciones de probabilidad condicionada de la red Bayesiana del
Ejemplo 8.2.
• Las funciones λ de los nodos sin hijos, C, F y G, se definen como
λ
C
(0) = 1.0, λ
F
(0) = 1.0, λ
G
(0) = 1.0,
λ
C
(1) = 1.0, λ
F
(1) = 1.0, λ
G
(1) = 1.0.
La Figura 8.9 muestra las funciones ρ y λ calculadas en la etapa de ini-
ciaci´on. Los n´ umeros indican el orden en el que se calculan las diferentes
funciones.
Primer Paso de Iteraci´on:
• Nodo A: Aplicando al nodo A las reglas dadas en la etapa de iteraci´ on
del Algoritmo 8.1, se tiene
(a) La funci´ on ρ
A
(a) ha sido calculada en la etapa de iniciaci´ on.
(b) La funci´ on λ
A
(a) no puede ser calculada, pues A no ha recibido
el mensaje λ de ninguno de sus dos hijos, C y D.
(c) La funci´ on ρ
A
(a) ha sido calculada, pero A no puede enviar los
mensajes ρ
AC
(a) y ρ
AD
(a) a sus hijos, ya que no ha recibido los
mensajes λ de D y C, respectivamente.
ρ (2)
ρ (4)
λ (3)
λ (5) λ (6)
ρ (1)
C D E
F G
A B
348 8. Propagaci´on Exacta en Redes Probabil´ısticas
FIGURA 8.9. Etapa de iniciaci´on del algoritmo de propagaci´on en poli´arboles.
(d) Dado que el nodo A no tiene padres, no tiene que enviar ning´ un
mensaje λ.
Por tanto, no se realiza ning´ un c´ alculo asociado al nodo A en esta
etapa de iteraci´ on.
• Nodo B: Dado que el nodo D es el ´ unico hijo del nodo B, entonces
se puede calcular el mensaje ρ
BD
utilizando (8.18) y envi´ arselo a D:
ρ
BD
(b) = ρ
B
(b)
¸
y
j
\d
λ
Y
j
B
(b),
donde Y
j
es el hijo j-´esimo del nodo B. Dado que B s´olo tiene un
hijo, esta ecuaci´on se reduce a ρ
BD
(b) = ρ(b). Por tanto, se tiene

BD
(0), ρ
BD
(1)) = (0.6, 0.4).
• Nodo C: Dado que A es el ´ unico padre del nodo C, se puede calcular
y enviar el mensaje λ
CA
utilizando (8.20). En este caso se tiene
λ
CA
(a) =
¸
c
λ
C
(c)p(c[a),
que implica
λ
CA
(0) = λ
C
(0) p(C = 0[A = 0) +λ
C
(1) p(C = 1[A = 0)
= 1 0.25 + 1 0.75 = 1.00,
λ
CA
(1) = λ
C
(0) p(C = 0[A = 1) +λ
C
(1) p(C = 1[A = 1)
= 1 0.5 + 1 0.5 = 1.00.
• Nodo D: En esta etapa no se realiza ning´ un c´ alculo asociado al nodo
D, pues ´este no ha recibido ning´ un mensaje de sus padres e hijos.
8.3 Propagaci´on en Poli´arboles 349
• Nodo E: Como G es el ´ unico hijo del nodo E, se puede calcular y
enviar el mensaje ρ
EG
(e) utilizando (8.18). Procediendo de la misma
forma que para el nodo B, se obtiene ρ
EG
(e) = ρ(e). Por tanto,

EG
(0), ρ
EG
(1)) = (0.1, 0.9).
• Nodo F: La situaci´ on del nodo F es similar a la del nodo C. En este
caso se tiene
λ
FD
(d) =
¸
f
λ(f)p(f[d),
es decir, (λ
FD
(0), λ
FD
(1)) = (1.0, 1.0).
• Nodo G: El nodo G tiene dos padres, D y E; adem´as la funci´ on λ
G
(g)
fue calculada en el paso de iniciaci´ on, y G ha recibido el mensaje ρ
del nodo E. Por tanto, el nodo G puede calcular y enviar el mensaje
λ a su otro padre, D. Utilizando (8.20) se tiene
λ
GD
(d) =
¸
g
λ
G
(g)
¸
e
p(g[d, e)ρ
EG
(e),
que implica
λ
GD
(0) = λ
G
(0)
¸
e
p(G = 0[D = 0, e) ρ
EG
(e)

G
(1)
¸
e
p(G = 1[D = 0, e) ρ
EG
(e)
= 1.0 (0.9 0.1 + 0.7 0.9)
+1.0 (0.1 0.1 + 0.3 0.9) = 1.0,
λ
GD
(1) = λ
G
(0)
¸
e
p(G = 0[D = 1, e) ρ
EG
(e)

G
(1)
¸
e
p(G = 1[D = 1, e) ρ
EG
(e)
= 1.0 (0.25 0.1 + 0.15 0.9)
+1.0 (0.75 0.1 + 0.85 0.9) = 1.0.
Por tanto, se obtiene el mensaje (λ
GD
(0), λ
GD
(1)) = (1.0, 1.0).
La Figura 8.10 muestra el orden en el que las funciones y mensajes ρ y
λ han sido calculadas en el primer paso de iteraci´ on. Todas las funciones
correspondientes a la etapa anterior se muestran con menor intensidad para
distinguirlas de las nuevas funciones.
Segundo Paso de Iteraci´on:
• Nodo A: El nodo A tiene dos hijos, C y D. La funci´ on ρ
A
(a) ya
ha sido calculada y el nodo A ha recibido el mensaje λ del nodo
8
7
10 11
9
ρ (2)
ρ (4)
λ (3)
λ (5) λ (6)
ρ (1)
C D E
F G
A B
350 8. Propagaci´on Exacta en Redes Probabil´ısticas
FIGURA 8.10. Primer paso de iteraci´on del algoritmo de propagaci´on en
poli´arboles.
C. Entonces, se puede calcular el mensaje ρ y envi´ arselo al nodo D
utilizando (8.18):
ρ
AD
(a) = ρ
A
(a)λ
CA
(a).
Por tanto, se tiene (ρ
AD
(0), ρ
AD
(1)) = (0.3, 0.7).
• Los nodos B y C no han recibido los mensajes de los nodos D y
A, respectivamente. Por tanto, no se puede efectuar ning´ un c´ alculo
asociado a los nodos B y C en este paso de la iteraci´on.
• Nodo D: El nodo D ha recibido los mensajes ρ de sus dos padres A y
B. Por tanto, puede calcularse ρ
D
(d) utilizando (8.13):
ρ
D
(d) =
¸
a,b
p(d[a, b)ρ
AD
(a)ρ
BD
(b).
Por ejemplo, para D = 0 se tiene
ρ
D
(0) = p(D = 0[A = 0, B = 0) ρ
AD
(0)ρ
BD
(0)
+ p(D = 0[A = 0, B = 1) ρ
AD
(0)ρ
BD
(1)
+ p(D = 0[A = 1, B = 0) ρ
AD
(1)ρ
BD
(0)
+ p(D = 0[A = 1, B = 1) ρ
AD
(1)ρ
BD
(1)
= 0.4 0.3 0.6 + 0.45 0.3 0.4
+ 0.6 0.7 0.6 + 0.3 0.7 0.4 = 0.462.
De forma similar, para D = 1 se tiene ρ
D
(1) = 0.538. Adem´as, el nodo
D ha recibido el mensaje λ de sus dos hijos, F y G. Esto implica que
λ
D
(d) puede ser calculado utilizando (8.16):
λ
D
(d) = λ
FD
(d)λ
GD
(d),
8.3 Propagaci´on en Poli´arboles 351
obteni´endose (λ
D
(0), λ
D
(1)) = (1.0, 1.0).
Como el nodo D ha recibido los mensajes de todos sus padres e hijos,
entonces puede enviar todos los mensajes ρ y λ a sus padres e hijos.
Por ejemplo, utilizando (8.18) se pueden calcular los mensajes ρ
DF
(d)
y ρ
DG
(d) de la forma siguiente:
ρ
DF
(d) = ρ
D
(d)λ
GD
(d),
ρ
DG
(d) = ρ
D
(d)λ
FD
(d).
De forma similar, utilizando (8.20) se pueden calcular los mensajes
λ
DA
(a) y λ
DB
(b) de la forma siguiente:
λ
DA
(a) =
¸
d
λ
D
(d)
¸
b
p(d[a, b)ρ
BD
(b),
λ
DB
(b) =
¸
d
λ
D
(d)
¸
a
p(d[a, b)ρ
AD
(a).
Los valores num´ericos correspondientes a estos mensajes se muestran
en la Figura 8.13.
• El nodo E no ha recibido el mensaje λ de su hijo G. Por tanto, no se
puede realizar ning´ un c´ alculo con este nodo.
• Nodo F: El nodo F ha recibido el mensaje ρ
DF
(d) de su ´ unico padre,
D. Por tanto, puede calcular la funci´ on ρ
F
(f):
ρ
F
(f) =
¸
d
p(f[d)ρ
DF
(d),
obteni´endose (ρ
F
(0), ρ
F
(1)) = (0.531, 0.469).
• Nodo G: El Nodo G ha recibido los dos mensajes ρ de sus dos padres,
D y E. Por tanto, se puede calcular la funci´ on ρ
G
(g) utilizando (8.13):
ρ
G
(g) =
¸
d,e
p(g[d, e)ρ
DG
(d)ρ
EG
(e).
Por otra parte, la funci´ on λ
G
(g) tambi´en ha sido calculada. Por tanto,
se puede calcular y enviar el mensaje λ al nodo E. Utilizando (8.20)
se tiene:
λ
GE
(e) =
¸
g
λ
G
(g)
¸
d
p(g[d, e)ρ
DG
(d).
La Figura 8.11 muestra el orden en que se calculan y env´ıan las funciones
y mensajes en el paso de iteraci´on anterior.
Procediendo de la misma forma que en los pasos anteriores, en el ´ ultimo
paso de iteraci´ on se calculan las funciones y mensajes siguientes: λ
A
(a),
8
7
10 11
9
ρ (2)
ρ (4)
λ (3)
λ (5) λ (6)
ρ (1)
C D E
F G
A B
λ (14) ρ (13)
ρ (19) ρ (20)
17 18
12
16 15
21
8
7
10 11
9
ρ (2)
ρ (4)
λ (3)
λ (5) λ (6)
ρ (1)
C D E
F G
A B
λ (14) ρ (13)
ρ (19) ρ (20)
17 18
12
16 15
21
λ (22) λ (24)
λ (26)
ρ (25)
23
352 8. Propagaci´on Exacta en Redes Probabil´ısticas
FIGURA 8.11. Segundo paso de iteraci´on del algoritmo de propagaci´on en
poli´arboles.
ρ
AC
(a), λ
B
(b), ρ
C
(c) y λ
E
(e). La Figura 8.12 ilustra este ´ ultimo paso de la
etapa de iteraci´ on del algoritmo. En esta figura puede comprobarse que
todos los mensajes han sido enviados y todas las funciones ρ y λ han
sido calculadas. Por tanto, la etapa de iteraci´ on del algoritmo ha sido
completada.
FIGURA 8.12.
´
Ultimo paso de iteraci´on del algoritmo.
• En la Etapa 6 del algoritmo se calculan las funciones β. Dado que
en este caso no se tiene evidencia, las funciones y mensajes λ son
constantes para todos los nodos. Por tanto, en este caso β
i
(x
i
) =
ρ
i
(x
i
) para todos los nodos X
i
.
• En la ´ ultima etapa del algoritmo se obtienen las funciones de proba-
bilidad marginal, p(x
i
), normalizando las correspondientes funciones
β(x
i
). Sin embargo, en este caso las funciones β ya est´an normaliza-
das, por lo que no es necesario realizar ning´ un proceso de normaliza-
ci´on. Este hecho se muestra en la Figura 8.13, que contiene los valores
num´ericos de todas las funciones y mensajes calculados en el proceso
de propagaci´ on.
a
ρ
λ
0
1
0.3
p(a)
0.7
1.0
1.0
0.3
0.7
0.3
0.7
β
A
b
ρ
λ
0
1
0.6
p(b)
0.4
1.0
1.0
0.6
0.4
0.6
0.4
β
B
d
ρ
λ
0
1
0.462
p(d)
0.538
1.0
1.0
0.462
0.538
0.462
0.538
β
D
e
ρ
λ
0
1
0.1
p(e)
0.9
1.0
1.0
0.1
0.9
0.1
0.9
β
E
c
ρ
λ
0
1
0.425
p(c)
0.575
1.0
1.0
0.425
0.575
0.425
0.575
β
C
f
ρ
λ
0
1
0.531
p(f)
0.469
1.0
1.0
0.531
0.469
0.531
0.469
β
F
g ρ
λ
0
1
0.419
p(g)
0.581
1.0
1.0
0.419
0.581
0.419
0.581
β
G
ρ
A C λ
C A
1.0
1.0
0.3
0.7
a
0
1
ρ
A D λ
D A
1.0
1.0
0.3
0.7
a
0
1
ρ
B D λ
D B
1.0
1.0
0.6
0.4
b
0
1
ρ
D F λ
F D
1.0
1.0
0.462
0.538
d
0
1
ρ
D G λ
G D
1.0
1.0
0.462
0.538
d
0
1
ρ
E G λ
G E
1.0
1.0
0.1
0.9
e
0
1
8.3 Propagaci´on en Poli´arboles 353
FIGURA 8.13. Valores num´ericos de los mensajes y funciones calculados por el
algoritmo de propagaci´on en poli´arboles cuando no se dispone de evidencia.
Obs´ervese que cuando no se dispone de evidencia, todas las funciones y
mensajes λ (ver ecuaciones (8.16) y (8.20)) toman el valor 1. Por tanto, en
este caso no es necesario calcular estas funciones y mensajes. Sin embargo,
cuando se dispone de evidencia, los mensajes λ propagan la informaci´ on
basada en esta evidencia de padres a hijos y, por tanto, son mensajes no
triviales. Este hecho se ilustra en el ejemplo siguiente.
Ejemplo 8.3 Propagaci´on en poli´arboles (II). En este ejemplo se
considera de nuevo la red Bayesiana utilizada en el Ejemplo 8.2, pero ahora
se supone que se tiene la evidencia D = 0 y que se quieren actualizar las
probabilidades iniciales obtenidas en el ejemplo anterior seg´ un esta eviden-
cia. El Algoritmo 8.1 procede de la forma siguiente:
Etapa de Iniciaci´on:
• En este caso se tiene la evidencia D = 0. Por tanto, se definen las
funciones ρ y λ de este nodo de la forma siguiente:
ρ
D
(0) = 1.0, λ
D
(0) = 1.0,
ρ
D
(1) = 0.0, λ
D
(1) = 0.0.
• Las funciones ρ de los nodos sin padres se calculan directamente a
partir de las funciones de probabilidad marginales contenidas en la
354 8. Propagaci´on Exacta en Redes Probabil´ısticas
factorizaci´ on del modelo probabil´ıstico:
ρ
A
(0) = 0.3, ρ
B
(0) = 0.6, ρ
E
(0) = 0.1,
ρ
A
(1) = 0.7, ρ
B
(1) = 0.4, ρ
E
(1) = 0.9.
• Se asignan valores constantes a las funciones λ de los nodos sin hijos,
E, F y G:
λ
C
(0) = 1.0, λ
F
(0) = 1.0, λ
G
(0) = 1.0,
λ
C
(1) = 1.0, λ
F
(1) = 1.0, λ
G
(1) = 1.0.
Primer Paso de Iteraci´on:
• Los c´alculos correspondientes al primer paso de la iteraci´ on coinciden
con los realizados cuando no se ten´ıa evidencia. Por tanto, en este paso
se calculan los mensajes ρ
BD
(b), λ
CA
(a), ρ
EG
(e), λ
FD
(d) y λ
GD
(d)
obteni´endose los mismos resultados mostrados en la Figura 8.13.
Segunda Etapa de Iteraci´on:
• Nodo A: Se calcula el mensaje ρ
AD
(a) de la misma forma que cuando
no se ten´ıa evidencia, utilizando (8.18). En este caso se tiene el
mensaje (ρ
AD
(0), ρ
AD
(1)) = (0.3, 0.7).
• De la misma forma que cuando no se ten´ıa evidencia, en este paso de
la iteraci´ on no se puede realizar ninguna operaci´ on con los nodos B
y C.
• Nodo D: Las funciones ρ y λ del nodo D ya han sido calculadas en
la etapa de iniciaci´ on. El nodo D ha recibido todos los mensajes de
sus padres e hijos. Por tanto, puede enviar los mensajes ρ y λ a todos
sus hijos y padres, respectivamente. Aplicando (8.18) se calculan los
mensajes ρ
DF
(d) y ρ
DG
(d) de la forma siguiente:
ρ
DF
(d) = ρ
D
(d)λ
GD
(d),
ρ
DG
(d) = ρ
D
(d)λ
FD
(d).
Por ejemplo, los valores num´ericos asociados a ρ
DF
(d) son
ρ
DF
(0) = ρ
D
(0)λ
GD
(0) = 1.0 1.0 = 1.0,
ρ
DF
(1) = ρ
D
(1)λ
GD
(1) = 0.0 1.0 = 0.0.
De forma similar, para el mensaje ρ
DG
(d) se tiene ρ
DG
(0) = 1.0
y ρ
DG
(1) = 0.0. Aplicando (8.18) se pueden calcular los mensajes
λ
DA
(a) y λ
DB
(b) de la forma siguiente:
λ
DA
(a) =
¸
d
λ
D
(d)
¸
b
p(d[a, b)ρ
BD
(b),
λ
DB
(b) =
¸
d
λ
D
(d)
¸
a
p(d[a, b)ρ
AD
(a).
8.3 Propagaci´on en Poli´arboles 355
Por ejemplo, para el mensaje λ
DA
(a) se tienen los valores
λ
DA
(0) = λ
D
(0)
¸
b
p(D = 0[A = 0, b)ρ
BD
(b)
+ λ
D
(1)
¸
b
p(D = 1[A = 0, b)ρ
BD
(b)
= 1.0 (0.4 0.6 + 0.45 0.4)
+ 0.0 (0.6 0.6 + 0.55 0.4) = 0.42,
λ
DA
(0) = λ
D
(0)
¸
b
p(D = 0[A = 1, b)ρ
BD
(b)

D
(1)
¸
b
p(D = 1[A = 1, b)ρ
BD
(b)
= 1.0 (0.6 0.6 + 0.3 0.4)
+0.0 (0.4 0.6 + 0.7 0.4) = 0.48.
• De la misma forma que cuando no se ten´ıa evidencia, no se puede
realizar ning´ un c´ alculo asociado al nodo E. Sin embargo, se pueden
calcular las funciones ρ
F
(f) y ρ
G
(g), asociadas a los nodos F y G,
respectivamente, y el mensaje λ
GE
(e) que el nodo G env´ıa al nodo
E.
La Figura 8.14 muestra los valores num´ericos correspondientes al resto
de los mensajes.
La Figura 8.15(a) muestra las probabilidades iniciales de los nodos, cuan-
do no se considera evidencia, y la Figura 8.15(b) muestra las probabilidades
actualizadas cuando se considera la evidencia D = 0.
4
A partir de estas
figuras, se puede ver que la evidencia no afecta al nodo E (la probabilidad
marginal inicial coincide con la probabilidad condicionada actualizada). Sin
embargo, la evidencia afecta de forma importante a algunos nodos como,
por ejemplo, a los nodos F y G. La estructura de dependencia contenida en
el grafo permite determinar qu´e variables ser´an afectadas por la evidencia,
pero no la magnitud en que esta influencia modifica las probabilidades
de los nodos. El Cap´ıtulo 10 introduce algunos algoritmos de propagaci´ on
simb´olica que permiten determinar el grado de influencia de la evidencia
sobre cada nodo.
4
En la direcci´on WWW http://ccaix3.unican.es/˜AIGroup se puede obtener
la concha para redes Bayesianas X-pert Nets y los ficheros necesarios para resolver
los ejemplos anteriores.
a
ρ
λ
0
1
0.30
p(a)
0.70
0.42
0.48
0.126
0.336
β
A
b
ρ
λ
0
1
0.60
p(b)
0.40
0.540
0.345
0.324
0.138
0.701
0.299
β
B
d
ρ
λ
0
1
1.0
p(d)
0.0
1.0
0.0
1.0
0.0
1.0
0.0
β
D
e
ρ
λ
0
1
0.10
p(e)
0.90
0.462
0.462
0.046
0.412
0.1
0.9
β
E
c
ρ
λ
0
1
0.432
p(c)
0.568
1.0
1.0
0.432
0.568
0.432
0.568
β
C
f
ρ
λ
0
1
0.8
p(f)
0.2
1.0
1.0
0.8
0.2
0.8
0.2
β
F
g ρ
λ
0
1
0.72
p(g)
0.28
1.0
1.0
0.72
0.28
0.72
0.28
β
G
ρ
A C λ
C A
1.0
1.0
0.273
0.727
a
0
1
ρ
A D λ
D A
0.42
0.48
0.3
0.7
a
0
1
ρ
B D λ
D B
0.540
0.345
0.60
0.40
b
0
1
ρ
D F λ
F D
1.0
1.0
1.0
0.0
d
0
1
ρ
D G λ
G D
1.0
1.0
1.0
0.0
d
0
1
ρ
E G λ
G E
0.462
0.462
0.10
0.90
e
0
1
0.727
0.273
356 8. Propagaci´on Exacta en Redes Probabil´ısticas
FIGURA 8.14. Valores num´ericos de las funciones y mensajes calculados por el
algoritmo de propagaci´on en poli´arboles considerando la evidencia D = 0.
8.4 Propagaci´ on en Redes M´ ultiplemente Conexas
El m´etodo de propagaci´ on en poli´ arboles descrito en la secci´on anterior es
v´ alido solamente para redes de estructura simple (poli´ arboles), en las cuales
existe un ´ unico camino entre cada par de nodos. Por tanto, este tipo de
redes carecen de generalidad y no son aplicables en numerosas situaciones
pr´ acticas. En estos casos es necesario trabajar con grafos m´ ultiplemente
conexos (grafos que contienen bucles) en los que pueden existir varios
caminos entre dos nodos. Dos de los m´etodos de propagaci´ on m´as im-
portantes para este tipo de redes son los denominados m´etodo de condi-
cionamiento y m´etodo de agrupamiento. La idea fundamental del m´etodo
de propagaci´ on por condicionamiento es cortar los m´ ultiples caminos en-
tre los nodos mediante la asignaci´ on de valores a un conjunto reducido
de variables contenidas en los bucles (ver Pearl (1986a) y Suermondt y
Cooper (1991b)). De esta forma se tendr´ a un poli´ arbol en el cual se podr´ a
aplicar el algoritmo de propagaci´ on para poli´ arboles descrito en la secci´on
anterior. Por otra parte, el m´etodo de agrupamiento construye represen-
taciones auxiliares, de estructura m´ as simple, uniendo conjuntos de nodos
del grafo original (por ejemplo, un ´ arbol de uni´ on). De esta forma se puede
obtener un grafo con estructura de poli´ arbol en el que pueden aplicarse
las mismas ideas descritas en la secci´on anterior para propagar evidencia
(b)
D
0
1
1.000
0.000
A
0
1
0.273
0.727
B
0
1
0.701
0.299
C
0
1
0.432
0.568
E
0
1
0.100
0.900
F
0
1
0.800
0.200
G
0
1
0.720
0.280
(a)
A
0
1
0.300
0.700
B
0
1
0.600
0.400
C
0
1
0.425
0.575
D
0
1
0.462
0.538
E
0
1
0.100
0.900
F
0
1
0.531
0.469
G
0
1
0.419
0.581
8.4 Propagaci´on en Redes M´ ultiplemente Conexas 357
FIGURA 8.15. Probabilidades marginales (iniciales) de los nodos (a) y probabi-
lidades condicionadas (actualizadas), dada la evidencia D = 0 (b).
(ver Lauritzen y Spiegelhalter (1988), Jensen, Olesen y Andersen (1990), y
Shachter, Andersen y Szolovits (1994)).
A pesar de que la complejidad del algoritmo de propagaci´ on en poli´ arboles
es lineal en el tama˜ no de la red, el problema de la propagaci´ on de evidencia
en redes Bayesianas m´ ultiplemente conexas es un problema NP-complejo
(ver Cooper (1990)). En general, tanto el m´etodo de condicionamiento,
como el de agrupamiento plantean este problema de complejidad. Sin em-
bargo, las caracter´ısticas particulares de estos m´etodos hacen que, en oca-
siones, uno de ellos sea m´as eficiente que el otro en redes con estructura
particular. Sin embargo, en general, ninguno de estos m´etodos es m´as efi-
ciente que el otro, sino que son complementarios (Suermondt y Cooper
(1991a)). Este hecho ha motivado la aparici´ on de algunos algoritmos mixtos
que combinan las ventajas de ambos m´etodos (ver, por ejemplo, Suermondt
y Cooper (1991a) y Suermondt, Cooper y Heckerman (1991)).
C D E
F G
A B
358 8. Propagaci´on Exacta en Redes Probabil´ısticas
La Secci´on 8.5 analiza el m´etodo de condicionamiento. Dado que este
m´etodo utiliza el algoritmo de propagaci´ on en poli´ arboles, el algoritmo
de condicionamiento es s´olo v´ alido para redes Bayesianas. Sin embargo, el
algoritmo de agrupamiento (Secci´ on 8.6) puede ser aplicado tanto a redes
de Markov como a redes Bayesianas.
8.5 M´etodo de Condicionamiento
En el caso de redes Bayesianas m´ ultiplemente conexas ya no se cumple
la propiedad de que un nodo cualquiera separa el grafo en dos partes
inconexas. Por tanto, algunas de las propiedades de independencia apli-
cadas en el algoritmo de propagaci´ on en poli´ arboles no pueden ser apli-
cadas en esta situaci´on. Por ejemplo, consid´erese el grafo m´ ultiplemente
conexo mostrado en la Figura 8.16, que ha sido creado a˜ nadiendo la arista
C → F al poli´ arbol mostrado en la Figura 8.2. Esta arista produce un
bucle en el grafo que contiene a los nodos A, C, D y F. En esta situaci´ on,
ninguno de los nodos contenidos en el bucle separa el grafo en dos partes in-
conexas. Por ejemplo, se pueden asociar al nodo D los subgrafos ¦A, B, C¦
y ¦E, F, G¦, uno que contiene a sus padres y otro que contiene a los hijos,
respectivamente. Sin embargo, estos subgrafos no est´an D-separados por el
nodo D ya que la arista C →F, contenida en el bucle, constituye una v´ıa
de comunicaci´on alternativa entre los dos subgrafos.
FIGURA 8.16. Grafo m´ ultiplemente conexo.
La idea b´ asica del algoritmo de condicionamiento es cortar estas v´ıas
alternativas de comunicaci´ on contenidas en los bucles asignando un valor
arbitrario a un conjunto de nodos. Este conjunto de nodos se suele de-
nominar conjunto de corte (en ingl´es, cutset). Por ejemplo, el nodo D no
separa al grafo de la Figura 8.16 en dos partes inconexas, pero si se con-
sidera el conjunto de corte formado por el nodo C, entonces, el conjunto
¦C, D¦ separa a ¦A, B¦ de ¦E, F, G¦, los subgrafos que contienen a los
padres e hijos de D, respectivamente. Por tanto, se puede cortar el bucle
C D E
F G
A B
C = c
p
1
(f | d) = p(f | C=c, d)
8.5 M´etodo de Condicionamiento 359
contenido en el grafo considerando el nodo C como un nodo evidencial, es
decir, asign´ andole un valor arbitrario.
Esta idea de cortar los bucles para obtener un grafo de estructura m´ as
simple puede ser llevada a la pr´ actica utilizando el m´etodo denominado
absorici´ on de evidencia (ver Shachter (1988, 1990a)). Este m´etodo muestra
que la evidencia puede ser absorbida por el grafo cambiando su topolog´ıa.
De forma m´as precisa, si X
i
es un nodo evidencial, se pueden eliminar del
grafo todas las aristas de la forma X
i
→ X
j
sustituyendo la funci´ on de
probabilidad condicionada del nodo X
j
, p(x
j

j
), por una funci´ on definida
sobre un conjunto m´ as reducido de variables:
p
1
(x
j

j
` x
i
) = p(x
j

j
` x
i
, X
i
= e
i
).
Esta operaci´ on deja inalterado el modelo probabil´ıstico, mientras que sim-
plifica la topolog´ıa del grafo al eliminar un conjunto de aristas. Obs´ervese
que el conjunto Π
j
` X
i
es el nuevo conjunto de padres del nodo X
j
en el
grafo modificado. Por ejemplo, si se asigna un valor arbitrario, C = c, al
nodo C, es decir, si se convierte C en un nodo evidencial en el grafo de
la Figura 8.16, entonces se puede absorber esta evidencia eliminando del
grafo la arista C → F, obteniendo as´ı un nuevo grafo con estructura de
poli´ arbol (ver Figura 8.17). Para mantener inalterada la funci´ on de probabi-
lidad condicionada del conjunto de variables no evidenciales, p(y[C = c), se
reemplaza la funci´ on de probabilidad p(f[c, d) por p
1
(f[d) = p(f[C = c, d),
lo cual elimina la dependencia del nodo F respecto de la evidencia C.
FIGURA 8.17. Absorci´on de la evidencia C = c mediante la arista C → F.
Por tanto, utilizando el m´etodo de absorci´ on de evidencia se puede re-
ducir un grafo m´ ultiplemente conexo a un poli´ arbol, asignando un valor ar-
bitrario a los nodos de un conjunto de corte C = ¦C
1
, . . . , C
m
¦. Entonces,
se puede aplicar el algoritmo de propagaci´ on en poli´ arboles introducido en
la Secci´on 8.3 para calcular las probabilidades p(x
i
[e, c
1
, . . . , c
m
) para cada
una de las realizaciones posibles (c
1
, . . . , c
m
) del conjunto de corte, dada
la evidencia E = e. La funci´ on de probabilidad condicionada de cada nodo
puede obtenerse combinando las distintas probabilidades obtenidas para
360 8. Propagaci´on Exacta en Redes Probabil´ısticas
las distintas realizaciones del conjunto de corte:
p(x
i
[e) =
¸
c
1
,...,c
m
p(x
i
[e, c
1
, . . . , c
m
)p(c
1
, . . . , c
m
[e). (8.21)
La complejidad de este algoritmo radica en el hecho de que el n´ umero de
realizaciones posibles de un conjunto de nodos crece de forma exponencial
con el n´ umero de nodos. Por tanto, es conveniente obtener el conjunto de
corte, de un grafo dado, con el m´ınimo n´ umero de nodos.
El problema de encontrar un conjunto de corte minimal es tambi´en un
problema NP-complejo (Suermondt y Cooper (1990)), pero existen varios
m´etodos heur´ısticos alternativos para obtener conjuntos de corte que, si
bien no son minimales, se obtienen con un costo computacional razonable
(ver, por ejemplo, Stillman (1991) y Suermondt y Cooper (1990)). Alguno
de estos m´etodos proporciona una cota para el tama˜ no del conjunto de corte
resultante. Por ejemplo, Becker y Geiger (1994) presentan un algoritmo
para obtener un conjunto de corte que contenga menos del doble de las
variables contenidas en un conjunto de corte minimal.
Obs´ervese que los pesos p(c
1
, . . . , c
m
[e) dados en (8.21) no pueden ser
calculados directamente en el poli´ arbol, pues en este caso no se est´a condi-
cionando respecto del conjunto de corte. Pearl (1986a), Peot y Shachter
(1991), y Suermondt y Cooper (1991b) introducen varios algoritmos para
calcular estos pesos. Por ejemplo, el algoritmo de Suermondt y Cooper
(1991b) descompone estos pesos como
p(c
1
, . . . , c
m
[e) =
p(e[c
1
, . . . , c
m
)p(c
1
, . . . , c
m
)
p(e)
,
que, al ser sustituidos en (8.21), dan
p(x
i
[e) ∝
¸
c
1
,...,c
m
p(x
i
[e, c
1
, . . . , c
m
)p(e[c
1
, . . . , c
m
)p(c
1
, . . . , c
m
). (8.22)
Por tanto, las funciones de probabilidad de los nodos pueden ser calcu-
ladas a trav´es de tres funciones distintas para cada combinaci´ on de valores
de las variables contenidas en C. Como ya se ha mencionado anterior-
mente, la funci´ on p(x
i
[c, e) puede ser calculada utilizando el algoritmo de
propagaci´ on en poli´ arboles. De forma similar, p(e[c) puede ser calculada uti-
lizando el mismo algoritmo, pero considerando la evidencia c. Por ´ ultimo,
la funci´ on de probabilidad marginal del conjunto de corte, p(c), puede cal-
cularse asignando valores, secuencialmente, a los nodos de este conjunto,
de tal forma que s´ olo sea necesaria una parte del grafo que tenga estruc-
tura de poli´ arbol para calcular la probabilidad marginal del subconjunto
de nodos de corte asignados. Una descripci´ on completa del proceso se tiene
en Suermondt y Cooper (1991b).
El ejemplo siguiente ilustra el algoritmo de condicionamiento.
A
B C
D E F
(b)
(a)
A
B C
D E F
A
B C
D E F
p(b) = p(b | A=a)
A = a A = a
p(c) = p(c | A=a)
8.5 M´etodo de Condicionamiento 361
Ejemplo 8.4 Algoritmo de condicionamiento. Consid´erese el grafo
m´ ultiplemente conexo mostrado en la Figura 8.18, que implica la siguiente
factorizaci´ on de la funci´ on de probabilidad conjunta de las seis variables:
p(a, b, c, d, e, f) = p(a)p(b[a)p(c[a)p(d[b)p(e[b, c)p(f[c). (8.23)
Los valores num´ericos asociados al conjunto de funciones de probabilidad
condicionada que componen esta factorizaci´ on se muestran en la Tabla 8.2.
FIGURA 8.18. Grafo m´ ultiplemente conexo.
Una forma de cortar el bucle A−B−E−C−A es considerar el conjunto
de corte formado por la variable A. La Figura 8.19 muestra dos opciones
distintas para absorber la evidencia A = a, transformando el grafo original
en un poli´ arbol. Por tanto, se puede aplicar el algoritmo de propagaci´ on
en poli´ arboles al grafo resultante. Obs´ervese que en ambos casos s´olo se
absorbe una de las dos aristas posibles para no transformar el grafo en
inconexo.
FIGURA 8.19. Dos opciones distintas de absorber la evidencia A = a .
En este ejemplo se considera la situaci´on mostrada en la Figura 8.19(a).
Para cada realizaci´ on posible del conjunto de corte ¦A¦, la nueva funci´ on
de probabilidad asociada al poli´ arbol resultante se obtiene reemplazando
p(b[a) por p
1
(b) = p(b[A = a) en (8.23). En este caso se tiene
p(a, b, c, d, e, f[A = a) ∝ p(a)p
1
(b)p(c[a)p(d[b)p(e[b, c)p(f[c). (8.24)
362 8. Propagaci´on Exacta en Redes Probabil´ısticas
a p(a)
0 0.3
1 0.7
a b p(b[a)
0 0 0.4
0 1 0.6
1 0 0.1
1 1 0.9
a c p(c[a)
0 0 0.2
0 1 0.8
1 0 0.5
1 1 0.5
b d p(d[b)
0 0 0.3
0 1 0.7
1 0 0.2
1 1 0.8
c f p(f[c)
0 0 0.1
0 1 0.9
1 0 0.4
1 1 0.6
b c e p(e[b, c)
0 0 0 0.4
0 0 1 0.6
0 1 0 0.5
0 1 1 0.5
1 0 0 0.7
1 0 1 0.3
1 1 0 0.2
1 1 1 0.8
TABLA 8.2. Valores num´ericos de las funciones de probabilidad condicionada que
forman la factorizaci´on (8.23).
El algoritmo de condicionamiento se ilustra en dos situaciones distintas.
Primero se analiza el caso en el que no se dispone de evidencia, despu´es se
considera la evidencia ¦C = 1, D = 1¦.
Para el caso en el que no se tiene evidencia, la ecuaci´on (8.21) se reduce
a
p(x
i
) =
¸
c
1
,...,c
m
p(x
i
[c
1
, . . . , c
m
)p(c
1
, . . . , c
m
).
Por tanto, se tiene
p(x
i
) =
¸
a
p(x
i
[a)p(a),
para todos los nodos X
i
que no est´an contenidos en el conjunto de corte.
Obs´ervese que p(a) es la funci´ on de probabilidad marginal del nodo A, que
(a)
B
0
1
0.400
0.600
C
0
1
0.200
0.800
E
0
1
0.372
0.628
F
0
1
0.340
0.660
D
0
1
0.240
0.760
A
0
1
1.000
0.000
A = 0
(b)
B
0
1
0.100
0.900
C
0
1
0.500
0.500
E
0
1
0.450
0.550
F
0
1
0.250
0.750
D
0
1
0.210
0.790
A
0
1
0.000
1.000
A = 1
8.5 M´etodo de Condicionamiento 363
puede ser calculada directamente de la Tabla 8.2:
(p(A = 0), p(A = 1)) = (0.3, 0.7).
Por tanto, s´ olo es necesario calcular p(x
i
[a) para los dos valores posibles
de A. Estas probabilidades pueden obtenerse aplicando el algoritmo de
poli´ arboles al grafo de la Figura 8.19(a) con las funciones de probabilidad
condicionada dadas en (8.24). Las Figuras 8.20(a) y (b) muestran las proba-
bilidades asociadas a las realizaciones A = 0 y A = 1, respectivamente. Uti-
lizando los valores num´ericos mostrados en estas figuras, se puede calcular
la funci´ on de probabilidad marginal de los nodos de la red Bayesiana.
FIGURA 8.20. Probabilidades obtenidas aplicando el algoritmo de propagaci´on
en poli´arboles para los dos valores posibles de A.
Por ejemplo, para el nodo B se tiene
p(B = 0) =
1
¸
a=0
p(B = 0[a)p(a),
B
0
1
0.190
0.810
C
0
1
0.410
0.590
E
0
1
0.427
0.573
F
0
1
0.277
0.723
D
0
1
0.219
0.781
A
0
1
0.300
0.700
364 8. Propagaci´on Exacta en Redes Probabil´ısticas
= 0.4 0.3 + 0.1 0.7 = 0.19,
p(B = 1) =
1
¸
a=0
p(B = 1[a)p(a),
= 0.6 0.3 + 0.9 0.7 = 0.81.
Las probabilidades del resto de los nodos pueden ser calculadas de forma
similar. La Figura 8.21 muestra los valores num´ericos correspondientes a
las funciones de probabilidad marginal de todos los nodos de la red.
FIGURA 8.21. Funciones de probabilidad marginal de los nodos.
Sup´ ongase ahora que se tiene la evidencia ¦C = 1, D = 1¦. Entonces,
aplicando (8.22) resulta
p(x
i
[C = 1, D = 1) ∝
1
¸
a=0
p(x
i
[a, C = 1, D = 1)p(C = 1, D = 1[a)p(a).
(8.25)
De la misma forma que en el caso anterior, p(a) se obtiene directamente
de la Tabla 8.2. Por tanto, s´ olo es necesario calcular p(C = 1, D = 1[a) y
p(x
i
[a, C = 1, D = 1) para los dos valores posibles del nodo A. Por otra
parte, las probabilidades p(x
i
[a, C = 1, D = 1) pueden ser obtenidas apli-
cando el algoritmo de propagaci´ on en poli´ arboles considerando la eviden-
cia ¦A = a, C = 1, D = 1¦. La Figura 8.22 muestra los valores num´ericos
asociados a los dos valores posibles de A.
Por otra parte, la funci´ on de probabilidad p(C = 1, D = 1[a) no puede
obtenerse directamente aplicando el algoritmo de propagaci´ on en poli´ arboles
pues no es una funci´ on de un s´ olo nodo. Sin embargo, esta funci´ on de
probabilidad puede descomponerse aplicando la regla de la cadena:
p(C = 1, D = 1[a) =
p(C = 1, D = 1, a)
p(a)
B
0
1
0.369
0.631
C
0
1
0.000
1.000
E
0
1
0.311
0.689
F
0
1
0.400
0.600
D
0
1
0.000
1.000
A
0
1
1.000
0.000
(a)
A = 0
B
0
1
0.089
0.911
C
0
1
0.000
1.000
E
0
1
0.227
0.773
F
0
1
0.400
0.600
D
0
1
0.000
1.000
A
0
1
0.000
1.000
(b)
A = 1
8.5 M´etodo de Condicionamiento 365
FIGURA 8.22. Probabilidades obtenidas aplicando el algoritmo de propagaci´on
en poli´arboles considerando la evidencia {A = a, C = 1, D = 1} para los dos
valores posibles de la variable A.
=
p(C = 1[D = 1, a)p(D = 1[a)p(a)
p(a)
= p(C = 1[D = 1, a)p(D = 1[a).
Las probabilidades p(D = 1[a) est´an contenidas en la Tabla 8.20 y p(C =
1[D = 1, a) puede ser calculada de forma simult´ anea con p(x
i
[a, C = 1, D =
1) considerando secuencialmente los distintos elementos que componen la
evidencia. Los valores num´ericos de estas probabilidades son
(p(C = 1[D = 1, A = 0), p(C = 1[D = 1, A = 1)) = (0.8, 0.5).
Las probabilidades p(C = 1, D = 1[a) pueden obtenerse a partir de los
valores anteriores
p(C = 1, D = 1[A = 0) = 0.8 0.760 = 0.608,
p(C = 1, D = 1[A = 1) = 0.5 0.790 = 0.395.
B
0
1
0.200
0.800
C
0
1
0.000
1.000
E
0
1
0.260
0.740
F
0
1
0.400
0.600
D
0
1
0.000
1.000
A
0
1
0.397
0.603
366 8. Propagaci´on Exacta en Redes Probabil´ısticas
Por tanto, se pueden calcular las funciones de probabilidad condicionada
de los nodos reemplazando los valores obtenidos en (8.25). Por ejemplo,
para el nodo B se tiene
p(B = 0[C = 1, D = 1)

1
¸
a=0
p(B = 0[a, C = 1, D = 1)p(C = 1, D = 1[a)p(a),
= 0.369 0.608 0.3 + 0.089 0.395 0.7 = 0.092,
p(B = 1[C = 1, D = 1)

1
¸
a=0
p(B = 1[a, C = 1, D = 1)p(C = 1, D = 1[a)p(a),
= 0.631 0.608 0.3 + 0.911 0.395 0.7 = 0.367.
Finalmente, normalizando las funciones anteriores (dividiendo por 0.092 +
0.367 = 0.459) se obtiene:
p(B = 0[C = 1, D = 1) = 0.092/0.459 = 0.200,
p(B = 1[C = 1, D = 1) = 0.367/0.459 = 0.800.
La Figura 8.23 muestra los valores num´ericos resultantes para las fun-
ciones de probabilidad condicionada de los nodos de la red.
FIGURA 8.23. Probabilidades condicionadas de los nodos, dada la evidencia
{C = 1, D = 1}.
Anteriormente se vio que la complejidad de este algoritmo reside en la
aplicaci´ on m´ ultiple del algoritmo de propagaci´ on en poli´ arboles para las
distintas realizaciones del conjunto de corte. Sin embargo, estos procesos
de propagaci´ on pueden involucrar c´ alculos repetitivos y redundantes. Para
evitar este problema se han presentado algunas modificaciones de este
8.6 M´etodos de Agrupamiento 367
m´etodo como, por ejemplo, el algoritmo de condicionamiento local (D´ıez
(1996)) y el algoritmo de condicionamiento din´ amico (Darwiche (1995)),
que aprovechan la estructura local del grafo para evitar c´ alculos redun-
dantes. Esto conlleva una mejora notable de la complejidad del algoritmo
y un importante ahorro en el tiempo de computaci´ on.
8.6 M´etodos de Agrupamiento
El algoritmo de propagaci´ on en poli´ arboles y el algoritmo de condiciona-
miento introducidos en las secciones anteriores aprovechan la estructura
particular de los grafos dirigidos para propagar la evidencia. Por tanto,
estos algoritmos son s´olo aplicables a redes Bayesianas. En esta secci´on se
presenta un m´etodo de propagaci´ on distinto, el m´etodo de agrupamiento
que, a partir de las estructuras locales contenidas en el grafo, produce re-
presentaciones alternativas para propagar la evidencia. Por tanto, estos
m´etodos no dependen del tipo de grafo y son aplicables tanto a redes de
Markov, como a redes Bayesianas.
El m´etodo de agrupamiento, inicialmente desarrollado por Lauritzen y
Spiegelhalter (1988), se basa en la construcci´ on de subconjuntos de nodos
(aglomerados) que capturen las estructuras locales del modelo probabil´ısti-
co asociado al grafo. De esta forma, el proceso de propagaci´ on de evidencia
puede ser realizado calculando probabilidades locales (que dependen de un
n´ umero reducido de variables), evitando as´ı calcular probabilidades globa-
les (que dependen de todas las variables). Como ya se vio en el Cap´ıtulo 4,
los conglomerados de un grafo son los subconjuntos que representan sus es-
tructuras locales. Por tanto, en primer lugar, el algoritmo de agrupamiento
calcula los conglomerados del grafo; a continuaci´ on obtiene las funciones
de probabilidad condicionada de cada conglomerado calculando de forma
iterativa varias funciones de probabilidad locales. Por ´ ultimo, se obtiene
la funci´ on de probabilidad condicionada de cada nodo marginalizando la
funci´ on de probabilidad de cualquier conglomerado en el que est´e contenido.
En esta secci´on se presentan dos versiones de este algoritmo, una para redes
de Markov y otra para redes Bayesianas.
8.6.1 M´etodos de Agrupamiento en Redes de Markov
En el Cap´ıtulo 6 se analizaron dos representaciones alternativas del modelo
probabil´ıstico de una red de Markov. La representaci´ on b´ asica de estos
modelos es la representaci´ on potencial, dada por un conjunto de funciones
positivas Ψ = ¦ψ(c
1
), . . . , ψ(c
m
)¦ definidas en los conglomerados del grafo
C = ¦C
1
, . . . , C
m
¦ que permiten factorizar la funci´ on de probabilidad del
368 8. Propagaci´on Exacta en Redes Probabil´ısticas
modelo como
p(x) =
1
k
m
¸
i=1
ψ
i
(c
i
), (8.26)
donde k =
¸
x
¸
m
i=1
ψ
i
(c
i
) es una constante de normalizaci´ on.
Si la red de Markov es descomponible, es decir, si el grafo asociado es tri-
angulado, entonces, puede obtenerse una representaci´ on alternativa del mo-
delo probabil´ıstico considerando una cadena de conglomerados (C
1
, . . . , C
m
)
que cumpla la propiedad de intersecci´ on din´ amica (ver Secci´on 4.5 para m´ as
detalles). Esta cadena de conglomerados proporciona una factorizaci´ on de
la funci´ on de probabilidad como producto de funciones de probabilidad
condicionada:
p(x) =
m
¸
i=1
p(r
i
[s
i
), (8.27)
donde S
i
= C
i
∩ (C
1
, . . . , C
i−1
) es el conjunto separador del conglomerado
C
i
y R
i
= C
i
` S
i
es el conjunto residual. La propiedad de intersecci´ on
din´ amica garantiza que S
i
est´a contenido en alguno de los conglomerados
anteriores, C
1
, . . . , C
i−1
. Los conglomerados que contienen al separador S
i
se denominan los vecinos de C
i
y se denotan por B
i
. Como se ver´a m´as
adelante, la representaci´ on de la funci´ on de probabilidad dada por una
cadena de conglomerados proporciona un algoritmo sencillo, utilizado por
el m´etodo de agrupamiento, para calcular las funciones de probabilidad de
los conglomerados y, por tanto, las funciones de probabilidad de los nodos.
Si una red de Markov no es descomponible, entonces el proceso de tri-
angulaci´ on permite obtener un grafo no dirigido triangulado auxiliar cuyos
conglomerados (estructuras locales) contendr´an a los conglomerados del
grafo original. Por tanto, la representaci´ on potencial de este nuevo grafo
podr´ a ser obtenida a partir de la representaci´ on potencial del grafo origi-
nal, lo que permitir´ a realizar el proceso de propagaci´ on en esta nueva red
descomponible. Por tanto, se supondr´ a, sin p´erdida de generalidad, que se
tiene una red de Markov descomponible con la representaci´ on potencial
(C, Ψ).
El algoritmo de agrupamiento se basa en los siguientes pasos:
1. Obtener una factorizaci´ on de la funci´ on de probabilidad en la forma
dada en (8.27).
2. Calcular las funciones de probabilidad de los conglomerados a partir
de las funciones de probabilidad contenidas en (8.27).
3. Calcular las probabilidades de los nodos.
Etapa 1: En esta etapa es necesario calcular una cadena de conglomerados
que cumpla la propiedad de intersecci´ on din´ amica. Para ello se puede uti-
lizar el Algoritmo 4.3. Entonces, las funciones de probabilidad condicionada
p(r
i
[s
i
) asociadas al conglomerado C
i
se pueden obtener de forma iterativa
8.6 M´etodos de Agrupamiento 369
marginalizando la funci´ on de probabilidad p(x), primero sobre C
m
, despu´es
sobre C
m−1
, y as´ı sucesivamente. Estas funciones de probabilidad marginal
se obtienen a partir de la representaci´ on potencial de la forma siguiente.
Para el ´ ultimo conglomerado de la cadena, C
m
, se tiene
p(c
1
, . . . , c
m−1
) =
¸
c
m
\{c
1
,...,c
m−1
}
p(x)
=
¸
r
m
k
−1
m
¸
i=1
ψ
i
(c
i
)
= k
−1
m−1
¸
i=1
ψ
i
(c
i
)
¸
r
m
ψ
m
(c
m
). (8.28)
Por tanto, marginalizar p(c
1
, . . . , c
m
) sobre C
m
es b´asicamente lo mismo
que marginalizar la funci´ on potencial asociada ψ
m
(c
m
). Una vez que se
ha obtenido p(c
1
, . . . , c
m−1
), se puede aplicar de nuevo la misma idea
para obtener p(c
1
, . . . , c
m−2
), y as´ı sucesivamente, hasta obtener p(c
1
).
Obs´ervese que el t´ermino
¸
r
m
ψ
m
(c
m
) en (8.28) depende solamente de
las variables contenidas en S
m
. Por tanto, se puede incluir este t´ermino en
la funci´ on potencial de cualquier conglomerado C
j
que contenga a S
m
, es
decir, en cualquier vecino del conglomerado C
m
. De esta forma se tiene la
nueva funci´ on potencial
ψ

j
(c
j
) = ψ
j
(c
j
)
¸
r
m
ψ
m
(c
m
). (8.29)
Para el resto de los conglomerados ψ

k
(c
k
) = ψ
k
(c
k
), k = j. Por tanto,
considerando estas nuevas funciones potenciales y (8.28), se tiene
p(c
1
, . . . , c
m−1
) = k
−1
m−1
¸
i=1
ψ

i
(c
i
). (8.30)
Obs´ervese que ¦ψ

1
(c
1
), . . . , ψ

m−1
(c
m−1
)¦ es una representaci´on potencial
de la funci´ on de probabilidad p(c
1
, . . . , c
m−1
).
Despu´es de calcular la funci´ on p(c
1
, . . . , c
m−1
), se puede utilizar de nuevo
la ecuaci´on (8.28) para calcular la funci´ on p(c
1
, . . . , c
m−2
). Este proceso ite-
rativo de marginalizaci´ on de la funci´ on de probabilidad permite obtener las
funciones de probabilidad condicionada que forman la factorizaci´ on (8.27).
Procediendo de nuevo de forma iterativa comenzando con el ´ ultimo t´ermino
de la factorizaci´ on, p(r
m
[s
m
), y teniendo en cuenta que S
m
separa R
m
de
¦C
1
, C
2
, . . . , C
m−1
¦, se tiene
p(r
m
[s
m
) = p(r
m
[c
1
, c
2
, . . . , c
m−1
)
=
p(c
1
, c
2
, . . . , c
m−1
, r
m
)
p(c
1
, c
2
, . . . , c
m−1
)
.
370 8. Propagaci´on Exacta en Redes Probabil´ısticas
Aplicando la igualdad ¦C
1
, . . . , C
m−1
, R
m
¦ = ¦C
1
, . . . , C
m−1
, C
m
¦ = X, y
utilizando la ecuaci´ on (8.28), se tiene
p(r
m
[s
m
) =
k
−1
m
¸
i=1
ψ
i
(c
i
)
k
−1
m−1
¸
i=1
ψ
i
(c
i
)
¸
r
q
ψ
m
(c
m
)
=
ψ
m
(C
m
)
¸
r
m
ψ
m
(c
m
)
. (8.31)
De esta forma se obtiene la funci´ on de probabilidad condicionada p(r
m
[s
m
).
Considerando ahora la funci´ on de probabilidad p(c
1
, . . . , c
m−1
) dada en
(8.30), y aplicando (8.28), se tiene de nuevo la funci´ on de probabilidad
p(c
1
, . . . , c
m−2
) marginalizando la funci´ on anterior en C
m−1
. Entonces, apli-
cando (8.31) se obtiene p(r
m−1
[s
m−1
). Este mismo proceso puede repetirse
hasta obtener el primer t´ermino de la factorizaci´ on, p(r
1
[s
1
).
Etapa 2: Una vez que se ha obtenido la representaci´ on del modelo pro-
babil´ıstico dada por la cadena de conglomerados, se pueden calcular las
funciones de probabilidad de los conglomerados a partir de las funciones de
probabilidad de los separadores correspondientes. En primer lugar, dado
que S
1
= φ, la funci´ on de probabilidad del primer conglomerado se obtiene
directamente de p(r
1
[s
1
) = p(c
1
). El conjunto separador del conglomerado
C
2
est´a contenido en C
1
(dado que (C
1
, . . . , C
m
) cumple la propiedad de
intersecci´on din´ amica). Por tanto, p(s
2
) puede obtenerse marginalizando la
funci´ on p(c
1
). Entonces,
p(c
2
) = p(r
2
, s
2
) = p(r
2
[s
2
)p(s
2
).
Una vez que p(c
1
) y p(c
2
) han sido calculados, se puede aplicar el mismo
proceso de forma iterativa hasta obtener las funciones de probabilidad del
resto de los conglomerados.
Etapa 3: Finalmente, una vez que han sido calculadas las funciones de pro-
babilidad de los conglomerados, se puede obtener la funci´ on de probabilidad
marginal de cualquier nodo X
i
marginalizando la funci´ on de probabilidad
de alg´ un conglomerado que lo contenga. Si C
j
contiene al nodo X
i
, entonces
se puede obtener la funci´ on de probabilidad del nodo mediante
p(x
i
) =
¸
c
j
\x
i
p(c
j
). (8.32)
Si el nodo X
i
est´a contenido en m´ as de un conglomerado, entonces es
conveniente elegir aqu´el que tenga menor tama˜ no; de esta forma, el n´ umero
de operaciones realizadas en el proceso de marginalizaci´on ser´a m´ınimo.
8.6 M´etodos de Agrupamiento 371
Obs´ervese que el tama˜ no de un conglomerado es el producto del n´ umero
de valores posibles (la cardinalidad) de cada uno de sus nodos.
En el an´ alisis anterior se ha considerado el caso de no disponer de eviden-
cia. Sin embargo, si se conoce la evidencia E = e, donde E es un conjunto
de variables, se puede aplicar el mismo m´etodo considerando las modifi-
caciones siguientes. La funci´on de probabilidad condicionada p(x ` e[e) =
p(x ` e, e)/p(e) es proporcional a p(x ` e, e), que puede ser obtenida modi-
ficando las funciones potenciales originales, sustituyendo las variables con-
tenidas en E por los valores observados de estas variables e. Este proceso
se denomina absorci´ on de evidencia y se puede llevar a cabo de dos formas
alternativas:
1. Manteniendo el mismo conjunto de nodos X y conglomerados C.
En este caso, s´olo es necesario modificar las funciones potenciales
que contengan nodos evidenciales de la forma siguiente. Para cada
conglomerado C
i
que contenga alg´ un nodo evidencial, se define ψ

i
(c
i
)
como
ψ

i
(c
i
) =

0, si alg´ unvalor de c
i
no es consistente con e,
ψ
i
(c
i
), enotro caso.
(8.33)
Para el resto de los conglomerados no es necesario ning´ un cambio.
Por tanto, se tiene
p(x[e) ∝
m
¸
i=1
ψ

i
(c
i
).
2. Eliminar de X los nodos evidenciales. Este proceso tambi´en implica
modificar el conjunto de conglomerados y la representaci´ on potencial.
La nueva representaci´ on potencial, (C

, Ψ

), est´a definida en X

,
donde X

= X ` E, C

es el nuevo conjunto de conglomerados y Ψ

son los nuevos potenciales, que contienen la evidencia, y que han sido
obtenidos de la forma siguiente: Para cada conglomerado C
i
contenido
en C tal que C
i
∩ E = φ, se incluye el conjunto C
i
` E en C

y se
define
ψ

i
(c

i
) = ψ
i
(c
i
` e, E = e). (8.34)
Para el resto de los conglomerados que no contienen nodos eviden-
ciales, no es necesario realizar ninguna modificaci´ on en las represen-
taciones potenciales correspondientes. Con ello, se tiene
p(x

[e) ∝
m
¸
i=1
ψ

i
(c
i
).
Por tanto, en ambos casos, se puede aplicar el m´etodo anterior para obtener
la funci´ on de probabilidad condicionada de los nodos, dada la evidencia
E = e. En el primer caso se contin´ ua con la misma estructura, pero se
372 8. Propagaci´on Exacta en Redes Probabil´ısticas
utilizan m´ as recursos de los necesarios. En el segundo caso, no se utilizan
m´as recursos de los necesarios, pero se necesita modificar la estructura. Por
tanto, se requiere un consenso entre ambas opciones con objeto de elegir la
m´as adecuada en cada caso.
Algoritmo 8.2 Algoritmo de agrupamiento para redes de Markov
descomponibles.
• Datos: Una red de Markov descomponible (C, Ψ) sobre un conjunto
de variables X y una evidencia E = e.
• Resultados: Las funciones de probabilidad condicionada p(x
i
[e) para
cada nodo X
i
∈ E.
Etapa de Iniciaci´ on:
1. Absorber la evidencia E = e en las funciones potenciales Ψ utilizando
(8.33) ´ o (8.34).
2. Utilizar el Algoritmo 4.3 para obtener una cadena de conglomerados
(C
1
, . . . , C
m
) que cumplan la propiedad de intersecci´ on din´ amica.
3. Para cada conglomerado C
i
, elegir como vecino cualquier otro con-
glomerado C
j
, con j < i, tal que S
i
⊂ C
j
.
Etapa de Iteraci´on:
4. Para i = m hasta 1 hacer
(a) Calcular m
i
(s
i
) =
¸
r
i
ψ
i
(c
i
).
(b) Asignar p(r
i
[s
i
) = ψ
i
(c
i
)/m
i
(s
i
).
(c) Reemplazar la funci´ on potencial ψ
j
(c
j
) del conglomerado, C
j
,
vecino de C
i
por ψ
j
(c
j
) ←ψ
j
(c
j
)m
i
(s
i
).
5. Asignar p(c
1
) = p(r
1
[s
1
) = p(r
1
).
6. Para i = 2 hasta m hacer
(a) Calcular p(s
i
) marginalizando la funci´ on de probabilidad p(c
j
)
del conglomerado, C
j
, vecino de C
i
.
(b) Asignar p(c
i
) = p(r
i
[s
i
)p(s
i
).
7. Para i = 1 hasta n hacer
(a) Elegir el conglomerado de menor tama˜ no C
j
que contenga al
nodo X
i
.
(b) Asignar p(x
i
[e) ∝
¸
c
j
\x
i
p(c
j
).
A
B C
D E F
(a) (b)
A
B C
D E F
1
2
5
3
6 4
C
1
C
2
C
3
C
4
8.6 M´etodos de Agrupamiento 373
(c) Normalizar los valores obtenidos.
Obs´ervese que este algoritmo puede ser utilizado para calcular no s´ olo
las funciones de probabilidad condicionada de los nodos, sino tambi´en la
funci´ on de probabilidad condicionada de cualquier subconjunto de nodos
que est´e contenido en alg´ un conglomerado del grafo. Xu (1995) presenta
una adaptaci´ on de este m´etodo para calcular la funci´ on de probabilidad de
cualquier subconjunto de nodos, incluso si este conjunto no est´ a contenido
en ning´ un conglomerado. Este m´etodo modifica la representaci´ on potencial
a˜ nadiendo a la cadena de conglomerados el conjunto cuya probabilidad se
desea obtener. De esta forma, la funci´ on de probabilidad de este conjunto
se obtiene conjuntamente con las probabilidades de los conglomerados en el
proceso de propagaci´ on (una descripci´ on completa del m´etodo se muestra
en Xu (1995)).
Ejemplo 8.5 Algoritmo de Agrupamiento en Redes de Markov
Descomponibles. Consid´erese el grafo no dirigido triangulado mostrado
en la Figura 8.24(a). Este grafo define una red de Markov, cuyos conglo-
merados son
C
1
= ¦A, B, C¦, C
2
= ¦B, C, E¦, C
3
= ¦B, D¦ y C
4
= ¦C, F¦.
La Figura 8.24(b) muestra este conjunto de conglomerados, que implican
la siguiente representaci´on potencial de la red de Markov:
p(a, b, c, d, e, f) = ψ
1
(a, b, c)ψ
2
(b, c, e)ψ
3
(b, d)ψ
4
(c, f). (8.35)
Los valores num´ericos correspondientes a estas funciones se muestran en la
Tabla 8.3.
FIGURA 8.24. Un grafo triangulado no dirigido (a) y sus conglomerados (b).
Sup´ ongase que no se dispone de evidencia y que se quieren obtener las
funciones de probabilidad marginal de los nodos. En la primera etapa del
algoritmo de agrupamiento es necesario calcular una cadena de conglomera-
dos, es decir, es necesario ordenar los conglomerados de forma que cumplan
la propiedad de intersecci´ on din´ amica. Para ello, se puede aplicar el Algo-
ritmo 4.3 (ver Cap´ıtulo 4). Este algoritmo calcula una numeraci´ on perfecta
374 8. Propagaci´on Exacta en Redes Probabil´ısticas
a b c ψ
1
(a, b, c)
0 0 0 0.048
0 0 1 0.192
0 1 0 0.072
0 1 1 0.288
1 0 0 0.070
1 0 1 0.070
1 1 0 0.630
1 1 1 0.630
b c e ψ
2
(b, c, e)
0 0 0 0.08
0 0 1 0.12
0 1 0 0.10
0 1 1 0.10
1 0 0 0.14
1 0 1 0.06
1 1 0 0.04
1 1 1 0.16
b d ψ
3
(b, d)
0 0 0.06
0 1 0.14
1 0 0.04
1 1 0.16
c f ψ
4
(c, f)
0 0 0.02
0 1 0.18
1 0 0.08
1 1 0.12
TABLA 8.3. Valores num´ericos de las funciones potenciales en (8.35).
Conglomerado Separador S
i
Residuo R
i
Vecinos B
i
C
1
= ¦A, B, C¦ φ A, B, C −
C
2
= ¦B, C, E¦ B, C E C
1
C
3
= ¦B, D¦ B D ¦C
1
, C
2
¦
C
4
= ¦C, F¦ C F ¦C
1
, C
2
¦
TABLA 8.4. Separadores, residuos y vecinos de los conglomerados.
de los nodos y, despu´es, ordena los conglomerados seg´ un el mayor n´ umero
perfecto contenido en cada uno de ellos. Una numeraci´ on perfecta de los
nodos del grafo de la Figura 8.24(a), obtenida aplicando el algoritmo de
b´ usqueda de m´ axima cardinalidad (Algoritmo 4.1), se muestra junto a los
nombres de los nodos en la Figura 8.24(b). Obs´ervese que la ordenaci´on
natural de los conglomerados (C
1
, C
2
, C
3
, C
4
) cumple la propiedad de in-
tersecci´on din´ amica. La Tabla 8.4 muestra los conjuntos separadores, los
residuales y los de los vecinos asociados a cada uno de los conglomerados. A
partir de esta tabla se deduce que el conjunto de funciones de probabilidad
condicionada que forman la factorizaci´ on (8.27) es
p(a, b, c, d, e, f) = p(r
1
[s
1
)p(r
2
[s
2
)p(r
3
[s
3
)p(r
4
[s
4
)
= p(a, b, c)p(e[b, c)p(d[b)p(f[c). (8.36)
Ahora se est´a en disposici´ on de comenzar la etapa iterativa del Algoritmo
8.2. El Paso 4 va tomando los conglomerados sucesivamente, empezando
por el ´ ultimo. En este caso m = 4, entonces se tiene
8.6 M´etodos de Agrupamiento 375
c f p(f[c)
0 0 0.1
0 1 0.9
1 0 0.4
1 1 0.6
b d p(d[b)
0 0 0.3
0 1 0.7
1 0 0.2
1 1 0.8
b c e p(e[b, c)
0 0 0 0.4
0 0 1 0.6
0 1 0 0.5
0 1 1 0.5
1 0 0 0.7
1 0 1 0.3
1 1 0 0.2
1 1 1 0.8
a b c p(a, b, c)
0 0 0 0.024
0 0 1 0.096
0 1 0 0.036
0 1 1 0.144
1 0 0 0.035
1 0 1 0.035
1 1 0 0.315
1 1 1 0.315
TABLA 8.5. Funciones de probabilidad condicionada de los residuos, dados los
separadores, p(r
i
|s
i
).
• Para i = 4, la funci´ on de probabilidad correspondiente en la factori-
zaci´on (8.36) es p(f[c). En primer lugar se calcula el t´ermino
m
4
(s
4
) =
¸
r
4
ψ
4
(c
4
) =
¸
f
ψ
4
(c, f)
obteni´endose (m
4
(C = 0), m
4
(C = 1)) = (0.2, 0.2). A continuaci´ on,
utilizando (8.31), se calcula la funci´ on de probabilidad condicionada
aplicando
p(f[c) =
ψ
4
(c, f)
m
4
(c)
,
es decir,
p(F = 0[C = 0) = 0.02/0.2 = 0.1,
p(F = 0[C = 1) = 0.18/0.2 = 0.9,
p(F = 1[C = 0) = 0.08/0.2 = 0.4,
p(F = 1[C = 1) = 0.12/0.2 = 0.6.
Esta funci´ on de probabilidad se muestra en la Tabla 8.5. Finalmente,
se elige un conglomerado vecino de C
4
, por ejemplo C
2
, y se multi-
plica la funci´ on potencial ψ
2
(b, c, e) por m
4
(s
4
), con lo que resulta la
funci´ on ψ

2
(b, c, e), cuyos valores num´ericos se muestran en la Tabla
8.6.
376 8. Propagaci´on Exacta en Redes Probabil´ısticas
b c e ψ

2
(b, c, e)
0 0 0 0.016
0 0 1 0.024
0 1 0 0.020
0 1 1 0.020
1 0 0 0.028
1 0 1 0.012
1 1 0 0.008
1 1 1 0.032
a b c ψ

1
(a, b, c)
0 0 0 0.0096
0 0 1 0.0384
0 1 0 0.0144
0 1 1 0.0576
1 0 0 0.0140
1 0 1 0.0140
1 1 0 0.1260
1 1 1 0.1260
TABLA 8.6. Nuevas funciones potenciales de los conglomerados C
2
y C
1
.
• Para i = 3, la funci´ on de probabilidad condicionada correspondiente
en (8.36) es p(d[b). En primer lugar se calcula el t´ermino
m
3
(s
3
) =
¸
r
3
ψ
3
(c
3
) =
¸
d
ψ
3
(b, d),
obteni´endose (m
3
(B = 0), m
3
(B = 1)) = (0.2, 0.2). A continuaci´ on
se calcula la funci´ on de probabilidad
p(d[b) =
ψ
3
(b, d)
m
3
(b)
,
cuyos valores num´ericos son
p(D = 0[B = 0) = 0.06/0.2 = 0.3,
p(D = 0[B = 1) = 0.14/0.2 = 0.7,
p(D = 1[B = 0) = 0.04/0.2 = 0.2,
p(D = 1[B = 1) = 0.16/0.2 = 0.8.
Esta funci´ on de probabilidad tambi´en se muestra en la Tabla 8.5.
Finalmente, se elige un conglomerado vecino de C
3
, por ejemplo C
1
,
y se multiplica la funci´ on potencial ψ
1
(a, b, c) de C
1
por m
3
(s
3
), con
lo que se tiene la nueva funci´ on ψ

1
(a, b, c) cuyos valores num´ericos se
muestran en la Tabla 8.6.
• Para i = 2, la funci´ on de probabilidad condicionada correspondiente
en (8.36) es p(e[b, c). Procediendo de forma similar se calcula m
2
(b, c) =
¸
e
ψ

2
(b, c, e) = 0.04, para todos los valores de b y c, y la funci´ on de
probabilidad
p(e[b, c) =
ψ

2
(b, c, e)
m
2
(b, c)
,
cuyos valores num´ericos se muestran en la Tabla 8.5.
8.6 M´etodos de Agrupamiento 377
a b c ψ

1
(a, b, c)
0 0 0 0.000384
0 0 1 0.001536
0 1 0 0.000576
0 1 1 0.002304
1 0 0 0.000560
1 0 1 0.000560
1 1 0 0.005040
1 1 1 0.005040
TABLA 8.7. Funci´on potencial del conglomerado C
1
en el ´ ultimo paso de la etapa
de la marginalizaci´on.
Finalmente, dado que C
1
es el ´ unico conglomerado vecino de C
2
,
se multiplica por m
2
(s
2
) la funci´ on potencial ψ

1
(a, b, c) de C
1
de la
Tabla 8.6. En este caso se obtiene la nueva funci´ on ψ

1
(a, b, c) de la
Tabla 8.7. La funci´ on de probabilidad del ´ ultimo conglomerado se
obtiene directamente de la funci´ on potencial: p(c
1
) ∝ ψ

1
(a, b, c).
• Para i = 1, la funci´ on de probabilidad correspondiente en (8.36) es
p(a, b, c). Dado que S
1
= φ, R
1
= ¦A, B, C¦ y B
1
= φ, se tiene que
m
1
(φ) =
¸
a,b,c
ψ

1
(a, b, c) = 0.016
y
p(r
1
[s
1
) = p(a, b, c) = ψ

1
(a, b, c)/0.016.
Esta funci´ on se muestra en la Tabla 8.5. Por tanto, finaliza el Paso 4
de la etapa de iteraci´ on.
• En el quinto paso de la etapa de iteraci´ on, se tiene p(c
1
) = p(r
1
) =
p(a, b, c), que se puede obtener directamente de la Tabla 8.8. Seguida-
mente se comienza el Paso 6 considerando i = 2.
• Para i = 2, se tiene S
2
= ¦B, C¦. Para calcular p(b, c), se marginaliza
la funci´ on de probabilidad p(a, b, c) sobre A, obteni´endose
p(b, c) =
¸
a
p(a, b, c),
que implica
p(B = 0, C = 0) = 0.059,
p(B = 0, C = 1) = 0.131,
p(B = 1, C = 0) = 0.351,
p(B = 1, C = 1) = 0.459.
378 8. Propagaci´on Exacta en Redes Probabil´ısticas
a b c p(a, b, c)
0 0 0 0.024
0 0 1 0.096
0 1 0 0.036
0 1 1 0.144
1 0 0 0.035
1 0 1 0.035
1 1 0 0.315
1 1 1 0.315
b c e p(b, c, e)
0 0 0 0.0236
0 0 1 0.0354
0 1 0 0.0655
0 1 1 0.0655
1 0 0 0.2457
1 0 1 0.1053
1 1 0 0.0918
1 1 1 0.3672
b d p(b, d)
0 0 0.057
0 1 0.133
1 0 0.162
1 1 0.648
c f p(c, f)
0 0 0.041
0 1 0.369
1 0 0.236
1 1 0.354
TABLA 8.8. Valores num´ericos de la funciones de probabilidad de los conglome-
rados.
Por tanto,
p(b, c, e) = p(e[b, c)p(b, c).
Los valores num´ericos asociados se muestran en la Tabla 8.8.
• Para i = 3, se tiene S
3
= ¦B¦. En este caso p(b) puede obtenerse
marginalizando p(a, b, c) sobre A y C, o p(b, c, e) sobre C y E. En
ambos casos se obtienen los valores num´ericos p(B = 0) = 0.19,
p(B = 1) = 0.81. Entonces, las probabilidades del conglomerado C
3
resultan
p(b, d) = p(d[b)p(b),
cuyos valores num´ericos se muestran en la Tabla 8.8.
• Por ´ ultimo, para i = 4, S
4
= ¦C¦. Para calcular p(c), se marginaliza,
o bien p(a, b, c) sobre A y B, o bien p(b, c, e) sobre B y E. En este caso
se obtiene p(C = 0) = 0.41, p(C = 1) = 0.59. Entonces, la funci´ on de
probabilidad del conglomerado C
4
se obtiene como
p(c, f) = p(f[c)p(c).
Los valores num´ericos asociados se muestran en la Tabla 8.8.
En la etapa final del algoritmo de agrupamiento se calculan las proba-
bilidades marginales de los nodos a partir de las funciones de probabilidad
mostradas en la Tabla 8.8. El nodo A est´a ´ unicamente contenido en el con-
glomerado C
1
; por tanto, se calcula p(a) marginalizando la funci´ on p(a, b, c)
8.6 M´etodos de Agrupamiento 379
a b c ψ

1
(a, b, c)
0 0 0 0.000
0 0 1 0.192
0 1 0 0.000
0 1 1 0.288
1 0 0 0.000
1 0 1 0.070
1 1 0 0.000
1 1 1 0.630
b d ψ

3
(b, d)
0 0 0.00
0 1 0.14
1 0 0.00
1 1 0.16
TABLA 8.9. Absorci´on de la evidencia {C = 1, D = 1} en las funciones
potenciales de (8.35).
sobre B y C. El nodo B est´a contenido en tres conglomerados distintos,
siendo C
3
el de menor tama˜ no. Por tanto, para obtener p(b) se marginaliza
p(b, d) sobre D. El nodo C tambi´en est´a contenido en tres conglomerados,
el menor de los cuales es C
4
. Por tanto, para obtener p(c) se marginaliza
p(c, f) sobre F. Por otra parte, el nodo D est´a contenido ´ unicamente en el
conglomerado C
3
; luego, se marginaliza p(b, d) sobre B. El nodo E est´a con-
tenido en C
2
, luego ser´a necesario marginalizar p(b, c, e) sobre B y C para
obtener p(e). Finalmente, el nodo F est´a contenido ´ unicamente en C
4
, por
tanto, p(f) se obtendr´ a marginalizando p(c, f) sobre C. Todas las funciones
de probabilidad marginales de los nodos han sido obtenidas previamente en
el Ejemplo 8.4, aplicando el m´etodo de condicionamiento. La Figura 8.21
muestra las probabilidades obtenidas aplicando cualquiera de los m´etodos
de propagaci´ on (condicionamiento o agrupamiento), que corresponden al
caso en el que no se dispone de evidencia.
Sup´ ongase ahora que se tiene la evidencia ¦C = 1, D = 1¦. Esta evidencia
puede absorberse en la representaci´on potencial mostrada en la Tabla 8.3
utilizando, por ejemplo, la opci´ on descrita en (8.33). En este caso, no es
necesario modificar la estructura topol´ ogica, sino solamente las funciones
potenciales asociadas a los nodos que contienen evidencia. Por ejemplo, se
puede absorber la evidencia C = 1 en la funci´ on potencial correspondiente
al conglomerado C
1
y la evidencia D = 1 en la funci´ on potencial asociada al
conglomerado C
3
. En consecuencia, s´olo es necesario modificar las funciones
ψ
1
(a, b, c) y ψ
3
(b, d), de la forma indicada en la Tabla 8.9.
Procediendo de la misma forma que en el caso anterior (sin evidencia),
se pueden calcular las funciones de probabilidad condicionada de los nodos,
dada la evidencia ¦C = 1, D = 1¦. Estas mismas probabilidades tambi´en
han sido obtenidas anteriormente con el algoritmo de condicionamiento (ver
Figura 8.23).
El algoritmo de agrupamiento anterior supone que la red de Markov es des-
componible. Esta propiedad es necesaria para garantizar la existencia de
380 8. Propagaci´on Exacta en Redes Probabil´ısticas
una cadena de conglomerados que permita factorizar la funci´ on de probabi-
lidad conjunta de la forma (8.27). Sin embargo, como ya se indic´ o anterior-
mente, esta condici´on no es restrictiva, pues si la red no es descomponible,
entonces el proceso de propagaci´on puede ser realizado en una red descom-
ponible auxiliar obtenida triangulando la red original. Dado que el proceso
de triangulaci´ on a˜ nade nuevas aristas, todos los conglomerados del grafo
original estar´ an contenidos en los conglomerados del nuevo grafo. Por tanto,
las funciones potenciales de la nueva red podr´ an ser definidas agrupando
las funciones potenciales de la red original en los nuevos conglomerados. De
esta forma el modelo probabil´ıstico asociado a ambas redes ser´a el mismo
y, por tanto, la propagaci´ on podr´ a ser realizada de forma equivalente en
cualquiera de las redes de Markov. El ejemplo siguiente ilustra este hecho.
Ejemplo 8.6 Red de Markov no descomponible. Consid´erese el grafo
no dirigido dado en la Figura 8.25. Este grafo no es triangulado, pues
contiene el bucle de longitud cuatro A − B − E − C − A que no posee
ninguna cuerda. Por tanto, la red de Markov asociada a este grafo ser´ a
no descomponible. Los conglomerados del grafo son: C
1
= ¦A, B¦, C
2
=
¦A, C¦, C
3
= ¦B, E¦, C
4
= ¦C, E¦, C
5
= ¦B, D¦ y C
6
= ¦C, F¦. Por
tanto, una representaci´ on potencial de esta red de Markov viene dada por
p(a, b, c, d, e, f) = ψ
1
(a, b)ψ
2
(a, c)ψ
3
(b, e)ψ
4
(c, e)ψ
5
(b, d)ψ
6
(c, f). (8.37)
El algoritmo de agrupamiento no puede ser aplicado en esta situaci´ on. Sin
embargo, si se triangula el grafo a˜ nadiendo la arista B − C, se obtiene
el grafo utilizado en el Ejemplo 8.5 que se muestra en la Figura 8.24. Los
conglomerados asociados a este grafo son C

1
= ¦A, B, C¦, C

2
= ¦B, C, E¦,
C

3
= ¦B, D¦ y C

4
= ¦C, F¦. Por tanto, se puede obtener una representa-
ci´on potencial para el nuevo grafo utilizando (8.37) de la forma siguiente:
ψ

1
(a, b, c) = ψ
1
(a, b)ψ
2
(a, c),
ψ

2
(b, c, e) = ψ
3
(b, e)ψ
4
(c, e),
ψ

3
(b, d) = ψ
5
(b, d),
ψ

4
(c, f) = ψ
6
(c, f).
El grafo mostrado en la Figura 8.24(a) y la nueva representaci´ on potencial
p(a, b, c, d, e, f) = ψ

1
(a, b, c)ψ

2
(b, c, e)ψ

3
(b, d)ψ

4
(c, f), (8.38)
proporcionan una red de Markov descomponible en la cual puede realizarse
la propagaci´ on de la evidencia aplicando el algoritmo de agrupamiento
descrito anteriormente.
8.6.2 Algoritmo de Agrupamiento en Redes Bayesianas
En la secci´on anterior se present´ o el m´etodo de agrupamiento para propagar
evidencia en redes de Markov. En esta secci´on se presenta una adaptaci´ on
A
B C
D E F
8.6 M´etodos de Agrupamiento 381
FIGURA 8.25. Grafo no dirigido no triangulado.
del m´etodo para propagar evidencia en redes Bayesianas. En la secci´ on
6.4.4 se vio que dada una red Bayesiana (D, P), definida en un conjunto
de variables ¦X
1
, . . . , X
n
¦, la funci´ on de probabilidad asociada pod´ıa ser
factorizada en la forma
p(x
1
, . . . , x
n
) =
n
¸
i=1
p(x
i

i
), (8.39)
donde Π
i
es el conjunto de padres del nodo X
i
en D.
En este caso se puede transformar el grafo dirigido en un grafo no di-
rigido triangulado para poder aplicar el m´etodo de agrupamiento. En el
Cap´ıtulo 4 se vieron algunos tipos de grafos no dirigidos asociados a un
grafo dirigido. Considerando el grafo no dirigido obtenido triangulando el
grafo moralizado del grafo dirigido original, se tiene que cada familia del
grafo dirigido estar´ a contenida en alg´ un conglomerado del grafo triangu-
lado. Esta propiedad permite definir una representaci´ on potencial para la
red de Markov descomponible a partir de la representaci´ on de la funci´ on
de probabilidad de la red Bayesiana dada en (8.39). Por tanto, el problema
de propagar evidencia en redes Bayesianas puede ser resuelto aplicando el
Algoritmo 8.2. Este proceso se presenta en el algoritmo siguiente.
Algoritmo 8.3 Algoritmo de agrupamiento en redes Bayesianas.
• Datos: Una red Bayesiana (D, P) definida en un conjunto de varia-
bles X y una evidencia E = e.
• Resultados: Las funciones de probabilidad condicionada p(x
i
[e) de
cada nodo X
i