Professional Documents
Culture Documents
INTELIGENCIA COMPUTACIONAL
El Dilema del Prisionero
Descripcin
! Dos personas A y B son acusadas de cometer un crimen. ! Un detective le dice a A que hay suficiente evidencia para encarcelarlos a l
! Le dice adems que la mismas propuestas han sido hechas a B (lo cual es
verdad).
! A y B no pueden comunicarse.
Planteamiento
! Podemos ver el dilema como un juego en el cual tenemos dos agentes: A y
B.
! Cada agente tiene dos posibles acciones:
! C (Cooperar con su complice, es decir, declararse inocente). ! D (Delatar a su complice).
! La salida del juego son las condenas resultantes. ! Asumiremos que cada agente busca minimizar su condena. ! NO NOS PREOCUPAREMOS POR TEMAS COMO CONFIANZA, TICA,
AMISTAD, ETC.
Actividad
! Deben analizar el problema e indicar cual es la mejor
decisin que deben tomar A y B, siempre recordando que tienen que minimizar su condena.
Anlisis
! A esta tentado a declarar encontrar de B y salir libre, pero se da cuenta que
B esta tentado a hacer lo mismo y puede denunciarlo. Y en caso de que ambos declaren en contrar de su complice los dos recibiran una condena de 4 aos, lo cual no es deseable.
! Si A y B cooperan, tendrn una sentencia de 2 aos, pero como no se
Acciones A/Acciones B C D
C 2,2 0,5
D 5,0 4,4
Anlisis
! A se fijar en la siguiente tabla para calcular su condena (costo):
Acciones A/Acciones B C D
C 2 0
D 5 4
Anlisis
! Al igual que A, B se fijar en la siguiente tabla para calcular su condena
! Suponiendo que A escoge la accin D. ! B puede elegir la accin C a un costo de 5 o la accin D a un costo de 4.
! Como 4 < 5, es preferible que elija la accin D.
Anlisis
Anlisis
! Supongamos que el razonamiento de A va un paso adelante, puede percibir
el costo de una doble acusacin y concluye que es mejor confiar en B y escoger la accin C.
! La conclusin de A es vlida siempre y cuando B escoja la accin C, y en tal
cooperativas.
! Este es el Dilema del Prisionero!!!!!
Descripcin
! Supongamos que el juego del dilema del prisionero puede ser jugado
muchas veces.
! Cada vez que se juegue, los jugadores recordaran las acciones que tomo su
contrincante en el pasado.
! Esto puede promover la cooperacin, tanto positiva como negativa.
Descripcin
! Por ejemplo: ! En el anlisis de la clase pasada, observamos que la mejor opcin para
ambos jugadores era declarar contra su cmplice. Esto sucedera en el primer juego y por lo tanto los dos jugadores sern castigados, lo que los convencer un poco para jugar de manera cooperativa la prxima vez.
Descripcin
! En cada iteracin del juego, los agentes recibirn una condena (un castigo) o
Descripcin
! Pero, Cmo decidimos cuando cooperar y cuando delatar? ! Con probabilidad.
conforme avance el juego y los agentes reciban castigos las probabilidades irn cambiando.
Descripcin
! Entonces: ! La probabilidad de elegir C en el tiempo t es p(t) y de elegir D es q(t), donde
p+q = 1.
! Si elegimos C la probabilidad de elegir C en t+1 ser actializada por:
! Recompensa: p(t+1) = p(t) + (1-p(t)) * ! Casitgo: p(t+1) = (1-) * p(t)