You are on page 1of 15

Enero - Mayo 2012

INTELIGENCIA COMPUTACIONAL
El Dilema del Prisionero

Enero - Mayo 2012

Descripcin
! Dos personas A y B son acusadas de cometer un crimen. ! Un detective le dice a A que hay suficiente evidencia para encarcelarlos a l

y a su cmplice. Entonces le hace las siguientes propuestas:


! S ambos se declaran inocentes, cada uno recibir una condena de 2 aos. ! S A da evidencia contra B, A saldr libre y B ser condenado 5 aos. ! S los dos proveen evidencia contra su cmplice, cada uno recibir una condena de 4 aos.

! Le dice adems que la mismas propuestas han sido hechas a B (lo cual es

verdad).
! A y B no pueden comunicarse.

Enero - Mayo 2012

Planteamiento
! Podemos ver el dilema como un juego en el cual tenemos dos agentes: A y

B.
! Cada agente tiene dos posibles acciones:
! C (Cooperar con su complice, es decir, declararse inocente). ! D (Delatar a su complice).

! La salida del juego son las condenas resultantes. ! Asumiremos que cada agente busca minimizar su condena. ! NO NOS PREOCUPAREMOS POR TEMAS COMO CONFIANZA, TICA,

AMISTAD, ETC.

Enero - Mayo 2012

Actividad
! Deben analizar el problema e indicar cual es la mejor

decisin que deben tomar A y B, siempre recordando que tienen que minimizar su condena.

Enero - Mayo 2012

Anlisis
! A esta tentado a declarar encontrar de B y salir libre, pero se da cuenta que

B esta tentado a hacer lo mismo y puede denunciarlo. Y en caso de que ambos declaren en contrar de su complice los dos recibiran una condena de 4 aos, lo cual no es deseable.
! Si A y B cooperan, tendrn una sentencia de 2 aos, pero como no se

pueden comunicar, deben de tomar su decisin solos.

Acciones A/Acciones B C D

C 2,2 0,5

D 5,0 4,4

Enero - Mayo 2012

Anlisis
! A se fijar en la siguiente tabla para calcular su condena (costo):

Acciones A/Acciones B C D

C 2 0

D 5 4

! Un posible razonamiento de A sera el siguiente:


! Suponiendo que B escoge la accin C. ! A puede elegir la accin C a un costo de 2 o la accin D a un costo de 0. ! Como 0 < 2, es preferible que elija la accin D. ! Suponiendo que B escoge la accin D. ! A puede elegir la accin C a un costo de 5 o la accin D a un costo de 4. ! Como 4 < 5, es preferible que elija la accin D.

Enero - Mayo 2012

Anlisis
! Al igual que A, B se fijar en la siguiente tabla para calcular su condena

(costo): Acciones A/Acciones B C D C 2 5 D 0 4

! Un posible razonamiento de B sera el siguiente:


! Suponiendo que A escoge la accin C. ! B puede elegir la accin C a un costo de 2 o la accin D a un costo de 0.
! Como 0 < 2, es preferible que elija la accin D.

! Suponiendo que A escoge la accin D. ! B puede elegir la accin C a un costo de 5 o la accin D a un costo de 4.
! Como 4 < 5, es preferible que elija la accin D.

Enero - Mayo 2012

Anlisis

! No importa cual accin escoja B, siempre es

mejor para A delatar a su complice y lo mismo sucede con B.

Enero - Mayo 2012

Anlisis
! Supongamos que el razonamiento de A va un paso adelante, puede percibir

el costo de una doble acusacin y concluye que es mejor confiar en B y escoger la accin C.
! La conclusin de A es vlida siempre y cuando B escoja la accin C, y en tal

caso a A le conviene elegir D.


! Por lo tanto, entramos en un circulo vicioso que refuerza elegir acciones no

cooperativas.
! Este es el Dilema del Prisionero!!!!!

Enero - Mayo 2012

El Dilema del Prisionero Iterativo

Enero - Mayo 2012

Descripcin
! Supongamos que el juego del dilema del prisionero puede ser jugado

muchas veces.
! Cada vez que se juegue, los jugadores recordaran las acciones que tomo su

contrincante en el pasado.
! Esto puede promover la cooperacin, tanto positiva como negativa.

Enero - Mayo 2012

Descripcin
! Por ejemplo: ! En el anlisis de la clase pasada, observamos que la mejor opcin para

ambos jugadores era declarar contra su cmplice. Esto sucedera en el primer juego y por lo tanto los dos jugadores sern castigados, lo que los convencer un poco para jugar de manera cooperativa la prxima vez.

Enero - Mayo 2012

Descripcin
! En cada iteracin del juego, los agentes recibirn una condena (un castigo) o

saldrn libres (una recompensa).


! El objetivo ser reducir el castigo. ! Para hacerlo los agentes tienen que:
! Minimizar el castigo inmediato. ! Tratar de aprender el comportamiento del ambiente (el otro agente).

Enero - Mayo 2012

Descripcin
! Pero, Cmo decidimos cuando cooperar y cuando delatar? ! Con probabilidad.

! Al comienzo del juego cooperar y delatar tienen la misma probabilidad, pero

conforme avance el juego y los agentes reciban castigos las probabilidades irn cambiando.

Enero - Mayo 2012

Descripcin
! Entonces: ! La probabilidad de elegir C en el tiempo t es p(t) y de elegir D es q(t), donde

p+q = 1.
! Si elegimos C la probabilidad de elegir C en t+1 ser actializada por:
! Recompensa: p(t+1) = p(t) + (1-p(t)) * ! Casitgo: p(t+1) = (1-) * p(t)

! La tasa de aprendizaje es representada por .

You might also like