Dilema Del Prisionero PDF

Enero - Mayo 2012
INTELIGENCIA COMPUTACIONAL
El Dilema del Prisionero
Enero - Mayo 2012
Descripcin
! Dos personas A y B son acusadas de cometer un crimen. ! Un detective le dice a A que hay suficiente evidencia para encarcelarlos a l
y a su cmplice. Entonces le hace las siguientes propuestas:

! S ambos se declaran inocentes, cada uno recibir una condena de 2 aos. ! S A da evidencia contra B, A saldr libre y B ser condenado 5 aos. ! S los dos proveen evidencia contra su cmplice, cada uno recibir una condena de 4 aos.
! Le dice adems que la mismas propuestas han sido hechas a B (lo cual es
verdad).
! A y B no pueden comunicarse.
Enero - Mayo 2012
Planteamiento
! Podemos ver el dilema como un juego en el cual tenemos dos agentes: A y
B.
! Cada agente tiene dos posibles acciones:
! C (Cooperar con su complice, es decir, declararse inocente). ! D (Delatar a su complice).
! La salida del juego son las condenas resultantes. ! Asumiremos que cada agente busca minimizar su condena. ! NO NOS PREOCUPAREMOS POR TEMAS COMO CONFIANZA, TICA,
AMISTAD, ETC.
Enero - Mayo 2012
Actividad
! Deben analizar el problema e indicar cual es la mejor
decisin que deben tomar A y B, siempre recordando que tienen que minimizar su condena.
Enero - Mayo 2012
Anlisis
! A esta tentado a declarar encontrar de B y salir libre, pero se da cuenta que
B esta tentado a hacer lo mismo y puede denunciarlo. Y en caso de que ambos declaren en contrar de su complice los dos recibiran una condena de 4 aos, lo cual no es deseable.
! Si A y B cooperan, tendrn una sentencia de 2 aos, pero como no se
pueden comunicar, deben de tomar su decisin solos.
Acciones A/Acciones B C D
C 2,2 0,5
D 5,0 4,4
Enero - Mayo 2012
Anlisis
! A se fijar en la siguiente tabla para calcular su condena (costo):
Acciones A/Acciones B C D
C 2 0
D 5 4
! Un posible razonamiento de A sera el siguiente:

! Suponiendo que B escoge la accin C. ! A puede elegir la accin C a un costo de 2 o la accin D a un costo de 0. ! Como 0 < 2, es preferible que elija la accin D. ! Suponiendo que B escoge la accin D. ! A puede elegir la accin C a un costo de 5 o la accin D a un costo de 4. ! Como 4 < 5, es preferible que elija la accin D.
Enero - Mayo 2012
Anlisis
! Al igual que A, B se fijar en la siguiente tabla para calcular su condena
(costo): Acciones A/Acciones B C D C 2 5 D 0 4
! Un posible razonamiento de B sera el siguiente:

! Suponiendo que A escoge la accin C. ! B puede elegir la accin C a un costo de 2 o la accin D a un costo de 0.
! Como 0 < 2, es preferible que elija la accin D.
! Suponiendo que A escoge la accin D. ! B puede elegir la accin C a un costo de 5 o la accin D a un costo de 4.
! Como 4 < 5, es preferible que elija la accin D.
Enero - Mayo 2012
Anlisis
! No importa cual accin escoja B, siempre es
mejor para A delatar a su complice y lo mismo sucede con B.
Enero - Mayo 2012
Anlisis
! Supongamos que el razonamiento de A va un paso adelante, puede percibir
el costo de una doble acusacin y concluye que es mejor confiar en B y escoger la accin C.
! La conclusin de A es vlida siempre y cuando B escoja la accin C, y en tal
caso a A le conviene elegir D.

! Por lo tanto, entramos en un circulo vicioso que refuerza elegir acciones no
cooperativas.
! Este es el Dilema del Prisionero!!!!!
Enero - Mayo 2012
El Dilema del Prisionero Iterativo
Enero - Mayo 2012
Descripcin
! Supongamos que el juego del dilema del prisionero puede ser jugado
muchas veces.
! Cada vez que se juegue, los jugadores recordaran las acciones que tomo su
contrincante en el pasado.
! Esto puede promover la cooperacin, tanto positiva como negativa.
Enero - Mayo 2012
Descripcin
! Por ejemplo: ! En el anlisis de la clase pasada, observamos que la mejor opcin para
ambos jugadores era declarar contra su cmplice. Esto sucedera en el primer juego y por lo tanto los dos jugadores sern castigados, lo que los convencer un poco para jugar de manera cooperativa la prxima vez.
Enero - Mayo 2012
Descripcin
! En cada iteracin del juego, los agentes recibirn una condena (un castigo) o
saldrn libres (una recompensa).

! El objetivo ser reducir el castigo. ! Para hacerlo los agentes tienen que:
! Minimizar el castigo inmediato. ! Tratar de aprender el comportamiento del ambiente (el otro agente).
Enero - Mayo 2012
Descripcin
! Pero, Cmo decidimos cuando cooperar y cuando delatar? ! Con probabilidad.
! Al comienzo del juego cooperar y delatar tienen la misma probabilidad, pero
conforme avance el juego y los agentes reciban castigos las probabilidades irn cambiando.
Enero - Mayo 2012
Descripcin
! Entonces: ! La probabilidad de elegir C en el tiempo t es p(t) y de elegir D es q(t), donde
p+q = 1.
! Si elegimos C la probabilidad de elegir C en t+1 ser actializada por:
! Recompensa: p(t+1) = p(t) + (1-p(t)) * ! Casitgo: p(t+1) = (1-) * p(t)
! La tasa de aprendizaje es representada por .

Dilema Del Prisionero PDF

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Dilema Del Prisionero PDF

Uploaded by

Copyright:

Available Formats

Enero - Mayo 2012

Enero - Mayo 2012

y a su cmplice. Entonces le hace las siguientes propuestas:

Enero - Mayo 2012

Enero - Mayo 2012

Enero - Mayo 2012

pueden comunicar, deben de tomar su decisin solos.

Enero - Mayo 2012

! Un posible razonamiento de A sera el siguiente:

Enero - Mayo 2012

(costo): Acciones A/Acciones B C D C 2 5 D 0 4

! Un posible razonamiento de B sera el siguiente:

Enero - Mayo 2012

! No importa cual accin escoja B, siempre es

mejor para A delatar a su complice y lo mismo sucede con B.

Enero - Mayo 2012

caso a A le conviene elegir D.

Enero - Mayo 2012

El Dilema del Prisionero Iterativo

Enero - Mayo 2012

Enero - Mayo 2012

Enero - Mayo 2012

saldrn libres (una recompensa).

Enero - Mayo 2012

! Al comienzo del juego cooperar y delatar tienen la misma probabilidad, pero

Enero - Mayo 2012

! La tasa de aprendizaje es representada por .

You might also like