You are on page 1of 32

Teoría de Juegos

Terminología básica
• • • • Jugadores. Son los participantes en el juego que toman decisiones con el fin de maximizar su utilidad. Son dos o más. Acciones de cada jugador. Son las decisiones que puede tomar cada jugador en cada momento en que le toque jugar. El conjunto de acciones de un jugador en cada momento del juego puede ser finito o infinito. Resultados del juego. Son los distintos modos en que puede concluir un juego. Cada resultado lleva aparejadas unas consecuencias para cada jugador. Pagos. Cada jugador recibe un pago al acabar el juego, que depende de cuál haya sido el resultado del juego. El significado de dicho pago es la utilidad que cada jugador atribuye a dicho resultado, es decir, la valoración que para el jugador tienen consecuencias de alcanzar un determinado resultado en el juego. Estrategias. Perfiles de estrategias. Una estrategia de un jugador es un plan completo de acciones con las que éste podría proponerse participar en dicho juego. Un perfil de estrategias es un conjunto de estrategias, una por cada jugador. Forma estratégica y forma extensiva. Son formas de describir un juego. Ambas especifican los jugadores, las acciones y los pagos. La forma estratégica (o forma normal) organiza la descripción en forma rectangular, centrando su énfasis en las estrategias de los jugadores (como si éstos fueran capaces de tomar todas sus decisiones de una vez), mientras que la forma extensiva lo hace en forma de árbol, resaltando la secuencia del juego, es decir, la manera en que se desarrollan o podrían desarrollarse las acciones de los jugadores para alcanzar los posibles resultados del juego.


Juegos de dos personas y suma cero
En éstos juegos participan sólo dos adversarios o jugadores. Son llamados juegos de suma cero porque un jugador gana lo que el otro pierde, de manera que la suma de sus ganancias netas es cero. En general, general un juego de dos personas se caracteriza por: • Las estrategias del jugador 1. • Las estrategias del jugador 2. • La matriz de pagos.

Un objetivo primordial de la teoría de juegos es desarrollar criterios racionales para seleccionar una estrategia. . Ambos jugadores son racionales. los cuales implican dos supuestos importantes: 1. Ambos jugadores eligen sus alternativas sólo para promover su propio bienestar (sin compasión por el oponente). 2.

Enfoque de la Estrategia Dominada Una estrategia es dominada por una segunda estrategia si esta última es siempre al menos tan buena como la primera. Este es un criterio estándar que propone la teoría de juegos para elegir una estrategia. Enfoque del Criterio Minimax Se trata de un línea de razonamiento en que cada jugador debe jugar de tal manera que minimice su pérdida máxima. Juegos de estrategia mixta Los juegos de estrategia mixta no tienen un punto de silla de montar (el valor minimax de un jugador no es igual al maximín del otro). siempre que el resultado de su elección no pueda ser aprovechado por su oponente para mejorar su posición. sin que importe lo que haga el oponente. .

Enfoque Gráfico para solución de juegos .

Solución de juegos con programación lineal .

.

.

. por lo tanto. son independientes de los eventos que ocurrieron en el pasado.Cadena de Markov La cadena de Markov es un tipo especial de proceso estocástico que tiene la propiedad particular de que las probabilidades que describen la forma en que el proceso evolucionará en el futuro dependen sólo del estado actual en que se encuentra el proceso.

Dicha matriz es cuadrada con tantas filas y columnas como estados que tiene el sistema. por lo tanto. es una variable que cambia con el valor del tiempo. . Estados Los estados son la caracterización de la situación en que se halla el sistema en un instante dado. El estado de un sistema en un instante t es una variable cuyos valores solo pueden pertenecer al conjunto de estados en el sistema. El sistema modelizado por la cadena. cambio al que llamamos transición.  Matriz de transición Una matriz de transición es el arreglo numérico donde se encuentran las probabilidades de un estado a otro. la cual puede ser tanto cuantitativa como cualitativa. y los elementos de matriz representan la probabilidad de que el estado próximo sea el correspondiente a la columna si el estado actual es el correspondiente a la fila.

 Matriz de transición La matriz debe cumplir con ciertos requisitos: • La suma de las probabilidades de los estados debe ser igual a 1. • la matriz de transición debe ser cuadrada • las probabilidades de transición deben estar entre 0 y 1. .

 Diagrama de transición .

después de haber entrado a este estado. Estado absorbente. Se puede decir que el estado estable es la distribución de probabilidades que en cierto punto quedará fija para el vector P y no presentará cambios en períodos posteriores. un estado es recurrente si y solo si no es transitorio. después de haber entrado a este estado. Por consiguiente. Estado estable. Un estado se llama estado transitorio si. el proceso nunca saldrá de él. el estado i es un estado absorbente si y solo si Pij= 1. después de haber entrado ahí. Un estado se llama estado absorbente si. Por consiguiente. .Tipos de estados. el proceso nunca regresa a él. Estado recurrente. Se dice que un estado es recurrente si. Estado transitorio. el proceso definitivamente regresara a ese estado.

X3. Esta identidad es la denominada propiedad de Markov : El estado en n + 1 sólo depende del estado en n y no de la evolución anterior del sistema .. X2... El valor de Xn es el estado del proceso en el tiempo n. Si la distribución de probabilidad condicional de Xn+1 en estados pasados es una función de Xn por sí sola. . entonces: Donde xi es el estado del proceso en el instante i. de variables aleatorias. Propiedad de Markov Una cadena de Markov es una secuencia X1.

.

.

.

.

.

.

.

Programación dinámica .

Programación dinámica • La programación dinámica es una técnica matemática útil para la resolución de problemas de optimización donde una solución está formada por una serie de decisiones. • La programación dinámica no sólo tiene sentido aplicarla por razones de eficiencia. . sino porque además presenta un método capaz de resolver de manera eficiente problemas cuya solución ha sido abordada por otras técnicas y ha fracasado.

y llegando hasta el tamaño deseado con un proceso iterativo. calculando primero las soluciones para los problemas pequeños.Programación dinámica (Cont…) • La programación dinámica se basa en el principio de optimalidad de Bellman: ‘’En una secuencia de decisiones óptimas toda subsecuencia ha de ser también óptima’’. Con esto se pretende evitar la repetición de cálculos para problemas más pequeños. • La efectividad de esta técnica consiste en resolver los llamados subproblemas almacenando estos resultados en una tabla. .

. una en cada etapa.Requerimientos Para que un problema pueda ser abordado por esta técnica ha de cumplir dos condiciones: • La solución al problema ha de ser alcanzada a través de una secuencia de decisiones. • Dicha secuencia de decisiones ha de cumplir el principio de optimalidad.

• Definición recursiva de la solución. • Construcción de la solución óptima haciendo uso de la información contenida en la tabla anteriormente establecida. .Aplicación del algoritmo El algoritmo de programación dinámica consta de los siguientes pasos: • Planteamiento de la solución como una sucesión de decisiones y verificación de que esta cumple el principio de optimalidad. • Cálculo del valor de la solución óptima mediante una tabla en donde se almacenan soluciones a problemas parciales para reutilizar los cálculos.

Ejemplo de la ruta más corta .

Descomposición del problema en etapas Etapa 1: 1-4 = 5 Etapa 2: 4-5 = 7 Etapa 3: 5-7 = 9 1 2 3 Ruta mas corta = 21 .

Ecuación recursiva: Etapa 3: .

Etapa 2: Etapa 1 .

Solución final Ruta más corta: 1 4 5 7 Distancia asociada : 21 millas .