You are on page 1of 30

Instituto Tecnológico Superior de Lerdo

S

Temas: Inventarios, Líneas De Espera, Simulación, Teoría De Juegos, Cadenas De Markov Y Programación Dinámica. Carrera: Informática Materia: Investigación de operaciones II Catedrático: 4F4B I.S.C. E.D. M.E. Ricardo de Jesús Bustamante González

Alumnos del equipo: Andrea Alejandra De La Cruz Ortiz (09231073) Yulma Carolina Camacho Medrano (09231132) Sheila Lizeth Contreras Torres (09231285) Manuel de Jesús Campos Sánchez (09231148) Jafet Rubén Carrillo Bustamante (09231286) Juan David Alvarado Balderas (09231214)

Página

1

Instituto Tecnológico Superior de Lerdo

S

Índice
Contenido
1. INVENTARIOS .......................................................................................................................... 3 1.1. 1.2. 2. El costo total ...................................................................................................................... 3 FORMULARIO .................................................................................................................. 4

LÍNEAS DE ESPERA ............................................................................................................... 8 2.1. Modelos de una cola y un servidor ................................................................................ 8

Nomenclatura de las fórmulas: .......................................................................................................... 9 3. 4. SIMULACIÓN ......................................................................................................................... 17 TEORÍA DE JUEGOS ............................................................................................................ 18 4.1. 4.1.1. 4.1.2. 4.1.3. 4.1.4. 5. ¿Qué es un juego? ......................................................................................................... 18 Estrategias ....................................................................................................................... 18 Juegos de suma cero para dos personas: estrategias aleatorias, dominación y solución gráfica. ..... 18 Estrategias aleatorias o combinados ..................................................................................... 20 Solución grafica de pares y nones ......................................................................................... 20

CADENA DE MARKOV ......................................................................................................... 22 5.1.1. Problema de la cadena de Markov: ...................................................................................... 22

6.

PROGRAMACIÓN DINÁMICA ............................................................................................. 25 6.1. Problema de la diligencia: ............................................................................................. 25

7.

PROGRAMACIÓN DINÁMICA DETERMINÍSTICA ......................................................... 28

Página

2

Instituto Tecnológico Superior de Lerdo

S

1. INVENTARIOS
En este modelo se representan iguales el inventario máximo y la cantidad pedido. Cabe mencionar que este no siempre es verdadero.

1.1.
  

El costo total

Para un periodo en este modelo está conformado por tres componentes de costo: Costo unitario del producto (C1) Costo de ordenar una compra (C2) Costo de mantener un producto en almacén (C3)

Página

3

Instituto Tecnológico Superior de Lerdo

S

1.2.

FORMULARIO

Este formulario es de gran utilidad a la hora de tratar con problemas empleados en la teoría de inventarios. EOQ = Cantidad optima de periodo:

Costo total por año:

Ó

El número de periodos por año:

Tiempo en pedidos (tiempo ÷ periodos)

Inventario promedio:

Costo de retención anual si la cantidad de pedidos es: q

Costo de pérdida anual si la cantidad de pedido es: q

EOQ cuando costo de retención se expresa en términos del valor del
Página

Punto de reposición =

4

inventario en dólares:

Instituto Tecnológico Superior de Lerdo

S

Ejemplo 1: Inventario
La empresa servimedica vende agujas hipodérmicas a hospitales y desea reunir el costo de su inventario determinado el costo óptimo de agujas hipodérmicas de cada pedido. La demanda anual es de 1000 unidades, el costo de preparación por pedido es de $10 .00 y el costo de almacenamiento por unidad por año es de $0.50 cada aguja tiene un precio de $3.00. Cantidad óptima: Primero se reemplazan los datos en la primera fórmula, ésta es utilizada para calcular la cantidad óptima de pedido: 𝑸 𝟐𝑫𝑪𝟐

𝒄𝟑 𝑸 𝟐

1000 10 . 50

Después se efectúan cada una de las operaciones indicadas iniciando por las operaciones dentro del paréntesis, después la división y por último la raíz cuadrada: 𝑸 𝟐𝟎𝟎𝟎

.𝟓𝟎 𝑸 𝟐𝟎𝟎

Costo total por año: Ahora se reemplazaran los datos para calcular el costo total por año: 𝑪𝑻 𝑪𝟏

𝑫 𝑪𝟐 𝑫

𝑸 10 𝑪𝟑

1000 200 𝑸

𝟐 .50 200 2 𝑪𝑻

𝑪𝑻 𝑪𝑻

3 1000 3000 3000

50 𝟓𝟎 𝑪𝑻

3100

Página

5

10 5

.50 100

Instituto Tecnológico Superior de Lerdo

S

Número de pedidos por año: A continuación calcularemos el número de pedidos por año, de igual modo remplazamos los datos en la fórmula, y se efectúa la operación. 𝑵 𝑫

𝑸 𝑵

1000 200 𝑵

5

Tiempo entre pedidos: Por último reemplazamos los valores en la siguiente fórmula, y se realiza la operación. 𝒕 𝑸 𝑫 𝒕 200 1000 𝒕 0.2

Ejemplo 2: Inventario
Una empresa vende un artículo que tiene una demanda de 18,000 unidades por año, su costo de almacenamiento por unidad es de $1.20 y el costo de ordenar una compra es de $400.00. El costo total unitario del artículo es de $1.00 no se permite faltante de unidades y su tasa de reemplazo es instantáneo. Cantidad óptima: Al igual que el problema anterior se reemplazan los datos en la primera fórmula y calcularemos la cantidad óptima de pedido: 𝑸 𝟐𝑫𝑪𝟐

𝒊 𝑪𝟏 𝑸 𝟐

18,000 400 1.20 1

Después se efectúan cada una de las operaciones indicadas. 𝑸 𝟏𝟒𝟒𝟎𝟎𝟎𝟎𝟎
𝟏.𝟐𝟎 𝑸

3,465 𝑢𝑛𝑖𝑑𝑎𝑑𝑒𝑠
Página

Costo total por año:

6

Instituto Tecnológico Superior de Lerdo

S 𝑪𝑻 𝑪𝟏

𝑫 𝑪𝟐 𝑫

𝑸 𝑪𝟑 𝑸

𝟐

Ahora se reemplazaran los datos para calcular el costo total por año: 18,000 3,465 3,465 2 𝑪𝑻

1.00 18,000

400

1.20

Y se efectúan cada una de las operaciones indicadas, en orden jerárquico. 𝑪𝑻 𝑪𝑻 18,000 2077.92 2079

22,156.92 𝑎ñ𝑜

Número de pedidos por año: A continuación calcularemos el número de pedidos por año, se sustituyen los valores en la fórmula, y se realiza la operación. 𝑫 𝑸 18,000 3,465 𝑵 𝑵 𝑵

5.19

Tiempo entre pedidos: Para concluir; se calcula el tiempo entre pedidos, de igual modo se sustituyen los vales en la fórmula, y se realiza la operación correspondiente. 𝒕 𝑸 𝑫 𝒕 3,465 18,000 𝒕 0.1925 𝑎ñ𝑜𝑠

Página

7

Instituto Tecnológico Superior de Lerdo

S

2. LÍNEAS DE ESPERA
   Una cola es una línea de espera. La teoría de colas es un conjunto de modelos matemáticos que describen sistemas de líneas de espera particulares. El objetivo es encontrar el estado estable del sistema y determinar una capacidad de servicio apropiada.

2.1.
   

Modelos de una cola y un servidor

M/M/1 M/G/1 M/D/1 M/Ek/1

Página

8

Instituto Tecnológico Superior de Lerdo

S

M/M/1:

Un servidor con llegadas de Poisson y tiempos de servicio exponenciales.

Fórmula M/M/1 𝝀
𝝀 − µ 𝟏 µ − 𝝀 𝟏 − 𝑷 𝑷𝒏 𝒆−µ 𝟏−𝒑 𝒕 𝑳𝒒 𝝀𝟐 𝝁 𝝁 − 𝝀 𝝀 𝝁 𝝁 − 𝝀 𝑳𝑺 > 𝑛 𝑷𝒏+𝟏 𝑳𝒔 𝑾𝒔

𝑷𝒏 𝑷 𝑾𝑺 > 𝑡 𝑾𝒒 𝑷 𝑷

𝑾𝒒 > 𝑡 𝒑𝒆−µ 𝟏−𝒑 𝒕 𝒕

≥ 𝟎, 𝒑 < 1

Nomenclatura de las fórmulas:
           λ: Tasa media de llegadas o probabilidad de llegadas. µ: Es el número de clientes que puedo atender en un tiempo (n). p: Tasa media de llegadas/ número de clientes que puedo atender en un tiempo (n). Ls: Número esperado de clientes en el sistema. Lq: Número esperado de clientes en la cola. Ws: Tiempo esperado de espera en el sistema. Wq: Tiempo esperado de espera en la cola. Pn: Probabilidad de tener “X” cantidad de clientes en el sistema. Pn+1: Probabilidad de tener una cola de “x”. P (Ws > t): Probabilidad de esperar más de “x” tiempo en el sistema. P (Wq > t9: Probabilidad de esperar más de “x” tiempo en la cola.

Página

9

Instituto Tecnológico Superior de Lerdo

S

Ejemplo1. M/M/1
Un lavacar puede atender un auto cada 5 minutos y la tasa media de llegadas es de 9 autos por hora. Obtenga las medidas de desempeño de acuerdo con el modelo M/M/1. Además la probabilidad de tener 0 clientes en el sistema, la probabilidad de tener una cola de más de 3 clientes y la probabilidad de esperar más de 30min. En la cola y en el sistema.

Solución: 𝑳𝒔 𝑾𝒔 𝑷𝟎 𝝀 𝝀 − µ 𝟏 µ − 𝝀 𝝀

3 𝑐𝑙𝑖𝑒𝑛𝑡𝑒𝑠 0.33ℎ𝑟𝑠. 0.25 𝒆−µ 𝟏−𝒑 𝒕

9, µ

12, 𝑷

9 12 𝑳𝒒

0.75 𝝀𝟐 𝝁 𝝁 − 𝝀 𝝀 𝝁 𝝁 − 𝝀 𝑳𝑺 > 3 𝑷𝟑+𝟏 2.25 𝑐𝑙𝑖𝑒𝑛𝑡𝑒𝑠

20𝑚𝑖𝑛. 𝑾𝒒

𝑷

0.25ℎ𝑟𝑠. 0.32

15𝑚𝑖𝑛. 𝟏

− 𝑷 𝑷𝟎 𝑷

𝑾𝑺 > 30 60

0.22 𝑷

𝑾𝒒 > 30 60 𝑷𝒆−µ 𝟏−𝒑 𝒕

0.17

Ejemplo 2. M/M/1
A un supermercado llegan en promedio 80 clientes por hora que son atendidos entre sus 5 cajas. Cada caja puede atender en promedio a un cliente cada 3 minutos. Obtenga las medidas de desempeño de acuerdo con el modelo M/M/1. Además la probabilidad de tener 2 clientes en el sistema, la probabilidad de tener una cola de más de 4 clientes y la probabilidad de esperar más de 10 min. En la cola. 𝝀
𝒘𝒔 80 60 1.33 𝝁 1 3 1.66 𝑷 1.33 1.66 0.801

1 − 𝜆 𝜇
−0.72 𝒘𝒔

1 − 1.33 1.66 𝑳𝒔 𝝀

− 𝝁 𝝀

1.33 − 1.66 1.33

−4.03𝑐𝑙𝑖𝑒𝑛𝑡𝑒𝑠 1.7689 1.66 −1 𝑳𝒒 𝝀𝟐

𝝁 𝝁 − 𝝀

1.33 2 1.66 1.66 − 1.33

0.665

Página

10

Instituto Tecnológico Superior de Lerdo

S

M/G/1:

Un servidor con tiempos entre llegadas exponenciales y una distribución general de tiempos de servicio.

Fórmula M/G/1 𝑳𝒔 𝑳𝒒 𝑷

𝟏 µ 𝑳𝒒 𝝀𝟐

𝝈𝟐+ 𝑷𝟐 𝟐 𝟏 − 𝑷 𝑾𝒒 𝑳𝒒 𝝀 𝑷 𝑾𝒔

𝑷𝟎 𝑾𝒒

𝟏 − 𝑷 𝑷𝑾

𝑷 < 1

Nomenclatura de las fórmulas:
          (): El tiempo esperado de servicio depende de la tasa media de servicio. (): El número esperado de llegadas por unidad de tiempo se llama tasa media de llegadas. Lq: Número esperado de clientes en la cola. Ls: Número esperado de clientes en el sistema. Wq: Tiempo esperado de espera en la cola. Ws: Tiempo esperado de espera en el sistema. (=0): Tiempos de servicio constantes. 1/: El tiempo esperado de servicio. (P0): Probabilidad de error. Probabilidad de tiempo de espera (PW).

Página

11

Instituto Tecnológico Superior de Lerdo

S

Ejemplo1. M/G/1
Un lavacar puede atender un auto cada 5 min. y la tasa media de llegadas es de 9 autos/hora,  = 2 min. Obtenga las medidas de desempeño de acuerdo con el modelo M/G/1. Además la probabilidad de tener 0 clientes en el sistema y la probabilidad de que un cliente tenga que esperar por el servicio. Solución: 𝑳𝒔 𝑳𝒒 𝑷 1.31 .75 2.06 𝑐𝑙𝑖𝑒𝑛𝑡𝑒𝑠 𝑳𝒒 𝝀𝟐 𝝈𝟐+ 𝑷𝟐 𝟐 𝟏 − 𝑷 1.31 𝑐𝑙𝑖𝑒𝑛𝑡𝑒𝑠 𝑾𝒔 𝑾𝒒 𝟏

µ 𝟏
− 𝑷

0.228ℎ𝑟𝑠.

13.7𝑚𝑖𝑛. 𝑾𝒒

𝑷 𝟎. 𝟕𝟓 𝑳𝒒

𝝀

0.145ℎ𝑟𝑠. 8.7𝑚𝑖𝑛. 𝑷𝟎

0.25 𝑷𝑾 𝑷

< 1

Ejemplo1. M/G/1
A un supermercado llegan en promedio 80 clientes por hora que son atendidos entre sus 5 cajas. Cada caja puede atender en promedio a un cliente cada 3 minutos. Suponga  = 5 min. Obtenga las medidas de desempeño de acuerdo con el modelo M/G/1. Además la probabilidad de tener 0 clientes en el sistema y la probabilidad de que un cliente tenga que esperar por el servicio. 𝝀
𝐿𝑠 𝐿𝑠 𝐿𝑞 9.94 𝜆2𝜎2 𝐿𝑞 4.03 𝑝 13.97 1.33 𝝁 .05 𝑷 26.6 𝝈 5 𝑃

2 2 1 − 𝑃 16.24 −6.06 𝐿𝑞

1.76 25 𝐿𝑞 𝑤𝑠 9.94 𝑤𝑞 1 . 33 𝑤𝑠

7.47

10.50

Página

12

1 𝜇

Instituto Tecnológico Superior de Lerdo

S

M/D/1:

Un servidor con tiempos entre llegadas exponenciales y una distribución degenerada de tiempos de servicio.

Fórmula M/D/1 𝑳𝒔
𝝀𝑾𝒔 𝑳𝒒 𝑷𝟐 𝟐 𝟏 − 𝑷 𝑾𝒔 𝑾𝒒 𝟏

µ 𝑷 < 1 𝑾𝒒 𝑳𝒒

𝝀

Nomenclatura de las fórmulas:
        (): El tiempo esperado de servicio depende de la tasa media de servicio. (): El número esperado de llegadas por unidad de tiempo se llama tasa media de llegadas. Ls: Número esperado de clientes en el sistema. Lq: Número esperado de clientes en la cola. Ws: Tiempo esperado de espera en el sistema. Wq: Tiempo esperado de espera en la cola. 1/: El tiempo esperado de servicio. (P0): Probabilidad de error.

Página

13

Instituto Tecnológico Superior de Lerdo

S

Ejemplo1. M/D/1
Un lavacar puede atender un auto cada 5 min. La tasa media de llegadas es de 9 autos/hora. Obtenga las medidas de desempeño de acuerdo con el modelo M/D/1. 𝑳𝒔

𝑾𝒔 𝝀𝑾𝒔

𝑾𝒒

1.875 𝑐𝑙𝑖𝑒𝑛𝑡𝑒𝑠 0.21ℎ𝑟𝑠. 12.5𝑚𝑖𝑛. 𝑳𝒒

𝑾𝒒 𝑷𝟐

𝟐 𝟏 − 𝑷

1.125 𝑐𝑙𝑖𝑒𝑛𝑡𝑒𝑠 𝟏

µ 𝑳𝒒

𝝀

0.125ℎ𝑟𝑠.

7.5𝑚𝑖𝑛.

Ejemplo1. M/D/1
A un supermercado llegan en promedio 80 clientes por hora que son atendidos entre sus 5 cajas. Cada caja puede atender en promedio a un cliente cada 3 minutos. Obtenga las medidas de desempeño de acuerdo con el modelo M/D/1. 𝑳𝒔 𝝀𝑾𝒔 6.70 𝝀 1.33 µ 0.33 𝑷 4.03

1.33 5.04 𝐿𝑠 𝑳𝒒 6.70 𝑷𝟐

𝑘 1 𝟐𝑘 𝟏 − 𝑷

4.03 2

8.06

2 1 − 4.03

16.2409
−6.06 −2.688 −1 𝑾𝒔 𝑾𝒒 𝑳𝒒 𝝀 𝟏 µ 2.68 1.33 2.68 𝑾𝒒

2.01

Página

14

2.01

1

.33

5.04

Instituto Tecnológico Superior de Lerdo

S

M/Ek/1:

Un servidor con tiempos entre llegadas exponenciales y una distribución Erlang de tiempos de servicio.

Fórmula M/Ek/1 𝑳𝒔
𝝀𝑾𝒔 𝑳𝒒 𝑷𝟐 𝒌 𝟏 𝟐𝒌 𝟏 − 𝑷 𝑾𝒔 𝑾𝒒 𝟏

µ 𝑷 < 1 𝑾𝒒 𝑳𝒒

𝝀

Nomenclatura de las fórmulas:
        (): El tiempo esperado de servicio depende de la tasa media de servicio. (): El número esperado de llegadas por unidad de tiempo se llama tasa media de llegadas. Ls: Número esperado de clientes en el sistema. Lq: Número esperado de clientes en la cola. Ws: Tiempo esperado de espera en el sistema. Wq: Tiempo esperado de espera en la cola. 1/: El tiempo esperado de servicio. (P0): Probabilidad de error.

Página

15

Instituto Tecnológico Superior de Lerdo

S

Ejemplo1. M/Ek/1
Un lavacar puede atender un auto cada 5 min. La tasa media de llegadas es de 9 autos/hora. Suponga  = 3.5 min (aprox.) Obtenga las medidas de desempeño de acuerdo con el modelo M/Ek/1 𝑷𝟐 𝒌 𝟏 𝟐𝒌 𝟏 − 𝑷 𝑳𝒔 𝝀𝑾𝒔

2.437 𝑐𝑙𝑖𝑒𝑛𝑡𝑒𝑠 𝑳𝒒

1.6875 𝑐𝑙𝑖𝑒𝑛𝑡𝑒𝑠 𝑾𝒔 𝑾𝒒 𝟏

µ

0.2708ℎ𝑟𝑠.

16.25𝑚𝑖𝑛. 𝑾𝒒 𝑳𝒒

𝝀

0.1875ℎ𝑟𝑠.

11.25𝑚𝑖𝑛

Ejemplo1. M/Ek/1
A un supermercado llegan en promedio 80 clientes por hora que son atendidos entre sus 5 cajas. Cada caja puede atender en promedio a un cliente cada 3 minutos. Suponga que k= 4. Obtenga las medidas de desempeño de acuerdo con el modelo M/Ek/1 µ 0.33 𝝉 1.33 𝑳𝒔 𝐿𝑆 𝐿𝑆 𝑾𝒔 𝑾𝒒 𝝀𝑾𝒔

1.33 5.54 7.36 𝟏
µ

2.51 + 1 / 0.33 = 2.51 + 3.03 = 5.54 𝑳𝒒 𝑷𝟐

𝒌 𝟏 𝟐𝒌 𝟏 − 𝑷
Lq= 4.03 (4+1) = 16.24 (5) = 81.2 = -3.34 (-1) = 3.34 2(4) (1-4.03) 8(-3.03) -24.24

Página 𝑾𝒒 𝑳𝒒

𝝀

3.34 1.33

2.51

16

Instituto Tecnológico Superior de Lerdo

S

3. SIMULACIÓN
La simulación es indispensable para la descripción y análisis de una amplia variedad de problemas reales. Proporciona considerables beneficios según el contexto en los que se use: • • • Ahorro de tiempo. Ahorro de recursos económicos. Permite analizar la ocurrencia de ciertos fenómenos a través de la reconstrucción de escenas y un minúsculo análisis, que no podría llevarse a cabo en una situación real.

Página

17

Instituto Tecnológico Superior de Lerdo

S

4. TEORÍA DE JUEGOS
4.1. ¿Qué es un juego?
Un juego es una situación competitiva entre N personas o grupos, denominados jugadores, que se realiza bajo un conjunto de reglas previamente establecidas, con consecuencias conocidas. Las reglas definen las actividades elementales, o movimientos del juego. Pueden permitirse diferentes movimientos para los distintos jugadores, pero, cada jugador conoce los movimientos de que dispone los otros jugadores. Si un jugador gana lo que otro jugador pierde , el juego se le denomina juego de suma 0. Un juego de dos personas es un juego que tiene solo dos jugadores.

4.1.1. Estrategias
Una estrategia pura es un plan previamente determinado que establece la secuencia de movimientos y contramovimientos que un jugador realizará durante un juego completo.

4.1.2. Juegos de suma cero para dos personas: estrategias aleatorias, dominación y solución gráfica.
En este tipo de juegos, lo que uno gana es igual a lo que otro pierde, entonces al sumar la ganancia y la pérdida de uno y otro, el resultado obtenido es exactamente cero. Se analiza cómo determinar el valor y la estrategia óptima para un juego de suma cero para dos personas que no tiene un punto silla. Se inicia con el juego sencillo de pares y nones.

Página

18

Instituto Tecnológico Superior de Lerdo

S

Ejercicio 1
Dos jugadores (que se llaman Non y Par) escogen de manera simultánea el número de dedos (1 o 2) que deben mostrar. Si la suma de los dedos que

muestran los jugadores en non, entonces, Non gana 1 dólar a Par. Si la suma de los dedos es par, entonces Par gana 1 dólar a Non. Consideramos que el jugador de los renglones es Non y que el jugador de las columnas es Par. Determine si este juego tiene un punto silla. Solución: Este juego de suma cero cuya matriz de recompensas es la que se muestra en la siguiente tabla. Puesto que Max (mínimo del renglón= =-1 y min (máximo de las columnas)= +1, no se cumple la ecuación (1), y este juego no tiene punto silla. Bueno todo lo que sabemos es que Non puede estar seguro de una recompensa de por lo menos -1, y Par puede mantener a Non es una recompensa de cuando mucho +1. Por lo tanto no es evidente como determinar el valor del juego y las estrategias óptimas

Jugador de Los renglones (Non)

Jugador de las columnas (Par)

1 dedo

2 dedos

mínimo de los renglones

1 dedo 2 dedos Máximo de columnas

-1 +1 +1

+2 -1 +1

-1 -1

Página

19

Instituto Tecnológico Superior de Lerdo

S

4.1.3. Estrategias aleatorias o combinados

Debemos ampliar el conjunto de estrategias admisibles para cada jugador con el fin de incluir las estrategias aleatorias. Hemos supuesto que hasta ahora que cada vez que un jugador juega, aplica la misma estrategia. ¿Por qué no dejar que cada jugador escoja una probabilidad de aplicar cada estrategia? Por ejemplo: X1= probabilidad de que Non levante un dedo. X2= probabilidad de que Non levante dos dedos. y1= probabilidad de que Par levante un dedo. y2= probabilidad de que Par levante dos dedos. Por lo que se entendió si x1≥0, x2≥0 y x1+x2 = 1, entonces (x1, x2) es una estrategia combinada o aleatoria a Non. Por ejemplo, Non puede seguir la

estrategia (1/2,1/2) si lanza una moneda antes de cada jugada del juego y levanta un dedo si sale cara o dos dedos si sale cruz; de igual manera para Par.

4.1.4. Solución grafica de pares y nones
Con este es posible determinar la estrategia óptima de Non. Como x1 + x2 = 1, sabemos que x2 = 1 – x1. Por lo tanto, cualquier estrategia combinada puede ser (x1, 1 - x1) y solo basta determinar el valor de x. Supóngase que Non selecciona una estrategia combinada [x1, (1 – x1)]. ¿Cuál es la recompensa esperada de Non comparada con cada una de las estrategias de Par? Si Par levanta un dedo, entonces Non recibirá una recompensa de -1 con probabilidad x1 y una recompensa de +1 con probabilidad de x2 = 1 – x1. Por lo tanto, si Par levanta un dedo y Non elige la estrategia combinada (x1, 1 – x1), entonces la recompensa esperada de Non es:

Página

20

Instituto Tecnológico Superior de Lerdo

S

(-1) x1 + (+1) (1 - x1) = 1 – 2x1 Como función de x1 esta recompensa esperada se traza como un segmento de recta AC en que de igual manera, si Par muestra dos dedos y Non elige la estrategia combinada (x1, 1 – x1), la recompensa esperada de Non es: (+1) x1 + (-1) (1 - x1) = 2x1 – 1

¿Qué es el segmento de la recta DE?

E (1,1) A

B 1

X1

D

C (1,-1)

AC= recompensa de Non x1 si par escoge 1. DE= recompensa de Non x1 si par escoge. ¿Cómo hacer que una estrategia no óptima recompense? Estrategia de Non X1< ½ X1 > ½ Y1< ½ Y2> ½ Par puede escoger 2 dedos 1 dedo 1 dedo 2 dedos Recompensa esperada <0 (sobre BD) <0 (sobre BC)

Página

> 0 (sobre BE)

21

>0 (sobre AB)

Instituto Tecnológico Superior de Lerdo

S

5. CADENA DE MARKOV
Es una serie de eventos, en la cual la probabilidad de que ocurra un evento depende del evento inmediato anterior. En efecto, las cadenas de este tipo tienen memoria. “Recuerdan” el último evento y esto condiciona las posibilidades de los eventos futuros. Esta dependencia del evento anterior distingue a las cadenas de Markov de las series de eventos independientes, como tirar una moneda al aire o un dado. Una cadena de Markov es una secuencia X1, X2, X3,… de variables aleatorias. El rango de estas variables, es llamado espacio estado, el valor de Xn es el estado del proceso en el tiempo n. Si la distribución de probabilidad condicional de Xn+1 en estados pasados es una función de Xn por sí sola, entonces: Donde xi es el estado del proceso en el instante i. La identidad mostrada es la Propiedad de Markov.

5.1.1. Problema de la cadena de Markov:
Si hoy está nublado, para que pasado mañana esté nublado, podríamos tener un día de mañana soleado o nublado. Así tenemos las siguientes secuencias en orden de (hoy, mañana y pasado mañana): (Nublado, soleado, nublado) o (nublado, nublado, nublado) donde pasado mañana es nublado. Estas secuencias son mutuamente excluyentes, corresponden a caminos distintos en el árbol, así tenemos que: = P (pasado mañana nublado | hoy nublado) = P ((nublado, soleado, nublado) o (nublado, nublado, nublado)) =P (nublado,soleado,nublado)+P(nublado, nublado, nublado)=(.6 ´.3)+(.4´.4) =.34

Este resultado se obtuvo multiplicando las probabilidades condicionales a lo largo de los caminos desde hoy nublado hasta pasado mañana nublado. No es necesario que seamos tan específicos en términos de hoy, mañana o pasado mañana, podemos darnos cuenta que lo realmente importante es el número de días que pasa entre una predicción y otra.

Página

22

Instituto Tecnológico Superior de Lerdo

S

Tiempo de hoy

Mañana

Pasado mañana Nublado

Soleado Nublado Nublado

Nublado

EJERCICIO #1

El ascensor de un edificio con bajo y 2 pisos más realiza viajes de uno a otro piso. El piso en el que finaliza el viaje enésimo del ascensor, sigue una cadena de markov.

Se sabe que la mitad de los viajes que parten del bajo se dirigen a los otros 2 pisos, mientras que si un viaje comienza en el primer piso, sólo el 25% de las veces finaliza en el segundo.

Por último, si un trayecto comienza en el segundo piso, siempre finaliza en el bajo calcula la raíz de probabilidades de transición según la cadena de markov.

*** 0 1 2

0 0 75 100

1 50 0 0

2 50 25 0

Página

23

Instituto Tecnológico Superior de Lerdo

S

0

0%

P b

1

50%

2

50% B 1

0

75% 50% 1

75%

0% 25% 2 100%

P m

1

0% P b 50%

2

25%

2

B

0

100% P m P b P a

P a

1

0%

2

0%

Página

24

Instituto Tecnológico Superior de Lerdo

S

6. PROGRAMACIÓN DINÁMICA
Es un enfoque general para la solución de problemas en los que es necesario tomar decisiones en etapas sucesivas. Las decisiones tomadas en una etapa condicionan la evolución futura del sistema, afectando a las situaciones en las que el sistema se encontrará en el futuro (denominadas estados), y a las decisiones que se plantearán en el futuro. La programación dinámica no tiene formulación matemática estándar. Se trata de un enfoque de tipo general para la solución de problemas, y las ecuaciones se derivan de las condiciones individuales de los mismos.  El procedimiento general de resolución de estas situaciones se divide en el análisis recursivo de cada una de las etapas del problema, en orden inverso, es decir comenzando por la última y pasando en cada iteración a la etapa antecesora. El análisis de la primera etapa finaliza con la obtención del óptimo del problema.

6.1.

Problema de la diligencia:

Es una manera de reconocer una situación que se puede formular como un problema de programación dinámica. Es encontrar la ruta que minimiza el costo total de un nodo específico.

6.1.1. Terminología y notación básica
Períodos o etapas: Sea N= {1, 2,....., n} un conjunto finito de elementos. Mediante el índice, representamos cada uno de ellos. N es el conjunto de períodos o etapas del proceso. Espacio de estados: { } es una familia de conjuntos, uno para cada período n. S se denomina espacio de estados en el período n. Cada uno de sus elementos, que se representa mediante Sn, es un estado, que describe una posible situación del proceso en ese período.     Sea s: El estado de inicio; j: estado destino. n: La fase, normalmente representa el número de arcos hasta el destino.

Página

f(n, s): La política de costo mínimo cuando se encuentra en el estado s de la etapa n.

25

C(s, j): Costo o distancia de ir desde s hasta j.

Instituto Tecnológico Superior de Lerdo

S

Ejemplo1. Programación dinámica
Un cazafortunas desea ir de Missouri a California en una diligencia, y quiere viajar de la forma más segura posible. Tiene los puntos de salida y destino conocidos, pero tiene múltiples opciones para viajar a través del territorio. Se entera de la posibilidad de adquirir un seguro de vida como pasajero de la diligencia. El costo de la póliza estándar (cij) se muestra en la tabla siguiente:

El objetivo es hallar 𝒇𝟏 𝑨 y su ruta correspondiente. Cuando el cazafortunas tiene sólo una etapa por recorrer (n=4) su ruta de ahí en adelante, estará determinada por el estado actual (H o I) y su destino final X4 = J. Luego 𝒇𝟒 𝑺 𝑪𝒔𝒋 𝒇𝟓 𝒇𝟒 𝒇𝟒 𝑱 𝑯 𝑯 𝒄𝒔𝒋 𝒄𝒔𝒋 𝒄𝒔𝒋 𝟑 𝟒

Etapa n=3 El cazafortunas tiene 2 etapas por recorrer (n=3). Suponga que sale de E.

E
C E, I =4 I 𝒇𝟒 𝑰 𝒇𝟑 𝑬 𝑪𝑬,𝑰 𝒇𝟒 𝑰 𝟖

Página

26

C E, H =1

H 𝒇𝟒 𝑯 𝒇𝟑

𝑬 𝑪𝑬

,𝑯 𝒇𝟒 𝑯 𝟒

Instituto Tecnológico Superior de Lerdo

S

Etapa n=2 En la segunda etapa, el cazafortunas tiene 3 jornadas por recorrer (n=2). Suponga que sale de C. C, C E =3 C C, C F =2 F C, C G =4

E 𝒇𝟑

𝒇𝟑 𝑬

𝑭 𝒇𝟐

𝑪 𝒇𝟐 𝑪 𝑪𝑪

,𝑬 𝑪𝑪,𝑭 𝒇𝟑

𝒇𝟑 𝑬

𝑭 𝟕

𝟗

G 𝒇𝟑 𝑮 𝒇𝟐

𝑪 𝑪𝑪

,𝑮 𝒇𝟑 𝑮 𝟏𝟎

Etapa n=1 En la primera etapa, el cazafortunas tiene todas las jornadas por recorrer (n=1). Necesariamente debe salir de A. 𝒇𝟐 𝒇𝟐 𝒇𝟐 𝑩 𝑪 𝑫 𝒇𝟏 𝑨 𝒇𝟏 𝑨 𝒇𝟏 𝑨 𝑪𝑨,𝑩 𝑪𝑨,𝑪 𝑪𝑨,𝑫 𝒇𝟐 𝒇𝟐 𝒇𝟐 𝑩 𝑪 𝑫 𝟏𝟑 𝟏𝟏 𝟏𝟏

C A, B =2

B
C

A

C A, C =4 C A, D =3 D

Características de la P.D 1. El problema se puede dividir por etapas, que requieren una política de decisión en cada una de ellas. 2. Cada etapa tiene un cierto número de estados asociados a su inicio. (Estados son las diferentes condiciones posibles en las que se puede encontrar el sistema en cada etapa del problema).

Página

27

Instituto Tecnológico Superior de Lerdo

S

7. PROGRAMACIÓN DINÁMICA DETERMINÍSTICA
Una ruta crítica es la secuencia de los elementos terminales de la red de proyectos con la mayor duración entre ellos, determinando el tiempo más corto en el que es posible completar el proyecto. La duración de la ruta crítica determina la duración del proyecto entero. Cualquier retraso en un elemento de la ruta crítica afecta a la fecha de término planeada del proyecto, y se dice que no hay holgura en la ruta crítica. Un proyecto puede tener varias rutas críticas paralelas. El método de la ruta crítica usa ciertos tiempos (reales o determinísticos). El método de la ruta crítica se basa en 2 procedimientos que recorren la red de las actividades de un proyecto: La pasada hacia atrás y la pasada hacia adelante, cada actividad de la red se representa con el diagrama siguiente:

  

Inicio más cercano IC: Es el tiempo más cercano en el que puede empezar una actividad, suponiendo que todas las actividades precedentes han concluido. Tiempo más cercano TC: El tiempo más cercano en que una actividad puede terminar. Inicio más lejano IL: Tiempo más lejano en que una actividad puede comenzar sin retrasar el tiempo de terminación del todo el proyecto. Tiempo más lejano TL: El tiempo más lejano en que una actividad puede terminar sin retrasar el tiempo de terminación de todo el proyecto.

Página

28

Instituto Tecnológico Superior de Lerdo

S

Ejemplo1. Programación dinámica determinística.

Página

29

Instituto Tecnológico Superior de Lerdo

S

Personas que no trabajaron: José de Jesús Castillo Molina

Página

30