You are on page 1of 71

Programacin Dinmica

Programacin Dinmica (PD)


Tcnica cuantitativa de toma de decisiones
desarrollada por Bellman y Dantzig en 1957
Se basa en una estructura de optimalidad
que tiene un conjunto de : una poltica
ptima consiste de subpolticas ptimas.
(Recursividad).
PD: Tcnica matemtica que resuelve una
serie de decisiones secuenciales, cada una
de las cuales afecta las decisiones futuras.

Agenda

Problema de la Diligencia
Caractersticas de la Programacin
Dinmica
Elementos Bsicos
Programacin Dinmica
Determinstica
Programacin Dinmica Probabilstica

Problema de la Diligencia
Un vendedor mtico de los EEUU debe viajar hacia el
oeste a travs de tierras hostiles, utilizando como
medio de transporte una diligencia.
An cuando su punto de partida y destino son fijos,
tiene un nmero considerable de opciones para elegir
qu estados recorrer en su ruta.
El vendedor ofrece seguros de vida a los pasajeros de
las diligencias.
El vendedor necesita determinar cual ser la ruta ms
segura para disminuir sus costos de pliza de seguro.
Los territorios y costos de pliza en cada recorrido se
observan en la figura a continuacin.

Problema de la Diligencia
7
4

1
4

2
3
4

4
4

6
2

Costo
del
recorrid
o

10

3
3

Estado

Cul ruta (conjunto de caminos) minimiza el costo


total de la pliza?

Problema de la Diligencia
pero Sacrificando un poco en
una etapa es posible
obtener ahorros mayores
de all en adelante.
1-4-6 es globalmente ms
pero barata que 1-2-6
El nmero de rutas es
Solucin 2: por tanteos.
muy grande
7
2
5 (1x3x3x2x1=18)
1
4
Solucin 1: seleccionar
el camino ms barato
ofrecido en cada etapa
sucesiva
1-2-6-9-10 -> Costo
total de 13

2
3
4

4
4

6
2

10

3
3

Problema de la Diligencia

Solucin 3:
PROGRAMACI
N DINMICA
De Atrs hacia delante: Etapa 4 resolver primero

Parte de una pequea porcin del problema y encuentra


la solucin ptima para ese problema ms pequeo.
Entonces gradualmente agranda el problema, hallando la
solucin ptima en curso a partir de la anterior, hasta que

Problema de la Diligencia
Mtodo de
SolucinEtapa, subproblema

n
s

f n ( s , xn )

( S

que estamos
resolviendo
(n=1,2,3,4)
Variable de .decisin,
estado inmediato en
la etapa n
Estado
Costo del estado S
a Xn
Costo total de la mejor
poltica global para las
etapas restantes, dado
que el vendedor se
encuentra en el nodo S
(listo para inicial la etapa
n) y se selecciona a Xn

,Xn )

( S
n

,Xn )

Xn

Funcin
Recursiva:
*

n ( S ) = Min n ( S, X
Xn

n ( S, X *)

1 x1 x2 x3 x4 ;

(*S ), (*S ), *( S ), (*S )


4

x4 10

Problema de la Diligencia
Mtodo de
Solucin

ETAPA 4 ; n = 4

*(S)

8
9

3
4

X4
10
10

ETAPA 3 ; n = 3

(S,X3 ) = CSX 3+ *(X3 )

S
5
6
7

X3 3

8
1+3=4
6+3=9
3+3=6

9
4+4=8
3+4=7
3+4=7

*(S)

4
7
6

X3*
8
9
8

Problema de la Diligencia
Mtodo de
Solucin
ETAPA 2 ; n = 2
S

X2

2
3
4

(S,X2 ) = CSX 2+ *(X3 )

*(S)

5
7 + 4 = 11

X2*

4 + 7 = 11 6 + 6 = 12
4 + 6 = 10

11

56

El problema de la
diligencia es un diseo
conceptual, para dar una
interpretacin fsica
literal de los problemas
de PD.

ETAPA 1 ; n = 1

S
1

X1

(S,X1 ) = C1X 1+ *(X1 )

2 + 11 = 13 4 + 7 = 11

Identifiquemos
la solucin
optima.

*(S)

X1*

3 + 8 = 11

11

34

10

10

10

Caractersticas de PD
Caracterstica fundamental: Procesos
multietapa de toma de decisiones.
Propiedades:
Slo un nmero reducido de variables se
debe conocer en cualquier etapa con el fin
de describir al problema.
El resultado de una decisin en cualquier
etapa altera los valores numricos de un
nmero reducido de variables relevantes al
problema.

Elementos bsicos de PD
El problema puede dividirse en etapas, con una
decisin de la poltica requerida en cada etapa.
Cada etapa tiene un cierto nmero de estados
asociados a ella. En general los estados son de
diversas condiciones posibles, en las que el sistema
podra estar en esa etapa del problema. Puede ser
finito o infinito.
El valor asociado al estado no pude depender de
decisiones de la misma etapa no de futuras
decisiones.
El estado representa una foto del sistema. Una
evaluacin en un instante de tiempo.

Elementos bsicos de PD
La decisin debe corresponder a la poltica del
estado vigente y no del futuro.
El efecto de la decisin de una poltica en cada
etapa es: transformar el estado actual en un
estado asociado con la etapa siguiente . El estado
resultante podra ser probable distribucin.
Dado el estado actual, una poltica optima para las
etapas restantes es independiente de la poltica
adoptada en las etapas previas. (n-1, n, n+1)
El procedimiento de resolucin empieza por hallar
la poltica optima para cada estado de la ltima
etapa

Elementos bsicos de PD
Se dispone de una relacin recursiva que identifica la poltica ptima para cada
estado en la etapa n, dada la poltica ptima para cada estado en la etapa (n+1).
Usando esta relacin recursiva, el procedimiento de resolucin se mueve hacia
atrs, etapa por etapa - hallando en cada ocasin la poltica ptima para cada
estado de esa etapa - hasta que se encuentra la poltica ptima cuando se parte
de la etapa inicial.

( S ) = Mx

Min

Xn

( S, Xn )

(*S ) = Min

Resultado de la
poltica ptima
en la etapa
siguiente (n+1)

Xn

CSXn + (*Xn )
n +1

f n ( s , xn )

s
Estado posible
de la etapa
Actual (n)

x1 x2 x3 ..

f n* (s) xn*

Programacin Dinmica Determinstica


Ejercicio 1: distribucin de
fresas
Un propietario de una cadena de tres
supermercados compr cinco cargas de fresas
frescas.
La distribucin de probabilidad
estimada para las ventas potenciales de las
fresas antes de que se echen a perder difiere
entre los tres supermercados.
El propietario quiere saber cmo debe asignar
las cinco cargas a las tiendas para maximizar
la ganancia esperada.
Por razones administrativas, no quiere dividir
las cargas entre las tiendas. Sin embargo, est
de acuerdo en asignar cero cargas a cualquiera
de ellas. La siguiente tabla proporciona la
ganancia estimada en cada tienda al asignar
distintas cantidades de cargas:

Tienda

N de
cargas

11

14

15

13

17

19

18

21

22

20

Programacin Dinmica Determinstica


Ejercicio 1:
Tienda

N de
cargas

11

14

15

13

17

19

18

21

22

20

Programacin Dinmica Determinstica


Ejercicio 1:
Etapas: supermercados a abastecer n=(1,2,3)
xn: nmero de cargas asignadas a la etapa n,
xn(0,1,2,3,4,5)
Estado: numero de cargas disponibles para el
supermercado n
sn+1= sn - xn
Decisiones: cantidad de cargas asignadas al supermercado
*
n
Funcin recursiva:
*

Programacin Dinmica Determinstica


Ejercicio 1:
Etapa 3, n=3, s4=0
s3

x3

13

18

20

Programacin Dinmica Determinstica


Ejercicio 1:
Etapa 2, n=2

s2/x

f*2(s)

x*2

0+4=4 6+0=6

0+9=9 6+4=1 11+0=1


0
1

11

0+13= 6+9=1 11+4=1 15+0=


13
5
5
15

15

12
3

0+18= 6+13= 11+9=2 15+4= 19+0=


18
19
0
19
19

20

Programacin Dinmica Determinstica


Ejercicio 1:
Etapa 1, n=1

s1/x

f1*(s1) x*1

0+24= 5+20= 9+15=2 14+11= 17+6= 21+0= 25


24
25
4
25
23
21
Super 1
Super 2
Super 3
2
alternativa
s

xn

xn

13

Programacin Dinmica Deterministica


Ejercicio 2: Inventario revisin
peridica
Una compaa sabe que la demanda durante cada uno de los prximos
cuatro meses es como se indica: mes 1, 1 unidad; mes 2, 3 unidades;
mes 3, 2 unidades; mes 4, 4 unidades.
Durante un mes en el cual se producen algunas unidades, se incurre en
un costo preliminar de 3US$. Adems, hay un costo variable de 1 dlar
por cada unidad que se fabrica. Al final de cada mes, se genera un costo
de almacenamiento de 50 centavos por cada unidad disponible.
Las limitaciones en la capacidad permiten producir durante cada mes un
mximo de 5 unidades. Las dimensiones de la bodega de la compaa
restringen el inventario final de cada mes a 4 unidades, cuando mucho.
Suponga que se dispone de 0 unidades al principio del primer mes.
La empresa desea determinar un plan de produccin que cumpla con
toda la demanda a tiempo y minimice la suma del costo de produccin y
del costo de almacenamiento durante los cuatro meses.

Programacin Dinmica Deterministica


Ejercicio
2
Etapa: meses a satisfacer, n={1,2,3,4,5}
xn: cantdad a producir en el mes n, xn{0,1,2,3,4,5}
Estado: stock inicial en el mes n
sn: stock inicial en el mes n, sn{0,1,2,3,4}
Decisin: cantidad de unidades a producir en el mes n
dn: demanda del mes n, dn={1,3,2,4}
s1=0
s5=0
sn+1=sn+xn-dn
Funcin recursiva:
*

Programacin Dinmica Deterministica


Ejercicio
2
Etapa 4, n=4, d4=4,
s5=0
s5=s4+x4*
d4
s4+x4 = 4

s4

f4*(s4)

x4

s4\ x4 0 1 2 3 4 5

3
4

4
0

Programacin Dinmica Deterministica


Ejercicio
2
Etapa 3, n=3, d3=2
s4= s3+x3-d3
0<s4<4

s4

f4*(s4)

x4

*
s3\x3

x*3

5+7 =12

6.5+6=1
2.5

8+5=13

9.5+4=1
3.5

12

4+7=11

5.5+6=1
1.5

7+5=12

8.5+4=1
2.5

10+0=1
0

10

9+0=9

6.5

0
1

f3*(s3)

0+7=7

4.5+6=1
0.5

6+5=11

7.5+4=1
1.5

0.5+6=
6.5

5+5=10

6.5+4=1
0.5

8+0=8

Programacin Dinmica Deterministica


Ejercicio
2
Etapa 2, n=2, d2=3
s3=s2+x2-d2
0<s3<4
*
s2\x2

6+12=1
8

7.5+10=1
7.5

9+7=16

16

5+12=1
7

6.5+10
=16.5

8+7=15

9.5+6.5
=16

15

4+12=1
6

5.5+10=1
5.5

7+7 =
14

8.5+6.5
=15

10+6=1
6

14

4.5+10=1
4.5

6+7=13

7.5+6.5

9+6=15

12

0+12=

x*2

f*2(s2)

Programacin Dinmica Determinstica


Ejercicio
2
Etapa 1, n=1, d1=1, s1=0
s2=s1+x1-d1
0<s2<4
*
s1\x1
0

4+16=20

5.5+15=2
0.5

7+14=21

8.5+12=2
0.5

10+10.5=20
.5

f*1(s1
)

x* 1

20

Programacin Dinmica Determinstica


Ejercicio
2

Mes 1

Mes 2

Mes 3

Mes 4

xn

dn

sn

Programacin Dinmica Determinstica


Ejercicio
3:
exmenes

preparando

Una estudiante universitaria cuenta con


siete das para preparar los exmenes
finales de cuatro cursos y quiere asignar
su tiempo de estudio de la manera ms
eficiente posible.
Necesita por lo menos un da para cada
curso y quiere concentrarse slo en un
curso cada da por lo que quiere asignar
uno, dos, tres o cuatro das a cada curso.
Como hace poco tom un curso de
investigacin de operaciones, decide
aplicar programacin dinmica para hacer
estas asignaciones que maximicen el total
de puntos obtenidos en los cuatro cursos.
Estima que las distintas opciones en das
de estudio le significaran puntos de
calificacin segn la siguiente tabla:

Puntos de
Calificacin
Estimados

Das

Cursos
1

Programacin Dinmica Determinstica


Ejercicio
3:
exmenes

preparando
Puntos de
Calificacin
Estimados

Das

Cursos
1

Programacin Dinmica Determinstica


Ejercicio 3:
Etapas: cursos n=(1,2,3,4)
xn: das estudiando para el curso n, xn(1,2,3,4)
Estado: das de estudio disponibles
sn+1=sn-xn
Decisiones: cantidad de das de estudio para el curso n
Funcin recursiva:
*

Programacin Dinmica Determinstica


Ejercicio 3:
Etapa 4, n=4, s5=0
s4

x4

Programacin Dinmica Determinstica


Ejercicio 3:
Etapa 3, n=3

s/x3

f3(s)

x3

1
2

2+6=8

2+7=9 4+6=10

10

2+9=1 4+7=11 7+6=1


1
3

13

2+9=1 4+9=13 7+7=1 8+6=1 14


1
4
4

34

Programacin Dinmica Determinstica


Ejercicio 3:
Etapa 2, n=2

S/X2 1

f2(s)

x2

1
2
3

5+8=1
3

13

5+10= 5+8=13
15

15

5+13= 5+10=1 6+8=1


18
5
4

18

5+14= 5+13=1 6+10= 9+8=1 19

Programacin Dinmica Determinstica


Ejercicio 3:
Etapa 1, n=1

S/X1 1
7

f1*(s)

3+19= 5+18=2 6+15=2 7+13= 23


22
3
1
20

xn

X1
2

Curso 1

Curso 2

Curso 3

Curso 4

Programacin Dinmica Determinstica


Ejercicio 4: consejo mundial de
la
salud
El consejo mundial de la salud se dedica a

mejorar el cuidado de la salud en los pases


subdesarrollados del mundo. Ahora cuenta con
cinco equipos mdicos para asignar entre tres de
esos pases a fin de mejorar su cuidado mdico,
su educacin sanitaria y sus programas de
entrenamiento.
Por consiguiente el consejo necesita determinar
cuntos equipos ( si resulta conveniente) asignar
a cada uno de estos pases para maximizar la
efectividad total de los cinco equipos. La medida
de efectividad que se est usando es : los aos
de vida adicionales del hombre. ( Para un pas
en particular, esta medida es igual a la

Qu es loincrementada
que cambia de
etapa
a la en
esperanza
deuna
vida
del pas,
siguiente
? dadopor
que
han tomado las
aos,
multiplicada
suse
poblacin).
decisiones en las etapas previas.
Cmo puede describirse la condicin de la
situacin en la etapa actual ?
Qu informacin acerca del estado actual de
las cosas se necesita para determinar la
poltica ptima de aqu en adelante ?

N de
Equipos
Mdicos

Miles de aos
de vida
adicional del
hombre
Pas
1

45

20

50

70

45

70

90

75

80

105 110

100

120 150 130

Programacin Dinmica Determinstica


Ejercicio 4:
Etapa = Pas; n = 1,2,3
Variable: Xn = Equipos mdicos asignados en la
etapa o pas
Estado: S = Equipos mdicos aun por asignar

Pn ( xn )

N de
Equipos
Mdicos

Miles de aos
de vida
adicional del
hombre
Pas
1

45

20

50

70

45

70

90

75

80

105 110

100

120 150 130

Aos de vida adicionales del hombre


en la etapa (pas) n si decide asignar X n
equipos mdicos en este pas.
3

Max Z Pi ( xi )
s.a

i n
i 3

x
i n

xi 0; xi

No es un modelo en
nuestra actual
notacin; debemos
aproximarnos

Programacin Dinmica Determinstica


Ejercicio 4:

Programacin Dinmica Determinstica


Ejercicio 4:
Etapa = Pas; n = 1,2,3
Variable: Xn = Equipos mdicos asignados en la
etapa o pas
Estado: S = Equipos mdicos aun por asignar

Pn ( xn )

N de
Equipos
Mdicos

Miles de aos
de vida
adicional del
hombre
Pas
1

45

20

50

70

45

70

90

75

80

105 110

100

120 150 130

Aos de vida adicionales del hombre


en la etapa (pas) n si decide asignar X n
equipos mdicos en este pas.
3

Max Z Pi ( xi )
s.a

i n
i 3

x
i n

xi 0; xi

No es un modelo en
nuestra actual
notacin; debemos
aproximarnos

Programacin Dinmica Determinstica


Ejercicio 4:

f n ( s , xn ) :

Aos de vida adicionales


totales, considerando la mejor
poltica para las etapas
restantes y que en la etapa n,
el estado es S y la decisin
tomada fue Xn.

Max Z

f n ( sn , xn ) Pn ( xn ) s.a

i 3

f n*1 ( sn xn )

Pi ( xi )

La relacin recursiva

i n 1

( S, Xn ) = Pn ( Xn ) + *( S - Xn )

xi S n xn

i n 1

xi 0; xi

n+1

Programacin Dinmica Determinstica


Ejercicio 4:
( S, Xn ) = Pn ( Xn ) + *( S - Xn )
n

n+1

x3* f 3* (s)

N de
Equipos
Mdicos

Miles de aos
de vida
adicional del
hombre
Pas
1

100

45

20

50

130

70

45

70

90

75

80

105 110

100

120 150 130

50

70

80

Programacin Dinmica Determinstica


Ejercicio 4:

N de Equipos
Mdicos

( S, Xn ) = Pn ( Xn ) + *( S - Xn )
n

0
1
2
3
4
5

n+1

Miles de aos de vida adicionales


del hombre
Pas
1
2
3
0
45
70
90
105
120

f 2 ( s, x2 ) P2 ( x2 ) f 3* ( s x2 )
0

0+0=0

0+50=50

20+0=20

0+70=70

20+50=70

45+0=45

0+80=80

20+70=90

45+50=95

75+0=75

0+100=100

20+80=100

45+70=115

75+50=125

110+0=110

0
20
45
75
110
150

0
50
70
80
100
130

*
x
f (s) 2
*
2

50

70

01

95

125

Programacin Dinmica Determinstica


Ejercicio 4:

N de Equipos
Mdicos

( S, Xn ) = Pn ( Xn ) + *( S - Xn )
n

n+1

x1

0
1
2
3
4
5

Miles de aos de vida adicionales


del hombre
Pas
1
2
3
0
45
70
90
105
120

0
20
45
75
110
150

f1 ( s, x1 ) P1 ( x1 ) f 2* ( s x1 )
0

0+160=160

45+125=170

70+95=165

90+70=160

105+50=155

120+0=120

Pas 1

xn

Pas 2

Pas 3

0
50
70
80
100
130

f1* (s) x1*


170

Programacin Dinmica Determinstica

Ejercicio 5: Volar con seguridad


a
Marte
Un equipo especial del gobierno est
conduciendo la investigacin sobre cierto
problema de ingeniera que debe resolverse
antes de que el hombre pueda volar con
seguridad a Marte. Tres equipos de
investigadores estn tratando actualmente tres
procedimientos diferentes para resolver este
problema.

Se ha hecho la estimacin de que bajo las


circunstancias presentes, la probabilidad de que
los equipos respectivos - llammoslos 1, 2 y 3 no tengan xito es 0.40, 0.60 y 0.80
respectivamente. Por tanto, la probabilidad
actual que los tres equipos fallen es (0.40)(0.60)
(0.80)=0.192 (19.2%).

N de
Cientficos
Nuevos

Probabilidad de Falla
Equipo de Investigacin
1

0,40

0,60

0,80

0,20

0,40

0,50

0,15

0,20

0,30

Dado que el objetivo es minimizar esta


falla delde
equipo
Pn ( xn ) Probabilidad
probabilidad,
se ha tomadode
la decisin
asignarn si decide asignar X n
dos cientficos
destacados ms entre los tres
cientficos
Min
Z P1 ( tanto
x1 ) * Pcomo
P3 ( x3 )
equipos para disminuirlas
2 ( x2 ) *sea
posible.

s.a.

x1 x2 x3 2
xi 0;

Programacin Dinmica Determinstica


Ejercicio 5: Volar con seguridad
a Marte
f n ( s , xn )

Probabilidad de falla del equipo n ,


n+1,..3, considerando la mejor poltica
para las etapas restantes y S, Xn para la
etapa n.

Min Z 3i n 1 Pi ( xi )

f n ( s, xn ) Pn ( xn ) * s.a.

i n 1

f n*1 ( s xn )

s xn

xi 0;

f n ( s, xn ) Pn ( xn ) * f n*1 ( s xn )

f 4* (0) 1

Programacin Dinmica Determinstica


Ejercicio 5: Volar con seguridad
a Marte
s

f 3* ( s )

x3*

0.8

0.5

0.3

x2

N de
Cientficos
Nuevos

f 2 ( s, x2 ) P2 ( x2 ) * f 3* ( s x2 )
0

0.6*0.8=0.48

0.6*0.5=0.3

0.4*0.8=0.32

0.6*0.3=0.18

0.4*0.5=0.2

0.2*0.8=0.16

Probabilidad de Falla
Equipo de Investigacin
1

0,40

0,60

0,80

0,20

0,40

0,50

0,15

0,20

0,30

*
x
f ( s) 2
*
2

0.48

0.3

0.16

Programacin Dinmica Determinstica


Ejercicio 5: Volar con seguridad
a Marte

x1

s
2

xn

N de
Cientficos
Nuevos

f1 ( s, x1 ) P1 ( x1 ) * f 2* ( s x2 )

Probabilidad de Falla
Equipo de Investigacin
1

0,40

0,60

0,80

0,20

0,40

0,50

0,15

0,20

0,30

f1* ( s ) x1*

0.4*0.16=0.064

0.2*0.3=0.06

0.15*0.48=0.072

0.06

Equipo
1

Equipo
2

Equipo
3

Programacin Dinmica Determinstica


Ejercicio 6: Presupuesto Vacacional (dos variables de
estado)
La familia de la seora Susana Oria va a salir de vacaciones desde
su ciudad natal Antofagasta. La familia desea visitar K ciudades y
dispone de un total de M das para hacerlo, con M K.

La familia desea saber cuantos das permanecer en cada ciudad de


modo de maximizar la satisfaccin total de sus vacaciones sabiendo
que para cada ciudad n existe una funcin de satisfaccin gn que es
funcin del nmero de das de permanencia.
Adems, la familia dispone de un presupuesto P para el total de sus
vacaciones, sabiendo que por cada da de permanencia en la ciudad n
gastarn Cn.
1.- Plantee un modelo de programacin dinmica para resolver la
planificacin de las vacaciones de la familia.
2.- Resuelva y especifique con cunto dinero termina la familia,
suponiendo que K=3, M=5, presupuesto P=US$ 1200, costos de
estada por ciudad c1=$ 200, c2=$ 300, c3=$ 100 y que las funciones
de beneficio gn(xn) vienen dadas por:

1.- Formulacin:
:nNmero de ciudad (n=1,2K).

Variables de Estado

:XCantidad de das en la ciudad n.


n

: SDinero que le queda a la familia antes de ir a la


n
ciudad n.

Hn

: Das que le quedan antes de ir a la ciudad n.

Cn

: Costo diario de permanencia en la ciudad n.

g n (:XBeneficio
n)
en la ciudad n al permanecer Xn das.

Funcin Objetivo:
*

Actualizacin del estado:


S n 1 S n Cn X n

Condiciones :
S1 = P
H1 = M
fK+1 = 0
Hn+1 > 0
Sn+1 > 0

2.-

C1 US 200, C2 US 300, C3 US 100, K 3, M 5


n3

(S3;H3)
(0-99; 0-5)
(100-1200; 0)
(100-199; 1-5)
(200-1200; 1)
(200-299; 2-5)
(300-1200; 2)
(300-399; 3-5)
(400-1200; 3)
(400-499; 4-5)
(500-1200; 4)
(500-1200; 5)

*
1

f3*

23

23

23

X 3*

Observamos que
0
f3*(S3,H3) =

Si S3 < 100 o H3 = 0

Si (100 < S3 < 200 y H3 > 1)


o (S3 >100 y H3 = 1)

De otra manera

n2

S2

H2

200

400

*
1

f 2*

0+1=1

1+0=1

01

600

0+3=3

1+1=2

4+0=4

800

0+3=3

1+3=4

4+1=5

1000

0+3=3

1+3=4

4+3=7

6+1=7

23

1200

0+3=3

1+3=4

4+3=7

6+3=9

8+0=8

X 2*

n 1

S1 H1
1200

*
0

f1*

X 1*

0+9=9

1+7=8

2+5=7

3+4=7

4+1=5

5+0=5

Solucin (das en cada ciudad)

Ciu1
Ciu2
Ciu3
0
3
2

La familia queda con presupuesto final: 0*US 200 + 3*US 300 +


2*US 100 = US1.100

Programacin Dinmica Probabilstica


Estado y Resultado Indeterminado

El estado de la etapa siguiente no


queda totalmente determinado por el
estado y la decisin en la etapa
actual. En su lugar existe una
distribucin de probabilidades para lo
que ser el estado siguiente.
A
veces
el
estado
queda
determinado,
sin
embargo
el
resultado no y solo est asociado a
una distribucin de probabilidades.

Programacin Dinmica
Probabilstica
Estado Indeterminado Contribucin
Etapa n

Probabilidad de la etapa n

C1

Etapa n+1

1
*(1)
n+1

P1
Estado: Sn

Decisin

(Sn, Xn)
n

Xn

P2

C2

PN

2
*(1)
n+1

CN
N

*(1)
n+1

Programacin Dinmica
Probabilstica
Estado Indeterminado
Ejercicio 1: Produccin artculo particular
La Ca. Industrial Hir - And - Miss ha recibido un pedido para
surtir un articulo de tipo particular. Sin embargo el cliente ha
especificado requerimientos de calidad tan rigurosos que es
posible que el fabricante tenga que producir ms de un
articulo para obtener uno aceptable.
El fabricante estima que cada articulo de este tipo que
produce ser aceptable con probabilidad de y ser
defectuoso (sin probabilidad de reparacin), con probabilidad
de .
As, el nmero de artculos aceptables producidos en un lote
de tamao L tendr una distribucin binomial; es decir, la
probabilidad de producir cero artculos aceptable en ese lote
es de ()L.

Programacin Dinmica
Probabilstica
Estado Indeterminado
Ejercicio
1:
Produccin
artculo
particular
(seguida)
Se
estima que los CMg (costos marginales) de produccin son
de $ 100 por artculo (incluso si es defectuoso) y los artculos
en exceso no tienen valor.

Adems, debe incurrirse en un costo de preparacin de $


300, siempre que se monte el proceso de produccin para
este producto. El fabricante slo tiene tiempo para hacer no
ms de tres series de produccin. Si no se ha obtenido un
articulo aceptable al final de la tercera serie de produccin, el
costo para el fabricante por ventas perdidas y en costos de
penalizacin sera de $ 1600.
El objetivo es determinar la poltica referente al tamao del
lote para la serie, o series de produccin requeridos que
minimice el costo total esperado para el fabricante.

O bien, K(xn) = 3*min(1,xn)

Por lo tanto para s n 1,


1
f n (1, xn ) K ( xn ) xn
2

xn

*
n 1


(1) 1

n
1
f n*1 (0)
2

n
1
K ( xn ) xn f n*1 (1)
2
Donde f 4* (1) es igual a 16, el costo terminal por no haber obtenido artculos aceptables

De esta manera, la relacin recursiva para los clculos de programacin dinmica es

1
f n* (1) mn K ( xn ) xn
xn 0,1,...
2

para n 1, 2,3.

xn

*
n 1

(1)

Para n=3

Para n=2

Para n=1

Entonces, la poltica ptima es producir dos artculos en


la primera corrida de produccin; si ninguno es
aceptable, debern producirse dos o tres artculos en la
segunda corrida; si ninguno es aceptable, tendrn que
producirse tres o cuatro artculos en la tercera corrida. El
costo total esperado si se sigue esta poltica es de $675.

Programacin Dinmica
Probabilstica
Estado Indeterminado
Ejercicio 2: Juego popular en las Vegas
Un emprendedor estadstico joven ha desarrollado un sistema para
ganar en un juego popular de las vegas. Sus colegas no creen que
esto sea posible, de modo que hacen una gran apuesta con el que,
empezando con tres fichas, no tendr cinco fichas despus de tres
jugadas. Cada jugada comprende la apuesta de cualquier nmero de
fichas.
El estadstico cree que su sistema le dar una probabilidad de 2/3 de
ganar cada jugada.
Suponiendo que el estadstico est en lo correcto, determnese su
poltica optima de cuantas fichas apostar ( de apostar alguna ) en
cada una de las tres jugadas. La decisin de cada jugada debe tomar
en cuenta los resultados de las jugadas anteriores.
El objetivo es maximizar la probabilidad de ganar las apuestas a sus
colegas.

Formulacin:
Etapas: n-sima jugada del juego (n=1,2,3)
V.E S n: Fichas que se tienen al inicio de la etapa n.
V.DX :n Cantidad de fichas que se apuestan en la
etapa n.

f n ( X n , Sn )

Probabilidad de terminar las tres jugadas

con

1 fichas
2 *
*
cinco
o
ms.
f n ( X n , S n ) f n 1 ( S n X n )
f n 1 ( S n X n )
3

Procedimiento de solucin:
n=3

S3

*
3

2/3
2/3

X 3*

Por la relacin recursiva se conducen todos los


resultados.

n=2

S2

X2

f2

f 2*

X 2*

4/9 4/9
2/34/9 2/3 2/3
2/3 8/9 2/3 2/3 2/3

4/9
2/3
8/9

n=1

S1

X1

f1
2/3

20 / 27 2 / 3

f1*

X 1*

2 / 3 20 / 27

Resultado del problema:


*

si
gana
,
X

3 0
*
si gana, X 2 1
*
si pierde, X 3 2 o 3

*
X 1* 1

2
o
3
(
para
X

2 1)
*
si gana, X 3

*
*
si
pierde
,
X

1
o
2
1,
2,3
o
4
(
para
X

2 2)

si pierde, la apuesta esta perdida

Esta poltica ptima da al joven una probabilidad de


20/27
de ganar la apuesta a sus colegas.

Programacin Dinmica
Probabilstica
Costos inciertos, estado conocido etapa siguiente
Ejercicio 3: Safeco
La cadena de supermercados Safeco
compra a una lechera local, a un precio
de 1 dlar/galn, 6 galones de leche.
Cada galn se vende en las tres tiendas
de la cadena a 2 dlares/galn. La
lechera recoge de los supermercados la
leche sobrante a 50 de dlar/galn al
trmino del da.
Desafortunadamente para Safeco, es
incierta la demanda en cada una de las
tres tiendas. Los datos acumulados
indican que la demanda diaria en cada
tienda es como se muestra en la tabla 1.
Safeco desea asignar los 6 galones de
leche a las tres tiendas para maximizar la
ganancia diaria (ingresos menos costos)
que da la leche. Mediante la
programacin dinmica determine cmo
debe asignar Safeco los 6 galones de
leche entre sus tiendas.

Demanda diaria
Tiendas
Tienda
1

Tienda
2

Tienda
3

Galones

Probabilidad

0,60

0,40

0,50

0,10

0,40

0,40

0,30

0,30

Formulacin

Formulacin

$4.2

Procedimiento de solucin
S3

X* 3

f*3

3.4

>=3

4.35

Etapa 3:

Etapa 2:

S2\x2

x*2

f*2

01

3.4

3.25

4.35

5.4

5.25

4.35

5.4

4.35

6.35

6.65

6.35

6.65

4.35

6.35

7.6

7.75

7.75

4.35

6.35

7.6

8.7

8.7

Procedimiento de solucin
Etapa 1:

S1\x1

x*1

f*1

8.7

9.75

9.75

9.45

1o2

9.75

Por lo tanto, tenemos 2 combinaciones optimas con las cuales


podemos maximizar nuestras ganancias, las cuales se resumen a
continuacin,
Tienda
Tienda
Tienda
1 1
2
3
Caso 1
3
2
Caso 2
2
2
2

You might also like