Professional Documents
Culture Documents
Agenda
Problema de la Diligencia
Caractersticas de la Programacin
Dinmica
Elementos Bsicos
Programacin Dinmica
Determinstica
Programacin Dinmica Probabilstica
Problema de la Diligencia
Un vendedor mtico de los EEUU debe viajar hacia el
oeste a travs de tierras hostiles, utilizando como
medio de transporte una diligencia.
An cuando su punto de partida y destino son fijos,
tiene un nmero considerable de opciones para elegir
qu estados recorrer en su ruta.
El vendedor ofrece seguros de vida a los pasajeros de
las diligencias.
El vendedor necesita determinar cual ser la ruta ms
segura para disminuir sus costos de pliza de seguro.
Los territorios y costos de pliza en cada recorrido se
observan en la figura a continuacin.
Problema de la Diligencia
7
4
1
4
2
3
4
4
4
6
2
Costo
del
recorrid
o
10
3
3
Estado
Problema de la Diligencia
pero Sacrificando un poco en
una etapa es posible
obtener ahorros mayores
de all en adelante.
1-4-6 es globalmente ms
pero barata que 1-2-6
El nmero de rutas es
Solucin 2: por tanteos.
muy grande
7
2
5 (1x3x3x2x1=18)
1
4
Solucin 1: seleccionar
el camino ms barato
ofrecido en cada etapa
sucesiva
1-2-6-9-10 -> Costo
total de 13
2
3
4
4
4
6
2
10
3
3
Problema de la Diligencia
Solucin 3:
PROGRAMACI
N DINMICA
De Atrs hacia delante: Etapa 4 resolver primero
Problema de la Diligencia
Mtodo de
SolucinEtapa, subproblema
n
s
f n ( s , xn )
( S
que estamos
resolviendo
(n=1,2,3,4)
Variable de .decisin,
estado inmediato en
la etapa n
Estado
Costo del estado S
a Xn
Costo total de la mejor
poltica global para las
etapas restantes, dado
que el vendedor se
encuentra en el nodo S
(listo para inicial la etapa
n) y se selecciona a Xn
,Xn )
( S
n
,Xn )
Xn
Funcin
Recursiva:
*
n ( S ) = Min n ( S, X
Xn
n ( S, X *)
1 x1 x2 x3 x4 ;
x4 10
Problema de la Diligencia
Mtodo de
Solucin
ETAPA 4 ; n = 4
*(S)
8
9
3
4
X4
10
10
ETAPA 3 ; n = 3
S
5
6
7
X3 3
8
1+3=4
6+3=9
3+3=6
9
4+4=8
3+4=7
3+4=7
*(S)
4
7
6
X3*
8
9
8
Problema de la Diligencia
Mtodo de
Solucin
ETAPA 2 ; n = 2
S
X2
2
3
4
*(S)
5
7 + 4 = 11
X2*
4 + 7 = 11 6 + 6 = 12
4 + 6 = 10
11
56
El problema de la
diligencia es un diseo
conceptual, para dar una
interpretacin fsica
literal de los problemas
de PD.
ETAPA 1 ; n = 1
S
1
X1
2 + 11 = 13 4 + 7 = 11
Identifiquemos
la solucin
optima.
*(S)
X1*
3 + 8 = 11
11
34
10
10
10
Caractersticas de PD
Caracterstica fundamental: Procesos
multietapa de toma de decisiones.
Propiedades:
Slo un nmero reducido de variables se
debe conocer en cualquier etapa con el fin
de describir al problema.
El resultado de una decisin en cualquier
etapa altera los valores numricos de un
nmero reducido de variables relevantes al
problema.
Elementos bsicos de PD
El problema puede dividirse en etapas, con una
decisin de la poltica requerida en cada etapa.
Cada etapa tiene un cierto nmero de estados
asociados a ella. En general los estados son de
diversas condiciones posibles, en las que el sistema
podra estar en esa etapa del problema. Puede ser
finito o infinito.
El valor asociado al estado no pude depender de
decisiones de la misma etapa no de futuras
decisiones.
El estado representa una foto del sistema. Una
evaluacin en un instante de tiempo.
Elementos bsicos de PD
La decisin debe corresponder a la poltica del
estado vigente y no del futuro.
El efecto de la decisin de una poltica en cada
etapa es: transformar el estado actual en un
estado asociado con la etapa siguiente . El estado
resultante podra ser probable distribucin.
Dado el estado actual, una poltica optima para las
etapas restantes es independiente de la poltica
adoptada en las etapas previas. (n-1, n, n+1)
El procedimiento de resolucin empieza por hallar
la poltica optima para cada estado de la ltima
etapa
Elementos bsicos de PD
Se dispone de una relacin recursiva que identifica la poltica ptima para cada
estado en la etapa n, dada la poltica ptima para cada estado en la etapa (n+1).
Usando esta relacin recursiva, el procedimiento de resolucin se mueve hacia
atrs, etapa por etapa - hallando en cada ocasin la poltica ptima para cada
estado de esa etapa - hasta que se encuentra la poltica ptima cuando se parte
de la etapa inicial.
( S ) = Mx
Min
Xn
( S, Xn )
(*S ) = Min
Resultado de la
poltica ptima
en la etapa
siguiente (n+1)
Xn
CSXn + (*Xn )
n +1
f n ( s , xn )
s
Estado posible
de la etapa
Actual (n)
x1 x2 x3 ..
f n* (s) xn*
Tienda
N de
cargas
11
14
15
13
17
19
18
21
22
20
N de
cargas
11
14
15
13
17
19
18
21
22
20
x3
13
18
20
s2/x
f*2(s)
x*2
0+4=4 6+0=6
11
15
12
3
20
s1/x
f1*(s1) x*1
xn
xn
13
s4
f4*(s4)
x4
s4\ x4 0 1 2 3 4 5
3
4
4
0
s4
f4*(s4)
x4
*
s3\x3
x*3
5+7 =12
6.5+6=1
2.5
8+5=13
9.5+4=1
3.5
12
4+7=11
5.5+6=1
1.5
7+5=12
8.5+4=1
2.5
10+0=1
0
10
9+0=9
6.5
0
1
f3*(s3)
0+7=7
4.5+6=1
0.5
6+5=11
7.5+4=1
1.5
0.5+6=
6.5
5+5=10
6.5+4=1
0.5
8+0=8
6+12=1
8
7.5+10=1
7.5
9+7=16
16
5+12=1
7
6.5+10
=16.5
8+7=15
9.5+6.5
=16
15
4+12=1
6
5.5+10=1
5.5
7+7 =
14
8.5+6.5
=15
10+6=1
6
14
4.5+10=1
4.5
6+7=13
7.5+6.5
9+6=15
12
0+12=
x*2
f*2(s2)
4+16=20
5.5+15=2
0.5
7+14=21
8.5+12=2
0.5
10+10.5=20
.5
f*1(s1
)
x* 1
20
Mes 1
Mes 2
Mes 3
Mes 4
xn
dn
sn
preparando
Puntos de
Calificacin
Estimados
Das
Cursos
1
preparando
Puntos de
Calificacin
Estimados
Das
Cursos
1
x4
s/x3
f3(s)
x3
1
2
2+6=8
2+7=9 4+6=10
10
13
34
S/X2 1
f2(s)
x2
1
2
3
5+8=1
3
13
5+10= 5+8=13
15
15
18
S/X1 1
7
f1*(s)
xn
X1
2
Curso 1
Curso 2
Curso 3
Curso 4
Qu es loincrementada
que cambia de
etapa
a la en
esperanza
deuna
vida
del pas,
siguiente
? dadopor
que
han tomado las
aos,
multiplicada
suse
poblacin).
decisiones en las etapas previas.
Cmo puede describirse la condicin de la
situacin en la etapa actual ?
Qu informacin acerca del estado actual de
las cosas se necesita para determinar la
poltica ptima de aqu en adelante ?
N de
Equipos
Mdicos
Miles de aos
de vida
adicional del
hombre
Pas
1
45
20
50
70
45
70
90
75
80
105 110
100
Pn ( xn )
N de
Equipos
Mdicos
Miles de aos
de vida
adicional del
hombre
Pas
1
45
20
50
70
45
70
90
75
80
105 110
100
Max Z Pi ( xi )
s.a
i n
i 3
x
i n
xi 0; xi
No es un modelo en
nuestra actual
notacin; debemos
aproximarnos
Pn ( xn )
N de
Equipos
Mdicos
Miles de aos
de vida
adicional del
hombre
Pas
1
45
20
50
70
45
70
90
75
80
105 110
100
Max Z Pi ( xi )
s.a
i n
i 3
x
i n
xi 0; xi
No es un modelo en
nuestra actual
notacin; debemos
aproximarnos
f n ( s , xn ) :
Max Z
f n ( sn , xn ) Pn ( xn ) s.a
i 3
f n*1 ( sn xn )
Pi ( xi )
La relacin recursiva
i n 1
( S, Xn ) = Pn ( Xn ) + *( S - Xn )
xi S n xn
i n 1
xi 0; xi
n+1
n+1
x3* f 3* (s)
N de
Equipos
Mdicos
Miles de aos
de vida
adicional del
hombre
Pas
1
100
45
20
50
130
70
45
70
90
75
80
105 110
100
50
70
80
N de Equipos
Mdicos
( S, Xn ) = Pn ( Xn ) + *( S - Xn )
n
0
1
2
3
4
5
n+1
f 2 ( s, x2 ) P2 ( x2 ) f 3* ( s x2 )
0
0+0=0
0+50=50
20+0=20
0+70=70
20+50=70
45+0=45
0+80=80
20+70=90
45+50=95
75+0=75
0+100=100
20+80=100
45+70=115
75+50=125
110+0=110
0
20
45
75
110
150
0
50
70
80
100
130
*
x
f (s) 2
*
2
50
70
01
95
125
N de Equipos
Mdicos
( S, Xn ) = Pn ( Xn ) + *( S - Xn )
n
n+1
x1
0
1
2
3
4
5
0
20
45
75
110
150
f1 ( s, x1 ) P1 ( x1 ) f 2* ( s x1 )
0
0+160=160
45+125=170
70+95=165
90+70=160
105+50=155
120+0=120
Pas 1
xn
Pas 2
Pas 3
0
50
70
80
100
130
N de
Cientficos
Nuevos
Probabilidad de Falla
Equipo de Investigacin
1
0,40
0,60
0,80
0,20
0,40
0,50
0,15
0,20
0,30
s.a.
x1 x2 x3 2
xi 0;
Min Z 3i n 1 Pi ( xi )
f n ( s, xn ) Pn ( xn ) * s.a.
i n 1
f n*1 ( s xn )
s xn
xi 0;
f n ( s, xn ) Pn ( xn ) * f n*1 ( s xn )
f 4* (0) 1
f 3* ( s )
x3*
0.8
0.5
0.3
x2
N de
Cientficos
Nuevos
f 2 ( s, x2 ) P2 ( x2 ) * f 3* ( s x2 )
0
0.6*0.8=0.48
0.6*0.5=0.3
0.4*0.8=0.32
0.6*0.3=0.18
0.4*0.5=0.2
0.2*0.8=0.16
Probabilidad de Falla
Equipo de Investigacin
1
0,40
0,60
0,80
0,20
0,40
0,50
0,15
0,20
0,30
*
x
f ( s) 2
*
2
0.48
0.3
0.16
x1
s
2
xn
N de
Cientficos
Nuevos
f1 ( s, x1 ) P1 ( x1 ) * f 2* ( s x2 )
Probabilidad de Falla
Equipo de Investigacin
1
0,40
0,60
0,80
0,20
0,40
0,50
0,15
0,20
0,30
f1* ( s ) x1*
0.4*0.16=0.064
0.2*0.3=0.06
0.15*0.48=0.072
0.06
Equipo
1
Equipo
2
Equipo
3
1.- Formulacin:
:nNmero de ciudad (n=1,2K).
Variables de Estado
Hn
Cn
g n (:XBeneficio
n)
en la ciudad n al permanecer Xn das.
Funcin Objetivo:
*
Condiciones :
S1 = P
H1 = M
fK+1 = 0
Hn+1 > 0
Sn+1 > 0
2.-
(S3;H3)
(0-99; 0-5)
(100-1200; 0)
(100-199; 1-5)
(200-1200; 1)
(200-299; 2-5)
(300-1200; 2)
(300-399; 3-5)
(400-1200; 3)
(400-499; 4-5)
(500-1200; 4)
(500-1200; 5)
*
1
f3*
23
23
23
X 3*
Observamos que
0
f3*(S3,H3) =
Si S3 < 100 o H3 = 0
De otra manera
n2
S2
H2
200
400
*
1
f 2*
0+1=1
1+0=1
01
600
0+3=3
1+1=2
4+0=4
800
0+3=3
1+3=4
4+1=5
1000
0+3=3
1+3=4
4+3=7
6+1=7
23
1200
0+3=3
1+3=4
4+3=7
6+3=9
8+0=8
X 2*
n 1
S1 H1
1200
*
0
f1*
X 1*
0+9=9
1+7=8
2+5=7
3+4=7
4+1=5
5+0=5
Ciu1
Ciu2
Ciu3
0
3
2
Programacin Dinmica
Probabilstica
Estado Indeterminado Contribucin
Etapa n
Probabilidad de la etapa n
C1
Etapa n+1
1
*(1)
n+1
P1
Estado: Sn
Decisin
(Sn, Xn)
n
Xn
P2
C2
PN
2
*(1)
n+1
CN
N
*(1)
n+1
Programacin Dinmica
Probabilstica
Estado Indeterminado
Ejercicio 1: Produccin artculo particular
La Ca. Industrial Hir - And - Miss ha recibido un pedido para
surtir un articulo de tipo particular. Sin embargo el cliente ha
especificado requerimientos de calidad tan rigurosos que es
posible que el fabricante tenga que producir ms de un
articulo para obtener uno aceptable.
El fabricante estima que cada articulo de este tipo que
produce ser aceptable con probabilidad de y ser
defectuoso (sin probabilidad de reparacin), con probabilidad
de .
As, el nmero de artculos aceptables producidos en un lote
de tamao L tendr una distribucin binomial; es decir, la
probabilidad de producir cero artculos aceptable en ese lote
es de ()L.
Programacin Dinmica
Probabilstica
Estado Indeterminado
Ejercicio
1:
Produccin
artculo
particular
(seguida)
Se
estima que los CMg (costos marginales) de produccin son
de $ 100 por artculo (incluso si es defectuoso) y los artculos
en exceso no tienen valor.
xn
*
n 1
(1) 1
n
1
f n*1 (0)
2
n
1
K ( xn ) xn f n*1 (1)
2
Donde f 4* (1) es igual a 16, el costo terminal por no haber obtenido artculos aceptables
1
f n* (1) mn K ( xn ) xn
xn 0,1,...
2
para n 1, 2,3.
xn
*
n 1
(1)
Para n=3
Para n=2
Para n=1
Programacin Dinmica
Probabilstica
Estado Indeterminado
Ejercicio 2: Juego popular en las Vegas
Un emprendedor estadstico joven ha desarrollado un sistema para
ganar en un juego popular de las vegas. Sus colegas no creen que
esto sea posible, de modo que hacen una gran apuesta con el que,
empezando con tres fichas, no tendr cinco fichas despus de tres
jugadas. Cada jugada comprende la apuesta de cualquier nmero de
fichas.
El estadstico cree que su sistema le dar una probabilidad de 2/3 de
ganar cada jugada.
Suponiendo que el estadstico est en lo correcto, determnese su
poltica optima de cuantas fichas apostar ( de apostar alguna ) en
cada una de las tres jugadas. La decisin de cada jugada debe tomar
en cuenta los resultados de las jugadas anteriores.
El objetivo es maximizar la probabilidad de ganar las apuestas a sus
colegas.
Formulacin:
Etapas: n-sima jugada del juego (n=1,2,3)
V.E S n: Fichas que se tienen al inicio de la etapa n.
V.DX :n Cantidad de fichas que se apuestan en la
etapa n.
f n ( X n , Sn )
con
1 fichas
2 *
*
cinco
o
ms.
f n ( X n , S n ) f n 1 ( S n X n )
f n 1 ( S n X n )
3
Procedimiento de solucin:
n=3
S3
*
3
2/3
2/3
X 3*
n=2
S2
X2
f2
f 2*
X 2*
4/9 4/9
2/34/9 2/3 2/3
2/3 8/9 2/3 2/3 2/3
4/9
2/3
8/9
n=1
S1
X1
f1
2/3
20 / 27 2 / 3
f1*
X 1*
2 / 3 20 / 27
si
gana
,
X
3 0
*
si gana, X 2 1
*
si pierde, X 3 2 o 3
*
X 1* 1
2
o
3
(
para
X
2 1)
*
si gana, X 3
*
*
si
pierde
,
X
1
o
2
1,
2,3
o
4
(
para
X
2 2)
Programacin Dinmica
Probabilstica
Costos inciertos, estado conocido etapa siguiente
Ejercicio 3: Safeco
La cadena de supermercados Safeco
compra a una lechera local, a un precio
de 1 dlar/galn, 6 galones de leche.
Cada galn se vende en las tres tiendas
de la cadena a 2 dlares/galn. La
lechera recoge de los supermercados la
leche sobrante a 50 de dlar/galn al
trmino del da.
Desafortunadamente para Safeco, es
incierta la demanda en cada una de las
tres tiendas. Los datos acumulados
indican que la demanda diaria en cada
tienda es como se muestra en la tabla 1.
Safeco desea asignar los 6 galones de
leche a las tres tiendas para maximizar la
ganancia diaria (ingresos menos costos)
que da la leche. Mediante la
programacin dinmica determine cmo
debe asignar Safeco los 6 galones de
leche entre sus tiendas.
Demanda diaria
Tiendas
Tienda
1
Tienda
2
Tienda
3
Galones
Probabilidad
0,60
0,40
0,50
0,10
0,40
0,40
0,30
0,30
Formulacin
Formulacin
$4.2
Procedimiento de solucin
S3
X* 3
f*3
3.4
>=3
4.35
Etapa 3:
Etapa 2:
S2\x2
x*2
f*2
01
3.4
3.25
4.35
5.4
5.25
4.35
5.4
4.35
6.35
6.65
6.35
6.65
4.35
6.35
7.6
7.75
7.75
4.35
6.35
7.6
8.7
8.7
Procedimiento de solucin
Etapa 1:
S1\x1
x*1
f*1
8.7
9.75
9.75
9.45
1o2
9.75