Professional Documents
Culture Documents
Phương Pháp Quy Ho CH Đ NG Bellman PDF
Phương Pháp Quy Ho CH Đ NG Bellman PDF
CHƯƠNG 2
Phương pháp Quy hoạch động Bellman
PFIEV12 - Viễn Thông
Thành viên:
81202796 Lê Vũ Quang Phúc
41203126 Đo� Tiên Sinh
1
Vı́ dụ 2.17
Một máy bay bay theo hướng từ trái sang phải qua các đie� m a, b, c... tượng trưng
cho các thành pho� với mức nhiên liệu ca� n thie� t đe� hoàn ta� t mo� i chặng đường được liệt kê ở
hı̀nh 2.9. Chúng ta sẽ dùng nguyên lý to� i ưu của Bellman đe� giải bài toán cực tie� u hóa nhiên
liệu tiêu hao.
Bài Giải:
Ta chia các nút theo các ca� p từ 0 đe� n 4, tại các nút ta xét chi phı́ tiêu hao (CPTH) là nhỏ
nha� t (theo nguyên lý to� i ưu của Bellman):
- Ca� p 0 (k=N=4):
Nút i: CPTH = 0 (do mới ba� t đa� u).
- Ca� p 1 (k=N=3):
Nút f: CPTH = 4+0=4 (giá trị đi từ i đe� n f).
Nút h: CPTH = 2+0=2 (giá trị đi từ i đe� n h).
- Ca� p 2 (k=2):
Nút c: CPTH = 3+4=7 (f→c).
Nút e: CPTH = 4+3=7 (f→e).
CPTH = 2+2=7 (h→e).
Do chi phı́ tiêu hao là nhỏ nha� t (theo Bellman) nên: CPTH = 4
(h→e).
Nút g: CPTH = 2+4 =6 (h→g).
- Ca� p 3 (k=1):
Nút b: CPTH = 7+2=9 (c → b).
CPTH = 4+1=5 (e→b).
2
Do chi phı́ tiêu hao là nhỏ nha� t (theo Bellman) nên: CPTH = 5 (e→b).
Nút d: CPTH = 4+3=7 (e→d).
CPTH = 6+2=8 (g→d).
Do chi phı́ tiêu hao là nhỏ nha� t (theo Bellman) nên: CPTH = 7 (e→d).
- Ca� p 4 (k=0):
Nút a: CPTH = 5+3=8 (b→a).
CPTH = 7+1=8 (d→a).
Do chi phı́ tiê u hao ba� ng nhau trê n hai quã ng đường nê n: CPTH = 8
(b→a hoặ c d→a).
→ Từ CPTH to� i thie� u trên. Ta có the� suy ra có 2 đường đi từ a đe� n i với cùng chi phı́ là 8.
Đó là: a→b→e→h→i (đường nét đậm) và a→d→e→h→i (đường nét đứt).
→ Ta nhận xét giải pháp to� i ưu trong quy hoạch là không duy nha� t → Nguyên lý to� i ưu
Bellman giúp giảm so� lượng phép tı́nh ca� n thie� t ba� ng cách giảm so� lượng các lựa chọn có
the� thực hiện.
3
Vı́ dụ 2.18
Xét hệ:
𝑥𝑘+1 = 𝑥𝑘 + 𝑢𝑘
Có hàm chı̉ tiêu cha� t lượng:
𝑁−1
1
𝐽0 = 𝑥𝑁2 + ∑ 𝑢𝑘2
2
𝑘=0
Vào thời đie� m cuo� i cùng N=2. Tı́n hiệu đie� u khie� u khie� n bị ràng buộc la� y các giá trị:
uk = -1 ; -0.5 ; 0 ; 0.5 ; 1
Và bie� n trạng thái bị ràng buộc la� y các giá trị:
xk= 0 ; 0.5 ; 1 ; 1.5
Đie� u kiện ràng buộc (4) có the� vie� t lại là x0=0 , 0.5 , 1 , 1.5 và 0 ≤ 𝑥𝑘 ≤ 1.5
Đây là đie� u kiện xác thực và ràng buộc biên độ ve� trạng thái, thường là hợp lý trong các tı̀nh huo� ng vật lý
Bây giờ, bài toán đie� u khie� n to� i ưu là tı̀m dãy tı́n hiệu đie� u khie� n cha� p nhận được 𝑢0∗, 𝑢1∗ sao cho chı̉ tiêu cha� t
lượng 𝐽0 đạt giá trị cực tie� u trong khi tạo ra quỹ đạo trạng thái cha� p nhận được 𝑥0∗, 𝑥1∗, 𝑥2∗. Chúng ta muo� n 𝑢 𝑘∗
được xác định như là luật đie� u khie� n ho� i tie� p trạng thái
Ta có:
1 ∗
𝐽𝑘 = 𝑢𝑘2 + 𝐽𝑘+1
2
=> 𝐽𝑘∗= min(𝐽𝑘)
Đe� tı̀m 𝑢𝑘∗ và 𝐽𝑘∗ ứng với mo� i 𝑥𝑘. Ta xua� t phát từ trạng thái cuo� i cùng với u2=0
𝑘 = 𝑁 = 2;𝐽2∗ = 𝑥22
Ư�ng với mo� i giá trị 𝑥𝑁 = 0, 0.5, 1, 1.5 ta có các giá trị 𝐽𝑁∗ = 0, 0.25, 1, 2.25
𝟏 𝟐
𝒌 = 𝟏;𝑱𝟏 = 𝒖 + 𝑱∗𝟐
𝟐 𝟏
𝑥1 = 1.5
o 𝑢1 = 0 → 𝑥2 = 1.5 + 0 = 1.5 → 𝐽2∗ = 2.25
1 2 02
→ 𝐽1 = 𝑢1 + 𝐽2∗ = + 2.25 = 2.25
2 2
o 𝑢1 = −0.5 → 𝑥2 = 1.5 − 0.5 = 1 → 𝐽2∗ = 1
1 2 (−0.5)2
→ 𝐽1 = 𝑢1 + 𝐽2∗ = + 1 = 1.125
2 2
o 𝑢1 = −1 → 𝑥2 = 1.5 + (−1) = 0.5 → 𝐽2∗ = 0.25
1 2 (−1)2
→ 𝐽1 = 𝑢1 + 𝐽2∗ = + 0.25 = 0.75
2 2
Như vậy tín hiệu điều khiển tối ưu với 𝑥1 = 1.5 là 𝑢 1∗ =−1 và to� n hao ưu là 𝐽1∗ = 0.75
𝑥1 = 1
o 𝑢1 = 0.5 → 𝑥2 = 1 + 0.5 = 1.5 → 𝐽2∗ = 2.25
1 2 0.52
→ 𝐽1 = 𝑢1 + 𝐽2∗ = + 2.25 = 2.375
2 2
o 𝑢1 = 0 → 𝑥2 = 1 + 0 = 1 → 𝐽2∗ = 1
4
1 2 02
→ 𝐽1 = 𝑢1 + 𝐽2∗ = +1=1
2 2
o 𝑢1 = −0.5 → 𝑥2 = 1 + (−0.5) = 0.5 → 𝐽2∗ = 0.25
1 2 (−0.5)2
→ 𝐽1 = 𝑢1 + 𝐽2∗ = + 0.25 = 0.375
2 2
o 𝑢1 = −1 → 𝑥2 = 1 + (−1) = 0 → 𝐽2∗ = 0
1 (−1)2
→ 𝐽1 = 𝑢12 + 𝐽2∗ = + 0 = 0.5
2 2
Như vậ y tı́n hiệ u đie� u khie� n to� i ưu với 𝑥1 = 1 là 𝑢1∗ =−0.5 và to� n hao ưu là 𝐽1∗ = 0.375
𝑥1 = 0.5
o 𝑢1 = 1 → 𝑥2 = 0.5 + 1 = 1.5 → 𝐽2∗ = 2.25
1 2 12
→ 𝐽1 = 𝑢1 + 𝐽2∗ = + 2.25 = 2.75
2 2
o 𝑢1 = 0.5 → 𝑥2 = 0.5 + 0.5 = 1 →𝐽2∗ = 1
1 2 0.52
→ 𝐽1 = 𝑢1 + 𝐽2∗ = + 1 = 1.125
2 2
o 𝑢1 = 0 → 𝑥2 = 0.5 + 0 = 0.5 → 𝐽2∗ = 0.25
1 2 02
→ 𝐽1 = 𝑢1 + 𝐽2∗ = + 0.25 = 0.25
2 2
o 𝑢1 = −0.5 → 𝑥2 = 0.5 + (−0.5) = 0 → 𝐽2∗ = 0
1 (−0.5)2
→ 𝐽1 = 𝑢12 + 𝐽2∗ = + 0 = 0.125
2 2
Như vậ y tı́n hiệ u đie� u khie� n to� i ưu với 𝑥1 = 0.5 là 𝑢1∗ =−0.5 và to� n hao ưu là 𝐽1∗ = 0.125
𝑥1 = 0
o 𝑢1 = 1 → 𝑥2 = 0 + 1 = 1 → 𝐽2∗ = 1
1 2 12
→ 𝐽1 = 𝑢1 + 𝐽2∗ = + 1 = 1.5
2 2
o 𝑢1 = 0.5 → 𝑥2 = 0 + 0.5 = 0.5 → 𝐽2∗ = 0.25
1 0.52
→ 𝐽1 = 𝑢12 + 𝐽2∗ = + 0.25 = 0.375
2 2
o 𝑢1 = 0 → 𝑥2 = 0 + 0 = 0 → 𝐽2∗ = 0
1 2 02
→ 𝐽1 = 𝑢1 + 𝐽2∗ = +0=0
2 2
Như vậ y tı́n hiệ u đie� u khie� n to� i ưu với 𝑥1 = 0 là 𝑢 1∗ =0 và to� n hao ưu là 𝐽1∗ = 0
1
Với 𝑘 = 0;𝐽0 = 2 𝑢02 + 𝐽1∗
𝑥0 = 1.5
o 𝑢0 = 0 → 𝑥1 = 1.5 + 0 = 1.5 → 𝐽1∗ = 0.75
1 02
→ 𝐽0 = 𝑢02 + 𝐽1∗ = + 0.75 = 0.75
2 2
o 𝑢0 = −0.5 → 𝑥1 = 1.5 − 0.5 = 1 → 𝐽1∗ = 0.375
1 2 (−0.5)2
→ 𝐽0 = 𝑢0 + 𝐽1∗ = + 0.375 = 0.5
2 2
o 𝑢0 = −1 → 𝑥1 = 1.5 − 1 = 0.5 → 𝐽1∗ = 0.125
1 (−1)2
→ 𝐽0 = 𝑢02 + 𝐽1∗ = + 0.125 = 0.625
2 2
5
Như vậ y tı́n hiệ u đie� u khie� n to� i ưu với 𝑥0 = 1.5 là 𝑢 0∗ =0 và to� n hao ưu là 𝐽0∗ = 0.75
𝑥0 = 1
o 𝑢0 = 0.5 → 𝑥1 = 1 + 0.5 = 1.5 → 𝐽1∗ = 0.75
1 0.52
→ 𝐽0 = 𝑢02 + 𝐽1∗ = + 0.75 = 0.875
2 2
o 𝑢0 = 0 → 𝑥1 = 1 + 0 = 1 → 𝐽1∗ = 0.375
1 (0)2
→ 𝐽0 = 𝑢02 + 𝐽1∗ = + 0.375 = 0.375
2 2
o 𝑢0 = −0.5 → 𝑥1 = 1 − 0.5 = 0.5 → 𝐽1∗ = 0.125
1 (−0.5)2
→ 𝐽0 = 𝑢02 + 𝐽1∗ = + 0.125 = 0.25
2 2
o 𝑢0 = −1 → 𝑥1 = 1 − 1 = 0 → 𝐽1∗ = 0
1 (−1)2
→ 𝐽0 = 𝑢02 + 𝐽1∗ = + 0 = 0.5
2 2
Như vậy tı́n hiệu đie�u khie�n to�i ưu vớ i 𝑥0 = 1 là 𝑢 0∗ =−0.5 và to� n hao ưu là 𝐽0∗ = 0.25
𝑥0 = 0.5
o 𝑢0 = 1 → 𝑥1 = 0.5 + 1 = 1.5 → 𝐽1∗ = 0.75
1 2 12
→ 𝐽0 = 𝑢0 + 𝐽1∗ = + 0.75 = 1.25
2 2
o 𝑢0 = 0.5 → 𝑥1 = 0.5 + 0.5 = 1 → 𝐽1∗ = 0.375
1 2 0.52
→ 𝐽0 = 𝑢0 + 𝐽1∗ = + 0.375 = 0.5
2 2
o 𝑢0 = 0 → 𝑥1 = 0.5 + 0 = 0.5 → 𝐽1∗ = 0.125
1 2 02
→ 𝐽0 = 𝑢0 + 𝐽1∗ = + 0.125 = 0.125
2 2
o 𝑢0 = −0.5 → 𝑥1 = 0.5 − 0.5 = 0 → 𝐽1∗ = 0
1 2 (−0.5)2
→ 𝐽0 = 𝑢0 + 𝐽1∗ = + 0 = 0.125
2 2
Như vậy tı́n hiệu đie� u khie� n to� i ưu với 𝑥0 = 0.5 là 𝑢 0∗ =0 hoặc 𝑢 0∗ =−0.5 và to� n hao ưu là 𝐽0∗ = 0.125
𝑥0 = 0
o 𝑢0 = 1 → 𝑥1 = 0 + 1 = 1 → 𝐽1∗ = 0.375
1 12
→ 𝐽0 = 𝑢02 + 𝐽1∗ = + 0.375 = 0.875
2 2
o 𝑢0 = 0.5 → 𝑥1 = 0 + 0.5 = 0.5 → 𝐽1∗ = 0.125
1 0.52
→ 𝐽0 = 𝑢02 + 𝐽1∗ = + 0.125 = 0.25
2 2
o 𝑢0 = 0 → 𝑥1 = 0 + 0 = 0 → 𝐽1∗ = 0
1 02
→ 𝐽0 = 𝑢02 + 𝐽1∗ = +0=0
2 2
Như vậy tı́n hiệu đie� u khie� n to� i ưu với 𝑥0 = 0 là 𝑢0∗ =0 và to� n hao ưu là 𝐽0∗ = 0
Cuo� i cùng ta được ke� t quả như hı̀nh:
6
0
0
(J0*=0.75) 1.125
xk= 1.5 0.5 -0.5 (𝐽2∗ = 2.25)
(J0*=0.5) -0.5
-1 -1
0.5 0.5
0 0
1.0 (0.25) 0.25 (0.375) 0.375 (1.0)
-0.5 -0.5
-1 -1
1 1
0.5 0.5
0.5 (0.125) 0.125 (0.125) 0.25 (0.25)
0 0
-0.5 -0.5
1 1
0.25 0.375
0.0 (0) 0.5 (0) 0.5 (0)
0 0
0 0
0 1 k=2
𝟏 𝟏
𝑱𝟎 = 𝒖𝟐𝟎 + 𝑱∗𝟏 𝑱𝟏 = 𝒖𝟐𝟏 + 𝑱∗𝟐 𝑱∗𝟐 = 𝒙𝟐𝟐
𝟐 𝟐
7
Bài 2.17
N 1
Cho hệ thống xk 1 xk uk uk2 với chỉ tiêu chất lượng J 0 xN2 xk uk
k 0
Cho N=2. Tín hiệu điều khiển chỉ nhận các giá trị uk 1 hoặc uk 1 . xk nhận các giá trị -1, 0,
1, 2.
a. Sử dụng phương pháp quy hoạch động để tìm luật điều khiển hồi tiếp trạng thái tối ưu.
b. Với x0 2 , hãy tìm tổn hao tối ưu, luật điều khiển và quỹ đạo trạng thái.
Bài làm:
N 1
a. Hàm chỉ tiêu chất lượng: J 0 xN2 xk uk
k 0
J k L (xk ,uk ) J
k *
k 1 ( xk 1 ) u k xk J*
k 1
K=N=2: J 2 x2
*
x2 1,0,1, 2 J 2* 1,0,1, 4
Với K=1
J1 x1u1 J 2* và x2 x1u1 u12
x1 1:
o u1 1 x2 0 J 2* 0 J1 1
o u1 1 x2 2 J 2* 4 J1 5
J1* 1
x1 0 :
o u1 1 x2 1 J 2* 1 J1 1
o u1 1 x2 1 J 2* 1 J1 1
J1* 1
x1 1:
o u1 1 x2 2 J 2* 4 J1 5
o u1 1 x2 0 J 2* 0 J1 1
J1* 1
x1 2 :
o u1 1 x2 1 J 2* 1 J1 1
J1* 1
Với K=0
J 0 x0u0 J1* và x2 x1u1 u12
x0 1:
o u0 1 x1 0 J1* 1 J 0 0
8
o u0 1 x1 2 J1* 1 J 0 0
J 0* 0
x0 0 :
o u0 1 x1 1 J1* 1 J 0 1
o u0 1 x1 1 J1* 1 J 0 1
J 0* 1
x0 1:
o u0 1 x1 2 J1* 1 J 0 0
o u0 1 x1 0 J1* 0 J 0 0
J 0* 0
x0 2 :
o u0 1 x1 1 J1* 1 J 0 3
J 0* 3
0 5
1 (0) 1 (-1) 1 (1)
0 -1 -1 -1
-1 1
0 (-1) 1 (1) 1 (0)
-1 -1 1 -1
0 -1
-1 (0) 1 (-1) 1 (1)
0 -1 5 -1
0 1 k=2
J1 x1u1 J 2*
9
b. Dựa vào sơ đồ câu a, khi
J 0* 3 u0* 1
x1 1 J1* 1 u1* +1
x2 = 0 J2= 0
*
∑ 𝑤𝑘. 𝑢𝑘 ≤ 𝑊
𝑘=1
Bài làm:
Đặt xk là khối lượng k-1 sản phẩm trước (nghĩa là khối lượng đã bị đầy trước khi chọn sản phẩm thứ k). Vậy ta được
phương trình trạng thái: xk 1 xk uk wk
Xét tới các giới hạn ràng buộc ta được:
x1 0
xk 1 xk uk wk k 1, 2
x 730
4
10
Từ điều kiện ràng buộc x4 730 Ta rời rạc hệ ra làm 5 mốc: xk 0, 225,500,625,730 . Đồng thời ta tính
uk
được ràng buộc cho luật điều khiển 730 730 730 uk 0,1, 2,3, 4,5, 6, 7
u k Max , ,
100 125 250
3
Chỉtiêu chất lượng: J
k
v u
k 1
k k đạt Max
Với K=3
Ta có J3=v3u3=360u3
Điều kiện ràng buộc x3 u3 w3 730 giúp suy ra luật điều khiển cho từng trường hợp.
J *3 1800
o x3 500 u3 0,1, 2
u3 0 J 3 0
u3 1 J 3 360
11
u3 2 J 3 720
J *3 720
o x3 625 u3 0,1
u3 0 J 3 0
u3 1 J 3 360
J *3 360
o x3 730 u3 0
u3 0 J 3 0
J *3 0
Với K=2
Ta có x3 x2 u2v2 730 từ đó chọn luật điều khiển. ta có J 2 u2v2 J 3
*
J 3* 1800
Do x3 không có trong các mốc nên làm tròn lên 225
J 2 1800 1.475 2275
J 3* 720
u2 2 x3 0 125.2 250 500
J 2 475.2 720 1670
J 3* 720
u2 3 x3 0 125.3 375 500
J 2 475.3 720 2145
J 3* 720
u2 4 x3 0 125.4 500
J 2 475.4 720 2620
J * 360
u2 5 x3 0 125.5 625 3
J 2 475.5 360 2735
J *2 2735
o x2 225 u2 0,1, 2,3, 4
J *3 1800
u2 0 x3 225
J 2 1800
12
J * 720
u2 1 x3 225 125 350 500 3
J 2 720 1.475 1195
J 3* 720
u2 2 x3 225 125.2 475 500
J 2 475.2 720 1670
J 3* 360
u2 3 x3 225 125.3 600 625
J 2 475.3 360 1785
J 3* 0
u2 4 x3 225 125.4 725 730
J 2 475.4 1900
J *2 1900
o x2 500 u2 0,1
J *3 720
u2 0 x3 500
J 2 720
J * 360
u2 1 x3 500 125 625 3
J 2 360 1.475 835
J *2 835
o x2 625 u2 0
J * 720
u2 0 x3 625 3
J 2 720
J *2 720
o x2 730 u2 0
J *3 0
u2 0 x3 730
J2 0
J *2 0
Với K=3
Ta có x2 x1 u1v1 730 và J1 u1v1 J1*
o x1 0 u1 0,1, 2
J * 2735
u1 0 x2 0 2
J1 2735
13
J * 835
u1 1 x2 0 250 250 500 2
J1 835 1000 1835
J 2* 835
u1 2 x2 0 250.2 500
J1 1000.2 835 2835
J *1 2835
o x1 225 u1 0,1, 2
J * 1900
u1 0 x2 225 2
J1 1900
J 2* 835
u1 1 x2 225 250 475 500
J1 835 1.1000 1835
J * 0
u1 2 x2 225 250.2 725 730 2
J1 1000.2 0 2000
J *1 2000
o x1 500 u1 0
J *2 720
u1 0 x2 500
J1 720
J *1 835
o x1 625 u1 0
J * 720
u1 0 x2 625 2
J1 720
J *1 720
o x1 730 u1 0
J * 0
u1 0 x1 730 2
J2 0
J *1 0
Bắt đầu tải từ đầu thì thùng hàng trống, ta có
14
J3 Max = 2835. Khối lượng thực tế là x3 2.250 1.125 1.100 725 730
k 1 2 3
xk
0 0 0
730 (0) 0 (0) 0 (0) 0
1
0 0
625 (0) 0 (0) 0 (360)
0
1 2
0 360
500 (0) 0 (835) (720) 1
0 0
4 5
2 3 4
(1800) 1080 3
225 1835 1670
(2000) 1 (1900) 2
2
0 1
1
0 0
7
5
6
4
2 5
3
0 1835 4
(2835) 1 (2735) 1670 (2520)
2 1080 3
0 1
2
0
1
0
15