You are on page 1of 6

9.3.2.

Ví dụ
Một bài toán bậc hai trong R2
Ví dụ đầu tiên của chúng ta rất đơn giản. Chúng ta xem xét hàm mục tiêu bậc hai trên R2

trong đó γ > 0. Rõ ràng, điểm tối ưu là x⋆ = 0 và giá trị tối ưu là 0. Ma trận Hessian của f là hằng
số và có các giá trị riêng là 1 và γ, do đó các số điều kiện của các tập con của f là chính xác.

Các lựa chọn tối ưu nhất cho các hằng số convex mạnh m và M là:
m = min{1, γ}, M = max{1, γ}.
Chúng ta áp dụng phương pháp gradient descent với tìm kiếm đường chính xác, bắt đầu từ
điểm x(0) = (γ, 1). Trong trường hợp này, chúng ta có thể rút ra các biểu thức đóng cho các lặp
x(k) và giá trị hàm tương ứng của chúng (bài tập 9.6):

Điều này được minh họa trong hình 9.2, với γ = 10.
Đối với ví dụ đơn giản này, sự hội tụ là chính xác tuyến tính, tức là sai số là một chuỗi hình học
chính xác, giảm đi một hệ số |(γ - 1) / (γ + 1)|^2 ở mỗi lần lặp.
Khi γ = 1, giải pháp chính xác được tìm thấy trong một lần lặp; đối với γ không quá xa một (ví dụ,
giữa 1/3 và 3), sự hội tụ diễn ra nhanh chóng. Sự hội tụ rất chậm đối với γ ≫ 1 hoặc γ ≪ 1.
Sử dụng các giá trị ít nhất bảo thủ m = min(1, γ) và M = max(1, γ), giới hạn (9.18) đảm bảo rằng
sai số trong mỗi lần lặp được giảm ít nhất là một hệ số c = (1 - m/M). Chúng ta đã thấy rằng sai
số thực sự được giảm chính xác theo hệ số đã nêu.

Trong mỗi lần lặp, giới hạn trên (9.19) áp dụng cho m/M nhỏ, tương ứng với số điều kiện lớn,
ngụ ý rằng số lần lặp cần thiết để đạt được một mức độ chính xác nhất định tăng tối đa là M/m.
Đối với ví dụ này, số lần lặp chính xác cần thiết tăng khoảng (M/m)/4, tức là một phần tư của giá
trị của giới hạn. Điều này cho thấy rằng đối với ví dụ đơn giản này, giới hạn về số lần lặp rút ra
trong phân tích đơn giản của chúng ta chỉ có khoảng bốn lần chính xác (sử dụng các giá trị ít
nhất bảo thủ cho m và M). Đặc biệt, tốc độ hội tụ (cũng như giới hạn trên của nó) phụ thuộc rất
nhiều vào số điều kiện của các tập con.
Một bài toán không bậc hai trong R2
Bây giờ chúng ta xem xét một ví dụ không bậc hai trong R2, với

Chúng ta áp dụng phương pháp gradient với tìm kiếm đường dẫn bằng cách sử dụng
backtracking, với α = 0.1 và β = 0.7. Hình 9.3 hiển thị một số đường đồng mức của hàm f và các
lặp x(k) được tạo ra bởi phương pháp gradient (được hiển thị dưới dạng các hình tròn nhỏ). Các
đường nối các lặp liên tiếp hiển thị các bước được tỷ lệ.

Hình 9.4 hiển thị sai số f(x(k)) p⋆ so với lần lặp k. Đồ thị cho thấy rằng sai số hội tụ về không gần
như một chuỗi hình học, tức là sự hội tụ gần như tuyến tính. Trong ví dụ này, sai số giảm từ
khoảng 10 xuống còn khoảng 10^-7 sau 20 lần lặp, vì vậy sai số giảm đi một hệ số khoảng 0.4
trong mỗi lần lặp. Sự hội tụ nhanh chóng này được dự đoán bởi phân tích hội tụ của chúng ta, vì
các tập con của f không được điều kiện quá tệ, điều này lại có nghĩa rằng M/m có thể được
chọn không quá lớn.
Để so sánh tìm kiếm đường dẫn backtracking với tìm kiếm đường dẫn chính xác, chúng ta sử
dụng phương pháp gradient với tìm kiếm đường dẫn chính xác trên cùng một bài toán và điểm
khởi đầu. Kết quả được cho trong các hình 9.5 và 9.4. Ở đây, sự hội tụ cũng gần như tuyến tính,
khoảng gấp đôi nhanh hơn so với phương pháp gradient với tìm kiếm đường dẫn backtracking.
Với tìm kiếm đường dẫn chính xác, sai số giảm khoảng 10^-11 sau 15 lần lặp, tức là giảm đi một
hệ số khoảng 0.2 trong mỗi lần lặp.

Hình 9.3: Các lặp của phương pháp gradient với tìm kiếm đường dẫn backtracking, cho bài toán
trong không gian R2 với hàm mục tiêu f được cho trong (9.20). Các đường cong đứt là các
đường đồng mức của f, và các hình tròn nhỏ là các lặp của phương pháp gradient. Các đường
thẳng liền mạch, kết nối các lặp liên tiếp, hiển thị các bước được tỷ lệ t(k)∆x(k).

Hình 9.4: Sai số f (x (k ))− p¿ so với lần lặp k của phương pháp gradient với tìm kiếm đường dẫn
backtracking và tìm kiếm đường dẫn chính xác, cho bài toán trong không gian R2 với hàm mục
tiêu f được cho trong (9.20). Đồ thị cho thấy sự hội tụ gần như tuyến tính, với sai số giảm xấp xỉ
theo hệ số 0.4 trong mỗi lần lặp của phương pháp gradient với tìm kiếm đường dẫn
backtracking, và theo hệ số 0.2 trong mỗi lần lặp của phương pháp gradient với tìm kiếm đường
dẫn chính xác.

Hình 9.5: Các lặp của phương pháp gradient với tìm kiếm đường dẫn chính xác cho bài toán
trong không gian R2 với hàm mục tiêu f được cho trong (9.20).
Kết luận:
Từ các ví dụ số đã được trình bày và các ví dụ khác, chúng ta có thể rút ra các kết luận sau:
• Phương pháp gradient thường có tốc độ hội tụ xấp xỉ tuyến tính, tức là sai số f (x (k ))− p¿ hội tụ
về không xấp xỉ như một dãy hình học.
• Sự lựa chọn của các tham số backtracking α, β có tác động đáng kể nhưng không quá lớn đến
quá trình hội tụ. Việc tìm kiếm đường dẫn chính xác đôi khi cải thiện quá trình hội tụ của
phương pháp gradient, nhưng tác động không lớn (và có thể không đáng để triển khai tìm kiếm
đường dẫn chính xác).
• Tốc độ hội tụ phụ thuộc rất nhiều vào số điều kiện của ma trận Hessiana hoặc các tập con của
nó. Quá trình hội tụ có thể rất chậm, ngay cả đối với các bài toán có số điều kiện tương đối tốt
(ví dụ, với số điều kiện trong khoảng hàng trăm). Khi số điều kiện lớn hơn (ví dụ, 1000 hoặc
hơn), phương pháp gradient trở nên quá chậm đến mức không thể sử dụng trong thực tế.
Ưu điểm chính của phương pháp gradient là tính đơn giản. Nhược điểm chính của nó là tốc độ
hội tụ phụ thuộc quá mức vào số điều kiện của ma trận Hessiana hoặc các tập con của nó.

Phương trình xấp xỉ Taylor bậc nhất của hàm f(x + v) xung quanh điểm x là:

Thành phần thứ hai ở phía bên phải, ∇f(x)Tv, là đạo hàm theo hướng (đạo hàm hướng) của hàm
f tại điểm x theo hướng v. Nó cho ta sự thay đổi xấp xỉ của f cho một bước đi nhỏ v.
Bước đi v được gọi là hướng giảm nếu đạo hàm hướng là âm. Điều này có nghĩa là nếu ∇f(x)Tv <
0, thì v được coi là hướng giảm. Trong ngữ cảnh này, hướng giảm đại diện cho một hướng trong
không gian mà khi di chuyển theo hướng đó, giá trị của hàm f giảm dần.
Bây giờ chúng ta sẽ giải quyết câu hỏi về cách chọn v để đạo hàm hướng trở nên âm nhất có
thể. Vì đạo hàm hướng ∇f(x)Tv tuyến tính theo v, nó có thể được làm âm như bất kỳ mức độ nào
bằng cách lấy v trở nên lớn (với điều kiện v là hướng giảm, tức là ∇f(x)Tv < 0). Tuy nhiên, để câu
hỏi trở nên có ý nghĩa, chúng ta cần giới hạn kích thước của v hoặc chuẩn hóa v theo độ dài của
nó.
Cho ∥ ∙ ∥ là bất kỳ chuẩn nào trên Rn . Chúng ta định nghĩa một hướng giảm dốc chuẩn hóa
(theo chuẩn ∥ ∙ ∥) như sau:

(Chúng ta nói 'một' hướng giảm dốc dễ nhất vì có thể có nhiều bộ giá trị nhỏ nhất.)
Một hướng giảm dốc chuẩn hóa ∆xnsd là một bước có độ dài bằng một đơn vị, tạo ra sự giảm
mạnh nhất trong xấp xỉ tuyến tính của f.
Một hướng giảm dốc chuẩn hóa có thể được hiểu hình học như sau. Chúng ta cũng có thể định
nghĩa ∆xnsd như là
tức là, như hướng trong quả cầu đơn vị của k · k mà tiến xa nhất theo hướng -∇f(x).
Ngoài ra, cũng tiện lợi để xem xét một bước hướng giảm dốc ∆xnsd không chuẩn hóa, bằng cách
tỉ lệ hướng giảm dốc chuẩn hóa theo một cách cụ thể:

Trong đó ∥ ∙ ∥∗ biểu thị chuẩn đối ngược. Lưu ý rằng đối với bước hướng giảm dốc, chúng ta có:

(nhìn thấy ví dụ 9.7)


Phương pháp giảm dốc dùng hướng giảm dốc làm hướng tìm kiếm.
Thuật toán 9.4: Phương pháp giảm dốc dốc nhất.
Cho một điểm khởi đầu x thuộc dom f.
Lặp lại
1. Tính toán hướng giảm dốc dốc nhất ∆xsd.
2. Tìm kiếm dòng. Chọn t qua việc lùi lại hoặc tìm kiếm dòng chính xác.
3. Cập nhật. x := x + t∆xsd.
cho đến khi tiêu chí dừng được đáp ứng.

Khi sử dụng tìm kiếm dòng chính xác, các hệ số tỉ lệ trong hướng giảm dốc không có tác động,
do đó hướng đã được chuẩn hóa hoặc chưa được chuẩn hóa có thể được sử dụng.
9.4.1 Phương pháp giảm dốc dốc nhất cho các chuẩn Euclid và bậc hai
Phương pháp giảm dốc dốc nhất cho các chuẩn Euclid
Nếu chúng ta chọn chuẩn∥ ∙ ∥ là chuẩn Euclid, chúng ta sẽ nhận thấy rằng hướng giảm dốc dốc
nhất đơn giản là đạo hàm âm, tức là ∆xsd = f (x). Phương pháp giảm dốc dốc nhất cho chuẩn
Euclid trùng khớp với phương pháp gradient descent (giảm dốc gradient).
Phương pháp giảm dốc dốc nhất cho các chuẩn bậc hai
Xem xét chuẩn bậc 2

Ở đây P∈ S ++¿ ¿ hướng giảm dốc dốc nhất đã được chuẩn hóa được cho bởi
n
−1
Độ chuẩn kép (dual norm) được xác định bởi công thức ∥ z ∥ =∥ P 2
z , vì vậy bước
¿
giảm dốc dốc nhất đối với ∥ · ∥ p được cho bởi
∆xsd = −P −1∇f (x). (9.25)

−1
∥ z ∥ ¿=∥ P 2 z
Hướng giảm dốc dốc nhất đã được chuẩn hóa cho chuẩn bậc hai được minh họa trong hình 9.9.

∆xnsd

Hình 9.9 Hướng giảm dốc dốc nhất đã được chuẩn hóa cho chuẩn bậc hai. Hình trái thể hiện
hình elip là hình cầu đơn vị của chuẩn, được dịch chuyển đến điểm x. Hướng giảm dốc dốc nhất
đã được chuẩn hóa ∆xnsd tại điểm x kéo dài xa nhất có thể theo hướng -f∇ x trong khi vẫn nằm
trong hình elip. Hình vẽ cả hướng gradient và hướng giảm dốc dốc nhất đã được chuẩn hóa.

You might also like