Professional Documents
Culture Documents
VoChiVy 19119151-1
VoChiVy 19119151-1
BÁO CÁO ĐỒ ÁN 2
Ngành: Công nghệ kỹ thuật máy tính
Đề tài:
SVTH MSSV
Võ Chí Vỹ 19119151
Để tìm hiểu sâu hơn về trí tuệ nhân tạo nói chung cũng như các kĩ thuật
dự đoán huấn luyện mô hình, chúng em quyết định lựa chọn đề tài:“ Áp dụng
Học tăng cường sâu vào Giao dịch thuật toán” Do thời gian hạn hẹp cũng như
việc thiếu nhiều kĩ năng trong xây dựng, hiểu biết ít các mô hình đã áp dụng
cũng như những hiểu biết về AI, đề tài của chúng em vẫn còn nhiều thiếu sót
và hạn chế. Rất mong nhận được sự đóng góp ý kiến của thầy để đề tài nhóm
chúng em ngày càng hoàn thiện hơn.
LIỆT KÊ HÌNH
Hình 2.1: Sơ đồ khối quy trình training TDQN............................................................2
Hình 2.6: Các khối xây dựng cốt lõi học tăng cường....................................................5
– LEARNING
I. Giới thiệu
Trong suốt nhiều năm qua, việc dự báo thị trường tài chính đã thu hút sự
quan tâm đặc biệt của các nhà nghiên cứu trong lĩnh vực nhận dạng mẫu.
Thông thường, để phân tích thị trường và dự đoán xu hướng tương lai, chúng ta
sử dụng dữ liệu chuỗi thời gian. Tuy nhiên, tiến hành nghiên cứu này có thể
mất rất nhiều thời gian. Vì vậy, để ứng dụng hiệu quả dữ liệu và đưa ra những
dự đoán chính xác về các yếu tố tương lai, chúng ta cần sử dụng mô hình DQL
(Deep Q – Learning).
2
H
ì
n
h
3
- Tham số γ là hệ số chiết khấu (γ ∈ [0, 1]). Nó quyết định tầm quan
trọng của phần thưởng trong tương lai. Chẳng hạn, nếu γ = 0, tác
nhân RL được cho là cận thị như nó chỉ xem xét phần thưởng hiện
tại và loại bỏ hoàn toàn những phần thưởng trong tương lai. Khi hệ
số chiết khấu tăng, tác nhân RL có xu hướng trở nên định hướng dài
hạn hơn. Trong trường hợp cực đoan khi γ = 1, tác nhân RL xem xét
mỗi phần thưởng như nhau. Thông số quan trọng này nên được điều
chỉnh.
Hình 2.5: Các khối xây dựng cốt lõi học tăng cường
3. Train DQL (Deep Q – Learning)
3.1. Tổng quan về DQL (Deep Q – Learning)
4
Hình 3.1.1: Mô hình DQL
1. Đưa vào mạng một state s và lấy ra các giá trị của Q-value và các
actions tương ứng.
2. Tác nhân chọn action bằng một chính sách và thực hiện action đó.
3. Môi trường trả lại state s' và phần thưởng r là kết quả của action a và lưu
experience tuple [s, a, r, s'] vào memory.
4. Thực hiện lấy mẫu các trải nghiệm thành một vài batches và tiến hành
train mạng neuron.
5. Lặp lại đến khi kết thúc M episodes.
- Vì dữ liệu đầu vào lớn nên khi train hết trong 1 lần sẽ dẫn đến tình trạng
overfitting, để xử lí vấn đề đó thay vì mỗi lần update states vào một bộ
nhớ (memory) thì ta nên chia dữ liệu thành các minibatch nhỏ trong quá
trình huấn luyện giúp tránh overfitting và cải thiện khả năng tổng quát
hóa của mô hình.
3.2. Mô hình Neuron Network (NN)
5
Hình 3.2.1: Mô hình training Neuron Network giao dịch cổ phiếu
- Tuy nhiên mục đích của ta là bắt mạng neuron network học được cách
ước lượng Q-Value cho các actions một cách chính xác nên đương nhiên
hàm Loss phải tính được sai số giữa Q-value thực tế và dự đoán.
Hình : Hàm chọn hành động cho chiến lược Buy and Hold
- Hàm này chọn hành động cho chiến lược Buy and Hold, ở đây kết
quả trả về luôn luôn là 1 nghĩa là mua vào cổ phiếu.
Hình : Tính toán thông số và cập nhật hành động cho thuật toán
- Thuật toán này sẽ rơi vào trường hợp b từ chưa thực hiện hành động
nào đến thực hiện hành động mua vào một lần rồi giữ qua thời gian và
không bán ra. Ta sẽ tính toán số lượng cổ phiếu, tiền mặt, số cổ phiếu
nắm giữ và cập nhật hành động.
6
Bảng : Đánh giá hiệu suất chiến lược Buy and Hold
7
Hình : Thực thi thuật toán Buy and Hold cho cổ phiếu
Với tổng số tiền ban đầu là 100000 thì sau khi thực hiện giao
dịch theo thuật toán TDQN thì tổng số tiền lúc sau là 316269, ta thấy
sau khi thực hiện giao dịch sẽ thu được lợi nhuận là 216269.
8
6.
- Nhận xét: Thuật toán TDQN đạt được kết quả tốt và giảm thiểu
rủi ro, vượt trội so với tất cả các chiến lược giao dịch chủ động và thụ
động chuẩn. có thể thấy rằng chiến lược giao dịch DRL có khả năng
phát hiện chính xác và hưởng lợi từ các xu hướng chính, agent giao dịch
9
thường chậm hơn một chút so với xu hướng thị trường, nghĩa là thuật
toán TDQN đã học cách phản ứng hơn là chủ động đối với cổ phiếu cụ
thể này. Cho nên RL có thể quyết định điều chỉnh giao dịch của mình vị
trí trước khi đảo ngược xu hướng bằng cách nhận thấy sự gia tăng trong
sự biến động, do đó dự đoán và chủ động.
Với tổng số tiền ban đầu là 100000 thì sau khi thực hiện giao
dịch theo thuật toán DQN thì tổng số tiền lúc sau là 150226, ta thấy sau
khi thực hiện giao dịch sẽ thu được lợi nhuận là 50226.
10
Nhận xét: Thuật toán DQN đạt được kết quả tương đối tốt và có
khả năng học từ dữ liệu và cải thiện hiệu suất qua thời gian. Bằng cách
sử dụng mạng nơ-ron sâu, nó có khả năng học và biểu diễn các hàm giá
trị hành động phức tạp, giúp tìm ra các chiến lược tốt hơn theo thời gian.
11
Tuy nhiên, hiệu suất của thuật toán DQN có thể phụ thuộc vào nhiều
yếu tố như kiến trúc mạng, kích thước bộ nhớ lặp, cách cập nhật mạng
và các tham số khác.
9. Tổng kết
Qua nghiên cứu về thuật toán Trading Deep Q -
Network(TDQN), một giải pháp Deep Reinfor cement learning (DRL)
cho vấn đề giao dịch, xác định vị trí tối ưu trong một hoạt động giao
dịch chứng khoán. Sau khi đã kiểm tra và đánh giá về hiệu suất, chiến
lược giao dịch này đạt kết quả khá ổn. Ngoài ra thuật toán TDQN thể
hiện nhiều lợi ích so với các phương pháp cổ điển hơn, chẳng hạn như
tính linh hoạt và sự mạnh mẽ vượt trội cho giao dịch đa dạng chi phí.
Cách tiếp cận dựa trên dữ liệu như vậy trình bày lợi thế chính của việc
12
triệt tiêu nhiệm vụ phức tạp của xác định các quy tắc rõ ràng phù hợp
với tài chính cụ thể các thị trường được xem xét.
13
TÀI LIỆU THAM KHẢO
[1].Multi-DQN: an Ensemble of Deep Q-Learning Agents for Stock Market
Fore‐ casting.
(https://linkinghub.elsevier.com/retrieve/pii/S0957417420306321)
Soure code: https://github.com/ThibautTheate/An-Application-of-Deep-
Reinforcement-Learning-to-Algorithmic-Trading
Link drive:
https://drive.google.com/drive/u/2/folders/1mmEgIp2LwaKVRUX4x1e0aJ_YS
Bikyz0P