Professional Documents
Culture Documents
BÁO CÁO ĐỒ ÁN 2
Ngành: Công nghệ kỹ thuật máy tính
Đề tài:
SVTH MSSV
Võ Chí Vỹ 19119151
Để tìm hiểu sâu hơn về trí tuệ nhân tạo nói chung cũng như các kĩ thuật
dự đoán huấn luyện mô hình, chúng em quyết định lựa chọn đề tài:“ Áp dụng
Học tăng cường sâu vào Giao dịch thuật toán ” Do thời gian hạn hẹp cũng như việc
thiếu nhiều kĩ năng trong xây dựng, hiểu biết ít các mô hình đã áp dụng cũng
như những hiểu biết về AI, đề tài của chúng em vẫn còn nhiều thiếu sót và hạn
chế. Rất mong nhận được sự đóng góp ý kiến của thầy để đề tài nhóm chúng
em ngày càng hoàn thiện hơn.
LIỆT KÊ HÌNH
Hình 2.1: Sơ đồ khối quy trình training TDQN............................................................2
Hình 2.6: Các khối xây dựng cốt lõi học tăng cường....................................................5
– LEARNING
I. Giới thiệu
Trong suốt nhiều năm qua, việc dự báo thị trường tài chính đã thu hút sự quan
tâm đặc biệt của các nhà nghiên cứu trong lĩnh vực nhận dạng mẫu. Thông thường, để
phân tích thị trường và dự đoán xu hướng tương lai, chúng ta sử dụng dữ liệu chuỗi thời
gian. Tuy nhiên, tiến hành nghiên cứu này có thể mất rất nhiều thời gian. Vì vậy, để ứng
dụng hiệu quả dữ liệu và đưa ra những dự đoán chính xác về các yếu tố tương lai, chúng
1
trường hoặc cho rằng giá sẽ không thay đổi, người giao dịch thực hiện hành
động không tham gia (opt-out action).
2
H
ì
n
h
- Sau khi xác định thì sẽ được tối ưu phần thưởng từ định nghĩa dưới đây:
3
- Tham số γ là hệ số chiết khấu (γ ∈ [0, 1]). Nó quyết định tầm quan
trọng của phần thưởng trong tương lai. Chẳng hạn, nếu γ = 0, tác
nhân RL được cho là cận thị như nó chỉ xem xét phần thưởng hiện
tại và loại bỏ hoàn toàn những phần thưởng trong tương lai. Khi hệ
số chiết khấu tăng, tác nhân RL có xu hướng trở nên định hướng dài
hạn hơn. Trong trường hợp cực đoan khi γ = 1, tác nhân RL xem xét
mỗi phần thưởng như nhau. Thông số quan trọng này nên được điều
chỉnh.
4
Hình 2.6: Các khối xây dựng cốt lõi học tăng cường
3. Train DQL (Deep Q – Learning)
3.1. Tổng quan về DQL (Deep Q – Learning)
1. Enviroment đưa vào mạng một state s; đầu ra là các Q-value của các
actions tương ứng.
2. Agent chọn action bằng một Policy và thực hiện action đó.
3. Environment trả lại state s' và reward r là kết quả của action a và lưu
experience tuple [s, a, r, s'] vào memory.
5
4. Thực hiện sample các experience thành một vài batches và tiến hành
train NN.
5. Lặp lại đến khi kết thúc M episodes.
- Vì dữ liệu đầu vào lớn nên khi train hết trong 1 lần sẽ dẫn đến tình trạng
sẽ dẫn đến tình trạng overfitting, để xử lí vấn đề đó thay vì mỗi lần
update states vào một bộ nhớ (memory). Sau đó chia thành các spamling
batch nhỏ để đưa vào NN học.
3.2. Mô hình Neuron Network (NN)
6
Hình : Hàm chọn hành động cho chiến lược Buy and Hold
- Hàm này chọn hành động cho chiến lược Buy and Hold, ở đây kết quả trả về
luôn luôn là 1 nghĩa là mua vào cổ phiếu.
Hình : Tính toán thông số và cập nhật hành động cho thuật toán
- Thuật toán này sẽ rơi vào trường hợp b từ chưa thực hiện hành động nào đến
thực hiện hành động mua vào một lần rồi giữ qua thời gian và không bán ra. Ta sẽ
tính toán số lượng cổ phiếu, tiền mặt, số cổ phiếu nắm giữ và cập nhật hành động.
7
Bảng : Đánh giá hiệu suất chiến lược Buy and Hold
8
Hình : Thực thi thuật toán Buy and Hold cho cổ phiếu
Với tổng số tiền ban đầu là 100000 thì sau khi thực hiện giao dịch theo thuật toán
TDQN thì tổng số tiền lúc sau là 316269, ta thấy sau khi thực hiện giao dịch sẽ thu
được lợi nhuận là 216269.
9
6.
- Nhận xét: Thuật toán TDQN đạt được kết quả tốt và giảm thiểu rủi
ro, vượt trội so với tất cả các chiến lược giao dịch chủ động và thụ động
10
chuẩn. có thể thấy rằng chiến lược giao dịch DRL có khả năng phát hiện
chính xác và hưởng lợi từ các xu hướng chính, agent giao dịch thường
chậm hơn một chút so với xu hướng thị trường, nghĩa là thuật toán
TDQN đã học cách phản ứng hơn là chủ động đối với cổ phiếu cụ thể
này. Cho nên RL có thể quyết định điều chỉnh giao dịch của mình vị trí
trước khi đảo ngược xu hướng bằng cách nhận thấy sự gia tăng trong sự
biến động, do đó dự đoán và chủ động.
Với tổng số tiền ban đầu là 100000 thì sau khi thực hiện giao dịch theo thuật toán
DQN thì tổng số tiền lúc sau là 150226, ta thấy sau khi thực hiện giao dịch sẽ thu
được lợi nhuận là 50226.
11
Nhận xét: Thuật toán DQN đạt được kết quả tương đối tốt và có khả
năng học từ dữ liệu và cải thiện hiệu suất qua thời gian. Bằng cách sử
dụng mạng nơ-ron sâu, nó có khả năng học và biểu diễn các hàm giá trị
hành động phức tạp, giúp tìm ra các chiến lược tốt hơn theo thời gian.
12
Tuy nhiên, hiệu suất của thuật toán DQN có thể phụ thuộc vào nhiều
yếu tố như kiến trúc mạng, kích thước bộ nhớ lặp, cách cập nhật mạng
và các tham số khác.
8/ So sánh TDQN với DQN
- Sự khác biệt đó là TDQN dùng 2 mạng neuron, DQN dùng 1
mạng neuron.
- Sự khác biệt tiếp theo giữa DQN và TDQN nằm ở phương pháp
cập nhật giá trị Q, với DQN sử dụng Q-learning và replay memory, trong
khi TDQN sử dụng phương pháp Temporal Difference để cập nhật giá
trị Q dựa trên dự đoán giá trị Q tại các thời điểm trước đó. Cụ thể, DQN
sử dụng giá trị Q tối đa của trạng thái tiếp theo và giá trị phần thưởng
để cập nhật giá trị Q hiện tại. Quá trình này được thực hiện thông qua
việc tối ưu hóa mạng nơ-ron sử dụng hàm mất mát và thuật toán lan
truyền ngược (backpropagation). Trong khi đó TDQN sử dụng giá trị Q
hiện tại và giá trị Q dự đoán tại thời điểm tiếp theo để tính toán giá trị Q
mới. Phương pháp này giúp TDQN có khả năng học tập nhanh hơn và
ổn định hơn.
- Do có sự ổn định và khả năng học nhanh hơn nên lợi nhuận của
thuật toán TDQN cao hơn so với thuật toán DQN. Cụ thể trong kết quả
chạy ở Hình .. và Hình .. thì lợi nhuận của TDQN là 216269 cao hơn rất
nhiều so với lợi nhuận của DQN 50226.
=============================================================
13
Hình 4.1: training hiệu huất
14
Hình 4.2: Thực thi thuật toán TDQN cho cổ phiếu