Professional Documents
Culture Documents
ABSTRACT
Time series forecasting is a very important problem in production, business and policy making. In
Vietnam, many studies have used statistical models and deep learning models independently to
forecast time series such as: amount of foreign investment, stock index, consumer price index, etc.
However, the combination of the above models in forecasting economic variables is still quite rare
in Vietnam. The article aims to determine the optimal combination between deep learning models
and traditional machine learning models in forecasting the inflation index of Vietnam in the period
2000 - 2021.
Keywords: Time series forecasting, deep learning models, traditional machine learning models,
association models, inflation..
1. Giới thiệu biến trong nhiều lĩnh vực như thống kê, ước
lượng và dự báo (Thomas, 1983) vì người ta
Dự báo chuỗi thời gian là quá trình phân
nhận thấy mô hình có nhiều ưu điểm (Box,
tích chuỗi thời gian bằng việc sử dụng các
phương pháp thống kê và mô hình hóa để dự 1970; Jarrett, 1991). Tính chính xác cao khi
báo. Một số mô hình học máy truyền thống dự báo đồng thời loại bỏ được hiện tượng đa
thường được sử dụng để dự báo chuỗi thời cộng tuyến trong mô hình là ưu điểm lớn
gian có thể cho kết quả tốt. Tuy nhiên, chúng nhất của ARIMA. Tuy nhiên, mô hình này
có những nhược điểm như là hiệu suất bị tác cũng có một số nhược điểm, đó là: khó khăn
động do thiếu các yếu tố đặc trưng, không trong việc thiết lập mô hình chuẩn từ nhóm
thể nhận ra những biến động phức tạp trong các mô hình tiềm năng; phương pháp dự báo
dữ liệu và dự báo trong dài hạn sẽ không mang tính chủ quan; mô hình lí thuyết và các
chính xác. mối quan hệ cấu trúc không khác so với một
số mô hình dự báo đơn giản (Thomas, 1983); thể lưu trữ thông tin trong khoảng thời gian
dữ liệu phải tuân theo các giả thiết của mô dài, đây chính là điểm nổi trội của LSTM so
hình hồi quy tuyến tính. Khắc phục những với RNN cũng như các mạng nơ-ron khác.
hạn chế của các mô hình học máy truyền Tuy nhiên, vì thuật toán của LSTM phức tạp
thống, các mô hình học sâu (deep learning, hơn RNN nên việc xử lí thông tin cần nhiều
DL) là một bước tiến đáng kể. Nhiều nghiên thời gian hơn.
cứu cho thấy mô hình học sâu được áp dụng Vì mỗi mô hình dự báo có đều có ưu và
rộng rãi trong dự báo và đạt kết quả có độ nhược điểm nên câu hỏi đặt ra là làm thế nào
chính xác cao. để kết quả dự báo chuỗi thời gian có độ chính
DL là một phần của học máy (machine xác cao nhất? Hiện nay, nhiều nghiên cứu
learning, ML). Trong những năm gần đây, các nước ngoài đã sử dụng phương pháp dự báo
kĩ thuật DL đã vượt trội so với các mô hình chuỗi thời gian bằng cách kết hợp các mô
truyền thống. Đặc biệt, DL được ứng dụng hình học máy truyền thống và học sâu.
thành công khi giải quyết các bài toán dự báo Chẳng hạn, Liu và cộng sự (2017) đã sử
chuỗi thời gian bởi vì DL sử dụng cấu trúc dụng RNN để dự báo sự biến động của cổ
nhiều lớp của các thuật toán được gọi là mạng phiếu. Kết quả là RNN tốt hơn MLP và máy
nơ-ron giúp việc chuẩn bị dữ liệu nhanh hơn véc tơ hỗ trợ (SVM). Bên cạnh đó, Gao, Chai
và có thể học các mẫu dữ liệu phức tạp hơn. và Liu (2017) đã sử dụng bộ dữ liệu về lịch
Trong DL, các mạng nơ-ron hình thành nên sử giao dịch chỉ số S&P 500 trong 20 ngày
hầu hết các mô hình đã được huấn luyện và dự báo thị trường chứng khoán bằng bốn
trước. Có ba kiểu mạng nơ-ron: mạng nơ-ron phương pháp khác nhau: trung bình trượt
nhân tạo (ANN), mạng nơ-ron tích tụ (CNN) (MA), trung bình trượt hàm mũ (EMA),
và mạng nơ-ron hồi quy (RNN). SVM) và LSTM. Kết quả cho thấy LSTM có
Trong những năm gần đây, RNN được áp độ chính xác cao nhất. Khi dự báo doanh số
dụng trong nhiều lĩnh vực: nhận dạng giọng bán của các công ty bất động sản, Soy
nói, mô hình hóa ngôn ngữ, … Tuy nhiên, Temür, Akgün, và Temür (2019) dùng các
việc truyền tải đầy đủ dữ liệu trong khoảng mô hình ARIMA, LSTM và ARIMA-LSTM
thời gian dài là một công việc rất khó khăn. cùng với bộ số liệu gồm 124 tháng, từ tháng
Để khắc phục các vấn đề tiềm ẩn do sự biến 01 năm 2008 đến tháng 04 năm 2018 về tổng
mất của độ dốc trong RNN, các nhà khoa học doanh thu bán nhà ở Thổ Nhĩ Kỳ. Kết quả là
Hochreiter, Schmidhuber và Bengio đã cải mô hình kết hợp ARIMA-LSTM có phần
tiến RNN thành mạng bộ nhớ dài-ngắn hạn trăm sai số tuyệt đối trung bình (MAPE) và
(Long Short-Term Memory, LSTM). sai số bình phương trung bình (MSE) là thấp
nhất. Hyeong Kyu Choi (2018) cũng sử dụng
LSTM là phiên bản cải tiến của RNN,
sự kết hợp này trong việc dự báo hệ số tương
giúp cho việc ghi nhớ các dữ liệu trong quá
quan về giá của hai cổ phiếu riêng biệt. Kết
khứ một cách dễ dàng hơn. Vấn đề độ dốc
quả là mô hình kết hợp ARIMA-LSTM có
(vanishing gradient) bị triệt tiêu trong RNN
khả năng dự báo vượt trội so với các mô hình
đã phần nào được giải quyết ở đây. Mạng
truyền thống.
LSTM xây dựng mô hình bằng phương pháp
lan truyền ngược. LSTM rất thích hợp cho Tuy nhiên, ở Việt Nam những nghiên cứu
việc phân loại, xử lí và dự đoán chuỗi thời tương tự còn khá mới mẻ. Phạm Nguyễn
gian có độ trễ không xác định. Sự khác biệt Hoàng Phúc và Trương Tấn Phát (2020) đã
lớn nhất giữa RNN và LSTM là LSTM có sử dụng LSTM dự báo biến động của thị
trường giao dịch tài chính. Dữ liệu bắt đầu từ
19
TRƯỜNG ĐẠI HỌC KINH TẾ - ĐẠI HỌC ĐÀ NẴNG
ngày đầu tiên mà các công ty được cập nhật kì và mùa. Để đưa yếu tố mùa vào trong mô
tên trên Yahoo Finance và kết thúc vào ngày hình, người ta đã phát triển thành mô hình
24/03/2020. Kết quả dự báo có xu hướng ARIMA có yếu tố mùa (SARIMA). Tuy
tương đồng với dữ liệu thực tế trong dài hạn nhiên, nếu chuỗi thời gian vẫn chứa hai thành
có tính chính xác cao trong ngắn hạn. Do đó, phần còn lại (xu thế và chu kì) thì khi dự báo
nhóm tác giả lựa chọn đề tài “Kết hợp mô trong dài hạn, mô hình SARIMA cho kết quả
hình học máy và mô hình thống kê trong dự không còn chính xác. Để cải thiện chất lượng
báo chuỗi thời gian: Trường hợp lạm phát tại dự báo trong dài hạn, người ta tìm một hàm
Việt Nam giai đoạn 2000 - 2021”. Bài viết trơn thông qua mạng nơ-ron. Qua đó, chuỗi
nhằm mục đích lựa chọn kết hợp tối ưu trong thời gian gốc được chuyển thành hàm trơn
ba kết hợp: ARIMA-RNN, ARIMA-LSTM này bằng việc loại bỏ yếu tố mùa ra khỏi
và ARIMA-RNN-LSTM. Số liệu được sử chuỗi thời gian (Fathi, 2019).
dụng để minh họa cho nghiên cứu là chỉ số b) Mô hình RNN
lạm phát tại Việt Nam giai đoạn từ tháng 01
Mạng nơ-ron truyền thống gồm ba thành
năm 2000 đến tháng 07 năm 2021, được thu
phần chính là lớp đầu vào, lớp ẩn và lớp đầu
thập bởi Tổng cục Thống kê Việt Nam
ra, trong đó đầu vào và đầu ra là độc lập. Tuy
(GSO). Bài viết sử dụng phần mềm Python
nhiên, đối với chuỗi thời gian, đầu vào và
trong tính toán và phân tích các kết quả.
đầu ra có quan hệ mật thiết. Do đó, RNN
2. Cơ sở lý thuyết và phương pháp nghiên cứu xuất hiện với ý tưởng chính là lưu lại thông
tin từ những bước trước đó để đưa ra dự báo
2.1. Cơ sở lý thuyết
chính xác nhất ở bước hiện tại.
2.1.1. Một số mô hình dự báo chuỗi thời gian
a) Mô hình ARIMA
c) Mô hình LSTM
Mô hình LSTM được Hochreiter và
Schmidhuber đề xuất vào năm 1997, là một
trong những phát triển mới nhất của mô hình
RNN nhằm khắc phục vấn đề độ dốc biến Sau đó, ô mới (cell state) cập nhật
mất và vấn đề phụ thuộc xa của mô hình trạng thái từ các thông tin bị bỏ qua ở ô
RNN. Mô hình RNN là một chuỗi các mô-
trước đó và khi đó thông tin mới sẽ
đun lặp đi lặp lại của mạng nơ-ron. Trong
các mô hình RNN tiêu chuẩn, mô-đun lặp có được cập nhật ở đầu vào
cấu trúc rất đơn giản, thường là một tầng
tanh. Các mô hình LSTM cũng có cấu trúc.
Cấu trúc trình tự tương tự như RNN, nhưng Cổng output xác định thông tin đầu ra của
các mô-đun lặp lại có cấu trúc hơi khác. trạng thái hiện tại bằng cách sử dụng giá trị
LSTM gồm có 4 thành phần (cell, forget
gate, input gate, output gate) tương tác với trả về của hàm kích hoạt để quyết định
nhau một cách rất đặc biệt. xuất bao nhiêu thông tin trạng thái. Trạng
21
TRƯỜNG ĐẠI HỌC KINH TẾ - ĐẠI HỌC ĐÀ NẴNG
nghiệm, mức giảm sai số trước đó đối với số. MSE đo mức chênh lệch bình phương
các dự báo kết hợp có trọng số bằng nhau trung bình giữa các giá trị thực và các giá trị
trung bình khoảng 12,5% và dao động từ 3% dự báo.
- 24%. Đôi khi, dự báo kết hợp chính xác
hơn các phương pháp dự báo đơn. Hugo và
cộng sự (2008) sử dụng ba lớp mô hình:
BVAR, FAVAR, DSGE và dự báo kết hợp
d) Tiêu chuẩn thông tin Akaike
để dự báo lạm phát cho Australia. Kết quả
cho thấy rằng phương pháp dự báo kết hợp Một trong những tiêu chí thường được
phù hợp nhất là lấy trung bình của các giá trị dùng để lựa chọn mô hình đó là chỉ số AIC
dự báo từ các mô hình này. (Akaike Information Criteria). AIC được
2.1.2. Một số chỉ số đánh giá chất lượng dự báo hình thành dựa trên lý thuyết thông tin
(information theory)
Có rất nhiều chỉ số dùng để đo lường hoặc
kiểm định để đánh giá chất lượng của một AIC ước tính lượng thông tin tương đối bị
mô hình bất kì. Một số chỉ số thường được mất bởi một mô hình nhất định: một mô hình
dùng trong đánh giá chất lượng mô hình dự càng mất ít thông tin thì chất lượng của mô
báo là: hình đó càng cao. Khi ước tính lượng thông
a) Sai số phần trăm tuyệt đối trung bình tin bị mất bởi một mô hình, AIC đề cập đến sự
MAPE (Mean absolute percentage error) cân bằng giữa tính phù hợp của mô hình và
là phần trăm sai số trung bình tuyệt đối của tính đơn giản của mô hình. Nói cách khác,
các dự báo. Kết quả dự báo càng tốt khi AIC đối phó với cả rủi ro trang bị quá mức và
MAPE càng nhỏ. MAPE có thể được tính rủi ro trang bị thiếu. Với k là số lượng tham số
như sau:
ước tính, là giá trị tối đa của hàm hợp lý
(maximum likelihood function) của mô hình.
Khi đó, giá trị AIC được tính như sau:
23
TRƯỜNG ĐẠI HỌC KINH TẾ - ĐẠI HỌC ĐÀ NẴNG
2.2.3. Phương pháp dự báo theo mô hình RNN 2.2.5. Phương pháp dự báo kết hợp
Sử dụng thư viện tensorflow để hỗ trợ quá Để cải thiện độ chính xác của dự báo, tác
trình training. Đồng thời kết hợp với pandas giả dự báo kết hợp bằng việc lấy trung bình
và numpy để phân tích, và xử lý cấu trúc dữ các giá trị dự báo thu được từ các mô hình dự
liệu, và matplotlib dùng để vẽ đồ thị. báo LSTM, RNN và ARIMA.
Đầu tiên khai báo các thư viện, sau đó tải 3. Kết quả và đánh giá
dữ liệu đào tạo. x_train được sử dụng ở đây
3.1. Kết quả
từ 01/2000 đến 07/2021, khi đó, có 259 giá
a) Kết quả dự báo theo mô hình
trị test để so sánh.
LSTM
Ở đây khi sử dụng mạng nơ-ron mô hình
RNN truyền thống, khai báo số liệu với hàm
activation là relu. Activation functions là
những hàm phi tuyến được áp dụng vào đầu
ra của các nơ-ron trong tầng ẩn của một mô
hình mạng, và được sử dụng làm đầu vào cho
tầng tiếp theo. Hàm relu đang được sử dụng
khá nhiều trong những năm gần đây khi huấn
luyện các mạng nơ-ron. Relu đơn giản lọc Hình 4: Kết quả mô hình mạng LSTMa
các giá trị < 0. So với sigmoid và tanh, relu
có tốc độ tính toán nhanh và tốc độ hội tụ
nhanh hơn hẳn.
2.2.4. Phương pháp dự báo theo mô hình
ARIMA
Trước tiên, sử dụng kiểm định Dickey
Fuller để kiểm định tính dừng của chuỗi thời
Hình 5: Kết quả mô hình mạng LSTMb
gian. Vì P-value=0.011734 nên có thể nói chuỗi
Nguồn: Tác giả
không dừng tại mức ý nghĩa 5%.
Hai đồ thị trên minh họa cho tỉ lệ thực tế
Sử dụng "tìm kiếm lưới" kết hợp thông số
và tỉ lệ dự báo trong hai mô hình dự báo lạm
khác nhau. Mỗi tổ hợp các thông số phù hợp phát LSTM. Trong hình 4, đường màu đỏ là
với một mô hình SARIMA và đánh giá chất chỉ số thực tế và đường màu tím là dự báo.
lượng tổng thể của nó. Mô hình ARIMA tốt Có thể xem, kết quả dự báo gần đúng xu
nhất là ARIMA (1,1,1)x(1,0, 1, 12) với hướng tăng giảm của lạm phát thực tế.
AICmin =357,91.
Tuy nhiên kết quả dự báo chưa sát với kết
Khi áp dụng các mô hình SARIMA điều quả thực tế bởi vì giá trị MAPE=0.4074 -
quan trọng là đảm bảo rằng không vi phạm khác biệt trung bình giữa giá trị dự báo và
bất kì giả định nào. Plot_diagnostics cho giá trị thực tế khoảng 41% - khá lớn. Ở hình
phép tạo ra mô hình dự báo nhanh và kiểm 5, đường màu xanh hiển thị dữ liệu thực tế,
định giả thuyết. Hàm get_prediction() và trong khi đường màu cam thể hiện giá trị dự
conf_int() có chức năng lấy các giá trị và báo. Kích thước của dữ liệu thử nghiệm nằm
khoảng tin cậy cho dự báo. trong khoảng từ 1 đến 50, phạm vi giá trị từ
98 đến 102. Theo biểu đồ, có một số điểm
24
TẠP CHÍ KHOA HỌC KINH TẾ - SỐ 10(01) - 2022
cho thấy giá trị dự báo tiệm cận giá trị thực Hình 7 cho thấy các giá trị dự báo theo xu
tế. Thậm chí mô hình còn dự báo được giai hướng tương đối phù hợp với các giá trị thực
đoạn khủng hoảng vào tháng 4/2020 do tế. MSE bằng 0.4 cho thấy dự báo có độ
Covid-19. MAPE của mô hình dự báo dài chính xác cao.
hạn là 0.517.
b) Kết quả dự báo theo mô hình
RNN
26
TẠP CHÍ KHOA HỌC KINH TẾ - SỐ 10(01) - 2022
Phạm Nguyễn Hoàng Phúc, Trương Tấn Phát (2020), “Ứng dụng Long Short-term Memory
trong dự đoán tài chính”. Khoa Công nghệ Thông tin, Trường Đại học Công nghệ TP. Hồ
Chí Minh.
Sofiyanti, N.; Fitmawati, D.I.; Roza, A.A. Understand LSTM Networks. GITHUB Colah Blog
2015, 22, 137-141.
S. Hochreiter and J. Schmidhuber, “Long Short-Term Memory,” Neural Comput., vol. 9, no. 8,
pp. 1735-1780, Nov. 1997.
T. Gao, Y. Chai, and Y. Liu (2018), “Applying Long Short Term Memory Neural Networks for
Predicting Stock Closing Price.” In 2017 8th IEEE International Conference on Software
Engineering and Service Science (ICSESS). pp. 3-6. Beijing, China 24-26 Nov. 2017.
Temür, A.S.; Akgün, M.; Temür, G. Predicting housing sales in Turkey using ARIMA, LSTM
and hybrid models. J. Bus. Econ. Manag. 2019, 20, 920-938.
Yang, Yuhong. 2004. “Combining Forecasting Procedures: Some Theoretical Results.”
Econometric Theory 20(1): 176-222.
27