You are on page 1of 54

TỔNG LIÊN ĐOÀN LAO ĐỘNG VIỆT NAM

TRƯỜNG ĐẠI HỌC TÔN ĐỨC THẮNG


KHOA QUẢN TRỊ KINH DOANH

BÁO CÁO 50%


MÔN ỨNG DỤNG PHÂN TÍCH DỮ LIỆU LỚN TRONG QUẢN LÝ

NGHIÊN CỨU PHÁT TRIỂN MÔ HÌNH DỰ ĐOÁN GIÁ


ĐÓNG CỬA (CLOSING PRICE) CỦA BITCOIN THEO NGÀY
BẰNG AZURE MACHINE LEARNING STUDIO

GVHD: Phạm Ngọc Bảo Duy


Nhóm thực hiện: N06 – Ca 1,2 – Thứ 6

Sinh viên thực hiện


Phạm Thị Hạnh Đức 71706018
Nguyễn Đặng Được 71706022
Nguyễn Thị Như Quỳnh 71706144
Trương Thị Ngọc Bích 71706010
Nguyễn Ngọc Quế Anh 71706243

TPHCM, THÁNG 3 NĂM 2021


BẢNG PHÂN CÔNG VÀ ĐÁNH GIÁ CÔNG VIỆC

Đánh
STT Họ và tên MSSV Công việc
giá

 Tìm paper
 Phân công và kiểm tra nội dung
công việc
Phạm Thị
1 71706018  Word mục 1.6 + 2.1.1 + 2.1.3 + 100%
Hạnh Đức
2.1.4 + 2.2 + 2.3 + 2.4.1 + 2.4.2 +
4.3 + 4.4
 Chạy Azure Machine Learning

 Tìm paper
 Phân công và kiểm tra nội dung
Nguyễn Đặng công việc
2 71706022 100%
Được  Word mục 2.1.1 + 3.1 + 3.2 + 3.3 +
3.4 + 4.1 + 4.2 + 4.3 + 4.4 + 5.1.2
 Chạy Azure Machine Learning

 Tìm paper
Nguyễn Thị  Word mục 1.1 + 1.2 + 1.3+ 5.1.1 +
3 71706144 100%
Như Quỳnh 2.1.4 + 3.3 + 3.4 + 4.1
 Chạy Azure Machine Learning

 Tìm paper
Trương Thị  Word mục 2.1.2 + 2.5 + 5.2 + 2.1.3
4 71706010 100%
Ngọc Bích + 3.3 + 3.4 + 4.2
 Chạy Azure Machine Learning

 Tìm paper
Nguyễn Ngọc  Word 1.4 + 1.5 + 1.7 + 2.4.1 + 3.5 +
5 71706243 100%
Quế Anh 5.4 + 5.3 + 3.4
 Chạy Azure Machine Learning

1
MỤC LỤC
DANH SÁCH HÌNH VẼ .......................................................................................... 4
DANH SÁCH BẢNG VẼ.......................................................................................... 5
CHƯƠNG 1: TỔNG QUAN ĐỀ TÀI NGHIÊN CỨU ............................................ 6
1.1 Tính cấp thiết của đề tài ..................................................................................... 6
1.2 Câu hỏi nghiên cứu ............................................................................................. 9
1.3 Mục tiêu nghiên cứu ........................................................................................... 9
1.4 Đối tượng và phạm vi nghiên cứu ...................................................................... 9
1.4.1 Đối tượng nghiên cứu ........................................................................................ 9
1.4.2 Phạm vi nghiên cứu ......................................................................................... 10
1.5 Ý nghĩa và hạn chế của nghiên cứu.................................................................. 10
1.5.1 Ý nghĩa nghiên cứu .......................................................................................... 10
1.5.2 Hạn chế nghiên cứu ......................................................................................... 10
1.6 Kết cấu của đề tài nghiên cứu .......................................................................... 11
1.7 Tóm tắt chương 1 .............................................................................................. 11
CHƯƠNG 2: CƠ SỞ LÝ THUYẾT ....................................................................... 12
2.1 Các nghiên cứu trước ....................................................................................... 12
2.1.1 Nghiên cứu về xu hướng giá tiền điện tử Bitcoin hằng ngày dựa vào các con số
về giá Bitcoin ........................................................................................................... 12
2.1.2 Nghiên cứu về dự đoán giá Bitcoin dựa trên xu hướng trên Twitter và Google
Trend ........................................................................................................................ 14
2.1.3 Nghiên cứu về dự đoán giá và số lượng giao dịch của tiền điện tử dựa vào nhận
xét và phản hồi của người dùng ................................................................................ 16
2.1.4 Nghiên cứu dự đoán giá Bitcoin dựa trên các yếu tố về đào Bitcoin (Mining) .. 18
2.2 Mô hình nghiên cứu đề xuất ............................................................................. 18
2.3 Cơ sở lý thuyết .................................................................................................. 21
2.3.1 Cái khái niệm liên quan ................................................................................... 21
2.3.2 Lý thuyết về các biến trong mô hình ................................................................ 25
2.4 Tóm tắt chương 2 .............................................................................................. 27
CHƯƠNG 3: PHƯƠNG PHÁP NGHIÊN CỨU ................................................... 29

2
3.1 Phương pháp thu thập dữ liệu và chọn mẫu ................................................... 29
3.2 Phương pháp xử lý thông tin, dữ liệu .............................................................. 30
3.3 Tổng thể và quy trình nghiên cứu .................................................................... 30
3.3.1 Giai đoạn 1: Xử lý dữ liệu và kiểm tra độ tương quan giữa các biến ................ 31
3.3.2 Giai đoạn 2: Tách dữ liệu và hồi quy................................................................ 32
3.3.3 Giai đoạn 3: Kiểm tra độ chính xác và so sánh kết quả..................................... 34
3.4 Thực hiện nghiên cứu ....................................................................................... 34
3.5 Kết luận chương 3 ............................................................................................. 36
CHƯƠNG 4: KẾT QUẢ NGHIÊN CỨU .............................................................. 37
4.1 Kiểm tra độ tương quan ................................................................................... 37
4.2 Độ chính xác của các mô hình hồi quy ............................................................. 38
4.3 Chạy thử mô hình ............................................................................................. 41
4.4 Kết luận chương 4 ............................................................................................. 43
CHƯƠNG 5: KẾT LUẬN VÀ KIẾN NGHỊ ......................................................... 44
5.1 Kết luận ............................................................................................................. 44
5.1.1 Kết luận chung ................................................................................................. 44
5.1.2 Trả lời câu hỏi nghiên cứu ............................................................................... 48
5.2 Kiến nghị ........................................................................................................... 48
5.2.1 Dựa vào cả yếu tố con số kỹ thuật và chỉ số cảm xúc khi dự đoán giá Bitcoin .. 49
5.2.2 Chỉ dùng để dự đoán trong ngắn hạn ................................................................ 49
5.2.3 Lựa chọn sàn giao dịch uy tín .......................................................................... 49
5.3 Hướng nghiên cứu tiếp theo ............................................................................. 50
5.4 Tóm tắt chương 5 .............................................................................................. 51
DANH MỤC THAM KHẢO .................................................................................. 52

3
DANH SÁCH HÌNH VẼ
Hình 1: Biggest cryptocurrency exchanges based on 24h volume in the world on
February 22, 2021(in billion U.S. dollars) ................................................................... 7
Hình 2: Công thức đại số của hồi quy tuyến tính....................................................... 13
Hình 3: Sơ đồ khối GRNN ........................................................................................ 13
Hình 4: Mô hình sữ liệu của Bayesian Linear Regression ......................................... 14
Hình 5: Bộ dữ liệu .................................................................................................... 30
Hình 6: Tổng thể sơ đồ quy trình nghiên cứu ............................................................ 31
Hình 7: Công thức chế độ MinMax trong Normalize Data ........................................ 32
Hình 8: Sơ đồ quy trình nghiên cứu trên Azure Machine Learning ........................... 35
Hình 9: Mô hình dự đoán Time series bằng công cụ NumXL Pro 1.63 ..................... 36
Hình 10: Kết quả tương quan bằng công cụ Filter Based Feature Selection............... 37
Hình 11: Bitcoin Volatility Time Series Charts ......................................................... 38
Hình 12: Tổng quan mô hình trên Azure Machine Learning ..................................... 38
Hình 13: Dự đoán sử dụng Web service .................................................................... 42
Hình 14: Dự đoán sử dụng Add-ins Excel ................................................................. 43
Hình 15: So sánh kết quả dự đoán với thực tế của mô hình Boosted Decision Tree
Regression ................................................................................................................ 44
Hình 16: So sánh kết quả dự đoán với thực tế của mô hình Bayesian Linear
Regression ................................................................................................................ 45
Hình 17: So sánh kết quả dự đoán với thực tế của mô hình Linear Regression .......... 45
Hình 18: MAE và RMSE của các mô hình hồi quy ................................................... 47

4
DANH SÁCH BẢNG VẼ
Bảng 1: Các yếu tố trong nghiên cứu giá đóng cửa của Bitcoin................................. 21
Bảng 2: Độ chính xác của các mô hình hồi quy ........................................................ 40

5
CHƯƠNG 1: TỔNG QUAN ĐỀ TÀI NGHIÊN CỨU
1.1 Tính cấp thiết của đề tài
Trong thế giới tiền điện tử, Bitcoin đã trở thành đồng tiền kỹ thuật số hiện đại
đầu tiên được phát minh vào năm 2009 bởi một lập trình viên bí ẩn tên là Satoshi
Nakamoto. Satoshi đã lên kế hoạch xây dựng một hệ thống thanh toán điện tử không
phụ thuộc vào chính phủ hoặc các tổ chức tài chính và hoàn toàn phi tập trung. Vào năm
2009 khi Bitcoin được giới thiệu, mọi người không hiểu công nghệ cơ bản của nó, tức
là Blockchain, nhưng theo thời gian, nó đã trở nên phổ biến rộng rãi trên toàn thế giới
và trở thành tiền điện tử hiện đại đầu tiên. Các khoản thanh toán của nó được xử lý bởi
một mạng hàng ngang của những người dùng được kết nối Internet. Ngày nay, tiền điện
tử như Bitcoin ngày càng phổ biến hơn trong giới đầu tư vì đặc tính phân quyền, tức là
không có tổ chức nào điều khiển mạng lưới Bitcoin. Điều này làm cho một số người
cảm thấy hứng thú bởi cách hoạt động hệt như một ngân hàng lớn không có sự can thiệp
và kiểm soát. Mặt khác, các giao dịch được thực hiện bởi Bitcoin rất đơn giản và có thể
được trao đổi trực tiếp bằng thiết bị kết nối Internet mà không cần thông qua một tổ
chức tài chính trung gian nào.
Theo trang Statista, hiện nay Binance là một trong những sàn giao dịch Bitcoin
có lượng giao dịch lớn nhất thế giới tính đến thời điểm hiện tại. Các dịch vụ giao dịch
của nó được ra mắt vào năm 2017 được tuyên bố với bố các tiêu chuẩn cao về an toàn
và bảo mật. Vào tháng 7 năm 2017, Binance ra mắt tiền điện tử Binance Coin (BNB)
của riêng mình với tổng vốn hoá thị trường khoảng 2.5 tỷ USD vào tháng 9 năm 20109.
Tính đến ngày 22 tháng 2 năm 2021, khối lượng giao dịch trong ngày của sàn đạt 28.25
tỷ USD và giữ vị trí số một trong 100 sàn giao dịch điện tử lớn nhất thế giới.

6
Hình 1: Biggest cryptocurrency exchanges based on 24h volume in the world on
February 22, 2021(in billion U.S. dollars)
Ngày nay, vẫn còn rất ít doanh nghiệp và cá nhân sử dụng Bitcoin như một
phương thức thanh toán thay thế đồng tiền pháp định mà hầu hết cho rằng đó là một
hình thức đầu tư nên thị trường điện tử như Bitcoin vẫn cần thêm một thời gian để được
chấp nhận rộng rãi hơn. Dù vậy, tầm ảnh hưởng của Bitcoin là không thể nào chối cãi.
Mỗi ngày qua đi là thêm nhiều người biết về Bitcoin hơn trước đồng nghĩa với việc họ
sẽ thấy được lợi nhuận cũng như tiềm năng của nền tảng giao dịch này. Bitcoin là một
đơn vị tiền tệ giới hạn về số lượng và được khai thác càng ngày càng nhiều. Số lượng
Bitcoin trên thế giới chỉ có đến 21 triệu đơn vị Bitcoin nên việc khai thác khó khăn cũng
khiến Bitcoin trở nên có giá trị hơn. Trong tương lai gần, đồng Bitcoin sẽ cực kỳ khó
đào, khiến giá trị của một đơn vị sẽ trở nên rất lớn. Bitcoin lưu trữ chi tiết của mỗi giao
dịch đã từng xảy ra trong một phiên bản khổng lồ của một sổ cái kỹ thuật số phân tán
phi tập trung được gọi là Blockchain. Về cơ bản, Bitcoin là một hệ thống xây dựng trên
nền tảng Blockchain. Trong kinh doanh, hàng tỷ người trên thế giới sống ở những quốc
gia khác nhau mà họ không thể đặt lòng tin vào các đơn vị trung gian như ngân hàng,
chính phủ và hệ thống pháp luật trong việc thực hiện giao dịch cũng như lưu trữ chính
xác hồ sơ thì Blockchain đặc biệt hữu dụng trong những trường hợp này vì có thể cung
cấp độ tin cậy và đảm bảo cho mọi người khi họ giao dịch với nhau.

7
Theo nhà cung cấp dữ liệu thị trường điện tử Coin Metrics, Bitcoin đã lần đầu
tiên vượt mốc 44.000 USD trong lịch sử khi tăng 14% để cán mốc 44.180 USD, vào
tháng 3/2021 là thời kỳ đỉnh điểm khi Bitcoin đã có lúc vượt ngưỡng 60.000 USD/1
Bitcoin. Giá trị đồng Bitcoin tăng vọt sau khi hãng xe điện Tesla chi 1,5 tỷ USD để mua
Bitcoin cũng như chấp nhận cho người dùng sử dụng đồng tiền điện tử để mua các sản
phẩm của mình vào ngày 25/03/2021, đây được xem là động thái thay đổi cuộc chơi lớn
cho việc chấp nhận sử dụng đồng Bitcoin từ góc độ giao dịch. Trong hồ sơ gửi lên Sở
Giao dịch Chứng khoán Mỹ (SEC), công ty Tesla cho rằng việc chi 1,5 tỷ USD để mua
Bitcoin nhằm để linh hoạt, đa dạng cũng như tối đa hóa lợi nhuận dòng tiền mặt của
công ty. Việc nắm giữ Bitcoin sẽ không được xem là khoản đầu tư trên bảng cân đối kế
toán của Tesla như tiền mặt mà Bitcoin được phân loại vào danh mục "tài sản vô hình
có tuổi thọ vô thời hạn”, nó được kỳ vọng rằng sẽ tạo ra những điều tốt đẹp trong tương
lai. Ngoài ra, “tối đa hóa lợi nhuận” nghĩa là CEO Tesla giả định các đồng tiền sẽ tiếp
tục tăng giá trị, tạo ra nguồn lợi nhuận mới bên cạnh xe điện và pin. Việc Tesla chuyển
sang Bitcoin thể hiện khoản đầu tư chiếm một tỷ lệ đáng kể tiền mặt của họ trong khoản
đầu tư, công ty có hơn 19 tỷ đô la tiền mặt và các khoản tương đương tiền vào cuối năm
2020. Điều này đã khiến cho giá Bitcoin tăng lên và cổ phiếu Tesla cũng tăng hơn 2%
trong giao dịch trước giờ mở cửa. Giới đầu tư Bitcoin hoan nghênh động thái mới của
Tesla vì góp phần giúp giá trị tài sản của họ tăng vọt khoảng 18%. Tiếp đó, tỷ phú Elon
Musk là giám đốc điều hành của Tesla đã đăng những thông điệp khuyến khích nhiều
người đầu tư vào tiền điện tử, trong đó có Bitcoin và Dogecoin. Trên trang Twitter, Elon
Musk đã gắn hashtag #bitcoin khiến giá Bitcoin tăng thêm 20% chỉ trong một khoảng
thời gian ngắn. Tuy nhiên, nhiều người tham gia trong thị trường này lại lo lắng về
những rủi ro tiềm ẩn có thể gây ra bởi sự tăng giá nhanh chóng của Bitcoin. Điều này
đồng nghĩa với việc sự biến động của tiền điện tử không những gây tác động đến lợi
nhuận của Tesla mà còn ảnh hưởng tới khách hàng nếu họ có ý định dùng Bitcoin để
mua ô tô.
Có thể nói, Bitcoin đang được quan tâm nhiều hơn bởi những nhà đầu tư và các
nhà đầu tư tổ chức doanh nghiệp. Cụ thể, quỹ trực thuộc tập đoàn BlackRock, Inc. quản
lý đầu tư toàn cầu của Mỹ có trụ sở tại thành phố New York đã có động thái đã liệt kê
Bitcoin là một mục tiêu đầu tư tiềm năng; một số người tin rằng Bitcoin nên được đưa

8
vào danh mục đầu tư đã đẩy giá Bitcoin lên cao. Tuy nhiên, việc đầu tư lâu nay luôn
tồn tại những rủi ro tiềm ẩn mà không một ai có thể lường trước được, mặt khác Bitcoin
lại là một thị trường biến động mạnh, rủi ro cao và hoạt động theo cung - cầu nên việc
dự đoán giá Bitcoin là một vấn đề cấp thiết và hữu ích cho các nhà đầu tư. Hiện nay,
với việc đầu tư vào những danh mục khác như chứng khoán so với Bitcoin sẽ thực hiện
được dễ dàng hơn nhờ vào những công cụ phân tích được ra đời trong khi Bitcoin còn
là vấn đề mới mẻ. Nhận thấy được vấn đề này, nhóm nghiên cứu chọn đề tài: “Nghiên
cứu phát triển mô hình dự đoán giá đóng cửa (Closing price) của Bitcoin theo ngày
bằng Azure Machine Learning Studio”. Với góc độ là sinh viên kinh tế chưa có kiến
thức chuyên sâu trong lĩnh vực công nghệ, nhóm nghiên cứu thực hiện nghiên cứu với
mục tiêu có thể dự đoán được đoán được giá Bitcoin thông qua máy học Azure ML với
đặc điểm dễ sử dụng cũng như sử dụng công nghệ điện toán đám mây giúp việc thực
hiện huấn luyện máy học nhanh chóng và không yêu cầu cao về ngôn ngữ lập trình, hỗ
trợ nhiều thuật toán và công cụ xử lý dữ liệu đa dạng. Từ đó, đưa ra những giải pháp
đầu tư hiệu quả cũng như hạn chế được rủi ro cho các nhà đầu từ cũng như tổ chức
doanh nghiệp trong một khoảng thời gian ngắn.
1.2 Câu hỏi nghiên cứu
Nội dung nghiên của đề tài sẽ tập trung trả lời các câu hỏi dưới đây:
1. Dự đoán giá đóng cửa của Bitcoin theo ngày.
2. Mô hình hồi quy nào dùng để dự đoán đạt độ chính xác cao nhất?
3. Những yếu tố nào ảnh hưởng đến giá của Bitcoin?
1.3 Mục tiêu nghiên cứu
Nghiên cứu giúp cá nhân và doanh nghiệp dự đoán một cách chính xác giá đóng
cửa của Bitcoin theo ngày bằng cách sử dụng những thuật toán máy học khác nhau dựa
vào bộ dữ liệu là những yếu tố ảnh hưởng đến giá Bitcoin được thu thập từ tháng 2 năm
2015 đến tháng 2 năm 2021 tổng hợp trên nhiều nguồn uy tín; đồng thời đề xuất các
kiến nghị cho doanh nghiệp/cá nhân có được giải pháp về chiến lược và đầu tư hiệu
quả trong khoảng thời gian ngắn hạn.
1.4 Đối tượng và phạm vi nghiên cứu
1.4.1 Đối tượng nghiên cứu

9
Đối tượng nghiên cứu: Bitcoin và các nhân tố ảnh hưởng đến giá đóng cửa của
Bitcoin.
1.4.2 Phạm vi nghiên cứu
Phạm vi nghiên cứu: Dựa trên bộ dữ liệu về Bitcoin từ năm 2015 đến tháng
2/2021 được lấy từ Coinmarketcap.com, Kaggle.com, Google Trend,
Charts.bitcoin.com nhằm ước tính và dự đoán giá đóng cửa theo ngày của Bitcoin.
1.5 Ý nghĩa và hạn chế của nghiên cứu
1.5.1 Ý nghĩa nghiên cứu
Kiểm tra lại tính chính xác của các yếu tố tác động tới đồng Bitcoin và xây dựng
được mô hình hồi quy độ chính xác cao. Nhóm nghiên cứu thực hiện bài nghiên cứu
bằng công cụ Azure Machine Learning với các phương pháp tiếp cận mới so với các
nghiên cứu trước, giúp người đọc có cái nhìn rõ hơn về sự biến động giá của Bitcoin.
Đồng thời, bài nghiên cứu còn đưa ra các công cụ giúp dự đoán giá đóng cửa theo ngày
của Bitcoin bằng các dữ liệu đầu vào, mang ý nghĩa thực tiễn cho các chuyên gia đầu
tư và thực hiện giao dịch kịp thời tạo ra lợi nhuận và mang tính kinh tế cao.
Dưới góc độ của đọc giả với mục đích tiếp cận thông tin thì bài nghiên cứu đưa
ra các lý thuyết thực tiễn và các yếu tố, nơi trích xuất dữ liệu giúp người đọc hiểu rõ
hơn về đồng tiền điện tử Bitcoin. Ngoài ra, bài nghiên cứu sử dụng công cụ Azure
Machine Learning được cung cấp bởi Microsoft, không yêu cầu cao về việc vận dụng
các ngôn ngữ lập trình, dễ tiếp cận đến những người mới tham gia và tìm hiểu về máy
học vẫn có thể hiểu và vận dụng trực tiếp và hoàn toàn miễn phí trên nền tảng Internet.
1.5.2 Hạn chế nghiên cứu
Tuy sử dụng Bayesian Linear Regression (BLR) để dự đoán giá Bitcoin mang
tính chính xác tương đối cao dựa trên những sự thay đổi về các nhân tố tác động được
đưa ra theo ngày vì thế các kết quả dự đoán xa hơn có thể mang tính chính xác thấp hơn
nếu không có những dữ liệu thực được đưa vào phân tích vào ngày liền trước và không
dự đoán được tương lai xa nếu không tìm hiểu sâu về các thông tin liên quan đến Bitcoin.
Bên cạnh đó, hiện nay đã có nhiều máy học cho kết quả dự đoán giá Bitcoin với độ
chính xác cao hơn như Long short-term memory (LSTM), Recurrent Neural Network
(RNN),... Nhưng nhóm nghiên cứu còn hạn chế về kiến thức chuyên sâu để hiểu và áp
dụng nó vào nghiên cứu của mình. Cuối cùng, do hạn chế về tài chính nên nhóm nghiên

10
cứu không thể thực hiện mua các gói dữ liệu biến động giá Bitcoin với dao động biên
độ nhỏ như giây, phút,... nên nhóm chỉ có thể thực hiện chạy từ bộ dữ liệu theo ngày
miễn phí và có sẵn.
1.6 Kết cấu của đề tài nghiên cứu
Báo cáo gồm 5 chương với kết cấu như sau:
Chương 1: Tổng quan đề tài: Nhằm đưa ra tính cấp thiết của việc “Nghiên cứu
phát triển mô hình dự đoán giá đóng cửa (Closing price) của Bitcoin theo ngày
bằng Azure Machine Learning Studio”. Đồng thời, làm rõ câu hỏi, đối tượng và phạm
vi nghiên cứu trước khi phân tích kỹ hơn về mô hình nhóm phát triển. Cuối cùng, chỉ
ra những hạn chế của bài nghiên cứu để đưa ra hướng phát triển mới trong tương lai
nhằm dự đoán giá đóng cửa của Bitcoin với độ chính xác cao hơn.
Chương 2: Cơ sở lý thuyết: Để đưa ra được mô hình nghiên cứu đề xuất gồm
những yếu tố nào thì nhóm nghiên cứu tìm hiểu và tổng hợp lại các nghiên cứu trước
có liên quan đến dự đoán giá tiền điện tử nói chung và Bitcoin nói riêng. Sau khi xác
định được mô hình nghiên cứu thì nhóm sẽ trình bày các khái niệm liên quan đến
Bitcoin.
Chương 3: Phương pháp nghiên cứu: Tại chương này nhóm trình bày phương
pháp thu thập dữ liệu, cách xử lý dữ liệu và thực hiện các thuật toán hồi quy bằng công
cụ Azure Machine Learning Studio.
Chương 4: Kết quả nghiên cứu: Đưa ra kết quả sau khi thực hiện các thuật toán
hồi quy.
Chương 5: Kết luận và kiến nghị: Trả lời câu hỏi nghiên cứu, so sánh với các
nghiên cứu trước đó và đưa ra hướng nghiên cứu trong tương lai.
1.7 Tóm tắt chương 1
Trong chương đầu tiên, nhóm nghiên cứu đã đưa ra lý do chọn đề tài “Nghiên
cứu phát triển mô hình dự đoán giá đóng cửa (Closing price) của Bitcoin theo ngày
bằng Azure Machine Learning Studio”. Sau khi chọn, nhóm đã đưa ra câu hỏi nghiên
cứu cụ thể và mục tiêu nghiên cứu để xác định đối tượng và phạm vi nghiên cứu. Đồng
thời, nhóm cũng nhận thấy ý nghĩa khoa học và thực tiễn của phân tích trong bài báo
này và một số hạn chế mà nó mang lại cũng như thiếu sót.

11
CHƯƠNG 2: CƠ SỞ LÝ THUYẾT
2.1 Các nghiên cứu trước
2.1.1 Nghiên cứu về xu hướng giá tiền điện tử Bitcoin hằng ngày dựa vào các con
số về giá Bitcoin
Trong nghiên cứu “Regression based Analysis for Bitcoin Price Prediction” -
“Phân tích hồi quy để dự đoán giá Bitcoin” (Muhammad Fahmi, Azah Samsudin,
Mustapha, Razali & Kamal Ahmad Khalid, 2018) đã dùng 4 thuật toán hồi quy gồm
Linear Regression (LR), Neural Network Regression (NNR), Bayesian Linear
Regression (BLR), and Boosted Decision Tree Regression (BDTR) để dự đoán giá
Bitcoin theo đồng USD. Nghiên cứu nhằm xác định thuật toán hồi quy nào sẽ cho kết
quả chính xác nhất về dự đoán giá Bitcoin. Bài nghiên cứu này thiên về dữ liệu số của
Bitcoin bao gồm 4 loại giá của Bitcoin theo ngày là giá mở cửa, giá đóng cửa, giá thấp
nhất và giá cao nhất trong ngày.
Thuật toán Linear Regression sẽ cố gắng mô hình hóa mối quan hệ giữa biến phụ
thuộc (Y - dữ liệu đầu ra) và biến độc lập (X - dữ liệu đầu vào) bằng cách vẽ một phương
trình tuyến tính với dữ liệu (Muhammad Fahmi, Azah Samsudin, Mustapha, Razali &
Kamal Ahmad Khalid, 2018). Mục tiêu cuối cùng của thuật toán này là tìm ra giá trị tốt
nhất có thể cho a và b, giá trị này sẽ tạo ra một đường phù hợp nhất cho một điểm dữ
liệu nhất định, có thể giải thích cho mối quan hệ giữa X và Y.
Y = a + bX, trong đó b là hệ số góc của đường và a là điểm chặn
Thuật toán Neural Network Regression sẽ sử dụng các trọng số thích ứng và có
thể tính gần đúng các hàm phi tuyến tính về các đầu vào của chúng. Neural Network
Regression là một mạng nơ-ron chuyển tiếp vì nó phản hồi với một mẫu đầu vào bằng
cách xử lý dữ liệu đầu vào từ lớp này sang lớp khác mà không có đường dẫn phản hồi
(Muhammad Fahmi, Azah Samsudin, Mustapha, Razali & Kamal Ahmad Khalid,
2018). Trong nghiên cứu liên quan thì định nghĩa mạng nơ-ron nhân tạo là một mạng
bao gồm một số lượng lớn các bộ xử lý đơn giản (nơ-ron) được kết nối với nhau một
cách ồ ạt, hoạt động song song và học hỏi kinh nghiệm (Specht, 1993). Mạng nơ-ron
bao gồm 4 phần chính là đầu vào, trọng số, độ lệch hoặc ngưỡng và đầu ra, trong đó các
đơn vị đầu vào chỉ là đơn vị phân phối, cung cấp tất cả các biến đo lường. Tương tự như
hồi quy tuyến tính thì công thức đại số sẽ là:

12
Hình 2: Công thức đại số của hồi quy tuyến tính
Còn quan sát dưới dạng sơ đồ khối GRNN (General Regression Neural Network)
thì sẽ như sau:

Hình 3: Sơ đồ khối GRNN


Thuật toán Bayesian Linear Regression sử dụng hồi quy tuyến tính được bổ sung
bởi thông tin bổ sung dưới dạng phân phối xác suất trước. Thông tin trước về các tham
số được kết hợp với một hàm khả năng để tạo ước tính cho các tham số (Muhammad
Fahmi, Azah Samsudin, Mustapha, Razali & Kamal Ahmad Khalid, 2018). Mô hình dữ
liệu là một vector đầu vào x có độ dài m nhân với ma trận hệ số A để tạo ra vectơ đầu
ra y có độ dài d, với nhiễu Gaussian được thêm vào (Minka, 2009):

13
Hình 4: Mô hình sữ liệu của Bayesian Linear Regression
Thuật toán Boosted Decision Tree Regression sử dụng một hàm mất mát (loss
function) được xác định trước để đo lỗi trong mỗi bước và sửa lỗi cho nó trong lần tiếp
theo (Muhammad Fahmi, Azah Samsudin, Mustapha, Razali & Kamal Ahmad Khalid,
2018). Boosted Decision Tree Regression là sự kết hợp điểm mạnh từ hai thuật toán là
regression trees (mô hình liên quan đến phản hồi với các yếu tố dự đoán) và boosting
(một phương pháp thích ứng để kết hợp nhiều mô hình đơn giản nhằm cải thiện hiệu
suất dự đoán) (Elith, Leathwick & Hastie, 2008).
Bốn thuật toán trên sẽ được thực hiện bằng Microsoft Azure Machine Learning
Studio với dữ liệu đầu vào là 4 loại giá của Bitcoin đã được nêu ở trên. Kết quả của
nghiên cứu là thuật toán Bayesian Linear Regression sẽ cho kết quả chính xác nhất đối
với dự đoán giá đóng cửa của Bitcoin, với độ chính xác là 99.76% và lần lượt sau đó là
Linear Regression, Boosted Decision Tree Regression, Neural Network Regression. Hệ
số xác định (Coefficient of Determination) thấp nhất là đối với dự đoán giá thấp nhất
của Bitcoin bằng thuật toán Neural Network Regression, 0.989459. Đồng thời, nghiên
cứu này cũng chỉ ra một hướng nghiên cứu mới để dự đoán giá Bitcoin chính xác hơn,
không chỉ dựa vào các dữ liệu số đặc trưng về các loại giá Bitcoin như số lượng giao
dịch, khối lượng giao dịch trên chuỗi, giá trị của đồng tiền được khai thác, vốn hóa thị
trường và khối lượng trao đổi của chuỗi khối Bitcoin.
2.1.2 Nghiên cứu về dự đoán giá Bitcoin dựa trên xu hướng trên Twitter và Google
Trend
Trong thập kỷ qua, các dịch vụ Web 2.0 như blog, tweet, diễn đàn, chat, email,…
đã được sử dụng rộng rãi như các phương tiện truyền thông, với kết quả rất khả quan.
Hơn nữa, cảm xúc có thể ảnh hưởng đến việc ra quyết định và hành vi cá nhân. Với sự
phổ biến của Bitcoin hiện nay, thông qua việc sử dụng các dịch vụ truyền thông xã hội,
nhiều nghiên cứu đã được thực hiện nhằm phân tích xem hoạt động trên mạng xã hội
hoặc thông tin được tìm kiếm trên phương tiện truyền thông, tìm kiếm trên web có thể

14
hữu ích và được các chuyên gia đầu tư sử dụng hay không. Do đó xuất hiện một số công
trình nghiên cứu về dự đoán giá Bitcoin thông qua dữ liệu từ Google Trend và Twitter.
Trong nghiên cứu “Cryptocurrency Price Prediction Using News and Social
Media Sentiment” (Lamon, Nielsen & Redondo, 2017), giá Bitcoin thông qua cảm xúc
của nhiều người dùng khác nhau được cung cấp trên các cột tin tức và phương tiện
truyền thông xã hội. Ngoài Bitcoin, tác giả cũng đã xử lý hai loại tiền điện tử khác là
Litecoin và Ethereum để nghiên cứu dự đoán. Dữ liệu đầu vào của nghiên cứu này là
dữ liệu văn bản từ các tiêu đề tin tức và tweet, được tổng hợp theo ngày và lưu giữ theo
thứ tự thường xuyên để bảo toàn tính chất của chuỗi thời gian. Tác giả sử dụng thuật
toán phân loại nhị phân được giám sát sau đó sử dụng để gán cho mỗi dòng tiêu đề tin
tức và tweet một nhãn 0 hoặc 1 và cho biết các dự đoán về sự tăng giá hiện tại hoặc tăng
giá một ngày trong tương lai thông qua một trọng số có giá trị âm hoặc dương. Ba mô
hình chính là: Naïve Bayes, mô hình hồi quy và SVM (máy Vector hỗ trợ) được sử dụng
để thực hiện nghiên cứu. Mô hình này hoạt động tương đối tốt để xác định xu hướng
chung của giá tiền, nhưng lại gặp khó khăn trong việc dự đoán chính xác các biến động
giá hằng ngày.
Nghiên cứu "Cryptocurrency Price Prediction Using Tweet Volumes and
Sentiment Analysis" (Abraham, Higdon, Nelson & Ibarra, 2018) nghiên cứu những thay
đổi về giá Bitcoin và Ethereum thông qua dữ liệu Twitter và Google Trends bằng cách
sử dụng mô hình tuyến tính lấy các tweet đầu vào và dữ liệu Google Trends, sau đó dự
đoán chính xác hướng thay đổi giá. Trong quá trình xây dựng nghiên cứu này, tác giả
xác định các mối tương quan tồn tại giữa giá Bitcoin và Ethereum và dữ liệu của Google
Trends. Khối lượng tweet về mỗi loại tiền điện tử làm đầu vào cho mô hình tuyến tính
và tổng hợp kết quả. Kết luận của các phân tích cho thấy rằng phân tích tâm lý ít gây ra
sự thay đổi giá đồng tiền điện tử trong môi trường mà giá đang giảm. Điều này là do
các Tweets về đồng tiền điện tử có xu hướng khách quan (không có cảm xúc rõ ràng)
hoặc tích cực bất kể giá thay đổi.
Nghiên cứu "Bitcoin Spread Prediction Using Social And Web Search Media”
(Matta, Lunesu & Marchesi, 2015) đã thực hiện một cuộc điều tra xem liệu việc phân
tích cảm xúc tự động trên các bài đăng Twitter hằng ngày của công chúng có thể được
sử dụng để dự đoán thị trường của Bitcoin hay không đồng thời sử dụng phương tiện

15
Google Trends phân tích mức độ phổ biến của Bitcoin dưới góc độ tìm kiếm trên Web.
Qua đó, nhóm tác giả đã phát hiện ra mối tương quan nổi bật giữa chênh lệch giá của
Bitcoin và những thay đổi trong các cụm từ truy vấn cho cụm từ tìm kiếm “Bitcoin”.
Dữ liệu đầu vào là các Tweets liên quan đến Bitcoin được thu thập thông qua hashtag
#Bitcoin hoặc @bit-coin với tổng cộng 1,924,891 tweet trong vòng 60 ngày. Sau đó
nhóm tác giả sử dụng SentiStrength (một công cụ ước tính mức độ cảm xúc tích cực và
tiêu cực trong các văn bản ngắn) để đánh giá các nhận xét được trích xuất theo chỉ định:
1 (nếu nhận xét là tích cực), -1 (nếu nhận xét là tiêu cực) và 0 (nếu nhận xét là trung
lập). Từ kết quả phân tích tương quan chéo, nhóm tác giả khẳng định rằng các tweet
tích cực có thể góp phần dự đoán chuyển động của giá Bitcoin trong một vài ngày tới.
Google Trends có thể được coi là một loại công cụ dự đoán, vì giá trị tương quan chéo
cao với độ trễ bằng không.
2.1.3 Nghiên cứu về dự đoán giá và số lượng giao dịch của tiền điện tử dựa vào
nhận xét và phản hồi của người dùng
Trước nghiên cứu về “Predicting Fluctuations in Cryptocurrency Transactions
Based on User Comments and Replies” - “Dự đoán biến động trong giao dịch tiền điện
tử dựa trên nhận xét và câu trả lời của người dùng” (Kim et al., 2016) thì đã có nhiều
nghiên cứu đề xuất một số phương pháp dự báo biến động giá của tiền điện tử, nhưng
nhận thấy tiền điện tử được sử dụng ngày càng nhiều cho các giao dịch trực tuyến trên
toàn thế giới nên Kim và các cộng sự đã nghiên cứu một nhánh nhỏ hơn trong dự đoán
giá tiền điện tử là dự đoán những biến động về giá và số lượng giao dịch của nhiều loại
tiền điện tử. Các tác giả đồng ý với 2 đặc trưng nêu trên của tiền điện tử và cho rằng bất
kể biến động nào tác động lên 2 yếu tố này đều có thể là cơ hội hoặc rủi ro cho những
người đầu cơ tiền điện tử. Bài nghiên cứu tập trung vào 3 loại tiền điện tử (Bitcoin,
Ripple và Ethereum), vì tính đến tháng 2 năm 2016 có khoảng 670 loại tiền điện tử đã
tồn tại nhưng Bitcoin, Ripple và Ethereum là 3 loại tiền điện tử có quy mô thị trường
lớn và người dùng khác nhau nhưng bài nghiên cứu sẽ đưa ra một phương pháp dự báo
đơn giản và hiệu quả nhất. Kỹ thuật được sử dụng trong bài nghiên cứu này là kỹ thuật
máy học phân loại theo xác suất - Averaged one-dependence estimators (AODE).
Những nghiên cứu trước đều đưa ra các dự báo dựa trên các đặc điểm liên quan
đến tiền điện tử như open price, close price, trading date,... nhưng thực tế tiền điện tử

16
còn bị tác động bởi cảm xúc của người dùng tiền điện tử trên các phương tiện truyền
thông xã hội, ví dụ như Twitter, các truy vấn tìm kiếm trên Web được định lượng bằng
các công cụ tìm kiếm (search engines) như Google,... Từ thực tế này, nghiên cứu sẽ mở
rộng dự báo biến động giá và số lượng giao dịch tiền điện tử bằng phương pháp phân
tích nhận xét của người dùng trên cộng đồng tiền điện tử trực tuyến. Cộng đồng trực
tuyến đóng vai trò là diễn đàn nơi mọi người chia sẻ ý kiến về các chủ đề phổ biến được
quan tâm nhiều. Tiền điện tử chủ yếu được giao dịch trực tuyến, nơi nhiều người dùng
dựa vào các thông tin trên Web để đưa ra quyết định mua hay bán chúng. Do đó các
cộng đồng như vậy cũng sẽ chứa những phản ánh của người dùng về vấn đề khai thác
tiền điện tử hằng ngày. Như vậy, trong nghiên cứu này sẽ dựa vào các chủ đề hàng
ngày/nhận xét/phản hồi có liên quan trong cộng đồng tiền điện tử và phân tích nhằm
xác định xem ý kiến của người dùng trong cộng đồng có liên quan như thế nào với các
biến động giá và số lượng giao dịch tiền điện tử hàng ngày.
Thông tin liên quan đến giá và số lượng giao dịch của Bitcoin được thu thập
thông qua Coindesk, thông tin giá của Ethereum được thu thập thông qua
CoinMarketCap và thông tin giao dịch là từ Etherscan, cuối cùng là giá của Ripple là
được thu thập thông qua Ripple Charts và không có thông tin về số lượng giao dịch. Ý
kiến của cộng đồng tiền điện tử sẽ chia làm năm tiêu chí gồm: rất tích cực, tích cực,
trung bình, tiêu cực và rất tiêu cực. Kết quả nghiên cứu chỉ ra rằng nhận xét của người
dùng có ảnh hưởng khác nhau lên các loại tiền điện tử khác nhau. Cụ thể, nhận xét tích
cực của người dùng ảnh hưởng đáng kể đến biến động về giá của Bitcoin, ngược lại thì
Ethereum và Ripple lại bị ảnh hưởng đáng kể bởi các nhận xét tiêu cực từ người dùng.
Ngoài nhận xét từ người dùng thì số lượng bài đăng về chủ đề tiền điện tử trong các
cộng đồng cũng ảnh hưởng tới sự biến động về giá. Hơn nữa, số lượng giao dịch của
tiền điện tử sẽ bị ảnh hưởng nhiều bởi phản hồi (replies) của người dùng hơn là những
nhận xét (comments) được đăng tải. Cuối cùng là sự khác biệt trong quy mô cộng đồng
tiền điện tử ảnh hưởng trực tiếp tới sự biến động giá tiền điện tử. Dự đoán giá Bitcoin
có độ chính xác cao nhất lý do là độ phong phú của dữ liệu thu được và mức độ được
bàn tán trên các cộng đồng tiền điện tử hằng ngày là cao, ngược lại Ripple có kết quả
dự đoán kém nhất do có cộng đồng nhỏ nhất (cộng đồng trực tuyến của Ripple bắt đầu
vào tháng 9 năm 2015) dẫn đến ít dữ liệu và ít hoạt động của người dùng.

17
2.1.4 Nghiên cứu dự đoán giá Bitcoin dựa trên các yếu tố về đào Bitcoin (Mining)
Nghiên cứu “A Gated Recurrent Unit Approach to Bitcoin Price Prediction” là
nghiên cứu nhằm dự đoán giá Bitcoin bằng phương pháp GRU (Dutta, Kumar and Basu,
2020). Cổng tái Unit (Gated Recurrent Unit - GRU) là một thuật ngữ thuộc nhóm Công
nghệ thông tin. Một đơn vị tái phát gated (GRU) là một phần của mô hình cụ thể của
mạng lưới thần kinh tái phát (Recurrent neural network - RNN), sử dụng các kết nối
thông qua một chuỗi các nút (nodes) để thực hiện nhiệm vụ máy học liên quan đến bộ
nhớ và clustering ("What is a Gated Recurrent Unit (GRU)? - Definition from
Techopedia", n.d.). Tác giả cho rằng trong thời đại dữ liệu lớn ngày nay, học sâu và trí
tuệ nhân tạo đã tạo thành xương sống để tối ưu hóa danh mục đầu tư tiền điện tử. Với
sự phổ biến rộng khắp thì tiền điện tử đã phải đối mặt với các đợt tăng và giảm đột ngột
về giá trong các khoảng thời gian cụ thể và do đó cộng đồng giao dịch tiền điện tử có
nhu cầu về một phương pháp tiêu chuẩn hóa nhằm dự đoán chính xác biến động trong
xu hướng giá của tiền điện tử. Tuy nhiên, các nghiên cứu trước sử dụng hầu hết các
phương pháp tiếp cận truyền thống cho phân tích và dự đoán thị trường tài chính (Ciaian
và cộng sự, 2016; Guo và Antulov-Fantulin, 2018; Gajardo và cộng sự, 2018; Gandal
và Halaburda, 2016). Chính vì vậy, thông qua nghiên cứu, các tác giả cũng nhằm khẳng
định các mô hình máy học như Recurrent Neural Network (RNN) và Long short-term
memory (LSTM) hoạt động tốt hơn các mô hình chuỗi thời gian truyền thống trong dự
đoán giá tiền điện tử.
Trong bộ dữ liệu của nghiên cứu ngoài những yếu tố đặc thù như giá Bitcoin, số
lượng giao dịch, xu hướng trên Google đối với từ khóa “Bitcoin”,... thì cũng có những
yếu tố mới so với các nghiên cứu trước như doanh thu của thợ đào, phí giao dịch, tỷ lệ
băm, kích thước khối, luật Metcalfe,... Như vậy, nghiên cứu này đã khám phá ra dự báo
giá Bitcoin dựa trên một danh sách tổng hợp và đầy đủ các yếu tố có liên kết với nhau.
Tương tự các nghiên cứu trước thì kết quả là các yếu tố đều tác động một phần lên dự
đoán xu hướng giá Bitcoin, nhưng mục đích của nghiên cứu này nhằm nhấn mạnh các
mô hình mạng nơ-ron RNN như LSTM và GRU hoạt động tốt hơn các mô hình máy
học truyền thống vì nó có thể điều chỉnh thông tin trong quá khứ để học một cách hiệu
quả hơn.
2.2 Mô hình nghiên cứu đề xuất

18
Từ cơ sở lý thuyết của những nghiên cứu trước thì nhóm sẽ thực hiện “Nghiên
cứu phát triển mô hình dự đoán giá đóng cửa (Closing price) của Bitcoin theo ngày bằng
Azure Machine Learning Studio”. Nghiên cứu sẽ được phát triển dựa trên các biến độc
lập của ba nghiên cứu chính là:
 Regression based Analysis for Bitcoin Price Prediction (Muhammad
Fahmi, Azah Samsudin, Mustapha, Razali & Kamal Ahmad Khalid, 2018): Phân tích
hồi quy để dự đoán giá Bitcoin
 A Gated Recurrent Unit Approach to Bitcoin Price Prediction (Dutta,
Kumar and Basu, 2020): Dự đoán giá Bitcoin bằng phương pháp Cổng tái Unit - GRU
 Bitcoin Spread Prediction Using Social And Web Search Media (Matta,
Lunesu & Marchesi, 2015): Dự đoán chênh lệch Bitcoin bằng phương tiện tìm kiếm
trên mạng và xã hội
Nhóm nghiên cứu đã học hỏi từ hướng nghiên cứu tương lai của bài nghiên cứu
Regression based Analysis for Bitcoin Price Prediction (Muhammad Fahmi, Azah
Samsudin, Mustapha, Razali & Kamal Ahmad Khalid, 2018) là độ khó của việc đào
Bitcoin, các truy vấn về Bitcoin hay độ nhạy cảm liên quan đến Bitcoin có tương quan
tích cực tới giá Bitcoin để mở ra hướng phát triển cho mô hình dự đoán giá đóng cửa
Bitcoin của nhóm. Trong các nghiên cứu trước về dự đoán giá Bitcoin có nghiên cứu A
Gated Recurrent Unit Approach to Bitcoin Price Prediction (Dutta, Kumar and Basu,
2020) đề cập đến các yếu tố khác về Bitcoin như độ khó đào, kích thước khối, doanh
thu đào,... và nghiên cứu Bitcoin Spread Prediction Using Social And Web Search
Media (Matta, Lunesu & Marchesi, 2015) phân tích độ nhạy và các truy vấn liên quan
đến Bitcoin trên mạng xã hội để dự đoán chính xác hơn giá Bitcoin. Kết hợp ba nghiên
cứu chính trên thì nhóm nghiên cứu đã “Phát triển mô hình dự đoán giá đóng cửa của
Bitcoin theo ngày bằng Azure Machine Learning Studio” gồm 16 yếu tố để dự đoán giá
đóng cửa. Trong 16 yếu tố sẽ được chia ra thành ba phần chính:

Tên biến Tên biến


Nhóm Cơ sở lý thuyết
(Tiếng Việt) (Tiếng Anh)

Ngày Date

19
Giá thấp nhất
Các yếu tố Low Regression based Analysis for
trong ngày
liên quan Bitcoin Price Prediction
đặc điểm số Giá mở cửa (Muhammad Fahmi, Azah
Open
của giá theo ngày Samsudin, Mustapha, Razali và
Bitcoin Kamal Ahmad Khalid, 2018)
Giá cao nhất
High
trong ngày

Số lượng giao
Daily
dịch trong
Transaction
ngày

Doanh thu của Miner


người đào Revenue

Total Hash
Tổng tỷ lệ băm
Rate

Transaction
Các yếu tố Phí giao dịch A Gated Recurrent Unit
Fees (BTC)
liên quan Approach to Bitcoin Price
đến đào Tổng cung Money Supply Prediction (Dutta, Kumar và
Bitcoin Basu, 2020)
Metcalfe's Law Metcalfe's
UTXO Law UTXO

Tổng vốn hóa Market


thị trường capitalization

Biến động giá Price


Bitcoin Volatility

Kích thước
Block size
khối

20
Khối lượng
Transaction
giao dịch trong
Volume
ngày

Sentiment
Chỉ số cảm xúc
Các yếu tố Index Cryptocurrency Price Prediction
liên quan Chỉ số quan Using Tweet Volumes and
đến cảm xúc tâm về Bitcoin Sentiment Analysis (Abraham,
con người Google Trends Higdon, Nelson và Ibarra, 2018)
trên Google
Trends

Bảng 1: Các yếu tố trong nghiên cứu giá đóng cửa của Bitcoin
2.3 Cơ sở lý thuyết
2.3.1 Cái khái niệm liên quan
a. Khái niệm về máy học (Machine learning)
Machine Learning (ML) là nghiên cứu các thuật toán máy tính, được tự động cải
thiện dựa trên kinh nghiệm. Nó được coi là một phần của trí tuệ nhân tạo. Nó cũng có
thể được mô tả như một phương pháp biến dữ liệu thành phần mềm (Diogenes, Dicola
and Trull, n.d.). Các thuật toán máy học xây dựng mô hình dựa trên dữ liệu mẫu (được
gọi là "dữ liệu đào tạo") để đưa ra dự báo các hành vi, kết quả và xu hướng trong tương
lai (What is Azure Machine Learning, 2021). Các thuật toán ML được sử dụng trong
nhiều ứng dụng, chẳng hạn như lọc email, thị giác máy tính, dự đoán thời gian giao
hàng,... Microsoft cũng có một lịch sử lâu dài trong việc ứng dụng phân tích dự đoán
và máy học trong các sản phẩm của mình để cải thiện cách thức hoạt động của doanh
nghiệp. Dưới đây là một số ví dụ ứng dụng máy học của Microsoft (Diogenes, Dicola
and Trull, n.d.):
 1999: Outlook bao gồm lọc các tệp email cho thư rác trong Microsoft
Outlook.
 2004: Bắt đầu kết hợp các khía cạnh học máy vào công nghệ công cụ tìm
kiếm của Microsoft.

21
 2005: SQL Server 2005 cho phép xử lý “khai thác dữ liệu” trên cơ sở dữ
liệu lớn.
 2008: Bing Maps hợp nhất dịch vụ dự đoán lưu lượng máy học.
 2010: Kinect Incorporated với khả năng xem và diễn giải cử chỉ của người
dùng cùng với khả năng lọc tiếng ồn xung quanh trong phòng khách trung bình.
Trong ứng dụng của nó cho các vấn đề kinh doanh, ML còn được gọi là phân
tích dự đoán. Phân tích dự đoán là công nghệ cơ bản của Azure Machine Learning và
nó có thể được định nghĩa đơn giản là một cách sử dụng dữ liệu trong quá khứ để dự
đoán tương lai nhằm đưa ra kết quả mong muốn. Máy học và phân tích dự đoán thường
được sử dụng tốt nhất trong một số trường hợp nhất định, vì chúng có thể vượt xa các
công cụ tiêu chuẩn hoặc logic lập trình được phát triển bởi những người bình thường.
Tuy nhiên, để đạt được kết quả mong muốn phù hợp và chính xác cao thì nên so sánh
các mô hình lập trình máy tính hiện đại ngày nay với nhau.
b. Blockchain
Blockchain ban đầu được mô tả vào năm 1991 bởi một nhóm nghiên cứu với
mục đích là đánh dấu thời gian (timestamps) các tài liệu kỹ thuật số để nó không thể bị
sửa chữa hay xáo trộn. Tuy nhiên Blockchain không thực sự phổ biến cho đến khi nó
được chuyển thể bởi Satoshi Nakamoto năm 2009 cho tiền điện tử Bitcoin. Cho nên
Blockchain được định nghĩa đơn giản nhất là một sổ cái phân tán, phi tập trung ghi lại
nguồn gốc của một tài sản kỹ thuật số. Blockchain, đôi khi được gọi là Distributed
Ledger Technology (DLT), làm cho lịch sử của bất kỳ tài sản kỹ thuật số nào không thể
thay đổi và minh bạch thông qua việc sử dụng phân quyền và băm mật mã ("What Is
Blockchain Technology? How Does It Work? | Built In", 2021).
Blockchain bao gồm ba khái niệm quan trọng: khối, nút và công cụ khai thác.
Mọi chuỗi đều bao gồm nhiều khối và mỗi khối có ba phần tử cơ bản:
 Dữ liệu trong khối: Một số nguyên 32 bit được gọi là số nguyên.
 Nonce: được tạo ngẫu nhiên khi một khối được tạo, sau đó tạo ra một băm
tiêu đề khối. Một nonce đề cập đến một số hoặc giá trị chỉ có thể được sử dụng một lần.
Nonce thường được sử dụng trên các giao thức xác thực và các hàm băm mật mã. Trong
bối cảnh của công nghệ blockchain, nonce đề cập đến một số giả ngẫu nhiên được sử
dụng làm bộ đếm trong quá trình khai thác ("Nonce | Binance Academy", 2021). Ví dụ:

22
những người khai thác Bitcoin cần phải thử và đoán một nonce hợp lệ khi họ thực hiện
nhiều lần thử để tính toán băm khối đáp ứng các yêu cầu nhất định (tức là bắt đầu bằng
một số số không nhất định). Khi cạnh tranh để khai thác một khối mới, người khai thác
đầu tiên tìm được lỗi dẫn đến việc băm khối hợp lệ sẽ được cấp quyền thêm khối tiếp
theo vào chuỗi khối - và được thưởng. Nói cách khác, quá trình khai thác bao gồm các
công cụ khai thác thực hiện vô số hàm băm với nhiều giá trị nonce khác nhau cho đến
khi tạo ra đầu ra hợp lệ. Nếu đầu ra không hợp lệ, người khai thác sẽ tiếp tục thử với
các giá trị nonce khác nhau. Khi một khối mới được khai thác và xác thực thành công,
quá trình sẽ bắt đầu lại.
 Hàm băm: một số 256-bit được thêm vào nonce. Nó phải bắt đầu bằng
một số lượng lớn các số 0 (tức là cực kỳ nhỏ). Hash (Hàm băm) là đầu ra của một thuật
toán băm như MD5 (Message Digest 5) hoặc SHA (Secure Hash Algorithm) ("What is
a Hash? (And How Does It Work?) - SentinelOne", 2021). Về cơ bản, các thuật toán
này nhằm mục đích tạo ra một chuỗi duy nhất, có độ dài cố định - giá trị băm hoặc
"thông báo tóm tắt" - cho bất kỳ phần dữ liệu hoặc "thông báo" nhất định nào. Vì mọi
tệp trên máy tính cuối cùng chỉ là dữ liệu có thể được biểu diễn ở dạng nhị phân nên
thuật toán băm có thể lấy dữ liệu đó và chạy một phép tính phức tạp trên đó và xuất ra
một chuỗi có độ dài cố định là kết quả của phép tính. Kết quả là giá trị băm hoặc thông
báo tóm tắt của tệp. Mã băm sẽ giúp xác định một khối và chỉ có một mã băm duy nhất
cho một block, cứ một block được tạo ra thì sẽ có một mã băm mới tương ứng. Khi có
bất kỳ sự thay đổi nào trong block sẽ là mã băm thay đổi, chính vì vậy sẽ giúp chúng ta
phát hiện ra những thay đổi trong khối.
Từ cấu trúc trên dẫn đến Blockchain có ba đặc điểm chính. Thứ nhất, phi tập
trung và phân phối trên một mạng lớn các máy tính. Phi tập trung là giá trị được theo
đuổi bởi tất cả các đồng tiền mã hóa thay vì các loại tiền tệ pháp định chung đang được
các ngân hàng trung ương định giá (Jang and Lee, 2018). Việc phi tập trung có thể được
cụ thể hóa bởi các mục tiêu sau: (i) Ai sẽ duy trì và quản lý sổ cái giao dịch? (ii) Ai sẽ
có quyền xác thực giao dịch? (iii) Ai sẽ tạo ra Bitcoin mới? Blockchain là công nghệ
hiện có duy nhất có thể đạt được đồng thời ba mục tiêu này. Mặc dù mở ra cho bất kỳ
ai sử dụng nhưng một khi dữ liệu đã được ghi lại trong một Blockchain thì rất khó để
thay đổi. Cụ thể, một block sẽ có mã băm của khối và mã băm của khối trước nó cho

23
nên khi có có sự thay đổi của một block thì dẫn đến làm thay đổi mã băm hiện tại, nhưng
mã băm này sẽ không khớp với mã băm của khối sau, dẫn đến tính không hợp lệ của
chuỗi. Tuy nhiên, với sự phát triển của công nghệ máy tính nên có thể chạy được thuật
toán băm rất nhanh. Chính vì ngăn chặn hạn chế này mà Blockchain có một cơ chế gọi
là bằng chứng công việc (Proof-of-work) giúp làm chậm lại việc tạo ra các khối mới, ví
dụ Bitcoin mất trung bình 10 phút để đáp ứng được các yêu cầu của PoW khi thêm một
khối mới vào chuỗi. Tức là, khi thay đổi một khối thì phải tính toán lại các khối tiếp
theo. Thứ ba, cơ chế đồng thuận với giao thức peer-to-peer thay vì sử dụng một đơn vị
trung tâm quản lý chuỗi nên bất cứ ai cũng có thể tham gia. Khi có người mới tham gia
mạng lưới thì họ sẽ được nhận bản sao đầy đủ của chuỗi. Khi có một ai đó thêm khối
mới thì phải sự đồng thuận của các nút (>50%) thì mới có thể thêm khối mới vào chuỗi
của từng nút, nếu có sự giả mạo thì sẽ bị các nút trong mạng lưới phát hiện và từ chối
thêm vào trong chuỗi. Tất cả lịch sử giao dịch được ghi lại trong Blockchain và được
chia sẻ trong mạng lưới, và tất cả lịch sử giao dịch trong quá khứ đều được tất cả những
người tham gia mạng xác nhận (Jang and Lee, 2018).
c. Thợ mỏ
Người khai thác tạo ra các khối mới trên chuỗi thông qua một quá trình được gọi
là khai thác. Các thợ mỏ sử dụng phần mềm đặc biệt để giải quyết vấn đề toán học vô
cùng phức tạp về việc tìm ra một nonce tạo ra một hàm băm được chấp nhận. Bởi vì
nonce chỉ là 32 bit và băm là 256, có khoảng bốn tỷ tổ hợp nonce-băm có thể phải được
khai thác trước khi tìm thấy đúng. Khi điều đó xảy ra, những người khai thác được cho
là đã tìm thấy "nonce vàng" và khối của họ được thêm vào chuỗi. Khi một khối được
khai thác thành công, sự thay đổi được tất cả các nút trên mạng chấp nhận và người khai
thác được thưởng về mặt tài chính.
d. Tiền điện tử
Tiền điện tử là một loại tiền tệ tồn tại thuần túy dưới dạng kỹ thuật số. Nó không
phải là một tài sản hữu hình như tiền mặt hoặc các hàng hóa khác như vàng hoặc dầu.
Hình thức tiền kỹ thuật số thành công và được sử dụng rộng rãi nhất là tiền điện tử
Bitcoin ("Digital Money", 2021). Không giống như tiền tệ truyền thống có thể được
chuyển sang tiền giấy từ tài khoản ngân hàng, tiền điện tử hoàn toàn là tiền kỹ thuật số
với chỉ một con số như một dấu hiệu của giá trị. Loại tiền này thường được sử dụng

24
bằng cách sử dụng ví kỹ thuật số có thể được truy cập từ các thiết bị như máy tính, điện
thoại thông minh và máy tính bảng. Trong một số trường hợp, nó có thể được chuyển
thành tiền mặt, chẳng hạn bằng cách rút tiền mặt từ máy ATM.
e. Bitcoin
Bitcoin được mô tả đơn giản là một dạng tiền tệ không được in ra, còn được gọi
là tiền tệ kỹ thuật số được lưu giữ dưới hình thức điện tử (Muhammad Fahmi, Azah
Samsudin, Mustapha, Razali và Kamal Ahmad Khalid, 2018). Loại tiền kỹ thuật số như
vậy cho phép mạng ngang hàng phi tập trung hoặc các giao dịch trực tuyến được thực
hiện bởi các ‘thợ đào’ trong một mạng lưới giao dịch. Do đó, không có cơ quan quản lý
tập trung hoặc bất kỳ tổ chức tài chính bên thứ ba nào có quyền kiểm soát mạng Bitcoin.
Tất cả các giao dịch trên mạng Bitcoin được nhúng trong các khối vào sổ cái mở, được
gọi là chuỗi khối để được xác minh bởi các thợ đào bằng cách sử dụng bằng chứng công
việc (PoW). Bitcoin hiện đang được giao dịch trên quy mô toàn cầu trên các sàn giao
dịch trực tuyến trên toàn thế giới như Binance, với hàng chục cặp tiền tệ khác nhau. Nó
được coi là một lựa chọn hấp dẫn nhưng có độ rủi ro cao đối với các nhà đầu tư vì tiềm
năng đáng kể của nó do sự biến động giá của Bitcoin về cơ bản cao hơn so với các loại
tiền tệ truyền thống.
2.3.2 Lý thuyết về các biến trong mô hình
a. Các yếu tố liên quan đặc điểm đặc trưng của Bitcoin
Trong nghiên cứu Regression based Analysis for Bitcoin Price Prediction
(Muhammad Fahmi, Azah Samsudin, Mustapha, Razali và Kamal Ahmad Khalid,
2018) đã đưa ra bốn yếu tố liên quan đến đặc điểm số về giá Bitcoin theo ngày (date) là
giá đóng cửa (close), giá mở cửa (open), giá cao nhất (high) và giá thấp nhất (low) trong
ngày. Nhóm nghiên cứu cũng sử dụng các yếu tố về giá Bitcoin như trên, nhưng để dự
đoán giá đóng cửa của Bitcoin. Các yếu tố được giải thích ngắn gọn như sau:
 Giá đóng cửa trong ngày: Giá Bitcoin đóng cửa tại thời điểm cụ thể
(Rathan, Sai and Manikanta, 2019)
 Ngày: Ngày giao dịch (Rathan, Sai and Manikanta, 2019)
 Giá thấp nhất trong ngày: Bitcoin đạt được mức giá thấp trong thời gian
cụ thể (Rathan, Sai and Manikanta, 2019)

25
 Giá mở cửa theo ngày: Giá Bitcoin mở tại thời điểm cụ thể (Rathan, Sai
and Manikanta, 2019)
 Giá cao nhất trong ngày: Bitcoin đạt được mức giá cao trong thời gian cụ
thể (Rathan, Sai and Manikanta, 2019)
b. Các yếu tố liên quan đào Bitcoin
Trong nghiên cứu của nhóm sẽ bao gồm 10 yếu tố liên quan đến hoạt động đào
Bitcoin. Cụ thể như sau:
 Số lượng giao dịch hằng ngày: là số lượng giao dịch Bitcoin hằng ngày
(Chen, Li and Sun, 2020) hay cụ thể hơn là số lượng giao dịch Bitcoin được bao gồm
trong chuỗi mỗi ngày (Dutta, Kumar and Basu, 2020). Theo Bitcoin.com thì số lượng
giao dịch hằng ngày là một trong những số liệu quan trọng và gây tranh cãi nhất đối với
mạng lưới Bitcoin. Bởi vì tất cả các giao dịch được xác nhận đều phải trả phí và mỗi
giao dịch được xác nhận thể hiện mong muốn của ai đó để gửi một giao dịch Bitcoin.
Các giao dịch Bitcoin có thể được thực hiện và tự động hóa bằng phần mềm, nhưng
điều này bị giới hạn bởi băng thông của mạng và phí giao dịch bắt buộc. Đôi khi một
số lượng lớn giao dịch sẽ được thực hiện trong một khoảng thời gian ngắn, dẫn đến thời
gian xác nhận lâu và một số giao dịch có thể không được xác nhận. Số lượng giao dịch
hàng ngày có thể bị thao túng trong ngắn hạn. Trong khi một số cho rằng khối lượng
giao dịch cao bất thường là do giao dịch "spam", những người khác cho rằng bất kỳ
giao dịch nào tuân theo các quy tắc của mạng đều hợp lệ. Thông tin về các giao dịch
như chi phí thực của mỗi giao dịch, số lượng giao dịch hằng ngày là một trong những
cách tốt nhất để lập mô hình tăng trưởng người dùng của mạng Bitcoin.
 Doanh thu của người đào: là tổng giá trị của phần thưởng khối Coinbase
và phí giao dịch trả cho thợ đào. Doanh thu = (Số Bitcoin được khai thác mỗi ngày +
Phí giao dịch) * Giá thị trường (Dutta, Kumar và Basu, 2020)
 Tổng tỷ lệ băm: là số lượng giải pháp khối được tính toán mỗi giây bởi tất
cả các thợ đào trên mạng (Dutta, Kumar và Basu, 2020)
 Phí giao dịch: là tổng số phí Bitcoin mà tất cả các thợ đào kiếm được
trong khoảng thời gian 24 giờ (Dutta, Kumar và Basu, 2020)
 Tổng cung: là tổng số lượng Bitcoin đang lưu hành trên thị trường (Dutta,
Kumar và Basu, 2020)

26
 Metcalfe's Law UTXO: là một định luật cho rằng giá trị của một mạng tỷ
lệ thuận với bình phương của số lượng người tham gia trong mạng (Dutta, Kumar và
Basu, 2020)
 Tổng vốn hóa thị trường: là vốn hóa thị trường = (Giá 1,0 Bitcoin) x (Tổng
số Bitcoin đang lưu hành) (Dutta, Kumar và Basu, 2020)
 Biến động giá Bitcoin: là sự biến động hàng ngày được quy định hàng
năm của giá Bitcoin, được tính bằng độ lệch chuẩn của lợi nhuận hàng ngày, theo căn
bậc hai của 365 để tính theo năm và được biểu thị dưới dạng số thập phân (Dutta, Kumar
và Basu, 2020)
 Kích thước khối: được lý giải là việc các thợ đào thu thập các giao dịch
Bitcoin thành các gói dữ liệu riêng biệt được gọi là khối. Mỗi khối được liên kết mật
mã với khối trước đó (mã băm), tạo thành một "chuỗi khối". Khi nhiều người sử dụng
mạng Bitcoin cho các giao dịch Bitcoin sẽ làm kích thước khối tăng lên (Dutta, Kumar
và Basu, 2020). Trong nghiên cứu này thì đơn vị của kích thước khối sẽ là Megabyte
 Khối lượng giao dịch trong ngày: là giá trị Bitcoin được giao dịch tính
bằng đồng USD (Rathan, Sai and Manikanta, 2019)
c. Các yếu tố liên quan đến cảm xúc con người
Có hai yếu tố trong mô hình liên quan đến cảm xúc con người là chỉ số cảm xúc
và chỉ số quan tâm về Bitcoin trên Google Trends. Trong đó, chỉ số cảm xúc được đo
lường thông qua mức độ các cuộc trò chuyện/thảo luận về Bitcoin xuất hiện trên phương
tiện truyền thông xã hội, tiệm cận bằng 0 là cực kỳ tiêu cực và 1 là cực kỳ tích cực
(Abraham, Higdon, Nelson và Ibarra, 2018). Còn chỉ số quan tâm về Bitcoin trên
Google Trends được thể hiện thông qua độ truy vấn cho cụm từ tìm kiếm “Bitcoin”
(Abraham, Higdon, Nelson và Ibarra, 2018).
2.4 Tóm tắt chương 2
Thông qua Chương 2, nhóm đã tổng hợp và trình bày sơ lược một số nghiên cứu
về dự đoán giá của đồng Bitcoin bằng nhiều cách thức khác nhau, từ đó nhóm thực hiện
“Nghiên cứu phát triển mô hình dự đoán giá đóng cửa (Closing price) của Bitcoin theo
ngày bằng Azure Machine Learning Studio”. Theo đó, mô hình mà nhóm phát triển sẽ
bao gồm 16 yếu tố có ảnh hưởng đến dự đoán giá đóng cửa của Bitcoin theo ngày, có
thể chia thành ba nhóm, cụ thể: nhóm yếu tố liên quan đặc điểm số của giá Bitcoin;

27
nhóm yếu tố liên quan đến đào Bitcoin; nhóm yếu tố liên quan đến cảm xúc con người.
Chương 2 đồng thời đưa ra cơ sở lý thuyết về công cụ được áp dụng để thực hiện nghiên
cứu là thuật toán máy học và giải thích các yếu tố có trong mô hình.

28
CHƯƠNG 3: PHƯƠNG PHÁP NGHIÊN CỨU
Tại chương 3, nhóm trình bày phương pháp thu thập dữ liệu, đề xuất mô hình và
cách thức xử lý lịch sử dữ liệu của Bitcoin. Sau đó, nhóm thực hiện các thuật toán hồi
quy bằng công cụ Azure Machine Learning được cung cấp bởi Microsoft và thực hiện
dự đoán giá đóng cửa theo ngày hôm đó của đồng Bitcoin (theo múi giờ UTC) dựa trên
các yếu tố tác động đã đề cập ở chương 2. Cuối cùng là việc thực hiện so sánh giữa các
thuật toán hồi quy khác nhau để đưa ra mô hình dự đoán với độ chính xác cao nhất cho
bài nghiên cứu.
3.1 Phương pháp thu thập dữ liệu và chọn mẫu
Bộ dữ liệu về Bitcoin từ năm 2015 đến tháng 2/2021 được lấy từ
Coinmarketcap.com, Kaggle.com, Charts.bitcoin.com, Google Trend và Bitcoin là
đồng tiền điện tử phổ biến nhất nên dữ liệu có thể tìm được ở nhiều nơi trên Internet.
Việc lựa chọn dữ liệu từ năm 2015 đến nay vì nó bao quát được quá trình phát triển của
Bitcoin thông qua các đợt xu hướng tăng (2015-2017 và 2020-2021), xu hướng giảm
(2017-2018), biến động (2018-2020), cũng như yêu cầu các bộ dữ liệu khi tham gia vào
quá trình máy học phải đủ lớn để máy có thể rút trích ra được những đặc điểm quan
trọng và cho ra kết quả với độ chính xác cao.
Cụ thể, Coinmarketcap.com là một trong những trang mạng thống kê lịch sử dữ
liệu của các đồng tiền điện tử lớn nhất hiện nay, cung cấp dữ liệu chính xác, tức thời và
đối với yêu cầu của bài nghiên cứu thì tại đây nhóm có thể trích xuất được các dữ liệu
liên quan đến giá Bitcoin trong 24 giờ qua bao gồm: Ngày, Giá thấp nhất trong ngày,
Khối lượng giao dịch trong ngày, Giá mở cửa theo ngày, Giá cao nhất trong ngày và
Giá đóng cửa theo ngày. Máy học Azure ML là học có giám sát nên biến giá đóng cửa
theo ngày đóng vai trò rất quan trọng vì nó là dữ liệu đầu ra của máy học trong quá trình
Training và Testing.
Dựa vào các yếu tố được đề cập ở Chương 2 để bài nghiên cứu đưa ra được mô
hình tác động giữa các yếu tố đến Bitcoin chính xác hơn thì chúng ta còn có các yếu tố
về thợ đào bao gồm: Số lượng giao dịch trong ngày, Doanh thu của người đào, Tổng tỷ
lệ băm, Phí giao dịch, Tổng cung, Metcalfe's Law UTXO, Tổng vốn hóa thị trường,
Kích thước khối, Biến động giá, Khối lượng giao dịch trong ngày. Và cuối cùng là các
yếu tố về cảm xúc của người mua, người bán trên thị trường bao gồm: chỉ số cảm xúc,

29
chỉ số quan tâm Google Trends. Bộ dữ liệu về các yếu tố trên được trích xuất từ
Kaggle.com của tác giả Joseph Fernando Lim, SV_ và Trends.google.com và nhóm
nghiên cứu tự trích xuất từ Charts.Bitcoin.com.

Hình 5: Bộ dữ liệu
3.2 Phương pháp xử lý thông tin, dữ liệu
Với sự phát triển của công nghệ hiện nay thì có rất nhiều nền tảng cung cấp các
công cụ, chương trình giúp xử lý và áp dụng các mô hình máy học như Google Colab,
Python, Scikit-Learn, TensorFlow,… Nhưng các công cụ trên đều mang tính đặc thù,
dành cho các chuyên gia trong ngành và yêu cầu phải hiểu rõ về ngôn ngữ lập trình.
Nhóm nghiên cứu là sinh viên ngành Kinh tế nên việc xử lý và thực hiện các mô hình
máy học bằng các công cụ trên còn hạn chế nên nhóm lựa chọn sử dụng Azure Machine
Learning được cung cấp bởi Microsoft, với đặc điểm dễ sử dụng cũng như sử dụng công
nghệ điện toán đám mây giúp việc thực hiện huấn luyện máy học nhanh chóng và không
yêu cầu cao về ngôn ngữ lập trình, hỗ trợ nhiều thuật toán và công cụ xử lý dữ liệu đa
dạng.
3.3 Tổng thể và quy trình nghiên cứu

30
Hình 6: Tổng thể sơ đồ quy trình nghiên cứu
3.3.1 Giai đoạn 1: Xử lý dữ liệu và kiểm tra độ tương quan giữa các biến
Đầu tiên, do bộ dữ liệu chưa được hoàn hảo, dữ liệu ở cột Sentiment Index có
chứa nhiều Missing Values nên chúng ta cần xử lý chính xác để máy có thể hiểu và cho
ra đầu ra chính xác nhất:
 Edit Metadata: Để máy có thể hiểu chính xác, ta cần định dạng lại biến
Sentiment Index vì biến này đặc biệt nhất trong tất cả các biến độc lập khác. Dữ liệu ở
cột Sentiment Index nằm trong khoảng [0,1] nên chúng ta cần đổi định dạng của nó lại
thành Floating Point (số thực) và Make non-categorical vì trong khoảng [0,1] có vô số
giá trị nên không thể xác định nó là biến phân loại. Về cơ bản, chúng ta có thể bỏ qua
bước này nếu bộ dữ liệu đầy đủ nhưng do việc sử dụng kết hợp với công cụ Clean
Missing Data nên chúng ta cần làm rõ để quá trình máy học chuẩn xác nhất.
 Clean Missing Data: Sau khi thực hiện việc thu thập dữ liệu, do yếu tố
về công nghệ cũng như các thuật toán đo lường ra đời không đồng bộ nên dẫn đến một

31
số kỹ thuật đo lường các yếu tố đề cập ở Chương 2 không đủ nên việc xử lý dữ liệu và
hoàn toàn cần thiết. Sử dụng công cụ Clean Missing Data trên Azure Machine Learning
để bộ dữ liệu đồng bộ và cho ra kết quả chính xác nhất. Đối với dữ liệu có nhiều hàng
bị mất, nhóm nghiên cứu đề xuất sử dụng chế độ xử lý dữ liệu bằng phương pháp
Multiple Imputation by Chained Equations vì nó sẽ mang lại độ chính xác cao nhất đối
với việc xử lý các Missing Values. Phương pháp này được miêu tả ngắn gọn nhất chính
là Azure Machine Learning sẽ thực hiện nhiều phép tính hồi quy dựa trên những dữ liệu
có sẵn và cho ra dữ liệu thay thế trung bình chính xác nhất đối với các hàng có chứa
Missing Values, thuật toán MICE được cho rằng mang lại kết quả chính xác cao hơn so
với các phương pháp như Probabilistic PCA, và Microsoft chỉ khuyến khích sử dụng
PCA khi dữ liệu bị thiếu ở nhiều cột. Do tính chất dữ liệu là Bitcoin và có những đợt
Uptrend, Downtrend, Sideway nên việc cắt khúc hoặc bỏ dữ liệu sẽ khiến việc máy học
không hiệu quả vì thiếu quan sát. Vì vậy, phương pháp MICE là thích hợp nhất để giải
quyết các dữ liệu bị thiếu trong bộ dữ liệu của nhóm nghiên cứu.
 Normalize Data: Sau khi xử lý dữ liệu và các hàng bị thiếu ở cột
Sentiment Index, máy học đã tự động đưa các giá trị dự đoán mới vào cột nhưng chúng
ta chưa chuyển đổi chúng lại nằm trong khoảng giá trị [0,1] nên chúng ta cần sử dụng
chế độ MinMax trong Normalize Data để chuyển vùng giá trị thành [0,1] theo công thức
sau:

Hình 7: Công thức chế độ MinMax trong Normalize Data


 Filter Based Feature Selection: Bước cuối cùng, chúng ta cần kiểm tra
độ tương quan giữa các biến để chỉ ra được các yếu tố tác động mạnh nhất đến giá đóng
cửa theo ngày của đồng Bitcoin cũng như đưa ra được các yếu tố ít tác động nhất để
thực hiện việc loại bỏ giúp quá trình dự đoán nhanh hơn, và đôi khi giúp chính xác hơn.
Quá trình này được thực hiện bằng công cụ Filter Based Feature Selection trên Azure
Machine Learning, nó giúp chúng ta có cái nhìn chính xác hơn về tác động giữa các
biến với Giá đóng cửa theo ngày của Bitcoin.
3.3.2 Giai đoạn 2: Tách dữ liệu và hồi quy

32
Trong máy học, từ bộ dữ liệu chính chúng ta cần tách ra thành các tập dữ liệu
nhỏ hơn bao gồm Training set với mục đích giúp máy học trong quá trình huấn luyện
để trích xuất ra các đặc điểm quan trọng từ các dữ liệu đầu vào và đầu ra tương ứng.
Còn lại chính là tập dữ liệu Testing set dùng để kiểm tra sau khi quá trình huấn luyện
máy học kết thúc và đưa ra được kết quả tổng quan về độ chính xác của những mô hình
máy học sau khi trải qua quá trình huấn luyện. Công cụ Split Data và Train Model,
Score Model trên chương trình Azure Machine Learning giúp chúng ta thực hiện quá
trình trên một cách tự động và người dùng chỉ cần lựa chọn tỉ lệ giữa Training set và
Testing set và cụ thể bài nghiên cứu sẽ dùng tỉ lệ 7:3 cho Training set và Testing set
(Muhammad Fahmi, Azah Samsudin, Mustapha, Razali và Kamal Ahmad Khalid,
2018).
Về phần hồi quy, tương tự các công cụ khác, Azure Machine Learning cung cấp
rất nhiều các thuật toán hồi quy giúp người dùng thực hiện quá trình nghiên cứu cũng
như chỉ ra được sự khác biệt giữa chúng để chọn được thuật toán phù hợp nhất. Đối với
việc dự đoán giá đóng cửa theo của Bitcoin thì Azure Machine Learning cung cấp tám
thuật toán hồi quy bao gồm:
 Bayesian Linear Regression
 Boosted Decision Tree Regression
 Decision Forest Regression
 Fast Forest Quantile Regression
 Linear Regression
 Neural Network Regression
 Ordinal Regression
 Poisson Regression
Đối với việc dự đoán giá đồng Bitcoin thì hiện nay có rất nhiều thuật toán hồi
quy có thể áp dụng để dự đoán như LSTM Model (dạng đặc biệt của RNN), thường
được áp dụng trong Deep-learning. Hoặc các mô hình trung bình trượt và tự hồi quy
ARIMA theo kiểu cũ. Mỗi thuật toán đều có những ưu và nhược điểm riêng. Đối với
các phương pháp cũ, nhóm nghiên cứu sẽ thực hiện mô hình ARIMA bằng công cụ
NumXL 1.63 để so sánh với các mô hình hồi quy Machine learning hiện đại để so sánh
độ chính xác.

33
Cụ thể, trong bài nghiên cứu, nhóm nghiên cứu sẽ thực hiện bảy mô hình hồi quy
trừ Ordinal Regression vì Ordinal Regression thường được sử dụng trong các bài toán
dự đoán xếp hạng hoặc mức độ và nó không phù hợp trong trường hợp dự đoán giá trị
tiền điện tử trong một thời điểm. Còn lại, bảy thuật toán được cung cấp bởi Azure
Machine Learning đã được xác nhận là phù hợp với việc dự đoán các giá trị số và thông
tin chi tiết về các tham số, công thức thuật toán nằm tại địa chỉ Docs.microsoft.com/en-
us/azure/machine-learning/.
3.3.3 Giai đoạn 3: Kiểm tra độ chính xác và so sánh kết quả
Mỗi thuật toán đều có đặc điểm khác nhau và cho ra độ chính xác khác nhau tùy
vào đặc điểm của mỗi mô hình mà người nghiên cứu thực hiện. Với công cụ Evaluate
Model, chúng ta có thể kiểm tra độ chính xác giữa các thuật toán áp dụng vào mô hình
nghiên cứu. Từ đó, nhóm sẽ đề xuất ra mô hình phù hợp nhất với độ chính xác cao nhất.
3.4 Thực hiện nghiên cứu
Sau khi thu thập và xử lý ra bộ dữ liệu hoàn chỉnh cũng như nêu lên các ý tưởng
thì bước cuối cùng là việc thực hiện nghiên cứu trên chương trình Azure Machine
Learning thông qua các bước sau:
 Tải bộ dữ liệu lên Azure Studio
 Xây dựng mô hình thí nghiệm theo từng giai đoạn trên
 Lựa chọn, thay đổi các chỉ số, các chế độ của các công cụ
 Lựa chọn, thay đổi các thuật toán hồi quy
 Lập bảng so sánh và đề xuất
 Thực hiện khởi chạy Web-service và dự đoán

34
Hình 8: Sơ đồ quy trình nghiên cứu trên Azure Machine Learning
 Ngoài ra, nhóm cũng sẽ thực hiện kiểm tra độ chính xác của mô hình
ARIMA bằng công cụ NumXL Pro 1.63 để chạy mô hình dự đoán Time series bằng hai
cột dữ liệu là ngày và giá đóng cửa theo ngày dựa trên sự vận động của con số để dự
đoán theo thuật toán tự hồi quy và trung bình trượt theo thời gian.

35
Hình 9: Mô hình dự đoán Time series bằng công cụ NumXL Pro 1.63
3.5 Kết luận chương 3
Ở chương 3, nhóm đã trình bày cụ thể trình tự các bước để thực hiện nghiên cứu,
các bước xử lý thông tin dữ liệu và cách chọn mẫu của đồng Bitcoin từ các trang mạng
thống kê uy tín. Khác biệt với các bài nghiên cứu thông thường, bài nghiên cứu áp dụng
các kỹ thuật Machine Learning để xử lý dữ liệu và đưa ra được Web-service nhằm dự
đoán giá trực tiếp thông qua Azure Machine Learning được cung cấp bởi Microsoft.
Kết quả nghiên cứu và so sánh độ chính xác giữa các mô hình sẽ được thực hiện ở
chương tiếp theo.

36
CHƯƠNG 4: KẾT QUẢ NGHIÊN CỨU
4.1 Kiểm tra độ tương quan
Bằng công cụ Filter Based Feature Selection của Azure Machine Learning, kết
quả độ tương quan được thể hiện ở bảng sau:

Hình 10: Kết quả tương quan bằng công cụ Filter Based Feature Selection
Dựa vào kết quả phân tích mức độ tương quan giữa các biến độc lập tới biến phụ
thuộc theo Pearson thì lần lượt biến về con số là Giá cao nhất trong ngày và Tổng vốn
hóa trong ngày mang lại ảnh hưởng cao nhất và thấp nhất là chỉ số quan tâm Google
Trends là 0.002749. Lý giải cho việc này chính là hiện nay Google Trends chỉ cung cấp
mức độ quan tâm của các nhà đầu tư dưới dạng mức độ theo thang điểm là 0 đến 100
và không có phân ra thành mức độ tích cực hoặc tiêu cực nên đôi khi giá biến động của
Bitcoin sẽ khó có thể bị tác động bởi con số chung như vậy. Đối với tương lai xa, việc
phát triển thêm các Scripts hoặc Tools để phân tích các Trending trên các nền tảng mạng
xã hội, công cụ tìm kiếm,… và có thể xác định được các thang điểm tích cực, tiêu cực
thì chỉ số này có thể sẽ chính xác hơn so với hiện tại.
Bitcoin là đồng tiền điện tử lớn nhất hiện nay, trong một ngày nếu không có sự
tác động của các tác nhân bên ngoài khiến cho thang đo về số lượng bán-mua thay đổi
lớn thì việc biến động mức giá là thấp. Do vậy, mặc dù các yếu tố về cảm xúc, xu hướng
(Sentiment, Google Trends) trên các mạng xã hội như Reddit, Twitter được giới chuyên
gia tin rằng là ảnh hưởng lớn nhất nhưng giá Bitcoin vẫn sẽ phụ thuộc rất cao vào các
con số trong ngày (Matta, Martina và Lunesu, Maria Ilaria và Marchesi, Michele, 2015).
Theo ghi nhận, giá của Bitcoin biến động trong thang đo 30 ngày từ năm 2015 đến nay
cao nhất là vào 23/3/2020 là 10.58% và biến động trung bình từ năm 2015 đến nay chỉ
là 4.99% . Do vậy, mặc dù độ nhạy cảm về giá của Bitcoin là do các yếu tố về cảm xúc,
xu hướng quyết định nhưng mức giá vẫn sẽ tuân thủ theo các quy luật cung cầu và ít có
hiện tượng bán tháo hoặc mua rất mạnh trong khoảng thời gian ngắn. Do vậy, các con

37
số về giá theo ngày, tổng vốn hóa nắm giữ vai trò quan trọng và tương quan nhất đối
với giá đóng cửa theo ngày của Bitcoin theo bài nghiên cứu.

Hình 11: Bitcoin Volatility Time Series Charts


4.2 Độ chính xác của các mô hình hồi quy
Sau khi làm theo trình tự các bước để đưa dữ liệu và nhập thông tin vào các chức
năng tương ứng theo các Giai đoạn 1, 2 và 3 trên công cụ Azure Machine Learning. Ta
sẽ có tổng quan về mô hình tổng như hình sau:

Hình 12: Tổng quan mô hình trên Azure Machine Learning


Sau khi hoàn thành việc huấn luyện máy học, ta sẽ sử dụng công cụ Evaluate
Model để kiểm tra độ chính xác của từng mô hình, kết quả nằm ở bảng sau:

38
Average
Mô hình Coefficiency MAE RMSE RAE Quantile
Loss

Bayesian
Linear 0.999945 35.093133 48.745214 0.007616 -
Regression

Boosted
Decision
Tree 0.99876 98.837208 231.912771 0.02145 -
Regression

Decision
Forest
0.997886 106.62138 302.775764 0.023139 -
Regression

Fast Forest
Quantile
- - - - 96.504404
Regression

Linear
Regression 0.999944 35.071492 48.782355 0.007611 -

Neural
Network
-0.003666 4584.791122 6597.733744 0.994991 -
Regression

39
Poisson
Regression 0.925911 1250.081255 1792.571983 0.271293 -

Arima in
0.76 - - - -
NumXL

Bảng 2: Độ chính xác của các mô hình hồi quy


Bảng kết quả bao gồm các chỉ số sau:
 MAE (Mean Absolute Error): Chỉ số trung bình của sai số dự đoán và kết
quả thực
 RMSE (Root Mean Square Error): Bình phương của sai số trung bình
 RAE: Tỷ số trung bình tuyệt đối giữa hiệu số giá trị dự đoán và kết quả
thực
 Coefficiency: Độ chính xác của mô hình
Dựa vào kết quả trên, ta có thể thấy mức độ chính xác của các mô hình tương
đối cao khoảng từ 92.37% đến 99%, đặc biệt, nhóm đã sử dụng kỹ thuật cũ Time Series
dự đoán bằng các chỉ số trung bình trượt và tự động hồi quy Arima Model trên phần
mềm NumXL của Microsoft để so sánh kết quả với các phương pháp hiện đại Machine
Learning để có thể thấy rõ sự khác biệt và độ chính xác ở mức tương đối là 76%. Mô
hình Neural Network Regression hoàn toàn không phù hợp với bộ dữ liệu do tính chất
mô hình thường được sử dụng vào các mục đích nhận diện hình ảnh, nhận diện sự vật,…
Còn lại các mô hình hồi quy khác đều phù hợp với bản chất giá đóng cửa Bitcoin là sự
vận động, tác động của các con số với nhau. Và độ chính xác cao nhất là Linear
Regression và Bayesian Linear Regression, hai mô hình này được xem là mô hình cơ
bản nhất của thuật toán hồi quy, đo lường mức độ tác động của các biến độc lập lên các
biến phụ thuộc theo phương trình:
Y = Β0 + Β1*X1 + B2*X2 + … Bn*Xn
Y = Biến phụ thuộc
X = Biến độc lập
Β0 = Hằng số

40
Β1,B2,… = Hệ số mối quan hệ giữa X1,X2,… và Y
Tuy nhiên, thuật toán Bayesian Linear Regression tiếp cận dữ liệu với một hệ số
xác suất được định trước theo Thomas Bayes để có độ chính xác cao hơn. Trên thực tế,
Linear Regression và Bayesian Linear Regression bản chất đều giống nhau là dựa vào
phương trình Y = Β0 + Β1*X1 + B2*X2 + … Bn*Xn và Bayesian Linear Regression
thường thể hiện độ chính xác cao hơn Linear Regression do tính chủ động với các hệ số
trong phương trình. Với độ chính xác cao, MAE (Mean Absolute Error) và RMSE (Root
Mean Square Error) thấp tức độ sai số trung bình thấp. Nhóm nghiên cứu đề xuất sử
dụng mô hình Bayesian Linear Regression làm mô hình dự đoán cuối cùng của đề tài
dự đoán giá đóng cửa theo ngày của đồng tiền điện tử Bitcoin.
4.3 Chạy thử mô hình
Sau khi thực hiện Deploy Web Service, Azure Machine Learning sẽ cung cấp trang
mạng giúp chúng ta nhập Input và đưa ra các kết quả Output tương đương. Input sẽ bao
gồm tổng cộng 16 biến độc lập để dự đoán kết quả giá đóng cửa của Bitcoin vào ngày
tương ứng.

41
Hình 13: Dự đoán sử dụng Web service
Ngoài ra, để việc dự đoán thuận lợi thì Azure Machine Learning còn cung cấp
thêm Add-ins trong công cụ Microsoft Excel để chúng ta có thể dự đoán với quãng thời
gian dài hơn và dễ sử dụng hơn cho người dùng.

42
Hình 14: Dự đoán sử dụng Add-ins Excel
4.4 Kết luận chương 4
Tại chương 4, nhóm nghiên cứu thực hiện chạy các mô hình và đưa ra các kết
quả về độ chính xác để đề xuất ra mô hình dự đoán tối ưu nhất. Bayesian Linear
Regression có độ chính xác cao nhất và được nhóm lựa chọn để làm mô hình dự báo
cuối cùng của đề tài. Công cụ được sử dụng chủ yếu bằng Azure Machine Learning,
một công cụ dễ sử dụng không yêu cầu cao về ngôn ngữ lập trình cũng như Microsoft
cung cấp rất đầy đủ các dịch vụ để phục vụ cho việc nghiên cứu. Hạn chế của nhóm
nghiên cứu chính là không thể sử dụng các công cụ khác để so sánh độ chính xác về các
thuật toán, tuy nhiên bài nghiên cứu cũng đã đưa ra kết quả tổng quan về mô hình dự
báo giá đóng cửa Bitcoin dựa trên các biến độc lập đã trình bày.

43
CHƯƠNG 5: KẾT LUẬN VÀ KIẾN NGHỊ
5.1 Kết luận
5.1.1 Kết luận chung
a. So sánh độ chính xác của kết quả mô hình bằng biểu đồ miền
Sau khi thực hiện nghiên cứu bằng công cụ Azure Machine Learning theo các
mô hình được đề xuất, nhóm nghiên cứu nhận định rằng mô hình Bayesian Linear
Regression là một trong bốn mô hình dự đoán mang tính chính xác cao nhất với chỉ số
99.945%. Sau đây là biểu đồ miền thể hiện kết quả so sánh độ chính xác giữa các mô
hình:

Hình 15: So sánh kết quả dự đoán với thực tế của mô hình Boosted Decision Tree
Regression

44
Hình 16: So sánh kết quả dự đoán với thực tế của mô hình Bayesian Linear
Regression

Hình 17: So sánh kết quả dự đoán với thực tế của mô hình Linear Regression
b. So sánh kết quả với các bài nghiên cứu trước
 So sánh với kết quả nghiên cứu của bài Regression based Analysis for
Bitcoin Price Prediction (Muhammad Fahmi, Azah Samsudin, Mustapha, Razali
và Kamal Ahmad Khalid, 2018)
Trong nghiên cứu gốc “Phân tích hồi quy để dự đoán giá Bitcoin” (Muhammad
Fahmi, Azah Samsudin, Mustapha, Razali và Kamal Ahmad Khalid, 2018) dự đoán giá
đóng cửa Bitcoin theo đồng USD đã sử dụng bốn thuật toán hồi quy gồm Linear

45
Regression (LR), Neural Network Regression (NNR), Bayesian Linear Regression
(BLR) và Boosted Decision Tree Regression (BDTR) để dự đoán giá Bitcoin theo đồng
USD. Nghiên cứu đã chỉ ra các thuật toán phân tích dựa trên hồi quy mang lại nhiều kết
quả khả dụng cho dự đoán giá Bitcoin. Trong đó, thuật toán hồi quy Bayesian Linear
Regression (BLR) có kết quả dự đoán chính xác nhất với hệ số xác định (Coefficient of
Determination) là 99.7629%; các kết quả còn lại lần lượt là Linear Regression (LR)
99.7627%, Boosted Decision Tree Regression (BDTR) 99.5945%, Neural Network
Regression (NNR) 99.1694%. Sau khi nhóm nghiên cứu thực hiện chạy thuật toán hồi
quy bằng Azure Machine Learning thì kết quả cho thấy thuật toán Bayesian Linear
Regression (BLR) đạt độ chính xác cao nhất với hệ số xác định (Coefficient of
Determination) là 99.9945% ((LR) 99.9944%, (BDTR) 99.876%, (NNR) -0.003666)
đúng với nghiên cứu gốc.
 So sánh với kết quả nghiên cứu của bài A Gated Recurrent Unit
Approach to Bitcoin Price Prediction (Dutta, Kumar and Basu, 2020)
Nghiên cứu “A Gated Recurrent Unit Approach to Bitcoin Price Prediction” là
nghiên cứu nhằm dự đoán giá Bitcoin bằng phương pháp GRU - Gated Recurrent Unit
(Dutta, Kumar and Basu, 2020). Phương pháp tiếp cận này dùng để dự đoán tương đối
mô hình Deep-learning so với các mô hình truyền thống. Trong đó, các biến thể khác
nhau của các nơ-ron RNN là Gated Recurrent Unit (GRU) và Long short-term memory
(LSTM) được đào tạo và thực hiện. Theo nghiên cứu, dự báo đã chỉ ra rằng các mô hình
mạng nơ-ron như LSTM và GRU hoạt động tốt hơn các mô hình máy học truyền thống.
Với dữ liệu hạn chế, các mạng nơ-ron như LSTM và GRU có thể điều chỉnh thông tin
trong quá khứ để học hiệu quả từ các mẫu phi tuyến tính. Tuy nhiên, theo kết quả nghiên
cứu trước cho thấy GRU hoạt động tốt hơn so với mô hình LSTM. Với sự đơn giản của
mô hình GRU, việc quên và cập nhật diễn ra đồng thời được phát hiện là hoạt động tốt
trong dự đoán giá Bitcoin. Cũng theo nghiên cứu trước, Root Mean Square Error
(RMSE) - bình phương của sai số trung bình được ưu tiên hơn là Mean Absolute Error
(MAE) - Chỉ số trung bình của sai số dự đoán và kết quả thực để đánh giá lỗi mô hình
vì RMSE cho trọng số tương đối cao đối với các lỗi lớn. Sau khi thực hiện nghiên cứu,
nhóm thấy rằng thuật toán hồi quy Bayesian Linear Regression (BLR) có trọng số
RMSE là 48.75 thấp nhất trong ba mô hình còn lại, trọng số cao nhất là mô hình Neural

46
Network lên đến 6597.73 nên nhóm nghiên cứu đưa ra nhận định Neural Network được
xem là mô hình có lỗi nhiều nhất.

Hình 18: MAE và RMSE của các mô hình hồi quy


 So sánh với kết quả nghiên cứu của bài Cryptocurrency Price
Prediction Using Tweet Volumes and Sentiment Analysis (Abraham, Higdon,
Nelson và Ibarra, 2018)
Nghiên cứu "Bitcoin Spread Prediction Using Social And Web Search Media”
(Matta, Lunesu & Marchesi, 2015) khẳng định có mối tương quan nổi bật giữa chênh
lệch giá của Bitcoin và những thay đổi trong các cụm từ truy vấn cho cụm từ tìm kiếm
“Bitcoin”. Cụ thể, các tweet tích cực có thể góp phần dự đoán chuyển động của giá
Bitcoin trong một vài ngày tới. Google Trends có thể được coi là một loại công cụ dự
đoán. Sau khi thực hiện nghiên cứu bằng công cụ Filter Based Feature Selection của
Azure Machine Learning, nhóm nghiên cứu nhận thấy rằng chỉ số tương quan
của Google Trends so với giá đóng cửa (Closing price) mà nhóm nghiên cứu đang dự
đoán có mối tương quan khá thấp với chỉ số quan tâm Google Trends là 0.002749. Mặc
dù độ nhạy cảm về giá của Bitcoin theo như nghiên cứu trước sẽ phụ thuộc vào các yếu
tố về cảm xúc, xu hướng nhưng mức giá vẫn sẽ hoạt động theo quy luật cung cầu của
thị trường. Tóm lại, các con số về Giá cao nhất trong ngày và Tổng vốn hóa trong ngày

47
có mức độ tương quan lớn nhất đối với giá đóng cửa theo ngày của Bitcoin đối với
nhóm nghiên cứu.
5.1.2 Trả lời câu hỏi nghiên cứu
Dự đoán giá đóng cửa của Bitcoin theo ngày. Dựa vào kết quả nghiên cứu, nhóm
đã hoàn thành công cụ dự đoán giá Bitcoin thông qua Web-service của Azure Machine
Learning và nó hoàn toàn hoạt động được nếu người dùng có đầy đủ dữ liệu đầu vào
cần thiết như thông tin đặc trưng về giá Bitcoin, thông tin về thợ đào và cuối cùng là
các chỉ số cảm xúc của người tham gia thị trường tiền điện tử Bitcoin. Với các thông
tin đầu vào trên, người dùng hoàn toàn có thể dự đoán giá đóng cửa của Bitcoin theo
ngày với độ chính xác cao nếu dữ liệu đầu vào chính xác và không có độ trễ nhiều so
với thực tế.
Mô hình hồi quy nào dùng để dự đoán đạt độ chính xác cao nhất? Ở chương 4,
nhóm nghiên cứu đã lần lượt thực hiện quá trình huấn luyện máy học thông qua bảy
thuật toán có sẵn của công cụ Azure Machine Learning và kết quả chính xác cao nhất
là 99.9945% của thuật toán Bayesian Linear Regression. Đây là kết quả giữa các thuật
toán hồi quy nói riêng, ngoài ra, đối với máy học thì chúng ta còn rất nhiều thuật toán
mới trên nền tảng máy học có thể được áp dụng để dự đoán giá đóng cửa Bitcoin như
LSTM Model (Sepp Hochreiter and Jürgen Schmidhuber 1995-1997),...
Những yếu tố nào ảnh hưởng đến giá đóng cửa của Bitcoin? Trong quá trình
nghiên cứu, nhóm đã thực hiện phân tích độ tương quan giữa các biến trong dữ liệu và
nó chỉ ra rằng Giá cao nhất trong ngày có mức độ tương quan cao nhất 0.99933 đối với
giá đóng cửa theo ngày của Bitcoin và Chỉ số quan tâm Google Trends thấp nhất
0.002749. Đồng thời với kết quả độ tương quan thì chúng ta có thể thấy tất cả các biến
được đề xuất trong bài nghiên cứu đều có ảnh hưởng đến giá đóng cửa của Bitcoin. Với
kết quả trên, người tham gia thị trường có thể thấy được tổng quan về các yếu tố ảnh
hưởng và có kế hoạch chuẩn bị thông tin dữ liệu ưu tiên khác nhau giữa các biến để có
thể có kết quả dự đoán chính xác nhất, tránh tình trạng quá tập trung vào các dữ liệu có
mức độ tương quan thấp mà đưa ra các đánh giá sai khiến mức độ chính xác thấp khi
thực hiện dự đoán.
5.2 Kiến nghị

48
5.2.1 Nên dựa vào cả yếu tố con số kỹ thuật và chỉ số cảm xúc khi dự đoán giá
Bitcoin
Qua các nghiên cứu trước và mô hình đề xuất của nhóm nghiên cứu, giá đóng
cửa của đồng Bitcoin nên được dự đoán dựa vào các yếu tố con số kỹ thuật và cả yếu
tố về cảm xúc. Theo nghiên cứu “Regression based Analysis for Bitcoin Price
Prediction”, các truy vấn về đồng Bitcoin trên Wikipedia hay độ nhạy cảm liên quan
đến Bitcoin trên Twitter có tương quan tích cực tới giá Bitcoin, đồng thời nhận xét tích
cực của người dùng cũng có ảnh hưởng đáng kể đến biến động về giá của đồng Bitcoin
(Kim et al., 2016). Tuy nhiên, một kết quả khác từ nghiên cứu "Cryptocurrency Price
Prediction Using Tweet Volumes and Sentiment Analysis" (Abraham, Higdon, Nelson
và Ibarra, 2018) cho thấy rằng phân tích tâm lý ít gây ra sự thay đổi giá đồng tiền điện
tử khi giá của nó đang có xu hướng giảm, do các tweet về đồng tiền điện tử có xu hướng
khách quan (không có cảm xúc rõ ràng) hoặc tích cực bất kể giá thay đổi. Do đó, để kết
quả có độ chính xác cao, việc dự đoán giá đóng cửa đồng Bitcoin còn cần phải dựa vào
quy luật cung cầu, các yếu tố con số kỹ thuật liên quan về đặc trưng của Bitcoin và các
chỉ số về đào Bitcoin.
5.2.2 Chỉ dùng để dự đoán trong ngắn hạn
Đối với bài nghiên cứu, chúng ta chỉ nên sử dụng các công cụ dự đoán để dự
đoán trong ngắn hạn vì bản chất các biến tác động đến giá đóng cửa của Bitcoin tác
động đến nó trong thời gian rất ngắn vì thị trường luôn thay đổi và thậm chí có những
nhà đầu tư chỉ cần một ít thông tin là có thể thực hiện việc giao dịch để kiếm lời rất lớn
thông qua các hợp đồng tương lai, ký quỹ margin,... Do đó, việc dự đoán giá đóng cửa
giúp các nhà đầu tư xem được các biến động ngắn hạn và đầu tư ngắn hạn. Đối với việc
đầu tư dài hạn cho Bitcoin nói riêng và tất cả các loại tiền điện tử nói chung thì chúng
ta cần xem xét đến các yếu tố như nền tảng công nghệ, Roadmap, thời gian ICO, cộng
đồng người tham gia,...
5.2.3 Lựa chọn sàn giao dịch uy tín
Mặc dù có rất nhiều sàn giao dịch cho phép bạn mua, bán và giao dịch Bitcoin
bằng tiền Việt, bạn hãy tham khảo các nền tảng mua bán và trao đổi Bitcoin khác nhau
trên thị trường. Bởi vì mỗi một nền tảng giao dịch, mua bán Bitcoin đều sẽ có những
tính năng phù hợp với từng nhu cầu và cách đầu tư Bitcoin của mỗi người, nên nhóm

49
nghiên cứu không thể khuyên người dùng nên sử dụng một nền tảng cụ thể nào cả. Thay
vào đó, hãy tự đánh giá xem đâu là nền tảng phù hợp với bản thân nhất qua các tiêu chí
sau:
Sự uy tín: Để đánh giá sự uy tín của 1 sàn giao dịch, chúng ta cần tìm hiểu về
cộng đồng người tham gia sàn, giá của sàn có dấu hiệu bất thường hay không, xem các
giấy phép hoạt động, có đang vướng phải các vụ kiện cáo về mặt pháp lý hay không,...
Sự linh động trong việc mua bán: Sàn linh động tức là sàn có hỗ trợ nhiều cặp tỷ
giá, có hỗ trợ nhiều mạng lưới chuyển tiền như BSC20, TRC20, ERC20, NEP5,... Ngoài
ra, đối với những ngày số lượng giao dịch lớn và nhiều thì sàn cần phải có khả năng xử
lý và tránh các tình trạng chậm, khó giao dịch, và đặc biệt sàn cần tránh được các đợt
tấn công của Hacker để không xảy ra các việc mất mát đáng tiếc cho người tham gia
giao dịch trong thị trường.
Nhiều dịch vụ, chương trình: Ngoài việc giao dịch, những sàn uy tín thường có
những sự kiện Launch Pool hỗ trợ để người tham gia góp vốn để nhận lại lợi nhuận, các
sự kiện trao thưởng và hỗ trợ người tham gia khi các vấn đề xảy ra liên quan đến giao
dịch cũng là một yếu tố quan trọng để thu hút người tham gia giao dịch trên sàn.
5.3 Hướng nghiên cứu tiếp theo
Giá đóng cửa Bitcoin được dự đoán dựa vào 16 yếu tố tác động vào ngày liền kề
trước. Vì thế, các kết quả dự đoán xa hơn vào những ngày tiếp theo sẽ mang tính chính
xác thấp hơn do không có đủ những dữ liệu thực được đưa vào. Trong tương lai, càng
có nhiều yếu tố mới nảy sinh tác động đến giá của Bitcoin. Do đó, kết quả dự đoán khó
có thể xác định một cách chính xác nếu như không tìm hiểu sâu về các thông tin liên
quan đến Bitcoin. Để định giá một cách chính xác hơn về giá, số liệu sẽ được thu thập
theo đơn vị hàng giờ để đạt được kết quả gần đúng nhất cũng như dựa trên phân tích
hồi quy về cảm xúc người dùng và bằng chữ hay từ khóa dựa trên các xu hướng, các
bài viết trên các trang mạng lớn như Reddit/Bitcoin, Twitter, BitcoinTalk,...
Hiện tại, Azure Machine Learning là công cụ cơ bản được sử dụng trong bài
nghiên cứu dùng để phân tích và học dữ liệu để đưa ra giá của Bitcoin nên vẫn còn một
số hạn chế nhất định, nhưng để áp dụng chuyên sâu thì nhóm cần phải tìm hiểu các kiến
thức chuyên sâu hơn về các máy học mới như Deep-learning LSTM Model,… để hiểu
và áp dụng nó vào các hướng nghiên cứu tiếp theo.

50
Đồng thời để dự đoán giá đóng cửa Bitcoin sát với thời gian thực hơn thì nhóm
nghiên cứu sẽ thực hiện mua các bộ dữ liệu với đơn vị thời gian nhỏ hơn là giây hoặc
phút. Điều này sẽ làm tăng độ chính xác trong kết quả dự đoán giá Bitcoin.
5.4 Tóm tắt chương 5
Ở chương cuối cùng của bài nghiên cứu, nhóm đã đưa ra kết luận chung thông qua việc
so sánh kết quả đầu ra giữa các mô hình. Từ đây, các câu hỏi nghiên cứu được giải đáp
dựa trên những số liệu thực được thực hiện và phân tích bằng Azure Machine Learning
và lựa chọn Bayesian Linear Regression là mô hình phù hợp vì có kết quả tương thích
cao nhất. Đồng thời, một số kiến nghị đã được đưa ra bởi nhóm nghiên cứu nhằm tránh
được những rủi ro cũng như áp dụng vào những hướng nghiên cứu sâu để đạt kết quả
chính xác hơn.

51
DANH MỤC THAM KHẢO
1. (2021). Retrieved 25 March 2021, from
https://trends.google.com.vn/trends/?geo=VN.
2. ANOTHER SENTIMENT BITCOIN. Kaggle.com. (2021). Retrieved 25
March 2021, from https://www.kaggle.com/josephfernandolim/another-sentiment-
bitcoin.
3. Bitcoin price today, BTC live marketcap, chart, and info |
CoinMarketCap. CoinMarketCap. (2021). Retrieved 25 March 2021, from
https://coinmarketcap.com/currencies/bitcoin/.
4. Bitcoin Sentiment – Bull & Bear Index – Augmento. Augmento. (2021).
Retrieved 25 March 2021, from https://www.augmento.ai/bitcoin-sentiment/.
5. Bitcoin.com. Charts.bitcoin.com. (2021). Retrieved 25 March 2021, from
https://charts.bitcoin.com/bch/chart/price#5ma4.
6. BitcoinPriceAndFeatureData.csv. Kaggle.com. (2021). Retrieved 25
March 2021, from
https://www.kaggle.com/shreyavontela29/bitcoinpriceandfeaturedatacsv.
7. Blockchain.com Charts Summary. Blockchain.com. (2021). Retrieved 25
March 2021, from https://www.blockchain.com/charts/.
8. Digital Money. Investopedia. (2021). Retrieved 4 March 2021, from
https://www.investopedia.com/terms/d/digital-money.asp.
9. Dutta, A., Kumar, S., & Basu, M. (2020). A Gated Recurrent Unit
Approach to Bitcoin Price Prediction. Journal Of Risk And Financial
Management, 13(2), 23. doi: 10.3390/jrfm13020023
10. Elith, J., Leathwick, J., & Hastie, T. (2008). A working guide to boosted
regression trees. Journal Of Animal Ecology, 77(4), 802-813. doi: 10.1111/j.1365-
2656.2008.01390.x
11. Gated Recurrent Unit (GRU) là gì? Định nghĩa và giải thích ý nghĩa.
Retrieved 11 March 2021, from https://filegi.com/tech-term/gated-recurrent-unit-gru-
10389/

52
12. Jang, H., & Lee, J. (2018). An Empirical Study on Modeling and
Prediction of Bitcoin Prices With Bayesian Neural Networks Based on Blockchain
Information. IEEE Access, 6, 5427-5437. https://doi.org/10.1109/access.2017.277918
13. Kim, Y., Kim, J., Kim, W., Im, J., Kim, T., Kang, S., & Kim, C. (2016).
Predicting Fluctuations in Cryptocurrency Transactions Based on User Comments and
Replies. PLOS ONE, 11(8), e0161197. doi: 10.1371/journal.pone.0161197
14. Lovach, S. (2021). Tesla buys $1.5 billion in bitcoin, plans to accept it as
payment. CNBC. Retrieved 25 March 2021, from https://cnb.cx/3chKGeA.
15. Minka, T.P. (2009). Bayesian linear regression.
16. Muhammad Fahmi, A., Azah Samsudin, N., Mustapha, A., Razali, N., &
Kamal Ahmad Khalid, S. (2018). Regression based Analysis for Bitcoin Price
Prediction. International Journal Of Engineering & Technology, 7(4.38), 1070. doi:
10.14419/ijet.v7i4.38.27642
17. Nonce | Binance Academy. Binance Academy. (2021). Retrieved 4 March
2021, from https://academy.binance.com/en/glossary/nonce.
18. Rathan, K., Sai, S., & Manikanta, T. (2021). Crypto-Currency price
prediction using Decision Tree and Regression techniques. Proceedings Of The Third
International Conference On Trends In Electronics And Informatics, ICOEI
2019(ISBN: 978-1-5386-9439-8). Retrieved 4 March 2021, from.
19. Specht, D. (1993). The general regression neural network—
Rediscovered. Neural Networks, 6(7), 1033-1034. doi: 10.1016/s0893-6080(09)80013-
0
20. The world's biggest cryptocurrency exchanges 2021 | Statista. Statista.
(2021). Retrieved 25 March 2021, from https://bit.ly/3tX9L4x.
21. What is a Hash? (And How Does It Work?) - SentinelOne. SentinelOne.
(2021). Retrieved 25 March 2021, from https://bit.ly/3d3lKqr.
22. What Is Blockchain Technology? How Does It Work? | Built In.
Builtin.com. (2021). Retrieved 4 March 2021, from https://builtin.com/blockchain.

53

You might also like