You are on page 1of 15

TRƯỜNG ĐẠI HỌC BÌNH DƯƠNG

KHOA CÔNG NGHỆ THÔNG TIN, ROBOT VÀ TRÍ TUỆ NHÂN TẠO

TIỂU LUẬN MÔN HỌC


NHẬP MÔN KHOA HỌC DỮ LIỆU

DỰ ĐOÁN MỨC ĐỘ THÀNH CÔNG CỦA


MỘT GAME TRÊN STEAM
Giảng viên hướng dẫn: Huỳnh Quang Đức
Nhóm thực hiện:
1. - Họ và tên: Đỗ Nguyễn Tiến Đạt
- MSSV:21050060
- Lớp: 24TH01
2. - Họ và tên: Nguyễn Minh Mẫn
- MSSV: 21050040
- Lớp: 24Th01

Bình Dương, ngày tháng năm 2023

GVHD: Huỳnh Quang Đức 1 FIRA


LỜI CẢM ƠN
Trong quá trình hoàn thành bài tiểu luận môn Nhập môn khoa học dữ liệu với đề tài “Dự
đoán mức độ thành công của một game trên Steam” ngoài sự nỗ lực của thành viên nhóm,
chúng em xin gửi lời cảm ơn chân thành đến:

- Trường đại học Bình Dương đã tạo điều kiện cho nhóm em được tiếp xúc với môn
học Khoa học dữ liệu, sau khi trải qua những buổi lý thuyết và thực hành, nhờ
những kiến thức hữu ích mà giảng viên đem đến giúp nhóm em có thể dễ dàng tiếp
cận với ngành Khoa học dữ liệu một cách trọn vẹn.

- Giảng viên hướng dẫn – thầy Huỳnh Quang Đức đã nhiệt tình hỗ trợ, giảng dạy hết
sức tâm huyết để nhóm chúng em có thể hoàn thành bài tiểu luận cũng như môn
học. Giúp chúng em có được những hành trang vững chắc trên con đường sự
nghiệp phía trước.

Chúng em xin chân thành cảm ơn!

GVHD: Huỳnh Quang Đức i FIRA


th
TÓM TẮT

Tin học đang ngày càng phát triển, khi mà nhu cầu giải trí của con người càng
tăng cao, việc phát triển một tựa game đã trở thành công việc của rất nhiều lập
trình viên, các nhà phát triển game luôn muốn đưa đến cho người chơi những sản
phẩm chất lượng nhất phục vụ nhu cầu giải trí của họ. Nhưng không phải sản
phẩm game nào được phát triển cũng được xem là một sản phẩm chất lượng,
những nhà phát triển muốn biết được liệu người chơi, những người đã bỏ tiền
mua sản phẩm của họ có thực sự yêu thích tựa game mà họ phát hành không ?

Các hướng tiếp cận:


- Tìm hiểu và nghiên cứu về các lượt đánh giá của người chơi trên Steam để xác
định mức độ yêu thích của họ đối với một tựa game là tích cực, tiêu cực hay
trung lập.
- So sánh các đánh giá khác từ cộng đồng người chơi và các trang đánh giá game
uy tín như Metacritic, IGN hay GameSpot để phát hiện những trò chơi được
đánh giá tích cực từ người chơi nhưng không được đánh giá tích cực từ các
chuyên gia và ngược lại.
- Tìm hiểu về các bản cập nhật mới nhất của game để đưa ra đánh giá trước và
sau khi cập nhật. Sau đó phân tích ảnh hưởng của chúng tới người trải nghiệm
game.
- Theo dõi các đánh giá trên Steam để tìm ra xu hướng và biến động khi game có
cập nhật mới.

Cách giải quyết vấn đề đặt ra:


1. Thu thập dữ liệu:
- Thu thập các dánh giá từ người chơi từ các trang đánh giá game nổi tiếng như
Metacritic, IGN.

2. Tiền xử lý dữ liệu:
- Loại bỏ các dữ liệu nhiễu và dữ liệu không hợp lý. Chuẩn hoá các dữ liệu đánh
giá và doanh thu.

3. Xây dựng mô hình Hồi quy tuyến tính:


- Sử dụng các thuật toán hồi quy để xây dựng mô hình dự đoán mức độ thành
công dựa trên đánh giá người chơi và doanh thu. Sau đó tích hợp dữ liệu để tạo
mô hình hoàn chỉnh.

4. Đánh giá hiệu suất mô hình:


5. Tích hợp vào ứng dụng:
- Tích hợp mô hình vào ứng dụng để cập nhật dữ liệu và dự đoán mức độ thành

GVHD: Huỳnh Quang Đức ii FIRA


th
TÓM TẮT
công của game theo thời gian thực
6. Cải thiện mô hình:
- Tối ưu hoá mô hình dựa trên phản hồi từ người dùng (các nhà phát triển game) và
kết quả thực nghiệm.
- Cập nhật dữ liệu mới định kì để mô hình luôn dự đoán chính xác

GVHD: Huỳnh Quang Đức ii FIRA


Tiểu luận môn hoc Nhập môn khoa học dữ liệu

MỤC LỤC
LỜI CẢM ƠN...................................................................................................................i
TÓM TẮT........................................................................................................................ii
MỤC LỤC........................................................................................................................1
DANH MỤC CÁC BẢNG BIỂU, HÌNH VẼ..................................................................3
PHẦN 1 – GIỚI THIỆU TỔNG QUAN ĐỀ TÀI............................................................4
1.1 Lý do chọn đề tài.............................................................................................4
1.1.1 Phương pháp nghiên cứu..................................................................4
1.1.1.1 Nghiên cứu lý thuyết...........................................................4
1.1.1.2 Nghiên cứu thực nghiệm.....................................................4
1.2 Mục tiêu, phạm vi đề tài..................................................................................4
1.3 Mô hình – Tiến trình thực hiện.......................................................................4
PHẦN 2- ĐỀ XUẤT MÔ HÌNH HỆ THỐNG................................................................6
1.1 Trình bày công thức toán học.........................................................................6
1.2 Trình bày một hình vẽ, sơ đồ..........................................................................6
PHẦN 3 – KẾT QUẢ ĐẠT ĐƯỢC.................................................................................8
3.1 Chèn bảng:......................................................................................................8
3.2 Viết tắt.............................................................................................................8
3.3 Qui định của báo cáo về đạo văn....................................................................8
PHẦN 4 – KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN...................................................10
TÀI LIỆU THAM KHẢO..............................................................................................11

GVHD: Huỳnh Quang Đức 1 FIRA


Tiểu luận môn hoc Nhập môn khoa học dữ liệu

DANH MỤC KÍ HIỆU VÀ CHỮ VIẾT TẮT

CÁC KÝ HIỆU
f(w) tần suất xuất hiện của từ
p(w) xác suất xuất hiện của từ

CÁC CHỮ VIẾT TẮT


NLP Xử lý ngôn ngữ tự nhiên
ANN Mạng neural nhân tạo
AI Trí tuệ nhân tạo

GVHD: Huỳnh Quang Đức 2 FIRA


Tiểu luận môn hoc Nhập môn khoa học dữ liệu

DANH MỤC CÁC BẢNG BIỂU, HÌNH VẼ


DANH MỤC HÌNH
Hình 2.1: Mô hình hệ thống.............................................................................................7

DANH MỤC BẢNG


Bảng 3.1 Mẫu dữ liệu huấn luyện cho hệ thống..............................................................8

GVHD: Huỳnh Quang Đức 3 FIRA


Tiểu luận môn hoc Nhập môn khoa học dữ liệu

PHẦN 1 – GIỚI THIỆU TỔNG QUAN ĐỀ TÀI


1.1 Lý do chọn đề tài:

- Khi một tựa game được phát hành trên Steam, tựa game đó sẽ có các lượt đánh giá
từ người chơi đã tải và chơi game. Các lượt đánh giá tích cực và tiêu cực sẽ quyết
định độ yêu thích của người chơi tựa game đó, các nhà phát hành muốn tựa game
của mình có tỉ lệ thành công là bao nhiêu dựa vào các lượt đánh giá và lượt tải.

- Để giải quyết vấn đề đó, nhóm em đưa ra đề xuất xây dựng một ứng dụng Khoa học
dữ liệu hướng tới những nhà phát triển game lấy vấn đề về việc liệu một tựa game
được phát hành trên Steam có thành công hay không ? Dựa vào số lượng đánh giá
tích cực, tiêu cực của người chơi và số lượt tải của tựa game đó trên Steam, từ đó
tính toán để đưa ra tỉ lệ thành công của tựa game đó. Nhà phát triển game có thể
dựa vào để biết được tựa game của mình, nếu tỉ lệ thành công cao họ có thể phát
hành phần tiếp theo của tựa game đó, nếu tỉ lệ thành công thấp tựa game đó có thể
được cải thiện theo đánh giá của người dùng để nâng cao trải nghiệm tích cực của
người chơi.

1.1.1 Phương pháp nghiên cứu:


1.1.1.1 Nghiên cứu lý thuyết:
- Tìm hiểu khái niệm và ứng dụng của Khoa học dữ liệu. Cách thức biên tập dữ
liệu, tiền xử lý, mô hình hoá dữ liệu và biên tập dữ liệu bằng Python. Cách sử
dụng thư viên để huấn luyện mô hình và triển khai xây dựng úng dụng trên nền
tảng web.
- Nghiên cứu các ứng dụng Khoa học dữ liệu đã được đưa vào thực tiễn trong và
ngoài nước.
- Cách thức thu thập dữ liệu về các game trên Steam như: lượt đánh giá từ người
chơi, số lượt tải xuống, ngày phát hành.
1.1.1.2 Nghiên cứu thực nghiệm:
- Xây dựng ứng dụng dự đoán tỉ lệ thành công của game trên Steam dựa trên các
lượt đánh giá từ người chơi, số lượt tải về và đánh giá kết quả dự đoán.

GVHD: Huỳnh Quang Đức 4 FIRA


Tiểu luận môn hoc Nhập môn khoa học dữ liệu

1.2 Mục tiêu, phạm vi đề tài:


- Mục tiêu: tạo ra một ứng dụng web giúp các nhà làm game dự đoán tỉ lệ
thành công của các sản phẩm game phát hành trên nền tảng phân phối
game trực tuyến Steam.
- Phạm vi đề tài: ứng dụng hướng tới các nhà phát triển game muốn biết tựa
game mình làm ra có thành công về mặt chất lượng không ? Dựa vào các
đánh giá từ người chơi và doanh thu bán game.
1.3 Mô hình tổng quát và tiến trình thực hiện:
- Mô hình tổng quát:

- Tiến trình thực hiện:


1. Người dùng tức các nhà phát triển game muốn biết tỉ lệ thành công của game
mình làm ra sẽ nhập tên game, sau đó nhập lần lượt các số lượng lượt đánh
giá của người chơi trên Steam.

2. Sau đó bấm “Dự đoán”, hệ thống sẽ dựa vào thông tin được nhập để tính toán
theo thuật toán được lập trình để dự đoán được mức độ thành công của game.

3. Nếu thông tin nhập vào sai hoặc thiếu, ứng dụng sẽ thông báo lỗi và yêu cầu
người dùng nhập lại

4. Nếu thông tin nhập vào đúng và đủ, ứng dụng sẽ xuất kết quả dự đoán trên
trang kết quả là tỉ lệ thành công của game đó, nếu tỉ lệ trên 90% thì game đó
thành công về mặt chất lượng, nếu dưới 25% thì game không thành công về
mặt chất lượng.

GVHD: Huỳnh Quang Đức 5 FIRA


Tiểu luận môn hoc Nhập môn khoa học dữ liệu

PHẦN 2- ĐỀ XUẤT MÔ HÌNH HỆ THỐNG


(ít nhất 4 trang)

Tổng quan: phân tích, đánh giá các công trình nghiên cứu đã có, các tác giả khác
trong và ngoài nước liên quan đến nội dung; nêu những vấn đề còn tồn tại; chỉ ra
những vấn đề mà đề tài cần tập trung nghiên cứu, giải quyết.
Nêu cách thức giải quyết vấn đề thông qua mô hình đề xuất. Vẽ mô hình và giải
thích cụ thể từng vấn đề trong mô hình.
1.1 Trình bày công thức toán học
Công thức toán học cần nhất quán trong toàn bộ bài làm. Sử dụng công cụ của

GVHD: Huỳnh Quang Đức 6 FIRA

1
Tiểu luận môn hoc Nhập môn khoa học dữ liệu
MS Word và đánh số theo chương, số thứ tự trong chương. Ví dụ công thức sau đây
đánh là 2.1. Công thức tính khoảng cách giữa hai vector
𝑑1(𝑒1, 𝑒2) =∥ 𝑒1 − 𝑒2 ∥= √∥ 𝑒1 ∥2+∥ 𝑒2 ∥2− 2𝑒𝑇𝑒2 (2.1)
Trong công thức, nếu có các kí hiệu là lần đầu tiên sử dụng, cần phải giải thích
rõ kí hiệu đó đại diện cho phần tử nào và đơn vị là gì.

∥ e ∥= √∑𝑑 𝑒
𝑖=1 𝑖2 (2.2)

Trong công thức 2.2:


 ∥ e ∥: là độ lớn của vector e, với eRd.
 Độ đo cosin cũng được sử dụng để đo sự tương đồng của hai vector.

 Độ đo cosin: 𝑒𝑇𝑒2
similar_cosin(𝑒1 , )= 1 .
∥𝑒1∥∥𝑒2∥
𝑒2

1.2 Trình bày một hình vẽ, sơ đồ


Việc đánh số bảng biểu, hình vẽ, phương trình phải gắn với số chương (Thí dụ
hình 3.4 có nghĩa là hình thứ 4 trong Chương 3). Mọi bảng biểu, đồ thị lấy từ các
nguồn khác phải được trích dẫn đầy đủ (ví dụ: Nguồn: Tr.35, Tạp chí Khoa học (2012),
Số 15, NXB Tài chính, TP.HCM). Nguồn được trích dẫn phải được liệt kê chính xác
trong Danh

GVHD: Huỳnh Quang Đức 7 FIRA


Tiểu luận môn hoc Nhập môn khoa học dữ liệu

mục tài liệu tham khảo. Đầu đề của bảng, ghi phía trên bảng; đầu đề của hình vẽ ghi
phía dưới hình. Thông thường những bảng ngắn và đồ thị nhỏ phải đi liền với phần nội
dung đề cập tới các bảng và đồ thị này ở lần thứ nhất. Các bảng dài có thể để ở những
trang riêng nhưng cũng phải tiếp ngay theo phần nội dung đề cập tới bảng này ở lần

đầu tiên.

Hình 2.1: Hình minh họa mô hình CBOW và Skip-gram cơ bản


Nguồn: (https://www.researchgate.net/figure/Illustration-of-the-word2vec-models-a-CBOW-
b-skip-gram-16-33_fig2_318507923)

GVHD: Huỳnh Quang Đức 8 FIRA


Tiểu luận môn hoc Nhập môn khoa học dữ liệu

PHẦN 3 – KẾT QUẢ ĐẠT ĐƯỢC


(ít nhất 5 trang)

Trình bày các cơ sở lý thuyết, lý luận, giả thuyết khoa học và phương pháp
nghiên cứu sẽ được sử dụng trong nội dung nghiên cứu.
Trình bày cách thức biên tập dữ liệu huấn luyện. Cách thể hiện ngữ liệu huấn
luyện sau khi đã tiền xử lý. Cách thức tiến hành huấn luyện cho mô hình đề xuất.
Thể hiện kết quả thông qua test mô hình và huấn luyện mô hình.
Trình bày cách thức tiến hành chạy chương trình và giải thích giao diện.

GVHD: Huỳnh Quang Đức 9 FIRA


Tiểu luận môn hoc Nhập môn khoa học dữ liệu

PHẦN 4 – KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN


(từ 1 đến 2 trang)
Trình bày tổng kết kết quả đạt được của tiểu luận và đóng góp của nghiên cứu
cho khoa học và ứng dụng hiện tại.
Với kết quả đạt được có thể cải tiến mô hình, biên tập thêm dữ liệu huấn luyện sẽ
cải tiến được điều gì.
Thời gian tới hướng phát triển của đề tài được ứng dụng như thế nào và hướng
phát triển tương lai có gì khác biệt so với mô hình và dữ liệu hiện tại.

GVHD: Huỳnh Quang Đức 10 FIRA


Tiểu luận môn hoc Nhập môn khoa học dữ liệu

TÀI LIỆU THAM KHẢO

Tiếng Việt
1. Đinh Điền (2006). Giáo trình xử lý ngôn ngữ tự nhiên. Nhà xuất bản Đại học
Quốc gia thành phố Hồ Chí Minh.
2. Lê Hoài Bắc, Tô Hoài Việt (2014). Giáo trình Cơ sở trí tuệ nhân tạo. Nhà
xuất bản Khoa học và Kỹ thuật.
3. Tống Thành Trung, Nguyễn Thị An (2017). Bài giảng toán rời rạc. Nhà xuất
bản Đại học Kinh tế Quốc dân.
4. …

Tiếng Anh
1. Krishna Bhavsar, Naresh Kumar & Pratap Dangeti (2017), Natural Language
Processing with Python Cookbook.
2. Rajesh Arumugam, Rajalingappaa Shanmugamani (2018) Hands-On Natural
Language Processing with Python. Published by Packt Publishing Ltd. ISBN
978-1-78913-949-5.
3. Daniel Jurafsky & James H. Martin (2018). An Introduction to Natural
Language Processing, Computational Linguistics, and Speech Recognition.
Third Edition draft.
4. http://www.nltk.org/data.html.
5. …

GVHD: Huỳnh Quang Đức 11 FIRA

You might also like