Khoa Học Dữ Liệu (Kthp)

ĐỀ TÀI: XÂY DỰNG MÔ HÌNH DỰ
BÁO CÁC CÔNG NGHỆ CỦA ĐIỆN

THOẠI THÔNG MINH DÙNG HỆ ĐIỀU
HÀNH ANDROID BÁN CHẠY HÀNG
ĐẦU
NHÓM 4
THÀNH VIÊN NHÓM
Nguyễn Xuân Tuấn
Mai Xuân Nhân (nhóm

trưởng)
Đỗ Thanh Ngân
Huỳnh Diễm My
Bùi Tấn Đạt

NỘI DUNG
THU NHẬP VÀ
01 GIỚI THIỆU 02 LÀM SẠCH DỮ
LIỆU
XÂY DỰNG VÀ
03 HUẤN LUYỆN
MÔ HÌNH
04 Ý NGHĨA MÔ
HÌNH
01
GIỚI THIỆU
TỔNG QUAN ĐỀ TÀI
• Hiện nay, điện thoại thông minh (Smart Phone) ngày càng trở
thành 1 một thiết bị điện tử không thể thiếu đối với nhân loại
• Theo Statista (trang web thống kê doanh số điện thoại thông
minh được bán ra) số lượng điện thoại bán ra đến tay người
dùng là 1,395.25 triệu chiếc trong năm 2022
• Dự án để dự đoán xem những chiếc điện thoại thông minh có
số lượt bán cao thì sẽ có những thông số như thế nào, những
công nghệ gì và điểm số đánh giá ra sao.
• Chúng em mong muốn rằng có thể hỗ trợ các nhà sản xuất đưa
ra những ý tưởng về 1 chiếc điện thoại sở hữu những thông số,
công nghệ phù hợp với người sử dụng, từ đó làm tăng doanh số
bán hàng
MỤC ĐÍCH ĐỀ TÀI
Để đạt được mục đích này, dự án tập trung thực hiện các nhiệm vụ sau:
• Sử dụng bộ dữ liệu thu thập được từ GSMarena và mô tả tổng
quát về bộ dữ liệu này.
• Nghiên cứu các yếu tố có khả năng thỏa mãn nhu cầu về điện
thoại của người dùng.
• Lựa chọn và xây dựng mô hình phù hợp nhất cho việc dự đoán
các yếu tố về những chiếc điện thoại phù hợp với người dùng
• Kiểm định độ chính xác của mô hình dự báo đã lựa chọn.
• Mong muốn ứng dụng mô hình vào thực tiễn cuộc sống để hỗ
trợ hãng sản xuất mau chóng bắt kịp xu thế yêu cầu về điên
thoại của người dùng từ đó tạo ra những sản phẩm phù hợp
02
THU NHẬP VÀ
LÀM SẠCH
DỮ LIỆU
Hình 2.1:Bảng dữ liệu thu thập được
SƠ LƯỢC CÁC THUỘC TÍNH LỰA CHỌN ĐƯA
Bao gồm 13 thuộc tính:
VÀO MÔ HÌNH
• Tên • Dung lượng pin từ 3500 MAh trở lên
• Hãng • Màn hình từ 6.0 inch trở lên
• Dùng chipset Snapdragon • Điểm Antutu
• Màn hình AMOLED trở lên • Giá cả hợp lí
• Tần số quét 120 Hz trở lên • Bán chạy trên thị trường
• Phiên bản Android là 12 trở lên
• Độ phân giải camera chính từ 48 MP trở lên
• Độ phân giải camera selfie từ 12MP trở lên
03
KIỂM ĐỊNH
MÔ HÌNH
Sau khi có bộ dữ liệu hoàn chỉnh, nhóm sẽ tiến hành
bước kiểm định mô hình. Đây là bảng dữ liệu đầu
vào, thuộc tính “Hãng” sẽ bị bỏ qua vì thuộc tính ấy
không có tác động đến kết quả tìm kiếm điện thoại
thông minh dung hệ điều hành Android phù hợp
với người dùng. Và trong mô hình này, nhóm sẽ
chọn biến “Bán chạy trên thị trường” là biến mục
tiêu (target)
Hình 3.1: dữ liệu vào
Hình 3.2: Bảng dữ liệu
Nhóm sẽ kiểm định 3 phương pháp
Tree, Logistic Regression và SVM
Hình 3.3: Kiểm định các mô hình phân lớp

Hình 3.4: Kết quả kiểm
định mô hình
Hình 3.5: Kết quả thu được với ma trận bán chạy với mô hình Tree
Hình 3.6: Kết quả thu được với ma trận bán chạy với mô hình Logistic Regression
Hình 3.7: Kết quả thu được với ma trận bán chạy với mô hình SVM
04
ĐÁNH GIÁ VÀ
LỰA CHỌN
MÔ HÌNH
1.Confusion Matrix (Ma trận nhầm lẫn)
• Ma trận nhầm lẫn” là một kỹ thuật đo lường hiệu suất để
phân loại “Machine learning”.
• Ma trận nhầm lẫn nhị phân bao gồm 4 phần:
True Positive (TP): Giá trị thực dương: Giá trị được dự đoán
chính xác là giá trị dương thực tế.
False Positive (FP): Các giá trị được dự đoán không chính xác
một giá trị dương thực tế. Tức là, giá trị âm được dự đoán là
dương.
False Negative (FN): Sai Âm: Giá trị dương được dự đoán là âm.
True Negative (TN): True Negative: Các giá trị được dự đoán
chính xác là giá trị âm thực tế
2. TÍNH TOÁN VÀ XỬ LÝ CÁC WIDGET
Từ ma trận nhầm lẫn ta có các thông số sau về phương pháp

SVM:
+ TP: 94.7%
+ FP: 5.3%
+ TN: 95.2%
+ FN: 4.8%
Chỉ số CA (Classification accuracy)
Khi xây dựng mô hình phân loại chúng ta sẽ muốn biết một
cách khái quát tỷ lệ các trường hợp được dự báo đúng trên
tổng số các trường hợp là bao nhiêu. Tỷ lệ đó được gọi là độ
chính xác. Độ chính xác giúp ta đánh giá hiệu quả dự báo của
mô hình trên một bộ dữ liệu. Và chỉ số CA được tính bằng công
thức
- Từ công thức trên, ta có: (94.7%+95.2%) / 200% = 0.95

Chỉ số Prec (Precision)
Precision trả lời cho câu hỏi trong các trường hợp được dự báo
là positive thì có bao nhiêu trường hợp là đúng ? Và tất nhiên
precision càng cao thì mô hình của chúng ta càng tốt trong việc
phân loại. Công thức của precision như sau:
- Từ công thức trên, ta có: 94.7% / (94.7% + 5.3%) = 0.95

Chỉ số Recall
Recall đo lường tỷ lệ dự báo chính xác các trường hợp positive

trên toàn bộ các mẫu thuộc nhóm positive. Công thức của
recall như sau:
- Từ công thức trên, ta có: 94.7% / (94.7% + 4.8%) = 0.95

Chỉ số F1
F1 Score là trung bình điều hòa giữa precision và recall. Do đó
nó đại diện hơn trong việc đánh gía độ chính xác trên đồng
thời precision và recall.
- Từ công thức trên, ta có:

Chỉ số F1
AUC ( Area under ROC curve)
ROC là đường cong biểu diễn khả năng phân loại của một mô
hình phân loại tại các ngưỡng threshold. Đường cong này dựa
trên hai chỉ số :
• TPR (true positive rate): Hay còn gọi là recall hoặc
sensitivity. Là tỷ lệ các trường hợp phân loại đúng positive
trên tổng số các trường hợp thực tế là positive.
• FPR (false positive rate): Tỷ lệ dự báo sai các trường hợp

thực tế là negative thành thành positive trên tổng số các
trường hợp thực tế là negative
• TPR (true positive rate)
• FPR (false positive rate):

* AUC = TPR + FPR

= 94.7% / (94.7% + 5.3%) + 5.3% / (95.2% + 4.8%)
= 0.995
Hình 4.1: Áp dụng SVM cho tập dữ liệu dự báo
Hình 4.2 (1): Bảng kết quá dự báo
Hình 4.2 (2): Bảng kết quá dự báo
Ý NGHĨA MÔ HÌNH
• Đây là thách thức được đặt ra và cần tìm lời giải đối với cả các
sinh viên nghiên cứu môn học Khoa Học Dữ Liệu trong việc thu
nhập và phân tích dữ liệu.
• Với mong muốn có thể là công ty có các dự án phát triển tốt hơn,
kinh tế đất nước cũng được phát triển kéo theo, người tiêu dùng
tiếp cận với những công nghệ phù hợp với mình.
• Ý nghĩa của mô hình còn là việc áp dụng và thực hành những
kiến thức đã được học trong Khoa Học Dữ Liệu của các sinh viên
chuyên ngành hoặc những sinh viên tìm hiểu về môn học.
• Trong quá trình đọc và nghiên cứu nhóm đã rút ra kinh nghiệm
trong việc thu nhập bộ dữ liệu để khi chính thức đưa vào chương
trình, mô hình cho ra được kết quả ổn định nhất, tạo sự tin cậy
và lập luận chắc chắn cho dự án.
Thanks!

Khoa Học Dữ Liệu (Kthp)

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Khoa Học Dữ Liệu (Kthp)

Uploaded by

Copyright:

Available Formats

ĐỀ TÀI: XÂY DỰNG MÔ HÌNH DỰ

BÁO CÁC CÔNG NGHỆ CỦA ĐIỆN

Nguyễn Xuân Tuấn

Mai Xuân Nhân (nhóm

Bùi Tấn Đạt

Hình 3.3: Kiểm định các mô hình phân lớp

Từ ma trận nhầm lẫn ta có các thông số sau về phương pháp

- Từ công thức trên, ta có: (94.7%+95.2%) / 200% = 0.95

- Từ công thức trên, ta có: 94.7% / (94.7% + 5.3%) = 0.95

Recall đo lường tỷ lệ dự báo chính xác các trường hợp positive

- Từ công thức trên, ta có: 94.7% / (94.7% + 4.8%) = 0.95

- Từ công thức trên, ta có:

• FPR (false positive rate): Tỷ lệ dự báo sai các trường hợp

• TPR (true positive rate)

• FPR (false positive rate):

* AUC = TPR + FPR

You might also like