KHDL TieuLuan-1

ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC BÁCH KHOA

KHOA CÔNG NGHỆ THÔNG TIN
TIỂU LUẬN CUỐI KỲ

HỌC PHẦN: KHOA HỌC DỮ LIỆU
ĐỀ TÀI:
DỰ ĐOÁN GIÁ ĐỒ DÙNG NỘI THẤT VÀ TRANG TRÍ
Nhóm 2
Họ Và Tên Sinh Viên: Lớp Học Phần
Nguyễn Thanh Hoàng
Nguyễn Hoàng Quân 20Nh.14
Lê Hữu Đức Huy
Trần Gia Huy
GVHD: TS.Phạm Công Thắng
ĐÀ NẴNG, 05/2023
KHDL - Dự đoán giá đồ dùng nội thất và trang trí
TÓM TẮT
Đề tài dự đoán giá đồ dùng nội thất là một nhiệm vụ trong lĩnh vực dự đoán giá
cả. Mục tiêu của đề tài là xây dựng một mô hình dự đoán giá đồ dùng nội thất dựa trên
các đặc điểm của sản phẩm như kích thước, hình dạng, chất liệu, và các thông tin khác.
Để thực hiện đề tài này, các bước chính có thể bao gồm:
1. Thu thập dữ liệu: Thu thập dữ liệu về các mặt hàng đồ dùng nội thất, bao
gồm giá cả và các thông tin chi tiết về sản phẩm.
2. Tiền xử lý dữ liệu: Xử lý và làm sạch dữ liệu thu thập được, bao gồm loại bỏ
dữ liệu thiếu, chuẩn hóa định dạng và ràng buộc của các trường dữ liệu.
3. Phân tích dữ liệu: Phân tích các đặc điểm của sản phẩm và tìm hiểu mối
quan hệ giữa các đặc điểm này và giá cả.
4. Xây dựng mô hình: Sử dụng các thuật toán máy học và kỹ thuật dự đoán để
xây dựng mô hình dự đoán giá đồ dùng nội thất. Các thuật toán phổ biến có thể
là hồi quy tuyến tính, hồi quy tuyến tính đa biến, hay các mô hình học máy khác
như cây quyết định, máy vector hỗ trợ, hay mạng nơ-ron.
5. Đánh giá và tinh chỉnh mô hình: Đánh giá hiệu suất của mô hình dự đoán
bằng cách sử dụng các phương pháp đánh giá như độ chính xác, sai số, hay hệ số
xác định R-squared. Tinh chỉnh mô hình để cải thiện hiệu suất dự đoán.
6. Dự đoán giá đồ dùng nội thất: Sử dụng mô hình đã xây dựng để dự đoán giá
cả của các mặt hàng đồ dùng nội thất dựa trên các đặc điểm của sản phẩm.
1
Nhóm 2: Thanh Hoàng – Hoàng Quân – Đức Huy – Gia Huy
BẢNG PHÂN CÔNG NHIỆM VỤ
Sinh viên thực hiện Các nhiệm vụ Tự đánh giá theo 3 mức
(Đã hoàn thành/Chưa hoàn
thành/Không triển khai)
Nguyễn Thanh Hoàng Thu thập dữ liệu Đã hoàn thành
Trích xuất đặc trưng
Viết báo cáo
Nguyễn Hoàng Quân Mô hình hóa dữ liệu: Đã hoàn thành
Gradient Boosting
Regression và Cat Boost
Regressionion
Viết báo cáo
Trần Gia Huy Mô hình hóa dữ liệu: Linear Đã hoàn thành
Regression
Viết slide
Lê Hữu Đức Huy Trích xuất đặc trưng Đã hoàn thành
Viết báo cáo
2
MỤC LỤC
TÓM TẮT................................................................................................................................................1
BẢNG PHÂN CÔNG NHIỆM VỤ.........................................................................................................2
MỤC LỤC...............................................................................................................................................3
DANH MỤC HÌNH ẢNH.......................................................................................................................4
DANH MỤC BẢNG BIỂU.....................................................................................................................6
NỘI DUNG BÁO CÁO...........................................................................................................................7
1. Giới thiệu....................................................................................................................................7
2. Thu thập và mô tả dữ liệu...........................................................................................................7
2.1. Thu thập dữ liệu.......................................................................................................................7
2.2. Mô tả dữ liệu............................................................................................................................9
3. Trích xuất đặc trưng.................................................................................................................10
3.1. Làm sạch, chuẩn hóa dữ liệu..................................................................................................10
3.1.1. Xử lý dữ liệu:..................................................................................................................10
3.1.2. Giảm chiều dữ liệu...................................................................................................11
3.2. Lựa chọn đặc trưng................................................................................................................11
4. Mô hình hóa dữ liệu......................................................................................................................15
4.1. Các thông số đánh giá mô hình..............................................................................................15
4.2. Phân chia dữ liệu....................................................................................................................16
4.3. Linear Regression..................................................................................................................16
4.3.1. Cơ sở lý thuyết................................................................................................................16
4.3.2. Kết quả thực thi mô hình................................................................................................17
4.4. Gradient Boosting Regressor.................................................................................................20
4.4.1. Cơ sở lý thuyết................................................................................................................20
4.5. Cat Boost Regressionion........................................................................................................23
4.5.1. Cơ sở lý thuyết................................................................................................................23
4.6. So sánh kết quả các mô hình..................................................................................................25
5. Kết luận & hướng phát triển..........................................................................................................28
Tài liệu tham khảo.............................................................................................................................29
3
DANH MỤC HÌNH ẢNH

Hình 1: Thông tin hiển thị trên website......................................................................8
Hình 2: Cấu trúc phần thông tin của website.............................................................8
Hình 3: Kết quả thu thập dữ liệu................................................................................9
Hình 4: Biểu đồ phân bố giá của đồ dùng nội thất và trang trí...............................10
Hình 5: Biểu đồ số lượng sản phẩm của từng nhãn vật liệu....................................11
Hình 6: Biểu đồ giá trung bình của từng vật liệu.....................................................12
Hình 7: Biểu đồ giá trung bình của từng danh mục.................................................13
Hình 8: Biểu đồ mối quan hệ giữa giá, danh mục và nhãn vật liệu.........................13
Hình 9: Biểu đồ mối quan hệ giữa giá, danh mục và nhãn vật liệu.........................14
Hình 10: Biểu đồ mối quan hệ giữa giá, danh mục và nhãn vật liệu.......................14
Hình 11: Biểu đồ đánh giá dự đoán giá của các sản phẩm.....................................18
Hình 12: Biểu đồ phân bố sai số giữa giá dự đoán và giá thực tế...........................19
Hình 13: Biểu đồ giá thực tế so với giá dự đoán......................................................19
Hình 14: Đồ thị training loss của mô hình Gradient Boosting Regression.............21
Hình 15: Biểu đồ phân bố sai số giá thực tế so với giá dự đoán.................................
..................................................................................................................................21
Hình 16: Biểu đồ dự đoán giá thực tế so với giá dự đoán......................................22
Hình 17: Đồ thị giá thực tế và giá dự đoán của mô hình Gradient Boosting
Regression................................................................................................................22
Hình 18: Đồ thị training loss của mô hình Cat Boost Regression Regression........24
Hình 19: Đồ thị phân bố sai số giá dự đoán và giá thực tế của mô hình Gradient
Boosting Regression.................................................................................................24
Hình 20: Đồ thị giá dự đoán và giá thực tế của mô hình Gradient Boosting
Regression................................................................................................................25
Hình 21: Biểu đồ giá trị R-squared của 3 mô hình..................................................25
Hình 22: Biểu đồ giá trị MSE của 3 mô hình...........................................................26
4
Hình 23: Biểu đồ so sánh phân bổ sai số tuyệt đối giữa giá dự đoán và giá thực tế
của 3 mô hình huấn luyện.........................................................................................26
Hình 24: Biểu đồ so sánh giá thực tế với giá dự đoán của 3 mô hình huấn luyện.......
..................................................................................................................................27
Hình 25: Biểu đồ so sánh giá thực tế với giá dự đoán của 3 mô hình huấn luyện...27
DANH MỤC BẢNG BIỂU

5
Bảng 1: Kiểu dữ liệu của các đặc trưng.................................................................8

Bảng 2: Bảng thống kê dữ liệu trống......................................................................9
Bảng 3: Các đặc trưng được chọn để huấn luyện mô hình..................................11
6
NỘI DUNG BÁO CÁO
1. Giới thiệu
Việc dự đoán giá đồ dùng nội thất có thể đem lại nhiều lợi ích trong thực tế. Các nhà sản xuất
và người bán có thể sử dụng mô hình dự đoán giá để xác định mức giá phù hợp cho sản phẩm của
mình, từ đó tối ưu hóa chiến lược kinh doanh và tăng khả năng tiếp cận thị trường. Người tiêu
dùng cũng có thể sử dụng thông tin dự đoán giá để so sánh và lựa chọn những sản phẩm có giá trị
tốt nhất trong phạm vi ngân sách của mình.
Để thực hiện dự đoán giá đồ dùng nội thất, các nghiên cứu thường sử dụng các phương pháp và
công cụ trong lĩnh vực học máy và khai phá dữ liệu. Các đặc trưng có thể được sử dụng bao gồm
thông tin về loại sản phẩm, kích thước, chất liệu, thương hiệu, mô tả sản phẩm và các yếu tố khác
có thể ảnh hưởng đến giá trị của sản phẩm.
2. Thu thập và mô tả dữ liệu

2.1. Thu thập dữ liệu
- Nguồn thu thập dữ liệu được lấy từ website: https://nhaxinh.com/cua-hang/
- Công cụ thu thập dữ liệu: sử dụng thư viện Beautiful Soup để trích lọc thông tin từ một
trang HTML.
- Trang web trên cung cấp 1 API có thể sử dụng được nên sử dụng thư viện requests của
Python để yêu cầu trang web trên cung cấp các trang HTML của sản phẩm.
7
Hình 1: Thông tin hiển thị trên website
Hình 2: Cấu trúc phần thông tin của website
- Thông tin cần thiết trên website được viết dưới dạng một thẻ <table>. Nên có thể sử dụng
Beautiful Soup để trích lọc thông tin cần thiết từ các thẻ <div> và <a>. Sau đó nội dung thu
8
được sẽ được lưu vào một dataframe. Nội dung thu thập bao gồm: name, price, material,
size, category.
- Sau quá trình Crawl data, chúng em đã thu thập được một tập dữ liệu thô 3800 mẫu.
Hình 3: Kết quả thu thập dữ liệu
2.2. Mô tả dữ liệu
- Kích thước tập dữ liệu: 3800 mẫu.
- Số đặc trưng của một mẫu dữ liệu: 5 đặc trưng.
Đặc trưng name price material size category

Kiểu dữ liệu string int string string string
Bảng 1: Kiểu dữ liệu của các đặc trưng
- Số mẫu dữ liệu trống của dữ liệu:

Đặc trưng name price material size category
9
Dữ liệu trống 0 453 717 190 0

Bảng 2: Bảng thống kê dữ liệu trống
- Các thống kê mô tả về tập dữ liệu:
Hình 4: Biểu đồ phân bố giá của đồ dùng nội thất và trang trí
- Đa số các mẫu tập trung ở phân khúc giá dưới 30 triệu đồng.
3. Trích xuất đặc trưng
3.1. Làm sạch, chuẩn hóa dữ liệu
3.1.1. Xử lý dữ liệu:
Cột price khi chúng ta crawl về nó ở dạng string chúng ta cần ép kiểu về kiểu int sau đó
những dữ liệu không đúng định dạng VNĐ thì sẽ được đưa về cho đúng.
Dữ liệu cột size chúng ta có được sẽ bao gồm giá trị: length, width, height, diameter. Nên
chúng ta sẽ tách cột size (string) thành 4 cột length (int), width (int), height (int), diameter
(int). Nếu giá trị nào bị thiếu không có trong size thì ta sẽ cho nó về 0.
Vì dữ liệu cột material quá phức tạp chưa được định dạng nên chúng em sẽ lọc dữ liệu là
lưu vào cột Tag (string).
Trong cột Tag có 414 loại vật liệu, trong đó có rất nhiều vật liệu ít được lặp lại nên chúng
em sẽ chỉ giữ lại những mẫu có Tag lặp lại >= 10 lần.
10
Hình 5: Biểu đồ số lượng sản phẩm của từng nhãn vật liệu
Trong tập dữ liệu ta loại bỏ những mẫu dữ liệu ngoại lệ hoặc bị trống, tập dữ liệu còn lại
gần 1000 mẫu dữ liệu.
3.1.2. Giảm chiều dữ liệu
Để giảm chi phí tính toán cho mô hình, cũng như cải thiện tốc độ tính toán và giảm thiểu
khả năng quá khớp ‘overfitting’. Việc cần thiết phải làm là giảm chiều dữ liệu, lựa chọn những
đặc trưng cần thiết và loại bỏ đi các đặc trưng gây nhiễu cho mô hình.
Trong đó chúng ta sẽ loại bỏ đi các đặc trưng không cần thiết nữa như material và size.
Tập dữ liệu kết quả trả về 8 đặc trưng để tiếp tục huấn luyện mô hình.
3.2. Lựa chọn đặc trưng
Để thuận lợi cho việc huấn luyện mô hình, chúng ta nên lựa chọn những đặc trưng là số, và
biến đổi một số đặc trưng ở dạng category thành dữ liệu số để phục vụ tính toán. Với mô hình
của nhóm chúng em, sử dụng lựa chọn đặc trưng là số, thêm vào đó biến đổi đặc trưng
material và category của sản phẩm thành đặc trưng có kiểu dữ liệu Integer.
Qua quá trình lựa chọn đặc trưng, tập dữ liệu sau khi lựa chọn có 8 đặc trưng có thể
áp dụng cho việc huấn luyện mô hình.
Sau khi làm sạch và chuẩn hóa dữ liệu thì tập data sẽ gồm 8 đặc trưng:
11
Đặc trưng name price category length width height diameter tag
Kiểu dữ liệu string int string int int int int string
Bảng 3: Các đặc trưng được chọn để huấn luyện mô hình
3.3. Trực quan hóa dữ liệu
Hình 6: Biểu đồ giá trung bình của từng vật liệu
12
Hình 7: Biểu đồ giá trung bình của từng danh mục
Hình 8: Biểu đồ mối quan hệ giữa giá, danh mục và nhãn vật liệu
13
Trong cùng 1 danh mục thì những sản phẩm được làm từ các vật liệu có giá trung bình
càng cao thì giá sản phẩm đó sẽ càng cao.
Trong 1 loại danh mục thì kích thước càng lớn thì giá sản phẩm sẽ càng cao.
Trong khi cùng một loại vật liệu thì kích thước càng lớn thì giá sản phẩm sẽ càng cao.
14
4. Mô hình hóa dữ liệu
4.1. Các thông số đánh giá mô hình

Mean Squared Error (MSE):
Mean Squared Error là một phép đo độ lỗi trung bình của mô hình dự đoán so
với giá trị thực tế. Đối với một tập dữ liệu có n cặp giá trị (yᵢ, ŷᵢ), trong đó yᵢ là giá trị
thực tế và ŷᵢ là giá trị dự đoán bởi mô hình, MSE được tính bằng cách lấy tổng bình
phương của sai số (yᵢ - ŷᵢ)² và chia cho số lượng mẫu n:
MSE = (1/n) * Σ(yᵢ - ŷᵢ)²
Giá trị MSE càng thấp, tức là sự khác biệt giữa giá trị dự đoán và giá trị thực tế
càng nhỏ. MSE thường được sử dụng để đánh giá hiệu suất của các mô hình dự đoán
liên tục, chẳng hạn như hồi quy.
R-squared
R-squared là một thước đo để xác định mức độ phù hợp của mô hình hồi quy
với dữ liệu. Nó cho biết phần trăm phương sai của biến phụ thuộc được mô hình giải
thích. R-squared có giá trị trong khoảng từ 0 đến 1, với 1 cho biết mô hình giải thích
toàn bộ sự biến động của dữ liệu và 0 cho biết mô hình không giải thích được bất kỳ
biến động nào.
Công thức tính R-squared dựa trên tổng biệt phương của mô hình (SST) và tổng
biệt phương còn lại sau khi sử dụng mô hình (SSE):
R² = 1 - (SSE / SST)
Trong đó:
● SSE (Sum of Squared Errors) là tổng bình phương của sai số giữa giá trị
thực tế yᵢ và giá trị dự đoán ŷᵢ: SSE = Σ(yᵢ - ŷᵢ)²
● SST (Total Sum of Squares) là tổng bình phương sai số giữa giá trị thực
tế yᵢ và giá trị trung bình của y: SST = Σ(yᵢ - ȳ)², với ȳ là giá trị trung
bình của y.
Giá trị R-squared càng gần 1, mô hình càng phù hợp với dữ liệu. Tuy nhiên, R-
squared không cho biết về độ chính xác tuyệt đối của mô hình và cần được kết hợp với
các phép đo khác để đánh giá toàn diện hiệu suất của mô hình.
15
4.2. Phân chia dữ liệu

Phân chia dữ liệu là một bước quan trọng trong quá trình xây dựng mô hình dự
đoán. Chúng em đã thực hiện phân chia dữ liệu thành tập huấn luyện, tập đánh giá và
tập kiểm tra theo các tỷ lệ và phương pháp phù hợp. Dưới đây là mô tả chi tiết về quá
trình phân chia dữ liệu:
● Tập huấn luyện (Train set): Tập huấn luyện được sử dụng để huấn luyện mô
hình và tối ưu các tham số của nó. Chúng em đã chọn tỷ lệ 70% tổng số dữ liệu
cho tập huấn luyện. Qua đó, mô hình có đủ dữ liệu để học các mẫu và đặc trưng
trong dữ liệu.
● Tập đánh giá (Validation set): Tập đánh giá được sử dụng để đánh giá hiệu suất
của mô hình và tinh chỉnh các tham số. Chúng em đã chọn tỷ lệ 10% tổng số dữ
liệu cho tập đánh giá. Tập này không được sử dụng trong quá trình huấn luyện,
nhưng nó đại diện cho dữ liệu mà mô hình chưa từng thấy, giúp chúng tôi đánh
giá khả năng tổng quát hóa của mô hình.
● Tập kiểm tra (Test set): Tập kiểm tra được sử dụng để đánh giá cuối cùng của
mô hình sau khi nó đã được huấn luyện và điều chỉnh. Chúng em đã chọn tỷ lệ
20% tổng số dữ liệu cho tập kiểm tra. Tập này hoàn toàn độc lập với quá trình
huấn luyện và đánh giá, và nó đại diện cho dữ liệu mới mà mô hình sẽ phải đối
mặt trong thực tế.
Chúng em đã chọn phương pháp chia dữ liệu ngẫu nhiên để đảm bảo sự đại diện
ngẫu nhiên của các mẫu trong các tập. Điều này đảm bảo rằng mô hình không gặp phải
hiện tượng thiên vị dữ liệu và có khả năng tổng quát hóa tốt trên dữ liệu mới.
4.3. Linear Regression

4.3.1. Cơ sở lý thuyết
Linear regression là một thuật toán trong thống kê và học máy được sử dụng để xác
định mối quan hệ tuyến tính giữa một biến phụ thuộc (được gọi là biến mục tiêu hoặc
biến phản hồi) và một hoặc nhiều biến độc lập (được gọi là biến đầu vào hoặc biến giải
thích).
Cơ sở lý thuyết của Linear regression dựa trên mô hình tuyến tính, trong đó giả
định rằng mối quan hệ giữa biến phụ thuộc và biến đầu vào có thể được mô tả bằng
một đường thẳng. Mô hình tuyến tính được biểu diễn bởi phương trình:
Y = β0 + β1*X1 + β2*X2 + ... + βn*Xn + ε
Trong đó:
16
- Y là biến phụ thuộc (biến mục tiêu)

- X1, X2, ..., Xn là các biến đầu vào (biến giải thích)
- β0, β1, β2, ..., βn là các hệ số hồi quy (được gọi là hệ số tương ứng với từng biến đầu
vào)
- ε là sai số ngẫu nhiên (mô hình cho rằng một phần của sự biến động của biến phụ
thuộc không thể được giải thích bởi các biến đầu vào)
Mục tiêu của Linear regression là tìm ra các hệ số hồi quy β0, β1, β2, ..., βn sao
cho mô hình tuyến tính này phù hợp nhất với dữ liệu. Quá trình này thường được thực
hiện bằng phương pháp bình phương tối thiểu, trong đó chúng ta tìm cách tối thiểu hóa
tổng bình phương sai số giữa các giá trị dự đoán và các giá trị thực tế của biến phụ
thuộc trong tập dữ liệu huấn luyện.
Linear regression có thể được áp dụng cho cả bài toán dự đoán (prediction) và
bài toán phân tích (inference). Trong bài toán dự đoán, chúng ta sử dụng mô hình tuyến
tính để dự đoán giá trị của biến phụ thuộc dựa trên các giá trị của biến đầu vào.
4.3.2. Kết quả thực thi mô hình

Mean Squared Error: 32.345947917781054
R-squared: 0.7171352187141872
17
Hình 11: Biểu đồ đánh giá dự đoán giá của các sản phẩm
Kết quả kiểm tra mô hình sau khi huấn luyện trên tập dữ liệu kiểm thử. Biểu đồ
bên dưới biểu thị sai số tuyệt đối của giá dự đoán với giá thực tế.
18
Hình 12: Biểu đồ phân bố sai số giữa giá dự đoán và giá thực tế
Qua biểu đồ ta thấy được sai số khi dự đoán giá nằm đa phần ở mức ở dưới 6 triệu.
Một số sản phẩm bị giá dự đoán sai lệch nhiều
Hình 13: Biểu đồ giá thực tế so với giá dự đoán
19
Qua biểu đồ, rất nhiều sản phẩm được dự đoán giá sát với thực tế. Tuy nhiên ta
có thể thấy được một vài đỉnh của đồ thị chênh nhau với giá trị lớn, các điểm này mô
hình đã dự giá bị ảo hơn rất nhiều so với thực tế
4.4. Gradient Boosting Regressor

Gradient Boosting Regressor (GBR) là một phương pháp học máy thuộc lớp các
thuật toán tăng cường (boosting) được sử dụng trong bài toán hồi quy. GBR kết hợp
nhiều cây quyết định yếu (weak decision trees) để tạo ra một mô hình dự đoán mạnh
hơn.
Các bước chính của thuật toán GBR bao gồm:
● Khởi tạo giá trị dự đoán ban đầu: Đầu tiên, ta khởi tạo một giá trị dự đoán ban
đầu cho mô hình, thường là giá trị trung bình của các mục tiêu (target values)
trong tập dữ liệu huấn luyện.
● Xây dựng cây quyết định yếu: Tiếp theo, ta xây dựng một cây quyết định yếu
trên tập dữ liệu huấn luyện. Cây quyết định yếu là một cây quyết định đơn giản
có thể có hạn chế về độ sâu hoặc số lượng nút lá.
● Điều chỉnh cây quyết định yếu: Sau khi xây dựng cây quyết định yếu, ta tính
toán sai số dự đoán bằng cách lấy hiệu giữa giá trị dự đoán hiện tại và giá trị
thực tế. Sau đó, ta cố gắng điều chỉnh cây quyết định yếu để giảm sai số này.
● Cộng dồn giá trị dự đoán: Ta cộng dồn giá trị dự đoán của cây quyết định yếu
đã điều chỉnh vào giá trị dự đoán ban đầu. Quá trình này được lặp lại cho tới khi
đạt được số lượng cây quyết định yếu tố mong muốn.
● Tạo mô hình GBR: Cuối cùng, ta tạo ra một mô hình Gradient Boosting
Regression bằng cách kết hợp tất cả các cây quyết định yếu đã điều chỉnh lại.
Giá trị dự đoán cuối cùng là tổng của các giá trị dự đoán từ các cây quyết định
yếu.
Mô hình GBR được sử dụng để dự đoán giá trị liên tục trong bài toán hồi quy và có
khả năng xử lý các mô hình phi tuyến tính và tương tác giữa các đặc trưng.
R-squared: 0.7601139026862919
20
Hình 14: Đồ thị training loss của mô hình Gradient Boosting Regression
Đồ thị sai số tuyệt đối giữa giá dự đoán và giá thực tế
Hình 15: Biểu đồ phân bố sai số giá thực tế so với giá dự đoán
21
Hình 16: Biểu đồ dự đoán giá thực tế so với giá dự đoán
Đồ thị giữa giá dự đoán và giá thực tế
Hình 17: Đồ thị giá thực tế và giá dự đoán của mô hình Gradient Boosting Regression
22
4.5. Cat Boost Regressionion

Cat Boost Regression là một thuật toán học máy thuộc loại Gradient Boosting
Decision Trees (GBDT) được phát triển bởi công ty Yandex. Nó là một biến thể của
Gradient Boosting Regression (GBR) với một số cải tiến và tính năng đặc biệt.
Cat Boost Regressor là một mô hình học máy hồi quy mạnh mẽ, được xây dựng
bằng cách kết hợp nhiều cây quyết định yếu (decision trees) thông qua thuật toán
boosting. Nó sử dụng gradient boosting để tăng cường dự đoán và điều chỉnh các cây
quyết định yếu để giảm thiểu sai số dự đoán.
Các bước chính của thuật toán CatBoost Regressor bao gồm:
● Khởi tạo giá trị dự đoán ban đầu: Đầu tiên, ta khởi tạo một giá trị dự đoán ban
đầu cho mô hình, thường là giá trị trung bình của các mục tiêu (target values)
trong tập dữ liệu huấn luyện.
● Xây dựng cây quyết định yếu: Tiếp theo, ta xây dựng một cây quyết định yếu
trên tập dữ liệu huấn luyện. Cây quyết định yếu là một cây quyết định đơn giản
có thể có hạn chế về độ sâu hoặc số lượng nút lá.
● Gradient boosting và điều chỉnh cây quyết định yếu: Sau khi xây dựng cây
quyết định yếu, ta tính toán gradient (đạo hàm riêng) của hàm mất mát (loss
function) để điều chỉnh cây quyết định yếu. Quá trình này giúp giảm thiểu sai số
dự đoán của mô hình.
● Tính toán hệ số tối ưu: Hệ số tối ưu (optimal coefficient) được tính toán bằng
cách sử dụng phương pháp tối ưu hóa, thường là gradient descent, để giảm sai
số dự đoán của cây quyết định yếu trên tập dữ liệu huấn luyện.
● Cộng dồn giá trị dự đoán: Giá trị dự đoán của cây quyết định yếu nhân với hệ số
tối ưu được cộng vào giá trị dự đoán ban đầu. Quá trình này giúp tăng cường mô
hình dự đoán và tạo ra một giá trị dự đoán cuối cùng chính xác hơn.
Cat Boost Regressor có các tính năng đặc biệt như xử lý dữ liệu rời rạc, xử lý giá trị
thiếu, xử lý dữ liệu hạng mục, xử lý biến đổi phi tuyến và kiểm soát overfitting. Nó là
một công cụ mạnh mẽ trong lĩnh vực dự đoán và hồi quy.
23

R-squared: 0.7773713377199317
Hình 18: Đồ thị training loss của mô hình Cat Boost Regression Regression
Hình 19: Đồ thị phân bố sai số giá dự đoán và giá thực tế của mô hình Gradient Boosting Regression
24
Hình 20: Đồ thị giá dự đoán và giá thực tế của mô hình Gradient Boosting Regression
4.6. So sánh kết quả các mô hình
Hình 21: Biểu đồ giá trị R-squared của 3 mô hình
25
Hình 22: Biểu đồ giá trị MSE của 3 mô hình
Hình 23: Biểu đồ so sánh phân bổ sai số tuyệt đối giữa giá dự đoán và giá thực tế của 3 mô hình huấn luyện
26
Hình 24: Biểu đồ so sánh giá thực tế với giá dự đoán của 3 mô hình huấn luyện
Hình 25: Biểu đồ so sánh giá thực tế với giá dự đoán của 3 mô hình huấn luyện
27
5. Kết luận & hướng phát triển

Kết luận:
Trong quá trình xây dựng và đánh giá mô hình dự đoán, chúng tôi nhận thấy rằng
mô hình hiện tại vẫn còn thiếu sốt và chưa đạt độ chính xác cao. Có một số lý do có thể
dẫn đến tình trạng này:
 Dữ liệu không đủ: Tập dữ liệu huấn luyện có thể không đủ lớn hoặc không đại diện
cho đầy đủ các trường hợp trong thực tế. Điều này có thể làm giảm khả năng tổng
quát hóa của mô hình và gây ra hiện tượng underfitting.
 Thiếu tinh chỉnh tham số: Các tham số của mô hình có thể chưa được tinh chỉnh
một cách tốt nhất. Việc điều chỉnh các tham số như learning rate, số lượng cây
quyết định, độ sâu cây và các tham số khác có thể cải thiện hiệu suất của mô hình.
 Vấn đề với đặc trưng: Có thể có những đặc trưng trong dữ liệu mà mô hình chưa
thể hiện tốt. Việc thêm hoặc loại bỏ đặc trưng, thử nghiệm và tìm hiểu các biến thể
khác nhau có thể cải thiện kết quả.
Hướng phát triển:
Dựa trên quá trình xây dựng mô hình và đánh giá, chúng tôi nhận thấy rằng còn
một số hướng phát triển để cải thiện mô hình dự đoán. Dưới đây là một số gợi ý:
Tăng cường tập dữ liệu: Nếu tập dữ liệu hiện tại không đủ lớn, chúng ta có thể
tìm cách thu thập thêm dữ liệu hoặc tạo dữ liệu nhân tạo để tăng cường tập dữ liệu
huấn luyện. Điều này có thể giúp mô hình học được một phạm vi đa dạng hơn của các
mẫu và đặc trưng.
 Tinh chỉnh tham số: Chúng ta có thể thử nghiệm và tinh chỉnh các tham số của mô
hình để tìm ra cấu hình tốt nhất. Các tham số như learning rate, số lượng cây quyết
định, độ sâu cây, và các tham số khác có thể ảnh hưởng đáng kể đến hiệu suất của
mô hình.
 Sử dụng kỹ thuật tăng cường dữ liệu (data augmentation): Kỹ thuật tăng cường dữ
liệu có thể giúp mô hình học được các biến thể và đặc trưng mới từ dữ liệu hiện có.
Điều này có thể cải thiện khả năng tổng quát hóa của mô hình và giảm thiểu
overfitting.
 Sử dụng mô hình khác: Ngoài GradientBoostingRegressor, chúng ta cũng có thể
thử nghiệm với các mô hình khác như Random Forest, Support Vector Regression
(SVR), hoặc mạng neural để so sánh hiệu suất và chọn mô hình tốt nhất cho bài
toán dự đoán.
28
1. Kết hợp mô hình: Thay vì sử dụng một mô hình đơn lẻ, chúng ta có thể kết hợp
nhiều mô hình lại với nhau để tận dụng ưu điểm của từng mô hình. Các kỹ thuật
như kết hợp dự báo (ensemble methods) và stacking có thể được áp dụng để cải
thiện dự đoán.
2. Kiểm tra và đánh giá thêm: Chúng ta có thể tiếp tục kiểm tra và đánh giá mô
hình trên các tập dữ liệu mới để đảm bảo tính ổn định và khả năng tổng quát hóa
của nó. Đồng thời, chúng ta cũng nên sử dụng các phương pháp đánh giá khác
nhau như cross-validation để đảm bảo tính đáng tin cậy của kết quả đánh giá.
Tóm lại, việc phát triển mô hình dự đoán là một quá trình liên tục và đòi hỏi sự thử
nghiệm, tinh chỉnh và cải tiến liên tục. Bằng cách áp dụng các hướng phát triển được
đề xuất và tiếp tục nghiên cứu, chúng ta có thể xây dựng một mô hình dự đoán chính
xác và đáng tin cậy cho bài toán của mình.
Tài liệu tham khảo

1. https://machinelearningcoban.com/
2. https://scikit-learn.org/stable/modules/linear_model.html#ordinary-least-squares
3. https://github.com/akthammomani/Menara-App-Predict-House-Price-CA
4. https://phamdinhkhanh.github.io/deepai-book/ch_ml/index_FeatureEngineering.html
29

KHDL TieuLuan-1

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

KHDL TieuLuan-1

Uploaded by

Copyright:

Available Formats

ĐẠI HỌC ĐÀ NẴNG

TRƯỜNG ĐẠI HỌC BÁCH KHOA

TIỂU LUẬN CUỐI KỲ

Họ Và Tên Sinh Viên: Lớp Học Phần

Nguyễn Thanh Hoàng

Nguyễn Hoàng Quân 20Nh.14

Lê Hữu Đức Huy

Trần Gia Huy

GVHD: TS.Phạm Công Thắng

BẢNG PHÂN CÔNG NHIỆM VỤ

DANH MỤC HÌNH ẢNH

DANH MỤC BẢNG BIỂU

Bảng 1: Kiểu dữ liệu của các đặc trưng.................................................................8

NỘI DUNG BÁO CÁO

2. Thu thập và mô tả dữ liệu

Hình 1: Thông tin hiển thị trên website

Hình 2: Cấu trúc phần thông tin của website

Hình 3: Kết quả thu thập dữ liệu

Đặc trưng name price material size category

- Số mẫu dữ liệu trống của dữ liệu:

Dữ liệu trống 0 453 717 190 0

- Các thống kê mô tả về tập dữ liệu:

3.1. Làm sạch, chuẩn hóa dữ liệu

3.3. Trực quan hóa dữ liệu

Hình 6: Biểu đồ giá trung bình của từng vật liệu

Hình 7: Biểu đồ giá trung bình của từng danh mục

4. Mô hình hóa dữ liệu

4.1. Các thông số đánh giá mô hình

4.2. Phân chia dữ liệu

4.3. Linear Regression

- Y là biến phụ thuộc (biến mục tiêu)

4.3.2. Kết quả thực thi mô hình

Hình 13: Biểu đồ giá thực tế so với giá dự đoán

4.4. Gradient Boosting Regressor

Đồ thị sai số tuyệt đối giữa giá dự đoán và giá thực tế

Hình 16: Biểu đồ dự đoán giá thực tế so với giá dự đoán

Đồ thị giữa giá dự đoán và giá thực tế

4.5. Cat Boost Regressionion

4.5.2. Kết quả thực thi mô hình

4.6. So sánh kết quả các mô hình

Hình 21: Biểu đồ giá trị R-squared của 3 mô hình

Hình 22: Biểu đồ giá trị MSE của 3 mô hình

5. Kết luận & hướng phát triển

Tài liệu tham khảo

You might also like