Professional Documents
Culture Documents
KHDL TieuLuan-1
KHDL TieuLuan-1
ĐỀ TÀI:
DỰ ĐOÁN GIÁ ĐỒ DÙNG NỘI THẤT VÀ TRANG TRÍ
Nhóm 2
ĐÀ NẴNG, 05/2023
KHDL - Dự đoán giá đồ dùng nội thất và trang trí
TÓM TẮT
Đề tài dự đoán giá đồ dùng nội thất là một nhiệm vụ trong lĩnh vực dự đoán giá
cả. Mục tiêu của đề tài là xây dựng một mô hình dự đoán giá đồ dùng nội thất dựa trên
các đặc điểm của sản phẩm như kích thước, hình dạng, chất liệu, và các thông tin khác.
Để thực hiện đề tài này, các bước chính có thể bao gồm:
1. Thu thập dữ liệu: Thu thập dữ liệu về các mặt hàng đồ dùng nội thất, bao
gồm giá cả và các thông tin chi tiết về sản phẩm.
2. Tiền xử lý dữ liệu: Xử lý và làm sạch dữ liệu thu thập được, bao gồm loại bỏ
dữ liệu thiếu, chuẩn hóa định dạng và ràng buộc của các trường dữ liệu.
3. Phân tích dữ liệu: Phân tích các đặc điểm của sản phẩm và tìm hiểu mối
quan hệ giữa các đặc điểm này và giá cả.
4. Xây dựng mô hình: Sử dụng các thuật toán máy học và kỹ thuật dự đoán để
xây dựng mô hình dự đoán giá đồ dùng nội thất. Các thuật toán phổ biến có thể
là hồi quy tuyến tính, hồi quy tuyến tính đa biến, hay các mô hình học máy khác
như cây quyết định, máy vector hỗ trợ, hay mạng nơ-ron.
5. Đánh giá và tinh chỉnh mô hình: Đánh giá hiệu suất của mô hình dự đoán
bằng cách sử dụng các phương pháp đánh giá như độ chính xác, sai số, hay hệ số
xác định R-squared. Tinh chỉnh mô hình để cải thiện hiệu suất dự đoán.
6. Dự đoán giá đồ dùng nội thất: Sử dụng mô hình đã xây dựng để dự đoán giá
cả của các mặt hàng đồ dùng nội thất dựa trên các đặc điểm của sản phẩm.
1
Nhóm 2: Thanh Hoàng – Hoàng Quân – Đức Huy – Gia Huy
KHDL - Dự đoán giá đồ dùng nội thất và trang trí
Sinh viên thực hiện Các nhiệm vụ Tự đánh giá theo 3 mức
(Đã hoàn thành/Chưa hoàn
thành/Không triển khai)
Nguyễn Thanh Hoàng Thu thập dữ liệu Đã hoàn thành
Trích xuất đặc trưng
Viết báo cáo
Nguyễn Hoàng Quân Mô hình hóa dữ liệu: Đã hoàn thành
Gradient Boosting
Regression và Cat Boost
Regressionion
Viết báo cáo
Trần Gia Huy Mô hình hóa dữ liệu: Linear Đã hoàn thành
Regression
Viết slide
Lê Hữu Đức Huy Trích xuất đặc trưng Đã hoàn thành
Viết báo cáo
2
Nhóm 2: Thanh Hoàng – Hoàng Quân – Đức Huy – Gia Huy
KHDL - Dự đoán giá đồ dùng nội thất và trang trí
MỤC LỤC
TÓM TẮT................................................................................................................................................1
BẢNG PHÂN CÔNG NHIỆM VỤ.........................................................................................................2
MỤC LỤC...............................................................................................................................................3
DANH MỤC HÌNH ẢNH.......................................................................................................................4
DANH MỤC BẢNG BIỂU.....................................................................................................................6
NỘI DUNG BÁO CÁO...........................................................................................................................7
1. Giới thiệu....................................................................................................................................7
2. Thu thập và mô tả dữ liệu...........................................................................................................7
2.1. Thu thập dữ liệu.......................................................................................................................7
2.2. Mô tả dữ liệu............................................................................................................................9
3. Trích xuất đặc trưng.................................................................................................................10
3.1. Làm sạch, chuẩn hóa dữ liệu..................................................................................................10
3.1.1. Xử lý dữ liệu:..................................................................................................................10
3.1.2. Giảm chiều dữ liệu...................................................................................................11
3.2. Lựa chọn đặc trưng................................................................................................................11
4. Mô hình hóa dữ liệu......................................................................................................................15
4.1. Các thông số đánh giá mô hình..............................................................................................15
4.2. Phân chia dữ liệu....................................................................................................................16
4.3. Linear Regression..................................................................................................................16
4.3.1. Cơ sở lý thuyết................................................................................................................16
4.3.2. Kết quả thực thi mô hình................................................................................................17
4.4. Gradient Boosting Regressor.................................................................................................20
4.4.1. Cơ sở lý thuyết................................................................................................................20
4.4.2. Kết quả thực thi mô hình................................................................................................20
4.5. Cat Boost Regressionion........................................................................................................23
4.5.1. Cơ sở lý thuyết................................................................................................................23
4.5.2. Kết quả thực thi mô hình................................................................................................24
4.6. So sánh kết quả các mô hình..................................................................................................25
5. Kết luận & hướng phát triển..........................................................................................................28
Tài liệu tham khảo.............................................................................................................................29
3
Nhóm 2: Thanh Hoàng – Hoàng Quân – Đức Huy – Gia Huy
KHDL - Dự đoán giá đồ dùng nội thất và trang trí
4
Nhóm 2: Thanh Hoàng – Hoàng Quân – Đức Huy – Gia Huy
KHDL - Dự đoán giá đồ dùng nội thất và trang trí
Hình 23: Biểu đồ so sánh phân bổ sai số tuyệt đối giữa giá dự đoán và giá thực tế
của 3 mô hình huấn luyện.........................................................................................26
Hình 24: Biểu đồ so sánh giá thực tế với giá dự đoán của 3 mô hình huấn luyện.......
..................................................................................................................................27
Hình 25: Biểu đồ so sánh giá thực tế với giá dự đoán của 3 mô hình huấn luyện...27
6
Nhóm 2: Thanh Hoàng – Hoàng Quân – Đức Huy – Gia Huy
KHDL - Dự đoán giá đồ dùng nội thất và trang trí
1. Giới thiệu
Việc dự đoán giá đồ dùng nội thất có thể đem lại nhiều lợi ích trong thực tế. Các nhà sản xuất
và người bán có thể sử dụng mô hình dự đoán giá để xác định mức giá phù hợp cho sản phẩm của
mình, từ đó tối ưu hóa chiến lược kinh doanh và tăng khả năng tiếp cận thị trường. Người tiêu
dùng cũng có thể sử dụng thông tin dự đoán giá để so sánh và lựa chọn những sản phẩm có giá trị
tốt nhất trong phạm vi ngân sách của mình.
Để thực hiện dự đoán giá đồ dùng nội thất, các nghiên cứu thường sử dụng các phương pháp và
công cụ trong lĩnh vực học máy và khai phá dữ liệu. Các đặc trưng có thể được sử dụng bao gồm
thông tin về loại sản phẩm, kích thước, chất liệu, thương hiệu, mô tả sản phẩm và các yếu tố khác
có thể ảnh hưởng đến giá trị của sản phẩm.
7
Nhóm 2: Thanh Hoàng – Hoàng Quân – Đức Huy – Gia Huy
KHDL - Dự đoán giá đồ dùng nội thất và trang trí
- Thông tin cần thiết trên website được viết dưới dạng một thẻ <table>. Nên có thể sử dụng
Beautiful Soup để trích lọc thông tin cần thiết từ các thẻ <div> và <a>. Sau đó nội dung thu
8
Nhóm 2: Thanh Hoàng – Hoàng Quân – Đức Huy – Gia Huy
KHDL - Dự đoán giá đồ dùng nội thất và trang trí
được sẽ được lưu vào một dataframe. Nội dung thu thập bao gồm: name, price, material,
size, category.
- Sau quá trình Crawl data, chúng em đã thu thập được một tập dữ liệu thô 3800 mẫu.
2.2. Mô tả dữ liệu
- Kích thước tập dữ liệu: 3800 mẫu.
- Số đặc trưng của một mẫu dữ liệu: 5 đặc trưng.
9
Nhóm 2: Thanh Hoàng – Hoàng Quân – Đức Huy – Gia Huy
KHDL - Dự đoán giá đồ dùng nội thất và trang trí
Hình 4: Biểu đồ phân bố giá của đồ dùng nội thất và trang trí
- Đa số các mẫu tập trung ở phân khúc giá dưới 30 triệu đồng.
3. Trích xuất đặc trưng
3.1.1. Xử lý dữ liệu:
Cột price khi chúng ta crawl về nó ở dạng string chúng ta cần ép kiểu về kiểu int sau đó
những dữ liệu không đúng định dạng VNĐ thì sẽ được đưa về cho đúng.
Dữ liệu cột size chúng ta có được sẽ bao gồm giá trị: length, width, height, diameter. Nên
chúng ta sẽ tách cột size (string) thành 4 cột length (int), width (int), height (int), diameter
(int). Nếu giá trị nào bị thiếu không có trong size thì ta sẽ cho nó về 0.
Vì dữ liệu cột material quá phức tạp chưa được định dạng nên chúng em sẽ lọc dữ liệu là
lưu vào cột Tag (string).
Trong cột Tag có 414 loại vật liệu, trong đó có rất nhiều vật liệu ít được lặp lại nên chúng
em sẽ chỉ giữ lại những mẫu có Tag lặp lại >= 10 lần.
10
Nhóm 2: Thanh Hoàng – Hoàng Quân – Đức Huy – Gia Huy
KHDL - Dự đoán giá đồ dùng nội thất và trang trí
Hình 5: Biểu đồ số lượng sản phẩm của từng nhãn vật liệu
Trong tập dữ liệu ta loại bỏ những mẫu dữ liệu ngoại lệ hoặc bị trống, tập dữ liệu còn lại
gần 1000 mẫu dữ liệu.
3.1.2. Giảm chiều dữ liệu
Để giảm chi phí tính toán cho mô hình, cũng như cải thiện tốc độ tính toán và giảm thiểu
khả năng quá khớp ‘overfitting’. Việc cần thiết phải làm là giảm chiều dữ liệu, lựa chọn những
đặc trưng cần thiết và loại bỏ đi các đặc trưng gây nhiễu cho mô hình.
Trong đó chúng ta sẽ loại bỏ đi các đặc trưng không cần thiết nữa như material và size.
Tập dữ liệu kết quả trả về 8 đặc trưng để tiếp tục huấn luyện mô hình.
3.2. Lựa chọn đặc trưng
Để thuận lợi cho việc huấn luyện mô hình, chúng ta nên lựa chọn những đặc trưng là số, và
biến đổi một số đặc trưng ở dạng category thành dữ liệu số để phục vụ tính toán. Với mô hình
của nhóm chúng em, sử dụng lựa chọn đặc trưng là số, thêm vào đó biến đổi đặc trưng
material và category của sản phẩm thành đặc trưng có kiểu dữ liệu Integer.
Qua quá trình lựa chọn đặc trưng, tập dữ liệu sau khi lựa chọn có 8 đặc trưng có thể
áp dụng cho việc huấn luyện mô hình.
Sau khi làm sạch và chuẩn hóa dữ liệu thì tập data sẽ gồm 8 đặc trưng:
11
Nhóm 2: Thanh Hoàng – Hoàng Quân – Đức Huy – Gia Huy
KHDL - Dự đoán giá đồ dùng nội thất và trang trí
Đặc trưng name price category length width height diameter tag
Kiểu dữ liệu string int string int int int int string
Bảng 3: Các đặc trưng được chọn để huấn luyện mô hình
12
Nhóm 2: Thanh Hoàng – Hoàng Quân – Đức Huy – Gia Huy
KHDL - Dự đoán giá đồ dùng nội thất và trang trí
Hình 8: Biểu đồ mối quan hệ giữa giá, danh mục và nhãn vật liệu
13
Nhóm 2: Thanh Hoàng – Hoàng Quân – Đức Huy – Gia Huy
KHDL - Dự đoán giá đồ dùng nội thất và trang trí
Trong cùng 1 danh mục thì những sản phẩm được làm từ các vật liệu có giá trung bình
càng cao thì giá sản phẩm đó sẽ càng cao.
Hình 9: Biểu đồ mối quan hệ giữa giá, danh mục và nhãn vật liệu
Trong 1 loại danh mục thì kích thước càng lớn thì giá sản phẩm sẽ càng cao.
Hình 10: Biểu đồ mối quan hệ giữa giá, danh mục và nhãn vật liệu
Trong khi cùng một loại vật liệu thì kích thước càng lớn thì giá sản phẩm sẽ càng cao.
14
Nhóm 2: Thanh Hoàng – Hoàng Quân – Đức Huy – Gia Huy
KHDL - Dự đoán giá đồ dùng nội thất và trang trí
R-squared
R-squared là một thước đo để xác định mức độ phù hợp của mô hình hồi quy
với dữ liệu. Nó cho biết phần trăm phương sai của biến phụ thuộc được mô hình giải
thích. R-squared có giá trị trong khoảng từ 0 đến 1, với 1 cho biết mô hình giải thích
toàn bộ sự biến động của dữ liệu và 0 cho biết mô hình không giải thích được bất kỳ
biến động nào.
Công thức tính R-squared dựa trên tổng biệt phương của mô hình (SST) và tổng
biệt phương còn lại sau khi sử dụng mô hình (SSE):
R² = 1 - (SSE / SST)
Trong đó:
● SSE (Sum of Squared Errors) là tổng bình phương của sai số giữa giá trị
thực tế yᵢ và giá trị dự đoán ŷᵢ: SSE = Σ(yᵢ - ŷᵢ)²
● SST (Total Sum of Squares) là tổng bình phương sai số giữa giá trị thực
tế yᵢ và giá trị trung bình của y: SST = Σ(yᵢ - ȳ)², với ȳ là giá trị trung
bình của y.
Giá trị R-squared càng gần 1, mô hình càng phù hợp với dữ liệu. Tuy nhiên, R-
squared không cho biết về độ chính xác tuyệt đối của mô hình và cần được kết hợp với
các phép đo khác để đánh giá toàn diện hiệu suất của mô hình.
15
Nhóm 2: Thanh Hoàng – Hoàng Quân – Đức Huy – Gia Huy
KHDL - Dự đoán giá đồ dùng nội thất và trang trí
17
Nhóm 2: Thanh Hoàng – Hoàng Quân – Đức Huy – Gia Huy
KHDL - Dự đoán giá đồ dùng nội thất và trang trí
Hình 11: Biểu đồ đánh giá dự đoán giá của các sản phẩm
Kết quả kiểm tra mô hình sau khi huấn luyện trên tập dữ liệu kiểm thử. Biểu đồ
bên dưới biểu thị sai số tuyệt đối của giá dự đoán với giá thực tế.
18
Nhóm 2: Thanh Hoàng – Hoàng Quân – Đức Huy – Gia Huy
KHDL - Dự đoán giá đồ dùng nội thất và trang trí
Hình 12: Biểu đồ phân bố sai số giữa giá dự đoán và giá thực tế
Qua biểu đồ ta thấy được sai số khi dự đoán giá nằm đa phần ở mức ở dưới 6 triệu.
Một số sản phẩm bị giá dự đoán sai lệch nhiều
19
Nhóm 2: Thanh Hoàng – Hoàng Quân – Đức Huy – Gia Huy
KHDL - Dự đoán giá đồ dùng nội thất và trang trí
Qua biểu đồ, rất nhiều sản phẩm được dự đoán giá sát với thực tế. Tuy nhiên ta
có thể thấy được một vài đỉnh của đồ thị chênh nhau với giá trị lớn, các điểm này mô
hình đã dự giá bị ảo hơn rất nhiều so với thực tế
20
Nhóm 2: Thanh Hoàng – Hoàng Quân – Đức Huy – Gia Huy
KHDL - Dự đoán giá đồ dùng nội thất và trang trí
Hình 14: Đồ thị training loss của mô hình Gradient Boosting Regression
Hình 15: Biểu đồ phân bố sai số giá thực tế so với giá dự đoán
21
Nhóm 2: Thanh Hoàng – Hoàng Quân – Đức Huy – Gia Huy
KHDL - Dự đoán giá đồ dùng nội thất và trang trí
Hình 17: Đồ thị giá thực tế và giá dự đoán của mô hình Gradient Boosting Regression
22
Nhóm 2: Thanh Hoàng – Hoàng Quân – Đức Huy – Gia Huy
KHDL - Dự đoán giá đồ dùng nội thất và trang trí
23
Nhóm 2: Thanh Hoàng – Hoàng Quân – Đức Huy – Gia Huy
KHDL - Dự đoán giá đồ dùng nội thất và trang trí
Hình 18: Đồ thị training loss của mô hình Cat Boost Regression Regression
Hình 19: Đồ thị phân bố sai số giá dự đoán và giá thực tế của mô hình Gradient Boosting Regression
24
Nhóm 2: Thanh Hoàng – Hoàng Quân – Đức Huy – Gia Huy
KHDL - Dự đoán giá đồ dùng nội thất và trang trí
Hình 20: Đồ thị giá dự đoán và giá thực tế của mô hình Gradient Boosting Regression
25
Nhóm 2: Thanh Hoàng – Hoàng Quân – Đức Huy – Gia Huy
KHDL - Dự đoán giá đồ dùng nội thất và trang trí
Hình 23: Biểu đồ so sánh phân bổ sai số tuyệt đối giữa giá dự đoán và giá thực tế của 3 mô hình huấn luyện
26
Nhóm 2: Thanh Hoàng – Hoàng Quân – Đức Huy – Gia Huy
KHDL - Dự đoán giá đồ dùng nội thất và trang trí
Hình 24: Biểu đồ so sánh giá thực tế với giá dự đoán của 3 mô hình huấn luyện
Hình 25: Biểu đồ so sánh giá thực tế với giá dự đoán của 3 mô hình huấn luyện
27
Nhóm 2: Thanh Hoàng – Hoàng Quân – Đức Huy – Gia Huy
KHDL - Dự đoán giá đồ dùng nội thất và trang trí
28
Nhóm 2: Thanh Hoàng – Hoàng Quân – Đức Huy – Gia Huy
KHDL - Dự đoán giá đồ dùng nội thất và trang trí
1. Kết hợp mô hình: Thay vì sử dụng một mô hình đơn lẻ, chúng ta có thể kết hợp
nhiều mô hình lại với nhau để tận dụng ưu điểm của từng mô hình. Các kỹ thuật
như kết hợp dự báo (ensemble methods) và stacking có thể được áp dụng để cải
thiện dự đoán.
2. Kiểm tra và đánh giá thêm: Chúng ta có thể tiếp tục kiểm tra và đánh giá mô
hình trên các tập dữ liệu mới để đảm bảo tính ổn định và khả năng tổng quát hóa
của nó. Đồng thời, chúng ta cũng nên sử dụng các phương pháp đánh giá khác
nhau như cross-validation để đảm bảo tính đáng tin cậy của kết quả đánh giá.
Tóm lại, việc phát triển mô hình dự đoán là một quá trình liên tục và đòi hỏi sự thử
nghiệm, tinh chỉnh và cải tiến liên tục. Bằng cách áp dụng các hướng phát triển được
đề xuất và tiếp tục nghiên cứu, chúng ta có thể xây dựng một mô hình dự đoán chính
xác và đáng tin cậy cho bài toán của mình.
29
Nhóm 2: Thanh Hoàng – Hoàng Quân – Đức Huy – Gia Huy