Professional Documents
Culture Documents
Nguyễn Bá Dương - 21810310051 - D16CNPM1
Nguyễn Bá Dương - 21810310051 - D16CNPM1
Đ Ề TÀI:
BÀI TẬP 1: XỬ LÝ BỘ DỮ LIỆU
Lớp : D16CNPM1
Khóa : 2021-2026
Hình 1: Xác định biến và giá trị bị thiếu trong từng cột trong tập dữ liệu
- Làm sạch tập dữ liệu để xóa/vá các bản ghi/giá trị bị thiếu và ghi lại tất cả các
thay đổi
Trong bài toán dự đoán doanh số bán hàng của các sản phẩm trong cửa hàng, mức độ
liên quan của từng biến độc lập với biến phụ thuộc (doanh số bán hàng) sẽ đóng vai trò quan
trọng trong việc hiểu và dự đoán hiệu quả.
Mối quan hệ giữa các biến: Biểu đồ thể hiện mối quan hệ giữa các biến độc lập
(ItemWeight, Item Visibility, Item MRP) và biến phụ thuộc (Item Outlet Sales).
+ Mối quan hệ giữa các biến không hoàn toàn tuyến tính.
+ Mức độ liên quan của từng biến độc lập đối với việc dự đoán biến phụ thuộc là khác nhau.
- Mức độ liên quan của từng biến độc lập:
*Item Weight: Biến này có mối liên quan tương đối mạnh với biến phụ thuộc. Khi trọng
lượng sản phẩm tăng, doanh số bán hàng có xu hướng tăng.
+ Phân tích chi tiết: Biểu đồ cho thấy khi trọng lượng sản phẩm tăng từ 0 đến 2000,
doanh số bán hàng tăng đáng kể. Khi trọng lượng sản phẩm tăng từ 2000 đến 4000,
doanh số bán hàng vẫn tăng, nhưng mức độ tăng chậm lại. Khi trọng lượng sản phẩm
tăng trên 4000, doanh số bán hàng có thể giảm.
+ Lý giải: Trọng lượng sản phẩm ảnh hưởng đến doanh số bán hàng thông qua nhận thức
về chất lượng, nhưng cũng tăng chi phí vận chuyển và lưu trữ.
*Item Visibility: Biến này có mối liên quan trung bình với biến phụ thuộc. Khi mức độ
hiển thị của sản phẩm tăng, doanh số bán hàng có xu hướng tăng, nhưng mức độ tăng
không đáng kể như Item Weight.
+ Phân tích chi tiết: Biểu đồ cho thấy khi mức độ hiển thị của sản phẩm tăng từ 0 đến
0.1, doanh số bán hàng tăng. Khi mức độ hiển thị của sản phẩm tăng trên 0.1, doanh số
bán hàng không thay đổi đáng kể.
+ Lý giải: Khi sản phẩm được hiển thị nhiều hơn, khách hàng có nhiều khả năng nhìn
thấy sản phẩm hơn, dẫn đến doanh số bán hàng cao hơn.
*Item MRP: Biến này có mối liên quan yếu với biến phụ thuộc. Khi giá bán sản phẩm
tăng, doanh số bán hàng có xu hướng giảm.
+ Phân tích chi tiết: Biểu đồ cho thấy khi giá bán sản phẩm tăng từ 50 đến 100, doanh số bán
hàng giảm. Khi giá bán sản phẩm tăng trên 100, doanh số bán hàng có thể giảm mạnh.
+ Lý giải: Giá bán sản phẩm ảnh hưởng trực tiếp đến khả năng chi trả của khách hàng.
Khi giá bán sản phẩm tăng, khách hàng có ít khả năng mua sản phẩm hơn.
- So sánh mức độ liên quan của các biến độc lập: Biến độc lập có ảnh hưởng lớn nhất
đến biến phụ thuộc là Item Weight. Biến độc lập có ảnh hưởng ít nhất đến biến phụ thuộc
là Item MRP.
- Mối quan hệ giữa các biến: Biểu đồ thể hiện mối quan hệ giữa các biến độc lập
(Outlet Size, Item Fat Content) và biến phụ thuộc (Item Outlet Sales).
+ Mối quan hệ giữa các biến không hoàn toàn tuyến tính.
+ Mức độ liên quan của từng biến độc lập đối với việc dự đoán biến phụ thuộc khác nhau.
- Mức độ liên quan của từng biến độc lập:
*Outlet Size: Biến này có mối liên quan tương đối mạnh với biến phụ thuộc. Khi kích
thước cửa hàng tăng, doanh số bán hàng có xu hướng tăng.
+ Phân tích chi tiết: Biểu đồ cho thấy khi kích thước cửa hàng tăng từ nhỏ đến trung bình,
doanh số bán hàng tăng đáng kể. Khi kích thước cửa hàng tăng từ trung bình đến lớn,
doanh số bán hàng vẫn tăng, nhưng mức độ tăng chậm lại.
+ Lý giải: Kích thước cửa hàng ảnh hưởng đến trưng bày và thu hút khách hàng. Cửa
hàng lớn có thể trưng bày nhiều sản phẩm và thu hút khách hàng hơn.
*Item Fat Content: Biến này có mối liên quan trung bình với biến phụ thuộc. Khi hàm
lượng chất béo trong sản phẩm tăng, doanh số bán hàng có xu hướng giảm.
+ Phân tích chi tiết: Biểu đồ cho thấy khi hàm lượng chất béo trong sản phẩm tăng từ
thấp đến trung bình, doanh số bán hàng giảm. Khi hàm lượng chất béo trong sản phẩm
tăng từ trung bình đến cao, doanh số bán hàng giảm mạnh.
+ Lý giải: Hàm lượng chất béo ảnh hưởng đến nhận thức sức khỏe của sản phẩm. Sản
phẩm ít chất béo được xem là tốt cho sức khỏe, làm tăng doanh số bán hàng.
- So sánh mức độ liên quan của các biến độc lập: Biến độc lập có ảnh hưởng lớn nhất
đến biến phụ thuộc là Outlet Size. Biến độc lập có ảnh hưởng ít nhất đến biến phụ thuộc
là Item Fat Content.
5. Phát triển năm 5 giả thuyết ở cấp độ cửa hàng hoặc cấp độ sản phẩm
Dựa trên nhận xét về mối quan hệ giữa các biến độc lập và biến phụ thuộc, chúng ta có
thể phát triển năm giả thuyết ở cấp độ cửa hàng hoặc cấp độ sản phẩm như sau:
- Cửa hàng có trọng lượng trung bình cao hơn có doanh số bán hàng tốt hơn: Điều này
có thể là do sản phẩm nặng thường được xem là chất lượng cao hơn và thu hút nhiều
khách hàng hơn.
- Việc trưng bày sản phẩm ảnh hưởng đến doanh số bán hàng: Điều này có thể đòi hỏi
các chiến lược trưng bày sản phẩm hiệu quả để thu hút sự chú ý của khách hàng và tăng
cơ hội mua hàng.
- Sản phẩm có giá bán cao thường có doanh số bán hàng thấp hơn: Doanh số bán hàng
sẽ giảm đi do sự hạn chế về khả năng chi trả của người tiêu dùng. Điều này có thể đòi
hỏi sự cân nhắc cẩn thận khi đưa ra chiến lược giá cả để đảm bảo sự cân bằng giữa lợi
nhuận và doanh số bán hàng.
- Cửa hàng có kích thước lớn hơn thường có doanh số bán hàng cao hơn: Các cửa hàngcó
diện tích lớn hơn có thể cung cấp một lựa chọn sản phẩm đa dạng và thu hút nhiều khách
hàng hơn.
- Sản phẩm có chất lượng tốt hơn thường có doanh số bán hàng cao hơn: Các sản phẩm
có chất lượng tốt hơn, được đánh giá cao hơn từ khách hàng, sẽ có doanh số bán hàng
cao hơn.
II. Huấn luyện và thử nghiệm dữ liệu
1. Tạo một bản sao của trang tính mẫu trong tệp BigMart_Data.csv và đổi tên trang
tính mới thành pre-processing.csv
III. Thảo luận về loại biến đầu ra (tức là biến phụ thuộc) được dự đoán
Trong bài toán dự đoán doanh số bán hàng của các cửa hàng, biến đầu ra là doanh
số bán hàng của mỗi cửa hàng. Vì biến này phản ánh số tiền cụ thể mà mỗi cửa hàng bán
được và có thể nhận giá trị trong một phạm vi bất kỳ, nên ta nên coi nó là biến liên tục.
- Ưu điểm của việc coi biến đầu ra là biến liên tục:
+ Thông tin chi tiết: Biến liên tục giữ thông tin chi tiết về doanh số bán hàng của mỗi
cửa hàng, cho phép mô hình dự đoán chính xác hơn.
+ Tính linh hoạt: Biến liên tục cho phép có sự biến động mạnh mẽ trong doanh số bán
hàng, không giới hạn trong các hạng mục cố định.
+ Phản ánh sự đa dạng: Biến liên tục phản ánh sự đa dạng về số tiền bán hàng của các
cửa hàng, từ nhỏ đến lớn.
- Nhược điểm của việc coi biến đầu ra là biến liên tục:
+ Đòi hỏi xử lý đặc biệt: Các thuật toán dự đoán dành cho biến liên tục thường đòi hỏi
xử lý đặc biệt hơn so với biến phân loại, bao gồm việc xử lý ngoại lai và kiểm soát
overfitting.
+ Yêu cầu dữ liệu lớn: Các mô hình dự đoán cho biến liên tục thường yêu cầu dữ liệu
lớn để huấn luyện một cách hiệu quả và đảm bảo độ chính xác của dự đoán.
+ Độ phức tạp cao: Một số mô hình dự đoán cho biến liên tục có độ phức tạp cao, đặc
biệt là khi cần xử lý mối quan hệ phi tuyến tính hoặc các yếu tố ngoại lai.
IV.Chứng minh một số giá trị kinh doanh có thể đạt được từ khả năng tự động dự
đoán doanh số bán hàng dự kiến của một sản phẩm
Khả năng tự động dự đoán doanh số bán hàng dự kiến của một sản phẩm có thể
mang lại nhiều giá trị kinh doanh, tối ưu hóa lợi nhuận và nâng cao khả năng cạnh tranh
trong thị trường bán lẻ. Một số giá trị kinh doanh có thể đạt được:
+ Tối ưu hóa hàng tồn kho để tránh lãng phí và đảm bảo đủ hàng hóa cho khách hàng.
+Lập kế hoạch marketing cho từng sản phẩm để tăng doanh số và tiết kiệm chi phí.
+ Định giá sản phẩm hợp lý để tối ưu hóa lợi nhuận và giữ chân khách hàng.
+ Cải thiện dịch vụ khách hàng bằng cách dự đoán nhu cầu và cung cấp hàng hóa phù hợp.
+ Tăng cường khả năng cạnh tranh bằng cách đưa ra quyết định kinh doanh hiệu quả và
cung cấp dịch vụ tốt hơn.
Ngoài ra, dự đoán doanh số bán hàng còn mang lại những lợi ích khác như: Giảm
thiểu rủi ro kinh doanh, tối ưu hóa việc sử dụng nguồn nhân lực, cải thiện hiệu quả hoạt
động của chuỗi cửa hàng.
V. Tài liệu tham khảo
1. NYC Data Science Academy: Fraud Detection - Detecting Fraud from Customer
Transactions
2. Business Analysis Training Center: Data Cleaning
3. Wikipedia: Hồi quy tuyến tính và Hồi quy phi tuyến tính
4. OFFIDOCS: 10 impactful sales data analysis examples to inform strategy
5. Mastering Data Analytics: Biến liên tục