You are on page 1of 12

TRƯỜNG ĐẠI HỌC ĐIỆN LỰC

KHOA CÔNG NGHỆ THÔNG TIN

KHAI PHÁ DỮ LIỆU

Đ Ề TÀI:
BÀI TẬP 1: XỬ LÝ BỘ DỮ LIỆU

Sinh viên thực hiện : NGUYỄN BÁ DƯƠNG

Giảng viên hướng dẫn : PGS.TS NGUYỄN HÀ NAM

Ngành : CÔNG NGHỆ THÔNG TIN

Chuyên ngành : CÔNG NGHỆ PHẦN MỀM

Lớp : D16CNPM1

Khóa : 2021-2026

Hà Nội, tháng 3 năm 2024


I. Phân tích dữ liệu
1. Mô tả dữ liệu
*Mô tả dữ liệu:
Tập dữ liệu BigMart chứa thông tin về bán lẻ các sản phẩm trong các cửa hàng
BigMart ở các thành phố khác nhau, chứa 8.523 bản ghi bán hàng (hàng) với 12 cột
(thuộc tính). Dưới đây là mô tả chi tiết về các trường dữ liệu có trong tập dữ liệu này:
- Item_Identifier: Mã định danh của sản phẩm.
- Item_Weight: Trọng lượng của sản phẩm.
- Item_Fat_Content: Thông tin về lượng chất béo trong sản phẩm, có thể là "Low Fat"
hoặc "Regular".
- Item_Visibility: Tỷ lệ diện tích trưng bày sản phẩm trong cửa hàng.
- Item_Type: Loại sản phẩm.
- Item_MRP: Giá bán lẻ tối đa của sản phẩm.
- Outlet_Identifier: Mã định danh của cửa hàng.
- Outlet_Establishment_Year: Năm thành lập của cửa hàng.
- Outlet_Size: Kích thước của cửa hàng, có thể là "Small", "Medium", hoặc "High".
- Outlet_Location_Type: Loại vị trí của cửa hàng, có thể là "Tier 1", "Tier 2", hoặc "Tier
3".
- Outlet_Type: Loại cửa hàng, ví dụ: "Supermarket Type1", "Supermarket Type2",
"Grocery Store", vv.
- Item_Outlet_Sales: Doanh số bán hàng của sản phẩm tại cửa hàng
2. Làm sạch dữ liệu
- Xác định biến và giá trị bị thiếu trong từng cột trong tập dữ liệu

Hình 1: Xác định biến và giá trị bị thiếu trong từng cột trong tập dữ liệu
- Làm sạch tập dữ liệu để xóa/vá các bản ghi/giá trị bị thiếu và ghi lại tất cả các
thay đổi

Hình 2 : Làm sạch dữ liệu


3. Xác định biến
 Biến phụ thuộc: Item_Outlet_Sales
 Kiểu dữ liệu: Liên tục
 Biến độc lập:
1. Item_Identifier
 Kiểu dữ liệu: Danh nghĩa
2. Item_Weight
 Kiểu dữ liệu: Liên tục
3. Item_Fat_Content
 Kiểu dữ liệu: Danh nghĩa
4. Item_Visibility
 Kiểu dữ liệu: Liên tục
5. Item_Type
 Kiểu dữ liệu: Danh nghĩa
6. Item_MRP
 Kiểu dữ liệu: Liên tục
7. Outlet_Identifier
 Kiểu dữ liệu: Danh nghĩa
8. Outlet_Establishment_Year
 Kiểu dữ liệu: Rời rạc
9. Outlet_Size
 Kiểu dữ liệu: Danh nghĩa
10. Outlet_Location_Type
 Kiểu dữ liệu: Danh nghĩa
11. Outlet_Type
 Kiểu dữ liệu: Danh nghĩa
4. Thảo luận về mức độ liên quan của từng biến độc lập đối với việc dự đoán biến phụ
thuộc

Trong bài toán dự đoán doanh số bán hàng của các sản phẩm trong cửa hàng, mức độ
liên quan của từng biến độc lập với biến phụ thuộc (doanh số bán hàng) sẽ đóng vai trò quan
trọng trong việc hiểu và dự đoán hiệu quả.

Mối quan hệ giữa các biến: Biểu đồ thể hiện mối quan hệ giữa các biến độc lập
(ItemWeight, Item Visibility, Item MRP) và biến phụ thuộc (Item Outlet Sales).
+ Mối quan hệ giữa các biến không hoàn toàn tuyến tính.
+ Mức độ liên quan của từng biến độc lập đối với việc dự đoán biến phụ thuộc là khác nhau.
- Mức độ liên quan của từng biến độc lập:
*Item Weight: Biến này có mối liên quan tương đối mạnh với biến phụ thuộc. Khi trọng
lượng sản phẩm tăng, doanh số bán hàng có xu hướng tăng.
+ Phân tích chi tiết: Biểu đồ cho thấy khi trọng lượng sản phẩm tăng từ 0 đến 2000,
doanh số bán hàng tăng đáng kể. Khi trọng lượng sản phẩm tăng từ 2000 đến 4000,
doanh số bán hàng vẫn tăng, nhưng mức độ tăng chậm lại. Khi trọng lượng sản phẩm
tăng trên 4000, doanh số bán hàng có thể giảm.
+ Lý giải: Trọng lượng sản phẩm ảnh hưởng đến doanh số bán hàng thông qua nhận thức
về chất lượng, nhưng cũng tăng chi phí vận chuyển và lưu trữ.
*Item Visibility: Biến này có mối liên quan trung bình với biến phụ thuộc. Khi mức độ
hiển thị của sản phẩm tăng, doanh số bán hàng có xu hướng tăng, nhưng mức độ tăng
không đáng kể như Item Weight.
+ Phân tích chi tiết: Biểu đồ cho thấy khi mức độ hiển thị của sản phẩm tăng từ 0 đến
0.1, doanh số bán hàng tăng. Khi mức độ hiển thị của sản phẩm tăng trên 0.1, doanh số
bán hàng không thay đổi đáng kể.
+ Lý giải: Khi sản phẩm được hiển thị nhiều hơn, khách hàng có nhiều khả năng nhìn
thấy sản phẩm hơn, dẫn đến doanh số bán hàng cao hơn.
*Item MRP: Biến này có mối liên quan yếu với biến phụ thuộc. Khi giá bán sản phẩm
tăng, doanh số bán hàng có xu hướng giảm.
+ Phân tích chi tiết: Biểu đồ cho thấy khi giá bán sản phẩm tăng từ 50 đến 100, doanh số bán
hàng giảm. Khi giá bán sản phẩm tăng trên 100, doanh số bán hàng có thể giảm mạnh.
+ Lý giải: Giá bán sản phẩm ảnh hưởng trực tiếp đến khả năng chi trả của khách hàng.
Khi giá bán sản phẩm tăng, khách hàng có ít khả năng mua sản phẩm hơn.
- So sánh mức độ liên quan của các biến độc lập: Biến độc lập có ảnh hưởng lớn nhất
đến biến phụ thuộc là Item Weight. Biến độc lập có ảnh hưởng ít nhất đến biến phụ thuộc
là Item MRP.

Hình 3: Biểu đồ mối quan hệ giữa các biến phân loại

- Mối quan hệ giữa các biến: Biểu đồ thể hiện mối quan hệ giữa các biến độc lập
(Outlet Size, Item Fat Content) và biến phụ thuộc (Item Outlet Sales).
+ Mối quan hệ giữa các biến không hoàn toàn tuyến tính.
+ Mức độ liên quan của từng biến độc lập đối với việc dự đoán biến phụ thuộc khác nhau.
- Mức độ liên quan của từng biến độc lập:
*Outlet Size: Biến này có mối liên quan tương đối mạnh với biến phụ thuộc. Khi kích
thước cửa hàng tăng, doanh số bán hàng có xu hướng tăng.
+ Phân tích chi tiết: Biểu đồ cho thấy khi kích thước cửa hàng tăng từ nhỏ đến trung bình,
doanh số bán hàng tăng đáng kể. Khi kích thước cửa hàng tăng từ trung bình đến lớn,
doanh số bán hàng vẫn tăng, nhưng mức độ tăng chậm lại.
+ Lý giải: Kích thước cửa hàng ảnh hưởng đến trưng bày và thu hút khách hàng. Cửa
hàng lớn có thể trưng bày nhiều sản phẩm và thu hút khách hàng hơn.
*Item Fat Content: Biến này có mối liên quan trung bình với biến phụ thuộc. Khi hàm
lượng chất béo trong sản phẩm tăng, doanh số bán hàng có xu hướng giảm.
+ Phân tích chi tiết: Biểu đồ cho thấy khi hàm lượng chất béo trong sản phẩm tăng từ
thấp đến trung bình, doanh số bán hàng giảm. Khi hàm lượng chất béo trong sản phẩm
tăng từ trung bình đến cao, doanh số bán hàng giảm mạnh.
+ Lý giải: Hàm lượng chất béo ảnh hưởng đến nhận thức sức khỏe của sản phẩm. Sản
phẩm ít chất béo được xem là tốt cho sức khỏe, làm tăng doanh số bán hàng.
- So sánh mức độ liên quan của các biến độc lập: Biến độc lập có ảnh hưởng lớn nhất
đến biến phụ thuộc là Outlet Size. Biến độc lập có ảnh hưởng ít nhất đến biến phụ thuộc
là Item Fat Content.
5. Phát triển năm 5 giả thuyết ở cấp độ cửa hàng hoặc cấp độ sản phẩm
Dựa trên nhận xét về mối quan hệ giữa các biến độc lập và biến phụ thuộc, chúng ta có
thể phát triển năm giả thuyết ở cấp độ cửa hàng hoặc cấp độ sản phẩm như sau:
- Cửa hàng có trọng lượng trung bình cao hơn có doanh số bán hàng tốt hơn: Điều này
có thể là do sản phẩm nặng thường được xem là chất lượng cao hơn và thu hút nhiều
khách hàng hơn.
- Việc trưng bày sản phẩm ảnh hưởng đến doanh số bán hàng: Điều này có thể đòi hỏi
các chiến lược trưng bày sản phẩm hiệu quả để thu hút sự chú ý của khách hàng và tăng
cơ hội mua hàng.
- Sản phẩm có giá bán cao thường có doanh số bán hàng thấp hơn: Doanh số bán hàng
sẽ giảm đi do sự hạn chế về khả năng chi trả của người tiêu dùng. Điều này có thể đòi
hỏi sự cân nhắc cẩn thận khi đưa ra chiến lược giá cả để đảm bảo sự cân bằng giữa lợi
nhuận và doanh số bán hàng.
- Cửa hàng có kích thước lớn hơn thường có doanh số bán hàng cao hơn: Các cửa hàngcó
diện tích lớn hơn có thể cung cấp một lựa chọn sản phẩm đa dạng và thu hút nhiều khách
hàng hơn.
- Sản phẩm có chất lượng tốt hơn thường có doanh số bán hàng cao hơn: Các sản phẩm
có chất lượng tốt hơn, được đánh giá cao hơn từ khách hàng, sẽ có doanh số bán hàng
cao hơn.
II. Huấn luyện và thử nghiệm dữ liệu

1. Tạo một bản sao của trang tính mẫu trong tệp BigMart_Data.csv và đổi tên trang
tính mới thành pre-processing.csv

Hình 4: Bản sao trang tính mẫu với tên pre-processing.csv


2. Gán các biến có dữ liệu bị thiếu hoặc không hợp lệ trên bảng tính tiền xử lý. Giảithích
các chiến lược áp đặt và các bước liên quan
Bước 1: Xác định dữ liệu bị thiếu hoặc không hợp lệ: Xác định các biến trong tập dữ liệu
mà có dữ liệu bị thiếu hoặc không hợp lệ. Có thể sử dụng các hàm thống kê hoặc trực
quan hóa dữ liệu để phát hiện các giá trị thiếu hoặc không hợp lệ.
Bước 2: Chọn chiến lược xử lý: Dựa trên tính chất của dữ liệu bị thiếu hoặc không hợp
lệ, chúng ta có thể chọn một trong các chiến lược sau:
-Xóa các bản ghi có dữ liệu bị thiếu hoặc không hợp lệ.
-Thay thế các giá trị thiếu hoặc không hợp lệ bằng các giá trị thống kê như trung bình,
trung vị hoặc phân phối chứa giá trị xuất hiện nhiều nhất.
-Sử dụng các kỹ thuật máy học để dự đoán và điền vào các giá trị thiếu.
Sau khi xử lý dữ liệu bị thiếu hoặc không hợp lệ, quan trọng là ghi lại các thay đổi đã
thực hiện trên bảng tính tiền xử lý. Điều này giúp chúng ta theo dõi và tái tạo lại quá
trình xử lý khi cần thiết.
3. Tạo dữ liệu phân loại có ý nghĩa từ dữ liệu số hiện có trên bảng tính tiền xử lý. Giải thích
lý do đằng sau và các bước tiền xử lý liên quan
- Xác định giá trị bị thiếu hoặc không hợp lệ bằng cách duyệt qua từng cột và sử dụng
các phương pháp như isnull(), notnull(), phân vị, và độ lệch chuẩn.
- Xử lý giá trị bị thiếu bằng cách điền giá trị mean, median hoặc mode của cột tương
ứng, và sử dụng các kỹ thuật xử lý ngoại lai như capping (đặt ngưỡng cho các giá trị cao
hoặc thấp) hoặc loại bỏ giá trị không hợp lệ.
- Tạo biến phân loại bằng cách chia dữ liệu thành các khoảng giá trị có ý nghĩa sử dụng
pd.cut() và gán nhãn cho mỗi khoảng.
- Áp dụng phân loại và gán giá trị mới cho mỗi quan sát, sau đó kiểm tra lại tập dữ liệu
để đảm bảo là không còn giá trị bị thiếu hoặc không hợp lệ.
- Đánh giá hiệu suất của quá trình tiền xử lý bằng cách sử dụng các phương pháp thống
kê hoặc mô hình hóa.
4. Chia 70% dữ liệu và lưu dưới dạng train.csv. Thu thập 30% dữ liệu còn lại, xóa thuộc
tính mục tiêu dự đoán và lưu dưới dạng test.csv. Đổi tên pre-processing.csv, train.csv và
test.csv lần lượt thành BigMart_pre_oo.csv, BigMart_tra_oo.csv và BigMart_tes_oo.csv

Hình 5: Phân chia dữ liệu

III. Thảo luận về loại biến đầu ra (tức là biến phụ thuộc) được dự đoán
Trong bài toán dự đoán doanh số bán hàng của các cửa hàng, biến đầu ra là doanh
số bán hàng của mỗi cửa hàng. Vì biến này phản ánh số tiền cụ thể mà mỗi cửa hàng bán
được và có thể nhận giá trị trong một phạm vi bất kỳ, nên ta nên coi nó là biến liên tục.
- Ưu điểm của việc coi biến đầu ra là biến liên tục:
+ Thông tin chi tiết: Biến liên tục giữ thông tin chi tiết về doanh số bán hàng của mỗi
cửa hàng, cho phép mô hình dự đoán chính xác hơn.
+ Tính linh hoạt: Biến liên tục cho phép có sự biến động mạnh mẽ trong doanh số bán
hàng, không giới hạn trong các hạng mục cố định.
+ Phản ánh sự đa dạng: Biến liên tục phản ánh sự đa dạng về số tiền bán hàng của các
cửa hàng, từ nhỏ đến lớn.
- Nhược điểm của việc coi biến đầu ra là biến liên tục:
+ Đòi hỏi xử lý đặc biệt: Các thuật toán dự đoán dành cho biến liên tục thường đòi hỏi
xử lý đặc biệt hơn so với biến phân loại, bao gồm việc xử lý ngoại lai và kiểm soát
overfitting.
+ Yêu cầu dữ liệu lớn: Các mô hình dự đoán cho biến liên tục thường yêu cầu dữ liệu
lớn để huấn luyện một cách hiệu quả và đảm bảo độ chính xác của dự đoán.
+ Độ phức tạp cao: Một số mô hình dự đoán cho biến liên tục có độ phức tạp cao, đặc
biệt là khi cần xử lý mối quan hệ phi tuyến tính hoặc các yếu tố ngoại lai.
IV.Chứng minh một số giá trị kinh doanh có thể đạt được từ khả năng tự động dự
đoán doanh số bán hàng dự kiến của một sản phẩm
Khả năng tự động dự đoán doanh số bán hàng dự kiến của một sản phẩm có thể
mang lại nhiều giá trị kinh doanh, tối ưu hóa lợi nhuận và nâng cao khả năng cạnh tranh
trong thị trường bán lẻ. Một số giá trị kinh doanh có thể đạt được:
+ Tối ưu hóa hàng tồn kho để tránh lãng phí và đảm bảo đủ hàng hóa cho khách hàng.
+Lập kế hoạch marketing cho từng sản phẩm để tăng doanh số và tiết kiệm chi phí.
+ Định giá sản phẩm hợp lý để tối ưu hóa lợi nhuận và giữ chân khách hàng.
+ Cải thiện dịch vụ khách hàng bằng cách dự đoán nhu cầu và cung cấp hàng hóa phù hợp.
+ Tăng cường khả năng cạnh tranh bằng cách đưa ra quyết định kinh doanh hiệu quả và
cung cấp dịch vụ tốt hơn.
Ngoài ra, dự đoán doanh số bán hàng còn mang lại những lợi ích khác như: Giảm
thiểu rủi ro kinh doanh, tối ưu hóa việc sử dụng nguồn nhân lực, cải thiện hiệu quả hoạt
động của chuỗi cửa hàng.
V. Tài liệu tham khảo
1. NYC Data Science Academy: Fraud Detection - Detecting Fraud from Customer
Transactions
2. Business Analysis Training Center: Data Cleaning
3. Wikipedia: Hồi quy tuyến tính và Hồi quy phi tuyến tính
4. OFFIDOCS: 10 impactful sales data analysis examples to inform strategy
5. Mastering Data Analytics: Biến liên tục

You might also like