You are on page 1of 9

Xư lý dữ liệu – Nhóm 2

1) Giải thích các thuộc tính

1. y: Biến target (biến mục tiêu), đây là biến mà bạn muốn dự đoán hoặc phân
loại. Trong mô tả bạn đã cung cấp, nó có thể liên quan đến việc dự đoán xem
khách hàng có đăng ký khoản tiền gửi có kỳ hạn (term deposit) hay không.
2. age: Tuổi của khách hàng.
3. job: Nghề nghiệp của khách hàng.
4. marital: Tình trạng hôn nhân của khách hàng.
5. education: Trình độ học vấn của khách hàng.
6. default: Tình trạng tín dụng (nợ) của khách hàng.
7. housing: Tình trạng sở hữu nhà (housing loan) của khách hàng.
8. loan: Tình trạng khoản vay cá nhân (personal loan) của khách hàng.
9. contact: Hình thức liên lạc với khách hàng.
10. month: Tháng của cuộc gọi điện thoại cuối cùng.
11. day_of_week: Ngày trong tuần của cuộc gọi điện thoại cuối cùng.
12. duration: Thời lượng của cuộc gọi điện thoại cuối cùng (đơn vị: giây).
13. campaign: Số lần liên lạc đã thực hiện đối với khách hàng trong chiến dịch
này.
14. pdays: Số ngày kể từ khi khách hàng được liên hệ lần cuối đến lúc thực hiện
chiến dịch.
15. previous: Số lần liên lạc đã thực hiện đối với khách hàng trước chiến dịch.
16. poutcome: Kết quả của chiến dịch tiếp thị trước đó.
17. emp.var.rate: Tỷ lệ biến động của tỷ lệ thất nghiệp.
18. cons.price.idx: Chỉ số giá tiêu dùng.
19. cons.conf.idx: Chỉ số sự tin tưởng của người tiêu dùng.
20. euribor3m: Tỷ lệ lãi suất tham chiếu Euribor 3 tháng.
21. nr.employed: Số lượng người làm việc.

Mục tiêu: Bộ dữ liệu này chứa thông tin về khách hàng và các thông tin liên quan
đến các cuộc gọi tiếp thị trực tiếp của một ngân hàng và dự đoán xem một khách
hàng có đăng ký một khoản tiền gửi có kỳ hạn (term deposit) hay không dựa trên
thông tin về hồ sơ của khách hàng.
2) Tiền xử lý

2.1 Chọn dữ liệu từ datasets và xuất ra bảng dữ liệu.

Nhận xét: Bảng trên có 4.8% dữ liệu bị mất. Dữ liệu bị mất này đều nằm ở cột
pdays (Số ngày kể từ khi khách hàng được liên hệ lần cuối đến lúc thực hiện chiến
dịch.)

2.2 Làm sạch dữ liệu - Impute


Dùng Impute để chỉnh sửa dữ liệu trong thuộc tính pdays (Số ngày kể từ khi
khách hàng được liên hệ lần cuối đến lúc thực hiện chiến dịch.). Nguyên nhân dữ
liệu này bị thiếu có thể là vì ngân hàng chưa từng liên hệ với khách hàng này nên
ta điều chỉnh các giá trị bị mất này thành giá trị mặc định là -1.
Bảng dữ liệu sau khi đã xử lý các dòng bị mất dữ liệu
2.3 Bỏ các dữ liệu không cần thiết - Distribution & Select Column
Nhận xét: Bộ dữ liệu có 20 thuộc tính. Do vậy, để làm tránh nhiễu dữ liệu vì có
quá nhiều thuộc tính, ta sẽ dùng Distribution để quan sát sự phân bố của target
(thu nhập) dựa trên các thuộc tính và dùng Select Column để bỏ qua các thuộc tính
mà không phù hợp.
- Bỏ các biến “contact”, “ month” và “day_of_week” bằng Select Columns.
2.3.1 Chọn thuộc tính - Rank
Nhận xét: Với mục đích tìm ra các thuộc tính mà thể hiện thông tin nhiều nhất,
ta sẽ dùng Rank để chọn ra hai thuộc tính có hữu ích nhất, và hiển thị sự phân bố
số liệu của hai thuộc tính đó qua Scatter Plot.
2.3.2 Kiểm tra dữ liệu được xử lý lần 2 – Data Sampler
Ta dùng Data Sampler để lấy mẫu ngẫu nhiên 1000 dòng từ dữ liệu đã xử lý, và
lưu bảng dữ liệu mới dưới định dạng file Excel
2.3.3 Nhóm các thuộc tính cần xem xét để dễ xử lý– Group by
Ta đặt các biến xác định nhóm – Housing (Tình trạng sở hữu nhà của khách
hàng) và Loan (Tình trạng khoản vay cá nhân của khách hàng) ở bên trái bảng tiện
ích.
Bên phải bảng tiện ích ta chọn chỉ số thấp nhất và chỉ số cao nhất của biến
cons.price.idx (Chỉ số giá tiêu dùng) và cons.conf.idx (Chỉ số sự tin tưởng của
người tiêu dùng).
* Tổng quan quy trình:

You might also like