You are on page 1of 11

BÀI TẬP NHÓM CHUẨN BỊ DỮ LIỆU

G01- DANH SÁCH THÀNH VIÊN:


1. Nguyễn Thị Thảo - 31221024607

2. Hoàng Thị Thanh Thảo - 31221024605

3. Đỗ Hiếu Ngân - 31221022807

4. Bùi Ngọc Hiền - 31221025001

5. Huỳnh Bảo Ngọc Vy - 31221021378

6. Trần Ngọc Tuyền - 31221023605

BÀI LÀM

Sử dụng file dữ liệu BANK MARKETING có sẵn trong Orange để thực hiện bài
làm.

1. Giải thích các thuộc tính


1. y: Biến target, cho biết khách hàng có đăng ký tiền gửi có kỳ hạn hay không
2. age: Tuổi của khách hàng
3. job: Xác định nghề nghiệp của khách hàng
4. marital: Tình trạng hôn nhân của khách hàng
5. education: Trình độ học vấn của khách hàng
6. default: Tình trạng tín dụng có bị vỡ nợ hay không của các đối tượng thực hiện
khảo sát
7. housing: Xác định nhà ở cá nhân của khách hàng
8. loan: Xác định khoản vay nợ của khách hàng
9. contact: Hình thức liên lạc với khách hàng
10. month: Tháng liên lạc cuối cùng trong năm
11. day_of_week: Ngày liên lạc cuối cùng trong tuần
12. duration: Thời lượng liên lạc cuối cùng, thuộc tính này có ảnh hưởng nhiều đến
mục tiêu đầu ra vì nếu thời lượng bằng 0 thì nó sẽ kéo theo biến mục tiêu bằng
0
13. campaign: Số lần liên lạc được thực hiện đối với khách hàng trong chiến dịch
này và cho khách hàng này
14. pday: Số ngày trôi qua sau khi khách hàng được liên hệ lần cuối từ một chiến
dịch trước đó
15. previous: Số lần liên lạc đã được thực hiện trước chiến dịch này đối với khách
hàng này
16. poutcome: Kết quả của chiến dịch trước đó
17. emp.var.rate: Tỷ lệ thay đổi việc làm - chỉ báo hàng quý
18. cons.price.idx: Chỉ số giá tiêu dùng - chỉ báo hàng tháng
19. cons.conf.idx: Chỉ số niềm tin của người tiêu dùng - chỉ số hàng tháng
20. euribor3m: Lãi suất 3 tháng của euribor - chỉ báo hàng ngày
21. nr.employed: Số lượng nhân viên - chỉ số hàng quý
2. Tiền xử lý dữ liệu
2.1. Impute

Chọn dữ liệu Bank Marketing từ Datasets trong phần mềm Orange. Sau khi sử
dụng Data Table xuất ra bảng dữ liệu, ta có nhận xét:

- Bảng dữ liệu có 4119 trường hợp.


- Có 20 thuộc tính, trong đó có 4.8% dữ liệu bị mất.

Làm sạch dữ liệu (Impute):

Quan sát bộ dữ liệu, nhận thấy dữ liệu thiếu nằm hoàn toàn trong cột “pdays”.
Sử dụng Impute để làm sạch dữ liệu bằng cách lựa chọn giá trị ngẫu nhiên để điền bổ
sung vào cột “pdays”.
Bộ dữ liệu sau khi xử lý các dữ liệu thiếu sẽ được kết quả như sau:
2.2. Outliers

Nhóm sử dụng Outliers để nhận diện phần tử biên, loại bỏ các giá trị ngoại lai từ đó
giảm thiểu nhiễu.

Bộ dữ liệu sau khi nhận diện được phần tử biên, loại bỏ các giá trị ngoại lai, giảm
thiểu nhiễu thu được kết quả như hình sau:

Nhận xét: Bộ dữ liệu từ 4119 trường hợp giảm xuống còn 3745 trường hợp, đã loại trừ
374 trường hợp làm nhiễu dữ liệu.
3.Nhóm các thuộc tính cần xem xét để dễ xử lý – Group by

Trong tiện ích Group by, nhóm đặt các biến xác định nhóm gồm Housing (Tình
trạng sở hữu nhà của khách hàng) và Loan (Tình trạng khoản vay) ở bên trái bảng tiện
ích. Bên phải của tiện ích, nhóm muốn tính trung bình và giá trị cao nhất cho 2 biến
cons.price.idx (Chỉ số giá tiêu dùng) và cons.conf.idx (Chỉ số sự tin tưởng).

Trong Data Table, chúng ta có thể thấy chỉ có những người về tình trạng
housing và loan chưa biết thì với giá trị cao nhất của chỉ số giá tiêu dùng là 94,465
thấp nhất so với những người còn lại. Bên cạnh đó, chỉ số sự tin tưởng có giá trị cao
nhất là không khác biệt. Tuy nhiên, người có cả nhà và khoản vay thì có trung bình chỉ
số giá tiêu dùng và chỉ số sự tin tưởng là thấp nhất lần lượt là 93,4796 và -40,6512. Và
người có chỉ số tiêu dùng cũng như chỉ số sự tin tưởng cao nhất thì thuộc về người
không có nhà nhưng lại có khoản vay.
4. Chọn thuộc tính
Sau khi sử dụng Rank, ta thấy rằng 2 thuộc tính “poutcome” và “previous” là
những thuộc tính hữu ích nhất trong việc dự đoán xem khả năng một khách hàng đồng
ý gửi tiền có kỳ hạn là cao hay thấp. Sau đó tiến hành thể hiện sự phân bố của cả 2
thuộc tính thông qua Scatter Plot.

Hình dưới đây cho thấy tương quan của “previous” và biến “y”.
Hình dưới đây cho thấy tương quan của “poutcome” và biến “y”.

Hình dưới đây cho thấy mối quan hệ kết hợp giữa “poutcome” và “previous” đến biến
“y”.
Nhận xét: Đối với những khách hàng có kết quả của chiến dịch trước đó (poutcome) là
thành công và với số lần liên lạc bất kỳ (previous) đã thực hiện trước chiến dịch này
(dù đã liên lạc 1, 2 hay 3 lần,...) thì tỉ lệ khách hàng đồng ý gửi tiền có kỳ hạn sẽ
chiếm phần lớn.
5. Lấy mẫu
Lấy ngẫu nhiên 1000 dòng từ dữ liệu đã xử lý và lưu bảng dữ liệu mới dưới dạng file
Excel.

You might also like