Professional Documents
Culture Documents
Tienxulydulieu
Tienxulydulieu
1. Tiền xử lý dữ liệu
a. Xử lý dữ liệu thiếu
- Xử lý dữ liệu thiếu là một phần quan trọng trong làm sạch dữ liệu. Việc xử lý
dữ liệu thiếu nhanh chóng, gọn gàng giúp tiết kiệm rất nhiều thời gian cho dự án.
- Missing data là dữ liệu bị thiếu, được hiển thị như NaN, Nat, Null, N/A, v.v.
Missing data xuất hiện do nhiều nguyên nhân như:
+ Người dùng quên điền.
+ Dữ liệu bị mất trong quá trình chuyển thủ công từ cơ sở dữ liệu cũ.
+ Lỗi của chương trình.
+ Thiếu dữ liệu do trùng hợp v.v.
- Với bài toán phân loại tiền lương mà nhóm đã chọn:
Xét cột workclass
+ Đếm các giá trị có trong cột workclass
+ Gán lại dữ liệu bằng cách lấy những dữ liệu khác ‘?’
- Mọi giá trị quốc gia của cột native-country đều có thêm một số khoảng trắng cần
xóa.
- Cần thay thế 'Holand-Netherlands' bằng 'Netherlands' đơn giản, 'Trinadad&Tobago'
sẽ được thay thế bằng 'Trinidad and Tobago', 'Outlying-US(Guam-USVI-etc)' sẽ được
thay thế bằng 'Outlying-US', 'Hong' được thay thế bằng 'Hong Kong', 'South' được
thay thế bằng 'South Korea'.
- Vẫn còn giá trị ‘?’
- Điều này có nghĩa là khoảng 1,81% dữ liệu có giá trị không xác định đối với quốc
gia bản địa. Không thể thay thế nó bằng một giá trị trung bình hoặc đoán những quốc
gia nào có thể ở đó, nhưng đó không phải là vấn đề lớn vì lượng dữ liệu bị thiếu rất
thấp.
Xét cột education
- Không có giá trị nào bị thiếu ở đây, nhưng có vẻ như ít nhất một số giá trị của cột bắt
đầu bằng khoảng trắng, vì vậy sẽ cần xóa toàn bộ tập dữ liệu khỏi chúng.
- Có thể thấy rằng trong số tất cả các thuộc tính, có 1 thuộc tính bị thiếu giá trị chiếm
ít hơn 2%.
- Tiến hành thay đổi các giá trị của salary thành 1 và 0.
- Sau khi thay đổi thành 1 và 0 thì đặt lương cao = 1 và lương thấp = 0.
- Nhìn vào biểu đồ trên ta có thể thấy được, dữ liệu chứa thông tin về 30694 cá
nhân, 6 biến ( age, fnlwgt, education-num, capital-gain, capital-loss, hours-per-
week)
AGE
Min (Giá trị nhỏ nhất) 18
Q1 (tứ phân vị thứ nhất) 28
Q2 (trung vị) 38
Q3 (tứ phân vị thứ ba) 49
Max (Giá trị lớn nhất) 79
+ Trung vị là 38.
+ Khoảng biến thiên số phân tử (Interquartile Range - IQR)
IQR = Q3-Q1=49-28=21.
+ Khoảng cách giữa giá trị lớn nhất và nhỏ nhất là 79 – 18 = 61.
+ Nhận xét: đường trung vị chia chiếc hộp nửa phải lớn hơn (nửa trái)
nên tập dữ liệu bị lệch phải (right-skewed).
*Phân tích Phân tích các giá trị ngoại lai (outliers) và các giá trị bất thường
(anomalies) trong dữ liệu.
Điểm nằm ngoài Q3+1.5*IQR và Q3-1.5*IQR được gọi là giá trị ngoại lai.
Q3+1.5*IQR = 49 + 1.5*21 = 80.5
Q3-1.5*IQR = 49 – 1.5*21 = 17.5
VD5: Sự khác biệt về giờ làm việc trung bình của nam và nữ
Giải thích:
MALE
Min (Giá trị nhỏ nhất) 25
Q1 (tứ phân vị thứ nhất) 40
Q2 (trung vị)
Q3 (tứ phân vị thứ ba) 44
Max (Giá trị lớn nhất) 61
+ Khoảng biến thiên số phân tử (Interquartile Range - IQR)
IQR = Q3-Q1=44-40=3.
+ Khoảng cách giữa giá trị lớn nhất và nhỏ nhất là 61 – 25 = 36.
FEMALE
Min (Giá trị nhỏ nhất) 18
Q1 (tứ phân vị thứ nhất) 25
Q2 (trung vị)
Q3 (tứ phân vị thứ ba) 40
Max (Giá trị lớn nhất) 57
Giải thích:
- Người có thu nhập cá nhân thấp (dưới 25000) thì sẽ có số giờ trung bình
làm việc cao.
*Giá trị ngoại lai:
- Người có thu nhập cá nhân càng cao thì số giờ trung bình làm việc càng
thấp.
VD7: Mối tương quan giữa “hours-per-week – giờ trung bình làm việc” và
“capital-loss – số tiền mất mát từ việc bán tài sản (nhà, cổ phiếu,..)”
Giải thích:
Người có khoảng tiền mất mát lớn càng lớn (1500-3000) thì có số giờ trung
bình làm việc càng cao.
VD8: Mối tương quan giữa “hours-per-week – giờ trung bình làm việc” và
“age – tuổi” theo nhóm “sex-giới tính”.
Giải thích:
- Giới tính nữ tập trung nhiều ở mức giờ làm việc trung bình <50.
- Giới tính nam tập trung nhiều ở mức giờ làm việc trung bình >50.
- Độ tuổi nữ làm việc nhiều rơi vào khoảng 20 đến dưới 60 tuổi.
- Độ tuổi nam làm việc nhiều rơi vào khoảng 20 đến dưới 60 tuổi (giờ
làm việc trung bình >50) và từ độ tuổi 60 đến dưới 80 (giờ làm việc trung bình
<50)
4.PHÂN TÍCH ĐA BIẾN
Tìm kiếm các mối quan hệ giữa các biến trong dữ liệu bằng cách sử dụng ma
trận tương quan, heatmap.
Hàm corr() được sử dụng để tính toán hệ số tương quan giữa các biến.
+ Nếu kết quả được tính ra lớn hơn 1 hoặc nhỏ hơn -1 có nghĩa là phép tính hệ số
tương quan đó đang lỗi.
+ Hệ số tương quan bằng 0 (hay gần 0) có nghĩa là hai biến số độc lập với nhau
(không có liên hệ gì với nhau).
+ Hệ số bằng -1 hay 1 có nghĩa là hai biến số có một mối quan hệ tuyệt đối.
+ Hệ số tương quan có giá trị âm: Thể hiện 2 biến số có mối quan hệ nghịch biến hoặc
tương quan âm (nghịch biến tuyệt đối khi giá trị bằng -1).
+ Hệ số tương quan có giá trị dương: Thể hiện 2 biến số có mối quan hệ đồng biến
hoặc tương quan dương (đồng biến tuyệt đối khi giá trị bằng 1).
2. Sử dụng heatmap.
Kết luận:
- Các cặp biến có mối quan hệ tuyệt đối (hệ số tương quan bằng 1):
+ age và age
+ fnlwgt và fnlwgt
+ education-num và education-num
+ capital-gain và capital-gain
+ capital-loss và capital-loss
+ hours-per-week và hours-per-week
+ salary và salary
- Các cặp biến có mối quan hệ nghịch biến (hệ số tương quan âm):
+ age và fnlwgt
+ fnlwgt và education-num
+ fnlwgt và capital-loss
+ fnlwgt và hours-per-week
+ fnlwgt và salary
+ capital-gain và capital-loss
- Các cặp biến có mối quan hệ đồng biến (hệ số tương quan dương): các cặp biến còn
lại.