You are on page 1of 6

Clean Data:

Xóa/ xử lý dữ liệu không chính xác hoặc bị thiếu, xử lý các yếu tố ngoại lai v.v.
-> Để không có giá trị bị thiếu hoặc sai sót, làm cho chúng dễ đọc hơn, trực quan
hơn và tuân theo các tiêu chuẩn nhất định để mọi người có liên quan hiểu được.
Sau đây là các nhiệm vụ chính liên quan:
Ex1:
- Tải xuống dữ liệu và đọc nó vào Pandas:

- Bây giờ chúng ta sẽ tách các cột số khỏi các cột phân loại:

- Xử lý các giá trị bị thiếu:  bắt đầu bằng cách tính toán tỷ lệ phần trăm các giá
trị bị thiếu trong mỗi cột, sau đó lưu trữ thông tin này trong DataFrame.
- Thả quan sát: Loại bỏ những quan sát có chứa bất kỳ giá trị null nào trong
đó cho bất kỳ cột nào. Điều này làm giảm số lượng bản ghi trong tập dữ liệu

- Loại bỏ cột (tính năng): Một cách khác để giải quyết các giá trị bị thiếu
trong tập dữ liệu là bỏ những cột hoặc tính năng có tỷ lệ phần trăm giá trị bị
thiếu đáng kể. Các cột như vậy không chứa nhiều thông tin và có thể bị loại
bỏ hoàn toàn khỏi tập dữ liệu. 
- Gán các giá trị bị thiếu: Vẫn còn thiếu dữ liệu còn lại trong tập dữ liệu của
chúng tôi. Bây giờ chúng ta sẽ gán các giá trị bị thiếu trong mỗi cột số với
giá trị trung vị của cột đó.

- Xử lý ngoại lệ: Ngoại lệ là một quan sát bất thường nằm cách xa phần lớn
dữ liệu. Các ngoại lệ có thể ảnh hưởng đáng kể đến hiệu suất của mô hình
Machine Learning. Do đó, điều quan trọng là xác định các ngoại lệ và đối xử
với họ.

- Bản ghi trùng lặp: Dữ liệu đôi khi có thể chứa các giá trị trùng lặp. Điều
quan trọng là phải xóa các bản ghi trùng lặp khỏi tập dữ liệu của bạn trước
khi bạn tiếp tục với bất kỳ dự án Machine Learning nào. Trong dữ liệu của
chúng tôi, vì cột ID là một mã định danh duy nhất, chúng tôi sẽ thả các bản
ghi trùng lặp bằng cách xem xét tất cả trừ cột ID. Điều này sẽ giúp chúng tôi
loại bỏ các bản ghi trùng lặp. Bằng cách sử dụng phương pháp hình dạng,
bạn có thể kiểm tra xem các bản ghi trùng lặp đã thực sự bị loại bỏ chưa.
- Sửa kiểu dữ liệu: Thông thường trong tập dữ liệu, các giá trị không được lưu
trữ trong loại dữ liệu chính xác. Điều này có thể tạo ra sự cố trong các giai
đoạn sau và chúng tôi có thể không nhận được kết quả mong muốn hoặc có
thể gặp lỗi trong khi thực thi. Một lỗi kiểu dữ liệu phổ biến là với ngày
tháng. Ngày tháng thường được phân tích cú pháp dưới dạng các đối tượng
trong Python. Có một kiểu dữ liệu riêng cho ngày tháng trong Pandas, được
gọi là DateTime.
Ex2:

You might also like