Clean Data

Uploaded by

Nguyễn Nam

0% found this document useful (0 votes)

9 views6 pages

Original Title

Clean-Data

Copyright

Available Formats

DOCX, PDF, TXT or read online from Scribd

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Report this Document

Copyright:

Available Formats

Download as DOCX, PDF, TXT or read online from Scribd

Flag for inappropriate content

0% found this document useful (0 votes)

9 views6 pages

Clean Data

Uploaded by

Nguyễn Nam

Copyright:

Available Formats

Download as DOCX, PDF, TXT or read online from Scribd

Flag for inappropriate content

Jump to Page

You are on page 1of 6

Search inside document

Clean Data:

Xóa/ xử lý dữ liệu không chính xác hoặc bị thiếu, xử lý các yếu tố ngoại lai v.v.
-> Để không có giá trị bị thiếu hoặc sai sót, làm cho chúng dễ đọc hơn, trực quan
hơn và tuân theo các tiêu chuẩn nhất định để mọi người có liên quan hiểu được.
Sau đây là các nhiệm vụ chính liên quan:
Ex1:
- Tải xuống dữ liệu và đọc nó vào Pandas:

- Bây giờ chúng ta sẽ tách các cột số khỏi các cột phân loại:

- Xử lý các giá trị bị thiếu: bắt đầu bằng cách tính toán tỷ lệ phần trăm các giá
trị bị thiếu trong mỗi cột, sau đó lưu trữ thông tin này trong DataFrame.
- Thả quan sát: Loại bỏ những quan sát có chứa bất kỳ giá trị null nào trong
đó cho bất kỳ cột nào. Điều này làm giảm số lượng bản ghi trong tập dữ liệu

- Loại bỏ cột (tính năng): Một cách khác để giải quyết các giá trị bị thiếu
trong tập dữ liệu là bỏ những cột hoặc tính năng có tỷ lệ phần trăm giá trị bị
thiếu đáng kể. Các cột như vậy không chứa nhiều thông tin và có thể bị loại
bỏ hoàn toàn khỏi tập dữ liệu.
- Gán các giá trị bị thiếu: Vẫn còn thiếu dữ liệu còn lại trong tập dữ liệu của
chúng tôi. Bây giờ chúng ta sẽ gán các giá trị bị thiếu trong mỗi cột số với
giá trị trung vị của cột đó.

- Xử lý ngoại lệ: Ngoại lệ là một quan sát bất thường nằm cách xa phần lớn
dữ liệu. Các ngoại lệ có thể ảnh hưởng đáng kể đến hiệu suất của mô hình
Machine Learning. Do đó, điều quan trọng là xác định các ngoại lệ và đối xử
với họ.

- Bản ghi trùng lặp: Dữ liệu đôi khi có thể chứa các giá trị trùng lặp. Điều
quan trọng là phải xóa các bản ghi trùng lặp khỏi tập dữ liệu của bạn trước
khi bạn tiếp tục với bất kỳ dự án Machine Learning nào. Trong dữ liệu của
chúng tôi, vì cột ID là một mã định danh duy nhất, chúng tôi sẽ thả các bản
ghi trùng lặp bằng cách xem xét tất cả trừ cột ID. Điều này sẽ giúp chúng tôi
loại bỏ các bản ghi trùng lặp. Bằng cách sử dụng phương pháp hình dạng,
bạn có thể kiểm tra xem các bản ghi trùng lặp đã thực sự bị loại bỏ chưa.
- Sửa kiểu dữ liệu: Thông thường trong tập dữ liệu, các giá trị không được lưu
trữ trong loại dữ liệu chính xác. Điều này có thể tạo ra sự cố trong các giai
đoạn sau và chúng tôi có thể không nhận được kết quả mong muốn hoặc có
thể gặp lỗi trong khi thực thi. Một lỗi kiểu dữ liệu phổ biến là với ngày
tháng. Ngày tháng thường được phân tích cú pháp dưới dạng các đối tượng
trong Python. Có một kiểu dữ liệu riêng cho ngày tháng trong Pandas, được
gọi là DateTime.
Ex2:

Quản Lý Chuỗi Giá Trị
From Everand
Quản Lý Chuỗi Giá Trị
Phong Nguyễn Như
Rating: 5 out of 5 stars
5/5 (1)
Bài Tiểu Luận Nhóm
Document23 pages
Bài Tiểu Luận Nhóm
Thanh Ngân Phạm Lê
No ratings yet
Bigdata
Document21 pages
Bigdata
luân bá
No ratings yet
2.2. Thu Vien Pandas
Document49 pages
2.2. Thu Vien Pandas
phuongffvip2
No ratings yet
Tiền xử lý dữ liệu
Document7 pages
Tiền xử lý dữ liệu
daoviethaanhttt
No ratings yet
inSysDev - 04 - 13 - BT2 - Hán Văn Luân
Document67 pages
inSysDev - 04 - 13 - BT2 - Hán Văn Luân
nqdcntt2002
No ratings yet
Orange
Document4 pages
Orange
chiem hoi
No ratings yet
TH Weka 1
Document12 pages
TH Weka 1
Tuấn Nguyễn
No ratings yet
2.2.1 Tiền xử lý dữ liệu: 2.2 Tổng hợp các phương pháp sử dụng
Document13 pages
2.2.1 Tiền xử lý dữ liệu: 2.2 Tổng hợp các phương pháp sử dụng
Anh Nguyễn Quỳnh
No ratings yet
Học máy là một lĩnh vực của trí tuệ nhân tạo
Document3 pages
Học máy là một lĩnh vực của trí tuệ nhân tạo
Ngo Lam
No ratings yet
Phân tích thành phần chính
Document8 pages
Phân tích thành phần chính
Nguyen Hoai Thu
No ratings yet
8603 THU NGUYEN THI HH 5 926280068
Document37 pages
8603 THU NGUYEN THI HH 5 926280068
Thu Nguyen
No ratings yet
1. Tiền xử lý dữ liệu
Document20 pages
1. Tiền xử lý dữ liệu
Nguyễn Thảo Ly
No ratings yet
L2 Preprocess
Document20 pages
L2 Preprocess
manunited668
No ratings yet
Dự Án KHDL
Document18 pages
Dự Án KHDL
NHI NGUYỄN THỊ YẾN
No ratings yet
Baitap 20521658
Document5 pages
Baitap 20521658
Nghĩa Trương Đăng
No ratings yet
Nhóm 9 Chương 2
Document31 pages
Nhóm 9 Chương 2
phatjnvaa
No ratings yet
ĐỀ THI MÔN CÔNG NGHỆ 4.0
Document19 pages
ĐỀ THI MÔN CÔNG NGHỆ 4.0
Minh Võ
No ratings yet
KPDL Diamond
Document20 pages
KPDL Diamond
Thi Xuan Rin Le
No ratings yet
Linq 2 SQL
Document10 pages
Linq 2 SQL
Phúc Thành
No ratings yet
Lý thuyết
Document7 pages
Lý thuyết
Hoang Duc Trong
No ratings yet
Bài mẫu khai phá 2
Document27 pages
Bài mẫu khai phá 2
nguyenanhbim6
No ratings yet
Baithuchanh 02
Document13 pages
Baithuchanh 02
Phạm Hoàng Kim
No ratings yet
Đề Cương Lý Thuyêt
Document17 pages
Đề Cương Lý Thuyêt
Hoàng Anh Mai
No ratings yet
1. Phân Cụm Dữ Liệu (Clustering)
Document10 pages
1. Phân Cụm Dữ Liệu (Clustering)
Tiến
No ratings yet
Dung Power Query Chuyen Doi Du Lieu
Document17 pages
Dung Power Query Chuyen Doi Du Lieu
ledan
No ratings yet
ĐỀ CƯƠNG ÔN TẬP KHOA HỌC DỮ LIỆU
Document10 pages
ĐỀ CƯƠNG ÔN TẬP KHOA HỌC DỮ LIỆU
25.Phương Thảo (Phương Thảo)
No ratings yet
lý thuyết
Document8 pages
lý thuyết
25.Phương Thảo (Phương Thảo)
No ratings yet
KHDL 2 Orange
Document15 pages
KHDL 2 Orange
Vương Lam
No ratings yet
PTKDmec
Document27 pages
PTKDmec
hphuonganh46
No ratings yet
Machine Learning With Pytho1
Document5 pages
Machine Learning With Pytho1
Phương Lan
No ratings yet
đề cương hệ thống thông minh
Document64 pages
đề cương hệ thống thông minh
Ngọc Đỗ
No ratings yet
b19dcat072 Trần Đình Hiếu Thực Hành 02
Document14 pages
b19dcat072 Trần Đình Hiếu Thực Hành 02
Hiếu Trần Đình
No ratings yet
Simple Code Demo Function
Document67 pages
Simple Code Demo Function
quanghieu.inamed
No ratings yet
So N
Document4 pages
So N
Nguyễn Quy
No ratings yet
đáp án đề cương
Document40 pages
đáp án đề cương
Phương Lê
No ratings yet
Epidata DHQG
Document40 pages
Epidata DHQG
fujiwara_no_sai98
No ratings yet
DS
Document3 pages
DS
hanh nguyen
No ratings yet
Slide 4.1 Tiền Xử Lý Dữ Liệu
Document31 pages
Slide 4.1 Tiền Xử Lý Dữ Liệu
Điển Hoàng
No ratings yet
Xây Dựng Chương Trình Gợi ý Phim Dựa Vào Tập Dữ Liệu Movie Len
Document9 pages
Xây Dựng Chương Trình Gợi ý Phim Dựa Vào Tập Dữ Liệu Movie Len
learnit learnit
No ratings yet
ÔN TẬP PHÂN TÍCH VÀ THIẾT KẾ HỆ THỐNG
Document13 pages
ÔN TẬP PHÂN TÍCH VÀ THIẾT KẾ HỆ THỐNG
Khải Quang
No ratings yet
EXCEL- Kĩ Thuật Xử Lí
Document246 pages
EXCEL- Kĩ Thuật Xử Lí
Hoang
No ratings yet
Bài Tập Lớn Phân Tích Thiết Kế Hệ Thống Lê Duy Tiến 520CNT1034
Document25 pages
Bài Tập Lớn Phân Tích Thiết Kế Hệ Thống Lê Duy Tiến 520CNT1034
leduytien262
No ratings yet
Decuong
Document21 pages
Decuong
Sơn Vũ
No ratings yet
Báo cáo Khai phá dữ liệu
Document22 pages
Báo cáo Khai phá dữ liệu
Trường Nguyễn
No ratings yet
De Cuong On Thi Nghe 2017 - THVP
Document16 pages
De Cuong On Thi Nghe 2017 - THVP
Union Soviet (Soviet Union)
No ratings yet
Machine Learning
Document29 pages
Machine Learning
Nguyễn Hoàng
No ratings yet
1
Document12 pages
1
Huy Đoàn
No ratings yet
T1 Tong Quan
Document51 pages
T1 Tong Quan
Giabao Nguyen
No ratings yet
Khoa học máy
Document14 pages
Khoa học máy
Thanh Phương Thái Hoàng
No ratings yet
ĐỀ CƯƠNG CẤU TRÚC DỮ LIỆU VÀ GIẢI THUẬT 2023
Document33 pages
ĐỀ CƯƠNG CẤU TRÚC DỮ LIỆU VÀ GIẢI THUẬT 2023
toan301310
No ratings yet
Xử Lý Dữ Liệu Với Pandas Trong Python
Document23 pages
Xử Lý Dữ Liệu Với Pandas Trong Python
wkws12.ns.phuoc
No ratings yet
Đồ Án Khoa Học Dữ Liệu
Document16 pages
Đồ Án Khoa Học Dữ Liệu
ĐẠT HÀ QUANG
No ratings yet
Quản trị nguồn lực thông tin
Document8 pages
Quản trị nguồn lực thông tin
Nguyễn Quốc Anh
No ratings yet
Chap 3. Pandas
Document73 pages
Chap 3. Pandas
geckovippro2
No ratings yet
Lecture03 - Kiểu Dữ Liệu Trừu Tượng Và DSLK
Document92 pages
Lecture03 - Kiểu Dữ Liệu Trừu Tượng Và DSLK
thmainguyenhnue
No ratings yet
Bài 5 Xử lý số liệu
Document19 pages
Bài 5 Xử lý số liệu
67 Vũ Thị Thanh Tuyền DHQT15A18HN
No ratings yet
HW1
Document5 pages
HW1
tunvde180193
No ratings yet
HDSD Clementine
Document45 pages
HDSD Clementine
Padoru
No ratings yet
LabVIEW Cơ Bản - Bài 2 - Array Và Cluster - Cyberlab - Simplify Your Life
Document9 pages
LabVIEW Cơ Bản - Bài 2 - Array Và Cluster - Cyberlab - Simplify Your Life
Minh Trí Knight
No ratings yet