Professional Documents
Culture Documents
Nhóm 9 Chương 2
Nhóm 9 Chương 2
CHƯƠNG 2:
TIỀN XỬ LÝ DỮ LIỆU
THÀNH VIÊN
01 NGUYỄ N TẤ N PHÁT
02 TRẦ N HỮ U THỨ C
04 HUỲNH ÂN
Trích xuấ t và
chuyển đổi kiểu 02
dữ liệu
Xử lý dữ liệu bị mấ t
Định nghĩa : Là quá trình trích chọn từ những tập dữ liệu cầ n khai phá từ
các tập dữ liệu khác nhau theo một tiêu chí nhất định
Cách thực hiện : Thực hiện thông qua nhiề u phương pháp, nguồ n dữ liệu,
yêu cầ u của nhiệm vụ khai phá dữ liệu. Sử dụng các truy vấn để lấy dữ
liệu từ cơ sở dữ liệu, hoặc sử dụng các công cụ và kỹ thuật để thu nhập
dữ liệu từ nguồ n không cấu trúc như văn bản hoặc hình ảnh.
Vấn đề cầ n lưu ý : Đảm bảo, chọn phản ánh đúng và đầ y đủ thông tin
cầ n thiế t cho việc phân tích. Hiểu biế t, nhiệm vụ khai phá dữ liệu .
dữ liệu
không nhất quán
Đối với dữ liệu thu thập được, cần xác định các vấn đề
ảnh hưởng là cho nó không sạch.
Nhiễu/lỗi (noise/error): Chứa đựng những lỗi hoặc các mảng các giá trị bất thường. Ví dụ:
salary = “-525” , giá trị của thuộc tính không thể là một số âm.
Mâu thuẫn (inconsistent): Chứa đựng các mâu thuẫn (không thống nhất). Ví dụ: salary =
“abc” , không phù hợp với kiểu dữ liệu số của thuộc tính salary.
Xử lý dữ liệu bị thiế u (missing data):
Giải pháp :
Dữ liệu bị thiếu là dữ liệu Bỏ qua các bản ghi có các thuộc tính
không có sẵn khi cần thiếu giá trị
được sử dụng. Xử lý thủ công
Nguyên nhân : Dùng giá trị thay thế ( dùng hằng tính
Khách quan (không tồn tại toán , tính trung bình ,giá trị phổ biến ,
lúc nhập dữ liệu, sự cố, …) giá trị dự đoán)
Chủ quan (tác nhân con Ngăn chặn dữ liệu bị thiếu : thiết kế
người) CSDL và các thủ tục nhập liệu ( ràng
buộc dữ liệu).
Nhận diện phần tử biên (outliers) và giảm
thiểu nhiễu (noisy data)
1 . Định nghĩa
Outliers: những dữ liệu (đối tượng) không tuân theo đặc tính/hành vi chung
của tập dữ liệu (đối tượng).
2. Nguyên nhân
Khách quan (công cụ thu thập dữ liệu, lỗi trên đường truyền, giới hạn công
nghệ, …)
Chiế n lược:
Giảm kích thướ c: Nén dữ liệu bằ ng cách sử dụng sơ đồ mã hóa, lựa chọn
tập hợp con thuộc tính hoặc xây dựng thuộc tính.
Giảm số lượng: Thay thế dữ liệu bằ ng các biểu diễ n nhỏ hơn bằ ng cách
sử dụng các mô hình như hồ i quy, cụm hoặc tổng hợp dữ liệu.
Lợi ích: Giảm tải tính toán, xử lý nhanh hơn và nâng cao hiệu quả khai thác
dữ liệu. Các cân nhắc bổ sung: Chuẩn hóa dữ liệu, rờ i rạc hóa và tạo hệ
thố ng phân cấp khái niệm dướ i dạng các hình thứ c chuyển đổi dữ liệu để
chuẩn bị dữ liệu cho các thuật toán khai thác cụ thể.
2.4 Thu gọn và chuyển đổi dữ liệu:
02 cho một
Máy học – Máy học là nhận dạng mẫu tự động. Các ứng
dụng kinh doanh của máy học bao gồm dự báo doanh thu
và lợi nhuận, mô hình dự đoán để hỗ trợ các quyết định loạt các
chính, hệ thống giới thiệu sản phẩm cho khách hàng và tất
cả các loại tự động hóa quy trình kinh doanh. trườ ng hợp
sử dụng,
03
Tuân thủ quy định – Lưu trữ không cần thiết thông tin nhận
dạng cá nhân (PII) khiến dữ liệu dễ bị lỗi bởi một loạt các vi bao gồ m:
phạm dữ liệu độc hại và ngẫu nhiên. Vi phạm dữ liệu làm
tổn hại đến quyền riêng tư của dữ liệu và tạo ra các vấn đề
nghiêm trọng cho cả bạn và khách hàng.
A. Sửa đổi
Sửa đổi / chuyển đổi định dạng thay thế các ký tự không tương thích, chuyển đổi đơn vị,
chuyển đổi định dạng ngày tháng và thay đổi kiểu dữ liệu.
A. Sửa đổi
Việc tái cấu trúc khóa tạo ra các số nhận dạng chung ngoài các giá trị có ý nghĩa tích hợp, vì vậy chúng
có thể được sử dụng như các khóa cố định, duy nhất trên các bảng.
Deduplication có nghĩa là xác định và loại bỏ các bản ghi trùng lặp.
A. Sửa đổi
Xác thực dữ liệu đánh giá tính hợp lệ của một bản ghi bằ ng tính đầ y đủ của dữ liệu, thườ ng bằ ng cách loại
trừ các bản ghi không đầ y đủ.
Việc loại bỏ các cột không sử dụng và lặp lại cho phép bạn chọn các trườ ng bạn muố n sử dụng làm tính năng, tứ c là các
biế n đầ u vào cho mô hình dự đoán. Nó cũ ng có thể cải thiện hiệu suất và tính dễ đọc tổng thể của một mô hình.
B. Tin Học
Một trườ ng hợp sử dụng phổ biế n để tính toán các giá trị dữ
liệu mớ i từ dữ liệu hiện có là tính toán tỷ lệ, thố ng kê tóm tắ t
và các số liệu quan trọng khác. Một cách khác là biế n dữ liệu
phi cấ u trúc, chẳng hạn như từ các tệp phương tiện, thành dữ
liệu có cấ u trúc có thể được giải thích bằ ng thuật toán học
máy.
Câu 2: Tại sao phương pháp tiề n xử lý dữ liệu quan trọng đố i vớ i machine learning?
THANK YOU