You are on page 1of 31

Nhóm 9

CHƯƠNG 2:
TIỀN XỬ LÝ DỮ LIỆU
THÀNH VIÊN
01 NGUYỄ N TẤ N PHÁT

02 TRẦ N HỮ U THỨ C

03 TRẦ N CÔNG HIẾ U

04 HUỲNH ÂN

05 BÙI ĐĂNG KHOA


NỘ I DUNG
Tại sao phải tiề n
01 xử lý dữ liệu

Trích xuấ t và
chuyển đổi kiểu 02
dữ liệu

03 Làm sạch dữ liệu

Thu gọn và chuyển


đổi dữ liệu
04
2.1 Tại sao phải tiề n xử lý dữ liệ u
Tiề n xử lý dữ liệu là một bướ c không thể thiế u trong quá trình khai thác
dữ liệu, phân tích dữ liệu, trực quan hóa dữ liệu, dự đoán trong khoa học
dữ liệu. Dướ i đây là một số lý do tại sao chúng ta cầ n tiề n xử lý dữ liệu:

Chấ t lượng dữ liệu

Đồ ng nhấ t hóa dữ liệu

Xử lý dữ liệu bị mấ t

Chuẩn bị cho mô hình học máy

Hiệu suấ t và độ chính xác của mô hình


2.2 Trích xuất và chuyển đổi kiểu dữ liệu

Trích chọn dữ liệu:

Định nghĩa : Là quá trình trích chọn từ những tập dữ liệu cầ n khai phá từ
các tập dữ liệu khác nhau theo một tiêu chí nhất định

Cách thực hiện : Thực hiện thông qua nhiề u phương pháp, nguồ n dữ liệu,
yêu cầ u của nhiệm vụ khai phá dữ liệu. Sử dụng các truy vấn để lấy dữ
liệu từ cơ sở dữ liệu, hoặc sử dụng các công cụ và kỹ thuật để thu nhập
dữ liệu từ nguồ n không cấu trúc như văn bản hoặc hình ảnh.

Vấn đề cầ n lưu ý : Đảm bảo, chọn phản ánh đúng và đầ y đủ thông tin
cầ n thiế t cho việc phân tích. Hiểu biế t, nhiệm vụ khai phá dữ liệu .

Ứ ng dụng : Nhiề u lĩnh vực kinh doanh và đờ i số ng khác nhau như :


Thương mại , Thông tin sản xuất , Thông tin khoa học , Địa lý , Y tế , Ngân
hàng, …
Chuyển đổi kiểu dữ liệu

Là bước chuẩn hóa và làm mịn dữ liệu để đưa dữ liệu


về dạng thuận lợi phục vụ cho các kỹ thuật khai phá
dữ liệu ở các bước sau
2.3 Làm sạch Làm sạch dữ liệu là điền giá trị thiếu, làm trơn dữ liệu
nhiễu, định danh hoặc xóa ngoại lai, và khử tính

dữ liệu
không nhất quán
Đối với dữ liệu thu thập được, cần xác định các vấn đề
ảnh hưởng là cho nó không sạch.

Các vấn đề của dữ liệu :


Trên thực thế dữ liệu thu được có thể chứa nhiễu, lỗi, không hoàn chỉnh, có mâu thuẫn.
Không hoàn chỉnh (incomplete): Thiếu các giá trị thuộc tính hoặc thiếu một số thuộc tính. Ví
dụ: salary = .

Nhiễu/lỗi (noise/error): Chứa đựng những lỗi hoặc các mảng các giá trị bất thường. Ví dụ:
salary = “-525” , giá trị của thuộc tính không thể là một số âm.

Mâu thuẫn (inconsistent): Chứa đựng các mâu thuẫn (không thống nhất). Ví dụ: salary =
“abc” , không phù hợp với kiểu dữ liệu số của thuộc tính salary.
Xử lý dữ liệu bị thiế u (missing data):

Giải pháp :
Dữ liệu bị thiếu là dữ liệu Bỏ qua các bản ghi có các thuộc tính
không có sẵn khi cần thiếu giá trị
được sử dụng. Xử lý thủ công
Nguyên nhân : Dùng giá trị thay thế ( dùng hằng tính
Khách quan (không tồn tại toán , tính trung bình ,giá trị phổ biến ,
lúc nhập dữ liệu, sự cố, …) giá trị dự đoán)
Chủ quan (tác nhân con Ngăn chặn dữ liệu bị thiếu : thiết kế
người) CSDL và các thủ tục nhập liệu ( ràng
buộc dữ liệu).
Nhận diện phần tử biên (outliers) và giảm
thiểu nhiễu (noisy data)

1 . Định nghĩa

Outliers: những dữ liệu (đối tượng) không tuân theo đặc tính/hành vi chung
của tập dữ liệu (đối tượng).

Noisy data: outliers bị loại bỏ (rejected/discarded outliers) như là những trường


hợp ngoại lệ (exceptions).

2. Nguyên nhân

Khách quan (công cụ thu thập dữ liệu, lỗi trên đường truyền, giới hạn công
nghệ, …)

Chủ quan (tác nhân con người)


GIẢI PHÁP
Giải pháp nhận diện phầ n Giải pháp giảm thiểu
tử biên nhiễu

Dựa trên phân bố thống kê Binning


(statistical distribution-based)
Dựa trên khoảng cách Hồi quy (regression)
(distance-based)
Dựa trên mật độ (density- Phân tích cụm (cluster analysis)
based)
Dựa trên độ lệch (deviation-
based)
XỬ LÝ DỮ LIỆU KHÔNG NHẤT
QUÁN

Định nghĩa: Nguyên nhân Giải pháp


Dữ liệu được ghi nhận Sự không nhất quán Tận dụng siêu dữ liệu, ràng
khác nhau cho cùng trong các qui ước đặt buộc dữ liệu, sự kiểm tra
của nhà phân tích dữ liệu
một đối tượng/thực tên hay mã dữ liệu
cho việc nhận diện
thể VD :2004/12/25 và
25/12/2004 Định dạng không nhất Điều chỉnh dữ liệu không
quán của các vùng nhất quán bằng tay
Dữ liệu được ghi nhận nhập liệu
không phản ánh đúng Các giải pháp biến
đổi/chuẩn hóa dữ liệu tự
ngữ nghĩa cho các đối Thiết bị ghi nhận dữ
động
tượng/thực thể liệu, …
2.4 Thu gọn và chuyển đổi dữ liệu:

A. Giảm chiều dữ liệu:

Giảm chiề u dữ liệu (tiế ng Anh: dimensionality


reduction, hay dimension reduction), là sự biế n đổi
dữ liệu từ không gian chiề u-cao thành không gian
chiề u-thấp để biểu diễ n ở dạng chiề u-thấp đồ ng thờ i
giữ lại một số thuộc tính có ý nghĩa của dữ liệu gố c,
có ý tưởng là gầ n vớ i chiề u nội tại (intrinsic
dimension)
2.4 Thu gọn và chuyển đổi dữ liệu:

B. Giảm kích thước tập dữ liệu:


Data reduction hay giảm dữ liệu là quá trình giảm dung lượng cầ n thiế t để
lưu trữ dữ liệu. Giảm dữ liệu có thể tăng hiệu quả lưu trữ và giảm chi phí.
Các nhà cung cấp dịch vụ lưu trữ thườ ng mô tả dung lượng lưu trữ dướ i
dạng dung lượng thô và dung lượng hiệu quả, tứ c là dữ liệu sau khi giảm.

Chiế n lược:
Giảm kích thướ c: Nén dữ liệu bằ ng cách sử dụng sơ đồ mã hóa, lựa chọn
tập hợp con thuộc tính hoặc xây dựng thuộc tính.
Giảm số lượng: Thay thế dữ liệu bằ ng các biểu diễ n nhỏ hơn bằ ng cách
sử dụng các mô hình như hồ i quy, cụm hoặc tổng hợp dữ liệu.
Lợi ích: Giảm tải tính toán, xử lý nhanh hơn và nâng cao hiệu quả khai thác
dữ liệu. Các cân nhắc bổ sung: Chuẩn hóa dữ liệu, rờ i rạc hóa và tạo hệ
thố ng phân cấp khái niệm dướ i dạng các hình thứ c chuyển đổi dữ liệu để
chuẩn bị dữ liệu cho các thuật toán khai thác cụ thể.
2.4 Thu gọn và chuyển đổi dữ liệu:

Chuyển đổi dữ liệu:

Chuyển đổi dữ liệu là quá trình sửa đổi, tính toán,


phân tách và kế t hợp dữ liệu thô thành các mô hình
dữ liệu sẵn sàng phân tích. Mô hình dữ liệu là những
đại diện của thực tế có thể dễ dàng chuyển thành
chỉ số , báo cáo và trang tổng quan để giúp ngườ i
dùng hoàn thành các mục tiêu cụ thể.
01
Analytics – Phân tích để hỗ trợ các quyết định bắt đầu với
các chỉ số. Đôi khi, các chỉ số có thể được tính toán từ một
nguồn duy nhất và chỉ cần một lượng biến đổi nhỏ. Những
Chuyển
lần khác, cách duy nhất để tính toán số liệu là kết hợp dữ đổi chuẩn
liệu từ nhiều nguồn và sau đó tổng hợp lại.
bị dữ liệu

02 cho một
Máy học – Máy học là nhận dạng mẫu tự động. Các ứng
dụng kinh doanh của máy học bao gồm dự báo doanh thu
và lợi nhuận, mô hình dự đoán để hỗ trợ các quyết định loạt các
chính, hệ thống giới thiệu sản phẩm cho khách hàng và tất
cả các loại tự động hóa quy trình kinh doanh. trườ ng hợp
sử dụng,

03
Tuân thủ quy định – Lưu trữ không cần thiết thông tin nhận
dạng cá nhân (PII) khiến dữ liệu dễ bị lỗi bởi một loạt các vi bao gồ m:
phạm dữ liệu độc hại và ngẫu nhiên. Vi phạm dữ liệu làm
tổn hại đến quyền riêng tư của dữ liệu và tạo ra các vấn đề
nghiêm trọng cho cả bạn và khách hàng.
A. Sửa đổi

Việc sửa đổi dữ liệu phải đảm bảo


các giá trị chính xác và được tổ chứ c
theo cách hỗ trợ mục đích sử dụng
của chúng. Chuẩn hóa cơ sở dữ liệu
là một hình thứ c sửa đổi dữ liệu bằ ng
cách giảm mô hình dữ liệu về dạng
“bình thườ ng” mà không có dư thừ a
hoặc một-nhiề u giá trị trong một cột.
Chuẩn hóa làm giảm nhu cầ u lưu trữ
và làm cho mô hình dữ liệu ngắ n gọn
hơn và dễ đọc hơn đố i vớ i các nhà
phân tích. Tuy nhiên, đòi hỏi rấ t
nhiề u nghiên cứ u và tư duy phản
biện.
A. Sửa đổi
Làm sạch dữ liệu chuyển đổi các giá trị dữ liệu để tương thích vớ i định dạng.

Sửa đổi / chuyển đổi định dạng thay thế các ký tự không tương thích, chuyển đổi đơn vị,
chuyển đổi định dạng ngày tháng và thay đổi kiểu dữ liệu.
A. Sửa đổi
Việc tái cấu trúc khóa tạo ra các số nhận dạng chung ngoài các giá trị có ý nghĩa tích hợp, vì vậy chúng
có thể được sử dụng như các khóa cố định, duy nhất trên các bảng.

Deduplication có nghĩa là xác định và loại bỏ các bản ghi trùng lặp.
A. Sửa đổi
Xác thực dữ liệu đánh giá tính hợp lệ của một bản ghi bằ ng tính đầ y đủ của dữ liệu, thườ ng bằ ng cách loại
trừ các bản ghi không đầ y đủ.

Việc loại bỏ các cột không sử dụng và lặp lại cho phép bạn chọn các trườ ng bạn muố n sử dụng làm tính năng, tứ c là các
biế n đầ u vào cho mô hình dự đoán. Nó cũ ng có thể cải thiện hiệu suất và tính dễ đọc tổng thể của một mô hình.
B. Tin Học

Một trườ ng hợp sử dụng phổ biế n để tính toán các giá trị dữ
liệu mớ i từ dữ liệu hiện có là tính toán tỷ lệ, thố ng kê tóm tắ t
và các số liệu quan trọng khác. Một cách khác là biế n dữ liệu
phi cấ u trúc, chẳng hạn như từ các tệp phương tiện, thành dữ
liệu có cấ u trúc có thể được giải thích bằ ng thuật toán học
máy.

Derivation bao gồ m các phép tính cột chéo đơn giản.


B. Tin Học

Tóm tắ t bao gồ m việc sử


dụng các hàm tổng hợp để
tạo ra các giá trị tóm tắ t.
B. Tin Học

Xoay vòng biế n các giá trị


hàng thành cột và ngược
lại.
B. Tin Học
Sắ p xế p và lập chỉ mục tổ chứ c các bản ghi theo một số thứ tự để
cải thiện hiệu suấ t tìm kiế m
B. Tin Học
Chia tỷ lệ và chuẩn hóa đặt các con số trên một thang đo nhấ t quán, chẳng hạn như
các phân số của độ lệch chuẩn trong chuẩn hóa điểm Z. Điề u này cho phép các con
số khác nhau được so sánh vớ i nhau
B. Tin Học
Vectơ hóa chuyển đổi dữ liệu không phải số thành mảng số . Có rấ t nhiề u ứ ng dụng
học máy của nhữ ng chuyển đổi này, chẳng hạn như để xử lý ngôn ngữ tự nhiên (NLP)
và nhận dạng hình ảnh. Một ví dụ của vectơ hóa là chuyển đổi lờ i bài hát thành một
“túi từ ” hoặc một loạt các bản ghi bao gồ m số lượng từ .
C. Tách Biệ t

Việc phân tách bao gồ m việc


phân chia các giá trị thành các
phầ n cấ u thành của chúng. Các
giá trị dữ liệu thườ ng được kế t
hợp trong cùng một trườ ng vì
tính riêng trong thu thập dữ liệu,
nhưng có thể cầ n được tách
riêng để thực hiện phân tích chi
tiế t hơn. Việc tách một cột thành
nhiề u cột thườ ng được sử dụng
cho các trườ ng chứ a các giá trị
được phân tách hoặc để chuyển
đổi một cột có nhiề u giá trị phân
loại có thể có thành các biế n giả
để phân tích hồ i quy.
C. Tách Biệ t
Lọc loại trừ dữ liệu trên cơ sở các giá trị
hàng hoặc cột nhấ t định.
C. Tách Biệ t
Kế t hợp
Một nhiệm vụ phổ biế n và quan trọng trong phân tích là kế t hợp các bản ghi từ nhiề u bảng
khác nhau và dữ liệu từ nhiề u nguồ n để xây dựng bứ c tranh đầ y đủ về các hoạt động của
tổ chứ c. Tham gia là hành động liên kế t dữ liệu giữ a các bảng.
C. Tách Biệ t
Hợp nhấ t, còn được gọi là thêm hoặc kế t hợp, kế t hợp các bản ghi từ nhiề u bảng.
Bằ ng cách kế t hợp hai bảng sử dụng một cột chung, chẳng hạn như “email” trong ví
dụ bên dướ i, bạn có thể tập hợp các phầ n của phễ u bán hàng và tiế p thị. Đây cũ ng
là một ví dụ về tích hợp, bao gồ m việc đố i chiế u tên và giá trị cho cùng một phầ n tử
dữ liệu trên các bảng khác nhau.
Câu 1: Có bao nhiêu phương pháp tiề n xử lý dữ liệu được sử dụng trong khoa học
dữ liệu.

Câu 2: Tại sao phương pháp tiề n xử lý dữ liệu quan trọng đố i vớ i machine learning?
THANK YOU

You might also like