You are on page 1of 32

TRƯỜNG ĐẠI HỌC TÂY NGUYÊN

KHOA KHTN&CN

BÁO CÁO MÔN HỌC


KHAI PHÁ DỮ LIỆU

ĐỀ TÀI: TIỀN XỬ LÝ DỮ LIỆU

Sinh viên: Hoàng Ngọc Thành 18103080


Lớp: CNTT K18
Khóa: 2018 – 2022
Ngành: Công nghệ thông tin
Giảng viên hướng dẫn:
TS. Hồ Thị Phượng

Đắk Lắk, tháng 09 năm 2021

1
TRƯỜNG ĐẠI HỌC TÂY NGUYÊN
KHOA KHTN&CN

BÁO CÁO MÔN HỌC


KHAI PHÁ DỮ LIỆU

ĐỀ TÀI: TIỀN XỬ LÝ DỮ LIỆU

Sinh viên: Hoàng Ngọc Thành 18103080


Lớp: CNTT K18
Khóa: 2018 – 2022
Ngành: Công nghệ thông tin
Giảng viên hướng dẫn:
TS. Hồ Thị Phượng

Đắk Lắk, tháng 09 năm 2021

10
LỜI CẢM ƠN
Trong thời gian làm đồ án môn học, em đã nhận được nhiều sự giúp đỡ,
đóng góp ý kiến và chỉ bảo nhiệt tình của thầy cô và bạn bè.
Em xin gửi lời cảm ơn chân thành đến cô Ths. Nguyễn Đức Thắng, giảng
viên khoa Khoa học Tự nhiên và Công nghệ, thầy đã tận tình hướng dẫn, chỉ
bảo em trong suốt quá trình đồ án.
Em cũng xin chân thành cảm ơn các thầy cô giáo trong trường Đại học
Tây Nguyên nói chung và các thầy cô trong khoa Khoa học Tự nhiên và Công
nghệ nói riêng đã dạy dỗ cho chúng em những kiến thức về các môn học chuyên
ngành Công nghệ thông tin, giúp chúng em có được cơ sở lý thuyết vững vàng
và tạo điều kiện giúp đỡ chúng em trong suốt quá trình học tập.
Cuối cùng, em xin chân thành cảm ơn gia đình và bạn bè đã luông tạo
đièu kiện, quan tâm, giúp đỡ động viên em trong suốt quá trình học tập và hoàn
thành đồ án này.

Em xin chân thành cảm ơn!

11
MỤC LỤC
LỜI CẢM ƠN .................................................................................................... 11
DANH SÁCH CÁC KÝ TỰ VÀ CHỮ VIẾT TẮT ........................................ 14
CHƯƠNG 1: TỔNG QUAN VÊ TIỀN XỬ LÝ DỮ LIỆU ........................... 15
1.1 Giai đoạn tiền xử lý dữ liệu .................................................................... 15
CHƯƠNG 2: TẬP DỮ LIỆU ........................................................................... 16
2.1 Các kiểu của tập dữ liệu ......................................................................... 16
2.2 Các kiểu giá trị thuộc tính ...................................................................... 16
CHƯƠNG 3: CÁC NHIỆM VỤ CHÍNH TIỀN XỬ LÝ DỮ LIỆU ............. 18
3.1 Làm sạch dữ liệu (data cleaning)........................................................... 18
3.1.1 Định nghĩa .......................................................................................... 18
3.1.2 Xử lý dữ liệu bị thiếu ......................................................................... 18
3.1.3 Dữ liệu nhiễu...................................................................................... 19
3.2 Tích hợp dữ liệu (data integration) ....................................................... 21
3.2.1 Dư thừa dữ liệu .................................................................................. 22
3.3 Biến đổi dữ liệu........................................................................................ 25
3.3.1 Làm trơn dữ liệu (smoothing) ............................................................ 25
3.3.2 Kết hợp dữ liệu (aggregation) ............................................................ 25
3.3.3 Tổng quát hoá (generalization) .......................................................... 26
3.3.4 Chuẩn hoá .......................................................................................... 26
3.4 Giảm bớt dữ liệu (data reduction)......................................................... 27
3.4.1 Tổng hợp khối dữ liệu (data cube aggregation) ................................. 27
3.4.2 Thu giảm chiều (dimensionality reduction) ....................................... 29
3.4.3 Thu giảm lượng (numerosity reduction) ............................................ 33
3.4.4 Nén dữ liệu (data compression) ......................................................... 35
3.4.5 Rời rạc hoá dữ liệu ............................................................................. 36

12
DANH MỤC HÌNH ẢNH
Hình 1: Các kiểu tập dữ liệu ............................................................................... 16
Hình 2: Ví dụ minh hoạ phương pháp Binning .................................................. 20
Hình 3: Hình minh hoạ phương pháp hồi quy .................................................... 20
Hình 4: Hình minh hoạ cho phương pháp phân tích cụm ................................... 21
Hình 5: Hình minh hoạ cho Phương pháp tích hợp dữ liệu ................................ 24
Hình 6: Dữ liệu bán hàng của 1 đơn vị ............................................................... 28
Hình 7: Hình minh hoạ chọn một số thuộc tính.................................................. 30
Hình 8: Hình minh hoạ biến đổi wavelet ............................................................ 31
Hình 9: DWT cho nén ảnh .................................................................................. 32
Hình 10: Y1, Y2 là thành phần chính ban đầu được ánh xạ ............................... 33
Hình 11: Clustering ............................................................................................. 34
Hình 12: With or without Replacement .............................................................. 34
Hình 13; Cluster or Stratified Sampling ............................................................. 35
Hình 14: Nén dữ liệu ........................................................................................... 36

13
DANH SÁCH CÁC KÝ TỰ VÀ CHỮ VIẾT TẮT

Từ viết tắt Giải thích

CSDL Cơ sở dữ liệu

14
CHƯƠNG 1: TỔNG QUAN VÊ TIỀN XỬ LÝ DỮ LIỆU
1.1 Giai đoạn tiền xử lý dữ liệu
Là quá trinh xử lý dữ liệu thô nhằm cải thiện chất lợng của dữ liệu để dễ
dàng trong quá trình khai phá dữ liệu.
Các kỹ thuật datamining đều thực hiện trên các cơ sở dữ liệu, nguồn dữ liệu
lớn. Đó là kết quả của quá trình ghi chép liên tục thông tin phản ánh hoạt động
của con người, các quá trình tự nhiên…
Các dữ liệu lưu trữ hoàn toàn là dưới dạng thô, chưa sẵn sàng cho việc phát
hiện, khám phá thông tin ẩn chứa trong đó. Do vậy chúng cần phải qua giai đoạn
tiền xử lý dữ liệu trước khi tiến hành bất kỳ một phân tích nào.
Chất lượng dữ liệu (data quality):
✓ Tính chính xác (accuracy): giá trị được ghi nhận đúng với giá trị thực.
✓ Tính hiện hành (currency/timeliness): giá trị được ghi nhận không bị
lỗi thời.
✓ Tính toàn vẹn (completeness): tất cả các giá trị dành cho một
biến/thuộc tính đều được ghi nhận.
✓ Tính nhất quán (consistency): tất cả giá trị dữ liệu đều được biểu diễn
như nhau trong tất cả các trường hợp.
✓ Ví dụ: Tính chính xác: dữ liệu phải là chính xác với thực tế nếu không
khi khai phá dữ liệu kết quả sau khi khai phá sẽ không được chính
xác. Như là độ tuổi của một người phải chính xác nếu không kết quả
sẽ không đúng.
✓ Tính hiện hành: dữ liệu phải được cập nhập thường xuyên nhằm tránh
dữ liệu bị cũ và không còn chính xác tại thười điểm khai phá dữ liệu.
Như là những bộ luật cũ đã không còn được sử dụng thì phải cập nhập
những bộ luật mới nếu không thì kết quả cuối sẽ bị sai.
✓ Tính toàn vẹn: đữ liệu phải bao gồm tất cả các thuộc tính. Như là khi
khai phá dữ liệu con người thì phải có tất cả những thuộc tính như tên,
tuổi, giới tính, nơi cư trú …
✓ Tính nhất quán: số dư trên tài khoản không được giảm xuống dưới
100 đô la. Các lệnh DDL cung cấp các phương tiện để xác định các
ràng buộc đó. Các hệ thống cơ sở dữ liệu kiểm tra các ràng buộc này
mỗi khi cơ sở dữ liệu được cập nhật

15
CHƯƠNG 2: TẬP DỮ LIỆU
2.1 Các kiểu của tập dữ liệu
- Bảng ghi:
+ Các bảng ghi trong CSDL quan hệ.
+ Ma trận dữ liệu.
+ Dữ liệu giao dịch.
- Đồ thị:
+ World wide web.
+ Mạng thông tin, mạng xã hội.
+ Các cấu trúc phân tử.
- Có trật tự:
+ Dữ liệu không gian.
+ Dữ liệu thời gian.
+ Dữ liệu chuỗi.

Hình 1: Các kiểu tập dữ liệu


2.2 Các kiểu giá trị thuộc tính
- Kiểu định danh/chuỗi (norminal): không có thứ tự.
+ Lấy giá trị từ một tập không có thứ tự các giá trị (định danh)
+ Vd: Các thuộc tính như: Name, Profession, …
- Kiểu nhị phân (binary): là một trường hợp đặc biệt của kiểu định danh

16
+ Tập các giá trị chỉ gồm có 2 giá trị (Y/N, 0/1, T/F)
- Kiểu có thứ tự (ordinal):
+ Lấy giá trị từ một tập có thứ tự các giá trị
+ Vd1: Các thuộc tính lấy giá trị số như: Age, Height,…
+ Vd2: Thuộc tính Income lấy giá trị từ tập {low, medium, high}
- Xác định các thuộc tính (properties) tiêu biểu của dữ liệu về xu hướng
chính (central tendency) và sự phân tán (dispersion) của dữ liệu
+ Các độ đo về xu hướng chính: mean, median, mode, midrange.
+ Các độ đo về sự phân tán: quartiles, interquartile range (IQR),
variance.
- Làm nổi bật các giá trị dữ liệu nên được xem như nhiễu (noise) hoặc phần
tử biên (outliers), cung cấp cái nhìn tổng quan về dữ liệu.
- Ví dụ: Median: Giả sử chúng ta có các giá trị sau về lương (tính theo đơn
vị nghìn đôla) theo thứ tự tăng dần như sau: 30, 36, 47, 50, 52, 52, 56, 60,
63, 70, 70, 110. Tính median của các lương trên?
- Dữ liệu trên được sắp xếp tăng dần, giá trị middlemost là 52 và 56. Do vậy
median= (52+56)/2= 108/2= 54.
- Ví dụ: Mode, Midrange: Giả sử chúng ta có các giá trị sau về lương (tính
theo đơn vị nghìn đôla) theo thứ tự tăng dần như sau: 30, 36, 47, 50, 52,
52, 56, 60, 63, 70, 70, 110. Mode, Midrange của các lương trên?
- Mode là $52.000 và $70.000.
30.000+110.000
- Midrange = = 70.000
2

17
CHƯƠNG 3: CÁC NHIỆM VỤ CHÍNH TIỀN XỬ LÝ DỮ LIỆU
3.1 Làm sạch dữ liệu (data cleaning)
3.1.1 Định nghĩa
- Là quá trình xác định tính không chính xác, không đầy đủ/tính bất hợp lý
của dữ liệu, chỉnh sửa các sai sót và thiếu sót đƣợc phát hiện và nâng cao
chất lượng dữ liệu.
- Quá trình bao gồm:
+ Kiểm tra định dạng, tính đầy đủ, tính hợp lý, miền giới hạn.
+ Xem xét dữ liệu để xác định ngoại lai (địa lý, thống kê, thời gian hay
môi trường) hoặc các lỗi khác.
+ Đánh giá dữ liệu của các chuyên gia miền chủ đề.
- Kết quả:
+ Loại bỏ, lập tài liệu và kiểm tra liên tiếp và hiệu chỉnh đúng bản ghi
nghi ngờ.
+ Kiểm tra xác nhận có thể đƣợc tiến hành nhằm đạt tính phù hợp với
các chuẩn áp dụng, các quy luật, và quy tắc
3.1.2 Xử lý dữ liệu bị thiếu
- Dữ liệu bị thiếu là dữ liệu không có sẵn khi cần được sử dụng.
- Nguyên nhân gây ra việc thiếu dữ liệu là khách quan (không tồn tại lúc
nhập liệu hoặc sự cố), chủ quan (tác nhân con người).
- Giải pháp:
+ Bỏ qua các bộ: điều này thường được thực hiện khi thông tin nhãn
dữ liệu bị mất. Phương pháp này không phải lúc nào cũng hiệu quả
trừ khi các bộ có chứa một số thuộc tính không thực sự quan trọng.
+ Điền vào các giá trị thiếu bằng tay: phương pháp này thường tốn thời
gian và có thể không khả thi cho một tập dữ liệu nguồn lớn với nhiều
giá trị bị thiếu.
+ Sử dụng các giá trị quy ước để điền vào cho giá trị thiếu: Thay thế
các giá trị thuộc tính thiếu bởi cùng một hằng số quy ước, chẳng hạn
như một nhãn ghi giá trị “Không biết” hoặc “∞”. Tuy vậy điều này
cũng có thể khiến cho chương trình khai phá dữ liệu hiểu nhầm trong
một số trường hợp và đưa ra các kết luận không hợp lý.

18
+ Sử dụng các thuộc tính có nghĩa là để điền vào cho giá trị thiếu: Ví
dụ, ta biết thu nhập bình quân đầu người của một khu vực là
800.000đ, giá trị này có thể được dùng thể thay thế cho giá trị thu
nhập bị thiếu của khách hàng trong khu vực đó.
+ Sử dụng các giá trị của các bộ cùng thể loại để thay thế cho giá trị
thiếu: Ví dụ, nếu khách hàng A thuộc cùng nhóm phân loại theo rủi
ro tín dụng với một khách hàng B khác trong khi đó khách hàng này
có thông tin thu nhập bình quân. Ta có thể sử dụng giá trị đó để điền
vào cho giá trị thu nhập bình quân của khách hàng A.
+ Sử dụng giá trị có tỉ lệ xuất hiện cao để điền vào cho các giá trị thiếu:
Điều này có thể xác định bằng phương pháp hồi quy, các công cụ
suy luận dựa trên lý thuyết Bayesian hay cây quyết định.
3.1.3 Dữ liệu nhiễu
- Nhiễu dữ liệu là một lỗi ngẫu nhiên hay do biến động của các biến trong
quá trình thực hiện, hoặc sự ghi chép nhầm lẫn không được kiểm soát…
- Binning: Làm mịn một giá trị dữ liệu được xác định thông qua các giá trị
xung quanh nó.
+ Ví dụ, các giá trị giá cả được sắp xếp trước sau đó phân thành các
dải khác nhau có cùng kích thước 3 (tức mỗi “Bin” chứa 3 giá trị).
+ Khi làm mịn trung vị trong mỗi bin, các giá trị sẽ được thay thế bằng
giá trị trung bình các giá trị có trong bin
+ Làm mịn biên: các giá trị nhỏ nhất và lớn nhất được xác định và
dùng làm danh giới của bin. Các giá trị còn lại của bin sẽ được thay
thế bằng một trong hai giá trị trên tùy thuộc vào độ lệch giữa giá trị
ban đầu với các giá trị biên đó
+ Ví dụ, bin 1 có các giá trị 4, 8, 15 với giá trị trung bình là 9. Do vậy
nếu làm mịn trung vị các giá trị ban đầu sẽ được thay thế bằng 9.
Còn nếu làm mịn biên giá trị 8 ở gần giá trị 4 hơn nên nó được thay
thế bằng 4.

19
Hình 2: Ví dụ minh hoạ phương pháp Binning
- Hồi quy: Phương pháp thường dùng là hồi quy tuyến tính, để tìm ra được
một mối quan hệ tốt nhất giữa hai thuộc tính (hoặc các biến), từ đó một
thuộc tính có thể dùng để dự đoán thuộc tính khác
+ Hồi quy tuyến tính đa điểm là một sự mở rộng của phương pháp trên,
trong đó có nhiều hơn hai thuộc tính được xem xét, và các dữ liệu
tính ra thuộc về một miền đa chiều.

Hình 3: Hình minh hoạ phương pháp hồi quy


- Phân tích cụm (cluster analysis): Các giá trị tương tự nhau được tổ chức
thành các nhóm hay “cụm" trực quan. Các giá trị rơi ra bên ngoài các nhóm
này sẽ được xem xét để làm mịn

20
Hình 4: Hình minh hoạ cho phương pháp phân tích cụm
- Xử lý dữ liệu không nhất quán:
+ Dữ liệu được ghi nhận khác nhau cho cùng một đối tượng/thực thể
→ discrepancies from inconsistent data representations.
▪ Ví dụ: 2004/12/25 và 25/12/2004.
+ Dữ liệu được ghi nhận không phản ánh đúng ngữ nghĩa cho các đối
tượng/thực thể.
▪ Ràng buộc khóa ngoại.
+ Nguyên nhân:
▪ Sự không nhất quán trong các qui ước đặt tên hay mã dữ liệu.
▪ Định dạng không nhất quán của các vùng nhập liệu.
▪ Thiết bị ghi nhận dữ liệu, …
+ Giải pháp:
▪ Tận dụng siêu dữ liệu, ràng buộc dữ liệu, sự kiểm tra của nhà
phân tích dữ liệu cho việc nhận diện.
▪ Điều chỉnh dữ liệu không nhất quán bằng tay.
▪ Các giải pháp biến đổi/chuẩn hóa dữ liệu tự động
3.2 Tích hợp dữ liệu (data integration)
- Trong nhiều bài toán phân tích, chúng ta phải đồng ý rằng nguồn dữ liệu
dùng để phân tích không thống nhất. Để có thể phân tích được, các dữ liệu
này cần phải được tích hợp, kết hợp thành một kho dữ liệu thống nhất.

21
- Về dạng thức, các nguồn dữ liệu có thể được lưu trữ rất đa dạng từ: các cơ
sở dữ liệu phổ dụng, các tập tin flatfile, các dữ liệu khối ….
- Vấn đề đặt ra là làm thế nào có thể tích hợp chúng mà vẫn đảm bảo tính
tương đương của thông tin giữa các nguồn.
- Ví dụ: làm thế nào mà người phân tích dữ liệu hoặc máy tính chắc chắn
rằng thuộc tính id của khách hàng trong một cơ sở dữ liệu A và số hiệu cust
trong một flat-file là các thuộc tính giống nhau về tính chất?
- Việc tích hợp luôn cần các thông tin diễn tả tính chất của mỗi thuộc tính
(siêu dữ liệu) như: tên, ý nghĩa, kiểu dữ liệu, miền xác định, các quy tắc xử
lý giá trị rỗng, bằng không …. Các siêu dữ liệu sẽ được sử dụng để giúp
chuyển đổi các dữ liệu. Do vậy bước này cũng liên quan đến quá trình làm
sạch dữ liệu
3.2.1 Dư thừa dữ liệu
- Là hiện tượng giá trị của một thuộc tính có thể được dẫn ra/tính từ
một/nhiều thuộc tính khác, vấn đề trùng lắp dữ liệu.
- Nguyên nhân:
+ tổ chức dữ liệu kém, không nhất quán trong việc đặt tên chiều/thuộc
tính.
+ Một thuộc tính có nhiều tên khác nhau ở các CSDL khác nhau.
+ Một thuộc tính: thuộc tính - nguồn gốc trong CSDL khác, chẳng hạn,
doanh thu hàng năm.
- Phát hiện dư thừa: phân tích tương quan (correlation analysis).
+ Dựa trên dữ liệu hiện có, kiểm tra khả năng dẫn ra một thuộc tính B
từ thuộc tính A.
+ Đối với các thuộc tính rời rạc (categorical/discrete attributes), đánh
giá tương quan giữa hai thuộc tính với phép kiểm thử chi-square (2)
+ Đối với các thuộc tính số (numerical attributes), đánh giá tương quan
giữa hai thuộc tính với các hệ số tương quan bằng cách sử dụng
correlation coefficient và covariance.
+ Ví dụ: Giả sử có một nhóm 1500 người được khảo sát. Giới tính của
họ được ghi nhận sau đó họ sẽ được hỏi về thể loại sách yêu thích
thuộc hai dạng hư cấu và viễn tưởng. Như vậy ở đây có hai thuộc
tính “giới tính” và “sở thích đọc”. Số lần xuất hiện (observed
22
frequencies) của các trường hợp được cho trong bảng sau: (các số
trong ngoặc là expected frequencies)
Nam Nữ Tổng
Hư cấu 250 (90) 200 (360) 450
Viễn tưởng 50 (210) 1000 (840) 1050
Tổng 300 1200 1500
+ Vậy chúng ta tính được :
𝑐𝑜𝑢𝑛𝑡(𝑚𝑎𝑙𝑒) 𝑋 𝑥𝑜𝑢𝑛𝑡(𝑓𝑖𝑐𝑡𝑖𝑜𝑛
e11 = = 90
𝑛
(250−90)2 (50−210)2 (200−360)2 (1000−840)2
X2 = + + +
90 210 360 840
= 284.44 + 121.90 + 71.11 + 30.48 = 507.93
+ Từ bảng dữ liệu cho thấy bậc tự do (r-1)(c-1) = (2-1)(2- 1) = 1. Với
1 bậc tự do, giá trị cần để bác bỏ giả thiết này ở mức 0.001 là 10.828.
Và với giá trị tính được như trên 507.93 > 10.828 nên chúng ta có
thể bát bỏ giả thuyết sở thích đọc là độc lập với giới tính. Và kết luận
rằng: hai thuộc tính này có một quan hệ tương quan khá mạnh trong
nhóm người được khảo sát.
- Phân tích tương quan giữa hai thuộc tính số A và B (Covariance):
+ Covariance tương tự với correlation
∑𝑛
𝑖=1 𝑎𝑖
E(A) = 𝐴̅ =
𝑛
𝑛
𝛴𝑖=1 𝑏𝑖
E(B) = 𝐵̅ =
𝑛
+ Covariance giữa A và B được định nghĩa như sau:
𝑛
𝛴𝑖=1 (𝑎𝑖 − 𝐴̅)(𝑏𝑖 − 𝐵̅)
cov(𝐴, 𝐵) = 𝐸((𝐴 − 𝐴̅)(𝐵 − 𝐵̅)) =
𝑛
cov(𝐴,𝐵)
Correlation coefficient: 𝑟𝐴,𝐵 =
𝜎1 𝜎𝐵

+ Ví dụ Covariance:
𝑛
𝛴𝑖=1 (𝑎𝑖 − 𝐴̅)(𝑏𝑖 − 𝐵̅)
cov(𝐴, 𝐵) = 𝐸((𝐴 − 𝐴̅)(𝐵 − 𝐵̅)) =
𝑛
Có thể được đơn giản hoá còn :
cov(𝐴, 𝐵) = 𝐸(𝐴 ∗ 𝐵) − 𝐴̅𝐵̅
+ Giả sử hai cổ phiếu A và B có giá trị như sau trong một tuần: (2, 5),
(3, 8), (5, 10), (4, 11), (6, 14)
23
+ Nếu các cổ phiếu bị ảnh hưởng bởi xu hướng cùng ngành, giá của
chúng sẽ tăng hay giảm cùng nhau
E(A) = (2 + 3 + 5 + 4 + 6)/5 = 20/5 = 4
E(B) = (5 + 8 + 10 + 11 +14)/5 = 48/5 = 9.6
Cov(A,B) = (2 x 5 + 3 x 8 + 5 x 10 + 4 x 11 +6 x 14)/5 – 4 x 9.6 = 4
Do đó, A và B cùng tăng vì Cov (A, B)> 0.

Hình 5: Hình minh hoạ cho Phương pháp tích hợp dữ liệu
- Vấn đề mâu thuẫn giá trị dữ liệu
+ Cho cùng một thực thể thật, các giá trị thuộc tính đến từ các nguồn
dữ liệu khác nhau có thể khác nhau về cách biểu diễn
(representation), đo lường (scaling), và mã hóa (encoding).
▪ Ví dụ: “2004/12/25” với “25/12/2004”.
+ Scaling: thuộc tính weight trong các hệ thống đo khác nhau với các
đơn vị đo khác nhau, thuộc tính price trong các hệ thống tiền tệ khác
nhau với các đơn vị tiền tệ khác nhau.
+ Encoding: “ yes ” và “ no ” với “1” và “0”.

24
3.3 Biến đổi dữ liệu
- Các dữ liệu sẽ được biến đổi sang các dạng phù hợp cho việc khai phá dữ
liệu. Các phương pháp thường thấy như:
+ Làm mịn: Phương pháp này loại bỏ các trường hợp nhiễu khỏi dữ
liệu ví dụ như các phương pháp binning, hồi quy, nhóm cụm.
+ Tổng hợp: trong đó tổng hợp hoặc tập hợp các hành động được áp
dụng trên dữ liệu. Ví dụ thấy rằng doanh số bán hàng hàng ngày có
thể được tổng hợp để tính toán hàng tháng và hàng năm. Bước này
thường được sử dụng để xây dựng một khối dữ liệu cho việc phân
tích.
+ Khái quát hóa dữ liệu: trong đó các dữ liệu mức thấp hoặc thô được
thay thế bằng các khái niệm ở mức cao hơn thông qua kiến trúc khái
niệm.
+ Ví dụ, các thuộc tính phân loại ví dụ như “Đường phố” có thể khái
quát hóa lên mức cao hơn thành “Thành phố” hay “Quốc gia”.
Tương tự như vậy các giá trị số, như tuổi có thể được ánh xạ lên khái
niệm cao hơn như “Trẻ”, “Trung niên”, “Có tuổi”
+ Chuẩn hóa: trong đó các dữ liệu của thuộc tính được quy về các
khoảng giá trị nhỏ hơn ví dụ như từ -1.0 đến 1.0, hoặc từ 0.0 đến 1.0.
+ Xác định thêm thuộc tính, trong đó các thuộc tính mới sẽ được thêm
vào nguồn dữ liệu để giúp cho quá trình khai phá.
3.3.1 Làm trơn dữ liệu (smoothing)
- Các phương pháp binning (bin means, bin medians, bin boundaries).
- Hồi quy.
- Các kỹ thuật gom cụm (phân tích phần tử biên).
- Các phương pháp rời rạc hóa dữ liệu (các phân cấp ý niệm).
➔ Loại bỏ/giảm thiểu nhiễu khỏi dữ liệu.
3.3.2 Kết hợp dữ liệu (aggregation)
- Các tác vụ kết hợp/tóm tắt dữ liệu
- Chuyển dữ liệu ở mức chi tiết này sang dữ liệu ở mức kém chi tiết hơn.
- Hỗ trợ việc phân tích dữ liệu ở nhiều độ mịn thời gian khác nhau.
➔ Thu giảm dữ liệu (data reduction).

25
3.3.3 Tổng quát hoá (generalization)
- Chuyển đổi dữ liệu cấp thấp/nguyên tố/thô sang các khái niệm ở mức cao
hơn thông qua các phân cấp ý niệm.
➔ Thu giảm dữ liệu (data reduction).
3.3.4 Chuẩn hoá
- Một thuộc tính được chuẩn hóa bằng cách ánh xạ một cách có tỉ lệ dữ liệu
về một khoảng xác định ví dụ như 0.0 đến 1.0.
- Chuẩn hóa là một phần hữu ích của thuật toán phân lớp trong mạng noron,
hoặc thuật toán tính toán độ lệch sử dụng trong việc phân lớp hay nhóm
cụm các phần tử liền kề. Chúng ta sẽ xem xét ba phương pháp:
+ Chuẩn hóa Min-Max:
▪ Thực hiện một biến đổi tuyến tính trên dữ liệu ban đầu. Giả
sử rằng minA và maxA là giá trị tối thiểu và tối đa của thuộc
tính A. Chuẩn hóa min-max sẽ ánh xạ giá trị v của thuộc tính
A thành v’ trong khoảng [new_minA, new_maxA] bằng cách
tính toán :
𝑣 − 𝑚𝑖𝑛𝐴
𝑣′ = (𝑛𝑒𝑤_𝑚𝑎𝑥𝐴 − 𝑛𝑒𝑤_𝑚𝑖𝑛𝐵 ) + 𝑛𝑒𝑤_𝑚𝑖𝑛𝐴
𝑚𝑎𝑥𝐴 − 𝑚𝑖𝑛𝐴
▪ Ví dụ: Giả sử giá trị nhỏ nhất và lớn nhất cho thuộc tính “thu
nhập bình quân” là 500.000 và 4.500.000. Chúng ta muốn ánh
xạ giá trị 2.500.000 về khoảng [0.0, 1.0] sử dụng chuẩn hóa
min-max. Giá trị mới thu được là
2.500.000 − 500.000 2.000.000
𝑣′ = (1.0 − 0) + 0 = = 0.5
4.500.00 − 500.000 4.000.000
+ Chuẩn hóa z-score:
▪ Với phương pháp này, các giá trị của một thuộc tính A được
chuẩn hóa dựa vào độ lệch tiêu chuẩn và trung bình của A.
Một giá trị v của thuộc tính A được ánh xạ thành v’ như sau:

𝑣 − 𝐴̅
𝑣 =
𝜎𝐴
▪ Với ví dụ phía trên: Giả sử thu nhập bình quân có độ lệch tiêu
chuẩn và trung bình là: 500.000 và 1.000.000. Sử dụng
phương pháp z-score thì giá trị 2.500.000 được ánh xạ thành

26
2.5000.000 − 1.000.000 1.500.000
𝑣′ = = =3
500.000 500.000
+ Chuẩn hóa thay đổi số chữ số phần thập phân (decimal scale):
▪ Phương pháp này sẽ di chuyển dấu phân cách phần thập phân
của các giá trị của thuộc tính A.
▪ Số chữ số sau dấu phân cách phần thập phân được xác định
phụ thuộc vào giá trị tuyệt đối lớn nhất có thể có của thuộc
tính A. Khi đó giá trị v sẽ được ánh xạ thành v’ bằng cách
tính:
𝑣
𝑣′ = 𝑗
10
▪ Trong đó j là giá trị nguyên nhỏ nhất thỏa mãn Max(|v’|) < 1
▪ Ví dụ: Giả sử rằng các giá trị của thuộc tính A được ghi nhận
nằm trong khoảng -968 đến 917. Giá trị tuyệt đối lớn nhất của
miền là 986. Để thực hiện chuẩn hóa theo phương pháp ánh
xạ này, trước đó chúng ta mang các giá trị chia cho 1.000 (j =
3). Như vậy giá trị -986 sẽ chuyển thành -0.986 và 917 được
chuyển thành 0.917
3.4 Giảm bớt dữ liệu (data reduction)
- Việc khai phá dữ liệu luôn được tiến hành trên các kho dữ liệu khổng lồ và
phức tạp. Các kỹ thuật khai phá khi áp dụng trên chúng luôn tốn thời gian
cũng như tài nguyên của máy tính. Do vậy đòi hỏi chúng cần được thu giảm
trước khi áp dụng các kỹ thuật khai phá
➔ Tập dữ liệu được biến đổi đảm bảo các toàn vẹn, nhưng nhỏ/ít hơn nhiều
về số lượng so với ban đầu.
3.4.1 Tổng hợp khối dữ liệu (data cube aggregation)
- Xem xét dữ liệu bán hàng của một đơn vị, các dữ liệu đó được tổ chức báo
cáo theo hàng quý cho các năm từ 2008 đến 2010. Tuy nhiên việc khai phá
dữ liệu lại quan tâm hơn đến các báo cáo bán hàng theo năm chứ không
phải theo từng quý. Do đó các dữ liệu nên được tổng hợp thành báo cáo
tổng về tình hình bán hàng theo năm hơn là theo quý

27
Hình 6: Dữ liệu bán hàng của 1 đơn vị
- Phân cấp khái niệm có thể tồn tại ở mỗi thuộc tính, nó cho phép phân tích
dữ liệu ở nhiều mức trừu tượng.
- Ví dụ: phân cấp chi nhánh cho phép các chi nhánh được nhóm lại theo từng
vùng dựa trên địa chỉ. Khối dữ liệu cho phép truy cập nhanh đến các dữ
liệu đã tính toán, tổng hợp do vậy nó khá phù hợp với các quá trình khái
phá.
- Các khối dữ liệu được tạo ở mức trừu tượng thấp thường được gọi là
cuboid. Các cuboid tương ứng với một tập thực thể nào đó ví dụ như người
bán hàng, khách hàng. Các khối này cung cấp nhiều thông tin hữu dụng
cho quá trình phân tích. Khối dữ liệu ở mức trừu tượng cao gọi là apex
cuboid, trong hình trên thể hiện dữ liệu bán hàng cho cả 3 năm, tất cả các
loại mặt hàng và các chi nhánh. Khối dữ liệu được tạo từ nhiều mức trừu

28
tượng thường được gọi là cuboids, do vậy khối dữ liệu thường được gọi
bằng tên khác là lưới cuboids.
3.4.2 Thu giảm chiều (dimensionality reduction)
1. Chọn một số thuộc tính:
- Nguồn dữ liệu dùng phân tích có thể chứa hàng trăm thuộc tính, rất nhiều
trong số đó có thể không cần cho việc phân tích hoặc chúng là dư thừa.
- Ví dụ: nếu nhiệm vụ phân tích chỉ liên quan đến việc phân loại khách hàng
xem họ có hoặc không muốn mua một đĩa nhạc mới hay không. Khi đó
thuộc tính điện thoại của khách hàng là không cần thiết khi so với các thuộc
tính như độ tuổi, sở thích âm nhạc.
- Mặc dù vậy việc lựa chọn thuộc tính nào cần quan tâm là một việc khó
khăn và mất thời gian đặt biệt khi các đặc tính của dữ liệu là không rõ ràng.
Giữ các thuộc tính cần, bỏ các thuộc tính không hữu ích cũng sẽ có thể gây
nhầm lẫn, và sai lệch kết quả của các thuật toán khai phá dữ liệu.
- Phương pháp này rút gọn kích thước dữ liệu bằng cách loại bỏ các thuộc
tính không hữu ích hoặc dư thừa (hoặc loại bỏ các chiều). Mục đích chính
là tìm ra tập thuộc tính nhỏ nhất sao cho khi áp dụng các phương pháp khai
phá dữ liệu thì kết quả thu được là gần sát nhất với kết quả khi sử dụng tất
cả các thuộc tính.
- Vậy làm cách nào để tìm ra một tập thuộc tính con đủ tốt từ tập thuộc tính
ban đầu. Với N thuộc tính chúng ta sẽ có 2n tập thuộc tính con. Việc phát
sinh và xem xét hết các tập này là khá tốn công sức cũng như tài nguyên,
đặc biệt khi N và số các lớp dữ liệu tăng lên.
- Do vậy cần có các phương pháp khác, một trong số đó là phương pháp tìm
kiếm tham lam, nó sẽ duyệt qua không gian thuộc tính và tìm kiếm các lựa
chọn tốt nhất vào thời điểm xét.
- Các kỹ thuật lựa chọn thường dùng như:
+ Lựa chọn tăng dần: Xuất phát từ một tập rỗng các thuộc tính, các
thuộc tính tốt nhất mỗi khi xác định được sẽ được thêm vào tập này.
Lặp lại bước trên cho đến khi không thêm được thuộc tính nào nữa.
+ Loại bớt: Xuất phát từ tập có đầy đủ các thuộc tính. Ở mỗi bước loại
ra các thuộc tính tồi nhất.

29
+ Kết hợp giữa phương pháp loại bớt và lựa chọn tăng dần bằng cách
tại mỗi bước ngoài việc lựa chọn thêm các thuộc tính tốt nhất đưa
vào tập thì cũng đồng thời loại bỏ đi các thuộc tính tồi nhất khỏi tập
đang xét.
+ Cây quyết định: Khi sử dụng, cây được xây dựng từ nguồn dữ liệu
ban đầu. Tất cả các thuộc tính không xuất hiện trên cây được coi là
không hữu ích. Tập các thuộc tính có trên cây sẽ là tập thuộc tính rút
gọn.
- Việc lựa chọn ra thuộc tính tốt (xấu) được xác định thông qua các phép
kiểm thống kê, trong đó giả sử rằng thuộc tính đang xét là độc lập với các
thuộc tính khác hoặc phương pháp đánh giá thuộc tính sử dụng độ đo thông
tin thường được dùng trong việc xây dựng cây quyết định phân lớp

Hình 7: Hình minh hoạ chọn một số thuộc tính


2. Biến đổi wavelet (wavelet transforms)
- Discrete wavelet transform (DWT) là kỹ thuật xử lý tín hiệu dạng linear
mà khi áp dụng với vector dữ liệu X, chuyển vector đó thành 1 vector khác
dạng số X’: wavelet coefficients. Hai vector này có cùng độ dài.
- Khi áp dụng kỹ thuật này để thu giảm dữ liệu, chúng ta giả sử rằng mỗi bộ
như là 1 vector dữ liệu n chiều là X = (x1 , x2 , … , x3 ).
- Dữ liệu được chuyển đổi thành dạng sóng có thể bị cắt bỏ bớt.

30
- Phép tính xấp xỉ nén của dữ liệu: chỉ lưu một mảnh nhỏ các hệ số sóng lớn
nhất của wavelet coefficients.
- DWT thì tương tự như Discrete Fourier transform (DFT), nhưng nén tổn
thất tốt hơn, có nghĩa là cùng số lượng coefficient được giữ lại trong DWT
và DFT của 1 vector cho sẵn, thì DWT sẽ cho ra kết quả xấp xỉ chính xác
so với dữ liệu ban đầu hơn.

Hình 8: Hình minh hoạ biến đổi wavelet


- Do vậy, đối với một phép xấp xỉ tương đương, DWT yêu cầu nhiều bộ nhớ
hơn so với DFT.
- Chuyển đổi Wavelet có thể được áp dụng trong không gian đa chiều chẳng
hạn như khối dữ liệu (data cube).
- Chuyển đổi Wavelet cho kết quả tốt đối với dữ liệu thưa thớt hay bị lệch
và với dữ liệu với các thuộc tính có thứ tự.
- Chuyển đổi Wavelet có nhiều ứng dụng trong thực tế: nén ảnh, computer
vision,, phân tích dữ liệu chuỗi thời gian, làm sạch dữ liệu.

31
Hình 9: DWT cho nén ảnh
3. Phân tích thành phần chính (Principal Component Analysis)
- Cho N vector dữ liệu k-chiều, tìm c (<= k) vector trực giao tốt nhất để trình
diễn dữ liệu.
+ Tập dữ liệu gốc được rút gọn thành N vector dữ liệu c chiều: c thành
phần chính (chiều được rút gọn).
- Mỗi vector dữ liệu là tổ hợp tuyến tính của các vector thành phần chính.
- Chỉ áp dụng cho dữ liệu số.
- Dùng khi số chiều vector lớn.
- Có thể sử dụng với các dữ liệu thưa thớt hay bị lệch.
- Có thể áp dụng cho các thuộc tính có thứ tự và không thứ tự.
- So với chuyển đổi wavelet, PCA có khuynh hướng tốt hơn đối với dữ liệu
thưa thớt, trong khi đó chuyển đổi wavelet thích hợp hơn đối với dữ liệu
đa chiều.

32
Hình 10: Y1, Y2 là thành phần chính ban đầu được ánh xạ
3.4.3 Thu giảm lượng (numerosity reduction)
- Các kỹ thuật giảm lượng dữ liệu bằng các dạng biểu diễn dữ liệu thay thế.
- Các phương pháp có thông số (parametric): mô hình ước lượng dữ liệu 
các thông số được lưu trữ thay cho dữ liệu thật.
+ Hồi quy
- Các phương pháp phi thông số (nonparametric): lưu trữ các biểu diễn thu
giảm của dữ liệu
→Histogram, Clustering, Sampling
+ Histogram:
▪ Chia dữ liệu thành các buckets và lưu giá trị trung bình(tổng)
vào mỗi bucket.
▪ Partitioning rules:
• Equal-width: equal bucket range.
• Equal-frequency (or equal-depth).
+ Clustering:
▪ Phân chia dữ liệu vào các nhóm và lưu biểu diễn của nhóm.

33
Hình 11: Clustering
+ Sampling (With or without Replacement):
▪ Dùng tập ngẫu nhiên nhỏ hơn để thay tập dữ liệu lớn.
▪ Phương pháp lấy mẫu ngẫu nhiên không thay thế (SRSWOR).
▪ Phương pháp lấy mẫu ngẫu nhiên có thay thế (SRSWR).
▪ Phương pháp lấy mẫu theo nhóm/cấp (Cluster or Stratified
Sampling).

Hình 12: With or without Replacement


+ Sampling (Cluster or Stratified Sampling):

34
Hình 13; Cluster or Stratified Sampling
3.4.4 Nén dữ liệu (data compression)
- Nén xâu văn bản:
+ Tồn tại lý thuyết phong phú và thuật toán điển hình.
+ Không tốn thất điển hình.
+ Nhưng chỉ các thao tác hạn hẹp mà không mở rộng.
- Nén Audio/video:
+ Nén tổn thất điển hình, với tinh lọc cải tiến.
+ Vài trường hợp mảnh tín hiệu nhỏ được tái hợp không cần dựng toàn
bộ.
- Dãy thời gian mà không là audio:
+ Ngắn điển hình và thây đổi chậm theo thời gian.

35
Hình 14: Nén dữ liệu
3.4.5 Rời rạc hoá dữ liệu
- Thu giảm số trị của một thuộc tính liên tục (continuous attribute) bằng cách
chia miền trị thành các khoảng (interval) có dán nhãn. Các nhãn này được
dùng thay cho các giá trị thực.
- Tiến hành theo hai cách: trên xuống (top down) và dưới lên (bottom up),
có giám sát (supervised) và không có giám sát (unsupervised).
- Tạo phân hoạch phân cấp/đa phân giải (multiresolution) trên các trị thuộc
tính → phân cấp ý niệm cho thuộc tính số (numerical attribute).
- Rời rạc hóa dữ liệu cho các thuộc tính số (numeric attributes).
+ Các phân cấp ý niệm được dùng để thu giảm dữ liệu bằng việc thu
thập và thay thế các ý niệm cấp thấp bởi các ý niệm cấp cao.
+ Các phân cấp ý niệm được xây dựng tự động dựa trên việc phân tích
phân bố dữ liệu.
+ Chi tiết của thuộc tính sẽ bị mất.
+ Dữ liệu đạt được có ý nghĩa và dễ được diễn dịch hơn, đòi hỏi ít
không gian lưu trữ hơn.
- Các phương pháp rời rạc hóa dữ liệu cho các thuộc tính số:
+ Binning.
+ Histogram analysis.

36
+ Interval merging by 2 analysis.
+ Cluster analysis.
+ Entropy-based discretization.
+ Discretization by “natural/intuitive partitioning”.

37
TÀI LIỆU THAM KHẢO

[Tiếng Việt]
[1] http://scholar.vimaru.edu.vn/sites/default/files/thinhnv/files/dm_-
_chapter_2_-_preprocessing_0.pdf
[2] https://tailieu.vn/doc/bai-giang-chu-de-hien-dai-ve-khai-pha-du-lieu-khai-
pha-qua-trinh-danh-cho-nghien-cuu-sinh-tien-sy--1795069.html
[3]

38
Ý KIẾN CỦA NGƯỜI HƯỚNG DẪN

Nhận xét:

.............................................................................................................................
.............................................................................................................................
.............................................................................................................................
.............................................................................................................................
.............................................................................................................................
.............................................................................................................................
.............................................................................................................................

Đối với khóa luận tốt nghiệp (Đánh dấu và ký tên vào ý kiến chọn lựa
sau):

Ký tên

Đồng ý thông qua báo cáo

Không đồng ý thông qua báo cáo

Buôn Ma Thuột, ngày...tháng...năm 2021

NGƯỜI HƯỚNG DẪN

(Ký và ghi rõ họ tên)

39
Họ và tên sinh viên: Hoàng Ngọc Thành
Cán bộ hướng dẫn (ghi rõ học hàm học vị): Thạc sĩ Hồ Thị Phượng

Tên đồ án: TIỀN XỬ LÝ DỮ LIỆU

Điểm:

Đăk Lăk, ngày...tháng...năm 2021

SINH VIÊN

(Ký và ghi rõ họ tên)

XÁC NHẬN

CÁN BỘ HƯỚNG DẪN CHỦ TỊCH HỘI ĐỒNG

(Ký và ghi rõ họ tên) (Ký và ghi rõ họ tên)

40

You might also like